CN113762042A - 视频识别方法、装置、设备以及存储介质 - Google Patents
视频识别方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113762042A CN113762042A CN202110482296.5A CN202110482296A CN113762042A CN 113762042 A CN113762042 A CN 113762042A CN 202110482296 A CN202110482296 A CN 202110482296A CN 113762042 A CN113762042 A CN 113762042A
- Authority
- CN
- China
- Prior art keywords
- video
- numbers
- feature
- video frame
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开了一种视频识别方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,能够对多个视频帧特征进行编号,得到的多个特征编号就能够表示对应的视频帧特征。在编号过程中,结合了视频帧特征之间的相似度,也即是若两个视频帧特征的编号相同,也就能够表示两个视频帧特征之间的相似度较高,进一步就能够表示两个视频帧特征分别对应的两个视频帧之间的相似度较高。采用视频帧特征的编号来确定视频的第一重复度信息,就快速反映视频中视频片段的重复情况。当第一重复信息符合目标条件时,就能够将视频确定为目标类型的视频。整个过程均由计算机设备来实现,从而提高了视频类型确定的效率。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种视频识别方法、装置、设备以及存储介质。
背景技术
随着网络技术的发展,越来越多的用户会通过观看视频来进行放松。一些视频播放平台提供视频分享的功能,用户能够将自己制作的视频上传至视频播放平台,从而将视频与其他用户分享。在向其他用户展现视频之前,往往需要对视频进行审核。在用户上传的视频中,存在一些视频质量较差的循环视频,需要在视频审核过程中识别并将循环视频删除,其中,循环视频是指存在大量重复视频片段的视频,比如原始视频只有10秒,最终要输出60秒的视频,那么该60秒的视频也即是10秒视频重复6次后得到的。
相关技术中,往往是由审核人员对用户上传的视频进行人工审核,从而识别出循环视频。但是,在面对大量视频的情况下,人工审核的效率较低。
发明内容
本申请实施例提供了一种视频识别方法、装置、设备以及存储介质,可以提升视频识别效果。所述技术方案如下:
一方面,提供了一种视频识别方法,所述方法包括:
获取视频的多个视频帧特征,所述视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项;
对所述多个视频帧特征进行编号,得到多个特征编号,所述多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同;
基于所述多个特征编号,确定所述视频的第一重复度信息,所述第一重复度信息用于指示所述视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项;
响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频。
在一些实施例中,所述响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频包括下述任一项:
响应于所述视频中任一视频片段的画面重复比例大于或等于画面重复比例阈值,将所述视频确定为所述目标类型的视频,所述画面重复比例阈值与所述任一视频片段的类型相关联;
响应于所述视频中任一视频片段的音频重复比例大于或等于音频重复比例阈值,将所述视频确定为所述目标类型的视频,所述音频重复比例阈值与所述任一视频片段的类型相关联。
在一些实施例中,所述响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频之前,所述方法还包括:
将所述多个视频片段输入视频分类模型,通过所述视频分类模型对所述多个视频片段进行分类,输出所述多个视频片段的类型。
在一些实施例中,所述响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频之后,所述方法还包括下述任一项:
将所述视频中画面重复比例大于或等于所述画面重复比例阈值的视频片段的总时长与所述视频的时长相除,得到所述视频的画面重复比例;
将所述视频中音频重复比例大于或等于所述音频重复比例阈值的视频片段的总时长与所述视频的时长相除,得到所述视频的音频重复比例。
一方面,提供了一种视频识别装置,所述装置包括:
视频帧特征获取单元,用于获取视频的多个视频帧特征,所述视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项;
编号单元,用于对所述多个视频帧特征进行编号,得到多个特征编号,所述多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同;
第一重复度信息确定单元,用于基于所述多个特征编号,确定所述视频的第一重复度信息,所述第一重复度信息用于指示所述视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项;
视频类型确定单元,用于响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频。
在一些实施例中,所述视频帧特征获取单元,用于执行下述至少一项:
将所述视频的多个视频帧输入视频分类模型,通过所述视频分类模型的特征提取层,对所述多个视频帧的画面进行特征提取,得到多个所述画面特征;
将所述视频的多个视频帧的音频输入音频特征提取模型,通过所述音频特征提取模型的特征提取层,对所述多个视频帧的音频进行特征提取,得到多个所述音频特征。
在一些实施例中,所述编号单元,用于将每个所述视频帧特征对应的视频帧在所述视频中的排列顺序,确定为每个所述视频帧特征对应的初始编号;
基于每两个所述视频帧特征之间的相似度以及多个所述初始编号,获取所述多个特征编号。
在一些实施例中,所述编号单元,用于基于每两个所述视频帧特征之间的相似度,对多个所述初始编号中的部分编号进行调整,得到所述多个特征编号,所述部分编号是指目标视频帧特征对应的编号,所述目标视频帧特征为任两个所述视频帧特征中,编号顺序靠后的视频帧特征。
在一些实施例中,所述编号单元,用于响应于任两个所述视频帧特征之间的相似度符合所述目标相似度条件,将所述任两个所述视频帧特征中的目标视频帧特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号。
在一些实施例中,所述装置还包括:
去噪单元,用于对调整后的多个初始编号进行去噪处理。
在一些实施例中,所述去噪单元,用于在所述调整后的多个初始编号中确定多个噪点编号;在所述调整后的多个初始编号中,基于编号顺序与每个所述噪点编号邻近的至少两个初始编号,对每个所述噪点编号进行调整。
在一些实施例中,所述去噪单元,用于响应于第一编号与第二编号之间的差值大于第一差值阈值,且所述第一编号与第三编号之间的差值小于或等于第二差值阈值,将所述第一编号确定为一个所述噪点编号;
其中,所述第一编号为所述调整后的多个初始编号中的任一个初始编号;所述第二编号为所述调整后的多个初始编号中,编号顺序在所述第一编号之前的初始编号;所述第三编号为所述调整后的多个初始编号中,编号顺序在所述第一编号之后的初始编号。
在一些实施例中,所述去噪单元,用于将每个所述噪点编号调整为目标编号,所述目标编号为第二编号和第三编号的平均值;
其中,所述第二编号为所述调整后的多个初始编号中,编号顺序在所述噪点编号之前的初始编号;所述第三编号为所述调整后的多个初始编号中,编号顺序在所述噪点编号之后的初始编号。
在一些实施例中,所述第一重复度信息确定单元,用于对于所述视频中的第一视频片段和第二视频片段,获取多个第一特征编号和多个第二特征编号中相同编号的数量,所述第一特征编号为所述第一视频片段中视频帧对应的特征编号,所述第二特征编号为所述第二视频片段中视频帧对应的特征编号;
基于所述相同编号的数量,确定所述第一视频片段和所述第二视频片段的第二重复度信息,所述第二重复度信息用于指示所述第一视频片段中视频帧和所述第二视频片段中视频帧的画面重复情况和音频重复情况中的至少一项;
基于多个所述第二重复度信息,确定所述视频的第一重复度信息。
在一些实施例中,所述第一重复度信息确定单元,用于将所述相同编号的数量与目标数量相除,得到所述第一视频片段中视频帧和所述第二视频片段中视频帧的画面重复比例或音频重复比例,所述目标数量为所述第一视频片段或所述第二视频片段对应的特征编号的数量,所述画面重复比例用于表示所述第一视频片段中视频帧和所述第二视频片段中视频帧的画面重复情况,所述音频重复比例用于表示所述第一视频片段中视频帧和所述第二视频片段中视频帧的音频重复情况。
在一些实施例中,所述装置还包括:
视频片段划分单元,用于从所述多个特征编号中确定多个片段分割编号,每个所述片段分割编号小于前一个特征编号,且每个所述片段分割编号与所述前一个特征编号之间的编号差值大于目标差值,所述目标差值与编号顺序在所述片段分割编号之前的多个特征编号之间的平均差值呈正比;
基于所述多个片段分割编号,将所述视频划分为所述多个视频片段。
在一些实施例中,所述视频类型确定单元,用于执行下述任一项:
响应于所述视频中任一视频片段的画面重复比例大于或等于画面重复比例阈值,将所述视频确定为所述目标类型的视频,所述画面重复比例阈值与所述任一视频片段的类型相关联;
响应于所述视频中任一视频片段的音频重复比例大于或等于音频重复比例阈值,将所述视频确定为所述目标类型的视频,所述音频重复比例阈值与所述任一视频片段的类型相关联。
在一些实施例中,所述装置还包括:
分类单元,用于将所述多个视频片段输入视频分类模型,通过所述视频分类模型对所述多个视频片段进行分类,输出所述多个视频片段的类型。
在一些实施例中,所述装置还包括下述任一个单元:
画面重复比例确定单元,用于将所述视频中画面重复比例大于或等于所述画面重复比例阈值的视频片段的总时长与所述视频的时长相除,得到所述视频的画面重复比例;
音频重复比例确定单元,用于将所述视频中音频重复比例大于或等于所述音频重复比例阈值的视频片段的总时长与所述视频的时长相除,得到所述视频的音频重复比例。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述视频识别方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述视频识别方法。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述视频识别方法。
通过本申请实施例提供的技术方案,能够对多个视频帧特征进行编号,得到的多个特征编号能够表示对应的视频帧特征。在编号过程中,结合了视频帧特征之间的相似度,也即是若两个视频帧特征的编号相同,也就能够表示两个视频帧特征之间的相似度较高,进一步就能够表示两个视频帧特征分别对应的两个视频帧之间的相似度较高。采用视频帧特征的编号来确定视频的第一重复度信息,就快速反映视频中视频片段的重复情况。当第一重复信息符合目标条件时,就能够将视频确定为目标类型的视频。整个过程均由计算机设备来实现,无需进行人工检测,从而提高了视频类型确定的效率。
附图说明
为例更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种视频识别方法的实施环境的示意图;
图2是本申请实施例提供的一种卷积层的结构示意图;
图3是本申请实施例提供的一种视频识别方法的流程图;
图4是本申请实施例提供的一种视频识别方法的流程图;
图5是本申请实施例提供的一种噪点编码的示意图;
图6是本申请实施例提供的一种重复视频片段的示意图;
图7是本申请实施例提供的一种重复视频片段的示意图;
图8是本申请实施例提供的一种视频识别方法的流程图;
图9是本申请实施例提供的一种视频识别方法的流程图;
图10是本申请实施例提供的一种视频识别装置的结构示意图;
图11是本申请实施例提供的一种终端的结构示意图;
图12是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个参照人脸图像是指两个或两个以上的参照人脸图像。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
归一化处理:将取值范围不同的数列映射到(0,1)区间上,便于数据的处理。在一些情况下,归一化后的数值可以直接被实现为概率。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应的,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
图像识别:类别级别的识别,不考虑对象的特定实例,仅考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集image-net中的识别任务,识别出某个物体是1000个类别中的哪一个。
本申请实施例提供的计算机设备可以实现为终端或者服务器,下面对由终端和服务器构成的实施环境进行介绍。
图1是本申请实施例提供的一种视频识别方法的实施环境示意图,参见图1,该实施环境中可以包括第一终端110、第二终端120和服务器140。第一终端110通过无线网络或有线网络与服务器140相连,第二终端120通过无线网络或有线网络与服务器140相连。
在一些实施例中,第一终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备等,但并不局限于此。第一终端110安装和运行有支持视频上传、视频播放的应用程序。
在一些实施例中,第二终端120可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备等,但并不局限于此。第二终端120安装和运行有支持视频审核的应用程序。
在一些实施例中,服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140能够执行本申请实施例提供的视频识别方法,对第一终端110上传的视频进行识别,将识别结果发送给第二终端120。
在一些实施例中,第一终端110泛指多个第一终端中的一个,本申请实施例仅以第一终端110来举例说明。第二终端120泛指多个第二终端中的一个,本申请实施例仅以第二终端120来举例说明。该第一终端和第二终端可以是同一个终端,也可以是不同的终端。
本领域用户可以知晓,上述第一终端110、第二终端120或服务器140的数量可以更多或更少。比如上述第一终端仅为一个,或者上述第一终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他第一终端。本申请实施例对第一终端和第二终端的数量和设备类型不加以限定。
在一些实施例中,本申请实施例提供的技术方案能够应用在区块链系统上,也即是上述第一终端110、第二终端120和服务器140均作为区块链系统的节点,区块链系统的一些基础概念如下。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在本申请实施例中,可以由上述实施环境中的服务器140作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请实施例提供的技术方案,比如由上述实施环境中的服务器140将第一终端110上传的视频发送给第二终端120,由第二终端120来实施本申请实施例提供的技术方案,本申请实施例对此不作限定。下面将以执行主体为服务器为例进行说明:
在本申请实施例中,服务器可以通过视频分类模型来对视频帧的画面进行特征提取,得到每个视频帧的画面特征,通过音频特征提取模型来对视频帧的音频进行特征提取,得到每个视频帧的音频特征。另外,服务器还能够通过视频分类模型对视频进行分类,或者对视频中的视频片段进行分类。
为了对本申请实施例提供的技术方案进行更加清楚的说明,下面将分别对上述视频分类模型和音频特征提取模型的结构进行说明。
在一些实施例中,视频分类模型包括特征提取层以及分类层,其中,特征提取层包括多个卷积层,每个卷积层包括至少一个模块,每个模块包括至少一个卷积核。在一些实施例中,每个模块包括多个尺寸不同的卷积核。在一些实施例中,特征提取层还包括池化层。分类层包括池化层和全连接层。
比如,图2是本申请实施例示出的特征提取模型的一个卷积层201的结构示意图,卷积层201包括三个模块,在一些实施例中,第一个模块202包括64个尺寸为1×1的卷积核,第二个模块203包括64个尺寸为3×3卷积核,第三个模块204包括256个尺寸为1×1的卷积核。在一些实施例中,卷积层201还包括一个残差模块205,残差模块205用于对卷积和处理得到的特征图进行残差处理,也即是将输入卷积层201的特征图或视频帧与经过卷积层201进行特征提取后得到的特征图相加,得到残差处理后的特征图,残差处理后的特征图也就能够最大程度的保留信息。
在一些实施例中,视频分类模型为ResNet-101(残差网络101)模型,101表示模型的层数。ResNet-101中特征提取层的结构参见表1。表中的输出尺寸表示经过对应卷积层处理后输出的特征图的尺寸。构成中的N×N表示卷积核的尺寸,N×N后的数字表示卷积核的数量。
表1
在一些实施例中,ResNet-101中分类层的结构参见表2。表2中的K表示类别的数量,K为正整数。
表2
层名 | 输出尺寸 | 层类型 |
池化层 | 1×2048 | 最大池化层 |
全连接层 | 1×K | 全连接层 |
需要说明的是,本申请实施例提供的音频特征提取模型的结构与上述视频分类模型的特征提取层的结构属于同一发明构思,在此不再赘述。
介绍完本申请实施例提供的视频分类模型和音频特征提取模型的结构之后,下面对本申请实施例提供的视频分类模型的训练方法进行说明,视频分类模型的训练方法包括:数据准备过程和模型训练过程。
在数据准备过程中,服务器可以从不同内容类型的视频中截取视频画面,并基于截取的视频画面对应的视频内容类型,为截取的视频画面添加视频类型标签,将添加视频标签的视频画面作为视频分类模型的样本图像。其中,视频内容类型可以包括但不限于篮球进球、足球进球、车祸、纯文字、人脸及特写、生活场景、其他(包括非进球瞬间的播音员画面)等,基于这样的样本训练得到的视频分类模型,可以基于输入的视频帧确定其对应的视频内容类型。
在模型训练过程中,服务器将样本图像输入待训练的视频分类模型,由视频分类模型通过特征提取层来对样本图像进行特征提取,也即是通过特征提取层的多个卷积层对样本图像进行卷积处理,得到样本图像的画面特征。服务器通过视频分类模型,将样本图像的画面特征输入分类层,通过分类层对该画面特征进行池化处理和全连接处理,得到该样本图像对应的预测标签,该预测标签用于指示该样本图像对应的视频内容类型。服务器根据预测标签与该样本图像的视频类型标签之间的差异,对视频分类模型的模型参数进行调整。在一些实施例中,服务器采用基于SGD(Stochastic Gradient Descent)的梯度下降法求解视频分类模型的卷积层的卷积核参数w和偏置参数b。在每次迭代过程中,服务器计算预测结果误差(预测标签与实际的视频类型标签之间的误差)并反向传播到视频分类模型,确定梯度并更新视频分类模型的参数。比如,将视频分类模型的所有参数都设为需要学习状态,训练时视频分类模型对输入的一张样本图像进行前向计算得到预测结果(预测标签),把预测结果与实际的视频类型标签对比计算模型的损失值,把损失值回传到视频分类模型中通过随机梯度下降法更新网络权重参数,从而实现一次权重优化。
需要说明的是,在上述说明过程中,是以对视频分类模型的特征提取层和分类层均进行训练为例进行的,在其他可能的实施方式中,也可以采用预训练的特征提取层来进行特征提取,无需重新训练特征提取层。比如,可以采用在Image-Net数据集上预训练的ResNet101的特征提取层来进行使用。若直接采用预训练好的特征提取层,那么在对视频分类模型进行训练的过程中,可以将特征提取层的参数固定不变,只调整分类层的参数即可。
另外,除了采用上述结构的视频分类模型之外,还能够采用其他结构的视频分类模型来对视频片段和视频进行分类,本申请实施例对此不做限定。
还有,上述说明中是以采用服务器训练视频分类模型为例进行说明的,在其他可能的实现方式中,上述视频分类模型也可以由终端进行训练,比如由实施环境中的终端120进行训练,本申请实施例对此不做限定。
需要注意的是,在下述对本申请提供的技术方案进行说明的过程中,是以服务器作为执行主体为例进行的。在其他可能的实施方式中,也可以由终端作为执行主体来执行本申请提供的技术方案,本申请实施例对于执行主体的类型不做限定。
图3是本申请实施例提供的一种视频识别方法的流程图,参见图3,方法包括:
301、服务器获取视频的多个视频帧特征,视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项。
在一些实施例中,画面特征为画面Embedding,音频特征为音频Embedding。
302、服务器对多个视频帧特征进行编号,得到多个特征编号,多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同。
在一些实施例中,每个特征编号能够标识一个视频帧特征,服务器通过特征编号,就能够快速确定对应的视频帧特征。
303、服务器基于多个特征编号,确定视频的第一重复度信息,第一重复度信息用于指示视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项。
在一些实施例中,能够采用画面重复比例来表示画面重复情况,能够采用音频重复比例来表示音频重复情况。
304、响应于视频的第一重复度信息符合第一目标条件,服务器将视频确定为目标类型的视频。
在一些实施例中,目标类型的视频也即是循环视频。
通过本申请实施例提供的技术方案,能够对多个视频帧特征进行编号,得到的多个特征编号能够表示对应的视频帧特征。在编号过程中,结合了视频帧特征之间的相似度,也即是若两个视频帧特征的编号相同,也就能够表示两个视频帧特征之间的相似度较高,进一步就能够表示两个视频帧特征分别对应的两个视频帧之间的相似度较高。采用视频帧特征的编号来确定视频的第一重复度信息,就快速反映视频中视频片段的重复情况。当第一重复信息符合目标条件时,就能够将视频确定为目标类型的视频。整个过程均由计算机设备来实现,无需进行人工检测,从而提高了视频类型确定的效率。
图4是本申请实施例提供的一种视频识别方法的流程图,参见图4,方法包括:
401、服务器获取视频。
在一些实施例中,该视频为用户上传的视频,或者为服务器对应维护的数据库中存储的视频,本申请实施例对此不做限定。
在一些实施例中,若该视频为用户上传的视频,那么用户能够通过终端向服务器发送视频,服务器获取该视频。
举例来说,终端上运行有视频拍摄应用,用户能够通过视频拍摄应用来进行视频拍摄。拍摄完成之后,用户能够通过终端将拍摄完成的视频上传给服务器,服务器获取该视频。在一些实施例中,该视频拍摄应用还具有视频编辑功能,用户通过视频拍摄应用拍摄视频之后,还能够通过视频拍摄应用来对拍摄的视频进行编辑,将编辑后的视频发送给服务器,以使服务器获取视频。在一些实施例中,用户使用的终端也即是上述实施环境中的第一终端110。
在一些实施例中,若该视频为服务器对应维护的数据库中存储的视频,那么服务器能够从对应维护的数据库中获取该视频。
402、服务器获取视频的多个视频帧特征,视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项。
在一些实施例中,服务器将视频的多个视频帧输入视频分类模型,通过视频分类模型的特征提取层,对多个视频帧的画面进行特征提取,得到多个画面特征,该多个画面特征也即是多个视频帧特征。在一些实施例中,对多个视频帧的画面进行特征提取的过程,也被称为进行嵌入编码的过程,得到的画面特征也被称为画面Embedding(嵌入),每个画面Embedding为一个向量。也即是,通过一个画面Embedding,就能够表示对应视频帧的画面特征。
举例来说,服务器将视频的多个视频帧输入视频分类模型,通过视频分类模型的特征提取层,对多个视频帧分别进行卷积处理,得到多个画面特征。比如,服务器将多个视频帧输入视频分类模型之后,采用如图2所示的卷积层201中的多个卷积核,对每个视频帧进行多次卷积处理,得到每个视频帧的画面特征。
在一些实施例中,服务器将视频的多个视频帧的音频输入音频特征提取模型,通过音频特征提取模型的特征提取层,对多个视频帧的音频进行特征提取,得到多个音频特征,该多个音频特征也即是多个视频帧特征。在一些实施例中,对多个视频帧的音频进行特征提取的过程,也被称为进行嵌入编码的过程,得到的音频特征也被称为音频Embedding,每个音频Embedding为一个向量。也即是,通过一个音频Embedding,就能够表示对应视频帧的音频特征。
举例来说,服务器从视频中获取音频信息,根据每个视频帧的播放时间对该音频信息进行切分,得到每个视频帧的音频。服务器对每个视频帧的音频进行时频转换,得到每个视频帧的音频对应的频域信息。服务器将多个频域信息输入音频特征提取模型,通过音频特征提取模型的特征提取层,对每个频域信息进行特征提取,得到每个频域信息的音频特征。其中,服务器对音频进行时频转换的方法包括傅里叶变换以及小波变换等,本申请实施例对此不做限定。音频特征提取模型对频域信息进行特征提取的过程,也即是对频域信息进行卷积处理的过程。
在一些实施例中,服务器将多个视频帧输入视频分类模型,通过视频分类模型的特征提取层,对多个视频帧的画面进行特征提取,得到多个画面特征。服务器将视频的多个视频帧的音频输入音频特征提取模型,通过音频特征提取模型的特征提取层,对多个视频帧的音频进行特征提取,得到多个音频特征。该多个画面特征和多个音频特征也即是该多个视频帧特征。
403、服务器对多个视频帧特征进行编号,得到多个特征编号,多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同。
在一些实施例中,服务器将每个视频帧特征对应的视频帧在视频中的排列顺序,确定为每个视频帧特征对应的初始编号。服务器基于每两个视频帧特征之间的相似度以及多个初始编号,获取多个特征编号。
在这种实施方式下,服务器能够视频帧在视频中的排列顺序,直接对每个视频帧特征进行编号,后续采用编号就能够快速确定对应的视频帧特征,效率较高。
为了对上述实施方式进行更加清楚的说明,下面将分为两个部分对上述实施方式进行说明。
第一部分、对服务器将每个视频帧特征对应的视频帧在视频中的排列顺序,确定为每个视频帧特征对应的初始编号的方法进行说明。
在一些实施例中,若视频包括N个视频帧,那么服务器根据N个视频帧在视频中的排列顺序,将N个视频帧的视频帧特征分别对应的初始编号设置为1、2、3……N,其中,N为正整数。若一个视频帧在视频中的排列顺序为5,那么该视频帧的初始编号也就为5。在一些实施例中,服务器将多个初始编号存储在一个初始编号序列中,初始编号序列中初始编号的排列顺序也即是初始编号对应视频帧在视频中的排列顺序,服务器后续能够直接从初始编号序列中获取对应的初始编号。
第二部分、对服务器基于每两个视频帧特征之间的相似度以及多个初始编号,获取多个特征编号的方法进行说明。
在一些实施例中,服务器基于每两个视频帧特征之间的相似度,对多个初始编号中的部分编号进行调整,得到多个特征编号,部分编号是指目标视频帧特征对应的编号,目标视频帧特征为任两个视频帧特征中,编号顺序靠后的视频帧特征。
举例来说,服务器获取每两个视频帧特征之间的相似度。响应于任两个视频帧特征之间的相似度符合目标相似度条件,服务器将任两个视频帧特征中的视频帧特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号。服务器将调整后的多个初始编号,确定为多个特征编号。
在一些实施例中,服务器能够采用欧式距离或余弦相似度来表示两个视频帧特征之间的相似度。
比如,若服务器采用欧式距离来表示两个视频帧特征之间的相似度,采用Embedding向量来表示视频帧特征,那么服务器能够获取每两个视频帧特征之间的欧式距离,欧式距离也即是直线距离,欧氏距离也就能够表示两个视频帧特征之间的相似度。欧式距离越小,表示两个视频帧特征之间的直线距离越小,两个视频帧特征也就越接近;欧式距离越大,表示两个视频帧特征之间的支线距离越大,两个视频帧特征也就差异越大。在一些实施例中,服务器将多个视频帧中每两个视频帧特征之间的欧式距离存储在编号距离表中,编号距离表的形式参见表3。
表3
视频帧特征1 | 视频帧特征2 | 视频帧特征3 | |
视频帧特征1 | 0 | 1 | 2 |
视频帧特征2 | 2 | 0 | 3 |
视频帧特征3 | 1 | 2 | 0 |
编号距离表中的数值表示两个视频帧特征之间的欧式距离。比如,视频帧特征1和视频帧特征2之间的欧式距离为1,视频帧特征1和视频帧特征3之间的欧式距离为2。通过设置编号距离表,服务器能够快速获取任两个视频帧特征之间的欧氏距离。需要说明的是,上述是以欧式距离为整数为例进行说明的,在其他可能的实施方式中,服务器也能够采用浮点数,比如0.6来表示欧式距离,本申请实施例对此不做限定。
响应于任两个视频帧特征之间的欧式距离小于距离阈值,也即是两个视频帧特征之间的相似度符合目标相似度条件,服务器将目标视频帧特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号。比如,若一个视频帧特征为(1,2),该视频帧特征(1,2)对应的初始编号为2,另一个视频帧特征为(1,3),该视频帧特征(1,3)对应的初始编号为8。服务器获取该两个视频帧特征之间的欧式距离d=(1-1)2+(2-3)2=1。若距离阈值为2,那么服务器能够将视频帧特征(1,3)对应的初始编号8,调整为视频帧特征为(1,2)对应的初始编号2。也即是,调整之后,视频帧特征(1,2)对应的初始编号2不变,视频帧特征为(1,3)对应的初始编号变为2。需要说明的是,上述是以视频帧特征尺寸为1×2为例进行说明的,在其他可能的实施方式中,视频特征的尺寸为1×Q,其中,Q为正整数,比如为128、256、512、1024或者2048等,本申请实施例对此不做限定。
比如,若服务器采用余弦相似度来表示两个视频帧特征之间的相似度,采用Embedding向量来表示视频帧特征,那么服务器能够获取每两个视频帧特征之间的余弦相似度,余弦相似度越小,表示两个视频帧特征之间的相似度越小,两个视频帧特征也就越接近。余弦相似度越大,表示两个视频帧特征之间的相似度越大,两个视频帧特征也就差异越大。对于任两个视频帧特征来说,服务器获取该两个视频帧特征之间的余弦相似度。响应于该两个视频帧特征之间的余弦相似度大于或等于相似度阈值,也即是两个视频帧特征之间的相似度符合目标相似度条件,服务器将目标视频特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号。
下面通过一个例子对上述第二部分的内容进行说明。
在一些实施例中,服务器设置一个编号更新表L来记录多个初始编号的调整情况,该编号更新表L的长度与多个初始编号的数量相同,编号更新表L中的每个数字对应于第一个初始编号的调整情况。在一些实施例中,服务器能够将编号更新表L中的数量全部初始化为0,服务器对一个初始编号进行调整之后,就能够将编号更新表L中与该初始编号对应的数值调整为1。对于序号为i的初始编号来说,若该序号为i的初始编号对应的视频帧特征,与序号为j的初始编号对应的视频帧特征之间的相似度符合目标相似度条件,且序号为j的初始编号为编号顺序在前的初始编号,那么服务器能够将序号为i的初始编号调整为序号为j的初始编号,i和j均为正整数。
在一些实施例中,服务器通过上述第二部分的方式对多个初始编号进行调整之后,还能够执行下述任一个步骤。
步骤A、服务器对调整后的多个初始编号进行去噪处理。其中,去噪处理也可以被称为平滑处理,服务器对调整后的多个初始编号进行去噪处理的过程,也即是从调整后的多个初始编号中删除噪点编号的过程。
举例来说,服务器在调整后的多个初始编号中确定多个噪点编号。服务器在调整后的多个初始编号中,基于编号顺序与每个噪点编号邻近的至少两个初始编号,对每个噪点编号进行调整。
为了对上述举例中描述的技术方案进行更加清楚的说明,下面将分为两个部分对上述举例进行说明。
第一部分、对服务器在调整后的多个初始编号中确定多个噪点编号的方法进行说明。
在一些实施例中,响应于第一编号与第二编号之间的差值大于第一差值阈值,且第一编号与第三编号之间的差值小于或等于第二差值阈值,服务器将第一编号确定为一个噪点编号。其中,第一编号为调整后的多个初始编号中的任一个初始编号。第二编号为调整后的多个初始编号中,编号顺序在第一编号之前的初始编号。第三编号为调整后的多个初始编号中,编号顺序在第一编号之后的初始编号。在一些实施例中,噪点编号也被称为毛刺。参见图5,501、502以及503也即是三个毛刺,图5中的横坐标为视频帧的序号,表示视频帧在视频中的排列顺序,纵坐标为视频帧对应的编号。
举例来说,若第一编号为调整后的多个初始编号中的第i个编号,第二编号为调整后的多个初始编号中的第i-1个编号,第三编号为调整后的多个初始编号中的第i+a个编号。在一些实施例中,0<a≤3,i和a均为正整数。响应于第一编号与第二编号之间的差值大于第一差值阈值,也即是|Ci-1-Ci|>th1,第一编号与第三编号之间的差值小于或等于第二差值阈值,也即是|Ci+a-Ci|≤th2,其中,Ci为第一编号,Ci-1为第二编号,Ci+a为第三编号,th1为第一差值阈值,th2为第二差值阈值。将第一编号确定为一个早点编号。
下面对服务器确定a的方法进行说明,服务器确定a的过程,也即是确定第三编号的过程。
在一些实施例中,服务器在调整后的多个初始编号中,确定第一编号与多个编号顺序在第一编号之后的初始编号之间的差值,将该差值最小的初始编号确定为第三编号。比如,服务器确定第一编号与3个编号顺序在第一编号之后的初始编号之间的差值,还是以第一编号为多个初始编号中的第i个编号为例,那么这3个编号也就分别为多个初始编号中的第i+1个编号、第i+2个编号以及第i+3个编号。服务器分别确定第i个编号与第i+1个编号、第i+2个编号以及第i+3个编号之间的三个差值,比如为1、2和3。服务器能够将第i+1个编号确定为第三编号。
第二部分、对服务器在调整后的多个初始编号中,基于编号顺序与每个噪点编号邻近的至少两个初始编号,对每个噪点编号进行调整的方法进行说明。
在一些实施例中,服务器将每个噪点编号调整为目标编号,目标编号为第二编号和第三编号的平均值。其中,第二编号为调整后的多个初始编号中,编号顺序在噪点编号之前的初始编号。第三编号为调整后的多个初始编号中,编号顺序在噪点编号之后的初始编号。
举例来说,若第一编号为21,第二编号为4,第三编号为6,那么服务器能够将第一编号调整为目标编号,也即是(4+6)/2=5。
步骤B、服务器对调整后的多个初始编号进行连续化处理,得到多个特征编号。
举例来说,服务器从调整后的多个初始编号中获取多个关键编号,关键编号也即是多个初始编号中各不相同的初始编号,一个关键编号可能对应于多个初始编号。服务器对多个关键编号进行连续化处理,将多个关键编号调整为连续的多个关键编号。服务器将每个关键编号对应的初始编号调整为与该关键编号相同。
服务器基于每两个视频帧特征之间的相似度对多个初始编号进行调整之后,可能存在调整后的多个输出编号不连续的情况,比如,视频包括3个视频帧,那么基于每两个视频帧特征之间的相似度对多个初始编号进行调整之前,3个视频帧的视频帧特分别对应的初始编号为1、2和3,服务器基于每两个视频帧特征之间的相似度对多个初始编号进行调整之后,3个视频帧的视频帧特征分别对应的初始编号可能会变为113,也即是第二个视频帧特征的初始编号被调整为1。在这种情况下,得到的初始编号序列113也就变得不连续。服务器从该初始编号序列113中获取两个关键编号1和3,对两个关键编号进行连续化处理,得到处理后的两个关键编号1和2。服务器将初始编号序列113中与3对应的初始编号调整为,得到特征编号112。
404、服务器将视频划分为多个视频片段。
在一些实施例中,服务器从多个特征编号中确定多个片段分割编号,每个片段分割编号小于前一个特征编号,且每个片段分割编号与前一个特征编号之间的编号差值大于目标差值,目标差值与编号顺序在片段分割编号之前的多个特征编号之间的平均差值呈正比。服务器基于多个片段分割编号,将视频划分为多个视频片段。
为了对上述实施方式进行更加清楚的说明,下面将分为两个部分对上述实施方式进行说明。
第一部分、对服务器从多个特征编号中确定片段分割边编号的方法进行说明。
在一些实施例中,服务器确定多个特征编号中,每两个相邻的特征编号之间的差值。响应于多个特征编号中任一特征编号小于前一个特征编号,服务器确定该特征编号对应的目标差值。响应于该特征编号与前一个特征编号之间的差值大于该目标差值,服务器将该特征编号确定为一个片段分割编号。在一些实施例中,服务器通过一个片段分割编号列表,将确定出的多个片段分割编号进行存储,以便于后续的查询。在一些实施例中,片段分割编号也被称为下降点,片段分割编号列表也被称为drop list(下降列表),后续服务器通过片段分割列表就能够快速获取片段分割编号,从而将视频划分为多个视频片段。
下面对上述实施方式中,服务器确定该特征编号对应的目标差值的方法进行说明。
在一些实施例中,服务器确定该特征编号之前的T个特征编号分别与前一个特征编号之间的差值,T为正整数。也即是,若该特征编号为第i个特征编号,记作Ti。若T=3,那么服务器分别确定与该特征编号相邻的三个特征编号Ti-1、Ti-2以及Ti-3分别与前一个特征编号之间的差值,也即是Ti-1与Ti-2之间的差值、Ti-2与Ti-3之间的差值以及Ti-3与Ti-4之间的差值,比如为1、2和3。服务器确定这3个差值的平均差值2。在一些实施例中,服务器将T与平均差值相乘,得到目标差值。当然,在上述说明过程中,是以T=3为例进行说明的,在其他可能的实施方式中,T也以为其他正整数,比如为5,本申请实施例对此不做限定。
在一些实施例中,服务器将片段分割编号与前一个特征编号之间的差值调整为0,即编号大幅度下降点的波动值不作为参考,避免后续遇到新的下降点导致用于参考的平均值偏高。
第二部分、对服务器基于多个片段分割编号,将视频划分为多个视频片段的方法进行说明。
在一些实施例中,服务器将第一个特征编号对应的视频帧与第一个片段分割编号对应的视频帧之间的多个视频帧确定为第一个视频片段,将最后一个特征编号对应的视频帧与最后一个片段分割编号对应的视频帧之间的多个视频帧确定为最后一个视频片段,服务器将每两个特征编号对应的视频帧之间的多个视频帧确定为一个视频片段。比如,参见图5,504为一个下降点,该下降点对应的视频帧的序号为270。通过该下降点504,服务器将500个视频帧划分为两个视频片段【0,270】和【270,500】。
405、服务器基于多个特征编号,确定视频的第一重复度信息,第一重复度信息用于指示视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项。
在一些实施例中,对于视频中的第一视频片段和第二视频片段,服务器获取多个第一特征编号和多个第二特征编号中相同编号的数量,第一特征编号为第一视频片段中视频帧对应的特征编号,第二特征编号为第二视频片段中视频帧对应的特征编号。服务器基于相同编号的数量,确定第一视频片段和第二视频片段的第二重复度信息,第二重复度信息用于指示第一视频片段中视频帧和第二视频片段中视频帧的画面重复情况和音频重复情况中的至少一项。服务器基于多个第二重复度信息,确定视频的第一重复度信息。
为了对上述实施方式进行更加清楚的说明,下面将分为三个部分对上述实施方式进行说明。
第一部分、对服务器获取多个第一特征编号和多个第二特征编号中相同编号的数量的方法进行说明。
在一些实施例中,服务器设置第一片段存储列表来存储重复视频片段,设置第二片段存储列表来存储非重复视频片段。在一些实施例中,第一片段存储列表也被称为Snon列表,第二片段存储列表也被称为Sdup列表。其中,两个片段存储列表在存储视频片段时,只需存储视频片段的多个视频帧对应的编号即可。对于第一个视频片段来说,服务器能够直接将该视频片段存储在第一片段存储列表中。从第二个视频片段开始,服务器确定每个视频片段与第一片段存储列表中存储的视频片段之间的第二重复度信息。响应于任一视频片段与第一片段存储列表中存储的任一视频片段之间的第二重复度信息符合第二目标条件时,将该视频片段存储在第二片段存储列表中。响应于该视频片段与第一片段存储列表中存储的任一视频片段之间的第二重复度信息均不符合第二目标条件时,将该视频片段存储在第一片段存储列表中。参见图5,视频中存在两个视频片段【0,270】和【270,500】,服务器将第一个视频片段【0,270】放入第一片段存储列表。若第二个视频片段与第一个视频片段之间的第二重复度信息符合第二目标条件,服务器将第二个视频片段【270,500】放入第二片段存储列表。在后续使用过程中,若需要获取视频中非重复视频片段,服务器能够直接从第一片段存储列表中进行获取,效率较高。在一些实施例中,重复视频片段也被称为循环视频片段。
服务器确定两个视频片段之间的相似度时,采用一一比较两个视频片段的多个视频帧的特征编号的方式来实现。服务器采用一个重复编号记录表来记录两个视频片段对应特征编号的重复数量。在一些实施例中,重复编号记录表也被称为app(apply,已出现编号)列表。以第一视频片段对应的特征编号为基准,服务器将第二视频片段对应的特征编号与第一视频片段对应的特征编号进行一一比较,将比较结果记录在重复编号记录表中。从第一视频片段对应的特征编号中的第一个特征编号1开始,若该第一个特征编号在第二视频片段对应的特征编号中出现了1次,那么服务器在重复编号记录表中将该第一个特征编号对应的数值设置为1。若该第一个特征编号在第二视频片段对应的编号中出现了3次,那么服务器在重复编号记录表中将该第一个特征编号对应的数值设置为3。第一个特征编号在第二视频片段对应的编号中出现了0次,那么服务器在重复编号记录表中将该第一个特征编号对应的数值设置为0,以此类推,直至得到与第一视频片段与第二视频片段对应的重复编号记录表。服务器将重复编号记录表中非0数字的个数确定为两个视频片段中相同编号的数量。
比如,若第一视频片段对应的特征编号为(1,2,3,4,5,6,7),第二视频片段对应的特征编号为(1,3,5,7,9,10,11),那么服务器将第一视频片段对应的特征编号(1,2,3,4,5,6,7)与第二视频片段对应的特征编号(1,3,5,7,9,10,11)进行一一比对,得到重复编号记录表(1,0,1,0,1,0,1)。服务器将重复编号记录表(1,0,1,0,1,0,1)非0数字的个数4确定为第一视频片段和第二视频片段中相同编号的数量。
第二部分、对服务器基于相同编号的数量,确定第一视频片段和第二视频片段的第二重复度信息的方法进行说明。
在一些实施例中,服务器将相同编号的数量与目标数量相除,得到第一视频片段中视频帧和第二视频片段中视频帧的画面重复比例或音频重复比例,目标数量为第一视频片段或第二视频片段对应的特征编号的数量。画面重复比例用于表示第一视频片段中视频帧和第二视频片段中视频帧的画面重复情况,音频重复比例用于表示第一视频片段中视频帧和第二视频片段中视频帧的音频重复情况。
举例来说,由于第一视频片段和第二视频片段对应的特征编号的数量可能是不同的,那么对于第一视频片段来说,服务器将相同编号的数量与第一视频片段对应的目标数量相除,也即是将相同编号的数量与第一视频片段对应的特征编号的数量相除,得到第一视频片段的第二重复度信息。若视频帧特征为画面特征,那么第二重复度信息也即是第一视频片段与第二视频片段的画面重复比例,画面重复比例就能够表示第一视频片段中视频帧和第二视频片段中视频帧的画面重复情况。若视频帧特征为音频特征,那么第二重复度信息也即是第一视频片段与第二视频片段的音频重复比例,音频重复比例就能够表示第一视频片段中视频帧和第二视频片段中视频帧的音频重复情况。
对于第二视频片段来说,服务器将相同编号的数量与第二视频片段对应的目标数量相除,也即是将相同编号的数量与第二视频片段对应的特征编号的数量相除,得到第二视频片段的第二重复度信息。若视频帧特征为画面特征,那么第二重复度信息也即是第一视频片段与第二视频片段的画面重复比例,画面重复比例就能够表示第一视频片段中视频帧和第二视频片段中视频帧的画面重复情况。若视频帧特征为音频特征,那么第二重复度信息也即是第一视频片段与第二视频片段的音频重复比例,音频重复比例就能够表示第一视频片段中视频帧和第二视频片段中视频帧的音频重复情况。
需要说明的是,服务器能够采用第一视频片段的第二重复度信息,或第二视频片段的第二重复度信息中的任一个来作为第一视频片段和第二视频片段的第二重复度信息,本申请实施例对此不做限定。
在一些实施例中,对于上述第一部分中的第二目标条件来说,若第二重复度信息第一视频片段与第二视频片段的画面重复比例,那么第二目标条件也即是第一视频片段中视频帧和第二视频片段中视频帧的画面重复比例大于或等于画面重复比例阈值。若第二重复度信息第一视频片段与第二视频片段的音频重复比例,那么第二目标条件也即是第一视频片段中视频帧和第二视频片段中视频帧的音频重复比例大于或等于音频重复比例阈值。
第三部分、对服务器基于多个第二重复度信息,确定视频的第一重复度信息的方法进行说明。
在一些实施例中,服务器将多个第二重复度信息填充至重复度信息表中,填充完毕的重复度信息表也即是第一重复度信息。
406、服务器将多个视频片段输入视频分类模型,通过视频分类模型对多个视频片段进行分类,输出多个视频片段的类型。
在一些实施例中,服务器将多个视频片段的多个视频帧特征输入视频分类模型中,由视频分类模型对每个视频片段的多个视频帧特征进行池化处理,得到每个视频片段的片段特征。服务器对每个片段特征进行全连接处理,得到每个视频片段的预测序列,预测序列中的数字表示对应视频片段属于不同类型的概率。服务器基于多个预测序列,确定每个视频片段的类型。
举例来说,服务器将每个视频片段的多个视频帧特征输入视频分类模型的分类层,通过分类层中的池化层对多个视频帧特征进行最大池化处理,将最大池化处理后的多个视频帧特征进行拼接,得到该视频片段的片段特征。服务器对该视频片段的片段特征进行全连接处理,得到该视频片段的预测序列,比如为(1,3,4,6,7,8,3),预测序列中的每个数字表示对应视频片段属于不同类型的概率。在一些实施例中,服务器对预测序列进行归一化处理,得到预测向量,预测向量中的数字也即是视频片段对应类型的概率。服务器将概率最高的类型确定为该视频片段的类型。其中,归一化处理也即是服务器将预测序列映射为0-1上的序列。在一些实施例中,服务器能够采用Sigmoid(S型生长曲线)或Softmax(软最大化)函数来对预测序列进行归一化处理,本申请实施例对此不做限定。
407、响应于视频的第一重复度信息符合第一目标条件,服务器将视频确定为目标类型的视频。
在一些实施例中,响应于视频中任一视频片段的画面重复比例大于或等于画面重复比例阈值,服务器将视频确定为目标类型的视频,画面重复比例阈值与该视频片段的类型相关联。
在一些实施例中,目标类型的视频为循环视频。
举例来说,若视频帧特征为画面特征,那么服务器根据每个视频片段的类型,确定每个视频片段对应的画面重复比例阈值。比如,服务器根据每个视频片段的类型,从画面重复比例阈值表中获取每个视频片段对应的画面重复比例阈值。其中,画面重复比例阈值表中存储有多个视频类型以及每个视频类型对应的画面重复比例阈值,技术人员能够自行对画面重复比例阈值表中不同视频类型对应的画面重复比例阈值进行设置,以适应更多的应用场景。响应于视频中任一视频片段的画面重复比例大于或等于画面重复比例阈值,服务器将视频确定为目标类型的视频。响应于视频中任一视频片段的画面重复比例小于画面重复比例阈值,服务器将视频确定为非目标类型的视频。
在一些实施例中,响应于视频中任一视频片段的音频重复比例大于或等于音频重复比例阈值,服务器将视频确定为目标类型的视频,音频重复比例阈值与任一视频片段的类型相关联。
举例来说,若视频帧特征为音频特征,那么服务器根据每个视频片段的类型,确定每个视频片段对应的音频重复比例阈值。比如,服务器根据每个视频片段的类型,从音频重复比例阈值表中获取每个视频片段对应的音频重复比例阈值。其中,音频重复比例阈值表中存储有多个视频类型以及每个视频类型对应的音频重复比例阈值,技术人员能够自行对音频重复比例阈值表中不同视频类型对应的音频重复比例阈值进行设置,以适应更多的应用场景。响应于视频中任一视频片段的音频重复比例大于或等于音频重复比例阈值,服务器将视频确定为目标类型的视频。响应于视频中任一视频片段的音频重复比例小于音频重复比例阈值,服务器将视频确定为非目标类型的视频。
需要说明的是,服务器除了分别通过上述两种实施方式来确定视频的类型之外,还能够将上述两种实施方式进行结合,来对视频的类型进行判断,下面通过两个例子进行说明。
例1、参见图6,该视频包括6个视频片段A1-A6,若服务器确定视频片段A1为生活场景的视频片段,且视频片段A4相对于视频片段A1来说,画面重复比例大于或等于视频片段A1对应的画面重复比例阈值,音频重复比例大于或等于视频片段A1对应的音频重复比例阈值,那么服务器能够将该视频确定为目标类型的视频,也即是循环视频。
例2、参见图7,该视频包括5个视频片段B1-B5,若服务器确定视频片段B1为车祸场景的视频片段,且视频片段B2-B5相对于视频片段B1来说,画面重复比例大于或等于视频片段B1对应的画面重复比例阈值,音频重复比例小于视频片段B1对应的音频重复比例阈值,那么服务器能够将该视频确定为非目标类型的视频,也即是非循环视频。
在上述两个例子中,采用了用音频特征和画面特征的联合识别方法,实现多模态信息的有效利用,提升了视频识别的准确性。
在一些实施例中,服务器除了能够通过上述步骤407来确定视频的类型之外,还能够结合视频的画面重复比例和音频重复比例中的至少一项,来确定视频的类型。
在一些实施例中,服务器将视频中画面重复比例大于或等于画面重复比例阈值的视频片段的总时长与视频的时长相除,得到视频的画面重复比例。响应于视频的画面重复比例大于或等于视频画面重复比例阈值,服务器将视频确定为目标类型的视频,其中,视频画面重复比例阈值与视频的内容类型相关联。这里的内容类型与目标类型是指按照不同标准进行分类后得到的类型,目标类型对应的是循环视频,用于表示视频的结构类型。内容类型是指与视频内容相关的类型,比如为视频类型可以包括但不限于篮球进球、足球进球、车祸、纯文字、人脸及特写、生活场景、其他(包括非进球瞬间的播音员画面)等。
举例来说,若服务器采用步骤405中描述的第一片段存储列表来存储重复视频片段,设置第二片段存储列表来存储非重复视频片段,那么服务器能够确定第一片段存储列表中存储的视频片段的第一总时长TSnon,确定第二片段存储列表中存储的视频片段的第二总时长TSdup。将第二总时长TSdup与两个片段存储列表中存储的视频片段的时长和Ttotal相除,得到视频的画面重复比例,其中,Ttotal=TSnon+TSdup。对于视频的内容类型来说,服务器能够根据视频中多个视频片段的内容类型,确定视频的内容类型。比如,服务器将多个视频片段的类型中,数量最多的内容类型确定为视频的内容类型。服务器根据视频的内容类型,从视频画面重复比例阈值表中获取视频对应的视频画面重复比例阈值。其中,视频画面重复比例阈值表中存储有多个视频内容类型以及每个视频内容类型对应的视频画面重复比例阈值,技术人员能够自行对视频画面重复比例阈值表中不同视频内容类型对应的画面重复比例阈值进行设置,以适应更多的应用场景。响应于视频的画面重复比例大于或等于视频画面重复比例阈值,服务器将视频确定为目标类型的视频。
在一些实施例中,服务器将视频中音频重复比例大于或等于音频重复比例阈值的视频片段的总时长与视频的时长相除,得到视频的音频重复比例。响应于视频的音频重复比例大于或等于视频音频重复比例阈值,服务器将视频确定为目标类型的视频,其中,视频音频重复比例阈值与视频的内容类型相关联。
举例来说,若服务器采用步骤405中描述的第一片段存储列表来存储重复视频片段,设置第二片段存储列表来存储非重复视频片段,那么服务器能够确定第一片段存储列表中存储的视频片段的第一总时长TSnon,确定第二片段存储列表中存储的视频片段的第二总时长TSdup。将第二总时长TSdup与两个片段存储列表中存储的视频片段的时长和Ttotal相除,得到视频的音频重复比例,其中,Ttotal=TSnon+TSdup。对于视频的内容类型来说,服务器能够根据视频中多个视频片段的内容类型,确定视频的内容类型。比如,服务器将多个视频片段的类型中,数量最多的内容类型确定为视频的内容类型。服务器根据视频的内容类型,从视频音频重复比例阈值表中获取视频对应的视频音频重复比例阈值。其中,视频音频重复比例阈值表中存储有多个视频内容类型以及每个视频内容类型对应的视频音频重复比例阈值,技术人员能够自行对视频音频重复比例阈值表中不同视频内容类型对应的音频重复比例阈值进行设置,以适应更多的应用场景。响应于视频的音频重复比例大于或等于视频音频重复比例阈值,服务器将视频确定为目标类型的视频。
在一些实施例中,在步骤407之后,服务器还能够从视频中获取非重复视频片段。
在一些实施例中,若服务器采用步骤405中描述的第一片段存储列表来存储重复视频片段,设置第二片段存储列表来存储非重复视频片段,那么服务器能够直接从第一片段存储列表中获取非重复视频片段。
下面将结合图8和上述步骤401-407中各个可选的实施方式,对本申请实施例提供的视频识别方法进行说明。
参见图8,服务器对视频进行特征提取,获取视频的多个画面特征以及多个音频特征。服务器将多个画面特征输入视频分类模型,通过视频分类模型进行识别,输出视频的类型。服务器基于多个视频片段的类型,获取每个视频片段的画面重复比例阈值和音频重复比例阈值。服务器基于视频的类型,获取视频的视频画面重复比例阈值和视频音频重复比例阈值。服务器确定多个画面特征中每两个画面特征之间的欧式距离,得到编号距离表(形式参见表3)。服务器基于编号距离表,对每个画面特征的初始编号进行调整。服务器对调整后的初始编号进行去噪处理,得到多个特征编号。服务器从多个特征编号中确定多个片段分割编号,基于多个片段分割编号将视频划分为多个视频片段。在一些实施例中,服务器将每个视频片段的多个画面特征输入视频分类模型,通过视频分类模型进行识别,输出每个视频片段的类型。服务器获取不同视频片段之间的第二重复度信息,基于第二重复度信息来确定视频片段为重复视频片段还是非重复视频片段。服务器基于多个第二重复度信息确定视频的第一重复度信息。服务器根据第一重复度信息,确定视频为目标类型或非目标类型。对于音频特征来说,服务器能够通过与上述过程同理的过程,确定音频特征的第二重复度信息,基于音频特征的第二重复度信息,确定目标视频的第一重复度信息。服务器将基于画面特征和音频特征得到的第一重复度信息进行融合,得到最终的识别结果。
上述各个可选的实施方式,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
通过本申请实施例提供的技术方案,能够对多个视频帧特征进行编号,得到的多个特征编号能够表示对应的视频帧特征。在编号过程中,结合了视频帧特征之间的相似度,也即是若两个视频帧特征的编号相同,也就能够表示两个视频帧特征之间的相似度较高,进一步就能够表示两个视频帧特征分别对应的两个视频帧之间的相似度较高。采用视频帧特征的编号来确定视频的第一重复度信息,就快速反映视频中视频片段的重复情况。当第一重复信息符合目标条件时,就能够将视频确定为目标类型的视频。整个过程均由计算机设备来实现,无需进行人工检测,从而提高了视频类型确定的效率。
除此之外,采用本申请实施例提供的技术方案,除了可以对视频的类型进行识别外,还可以给出视频循环比例(重复视频片段的时长占全视频总时长的比例)以及是否为特定类型的视频片段(根据视频类型分类模型对视频片段进行分类确定是否为特定类型,特定类型如:进球、车祸瞬间等。还可以对视频进行压缩,也即是输出视频中非重复视频片段,降低视频在后续识别、检测、去重任务中特征存储空间的占用,提高有效视频,或者说非重复视频的比例。
参见图9,采用本申请实施例提供的技术方案之后,除了能够确定视频的类型的之外,还能够在视频为循环视频的前提下,确定视频的重复比例、确定重复视频片段的类型以及输出视频中的非重复视频片段。
图10是本申请实施例提供的一种视频识别装置结构示意图,参见图10,装置包括:视频帧特征获取单元1001、编号单元1002、第一重复度信息确定单元1003以及视频类型确定单元1004。
视频帧特征获取单元1001,用于获取视频的多个视频帧特征,视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项。
编号单元1002,用于对多个视频帧特征进行编号,得到多个特征编号,多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同。
第一重复度信息确定单元1003,用于基于多个特征编号,确定视频的第一重复度信息,第一重复度信息用于指示视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项。
视频类型确定单元1004,用于响应于视频的第一重复度信息符合第一目标条件,将视频确定为目标类型的视频。
在一些实施例中,视频帧特征获取单元1001,用于执行下述至少一项:
将视频的多个视频帧输入视频分类模型,通过视频分类模型的特征提取层,对多个视频帧的画面进行特征提取,得到多个画面特征。
将视频的多个视频帧的音频输入音频特征提取模型,通过音频特征提取模型的特征提取层,对多个视频帧的音频进行特征提取,得到多个音频特征。
在一些实施例中,编号单元1002,用于将每个视频帧特征对应的视频帧在视频中的排列顺序,确定为每个视频帧特征对应的初始编号。
基于每两个视频帧特征之间的相似度以及多个初始编号,获取多个特征编号。
在一些实施例中,编号单元1002,用于基于每两个视频帧特征之间的相似度,对多个初始编号中的部分编号进行调整,得到多个特征编号,部分编号是指目标视频帧特征对应的编号,目标视频帧特征为任两个视频帧特征中,编号顺序靠后的视频帧特征。
在一些实施例中,编号单元1002,用于响应于任两个视频帧特征之间的相似度符合目标相似度条件,将任两个视频帧特征中的目标视频帧特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号。
在一些实施例中,装置还包括:
去噪单元,用于对调整后的多个初始编号进行去噪处理。
在一些实施例中,去噪单元,用于在调整后的多个初始编号中确定多个噪点编号。在调整后的多个初始编号中,基于编号顺序与每个噪点编号邻近的至少两个初始编号,对每个噪点编号进行调整。
在一些实施例中,去噪单元,用于响应于第一编号与第二编号之间的差值大于第一差值阈值,且第一编号与第三编号之间的差值小于或等于第二差值阈值,将第一编号确定为一个噪点编号。
其中,第一编号为调整后的多个初始编号中的任一个初始编号。第二编号为调整后的多个初始编号中,编号顺序在第一编号之前的初始编号。第三编号为调整后的多个初始编号中,编号顺序在第一编号之后的初始编号。
在一些实施例中,去噪单元,用于将每个噪点编号调整为目标编号,目标编号为第二编号和第三编号的平均值。
其中,第二编号为调整后的多个初始编号中,编号顺序在噪点编号之前的初始编号。第三编号为调整后的多个初始编号中,编号顺序在噪点编号之后的初始编号。
在一些实施例中,第一重复度信息确定单元1003,用于对于视频中的第一视频片段和第二视频片段,获取多个第一特征编号和多个第二特征编号中相同编号的数量,第一特征编号为第一视频片段中视频帧对应的特征编号,第二特征编号为第二视频片段中视频帧对应的特征编号。
基于相同编号的数量,确定第一视频片段和第二视频片段的第二重复度信息,第二重复度信息用于指示第一视频片段中视频帧和第二视频片段中视频帧的画面重复情况和音频重复情况中的至少一项。
基于多个第二重复度信息,确定视频的第一重复度信息。
在一些实施例中,第一重复度信息确定单元1003,用于将相同编号的数量与目标数量相除,得到第一视频片段中视频帧和第二视频片段中视频帧的画面重复比例或音频重复比例,目标数量为第一视频片段或第二视频片段对应的特征编号的数量,画面重复比例用于表示第一视频片段中视频帧和第二视频片段中视频帧的画面重复情况,音频重复比例用于表示第一视频片段中视频帧和第二视频片段中视频帧的音频重复情况。
在一些实施例中,装置还包括:
视频片段划分单元,用于从多个特征编号中确定多个片段分割编号,每个片段分割编号小于前一个特征编号,且每个片段分割编号与前一个特征编号之间的编号差值大于目标差值,目标差值与编号顺序在片段分割编号之前的多个特征编号之间的平均差值呈正比。
基于多个片段分割编号,将视频划分为多个视频片段。
在一些实施例中,视频类型确定单元1004,用于执行下述任一项:
响应于视频中任一视频片段的画面重复比例大于或等于画面重复比例阈值,将视频确定为目标类型的视频,画面重复比例阈值与任一视频片段的类型相关联。
响应于视频中任一视频片段的音频重复比例大于或等于音频重复比例阈值,将视频确定为目标类型的视频,音频重复比例阈值与任一视频片段的类型相关联。
在一些实施例中,装置还包括:
分类单元,用于将多个视频片段输入视频分类模型,通过视频分类模型对多个视频片段进行分类,输出多个视频片段的类型。
在一些实施例中,装置还包括下述任一个单元:
画面重复比例确定单元,用于将视频中画面重复比例大于或等于画面重复比例阈值的视频片段的总时长与视频的时长相除,得到视频的画面重复比例。
音频重复比例确定单元,用于将视频中音频重复比例大于或等于音频重复比例阈值的视频片段的总时长与视频的时长相除,得到视频的音频重复比例。
需要说明的是:上述实施例提供的视频识别装置在进行视频识别时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将计算机设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频识别的装置与视频识别的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,能够对多个视频帧特征进行编号,得到的多个特征编号能够表示对应的视频帧特征。在编号过程中,结合了视频帧特征之间的相似度,也即是若两个视频帧特征的编号相同,也就能够表示两个视频帧特征之间的相似度较高,进一步就能够表示两个视频帧特征分别对应的两个视频帧之间的相似度较高。采用视频帧特征的编号来确定视频的第一重复度信息,就快速反映视频中视频片段的重复情况。当第一重复信息符合目标条件时,就能够将视频确定为目标类型的视频。整个过程均由计算机设备来实现,无需进行人工检测,从而提高了视频类型确定的效率。
本申请实施例提供了一种计算机设备,用于执行上述方法,该计算机设备可以实现为终端或者服务器,下面先对终端的结构进行介绍:
图11是本申请实施例提供的一种终端的结构示意图。
通常,终端1100包括有:一个或多个处理器1101和一个或多个存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器)。协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1101所执行以实现本申请中方法实施例提供的视频识别方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上。在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。在一些实施例中,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件1106用于采集图像或视频。在一些实施例中,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。
陀螺仪传感器1112可以终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。
压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。
接近传感器1116用于采集用户与终端1100的正面之间的距离。
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述计算机设备还可以实现为服务器,下面对服务器的结构进行介绍:
图12是本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1201和一个或多个的存储器1202,其中,所述一个或多个存储器1202中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1200还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的视频识别方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述视频识别方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种视频识别方法,其特征在于,所述方法包括:
获取视频的多个视频帧特征,所述视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项;
对所述多个视频帧特征进行编号,得到多个特征编号,所述多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同;
基于所述多个特征编号,确定所述视频的第一重复度信息,所述第一重复度信息用于指示所述视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项;
响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频。
2.根据权利要求1所述的方法,其特征在于,所述获取视频的多个视频帧特征包括下述至少一项:
将所述视频的多个视频帧输入视频分类模型,通过所述视频分类模型的特征提取层,对所述多个视频帧的画面进行特征提取,得到多个所述画面特征;
将所述视频的多个视频帧的音频输入音频特征提取模型,通过所述音频特征提取模型的特征提取层,对所述多个视频帧的音频进行特征提取,得到多个所述音频特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个视频帧特征进行编号,得到多个特征编号包括:
将每个所述视频帧特征对应的视频帧在所述视频中的排列顺序,确定为每个所述视频帧特征对应的初始编号;
基于每两个所述视频帧特征之间的相似度以及多个所述初始编号,获取所述多个特征编号。
4.根据权利要求3所述的方法,其特征在于,所述基于每两个所述视频帧特征之间的相似度以及多个所述初始编号,获取所述多个特征编号包括:
基于每两个所述视频帧特征之间的相似度,对多个所述初始编号中的部分编号进行调整,得到所述多个特征编号,所述部分编号是指目标视频帧特征对应的编号,所述目标视频帧特征为任两个所述视频帧特征中,编号顺序靠后的视频帧特征。
5.根据权利要求4所述的方法,其特征在于,所述基于每两个所述视频帧特征之间的相似度,对多个所述初始编号中的部分编号进行调整包括:
响应于任两个所述视频帧特征之间的相似度符合所述目标相似度条件,将所述任两个所述视频帧特征中的目标视频帧特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号。
6.根据权利要求5所述的方法,其特征在于,所述将所述任两个所述视频帧特征中的视频帧特征对应的初始编号,调整为编号顺序在前的视频帧特征对应的初始编号之后,所述方法还包括:
对调整后的多个初始编号进行去噪处理。
7.根据权利要求6所述的方法,其特征在于,所述对调整后的多个初始编号进行去噪处理包括:
在所述调整后的多个初始编号中确定多个噪点编号;
在所述调整后的多个初始编号中,基于编号顺序与每个所述噪点编号邻近的至少两个初始编号,对每个所述噪点编号进行调整。
8.根据权利要求7所述的方法,其特征在于,所述在所述调整后的多个初始编号中确定多个噪点编号包括:
响应于第一编号与第二编号之间的差值大于第一差值阈值,且所述第一编号与第三编号之间的差值小于或等于第二差值阈值,将所述第一编号确定为一个所述噪点编号;
其中,所述第一编号为所述调整后的多个初始编号中的任一个初始编号;所述第二编号为所述调整后的多个初始编号中,编号顺序在所述第一编号之前的初始编号;所述第三编号为所述调整后的多个初始编号中,编号顺序在所述第一编号之后的初始编号。
9.根据权利要求7所述的方法,其特征在于,所述基于编号顺序与每个所述噪点编号邻近的至少两个初始编号,对每个所述噪点编号进行调整包括:
将每个所述噪点编号调整为目标编号,所述目标编号为第二编号和第三编号的平均值;
其中,所述第二编号为所述调整后的多个初始编号中,编号顺序在所述噪点编号之前的初始编号;所述第三编号为所述调整后的多个初始编号中,编号顺序在所述噪点编号之后的初始编号。
10.根据权利要求1所述的方法,其特征在于,所述基于所述多个特征编号,确定所述视频的第一重复度信息包括:
对于所述视频中的第一视频片段和第二视频片段,获取多个第一特征编号和多个第二特征编号中相同编号的数量,所述第一特征编号为所述第一视频片段中视频帧对应的特征编号,所述第二特征编号为所述第二视频片段中视频帧对应的特征编号;
基于所述相同编号的数量,确定所述第一视频片段和所述第二视频片段的第二重复度信息,所述第二重复度信息用于指示所述第一视频片段中视频帧和所述第二视频片段中视频帧的画面重复情况和音频重复情况中的至少一项;
基于多个所述第二重复度信息,确定所述视频的第一重复度信息。
11.根据权利要求10所述的方法,其特征在于,所述基于所述相同编号的数量,确定所述第一视频片段和所述第二视频片段的第二重复度信息包括:
将所述相同编号的数量与目标数量相除,得到所述第一视频片段中视频帧和所述第二视频片段中视频帧的画面重复比例或音频重复比例,所述目标数量为所述第一视频片段或所述第二视频片段对应的特征编号的数量,所述画面重复比例用于表示所述第一视频片段中视频帧和所述第二视频片段中视频帧的画面重复情况,所述音频重复比例用于表示所述第一视频片段中视频帧和所述第二视频片段中视频帧的音频重复情况。
12.根据权利要求1所述的方法,其特征在于,所述基于所述多个特征编号,确定所述视频的第一重复度信息之前,所述方法还包括:
从所述多个特征编号中确定多个片段分割编号,每个所述片段分割编号小于前一个特征编号,且每个所述片段分割编号与所述前一个特征编号之间的编号差值大于目标差值,所述目标差值与编号顺序在所述片段分割编号之前的多个特征编号之间的平均差值呈正比;
基于所述多个片段分割编号,将所述视频划分为所述多个视频片段。
13.一种视频识别装置,其特征在于,所述装置包括:
视频帧特征获取单元,用于获取视频的多个视频帧特征,所述视频帧特征包括对应视频帧的画面特征以及音频特征中的至少一项;
编号单元,用于对所述多个视频帧特征进行编号,得到多个特征编号,所述多个视频帧特征中任两个相似度符合目标相似度条件的视频帧特征的特征编号相同;
第一重复度信息确定单元,用于基于所述多个特征编号,确定所述视频的第一重复度信息,所述第一重复度信息用于指示所述视频的多个视频片段中视频帧的画面重复情况以及音频重复情况中的至少一项;
视频类型确定单元,用于响应于所述视频的第一重复度信息符合第一目标条件,将所述视频确定为目标类型的视频。
14.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482296.5A CN113762042A (zh) | 2021-04-30 | 2021-04-30 | 视频识别方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482296.5A CN113762042A (zh) | 2021-04-30 | 2021-04-30 | 视频识别方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762042A true CN113762042A (zh) | 2021-12-07 |
Family
ID=78786970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110482296.5A Pending CN113762042A (zh) | 2021-04-30 | 2021-04-30 | 视频识别方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762042A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115225930A (zh) * | 2022-07-25 | 2022-10-21 | 广州博冠信息科技有限公司 | 直播互动应用的处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-04-30 CN CN202110482296.5A patent/CN113762042A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115225930A (zh) * | 2022-07-25 | 2022-10-21 | 广州博冠信息科技有限公司 | 直播互动应用的处理方法、装置、电子设备及存储介质 |
CN115225930B (zh) * | 2022-07-25 | 2024-01-09 | 广州博冠信息科技有限公司 | 直播互动应用的处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197532B (zh) | 人脸识别的方法、装置及计算机装置 | |
CN109902659B (zh) | 用于处理人体图像的方法和装置 | |
CN109816009A (zh) | 基于图卷积的多标签图像分类方法、装置及设备 | |
US8792722B2 (en) | Hand gesture detection | |
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
CN108960090A (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
CN107729809A (zh) | 一种自适应生成视频摘要的方法、装置及其可读存储介质 | |
WO2021120961A1 (zh) | 大脑成瘾结构图谱评估方法及装置 | |
CN108197669B (zh) | 卷积神经网络的特征训练方法及装置 | |
WO2023273628A1 (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN110163111A (zh) | 基于人脸识别的叫号方法、装置、电子设备及存储介质 | |
CN110210194A (zh) | 电子合同显示方法、装置、电子设备及存储介质 | |
CN113095370A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
WO2023020214A1 (zh) | 检索模型的训练和检索方法、装置、设备及介质 | |
CN110516734A (zh) | 一种图像匹配方法、装置、设备及存储介质 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN114339392B (zh) | 视频剪辑方法、装置、计算机设备及存储介质 | |
CN113572981B (zh) | 视频配乐方法及装置、电子设备、存储介质 | |
CN113793620A (zh) | 基于场景分类的语音降噪方法、装置、设备及存储介质 | |
CN113762042A (zh) | 视频识别方法、装置、设备以及存储介质 | |
CN115731620A (zh) | 检测对抗攻击的方法和训练对抗攻击检测模型的方法 | |
CN112232890B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115082873A (zh) | 基于通路融合的图像识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |