CN106601243B - 一种视频文件识别方法及装置 - Google Patents

一种视频文件识别方法及装置 Download PDF

Info

Publication number
CN106601243B
CN106601243B CN201510683009.1A CN201510683009A CN106601243B CN 106601243 B CN106601243 B CN 106601243B CN 201510683009 A CN201510683009 A CN 201510683009A CN 106601243 B CN106601243 B CN 106601243B
Authority
CN
China
Prior art keywords
audio
matching
video
video file
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510683009.1A
Other languages
English (en)
Other versions
CN106601243A (zh
Inventor
谷长信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510683009.1A priority Critical patent/CN106601243B/zh
Priority to PCT/CN2016/101733 priority patent/WO2017067400A1/zh
Publication of CN106601243A publication Critical patent/CN106601243A/zh
Application granted granted Critical
Publication of CN106601243B publication Critical patent/CN106601243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Television Signal Processing For Recording (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频文件识别方法及装置,该方法首先从待识别视频文件中获取音频信息,通过对音频信息进行分段提取音频指纹,与训练样本进行音频匹配来判断是否是目标视频;然后对于无法确认的可疑视频文件,继续通过图像匹配来做进一步的识别。本发明的装置包括音频预处理模块、音频指纹匹配模块、音频判断模块、图像预处理模块、图像预处理模块和综合判断模块。本发明的方法及装置处理效率高,识别率高。

Description

一种视频文件识别方法及装置
技术领域
本发明属于计算机数据处理技术领域,尤其涉及一种视频文件识别方法及装置。
背景技术
随着互联网的普及,越来越多用户开始利用互联网服务提供商提供的云服务器来存储个人的视频文件,一些互联网服务提供商还允许用户上传视频文件用来共享给网络中的其他用户。但是法律对于网上传播的视频文件有严格的审查要求,不能涉黄涉暴。因此互联网服务提供商有责任和义务对用户上传及服务商自己提供的视频文件按国家规范进行审核和监管。
现有技术对于视频文件的审核都是基于视频图像,通过抓取视频图像中的图片帧进行审核,存在如下问题:
处理效率低:视频图像抓帧范围无法有效定位,若想全面审核,抓帧量极大,处理效率低下;
识别手段单一,识别率不高:单一借助图片识别,存在漏识别和错误识别概率很高。
发明内容
本发明的目的是提供一种视频文件识别方法及装置,借助音频指纹识别和采用视频图像抓帧技术进一步进行图片识别,最终给出识别结果,有效提高处理效率。
为了实现上述目的,本发明技术方案如下:
一种视频文件识别方法,用于审核待识别视频文件,所述方法包括:
从待识别视频文件中获取音频信息;
将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;
将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;
根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,进入下一步继续识别;
根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像,对抓取的视频图像进行图像匹配,记录图片匹配结果;
根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。
本发明将获取的音频信息进行分段的一种实现方式,包括:
对音频信息在时域上找出超出指定阀值的所有音量峰值点;
依次从各峰值点开始按固定时长进行采样得到各音频分段。
本发明将获取的音频信息进行分段的另一种实现方式,包括:
对音频信息按固定时长进行采样得到各音频分段。
进一步第,所述音频匹配结果包括:匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息;所述标注信息包括:样本时长、内容等级以及人工分类标签。
进一步地,所述根据音频匹配结果,判断待识别视频文件是否是目标视频,包括:
当匹配成功的次数大于第一阈值,判断待识别视频文件是目标视频;
当匹配成功的次数小于第二阈值,判断待识别视频文件不是目标视频;
当匹配成功的次数在第一阈值与第二阈值之间时,计算本次匹配结果对应的音频匹配概率,当计算得到的匹配概率大于设定的第三阈值,判断待识别视频文件是目标视频,否则将待识别视频文件视为可疑视频文件。
其中,所述计算本次匹配结果对应的音频匹配概率,包括:
根据匹配成功的次数X与所有音频分段的总数Z,计算两者的比值P1为:
Figure BDA0000825851670000031
计算本次匹配结果对应的音频匹配概率R1,计算公式如下:
R1=P1*P(Y)
其中,R1为本次匹配结果对应的音频匹配概率,P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。
进一步地,所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频,包括:
根据图像匹配结果,计算图像匹配概率R2,R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值;
根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′,如果综合匹配概率超过第四阈值,则判断待识别视频文件为目标视频,否则判定为正常视频;
其中,综合匹配概率R′的计算公式如下:
R′=R1*α+R2
其中,α和β分别为音频匹配概率和视频匹配概率的权重。
本发明还提出了一种视频文件识别装置,用于审核待识别视频文件,所述装置包括:
音频预处理模块,用于从待识别视频文件中获取音频信息,将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;
音频指纹匹配模块,用于将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;
音频判断模块,用于根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,由图像预处理模块继续处理;
图像预处理模块,用于根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像;
图像匹配模块,用于对抓取的视频图像进行图像匹配,记录图像匹配结果;
综合判断模块,用于根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。
本发明提出的一种视频文件识别方法及装置,借助音频指纹识别将视频文件的语音快速识别出来,并记录匹配上的起始时间点,然后在该起始时间点范围内间隔抓帧进一步进行图片识别,最终给出识别结果。具有处理效率高,识别率高的特点。
附图说明
图1为本发明视频文件识别方法流程图;
图2为本发明视频文件识别装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
视频文件目前流行的格式很多,包括AVI格式、MOV格式、MPEG模式、RM格式、ASF格式等,一个完整的视频文件包括视频图像和音频信息两部分。本发明的总体思路是从视频文件中提取出音频信息,对提取的音频信息进行识别,然后根据识别结果再进行视频图像的抓帧,对抓取的视频图像进行进一步的识别。
以下以识别涉黄涉暴的视频为例来进行说明,对于其他类型的视频文件同样适用。如图1所示,一种视频文件识别方法,包括如下步骤:
步骤S1、从待识别视频文件中获取音频信息。
本实施例从待识别视频文件中获取音频信息,可以直接对视频文件进行解码,提取出音频信息。也可以直接通过其他第三方软件进行音频信息的提取。对于音频信息的提取,已经是比较成熟的技术,这里不再赘述。
步骤S2、将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹。
将获取的音频信息分段,并对每一个音频分段进行指纹提取,获得每个音频分段对应的音频指纹。
本发明对音频信息的识别基于音频指纹(Audio fingerprinting technology),音频指纹是指可以代表一段声音重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频文件的感知听觉质量,可用在音频识别、内容完整性校验等应用中。
将音频信息从视频文件中剥离出来后,可以获得该音频信息播放的总时长T(毫秒),以及提取出来的音频信息的总长度L(bytes)。然后将音频信息切分为多个音频分段,对每一个音频分段进行指纹提取,将提取的音频指纹与训练样本进行比对。训练样本也是按照同样的方法进行音频分段,通过训练得到。
以下通过两个实施例来阐述具体的音频信息切分方法:
方法一:根据时域上音量高低切分。
音频信息在时域上沿时间轴音量高低不同,表现为有起有伏的波形,设定一个音量的阈值,可以对音频信息在时域上找出超出指定阀值的所有音量峰值点,记为(k1,k2,k3,....,kn),并记录下各峰值点对应的时间轴上坐标,该时间轴上的坐标就是峰值点在音频信息中的时间偏移量p。
然后依次从各峰值点开始按固定时长w进行采样得到音频分段,并提取音频指纹,提取到n个音频指纹,以便与训练样本进行比对。
容易理解的是,每个音频分段的起点为峰值点对应的时间,可计算出该峰值点对应的音频分段的时间起始点为:T*(p/L)。
方法二:固定间隔切分。
对音频信息按固定时长w进行采样,得到f1,f2,f3,….,fm个音频分段,并提取音频指纹,以便与训练样本进行比对。
容易理解的是,每个音频分段的起点可根据固定时长来进行计算,音频分段的时间起始点为:T*(fi-1)/L,其中i属于(1~m)。
容易理解的是,固定时长w与训练样本库中的训练样本的时长一致,如1秒钟。对应涉黄涉暴的视频文件,较高音量对应的视频图像往往是需要重点关注的对象,因此优选地,采用方法一更容易快速地对视频文件进行识别,将峰值点按照音量高低排序,先比对高峰值的音频分段即可。
具体地,对音频分段进行指纹提取,提取的算法例如快速傅立叶变换方法,这里不再赘述。从而获取到音频分段对应的音频指纹,以便后续步骤与已经训练出的训练样本进行比对。
步骤S3、将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果。
本实施例通过对大量各类涉黄涉暴视频音频进行训练得到训练样本,并对每个训练样本添加标注信息,训练样本的标注信息主要包含样本时长、内容等级以及人工分类标签等,内容等级在本实施例中为涉黄涉暴的等级。
将音频分段的音频指纹与训练样本进行音频匹配,如果音频分段的音频指纹与训练样本的识别相似度大于设定的音频相似度阈值,则视为匹配成功。遍历所有音频分段,记录音频匹配结果,音频匹配结果包括:匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息。
步骤S4、根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,进入下一步继续识别。
具体地,本实施例通过如下步骤判断待识别视频文件是否是目标视频:
当匹配成功的次数大于第一阈值(例如20次),判断待识别视频文件是目标视频,终止识别;
当匹配成功的次数小于第二阈值(例如2次),判断待识别视频文件不是目标视频,终止识别;
当匹配成功的次数在第一阈值与第二阈值之间时,计算本次匹配结果对应的音频匹配概率,当计算得到的匹配概率大于设定的第三阈值(例如T,T为一具体数值),判断待识别视频文件是目标视频,否则将待识别视频文件视为可疑视频文件,需要进入下一步继续识别。
假设匹配成功的次数为X,而进行匹配的音频分段的总数为Z,则匹配成功的次数与所有音频分段的总数的比值P1为:
Figure BDA0000825851670000061
本实施例计算本次匹配结果对应的音频匹配概率R1,计算公式如下:
R1=P1*P(Y)
其中,R1为本次匹配结果对应的音频匹配概率,P1为匹配成功的次数与音频分段的总数的比值,P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。
具体地,对于一个音频分段,其匹配的训练样本对应有一个涉黄涉暴等级Yi,则其对应的权重为P(Yi),并有P(Y)=∑P(Yi)。
在计算得到本次匹配结果对应的音频匹配概率R1后,将音频匹配概率R1与设定的第三阈值进行比对判定,如果高于第三阈值,则判定为目标视频,否则需要对视频图像做进一步的判断。
上述判断步骤仅为一具体的实施例,其中第一阈值、第二阈值、第三阈值可以进行调整,以使判断结果更准确。还可以在第一阈值与第二阈值中间进一步设定一个中间阈值,例如10次,在匹配成功的次数大于这个中间阈值时,才计算本次匹配结果对应的音频匹配概率,根据计算得到的音频匹配概率进行判断;如果匹配成功的次数小于这个中间阈值,并大于第二阈值,则不计算本次匹配结果对应的音频匹配概率,直接进入下一步,需要对视频图像做进一步的判断。本发明不限于具体的判断步骤,以下不再赘述。
步骤S5、根据音频分段的匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像,对抓取的视频图像进行图像匹配,记录图片匹配结果。
通过步骤S3的匹配,已经知道哪些音频分段匹配成功,根据记录的匹配结果中匹配成功的音频分段的起始时间定位到视频文件中对应的时间点,从该时间点开始对视频文件进行抓帧,抓帧的时间间隔可以根据实际情况来确定,抓取到视频图像。
对抓取到的视频图像进行识别,在本实施例中就是识别抓取的视频图像是否是涉黄涉暴的图像,可以通过人眼识别也可以通过计算机识别。如果通过计算机识别,则也需要对大量各类涉黄涉暴视频图像进行训练得到训练样本,将抓取的视频图像与训练样本进行匹配,获得视频图像的识别相似度,如果识别相似度大于设定的图像相似度阈值,则视为匹配成功,记录图像匹配结果,即图像匹配成功的次数。
步骤S6、根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。
在图像匹配结束后,可以根据匹配成功的次数计算视频匹配概率R2,R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值。
根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′,如果综合匹配概率超过第四阈值,则判断待识别视频文件为目标视频,否则判定为正常视频。
综合匹配概率R′的计算公式如下:
R′=R1*α+R2
其中,α和β分别为音频匹配概率和视频匹配概率的权重。
从而根据得到的综合匹配概率进行判断,如果综合匹配概率超过识别阈值,则判断待识别视频文件为目标视频,否则判定为正常视频。
也可以直接根据图像匹配成功的次数来判断待识别视频文件是否为涉黄涉暴的视频文件,或根据视频匹配概率R2来判断待识别视频文件是否为涉黄涉暴的视频文件,例如图像匹配成功的次数或视频匹配概率R2大于设定的阈值则判断为涉黄涉暴的视频文件。本发明对具体的判断条件不做限制。
需要说明的是,将音频分段的音频指纹与训练样本进行匹配,计算他们的识别相似度,或将视频图像与训练样本进行匹配,计算他们的识别相似度,均为目前较为成熟的技术,例如可以通过最大似然估计方法来计算,这里不再赘述。
图2示出了对应于上述方法的一种视频文件识别装置,包括:
音频预处理模块,用于从待识别视频文件中获取音频信息,将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;
音频指纹匹配模块,用于将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;
音频判断模块,用于根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,由图像预处理模块继续处理;
图像预处理模块,用于根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像;
图像匹配模块,用于对抓取的视频图像进行图像匹配,记录图像匹配结果;
综合判断模块,用于根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频。
其中,音频预处理模块将获取的音频信息进行分段,可以根据时域上音量高低切分,或按照固定间隔切分,与方法中所述具体音频分段方法对应,这里不再赘述。
同样,音频判断模块、综合判断模块在做具体判别时执行的操作,对应于步骤S4和步骤S6的具体步骤,这里不再赘述。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种视频文件识别方法,用于审核待识别视频文件,其特征在于,所述方法包括:
从待识别视频文件中获取音频信息;
将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;
将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;
根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,进入下一步继续识别;
根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像,对抓取的视频图像进行图像匹配,记录图像匹配结果;
根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频;
其中,所述音频匹配结果包括:匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息;
所述标注信息包括:样本时长、内容等级以及人工分类标签;
所述根据音频匹配结果,判断待识别视频文件是否是目标视频,包括:
当匹配成功的次数大于第一阈值,判断待识别视频文件是目标视频;
当匹配成功的次数小于第二阈值,判断待识别视频文件不是目标视频;
当匹配成功的次数在第一阈值与第二阈值之间时,计算本次匹配结果对应的音频匹配概率,当计算得到的匹配概率大于设定的第三阈值,判断待识别视频文件是目标视频,否则将待识别视频文件视为可疑视频文件。
2.根据权利要求1所述的视频文件识别方法,其特征在于,所述将获取的音频信息进行分段,包括:
对音频信息在时域上找出超出指定阈值的所有音量峰值点;
依次从各峰值点开始按固定时长进行采样得到各音频分段。
3.根据权利要求1所述的视频文件识别方法,其特征在于,所述将获取的音频信息进行分段,包括:
对音频信息按固定时长进行采样得到各音频分段。
4.根据权利要求1所述的视频文件识别方法,其特征在于,所述计算本次匹配结果对应的音频匹配概率,包括:
根据匹配成功的次数X与所有音频分段的总数Z,计算两者的比值P1为:
Figure FDA0002582993530000021
计算本次匹配结果对应的音频匹配概率R1,计算公式如下:
R1=P1*P(Y)
其中,R1为本次匹配结果对应的音频匹配概率,P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和,Y为内容等级。
5.根据权利要求4所述的视频文件识别方法,其特征在于,所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频,包括:
根据图像匹配结果,计算视频匹配概率R2,R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值;
根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′,如果综合匹配概率超过第四阈值,则判断待识别视频文件为目标视频,否则判定为正常视频;
其中,综合匹配概率R′的计算公式如下:
R′=R1*α+R2
其中,α和β分别为音频匹配概率和视频匹配概率的权重。
6.一种视频文件识别装置,用于审核待识别视频文件,其特征在于,所述装置包括:
音频预处理模块,用于从待识别视频文件中获取音频信息,将获取的音频信息进行分段,对分段后的音频分段进行指纹提取,得到音频分段的音频指纹;
音频指纹匹配模块,用于将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配,记录音频匹配结果;
音频判断模块,用于根据音频匹配结果,判断待识别视频文件是否是目标视频,当判断为目标视频或判断为不是目标视频时,终止识别,当判断为可疑视频文件时,由图像预处理模块继续处理;
图像预处理模块,用于根据音频匹配结果,从匹配成功的音频分段的起始时间开始对视频文件进行抓帧,抓取视频图像;
图像匹配模块,用于对抓取的视频图像进行图像匹配,记录图像匹配结果;
综合判断模块,用于根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频;
其中,所述音频匹配结果包括:匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息;所述标注信息包括:样本时长、内容等级以及人工分类标签;
所述音频判断模块根据音频匹配结果,判断待识别视频文件是否是目标视频,执行如下操作:
当匹配成功的次数大于第一阈值,判断待识别视频文件是目标视频;
当匹配成功的次数小于第二阈值,判断待识别视频文件不是目标视频;
当匹配成功的次数在第一阈值与第二阈值之间时,计算本次匹配结果对应的音频匹配概率,当计算得到的匹配概率大于设定的第三阈值,判断待识别视频文件是目标视频,否则将待识别视频文件视为可疑视频文件。
7.根据权利要求6所述的视频文件识别装置,其特征在于,所述音频预处理模块将获取的音频信息进行分段,具体执行如下操作:
对音频信息在时域上找出超出指定阈值的所有音量峰值点;
依次从各峰值点开始按固定时长进行采样得到各音频分段。
8.根据权利要求6所述的视频文件识别装置,其特征在于,所述音频预处理模块将获取的音频信息进行分段,具体执行如下操作:
对音频信息按固定时长进行采样得到各音频分段。
9.根据权利要求6所述的视频文件识别装置,其特征在于,所述计算本次匹配结果对应的音频匹配概率,包括:
根据匹配成功的次数X与所有音频分段的总数Z,计算两者的比值P1为:
Figure FDA0002582993530000041
计算本次匹配结果对应的音频匹配概率R1,计算公式如下:
R1=P1*P(Y)
其中,R1为本次匹配结果对应的音频匹配概率,P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和,Y为内容等级。
10.根据权利要求9所述的视频文件识别装置,其特征在于,所述综合判断模块根据图像匹配结果、或根据图像匹配结果与音频匹配结果,判断待识别视频文件是否是目标视频,执行如下操作:
根据图像匹配结果,计算视频匹配概率R2,R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值;
根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′,如果综合匹配概率超过第四阈值,则判断待识别视频文件为目标视频,否则判定为正常视频;
其中,综合匹配概率R′的计算公式如下:
R′=R1*α+R2
其中,α和β分别为音频匹配概率和视频匹配概率的权重。
CN201510683009.1A 2015-10-20 2015-10-20 一种视频文件识别方法及装置 Active CN106601243B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510683009.1A CN106601243B (zh) 2015-10-20 2015-10-20 一种视频文件识别方法及装置
PCT/CN2016/101733 WO2017067400A1 (zh) 2015-10-20 2016-10-11 一种视频文件识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510683009.1A CN106601243B (zh) 2015-10-20 2015-10-20 一种视频文件识别方法及装置

Publications (2)

Publication Number Publication Date
CN106601243A CN106601243A (zh) 2017-04-26
CN106601243B true CN106601243B (zh) 2020-11-06

Family

ID=58554949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510683009.1A Active CN106601243B (zh) 2015-10-20 2015-10-20 一种视频文件识别方法及装置

Country Status (2)

Country Link
CN (1) CN106601243B (zh)
WO (1) WO2017067400A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
CN108419124B (zh) * 2018-05-08 2020-11-17 北京酷我科技有限公司 一种音频处理方法
CN108984665A (zh) * 2018-06-29 2018-12-11 杭州当虹科技股份有限公司 一种高效视频内容联合检测方法
CN109389794A (zh) * 2018-07-05 2019-02-26 北京中广通业信息科技股份有限公司 一种智能化视频监控方法和系统
CN109271126A (zh) * 2018-08-02 2019-01-25 联想(北京)有限公司 一种数据处理方法及装置
CN109344289B (zh) * 2018-09-21 2020-12-11 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
CN109887493B (zh) * 2019-03-13 2021-08-31 安徽声讯信息技术有限公司 一种文字音频推送方法
CN112307842B (zh) * 2019-07-31 2024-06-14 株洲中车时代电气股份有限公司 用于列车运行监控记录文件匹配的视频识别系统及方法
CN111489757B (zh) * 2020-03-26 2023-08-18 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及可读存储介质
CN113542820B (zh) * 2021-06-30 2023-12-22 北京中科模识科技有限公司 一种视频编目方法、系统、电子设备及存储介质
CN114358643B (zh) * 2022-01-13 2023-09-12 南京讯思雅信息科技有限公司 一种多媒体内容风控管理装置及管理方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470897A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 基于音视频融合策略的敏感影片检测方法
CN101819638A (zh) * 2010-04-12 2010-09-01 中国科学院计算技术研究所 色情检测模型建立方法和色情检测方法
CN102222103A (zh) * 2011-06-22 2011-10-19 央视国际网络有限公司 视频内容的匹配关系的处理方法及装置
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN102799605A (zh) * 2012-05-02 2012-11-28 天脉聚源(北京)传媒科技有限公司 一种广告监播方法和系统
CN202602832U (zh) * 2012-05-10 2012-12-12 青岛海尔电子有限公司 识别电视机所播放节目的系统
CN102831537A (zh) * 2012-07-09 2012-12-19 北京十分科技有限公司 一种获取网络广告信息的方法及装置
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置
CN103533459A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种新闻视频条目拆分的方法和系统
CN103581705A (zh) * 2012-11-07 2014-02-12 深圳新感易搜网络科技有限公司 视频节目识别方法和系统
CN103617263A (zh) * 2013-11-29 2014-03-05 安徽大学 一种基于多模态特征的电视广告片花自动检测方法
US8781154B1 (en) * 2012-01-21 2014-07-15 Google Inc. Systems and methods facilitating random number generation for hashes in video and audio applications
CN104866616A (zh) * 2015-06-07 2015-08-26 中科院成都信息技术股份有限公司 监控视频目标搜索方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027990B2 (en) * 2001-10-12 2006-04-11 Lester Sussman System and method for integrating the visual display of text menus for interactive voice response systems
US20070288452A1 (en) * 2006-06-12 2007-12-13 D&S Consultants, Inc. System and Method for Rapidly Searching a Database
CN100461179C (zh) * 2006-10-11 2009-02-11 北京新岸线网络技术有限公司 基于内容的音频分析系统
CN101640057A (zh) * 2009-05-31 2010-02-03 北京中星微电子有限公司 一种音视频匹配方法及装置
CN102014295B (zh) * 2010-11-19 2012-11-28 嘉兴学院 一种网络敏感视频检测方法
EP2608062A1 (en) * 2011-12-23 2013-06-26 Thomson Licensing Method of automatic management of images in a collection of images and corresponding device
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US8805865B2 (en) * 2012-10-15 2014-08-12 Juked, Inc. Efficient matching of data
CN104036280A (zh) * 2014-06-23 2014-09-10 国家广播电影电视总局广播科学研究院 基于感兴趣区域和聚类相结合的视频指纹方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470897A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 基于音视频融合策略的敏感影片检测方法
CN101819638A (zh) * 2010-04-12 2010-09-01 中国科学院计算技术研究所 色情检测模型建立方法和色情检测方法
CN102222103A (zh) * 2011-06-22 2011-10-19 央视国际网络有限公司 视频内容的匹配关系的处理方法及装置
CN102890778A (zh) * 2011-07-21 2013-01-23 北京新岸线网络技术有限公司 基于内容的视频检测方法及装置
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
US8781154B1 (en) * 2012-01-21 2014-07-15 Google Inc. Systems and methods facilitating random number generation for hashes in video and audio applications
CN102799605A (zh) * 2012-05-02 2012-11-28 天脉聚源(北京)传媒科技有限公司 一种广告监播方法和系统
CN202602832U (zh) * 2012-05-10 2012-12-12 青岛海尔电子有限公司 识别电视机所播放节目的系统
CN102831537A (zh) * 2012-07-09 2012-12-19 北京十分科技有限公司 一种获取网络广告信息的方法及装置
CN103581705A (zh) * 2012-11-07 2014-02-12 深圳新感易搜网络科技有限公司 视频节目识别方法和系统
CN103533459A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种新闻视频条目拆分的方法和系统
CN103617263A (zh) * 2013-11-29 2014-03-05 安徽大学 一种基于多模态特征的电视广告片花自动检测方法
CN104866616A (zh) * 2015-06-07 2015-08-26 中科院成都信息技术股份有限公司 监控视频目标搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
快速准确的自动音乐/语音分段方法;万玉龙等;《清华大学学报》;20130630;第53卷(第6期);正文部分第1段、第3节、图4 *

Also Published As

Publication number Publication date
WO2017067400A1 (zh) 2017-04-27
CN106601243A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106601243B (zh) 一种视频文件识别方法及装置
US12014542B2 (en) Selecting and presenting representative frames for video previews
CN106973305B (zh) 一种视频中不良内容的检测方法及装置
US10497382B2 (en) Associating faces with voices for speaker diarization within videos
US9832523B2 (en) Commercial detection based on audio fingerprinting
US8140331B2 (en) Feature extraction for identification and classification of audio signals
US20190080177A1 (en) Video detection method, server and storage medium
CN110909205B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
US20140245463A1 (en) System and method for accessing multimedia content
US10535371B2 (en) Speaker segmentation and clustering for video summarization
CN107609149B (zh) 一种视频定位方法和装置
CN108595422B (zh) 一种过滤不良彩信的方法
US20070220265A1 (en) Searching for a scaling factor for watermark detection
WO2022142521A1 (zh) 活体检测方法、装置、设备和存储介质
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN112153397B (zh) 视频处理方法、装置、服务器及存储介质
CN111863033A (zh) 音频质量识别模型的训练方法、装置、服务器和存储介质
CN108733843B (zh) 基于哈希算法的文件检测方法和样本哈希库生成方法
CN113362832A (zh) 一种用于音视频人物的命名方法及相关装置
WO2006009035A1 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
US7571093B1 (en) Method of identifying duplicate voice recording
CN113593579A (zh) 一种声纹识别方法、装置和电子设备
CN109977265B (zh) 一种基于用户行为特征的iptv日志用户识别方法
CN112418146B (zh) 表情识别方法、装置、服务机器人和可读存储介质
Petridis et al. A multi-class method for detecting audio events in news broadcasts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant