CN108520078A

CN108520078A - 视频识别方法和装置

Info

Publication number: CN108520078A
Application number: CN201810359754.4A
Authority: CN
Inventors: 王知践; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-09-11
Anticipated expiration: 2038-04-20
Also published as: CN108520078B

Abstract

本发明实施例提出一种视频识别方法和装置。该方法包括：从目标视频中提取目标音频；从目标音频中提取第一音频特征；查询索引库中是否存在与第一音频特征匹配的第二音频特征，所述索引库中包括各音频特征与其所属的视频的索引关系；如果查询到与第一音频特征匹配的第二音频特征，则获取第二音频特征所属的候选视频。本发明实施例根据索引库中各音频特征与其所属的视频的索引关系，能够根据目标视频的音频特征查找匹配的候选视频，从而有利于识别出于目标视频相似的视频，以便于后续对重复视频进行去除、筛选等处理。

Description

视频识别方法和装置

技术领域

本发明涉及视频技术领域，尤其涉及一种视频识别方法和装置。

背景技术

采用feed(馈送)流可以将广告等插入要发布的信息中同时发布。在feed流的视频中，有很多非原创的重复视频。

去除重复视频的方式可以是，通过对视频进行图像识别，以检索是否有重复的视频。但图像识别的方式，需要比对的视频的帧图像数据量大，识别效率低，不能很好的处理掉重复视频。

发明内容

本发明实施例提供一种视频识别装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种视频识别方法，其特征在于，包括：

从目标视频中提取目标音频；

从目标音频中提取第一音频特征；

查询索引库中是否存在与第一音频特征匹配的第二音频特征，所述索引库中包括各音频特征与其所属的视频的索引关系；

如果查询到与第一音频特征匹配的第二音频特征，则获取第二音频特征所属的候选视频。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，还包括：

根据目标视频包括的各音频特征与候选视频包括的各音频特征，比较候选视频与目标视频是否相似。

结合第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，根据目标视频包括的各音频特征与候选视频包括的各音频特征，比较候选视频与目标视频是否相似，包括：

如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值，则确定候选视频与目标视频相似。

结合第一方面，本发明实施例在第一方面的第三种实现方式中，查询索引库中是否存在与第一音频特征匹配的第二音频特征，包括：

向各服务器分发查询请求，所述查询请求中包括第一音频特征，所述查询请求用于指示各所述服务器在自身保存的索引库中查询是否存在与第一音频特征匹配的第二音频特征；

接收各服务器返回的查询结果，所述查询结果中包括与第一音频特征匹配的第二音频特征。

结合第一方面或第一方面的任意一种实现方式中，本发明实施例在第一方面的第四种实现方式中，还包括：

从各样本视频中提取样本音频；

从各样本音频中提取样本音频特征；

在各服务器的索引库中，分布式地保存各样本视频与各样本音频特征之间的索引关系。

第二方面，本发明实施例提供了一种视频识别装置，包括：

第一音频提取模块，用于从目标视频中提取目标音频；

第一特征提取模块，用于从目标音频中提取第一音频特征；

特征查询模块，用于查询索引库中是否存在与第一音频特征匹配的第二音频特征，所述索引库中包括各音频特征与其所属的视频的索引关系；

视频获取模块，用于如果查询到与第一音频特征匹配的第二音频特征，则获取第二音频特征所属的候选视频。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，还包括：

比较模块，用于根据目标视频包括的各音频特征与候选视频包括的各音频特征，比较候选视频与目标视频是否相似。

结合第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，所述比较模块还用于如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值，则确定候选视频与目标视频相似。

结合第二方面，本发明实施例在第二方面的第三种实现方式中，所述特征查询模块包括：

请求分发子模块，用于向各服务器分发查询请求，所述查询请求中包括第一音频特征，所述查询请求用于指示各所述服务器在自身保存的索引库中查询是否存在与第一音频特征匹配的第二音频特征；

结果接收子模块，用于接收各服务器返回的查询结果，所述查询结果中包括与第一音频特征匹配的第二音频特征。

结合第二方面或第二方面的任意一种实现方式中，本发明实施例在第二方面的第四种实现方式中，还包括：

第二音频提取模块，用于从各样本视频中提取样本音频；

第二特征提取模块，用于从各样本音频中提取样本音频特征；

索引库模块，用于在各服务器的索引库中，分布式地保存各样本视频与各样本音频特征之间的索引关系。

第三方面，本发明实施例提供了一种视频识别装置，包括：

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，视频识别装置的结构中包括处理器和存储器，所述存储器用于存储支持视频识别装置执行上述第一方面中视频识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述视频识别装置还可以包括通信接口，用于视频识别装置与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于视频识别装置所用的计算机软件指令，其包括用于执行上述视频识别方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：根据索引库中各音频特征与其所属的视频的索引关系，能够根据目标视频的音频特征查找匹配的候选视频，从而有利于识别出于目标视频相似的视频，以便于后续对重复视频进行去除、筛选等处理。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明一实施例的视频识别方法的流程图。

图2示出根据本发明另一实施例的视频识别方法的流程图。

图3示出根据本发明另一实施例的视频识别方法中构建索引的示意图。

图4示出根据本发明另一实施例的视频识别方法中构建索引的示意图。

图5示出根据本发明一实施例的视频识别装置的结构框图。

图6示出根据本发明另一实施例的视频识别装置的结构框图。

图7示出根据本发明另一实施例的视频识别装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明一实施例的视频识别方法的流程图。如图1所示，该视频识别方法包括以下步骤：

101、从目标视频中提取目标音频；

102、从目标音频中提取第一音频特征；

103、查询索引库中是否存在与第一音频特征匹配的第二音频特征，所述索引库中包括各音频特征与其所属的视频的索引关系；

104、如果查询到与第一音频特征匹配的第二音频特征，则获取第二音频特征所属的候选视频。

在本发明实施例中，音频特征包括但不限于MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)、Fbank(Filter-bank，对数谱特征)、基于FFT(FastFourier Transformation，快速傅里叶变换)的语谱图等特征。从目标音频中提取的目标音频的数量可能是一个，也可能是多个。从每个目标音频中可以对应的提取一个或多个音频特征。根据每一种不同的音频特征提取方法，提取得到的音频特征数量可能不同。在建立音频索引库时，可以采用一种或多种音频特征提取方法提取音频特征。然后在索引库中保存视频与其所包括的音频特征的索引关系。在索引库中，能够根据音频特征查找到该音频特征所属的视频，也能够根据视频查找到该视频所包括的音频特征。

例如，从视频V1中提取音频A1、A2、B1、B2，从这些音频中提取的音频特征分别为A1-1、A2-1、B1-1、B2-1。从视频V2中提取特征A1、B1、C1，从这些音频中提取的音频特征分别为A1-1、B1-1、C1-1。从视频V3中提取特征A1、B2、C1，从这些音频中提取的音频特征分别为A1-1、B2-1、C1-1。然后，在索引库中保存的音频特征和视频的索引关系的示例参见下表1。当然，索引库中也可以保存音频特征与音频的索引关系。

表1

音频特征	视频(编号、名称、地址等)
		A1-1	V1、V2
A2-1	V1
		B1-1	V1、V2
B2-1	V1、V3
		C1-1	V2、V3

如果需要查找是否有与某个目标视频相似的其他视频，可以从该目标视频中提取各目标音频，再从各目标音频中提取对应的各第一音频特征。然后在已经建立的索引库中，根据每个第一音频特征进行查找。可能有些第一音频特征存在匹配的第二音频特征，而有些第一音频特征不存在匹配的第二音频特征。如果查找到与某个第一音频特征匹配的第二音频特征，可以根据该第二音频特征在索引库中查找其所归属的候选视频。

接上例：如果目标视频V7包括的第一音频特征为A1-1和A2-1，则在索引库中，根据与A1-1相同的音频特征可以索引到候选视频V1、V2，根据与A1-1相同的音频特征可以索引到候选视频V1，因此，根据目标视频V7的音频特征在索引库中查找到的候选视频为V1和V2。此外，在索引库中还可以查找到V1包括的音频特征分别为A1-1、A2-1、B1-1、B2-1，V2包括的音频特征分别为A1-1、B1-1、C1-1。

本发明实施例，根据索引库中各音频特征与其所属的视频的索引关系，能够根据目标视频的音频特征查找匹配的候选视频，从而有利于识别出于目标视频相似的视频，以便于后续对重复视频进行去除、筛选等处理。

图2示出根据本发明另一实施例的视频识别方法的流程图。在上述实施例的基础上，如图2所示，该方法还包括以下步骤：

201、从各样本视频中提取样本音频；

202、从各样本音频中提取样本音频特征；

203、在各服务器的索引库中，分布式地保存各样本视频与各样本音频特征之间的索引关系。

参见图3，视频库例如基于feed流的广告网站的数据库中可能包括海量的视频，这些视频可以作为建立索引库的样本视频。如果想要对视频库中视频进行去重，可以先采用特征提取算法从视频库的视频中提取音频特征，再根据索引算法构建音频索引库(可以简称索引库)。该索引库可以是离线的。该索引库中包括音频特征与其所属的视频的索引关系(或索引关系)。

参见图4，如果需要从视频库中去除与某个目标视频重复的其他视频，可以从该目标视频中提取目标音频，再从目标音频中提取对应的第一音频特征。然后在已经建立的索引库中，查找与第一音频特征匹配的第二音频特征。再根据第二音频特征获取候选视频。然后，再根据候选视频与目标视频的相似度，确定是否需要从视频库中删除这些候选视频。

在本发明实施例中，索引库可以分布式地保存在多个服务器或服务器集群中，通过前端分发模块将收到的查询请求分发给服务器集群中的各服务器进行查询。因此，在一种可能的实现方式中，如图2所示，步骤103包括：

301、向各服务器分发查询请求，所述查询请求中包括第一音频特征，所述查询请求用于指示各所述服务器在自身保存的索引库中查询是否存在与第一音频特征匹配的第二音频特征；

302、接收各服务器返回的查询结果，所述查询结果中包括与第一音频特征匹配的第二音频特征。

此外，参见图4，前端分发模块将查询请求转发到各服务器后，服务器中的后端处理模块可以调用查询(query)模块，加载索引模块，读取索引库中的信息，以查找与查询请求中包括的音频特征匹配的音频特征，从而得到候选视频。然后，调用比较(compare)模块，在内存中比对目标视频与候选视频的相似度大小。

进一步地，后端处理模块还可以调用插入(insert)模块，以便将新视频及其对应的音频特征插入索引库中以备检索查询。并且，还可以调用保存(save)模块以支持保存操作，对当前已经全量存储的视频库，定时进行磁盘保存。

在一种可能的实现方式中，该方法还包括：

204、根据目标视频包括的各音频特征与所述候选视频包括的各音频特征，比较候选视频与目标视频是否相似。

在一种可能的实现方式中，步骤204包括：如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值，则确定候选视频与目标视频相似。

举例而言，可以计算候选视频与目标视频的相同音频特征的数量与目标视频的所有音频特征的数量的比值，如果该比值大于某个阈值例如60％，则可以认为候选视频与目标视频的相似度高。

本发明实施例可以应用于富媒体(Rich Media)的场景。富媒体可以包括动画、声音、视频和/或交互性的信息等。例如，富媒体可以包括流媒体、声音、Flash(动画)、以及Java、Javascript、DHTML(Dynamic HyperText Markup Language，动态超文本标记语言)等程序设计语言中的任意一种或者几种的组合。

图5示出根据本发明一实施例的视频识别装置的结构框图。如图5所示，该视频识别装置可以包括：

第一音频提取模块41，用于从目标视频中提取目标音频；

第一特征提取模块43，用于从目标音频中提取第一音频特征；

特征查询模块45，用于查询索引库中是否存在与第一音频特征匹配的第二音频特征，所述索引库中包括各音频特征与其所属的视频的索引关系；

视频获取模块47，用于如果查询到与第一音频特征匹配的第二音频特征，则获取第二音频特征所属的候选视频。

图6示出根据本发明另一实施例的视频识别装置的结构框图。如图6所示，在上述实施例的基础上，该视频识别装置还可以包括：

比较模块51，用于根据目标视频包括的各音频特征与候选视频包括的各音频特征，比较候选视频与目标视频是否相似。

在一种可能的实现方式中，所述比较模块51还用于如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值，则确定候选视频与目标视频相似。

在一种可能的实现方式中，所述特征查询模块45包括：

在一种可能的实现方式中，该装置还包括：

第二音频提取模块53，用于从各样本视频中提取样本音频；

第二特征提取模块55，用于从各样本音频中提取样本音频特征；

索引库模块57，用于在各服务器的索引库中，分布式地保存各样本视频与各样本音频特征之间的索引关系。

本发明实施例各装置中的模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图7示出根据本发明另一实施例的视频识别装置的结构框图。如图7所示，该视频识别装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的视频识别方法。所述存储器910和处理器920的数量可以为一个或多个。

该视频识别装置还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频识别方法，其特征在于，包括：

从目标视频中提取目标音频；

从目标音频中提取第一音频特征；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，根据目标视频包括的各音频特征与候选视频包括的各音频特征，比较候选视频与目标视频是否相似，包括：

4.根据权利要求1所述的方法，其特征在于，查询索引库中是否存在与第一音频特征匹配的第二音频特征，包括：

5.根据权利要求1至4中任一项所述的方法，还包括：

从各样本视频中提取样本音频；

从各样本音频中提取样本音频特征；

6.一种视频识别装置，其特征在于，包括：

第一音频提取模块，用于从目标视频中提取目标音频；

第一特征提取模块，用于从目标音频中提取第一音频特征；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述比较模块还用于如果候选视频与目标视频的相同音频特征在目标视频的音频特征中所占的比例大于设定阈值，则确定候选视频与目标视频相似。

9.根据权利要求6所述的装置，其特征在于，所述特征查询模块包括：

10.根据权利要求6至9中任一项所述的装置，还包括：

第二音频提取模块，用于从各样本视频中提取样本音频；

11.一种视频识别装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。