CN111370022B

CN111370022B - 音频广告检测方法、装置、电子设备及介质

Info

Publication number: CN111370022B
Application number: CN201911359405.3A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-02-14
Anticipated expiration: 2039-12-25
Also published as: CN111370022A

Abstract

本申请提供一种音频广告检测方法、装置、电子设备及介质。方法包括：接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段；分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。本方案，在保证良好检测效果的基础上，进一步缩短了检测用时。

Description

音频广告检测方法、装置、电子设备及介质

技术领域

本申请涉及音频检测技术领域，具体涉及一种音频广告检测方法及装置、一种电子设备以及一种计算机可读介质。

背景技术

快速准确地在大量的电视节目中实现对目标广告的检测和定位对于媒体运营部门、广告投放企业、甚至媒体监管部门都有非常重要的现实意义。日益先进的多媒体信息检测技术，随着多媒体技术的进步与商业化进程的推进，被广泛应用于电视广告的检测或监播工作中，包含图像检测、视频检测、音频检测技术等。

在对电视广告中音频广告检测方面，由于直接检测算法的检测效率较低，常用到基于直方图的检测算法。但是，基于直方图的检测算法会存在如下不足：一方面，直方图算法基于对特征的分布统计，在计算过程中易丢失音频段的时序信息，造成定位困难；另一方面，为了保证检测的准确性，用于检测的音频特征矢量必然为多个特征构成的一组特征值，因此，音频特征矢量的维度较高；因此，单纯的基于直方图的音频检测方法并不具有可靠性和实用性。

发明内容

本申请的目的是提供一种音频广告检测方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种音频广告检测方法，包括：

接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段，每个音频片段具有起始时间和结束时间；

分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；

依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；

依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；

输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。

在一些可能的实现方式中，所述依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段，包括：

建立第二音频信息的粗检特征直方图；

依次建立第一音频信息中的音频片段粗检特征直方图，并计算与第二音频信息的粗检特征直方图的相似度；

筛选出相似度大于预设相似度阈值的音频片段。

在一些可能的实现方式中，所述依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段，包括：

依次计算所述符合预设粗检条件的音频片段与第二音频信息的精检特征之间的欧氏距离；

筛选出欧氏距离大于预设欧氏距离阈值的音频片段。

在一些可能的实现方式中，所述对第一音频信息进行分片处理之前，还包括：

对第一音频信息进行预处理，预处理的方式包括格式标准化、预加重和加窗。

在一些可能的实现方式中，所述粗检特征为过零率，所述精检特征为Mel 频率倒谱系数MFCC。

本申请第二方面提供一种音频广告检测装置，包括：

接收模块，用于接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段，每个音频片段具有起始时间和结束时间；

提取模块，用于分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；

粗检模块，用于依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；

精检模块，用于依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；

输出模块，用于输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。

在一些可能的实现方式中，所述粗检模块，具体用于：

建立第二音频信息的粗检特征直方图；

筛选出相似度大于预设相似度阈值的音频片段。

在一些可能的实现方式中，所述精检模块，具体用于：

筛选出欧氏距离大于预设欧氏距离阈值的音频片段。

在一些可能的实现方式中，所述装置，还包括：

预处理模块，用于在所述接收模块对第一音频信息进行分片处理之前，对第一音频信息进行预处理，预处理的方式包括格式标准化、预加重和加窗。

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

本申请第四方面提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请提供的音频广告检测方法、装置、电子设备及介质，接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段，每个音频片段具有起始时间和结束时间；分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。由于将检测过程分为粗检和精检两阶段，粗检阶段快速筛选出候选音频片段，精检阶段利用严格匹配，精确地检测出与样例音频同源的目标片段，获得检测结果，在保证良好检测效果的基础上，进一步缩短了检测用时。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种音频广告检测方法的流程图；

图2示出了本申请的一些实施方式所提供的一种音频广告检测装置的示意图；

图3示出了本申请的一些实施方式所提供的一种电子设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种音频广告检测方法及装置、一种电子设备以及计算机可读介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种音频广告检测方法的流程图，如图所示，所述音频广告检测方法，可以包括以下步骤：

步骤S101：接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段，每个音频片段具有起始时间和结束时间；

本实施例中，所述对第一音频信息进行分片处理之前，还可以对第一音频信息进行预处理，预处理的方式包括格式标准化、预加重和加窗。

具体的，接收到待检测音频信号后，为了后续步骤的准确定，可以先进行预处理，执行操作：格式标准化和预加重、分帧、加窗等。

步骤S102：分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；

本实施例中，对待检测音频信号和样例音频进行音频特征提取，包括一次性提取待检测音频信号和样例音频中每个音频帧的特征，包括粗检特征和精检特征。形成样例音频对应的模板矩阵和待检测音频信号对应的待检测特征矢量矩阵。

具体的，上述音频特征的选取将直接影响检测的效率和性能，根据直接检测算法中粗检特征和精检特征的选取原则，及对音频特征的分析可知，音频信号的短时过零率特征可以有效的区分不同的音频类型，且计算量小；又由于其为一维特征，可以在标量量化后快速建立直方图，因此非常适合用于粗检阶段；音频信号的Mel频率倒谱系数，即MFCC特征的获取，基于人耳的听觉的非线性特性，较为逼真的模拟了人耳的听觉系统，对音频片段具有标示性，并且具备良好的鲁棒性，因此选取MFCC作为精检阶段的特征分量。因此，所述粗检特征可以为过零率，所述精检特征可以为Mel频率倒谱系数(Mel-frequency cepstralcoefficients，MFCC)。

步骤S103：依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；

本实施例中，步骤S103可以具体实现为:

建立第二音频信息的粗检特征直方图；依次建立第一音频信息中的音频片段粗检特征直方图，并计算与第二音频信息的粗检特征直方图的相似度；筛选出相似度大于预设相似度阈值的音频片段。

具体的，建立模板矩阵的粗检特征直方图，检测窗确定起始待匹配片段，锁定待匹配特征矩阵，并生成相应的粗检特征直方图，计算两个粗检特征直方图的相似度；

若相似度大于预设相似度阈值，则待匹配片段为候选片段，进入精检阶段；

若相似度小于预设相似度阈值，则自适应确定滑动步长，移动检测窗，进行下一片段的粗检过程。

步骤S104：依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；

本实施例中，步骤S104可以具体实现为:

依次计算所述符合预设粗检条件的音频片段与第二音频信息的精检特征之间的欧氏距离；筛选出欧氏距离大于预设欧氏距离阈值的音频片段。

具体的，计算模板矩阵中精检特征与候选音频片段对应的候选矩阵中精检特征之间的欧氏距离；

若上述欧氏距离大于预设欧氏距离阈值，则可以设定滑动步长为1帧，移动检测窗，进行下一音频片段的粗检阶段；

若上述欧氏距离小于预设欧氏距离阈值，则可以认为当前待匹配音频片段与样例音频同源，即样例音频被检出。

步骤S105：输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。

具体的，记录当前被检测出的音频片段在待检测音频信号中的起始时间和结束时间及标记的次序，输出此次检测结果。

若存在下一待匹配音频片段，则进行下一音频片段的粗检过程，若检测窗已经移动至待检测音频尾部，则检测结束。

上述音频广告检测方法可用于客户端，本申请实施例中，所述客户端可以包括硬件，也可以包括软件。当客户端包括硬件时，其可以是具有显示屏并且支持信息交互的各种电子设备，例如，可以包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当客户端包括软件时，可以安装在上述电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

相较于现有技术，本申请实施例提供的上述音频广告检测方法，通过接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段，每个音频片段具有起始时间和结束时间；分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。由于将检测过程分为粗检和精检两阶段，粗检阶段快速筛选出候选音频片段，精检阶段利用严格匹配，精确地检测出与样例音频同源的目标片段，获得检测结果，在保证良好检测效果的基础上，进一步缩短了检测用时。

在上述的实施例中，提供了一种音频广告检测方法，与之相对应的，本申请还提供一种音频广告检测装置。本申请实施例提供的音频广告检测装置可以实施上述音频广告检测方法，该音频广告检测装置可以通过软件、硬件或软硬结合的方式来实现。例如，该音频广告检测装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图2，其示出了本申请的一些实施方式所提供的一种音频广告检测装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，所述音频广告检测装置10可以包括：

接收模块101，用于接收待检测的第一音频信息及作为样例的第二音频信息，对第一音频信息进行分片处理，形成多个音频片段，每个音频片段具有起始时间和结束时间；

提取模块102，用于分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；

粗检模块103，用于依次将第一音频信息中的音频片段和第二音频信息的粗检特征进行比对，筛选出符合预设粗检条件的音频片段；

精检模块104，用于依次将所述符合预设粗检条件的音频片段和第二音频信息的精检特征进行比对，筛选出符合预设精检条件的音频片段；

输出模块105，用于输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间。

在本申请实施例的一些实施方式中，所述自动标注特征，包括以下各项中的至少一项：

声纹特征、语法特征、语义特征。

在一些可能的实现方式中，所述粗检模块103，具体用于：

建立第二音频信息的粗检特征直方图；

筛选出相似度大于预设相似度阈值的音频片段。

在一些可能的实现方式中，所述精检模块104，具体用于：

筛选出欧氏距离大于预设欧氏距离阈值的音频片段。

在一些可能的实现方式中，所述装置10，还包括：

本申请实施例提供的音频广告检测装置10，与本申请前述实施例提供的音频广告检测方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的音频广告检测方法对应的电子设备，所述电子设备可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述音频广告检测方法。

请参考图3，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示，所述电子设备20包括：处理器200，存储器201，总线 202和通信接口203，所述处理器200、通信接口203和存储器201通过总线 202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的音频广告检测方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述音频广告检测方法可以应用于处理器200中，或者由处理器200 实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器 (Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器 200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的音频广告检测方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的音频广告检测方法对应的计算机可读介质，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的音频广告检测方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的音频广告检测方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种音频广告检测方法，其特征在于，包括：

对待检测音频信号和样例音频进行音频特征提取，包括一次性提取待检测音频信号和样例音频中每个音频帧的特征，包括粗检特征和精检特征，形成样例音频对应的模板矩阵和待检测音频信号对应的待检测特征矢量矩阵；

建立第二音频信息的粗检特征直方图；依次建立第一音频信息中的音频片段粗检特征直方图，并计算与第二音频信息的粗检特征直方图的相似度；筛选出相似度大于预设相似度阈值的音频片段；

若相似度小于预设相似度阈值，则自适应确定滑动步长，移动检测窗，进行下一片段的粗检过程；

依次计算所述符合预设粗检条件的音频片段与第二音频信息的精检特征之间的欧氏距离；筛选出欧氏距离大于预设欧氏距离阈值的音频片段；

若上述欧氏距离小于预设欧氏距离阈值，则可以认为当前待匹配音频片段与样例音频同源，即样例音频被检出；

输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间；

记录当前被检测出的音频片段在待检测音频信号中的起始时间和结束时间及标记的次序，输出此次检测结果；

2.根据权利要求1所述的方法，其特征在于，所述对第一音频信息进行分片处理之前，还包括：对第一音频信息进行预处理，预处理的方式包括格式标准化、预加重和加窗。

3.根据权利要求1或2所述的方法，其特征在于，所述粗检特征为过零率，所述精检特征为Mel频率倒谱系数MFCC。

4.一种音频广告检测装置，其特征在于，包括：

提取模块，用于分别提取第一音频信息和第二音频信息的音频特征，所述音频特征包括粗检特征和精检特征；对待检测音频信号和样例音频进行音频特征提取，包括一次性提取待检测音频信号和样例音频中每个音频帧的特征，包括粗检特征和精检特征，形成样例音频对应的模板矩阵和待检测音频信号对应的待检测特征矢量矩阵；

输出模块，用于输出所述符合预设精检条件的音频片段在第一音频信息中的起始时间和结束时间；

所述粗检模块，具体用于：建立第二音频信息的粗检特征直方图；

筛选出相似度大于预设相似度阈值的音频片段；

所述精检模块，具体用于：依次计算所述符合预设粗检条件的音频片段与第二音频信息的精检特征之间的欧氏距离；

筛选出欧氏距离大于预设欧氏距离阈值的音频片段。

5.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1至3任一项所述的方法。

6.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至3任一项所述的方法。