CN108280179B

CN108280179B - 音频广告检测的方法及系统、终端以及计算机可读存储介质

Info

Publication number: CN108280179B
Application number: CN201810060938.0A
Authority: CN
Inventors: 陆永帅; 罗荣刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2019-09-06
Anticipated expiration: 2038-01-22
Also published as: CN108280179A

Abstract

本发明提出一种音频广告检测的方法及系统、终端以及计算机可读存储介质。该音频广告检测的方法包括：获取音频资源；将所述音频资源进行切分，以形成多个音频单元；将所述音频单元进行语音识别，以识别出文字文本；检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告；以及将所述音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置。通过本发明的音频广告检测的方法，可以简单地、高精度地检测出音频资源中的广告。

Description

音频广告检测的方法及系统、终端以及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种音频广告检测的方法及系统、终端以及计算机可读存储介质。

背景技术

随着互联网的发展与普及，互联网上积累了大量的信息，其中包括大量语音类的音频信息。而在这些语音类的音频信息中，很多会带有广告。

当用户进行音频点播时，带有广告的音频会很大程度上影响用户的点播体验。例如，在故事机产品中，其核心功能就是根据用户的语音点播返回指定的故事音频。故事机的故事音频数据库共有数千个专辑，包含了数十万的音频。但是，音频的质量参差不齐，其中还有大量的音频包含着第三方的广告信息。如果用户使用故事机进行点播的时候，给用户播放了这类“低质量”的带广告的故事资源，势必会给用户造成不好的点播体验。

因此，如何能够在数据入库的时候，快速的筛选出带有广告的音频，是大家十分关注的问题。

发明内容

本发明实施例提供一种音频广告检测的方法、系统和终端，以解决现有技术中的以上的一个或多个技术问题，或至少提供一种有益的选择。

第一方面，本发明实施例提供了一种音频广告检测的方法，所述方法包括：

获取音频资源；

将所述音频资源进行切分，以形成多个音频单元；

将所述音频单元进行语音识别，以识别出文字文本；

检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告；以及

将所述音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置。

结合第一方面，本发明在第一方面的第一种实施方式中，所述方法还包括：

在将所述音频资源进行切分后，截取处于所述音频资源开始部分和结尾部分的音频单元，以进行语音识别。

优选地，所述开始部分和所述结尾部分的时长为60秒。

结合第一方面、第一方面的第一种实施方式，本发明在第一方面的第二种实施方式中，所述检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告，包括：

检测所述文字文本中是否包含广告关键字库中的广告关键字，以确定所述音频单元中是否含有广告；

其中，所述广告关键字库预先建立并存储。

结合第一方面、第一方面的第一种实施方式和第一方面的第二种实施方式，本发明在第一方面的第三种实施方式中，在将所述音频资源进行切分，以形成多个音频单元之前，所述方法还包括：

将所获取到的所述音频资源进行格式转换。

结合第一方面及任一种实施方式，本发明在第一方面的第四种实施方式中，所述方法包括：

根据广告的类型和广告的位置，对各个音频资源的优先级进行排序。

第二方面，本发明实施例提供了一种音频广告检测的系统，包括：

音频获取单元，配置用于获取音频资源；

音频切分单元，配置用于将所述音频资源进行切分，以形成多个音频单元；

语音识别单元，配置用于将所述音频单元进行语音识别，以识别出文字文本；

广告检测单元，配置用于检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告；以及

分析输出单元，配置用于将所述音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置。

结合第二方面，本发明在第二方面的第一种实施方式中，所述系统还包括：

音频截取单元，配置用于在将所述音频资源进行切分后，截取处于所述音频资源开始部分和结尾部分的音频单元，以进行语音识别；

其中，所述开始部分和所述结尾部分的时长为60秒。

优选地，所述广告关键字存储在广告关键字库中；

其中，所述广告关键字库预先建立并存储。

结合第二方面和第二方面的第一种实施方式，本发明在第二方面的第二种实施方式中，所述系统还包括：

格式转换单元，配置用于在将所述音频资源进行切分之前，将所获取到的所述音频资源进行格式转换。

结合第二方面及任一种实施方式中，所述系统还包括：

音频排序单元，配置用于根据广告的类型和广告的位置，对各个音频资源的优先级进行排序。

第三方面，本发明实施例提供了一种音频广告检测的终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现上述第一方面中任一种所述音频广告检测的方法。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过本发明的音频广告检测的方法，可以简单地、高精度地检测出音频资源中的广告。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出了根据本发明一个实施例的音频广告检测的方法100的流程图；

图2示出了根据本发明另一个实施例的音频广告检测的方法200的流程图；

图3示出了根据本发明另一个实施例的音频广告检测的方法300的流程图；

图3a示出了根据本发明另一个实施例的音频广告检测的方法303的流程图；

图4示出了根据本发明一个实施例的音频广告检测的系统400的结构框图；

图5示出了根据本发明另一个实施例的音频广告检测的系统500的结构框图；

图6示出了根据本发明另一个实施例的音频广告检测的系统600的结构框图；

图6a示出了根据本发明另一个实施例的音频广告检测的系统606的结构框图；以及

图7示出了根据本发明的音频广告检测的终端的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下面结合图1至图7所示，对本发明的音频广告检测的方法、系统和终端进行描述。

参见图1所示，本发明一个实施例的音频广告检测的方法100，包括步骤S101至步骤S105。

首先，通过音频获取步骤S101，获取音频资源。

接着，进入音频切分步骤S102，将音频资料进行切分，以形成多个音频单元。在一种实施例中，可以采用音频处理工具，按照时间，将音频资源切分成多个音频单元。

然后，通过语音识别步骤S103，将音频单元进行语音识别，以识别出文字文本。在一种实施例中，可以采用语音识别程序，对音频单元进行从语音到文字的识别和转换，从而，形成文字文本。

通过广告检测步骤S104，检测文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告。优选地，广告关键字存储在广告关键字库中，其中，所述广告关键字库预先建立并存储。在一种实施例中，广告关键字包括但不限于：“微信”，“应用商店”，“公众号”，“app”等。

最后，通过分析输出步骤S105，将音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置。在一种实施例中，在步骤S105中，可以根据广告关键词的分类不同，而将广告分析为不同的类型。并且，由于音频资源按照时间进行切分，切分后的音频单元对应音频资料的不同时长的位置，因而，当确定某一音频单元中包含广告时，可以进一步分析出广告在整段音频资料中的位置。

根据本发明的音频广告检测的方法，无需人工对音频中的广告进行标注，也无需建立负责的广告特征库，而是简单的通过将音频转换成文字，并通过文字匹配到涉及广告用语中的关键字，从而可以实现广告的检测。通过本发明的音频广告检测的方法，可以简单并高效的检测出音频资源中的广告，并确定广告的类型和位置。

参见图2所示，本发明一个实施例的音频广告检测的方法200，包括步骤S101至步骤S106。其中，步骤S101至步骤S105已在前文进行说明，在这里不在赘述。

参见图2所示，音频广告检测的方法200，在音频切分步骤S102，将所述音频资源进行切分后，进行音频截取步骤S106。

音频截取步骤S106，截取处于所述音频资源开始部分和结尾部分的音频单元，以进行后续的语音识别步骤S103。在一种实施例中，由于大多数的广告都出现在一段音频资料的开始或结尾部分，所以可以直接截取处于开始部分和结尾部分的音频单元，并进行后续的广告检测等步骤。从而，可以提高音频资源中检测广告的效率。

优选地，开始部分和结尾部分的时长为60秒。但时长并不仅限于此，可以根据需要设置成不同长短的时长，例如：30秒、45秒、90秒等。

参见图3所示，本发明一个实施例的音频广告检测的方法300，包括步骤S101至步骤S107。当然，在另一个实施例中，音频广告检测的方法300，包括步骤S101至步骤S105、步骤S107。其中，步骤S101至步骤S106已在上述进行说明，在这里不在赘述。

参见图3所示，音频广告检测的方法300，在音频切分步骤S102，将所述音频资源进行切分之前，进行格式转换步骤S107。

格式转换步骤S107，将所获取到的音频资源进行格式转换。并对经过格式转换后的音频资源进行音频切分等步骤。在一种实施例中，通过格式转换工具，将mp3或m4a等格式的音频资源，转换成16k单声道的wav格式。从而，wav格式的音频资源更便于后续的语音识别。

参见图3a所示，本发明一个实施例的音频广告检测的方法303，在方法300的基础上还包括步骤S105’。当然，在方法100和方法200的基础上也可以包括步骤S105’。

音频排序步骤S105’，根据广告的类型和广告的位置，对各个音频资源的优先级进行排序。在一种实施例中，通过音频广告检测方法100、方法200或方法300可以得到某一音频资源中广告的类型和出现的位置。并且，可以根据广告出现的类型和位置，对各个音频资源的优先级进行排序。例如：广告类型较为简单的音频资源比广告类型较为复杂的音频资源的优先级别高，广告位置靠近音频结尾处的音频资源比广告位置靠近音频开始处的音频资源的优先级别高。

根据本发明的音频广告检测的方法，可以根据广告的类型和广告的位置，对各个音频资源的优先级进行排序，从而，可以得到质量更有的音频资源。这样，在用户选择播放音频时，能够提高用户对音频资源的满意程度。例如：本发明的音频广告检测的方法可以应用于故事机；故事机的音频数据库中收集多个故事音频资源，在建立音频数据库时，可以采用本发明的音频广告检测的方法，对其中的故事音频资源进行优先级排序；当用户选择故事音频播放时，可以根据优先级的排序，优先播放优先级较高的故事音频，从而提高用户的满意程度。

参见图4所示，一种音频广告检测的系统400，包括：音频获取单元401、音频切分单元402、语音识别单元403、广告检测单元404和分析输出单元405。

音频获取单元401，配置用于获取音频资源。

音频切分单元402，配置用于将所述音频资源进行切分，以形成多个音频单元。在一种实施例中，音频切分单元402可以按照时间，将音频资源切分成多个音频单元。

语音识别单元403，配置用于将所述音频单元进行语音识别，以识别出文字文本。在一种实施例中，语音识别单元403可以对音频单元进行从语音到文字的识别和转换，从而形成文字文本。

广告检测单元404，配置用于检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告。优选地，广告关键字存储在广告关键字库中，其中，所述广告关键字库预先建立并存储。在一种实施例中，广告关键字包括但不限于：“微信”，“应用商店”，“公众号”，“app”等。

分析输出单元405，配置用于将所述音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置。在一种实施例中，分析输出单元405可以根据广告关键词的分类不同，而将广告分析为不同的类型。并且，由于音频资源按照时间进行切分，切分后的音频单元对应音频资料的不同时长的位置，因而，当确定某一音频单元中包含广告时，分析输出单元405可以进一步分析出广告在整段音频资料中的位置。

根据本发明的音频广告检测的系统，无需人工对音频中的广告进行标注，也无需建立负责的广告特征库，而是简单的通过将音频转换成文字，并通过文字匹配到涉及广告用于的关键字，从而可以实现广告的检测。通过本发明的音频广告检测的系统，可以简单并高效的检测出音频资源中的广告，并确定广告的类型和位置。

参见图5所示，一种音频广告检测的系统500，包括：音频获取单元401、音频切分单元402、语音识别单元403、广告检测单元404、分析输出单元405和音频截取单元406。其中，音频获取单元401、音频切分单元402、语音识别单元403、广告检测单元404和分析输出单元405已在上述进行说明，在这里不在赘述。

音频截取单元406，配置用于在将音频资源进行切分后，截取处于音频资源开始部分和结尾部分的音频单元，以进行语音识别。优选地，开始部分和结尾部分的时长为60秒。

具体地，图5所示的音频广告检测的系统500与图2所示的音频广告检测的方法200相对应。图5所示的系统的具体实现方式参照图2所示的方法的实施例中的描述。

参见图6所示，一种音频广告检测的系统600，包括：音频获取单元401、音频切分单元402、语音识别单元403、广告检测单元404、分析输出单元405、音频截取单元406和格式转换单元407。当然，在另一个实施例的中，音频广告检测的系统600，可以包括：音频获取单元401、音频切分单元402、语音识别单元403、广告检测单元404、分析输出单元405和格式转换单元407。其中，音频获取单元401、音频切分单元402、语音识别单元403、广告检测单元404、分析输出单元405和音频截取单元406已在上述进行说明，在这里不在赘述。

格式转换单元407，配置用于在将音频资源进行切分之前，将所获取到的音频资源进行格式转换。

具体地，图6所示的音频广告检测的系统600与图3所示的音频广告检测的方法300相对应。图6所示的系统的具体实现方式参照图3所示的方法的实施例中的描述。

参见图6a所示，本发明一个实施例的音频广告检测的系统606，在系统600的基础上还包括音频排序单元405’。当然，在系统400和系统500的基础上可以包括音频排序单元405’。

音频排序单元405’，配置用于根据广告的类型和广告的位置，对各个音频资源的优先级进行排序。

具体地，图6a所示的音频广告检测的系统606与图3a所示的音频广告检测的方法303相对应。图6a所示的系统的具体实现方式参照图3a所示的方法的实施例中的描述。

根据本发明的音频广告检测的系统，可以根据广告的类型和广告的位置，对各个音频资源的优先级进行排序，从而，可以得到质量更有的音频资源。这样，在用户选择播放音频时，能够提高用户对音频资源的满意程度。

参见图7所示，一种音频广告检测的终端包括存储器710和处理器720。存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行计算机程序时实现上述实施例中的音频广告检测的方法。存储器710和处理器720的数量可以为一个或多个。

该服务器还包括：

通信接口730，用于与外界设备进行通信，进行数据交互传输。

存储器710可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器710、处理器720和通信接口730独立实现，则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器710、处理器720及通信接口730集成在一块芯片上，则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。

在一种实施例中，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述音频广告检测的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频广告检测的方法，其特征在于，所述方法包括：

获取音频资源；

将所述音频资源进行切分，以形成多个音频单元；

将所述音频单元进行语音识别，以识别出文字文本；

检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告；

将所述音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置；以及

根据所述广告的类型和广告的位置，对各个所述音频资源的优先级进行排序。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述开始部分和所述结尾部分的时长为60秒。

4.根据权利要求3所述的方法，其特征在于，所述检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告，包括：

其中，所述广告关键字库预先建立并存储。

5.根据权利要求1-4任一项权利要求所述的方法，其特征在于，在将所述音频资源进行切分，以形成多个音频单元之前，所述方法还包括：

将所获取到的所述音频资源进行格式转换。

6.一种音频广告检测的系统，其特征在于，所述系统包括：

音频获取单元，配置用于获取音频资源；

广告检测单元，配置用于检测所述文字文本中是否包含广告关键字，以确定所述音频单元中是否含有广告；

分析输出单元，配置用于将所述音频单元的检测结果进行分析并输出，以确定广告的类型和广告的位置；以及

7.根据权利要求6所述的系统，其特征在于，所述系统还包括：

其中，所述开始部分和所述结尾部分的时长为60秒。

8.根据权利要求7所述的系统，其特征在于，所述广告关键字存储在广告关键字库中；

其中，所述广告关键字库预先建立并存储。

9.根据权利要求8所述的系统，其特征在于，所述系统还包括：

10.一种音频广告检测的终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

11.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。