CN104252480A

CN104252480A - 一种音频信息检索的方法和装置

Info

Publication number: CN104252480A
Application number: CN201310263426.1A
Authority: CN
Inventors: 黄亮
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-06-27
Filing date: 2013-06-27
Publication date: 2014-12-31
Anticipated expiration: 2033-06-27
Also published as: CN104252480B

Abstract

本发明公开了一种音频信息检索的方法和装置，所述方法包括：获取待处理音频信息；获取所述待处理音频信息的音频数据；提取所述音频数据的特征组，所述特征组包括不少于一个特征；根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。由于本发明在音频信息包含恶意信息时，能够对其进行检索，避免了存在恶意信息的音频信息流传于网络，保证了用户的正常上网体验。

Description

一种音频信息检索的方法和装置

技术领域

本发明涉及数据处理领域，具体涉及一种音频信息检索的方法和装置。

背景技术

随着互联网的发展，网络上的多媒体信息越来越多，同时能够提供多媒体信息服务的业务模式也层出不穷，例如微博、播客等，都支持用户通过网络上传音频信息。但是不可避免的，用户上传的音频信息中可能包含不符合现有法律法规的内容，如涉及到色情、淫秽、反动、封建迷信、凶杀暴力、恐怖、教唆犯罪等违反法律法规的内容，或者具有版权保护的信息，也可能是以谋取商业利益为目的的广告等，这些恶意损害用户体验的音频信息都需要及时的被甄别和删除，以保证用户的正常上网体验。

现有技术中，通过人工审核的方法对用户上传的音频信息进行检索，以便检索出带有恶意信息的音频信息，保证用户的上网体验。

但是，人工审核音频信息的方法花费时间长，对于音频信息的检索效率较低。

发明内容

本发明提供了一种音频信息检索的方法和装置，能够提高音频信息的检索效率。

本发明提供了一种音频信息检索的方法，所述方法包括：

获取待处理音频信息；

获取所述待处理音频信息的音频数据；

提取所述音频数据的特征组，所述特征组包括不少于一个特征；

根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。

优选地，所述根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息，包括：

将所述特征组中的任一特征确定为目标特征，执行特征匹配流程：在预设的音频特征库中，获取与所述目标特征匹配的样本特征，所述音频特征库包括音频样本与样本特征的对应关系；获取所述样本特征对应的音频样本后，将所述音频样本加入结果音频组；将任一未执行特征匹配流程的特征确定为目标特征，继续执行所述特征匹配流程，直到所述特征组中的特征均完成所述特征匹配流程；根据所述结果音频组确定所述待处理音频信息的同源信息。

优选地，所述根据所述结果音频组确定所述待处理音频信息的同源信息，包括：

获取所述结果音频组中数量最多的音频样本；

将所述音频样本确定为所述待处理音频信息的同源信息。

获取所述结果音频组中的音频样本；

将所述音频样本进行组合，得到组合结果；

根据所述组合结果确定所述待处理音频信息的同源信息。

优选地，所述提取所述音频数据的特征组，所述特征组包括不少于一个特征，包括：

将所述音频数据分帧，得到帧数据；

将所述帧数据进行短时傅立叶变换后，得到变换后帧数据；

将所述变换后帧数据进行分频后，得到频谱图；

根据所述频谱图，提取所述音频数据的特征组。

优选地，所述将所述音频数据分帧，得到帧数据之前，还包括：

将所述音频数据进行降采样。

本发明还提供一种音频信息检索的装置，所述装置包括：

第一获取模块，用于获取待处理音频信息；

第二获取模块，用于获取所述待处理音频信息的音频数据；

提取模块，用于提取所述音频数据的特征组，所述特征组包括不少于一个特征；

第一确定模块，用于根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。

优选地，所述第一确定模块，包括：

第一确定子模块，用于将所述特征组中的任一特征确定为目标特征；

第一获取子模块，用于在预设的音频特征库中，获取与所述目标特征匹配的样本特征，所述音频特征库包括音频样本与样本特征的对应关系；

第二获取子模块，用于获取所述样本特征对应的音频样本后，将所述音频样本加入结果音频组；

第二确定子模块，用于将任一未执行特征匹配流程的特征确定为目标特征，继续触发所述第一获取子模块，直到所述特征组中的特征均完成触发所述第一获取子模块；

第三确定子模块，用于根据所述结果音频组确定所述待处理音频信息的同源信息。

优选地，所述第三确定子模块，包括：

第三获取子模块，用于获取所述结果音频组中数量最多的音频样本；

第四确定子模块，用于将所述音频样本确定为所述待处理音频信息的同源信息。

优选地，所述第三确定子模块，包括：

第四获取子模块，用于获取所述结果音频组中的音频样本；

组合子模块，用于将所述音频样本进行组合，得到组合结果；

第五确定子模块，用于根据所述组合结果确定所述待处理音频信息的同源信息。

优选地，所述提取模块，包括：

分帧子模块，用于将所述音频数据分帧，得到帧数据；

变换子模块，用于将所述帧数据进行短时傅立叶变换后，得到变换后帧数据；

分频子模块，用于将所述变换后帧数据进行分频后，得到频谱图；

提取子模块，用于根据所述频谱图，提取所述音频数据的特征组。

优选地，所述提取模块，还包括：

降采样子模块，用于将所述音频数据进行降采样。

本发明首先获取待处理音频信息，其次，获取所述待处理音频信息的音频数据，再次，提取所述音频数据的特征组，所述特征组包括不少于一个特征，最后，根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。由于本发明在音频信息包含恶意信息时，能够对其进行检索，避免了存在恶意信息的音频信息流传于网络，保证了用户的正常上网体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例一提供的音频信息检索的方法流程图；

图2为实施例一提供的以特征P为例介绍特征的匹配过程流程图；

图3为实施例二提供的音频信息检索的装置结构图；

图4为实施例二提供的服务器结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

通过对上传的音频信息进行分析发现，各个恶意音频信息中的数据彼此存在大量的重复，如用户可能将含有恶意信息的单个音频信息多次上传，或者将音频信息进行简单编辑后再次上传等，我们可以将这样存在大量重复内容的音频信息称为同源信息。例如，对于一段音频信息A，用户可以在其音频信息中插入一些其他音频数据，然后重新压制可以得到音频信息B，那么音频信息B就是音频信息A的同源信息。也就是说，当音频信息A已经被确定为含有恶意信息的音频信息的情况下，可以将音频信息A作为样本音频存储于音频特征库中，把与该样本音频的同源信息都确定为含有恶意信息的音频信息，从而完成音频信息的检索。

参考图1，图1为本实施例提供的音频信息检索的方法流程图，具体包括：

步骤101：获取待处理音频信息。

本实施例中，在检索音频信息之前，首先获取待处理音频信息作为后续步骤的处理对象。

实际操作中，可以将任意一段音频信息作为待处理音频信息，通过本实施例提供的音频信息检索的方法获取待处理音频信息的同源信息，从而完成音频信息的检索。例如，可以将用户上传到服务器的一段音频作为待处理音频信息，也可以将载有音频信息的视频作为待处理对象，其中，可以获取视频中的音频信息作为待处理音频信息。

其中，获取待处理音频信息的方法很多，本实施例对此不做限制。

步骤102：获取所述待处理音频信息的音频数据。

本实施例中，可以获取待处理音频信息的音频数据，具体的，可以将待处理音频信息进行解码，获取解码后的音频数据。实际操作中获取音频数据的方式很多，本实施例不做限制。

步骤103：提取所述音频数据的特征组，所述特征组包括不少于一个特征。

本实施例中，在获取音频数据后，提取该音频数据中的特征，将得到的特征组成特征组。其中，任意一段音频数据至少可以被提取一个特征，将从音频数据中提取的特征组成特征组，也就是说，特征组是由音频数据中的全部特征组成的，也可以将所述特征组理解成包括该音频数据的所有特征的数组。

实际操作中，提取音频数据的特征组的方法可以为：

第一，将所述音频数据分帧，得到帧数据；

其中，由于音频数据是由若干个音频采样点组成，将音频数据分帧，就是在音频数据中每隔A个音频采样点获取B个音频采样点作为该音频数据的一帧，最终得到若干段帧数据，其中，A、B为整数。特别的，为了在满足需求的同时保证音频数据中的特征的完整性，音频数据的连续两帧可以存在重复数据。例如，第一帧的数据从样本0001到样本1024，与第一帧相邻的第二帧数据可以从样本0513到样本1536，也就是说，从样本0513到样本1024为第一帧和第二帧重复的数据。

值得提到的是，由于音频数据中的音频采样点通常较密集，可以将音频数据进行降采样，以便减少数据计算量，提高同源信息的检索效率。

第二，将所述帧数据进行短时傅立叶变换后，得到变换后帧数据；

其中，将音频数据中的每一帧的帧数据均进行短时傅立叶变换，得到变换后帧数据，以便后续步骤进行分频操作。

第三，将所述变换后帧数据进行分频后，得到频谱图；

其中，将音频数据中的经过短时傅立叶变换的帧数据进行分频，其中可以按照梅尔频率对变换后帧数据进行分频，获得分频后帧数据，最后，将该音频数据中的每一帧的分频后帧数据进行组合，得到该音频数据的频谱图。

第四，根据所述频谱图，提取所述音频数据的特征组。

其中，根据获取的音频数据的频谱图，分别获取该音频数据的特征，最终将该音频数据的所有特征确定为该音频数据的特征组，其中，特征组包括至少一个特征。

实际操作中，首先将该频谱图切分成若干分块，其中各个分块可以为同等大小，同时相邻分块之间可以存在重叠部分。其次，对该频谱图的所有分块中的数据均做小波变换，获取小波变换后结果，即为该音频数据的特征。最后，将根据该频谱图的各个分块的数据获得的特征组成该音频数据的特征组。

步骤104：根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。

本实施例中，根据提取的特征组确定待处理音频信息的同源信息。其中，预先建立音频特征库，音频特征库包括音频样本与样本特征的对应关系，通过提取的特征组中的特征与音频特征库中的样本特征进行匹配，在音频特征库中获得待处理音频信息的同源信息。

实际操作中，可以将所述特征组中的任一特征确定为目标特征，执行特征匹配流程：在预设的音频特征库中，获取与所述目标特征匹配的样本特征，所述音频特征库包括音频样本与样本特征的对应关系；获取所述样本特征对应的音频样本后，将所述音频样本加入结果音频组；将任一未执行特征匹配流程的特征确定为目标特征，继续执行所述特征匹配流程，直到所述特征组中的特征均完成所述特征匹配流程；根据所述结果视频组确定所述待处理音频信息的同源信息。参考图2，图2为以特征P为例介绍特征的匹配过程流程图，具体可以包括：

预先获取特征组中的特征P，图2中的特征P为8个数字，实际操作中的特征通常大于8字节。首先将特征P的8个字节拆分为4份，将每一份对应一个HASH表。下面对特征P的具体匹配过程进行介绍：

第一，将特征P的第一份中的两个字节123和45组合成一个数字，组成的数字可以为123+45*256；

第二，将该组成的数字123+45*256送入HASH_1中，与预设的音频特征库中特征进行匹配，假设得到匹配结果为“11，101，284，4567”；

第三，将特征P中的第二份、第三份和第四份依次匹配，可以得到各自的匹配结果；

第四，对每一份的匹配结果进行投票，得到图中左下方的投票结果，该投票结果记录了音频特征库中各个音频样本被匹配的次数；

第五，预先设置得票标准数，图2中将得票标准数设为2，也就是说，对于得票数少于等于2的结果进行过滤。如图最终确定了“11”和“101”。

第六，在上述步骤的基础上还可以进行精细匹配，也就是说，可以将特征P和最终确定的音频特征库中的特征11与特征101相比较，获得最终的与特征P相匹配的样本特征。

具体的，特征匹配的标准可以为预先设置匹配系数，当两个特征的匹配系数大于预设的阈值时，可以确定这两个特征是匹配的。其中，匹配系数可以通过分析特征获得，例如，当两个特征中的数据相似度为80％以上时，可以认为这两个特征的匹配系数大于阈值，所以，这两个特征是匹配的。

其中，本实施例提供两种根据所述结果视频组确定所述待处理视频的同源视频的方法。

第一种方法：首先，获取所述结果音频组中数量最多的音频样本；其次，将所述音频样本确定为所述待处理音频信息的同源信息。

由于本实施例将与待处理音频信息的特征相匹配的特征所对应的音频样本均加入结果音频组中，所以，显而易见，被加入次数最多的音频样本即为与待处理音频信息最匹配的视频，本方法将结果音频组中数量最多的音频样本确定为待处理音频信息的同源信息。

第二种方法：首先，获取所述结果音频组中的音频样本；其次，将所述音频样本进行组合，得到组合结果；最后，根据所述组合结果确定所述待处理音频信息的同源信息。

实际操作中，可以将与待处理音频信息匹配特征数目大于预设个数的音频样本作为待处理音频信息的同源信息。

本实施例中所有的阈值，简单可以通过经验进行设定，复杂的可以通过机器学习的手段设置。

对于载有音频信息的视频，本实施例为了保证用户观看视频的体验，可以提取视频中的音频信息，进而对该音频信息进行检索，通过对该音频信息的检索实现视频检索的目的，最终确定该视频是否包含恶意信息。

在结束基于音频特征的视频检索后，可以继续对该视频进行基于图像特征的检索，可以有效防止带有恶意信息的视频被上传到公众平台。

实际操作中基于图像特征的视频检索的步骤可以包括：首先，在根据所述特征组不能确定所述待处理视频是否包含恶意信息的情况下，获取所述待处理视频的图像特征；其次，将所述图像特征与预设的图像特征库中的样本特征匹配后，确定所述待处理视频是否包含恶意信息。

本实施例首先获取待处理音频信息，其次，获取所述待处理音频信息的音频数据，再次，提取所述音频数据的特征组，所述特征组包括不少于一个特征，最后，根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。由于本实施例在音频信息包含恶意信息时，能够对其进行检索，避免了存在恶意信息的音频信息流传于网络，保证了用户的正常上网体验。

实施例二

参考图3，图3为本实施例提供的音频信息检索的装置结构图，所述装置可以包括：

第一获取模块301，用于获取待处理音频信息；

第二获取模块302，用于获取所述待处理音频信息的音频数据；

提取模块303，用于提取所述音频数据的特征组，所述特征组包括不少于一个特征；

所述提取模块可以包括：

分帧子模块，用于将所述音频数据分帧，得到帧数据；

为了提高同源信息的检索效率，所述提取模块还可以包括：

降采样子模块，用于将所述音频数据进行降采样。

第一确定模块304，用于根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息。

所述第一确定模块可以包括：

所述第三确定子模块可以包括：

或者，所述第三确定子模块也可以包括：

第四获取子模块，用于获取所述结果音频组中的音频样本；

请参考图4，其图4为本实施例提供的一种服务器，该服务器可以用于实施上述实施例中提供的方法。具体来讲：

服务器可以包括有一个或一个以上可读存储介质的存储器410、输入单元420、输出单元430包括有一个或者一个以上处理核心的处理器440、以及电源450等部件。其中：

存储器410可用于存储软件程序以及模块，处理器440通过运行存储在存储器410的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机的使用所创建的数据等。此外，存储器410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器410还可以包括存储器控制器，以提供处理器440和输入单元420对存储器410的访问。

输入单元420可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

处理器440是服务器的控制中心，利用各种接口和线路连接各个部分，通过运行或执行存储在存储器410内的软件程序和/或模块，以及调用存储在存储器410内的数据，执行计算机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器440可包括一个或多个处理核心。

服务器还包括给各个部件供电的电源450(比如电池)，优选的，电源可以通过电源管理系统与处理器440逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源450还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

具体在本实施例中，处理器440会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器410中，并由处理器440来运行存储在存储器410中的应用程序，从而实现各种功能：

获取待处理音频信息；

获取所述待处理音频信息的音频数据；

优选地，所述根据所述特征组，根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息，包括：

获取所述结果音频组中数量最多的音频样本；

将所述音频样本确定为所述待处理音频信息的同源信息。

获取所述结果音频组中的音频样本；

将所述音频样本进行组合，得到组合结果；

根据所述组合结果确定所述待处理音频信息的同源信息。优选地，所述提取所述音频数据的特征组，所述特征组包括不少于一个特征，包括：

将所述音频数据分帧，得到帧数据；

将所述帧数据进行短时傅立叶变换后，得到变换后帧数据；

将所述变换后帧数据进行分频后，得到频谱图；

根据所述频谱图，提取所述音频数据的特征组。

将所述音频数据进行降采样。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明实施例所提供的音频信息检索的方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频信息检索的方法，其特征在于，所述方法包括：

获取待处理音频信息；

获取所述待处理音频信息的音频数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征组，在预设的音频特征库中确定所述待处理音频信息的同源信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述结果音频组确定所述待处理音频信息的同源信息，包括：

获取所述结果音频组中数量最多的音频样本；

将所述音频样本确定为所述待处理音频信息的同源信息。

4.根据权利要求2所述的方法，其特征在于，所述根据所述结果音频组确定所述待处理音频信息的同源信息，包括：

获取所述结果音频组中的音频样本；

将所述音频样本进行组合，得到组合结果；

根据所述组合结果确定所述待处理音频信息的同源信息。

5.根据权利要求1所述的方法，其特征在于，所述提取所述音频数据的特征组，所述特征组包括不少于一个特征，包括：

将所述音频数据分帧，得到帧数据；

将所述帧数据进行短时傅立叶变换后，得到变换后帧数据；

将所述变换后帧数据进行分频后，得到频谱图；

根据所述频谱图，提取所述音频数据的特征组。

6.根据权利要求5所述的方法，其特征在于，所述将所述音频数据分帧，得到帧数据之前，还包括：

将所述音频数据进行降采样。

7.一种音频信息检索的装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理音频信息；

第二获取模块，用于获取所述待处理音频信息的音频数据；

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述第三确定子模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述第三确定子模块，包括：

第四获取子模块，用于获取所述结果音频组中的音频样本；

11.根据权利要求7所述的装置，其特征在于，所述提取模块，包括：

分帧子模块，用于将所述音频数据分帧，得到帧数据；

12.根据权利要求11所述的装置，其特征在于，所述提取模块，还包括：

降采样子模块，用于将所述音频数据进行降采样。