CN107731220A

CN107731220A - 音频识别方法、装置和服务器

Info

Publication number: CN107731220A
Application number: CN201710968754.XA
Authority: CN
Inventors: 姜涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2018-02-23
Anticipated expiration: 2037-10-18
Also published as: CN107731220B; US11482242B2; US20210193167A1; WO2019076313A1

Abstract

本发明提供一种音频识别方法，获取待识别音频文件；提取该待识别音频文件的音频特征信息，该音频特征信息包括音频指纹；在指纹索引库中搜索与该音频特征信息匹配的音频属性信息，其中，该指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。由于指纹索引库中的音频指纹集合是对音频样本数据进行无效音频指纹去除后的，因此可以减少指纹索引库中音频指纹的存储空间，并且能够提高音频识别效率。此外还提供了一种音频识别装置和服务器。

Description

音频识别方法、装置和服务器

技术领域

本发明涉及音频识别技术领域，具体而言，本发明涉及一种音频识别方法、装置和服务器。

背景技术

在音频识别领域，可以基于音频指纹而判断音频属性，例如判断一段音乐的音乐风格，判断一段声音中出现的哪些动物叫声等等。基于指纹的音频检索系统中，每个音频文件中的音频指纹由在频域中的局部极大值点(峰值点)组成。很多时候为了达到一些效果(例如减少体积、增加艺术效果等等)，一些音频提供方需要对音频文件进行特殊处理再提供给用户，这些特殊处理由于是对音频文件的再处理，因此可以理解成音频攻击，常见的音频攻击有分割、转换音频编码格式、翻录、采样率变换等等。

然而，传统的音频检索系统通常都是基于受音频攻击前的原始音频文件而存储相应的音频指纹，当受到这类音频攻击时，原始音频文件中原有的部分局部极大值点会消失或在频域空间中向其邻近的空间移动，从而导致基于该局部极大值点衍生出的音频指纹成为无效指纹。无效指纹的存在不但浪费了大量的存储空间，而且导致匹配指纹时计算量的大幅升高，因而识别效率低。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是浪费存储空间的技术缺陷。

本发明提供一种音频识别方法，所述方法包括：

获取待识别音频文件；

提取所述待识别音频文件的音频特征信息，所述音频特征信息包括音频指纹；

在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息；

其中，所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。

在其中一个实施例中，所述指纹索引库包括由分类器对音频样本数据进行无效音频指纹去除后的音频指纹集合。

在其中一个实施例中，所述分类器经以下步骤建立：

提取训练数据集中的音频数据的第一特征点数据；

对所述训练数据集中的音频数据进行音频攻击，提取经攻击后的训练数据集中的音频数据的第二特征点数据；

对比第一特征点数据和第二特征点数据，将消失或移动的特征点数据标记为反例数据，将鲁棒性存在的特征点数据标记为正例数据；

利用第一特征点数据、正例数据、反例数据训练和建立所述分类器。

在其中一个实施例中，所述分类器对所述音频样本数据进行筛选，将判定为反例数据的特征点数据作为无效音频指纹去除。

在其中一个实施例中，利用第一特征点数据、正例数据、反例数据训练和建立所述分类器的算法那包括以下至少一种：

最近邻算法、支持向量机、神经网络。

在其中一个实施例中，所述第一特征点数据和/或第二特征点数据包括以下至少一种：

局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在所述音频帧中的能量占比、所述音频帧中局部极大点的数量、所述音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。

在其中一个实施例中，所述音频攻击包括对音频文件进行的数据处理，所述数据处理包括以下至少一种：

分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova翻录、非ova翻录。

在其中一个实施例中，与所述音频特征信息匹配的音频属性信息包括以下至少一种：

歌曲风格、音频中自然声音、音频中发声者语言。

在其中一个实施例中，所述音频属性信息包括音频发声者语言及相应的翻译文字信息。

在其中一个实施例中，还包括步骤：

输出所述音频属性信息。

本发明还提供一种音频识别装置，包括：

获取模块，用于获取待识别音频文件；

提取模块，用于提取所述待识别音频文件的音频特征信息，所述音频特征信息包括音频指纹；

搜索模块，用于在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息；

在其中一个实施例中，所述分类器由以下步骤建立：

提取训练数据集中的音频数据的第一特征点数据；

最近邻算法、支持向量机、神经网络。

歌曲风格、音频中自然声音、音频中发声者语言。

在其中一个实施例中，还包括输出模块，所述输出模块用于输出所述音频属性信息。

本发明还提供一种服务器，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述任一实施例的音频识别方法。

上述的音频识别方法、装置和服务器，获取待识别音频文件；提取所述待识别音频文件的音频特征信息，所述音频特征信息包括音频指纹；在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息，其中，所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。由于指纹索引库中的音频指纹集合是对音频样本数据进行无效音频指纹去除后的，因此可以减少指纹索引库中音频指纹的存储空间，并且能够提高音频识别效率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为一个实施例的音频识别方法流程图；

图2为一个实施例的分类器建立过程图；

图3为一个实施例的音频识别装置模块图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解，这里所使用的远端网络设备，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

图1为一个实施例的音频识别方法流程图步骤S100～S400。

本发明提供一种音频识别方法，该方法包括：

步骤S100：获取待识别音频文件。

待识别音频文件可以是电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音乐片段或人发出的音频数据(例如：哼唱的音乐、歌曲片段)等。用户若想要知道待识别音频文件的信息，例如：音乐文件的音乐风格、音频文件里动物叫声类型、说话者所说语言类型等信息，可发起音频识别请求。在本步骤中，当接收到用户发送的音频识别请求时，获取待识别音频文件。

待识别音频文件获取过程可以包含以下两种实施方式：第一种实施方式，在接收到用户发送的音频识别请求时，可启动录音功能，实时录制音频文件，这个实时录制的音频文件即待识别音频文件。第二种实施方式，在接收到用户发送的音频识别请求时，可接收用户提供的请求识别的待识别音频文件，用户可以通过上传的方式提供待识别音频文件。

步骤S200：提取该待识别音频文件的音频特征信息，该音频特征信息包括音频指纹。

音频文件的音频指纹指可以反映音频文件重要声学特征的标识信息；音频文件的指纹要求感知(或内容)相似性，具备区分性、鲁棒性、粒度等基本特征。其中，区分性指不同音频文件的指纹应具有较大的差异，而同一音频文件的原始记录的指纹和失真记录的指纹之间应该具有较小的差异；鲁棒性指音频文件在经历各种音频格式变换、信道噪声干扰等处理后，仍然能够被识别出来；粒度指即使针对短音频文件(即音频文件的长度较短，如5s-10s)，也能够顺利识别。另外，音频文件的指纹在各种应用场景中，还具备更多的特征，例如：终端应用场景中，音频文件的指纹要求具备易计算性，在计算资源受限的终端中能够实现快速实时的指纹计算；再如：在无线网络应用场景中，音频文件的指纹要求数据量较小，以适应无线网络传输。

音频指纹由在频域中的局部极大值点(峰值点)组成。例如可以对音频文件进行基于短时傅里叶变换的时频分析，生成多个相位通道，每个相位通道对应有一个时频子图；然后提取这些相位通道中的每个相位通道的至少一个局部极大值点(峰值点)，每个相位通道的至少一个峰值特征点构成每个相位通道的峰值特征点序列；对每个相位通道的峰值特征点序列进行处理(例如哈希运算)得到对应相位通道的每条指纹序列，然后这些指纹序列一起构成音频指纹。

在这里，音频特征信息是用于反映该待识别音频文件的特征信息，该音频特征信息可以包括反映该待识别音频文件的标识信息的音频指纹。

步骤S300：在指纹索引库中搜索与该音频特征信息匹配的音频属性信息；其中，该指纹索引库包括对音频样本数据(可能包含上百万个音频文件)进行无效音频指纹去除后的音频指纹集合。

音频属性数据是描述音频属性的数据，例如如果是音乐，则属性数据可以是音乐风格(流行、摇滚、古典、爵士等等)，甚至可以详细到演唱者、音乐名称等等；如果是某段关于动物叫声的音频，则属性数据可以是音频中动物叫声的动物类型；如果是某段关于人物说话的音频，则属性数据可以是音频中说话语言的类型(例如汉语、英语、日语)。即与该音频特征信息匹配的音频属性信息可以包括以下至少一种：歌曲风格、音频中自然声音(如人物呼叫声、动物叫声、风声、打雷声、雨声、碰撞声)、音频中发声者语言。

因此，如果可以识别出音频中发声者的语言，那么可以考虑用来识别语言，例如语言类型或语言内容。这样，可以将本方法应用于翻译工具上，例如识别出语言内容并同时翻译出相应的文字，此时音频属性信息可以包括音频发声者语言及相应的翻译文字信息。

在一些实施例中，音频识别方法还可以包括步骤S400：输出该音频属性信息。例如将识别出的音乐的演唱者、歌曲名称等音乐信息输出给用户，将识别出的动物叫声输出给用户(可用于野外动物研究)，将识别出的风声、打雷声、雨声输出给用户(可用于气象研究)，将识别出的语言类型或语言内容输出给用户(可用于语言翻译)。

在一些实施例中，可以利用分类器对音频样本数据进行无效音频指纹去除，该分类器可以经以下步骤S301～S304建立。图2为一个实施例的分类器建立过程图。

S301：提取训练数据集中的音频数据的第一特征点数据。

训练数据集中的音频数据，是提前收集的各种音频数据。以音乐风格识别为例，可以提前收集各种音乐风格的歌曲，例如流行、摇滚、古典、爵士等等，每种风格都收集多个训练数据，并且对训练数据进行标注，即标注歌曲对应的是哪种音乐风格。为了保证较佳的识别效果，训练数据的数量应该尽可能多(例如每种类型一万多个音频文件)。

收集好样本后，即可以对训练数据集中的样本进行第一特征点数据的提取。该第一特征点数据是能够反映样本的音频属性的特征数据，如将每个音频文件分成多个音频帧，则可以包括以下至少一种：局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在该音频帧中的能量占比、该音频帧中局部极大点的数量、该音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。

S302：对该训练数据集中的音频数据进行音频攻击，提取经攻击后的训练数据集中的音频数据的第二特征点数据。

音频攻击包括对音频文件进行的数据处理，该数据处理包括以下至少一种类型：分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova(over-the-air)翻录、非ova翻录。一般情况下，只用单一种类型的音频攻击。除了“分割”以外，每种攻击都会造成一定的音质下降，如果进行组合攻击的话，可能会造成音质下降严重，此时再提取音频指纹也没有什么意义了。使用组合攻击时，一般只做“转换音频编码格式”和“采用率转换”两种攻击的组合。这两种攻击每种都有多个(例如数十个)可选参数，组合在一起的数量也有几百种可能。

音频攻击后，从攻击后的音频数据中提取第二特征点数据。与第一特征点数据类似，该第二特征点数据是能够反映样本的音频属性的特征数据，如将每个音频文件分成多个音频帧，则可以包括以下至少一种：局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在该音频帧中的能量占比、该音频帧中局部极大点的数量、该音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。

S303：对比第一特征点数据和第二特征点数据，将消失或移动的特征点数据标记为反例数据，将鲁棒性存在的特征点数据标记为正例数据。例如，将第一特征点数据和第二特征点数据进行对比，如果第一特征点数据中有些数据在第二特征点数据中是并没有的，则这些数据就是消失的特征点数据；又例如，某一个局部极大值点(第一特征点数据)原本在(1.10秒，200Hz)的位置，但是经过一次编解码转换(即音乐攻击)后，这个局部极大值点没有出现在原来的位置，而出现在了(1.11秒，200Hz)的位置(成为第二特征点数据)，也就是说在时间维度上平移了0.01秒，则这个移动了的局部极大值点即移动的特征点数据。而鲁棒性仍然存在的或者没有移动的特征点数据即为正例数据。

S304：利用第一特征点数据、正例数据、反例数据训练和建立该分类器。在一些实施例中，利用第一特征点数据、正例数据、反例数据训练和建立该分类器的算法包括以下至少一种：支持向量机(SVM)、最近邻算法(K Nearest Neighbor，又称K-最近邻算法)、神经网络等等。

当分类器建立后，利用该分类器对该上述的音频样本数据进行筛选，将判定为反例数据的特征点数据作为无效音频指纹去除，同时可以去除那些由判定为反例数据的特征点数据衍生的无效音频指纹，然后根据去除了无效音频指纹后的音频指纹集合就可以形成上述的指纹索引库。去除无效指纹，可以降低指纹索引库中的指纹数量，提高识别音频的效率。

对应上述的音频识别方法，本发明还提供一种音频识别装置，其包括：获取模块100、提取模块200和搜索模块300。图3为一个实施例的音频识别装置模块图。

获取模块100用于获取待识别音频文件；提取模块200用于提取该待识别音频文件的音频特征信息，该音频特征信息包括音频指纹；搜索模块300用于在指纹索引库中搜索与该音频特征信息匹配的音频属性信息，其中，该指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。

获取模块100获取待识别音频文件。

待识别音频文件可以是电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音乐片段或人发出的音频数据(例如：哼唱的音乐、歌曲片段)等。用户若想要知道待识别音频文件的信息，例如：音乐文件的音乐风格、音频文件里动物叫声类型、说话者所说语言类型等信息，可发起音频识别请求。当接收到用户发送的音频识别请求时，获取模块100获取待识别音频文件。

待识别音频文件获取过程可以包含以下两种实施方式：第一种实施方式，获取模块100在接收到用户发送的音频识别请求时，可启动录音功能，实时录制音频文件，这个实时录制的音频文件即待识别音频文件。第二种实施方式，获取模块100在接收到用户发送的音频识别请求时，可接收用户提供的请求识别的待识别音频文件，用户可以通过上传的方式提供待识别音频文件。

提取模块200提取该待识别音频文件的音频特征信息，该音频特征信息包括音频指纹。

搜索模块300在指纹索引库中搜索与该音频特征信息匹配的音频属性信息；其中，该指纹索引库包括对音频样本数据(可能包含上百万个音频文件)进行无效音频指纹去除后的音频指纹集合。

因此，如果可以识别出音频中发声者的语言，那么可以考虑用来识别语言，例如语言类型或语言内容。这样，可以将本装置应用于翻译工具上，例如识别出语言内容并同时翻译出相应的文字，此时音频属性信息可以包括音频发声者语言及相应的翻译文字信息。

在一些实施例中，音频识别装置还可以包括输出模块400，用于输出该音频属性信息。例如输出模块400将识别出的音乐的演唱者、歌曲名称等音乐信息输出给用户，将识别出的动物叫声输出给用户(可用于野外动物研究)，将识别出的风声、打雷声、雨声输出给用户(可用于气象研究)，将识别出的语言类型或语言内容输出给用户(可用于语言翻译)。

在一些实施例中，可以利用分类器对音频样本数据进行无效音频指纹去除，所述分类器由以下步骤S301～S304建立，请参阅图2。

S301：提取训练数据集中的音频数据的第一特征点数据。

当分类器建立后，分类器对该上述的音频样本数据进行筛选，将判定为反例数据的特征点数据作为无效音频指纹去除，同时可以去除那些由判定为反例数据的特征点数据衍生的无效音频指纹，然后根据去除了无效音频指纹后的音频指纹集合就可以形成上述的指纹索引库。去除无效指纹，可以降低指纹索引库中的指纹数量，提高识别音频的效率。

本发明还提供一种服务器，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中该一个或多个应用程序被存储在该存储器中并被配置为由该一个或多个处理器执行，该一个或多个程序配置用于执行上述任一实施例的音频识别方法。

上述的音频识别方法、装置和服务器，获取待识别音频文件；提取该待识别音频文件的音频特征信息，该音频特征信息包括音频指纹；在指纹索引库中搜索与该音频特征信息匹配的音频属性信息，其中，该指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。由于指纹索引库中的音频指纹集合是对音频样本数据进行无效音频指纹去除后的，因此可以减少指纹索引库中音频指纹的存储空间，并且能够提高音频识别效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

获取待识别音频文件；

2.根据权利要求1所述的音频识别方法，其特征在于，所述指纹索引库包括由分类器对音频样本数据进行无效音频指纹去除后的音频指纹集合。

3.根据权利要求2所述的音频识别方法，其特征在于，所述分类器经以下步骤建立：

提取训练数据集中的音频数据的第一特征点数据；

4.根据权利要求3所述的音频识别方法，其特征在于，所述分类器对所述音频样本数据进行筛选，将判定为反例数据的特征点数据作为无效音频指纹去除。

5.根据权利要求3所述的音频识别方法，其特征在于，利用第一特征点数据、正例数据、反例数据训练和建立所述分类器的算法包括以下至少一种：

最近邻算法、支持向量机、神经网络。

6.根据权利要求2所述的音频识别方法，其特征在于，所述第一特征点数据和/或第二特征点数据包括以下至少一种：

7.根据权利要求2所述的音频识别方法，其特征在于，所述音频攻击包括对音频文件进行的数据处理，所述数据处理包括以下至少一种：

8.根据权利要求1所述的音频识别方法，其特征在于，与所述音频特征信息匹配的音频属性信息包括以下至少一种：

歌曲风格、音频中自然声音、音频中发声者语言。

9.一种音频识别装置，其特征在于，包括：

获取模块，用于获取待识别音频文件；

10.一种服务器，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1至8任一所述的音频识别方法。