CN109686377B

CN109686377B - 音频识别方法及装置、计算机可读存储介质

Info

Publication number: CN109686377B
Application number: CN201811579098.5A
Authority: CN
Inventors: 聂镭; 李睿; 郑权; 张峰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-11-05
Anticipated expiration: 2038-12-24
Also published as: CN109686377A

Abstract

本发明公开了一种音频识别方法及装置、计算机可读存储介质，该方法包括：获取声纹矢量化模型；获取同一目标说话人的多个不同第一音频文件；利用声纹矢量化模型对每一个第一音频文件进行矢量化；采用至少一种方式确定多个不同第一音频文件的声纹向量的中心向量，以及利用每一种中心向量分别确定一相似度接受范围；利用声纹矢量化模型得到待识别音频文件的声纹向量，以及计算待识别音频文件的声纹向量与每一种中心向量的相似度；对于每一种中心向量，判断待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，以及根据判断的结果确定待识别音频文件是否属于目标说话人。本发明可以实现利用声纹对说话人进行有效识别。

Description

音频识别方法及装置、计算机可读存储介质

技术领域

本发明涉及音频识别技术领域，特别是一种音频识别方法及装置、计算机可读存储介质。

背景技术

人类语言的产生是人体语言中枢与发音器官之间的一个复杂的生理物理过程，由于不同人在讲话时使用的发声器官(包括舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面存在差异，所以任何两个人的声纹都有差异，因此，通过声纹识别可以对说话人进行识别，在目前的语音处理中，“声纹识别”是一项重要的研究内容，如何利用声纹对说话人进行有效识别是目前亟待解决的问题。

发明内容

有鉴于此，本发明的目的之一在于提供一种音频识别方法及装置、计算机可读存储介质，可以实现利用声纹对说话人进行有效识别。

为达到上述目的，本发明的技术方案提供了一种音频识别方法，包括：

步骤S1：获取声纹矢量化模型；

步骤S2：获取同一目标说话人的多个不同第一音频文件；

步骤S3：利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化，得到每一个所述第一音频文件的声纹向量；

步骤S4：采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量，从而得到至少一种中心向量，以及利用每一种中心向量分别确定一相似度接受范围[A,B]，其中，对于每一种中心向量，A为所述多个不同第一音频文件与其相似度中的最小相似度，B为所述多个不同第一音频文件与其相似度中的最大相似度；

步骤S5：利用所述声纹矢量化模型得到待识别音频文件的声纹向量，以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度；

步骤S6：对于所述每一种中心向量，判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。

进一步地，步骤S1包括：

采用不同说话人的音频文件对SincNet神经网络进行训练，得到所述声纹矢量化模型。

进一步地，步骤S2包括：

步骤S21：获取多个不同第二音频文件，其中，每一个所述第二音频文件均包含所述目标说话人的声音信息，且不同第二音频文件包含的所述声音信息不同；

步骤S22：对于每一个所述第二音频文件，分别按照至少一种信噪比进行噪音添加处理，从而得到所述多个不同第一音频文件。

进一步地，所述至少一种方式包括以下的至少一种：算术平均法、几何平均法、中位数统计法、K-means聚类法。

进一步地，在步骤S4中，采用多种方式确定所述中心向量，从而得到多种中心向量。

进一步地，所述步骤S5包括：

步骤S51：对所述待识别音频文件进行音频切分处理，得到多个分割音频文件；

步骤S52：利用所述声纹矢量化模型对每一个所述分割音频文件进行矢量化，得到每一个所述分割音频文件的声纹向量；

步骤S53：分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的相似度。

进一步地，所述步骤S6包括：

步骤S61：初始化i＝0，j＝0；

步骤S62：对于每一种中心向量，判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，若是，则i＝i+1，若否，则j＝j+1；

步骤S63：若i的值不小于j，则确定所述待识别音频文件属于所述目标说话人，否则确定所述待识别音频文件不属于所述目标说话人。

为实现上述目的，本发明的技术方案还提供了一种音频识别装置，包括：

第一获取模块，用于获取声纹矢量化模型；

第二获取模块，用于获取同一目标说话人的多个不同第一音频文件；

第一处理模块，用于利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化，得到每一个所述第一音频文件的声纹向量；

第二处理模块，用于采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量，从而得到至少一种中心向量，以及利用每一种中心向量分别确定一相似度接受范围[A,B]，其中，对于每一种中心向量，A为所述多个不同第一音频文件与其相似度中的最小相似度，B为所述多个不同第一音频文件与其相似度中的最大相似度；

第三处理模块，用于利用所述声纹矢量化模型得到待识别音频文件的声纹向量，以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度；

判断模块，用于对于所述每一种中心向量，判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。

为实现上述目的，本发明的技术方案还提供了一种音频识别装置，包括处理器以及与所述处理器耦合的存储器，其中，所述处理器用于执行存储器中的指令，实现上述音频识别方法。

为实现上述目的，本发明的技术方案还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述音频识别方法的步骤。

本发明提供的音频识别方法，通过采用至少一种方式对目标说话人的多个不同音频文件进行处理，得到至少一种中心向量，并利用每一种中心向量分别确定一相似度接受范围，再利用得到的至少一种中心向量及由其确定的相似度接受范围判断待识别音频文件是否属于目标说话人，不但可以实现判断待识别音频文件是否属于目标说话人，还可以提高判断的准确度，从而可以实现利用声纹对说话人进行有效识别。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例提供的一种音频识别方法的流程图；

图2是本发明实施例提供的一种音频识别装置的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参见图1，图1是本发明实施例提供的一种音频识别方法的流程图，该方法包括：

步骤S1：获取声纹矢量化模型；

该声纹矢量化模型用于对音频文件进行矢量化，得到音频文件的声纹向量；

步骤S2：获取同一目标说话人的多个不同第一音频文件；

其中，每一个第一音频文件可以是仅包含目标说话人的声音信息的音频文件，也可以是除包含目标说话人的声音信息外还包含一定噪音的音频文件；

需要说明的是，在本发明实施例中，音频文件之间的不同可以是所包含的声音信息(如声音内容、音频时长等)的不同，也可以是信噪比的不同，也可以是所包含的声音信息以及信噪比均不同；

例如，在本发明实施例中，向量之间的相似度可以是余弦COS相似度；

本发明实施例提供的音频识别方法，通过采用至少一种方式对目标说话人的多个不同音频文件进行处理，得到至少一种中心向量，并利用每一种中心向量分别确定一相似度接受范围，再利用得到的至少一种中心向量及由其确定的相似度接受范围判断待识别音频文件是否属于目标说话人，不但可以实现判断待识别音频文件是否属于目标说话人，还可以提高判断的准确度，从而可以实现利用声纹对说话人进行有效识别。

例如，本发明实施例提供的音频识别方法可以具体包括：

步骤A：获取声纹矢量化模型；

例如，在本发明实施例中，可以采用不同说话人的不同音频文件对SincNet神经网络进行训练，得到声纹矢量化模型，即该声纹矢量化模型可以采用SincNet结构(即SincNet神经网络)，其包括特征提取模块以及特征表达模块，特征表达模块包括若干个卷积层(CONV)和若干个全连接层(FC)(包含一般的池化层、激活层、drop-out层等)，特征提取模块包括多个带通滤波器；

SincNet的核心思想是使用多个带通滤波器过滤出有用的信息(即特征信息)，带通滤波器作为网络的一部分与特征表达过程一起参与训练，其参数由训练得到，在本实施例中，通过SincNet结构的声纹矢量化模型从音频文件(wav文件)中提取特征信息，并进行特征表达，从而将wav数据转化成向量形式，即实现声纹矢量化；

具体地，可以采用有监督学习的方式训练SincNet神经网络，即为每一个训练音频文件标注标签，标签信息包括文件名称以及音频文件所属的说话人的ID，格式如下:

{[example1.wav:1],[example2.wav:1],[example3.wav:1],[example4.wav:2],[example5.wav:2],…….}；

每一个中括号为一个音频文件的标签，冒号前的部分表示音频文件的名称，冒号后的部分表示音频文件所属的说话人的ID(即该段音频文件是哪一个说话人所说的话)，通过上述格式标注数据后，采用监督学习的方式训练SincNet神经网络，训练完成后得到声纹矢量化模型，对其输入一个音频文件后，得到的输出作为该音频的声纹向量；

在通过上述方法得到声纹矢量化模型后可以将其存储至存储器中，在需要使用时，可以直接从存储器中读取；

步骤B：获取同一目标说话人的多个不同第一音频文件，例如，该步骤可以具体包括：

例如，每一个第二音频文件可以是仅包含目标说话人的声音信息的音频文件，不同第二音频文件包含的声音信息不同；

步骤S22：对于每一个所述第二音频文件，分别按照至少一种信噪比进行噪音添加处理，从而得到所述多个不同第一音频文件；

例如，对于每一个第二音频文件，可以随机加入多种场景下的背景音等其他噪音，且对于加入的噪音的大小可以使用信噪比作为标准进行衡量，例如，对于每一个第二音频文件，可以分别加入不同量的噪音，从而分别生成0db、10db、15db三种信噪比不同的第一音频文件；

通过上述步骤S22中在音频文件中添加噪音，可以使得本实施例中的音频识别方法在处理在嘈杂背景环境下获取的音频文件时更具有鲁棒性。

步骤C：利用步骤A中获取的声纹矢量化模型对每一个第一音频文件进行矢量化，得到每一个第一音频文件的声纹向量；

即利用声纹矢量化模型将目标说话人的声音进行向量表达，即进行注册，例如，该目标说话人的ID为i(即第i个说话人)，若其存在n个第一音频文件，则可以相应的得到n个声纹向量，可记为:

{Vi1,Vi2,Vi3,...,Vin}；

步骤D：采用多种方式分别确定上述多个不同第一音频文件的声纹向量的中心向量(也即平均向量)，从而得到多种中心向量，以及利用每一种中心向量分别确定一相似度接受范围[A,B]，其中，对于每一种中心向量，A为所述多个不同第一音频文件与其相似度中的最小相似度，B为所述多个不同第一音频文件与其相似度中的最大相似度；

例如，上述多种方式可以包括算术平均法、几何平均法、中位数统计法、K-means聚类法中的至少两种，其中：

算术平均法：是将上述多个声纹向量在每一个维度上对位相加后求平均值；

几何平均法：是对上述多个声纹向量求取几何中心，将多个声纹向量的几何中心(几何平均数)作为中心向量；

中位数统计法：采用统计学方法对上述多个声纹向量求取中位数向量，作为中心向量；

K-means聚类法：采用K-means算法对上述多个声纹向量进行聚类，将聚类中心作为中心向量；

例如，在一实施例中，分别采用算术平均法、几何平均法、中位数统计法三种方式对目标说话人的n个声纹向量计算中心向量，从而得到算术平均法中心向量、几何平均法中心向量以及中位数统计法中心向量三种中心向量；

之后，对于每一种中心向量，计算{Vi1,Vi2,Vi3,...,Vin}中的每一个声纹向量与该中心向量的余弦COS相似度，并记录得到的最小余弦COS相似度bound_min、最大余弦COS相似度bound_max，进而确定该目标说话人的一相似度接受范围[A,B]，A＝bound_min，B＝bound_max；

例如，在一实施例中，在分别采用算术平均法、几何平均法、中位数统计法三种方式得到三种中心向量后，进而可以得到该目标说话人的三个相似度接受范围；

步骤E：利用所述声纹矢量化模型得到待识别音频文件的声纹向量，以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度；

优选地，在一实施例中，可以对待识别音频文件进行预处理，将其分割若干个分割音频文件，从而可以进一步地提高识别的准确度，该步骤可以具体包括：

步骤S51：对所述待识别音频文件进行音频切分处理，得到多个分割音频文件(即分帧音频)；

例如，可以对待识别音频文件按照不同的步长进行切分操作，得到多个分割音频文件，每一个分割音频文件的音频时长可以为200ms或者300ms等；

步骤S53：分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的余弦COS相似度；

步骤F：对于每一种中心向量，判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，对得到的多个判断结果中，采用投票方式确定该待识别音频文件是否属于该目标说话人；

例如，若步骤S51中分割得到K个分割音频文件，步骤D中确定L个中心向量，则该步骤中可以得到K*L个相似度，将每一相似度与对应的相似度接受范围进行比较，判断是否位于其范围内，从而得到K*L个判断结果；

例如，在得到算术平均法中心向量、几何平均法中心向量以及中位数统计法中心向量三种中心向量后，通过对待识别音频文件进行音频切分处理后得到5个分割音频文件，分别记作分帧音频1、分帧音频2、分帧音频3、分帧音频4、分帧音频5，具体处理过程如下：首先计算该5个分割音频文件的声纹向量与算术平均法中心向量的余弦COS相似度，并判断是否位于由该算术平均法中心向量确定的相似度接受范围内，从而得到5个判断结果，之后再计算该5个分割音频文件的声纹向量与几何平均法中心向量的余弦COS相似度，并判断是否位于由该几何平均法中心向量确定的相似度接受范围内，再得到5个判断结果，最后计算该5个分割音频文件的声纹向量与中位数统计法中心向量的余弦COS相似度，并判断是否位于由该中位数统计法中心向量确定的相似度接受范围内，又得到5个判断结果，通过上述方式共得到5*3＝15个判断结果，然后依据少数服从多数原则进行投票，判断该待识别音频文件是否属于该目标说话人；

具体地，该步骤F可以具体包括：

步骤S61：初始化i＝0，j＝0；

步骤S62：对于每一种中心向量，判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，若是，则i＝i+1(j的值不变)，若否，则j＝j+1(i的值不变)；

步骤S63：通过步骤S62对所有中心向量遍历完毕后(此时i与j之和应为判断结果的个数)，比较i与j的大小，若i的值不小于j，则确定所述待识别音频文件属于所述目标说话人，否则确定所述待识别音频文件不属于所述目标说话人。

本发明实施例提供的音频识别方法，通过多种方式对目标说话人的音频文件进行处理，得到多种中心向量，并将待识别音频文件进行切分后分别进行判断，得到多个判断结果，采用投票方式确定该待识别音频文件是否属于该目标说话人，可以进一步地提高说话人识别的准确度。

此外，参见图2，图2是本发明实施例提供的一种音频识别装置的示意图，该音频识别装置包括：

第一获取模块1，用于获取声纹矢量化模型；

第二获取模块2，用于获取同一目标说话人的多个不同第一音频文件；

第一处理模块3，用于利用所述声纹矢量化模型对每一个所述第一音频文件进行矢量化，得到每一个所述第一音频文件的声纹向量；

第二处理模块4，用于采用至少一种方式确定所述多个不同第一音频文件的声纹向量的中心向量，从而得到至少一种中心向量，以及利用每一种中心向量分别确定一相似度接受范围[A,B]，其中，对于每一种中心向量，A为所述多个不同第一音频文件与其相似度中的最小相似度，B为所述多个不同第一音频文件与其相似度中的最大相似度；

第三处理模块5，用于利用所述声纹矢量化模型得到待识别音频文件的声纹向量，以及计算所述待识别音频文件的声纹向量与所述每一种中心向量的相似度；

判断模块6，用于对于所述每一种中心向量，判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人。

在一实施例中，声纹矢量化模型可以采用以下方式得到：

在一实施例中，所述第二获取模块包括：

第一获取单元，用于获取多个不同第二音频文件，其中，每一个所述第二音频文件均包含所述目标说话人的声音信息，且不同第二音频文件包含的所述声音信息不同；

噪音添加单元，用于对于每一个所述第二音频文件，分别按照至少一种信噪比进行噪音添加处理，从而得到所述多个不同第一音频文件。

在一实施例中，所述至少一种方式包括以下的至少一种：算术平均法、几何平均法、中位数统计法、K-means聚类法。

在一实施例中，所述第二处理模块被配置为采用多种方式确定所述中心向量，从而得到多种中心向量。

在一实施例中，所述第三处理模块包括：

切分单元，用于对所述待识别音频文件进行音频切分处理，得到多个分割音频文件；

矢量化单元，用于利用所述声纹矢量化模型对每一个所述分割音频文件进行矢量化，得到每一个所述分割音频文件的声纹向量；

相似度计算单元，用于分别计算每一个所述分割音频文件的声纹向量与所述每一种中心向量的相似度。

在一实施例中，所述判断模块包括：

初始化单元，用于初始化i＝0，j＝0；

处理单元，用于对于每一种中心向量，判断每一个所述分割音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，若是，则i＝i+1，若否，则j＝j+1；

结果确定单元，用于若i的值不小于j，则确定所述待识别音频文件属于所述目标说话人，否则确定所述待识别音频文件不属于所述目标说话人。

此外，本发明实施例还提供了一种音频识别装置，包括处理器以及与所述处理器耦合的存储器，其中，所述处理器用于执行存储器中的指令，实现上述音频识别方法。

此外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述音频识别方法的步骤。

本领域的技术人员容易理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种音频识别方法，其特征在于，包括：

步骤S1：获取声纹矢量化模型；

步骤S2：获取同一目标说话人的多个不同第一音频文件；

步骤S6：对于所述每一种中心向量，判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人；

其中，步骤S2包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1包括：

3.根据权利要求1所述的方法，其特征在于，所述至少一种方式包括以下的至少一种：算术平均法、几何平均法、中位数统计法、K-means聚类法。

4.根据权利要求3所述的方法，其特征在于，在步骤S4中，采用多种方式确定所述中心向量，从而得到多种中心向量。

5.根据权利要求1-4任一所述的方法，其特征在于，所述步骤S5包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S6包括：

步骤S61：初始化i＝0，j＝0；

7.一种音频识别装置，其特征在于，包括：

第一获取模块，用于获取声纹矢量化模型；

判断模块，用于对于所述每一种中心向量，判断所述待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内，以及根据所述判断的结果确定所述待识别音频文件是否属于所述目标说话人；

其中，获取同一目标说话人的多个不同第一音频文件包括：

8.一种音频识别装置，其特征在于，包括处理器以及与所述处理器耦合的存储器，其中，所述处理器用于执行存储器中的指令，实现权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。