CN107492382A

CN107492382A - 基于神经网络的声纹信息提取方法及装置

Info

Publication number: CN107492382A
Application number: CN201610421908.9A
Authority: CN
Inventors: 薛少飞
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2017-12-19
Anticipated expiration: 2036-06-13
Also published as: EP3469582A1; WO2017218465A1; US10176811B2; CN107492382B; EP3469582A4; EP3469582B1; US20170358306A1; JP6993353B2; JP2019522810A

Abstract

本发明揭示了一种基于神经网络的声纹信息提取方法及装置，其中，所述方法包括：对输入的语音片段提取语音声学特征；将所述语音声学特征输入基于神经网络训练的声纹模型中，并提取所述声纹模型中神经网络的瓶颈特征；将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量，作为与所述输入的语音片段对应的声纹信息。本发明的基于神经网络的声纹信息提取方法及装置，通过基于神经网络训练的声纹模型对语音片段提取声纹信息，提取过程较为简单，且能够更好的处理短时语音片段。

Description

基于神经网络的声纹信息提取方法及装置

技术领域

本发明涉及计算机领域，尤其是涉及一种基于神经网络的声纹信息提取方法及装置。

背景技术

声纹信息通常指能够表征说话人的信息，是一种通过语音波形反映说话人生理和行为特征的语音信息。声纹信息可被广泛应用于说话人识别、说话人确认、语音识别的说话人自适应等任务。快速有效的声纹信息提取对于提升上述任务的性能具有重要意义。

i‐vector是说话人识别的主流技术。在i‐vector中，每一个说话人拥有一个能够在不同说话人间被区分开的矢量。

通常地，i‐vector需要分别建模说话人空间和信道空间，并代入变化因子进行计算，才可对输入的语音提取表征声纹信息的矢量，其训练和声纹信息提取过程比较复杂。

发明内容

本发明的目的在于提供一种基于神经网络的声纹信息提取方法及装置，通过所述方法及装置，可简化声纹信息的提取过程。

为实现上述发明目的之一，本发明一实施方式提供了一种神经网络的声纹信息提取方法，所述方法包括：

对输入的语音片段提取语音声学特征；

将所述语音声学特征输入基于神经网络训练的声纹模型中，并提取所述声纹模型中神经网络的瓶颈特征；

将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量，作为与所述输入的语音片段对应的声纹信息。

作为本发明一实施方式的进一步改进，“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括：

将所述神经网络的瓶颈特征的各帧矢量加权处理，计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。

将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模，通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。

作为本发明一实施方式的进一步改进，所述方法包括训练神经网络，其包括：

将训练语音片段提取到的语音声学特征作为神经网络的输入数据；

将训练语音片段对应的分类标签作为神经网络的输出数据；

通过神经网络分类所述输入数据，及比较分类结果与所述输出数据的对应关系训练出声纹模型。

作为本发明一实施方式的进一步改进，所述神经网络从底层向上层依次包括：输入层、双向循环神经网络层、全连接层，以及输出层。

作为本发明一实施方式的进一步改进，所述神经网络从底层向上层依次包括：输入层、双向循环神经网络层、卷积神经网络层、全连接层，以及输出层。

作为本发明一实施方式的进一步改进，所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。

为实现上述发明目的之一，本发明一实施方式提供了一种神经网络的声纹信息提取模块，所述模块包括：

语音声学特征提取模块，用于对输入的语音片段提取语音声学特征；

处理模块，用于将所述语音声学特征输入基于神经网络训练的声纹模型中，并提取所述声纹模型中神经网络的瓶颈特征；

声纹信息计算模块，用于将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量，作为与所述输入的语音片段对应的声纹信息。

作为本发明一实施方式的进一步改进，所述声纹信息计算模块用于：

作为本发明一实施方式的进一步改进，所述装置还包括神经网络训练模块，用于：

将训练语音片段对应的分类标签作为神经网络的输出数据；

相对于现有技术，本发明的基于神经网络的声纹信息提取方法及装置，通过基于神经网络训练的声纹模型对语音片段提取声纹信息，提取过程较为简单，且能够更好的处理短时语音片段。

附图说明

图1是本发明一实施方式中声纹模型的结构示意图。

图2是本发明一实施方式中基于神经网络的声纹信息提取方法的流程图。

图3是本发明一实施方式中基于神经网络的声纹信息提取装置的模块图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹都有差异。

声纹信息是通过滤波器、模型等方法提取出的能够表征说话人的信息，并具有较高区分性的声纹表示。它可被用于声纹识别系统，即说话人识别和确认，前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要识别技术，而银行交易时则需要确认技术。

声纹信息还可以被用于语音识别的说话人自适应系统，说话人自适应通过将说话人相关的语音特征变换为说话人无关的语音特征或将说话人无关的声纹模型变换为说话人相关的声纹模型来使待测目标说话人的语音特征与其声纹模型更加匹配，从而得到更好的识别效果。而实现这些变换的一种重要方法就是提取说话人语音的声纹信息。

本发明通过基于神经网络训练的声纹模型提取语音的声纹信息，大大简化了提取过程和建模过程，并且提取出的声纹信息质量较高。

如图1所示，本发明的用于提取声纹信息的声纹模型是基于神经网络训练的。在本发明一实施方式中，该神经网络从底层向上层依次包括：输入层、双向循环神经网络层、全连接层，以及输出层，即是进入该神经网络的数据依次经过输入层、双向循环神经网络层、全连接层后，到达输出层。其中，所述全连接层包括了至少一层全连接网络。

本实施方式的神经网络采用了双向循环神经网络层(双向RNN)，即包括了正向传播层和反向传播层的BLSTM网络，如此，可在完整的时间序列里，由前后时间帧共同分析当前时间帧的语音声学特征，使所述声纹模型提取神经网络的瓶颈特征更加精确。

在本发明另一实施方式中，所述神经网络从底层向上层依次包括：输入层、双向循环神经网络层、卷积神经网络层、全连接层，以及输出层，即是进入该神经网络的数据依次经过输入层、双向循环神经网络层、卷积神经网络层、全连接层后，到达输出层。

本实施方式在上述实施方式的基础上，还增加了卷积神经网络层(CNN)，如此，可将多个帧的语音声学特征合并为较少的帧数，降低了帧率，以在后续提取出更优的神经网络的瓶颈特征。

上述神经网络架构中各层所涉及的网络结构和特性，如双向循环神经网络、卷积神经网络、全连接网络等，均是本领域技术人员可通过现有技术熟练掌握，在此不再赘述。以下主要以如何在上述神经网络基础上，提取声纹信息为主进行说明。

进一步地，在进行声纹信息提取前，需先对上述神经网络进行训练。在本实施方式中，通过GPU加速训练所述神经网络为声纹模型，其方法包括：

将训练语音片段对应的分类标签作为神经网络的输出数据；

在本实施方式中，采用说话人作为分类标签，即一个说话人对应至少一训练语音片段。该训练神经网络的方式为：将大量的训练语音片段输入所述神经网络，并由神经网络进行分类，若神经网络将某一训练语音片段分类至对应的说话人，则将本次分类标记为1(即分类结果与输出数据对应)；若神经网络将某一训练语音片段分类至不对应的说话人，则将本次分类标记为0(即分类结果与输出数据不对应)，如此将所有训练语音片段分类后，结合分类标记将所述输入数据再次代入所述神经网络进行分析训练，直至所述神经网络能够准确的进行分类，或其分类准确率超过预设阈值时，作为所述声纹模型。

如图2所示，在本实施方式中，所述基于神经网络的声纹信息提取方法，所述方法包括：

S1、对输入的语音片段提取语音声学特征；

S2、将所述语音声学特征输入基于神经网络训练的声纹模型中，并提取所述声纹模型中神经网络的瓶颈特征；

S3、将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量，作为与所述输入的语音片段对应的声纹信息。

其中，所谓的语音片段指的是一段连续的语音，例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数(MFCC)，或感知线性预测系数(PLP)，或滤波器组特征(Filter Bank Feature)等。当然，所述语音声学特征也可为所述语音片段的原始语音数据。

在将提取到的与所述语音片段对应的语音声学特征输入至声纹模型后，声纹模型即可根据之前训练所定义的规则处理所述语音声学特征，例如，将所述语音声学特征依次经过输入层、双向循环神经网络层、卷积神经网络层、全连接层进行分析。

在本实施方式中，对需要提取声纹信息的语音片段，所取的特征为所述神经网络的瓶颈特征，也就是所述声纹模型中全连接层的输出，如此，可获取到表征声纹信息的一组矢量，该组矢量为对应声纹信息的多个帧组成，同时，通过神经网络的瓶颈特征来取声纹信息，也能够更好的适应短时语音片段(比如3s)的声纹信息提取。其中，关于神经网络的瓶颈特征的定义和提取方式，本领域普通技术人员可通过现有技术熟练掌握，在此不再赘述。

进一步地，在本发明一实施方式中，“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括：

将所述神经网络的瓶颈特征的各帧矢量加权处理，计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。在本实施方式中，可对所述神经网络的瓶颈特征的各帧加权后取平均值(例如，将所述神经网络的瓶颈特征的每一帧取相同的权重或预定的不同权重，加权后取平均值)，以计算所述单帧声纹表达矢量；也可对所述神经网络的瓶颈特征的各帧矢量进行窗函数加权，以计算所述单帧声纹表达矢量。

进一步地，在本发明另一实施方式中，“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括：

将所述神经网络的瓶颈特征的各帧矢量进行i‐vector建模，通过i‐vector模型计算出与所述神经网络的瓶颈特征对应的单帧声纹表达矢量。在本实施方式中，可通过现有的i‐vector对神经网络的瓶颈特征的各帧矢量进行建模，以通过i‐vector模型计算出i‐vector的声纹表示，作为单帧声纹表达矢量。本实施方式虽声纹提取的过程相较上述实施方式复杂，但因神经网络的瓶颈特征的特性，本实施方式提取的短时语音片段和噪音环境下语音片段的声纹信息相较传统的i‐vector提取的声纹信息性能更优。

如图3所示，在本发明的基于神经网络的声纹信息提取装置一实施方式中，同样适用图1所示的神经网络结构。所述装置包括神经网络训练模块100，所述神经网络训练模块100在进行声纹信息提取前，可对上述神经网络进行训练(为了快速训练所述神经网络，本实施方式采用GPU加速)，其用于：

将训练语音片段提取到的语音声学特征(可通过下述的语音声学特征提取模块200提取)作为神经网络的输入数据；

将训练语音片段对应的分类标签作为神经网络的输出数据；

在本实施方式中，所述基于神经网络的声纹信息提取装置，还包括：

语音声学特征提取模块200，用于对输入的语音片段提取语音声学特征；

处理模块300，用于将所述语音声学特征输入基于神经网络训练的声纹模型中，并提取所述声纹模型中神经网络的瓶颈特征；

声纹信息计算模块400，用于将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量，作为与所述输入的语音片段对应的声纹信息。

进一步地，在本发明一实施方式中，所述声纹信息计算模块400用于：

进一步地，在本发明另一实施方式中，所述声纹信息计算模块400用于：

综上所述，本发明的基于神经网络的声纹信息提取方法及装置，通过基于神经网络训练的声纹模型对语音片段提取声纹信息，其训练声纹模型和提取声纹信息的过程较为简单，并且，由于神经网络的特性，该声纹模型能够更好的处理短时语音片段和噪音环境下的语音片段，使提取的声纹信息性能更优。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，装置和模块的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本发明所提供的几个实施方式中，应该理解到，所揭露的装置，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块展示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能模块可以集成在一个决策模块中，也可以是各个模块单独物理存在，也可以2个或2个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施方式所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read‐Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims

1.一种基于神经网络的声纹信息提取方法，其特征在于，所述方法包括：

对输入的语音片段提取语音声学特征；

2.根据权利要求1所述的基于神经网络的声纹信息提取方法，其特征在于，“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括：

3.根据权利要求1所述的基于神经网络的声纹信息提取方法，其特征在于，“将所述神经网络的瓶颈特征的各帧矢量映射为单帧声纹表达矢量”具体包括：

4.根据权利要求1所述的基于神经网络的声纹信息提取方法，其特征在于，所述方法包括训练神经网络，其包括：

将训练语音片段对应的分类标签作为神经网络的输出数据；

5.根据权利要求4所述的基于神经网络的声纹信息提取方法，其特征在于，所述神经网络从底层向上层依次包括：

输入层、双向循环神经网络层、全连接层，以及输出层。

6.根据权利要求4所述的基于神经网络的声纹信息提取方法，其特征在于，所述神经网络从底层向上层依次包括：

输入层、双向循环神经网络层、卷积神经网络层、全连接层，以及输出层。

7.根据权利要求5或6所述的基于神经网络的声纹信息提取方法，其特征在于，所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。

8.一种基于神经网络的声纹信息提取装置，其特征在于，所述装置包括：

9.根据权利要求8所述的基于神经网络的声纹信息提取装置，其特征在于，所述声纹信息计算模块用于：

10.根据权利要求8所述的基于神经网络的声纹信息提取装置，其特征在于，所述声纹信息计算模块用于：

11.根据权利要求8所述的基于神经网络的声纹信息提取装置，其特征在于，所述装置还包括神经网络训练模块，用于：

将训练语音片段对应的分类标签作为神经网络的输出数据；

12.根据权利要求11所述的基于神经网络的声纹信息提取装置，其特征在于，所述神经网络从底层向上层依次包括：

输入层、双向循环神经网络层、全连接层，以及输出层。

13.根据权利要求11所述的基于神经网络的声纹信息提取装置，其特征在于，所述神经网络从底层向上层依次包括：

14.根据权利要求12或13所述的基于神经网络的声纹信息提取装置，其特征在于，所述神经网络的瓶颈特征为语音声学特征在声纹模型中全连接层的输出。