CN111951809A

CN111951809A - 多人声纹辨别方法及系统

Info

Publication number: CN111951809A
Application number: CN201910401565.3A
Authority: CN
Inventors: 陈佩云; 陈晓攀; 李孝超; 刘运卓
Original assignee: Shenzhen Ziwan Technology Co Ltd
Current assignee: Shenzhen Jintong Technology Co ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2020-11-17
Anticipated expiration: 2039-05-14
Also published as: CN111951809B

Abstract

本发明提供了多人声纹辨别方法及系统，所述方法包括：采集待分类语音信息；将所述待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集；将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人声纹分类辨别。本发明为了解决现有声纹辨别中需提前存储预识别的声纹信息，辨别人数有限的技术问题，故提出多人声纹辨别方案：通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算，并根据相似度值进行多人声纹的分类辨别，能够达到无需对用户的声音进行预先存储，从而实现多人声纹分类辨别。

Description

多人声纹辨别方法及系统

技术领域

本发明属于声纹辨别技术领域，尤其涉及多人声纹辨别方法及系统。

背景技术

目前，语音识别技术已经日趋成熟，语音识别技术也已广泛应用于语音拨号、语音导航、室内设备控制、语音文档检索、语音输入、音频转译等服务领域。与语音识别联系紧密的声纹辨别技术也有一定的发展，例如科大讯飞推出的声纹辨别功能，可用来实现考勤，门禁等相关功能。现有的声纹辨别技术大多都能够实现1对1或者N对1的辨别(提前采集一人的声纹信息识别这一人或者提前采集N人识别其中某一人)。百度输入法v8.0中的语音速记功能中的多人模式能够实现在2-3人的小型会议中，对声纹进行分析自动区分发言人。

但现阶段的声纹识别有局限性，大部分产品必须提前对用户进行声纹采集后才能使用，而对于用户没有提前录入声纹信息的长段语音则不能辨别音频中有几个人说话，说了哪几段话。而百度的声纹识别则局限在2-3个人的小型会议场景。基于上述技术问题，本文提出的声纹辨别技术通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算，并根据相似度值进行多人声纹的分类辨别，能够达到无需对用户的声音进行预先存储，从而实现多人声纹分类辨别。

发明内容

鉴于此，本发明实施例提供了多人声纹辨别方法及系统，现有声纹辨别需提前存储预识别的声纹信息，辨别人数有限，无法实现无需预先存储声纹信息进行多人语音辨别；本发明通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算，并根据相似度值进行多人声纹的分类辨别，能够达到无需对用户的声音进行预先存储，从而实现多人声纹分类辨别。

第一方面，提供了一种多人声纹辨别方法，所述方法包括步骤：

采集待分类语音信息；

将所述待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集；

将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人分类辨别。

进一步地，所述采集到的待分类语音信息切割为多段测试语音步骤包括：

以所述待分类语音信息的静默值以及静默时间作为依据做切割。

进一步地，所述时域到频域的转换的步骤具体包括：

将所述多段测试语音做离散傅里叶变换转化，并根据转化后的值绘制出测试频域波形图集。

进一步地，所述训练好的分类模型的训练步骤包括：

采集各类人群的建模语音信息；

将采集到的各类人群的建模语音信息进行时域到频域的转换，并输出对应的建模频域形波图；

根据人群类别设置分类，将得到的建模频域波形图分集，并投入训练，当损失值小于预设损失值，停止训练以获得分类模型。

进一步地，在训练时，采用了Inception-v3模型进行迁移学习缩短训练时间，输入各个分集的建模频域波形图利用Inception-v3模型进行迁移学习。

进一步地，训练出损失值小于5％的分类模型。

进一步地，采集所述待分类语音信息和所述建模语音信息的设备型号相同。

进一步地，在此处以静默值小于-50dBFs，静默时间大于500ms为依据做切割。

第二方面，提供了一种多人声纹辨别系统，所述系统包括：

待分类语音信息采集模块：用于采集待分类语音信息；

待分类语音信息处理模块：用于将所述待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集；

声纹辨别模块：用于将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人分类辨别。

进一步地，所述系统还包括：

语音信息采集模块，用于采集各类人群的建模语音信息；

语音信息处理模块，用于将采集到的各类人群的建模语音信息进行时域到频域的转换，并输出对应的建模频域形波图；

分类模型训练模块，用于根据人群类别设置分类，将得到的建模频域波形图分集，并投入训练，当损失值小于预设损失值，停止训练以获得分类模型。

与现有技术相比，本发明通过语音采集设备采集待分类语音信息并将待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集；将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进而实现了多人声纹分类辨别；从而提出了一种多人声纹辨别方案：通过预先训练分类模型对切割转换后的测试频域波形图集进行相似度运算，并根据相似度值进行多人声纹的分类辨别，能够达到无需对用户的声音进行预先存储，从而实现多人声纹分类辨别。

附图说明

图1是本发明实施例提供的多人声纹辨别方法的流程图。

图2是本发明实施例提供的多人声纹辨别系统的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过采集待分类语音信息；将所述待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集；将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人声纹分类辨别；为了解决现有声纹辨别需提前存储预识别的声纹信息，辨别人数有限，无法实现无需预先存储声纹信息进行多人语音辨别的问题。

本发明实施例还提供了相应的装置，以下分别进行详细的说明。

图1示出了本发明实施例提供的多人声纹辨别方法的流程图。

在本发明实施例中，所述多人声纹辨别方法应用于两个人及以上人对话需要记录区别的场景中，例如会议记录、采访、演讲记录、课堂讲座记录等。

参阅图1，所述多人声纹辨别方法包括：

S10，采集待分类语音信息。

在本发明实施例中，需要在训练好分类模型后，采用语音采集设备对待分类语音进行采集。

其中，分类模型的训练包括：

首先利用和采集待分类语音的同类型设备对建模语音进行采集。

然后将采集到的各类人群的建模语音信息进行时域到频域的转换，并输出对应的建模频域形波图。

接着根据人群类别设置分类，将得到的建模频域波形图分集，并投入训练，当损失值小于预设损失值，停止训练以获得分类模型。

在训练时，采用了Inception-v3模型进行迁移学习缩短训练时间，输入各个分集的建模频域波形图利用Inception-v3模型进行迁移学习。

最后训练出损失值小于5％的分类模型，得到分类模型；所述损失值根据情况可以在分类模型训练完成后通过后期模拟测试调整。

具体实施时，为了减少因不同设备而造成的干扰，采用和采集待分类语音的同类型设备录取了N(≥2)个人在不同场景下说话的语音，按照不同的人进行分类，设置的分类即为N类。为了能够更快捷的找到每个人声纹的特征点，将采集到的建模语音信息进行时域到频域的转换，具体通过离散傅里叶进行转换，能够绘制出若干的频谱图，将每个人的语音信息的频谱图作为音频文件的输出即完成了将原始的音频信号到频域波形图的转换，此时的数据集依然是按照不同的人进行分类N，而数据集的内容则是每个类别语音对应的频谱图。

其中，将每个人的频谱图数据分为训练集、测试集、验证集投入神经网络中进行学习，训练时采用了Inception-v3模型进行迁移学习缩短训练时间，提高训练效果。当损失值小于5％(此参数可根据情况优化调节)时即可停止训练，得到分类模型。

S12，将所述待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集。

其中，待分类语音信息的切割以静默值、静默时间作为依据做切割，具体的在此处以静默值小于-50dBFs，静默时间大于500ms为依据做切割。切割语音数据的每一小段作为一个数据单元的测试语音，完成后可得到M个片段的数据。同样为了能够更快捷的找到每个人声纹的特征点，将采集到的建模语音信息进行时域到频域的转换，具体通过离散傅里叶进行转换，通过设置转换时间来绘制频谱图，转换之后数据单元的个数仍为M个频谱图合集，而每个频谱图合集中会有相应数量的频谱图，对应的频谱图合集分别为m₁，m₂，m₃…m_M。

S13，将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人分类辨别。

其中相似度的运算具体为：

首先获取M个频谱图合集，计算出每个合集中每一张频谱图与每个分类的相似度，计算时应该把每个合集的所有频谱图与每个分类相似度求出，再求其均值，得到的即为这个合集的特征值。

然后给出所述声纹辨别模型中与频谱图合集m₁相似度值最大的a，b，c三类，其中{a，b，c}∈N；将频谱图合集m₁与a，b，c三类的相似度值作为特征依据对频谱图合集m₂进行辨别；当与频谱图合集m₁特征相似度值≥85％，判断与频谱图合集m₁为同一类，即同一人的语音；否则判定为新的一类数据，即第二人的语音；

并将频谱图合集m₁、频谱图合集m₂的相似度值作为特征依据对第三段语音进行辨别；

最后，与前两个合集中某一合集特征相似度值≥85％，判断与该段语音为同一类，否则定为新的一类数据，依次类推，将M个合集运行完，得到M段语音的分类结果。

本发明实施例提供的多人声纹辨别结合了音频信号到频域波形图的转换，较传统的方案有以下提升：

1、实现多人声纹辨别，无需提前对用户进行声纹采集。

2、打破传统方案对人数的限制，能够实现大于2人及以上的多人长段音频进行精准的多人声纹辨别，在音频噪音不大的环境下能够辨别音频中的说话人人数，以及分别说了那几段话。

3、将采集的语音信息进行时域到频域的转换，并以频域波形图的形式作为输出，能够更快捷的找到每个人声纹的特征点。

4、训练时采用了Inception-v3模型进行迁移学习缩短训练时间，提高训练效果。

应理解，在上述实施例中，各步骤的序号的大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图2示出了本发明实施例提供的多人声纹辨别系统的原理图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，所述系统用于实现上述图1实施例中所述的多人声纹辨别方法，可以是内置于计算机、服务器的软件单元、硬件单元或者软硬件结合的单元。

参阅图2，所述系统包括：

待分类语音信息采集模块21：用于采集待分类语音信息；具体如上所述，不再赘述。

待分类语音信息处理模块22，用于将所述待分类语音信息切割为多段测试语音，然后分别进行时域到频域的转换，并输出对应的测试频域波形图集；具体如上所述，不再赘述。

声纹辨别模块23，用于将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人分类辨别；具体如上所述，不再赘述。

进一步地，所述多人声纹辨别系统还包括：

语音信息采集模块，用于采集各类人群的建模语音信息；

需要说明的是，本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实例中的相关描述，此处不再赘述。

综上所述，本发明实施例通过使用设备采集待分类语音信息；并将所述待分类语音信息切割为多段测试语音，然后利用离散傅里叶分别进行时域到频域的转换，并输出对应的测试频域波形图集；将测试频域波形图集投入预先训练好的分类模型中，对每段测试语音与分类模型中的语音进行相似度运算，根据相似度值对各段语音进行多人分类辨别；从而提出了一种新的声纹辨别方法，实现了无需对用户的声音进行预先存储，对多人声纹进行分类辨别，打破了传统声纹辨别方法对人数的限制，是的运用场景和运用的便捷性大大提升。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多人声纹辨别方法，其特征在于，包括步骤：

采集待分类语音信息；

2.如权利要求1所述的多人声纹辨别方法，其特征在于，所述采集到的待分类语音信息切割为多段测试语音步骤包括：

3.如权利要求1所述的多人声纹辨别方法，其特征在于，所述时域到频域的转换的步骤具体包括：

4.如权利要求1所述的多人声纹辨别方法，其特征在于，所述训练好的分类模型的训练步骤包括：

采集各类人群的建模语音信息；

5.如权利要求4所述的多人声纹辨别方法，其特征在于，在训练时，采用了Inception-v3模型进行迁移学习缩短训练时间，输入各个分集的建模频域波形图利用Inception-v3模型进行迁移学习。

6.如权利要求4所述的多人声纹辨别方法，其特征在于，训练出损失值小于5％的分类模型。

7.如权利要求4所述多人声纹辨别方法，其特征在于，采集所述待分类语音信息和所述建模语音信息的设备型号相同。

8.如权利要求2所述的多人声纹辨别方法，其特征在于，在此处以静默值小于-50dBFs，静默时间大于500ms为依据做切割。

9.一种多人声纹辨别系统，其特征在于，包括，

待分类语音信息采集模块：用于采集待分类语音信息；

10.如权利要求9所述的多人声纹辨别系统，其特征在于，还包括：

语音信息采集模块，用于采集各类人群的建模语音信息；