CN111341323B

CN111341323B - 声纹识别训练数据扩增方法、系统、移动终端及存储介质

Info

Publication number: CN111341323B
Application number: CN202010085094.2A
Authority: CN
Inventors: 张广学; 肖龙源; 蔡振华; 李稀敏; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2022-07-01
Anticipated expiration: 2040-02-10
Also published as: CN111341323A

Abstract

本发明提供了一种声纹识别训练数据扩增方法、系统、移动终端及存储介质，该方法包括：获取纯净原始语音进行加噪处理，得到至少一个加噪语音；将纯净原始语音与加噪语音进行混合，以得到混合语音，采用至少两种编码方式对混合语音进行编码，得到编码数据；将编码数据通过至少两个信道进行传输，以得到语音传输数据，对语音传输数据进行解码，以得到语音解码数据；将混合语音与语音解码数据进行匹配，并根据匹配结果将混合语音中的语音信息与语音解码数据中解码信息对应进行存储，以得到训练数据集。本发明通过采用不同的编解码技术，并基于将纯净语音通过不同信道进行传输，以使对训练数据集进行了数据扩增，有效的提高了跨信道声纹识别的准确率。

Description

声纹识别训练数据扩增方法、系统、移动终端及存储介质

技术领域

本发明声纹识别技术领域，尤其涉及一种声纹识别训练数据扩增方法、系统、移动终端及存储介质。

背景技术

每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。

现有声纹识别方案是提前采集至少一个用户的纯净语音数据，并对纯净语音数据进行特征值提取，将提取到的特征值输入声纹模型得到N维声纹向量。后面在做确认或者识别的时候，先获取任意一个用户的语音数据，然后对语音数据提取特征值，将特征值输入声纹模型，得到N维声纹向量，再与声纹库里原有的声纹向量做相似度匹配，每匹配一个用户会得到一个分值，分值最高并且大于阈值的声纹为待测语音所对应的用户。但现有技术中均是采用纯净语音的方式进行声纹识别模型的训练，由于声纹识别过程中待识别的声纹数据来源的信道和编解码方式不同，进而容易导致待识别声纹与纯净语音之间的声纹识别准确率低下。

发明内容

本发明实施例的目的在于提供一种声纹识别训练数据扩增方法、系统、移动终端及存储介质，旨在解决现有的声纹识别过程中，由于采用纯净语音作为声纹识别模型的训练数据集所导致的声纹识别准确率低下的问题。

本发明实施例是这样实现的，一种声纹识别训练数据扩增方法，所述方法包括：

获取纯净原始语音，并对所述纯净原始语音进行加噪处理，得到至少一个加噪语音；

将所述纯净原始语音与所述加噪语音进行混合，以得到混合语音，并采用至少两种编码方式对所述混合语音进行编码，得到编码数据；

将所述编码数据通过至少两个信道进行传输，以得到语音传输数据，并对所述语音传输数据进行解码，以得到语音解码数据；

将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储，以得到训练数据集。

更进一步的，所述对所述纯净原始语音进行加噪处理的步骤包括：

采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声，以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。

更进一步的，所述采用至少两种编码方式对所述混合语音进行编码的步骤包括：

对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码，以得到所述编码数据。

更进一步的，所述将所述编码数据通过至少两个信道进行传输的步骤包括：

将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输，以得到语音传输数据。

更进一步的，所述将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储的步骤包括：

根据所述混合语音的编码结果，对所述混合语音中的语音信息进行编码标识；

根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识；

将所述编码标识与所述解码标识进行匹配，当所述编码标识与所述解码标识匹配成功时，将所述编码标识对应的所述混合语音中的语音信息与所述解码标识对应的所述语音解码数据中解码信息对应进行存储。

更进一步的，所述方法还包括：

将所述训练数据集输入声纹识别模型，并采用x-vectorDNN的方式训练所述声纹识别模型，直至所述声纹识别模型收敛；

获取待识别声纹，并控制所述声纹识别模型对所述待识别声纹进行识别，以得到声纹识别结果。

本发明实施例的另一目的在于提供一种声纹识别训练数据扩增系统，所述系统包括：

语音加噪模块，用于获取纯净原始语音，并对所述纯净原始语音进行加噪处理，得到至少一个加噪语音；

语音编码模块，用于将所述纯净原始语音与所述加噪语音进行混合，以得到混合语音，并采用至少两种编码方式对所述混合语音进行编码，得到编码数据；

语音解码模块，用于将所述编码数据通过至少两个信道进行传输，以得到语音传输数据，并对所述语音传输数据进行解码，以得到语音解码数据；

数据存储模块，用于将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储，以得到训练数据集。

更进一步的，所述语音加噪模块还用于：

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别训练数据扩增方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的声纹识别训练数据扩增方法的步骤。

本发明实施例，通过采用不同的编解码技术，并基于将纯净语音通过不同信道进行传输，以使对训练数据集进行了数据扩增，有效的提高了跨信道声纹识别的准确率，防止了由于信道和编解码方式不同所导致的声纹识别准确率低下的问题。

附图说明

图1是本发明第一实施例提供的语音分离方法的流程图；

图2是本发明第二实施例提供的语音分离方法的流程图；

图3是本发明第三实施例提供的语音分离系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的声纹识别训练数据扩增方法的流程图，包括步骤：

步骤S10，获取纯净原始语音，并对所述纯净原始语音进行加噪处理，得到至少一个加噪语音；

其中，该纯净原始语音为任意用户的声纹语音，该声纹语音已经过去噪处理，即该声纹语音中未携带有噪声或背景声等音频数据；

具体的，由于一般情况下，进行声纹识别的环境是存在噪声的，使得在应对有噪环境时对训练数据进行加噪处理是必要的，因此，该步骤通过对该纯净原始语音进行加噪处理，以使后续得到的训练数据能有效的应对声纹识别过程中的有噪环境，以提高声纹识别的准确率；

步骤S20，将所述纯净原始语音与所述加噪语音进行混合，以得到混合语音，并采用至少两种编码方式对所述混合语音进行编码，得到编码数据；

其中，该编码方式可以根据需求进行数量和方式的选择，以达到对混合语音的编码效果；

具体的，该步骤中通过对采用至少两种编码方式对所述混合语音进行编码的设计，有效的对训练数据集进行了数据扩增，以得到基于多编码的训练数据集，提高了后续声纹识别的准确率；

步骤S30，将所述编码数据通过至少两个信道进行传输，以得到语音传输数据，并对所述语音传输数据进行解码，以得到语音解码数据；

其中，可以将该编码数据中的编码信息分别采用至少两个信道进行传输，或根据编码信息的顺序依序轮流采用至少两个信道进行传输，以得到该语音传输数据；

具体的，该步骤中，通过将所述编码数据通过至少两个信道进行传输的设计，有效的对训练数据集进行了数据扩增，以得到基于多通道的训练数据集，提高了后续声纹识别的准确率；

步骤S40，将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储，以得到训练数据集；

其中，通过将所述混合语音与所述语音解码数据进行匹配的设计，以查询该混合语音中语音信息与该语音解码数据中解码信息之间的对应关系，并基于查询到的对应关系进行存储，以得到该训练数据集；

具体的，该步骤中的训练数据集是基于加噪处理、多编码和多信道传输得到的数据，能有效的应对加噪环境和跨信道的声纹识别，提高了声纹识别的准确性；

本实施例，通过采用不同的编解码技术，并基于将纯净语音通过不同信道进行传输，以使对训练数据集进行了数据扩增，有效的提高了跨信道声纹识别的准确率，防止了由于信道和编解码方式不同所导致的声纹识别准确率低下的问题。

实施例二

请参阅图2，是本发明第二实施例提供的声纹识别训练数据扩增方法的流程图，包括步骤：

步骤S11，获取纯净原始语音，并采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声，以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音；

其中，通过基于mfcc特征的方式对应在该纯净原始语音中添加语音回响、语音噪声、背景音乐声和背景说话人声的设计，以使应对后续声纹识别过程中声纹环境出现语音回响、语音噪声、背景音乐声和背景说话人声的现象，进而提高了后续声纹识别的准确性；

步骤S21，将所述纯净原始语音与所述加噪语音进行混合，以得到混合语音；

步骤S31，对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码，以得到所述编码数据；

其中，通过对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码的设计，有效的对训练数据集进行了数据扩增，以得到基于多编码的训练数据集，提高了后续声纹识别的准确率；

步骤S41，将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输，以得到语音传输数据；

其中，通过将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输的设计，有效的对训练数据集进行了数据扩增，以得到基于多通道的训练数据集，提高了后续声纹识别的准确率；

步骤S51，对所述语音传输数据进行解码，以得到语音解码数据，并根据所述混合语音的编码结果，对所述混合语音中的语音信息进行编码标识；

其中，通过对所述混合语音中的语音信息进行编码标识的设计，以使将混合语音中的语音数据与编码后的编码数据中对应的编码信息进行标记，进而有效的方便了该语音数据与该编码信息之间的查询；

步骤S61，根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识；

其中，通过根据所述语音传输数据的解码结果对所述语音解码数据中的解码信息进行解码标识的设计，以使将该语音传输数据中的传输信息与该语音解码数据中的解码信息对应进行标记，进而有效的方便了该传输信息与该解码信息之间的对应查询；

步骤S71，将所述编码标识与所述解码标识进行匹配，当所述编码标识与所述解码标识匹配成功时，将所述编码标识对应的所述混合语音中的语音信息与所述解码标识对应的所述语音解码数据中解码信息对应进行存储，以得到训练数据集；

其中，通过将所述编码标识与所述解码标识进行匹配的设计，以根据该编码数据中的编码信息和传输后得到的传输信息之间的对应关系，以查询该语音信息和与之对应的解码信息，并将查询到的对应关系进行存储，以得到该训练数据集；

例如混合语音中的语音信息为a，编码后得到的编码信息为A₁，A₁传输后的数据为A₂，A₂解码后的得到的解码信息为A₃，因此，基于该A₁与A₂之间的对应关系，以查询到a与A₃之间的对应关系；

步骤S81，将所述训练数据集输入声纹识别模型，并采用x-vectorDNN的方式训练所述声纹识别模型，直至所述声纹识别模型收敛；

步骤S91，获取待识别声纹，并控制所述声纹识别模型对所述待识别声纹进行识别，以得到声纹识别结果；

实施例三

请参阅图3，是本发明第三实施例提供的声纹识别训练数据扩增系统100的结构示意图，包括：语音加噪模块10、语音编码模块11、语音解码模块12和数据存储模块13，其中：

语音加噪模块10，用于获取纯净原始语音，并对所述纯净原始语音进行加噪处理，得到至少一个加噪语音。

其中，所述语音加噪模块10还用于：采用mfcc方法在所述纯净原始语音中分别对应增加语音回响、语音噪声、背景音乐声和背景说话人声，以对应得到加回响语音、加噪声语音、加背景音乐语音和加背景说话人声语音。

语音编码模块11，用于将所述纯净原始语音与所述加噪语音进行混合，以得到混合语音，并采用至少两种编码方式对所述混合语音进行编码，得到编码数据。

其中，所述语音编码模块11还用于：对所述混合语音中的语音数据采用汉明码、Golay码、CRC码、Viterbi码、Turbo码、Polar码或LDPC码中的至少两种编码方式进行编码，以得到所述编码数据。

语音解码模块12，用于将所述编码数据通过至少两个信道进行传输，以得到语音传输数据，并对所述语音传输数据进行解码，以得到语音解码数据。

其中，所述语音解码模块12还用于：将所述编码数据中的编码信息采用3G信道、4G信道、5G信道或电话信道中的至少两种信道进行传输，以得到语音传输数据。

数据存储模块13，用于将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储，以得到训练数据集。

其中，所述数据存储模块13还用于：根据所述混合语音的编码结果，对所述混合语音中的语音信息进行编码标识；

所述声纹识别训练数据扩增系统100还包括：

声纹识别模块14，用于将所述训练数据集输入声纹识别模型，并采用x-vectorDNN的方式训练所述声纹识别模型，直至所述声纹识别模型收敛；

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别训练数据扩增方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储，以得到训练数据集。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的声纹识别训练数据扩增系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的声纹识别训练数据扩增方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前声纹识别训练数据扩增系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前声纹识别训练数据扩增系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别训练数据扩增方法，其特征在于，所述方法包括：

2.如权利要求1所述的声纹识别训练数据扩增方法，其特征在于，所述对所述纯净原始语音进行加噪处理的步骤包括：

3.如权利要求1所述的声纹识别训练数据扩增方法，其特征在于，所述采用至少两种编码方式对所述混合语音进行编码的步骤包括：

4.如权利要求1所述的声纹识别训练数据扩增方法，其特征在于，所述将所述编码数据通过至少两个信道进行传输的步骤包括：

5.如权利要求1所述的声纹识别训练数据扩增方法，其特征在于，所述将所述混合语音与所述语音解码数据进行匹配，并根据匹配结果将所述混合语音中的语音信息与所述语音解码数据中解码信息对应进行存储的步骤包括：

6.如权利要求1所述的声纹识别训练数据扩增方法，其特征在于，所述方法还包括：

将所述训练数据集输入声纹识别模型，并采用x-vector DNN的方式训练所述声纹识别模型，直至所述声纹识别模型收敛；

7.一种声纹识别训练数据扩增系统，其特征在于，所述系统包括：

8.如权利要求7所述的声纹识别训练数据扩增系统，其特征在于，所述语音加噪模块还用于：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的声纹识别训练数据扩增方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的声纹识别训练数据扩增方法的步骤。