CN108735221A

CN108735221A - 一种基于深度学习的说话人识别系统及识别方法

Info

Publication number: CN108735221A
Application number: CN201810525078.3A
Authority: CN
Inventors: 马宇翔
Original assignee: Shenzhen Jiejiao Electronic Commerce Co ltd
Current assignee: Shenzhen Jiejiao Electronic Commerce Co ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-02

Abstract

本发明公开了一种基于深度学习的说话人识别系统，该系统包括有语音质量筛查器、语音特征提取器、特征编码器、语音识别器和分类器；用户输入系统的注册语音和请求语音经质量检测、特征提取，特征编码和对比识别后完成说话人语音识别，整个系统可自适应外界噪声，高度拟合人体发声特征，对使用环境的容忍度高，安全可靠，使用便捷。

Description

一种基于深度学习的说话人识别系统及识别方法

技术领域

本发明属于语音识别领域，特别涉及一种基于深度学习的说话人识别系统及识别方法。

背景技术

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。

而随着科学的进步和技术的发展，语音识别技术已经日趋成熟，正逐步成为信息技术中人机接口的关键技术。多种语音识别算法使得语音识别无论是识别率还是识别效率上都有较大提升。近年来，语音识别技术也逐渐被普遍使用于各个领域。然而，传统的语音识别技术大多采用本地语音识别软件进行语音识别，这样就导致软件内的语音识别算法是无法改变的。而不同的语音识别算法对于不同的语音输入环境的语音识别效果势必会有差异。例如在复杂噪声环境中，具有各种来源的噪声。这样的噪声环境下，原来运行良好的语音识别系统的识别率可能会受到较大影响。若软件采用模板训练的方法，由于训练样本和样本库特征的失配，则软件的识别性能将会急剧下降，现有语音识别系统的缺点在于随着环境的改变其语音识别性能也会急剧下降，其适应性和适用性不高，无法满足多种情况下的语音识别需求。因此，如何让语音识别系统具有广泛的应用性与适用性就显得尤为重要。

例如在专利申请号为“201210221277.8”的专利申请文件中公开了一种基于语音识别的手机解锁方法，它包括以下步骤：录入标准解锁语音并保存；请求用户激活手机时要求输入解锁语音；输入语音并转换为语音特征参数；将该请求用户的语音特征参数与标准语音特征参数进行比对，若与其中一个被授权用户的语音特征参数相同则解锁成功。该发明克服了解锁密码易被破译或窥视的问题，采集到的语音信息经过信号纠正和调整后最终转换为语音特征参数，提高了特征参数计算结果的准确性，进而提高了语音解锁的可靠性；对信息内容及音色特征进行对比，均与标准解锁语音相符才能完成解锁，解锁语音不易被破译，手机隐私数据保存的安全性较高，不易泄露；解锁过程中，无需任何按键操作，使用极其方便。该算法应用于手机安全解锁中，用户事先录入解锁声音样本，由系统对声音样本采集语音特征参数，后续的开锁过程中系统将针对同一个体展开横向对比，运算并判断开锁，该方法存在数据库容量有限、其横向对比方法易受外界因素干扰，如用户存在感冒、发炎等情况声音发生变化是，系统无法适应并跟踪用户的声音变化，容易造成误判。

而在专利申请号为“201310192496.2”的专利申请文件中公开了一种安全手机的语音识别系统，其中的系统包括：声音采集，安全指令，安全处理器，安全状态寄存器，安全算法。该系统能够为手机的使用者提供一种便捷的安全操作方法，从而有效的保护使用者的隐私。该系统同样存在上文提及的问题，当用户处于较为嘈杂的环境中时，该识别系统将无法准确识别噪声和有效声音特征，该系统对应用环境的要求较为苛刻。

发明内容

为解决上述问题，本发明的目的在于提供可自适应使用环境的噪声、准确拟合人类发声特征的基于深度学习的说话人识别系统及识别方法。

本发明的另一个目的在于提供一种基于深度学习的说话人识别系统及识别方法，该系统安全性高，对应用环境要求宽容，该方法操作简单，解锁时无需额外按键，解锁语音不易被破解，适合广泛推广。

为实现上述目的，本发明的技术方案如下：

本发明提供一种基于深度学习的说话人识别系统，该系统包括有语音质量筛查器：设置于系统最前端，用于检测输入系统的语音质量；

语音特征提取器：设置在语音质量筛查器的后端，其输入端与语音质量筛查器的输出端连接，用于提取用户输入系统中的语音中的声学特征；

特征编码器：设置在语音特征提取器的后端，其输入端与语音特征提取器的输出端连接，用于对语音特征提取器提取出的声学特征进行特征量化编码；

语音识别器：设置在特征编码器的后端，其输入端与特征编码器的输出端连接，用于识别并作出判定。

在本发明涉及的基于深度学习的说话人识别系统，由深度学习方法搭建，其本系统在投入使用前，系统中的各模块均使用大量的同一用户的不同语音内容、或不同用户的同一语音内容训练完成。系统中设置语音质量筛查器，并将语音质量筛查器设置在系统的最前端，可对输入系统中的请求语音的质量进行检测，滤除后续模型不可用的语音，减轻后续模型的运算负担，也更好地提升系统整体的精度。而在语音质量筛查器的后端设置语音特征提取器，可将输入语音中的声学特征提取出来，便于后续模型对输入语音进行进一步地转换，而设置特征编码器，可将前端的语音特征提取器提取出来的语音特征进行编码量化，而经特征编码器编码量化后的，系统再利用语音识别器进行比对，最终完成说话人语音识别。

该系统还包括有分类器，所述分类器设置在语音识别器的后端，语音识别器的输出端与分类器的输入端连接，分类器用于对语音识别器作出的判定结果进行进一步分类。设置分类器，并将分类器设置在语音识别器的后端，分类器可不断更新分类函数，以求更好拟合人体发生特征，不断优化系统的识别结果，降低错误率，更好地提升系统精度。

该识别方法包括有以下步骤：

步骤1：用户输入任意一段语音，系统将该段语音保存为注册语音；本系统可应用于多种场合，如手机解锁、门禁解锁等，用户使用本系统前，需向本系统录入任意一段语音进行注册，系统将该段注册语音保存入库，一方面便于后续用户请求解锁时比对验证，另一方面也可将这段注册语音作为数据库中的样本，扩充本系统的样本容量，提升本系统的运算能力和识别精度。

步骤2：用户向系统输入任意一段语音作为请求语音，向系统请求说话人识别；本系统区别于其他系统，且优于其他语音识别系统的重要标志，在于本系统是基于深度学习的说话人识别系统，用户在输入注册语音时可任意输入一段语音，且请求认证时输入系统的请求语音内容可为任意内容，系统依据注册语音和请求语音中的声音特征识别二者的距离作出判断，用户无需记住特定解锁密码，极大程度上方便用户。

步骤3：语音质量筛查器首先对请求语音进行质量检测，如通过检测，则进入步骤4；如不通过检测，则拒绝该段请求语音，要求用户重新录入请求语音；在系统的最前端设置语音质量筛查器，检测过程主要检测输入系统的语音的音高、音色、频率等声学属性特征，本系统中的语音质量筛查器事先已完成训练，已学习到系统对噪声、音量、音高等指标的容忍程度，如输入系统的语音存在噪声过大、音量过小、说话人与系统距离过远等情况，超出系统的的容忍程度，则拒绝改声音，要求用户重新录入。如输入系统的语音未超出系统的容忍程度，则通过检测。

步骤4：语音质量筛查器同时对注册语音和已通过质量检测的请求语音进行筛选，剔除会导致后续模型失效的成分，保留两段语音中的有效成分。上文提及，语音质量筛查器实现已完成训练，可识别语音中噪声大小、音量高低、频率高低等特点，将这类导致后续模型失效的成分剔除，剥离出对后续模型提取语音特征有用的成分，减轻后续模型的运算压力，也避免后续模型失效。真题而言，语音质量筛选器一方面可对输入系统的请求语音进行质量检测，另一方面可根据训练情况剔除语音中的无效部分，更好地适应系统的使用环境，更精确地为后续模型的运算提供纯净的语音样本。

步骤5：将完成语音质量筛查的注册语音和请求语音同时输入特征提取器中，特征提取器对注册语音提取注册语音特征，对请求语音提取请求语音特征；特征提取器提取出语音中的声学特征，便于后续模型运算处理。

步骤6：将注册语音特征和请求语音特征一同输入特征编码器中，特征编码器对注册语音特征进一步编码为注册语音特征向量，对请求语音特征进一步编码为请求语音特征向量；特征编码器过滤掉无用信息，对语音特征进行进一步编码。

步骤7：将注册语音特征向量和请求语音特征向量一同输入语音识别器中，语音识别器对比两个向量，计算两个向量之间的距离，并将该距离与设定阈值对比，如两个向量之间的距离小于设定阈值，则判定为本人，将该判定结果输出为第一结果，如两个向量之间的距离大于阈值，则判定为非本人，将该判定结果输出为第二结果；不同于传统系统中利用经验设定阈值，在本系统中，阈值的设定可由系统根据各模型对输入语音样本的容忍度不断调整，自动使用系统使用环境，避免系统阈值设置不当导致识别出错。

步骤8：将步骤七中输出的第一结果和第二结果输入分类器中，由分类器对输出结果做分类和进一步优化运算。

其中，步骤3：语音质量筛查器对请求语音进行质量检测，如通过检测，则进入步骤4；如不通过检测，则拒绝该段请求语音，要求用户重新录入请求语音中，语音质量筛查器主要检测注册语音和请求语音的基本声学属性特征。

其中，步骤4：将注册语音和请求语音同时输入特征提取器中，特征提取器对注册语音提取注册语音特征，对请求语音提取请求语音特征中，特征提取器主要提取注册语音和请求语音的声学特征。本系统一般采用mtcc、lpc、mfec等方法提取声学特征。

本发明的优势在于：相比于现有技术，在本发明当中，系统设置语音质量筛查器、特征提取器、特征编码器和语音识别器，用户输入系统的注册语音和请求语音经质量检测、特征提取，特征编码和对比识别后完成说话人语音识别，整个系统可自适应外界噪声，高度拟合人体发声特征，对使用环境的容忍度高，安全可靠，使用便捷。

附图说明

图1是本发明一种基于深度学习的说话人识别系统的结构示意图。

图2是本发明一种基于深度学习的说话人识别方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明的技术方案如下：

参见图1-2所示，本发明提供一种基于深度学习的说话人识别系统，该系统包括有语音质量筛查器1：设置于系统最前端，用于检测输入系统的语音质量；

语音特征提取器2：设置在语音质量筛查器1的后端，其输入端与语音质量筛查器1的输出端连接，用于提取用户输入系统中的语音中的声学特征；

特征编码器3：设置在语音特征提取器2的后端，其输入端与语音特征提取器2的输出端连接，用于对语音特征提取器2提取出的声学特征进行特征量化编码；

语音识别器4：设置在特征编码器4的后端，其输入端与特征编码器4的输出端连接，用于识别并作出判定。

在本发明涉及的基于深度学习的说话人识别系统，由深度学习方法搭建，其本系统在投入使用前，系统中的各模块均使用大量的同一用户的不同语音内容、或不同用户的同一语音内容训练完成。系统中设置语音质量筛查器1，并将语音质量筛查器1设置在系统的最前端，可对输入系统中的请求语音的质量进行检测，滤除后续模型不可用的语音，减轻后续模型的运算负担，也更好地提升系统整体的精度。而在语音质量筛查器1的后端设置语音特征提取器2，可将输入语音中的声学特征提取出来，便于后续模型对输入语音进行进一步地转换，而设置特征编码器3，可将前端的语音特征提取器2提取出来的语音特征进行编码量化，而经特征编码器编码量化后的，系统再利用语音识别器4进行比对，最终完成说话人语音识别。

该系统还包括有分类器5，所述分类器5设置在语音识别器的后端，语音识别器4的输出端与分类器5的输入端连接，分类器5用于对语音识别器4作出的判定结果进行进一步分类。设置分类器5，并将分类器5设置在语音识别器4的后端，分类器5可不断更新分类函数，以求更好拟合人体发生特征，不断优化系统的识别结果，降低错误率，更好地提升系统精度。

该识别方法包括有以下步骤：

S1：用户输入任意一段语音，系统将该段语音保存为注册语音；本系统可应用于多种场合，如手机解锁、门禁解锁等，用户使用本系统前，需向本系统录入任意一段语音进行注册，系统将该段注册语音保存入库，一方面便于后续用户请求解锁时比对验证，另一方面也可将这段注册语音作为数据库中的样本，扩充本系统的样本容量，提升本系统的运算能力和识别精度。

S2：用户向系统输入任意一段语音作为请求语音，向系统请求说话人识别；本系统区别于其他系统，且优于其他语音识别系统的重要标志，在于本系统是基于深度学习的说话人识别系统，用户在输入注册语音时可任意输入一段语音，且请求认证时输入系统的请求语音内容可为任意内容，系统依据注册语音和请求语音中的声音特征识别二者的距离作出判断，用户无需记住特定解锁密码，极大程度上方便用户。

S3：语音质量筛查器1首先对请求语音进行质量检测，如通过检测，则进入步骤4；如不通过检测，则拒绝该段请求语音，要求用户重新录入请求语音；在系统的最前端设置语音质量筛查器1，检测过程主要检测输入系统的语音的音高、音色、频率等声学属性特征，本系统中的语音质量筛查器1事先已完成训练，已学习到系统对噪声、音量、音高等指标的容忍程度，如输入系统的语音存在噪声过大、音量过小、说话人与系统距离过远等情况，超出系统的的容忍程度，则拒绝改声音，要求用户重新录入。如输入系统的语音未超出系统的容忍程度，则通过检测。

S4：语音质量筛查器1同时对注册语音和已通过质量检测的请求语音进行筛选，剔除会导致后续模型失效的成分，保留两段语音中的有效成分。上文提及，语音质量筛查器1实现已完成训练，可识别语音中噪声大小、音量高低、频率高低等特点，将这类导致后续模型失效的成分剔除，剥离出对后续模型提取语音特征有用的成分，减轻后续模型的运算压力，也避免后续模型失效。真题而言，语音质量筛选器1一方面可对输入系统的请求语音进行质量检测，另一方面可根据训练情况剔除语音中的无效部分，更好地适应系统的使用环境，更精确地为后续模型的运算提供纯净的语音样本。

S5：将完成语音质量筛查的注册语音和请求语音同时输入特征提取器2中，特征提取器2对注册语音提取注册语音特征，对请求语音提取请求语音特征；特征提取器2提取出语音中的声学特征，便于后续模型运算处理。

S6：将注册语音特征和请求语音特征一同输入特征编码器3中，特征编码器3对注册语音特征进一步编码为注册语音特征向量，对请求语音特征进一步编码为请求语音特征向量；特征编码器3过滤掉无用信息，对语音特征进行进一步编码。

S7：将注册语音特征向量和请求语音特征向量一同输入语音识别器4中，语音识别器4对比两个向量，计算两个向量之间的距离，并将该距离与设定阈值对比，如两个向量之间的距离小于设定阈值，则判定为本人，将该判定结果输出为第一结果，如两个向量之间的距离大于阈值，则判定为非本人，将该判定结果输出为第二结果；不同于传统系统中利用经验设定阈值，在本系统中，阈值的设定可由系统根据各模型对输入语音样本的容忍度不断调整，自动使用系统使用环境，避免系统阈值设置不当导致识别出错。

S8：将步骤七中输出的第一结果和第二结果输入分类器5中，由分类器5对输出结果做分类和进一步优化运算。

其中，步骤3：语音质量筛查器1对请求语音进行质量检测，如通过检测，则进入步骤4；如不通过检测，则拒绝该段请求语音，要求用户重新录入请求语音中，语音质量筛查器1主要检测注册语音和请求语音的基本声学属性特征，如音高、音色、频率等特性。

其中，步骤4：将注册语音和请求语音同时输入特征提取器2中，特征提取器2对注册语音提取注册语音特征，对请求语音提取请求语音特征中，特征提取器2主要提取注册语音和请求语音的声学特征。本系统一般采用mtcc、lpc、mfec等方法提取声学特征。

本发明的优势在于：相比于现有技术，在本发明当中，系统设置语音质量筛查器1、特征提取器2、特征编码器3和语音识别器4，用户输入系统的注册语音和请求语音经质量检测、特征提取，特征编码和对比识别后完成说话人语音识别，整个系统可自适应外界噪声，高度拟合人体发声特征，对使用环境的容忍度高，安全可靠，使用便捷。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的说话人识别系统，其特征在于，该系统包括有语音质量筛查器、语音特征提取器、特征编码器和语音识别器；所述语音质量筛查器：设置于系统最前端，用于检测输入系统的语音质量；

所述语音特征提取器：设置在语音质量筛查器的后端，其输入端与语音质量筛查器的输出端连接，用于提取用户输入系统中的语音中的声学特征；

所述特征编码器：设置在语音特征提取器的后端，其输入端与语音特征提取器的输出端连接，用于对语音特征提取器提取出的声学特征进行特征量化编码；

所述语音识别器：设置在特征编码器的后端，其输入端与特征编码器的输出端连接，用于识别并作出判定。

2.如权利要求1所述的基于深度学习的说话人识别系统，其特征在于，该系统还包括有分类器，所述分类器设置在语音识别器的后端，所述语音识别器的输出端与分类器的输入端连接，所述分类器用于对语音识别器作出的判定结果进行进一步分类。

3.一种基于深度学习的说话人识别方法，其特征在于，该识别方法包括有以下步骤：

步骤1：用户输入任意一段语音，系统将该段语音保存为注册语音；

步骤2：用户向系统输入任意一段语音作为请求语音，向系统请求说话人识别；

步骤3：语音质量筛查器对请求语音进行质量检测，如通过检测，则进入步骤4；如不通过检测，则拒绝该段请求语音，要求用户重新录入请求语音；

步骤4：语音质量筛查器同时对注册语音和已通过质量检测的请求语音进行筛选，剔除会导致后续模型失效的成分，保留两段语音中的有效成分；

步骤5：将完成语音质量筛查的注册语音和请求语音同时输入特征提取器中，特征提取器对注册语音提取注册语音特征，对请求语音提取请求语音特征；

步骤6：将注册语音特征和请求语音特征一同输入特征编码器中，特征编码器对注册语音特征进一步编码为注册语音特征向量，对请求语音特征进一步编码为请求语音特征向量；

步骤7：将注册语音特征向量和请求语音特征向量一同输入语音识别器中，语音识别器对比两个向量，计算两个向量之间的距离，并将该距离与设定阈值对比，如两个向量之间的距离小于设定阈值，则判定为本人，将该判定结果输出为第一结果，如两个向量之间的距离大于阈值，则判定为非本人，将该判定结果输出为第二结果；

4.如权利要求3所述的基于深度学习的说话人识别方法，其特征在于，所述步骤3：语音质量筛查器对请求语音进行质量检测，如通过检测，则进入步骤4；如不通过检测，则拒绝该段请求语音，要求用户重新录入请求语音中，语音质量筛查器主要检测注册语音和请求语音的基本声学属性特征。

5.如权利要求3所述的基于深度学习的说话人识别方法，其特征在于，所述步骤5：将注册语音和请求语音同时输入特征提取器中，特征提取器对注册语音提取注册语音特征，对请求语音提取请求语音特征中，特征提取器主要提取注册语音和请求语音的声学特征。