CN108831484A

CN108831484A - 一种离线的且与语言种类无关的声纹识别方法及装置

Info

Publication number: CN108831484A
Application number: CN201810531953.9A
Authority: CN
Inventors: 卢敬光; 刘海模; 吴晓东; 刘雄; 肖虎; 马鸿飞
Original assignee: Guangdong Sheng General Technology Co Ltd
Current assignee: Guangdong Sheng General Technology Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-16

Abstract

一种离线的且与语言种类无关的声纹识别方法，包括以下步骤：接收多段的训练语音，并提取每段训练语音的相应的第一声纹特征；训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；接收单段的输入语音，并提取该段输入语音的第二声纹特征；根据第二声纹特征与多个声纹模板的匹配结果，将输入语音标记为与相对应的第二声纹特征之间差异最小的声纹模板的编号。本发明的有益效果为：通过本地的声纹模板，方便地确认说话人的身份，提高了基于语音识别技术的设备的易用性。

Description

一种离线的且与语言种类无关的声纹识别方法及装置

技术领域

本发明涉及说话人确认的技术领域，尤其涉及一种离线的且与语言种类无关的声纹识别方法及实现相关方法的装置。

背景技术

随着近年来语音识别技术的日渐成熟和普及，不少商业电子消费产品都提供了通过语音向电子设备发出控制指令的功能(例如苹果手机的Siri功能)。此外，不少安防设备也提供了基于语音识别等生物特征识别技术的防护措施，例如基于说话人语音的声纹锁，从而进一步提高了产品的安全系数。其中，上述基于语音的电子设备控制技术和基于说话人语音的声纹锁，都涉及到语音识别技术中的说话人确认(Speaker Verification)技术，即确认相关语音是否由指定的用户(例如手机的持有者或者具有权限以进入指定场所的人员)发出。

上述基于语音识别技术的应用在不同的具体场合都为用户提供更为友好方便的电子设备交互操作方式，或者更为安全方便的安防措施(例如无需用户手动输入密码以验证其使用权限或者场所的进入权限)；但是现有技术方案由于语音自身容易受其他条件(例如背景噪音和说话人自身的发声状况等)影响而导致的不稳定，以及往往要求相关设备在线连接一个外部数据库以准确识别语音。这些问题都提高了基于语音识别技术的使用成本。

发明内容

本发明的目的是解决现有技术的不足，提供一种离线的且与语言种类无关的声纹识别方法及装置，能够获得离线实现语音识别的效果。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种类似对象，但这些对象不应限于这些术语。这些术语仅用来将同一类型的对象彼此区分开。例如，在不脱离本文范围的情况下，第一特征也可以被称为第二特征，类似地，第二特征也可以被称为第一特征。

为了实现上述目的，本发明首先提出一种离线的且与语言种类无关的声纹识别方法，其包括以下步骤：接收多段的训练语音，并提取每段训练语音的相应的第一声纹特征；训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；接收单段的输入语音，并提取该段输入语音的第二声纹特征；根据第二声纹特征与多个声纹模板的匹配结果，确定与第二声纹特征之间差异最小的声纹模板的编号。

在上述方法的一个优选的实施例中，多段训练语音中的每一段训练语音都是独立随机的，并且与输入语音无关。

在上述方法的一个优选的实施例中，声纹模板是通过动态更新至少一名指定人员的语音训练而成的。

进一步地，在上述优选实施例中，在声纹模板动态更新时记录当前时间，并基于所记录的时间及预设的更新周期，更新声纹模板。

在上述方法的一个优选的实施例中，在提取每段训练语音的相应的第一声纹特征前，还包括以下预处理步骤：检查每段训练语音的长度，并将长度小于预设的长度阈值的训练语音剔除。

在上述方法的一个优选的实施例中，当第二声纹特征与每个声纹模板之间的差异都大于预设的误差阈值时，对应该第二声纹特征的输入语音被标记为未识别。

其次，本发明还提出一种离线的且与语言种类无关的声纹识别装置，包括以下模块：第一提取模块，用于接收多段训练语音，并提取每段训练语音的相应的第一声纹特征；特征训练模块，用于训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；第二提取模块，用于接收单段输入语音，并提取该段输入语音的第二声纹特征；声纹识别模块，用于根据第二声纹特征与多个声纹模板的匹配结果，将输入语音标记为与相对应的第二声纹特征之间差异最小的声纹模板的编号。

在上述装置的一个优选的实施例中，多段训练语音中的每一段训练语音都是独立随机的，并且与输入语音无关。

在上述装置的一个优选的实施例中，声纹模板是通过动态更新至少一名指定人员的语音训练而成的。

进一步地，在上述优选的实施例中，第一提取模块在声纹模板动态更新时记录当前时间，并基于所记录的时间及预设的更新周期，更新声纹模板。

在上述装置的一个优选的实施例中，第一提取模块还包括以下预处理模块：语音检查模块，用于检查每段训练语音的长度，并将长度小于预设的长度阈值的训练语音剔除。

在上述装置的一个优选的实施例中，当第二声纹特征与每个声纹模板之间的差异都大于预设的误差阈值时，声纹识别模块将输入语音标记为未识别。

最后，本发明还公开了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如前述任一项所述的方法的步骤。

本发明的有益效果为：通过本地的声纹模板，方便地确认说话人的身份，提高了基于语音识别技术的设备的易用性。

附图说明

图1所示为离线的且与语言种类无关的声纹识别方法的一个实施例的流程图；

图2所示为基于图1中的实施例，相关设备的配置示意图；

图3所示为提取训练语音的第一声纹特征的预处理方法流程图；

图4所示为离线的且与语言种类无关的声纹识别装置的一个实施例的模块结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

图1所示为离线的且与语言种类无关的声纹识别方法的一个实施例的流程图。所述方法包括以下步骤：接收多段的训练语音，并提取每段训练语音的相应的第一声纹特征；训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；接收单段的输入语音，并提取该段输入语音的第二声纹特征；根据第二声纹特征与多个声纹模板的匹配结果，将输入语音标记为与相对应的第二声纹特征之间差异最小的声纹模板的编号。如图2中的示意图所示，每段训练语音所对应的声纹模板都被存储在本地。

其中，第一声纹特征和第二声纹特征都是基于人类语音的稳定性，对所收集语音的物理量(例如音质、音长、音强和音高等)形成的语音图谱(例如语音的共振峰图)特征参数。进一步地，如图2所示在本发明的一个实施例中，声纹模板是通过采集多名用户中的每一名用户的多段训练语音，并将多段训练语音按照用户分组编序提取并通过训练声纹特征而成。声纹特征的具体提取并训练方式可采用本技术领域内的常规算法，对用户所提供的训练语音进行分析而形成，本发明对此不予限定。此外，对于第二声纹特征与多个声纹模板的匹配判定可以采用本领域的常规模式识别算法(例如模板匹配方法或者神经网络方法)实现，本发明对此不予限定。进一步地，对于不同的模式匹配算法，本领域技术人员可以根据实际所采用的算法定义第二声纹特征与各个声纹模板之间的差异。

在本发明的一个实施例中，多段训练语音中的每一段训练语音都是独立随机的，并且与输入语音无关。具体地，多名用户中的每一位用户可多次输入训练语音，从而使得所接收的训练语音更为全面地表现各位用户的声纹特征，并通过有监督的训练改进声纹模板，从而提高语音识别的准确率。

在本发明的一个实施例中，声纹模板是通过动态更新至少一名指定人员的语音训练而成的，从而及时更新用户的声纹特征。尤其是处于变声期的用户，例如处于青春期的用户或刚接受喉部手术的用户，由于发音器官的解剖结构和生理状态处于不稳定的状态，因此其发出的声音会随着时间出现较为明显的变化。进一步地，为适应特定用户的这种声纹特征的改变，可预先设定的更新周期并在接收用户的训练语音时记录当前的时刻。当前提取并训练而成的声纹特征在当前时刻起预设的更新周期内有效。在更新周期之后，相关的用户会被要求再次输入训练语音，以更新对应的声纹模板。

参照图3所示的子方法流程图，在本发明的一个实施例中，在提取每段训练语音的相应的第一声纹特征前，将检查每段训练语音的长度，并将长度小于预设的长度阈值的训练语音剔除。这使得用于提取第一声纹特征的训练语音提供足够长度的语音样本，同时避免一些短促的词句所导致的音长或音高的明显变化，影响所提取第一声纹特征的代表性。

在本发明的一个实施例中，当第二声纹特征与每个声纹模板之间的差异都大于预设的误差阈值时，输入语音将被认为不与任何一段存储在本地的声纹模板相匹配，从而被判定为未识别的语音。此时，可以提醒用户再次发出输入语音，或者通过其他认证手段确认为用户本人时，更新对应的声纹模板并存储到本地。误差阈值可以由本领域技术人员根据实际的应用场景进行调整，本发明对此不予限定。

图4所示离线的且与语言种类无关的声纹识别装置的一个实施例的模块结构图。所示装置包括以下模块：第一提取模块，用于接收多段训练语音，并提取每段训练语音的相应的第一声纹特征；特征训练模块，用于训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；第二提取模块，用于接收单段输入语音，并提取该段输入语音的第二声纹特征；声纹识别模块，用于根据第二声纹特征与多个声纹模板的匹配结果，将输入语音标记为与相对应的第二声纹特征之间差异最小的声纹模板的编号。如图2中的示意图所示，每段训练语音所对应的声纹模板都被存储在本地。

其中，第一提取模块和第二提取模块可采用本技术领域内的常规算法对训练语音提取并训练声纹特征，本发明对此不予限定。此外，声纹识别模块对于第二声纹特征与多个声纹模板的匹配判定可以采用本领域的常规模式识别算法(例如模板匹配方法或者神经网络方法)实现，本发明对此不予限定。进一步地，对于声纹识别模块所采用的具体模式匹配算法，本领域技术人员可以根据实际所采用的算法定义第二声纹特征与各个声纹模板之间的差异。

在本发明的一个实施例中，第一提取模块所接收的多段训练语音中的每一段训练语音都是独立随机的，并且与第二提取模块所接收的输入语音无关。具体地，多名用户中的每一位用户可多次输入训练语音，从而使得第一提取模块所接收的训练语音更为全面地表现各位用户的声纹特征，并通过有监督的训练改进声纹模板，从而提高语音识别的准确率。

在本发明的一个实施例中，第一提取模块还包括以下预处理模块：语音检查模块，用于检查每段训练语音的长度，并将长度小于预设的长度阈值的训练语音剔除。这使得用于提取第一声纹特征的训练语音提供足够长度的语音样本，同时避免一些短促的词句所导致的音长或音高的明显变化，影响所提取第一声纹特征的代表性。

在本发明的一个实施例中，当第二声纹特征与每个声纹模板之间的差异都大于预设的误差阈值时，输入语音将被认为不与任何一段存储在本地的声纹模板相匹配，从而被判定为未识别的语音。此时，第二提取模块可以提醒用户再次发出输入语音，或者通过其他认证手段确认为用户本人时，第一提取模块更新对应的声纹模板并存储到本地。误差阈值可以由本领域技术人员根据实际的应用场景进行调整，本发明对此不予限定。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种离线的且与语言种类无关的声纹识别方法，其特征在于，包括以下步骤：

接收多段的训练语音，并提取每段训练语音的相应的第一声纹特征；

训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；

接收单段的输入语音，并提取该段输入语音的第二声纹特征；

根据第二声纹特征与多个声纹模板的匹配结果，将输入语音标记为与相对应的第二声纹特征之间差异最小的声纹模板的编号。

2.根据权利要求1所述的方法，其特征在于，多段训练语音中的每一段训练语音都是独立随机的，并且与输入语音无关。

3.根据权利要求1所述的方法，其特征在于，声纹模板是通过动态更新至少一名指定人员的语音训练而成的。

4.根据权利要求3所述的方法，其特征在于，在声纹模板动态更新时记录当前时间，并基于所记录的时间及预设的更新周期，更新声纹模板。

5.根据权利要求1所述的方法，其特征在于，在提取每段训练语音的相应的第一声纹特征前，还包括以下预处理步骤：

检查每段训练语音的长度，并将长度小于预设的长度阈值的训练语音剔除。

6.根据权利要求1所述的方法，其特征在于，当第二声纹特征与每个声纹模板之间的差异都大于预设的误差阈值时，对应该第二声纹特征的输入语音被标记为未识别。

7.一种离线的且与语言种类无关的声纹识别装置，其特征在于，包括以下模块：

第一提取模块，用于接收多段训练语音，并提取每段训练语音的相应的第一声纹特征；

特征训练模块，用于训练各第一声纹特征，生成每段训练语音的相应的声纹模板，并将与各段训练语音相对应的声纹模板存储到本地；

第二提取模块，用于接收单段输入语音，并提取该段输入语音的第二声纹特征；

声纹识别模块，用于根据第二声纹特征与多个声纹模板的匹配结果，将输入语音标记为与相对应的第二声纹特征之间差异最小的声纹模板的编号。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于该指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。