CN112331217B

CN112331217B - 声纹识别方法和装置、存储介质、电子设备

Info

Publication number: CN112331217B
Application number: CN202011205650.1A
Authority: CN
Inventors: 李红岩; 刘岩; 关春生; 党莹; 黄洪运
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2023-09-12
Anticipated expiration: 2040-11-02
Also published as: CN112331217A

Abstract

本发明实施例是关于一种声纹识别方法和装置、存储介质、电子设备，涉及声纹识别领域，该方法包括：根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务。本发明实施例提高了声纹识别的成功率。

Description

声纹识别方法和装置、存储介质、电子设备

技术领域

本发明实施例涉及声纹识别领域，具体而言，涉及一种声纹识别方法、声纹识别装置、存储介质以及电子设备。

背景技术

声纹识别作为生物识别的一种，是根据说话人的声波特性进行身份辩识的服务。从说话内容是否受限的角度上来区分，声纹识别可分为文本无关声纹识别、文本相关声纹识别。文本相关声纹识别由于限制了说话内容，应用场景局限，难以应用到客户服务热线中客户身份认定等无法对声音具体的内容作限定的场景中。

虽然文本无关的声纹识别可以应用到这些无法对声音具体的内容作限定的场景中，但是，在无需用户配合的身份验证场景中，由于用户单次交互时语音时长较短而不能根据用户的声音对用户的身份做出准确的判断，进而无法根据用户的身份信息为用户提供对应的服务。

因此，需要提供一种新的声纹识别方法。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种声纹识别方法、声纹识别装置、存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的声纹识别成功率低下的问题。

根据本公开的一个方面，提供一种声纹识别方法，包括：

根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；

对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；

根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；

根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务。

在本公开的一种示例性实施例中，根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频，包括：

对所述待识别音频进行检测，获取所述待识别音频中包括的第一音频起点以及第一音频终点；

在确定所述第一音频起点以及第一音频终点之间的时间间隔小于所述预设时长时，获取所述待识别音频中包括的第二音频起点以及第二音频终点；

根据所述第一音频起点以及第一音频终点得到所述第一有效音频，并根据所述第二音频起点以及第二音频终点得到所述第二有效音频；

根据所述第一有效音频以及所述第二有效音频，得到符合所述预设时长的第三有效音频。

在本公开的一种示例性实施例中，根据所述第一有效音频以及所述第二有效音频，得到符合所述预设时长的第三有效音频，包括：

获取所述待识别音频的第一会话标识以及第二会话标识；

对与所述第一会话标识对应的第一有效音频以及与所述第二会话标识对应的第二有效音频进行拼接，得到所述第三有效音频。

在本公开的一种示例性实施例中，对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量，包括：

对所述第三有效音频进行预处理，得到所述第三有效音频的频谱；

基于所述频谱，得到所述第三有效音频的能量谱，并通过滤波器对所述能量谱进行滤波处理，得到所述滤波器输出的能量和；

对所述能量和进行倒谱分析，得到所述第三有效音频的特征向量。

在本公开的一种示例性实施例中，根据所述特征向量生成所述第三有效音频的声纹验证模型，包括：

利用所述特征向量对通用背景模型进行训练，得到所述第三有效音频的高斯混合模型；

根据所述高斯混合模型中所包含的均值向量，得到所述第三有效音频的均值超矢量；

通过全局差异空间模型对所述均值超矢量进行降维处理，得到所述第三有效音频的声纹验证模型。

在本公开的一种示例性实施例中，基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果，包括：

根据所述待识别音频的属性信息中所包括的用户的注册声纹信息，从声纹库中获得与所述待识别音频对应的目标声纹库；

在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果；

将与所述声纹验证模型之间的相似度大于预设相似度阈值的声纹匹配结果作为所述匹配结果。

在本公开的一种示例性实施例中，在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果，包括：

对所述声纹验证模型进行训练得到训练模型；

通过所述训练模型计算所述第三有效音频与所述目标声纹库中所包括的声纹的对数似然比；

获取所述对数似然比不低于所述预设相似度阈值的声纹，并根据所述对数似然比对所述目标声纹库中所包括的声纹进行排序；

根据所述待识别音频的属性信息，返回所述目标声纹库中符合要求的声纹，以得到与所述声纹验证模型对应的声纹匹配结果。

根据本公开的一个方面，提供一种声纹识别装置，包括：

有效音频获取模块，用于根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；

特征向量提取模块，用于对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；

模型匹配模块，用于根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；

服务提供模块，用于根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任意一项所述的声纹识别方法。

根据本公开的一个方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的声纹识别方法。

本发明实施例提供的一种声纹识别方法，一方面，根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务，由于对时长较短的第一有效音频以及第二有效音频进行拼接，得到符合预设时长的第三有效音频，进而对符合预设时长的音频进行识别，解决了现有技术中，由于用户单次交互时语音时长较短而不能根据用户的声音对用户的身份做出准确判断的问题；另一方面，通过对符合预设时长的音频进行特征提取，根据特征得到有效音频的声纹验证模型，并基于该声纹验证模型对用户进行匹配，有效提高了声纹识别的成功率；再一方面，用户认证成功后，根据用户的标识信息，为用户匹配对应的用户服务，以使得用户无需进行其他操作就可获得对应的服务，提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出根据本发明示例实施例的一种声纹识别方法的流程图。

图2示意性示出根据本发明示例实施例的一种声纹识别系统的框图。

图3示意性示出根据本发明示例实施例的一种分析系统的框图。

图4示意性示出根据本发明示例实施例的一种生成有效音频的特征向量的方法流程图。

图5示意性示出根据本发明示例实施例的一种生成有效音频的声纹验证模型的方法流程图。

图6示意性示出根据本发明示例实施例的一种根据声纹验证模型对有效音频进行匹配的方法流程图。

图7示意性示出根据本发明示例实施例的一种文本无关的声纹识别方法的流程图。

图8示意性示出根据本发明示例实施例的一种声纹识别装置的框图。

图9示意性示出根据本发明示例实施例的一种用于实现上述声纹识别方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式首先提供了一种声纹识别方法，该方法可以运行于服务器，当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例实施例对此不做具体限定。参考图1所示，该声纹识别方法可以包括以下步骤：

步骤S110.根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；

步骤S120.对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；

步骤S130.根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；

步骤S140.根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务。

上述声纹识别方法，一方面，根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务，由于对时长较短的音频进行拼接，得到符合预设时长的音频，进而对符合预设时长的音频进行识别，解决了现有技术中，由于用户单次交互语音时长较短而不能根据用户的声音对用户的身份做出准确判断的问题；另一方面，通过对符合预设时长的音频进行特征提取，根据特征得到有效音频的声纹验证模型，并基于该声纹验证模型对用户进行匹配，有效提高了声纹识别的成功率；再一方面，用户认证成功后，根据用户的标识信息，为用户匹配对应的用户服务，以使得用户无需进行其他操作就可获得对应的服务，提升了用户体验。

以下，对本发明示例实施例的声纹识别方法中涉及的各步骤进行详细的解释以及说明。

首先，对本发明示例实施例的应用场景以及发明目的进行解释以及说明。

具体的，本发明示例实施例可以用于医疗客服、表现客服等不限制说话内容、非配合性的身份认证场景中，主要用于根据用户的语音内容对用户身份进行识别，进而为用户提供对应的服务。

本发明示例实施例以用户待识别音频的有效音频为基础，通过对有效音频进行处理，得到由该有效音频对应的声纹识别模型，提高了声纹识别的成功率，并且当用户身份认证成功后，根据用户的身份信息为用户提供对应服务，使得用户不需进行其他操作就可获得对应的服务，进一步提升了用户体验。具体如下：一方面，是对用户的待识别音频的有效音频进行识别，当用户的待识别音频的时长不满足有效音频最小时长时，不会对该待识别音频进行识别；另一方面，获得有效音频后，对此进行识别并基于有效音频中所包含的信息，得到与所述有效音频对应的目标声纹库，对目标声纹库中的声纹与待识别音频进行匹配，确定用户的身份信息，并基于用户的标识信息并为用户提供对应的服务，提升了用户体验。

其次，对本发明示例实施例中涉及的声纹识别系统进行解释以及说明。参考图2所示，该声纹识别系统可以包括应用系统210以及分析系统220。其中，应用系统210，用于发起声纹识别请求，并将所述声纹识别请求发送至分析系统220中，并与分析系统220网络连接。参考图3所示，该分析系统220可以包括：端点检测模块310、音频缓存模块320、特征提取模块330、模型生成模块340、决策模块350以及声纹库模块360。其中：

端点检测模块310，用于接收用户的待识别音频，对待识别音频中的非语音信息进行过滤，得到有效音频，并将该有效音频发送至音频缓存模块320；其中用户的待识别音频中包含有：有效音频的最小时长、目标声纹库的类别、目标声纹库的编号、返回相似目标声纹的个数、相似度阈值、是否需要返回相似得分以及音频信息等属性信息。

音频缓存模块320，与端点检测模块310网络连接，用于对有效音频进行临时缓存，并对缓存得到的音频进行时长检测，以使得缓存得到的音频的时长满足有效音频的最小时长，并将满足时长的有效音频发送至特征提取模块330。

特征提取模块330，与音频缓存模块320网络连接，用于对接收到的有效音频进行特征提取，得到有效音频的特征向量，并将该有效音频的特征向量发送至模型生成模块340。

模型生成模块340，与特征提取模块330网络连接，用于根据接收到的有效音频的特征向量对通用背景模型进行训练，并得到有效音频的声纹验证模型；

决策模块350，与模型生成模块340网络连接，用于根据有效音频的声纹验证模型，对声纹库模块360中的声纹进行匹配，以达到对用户身份进行验证的目的；

声纹库模块360，与决策模块350以及应用系统220网络连接，用于根据用户注册时选择的服务类型，对用户的注册声纹进行分类并存储。

以下将结合图2以及图3对步骤S110-步骤S140进行解释以及说明。

在步骤S110中，根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长。

在本示例实施例中，待识别音频为设备终端发起的；待识别音频中包含：有效音频的最小时长、目标声纹库的具体信息，返回相似目标的个数、相似度阈值、是否需要返回相似得分以及是否需要返回音频信息等属性信息。对待识别音频进行检测，得到待识别音频的有效音频，其中，有效音频为不包含非语音信息的音频。

在本示例实施例中，在实时音频流场景中，当音频缓存模块320检测到第一有效音频的时长不满足有效音频的最小时长后，会继续获取待识别音频中所包含的第二有效音频，当获取到第二有效音频后，根据第一有效音频以及第二有效音频得到时长满足有效音频最小时长的第三有效音频。其中，根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频，包括：

其中，对所述待识别音频进行检测，当得到所述待识别音频的第一音频起点后，对待识别音频进行缓存，当检测到待识别音频的第一音频终点后停止缓存，以得到待识别音频的第一有效音频。第二有效音频的获取方法与第一有效音频的获取方法相同，因此此处不再赘述。

其中，根据所述第一有效音频以及所述第二有效音频，得到符合所述预设时长的第三有效音频，包括：获取所述待识别音频的第一会话标识以及第二会话标识；对与所述第一会话标识对应的第一有效音频以及与所述第二会话标识对应的第二有效音频进行拼接，得到所述第三有效音频。

具体的，设备终端每发起一次声纹识别请求，服务端都会建立一个session(会话)，每一个session都对应一个唯一的sessionId(会话标识)，首先，获取待识别音频的第一会话标识以及第二会话标识，对第一会话标识所对应的第一待识别音频中的第一有效音频以及第二会话标识所对应的第二待识别音频的第二有效音频进行拼接，得到第三有效音频。当得到第三有效音频后，音频缓存模块320对该第三有效音频进行检测，当该第三有效音频的时长不满足有效音频的最小时长时，继续接收待识别音频，直至最终拼接得到的有效音频的时长满足有效音频的最小时长；当第三有效音频的时长满足有效音频的最小时长时，则对该第三有效音频进行特征提取，得到该第三有效音频的特征向量，并通过声纹识别模型生成模块340生成该待识别音频的声纹识别模型。

需要补充说明的是，当第一有效音频的时长满足预设时长时，直接将该第一有效音频发送至特征提取模块330进行特征提取。此外，当待识别音频为离线音频文件时，首先，获取该待识别音频中所包含的有效音频；其次，对该有效音频的时长进行检测，当有效音频的时长满足要求有效音频的最小时长时，对该有效音频进行特征提取；当该有效音频的时长不满足有效音频的最小时长时，无需对该待识别音频进行拼接，直接结束本次声纹识别请求，并返回“有效音频时长过短”的错误提示。

在步骤S120中，对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量。

在本示例实施例中，对有效音频进行特征提取，可以采用MFCC(Mel FrequencyCepstral Coefficents，梅尔倒频谱系数)，也可以采用PLP(Perceptual linearpredictive，感知线性预测系数)、Deep Feature(深度特征)，还可以是PNCC(Power-Normalized Cepstral Coefficients，能量规整谱系数)，在本示例实施例中不做特殊限定。

在本示例实施例中，当第三有效音频的时长满足有效音频的最小时长后，需要对第三有效音频进行特征提取，得到所述有效音频的特征向量，参考图4所示，具体为：

S410.对所述第三有效音频进行预处理，得到所述第三有效音频的频谱；

S420.基于所述频谱，得到所述第三有效音频的能量谱，并通过滤波器对所述能量谱进行滤波处理，得到所述滤波器输出的能量和；

S430.对所述能量和进行倒谱分析，得到所述第三有效音频的特征向量。

以MFCC为例，特征提取过程为：

首先，对第三有效音频进行预处理，得到有效音频的频谱；其中，预处理包括：预加重、分帧、加窗以及快速傅立叶变换，预加重的目的是提升高频部分，使信号的频谱变得平坦，同时，也是为了突出高频的共振峰；分帧，是为了方便对有效音频进行分析，将有效音频分成一个个小段，每一小段称为一帧；此外，有效音频在长范围内是不停变动的，没有固定的特性，无法对此进行处理，所以将每一帧代入窗函数，进行加窗处理，消除各个帧两端可能会造成的信号不连续性的问题；在加窗处理之后，还需要对每一帧的有效音频经过快速傅立叶变换，以得到各帧的频谱。

然后，基于上述频谱，对该频谱取模平方得到有效音频的能量谱，并对该能量谱进行滤波处理，具体的，将能量谱通过一组Mel尺度的三角形滤波器组，并通过计算得到每个滤波器输出的能量和；

最后，对能量和进行倒谱分析，具体的，对该能量和进行对数计算，得到该能量和的对数能量，并对该对数能量进行离散余弦变换，得到梅尔频率倒谱系数，即第三有效音频的特征向量。

在步骤S130中，根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果。

在本示例实施例中，可以通过MFCC特征、GMM-UBM模型(Gaussian mixture model-universal background model，高斯混合-通用背景模型)和i-vector模型生成有效音频的声纹验证模型，其中，i-vector(全局差异空间因子)模型可以为x-vector模型，也可以为d-vector模型，在本示例实施例中不做特殊限定。

在本示例实施例中，以MFCC特征、GMM-UBM模型和i-vector模型为例，参考图5所示，根据所述有效音频的特征向量，生成所述有效音频的声纹验证模型，包括：

S510.利用所述有效音频的特征向量对通用背景模型进行训练，得到所述第三有效音频的高斯混合模型；

S520.根据所述高斯混合模型中所包含的均值向量，得到所述第三有效音频的均值超矢量；

S530.通过全局差异空间模型对所述均值超矢量进行降维处理，得到所述第三有效音频的声纹验证模型。

具体的，首先，获取有效音频的MFCC特征并通过该MFCC特征对UBM模型(universalbackground model，通用背景模型)进行训练，得到第三有效音频的GMM(Gaussian mixturemodel，高斯混合模型)；然后，将高斯混合模型中包括的每个高斯分量的均值向量排列在一起，得到一个超向量作为用户的模型，称为均值超矢量(super-vector)，由于均值超矢量的维度非常高，因此需要对其进行降维处理，以得到具有区分性的特征；最后，通过全局差异空间模型对该均值超矢量进行降维处理，得到第三有效音频的i-vector，其中该i-vector即为第三有效音频的声纹验证模型。

参考图6所示，得到有效音频的声纹验证模型后，需要对有效音频进行匹配，并得到匹配结果，包括：

S610.根据所述待识别音频的属性信息中所包括的用户的注册声纹信息，从声纹库中获得与所述待识别音频对应的目标声纹库；

S620.在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果；

S630.将与所述声纹验证模型之间的相似度大于预设相似度阈值的声纹匹配结果作为所述匹配结果。

其中，声纹库中存储各用户注册时提交的声纹，并且根据注册时用户所需要的服务不同，将用户注册时提交的声纹存储到不同的目标声纹库中，由服务器根据待识别音频的属性自行控制目标声纹库的选择，这样的设计可有效加快检索速度，并提高认证的精度。

具体的，首先，根据待识别音频的属性信息中包含的信息，即声纹库的类别以及声纹库编号，得到与该待识别音频对应的目标声纹库；其次，对有效音频的声纹验证模型与目标声纹库中所包含的声纹进行打分，得到目标声纹库中所包含的声纹与有效音频的声纹模型的相似度，其中相似度不低于预设的相似度阈值的目标声纹库中所包含的注册音频的声纹模型即为匹配结果。其中，可以采用PLDA(Probabilistic Linear DiscriminantAnalysis，信道补偿)模型进行打分，也可以采用余弦距离等其他模型进行打分，在本示例实施例中不做特殊限定。

其中，以PLDA模型为例，在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果，包括：

对所述声纹验证模型进行训练得到训练模型；

具体的，首先获取有效音频的声纹验证模型，并对其进行训练得到训练模型；其次，获取声纹库中的声纹的特征向量，通过训练模型计算有效音频与声纹库中所包含的声纹的对数似然比，其中对数似然比即为相似度，相似度的值越大，代表两条声纹属于同一个用户的可能性越大；再次，获取相似度不低于预设的相似度阈值的声纹库中所包含的注册音频的声纹，并根据其相似度得分对其进行排序；最后，根据待识别音频中所包含的属性：返回相似目标的个数，返回符合要求的声纹的信息。

在步骤S140中，根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的属性信息，为所述用户匹配对应的用户服务。

在本示例实施例中，根据返回的目标声纹库中所包含的声纹的属性信息，确定生成待识别音频的用户，并根据用户的属性信息，为用户提供对应的服务，具体的，根据用户的待识别音频的属性信息，获取用户注册时声纹库的类别，并根据注册时声纹库的类别为用户提供对应的服务。

本发明示例实施例提供的文本无关的声纹识别方法以及文本无关的声纹识别系统至少具有以下优点：

一方面，对用户的待识别音频进行检测，获得时长满足有效音频的最小时长的待识别音频的有效音频后，才进行特征提取及用户身份认证，解决的单次时长较短时，用户认证成功率较低的问题。

另一方面，通过对用户的有效音频进行特征提取，得到有效音频的特征向量，并基于特征向量得到有效音频的声纹验证模型，提高了声纹识别的成功率；

再一方面，对用户注册时的注册声纹进行分类并存储，在对待识别音频进行匹配时，根据待识别音频的属性得到对应的目标声纹库，并在该目标声纹库中进行匹配，加快了检索速度，并提高了认证的精度。

进一步的，当用户认证成功后，根据用户的属性信息，为用户匹配对应的服务，以使得用户不需进行其他操作就可得到对应的服务，提升了用户体验。

以下，结合图7对本发明示例实施例的声纹识别方法进行进一步的解释以及说明。其中，文本无关的声纹识别方法可以包括以下步骤：

步骤S710.设备终端发生声纹识别请求，并将待识别音频发送至待识别音频接收模块；

步骤S720.待识别音频模块接受待识别音频，并对其缓存以及检测，以得到待识别音频的有效音频；

步骤S730.对有效音频的时长进行检测；

步骤S731.当待识别音频为离线音频时，声纹识别请求结束；

步骤S732.当待识别音频为实时音频，且时长不满足有效音频的最小时长时，获取待识别音频的第二有效音频；

步骤S740.当待识别音频为实时音频，且时长满足有效音频的最小时长时候，对该有效音频进行特征提取；

步骤S750.获取待识别音频的特征向量，并对该特征向量进行分析，得到有效音频的声纹验证模型；

步骤S760.根据待识别音频的属性信息，得到用户的目标声纹库，并对目标声纹库中的声纹与有效音频的声纹验证模型进行匹配，并返回符合要求的声纹信息；

步骤S770.根据返回的声纹信息，获取用户的标识信息，并为用户提供对应的服务。

进一步的，通过两个具体场景，对本发明示例实施例的文本无关的声纹识别方法进行进一步说明。举例而言：注册为“幸福有约”的客户拨打服务热线，对客户身份进行认证，进而提供专属服务，具体过程为：

首先，接通后响应客户的声纹识别请求，其中声纹识别请求中包含：最小有效音频时长(本示例实施例中最小有效音频时长为10秒)、需要返回的相似目标的个数(本示例实施例中需要返回的相似目标的个数为1)、目标声纹库标识(“幸福有约”的声纹库编码)、相似度阈值(本示例实施例中为0.8)以及是否需要返回相似得分及音频流信息(本示例实施例中为否)；

然后，服务端接收到请求后，对待识别音频进行存储并检测，获取待识别音频的有效音频，其中，有效音频的最小时长应该大于10秒，对该有效音频进行特征提取，得到有效音频的特征向量，并对该特征向量进行分析，得到有效音频的声纹验证模型；

最后，根据待识别音频的属性，得到“幸福有约”目标声纹库，并对该声纹库中的声纹与有效音频的声纹验证模型进行匹配，得到相似度最高且不小于相似度阈值0.8的声纹，并根据声纹中包含的用户的唯一标识，为用户提供有关“幸福有约”的服务。

在又一场景中，注册为“幸福有约”的用户通过电话进行就医服务时，对用户身份进行识别并提供专属私人医生服务。具体为：

首先，接通后响应客户的声纹识别请求，其中声纹识别请求中包含：最小有效音频时长(本示例实施例中最小有效音频时长为15秒)、目标声纹库标识(“幸福有约”的声纹库编码)、需要返回的相似目标的个数(本示例实施例中需要返回的相似目标的个数为1)、相似度阈值(本示例实施例中为0.9)、是否需要返回相似得分及音频流信息(本示例实施例中为否)；

然后，服务端接收到请求后，对待识别音频进行存储并检测，获取待识别音频的有效音频，其中，有效音频的最小时长应该大于15秒，对该有效音频进行特征提取，得到有效音频的特征向量，并对该特征向量进行分析，得到有效音频的声纹验证模型；

最后，根据待识别音频的属性，得到“幸福有约”声纹库，并对该声纹库中的声纹与有效音频的声纹验证模型进行匹配，得到相似度最高且不小于相似度阈值0.9的声纹，并根据声纹中包含的用户的唯一标识，为用户自动匹配专属医生，进而为用户提供一对一专属服务。

本发明示例实施例还提供了一种声纹识别装置，参考图8所示，该声纹识别装置可以包括：有效音频获取模块810、特征向量提取模块820、模型匹配模块830以及服务提供模块840。其中：

有效音频获取模块810，用于根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；

特征向量提取模块820，用于对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；

模型匹配模块830，用于根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；

服务提供模块840，用于根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务。

获取所述待识别音频的第一会话标识以及第二会话标识；

对所述声纹验证模型进行训练得到训练模型；

上述声纹识别装置中各模块的具体细节已经在对应的声纹识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本发明的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参考图9来描述根据本发明的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元910可以执行如图1中所示的步骤S110：根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频；其中，所述第一有效音频的时长小于所述预设时长；S120：对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量；步骤S130：根据所述特征向量生成所述第三有效音频的声纹验证模型，并基于所述声纹验证模型，对所述第三有效音频进行匹配，得到匹配结果；步骤S140：根据所述匹配结果中包括的属性信息，确定与生成待识别音频对应的用户，并根据所述用户的标识信息，为所述用户匹配对应的用户服务。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种声纹识别方法，其特征在于，包括：

利用所述特征向量对通用背景模型进行训练，得到所述第三有效音频的高斯混合模型；根据所述高斯混合模型中所包含的均值向量，得到所述第三有效音频的均值超矢量；通过全局差异空间模型对所述均值超矢量进行降维处理，得到所述第三有效音频的声纹验证模型；并根据所述待识别音频的属性信息中所包括的用户的注册声纹信息，从声纹库中获得与所述待识别音频对应的目标声纹库；在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果；将与所述声纹验证模型之间的相似度大于预设相似度阈值的声纹匹配结果作为所述匹配结果；

2.根据权利要求1所述的声纹识别方法，其特征在于，根据待识别音频的第一有效音频以及第二有效音频得到符合预设时长的第三有效音频，包括：

3.根据权利要求1所述的声纹识别方法，其特征在于，根据所述第一有效音频以及所述第二有效音频，得到符合所述预设时长的第三有效音频，包括：

获取所述待识别音频的第一会话标识以及第二会话标识；

4.根据权利要求1所述的声纹识别方法，其特征在于，对所述第三有效音频进行特征提取，得到所述第三有效音频的特征向量，包括：

5.根据权利要求1所述的声纹识别方法，其特征在于，在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果，包括：

对所述声纹验证模型进行训练得到训练模型；

6.一种声纹识别装置，其特征在于，包括：

模型匹配模块，用于利用所述特征向量对通用背景模型进行训练，得到所述第三有效音频的高斯混合模型；根据所述高斯混合模型中所包含的均值向量，得到所述第三有效音频的均值超矢量；通过全局差异空间模型对所述均值超矢量进行降维处理，得到所述第三有效音频的声纹验证模型；并根据所述待识别音频的属性信息中所包括的用户的注册声纹信息，从声纹库中获得与所述待识别音频对应的目标声纹库；在所述目标声纹库中对所述声纹验证模型进行匹配，得到与所述声纹验证模型对应的声纹匹配结果；将与所述声纹验证模型之间的相似度大于预设相似度阈值的声纹匹配结果作为所述匹配结果；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的声纹识别方法。

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的声纹识别方法。