CN109102810B

CN109102810B - 声纹识别方法和装置

Info

Publication number: CN109102810B
Application number: CN201710478167.2A
Authority: CN
Inventors: 张涛涛; 许云飞; 潘逸倩; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2021-10-15
Anticipated expiration: 2037-06-21
Also published as: CN109102810A

Abstract

本发明实施例提供了一种声纹识别方法和装置，其中的方法具体包括：利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，第一语音数据的语速与第二语音数据的语速不同，和/或，第一语音数据的频率与第二语音数据的频率不同；利用第二语音数据对应的声纹识别模型，对待检测的第二语音数据进行声纹识别，以得到待检测的第二语音数据对应的声纹识别结果。本发明实施例可以使声纹识别模型根据转换得到的待检测的语音数据进行准确的声纹识别，在一定程度上提高第一语音数据的声纹识别准确度，且可以提高声纹识别的灵活性。

Description

声纹识别方法和装置

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种声纹识别方法和装置。

背景技术

声纹识别(也称发声用户识别)技术是一项根据语音波形中反映发声用户生理和行为特征的语音参数，来识别待测语音话者身份的技术。声纹识别技术有着十分广阔的应用前景：在刑侦领域，可以用于协助确认犯罪嫌疑人信息；在银行等重要部门的安全系统中，可以用于身份核查的一种手段；在日常活动中，可以用于个人身份认证，如声纹锁、声纹门禁系统等。与其它采用同样采用人体生物特征的识别技术(如指纹识别技术、人脸识别技术等)相比，声纹识别显得更加直接友好，同时也更不容易被模仿。

相关技术中，可以先采集至少一个用户的说话语音数据，并对每个用户的说话语音数据进行特征提取，并依据提取得到的声纹形成声纹模型库。之后，获取任意一个用户的语音数据作为待测语音，对该待测语音进行特征提取，再与声纹模型库中的至少一个声纹进行匹配，确定待测语音与至少一个声纹的相似度，最后确定该相似度最高的声纹所对应的用户，为待测语音所对应的用户。

在实现本发明实施例的过程中，发明人发现相关技术至少存在以下问题：当待测语音不是说话语音时，例如当待测语音为歌唱语音时，则识别得到的结果不准确，造成声纹识别准确度较低的问题。

发明内容

本发明实施例提供一种声纹识别方法和装置，能够在一定程度上提高第一语音数据的声纹识别准确度，且可以提高声纹识别的灵活性。

为了解决上述问题，第一方面，本发明公开了一种声纹识别方法，所述方法包括：

利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，所述第一语音数据的语速与所述第二语音数据的语速不同，和/或，所述第一语音数据的频率与所述第二语音数据的频率不同；

利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹识别，以得到所述待检测的第二语音数据对应的声纹识别结果。

可选地，所述方法还包括：

获取两个语速和频率均不同的平行语料数据；

根据所述平行语料数据进行训练，得到语音转换模型。

可选地，所述平行语料数据包括：第一语音样本数据和第二语音样本数据，所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐；

所述获取两个语速和频率均不同的平行语料数据，包括：

提取所述第一语音样本数据对应的特征帧和所述第二语音样本数据对应的特征帧；

将所述第一语音样本数据对应的特征帧与所述第二语音样本数据对应的特征帧对齐；

将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据。

可选地，所述方法还包括：

利用第三语音数据对应的声纹识别模型，对所述第三语音数据进行声纹识别，以得到所述第三语音数据对应的声纹识别结果；其中，所述第一语音数据的语速与所述第三语音数据的语速不同，和/或，所述第一语音数据的频率与所述第三语音数据的频率不同；

判断所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果是否一致；

当所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果一致时，确定所述第一语音数据的发声用户为所述第三语音数据的发声用户。

可选地，所述根据所述平行语料数据进行训练，得到语音转换模型，包括：

将所述第一语音样本数据对应的特征帧作为输入数据；

将所述第二语音样本数据对应的特征帧作为输出数据；

对所述输入数据和所述输出数据进行训练，得到语音转换模型。

可选地，所述方法还包括：

根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型；其中，所述第一语音样本数据的语速与所述第二语音样本数据的语速不同，和/或，所述第一语音样本数据的频率与所述第二语音样本数据的频率不同。

可选地，所述利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹识别，以得到所述待检测的第二语音数据对应的声纹识别结果，包括：

利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹提取，得到与所述第二语音数据对应的待检测声纹；

确定所述待检测声纹与所述声纹识别模型中记录的预置声纹之间的匹配度；

依据所述匹配度，得到所述待检测的第二语音数据对应的声纹识别结果。

可选地，所述第一语音数据为歌唱语音或朗诵语音或打呼噜语音，所述第二语音数据为说话语音。

第二方面，本发明公开了一种声纹识别装置，所述装置包括：

转换模块，用于利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，所述第一语音数据的语速与所述第二语音数据的语速不同，和/或，所述第一语音数据的频率与所述第二语音数据的频率不同；

第一识别模块，用于利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹识别，以得到所述待检测的第二语音数据对应的声纹识别结果。

可选地，所述装置还包括：

获取模块，用于获取两个语速和频率均不同的平行语料数据；

第一训练模块，用于根据所述平行语料数据进行训练，得到语音转换模型。

所述获取模块包括：

提取子模块，用于提取所述第一语音样本数据对应的特征帧和所述第二语音样本数据对应的特征帧；

对齐子模块，用于将所述第一语音样本数据对应的特征帧与所述第二语音样本数据对应的特征帧对齐；

确定子模块，用于将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据。

可选地，所述装置还包括：

第二识别模块，用于利用第三语音数据对应的声纹识别模型，对所述第三语音数据进行声纹识别，以得到所述第三语音数据对应的声纹识别结果；其中，所述第一语音数据的语速与所述第三语音数据的语速不同，和/或，所述第一语音数据的频率与所述第三语音数据的频率不同；

判断模块，用于判断所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果是否一致；

确定模块，用于当所述第三语音数据对应的声纹识别结果与所述待检测的第二语音数据对应的声纹识别结果一致时，确定所述第一语音数据的发声用户为所述第三语音数据的发声用户。

可选地，所述第一训练模块包括：

输入确定子模块，用于将所述第一语音样本数据对应的特征帧作为输入数据；

输出确定子模块，用于将所述第二语音样本数据对应的特征帧作为输出数据；

模型训练子模块，用于对所述输入数据和所述输出数据进行训练，得到语音转换模型。

可选地，所述装置还包括：

第二训练模块，用于根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型；其中，所述第一语音样本数据的语速与所述第二语音样本数据的语速不同，和/或，所述第一语音样本数据的频率与所述第二语音样本数据的频率不同。

可选地，所述识别模块包括：

声纹提取子模块，用于利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹提取，得到与所述第二语音数据对应的待检测声纹；

声纹匹配子模块，用于确定所述待检测声纹与所述声纹识别模型中记录的预置声纹之间的匹配度；

结果确定子模块，用于依据所述匹配度，得到所述待检测的第二语音数据对应的声纹识别结果。

第三方面，本发明公开了一种声纹识别装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

第四方面，本发明公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如第一方面中一个或多个所述的声纹识别方法。

本发明实施例包括以下优点：

本发明实施例通过将待检测的第一语音数据转换为待检测的第二语音数据，使得转换得到的待检测的第二语音数据的语速能够与声纹识别模型能够识别的语速相匹配，这样，可以使声纹识别模型根据转换得到的待检测的语音数据进行准确的声纹识别，因此能够解决待检测语音数据的语速与声纹识别模型对应的语速不一致而造成的识别准确度较低的问题，在一定程度上提高第一语音数据的声纹识别准确度，且可以提高声纹识别的灵活性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种声纹识别方法的应用环境的示意图；

图2是本发明的一种声纹识别方法实施例的步骤流程图；

图3是本发明实施例的一种建立语音转换模型的方法的步骤流程图；

图4是本发明的一种声纹识别装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于声纹识别的装置500的框图；及

图6是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明实施例提供了一种声纹识别方案，该方案可以利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据，利用该第二语音数据对应的声纹识别模型，对该待检测的第二语音数据进行声纹识别，以得到该待检测的第二语音数据对应的声纹识别结果。其中，第一语音数据的语速与第二语音数据的语速不同，和/或，该第一语音数据的频率与该第二语音数据的频率不同。由于本发明实施例可以将待检测的第一语音数据转换为待检测的第二语音数据，使得转换得到的待检测的第二语音数据的语速能够与声纹识别模型能够识别的语速相匹配，这样，可以使声纹识别模型根据转换得到的待检测的语音数据进行准确的声纹识别，因此能够在一定程度上提高第一语音数据的声纹识别准确度，且可以提高声纹识别的灵活性。

参照图1，示出了本发明实施例的一种声纹识别方法的应用环境的示意图，如图1所示，该应用环境可以包括：采集装置100、存储装置200和处理装置300，处理装置300分别与采集装置100和存储装置200连接。

其中，该采集装置100可以为麦克风，该存储装置200可以为具有存储功能的存储介质，该处理装置300可以为CPU(Central Processing Unit，中央处理器)，本发明实施例对采集装置100、存储装置200和处理装置300不做具体限定。

本发明实施例的声纹识别方法可以应用在刑侦、身份认证等多个领域。例如，在刑侦过程中，可以通过采集装置100进行录音，实现对语音数据的采集，并将采集到的第一语音数据发送至处理装置300；处理装置300可以接收采集装置100采集的语音数据，并将采集的第一语音数据输入语音转换模型，得到待检测的第二语音数据，再将待检测的第二语音数据输入声纹识别模型，以使声纹识别模型根据存储装置200中预先存储的声纹对待检测的第二语音数据进行识别，确定采集的第一语音数据所对应的发声用户。

需要说明的是，在实际应用中，采集装置100、存储装置200和处理装置300可以集成在一个装置中，也可以分别设置在多个装置中，本发明实施例对此不做限定。

在实际应用中，上述装置可以包括：终端、或者服务器。其中，该终端具体可以包括但不限于：智能手机、平板电脑、电子书阅读器、录音设备、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

方法实施例

参照图2，示出了本发明的一种声纹识别方法实施例的步骤流程图，具体可以包括：

步骤201、利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据。

其中，第一语音数据的语速与第二语音数据的语速可以不同，和/或，第一语音数据的频率与第二语音数据的频率可以不同。例如，该第一语音数据可以为歌唱语音或朗诵语音或打呼噜语音，该第二语音数据可以为说话语音。

在获取待检测的第一语音数据后，可以将该待检测的第一语音数据输入语音转换模型，以使语音转换模型对待检测的第一语音数据进行转换，得到待检测的第二语音数据，由于转换得到的待检测的第二语音数据的语速可以与声纹识别模型所对应的语速相匹配，故可以使声纹识别模型根据得到的待检测的第二语音数据进行声纹识别。

其中，该语音转换模型用于转换语音数据，使得被转换的语音数据的语速发生改变。该声纹识别模型用于根据待检测的语音数据，与预先存储的声纹进行匹配，从而确定待检测的语音数据所对应的发声用户。

例如，声纹识别模型所对应的平均语速为4个字每秒；待检测的第一语音数据为歌唱语音，平均语速为2个字每秒；待检测的第二语音数据为说话语音，平均语速为4个字每秒。因此，需要将待检测的第一语音数据转换为待检测的第二语音数据，以便在后续步骤中，可以根据待检测的第二语音数据，并结合声纹识别模型确定待检测的第一语音数据所对应的声纹识别结果。

步骤202、利用第二语音数据对应的声纹识别模型，对待检测的第二语音数据进行声纹识别，以得到该待检测的第二语音数据对应的声纹识别结果。

在转换得到待检测的第二语音数据之后，即可将该第二语音数据输入声纹识别模型，以使声纹识别模型将该第二语音数据与预先记录的声纹进行匹配，从而确定该第二语音数据所对应的声纹识别结果。

在一种可选实施例中，可以利用第二语音数据对应的声纹识别模型，对待检测的第二语音数据进行特征提取，得到与第二语音数据对应的待检测声纹，确定待检测声纹与声纹识别模型中记录的预置声纹之间的匹配度；并依据该匹配度，得到待检测的第二语音数据对应的声纹识别结果。可选地，当预置声纹中的目标声纹与待检测的第二语音数据的待检测声纹的匹配度最高时，则说明目标声纹与待检测声纹最相似，可以确定目标声纹所对应的用户为目标用户，并将目标用户作为待检测的第二语音数据对应的声纹识别结果。其中，该匹配度用于表征第二语音数据的待检测声纹与预置声纹的相似程度，该待检测声纹可以为说话人矢量(ivector)。

进一步地，还可以先对第二语音数据进行预处理，得到第二语音数据对应的特征数据，再利用第二语音数据对应的声纹识别模型，对得到的特征数据进行特征提取，得到与第二语音数据对应的待检测声纹。其中，该特征数据可以为梅尔倒谱特征(Mel-scaleFrequency Cepstral Coefficients，MFCC)。

需要说明的是，声纹识别模型中可以记录多个预置声纹，因此可以得到待检测声纹与多个预置声纹的匹配度，多个匹配度中匹配度最高的预置声纹即为目标声纹。

在一种可选实施例中，还可以获取第三语音数据，并利用第三语音数据对应的声纹识别模型，对第三语音数据进行声纹识别，以得到第三语音数据对应的声纹识别结果，再判断第三语音数据对应的声纹识别结果与待检测的第二语音数据对应的声纹识别结果是否一致。当第三语音数据对应的声纹识别结果与待检测的第二语音数据对应的声纹识别结果一致时，则可以确定第一语音数据的发声用户为第三语音数据的发声用户。其中，第一语音数据的语速与第三语音数据的语速不同，和/或第一语音数据的频率与第三语音数据的频率不同。

例如，在对用户的歌唱语音采集完成后，还可以继续对用户的说话语音进行采集，并利用语音转换模型对歌唱语音进行转换，从而得到该歌唱语音的声纹识别结果。同时，再利用声纹识别模型对该用户的说话语音进行识别，得到另一个声纹识别结果，判断这两个声纹识别结果是否一致，如果一致，则可以将说话语音的识别识别结果作为歌唱语音的识别结果，也即确定歌唱语音的发声用户和说话语音的发声用户为同一人，从而提高了歌唱语音的声纹识别结果的准确度。

综上，本发明实施例提供了一种声纹识别方法，利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据，利用该第二语音数据对应的声纹识别模型，对该待检测的第二语音数据进行声纹识别，以得到该待检测的第二语音数据对应的声纹识别结果。其中，该第一语音数据的语速与第二语音数据的语速不同，和/或，第一语音数据的频率与第二语音数据的频率不同。通过将待检测的第一语音数据转换为待检测的第二语音数据，使得转换得到的待检测的第二语音数据的语速能够与声纹识别模型能够识别的语速相匹配，这样，可以使声纹识别模型根据转换得到的待检测的语音数据进行准确的声纹识别，因此能够解决待检测语音数据的语速与声纹识别模型对应的语速不一致而造成的识别准确度较低的问题，在一定程度上提高第一语音数据的声纹识别准确度，且可以提高声纹识别的灵活性。

参照图3，示出了本发明实施例的一种建立语音转换模型的方法的步骤流程图，建立语音转换模型的过程具体可以包括如下步骤：

步骤301、提取第一语音样本数据对应的特征帧和第二语音样本数据对应的特征帧。

其中，第一语音样本数据的语速与第二语音样本数据的语速可以不同，和/或，第一语音样本数据的频率与第二语音样本数据的频率可以不同。

在建立语音转换模型时，需要获取两个语速的语音样本数据进行训练，也即是获取第一语音样本数据和第二语音样本数据，以便在后续步骤中可以将该两个语速的语音样本数据分别作为输入数据和输出数据进行训练。

进一步地，由于不同语速的语音样本数据在同一时刻所对应的特征帧不同，而在训练过程中，需要针对第一语音样本数据与第二语音样本数据中相同音素所对应的特征帧进行训练，因此需要提取第一语音样本数据对应的特征帧和第二语音样本数据对应的特征帧，以便在后续步骤中可以根据提取的特征帧进行对齐，进而完成语音转换模型的训练。其中，音素是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素可以分为元音、辅音两大类。

步骤302、将第一语音样本数据对应的特征帧与第二语音样本数据对应的特征帧对齐。

提取得到两个语音样本数据分别对应的特征帧后，即可将第一语音样本数据对应的特征帧与第二语音样本数据对应的特征帧对齐。其中，可以将第一语音样本数据对应的特征帧作为标准，将第二语音样本数据对应的特征帧对齐至第一语音样本数据；当然可以将第二语音样本数据对应的特征帧作为标准，将第一语音样本数据对应的特征帧对齐至第二语音样本数据，本发明实施例对此不做限定。例如，当第一语音样本数据为歌唱语音、第二语音样本数据为说话语音时，可以将说话语音对应的特征帧作为标准，将歌唱语音对应的特征帧对齐至说话语音对应的特征帧。

在一种可选实施例中，可以采用动态时间归整算法，将该第一语音样本数据对应的特征帧与该第二语音样本数据对应的特征帧对齐。当然还可以采用其他方式对齐特征帧，例如隐马尔可夫模型(Hidden Markov Model，HMM)算法，本发明实施例对此不做限定。

例如，第一语音样本数据对应的至少一个特征帧可以为：Q＝q₁,q₂,…,q_i,…,q_n；第二语音样本数据对应的至少一个特征帧可以为：C＝c₁,c₂,…,c_j,…,c_m，其中i、j、n和m均为正整数，i小于n，j小于m，q_i为第一语音样本数据对应的第i个特征帧，c_j为第二语音样本数据对应的第j个特征帧，则在采用动态时间归整算法进行对齐的过程中，可以构造一个n×m的矩阵网格，矩阵元素(i,j)表示q_i和c_j两个点的距离d(q_i,c_j)，该距离用于表示第一语音样本数据对应的任意一个特征帧与第二语音样本数据对应的任意一个特征帧的相似度，该距离越小则相似度越高。之后可以根据预先设置的条件在矩阵中选取一条距离最小的路径，从而完成特征帧的对齐。

步骤303、将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据。

在第一语音样本数据和第二语音样本数据的特征帧对齐以后，即可将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据，也即是，该平行语料数据可以包括：第一语音样本数据和第二语音样本数据，该第一语音样本数据的特征帧与该第二语音样本数据的特征帧对齐。以便在后续步骤中，可以根据该平行语料数据进行训练。

步骤304、根据平行语料数据进行训练，得到语音转换模型。

在获取两个语速的平行语料数据之后，即可根据该平行语料数据，采用卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetworks，RNN)或深度神经网络(Deep Neural Network，DNN)进行训练，得到语音转换模型。

例如，采用DNN进行训练时，可以将歌唱语音作为语音转换模型的输入数据、将与歌唱语音对应的说话语音作为语音转换模型的输出数据，从而计算得到歌唱语音与说话语音之间的变量参数。通过大量的歌唱语音和说话语音不断地对变量参数进行修正，也即是不断对语音转换模型进行训练，即可得到能够准确将歌唱语音转换为说话语音的语音转换模型。

在一种可选实施例中，可以将第一语音样本数据对应的特征帧作为输入数据，并将第二语音样本数据对应的特征帧作为输出数据，对该输入数据和该输出数据进行训练，从而得到语音转换模型。

例如，当第一语音样本数据为歌唱语音、第二语音样本数据为说话语音，则可以分别提取歌唱语音和说话语音的特征帧，并以说话语音的特征帧为标准，将歌唱语音的特征帧对齐至说话语音的特征帧，得到两个平行语料数据，最后将歌唱语音的特征帧作为输入数据、将说话语音的特征帧作为输出数据进行训练，从而得到语音转换模型。

综上，本发明实施例提供了一种声纹识别方法，通过提取第一语音样本数据对应的特征帧和第二语音样本数据对应的特征帧，并将第一语音样本数据对应的特征帧与第二语音样本数据对应的特征帧对齐，再将对齐特征帧之后的第一语音样本数据和第二语音样本数据作为平行语料数据，根据平行语料数据进行训练，得到语音转换模型。通过获取不同语速的语料数据进行训练，得到语音转换模型，通过语音转换模型得到与声纹识别模型对应的语音数据，声纹识别模型则可以根据语音转换模型输出的语音数据进行准确识别，从而提高了声纹识别的准确性。

在本发明的一种实施例中，建立声纹识别模型的过程，具体可以包括：

根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型。其中，第一语音样本数据的语速与第二语音样本数据的语速可以不同，和/或，第一语音样本数据的频率与第二语音样本数据的频率可以不同。

在一种可选实施例中，可以采用无监督学习方式对第一语音样本数据和第二语音样本数据进行训练，当然也可以采用其他模型进行训练，本发明实施例对此不作具体限定。

例如，第一语音样本数据可以为歌唱语音，第二样本语音数据为说话语音，则可以将歌唱语音和说话语音作为输入节点对应的数据进行训练，使得声纹识别模型可以学习歌唱语音和说话语音的特点。其中，歌唱语音和说话语音可以均为同一个发声用户的声音，也可以为不同发声用户的声音。

需要说明的是，在训练声纹识别模型的过程中，可以调整第一语音样本数据和第二语音样本数据所占的比例，例如可以加入大量的第二语音样本数据和少量的第一语音样本数据，使得训练得到的模型可以对第一语音数据和第二语音数据的特点进行学习。例如，第一语音样本数据和第二语音样本数据对应的语速和/或频率可以不同，则声纹识别模型可以对不同的语速和不同的频率进行学习，从而可以提高声纹识别模型的识别准确性。

综上，本发明实施例提供了一种声纹识别方法，根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型，使得训练得到的声纹识别模型可以可以学习第一语音数据和第二语音数据的特点，提高了声纹识别模型的覆盖率，从而提高了声纹识别的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种声纹识别装置实施例的结构框图，具体可以包括：

转换模块401，用于利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，该第一语音数据的语速与该第二语音数据的语速不同，和/或，该第一语音数据的频率与该第二语音数据的频率不同；

第一识别模块402，用于利用该第二语音数据对应的声纹识别模型，对该待检测的第二语音数据进行声纹识别，以得到该待检测的第二语音数据对应的声纹识别结果。

综上，本发明实施例提供了一种声纹识别装置，利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据，利用该第二语音数据对应的声纹识别模型，对该待检测的第二语音数据进行声纹识别，以得到该待检测的第二语音数据对应的声纹识别结果。其中，第一语音数据的语速与第二语音数据的语速不同，和/或，第一语音数据的频率与第二语音数据的频率。通过将待检测的第一语音数据转换为待检测的第二语音数据，使得转换得到的待检测的第二语音数据的语速能够与声纹识别模型能够识别的语速相匹配，这样，可以使声纹识别模型根据转换得到的待检测的语音数据进行准确的声纹识别，因此能够解决待检测语音数据的语速与声纹识别模型对应的语速不一致而造成的识别准确度较低的问题，在一定程度上提高第一语音数据的声纹识别准确度，且可以提高声纹识别的灵活性。

可选地，该装置还可以包括：

第一训练模块，用于根据该平行语料数据进行训练，得到语音转换模型。

可选地，该平行语料数据可以包括：第一语音样本数据和第二语音样本数据，该第一语音样本数据的特征帧与该第二语音样本数据的特征帧对齐；

该获取模块可以包括：

提取子模块，用于提取该第一语音样本数据对应的特征帧和该第二语音样本数据对应的特征帧；

对齐子模块，用于将该第一语音样本数据对应的特征帧与该第二语音样本数据对应的特征帧对齐；

可选地，该装置还可以包括：

第二识别模块，用于利用第三语音数据对应的声纹识别模型，对该第三语音数据进行声纹识别，以得到该第三语音数据对应的声纹识别结果；其中，该第一语音数据的语速与该第三语音数据的语速不同，和/或，该第一语音数据的频率与该第三语音数据的频率不同；

判断模块，用于判断该第三语音数据对应的声纹识别结果与该待检测的第二语音数据对应的声纹识别结果是否一致；

确定模块，用于当该第三语音数据对应的声纹识别结果与该待检测的第二语音数据对应的声纹识别结果一致时，确定该第一语音数据的发声用户为该第三语音数据的发声用户。

可选地，该第一训练模块可以包括：

输入确定子模块，用于将该第一语音样本数据对应的特征帧作为输入数据；

输出确定子模块，用于将该第二语音样本数据对应的特征帧作为输出数据；

模型训练子模块，用于对该输入数据和该输出数据进行训练，得到语音转换模型。

可选地，该装置还可以包括：

第二训练模块，用于根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型；其中，该第一语音样本数据的语速与该第二语音样本数据的语速不同，和/或，该第一语音样本数据的频率与该第二语音样本数据的频率不同。

可选地，该第一识别模块402可以包括：

声纹提取子模块，用于利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行特征提取，得到与所述第二语音数据对应的待检测声纹；

可选地，该第一语音数据为歌唱语音或朗诵语音或打呼噜语音，该第二语音数据为说话语音。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种用于声纹识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取两个语速和频率均不同的平行语料数据；

根据所述平行语料数据进行训练，得到语音转换模型。

所述获取两个语速和频率均不同的平行语料数据，包括：

将所述第一语音样本数据对应的特征帧作为输入数据；

将所述第二语音样本数据对应的特征帧作为输出数据；

利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行特征提取，得到与所述第二语音数据对应的待检测声纹；

图5是根据一示例性实施例示出的一种用于声纹识别的装置500的框图，该装置500可以为智能终端或者服务器。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本发明实施例提高了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如图2至图3中一个或多个所述的声纹识别方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时，使得装置能够执行一种声纹识别方法，所述方法包括：利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，所述第一语音数据的语速与所述第二语音数据的语速不同，和/或，所述第一语音数据的频率与所述第二语音数据的频率不同；利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹识别，以得到所述待检测的第二语音数据对应的声纹识别结果。

可选地，所述方法还包括：

获取两个语速和频率均不同的平行语料数据；

根据所述平行语料数据进行训练，得到语音转换模型。

所述获取两个语速和频率均不同的平行语料数据，包括：

可选地，所述方法还包括：

将所述第一语音样本数据对应的特征帧作为输入数据；

将所述第二语音样本数据对应的特征帧作为输出数据；

可选地，所述方法还包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种声纹识别方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，所述第一语音数据的语速与所述第二语音数据的语速不同，和/或，所述第一语音数据的频率与所述第二语音数据的频率不同；其中，所述第一语音数据包括歌唱语音或朗诵语音或打呼噜语音，所述第二语音数据为说话语音；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取两个语速和频率均不同的平行语料数据；

根据所述平行语料数据进行训练，得到语音转换模型。

3.根据权利要求2所述的方法，其特征在于，所述平行语料数据包括：第一语音样本数据和第二语音样本数据，所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐；

所述获取两个语速和频率均不同的平行语料数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述平行语料数据进行训练，得到语音转换模型，包括：

将所述第一语音样本数据对应的特征帧作为输入数据；

将所述第二语音样本数据对应的特征帧作为输出数据；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型；其中，所述第一语音样本数据的语速和频率与所述第二语音样本数据的语速和频率均不同。

7.根据权利要求1所述的方法，其特征在于，所述利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹识别，以得到所述待检测的第二语音数据对应的声纹识别结果，包括：

8.一种声纹识别装置，其特征在于，所述装置包括：

转换模块，用于利用语音转换模型，将待检测的第一语音数据转换为待检测的第二语音数据；其中，所述第一语音数据的语速与所述第二语音数据的语速不同，和/或，所述第一语音数据的频率与所述第二语音数据的频率不同；其中，所述第一语音数据包括歌唱语音或朗诵语音或打呼噜语音，所述第二语音数据为说话语音；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述平行语料数据包括：第一语音样本数据和第二语音样本数据，所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐；

所述获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求9所述的装置，其特征在于，所述第一训练模块包括：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二训练模块，用于根据第一语音样本数据和第二语音样本数据进行训练，得到声纹识别模型；其中，所述第一语音样本数据的语速和频率与所述第二语音样本数据的语速和频率均不同。

14.根据权利要求8所述的装置，其特征在于，所述识别模块包括：

15.一种用于声纹识别装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

16.根据权利要求15所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取两个语速和频率均不同的平行语料数据；

根据所述平行语料数据进行训练，得到语音转换模型。

17.根据权利要求16所述的装置，其特征在于，所述平行语料数据包括：第一语音样本数据和第二语音样本数据，所述第一语音样本数据的特征帧与所述第二语音样本数据的特征帧对齐；

所述获取两个语速和频率均不同的平行语料数据，包括：

18.根据权利要求17所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

19.根据权利要求16所述的装置，其特征在于，所述根据所述平行语料数据进行训练，得到语音转换模型，包括：

将所述第一语音样本数据对应的特征帧作为输入数据；

将所述第二语音样本数据对应的特征帧作为输出数据；

20.根据权利要求15所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

21.根据权利要求15所述的装置，其特征在于，所述利用所述第二语音数据对应的声纹识别模型，对所述待检测的第二语音数据进行声纹识别，以得到所述待检测的第二语音数据对应的声纹识别结果，包括：

22.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的声纹识别方法。