CN108492830B

CN108492830B - 声纹识别方法、装置、计算机设备和存储介质

Info

Publication number: CN108492830B
Application number: CN201810262986.8A
Authority: CN
Inventors: 陈东鹏; 谢单辉
Original assignee: Voiceai Technologies Co ltd
Current assignee: Shenzhen Digital Miracle Technology Co.,Ltd.; Voiceai Technologies Co ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2020-08-14
Anticipated expiration: 2038-03-28
Also published as: CN108492830A

Abstract

本申请涉及一种声纹识别方法、装置、计算机设备和存储介质。该方法包括：获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征；根据语音数据的来源检测对应的信道；当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据；对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征；将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，将目标行为主体信息用于描述语音数据对应的行为主体。采用本方法能够提高声纹识别的准确性。

Description

声纹识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种声纹识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了声纹识别技术，这个技术是从人的语音中分辨说话人的身份，但是由于同一个人的声音在不同的信道有明显的差异，导致说话人在进行声纹识别的时候产生误差。如，同一人在使用高清LTE通话时与使用传统地线电话通话时的声音常常不一样，导致声纹识别通话人的身份准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高声纹识别的准确性的声纹识别方法、装置、计算机设备和存储介质。

一种声纹识别方法，该方法包括：

获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征；

根据语音数据的来源检测对应的信道；

当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据；

对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征；

将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，目标行为主体信息用于描述语音数据对应的行为主体。

在其中一个实施例中，对各个模拟语音数据进行声纹提取，得到对应的模拟语音声纹特征之前，还包括：当已训练好的声纹识别模型存在信道时，获取已训练好的声纹识别模型中信道相应的已注册行为主体对应的多个模拟语音数据。

在其中一个实施例中，已注册行为主体的注册步骤包括：获取行为主体的待注册语音数据；将待注册语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据；对不同信道对应的已编码待注册语音数据模拟网络传输，得到不同信道对应的模拟后的已编码待注册语音数据；将不同信道对应的模拟后的已编码待注册语音数据通过不同信道对应的解码器进行解码，得到各个待注册语音数据在不同信道对应的模拟语音数据。

在其中一个实施例中，已训练好的声纹识别模型的生成步骤包括：获取携带身份标签的多个样本语音数据；对携带身份标签的多个样本语音数据进行不同信道的信道模拟，得到不同信道对应的模拟样本语音数据；根据各个携带身份标签的样本语音数据和各个模拟样本语音数据对声纹识别模型进行训练，得到已训练好的声纹识别模型。

在其中一个实施例中，对多个样本语音数据进行信道模拟，得到不同信道对应的模拟样本语音数据，包括：将各个样本语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码样本语音数据；对不同信道对应的已编码样本语音数据模拟网络传输，得到不同信道对应的模拟后的已编码样本语音数据；将不同信道对应的模拟后的已编码样本语音数据通过不同信道对应的解码器进行解码，得到各个样本语音数据在不同信道对应的模拟样本语音数据。

在其中一个实施例中，将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，将目标行为主体信息用于描述语音数据对应的行为主体，包括：根据当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行相似度计算，得到已注册行为主体对应的相似度；从已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体；将目标行为主体作为语音数据对应的行为主体。

一种声纹识别装置，该装置包括：

语音数据获取模块，用于获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征；

信道检测模块，用于根据语音数据的来源检测对应的信道；

模拟语音数据获取模块，用于当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据；

声纹提取模块，用于对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征；

行为主体检测模块，用于将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，目标行为主体信息用于描述语音数据对应的行为主体。

一种计算机设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据语音数据的来源检测对应的信道；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据语音数据的来源检测对应的信道；

将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，将目标行为主体信息用于描述语音数据对应的行为主体。

上述声纹识别方法、装置、计算机设备和存储介质，对获取到的语音数据进行声纹提取，得到对应的当前声纹特征，根据获取到的语音数据的来源检测对应的信道，若该信道不存在已训练好的声纹识别模型中的模拟信道中时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据，对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征，进一步地将当前声纹特征与各个模拟语音声纹特征进行匹配进而确定获取到的语音数据的行为主体。即使语音数据的信道是未知的，通过已训练好的声纹识别模型中使用多信道模拟得到的模拟语音数据的声纹提取与语音数据的当前声纹特征进行匹配，也可以准确地识别出语音数据的行为主体的身份，从而提高声纹识别的准确性。

附图说明

图1为一个实施例中声纹识别方法的应用环境图；

图2为一个实施例中声纹识别方法的流程示意图；

图3为一个实施例中当语音数据对应的信道未知时声纹识别方法的示意图；

图4为一个实施例中当语音数据对应的信道已知时声纹识别方法的示意图；

图5为一个实施例中已注册行为主体的注册步骤的流程示意图；

图6为一个实施例中信道模拟过程的示意图；

图7为一个实施例中已训练好的声纹识别模型的生成步骤的流程示意图；

图8为一个实施例中训练声纹识别模型的示意图；

图9为一个实施例中对多个样本语音数据进行信道模拟，得到不同信道对应的模拟样本语音数据的流程示意图；

图10为一个实施例中当前声纹特征与各个模拟语音声纹特征匹配步骤的流程示意图；

图11为一个实施例中声纹识别装置的结构框图；

图12为另一个实施例中声纹识别装置的结构框图；

图13为又一个实施例中声纹识别装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的声纹识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102将采集到的语音数据发送至服务器104，服务器在获取语音数据后，对语音数据进行声纹提取，得到对应的当前声纹特征；根据语音数据的来源检测对应的信道；当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据；对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征；将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体，将目标行为主体作为语音数据对应的行为主体。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种声纹识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征。

其中，语音数据是通过说话人的语音来记录的数据以及通过说话人的语音来传输的数据，可以是但不限于录音笔的语音数据、传统地线的语音数据、移动终端的语音数据、视频音频语音数据等等，但这里的语音数据的说话人的来源是未知的。这里的声纹提取是从语音数据中提取能说话人的声纹特征，其中声纹是用电声学仪器显示的携带言语信息的声波频谱，任何两个说话人的声纹特征都是存在差异的。具体地，可通过终端的语音采集装置实时采集到的语音数据或者通过终端的语音录制装置提前录制的语音数据等等，终端将语音数据发送至服务器，或者服务器通过相关的语音采集装置实时采集到的语音数据、通过服务器的语音录制装置提前录制的语音数据等等获取语音数据。进一步地，对语音数据进行声纹提取，得到语音数据中说话人对应的当前声纹特征。

步骤204，根据语音数据的来源检测对应的信道。

其中，这里的信道是语音数据传输的通道。不同的语音采集装置有对应的信道，如通过传统地线采集到的语音数据则有对应的传统地线传输信道，通过音视频采集到的语音数据则有对应的音视频传输信道等等。具体地，服务器在获取到语音数据后，可根据语音数据的来源检测该语音数据传输的通道，即信道。这里的来源是语音数据的从哪来的地方。如，通过终端的微信应用程序实时采集到的语音数据，则可检测该语音数据对应的信道为微信传输信道，或通过固话传输的语音数据，则可检测该语音数据对应的信道为固话传输信道。但是这里的语音数据的来源并非都是已知的，可能有些语音数据的传输信道是未知的。

步骤206，当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据。

其中，已训练好的声纹识别模型是用来做声纹识别的模型，所谓声纹识别是从说话人的语音中分辨出说话人的身份。这里的声纹识别模型中包括但不限于已经注册的说话人的语音数据在各个模拟信道进行信道模拟得到各个模拟信道对应的模拟语音数据和未注册的说话人的语音数据在各个模拟信道进行信道模拟得到各个模拟信道对应的模拟语音数据等。这里的模拟信道是模仿各个信道传输语音数据的通道，也是用于最终得到模拟语音数据的通道。其中，信道模拟是通过相关的信道模拟算法以及模拟信道损失得到各个模拟信道的模拟语音数据。所谓模拟语音数据是说话人的语音数据经过信道模拟得到不同信道下的语音数据。

如图3所示，图3示出一个实施例中当语音数据对应的信道未知时声纹识别方法的示意图。具体地，在根据语音数据的来源确定对应的信道后，可能语音数据对应的信道属于未知信道，即与已训练好的声纹识别模型中的各个模拟信道未匹配成功。进一步地，获取已训练好的声纹识别模型中的已注册行为主体在各个模拟信道下的模拟语音数据。

步骤208，对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征。

其中，声纹是用电声学仪器显示的携带言语信息的声波频谱，由于人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，因此任何两个说话人的声纹图谱都会存在差异。具体地，可从各个模拟语音数据中提取出声纹，在获取到已训练好的声纹识别中已注册行为主体在各个模拟信道下的模拟语音数据后，对各个模拟语音数据进行声纹提取，得到已注册行为主体的各个模拟语音数据中的模拟语音声纹特征。

步骤210，将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，目标行为主体信息用于描述语音数据对应的行为主体。

具体地，将语音数据中说话人的当前声纹特征与已训练声纹识别模型中的已注册行为主体的各个模拟语音数据中的模拟语音声纹特征进行匹配，得到目标行为主体。由于任何两个说话人的声纹特征是存在差异的，因此若当前声纹特征与各个模拟语音声纹特征匹配成功时，说明该模拟语音声纹特征对应的行为主体与语音数据对应的行为主体是同一人，进一步找到语音数据对应的说话人的身份信息，即行为主体信息。

上述声纹识别方法中，对获取到的语音数据进行声纹提取，得到对应的当前声纹特征，根据获取到的语音数据的来源检测对应的信道，若该信道不存在已训练好的声纹识别模型中的模拟信道中时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据，对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征，进一步地将当前声纹特征与各个模拟语音声纹特征进行匹配进而确定获取到的语音数据的行为主体。即使语音数据的信道是未知的，通过已训练好的声纹识别模型中使用多信道模拟得到的模拟语音数据的声纹提取与语音数据的当前声纹特征进行匹配，也可以准确地识别出语音数据对应的行为主体。

在一个实施例中，对各个模拟语音数据进行声纹提取，得到对应的模拟语音声纹特征之前，还包括：当已训练好的声纹识别模型存在信道时，获取已训练好的声纹识别模型中信道相应的已注册行为主体对应的多个模拟语音数据。

本实施例中，如图4所示，图4示出一个实施例中当语音数据对应的信道已知时声纹识别方法的示意图。在对各个模拟语音数据进行声纹提取得到对应的模拟语音声纹特征之前，根据所述语音数据的来源检测对应的信道与已训练好的声纹识别模型中模拟信道匹配成功时，即当已训练好的声纹识别模型中存在该语音数据对应的信道时，获取已训练好的声纹识别模型中的与该信道匹配的模拟信道对应的已注册行为主体对应的各个模拟语音数据。在获取到各个模拟语音数据后，则进入对各个模拟语音数据进行声纹提取得到对应的模拟语音声纹特征的步骤。

在一个实施例中，如图5所示，已注册行为主体的注册步骤包括：

步骤502，获取行为主体的待注册语音数据。

具体地，行为主体可以是但不限于通过终端的语音采集装置实时采集到的待注册语音数据或者通过终端的语音录制装置提前录制好的语音数据作为待注册语音数据，终端将待注册语音数据发送至服务器。服务器进而获取到行为主体的待注册语音数据。其中，对于采集待注册语音数据可只需一个语音采集装置即可。

步骤504，将待注册语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据。

步骤506，对不同信道对应的已编码待注册语音数据模拟网络传输，得到不同信道对应的模拟后的已编码待注册语音数据。

步骤508，将不同信道对应的模拟后的已编码待注册语音数据通过不同信道对应的解码器进行解码，得到待注册语音数据在不同信道对应的模拟样本语音数据。

如图6所示，图6示出一个实施例中信道模拟过程的示意图。将获取到的待注册语音数据通过独有的信道模拟算法进行信道模拟得到待注册语音数据在不同信道对应的模拟样本语音数据。具体地，先将获取到的待注册语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据。如仅需一个语音采集装置采集到一段待注册语音数据，将该待注册语音数据信道模拟过程，经过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据。并非像现有技术一样，如果需要得到不同信道对应的已编码注册语音数据，则需要不同信道对应的语音采集装置采集到待注册语音数据进而进行编码器处理，大大降低采集的时间与成本。

进一步地，对得到的不同信道对应的已编码待注册语音数据模拟网络传输，所谓网络传输是由信道容量小或外界干扰造成的。如打电话信号不好的话，会使数据丢失，语音质量受损，这就是信道带来的差异。因此，对不同信道对应的已编码待注册语音数据进行不同信道的损失的计算，即进行模拟网络传输。从而得到不同信道对应的模拟后的已编码待注册语音数据。

在进行模拟网络传输之后，需对不同模拟后的已编码待注册语音数据进行解码进而得到待注册语音数据在不同信道对应的模拟语音数据。具体地，将不同信道对应的模拟后的已编码待注册语音数据通过不同信道对应的解码器进行解码，得到待注册语音数据在不同信道对应的模拟语音数据。

在一个实施例中，如图7所示，已训练好的声纹识别模型的生成步骤包括：

步骤702，获取携带身份标签的多个样本语音数据。

步骤704，对携带身份标签的多个样本语音数据进行不同信道的信道模拟，得到不同信道对应的模拟样本语音数据。

步骤706，根据各个携带身份标签的样本语音数据和各个模拟样本语音数据对声纹识别模型进行训练，得到已训练好的声纹识别模型。

如图8所示，图8示出一个实施例中训练声纹识别模型的示意图。具体地，通过相关的语音采集装置等获取携带身份标签的多个样本语音数据，对携带身份标签的多个样本语音数据进行不同信道的信道模拟，其中信道模拟过程可以是但不限于编解码过程以及模拟网络传输过程进而得到不同信道对应的模拟样本语音数据。为了提高声纹识别模型的信道鲁棒性，需根据各个携带身份标签的样本语音数据和各个模拟样本语音数据对声纹识别模型进行训练，其中训练可以是但不限于有监督训练以及无监督训练，进而得到可用于声纹识别的已训练好的声纹识别模型。如，携带身份标签的样本语音数据为张三A，对样本语音数据进行不同信道的信道模拟得到不同信道对应的模拟样本语音数据为，信道a张三A、信道b张三B以及信道c张三C，则将携带身份标签的样本语音数据为张三A与信道a张三A、信道b张三B以及信道c张三C一起作为声纹识别模型的输入数据对声纹识别模型进行训练从而得到已训练好的声纹识别模型，即已训练好的声纹识别模型包含信道a中有语音数据为张三A，信道b中有语音数据为张三A，信道c中有语音数据为张三A。

在一个实施例中，如图9所示，对多个样本语音数据进行信道模拟，得到不同信道对应的模拟样本语音数据，包括：

步骤902，将各个样本语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码样本语音数据。

步骤904，对不同信道对应的已编码样本语音数据模拟网络传输，得到不同信道对应的模拟后的已编码样本语音数据。

步骤906，将不同信道对应的模拟后的已编码样本语音数据通过不同信道对应的解码器进行解码，得到各个样本语音数据在不同信道对应的模拟样本语音数据。

具体地，如图6所示，同样地，将获取到的各个样本语音数据通过独有的信道模拟算法进行信道模拟得到对应的模拟样本语音数据。其中信道模拟算法产生的模拟样本语音数据与样本语音数据的差异很小。只有将声纹识别模型中训练好行为主体才能注册。具体地，先将获取到的各个样本语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码样本语音数据，在对各个不同信道对应的已编码样本语音数据模拟不同信道造成的信道损失，得到不同信道对应的模拟后的已编码样本语音数据。进一步地，将不同信道对应的模拟后的已编码样本语音数据通过不同信道对应的解码器进行解码，得到各个样本语音数据在不同信道对应的模拟样本语音数据。

在一个实施例中，如图10所示，将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，将目标行为主体信息用于描述语音数据对应的行为主体，包括：

步骤1002，根据当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行相似度计算，得到已注册行为主体对应的相似度。

步骤1004，从已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体。

步骤1006，将目标行为主体对应的目标主体信息用于描述语音数据对应的行为主体。

具体地，任何两个说话人的声纹特征都是存在差异的，因此根据语音数据中的当前说话人的声纹特征与声纹识别模型中的已注册行为主体对应的模拟语音声纹特征进行相似度计算，得到已注册行为主体对应的相似度。其中，相似度越高说明对应的当前声纹特征与模拟语音声纹特征的行为主体更接近为同一人。因此从得到已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体，进一步地将目标行为主体确定为语音数据对应的行为主体，进而识别出语音数据的说话人的身份。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种声纹识别装置1100，包括：

语音数据获取模块1102，用于获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征。

信道检测模块1104，用于根据语音数据的来源检测对应的信道。

模拟语音数据获取模块1106，用于当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据。

声纹提取模块1108，用于对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征。

行为主体检测模块1110，用于将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，目标行为主体信息用于描述语音数据对应的行为主体。

在一个实施例中，模拟语音数据获取模块1106还用于当已训练好的声纹识别模型存在信道时，获取已训练好的声纹识别模型中信道相应的已注册行为主体对应的多个模拟语音数据。

在一个实施例中，如图12所示，声纹识别装置1100还包括：

待注册语音数据获取模块1202，用于获取行为主体的待注册语音数据。

待注册语音数据编码模块1204，用于将待注册语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据。

待注册语音数据信道模拟模块1206，用于对不同信道对应的已编码待注册语音数据模拟网络传输，得到不同信道对应的模拟后的已编码待注册语音数据。

待注册语音数据解码模块1208，用于将不同信道对应的模拟后的已编码待注册语音数据通过不同信道对应的解码器进行解码，得到待注册语音数据在不同信道对应的模拟语音数据。

在一个实施例中，如图13所示，声纹识别装置1100还包括：

样本语音数据获取模块1302，用于获取携带身份标签的多个样本语音数据。

样本语音数据信道模拟模块1304，用于对携带身份标签的多个样本语音数据进行不同信道的信道模拟，得到不同信道对应的模拟样本语音数据。

声纹识别模型训练模块1306，用于根据各个携带身份标签的样本语音数据和各个模拟样本语音数据对声纹识别模型进行训练，得到已训练好的声纹识别模型。

在一个实施例中，样本语音数据信道模拟模块1304还用于将各个样本语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码样本语音数据；对不同信道对应的已编码样本语音数据模拟网络传输，得到不同信道对应的模拟后的已编码样本语音数据；将不同信道对应的模拟后的已编码样本语音数据通过不同信道对应的解码器进行解码，得到各个样本语音数据在不同信道对应的模拟样本语音数据。

在一个实施例中，行为主体检测模块1110还用于根据当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行相似度计算，得到已注册行为主体对应的相似度；从已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体；将目标行为主体对应的目标行为主体信息用于描述语音数据对应的行为主体。

关于声纹识别装置的具体限定可以参见上文中对于声纹识别方法的限定，在此不再赘述。上述声纹识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储已注册行为主体的模拟语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹识别方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征；根据语音数据的来源检测对应的信道；当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据；对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征；将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，目标行为主体信息用于描述语音数据对应的行为主体。

在一个实施例中，已注册行为主体的注册步骤包括：获取行为主体的待注册语音数据；将待注册语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据；对不同信道对应的已编码待注册语音数据模拟网络传输，得到不同信道对应的模拟后的已编码待注册语音数据；将不同信道对应的模拟后的已编码待注册语音数据通过不同信道对应的解码器进行解码，得到各个待注册语音数据在不同信道对应的模拟语音数据。

在一个实施例中，已训练好的声纹识别模型的生成步骤包括：获取携带身份标签的多个样本语音数据；对携带身份标签的多个样本语音数据进行不同信道的信道模拟，得到不同信道对应的模拟样本语音数据；根据各个携带身份标签的样本语音数据和各个模拟样本语音数据对声纹识别模型进行训练，得到已训练好的声纹识别模型。

在一个实施例中，对多个样本语音数据进行信道模拟，得到不同信道对应的模拟样本语音数据，包括：将各个样本语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码样本语音数据；对不同信道对应的已编码样本语音数据模拟网络传输，得到不同信道对应的模拟后的已编码样本语音数据；将不同信道对应的模拟后的已编码样本语音数据通过不同信道对应的解码器进行解码，得到各个样本语音数据在不同信道对应的模拟样本语音数据。

在一个实施例中，将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体，将目标行为主体作为语音数据对应的行为主体，包括：根据当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行相似度计算，得到已注册行为主体对应的相似度；从已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体；将目标行为主体对应的目标行为主体信息用于描述语音数据对应的行为主体。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取语音数据，对语音数据进行声纹提取，得到对应的当前声纹特征；根据语音数据的来源检测对应的信道；当已训练好的声纹识别模型中不存在信道时，获取已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据；对各个模拟语音数据进行声纹提取，得到已注册行为主体对应的模拟语音声纹特征；将当前声纹特征与已注册行为主体对应的模拟语音声纹特征进行匹配得到目标行为主体信息，目标行为主体信息用于描述语音数据对应的行为主体。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种声纹识别方法，所述方法包括：

获取语音数据，对所述语音数据进行声纹提取，得到对应的当前声纹特征；

根据所述语音数据的来源检测对应的信道；

当已训练好的声纹识别模型中不存在所述信道时，获取所述已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据，所述模拟信道为模仿各个信道传输语音数据的通道，所述各个模拟信道对应的模拟语音数据是通过信道模拟算法和模拟信道损失得到的；

对各个所述模拟语音数据进行声纹提取，得到所述已注册行为主体对应的模拟语音声纹特征；

将所述当前声纹特征与所述已注册行为主体对应的所述模拟语音声纹特征进行匹配得到目标行为主体信息，所述目标行为主体信息用于描述所述语音数据对应的行为主体。

2.根据权利要求1所述的方法，其特征在于，所述对各个所述模拟语音数据进行声纹提取，得到对应的模拟语音声纹特征之前，还包括：

当已训练好的声纹识别模型存在所述信道时，获取所述已训练好的声纹识别模型中所述信道相应的所述已注册行为主体对应的多个模拟语音数据。

3.根据权利要求1所述的方法，其特征在于，所述已注册行为主体的注册步骤包括：

获取行为主体的待注册语音数据；

将所述待注册语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码待注册语音数据；

对不同信道对应的已编码待注册语音数据模拟网络传输，得到不同信道对应的模拟后的已编码待注册语音数据；

将所述不同信道对应的模拟后的已编码待注册语音数据通过所述不同信道对应的解码器进行解码，得到所述待注册语音数据在不同信道对应的模拟语音数据。

4.根据权利要求1所述的方法，其特征在于，所述已训练好的声纹识别模型的生成步骤包括：

获取携带身份标签的多个样本语音数据；

对所述携带身份标签的多个样本语音数据进行不同信道的信道模拟，得到不同信道对应的模拟样本语音数据；

根据各个携带身份标签的所述样本语音数据和各个所述模拟样本语音数据对声纹识别模型进行训练，得到所述已训练好的声纹识别模型。

5.根据权利要求4所述的方法，其特征在于，所述对所述多个样本语音数据进行信道模拟，得到不同信道对应的模拟样本语音数据，包括：

将各个所述样本语音数据通过不同信道的编码器进行编码，得到不同信道对应的已编码样本语音数据；

对所述不同信道对应的已编码样本语音数据模拟网络传输，得到不同信道对应的模拟后的已编码样本语音数据；

将所述不同信道对应的模拟后的已编码样本语音数据通过所述不同信道对应的解码器进行解码，得到各个所述样本语音数据在不同信道对应的模拟样本语音数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述当前声纹特征与已注册行为主体对应的所述模拟语音声纹特征进行匹配得到目标行为主体信息，将所述目标行为主体信息用于描述所述语音数据对应的行为主体，包括：

根据所述当前声纹特征与所述已注册行为主体对应的所述模拟语音声纹特征进行相似度计算，得到所述已注册行为主体对应的相似度；

从所述已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体；

将所述目标行为主体对应的目标行为主体信息用于描述所述语音数据对应的行为主体。

7.一种声纹识别装置，其特征在于，所述装置包括：

语音数据获取模块，用于获取语音数据，对所述语音数据进行声纹提取，得到对应的当前声纹特征；

信道检测模块，用于根据所述语音数据的来源检测对应的信道；

模拟语音数据获取模块，用于当已训练好的声纹识别模型中不存在所述信道时，获取所述已训练好的声纹识别模型中已注册行为主体的各个模拟信道对应的模拟语音数据，所述模拟信道为模仿各个信道传输语音数据的通道，所述各个模拟信道对应的模拟语音数据是通过信道模拟算法和模拟信道损失得到的；

声纹提取模块，用于对各个所述模拟语音数据进行声纹提取，得到所述已注册行为主体对应的模拟语音声纹特征；

行为主体检测模块，用于将所述当前声纹特征与所述已注册行为主体对应的所述模拟语音声纹特征进行匹配得到目标行为主体信息，所述目标行为主体信息用于描述所述语音数据对应的行为主体。

8.根据权利要求7所述的装置，其特征在于，所述行为主体检测模块包括：

相似度计算单元，用于根据所述当前声纹特征与所述已注册行为主体对应的所述模拟语音声纹特征进行相似度计算，得到所述已注册行为主体对应的相似度；

目标行为主体选取单元，用于从所述已注册行为主体对应的相似度中选取相似度最大的已注册行为主体确定为目标行为主体，将所述目标行为主体对应的目标行为主体信息用于描述所述语音数据对应的行为主体。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。