CN111091835A

CN111091835A - 模型训练的方法、声纹识别的方法、系统、设备及介质

Info

Publication number: CN111091835A
Application number: CN201911256610.7A
Authority: CN
Inventors: 任君; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-01
Anticipated expiration: 2039-12-10
Also published as: CN111091835B

Abstract

本发明公开了一种模型训练的方法、声纹识别的方法、系统、设备及介质，其中模型训练的方法，包括以下步骤：获取多个客户的音频数据；将音频数据进行预处理转化为具有预设音频时长的待训练音频数据；从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；其中，三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数。本发明利用第一损失函数和第二损失函数对神经网络模型进行联合优化，提高了利用模型对客户来电语音的声纹识别的准确度。

Description

模型训练的方法、声纹识别的方法、系统、设备及介质

技术领域

本发明涉及声纹识别技术领域，特别涉及一种模型训练的方法、声纹识别的方法、系统、设备及介质。

背景技术

每个人都有固定的性别且独有特点的声纹信息，声纹可以作为个人的身份证。通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两段语音的身份向量之间的相似度来确定两端语音的输入者是否是同一人。

在OTA(Online Travel Agency，在线旅游)行业中用户下完酒店订单后，存在酒店伪装用户或者用户亲属对酒店订单进行取消或者修改的行为，该行为损害了用户和OTA平台的利益，需要利用声纹识别模型解决酒店订单中假冒客户进行修改和取消订单的问题。但是由于客户与酒店客服接通电话的场景非常复杂，例如，存在环境噪声、多方沟通等因素对识别结果造成偏差，除此之外，未考虑性别因素对声纹识别带来的影响。

现有模型对于客户的声纹识别准确度较低，无法确定同一订单数据所对应的客户是否相同是亟待解决的问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中在噪音环境下，未考虑性别因素带来的影响，常规的模型识别的准确性。会降低提供一种模型训练的方法、声纹识别的方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，本发明提供一种模型训练的方法，所述方法包括:

获取多个客户的音频数据；

将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据；

从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；

其中，所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据，所述第三音频数据为其他客户的音频数据；

所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，所述第一损失函数为构造三元组判断相似性的损失函数，所述第二损失函数为基于性别进行二分类的交叉熵损失函数。

较佳地，所述卷积神经网络模型使用的损失函数通过以下公式获得：

L_{cross-triplet}＝λL_triplet+μL_cross

其中，L_{cross-triplet}表示所述损失函数，L_triplet表示所述第一损失函数， L_cross表示所述第二损失函数，λ、μ表示所述损失函数的调节因子。

较佳地，所述第一损失函数通过以下公式获得：

其中，

表示第i个所述第一音频数据与所述第二音频数据的余弦距离，

表示第i个所述第一音频数据与所述第三音频数据的余弦距离，α为软间隔参数，N为整数，[x]₊＝Max(x,0)。

较佳地，所述第二损失函数通过以下公式获得：

L_cross＝-[ylog(p)+(1-y)·log(1-p)]

其中，y表示所述客户的性别标签，若所述客户的性别标签为男性时y取值为0，若所述客户的性别标签为女性时y取值为1，p为所述客户预测为女性时的概率。

较佳地，所述将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据的步骤包括：

将所述音频数据的音频长度与所述预设音频时长进行比较；

若所述音频长度小于所述预设音频时长，则复制所述音频数据并添加至所述音频数据的尾部，以生成长度为所述预设音频时长的待训练音频数据；

若所述音频长度大于所述预设音频时长，则根据所述预设音频时长创建滑动窗口，通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本，对所述音频样本的音频特征进行加和平均后，生成长度为所述预设音频时长的待训练音频数据；

若所述音频长度等于所述预设音频时长，则直接将所述音频数据作为待训练音频数据。

较佳地，获取多个客户的音频数据的步骤之前包括：

对酒店客服与客户的语音通话过程进行实时录音，获取酒店客服与客户通话的音频文件；

将所述音频文件进行左右声道分离，获取客户对应的客户语音音频片段；

所述获取多个客户的音频数据的步骤具体包括：

对所述客户语音音频片段进行静音分离，得到所述多个客户的音频数据。

第二方面，本发明还提供一种模型训练的系统，包括：

第一获取模块，用于获取多个客户的音频数据；

预处理模块，用于将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据；

训练模块，用于从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；

较佳地，所述预处理模块包括：

比较单元，用于将所述音频数据的音频长度与所述预设音频时长进行比较；

第一预处理单元，用于在所述音频长度小于所述预设音频时长时，复制所述音频数据并添加至所述音频数据的尾部，以生成长度为所述预设音频时长的待训练音频数据；

第二预处理单元，用于在所述音频长度大于所述预设音频时长时，则根据所述预设音频时长创建滑动窗口，通过所述滑动窗口在所述音频数据中截取若干所述预设音频时长的音频样本，对所述音频样本的音频特征进行加和平均后，生成长度为所述预设音频时长的待训练音频数据；

第三预处理单元，用于在所述音频长度等于所述预设音频时长时，则直接将所述音频数据作为待训练音频数据。

较佳地，所述系统还包括：

第二获取模块，用于对酒店客服与客户的语音通话过程进行实时录音，获取酒店客服与客户通话的音频文件；

第三获取模块，用于将所述音频文件进行左右声道分离，获取客户对应的客户语音音频片段；

所述第一获取模块具体用于对所述客户语音音频片段进行静音分离，得到所述多个客户的音频数据。

第三方面，本发明还提供一种声纹识别的方法，包括：

利用上述的方法训练出所述卷积神经网络模型；

获取同一订单数据所对应的目标客户音频片段和待识别客户音频片段；

将所述目标客户音频片段和所述待识别客户音频片段分别输入所述卷积神经网络模型得到相应的第一声纹特征向量与第二声纹特征向量；

根据所述第一声纹特征向量与所述第二声纹特征向量计算余弦相似度；

将所述余弦相似度和预设阈值进行比较，确定所述目标客户和所述待识别客户是否相同。

第四方面，本发明还提供一种声纹识别的系统，包括：

如上述的模型训练的系统，用于训练出所述卷积神经网络模型；

音频获取模块，用于获取同一订单数据所对应的目标客户音频片段和待识别客户音频片段；

声纹特征获取模块，用于将所述目标客户音频片段和所述待识别客户音频片段分别输入所述卷积神经网络模型得到相应的第一声纹特征向量与第二声纹特征向量；

计算模块，用于根据所述第一声纹特征向量与所述第二声纹特征向量计算余弦相似度；

确定模块，用于将所述余弦相似度和预设阈值进行比较，确定所述目标客户和所述待识别客户是否相同。

本发明还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的一种模型训练的方法，或执行上述的声纹识别的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的一种模型训练的方法，或者执行上述的声纹识别的方法。

本发明的积极进步效果在于：提供了一种模型训练的方法，通过获取多个客户的音频数据；将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据；从所述待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练，所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为构造三元组判断相似性的损失函数，第二损失函数为基于性别进行二分类的交叉熵损失函数。通过上述方式，利用第一损失函数和第二损失函数对神经网络模型进行联合优化，提高了利用模型对客户来电语音的声纹识别的准确度。

附图说明

图1为本发明实施例1的模型训练方法的流程图。

图2为本发明实施例1的模型训练方法的步骤S12的流程图。

图3为本发明实施例1的模型训练方法的步骤S11之前的流程图。

图4为本发明实施例2的模型训练系统的模块示意图。

图5为本发明实施例3的电子设备的硬件结构示意图。

图6为本发明实施例5的声纹识别的方法的流程图。

图7为本发明实施例6的声纹识别系统的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种模型训练的方法，参照图1，该方法包括以下步骤：

步骤S11、获取多个客户的音频数据。

在OTA(Online Travel Agency，在线旅游)行业中，会存在酒店订单下单或者修改的场景，酒店有时会通过各种理由劝说客人对订单进行取消或者修订。有时存在切客行为，进一步可能出现酒店会冒充客人致电OTA平台对订单进行操作，而目前客服仅仅只针对订单号码、酒店名称、订单号来核实致电方确认订单是否是真实用户。若客人订单信息意外被他人得知，对客人和OTA都会存在利益损害。

将OTA平台上同一说话人的音频归结到一个集合的工作量较大，为减少说明人音频标注的工作量，收集大量客服声音音频数据并进行通道分离。然后，通过静音切割将其拆分为多个音频，将同一个客户ID下的所有音频数据作为一个客户的音频数据。

步骤S12、将音频数据进行预处理转化为具有预设音频时长的待训练音频数据。

声音可以可视化成为一个波形，理解为声波，虽然看到的是连续的一个曲线，需要将其量化为一个个的数值。客服电话录音的采样率是8kHz，即对于1秒的声波采样8000个数值作为该1秒连续声波的拟合值，即，一个8000 维的向量表示1秒的声波数据，那么如果一个声音时长为3秒，则量化表示就是一个3*8000维的向量。

具体的，考虑到客服智能电话的采样率为8kHz且每段音频的时长不一样。根据统计得到的，在训练几种音频时长平均为4.2s，则设计网络输入的最大长度为400，即语音帧长度最大可以达到400，帧移为25ms，则网络输入最大音频时长为4.015秒。但针对音频长度不等于4.015秒时，则将该音频数据进行预处理后，生成具有预设音频时长4.015秒的待训练音频数据。

本实施例中，卷积神经网络模型输入的fbank特征长度为400帧，即上述4.015s时长的音频利用fbank特征提取方法得到。例如，音频长度为8.015s，将该音频通过fbank特征提取后得到800帧的数据，该数据维度为(64，800)，针对800维度设置400长度的滑动窗口，窗移设置距离为200。每个窗口内的数据是(64,400)维度的数据矩阵，通过窗口的滑动生成3个(64,400)的数据，将这三个矩阵对应位置相加除以3，矩阵中的点相加取平均值，3个矩阵变化后，最终得到(64,400)的数据特征矩阵。

步骤S13、从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练。其中，三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，第一音频数据和第二音频数据为客户的两个不同的音频数据，第三音频数据为其他客户的音频数据。该卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，该第一损失函数为构造三元组判断相似性的损失函数，该第二损失函数为基于性别进行二分类的交叉熵损失函数。

根据输入卷积神经网络模型的音频特征为64维的fbank特征，设计输入卷积神经网络模型的网络层的维度为(400,64)，可以设计出两个卷积神经网络模型，分别是声纹识别模型和性别识别模型。其网络结构的设置是相同的，不同点在于对于声纹识别模型使用的是triplet loss损失函数，而性别识别模型使用的是交叉熵损失函数，将上述的两个模型进行联合训练得到最终的卷积神经网络模型。

每次输入一批数据，设置batch size参数为32，即一次性输入32个三元组。在训练模型前，也可以提前设计10000个三元组，在内部随机选择32组传输给模型。

卷积神经网络模型的输入尺寸为(64,400)维的矩阵，因为每个音频都会经过fbank特征提取，设置每帧音频经过fbank特征提取值64维，取400 帧，分帧处理后生成(64,400)的矩阵，输入卷积神经网络模型中。

本实施例中，卷积神经网络模型的网络结构即所谓的参数结构可以为 (5x5,64)。其中，5x5为卷积核的大小即5x5的矩阵，64表示64个5x5的卷积核。即，64个卷积核会在(64,400)的矩阵上进行卷积操作，即为滤波操作。该卷积神经网络模型中res表示残差结构，64表示64个3x3的卷积核，res64x3中x3表示有3个res残差结构相邻。卷积神经网络模型结构中最后一层res64x3中输出(512,1024)一个矩阵，Average层主要针对这个矩阵的512维进行平均处理。即，512维的每一维都是一个1024维的向量，进行加和平均生成一个(512,1)的向量，最后经过affine层即全连接层进行线性变换。经过激活函数将该线性变换映射成非线性变换，对该512维的向量进行标准化后送给损失函数计算损失。

其中，卷积神经网络模型使用的损失函数通过以下公式获得：

L_{cross-triplet}＝λL_triplet+μL_cross

即，L_{cross-triplet}表示损失函数，L_triplet表示第一损失函数，L_cross表示第二损失函数，λ、μ表示损失函数的调节因子。

具体的，Triplet loss函数主要区分差异较小的样本，是一种判断相似性的深度学习损失函数，其以构造三元组形式来最大化类间距离、最小化类内距离。

该第一损失函数通过以下公式获得：

其中，

表示第i个第一音频数据与第二音频数据的余弦距离，

表示第i个第一音频数据与第三音频数据的余弦距离，α为软间隔参数，N为整数， [x]₊＝Max(x,0)。

该第二损失函数通过以下公式获得：

L_cross＝-[ylog(p)+(1-y)·log(1-p)]

其中，y表示客户的性别标签，若客户的性别标签为男性时y取值为0，若客户的性别标签为女性时y取值为1，p为客户预测为女性时的概率。

具体的，在对该卷积神经网络模型的网络层特征进行抽取阶段，4层卷积层结合12层残差块网络层，每个层之间添加了一层dropout层。卷积层和残差块层滤波器的步长分别为(2,2)和(1,1)，核尺寸分别为(5,5)和(3,3)，填充均设置为same，为了将音频的帧级特征转换为音频段级特征，同时也起到说话人特征空间归一化的作用，然后拼接average层、affine层和L2正则化层，输出 512维向量作为该段音频特征。

本实施例中，一种模型训练的方法，参照图2，步骤S12包括以下：

步骤S121、将音频数据的音频长度与预设音频时长进行比较。

步骤S122、若音频长度小于预设音频时长，则复制音频数据并添加至音频数据的尾部，以生成长度为预设音频时长的待训练音频数据。

步骤S123、若音频长度大于预设音频时长，则根据预设音频时长创建滑动窗口，通过滑动窗口在音频数据中截取若干预设音频时长的音频样本，对音频样本的音频特征进行加和平均后，生成长度为预设音频时长的待训练音频数据。

步骤S124、若音频长度等于预设音频时长，则直接将音频数据作为待训练音频数据。

音频数据通常为事先收集的一些原始音频，这些原始音频没有做过处理，音频长度长短不一，音频数据的音频长度与预设音频时长的不统一，而待训练的音频数据的音频长度是统一的，例如，统一为4.012秒，将音频数据进行预处理转化为待训练音频数据。

即，预设处理具体包括切割音频数据中的音频文件和补全音频数据中的音频这两种方式，目得是通过上述两种方式将音频数据的音频长度处理成为预设音频的长度，预设处理主要是针对音频长度不等于预设音频时长的那些音频数据。

第一种情况，当音频长度小于4.015秒时，假设一段音频为1.2秒，则构造成4.015秒的音频，将音频进行复制处理。

第二种情况，当音频长度大于4.015秒时，需要设置一个滑动窗口，在该音频上滑动并取窗口下的特征进行加和平均，作为整段音频的特征，该窗口的长度即为设置音频的长度4.015s，并设置窗移位2s，当移动到最后一段音频长度小于窗口长度时，则按照上述第一种情况的处理方法，进行补齐。

本实施例中，一种模型训练的方法，参照图3，步骤S11之前还包括以下：

步骤S101、对酒店客服与客户的语音通话过程进行实时录音，获取酒店客服与客户通话的音频文件。

步骤S102、将音频文件进行左右声道分离，获取客户对应的客户语音音频片段。

对客户和客服通话进行实时录音，生成历史录音数据。对历史录音的音频数据进行左右声道分离，将客户和客服的语音音频数据区分开，提取客户对应的客户语音音频片段。

本实施例中，一种模型训练的方法，步骤S11获取多个客户的音频数据的步骤具体包括：

对客户语音音频片段进行静音分离，得到多个客户的音频数据。

本发明实施例中，提供了一种模型训练的方法，通过获取多个客户的音频数据；将音频数据进行预处理转化为具有预设音频时长的待训练音频数据；从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练，卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为构造三元组判断相似性的损失函数，第二损失函数为基于性别进行二分类的交叉熵损失函数。通过上述方式，利用第一损失函数和第二损失函数对神经网络模型进行联合优化，既考虑了性别因素，又提高了利用模型对客户来电语音的声纹识别的准确度。

实施例2

本实施例提供一种模型训练的系统，参照图4，包括：第一获取模块110、预处理模块120、训练模块130、第二获取模块140、第三获取模块150。

其中，第一获取模块110，用于获取多个客户的音频数据。

预处理模块120，用于将音频数据进行预处理转化为具有预设音频时长的待训练音频数据。

训练模块130，用于从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练。

其中，三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，第一音频数据和第二音频数据为客户的两个不同的音频数据，第三音频数据为其他客户的音频数据。卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为构造三元组判断相似性的损失函数，第二损失函数为基于性别进行二分类的交叉熵损失函数。

本实施例中，预处理模块120包括：比较单元1201，用于将音频数据的音频长度与预设音频时长进行比较。第一预处理单元1202，用于在音频长度小于预设音频时长时，复制音频数据并添加至音频数据的尾部，以生成长度为预设音频时长的待训练音频数据。第二预处理单元1203，用于在音频长度大于预设音频时长时，则根据预设音频时长创建滑动窗口，通过滑动窗口在音频数据中截取若干预设音频时长的音频样本，对音频样本的音频特征进行加和平均后，生成长度为预设音频时长的待训练音频数据。第三预处理单元 1204，用于在音频长度等于预设音频时长时，则直接将音频数据作为待训练音频数据。

本实施例中，一种模型训练的系统，该系统还包括：

第二获取模块140，用于对酒店客服与客户的语音通话过程进行实时录音，获取酒店客服与客户通话的音频文件。

第三获取模块150，用于将音频文件进行左右声道分离，获取客户对应的客户语音音频片段。

该第一获取模块110具体用于对客户语音音频片段进行静音分离，得到多个客户的音频数据。

该卷积神经网络模型使用的损失函数通过以下公式获得：

L_{cross-triplet}＝λL_triplet+μL_cross

其中，L_{cross-triplet}表示该损失函数，L_triplet表示该第一损失函数，L_cross表示该第二损失函数，λ、μ表示该损失函数的调节因子。

第一损失函数通过以下公式获得：

其中，

表示第i个第一音频数据与第二音频数据的余弦距离，

第二损失函数通过以下公式获得：

L_cross＝-[ylog(p)+(1-y)·log(1-p)]

本发明实施例中，提供了一种模型训练的系统，该系统执行下述方法:通过获取多个客户的音频数据；将该音频数据进行预处理转化为具有预设音频时长的待训练音频数据。从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练，卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为构造三元组判断相似性的损失函数，第二损失函数为基于性别进行二分类的交叉熵损失函数。利用第一损失函数和第二损失函数对神经网络模型进行联合优化，既考虑了性别因素，又提高了利用模型对客户来电语音进行声纹识别的准确度。

实施例3

图5为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1或实施例2的模型训练的方法，图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线 33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/ 或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或实施例2的模型训练的方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1或实施例2的模型训练的方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或实施例2的模型训练的方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

实施例5

本实施例提供一种声纹识别的方法，参照图6，该方法包括：

步骤S21、利用实施例1的方法训练出卷积神经网络模型。

步骤S22、获取同一订单数据所对应的目标客户音频片段和待识别客户音频片段。

步骤S23、将目标客户音频片段和待识别客户音频片段分别输入卷积神经网络模型得到相应的第一声纹特征向量与第二声纹特征向量。

步骤S24、根据第一声纹特征向量与第二声纹特征向量计算余弦相似度。

步骤S25、将余弦相似度和预设阈值进行比较，确定目标客户和待识别客户是否相同。

本实施例中，可以通过OTA平台的订单数据选择同一订单对应的两段终端设备发送的客户语音，根据训练得到的声纹识别模型可以对说话人进行确认，即判断说话人是否为同一个人，由此生成声纹识别的结果。需要说明的是，终端设备可以为手机、笔记本电脑、平板电脑以及掌上电脑，此处不做具体限定。

在一种可能实现方式中，可以将该余弦相似度和预设阈值进行比较，确定该目标客户和该待识别客户是否相同。若余弦相似度大于等于预设阈值，则确定目标客户和待识别客户相同；若余弦相似度小于预设阈值，则确定目标客户和待识别客户不同。

具体的，抽取酒店致电用户录音，根据声道不同取出单独用户录音，并对音频按整句进行分隔。即同一个客户具有多条音频数据，然后将每个音频输入通过训练好的模型，取该模型L2 norm层生成e＝[e₁,e₂,…,e_n]，其中e_i代表第i条音频对应的512维的向量，最后对e进行加和平均得到

作为该说话人的声纹特征。

可以取“客人”致电客服的录音音频，同样根据声道抽离出“客人”的录音，然后进行分隔。计算该说话人音频声纹特征e′，然后根据余弦距离来计算

和e′的相似度，计算公式为

最后设定阈值来判断是否是同一客人。

本实施例中，通过上述的客户声纹识别的方法，通过同一订单数据对应的酒店致电客人的通话录音与“客人”致电客服的通话录音进行声纹识别，判断两通电话的来电客人是否为同一人。对客服通话起到预警作用，加强了客服对来电“客人”的审核力度，阻止真实订单出现纰漏等问题，提高了识别的准确度。

实施例6

本实施例提供一种声纹识别的系统，参照图6，包括：音频获取模块210、声纹特征获取模块220、计算模块230、确定模块240。

其中，音频获取模块210，用于获取同一订单数据所对应的目标客户音频片段和待识别客户音频片段。

声纹特征获取模块220，用于将目标客户音频片段和待识别客户音频片段分别输入卷积神经网络模型得到相应的第一声纹特征向量与第二声纹特征向量。

计算模块230，用于根据第一声纹特征向量与第二声纹特征向量计算余弦相似度。

确定模块240，用于将余弦相似度和预设阈值进行比较，确定目标客户和所述待识别客户是否相同。

本实施例中，通过上述的客户声纹识别的系统，通过酒店致电客人的通话录音与“客人”致电客服的通话录音进行声纹识别，判断两通电话是否为同一人。对客服起到一个预警的作用，加强了客服对来电“客人”的审核力度，阻止真实订单出现纰漏等问题。

实施例7

本实施例提供的一种电子设备的结构示意图，与图5的结构相同。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例5或实施例6的声纹识别的方法，图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

总线33包括数据总线、地址总线和控制总线。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或实施例2的声纹识别的方法。

实施例8

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例5或实施例6的声纹识别的方法的步骤。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例5或实施例6的声纹识别的方法的步骤。

Claims

1.一种模型训练的方法，其特征在于，所述方法包括：

获取多个客户的音频数据；

2.如权利要求1所述的模型训练的方法，其特征在于，所述卷积神经网络模型使用的损失函数通过以下公式获得：

L_{cross-triplet}＝λL_triplet+μL_cross

其中，L_{cross-triplet}表示所述损失函数，L_triplet表示所述第一损失函数，L_cross表示所述第二损失函数，λ、μ表示所述损失函数的调节因子。

3.如权利要求2所述的模型训练的方法，其特征在于，所述第一损失函数通过以下公式获得：

其中，

4.如权利要求2所述的模型训练的方法，其特征在于，所述第二损失函数通过以下公式获得：

L_cross＝-[y log(p)+(1-y)·log(1-p)]

5.如权利要求1所述的模型训练的方法，其特征在于，所述将所述音频数据进行预处理转化为具有预设音频时长的待训练音频数据的步骤包括：

将所述音频数据的音频长度与所述预设音频时长进行比较；

6.如权利要求1所述的模型训练的方法，其特征在于，获取多个客户的音频数据的步骤之前包括：

所述获取多个客户的音频数据的步骤具体包括：

7.一种模型训练的系统，其特征在于，包括：

第一获取模块，用于获取多个客户的音频数据；

8.如权利要求7所述的模型训练的系统，其特征在于，所述预处理模块包括：

9.如权利要求7所述的模型训练的系统，其特征在于，所述系统还包括：

10.一种声纹识别的方法，其特征在于，包括：

利用如权利要求1-6中任一项所述的方法训练出所述卷积神经网络模型；

11.一种声纹识别的系统，其特征在于，包括：

如权利要求7-9中任意一项所述的模型训练的系统，用于训练出所述卷积神经网络模型；

12.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-6中的任一项所述的模型训练的方法，或执行如权利要求10所述的声纹识别的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的模型训练的方法，或者执行如权利要求10所述的声纹识别的方法。