CN111145761B

CN111145761B - 模型训练的方法、声纹确认的方法、系统、设备及介质

Info

Publication number: CN111145761B
Application number: CN201911374334.4A
Authority: CN
Inventors: 任君; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2022-05-24
Anticipated expiration: 2039-12-27
Also published as: CN111145761A

Abstract

本发明公开了一种模型训练的方法、声纹确认的方法、系统、设备及介质，其中模型训练的方法，包括以下步骤：获取多个客户的原始音频数据；将所述原始音频数据进行切割拆分成为时序上连续的多段音频数据；对所述音频数据进行端点检测，生成待训练的音频数据；从所述待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，所述第一损失函数为二元组损失函数，所述第二损失函数为三元组损失函数。本发明利用两个损失函数既区分说话人之间的差别，又能拉近同一说话人类内的关系，直接实现了端到端的训练和预测。

Description

模型训练的方法、声纹确认的方法、系统、设备及介质

技术领域

本发明涉及声纹识别技术领域，特别涉及一种模型训练的方法、声纹确认的方法、系统、设备及介质。

背景技术

声纹识别是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。与指纹类似，每个人在说话过程中所蕴含的语音特征和发音习惯几乎是独一无二的，即使是模仿也无法改变说话者本质的发音特征和声道特征。

在OTA(Online Travel Agency，在线旅游)行业中用户下完酒店订单后存在“陌生人”查房或者修改酒店订单信息的行为，该行为严重损害了用户的信息安全以及OTA平台的利益。客人在进线客服时，会对订单进行一定的操作，如取消、修改或者查询住客信息等。

现有模型对来电客人进行声纹识别时，输入的是音频数据，输出的是向量。需要额外设置余弦相似度和阈值来计算相似分，造成流程繁琐并且识别的准确度不高。

发明内容

本发明要解决的技术问题是为了克服现有技术中声纹识别模型造成流程繁琐并且识别的准确度不高的缺陷，提供一种模型训练的方法、声纹确认的方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，本发明提供一种模型训练的方法，所述方法包括:

获取多个客户的原始音频数据；

将所述原始音频数据进行切割拆分成为时序上连续的多段音频数据；

对所述音频数据进行端点检测，生成待训练的音频数据；

从所述待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；

其中，所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，所述第一损失函数为二元组损失函数，所述第二损失函数为三元组损失函数；

所述三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，所述第一音频数据和所述第二音频数据为所述客户的两个不同的音频数据，所述第三音频数据为其他客户的音频数据。

较佳地，所述对所述音频数据进行端点检测，得到待训练的音频数据，包括：

计算所述音频数据中各连续单帧音频所对应的第一能量值；

将所述第一能量值小于第一预设阈值的单帧音频确定为所述音频数据中的第一无效帧；

将所述第一无效帧对应的单帧音频从所述音频数据中进行剔除，生成第一音频数据；

计算所述第一音频数据中的连续多帧音频所对应的第二能量值；

将所述第一音频数据中所述第二能量值均小于第二预设阈值的连续多帧音频所对应的音频数据确定为第二无效帧；

将所述第二无效帧对应的连续多帧音频从所述第一音频数据中进行剔除，生成待训练的音频数据。

较佳地，所述卷积神经网络模型使用的损失函数通过以下公式获得：

L_total＝L_tuple+L_triplet

其中，L_total表示所述损失函数，L_tuple表示所述第一损失函数，L_triplet表示所述第二损失函数。

较佳地，所述第一损失函数通过以下公式获得：

L_tuple＝δ(j,k)σ(s)+(1-δ(j,k))(1-σ(s))

其中，δ(j,k)表示符号函数，若j＝k时，δ(j,k)为1，表示两段所述音频数据为同一人；否则δ(j,k)为0，s＝ωcos(ω_j-,C_k)+b，ω_j-为所述待训练的音频数据中任一客户对应的所述音频数据经过所述卷积神经网络模型提取的声纹特征向量，C_k为所述待训练的音频数据中另一客户对应的所述音频数据经过所述卷积神经网络模型提取的声纹特征向量；

w_kn为第k个客户的第n个所述音频数据或所述第二音频数据经过所述卷积神经网络模型提取的所述客户对应的声纹特征向量。

较佳地，所述第二损失函数通过以下公式获得：

其中，

表示第i个所述第一音频数据与所述第二音频数据的余弦距离，

表示第i个所述第一音频数据与所述第三音频数据的余弦距离，α为软间隔参数，N为整数，[x]₊＝Max(x,0)。

较佳地，所述方法还包括：

将多个客户的历史音频数据输入训练好的所述卷积神经网络模型中，生成所述客户对应的声纹特征向量；

将所述声纹特征向量存储在声纹库中；其中，所述声纹库中包括所述声纹特征向量对应的用户标识。

第二方面，本发明还提供一种模型训练的系统，包括：

第一获取模块，用于获取多个客户的原始音频数据；

处理模块，用于将所述原始音频数据进行切割拆分成为时序上连续的多段音频数据；

检测模块，用于对所述音频数据进行端点检测，生成待训练的音频数据；

训练模块，用于从所述待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；

较佳地，所述检测模块包括：

第一计算单元，用于计算所述音频数据中各连续单帧音频所对应的第一能量值；

第一确定单元，用于将所述第一能量值小于第一预设阈值的单帧音频确定为所述音频数据中的第一无效帧；

第一处理单元，用于将所述第一无效帧对应的单帧音频从所述音频数据中进行剔除，生成第一音频数据；

第二计算单元，用于计算所述第一音频数据中的连续多帧音频所对应的第二能量值；

第二确定单元，用于将所述第一音频数据中所述第二能量值均小于第二预设阈值的连续多帧音频所对应的音频数据确定为第二无效帧；

第二处理单元，用于将所述第二无效帧对应的连续多帧音频从所述第一音频数据中进行剔除，生成待训练的音频数据。

较佳地，所述系统还包括：

第一输入模块，用于将多个客户的历史音频数据输入训练好的所述卷积神经网络模型中，生成所述客户对应的声纹特征向量；

存储模块，用于将所述声纹特征向量存储在声纹库中；其中，所述声纹库中包括所述声纹特征向量对应的用户标识。

第三方面，本发明还提供一种声纹确认的方法，所述声纹确认的方法包括：

实时接收待识别客户的音频数据；其中，所述音频数据包括待识别客户对应的用户标识；

将所述音频数据输入利用如上述的方法训练出的所述卷积神经网络模型中，得到所述待识别客户对应的第一声纹特征向量；

根据所述用户标识在如上述声纹库中查询对应的第二声纹特征向量；其中，所述第二声纹特征向量为所述声纹库中预先注册的目标客户所对应的声纹特征向量；

根据所述第一声纹特征向量和所述第二声纹特征向量判断所述待识别客户与所述目标客户是否相同。

较佳地，所述方法还包括：

若针对所述用户标识在声纹库中未查询到所述用户标识对应的第二声纹特征向量，则将所述待识别客户对应的第一声纹特征向量存储在所述声纹库中。

第四方面，本发明还提供一种声纹确认的系统，包括：

接收模块，用于将实时接收待识别客户的音频数据；其中，所述音频数据包括待识别客户对应的用户标识；

第二输入模块，用于将所述音频数据输入利用上述任一项所述的方法训练出的所述卷积神经网络模型中，得到所述待识别客户对应的第一声纹特征向量；

查询模块，用于根据所述用户标识在如上述声纹库中查询对应的第二声纹特征向量；其中，所述第二声纹特征向量为所述声纹库中预先注册的目标客户所对应的声纹特征向量；

判断模块，用于根据所述第一声纹特征向量和所述第二声纹特征向量判断所述待识别客户与所述目标客户是否相同。

较佳地，所述系统还包括：

存储模块，用于若针对所述用户标识在声纹库中未查询到所述用户标识对应的第二声纹特征向量，则将所述待识别客户对应的第一声纹特征向量存储在所述声纹库中。

本发明还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任一项的一种模型训练的方法，或执行上述的声纹确认的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一项的一种模型训练的方法，或者执行上述的声纹确认的方法。

本发明的积极进步效果在于：提供了一种模型训练的方法，获取多个客户的原始音频数据；将所述原始音频数据进行切割拆分成为时序上连续的多段音频数据；对所述音频数据进行端点检测，生成待训练的音频数据；从所述待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；其中，所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，所述第一损失函数为二元组损失函数，所述第二损失函数为三元组损失函数。本发明的模型不需要输出向量或者设置人工阈值，直接输出是否是同一人的结果，完成了模型的端到端训练的以及端到端的预测。本发明模型不需要输出向量或者设置人工阈值，直接输出是否是同一人的结果，完成了模型的端到端训练以及端到端的预测。

附图说明

图1为本发明实施例1的模型训练方法的流程图。

图2为本发明实施例1的模型训练方法的步骤S13的流程图。

图3为本发明实施例1的模型训练方法的步骤S14之后的流程图。

图4为本发明实施例2的模型训练系统的模块示意图。

图5为本发明实施例3的电子设备的硬件结构示意图。

图6为本发明实施例5的声纹确认的方法的流程图。

图7为本发明实施例6的声纹确认系统的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种模型训练的方法，参照图1，该方法包括以下步骤：

步骤S11、获取多个客户的原始音频数据。

在OTA(Online Travel Agency，在线旅游)行业中，由于在客户进线携程客服时，会对订单进行一定的操作，例如，取消、修改或者查询住客信息等。客服在核对进线客户时，只通过订单号、酒店名称等一个或者几个简单的信息来核对该进线客户是否是订单本人，若客户订单信息被恶意修改或查询，对双方都存在较大风险。

本实施例中，收集大量客服声音音频数据作为原始音频数据，将同一个客户ID下的所有音频数据作为一个客户的原始音频数据，可以理解的，音频数据可以从数据库中下载即可。

步骤S12、将原始音频数据进行切割拆分成为时序上连续的多段音频数据。

使用固定的时间点对客服的整通电话进行切割，将一通完整的电话切割成多段客服说话的音频，但是切割后的单个音频存在整段为噪音和静音问题，因此需要VAD进行检测。

步骤S13、对音频数据进行端点检测，生成待训练的音频数据。

VAD(Voice Activity Detection，话音激活检测)，目的是检测当前语音信号中是否包含话音信号的存在，对输入的语音信号进行判断。将话音信号与各种背景噪声信号区分出来，分别对两种信号采用不同的处理方法。常见的端点检测分为单帧VAD检测与连续帧VAD检测。单帧VAD指对音频数据进行每一帧一帧的判断是否是静音或者噪音；连续帧VAD指对音频数据进行一次性判断N帧是否是静音或者噪音。

单独使用单帧VAD检测会造成过度切割，使得音频切的“很碎”，即听着每个字紧凑、急促，失去了客户原有的说话风格。单独使用连续帧VAD检测会出现音频数据两端的噪音很难剔除的现象。

本实施例中，使用VAD方法对音频数据进行端点检测的过程中，该流程经过两次VAD组合方案。

步骤S14、从待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练。其中，卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为二元组损失函数，所述第二损失函数为三元组损失函数。三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，第一音频数据和第二音频数据为客户的两个不同的音频数据，第三音频数据为其他客户的音频数据。

从完成端点检测的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络中进行训练。使用400帧的64维的fbank特征作为该卷积神经网络模型的输入，在声纹模型的网络抽取层，设置了4层卷积层结合12层残差块网络层。卷积层和残差块层的滤波器的步长可以设置为(2，2)和(1，1)，核尺寸分别为(5，5)和(3，3)，该卷积层的设计是为了将音频的帧级特征转换为音频段级特征，同时也可以将说话人的声纹特征空间归一化，最后输出512维的向量作为该段音频的特征向量。将生成一对512维的特征向量传输给余弦相似分函数和triplet loss损失函数，同时余弦相似分再接logistic回归对分数进行二分类，直接判断该对音频数据是否为同一客户，将该卷积神经网络模型的损失函数定义为tuple-based end to end loss。

其中，该卷积神经网络模型使用的损失函数通过以下公式获得：

L_total＝L_tuple+L_triplet

即，L_total表示损失函数，L_tuple表示第一损失函数，L_triplet表示第二损失函数。

具体的，第一损失函数通过以下公式获得：

L_tuple＝δ(j,k)σ(s)+(1-δ(j,k))(1-σ(s))

其中，δ(j,k)表示符号函数，若j＝k时，δ(j,k)为1，表示两段音频数据为同一人；否则δ(j,k)为0，s＝ωcos(ω_j-,C_k)+b，ω_j-为待训练的音频数据中任一客户对应的音频数据经过卷积神经网络模型提取的声纹特征向量，C_k为待训练的音频数据中另一客户对应的音频数据经过所述卷积神经网络模型提取的声纹特征向量；

w_kn为第k个客户的第n个音频数据或第二音频数据经过卷积神经网络模型提取的客户对应的声纹特征向量。

具体的，第二损失函数通过以下公式获得：

其中，

表示第i个第一音频数据与第二音频数据的余弦距离，

表示第i个第一音频数据与第三音频数据的余弦距离，α为软间隔参数，N为整数，[x]₊＝Max(x,0)。

两个损失函数是相对独立的损失函数，代表不同的含义。第一损失函数目的是区分两段音频是否是同一个说话人。第二损失函数目的是使同一个客户的多个音频数据对应的特征向量的相似度更近，让不同客户的多个音频数据对应的特征向量的相似度更远。两个损失函数加起来可以让卷积神经网络模型获得更有区分度的声纹特征向量，同时能够直接判断说话人是否相同。该卷积神经网络模型加入了余弦相似分和逻辑回归后使用了tuple loss，完全实现了端到端的预测，该模型能够根据学习的结果直接对客户的音频数据进行判断，而不需要进行人工干预。

本实施例中，一种模型训练的方法，参照图2，步骤S13包括以下：

步骤S131、计算音频数据中各连续单帧音频所对应的第一能量值。

步骤S132、将第一能量值小于第一预设阈值的单帧音频确定为音频数据中的第一无效帧。

步骤S133、将第一无效帧对应的单帧音频从所述音频数据中进行剔除，生成第一音频数据。

步骤S134、计算第一音频数据中的连续多帧音频所对应的第二能量值。

步骤S135、将第一音频数据中第二能量值均小于第二预设阈值的连续多帧音频所对应的音频数据确定为第二无效帧。

步骤S136、将第二无效帧对应的连续多帧音频从所述第一音频数据中进行剔除，生成待训练的音频数据。

本实施例中，经过两次VAD端点检测方案。第一次经过单帧的检测方案，对每帧音频计算其能量值，该能量值作为第一能量值。将多次实验的得到的阈值作为第一预设阈值，若所述第一能量值大于第一预设阈值的单帧音频确定为该音频数据中的第一无效帧。将第一无效帧对应的单帧音频从音频数据中进行剔除，生成第一音频数据，该方法可以更好的对纯噪声的音频进行剔除，反之，若第一能量值小于第一预设阈值的单帧音频确定为该音频数据中的有效帧。

将音频数据经过上述VAD检测处理后，再经过一次连续帧的VAD检测处理。第二次VAD检测处理是对有效帧较长的第一音频数据进行二次判断，若该第一音频数据中连续N帧音频数据中有一帧大于经过实验得到的第二预设阈值，则这N帧都视为有效帧，若该第一音频数据中连续N帧音频的能量值均小于第二预设阈值的连续多帧音频所对应的音频数据确定为第二无效帧。即将该音频数据中连续N帧能量值均大于经过实验得到的第二预设阈值，则这N帧都视为有效帧。将第二无效帧对应的连续多帧音频从第一音频数据中进行剔除，生成待训练的音频数据。此方法可以有效保留说话人原有的风格，不会对音频数据进行过的切割。

本实施例中，一种模型训练的方法，参照图3，步骤S14之后还包括以下：

步骤S15、将多个客户的历史音频数据输入训练好的卷积神经网络模型中，生成客户对应的声纹特征向量。

步骤S16、将声纹特征向量存储在声纹库中；其中，声纹库中包括声纹特征向量对应的用户标识。

本实施例中，选择了近半年有过酒店订单的客户群体，将该客户群体对应的音频数据作为历史音频数据。共筛选出120万客户，即选择了120万以上的音频数据输入训练好的卷积神经网络模型得到各个用户标识uid相对应的声纹特征向量，并存储在声纹库中。

本发明实施例中，提供了一种模型训练的方法，获取多个客户的原始音频数据；将原始音频数据进行切割拆分成为时序上连续的多段音频数据；对音频数据进行端点检测，生成待训练的音频数据；从待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；其中，卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为二元组损失函数，第二损失函数为三元组损失函数。本发明的模型不需要输出向量或者设置人工阈值，直接输出是否是同一人的结果，完成了模型的端到端的训练以及端到端的预测。本发明模型不需要输出向量或者设置人工阈值，直接输出是否是同一人的结果，完成了模型的端到端训练以及端到端的预测。

实施例2

本实施例提供一种模型训练的系统，参照图4，包括：第一获取模块110、处理模块120、检测模块130、训练模块140、第一输入模块150。

其中，第一获取模块110，用于获取多个客户的原始音频数据；

处理模块120，用于将原始音频数据进行切割拆分成为时序上连续的多段音频数据。

检测模块130，用于对音频数据进行端点检测，生成待训练的音频数据。

训练模块140，用于从待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练。

其中，卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，第一损失函数为二元组损失函数，第二损失函数为三元组损失函数。三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据，第一音频数据和第二音频数据为客户的两个不同的音频数据，第三音频数据为其他客户的音频数据。

本实施例中，检测模块130包括：

第一计算单元1301，用于计算音频数据中各连续单帧音频所对应的第一能量值。第一确定单元1302，用于将第一能量值大于第一预设阈值的单帧音频确定为音频数据中的第一无效帧。第一处理单元1303，用于将第一无效帧对应的单帧音频从音频数据中进行剔除，生成第一音频数据。第二计算单元1304，用于计算第一音频数据中的连续多帧音频所对应的第二能量值。第二确定单元1305，用于将第一音频数据中第二能量值均小于第二预设阈值的连续多帧音频所对应的音频数据确定为第二无效帧。第二处理单元，用于将所述第二无效帧对应的连续多帧音频从所述第一音频数据中进行剔除，生成待训练的音频数据。

本实施例中，一种模型训练的系统，该系统还包括：

第一输入模块150，用于将多个客户的历史音频数据输入训练好的卷积神经网络模型中，生成客户对应的声纹特征向量。

存储模块160，用于将声纹特征向量存储在声纹库中；其中，声纹库中包括声纹特征向量对应的用户标识。

L_total＝L_tuple+L_triplet

具体的，第一损失函数通过以下公式获得：

L_tuple＝δ(j,k)σ(s)+(1-δ(j,k))(1-σ(s))

具体的，第二损失函数通过以下公式获得：

其中，

表示第i个第一音频数据与第二音频数据的余弦距离，

本实施例中，提供了一种模型训练的系统，该系统执行下述方法:获取多个客户的原始音频数据；将原始音频数据进行切割拆分成为时序上连续的多段音频数据。对音频数据进行端点检测，生成待训练的音频数据；从待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练；其中，该卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数，该第一损失函数为二元组损失函数，该第二损失函数为三元组损失函数。本发明利用两个损失函数既区分说话人之间的差别，又能拉近同一说话人类内的关系，直接实现了端到端的训练和预测。

实施例3

图5为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的模型训练的方法，图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或实施例2的模型训练的方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的模型训练的方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的模型训练的方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

实施例5

本实施例提供一种声纹确认的方法，参照图6，该声纹确认的方法包括：

步骤S21、实时接收待识别客户的音频数据；其中，音频数据包括待识别客户对应的用户标识。

步骤S22、将音频数据输入利用如实施例1的方法训练出的卷积神经网络模型中，得到待识别客户对应的第一声纹特征向量。

步骤S23、根据用户标识在如实施例1的声纹库中查询对应的第二声纹特征向量；其中，第二声纹特征向量为声纹库中预先注册的目标客户所对应的声纹特征向量。

步骤S24、根据第一声纹特征向量和第二声纹特征向量判断待识别客户与目标客户是否相同。

本实施例中，酒店客户进线过程中，音频会以数据流的形式实时不停的传输给如实施例1的方法训练出的卷积神经网络模型中，输出待识别客户对应的声纹特征向量，该声纹特征向量作为第一声纹特征向量。根据用户标识在如实施例1的声纹库中查询对应的声纹特征向量，该声纹特征向量作为第二声纹特征向量。

将第一声纹特征向量和第二声纹特征向量进行对比，进行声纹匹配。随着客户的音频数据流的不断传入，其会将下段音频数据流产生的声纹特征向量与之前所有音频流产生的声纹特征向量进行加和平均，利用余弦相似度进行对比。若第一声纹特征向量和第二声纹特征向量不同，则确定待识别客户和目标客户不相同，启动基本的声纹卡主信息核对方案；若第一声纹特征向量和第二声纹特征向量相同，则确定待识别客户和目标客户相同，启动复合的声纹卡主信息核对方案。

启动基本信息核对方案，在确定为同一客户时，询问下订单号、预留手机号、酒店名称。而复杂信息核对方案为针对判断不同客户时，使用多方信息共同核对，例如，可以利用客户提供的订单号、入住日期、酒店名称等信息来对客户身份进行判断，加强审核力度。

在本实施例中，上述的一种声纹确认的方法的基础上做了更进一步的拓展，所述方法还包括：

步骤S25、若针对用户标识在声纹库中未查询到用户标识对应的第二声纹特征向量，则将待识别客户对应的第一声纹特征向量存储在声纹库中。

本实施例中，提供了一种声纹确认的方法，实时接收待识别客户的音频数据；其中，该音频数据包括待识别客户对应的用户标识；将该音频数据输入利用如实施例1中任一项的方法训练出的卷积神经网络模型中，得到待识别客户对应的第一声纹特征向量。根据该用户标识在实施例1中的声纹库中查询对应的第二声纹特征向量；其中，该第二声纹特征向量为声纹库中预先注册的目标客户所对应的声纹特征向量；根据该第一声纹特征向量和第二声纹特征向量判断待识别客户与目标客户是否相同。该方法提高了客服实时审核客户信息的速度。例如，客服确认客户声纹匹配一致时，减少了客服的工作量，确保客户订单的安全性。

实施例6

本实施例提供一种声纹确认的系统，参照图7，包括：接收模块210，第二输入模块220，查询模块230，判断模块240，判断模块250。

其中，接收模块210，用于将实时接收待识别客户的音频数据；其中，音频数据包括待识别客户对应的用户标识。

第二输入模块220，用于将音频数据输入利用实施例1任一项的方法训练出的卷积神经网络模型中，得到待识别客户对应的第一声纹特征向量。

查询模块230，用于根据用户标识在实施例1中的声纹库中查询对应的第二声纹特征向量；其中，该第二声纹特征向量为声纹库中预先注册的目标客户所对应的声纹特征向量。

判断模块240，用于根据第一声纹特征向量和第二声纹特征向量判断待识别客户与目标客户是否相同。

本实施例中，通过上述的客户声纹确认的系统，还包括:

存储模块250，用于若针对用户标识在声纹库中未查询到用户标识对应的第二声纹特征向量，则将待识别客户对应的第一声纹特征向量存储在声纹库中。

本实施例中，提供了一种声纹确认的系统，通过该系统对客户进线携程客服时，会对订单进行操作，如取消、修改、询住客信息等。本发明将实时进线的客户音频数据流进行接收，并找到声纹库中的该客户已经存在的声纹向量，若声纹库中不存在该客户则返回为新人，并存储该客户的声纹信息。本发明一种实时高效的声纹模型的卡主确认系统，用以保护酒店客户的信息安全。

实施例7

本实施例提供的一种电子设备的结构示意图，与图5的结构相同。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例5的声纹确认的方法，图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

总线33包括数据总线、地址总线和控制总线。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的声纹确认的方法。

实施例8

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例5的声纹确认的方法的步骤。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例5的声纹确认的方法的步骤。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取多个客户的原始音频数据；

对所述音频数据进行端点检测，生成待训练的音频数据；

2.如权利要求1所述的模型训练的方法，其特征在于，所述对所述音频数据进行端点检测，得到待训练的音频数据，包括：

计算所述音频数据中各连续单帧音频所对应的第一能量值；

3.如权利要求1所述的模型训练的方法，其特征在于，所述卷积神经网络模型使用的损失函数通过以下公式获得：

L_total＝L_tuple+L_triplet

4.如权利要求3所述的模型训练的方法，其特征在于，所述第一损失函数通过以下公式获得：

L_tuple＝δ(j，k)σ(s)+(1-δ(j，k))(1-σ(s))

其中，δ(j，k)表示符号函数，若j＝k时，δ(j，k)为1，表示两段所述音频数据为同一人；否则δ(j，k)为0；

σ(s)为sigmoid激活函数，用于将s映射到(0，1)区间，

s＝ωcos(ω_j-，C_k)+b，ω_j-为所述待训练的音频数据中任一客户对应的所述音频数据经过所述卷积神经网络模型提取的声纹特征向量，C_k为所述待训练的音频数据中另一客户对应的所述音频数据经过所述卷积神经网络模型提取的声纹特征向量，ω为权重矩阵，b为偏差向量；

5.如权利要求3所述的模型训练的方法，其特征在于，所述第二损失函数通过以下公式获得：

其中，

表示第i个所述第一音频数据与所述第三音频数据的余弦距离，α为软间隔参数，N为整数，[x]₊＝Max(x，0)。

6.如权利要求1所述的模型训练的方法，其特征在于，所述方法还包括：

7.一种模型训练的系统，其特征在于，包括：

第一获取模块，用于获取多个客户的原始音频数据；

8.如权利要求7所述的模型训练的系统，其特征在于，所述检测模块包括：

第一计算单元，用于计算所述音频数据中各连续单帧音频所对应的能量值；

第一确定单元，用于将所述第一能量值大于第一预设阈值的单帧音频确定为所述音频数据中的第一无效帧；

9.如权利要求7所述的模型训练的系统，其特征在于，所述系统还包括：

10.一种声纹确认的方法，其特征在于，所述声纹确认的方法包括：

将所述音频数据输入利用如权利要求1-6中任一项所述的方法训练出的所述卷积神经网络模型中，得到所述待识别客户对应的第一声纹特征向量；

根据所述用户标识在权利要求6中的所述声纹库中查询对应的第二声纹特征向量；其中，所述第二声纹特征向量为所述声纹库中预先注册的目标客户所对应的声纹特征向量；

11.如权利要求10所述的声纹确认的方法，其特征在于，所述方法还包括：

12.一种声纹确认的系统，其特征在于，包括：

第二输入模块，用于将所述音频数据输入利用如权利要求1-6中任一项所述的方法训练出的所述卷积神经网络模型中，得到所述待识别客户对应的第一声纹特征向量；

查询模块，用于根据所述用户标识在如权利要求6所述声纹库中查询对应的第二声纹特征向量；其中，所述第二声纹特征向量为所述声纹库中预先注册的目标客户所对应的声纹特征向量；

13.如权利要求12所述的声纹确认的系统，其特征在于，所述系统还包括：

14.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-6中的任一项所述的模型训练的方法，或执行如权利要求10或11所述的声纹确认的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的模型训练的方法，或者执行如权利要求10或11所述的声纹确认的方法。