CN111968650B

CN111968650B - 语音匹配方法、装置、电子设备及存储介质

Info

Publication number: CN111968650B
Application number: CN202010826186.1A
Authority: CN
Inventors: 李晋; 褚繁; 方昕; 余青松; 柳林; 戴礼荣; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2024-04-30
Anticipated expiration: 2040-08-17
Also published as: CN111968650A

Abstract

本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质，所述方法包括：确定待匹配话单的两个待匹配号码；将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系；其中，任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的，该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质，保证了语音数据与其对应主被叫号码的一致性。

Description

语音匹配方法、装置、电子设备及存储介质

技术领域

本发明涉及智能语音技术领域，尤其涉及一种语音匹配方法、装置、电子设备及存储介质。

背景技术

目前，智能语音技术逐渐在电信的声讯信息服务中展开应用，并在迅速地推广。语音匹配指的是将一条话单包括的两条语音数据，与该话单的主叫号码和被叫号码分别进行匹配，以实现主被叫号码的语音数据的分离。

现有的语音匹配方法是根据预先约定的规则，将一条话单中两条语音数据按照主叫号码和被叫号码分别存储。由于数据采集设备和数据接入设备可能出现不可预知的故障，部分语音数据的存储顺序与预先约定的规则不符，造成在主叫号码下可能存储被叫号码的说话人的语音数据，或者在被叫号码下可能存储主叫号码的说话人的语音数据，导致部分语音数据的存储位置颠倒，无法保证语音数据与其对应主被叫号码的一致性。

发明内容

本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质，用以解决现有技术中语音数据与其对应主被叫号码不一致的缺陷。

本发明实施例提供一种语音匹配方法，包括：

确定待匹配话单的两个待匹配号码；

将所述待匹配话单中的语音数据的声纹特征分别与所述两个待匹配号码的声纹特征进行匹配，得到所述待匹配话单中的语音数据与所述两个待匹配号码的匹配关系；

其中，任一待匹配号码的声纹特征是对所述任一待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的，所述任一待匹配号码的话单集包括多个以所述任一待匹配号码为一端、不同号码为另一端的话单。

根据本发明一个实施例的语音匹配方法，所述任一待匹配号码的话单集是基于如下步骤确定的：

基于以所述任一待匹配号码为一端的所有话单，或，基于以所述任一待匹配号码为一端且通话时长大于预设时长的所有话单，构建所述任一待匹配号码的候选话单集；

从所述候选话单集中选取多个另一端为不同号码的话单，构建所述任一待匹配号码的话单集。

根据本发明一个实施例的语音匹配方法，所述从所述候选话单集中选取多个另一端为不同号码的话单，构建所述任一待匹配号码的话单集，具体包括：

选取所述候选话单集中预设数量个产生时间距离所述待匹配话单的产生时间最近且另一端为不同号码的话单，构建所述任一待匹配号码的话单集。

根据本发明一个实施例的语音匹配方法，所述任一待匹配号码的声纹特征是基于如下步骤确定的：

对所述任一待匹配号码的话单集中每一语音数据的声纹特征进行聚类，得到对应所述任一待匹配号码的聚类结果；

基于对应所述任一待匹配号码的聚类结果中每个簇的质量参数，确定所述任一待匹配号码的声纹特征所属的簇；

基于所述任一待匹配号码的声纹特征所属的簇，确定所述任一待匹配号码的声纹特征。

根据本发明一个实施例的语音匹配方法，所述语音数据的声纹特征是基于如下步骤确定的：

将所述语音数据输入至声纹提取模型，得到所述声纹提取模型输出的所述语音数据的声纹特征；

所述声纹提取模型用于基于所述语音数据的多个声学特征图确定每一声学特征图的加重系数，基于每一声学特征图的加重系数对每一声学特征图进行加重，基于加重后的每一声学特征图进行声纹特征提取。

根据本发明一个实施例的语音匹配方法，所述将所述语音数据输入至声纹提取模型，得到所述声纹提取模型输出的所述语音数据的声纹特征，具体包括：

将所述语音数据中每一语谱片段输入至所述声纹提取模型的特征图编码层，得到每一语谱片段的多个初始声学特征图；

将任一语谱片段的多个上一声学特征图输入至所述声纹提取模型的特征图加重层，得到所述特征图加重层输出的所述任一语谱片段的多个当前声学特征图；

将每一语谱片段的多个最终声学特征图输入至所述声纹提取模型的声纹输出层，得到所述声纹输出层输出的所述语音数据的声纹特征。

根据本发明一个实施例的语音匹配方法，所述将任一语谱片段的多个上一声学特征图输入至所述声纹提取模型的特征图加重层，得到所述特征图加重层输出的所述任一语谱片段的多个当前声学特征图，具体包括：

将任一语谱片段的多个上一声学特征图输入至所述特征图加重层的系数计算层，得到所述系数计算层输出的每一上一声学特征图的加重系数；

将每一上一声学特征图及其对应的加重系数输入至所述特征图加重层的系数加重层，得到所述系数加重层输出的所述任一语谱片段的多个当前声学特征图。

根据本发明一个实施例的语音匹配方法，所述声纹提取模型是基于包含同一说话人的样本语音数据的第一语音集合以及包含不同说话人的样本语音数据的第二语音集合，和/或，基于标注有说话人标签的样本语音数据并结合说话人识别模型训练得到的；

其中，所述说话人识别模型用于基于所述语音数据的声纹特征进行说话人识别。

本发明实施例还提供一种语音匹配装置，包括：

待匹配号码确定单元，用于确定待匹配话单的两个待匹配号码；

语音匹配单元，用于将所述待匹配话单中的语音数据的声纹特征分别与所述两个待匹配号码的声纹特征进行匹配，得到所述待匹配话单中的语音数据与所述两个待匹配号码的匹配关系；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音匹配方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音匹配方法的步骤。

本发明实施例提供的语音匹配方法、装置、电子设备及存储介质，基于多个以任一待匹配号码为一端、不同号码为另一端的话单，确定该待匹配号码的声纹特征，能够准确地提取该待匹配号码的说话人的声音特征。通过将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，避免了语音数据存储位置颠倒的问题，保证了语音数据与其对应主被叫号码的一致性，有利于实现主被叫号码的语音数据的准确分离。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音匹配方法的流程示意图；

图2为本发明实施例提供的待匹配号码的话单集的确定方法的流程示意图；

图3为本发明实施例提供的待匹配号码的声纹特征的确定方法的流程示意图；

图4为本发明实施例提供的语音数据的声纹特征的确定方法的流程示意图；

图5为本发明另一实施例提供的语音数据的声纹特征的确定方法的流程示意图；

图6为本发明实施例提供的特征加重层的结构示意图；

图7为本发明实施例提供的语音匹配装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的语音匹配方法是根据预先约定的规则，将一条话单中两条语音数据按照主叫号码和被叫号码分别存储。在存储语音数据的过程中，由于数据采集设备和数据接入设备可能出现不可预知的故障，部分语音数据的存储顺序与预先约定的规则不符，造成在主叫号码下可能存储被叫号码的说话人的语音数据，或者在被叫号码下可能存储主叫号码的说话人的语音数据，导致部分语音数据的存储位置颠倒。而且，现有的语音匹配方法的存储机制无法规避语音数据存储位置颠倒的情况，始终存在语音数据与其对应主被叫号码的不一致的问题。

对此，本发明实施例提供一种语音匹配方法，图1为本发明实施例提供的语音匹配方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待匹配话单的两个待匹配号码。

具体地，通常一条话单包括两条语音数据，并记录有主叫号码和被叫号码。待匹配话单即需要进行语音匹配的话单，将待匹配话单的主叫号码和被叫号码作为两个待匹配的号码。此处，待匹配话单可以为移动手机的话单，也可以为固定电话的话单，本发明实施例对此不作具体限定。

步骤120，将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系；

其中，任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的，该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。

具体地，在得到两个待匹配号码之后，将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系。

在执行步骤120之前，还可以预先提取得到待匹配话单中的语音数据的声纹特征，以及两个待匹配号码的声纹特征。待匹配话单中的语音数据的声纹特征的提取可以基于如下方式实现：将待匹配话单中的两条语音数据分别输入到预先训练的声纹提取模型，得到待匹配话单中的两条语音数据的声纹特征。

任一待匹配号码的声纹特征可以通过对该待匹配号码的话单集中每一语音数据的声纹特征聚类得到。任一待匹配号码可以为主叫号码或被叫号码，任一待匹配号码的话单集包括的多条话单均已该待匹配号码为一端，且多条话单的另一端的号码互不相同。

假设任一待匹配号码的话单集包括N条话单，每条话单包括分别对应两端号码的两条语音数据，则该待匹配号码的话单集包括N条该待匹配号码的语音数据，以及与N个互不相同的另一端号码一一对应的N条语音数据。

例如，待匹配号码A的话单集包括4条话单，话单1的两端号码分别为A和B，话单2的两端号码分别为A和C，话单3的两端号码分别为A和D，话单4的两端号码分别为A和E，则待匹配号码A的话单集中包括待匹配号码A的4条语音数据，以及与B、C、D、E一一对应的4条语音数据。

在得到任一待匹配号码的话单集之后，可以获取该待匹配号码的话单集中每一语音数据的声纹特征。任一语音数据的声纹特征用于表征该语音数据的说话人的声音特点。语音数据的声纹特征可以通过将语音数据输入到预先训练的声纹提取模型得到。

随即，对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类，此处应用的聚类算法可以是EM算法(Expectation-maximization algorithm，最大期望值算法)，也可以是K-Means(K均值)聚类算法或层次聚类算法等，本发明实施例对此不作具体限定。

由于该待匹配号码的话单集包括大量该待匹配号码的语音数据，以及每一另一端号码的一条语音数据，而该待匹配号码的语音数据大概率来自同一说话人，不同另一端号码的语音数据大概率来自不同说话人，使得该待匹配号码的语音数据的声纹特征数量最多且分布较集中，同时每一另一端号码的语音数据的声纹特征数量较少且分布较离散。

基于该待匹配号码的话单集中包含的所有语音数据的声纹特征的聚类结果，可以确定该待匹配号码的声纹特征，其中，该待匹配号码的声纹特征用于表征该待匹配号码的说话人的声音特点。

此处，可以从聚类结果中选取声纹特征最多的簇作为待匹配号码对应的簇，从而确定该待匹配号码的声纹特征；也可以从聚类结果中选取聚类质量最高的簇，例如类内离散度最低的簇作为待匹配号码对应的簇，从而确定该待匹配号码的声纹特征，本发明实施例对比不作具体限定。

基于该待匹配号码与不同另一端号码的语音数据的声纹特征在数量和分布特点上巨大差异，可以有效地通过聚类确定该待匹配号码与话单集中各个语音数据的声纹特征之间的对应关系。进一步地，该待匹配号码的声纹特征所属的簇的聚类质量最高，簇内包含的语音数据的声纹特征均可以有效表征该待匹配号码的说话人的声音特点，由此得到的该待匹配号码的声纹特征相较于单一语音数据的声纹特征更能够体现该待匹配号码的说话人自身的声音特点。

本发明实施例提供的语音匹配方法，基于多个以任一待匹配号码为一端、不同号码为另一端的话单，确定该待匹配号码的声纹特征，能够准确地提取该待匹配号码的说话人的声音特征。通过将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，避免了语音数据存储位置颠倒的问题，保证了语音数据与其对应主被叫号码的一致性，有利于实现主被叫号码的语音数据的准确分离。

基于上述实施例，该方法中，待匹配话单中的语音数据与两个待匹配号码的匹配关系的确定方法可以为：计算待匹配话单中任一语音数据的声纹特征分别与两个待匹配号码的声纹特征之间的相似度，将与该语音数据的声纹特征相似度较大的待匹配号码与该语音数据匹配，同时将与该语音数据的声纹特征相似度较小的待匹配号码与另一语音数据匹配。其中，两个声纹特征之间的相似度可以为余弦相似度、欧氏距离或皮尔逊相关系数，本发明实施例对比不作具体限定。

例如，待匹配话单中的两条语音数据a和b的声纹特征分别为w_a和w_b，两个待匹配号码的声纹特征分别为w_主叫和w_被叫，计算w_a和w_主叫之间的相似度score(w_a,w_主叫)，以及w_a和w_被叫之间的相似度score(w_a,w_被叫)，若score(w_a,w_主叫)>score(w_a,w_被叫)，则将语音数据a与主叫号码匹配，将语音数据b与被叫号码匹配；若score(w_a,w_主叫)<score(w_a,w_被叫)，则将语音数据a与被叫号码匹配，将语音数据b与主叫号码匹配。

待匹配话单中的语音数据与两个待匹配号码的匹配关系的确定方法也可以为：对待匹配话单中两条语音数据的声纹特征与两个待匹配号码的声纹特征两两计算相似度，将得到的四个相似度中最大相似度对应的语音数据与待匹配号码匹配，同时将另一语音数据与另一待匹配号码匹配。其中，两个声纹特征之间的相似度可以为余弦相似度、欧氏距离或皮尔逊相关系数，本发明实施例对比不作具体限定。

例如，两两计算的四个相似度为score(w_a,w_主叫)，score(w_a,w_被叫)，score(w_b,w_主叫)，score(w_b,w_被叫)，若score(w_a,w_主叫)最大，则将语音数据a与主叫号码匹配，将语音数据b与被叫号码匹配。

其中，相似度可以是余弦相似度，以score(w_a,w_主叫)为例，

基于上述任一实施例，图2为本发明实施例提供的待匹配号码的话单集的确定方法的流程示意图，如图2所示，该方法包括：

步骤210，基于以该待匹配号码为一端的所有话单，或，基于以该待匹配号码为一端且通话时长大于预设时长的所有话单，构建该待匹配号码的候选话单集；

步骤220，从候选话单集中选取多个另一端为不同号码的话单，构建该待匹配号码的话单集。

具体地，首先构建该待匹配号码的候选话单集，候选话单集的构建方法可以为：将以该待匹配号码为一端的所有话单组成候选话单集，或者，获取以该待匹配号码为一端的所有话单，并从中筛选出通话时长大于预设时长的话单组成候选话单集，优选地，预设时长可以为30秒。此处，通过筛选出通话时长大于预设时长的话单，保证了候选话单集中每一话单中的语音数据的有效性，进而提高了基于语音数据确定的该待匹配号码的声纹特征的准确性。

在得到的候选话单集之后，对候选话单集进行筛选，若候选话单集中任一另一端号码对应多条话单，则保留该另一端号码的多条话单中的任意一条话单，同时删除该另一端号码的多条话单中的其他话单；若候选话单集中任一另一端号码只对应一条话单，则保留该话单。筛选后的候选话单集中每一话单的另一端号码互不相同，可以直接将筛选后的候选话单集作为该待匹配号码的话单集，也可以从筛选后的候选话单集中选取若干条话单组成该待匹配号码的话单集，本发明实施例对此不作具体限定。

通过对该待匹配的号码的候选话单集进行筛选，构建该待匹配的号码的话单集，使得该待匹配号码的话单集包括大量该待匹配号码的语音数据，以及每一另一端号码的一条语音数据，有利于有效地提取该待匹配号码的声纹特征；减少了用于聚类的语音数据的数量，避免了因语音数据数量过多造成的聚类效果不佳的问题。

基于上述任一实施例，该方法中，步骤220具体包括：

选取候选话单集中预设数量个产生时间距离待匹配话单的产生时间最近且另一端为不同号码的话单，构建该待匹配号码的话单集。

具体地，在得到候选话单集之后，基于候选话单集中每一话单的产生时间，以及待匹配话单的产生时间，选取候选话单集中预设数量个产生时间距离待匹配话单的产生时间最近的话单，作为待匹配话单的最近话单集。其中，距离待匹配话单的产生时间最近的话单可以是在待匹配话单之前产生的话单，也可以是在待匹配话单之后产生的话单，话单与待匹配话单的产生时间的远近可以基于话单的产生时间与待匹配话单的产生时间之差的绝对值判断，绝对值越小，则话单与待匹配话单的产生时间的距离越近。

若最近话单集中存在多条话单的另一端号码相同，则保留该另一端号码的多条话单中产生时间距离待匹配话单最近的话单，并删除其他话单。然后从去除最近话单集的候选话单集中，选取若干个产生时间距离待匹配话单最近，且另一端号码与最近话单集中所有话单的另一端号码均不相同的话单，添加到最近话单集中，使得最近话单集包括的话单的数量达到预设数量。将更新后的最近话单集作为该待匹配号码的话单集。

在实际生活中，通常一个号码对应一个说话人，但是在一些特殊场景下，可能出现一个号码对应多个说话人的情况，例如，一个家庭的所有家庭成员都有可能接听同一个家庭固定电话，或者一个办公室的所有员工都有可能接听办公室的同一个公用手机。

本发明实施例中，通过选取候选话单集中产生时间距离待匹配话单的产生时间最近的话单，构建该待匹配号码的话单集，使得该待匹配号码的话单集中所有话单的产生时间接近待匹配话单的产生时间，即使出现一个号码对应多个说话人的情况，在较短的时间间隔内，可以默认一个号码对应一个说话人。基于待匹配话单，动态构建该待匹配号码的话单集，保证了在待匹配话单中该待匹配号码的说话人与在该待匹配号码的话单集中该待匹配号码的说话人为同一说话人，进而可以基于该待匹配号码的话单集，确定该待匹配号码的声纹特征。

基于上述任一实施例，该方法中，待匹配号码的话单集是通过如下步骤确定的：

按照任一待匹配号码的候选话单集中每一话单的产生时间，对候选话单集中所有话单进行排序，以待匹配话单的产生时间为起点，向前选取第一预设数量条话单，组成第一话单集。若第一话单集中存在多条话单的另一端号码相同，则保留该另一端号码的多条话单中产生时间距离待匹配话单最近的话单，并删除其他话单。继续向前选取若干个话单，添加至第一话单集，使得第一话单集中包含的话单的数量达到第一预设数量，并按照上述方法对更新后的第一话单集进行筛选。重复执行上述步骤，直至第一话单集中包含第一预设数量条话单且第一话单集中每一话单的另一端号码互不相同。

随即，以待匹配话单的产生时间为起点，向后选取第二预设数量条话单，组成第二话单集，并对第二话单集执行与第一话单集相同的操作，使得第二话单集中包含第二预设数量条话单且第二话单集中每一话单的另一端号码互不相同。其中，第一预设数量和第二预设数量之和为预设数量。

将第一话单集和第二话单集中包含的所有话单组成该待匹配号码的话单集。

基于上述任一实施例，图3为本发明实施例提供的待匹配号码的声纹特征的确定方法的流程示意图，如图3所示，该方法包括：

步骤310，对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类，得到对应该待匹配号码的聚类结果；

步骤320，基于对应该待匹配号码的聚类结果中每个簇的质量参数，确定该待匹配号码的声纹特征所属的簇；

步骤330，基于该待匹配号码的声纹特征所属的簇，确定该待匹配号码的声纹特征。

具体地，在得到任一待匹配号码的话单集中每一语音数据的声纹特征之后，对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类，得到对应该待匹配号码的聚类结果。其中，对应该待匹配号码的聚类结果具体是该待匹配号码的话单集中所有语音数据的声纹特征的聚类结果，对应该待匹配号码的聚类结果可以表现为多个簇，其中每一簇均包含话单集中若干个语音数据的声纹特征。

用于聚类的语音数据的声纹特征中，所有该待匹配号码的语音数据的声纹特征分布较集中，同时所有另一端号码的语音数据的声纹特征分布较离散，使得该待匹配号码的声纹特征所属的簇的聚类质量最高。

在得到对应该待匹配号码的聚类结果之后，计算对应该待匹配号码的聚类结果中每个簇的质量参数，将聚类质量最高的簇作为该待匹配号码的声纹特征所属的簇。其中，每个簇的质量参数可以表示为每个簇的类内距离或类内离散度。

在得到该待匹配号码所属的簇之后，基于该待匹配号码所属的簇的聚类中心，确定该待匹配号码的声纹特征。其中，该待匹配号码所属的簇的聚类中心可以为该待匹配号码所属的簇包含的所有语音数据的声纹特征的平均值，例如p为该待匹配号码所属的簇包含的语音数据的声纹特征的数量，w_i为该待匹配号码所属的簇包含的任一语音数据的声纹特征；该待匹配号码所属的簇的聚类中心也可以为该待匹配号码所属的簇包含的所有语音数据的声纹特征分布的重心，本发明实施例对此不作具体限定。

可选地，基于对应该待匹配号码的聚类结果中每个簇的类内离散度，确定该待匹配号码的声纹特征所属的簇。类内离散度用于描述任一簇包含的所有语音数据的声纹特征分布的紧密程度，类内离散度越小，说明该簇中语音数据的声纹特征越相似，该簇的聚类效果越好，聚类质量越高。

具体可以通过如下公式，计算第t个簇的类内离散度S_t：

式中，k_t为第t个簇包含的语音数据的声纹特征的数量，w_n,t为第t个簇中第n个语音数据的声纹特征，为第t个簇的中心声纹特征，/>

通过类内离散度的计算，实现了对于聚类结果中各个簇中包含的声纹特征数量的归一化，从而使得在对聚类结果中各个簇的聚类质量进行评估时，可以单纯考虑各个簇的聚类纯度而不受各个簇内包含的声纹特征数量的干扰，保证由此得到的待匹配号码与声纹特征之间对应关系的准确性。

在得到各个簇的类内离散度之后，将类内离散度最小的簇作为该待匹配号码所属的簇。

基于上述任一实施例，该方法中，语音数据的声纹特征是基于如下步骤确定的：

将语音数据输入至声纹提取模型，得到声纹提取模型输出的语音数据的声纹特征；声纹提取模型用于基于语音数据的多个声学特征图确定每一声学特征图的加重系数，基于每一声学特征图的加重系数对每一声学特征图进行加重，基于加重后的每一声学特征图进行声纹特征提取。

具体地，声纹提取模型基于语音数据的多个声学特征图，分析每一声学特征图的内部相关性，进而确定每一声学特征图的加重系数，并基于每一声学特征图及其对应的加重系数，对每一声学特征图进行加重优化，从而充分凸显各个声学特征图中共性的特征，进而起到凸显语音数据自身特征的效果。在此基础上，声纹提取模型基于加重优化后的每一声学特征图，提取语音数据的声纹特征。

此处，对输入语音数据的声学特征图进行加重优化的过程可以仅执行一次，也可以多次叠加执行，本发明实施例对此不作具体限定。需要说明的是，本发明实施例提供的语音数据的声纹特征的确定方法不仅应用于任一待匹配号码的话单集中的语音数据的声纹特征的确定，而且应用于待匹配话单中的语音数据的声纹特征的确定。

本发明实施例提供的语音匹配方法，基于语音数据的多个声学特征图确定每一声学特征图的加重系数，并基于每一声学特征图的加重系数对每一声学特征图进行加重，提高了提取到的语音数据的声纹特征的准确性。

基于上述任一实施例，图4为本发明实施例提供的语音数据的声纹特征的确定方法的流程示意图，如图4所示，该方法包括：

步骤410，将语音数据中每一语谱片段输入至声纹提取模型的特征图编码层，得到每一语谱片段的多个初始声学特征图。

具体地，特征图编码层用于对每一语谱片段进行映射，得到每一语谱片段的多个初始声学特征图。将语音数据中每一语谱片段输入至特征图编码层，由特征编码层对每一语谱片段进行卷积、池化和激活处理，映射得到每一语谱片段的多个初始声学特征图。

在执行步骤410之前，可以获取语音数据中的多个语谱片段。语谱片段的获取可以基于如下方式实现：首先对语音数据进行分帧、加窗和傅里叶变换，得到多个语音数据的声学特征组成的声学特征序列。随即，将声学特征序列按照窗长进行切分，得到多个语谱片段。其中，每一语谱片段的尺寸为l×d，其中，l为窗长，d为语音数据的声学特征的维度。

此处，语音数据的声学特征可以为MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、PLP(Perceptual Linear Predictive，感知线性预测)特征或FBank(FilterBank)特征等，本发明实施例对此不作具体限定。

步骤420，将任一语谱片段的多个上一声学特征图输入至声纹提取模型的特征图加重层，得到特征图加重层输出的该语谱片段的多个当前声学特征图。

具体地，声纹特征提取模型可以包括多个堆叠的特征图加重层，前一特征图加重层的输出即后一特征图加重层的输入，步骤410中所得的初始声学特征图可以作为首个特征图加重层的输入。

特征图加重层用于对多个上一声学特征图进行加重，得到多个当前声学特征图。将每一语谱片段的多个上一声学特征输入至特征加重层，特征加重层对多个上一声学特征图进行加重，输出得到多个当前声学特征图，并将多个上一声学特征图更新为多个当前声学特征图，继续输入至后一特征加重层。通过若干个堆叠的特征加重层，对每一语谱片段的多个初始声学特征图不断加重，将最后一个特征加重层输出的多个声学特征图，作为每一语谱片段的多个最终声学特征图。

步骤430，将每一语谱片段的多个最终声学特征图输入至声纹提取模型的声纹输出层，得到声纹输出层输出的语音数据的声纹特征。

具体地，将每一语谱片段的多个最终声学特征图输入至声纹输出层后，声纹输出层基于任一语谱片段的多个最终声学特征图，确定该语谱片段的声纹特征。可选地，声纹输出层将任一语谱片段的多个最终声学特征图展开连接，得到该语谱片段的高维列向量，并对该语谱片段的高维列向量进行线性变换压缩，得到该语谱片段的声纹特征。

在得到每一语谱片段的声纹特征之后，基于每一语谱片段的声纹特征，确定语音数据的声纹特征。语音数据的声纹特征的确定方法可以为将语音数据的所有语谱片段的声纹特征的平均值作为语音数据的声纹特征，也可以为将语音数据的所有语谱片段的声纹特征分布的重心作为该语音数据的声纹特征。

基于上述任一实施例，该方法中，步骤420具体包括：

将任一语谱片段的多个上一声学特征图输入至特征图加重层的系数计算层，得到系数计算层输出的每一上一声学特征图的加重系数；

将每一上一声学特征图及其对应的加重系数输入至特征图加重层的系数加重层，得到系数加重层输出的该语谱片段的多个当前声学特征图。

具体地，将任一语谱片段的多个上一声学特征图输入至系数计算层后，系数计算层可以分析该语谱片段的每一上一声学特征图之间的关联性，进而得到每一上一声学特征图的加重系数，例如可以将该语谱片段的每一上一声学特征图展开为一个行向量，然后对多个上一声学特征图对应的多个行向量进行若干次全连接和激活处理，得到每一行向量对应的特征点，最后通过softmax函数对每一特征点进行计算，得到每一上一声学特征图的加重系数。

随即，将每一上一声学特征图及其对应的加重系数输入至系数加重层，由系数加重层将每一上一声学特征图与其对应的加重系数相乘，将加重后的多个上一声学特征图作为多个当前声学特征图输出。

基于上述任一实施例，该方法中，声纹提取模型是基于包含同一说话人的样本语音数据的第一语音集合以及包含不同说话人的样本语音数据的第二语音集合，和/或，基于标注有说话人标签的样本语音数据并结合说话人识别模型训练得到的；其中，说话人识别模型用于基于语音数据的声纹特征进行说话人识别。

具体地，在应用声纹提取模型提取语音数据的声纹特征之前，还可以预先训练得到声纹提取模型，声纹提取模型的训练方式可以为：首先，获取第一语音集合和第二语音集合，其中，第一语音集合包含大量同一说话人的样本语音数据，第二语音集合包含大量不同说话人的样本语音数据。随即，将第一语音集合和第二语音集合输入至声纹提取初始模型进行训练，从而得到声纹提取模型。

此处，声纹提取初始模型的目标优化函数可以是基于第一语音集合中的语音数据的声纹特征之间的相关性，以及第二语音集合中的语音数据的声纹特征之间的差异性确定的。

可选地，声纹提取初始模型的目标优化函数可以是基于第一语音集合中的语音数据的声纹特征的类内距离和第二语音集合中的语音数据的声纹特征的类间距离之差确定的，对应声纹提取初始模型的训练目标在于最小化第一语音集合中的语音数据的声纹特征的类内距离，同时最大化第二语音集合中的语音数据的声纹特征的类间距离之差。

由于第一语音集合中的语音数据来自同一说话人，第二语音集合中的语音数据来自不同说话人，因此，当第一语音集合中类内距离越小，且第二语音集合中的类间距离越大，即基于同一说话人的语音数据提取出的声纹特征越接近，基于不同说话人的语音数据提取出的声纹特征差距越大，则越可以说明声纹提取初始模型提取到的语音数据的声纹特征越能够反映说话人的特点，通过不断调整声纹提取初始模型的模型参数，以使得目标优化函数值最小，并将目标优化函数值最小的声纹提取初始模型作为声纹提取模型。

例如，声纹提取初始模型的目标优化函数D_total可以通过如下公式表示：

D_total＝D_target+D_margin-D_nontarget

式中，D_target为第一语音集合的类内距离，D_nontarget为第二语音集合的类间距离，D_margin为距离调整参数，距离调整参数D_margin用于防止局部最优造成的第二语音集合的类间距离过小导致训练过程过早结束，优选地，D_margin＝0.2。

具体可以通过如下公式，计算第一语音集合的类内距离D_target：

式中，N为第一语音集合中样本语音数据的数量，w_i为第一语音集合中第i个样本语音数据的声纹特征，w_j为第一语音集合中第j个样本语音数据的声纹特征。

具体可以通过如下公式，计算第二语音集合的类间距离D_target：

式中，M为第二语音集合中样本语音数据的数量，w_p为第二语音集合中第p个样本语音数据的声纹特征，w_q为第二语音集合中第q个样本语音数据的声纹特征。

声纹提取模型的训练方式还可以为：首先，收集大量标注有说话人标签的样本语音数据，随即，将样本语音数据输入至声纹提取初始模型，由声纹提取初始模型提取样本语音数据的声纹特征，并输出样本语音数据的声纹特征。将声纹提取初始模型输出的样本语音数据的声纹特征输入至说话人识别模型，由说话人识别模型预测样本语音数据的声纹身份标签。

在得到说话人识别模型输出的样本语音数据的声纹身份标签后，可以通过对声纹身份标签和样本语音数据标注的说话人标签进行比对，对声纹提取初始模型进行更新，从而得到声纹提取模型。

此处，说话人识别模型用于基于语音数据的声纹特征进行说话人识别，将语音数据的声纹特征输入至说话人识别模型，说话人识别模型可以基于softmax函数分析输入的声纹特征，输出得到语音数据的声纹身份标签。

声纹提取模型的训练方式还可以为：结合上述两种训练方式，对声纹提取模型进行双目标训练，即声纹提取模型在训练过程中，不仅关注基于同一说话人的语音数据提取得到的声纹特征之间的相似度，以及基于不同说话人的语音数据提取得到的声纹特征之间的差异性，还关注提取得到的声纹特征对于说话人自身特点的表征能力。

基于上述任一实施例，图5为本发明实施例提供的语音数据的声纹特征的确定方法的流程示意图，如图5所示，该方法包括如下步骤：

首先，将语音数据中的每一语谱片段输出至声纹提取模型的特征编码层，由特征编码层对每一语谱片段进行卷积、池化和激活处理，映射得到每一语谱片段的多个初始声学特征图。

在得到每一语谱片段的多个初始声学特征图之后，将每一语谱片段的多个初始声学特征图输入至声纹提取模型的特征图加重层，由特征加重层用于对多个上一声学特征图进行加重，输出得到多个当前声学特征图。通过若干个堆叠的特征加重层，对每一语谱片段的多个初始声学特征图不断加重，最后一个特征加重层输出每一语谱片段的多个最终声学特征图。

在得到每一语谱片段的多个最终声学特征图之后，将每一语谱片段的多个最终声学特征图输入至声纹提取模型的声纹输出层，由声纹输出层基于任一语谱片段的多个最终声学特征图，将任一语谱片段的多个最终声学特征图展开连接，得到该语谱片段的高维列向量，并对该语谱片段的高维列向量进行线性变换压缩，得到该语谱片段的声纹特征。在得到每一语谱片段的声纹特征之后，计算语音数据的所有语谱片段的声纹特征的平均值，得到语音数据的声纹特征。

基于上述任一实施例，图6为本发明实施例提供的特征加重层的结构示意图，如图6所示，特征加重层的系数计算层将该语谱片段的每一上一声学特征图展开为一个行向量，然后对多个上一声学特征图对应的多个行向量进行若干次全连接和激活处理，得到每一行向量对应的特征点，最后通过softmax函数对每一特征点进行计算，得到每一上一声学特征图的加重系数。

在得到每一上一声学特征图的加重系数之后，特征加重层的系数加重层将每一上一声学特征图与其对应的加重系数相乘，将加重后的多个上一声学特征图作为多个当前声学特征图输出。基于每一声学特征图，确定每一声学特征图的加重系数，充分考虑了每一声学特征图的内部相关性，能够提高语音数据的声纹特征表征的准确性。

基于上述任一实施例，图7为本发明实施例提供的语音匹配装置的结构示意图，如图7所示，该装置包括：

待匹配号码确定单元710，用于确定待匹配话单的两个待匹配号码；

声纹特征确定单元720，用于将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系；

本发明实施例提供的语音匹配装置，基于多个以任一待匹配号码为一端、不同号码为另一端的话单，确定该待匹配号码的声纹特征，能够准确地提取该待匹配号码的说话人的声音特征。通过将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，避免了语音数据存储位置颠倒的问题，保证了语音数据与其对应主被叫号码的一致性，有利于实现主被叫号码的语音数据的准确分离。

基于上述任一实施例，该装置还包括：

待匹配号码的话单集确定单元，用于基于以该待匹配号码为一端的所有话单，或，基于以该待匹配号码为一端且通话时长大于预设时长的所有话单，构建该待匹配号码的候选话单集；

从候选话单集中选取多个另一端为不同号码的话单，构建该待匹配号码的话单集。

基于上述任一实施例，待匹配号码的话单集确定单元具体用于：

基于上述任一实施例，该装置还包括：

待匹配号码的声纹特征确定单元，用于对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类，得到对应该待匹配号码的聚类结果

基于对应该待匹配号码的聚类结果中每个簇的质量参数，确定该待匹配号码的声纹特征所属的簇；

基于该待匹配号码的声纹特征所属的簇，确定该待匹配号码的声纹特征。

基于上述任一实施例，该装置还包括：

语音数据的声纹特征确定单元，用于将语音数据输入至声纹提取模型，得到声纹提取模型输出的语音数据的声纹特征；声纹提取模型用于基于语音数据的多个声学特征图确定每一声学特征图的加重系数，基于每一声学特征图的加重系数对每一声学特征图进行加重，基于加重后的每一声学特征图进行声纹特征提取。

本发明实施例提供的语音匹配装置，基于语音数据的多个声学特征图确定每一声学特征图的加重系数，并基于每一声学特征图的加重系数对每一声学特征图进行加重，提高了提取到的语音数据的声纹特征的准确性。

基于上述任一实施例，语音数据的声纹特征确定单元具体包括：

特征图编码子单元，用于将语音数据中每一语谱片段输入至声纹提取模型的特征图编码层，得到每一语谱片段的多个初始声学特征图；

特征图加重子单元，用于将任一语谱片段的多个上一声学特征图输入至声纹提取模型的特征图加重层，得到特征图加重层输出的该语谱片段的多个当前声学特征图；

声纹输出子单元，用于将每一语谱片段的多个最终声学特征图输入至声纹提取模型的声纹输出层，得到声纹输出层输出的语音数据的声纹特征。

基于上述任一实施例，该装置中，特征图加重子单元具体用于：

基于上述任一实施例，声纹提取模型是基于包含同一说话人的样本语音数据的第一语音集合以及包含不同说话人的样本语音数据的第二语音集合，和/或，基于标注有说话人标签的样本语音数据并结合说话人识别模型训练得到的；其中，说话人识别模型用于基于语音数据的声纹特征进行说话人识别。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音匹配方法，该方法包括：确定待匹配话单的两个待匹配号码；将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系；其中，任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的，该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的语音匹配方法，该方法包括：确定待匹配话单的两个待匹配号码；将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系；其中，任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的，该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音匹配方法，该方法包括：确定待匹配话单的两个待匹配号码；将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配，得到待匹配话单中的语音数据与两个待匹配号码的匹配关系；其中，任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的，该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音匹配方法，其特征在于，包括：

确定待匹配话单的两个待匹配号码；

2.根据权利要求1所述的语音匹配方法，其特征在于，所述任一待匹配号码的话单集是基于如下步骤确定的：

3.根据权利要求2所述的语音匹配方法，其特征在于，所述从所述候选话单集中选取多个另一端为不同号码的话单，构建所述任一待匹配号码的话单集，具体包括：

4.根据权利要求1所述的语音匹配方法，其特征在于，所述任一待匹配号码的声纹特征是基于如下步骤确定的：

5.根据权利要求1至4中任一项所述的语音匹配方法，其特征在于，所述语音数据的声纹特征是基于如下步骤确定的：

6.根据权利要求5所述的语音匹配方法，其特征在于，所述将所述语音数据输入至声纹提取模型，得到所述声纹提取模型输出的所述语音数据的声纹特征，具体包括：

7.根据权利要求6所述的语音匹配方法，其特征在于，所述将任一语谱片段的多个上一声学特征图输入至所述声纹提取模型的特征图加重层，得到所述特征图加重层输出的所述任一语谱片段的多个当前声学特征图，具体包括：

8.根据权利要求5所述的语音匹配方法，其特征在于，所述声纹提取模型是基于包含同一说话人的样本语音数据的第一语音集合以及包含不同说话人的样本语音数据的第二语音集合，和/或，基于标注有说话人标签的样本语音数据并结合说话人识别模型训练得到的；

9.一种语音匹配装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述语音匹配方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述语音匹配方法的步骤。