CN114023329A

CN114023329A - 跨信道声纹比对方法、系统、计算机设备及存储介质

Info

Publication number: CN114023329A
Application number: CN202111192550.4A
Authority: CN
Inventors: 张星东; 招梓枫; 李为州; 丁卓
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-02-08

Abstract

本方案涉及一种跨信道声纹比对方法。所述方法包括：获取通过第一信道、第二信道采集的第一语音数据、第二语音数据并进行数据预处理，得到第一目标语音数据、第二目标语音数据；通过重采样算法对第一目标语音数据、第二目标语音数据的采样频率进行处理使其频率相同；查找与第一目标语音数据、第二目标语音数据的状态属性对应的声纹特征提取模型，通过声纹特征提取模型得到第一声纹特征、第二声纹特征；计算第一声纹特征与第二声纹特征的余弦相似度，并根据余弦相似度得到比对结果。通过对不同信道采集的语音数据进行预处理、重采样处理等，将语音数据的采样频率统一，进而对识别的声纹特征进行比对，可以提高声纹比对的精确度。

Description

跨信道声纹比对方法、系统、计算机设备及存储介质

技术领域

本发明涉及声纹比对技术领域，特别是涉及一种跨信道声纹比对方法、系统、计算机设备及存储介质。

背景技术

声纹识别是生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别，不同的任务和应用会使用不同的声纹识别技术。随着声纹识别技术的逐渐成熟，声纹识别正逐渐应用到银行业，典型应用场景为电话银行，电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段，主要是将用户的声纹与预先存储的声纹进行比对，从而确定用户身份，还可以基于声纹比对搭建声纹黑名单，在抵制电话诈骗的场景下有着广阔的应用空间。声纹识别应用在同信道时识别结果比较精确，在实际应用中，用户通过移动终端注册声纹，银行业务系统使用声纹识别来对用户的身份进行认证来保障业务安全。而通过移动终端网络信道采集的采样率为16kHz的语音，通过电话信道采集的采样率为8kHz的语音，二者不属于同信道。

因此，由于采集语音的信道采样率不同，传统的声纹比对方法存在比对精确度较低的问题。

发明内容

基于此，为了解决上述技术问题，提供一种跨信道声纹比对方法、系统、计算机设备和存储介质，可以提高声纹比对的精确度。

一种跨信道声纹比对方法，所述方法包括：

获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对所述第一语音数据、所述第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；

通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理，将所述第一目标语音数据划分为各个第一数据子分段，将所述第二目标语音数据划分为各个第二数据子分段；使用处理器对各个所述第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个所述第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个所述第一计算结果进行汇总，并对各个所述第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据；

将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；

查找与所述状态属性对应的声纹特征提取模型，并将所述第一目标语音数据输入至所述声纹特征提取模型中，得到第一声纹特征；将所述第二目标语音数据输入至所述声纹特征提取模型中，得到第二声纹特征；

计算所述第一声纹特征与所述第二声纹特征的余弦相似度，并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。

在其中一个实施例中，所述分别对所述第一语音数据、所述第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据，包括：

分别将所述第一语音数据、所述第二语音数据输入至活动音检测模型中；

通过所述活动音检测模型切除所述第一语音数据中的静默或非语音片段，检测所述第一语音数据中的第一有效语音片段，将所述第一有效语音片段拼接为所述第一目标语音数据；

通过所述活动音检测模型切除所述第二语音数据中的静默或非语音片段，检测所述第二语音数据中的第二有效语音片段，将所述第二有效语音片段拼接为所述第二目标语音数据。

在其中一个实施例中，所述通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理，包括：

通过重采样算法对所述第一目标语音数据的采样频率进行降采样处理，使得所述第一目标语音数据的采样频率与所述第二目标语音数据的采样频率相同；

将进行降采样处理后的所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率通过最邻近插值法进行上采样处理，得到频率相同的第一目标语音数据、第二目标语音数据。

在其中一个实施例中，所述方法还包括：

查找与进行降采样处理后的所述第一目标语音数据的采样频率对应的第一采样率，并查找与所述第一采样率对应且与所述第一语音属性对应的所述第一声纹特征提取模型；

分别将所述第一目标语音数据、所述第二目标语音数据输入至所述第一声纹特征提取模型，得到第一组第一声纹特征、第一组第二声纹特征；

所述计算所述第一声纹特征与所述第二声纹特征的余弦相似度，包括：

计算所述第一组第一声纹特征与所述第一组第二声纹特征的第一余弦相似度。

在其中一个实施例中，所述方法还包括：

查找与所述第二目标语音数据调整后的采样频率对应的第二采样率，并查找与所述第二采样率对应且与所述第二语音属性对应的所述第二声纹特征提取模型；

分别将所述第一目标语音数据、所述第二目标语音数据输入至所述第二声纹特征提取模型，得到第二组第一声纹特征、第二组第二声纹特征；

计算所述第二组第一声纹特征与所述第二组第二声纹特征的第二余弦相似度。

在其中一个实施例中，根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果，包括：

分别对所述第一余弦相似度、所述第二余弦相似度进行打分，得到第一打分结果、第二打分结果；

对所述第一打分结果、所述第二打分结果进行分数融合得到分数融合结果，根据所述分数融合得到所述比对结果。

一种跨信道声纹比对系统，所述系统包括：

数据处理模块，用于获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对所述第一语音数据、所述第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；

重采样模块，用于通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理，将所述第一目标语音数据划分为各个第一数据子分段，将所述第二目标语音数据划分为各个第二数据子分段；使用处理器对各个所述第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个所述第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个所述第一计算结果进行汇总，并对各个所述第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据；

性别年龄识别模块，用于将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；

声纹特征提取模块，用于查找与所述状态属性对应的声纹特征提取模型，并将所述第一目标语音数据输入至所述声纹特征提取模型中，得到第一声纹特征；将所述第二目标语音数据输入至所述声纹特征提取模型中，得到第二声纹特征；

声纹比对模块，用于计算所述第一声纹特征与所述第二声纹特征的余弦相似度，并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述跨信道声纹比对方法、系统、计算机设备和存储介质，通过获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对所述第一语音数据、所述第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理，将所述第一目标语音数据划分为各个第一数据子分段，将所述第二目标语音数据划分为各个第二数据子分段；使用处理器对各个所述第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个所述第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个所述第一计算结果进行汇总，并对各个所述第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据；将频率相同的所述第一目标语音数据、所述第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；查找与所述状态属性对应的声纹特征提取模型，并将所述第一目标语音数据输入至所述声纹特征提取模型中，得到第一声纹特征；将所述第二目标语音数据输入至所述声纹特征提取模型中，得到第二声纹特征；计算所述第一声纹特征与所述第二声纹特征的余弦相似度，并根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果。通过对不同信道采集的语音数据进行数据预处理、重采样处理等，将语音数据的采样频率统一，由于语音数据的频率相同，将两个语音数据输入到声纹特征提取模型中，并对识别的声纹特征进行比对，可以提高声纹比对的精确度。

附图说明

图1为一个实施例中跨信道声纹比对方法的应用环境图；

图2为一个实施例中跨信道声纹比对方法的流程示意图；

图3为一个实施例中跨信道声纹比对系统的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述信道、语音数据等，但这些信道、语音数据不受这些术语限制。这些术语仅用于将第一个语音数据与另一个语音数据区分。举例来说，在不脱离本申请的范围的情况下，可以将第一语音数据称为第二语音数据，且类似地，可将第二语音数据称为第一语音数据。第一语音数据和第二语音数据两者都是语音数据，但其不是同一语音数据。

本申请实施例提供的跨信道声纹比对方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括计算机设备110。计算机设备110可以获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对第一语音数据、第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；计算机设备110可以通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理，将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段；计算机设备110可以使用处理器对各个第一数据子分段进行多线程并行计算，得到各个第一计算结果；计算机设备110可以使用处理器对各个第二数据子分段进行多线程并行计算，得到各个第二计算结果；计算机设备110可以对各个第一计算结果进行汇总，并对各个第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据；计算机设备110可以将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；计算机设备110可以查找与状态属性对应的声纹特征提取模型，并将第一目标语音数据输入至声纹特征提取模型中，得到第一声纹特征；计算机设备110可以将第二目标语音数据输入至声纹特征提取模型中，得到第二声纹特征；计算机设备110可以计算第一声纹特征与第二声纹特征的余弦相似度，并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。其中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、机器人、无人飞行器、平板电脑等设备。

在一个实施例中，如图2所示，提供了一种跨信道声纹比对方法，包括以下步骤：

步骤202，获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对第一语音数据、第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据。

其中，第一信道可以是麦克风信道，麦克风信道的采样频率可以是48kHZ；第二信道可以是通话信道，通话信道的采样频率可以是8kHZ。计算机设备可以同时获取通过第一信道采集到的第一语音数据，以及通过第二信道采集的第二语音数据。

计算机设备可以分别对采集到的第一语音数据、第二语音数据进行数据预处理，即，除去第一语音数据、第二语音数据中的静默或者非语音片段，从而得到第一目标语音数据、第二目标语音数据。

步骤204，通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理，将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段；使用处理器对各个第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个第一计算结果进行汇总，并对各个第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据。

重采样算法可以用于调整数据的采样频率。在本实施例中，计算机设备在对语音数据进行预处理后，可以进行信道预处理，即，将通话信道的8kHz语音数据与麦克风信道的48kHz语音数据进行对齐。具体的，计算机设备可以通过重采样算法对第一目标语音数据的采样频率即48kHz进行降采样处理，并通过重采样算法对第二目标语音数据的采样频率即8kHz进行上采样处理，使得第一目标语音数据、第二目标语音数据的采样频率相同。其中，计算机设备在进行重采样时，由于重采样过程中输出信号内部没有时序依赖性，计算机设备可以将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段，并使用处理器进行多线程并行计算，每个线程处理一个信号分段，最后将各分段汇总，得到频率相同的第一目标语音数据、第二目标语音数据。

步骤206，将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性。

性别年龄识别模型可以用于识别语音发出者的性别、年龄。其中，性别和年龄的状态属性可以用于表示语音发出者的性别、年龄等状态属性，可以包括男童、女童、年轻男子、年轻女子、中年男子、中年女子、老年男子、老年女子等。

计算机设备可以将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中，从而得到语音数据对应的性别和年龄的状态属性。

步骤208，查找与状态属性对应的声纹特征提取模型，并将第一目标语音数据输入至声纹特征提取模型中，得到第一声纹特征；将第二目标语音数据输入至声纹特征提取模型中，得到第二声纹特征。

不同的语音数据可以对应有不同的声纹特征提取模型，声纹特征提取模型可以用于识别语音数据中的声纹特征。计算机设备在得到状态属性后，可以在数据库中查找对应的声纹特征提取模型。

计算机设备可以将频率相同的第一目标语音数据、第二目标语音数据输入到声纹特征提取模型中，从而得到第一声纹特征、第二声纹特征。

步骤210，计算第一声纹特征与第二声纹特征的余弦相似度，并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。

在本实施例中，计算机设备获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对第一语音数据、第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理，得到频率相同的第一目标语音数据、第二目标语音数据；将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；查找与状态属性对应的声纹特征提取模型，并将第一目标语音数据输入至声纹特征提取模型中，得到第一声纹特征；将第二目标语音数据输入至声纹特征提取模型中，得到第二声纹特征；计算第一声纹特征与第二声纹特征的余弦相似度，并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。通过对不同信道采集的语音数据进行数据预处理、重采样处理等，将语音数据的采样频率统一，由于语音数据的频率相同，将两个语音数据输入到声纹特征提取模型中，并对识别的声纹特征进行比对，可以提高声纹比对的精确度。

在一个实施例中，提供的一种跨信道声纹比对方法还可以包括对语音数据进行预处理的过程，具体过程包括：分别将第一语音数据、第二语音数据输入至活动音检测模型中；通过活动音检测模型切除第一语音数据中的静默或非语音片段，检测第一语音数据中的第一有效语音片段，将第一有效语音片段拼接为第一目标语音数据；通过活动音检测模型切除第二语音数据中的静默或非语音片段，检测第二语音数据中的第二有效语音片段，将第二有效语音片段拼接为第二目标语音数据。

活动音检测模型可以用于检测语音数据中的活动音，并切除语音数据中的静默或者非语音片段。

计算机设备可以将第一语音数据、第二语音数据输入到活动音检测模型中，分别检测出第一语音数据中的第一有效语音片段，以及第二语音数据中的第二有效语音片段，同时，活动音检测模型可以切除第一语音数据、第二语音数据中的静默或非语音片段，并将第一有效语音片段拼接为第一目标语音数据，将第二有效语音片段拼接为第二目标语音数据。

在本实施例中，活动音检测模型可以是预先训练好的深度神经网络模型，其中，通过对训练数据提取MFCC特征，分别对有声和静默片段打上“0”和“1”的标签，输入深度神经网络模型进行训练，建立起一个可以识别有声和静默片段的二分类识别模型，用于进行活动音检测。在预处理中，使用该训练好的深度神经网络模型检测有效语音片段，切除静默或非语音片段，将有效语音片段重新拼接为一条录音用于后续处理。

在一个实施例中，提供的一种跨信道声纹比对方法还可以包括重采样处理的过程，具体过程包括：通过重采样算法对第一目标语音数据的采样频率进行降采样处理，使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同；将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理，得到频率相同的第一目标语音数据、第二目标语音数据。

在进行重采样算法进行处理之前，计算机设备可以将第一目标语音数据以及第二目标语音数据的编码格式统一转码为PCM编码格式。接着，计算机设备可以通过重采样算法对第一目标语音数据的采样频率进行降采样处理，由于第一目标语音数据的采样频率是48kHZ，计算机设备可以对48kHZ的麦克风信道语音数据进行降采样处理：s_8k(n)＝s_48k(6n),n＝1,2,…,N。其中，s_48k为原始48kHz信号，s_8k为对其降采样得到的8kHz信号，n表示离散时间点，N为s_8k的采样点总数，至此，8kHz的通话信道录音和48kHz的麦克风信道录音在8kHz得到第一次对齐，即一目标语音数据的采样频率与第二目标语音数据的采样频率相同。

接着，计算机设备可以将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理，即，将两个不同信道的8kHz语音数据通过最邻近插值法进行上采样：s_16k(2n)＝s_8k(n),n＝1,2,…,N，s_16k(2n+1)＝s_8k(n),n＝1,2,…,N。其中，s_8k为8kHz信号，s_16k为对其上采样得到的16kHz信号，n表示离散时间点，N为s_8k的采样点总数，至此，8kHz的通话信道录音和48kHz的麦克风信道录音在16kHz得到第二次对齐，即得到频率相同的第一目标语音数据、第二目标语音数据。

在一个实施例中，提供的一种跨信道声纹比对方法还可以包括计算余弦相似度的过程，具体过程包括：查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率，并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型，得到第一组第一声纹特征、第一组第二声纹特征；计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。

不同的采样率可以对应有不同的声纹特征提取模型。计算机设备可以查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率，并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型。其中，计算机设备对8kHz通话信道语音数据、48kHz麦克风信道语音数据两个不同采样率的录音在8kHz进行了第一次对齐，在对齐之后，计算机设备可以获取到8kHz的第一采样率，从而查找到使用8kHz输入且与第一语音属性对应的第一声纹特征提取模型。

计算机设备可以将8kHz的通话信道语音数据、8kHz麦克风信道语音数据输入至第一声纹特征提取模型，从而得到第一组通话录音声纹特征和第一组麦克风录音声纹特征。计算机设备可以计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。

在又一个实施例中，提供的一种跨信道声纹比对方法还可以包括计算余弦相似度的过程，具体过程包括：查找与第二目标语音数据调整后的采样频率对应的第二采样率，并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型，得到第二组第一声纹特征、第二组第二声纹特征；计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。

计算机设备对8kHz通话信道语音数据、8kHz麦克风信道语音数据两个不同采样率的录音在16kHz进行了第二次对齐，在对齐之后，计算机设备可以获取到16kHz的第二采样率，从而查找到使用16kHz输入且与第二语音属性对应的第二声纹特征提取模型。

计算机设备可以将16kHz的通话信道语音数据、16kHz麦克风信道语音数据输入至第二声纹特征提取模型，从而得到第二组通话录音声纹特征和第二组麦克风录音声纹特征。计算机设备可以计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。

在一个实施例中，提供的一种跨信道声纹比对方法还可以包括得到声纹比对结果的过程，具体过程包括：分别对第一余弦相似度、第二余弦相似度进行打分，得到第一打分结果、第二打分结果；对第一打分结果、第二打分结果进行分数融合得到分数融合结果，根据分数融合得到比对结果。

其中，计算机设备中可以存储有预先设置好的声纹比对的分数阈值。计算机设备在得到第一打分结果、第二打分结果后，可以进行分数融合，从而得到分数融合结果。计算机设备可以将得到的分数融合结果与预先设置好的分数阈值进行比较，当分数融合结果在分数阈值内时，计算机设备可以得到比对一致的结果，即第一语音数据与第二语音数据是同一人发出的；当分数融合结果不在分数阈值内时，计算机设备可以得到比对不一致的结果，即第一语音数据与第二语音数据不是同一人发出的。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种跨信道声纹比对系统，包括：数据处理模块310、重采样模块320、性别年龄识别模块330、声纹特征提取模块340和声纹比对模块350，其中：

数据处理模块310，用于获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对第一语音数据、第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；

重采样模块320，用于通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理，将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段；使用处理器对各个第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个第一计算结果进行汇总，并对各个第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据；

性别年龄识别模块330，用于将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；

声纹特征提取模块340，用于查找与状态属性对应的声纹特征提取模型，并将第一目标语音数据输入至声纹特征提取模型中，得到第一声纹特征；将第二目标语音数据输入至声纹特征提取模型中，得到第二声纹特征；

声纹比对模块350，用于计算第一声纹特征与第二声纹特征的余弦相似度，并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。

在一个实施例中，数据处理模块310还用于分别将第一语音数据、第二语音数据输入至活动音检测模型中；通过活动音检测模型切除第一语音数据中的静默或非语音片段，检测第一语音数据中的第一有效语音片段，将第一有效语音片段拼接为第一目标语音数据；通过活动音检测模型切除第二语音数据中的静默或非语音片段，检测第二语音数据中的第二有效语音片段，将第二有效语音片段拼接为第二目标语音数据。

在一个实施例中，重采样模块320还用于通过重采样算法对第一目标语音数据的采样频率进行降采样处理，使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同；将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理，得到频率相同的第一目标语音数据、第二目标语音数据。

在一个实施例中，声纹比对模块350还用于查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率，并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型，得到第一组第一声纹特征、第一组第二声纹特征；计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。

在一个实施例中，声纹比对模块350还用于查找与第二目标语音数据调整后的采样频率对应的第二采样率，并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型，得到第二组第一声纹特征、第二组第二声纹特征；计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。

在一个实施例中，声纹比对模块350还用于分别对第一余弦相似度、第二余弦相似度进行打分，得到第一打分结果、第二打分结果；对第一打分结果、第二打分结果进行分数融合得到分数融合结果，根据分数融合得到比对结果。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种跨信道声纹比对方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取通过第一信道采集的第一语音数据，以及通过第二信道采集的第二语音数据，并分别对第一语音数据、第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据；

通过重采样算法对第一目标语音数据的采样频率、第二目标语音数据的采样频率进行处理，将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段；使用处理器对各个第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个第一计算结果进行汇总，并对各个第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据；

将频率相同的第一目标语音数据、第二目标语音数据输入至性别年龄识别模型中，得到性别和年龄的状态属性；

查找与状态属性对应的声纹特征提取模型，并将第一目标语音数据输入至声纹特征提取模型中，得到第一声纹特征；将第二目标语音数据输入至声纹特征提取模型中，得到第二声纹特征；

计算第一声纹特征与第二声纹特征的余弦相似度，并根据余弦相似度得到第一声纹特征与第二声纹特征的比对结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别将第一语音数据、第二语音数据输入至活动音检测模型中；通过活动音检测模型切除第一语音数据中的静默或非语音片段，检测第一语音数据中的第一有效语音片段，将第一有效语音片段拼接为第一目标语音数据；通过活动音检测模型切除第二语音数据中的静默或非语音片段，检测第二语音数据中的第二有效语音片段，将第二有效语音片段拼接为第二目标语音数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过重采样算法对第一目标语音数据的采样频率进行降采样处理，使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同；将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理，得到频率相同的第一目标语音数据、第二目标语音数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率，并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型，得到第一组第一声纹特征、第一组第二声纹特征；计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：查找与第二目标语音数据调整后的采样频率对应的第二采样率，并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型，得到第二组第一声纹特征、第二组第二声纹特征；计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别对第一余弦相似度、第二余弦相似度进行打分，得到第一打分结果、第二打分结果；对第一打分结果、第二打分结果进行分数融合得到分数融合结果，根据分数融合得到比对结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段；使用处理器对各个第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个第一计算结果进行汇总，并对各个第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别将第一语音数据、第二语音数据输入至活动音检测模型中；通过活动音检测模型切除第一语音数据中的静默或非语音片段，检测第一语音数据中的第一有效语音片段，将第一有效语音片段拼接为第一目标语音数据；通过活动音检测模型切除第二语音数据中的静默或非语音片段，检测第二语音数据中的第二有效语音片段，将第二有效语音片段拼接为第二目标语音数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过重采样算法对第一目标语音数据的采样频率进行降采样处理，使得第一目标语音数据的采样频率与第二目标语音数据的采样频率相同；将进行降采样处理后的第一目标语音数据的采样频率、第二目标语音数据的采样频率通过最邻近插值法进行上采样处理，得到频率相同的第一目标语音数据、第二目标语音数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：查找与进行降采样处理后的第一目标语音数据的采样频率对应的第一采样率，并查找与第一采样率对应且与第一语音属性对应的第一声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第一声纹特征提取模型，得到第一组第一声纹特征、第一组第二声纹特征；计算第一组第一声纹特征与第一组第二声纹特征的第一余弦相似度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：查找与第二目标语音数据调整后的采样频率对应的第二采样率，并查找与第二采样率对应且与第二语音属性对应的第二声纹特征提取模型；分别将第一目标语音数据、第二目标语音数据输入至第二声纹特征提取模型，得到第二组第一声纹特征、第二组第二声纹特征；计算第二组第一声纹特征与第二组第二声纹特征的第二余弦相似度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别对第一余弦相似度、第二余弦相似度进行打分，得到第一打分结果、第二打分结果；对第一打分结果、第二打分结果进行分数融合得到分数融合结果，根据分数融合得到比对结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将第一目标语音数据划分为各个第一数据子分段，将第二目标语音数据划分为各个第二数据子分段；使用处理器对各个第一数据子分段进行多线程并行计算，得到各个第一计算结果；使用处理器对各个第二数据子分段进行多线程并行计算，得到各个第二计算结果；对各个第一计算结果进行汇总，并对各个第二计算结果进行汇总，得到频率相同的第一目标语音数据、第二目标语音数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种跨信道声纹比对方法，其特征在于，所述方法包括：

2.根据权利要求1所述的跨信道声纹比对方法，其特征在于，所述分别对所述第一语音数据、所述第二语音数据进行数据预处理，得到第一目标语音数据、第二目标语音数据，包括：

3.根据权利要求1所述的跨信道声纹比对方法，其特征在于，所述通过重采样算法对所述第一目标语音数据的采样频率、所述第二目标语音数据的采样频率进行处理，包括：

4.根据权利要求3所述的跨信道声纹比对方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的跨信道声纹比对方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的跨信道声纹比对方法，其特征在于，根据所述余弦相似度得到所述第一声纹特征与所述第二声纹特征的比对结果，包括：

7.一种跨信道声纹比对系统，其特征在于，所述系统包括：

声纹特征提取模块，用于查找与所述性别和年龄的状态属性对应的声纹特征提取模型，并将所述第一目标语音数据输入至所述声纹特征提取模型中，得到第一声纹特征；将所述第二目标语音数据输入至所述声纹特征提取模型中，得到第二声纹特征；

8.根据权利要求7所述的跨信道声纹比对系统，其特征在于，所述数据处理模块还用于：分别将所述第一语音数据、所述第二语音数据输入至活动音检测模型中；通过所述活动音检测模型切除所述第一语音数据中的静默或非语音片段，检测所述第一语音数据中的第一有效语音片段，将所述第一有效语音片段拼接为所述第一目标语音数据；通过所述活动音检测模型切除所述第二语音数据中的静默或非语音片段，检测所述第二语音数据中的第二有效语音片段，将所述第二有效语音片段拼接为所述第二目标语音数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。