CN111653283B

CN111653283B - 一种跨场景声纹比对方法、装置、设备及存储介质

Info

Publication number: CN111653283B
Application number: CN202010597183.5A
Authority: CN
Inventors: 钟奥; 王建社; 冯祥
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2024-03-01
Anticipated expiration: 2040-06-28
Also published as: CN111653283A

Abstract

本申请提供了一种跨场景声纹对比方法、装置、设备及存储介质，其中，跨场景声纹对比方法方法包括：获取两条语音，其中，两条语音中的其中一条语音属于第一场景，另一条语音属于与第一场景不同的第二场景；将两条语音处理为同一编码格式的语音，获得具有相同编码格式的两条语音；将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，获得信道信息一致的两条语音；分别对信道信息一致的两条语音提取声纹特征，并对提取的声纹特征进行比对。本申请可对不同场景中的两条语音进行声纹比对，且可获得较好的声纹比对效果。

Description

一种跨场景声纹比对方法、装置、设备及存储介质

技术领域

本申请涉及声纹技术领域，尤其涉及一种跨场景声纹比对方法、装置、设备及存储介质。

背景技术

近年来，随着声纹技术的发展，越来越多的场景中用到了声纹比对，比如，金融领域的身份验证场景、家居领域的身份验证场景等。所谓声纹比对，指的是将两条语音的声纹特征进行比对，进一步的，可以根据比对结果确定两条语音的说话人是否为同一说话人。

一般而言，应用声纹比对的每个场景都会自建声纹库，声纹库中包括了对应场景的多条注册语音和多条注册语音分别对应的声纹特征。随着各场景声纹库的规模越来越大，不同场景之间的声纹比对将发挥重要的作用，比如，在打击违法犯罪中，在仅有犯罪人在场景A的语音的情况下，可以将该场景A的语音与场景B的声纹库中的注册语音进行声纹比对，以确定犯罪人的身份等信息。

目前的声纹比对方案均为针对单一场景的声纹比对方案，即，将场景A的待测语音与场景A的声纹库中的注册语音进行声纹比对，这种针对单一场景的声纹比对方案并不适于跨场景声纹比对，而如何获得效果较好的跨场景声纹比对方案是目前亟需解决的问题。

发明内容

有鉴于此，本申请提供了一种跨场景声纹比对方法、装置、设备及存储介质，用于提供一种效果较好的、适用于跨场景的声纹比对方案，其技术方案如下：

一种跨场景声纹对比方法，包括：

获取两条语音，其中，所述两条语音中的其中一条语音属于第一场景，另一条语音属于与所述第一场景不同的第二场景；

将所述两条语音处理为同一编码格式的语音，获得具有相同编码格式的两条语音；

将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，获得信道信息一致的两条语音；

对所述信道信息一致的两条语音分别提取声纹特征，并对提取的声纹特征进行比对。

可选的，所述将所述两条语音处理为同一编码格式的语音，包括：

将所述两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音，其中，处理后语音的采样率为所述两条语音的采样率中的最大采样率。

可选的，所述跨场景声纹对比方法还包括：

检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求；

若满足，则执行所述将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。

可选的，检测一条语音是否满足质量要求，包括：

获取该语音的质量表征指标，其中，所述质量表征指标包括有效时长、信噪比、截幅比、语音归一化平均能量中的一个或多个；

根据所述质量表征指标和所述质量表征指标对应的质量检测阈值，确定该语音是否满足质量要求。

可选的，所述信噪比、所述截幅比和所述语音归一化平均能量对应同一质量检测阈值；

确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值的过程包括：

获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量，其中，所述质量检测集合由该语音所属场景对应的声纹库中的语音组成；

确定所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值，并确定所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值；

根据所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值，并根据所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值；

根据所述第一阈值和所述第二阈值，确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值。

可选的，所述将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，包括：

获取所述具有相同编码格式的两条语音中第一语音的信道信息，并根据所述第一语音的信道信息生成所述第一语音对应的信道模型；

利用所述第一语音对应的信道模型，将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音。

可选的，所述获取所述具有相同编码格式的两条语音中第一语音的信道信息，包括：

获取所述第一语音的频谱；

采用联合因子分析法，从所述第一语音的频谱中分离出信道信息，以得到所述第一语音的信道信息。

可选的，所述根据所述第一语音的信道信息生成所述第一语音对应的信道模型，包括：

根据所述第一语音的信道信息，以及所述第一语音对应的信道的频率响应，生成所述第一语音对应的信道模型。

可选的，所述利用所述第一语音对应的信道模型，将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音，包括：

获取所述第二语音的频谱，以及所述第二语音对应的信道的频率响应；

根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱，其中，所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音；

根据所述第二语音对应的源语音的频谱，以及所述第一语音对应的信道模型，确定与所述第一语音的信道信息一致的语音的频谱；

根据与所述第一语音的信道信息一致的语音的频谱，获得与所述第一语音的信道信息一致的语音。

可选的，所述两条语音中的其中一条语音为一场景中的待验证语音，另一条语音为另一场景对应的声纹库中的一注册语音。

一种跨场景声纹对比装置，包括：语音获取模块、第一处理模块、第二处理模块、声纹提取模块和声纹比对模块；

所述语音获取模块，用于获取两条语音，其中，所述两条语音中的其中一条语音属于第一场景，另一条语音属于与所述第一场景不同的第二场景；

所述第一处理模块，用于将所述两条语音处理为同一编码格式的语音，获得具有相同编码格式的两条语音；

所述第二处理模块，用于将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，获得信道信息一致的两条语音；

所述声纹提取模块，用于对所述信道信息一致的两条语音分别提取声纹特征，得到提取出的声纹特征；

所述声纹比对模块，用于对所述提取出的声纹特征进行比对。

可选的，所述跨场景声纹对比装置还包括：语音质量检测模块；

所述语音质量检测模块，用于检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求；

所述第二处理模块，具体用于当所述具有相同编码格式的两条语音中的至少一条语音满足质量要求时，将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。

一种跨场景声纹对比设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的跨场景声纹对比方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的跨场景声纹对比方法的各个步骤。

经由上述方案可知，本申请提供的跨场景声纹对比方法，在获得属于不同场景中的两条语音后，考虑到不同场景中的语音所采用的编码格式不同，首先将两条语音处理为同一编码格式的语音，在获得具有相同编码格式的两条语音后，考虑到不同场景中语音的信道信息不同，将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，从而获得信道信息一致的两条语音，接下来便可对编码格式相同且信道信息一致的两条语音分别提取声纹特征，进而对提取的声纹特征进行比对。考虑到不同场景语音的差异性，本申请在提取声纹特征之前，先将属于不同场景中的两条语音处理成具有相同编码格式、具有相同信道信息的两条语音，从而消除场景不同对后续声纹比对的影响，进而在对从具有相同编码格式和相同信道信息的两条语音中提取出的声纹特征进行比对时，可获得较好的声纹比对效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的跨场景声纹对比方法的一流程示意图；

图2为本申请实施例提供的跨场景声纹对比方法的另一流程示意图；

图3为本申请实施例提供的检测语音是否满足质量要求的流程示意图；

图4为本申请实施例提供的确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值的流程示意图；

图5为本申请实施例提供的将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音的流程示意图；

图6为本申请实施例提供的跨场景声纹对比装置的结构示意图；

图7为本申请实施例提供的跨场景声纹对比设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的声纹对比方案针对的是单一场景，这种方案直接对同一场景中的两条语音提取声纹特征，进而对提取的声纹特征进行比对，本案发明人在实现本案的过程中发现，不同场景中的语音因场景不同存在诸多差异，比如编码方式不同、信道信息不同等，这些差异的存在导致，在使用现有的声纹比对方案对不同场景的语音进行声纹比对时效果较差，鉴于该问题，本案发明人进行了深入研究，最终提出一种效果较好的跨场景声纹比对方法，该方法适用任何需要对不同场景的语音进行声纹比对的应用场景。

本申请提供的跨场景声纹比对方法可应用于具有数据处理能力的终端(比如，PC、笔记本电脑、智能手机、PAD、车载终端、智能家居设备等)，终端可获取不同场景中的两条语音，并对两条语音进行声纹比对，本申请提供的跨场景声纹比对方法还可以应用于服务器(可以是一个服务器，也可是多个服务器，还可以是服务器集群)，同样的，服务器可获取不同场景中的两条语音，并对两条语音进行声纹比对。接下来通过下述实施例对本申请提供的跨场景声纹比对方法进行介绍。

第一实施例

请参阅图1，示出了本申请提供的跨场景声纹对比方法的流程示意图，可以包括：

步骤S101：获取两条语音。

其中，两条语音中的其中一条语音属于第一场景，另一条语音属于第二场景，第一场景与第二场景不同。

可选的，两条语音中的一条语音为第一场景中的待验证语音，另一条语音为第二场景对应的声纹库中的一条注册语音。示例性的，两条语音分别为A场景中的语音a和B场景中的语音b，则语音a可以为A场景中的待验证语音，语音b可以为B场景对应的声纹库中的一条注册语音，当然，反过来也可以，即语音b为B场景中的待验证语音，语音a为A场景对应的声纹库中的一条注册语音。

步骤S102：将两条语音处理为同一编码格式的语音，获得具有相同编码格式的两条语音。

可以理解的是，不同场景中语音的编码格式是不同的，为了后续能够获得较好的声纹比对效果，本申请将不同场景中的两条语音处理为同一编码格式的语音。

需要说明的是，将不同场景中的两条语音处理为同一编码格式的语音具体为，将不同场景中的两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音。其中，处理后语音的采样率优选为两条语音的采样率中的最大采样率。

步骤S103：将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，获得信道信息一致的两条语音。

可以理解的是，不同场景中语音的信道信息是不同的，本步骤的目的在于使不同场景中的两条语音的信道信息变为一致。假设两条语音分别为A场景中的语音a和B场景中的语音b，则可将A场景中的语音a处理成与B场景中的语音b的信道信息一致的语音，也可将B场景中的语音b处理成与A场景中的语音a的信道信息一致的语音。

步骤S104：对信道信息一致的两条语音分别提取声纹特征，并对提取的声纹特征进行比对。

针对信道信息一致的两种语音中的每条语音，可先对该语音进行预处理，然后对预处理后语音提取声纹特征。

其中，对该语音进行预处理具体包括：从该语音中检测出除噪声、静音等干扰外的有效语音片段，另外，若该语音包含多个说话人，则还需要对该语音进行说话人分离，以得到多个说话人分别对应的语音，进一步的，还可以从多个说话人分别对应的语音中挑选出需要进行声纹特征提取的语音。在获得预处理后语音后，可采用现有的声纹特征提取方案(比如基于X-vector的声纹提取方案)对预处理后语音提取声纹特征。

在获得声纹特征后，对于需要比对的两个声纹特征，可计算两个声纹特征的相似度，将计算得到的相似度作为这两个声纹特征的比对结果。

本申请实施例提供的跨场景声纹对比方法，在获得属于不同场景中的两条语音后，考虑到不同场景中的语音所采用的编码格式不同，首先将两条语音处理为同一编码格式的语音，在获得具有相同编码格式的两条语音后，考虑到不同场景中语音的信道信息不同，将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，从而获得信道信息一致的两条语音，接下来便可对编码格式相同且信道信息一致的两条语音分别提取声纹特征，进而对提取的声纹特征进行比对。考虑到不同场景语音的差异性，本申请在提取声纹特征之前，先将属于不同场景中的两条语音处理成具有相同编码格式、具有相同信道信息的两条语音，从而消除场景不同对后续声纹比对的影响，进而在对从具有相同编码格式和相同信道信息的两条语音中提取出的声纹特征进行比对时，可获得较好的声纹比对效果。

第二实施例

考虑在某些时候，需要进行声纹比对的两条语音中可能存在质量不佳的语音，可能其中一条语音的质量不佳，也可能两条语音的质量均不佳，若两条语音中有至少一条语音的质量不佳，会导致最终获得的比对结果的使用价值不高，针对这种情况，本实施例提供了另一种跨场景声纹对比方法，请参阅图2，示出了该跨场景声纹对比方法的流程示意图，可以包括：

步骤S201：获取两条语音。

步骤S202：将两条语音处理为同一编码格式的语音，获得具有相同编码格式的两条语音。

步骤S203：检测具有相同编码格式的两条语音中的至少一条语音是否满足质量要求，若是，则执行步骤S204，若否，则结束声纹比对流程。

假设两条语音中的一条语音为声纹库中的注册语音，另一条为待验证语音，一般而言，声纹库中的语音在入库前都会进行质量检测，因此，声纹库中的语音一般为质量较佳的语音，而待验证语音可能为质量不佳的语音，为此，可只检测待验证语音是否满足质量要求。可以理解的是，在某些情况下可能存在语音未进行质量检测即入声纹库的情况，比如，声纹库中早期的语音可能未经质量检测便直接入库，针对这种情况，可对注册语音和待验证语音均进行质量检测。

需要说明的是，对两条语音中的一条语音进行质量检测还是针对两条语音均进行质量检测，可根据声纹库中语音的质量情况确定。当然，也可不考虑声纹库中语音的质量情况，而是直接对两条语音均进行质量检测。

步骤S204：将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，获得信道信息一致的两条语音。

步骤S205：分别对信道信息一致的两条语音提取声纹特征，并对提取的声纹特征进行比对。

需要说明的是，步骤S201、步骤S202、步骤S204和步骤S205的具体实现过程可参见上述实施例中对应步骤的具体实现过程，本实施例在此不作赘述。

本申请实施例提供的跨场景声纹对比方法，在获得属于不同场景中的两条语音后，考虑到不同场景中的语音所采用的编码格式不同，首先将两条语音处理为同一编码格式的语音，在获得具有相同编码格式的两条语音后，考虑到可能存在语音质量不佳的情况，为了后续能够获得更加有价值的比对结果，对具有相同编码格式的两条语音中的至少一条语音进行质量检测，在语音质量满足要求时，考虑到不同场景中语音的信道信息不同，进一步将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，从而获得信道信息一致的两条语音，接下来便可从编码格式相同且信道信息一致的两条语音中提取声纹特征，进而对提取的声纹特征进行比对。由于本申请实施例提供的跨场景声纹对比方法，充分考虑了不同语音场景语音的差异性以及语音质量对声纹比对结果的影响，因此，可获得较好的声纹比对效果。

第三实施例

上述实施例例提到，在获得具有相同编码格式的两条语音后，可检测具有相同编码格式的两条语音中的至少一条语音是否满足质量要求。本实施例以一条语音a为例，对检测语音a是否满足质量要求的具体过程进行介绍。

请参阅图3，示出了检测语音a是否满足质量要求的流程示意图，可以包括：

步骤S301：获取语音a的质量表征指标。

其中，语音a的质量表征指标包括语音a的有效时长、语音a的信噪比、语音a的截幅比、语音a的语音归一化平均能量中的一个或多个，优选的，语音a的质量表征指标包括上述的所有指标。

其中，语音a的截幅比指的是语音a中截幅语音占整条语音的比例，需要说明的是，当语音的幅度超出指定范围时，会在峰值处产生截幅；语音a的语音归一化平均能量为整段语音平均能量和量化最大值的比例。

步骤S302：根据质量表征指标和质量表征指标对应的质量检测阈值，确定语音a是否满足质量要求。

需要说明的是，上述的每个质量表征指标对应一质量检测阈值，其中，有效时长对应的质量检测阈值为T_th，信噪比对应的质量检测阈值为SNR_th，截幅比对应的质量检测阈值为Q_th，语音归一化平均能量对应的质量检测阈值为N_th。若语音a的有效时长大于或等于T_th、语音a的信噪比大于SNR_th、截幅比小于或等于Q_th、且语音归一化平均能量大于或等于N_th，则确定语音a满足质量要求，否则，确定语音a不满足质量要求。

在一种可能的实现方式中，信噪比、截幅比和语音归一化平均能量可对应同一质量检测阈值，具体的，请参阅图4，示出了确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值的过程，可以包括：

步骤S401：获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量。

目前的声纹库通常包括多条语音和多条语音分别对应的声纹特征(声纹特征从对应的语音中提取)，本步骤中的质量检测集合由语音a所属场景对应的声纹库中的部分或全部语音组成(优选为全部语音)。

步骤S402：确定质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值，并确定质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值。

其中，质量检测集合中的优质语音可以为人工体验感较好(MOS分值大于预设分值的语音)、且时长大于预设时长(比如时长大于10分钟)的语音，质量检测集合中的其它语音即为非优质语音。需要说明的是，若语音时长不足预设时长，则可将多条语音拼接在一起。

步骤S403：根据质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值，并根据质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值。

具体的，可根据下式确定第一阈值V₁和第二阈值V₂：

其中，为质量检测集合中所有优质语音的信噪比均值，/>为质量检测集合中所有优质语音的截幅比均值，/>为质量检测集合中所有优质语音的语音归一化平均能量均值，/>为质量检测集合中所有非优质语音的信噪比均值，/>为质量检测集合中所有非优质语音的截幅比均值，/>质量检测集合中所有非优质语音的语音归一化平均能量均值。

步骤S404：根据第一阈值和第二阈值确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值。

具体的，在获得第一阈值和第二阈值后，可根据下式确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值V：

V＝αV₁+(1-α)V₂ (3)

其中，α为阈值调节的融合权重系数，α值的设置是根据质量检测集合中的语音在通过质量检测后剩余的数量值调节的，即通过V的调节使得可以通过检测的语音数量达到最多。

第四实施例

考虑到不同场景中两条语音的信道信息不同，为了后续能够获得较好的声纹比对效果，本申请将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，本实施例对将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音进行介绍。

请参阅图5，示出了将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音的流程示意图，可以包括：

步骤S501：获取具有相同编码格式的两条语音中第一语音的信道信息。

需要说明的是，第一语音可以为具有相同编码格式的两条语音中的任一条语音。

具体的，获取第一语音的信道信息的过程可以包括：

步骤S5011、获取第一语音的频谱。

具体的，可通过对第一语音进行傅里叶变换，来获得第一语音的频谱。

步骤S5012、采用联合因子分析法，从第一语音的频谱中分离出信道信息，以得到第一语音的信道信息。

采用联合因子分析法可将第一语音中的说话人信息和信道信息分离开，从而获得第一语音的信道信息。第一语音的信道信息为第一语音对应的源语音所经信道的信息，第一语音对应的源语音为未经信道的语音，也就是说，第一语音对应的源语音经第一语音对应的信道后，可得到第一语音。

步骤S502：根据第一语音的信道信息生成第一语音对应的信道模型。

具体的，根据第一语音的信道信息生成第一语音对应的信道模型的过程可以包括：根据第一语音的信道信息，以及第一语音对应的信道的频率响应，生成第一语音对应的信道模型。

可定义一个标准化虚拟函数F_s(ω)，使下式成立：

F_S(ω)|O₁(ω)|＝|H(ω)| (4)

其中，H(ω)为从第一语音的频谱中分离出的信道信息，O₁(ω)为第一语音对应的信道的频率响应。第一语音对应的信道即为第一语音对应的源语音所经的信道。

由于H(ω)和O₁(ω)已知，因此，根据上式可获得F_s(ω)，将F_s(ω)作为第一语音对应的信道模型，其用于模拟第一语音对应的信道。

步骤S503：利用第一语音对应的信道模型，将具有相同编码格式的两条语音中的第二语音处理成与第一语音的信道信息一致的语音。

具体的，利用第一语音对应的信道模型，将具有相同编码格式的两条语音中的第二语音处理成与第一语音的信道信息一致的语音的过程可以包括：

步骤S5031、获取第二语音的频谱，以及第二语音对应的信道的频率响应。

其中，第二语音的频谱可通过对第二语音进行傅里叶变换获得，第二语音的信道信息为第二语音对应的源语音所经信道的信息。

步骤S5032、根据第二语音的频谱以及第二语音对应的信道的频率响应确定第二语音对应的源语音的频谱。

假设第二语音的频谱为Y₂(ω)，第二语音对应的信道的频率响应O₂(ω)，Y₂(ω)和O₂(ω)具有如下关系：

|X₀₂(ω)||O₂(ω)|＝|Y₂(ω)| (5)

其中，X₀₂(ω)为第二语音对应的源语音的频谱，第二语音对应的源语音为未经信道的语音，也就是说，第二语音对应的源语音经第二语音对应的信道后，可得到第二语音。

由于Y₂(ω)和O₂(ω)已知，因此，根据上式可得到第二语音对应的源语音的频谱X₀₂(ω)。

步骤S5033、根据第二语音对应的源语音的频谱，以及第一语音对应的信道模型，确定与第一语音的信道信息一致的语音的频谱。

具体的，可根据下式确定与第一语音的信道信息一致的语音的频谱：

|X₀₂(ω)||F_s(ω)|＝|Y_S(ω)| (6)

将第二语音对应的源语音经第一语音的模拟信道，便可将第二语音处理成与第一语音的信道信息一致的语音。

步骤S5034、根据与第一语音的信道信息一致的语音的频谱，获得与第一语音的信道信息一致的语音。

将与第一语音的信道信息一致的语音的频谱进行傅里叶逆变换，便可获得与第一语音的信道信息一致的语音，如此便将第二语音处理成了与第一语音的信道信息一致的语音。

本申请采用信道软仿真技术对具有相同编码格式的两条语音中的第一语音的信道进行模拟，进而将第二语音对应的源语音经模拟信道，从而获得与第一语音的信道信息一致的语音。可以理解的，由于第二语音对应的源语音所经的信道为模拟出来的信道，因此，信道模拟后语音的信道信息与第一语音的信道信息可能并非完全一致，本申请认为只要二者的信道信息接近或相似，便可人认为二者的信道信息一致。

第五实施例

本实施例提供了一种与上述实施例提供的跨场景声纹对比方法对应的跨场景声纹对比装置，请参阅图6，示出了该跨场景声纹对比装置的结构示意图，可以包括：语音获取模块601、第一处理模块602、第二处理模块603、声纹提取模块604和声纹比对模块605。

语音获取模块601，用于获取两条语音。

其中，所述两条语音中的其中一条语音属于第一场景，另一条语音属于与所述第一场景不同的第二场景。

第一处理模块602，用于将所述两条语音处理为同一编码格式的语音，获得具有相同编码格式的两条语音。

第二处理模块603，用于将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，获得信道信息一致的两条语音。

声纹提取模块604，用于对所述信道信息一致的两条语音分别提取声纹特征，得到提取出的声纹特征。

声纹比对模块605，用于对提取出的声纹特征进行比对。

可选的，第一处理模块602，具体用于将所述两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音，其中，处理后语音的采样率为所述两条语音的采样率中的最大采样率。

可选的，本申请实施例提供的跨场景声纹对比装置还可以包括：语音质量检测模块。

语音质量检测模块，用于检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求。

第二处理模块603，具体用于当所述具有相同编码格式的两条语音中的至少一条语音满足质量要求时，将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。

可选的，语音质量检测模块包括：质量表征指标获取子模块和语音质量检测子模块。

质量表征指标获取子模块，用于获取一语音的质量表征指标。

其中，质量表征指标包括有效时长、信噪比、截幅比、语音归一化平均能量中的一个或多个。

语音质量检测子模块，用于根据所述质量表征指标和所述质量表征指标对应的质量检测阈值，确定该语音是否满足质量要求。

可选的，所述述信噪比、所述截幅比和所述语音归一化平均能量对应同一质量检测阈值。

本申请实施例提供的跨场景声纹对比装置还可以包括：用于确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值的质量检测阈值确定模块。

所述质量检测阈值确定模块包括：指标获取子模块、指标均值确定子模块、第一阈值确定子模块、第二阈值确定子模块和质量检测阈值确定子模块。

指标获取子模块，用于获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量。

其中，所述质量检测集合由该语音所属场景对应的声纹库中的语音组成。

指标均值确定子模块，用于确定所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值，并确定所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值。

第一阈值确定子模块，用于根据所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值。

第二阈值确定子模块，用于根据所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值。

质量检测阈值确定子模块，用于根据所述第一阈值和所述第二阈值，确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值。

可选的，第二处理模块603包括：信道信息获取子模块、信道模型生成子模块和信息处理子模块。

信道信息获取子模块，用于获取所述具有相同编码格式的两条语音中第一语音的信道信息。

信道模型生成子模块，用于根据所述第一语音的信道信息生成所述第一语音对应的信道模型。

信息处理子模块，用于利用所述第一语音对应的信道模型，将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音。

可选的，信道信息获取子模块，具体用于获取所述第一语音的频谱，采用联合因子分析法，从所述第一语音的频谱中分离出信道信息，以得到所述第一语音的信道信息。

可选的，信道模型生成子模块，具体用于根据所述第一语音的信道信息，以及所述第一语音对应的信道的频率响应，生成所述第一语音对应的信道模型。

可选的，信息处理子模块，具体用于获取所述第二语音的频谱，以及所述第二语音对应的信道的频率响应；根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱，其中，所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音；根据所述第二语音对应的源语音的频谱，以及所述第一语音对应的信道模型，确定与所述第一语音的信道信息一致的语音的频谱；根据与所述第一语音的信道信息一致的语音的频谱，获得与所述第一语音的信道信息一致的语音。

本申请实施例提供的跨场景声纹对比装置，在获得属于不同场景中的两条语音后，考虑到不同场景中的语音所采用的编码格式不同，首先将两条语音处理为同一编码格式的语音，在获得具有相同编码格式的两条语音后，考虑到可能存在语音质量不佳的情况，为了后续能够获得更加有价值的比对结果，对具有相同编码格式的两条语音中的至少一条语音进行质量检测，在语音质量满足要求时，考虑到不同场景中语音的信道信息不同，进一步将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音，从而获得信道信息一致的两条语音，接下来便可对编码格式相同且信道信息一致的两条语音分别提取声纹特征，进而对提取的声纹特征进行比对。由于本申请实施例提供的跨场景声纹对比方法，充分考虑了不同语音场景语音的差异性以及语音质量对声纹比对结果的影响，因此，可获得较好的声纹比对效果。

第六实施例

本申请实施例还提供了一种跨场景声纹对比设备，请参阅图7，示出了该跨场景声纹对比设备的结构示意图，该跨场景声纹对比设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第七实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种跨场景声纹对比方法，其特征在于，包括：

获取两条语音，其中，所述两条语音中的第一语音属于第一场景，第二语音属于与所述第一场景不同的第二场景；

获取所述具有相同编码格式的两条语音中第一语音的信道信息，并根据所述第一语音的信道信息，以及所述第一语音对应的信道的频率响应，生成所述第一语音对应的信道模型；

获取所述第二语音的频谱，以及所述第二语音对应的信道的频率响应，所述第二语音的信道信息为第二语音对应的源语音所经信道的信息；

根据与所述第一语音的信道信息一致的语音的频谱，获得与所述第一语音的信道信息一致的语音；

2.根据权利要求1所述的跨场景声纹对比方法，其特征在于，所述将所述两条语音处理为同一编码格式的语音，包括：

3.根据权利要求1所述的跨场景声纹对比方法，其特征在于，还包括：

4.根据权利要求3所述的跨场景声纹对比方法，其特征在于，检测一条语音是否满足质量要求，包括：

5.根据权利要求4所述的跨场景声纹对比方法，其特征在于，所述信噪比、所述截幅比和所述语音归一化平均能量对应同一质量检测阈值；

6.根据权利要求1所述的跨场景声纹对比方法，其特征在于，所述获取所述具有相同编码格式的两条语音中第一语音的信道信息，包括：

获取所述第一语音的频谱；

7.根据权利要求1~6中任一项所述的跨场景声纹对比方法，其特征在于，所述两条语音中的其中一条语音为一场景中的待验证语音，另一条语音为另一场景对应的声纹库中的一注册语音。

8.一种跨场景声纹对比装置，其特征在于，包括：语音获取模块、第一处理模块、第二处理模块、声纹提取模块和声纹比对模块，所述第二处理模块包括信道模型生成子模块和信息处理子模块；

所述语音获取模块，用于获取两条语音，其中，所述两条语音中的第一语音属于第一场景，第二语音属于与所述第一场景不同的第二场景；

所述声纹比对模块，用于对所述提取出的声纹特征进行比对；

所述第二处理模块，具体用于获取所述具有相同编码格式的两条语音中第一语音的信道信息，并根据所述第一语音的信道信息生成所述第一语音对应的信道模型，利用所述第一语音对应的信道模型，将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音；

所述信道模型生成子模块，具体用于根据所述第一语音的信道信息，以及所述第一语音对应的信道的频率响应，生成所述第一语音对应的信道模型；

所述信息处理子模块，具体用于获取所述第二语音的频谱，以及所述第二语音对应的信道的频率响应，所述第二语音的信道信息为第二语音对应的源语音所经信道的信息；根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱，其中，所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音；根据所述第二语音对应的源语音的频谱，以及所述第一语音对应的信道模型，确定与所述第一语音的信道信息一致的语音的频谱；根据与所述第一语音的信道信息一致的语音的频谱，获得与所述第一语音的信道信息一致的语音。

9.根据权利要求8所述的跨场景声纹对比装置，其特征在于，还包括：语音质量检测模块；

10.一种跨场景声纹对比设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~7中任一项所述的跨场景声纹对比方法的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~7中任一项所述的跨场景声纹对比方法的各个步骤。