CN112712809B

CN112712809B - 一种语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN112712809B
Application number: CN202110329899.1A
Authority: CN
Inventors: 郑榕; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-18
Anticipated expiration: 2041-03-29
Also published as: CN112712809A

Abstract

本申请提供了一种语音检测方法、装置、电子设备及存储介质。从待检测语音中提取出多个语音特征信息；将语音特征信息分别输入至预先训练好的多个语音来源模型中，确定待检测语音与每个语音来源模型的来源类型之间的第一匹配度；针对于每个语音类别模型，基于确定出的第一匹配度，确定待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；基于确定出的多个第一匹配度和多个第二匹配度，确定待检测语音的类别类型和来源类型。这样，本申请通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测，完成了语音真伪和语音来源的检测，解决了现有语音检测技术检测结果偏移的问题，有助于提升语音检测方法的准确性。

Description

一种语音检测方法、装置、电子设备及存储介质

技术领域

本申请涉及语音检测技术领域，尤其是涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

语音欺骗攻击，是指针对特定目标声音进行伪造，从而对于说话人识别系统进行攻击的技术。近年来针对说话人识别系统的攻击主要分为四类，即人声模仿、录音重放、语音合成以及语音转换，从而使得用户的个人身份认证以及个人信息安全受到极大威胁。因此，如何对接收到的语音进行精准识别与检测，得到了广泛关注。

通常情况下，现有的语音检测手段中由于语音的采集方式或音质清晰程度等问题，导致检测结果发生偏移，存在误将真人语音识别为假体语音的情况，比如因为音质清晰度的原因，将清晰度不高的真人语音识别为假体语音，或者由于采集方式的原因，将采集来源为桌面麦克风语音识别为麦克风阵列语音。因此，如何准确地识别出待检查语音的来源类型及类别类型，成为了亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音检测方法、装置、电子设备及存储介质，通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测，完成了语音真伪和语音来源的检测，解决了现有语音检测技术检测结果偏移的问题，有助于提升语音检测方法的准确性。

本申请实施例提供了一种语音检测方法，所述语音检测方法包括：

从待检测语音中提取出多个语音特征信息；

将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；

针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；

基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

进一步的，所述针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度，包括：

针对于每个语音类别模型，计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值；

将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。

进一步的，所述基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型，包括：

将所述第二匹配度最高的语音类别模型对应的类别类型，确定为所述待检测语音的类别类型；

基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型。

进一步的，所述基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型，包括：

将所述第二匹配度最高的语音类别模型下，第一匹配度最高的语音来源模型对应的来源类型，确定为所述待检测语音的来源类型。

进一步的，通过以下步骤训练每个语音类别模型下的每个语音来源模型：

获取多个样本语音数据，以及每个样本语音数据的类别标签和来源标签；

对所述多个样本语音数据进行初始分类处理，确定出用于训练每个待训练语音类别模型的训练样本集；

针对于每个待训练的语音类别模型，对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理，确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集；

针对于每个语音来源神经网络，将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征，将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征，训练该语音来源神经网络，得到训练好的语音来源模型；

基于该待训练的语音类别模型下每个训练好的语音来源模型，得到训练好的语音类别模型。

进一步的，所述待检测语音的类别类型和所述待检测语音的来源类型包括：

所述待检测语音的类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音中的任意一种；

所述待检测语音的来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音中的任意一种。

本申请实施例还提供了一种语音检测装置，所述语音检测装置包括：

特征提取模块，用于从待检测语音中提取出多个语音特征信息；

第一匹配度确定模块，用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；

第二匹配度确定模块，用于针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；

类型确定模块，用于基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

进一步的，所述第二匹配度确定模块在用于针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度，所述第二匹配度确定模块用于：

进一步的，所述类型确定模块在用于基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型，所述类型确定模块用于：

进一步的，所述类型确定模块在用于基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型，所述类型确定模块用于：

进一步的，所述优化装置还包括模型训练模块，所述模型训练模块用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语音检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音检测方法的步骤。

本申请实施例提供的一种语音检测方法、装置、电子设备及存储介质。所述语音检测方法包括：从待检测语音中提取出多个语音特征信息；将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

这样，本申请通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测，完成了语音真伪和语音来源的检测，解决了现有语音检测技术检测结果偏移的问题，有助于提升语音检测方法的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种语音检测方法的流程图；

图2为本申请实施例所提供的另一种语音检测方法的流程图；

图3为本申请实施例所提供的一种语音检测装置的结构示意图之一；

图4为本申请实施例所提供的一种语音检测装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音检测技术领域。从待检测语音中提取出多个语音特征信息；将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

经研究发现，通常情况下，现有的语音检测手段中由于语音的采集方式或清晰程度等问题，导致检测结果发生偏移，存在误将真人语音识别为假体语音的情况，比如因为音质清晰度的原因，将不清晰的真人语音识别为假体语音，或者由于采集方式的原因，将采集来源为桌面麦克风语音识别为麦克风阵列语音。因此，如何准确地识别出待检查语音的来源类型及类别类型，成为了亟待解决的问题。

基于此，本申请实施例提供了一种语音检测方法，通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测，完成了语音真伪和语音来源的检测，解决了现有语音检测技术检测结果偏移的问题，有助于提升语音检测方法的准确性。

请参阅图1，图1为本申请实施例所提供的一种语音检测方法的流程图。如图1中所示，本申请实施例提供的语音检测方法，包括：

S101、从待检测语音中提取出多个语音特征信息。

该步骤中，获取待检测语音，利用语音特征提取技术从获取到的待检测语音中提取所需要进行检测的语音特征信息。

这里，不限定语音特征提取的具体形式，当前主流的梅尔倒谱系数特征（Mel-frequency Cepstral Coefficient，MFCC）、线性倒谱系数（Linear Frequency CepstralCoefficients，LFCC），恒定Q倒谱系数特征（Constant Q Cepstral Coefficient，CQCC）、短时傅里叶变换（Short-time Fourier Transform，STFT）声谱图等特征提取方法均可以应用。所需要进行检测的语音特征信息为对语音检测结果产生影响的语音特征信息。

S102、将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度。

该步骤中，确定出待检测语音中影响检测结果的多个语音特征信息，将确定出的多个语音特征信息分别多次的输入到预先训练好的多个语音类别模型下的多个语音来源模型中，保证每个语音来源模型都接收到确定出的多个语音特征信息，且接收的多个语音特征信息都是相同的，每个语音来源模型对接收到的多个语音特征信息进行分析，每个语音来源模型会输出一个匹配度，基于输出的匹配度，从而确定待检测语音与每个语音来源模型对应的来源类型的第一匹配度。

其中，匹配度也可以理解为相似度，匹配度的计算方式是由语音来源模型对应的模型类型决定的。示例的，当所述语音来源模型为高斯混合模型时，计算待检测语音与该高斯混合模型的似然度，将计算出的似然度转换为第一匹配度；当所述语音来源模型为深度学习模型时，计算待检测语音经过深度学习模型前向计算的嵌入（embedding）向量的余弦距离，将计算得到的余弦距离转换为第一匹配度。

其中，所述来源类型代表语音的获取来源和/或伪造生成方式，示例的，所述来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音。这里，网络语音、电话语音、桌面麦克风语音以及麦克风阵列语音属于来源类型中的获取来源方式；合成语音以及转换语音属于来源类型中的伪造生成方式。语音类别模型包括真人模型、物理攻击假体模型以及逻辑攻击假体模型；当语音类别模型为真人模型时，对应的语音来源模型包括网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型，当语音类别模型为物理攻击假体模型时，对应的语音来源模型也包括网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型，当语音类别模型为逻辑攻击假体模型时，对应的语音来源模型包括合成模型以及转换模型。

这里，网络语音可以包括各类APP采集语音以及即时通讯语音等；电话语音可以包括手机通话以及固定电话通话等；桌面麦克风语音可以包括摄录一体机以及头戴式或领夹式麦克风语音等；合成语音为使用语音合成技术，输入一段文本，生成特定人语音，实现从文本到语音的转换；转换语音通常是输入源目标人的语音，转化成目标说话人的语音，实现从语音到语音的转换。

S103，针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。

该步骤中，针对于每个语音类别模型，该语音类别模型下包括有多个语音来源模型，所以，语音类别模型相当于语音来源模型的上级模型，在确定出待检测语音与每个语音来源模型的第一匹配度后，便可以基于该语音类别模型下的每个语音来源模型与待检测语音之间的第一匹配度，确定该语音类别模型与待检测语音之间的第二匹配度。

其中，类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音。真人语音也就是真实活体人发出的语音，真人语音只经过一个采集环节，完成一次声电转换；假体语音一般包括人声模仿、合成语音、录音重放以及转换语音，物理攻击通常经过了声音采集环节，通过APP，H5页面等形式，物理攻击侧重研究录音设备的编解码、回放设备的放大功能、录音环境等因素对语音产生非线性失真的影响；逻辑攻击通常是通过调用SDK或者API接口完成攻击。逻辑攻击可以结合数据安全、软件安全等检测技术，例如数字水印技术，可信设备检测等应对方式，逻辑攻击主要研究与高频信息相关的、动态的特征更能反映假体语音与真人语音之前的差别。

这里，物理攻击假体语音包括录音重放；逻辑攻击假体语音包括合成语音和转换语音。

S104，基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

该步骤中，确定出多个待检测语音与语音来源模型的第一匹配度以及确定出多个待检测语音与语音类别模型的第二匹配度后，对确定出的第一匹配度和第二匹配度进行分析，先基于第二匹配度，确定出待检测语音的语音类别类型，再基于确定出的语音类别类型和第一匹配度，确定待检测语音的语音来源类型。

本申请实施例提供的一种语音检测方法，从待检测语音中提取出多个语音特征信息；将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

请参阅图2，图2为本申请实施例所提供的另一种语音检测方法的流程图。如图2中所示，本申请实施例提供的语音检测方法，包括：

S201，从待检测语音中提取出多个语音特征信息。

S202，将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度。

S203，针对于每个语音类别模型，计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值。

该步骤中，针对于每个语音类别模型，确定出该语音类别模型所包含的全部语音来源模型以及待检测语音与每个语音来源模型的第一匹配度，根据各个语音来源模型的重要程度，为每个第一匹配度分配一个权重值。将每个语音来源模型的第一匹配度乘以对应的权重值再相加，得到第一匹配度的和值，使用确定出的第一匹配度的和值除以该语音类型模型下的语音来源模型的个数，得到该语音类型模型的加权平均值。

示例的，假设分配给每个语音来源模型的权重值为1，当语音类别模型为真人模型时，所包含的语音来源模型分别为网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型，对应的第一匹配度分别为X₁，X₂，X₃以及X₄，计算得到的真人模型的加权平均值X为（X₁+X₂+X₃+X₄）/4。当语音类别模型为物理攻击假体模型时，所包含的语音来源模型分别为网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型，对应的第一匹配度分别为Y₁，Y₂，Y₃以及Y₄，计算得到的物理攻击假体模型的加权平均值Y为（Y₁+Y₂+Y₃+Y₄）/4。当语音类别模型为逻辑攻击假体模型时，所包含的语音来源模型分别为合成模型以及转换模型，对应的第一匹配度分别为Z₁以及Z₂，计算得到的逻辑攻击假体模型的加权平均值Z为（Z₁+Z₂）/2。

S204，将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。

该步骤中，针对于每个语音类别模型，将计算得到的该语音类别模型的加权平均值作为待检测语音和该语音类别模型对应的类别类型之间的第二匹配度。

对应于上述实施例，当所述语音类别模型为真人模型时，所对应的类别类型为真人语音，计算得到的真人模型的加权平均值为X，所以待检测语音与真人语音的第二匹配度即为X；当所述语音类别模型为物理攻击假体模型时，所对应的类别类型为物理攻击假体语音，计算得到的物理攻击假体模型的加权平均值为Y，所以待检测语音与物理攻击假体语音的第二匹配度即为Y；当所述语音类别模型为逻辑攻击假体模型时，所对应的类别类型为逻辑攻击假体语音，计算得到的逻辑攻击假体模型的加权平均值为Z，所以待检测语音与逻辑攻击假体语音的第二匹配度即为Z。

S205，基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

其中，S201、S202以及S205的描述可以参数S101、S102以及S104的描述，并且能达到相同的技术效果，对此不做赘述。

进一步的，步骤S202包括：通过以下步骤训练每个语音类别模型下的每个语音来源模型：获取多个样本语音数据，以及每个样本语音数据的类别标签和来源标签；对所述多个样本语音数据进行初始分类处理，确定出用于训练每个待训练语音类别模型的训练样本集；针对于每个待训练的语音类别模型，对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理，确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集；针对于每个语音来源神经网络，将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征，将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征，训练该语音来源神经网络，得到训练好的语音来源模型；基于该待训练的语音类别模型下每个训练好的语音来源模型，得到训练好的语音类别模型。

该步骤中，在进行语音检测前，需要构建进行语音检测所需要的模型，首先获取多个训练语音检测模型所需要的训练样本语音数据，以及每个样本语音数据的样本标签，其中样本标签包括类别标签和来源标签；根据所需要训练的语音类别模型，对获取到的多个样本语音数据按照语样本语音数据的类别标签进行初始分类处理，确定出可以用于训练待训练语音类别模型的训练样本集。

再根据每个语音类别模型下所包含的语音来源神经网络，对确定出的训练样本集进行二次分类处理，其中，针对于确定出的每个训练样本集，根据该样本集中的样本语音数据的来源标签对该样本集进行二次分类处理，确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集。

确定出各个训练样本子集后，通过每个训练样本子集训练相应的语音来源神经网络，得到语音来源模型，训练步骤为：针对每个训练样本子集，将该训练样本子集中的多个样本语音数据作为输入特征，将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征，训练预先构建好的语音来源神经网络，得到语音来源模型。

训练得到多个语音来源模型，将属于同一语音类别模型的语音来源模型进行聚类处理，从而生成多个训练好的语音类别模型。

其中，进行语音来源训练时，不限定语音特征提取的具体形式，当前主流的LFCC、CQCC、短时傅里叶变换（Short-time Fourier Transform，STFT）声谱图等语音特征提取方法均可以应用。本方案也不限定模型训练的具体方法，当前主流的高斯混合模型GMM分类器、轻量级卷积神经网络LCNN及其衍生算法等建模方法均可以应用。

示例的，在进行初始分类处理时，可以从获取到的多个样本语音数据筛选出真人语音训练样本集、物理攻击假体语音训练样本集以及逻辑攻击假体语音训练样本集；其中，真人语音训练样本集中的样本语音数据所具有的特点是，仅完成一次声电转换，而物理攻击假体语音训练样本集中的样本语音数据所具有的特点是，完成两次或两次以上声电转换和一次或一次以上电声转换，逻辑攻击假体语音训练样本集中的样本语音数据是通过高频信息相关的、动态的特征来反映假体语音与真人语音之间的差别。确定完真人语音训练样本集、物理攻击假体语音训练样本集以及逻辑攻击假体语音训练样本集后，对确定出的真人语音训练样本集、物理攻击假体语音训练样本集以及逻辑攻击假体语音训练样本集进行二次分类处理。

根据采集来源中对检测影响最大的因素，对真人语音训练样本集进行筛选，确定出网络语音训练样本子集、电话语音训练样本子集、桌面麦克风语音训练样本子集以及麦克风语音阵列训练样本子集。对应与真人语音训练样本集的分类方式，从物理攻击假体语音训练样本集也筛选出网络语音训练样本子集、电话语音训练样本子集、桌面麦克风语音训练样本子集。对逻辑攻击假体语音训练样本集按照主要的语音合成和声音转换等算法工具进行数据生成归类，得到合成语音训练样本子集和转换语音训练样本子集。

进一步的，步骤S205包括：将所述第二匹配度最高的语音类别模型对应的类别类型，确定为所述待检测语音的类别类型；基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型。

该步骤中，确定出所述待检测语音与各个语音类别模型对应的类别类型之间的第二匹配度后，将得到的多个第二匹配度进行比较，根据第二匹配度从多个语音类别模型中确定出第二匹配度最高的语音类别模型，将第二匹配度最高的语音类别模型对应的类别类型，确定为待检测语音的类别类型。

再对第二匹配度最高的语音类别模型下的所有语音来源模型的第一匹配度进行分析，确定所述待检测语音的来源类型。

进一步的，所述基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型，包括：将所述第二匹配度最高的语音类别模型下，第一匹配度最高的语音来源模型对应的来源类型，确定为所述待检测语音的来源类型。

该步骤中，确定出第二匹配度最高的语音类别模型后，确定该语音类别模型所包含的所有语音来源模型以及每个语音来源模型的第一匹配度，将得到的多个第一匹配度进行比较，根据第一匹配度从多个语音来源模型中确定出第一匹配度最高的语音来源模型，将第一匹配度最高的语音来源模型对应的来源类型，确定为待检测语音的来源类型。

对应于上述实施例，确定出待检测语音与真人语音的第二匹配度为X，待检测语音与物理攻击假体语音的第二匹配度为Y，待检测语音与逻辑攻击假体语音的第二匹配度为Z，比较X，Y，Z三个值确定出最大值，假设Y为最大值，则确定待检测语音的类别类型为物理攻击假体语音，也可以直接将待检测语音确定为假体语音。

确定出的第二匹配度最高的语音类别模型为物理攻击假体语音模型，在物理攻击假体语音模型下包括网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型，对应的第一匹配度分别为Y₁，Y₂，Y₃以及Y₄，比较Y₁，Y₂，Y₃以及Y₄四个值确定出最大值，假设Y₁为最大值，则确定该物理攻击假体语音的来源类型为网络语音，最后确定出待检测语音为网络假体语音。

本申请实施例提供的一种语音检测方法，从待检测语音中提取出多个语音特征信息；将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；针对于每个语音类别模型，计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值；将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

这样，本申请通过对语音检测模型细化，使得语音检测模型更具有针对性，通过检测分数平均值，使得融合判决得到的相似度分数更加合理，通过模型的层级划分，提升了语音检测模型的可用度，故本申请通过类别细分、配对竞争、融合判决、语音来源或伪造生成的辅助信息判别技术，完成了语音真伪性的判别以及来源检测，从而解决了现有语音检测技术检测结果偏移的问题，有助于进而提升语音检测方法的准确度。

请参阅图3、图4，图3为本申请实施例所提供的一种语音检测装置的结构示意图之一，图4为本申请实施例所提供的一种语音检测装置的结构示意图之二。如图3中所示，所述语音检测装置300包括：

特征提取模块310，用于从待检测语音中提取出多个语音特征信息；

第一匹配度确定模块320，用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；

第二匹配度确定模块330，用于针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；

类型确定模块340，用于基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

进一步的，所述第二匹配度确定模块330在用于针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度，所述第二匹配度确定模块330用于：

进一步的，所述类型确定模块340在用于基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型，所述类型确定模块340用于：

进一步的，所述类型确定模块340在用于基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型，所述类型确定模块340用于：

进一步的，如图4所示，所述语音检测装置300还包括模型训练模块350，所述模型训练模块350用于：

本申请实施例提供的一种语音检测装置。所述检测装置包括：特征提取模块，用于从待检测语音中提取出多个语音特征信息；第一匹配度确定模块，用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中，确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度；第二匹配度确定模块，用于针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度；类型确定模块，用于基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的语音检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语音检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音检测方法，其特征在于，所述检测方法包括：

从待检测语音中提取出多个语音特征信息；

基于所述多个语音来源模型确定出的多个第一匹配度和基于所述多个语音类别模型确定出的多个第二匹配度，确定所述待检测语音的类别类型和来源类型；

通过以下步骤确定多个语音类别模型以及多个语音类别模型下的多个语音来源模型：

针对于每个语音来源神经网络，将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征，将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征，训练该语音来源神经网络，得到训练好的该语音来源模型，并确定出多个语音来源模型；

基于确定出的多个语音来源模型，将属于同一语音类别模型的语音来源模型进行聚类处理，得到多个语音类别模型；

所述针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度，包括：

2.根据权利要求1所述的语音检测方法，其特征在于，所述基于确定出的多个第一匹配度和多个第二匹配度，确定所述待检测语音的类别类型和来源类型，包括：

3.根据权利要求2所述的语音检测方法，其特征在于，所述基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度，确定所述待检测语音的来源类型，包括：

4.根据权利要求1所述的语音检测方法，其特征在于，所述待检测语音的类别类型和所述待检测语音的来源类型包括：

5.一种语音检测装置，其特征在于，所述语音检测装置包括：

类型确定模块，用于基于所述多个语音来源模型确定出的多个第一匹配度和基于所述多个语音类别模型确定出的多个第二匹配度，确定所述待检测语音的类别类型和来源类型；

所述语音检测装置还包括模型训练模块，所述模型训练模块用于：

所述第二匹配度确定模块在用于针对于每个语音类别模型，基于该语音类别模型下每个语音来源模型确定出的第一匹配度，确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度时，所述第二匹配度确定模块用于：

6.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至4任一所述语音检测方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4任一所述语音检测方法的步骤。