CN113409771A

CN113409771A - 一种伪造音频的检测方法及其检测系统和存储介质

Info

Publication number: CN113409771A
Application number: CN202110573557.4A
Authority: CN
Inventors: 徐承; 方磊; 夏翔; 柳林; 方四安
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-17
Anticipated expiration: 2041-05-25
Also published as: CN113409771B

Abstract

本申请公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质，该方法包括：获取待测音频和真实音频；提取待测音频和真实音频中属于共用音素状态的音频部分，其中，共用音素状态为待测音频和真实音频中均存在的音素状态，音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分；基于第一音频部分和第二音频部分之间的特征相似度，确定待测音频是否为伪造音频。通过上述方式，本申请能够提高对音频真伪检测的准确度，从而实现有效地鉴别音频的真假。

Description

一种伪造音频的检测方法及其检测系统和存储介质

技术领域

本申请涉及音频检测技术领域，特别是涉及一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质。

背景技术

伪造音频检测基于自然人语音与伪造生成语音的语速、声纹和频谱的差异来实现。无论是自然人还是合成伪造的语音，都包含了文本、语种、声纹、情绪等信息，这些信息耦合在一起，体现在语谱的差异上，伪造的痕迹相对文本信息是一种极其微弱的信息。

现有的伪造语音的检测方式过多关注语音中的文本信息，难以抓住语音中的伪造信息，特别是伪造语音与自然人语音的文本相异时，微弱的伪造信息容易被忽略，导致对伪造语音攻击的检测失效。

发明内容

本申请主要解决的技术问题是提供一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质，能够提高对音频真伪检测的准确度，从而实现有效地鉴别音频的真假。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种伪造音频的检测方法，该方法包括：获取待测音频和真实音频；提取待测音频和真实音频中属于共用音素状态的音频部分，其中，共用音素状态为待测音频和真实音频中均存在的音素状态，音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分；基于第一音频部分和第二音频部分之间的特征相似度，确定待测音频是否为伪造音频。

其中，提取待测音频和真实音频中属于共用音素状态的音频部分，包括：分别对待测音频和真实音频进行声学处理，得到待测音频的第一音素状态信息和真实音频的第二音素状态信息；基于第一音素状态信息和第二音素状态信息，确定共用音素状态，并从待测音频和真实音频中提取得到音频部分。

其中，待测音频包括若干第一帧，真实音频包括若干第二帧，第一音素状态信息包括各第一帧所属的第一音素状态，第二音素状态信息包括各第二帧所属的第二音素状态；在基于第一音素状态信息和第二音素状态信息，确定共用音素状态之前，伪造音频的检测方法还包括：从第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态。

其中，第一音素状态信息还包括第一帧属于第一音素状态的第一概率，第二音素状态信息还包括第二帧属于第二音素状态的第二概率；在从第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态之前，伪造音频的检测方法还包括：基于第一帧对应的第一概率，确定得到第一帧的音素确信度，以及基于第二帧对应的第二概率，确定得到第二帧的音素确信度。

其中，第一要求为属于所有第一帧中音素确信度最大的前第一比例内，第二要求为属于所有第二帧中音素确信度最大的前第二比例内；基于第一帧对应的第一概率，确定得到第一帧的音素确信度，以及基于第二帧对应的第二概率，确定得到第二帧的音素确信度，包括：利用熵值法对第一帧对应的第一概率进行处理，得到第一帧的音素确信度；以及利用熵值法对第二帧对应的第二概率进行处理，得到第二帧的音素确信度。

其中，在基于第一音频部分和第二音频部分之间的特征相似度，确定待测音频是否为伪造音频之前，伪造音频的检测方法还包括：分别对第一音频部分和第二音频部分进行特征提取，得到第一音频部分的第一特征数据和第二音频部分的第二特征数据；获取第一特征数据和第二特征数据之间的第一相似度，以作为特征相似度。

其中，获取第一特征数据和第二特征数据之间的第一相似度，包括：利用表征网络分别对第一特征数据和第二特征数据进行特征处理，得到第一特征数据的第一表征向量和第二特征数据的第二表征向量；获取第一表征向量和第二表征向量之间的第二相似度，以作为第一相似度。

其中，第一表征向量和第二表征向量是由表征网络的池化层输出的，表征网络是利用样本音频集中的样本音频训练得到的，样本音频集包括伪造样本音频和真实样本音频；和/或，第二相似度为第一表征向量和第二表征向量之间的余弦距离。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种伪造音频的检测系统，该伪造音频的检测系统包括处理器和存储器，处理器用于执行程序指令以实现上述伪造音频的检测方法，存储器用于存储程序指令。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述的伪造音频的检测方法。

上述方案，通过提取待测音频和真实音频中属于共用音素状态的音频部分，并基于待测音频和真实音频中属于共用音素状态的音频部分之间的特征相似度，确定待测音频是否为伪造音频。由于基于共用音素状态获得的音频部分包括相同的音素状态，所以在音素状态层面上实现了待测音频和真实音频的文本信息相同；而且由于伪造痕迹信息依附于在音素状态上，所以基于具有相同音素状态的音频部分之间的特征相似度确定待测音频的真伪，能够弱化了文本信息的干扰，放大了伪造痕迹信息，有利于微弱的伪造痕迹信息凸显，从而提高对待测音频真伪检测的准确度，实现有效地鉴别待测音频的真假，提升伪造音频检测的泛化能力。

附图说明

图1是本申请提供的伪造音频的检测方法一实施例的流程示意图；

图2是图1所示步骤S12一实施例的流程示意图；

图3是图1所示步骤S13一实施例的流程示意图；

图4是图3所示步骤S133一实施例的流程示意图；

图5是本申请提供的伪造音频的检测系统一实施例的结构示意图；

图6是本申请提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。

需要说明的是，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1，图1是本申请提供的伪造音频的检测方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例包括：

步骤S11：获取待测音频和真实音频。

本实施例的方法用于检测待测音频是否为伪造音频，本文所述的伪造音频可以但不限于是由语音合成、音色转换、人为模仿和录音回放等的一种或者多种伪造手段生成的语音音频。

在一实施方式中，该待测音频可以为任意需要检测的音频，具体可以从本地存储或云端存储中获取得到，或者通过语音采集设备对当前环境声音进行采集得到。

在一实施方式中，真实音频作为用于判断待测音频是否为伪造音频的参考音频，具体可以通过语音采集设备采集自然人的语音以作为真实音频。可以理解地，在其他实施方式中，也可以直接读取本地存储或云端存储的自然人语音音频作为真实音频，在此不做具体限定。

步骤S12：提取待测音频和真实音频中属于共用音素状态的音频部分。

其中，音素状态是构成音节的最小单位或者最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。例如，以待测音频和真实音频为中文音频为例，“爱”可以分析成“a,i”两个音素状态，“代”可以分析成“d,a,i”三个音素状态，“普通话”可以分析成“p,u,t,o,ng,h,u,a”八个音素状态。可以理解地，待测音频和真实音频也可以是英文或者其他语言的语音音频等，在此不做具体限定。

本实施方式中，通过对待测音频和真实音频的音素状态分析，能够得知待测音频和真实音频都包括有哪些音素状态，从而分析得到待测音频和真实音频中均存在的音素状态即共用音素状态，进而能够将待测音频中属于共用音素状态的第一音频部分和真实音频中属于共用音素状态的第二音频部分截取提出。举例来说，经过对待测音频和真实音频的音素状态分析，得到待测音频和真实音频中均存在的音素状态即共用音素状态为“p,u,h,i”，然后在待测音频中截取对应“p,u,h,i”这四个音素状态下的音频部分以得到第一音频部分，同时在真实音频中截取对应“p,u,h,i”这四个音素状态下的音频部分以得到第二音频部分。

其中，一个音素状态对应一个音频部分。待测音频中，共用音素状态中各音素状态对应的各音频部分进行合成得到第一音频部分；真实音频中，共用音素状态中各音素状态对应的音频部分进行合成得到第二音频部分，具体的合成方式不做具体限定，例如可以是对各音频部分进行拼接合成。

在一实施方式中，可对待测音频和真实音频进行分帧处理，通过对待测音频和真实音频中每一帧的音素状态分析得到待测音频和真实音频的共用音素状态，从而将待测音频中属于共用音素状态的对应帧作为第一音频部分，将真实音频中属于共用音素状态的对应帧作为第二音频部分。其中，每个音素状态由于发音的长短，在音频中可能对应一帧或者多帧，例如音素状态“m”在待测音频为第一个音素状态且对应有5帧，则待测音频中的帧1-帧5均为音素状态“m”。可以理解地，在其他实施方式中，也可利用其它方式对待测音频和真实音频进行处理以得到属于共用音素状态的音频部分。

需要说明的是，为了便于描述，下面将以对待测音频和真实音频进行分帧处理的方式得到属于共用音素状态的音频部分为例对本申请的技术方案进行说明，但不应仅限于此。

步骤S13：基于第一音频部分和第二音频部分之间的特征相似度，确定待测音频是否为伪造音频。

无论是伪造音频还是真实音频都包含了文本、语种、声纹、情绪等信息，伪造音频中的伪造痕迹信息相对文本信息是一种极其微弱的信息，现有技术中的检测方式在伪造音频和真实音频的文本内容相同时能够很好地抓取到伪造痕迹信息，而在伪造音频和真实音频的文本内容相异时往往会忽略微弱的伪造痕迹信息，导致检测失效。

本实施方式中，第一音频部分和第二音频部分中包括相同的音素状态，文本内容不同的待测音频和真实音频通过上述方式能够实现音素状态对齐，也就是说，在音素状态层面上实现了文本内容相同。由于微弱的伪造痕迹信息依附于在音素状态上，所以基于具有相同音素状态的第一音频部分和第二音频部分之间的特征相似度确定待测音频的真伪，能够弱化了文本内容的干扰，放大了伪造痕迹信息，有利于微弱的伪造痕迹信息凸显，从而提高对待测音频真伪检测的准确度，实现有效地鉴别待测音频的真假，提升伪造音频检测的泛化能力。

具体地，通过第一音频部分和第二音频部分之间的特征相似度确定待测音频是否为伪造音频。例如，分别对第一音频部分和第二音频部分进行特征提取，以得到第一音频部分的第一特征数据和第二音频部分的第二特征数据，计算第一特征数据和第二特征数据之间的相似度以得到该特征相似度。在一实施方式中，设置有预设相似度，在第一音频部分和第二音频部分之间的特征相似度小于预设相似度时，表明第一音频部分和第二音频部分之间的差异较大，则确定待测音频为伪造音频；而在第一音频部分和第二音频部分之间的特征相似度大于或等于预设相似度时，表明第一音频部分和第二音频部分两者较为相似、差异较小，则确定待测音频为真实音频。

上述实施方式中，通过提取待测音频中属于共用音素状态的第一音频部分和真实音频中属于共用音素状态的第二音频部分，使得第一音频部分和第二音频部分包括相同的音素状态，也就是说，第一音频部分和第二音频部分的音素状态对齐，从而使得待测音频和真实音频在音素层面上实现同文本检测；而且由于伪造痕迹信息依附于在音素状态上，所以基于具有相同音素状态的音频部分之间的特征相似度确定待测音频的真伪，能够弱化了文本信息的干扰，放大了伪造痕迹信息，进而提高对待测音频真假检测的准确度，实现有效地鉴别待测音频的真假，提升伪造音频检测的泛化能力。

请参阅图2，图2是图1所示步骤S12一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，本实施例中，对待测音频和真实音频进行分帧处理以得到待测音频和真实音频中每一帧的音素状态，实现提取属于共用音素状态的音频部分，具体包括：

步骤S121：分别对待测音频和真实音频进行声学处理，得到待测音频的第一音素状态信息和真实音频的第二音素状态信息。

本实施方式中，可利用声学模型对待测音频和真实音频进行声学处理，以得到待测音频的第一音素状态信息和真实音频的第二音素状态信息。

在一实施方式中，对于经过分帧处理的待测音频和真实音频，第一音素状态信息可包括待测音频中每一帧的音素状态以及该帧为该音素状态的概率，第二音素状态信息可包括真实音频中每一帧的音素状态以及该帧为该音素状态的概率。可以理解地，在其他实施方式中，第一音素状态信息和第二音素状态信息也可包括关于音素状态的其他信息，可根据实际使用需要具体设置，在此不做具体限定。

步骤S122：基于第一帧对应的第一概率，确定得到第一帧的音素确信度；以及基于第二帧对应的第二概率，确定得到第二帧的音素确信度。

其中，经过分帧处理后的待测音频包括若干第一帧，经过分帧处理后的真实音频包括若干第二帧，也就是说，若干第一帧构成了待测音频，若干第二帧构成了真实音频。此时，待测音频的第一音素状态信息包括各第一帧所属的第一音素状态以及各第一帧属于第一音素状态的第一概率，真实音频的第二音素状态信息包括各第二帧所属的第二音素状态以及各第二帧属于第二音素状态的第二概率。

具体地，待测音频中第一帧对应的第一概率记为P^x＝{x₁,x₂,...,x_i,x_n}，真实音频中第二帧对应的第二概率记为P^y＝{y₁,y₂,...,y_j,y_m}。

其中，n,m分别为待测音频和真实音频的帧数；x_i为待测音频的第一帧i的第一概率，y_j为真实音频的第二帧j的第二概率。

本实施方式中，由于第一概率表示各第一帧属于其所属第一音素状态的概率，第二概率表示各第二帧属于其所属第二音素状态的概率，所以可以将各第一帧对应的第一概率作为各第一帧的音素确信度以及可以将各第二帧对应的第二概率作为各第二帧的音素确信度，从而可以直接通过第一概率评定各第一帧属于其所属第一音素状态的可信度，可以直接通过第二概率评定各第二帧属于其所属第二音素状态的可信度。其中，记为E^x的第一帧的音素确信度和记为E^y的第二帧的音素确信度分别表示为：

例如，第一帧1所属的第一音素状态为“m”，第一帧1属于第一音素状态为“m”的第一概率为70％，那么第一帧1的音素确信度为70％；第二帧3所属的第二音素状态为“a”，第二帧3属于第二音素状态为“a”的第二概率为40％，那么第二帧3的音素确信度为40％。

由于存在噪声等其它音素的干扰，通过声学处理获得的第一音素状态信息中的第一概率和第二音素状态信息中的第二概率可能存在异常现象，在其他实施方式中，可利用熵值法对各第一帧对应的第一概率进行处理，得到各第一帧的音素确信度，以及利用熵值法对各第二帧对应的第二概率进行处理，得到各第二帧的音素确信度，使得第一音素状态信息中的第一概率和第二音素状态信息中的第二概率存在异常的数据得以排除，使得获得的各第一帧的音素状态和各第二帧的音素状态的可信度增大，从而提高对音频真伪鉴别的准确性。其中，熵值法的公式为：

其中，k＝9004，p(x_i|s_c)表示第一帧i属于s_c音素状态的对应的第一概率x_i。

通过上述熵值法的公式求得各第一帧的音素确信度。同理，可求得各第二帧的音素确信度。

可以理解地，在其他实施方式中，也可以通过其他公式算法求得各第一帧的音素确信度以及各第二帧对应的音素确信度，在此不做具体限定。

步骤S123：从第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态。

本实施方式中，可预先设置有对应待测音频的第一要求以及对应真实音频的第二要求，将第一音素状态信息中各第一帧对应的音素确信度与第一要求进行比较以及将第二音素状态信息中各第二帧对应的音素确信度与第二要求进行比较，从第一音素状态信息中剔除音素确信度满足第一要求的第一帧的第一音素状态以及从第二音素状态信息中剔除音素确信度满足第二要求的第二帧的第二音素状态，通过将音素确信度较低的第一帧的第一音素状态和第二帧的第二音素状态剔除，提高各第一帧的第一音素状态和各第二帧的第二音素状态的可信度，避免可信度较低的第一帧和第二帧对音频真伪的判定产生影响。其中，第一要求和第二要求不做具体限定，可根据实际使用需要具体设置。

在一实施方式中，在将待测音频中的各第一帧对应的第一概率作为各第一帧的音素确信度，将真实音频中的各第二帧对应的第二概率作为各第二帧的音素确信度时，第一要求可设定为小于第一预设音素确信度，第二要求可设定为小于第二预设音素确信度。也就是说，当某第一帧对应的音素确信度小于第一预设音素确信度时，则满足第一要求，此时剔除该第一帧的第一音素状态，当某第二帧对应的音素确信度小于第二预设音素确信度时，则满足第二要求，此时剔除该第二帧的第二音素状态。其中，第一预设音素确信度可以为20％等，第二预设音素确信度可以为30％等，在此不做具体限定。

例如，第一要求设定为小于第一预设音素确信度且第一预设音素确信度为30％，第一音素状态信息中第一帧1的音素确信度为25％，第一音素状态信息中第一帧2的音素确信度为65％，第一音素状态信息中第一帧3的音素确信度为61％，第一音素状态信息中第一帧4的音素确信度为80％，由于第一帧1的音素确信度小于第一预设音素确信度，满足第一要求，表明第一帧1属于的第一音素状态可信度较低，所以将第一帧1对应的第一音素状态从第一音素状态信息中删除，避免对后续音频真伪的检测产生影响。

在其他实施方式中，在利用熵值法得到各第一帧的音素确信度和各第二帧的音素确信度时，第一要求可设定为属于所有第一帧中音素确信度最大的前第一比例内，第二要求可设定为属于所有第二帧中音素确信度最大的前第二比例内。也就是说，在确定了各第一帧对应的音素确信度和各第二帧对应的音素确信度后，通过判定各第一帧对应的音素确信度是在所有第一帧中音素确信度最大的前第一比例之外还是之内以确定是否剔除第一帧的第一音素状态，在某一第一帧对应的音素确信度在上述第一比例之内，说明该第一帧的音素确信度过高，可能存在异常，所以剔除该第一帧的第一音素状态，而在某一第一帧对应的音素确信度在上述第一比例外，说明该第一帧的音素确信度在正常范围内，可信度较高，所以保留该第一帧的第一音素状态。同理，通过判定各第二帧对应的音素确信度是在所有第二帧中音素确信度最大的前第二比例之外还是之内以确定是否剔除第二帧的第二音素状态。其中，第一比例可以为10％等，第二比例可以为8％等，可根据实际使用需要具体设置，在此不做具体限定。

例如，第二比例为10％，真实音频中包括20帧第二帧，其中真实音频中每一第二帧对应的音素确信度为：

E^y＝{5,7,10,8,4,5,6,9,2,1,2,4,8,8,3,5,7,6,8,10}

所以所有第二帧中音素确信度最大的前10％为两帧，分别是第二帧3和第二帧20，这两帧为属于所有第二帧中音素确信度最大的前10％内，满足第二要求，可能会存在异常，为了避免这两帧的数据对后续伪造音频的检测产生影响，从第二音素状态信息中删除第二帧3和第二帧20的第二音素状态。

步骤S124：基于第一音素状态信息和第二音素状态信息，确定共用音素状态。

其中，通过上述方式对第一音素状态信息中可信度较低或者可能存在异常的第一音素状态的剔除以及对第二音素状态信息中可信度较低或者可能存在异常的第二音素状态的剔除，使得剩余第一音素状态信息中各第一帧的第一音素状态和剩余第二音素状态信息中各第二帧的第二音素状态的可信度均较高，可用于共用音素状态的提取。

本实施方式中，可通过提取剩余第一音素状态信息和剩余第二音素状态信息的交集得到共用音素状态。例如，剩余第一音素状态信息中包括第一音素状态“p,u,h,i,u”，剩余第二音素状态信息中包括第二音素状态“u,i,a,c”，那么共用音素状态为两者的交集即为“u,i”。

步骤S125：基于共用音素状态，分别从待测音频和真实音频中提取得到第一音频部分和第二音频部分。

本实施方式中，由于是对每一帧音素状态分析得到的共用音素状态，所以基于共用音素状态对应的第一帧，从待测音频中提取得到对应帧的第一音频部分，以及基于共用音素状态对应的第二帧，从真实音频中提取得到对应帧的第二音频部分。

举例来说，待测音频包括1-35个第一帧，真实音频包括1-40个第二帧。待测音频和真实音频的共用音素状态为“u,i”，并且共用音素状态中的“u”为待测音频中的第一帧3-第一帧8以及第一帧20-第一帧30所对应的第一音素状态，共用音素状态中的“i”为待测音频中的第一帧11-第一帧15所对应的第一音素状态，所以从待测音频中提取第一帧3-第一帧8、第一帧11-第一帧15以及第一帧20-第一帧30所对应的音频部分，从而构成从待测音频中提取得到的第一音频部分；而共用音素状态中“u”为真实音频中第二帧8-第二帧18所对应的第二音素状态，共用音素状态中的“i”为真实音频中第二帧30-第二帧38所对应的第二音素状态，所以从真实音频中提取第二帧8-第二帧18和第二帧30-第二帧38所对应的音频部分，从而构成从真实音频中提取得到的第二音频部分。

另外，如果在上述基于音素确信度剔除了某些第一帧或者某些第二帧，在本实施方式中，同样不对剔除的第一帧或第二帧对应的音频部分进行提取。例如，“i”为真实音频中第二帧30-第二帧38所对应的第二音素状态，但由于第二帧33所对应的第二音素状态由于音素确信度较低而被剔除，所以此时从真实音频中提取第二帧30-第二帧32以及第二帧34-第二帧38所对应的音频部分。

请参阅图3-图4，图3是图1所示步骤S13一实施例的流程示意图，图4是图3所示步骤S133一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3和图4所示的流程顺序为限。如图3所示，本实施例中，可利用表征网络获得待测音频和真实音频的表征向量，并通过计算待测音频的表征向量和真实音频的表征向量之间的相似度以确定待测音频的真伪，具体包括：

步骤S131：构建表征网络。

本实施方式中，利用样本音频集中的样本音频训练得到表征网络。其中，该样本音频集可包括真实样本音频和伪造样本音频。表征网络的构建只需一次，在后续待测音频的真伪检测中可反复使用，并且，表征网络的构建可在待测音频检测前预先构建，也可如本实施例中在待测音频检测过程中进行构建。下面对表征网络的构建过程即训练过程进行举例说明：

步骤一，获取样本音频集，其中样本音频集中包括大量的自然人的真实样本音频和各种合成算法生成的伪造样本音频。其中，样本音频集中的每个样本音频标注有真实分类结果，该真实分类结果表示该样本音频为真实音频还是伪造音频。记为D的样本音频集可以表示为：

D＝{d_{真实样本音频},d_{伪造样本音频}}

步骤二，分别对样本音频集中每个样本音频进行特征提取，得到特征集。其中，该特征集包括每个样本音频的样本特征，该特征提取可以是利用滤波器组(Filter Bank)实现，该样本音频包括真实样本音频和伪造样本音频，故记为F的特征集可以表示为：

F＝{fb_{真实样本音频},fb_{伪造样本音频}}

步骤三，利用音频处理网络对样本音频的样本特征进行分类处理，得到样本音频的预测分类结果。其中，该预测分类结果表示该样本音频为真实音频还是伪造音频。具体地，该音频处理网络可以利用预设网络结构形成，例如可利用34层残差网络结构(Resnet34)并加入池化层(Pooling)以形成该音频处理网络。该音频处理网络可先对样本特征进行特征处理以得到该样本特征的样本表征向量，具体可由上述池化层输出该样本表征向量，然后该音频处理网络再对样本表征向量进行分类，输出预测分类结果。

步骤四，利用真实分类结果和预测分类结果，确定音频处理网络的损失。具体地，可结合预设损失函数、以及真实分类结果和预测分类结果之间的差异，得到音频处理网络的损失。该预设损失函数可以但不限为三元组损失函数(Triplet Loss)和交叉熵损失函数(CE Loss)中的至少一种。

步骤五，利用音频处理网络的损失，调整音频处理网络的网络参数。利用上述步骤对音频处理网络进行迭代训练，最终得到网络收敛的音频处理网络，此时音频处理网络已完成训练。可将音频处理网络作为表征网络，且音频处理网络中用于得到表征向量的一层(如前述的池化层)作为表征网络的输出层；或者，也可将音频处理网络中的部分网络结构如音频处理网络中池化层及其之前的网络结构，提取作为表征网络。由此，表征网络完成构建。

步骤S132：分别对第一音频部分和第二音频部分进行特征提取，得到第一音频部分的第一特征数据和第二音频部分的第二特征数据。

本实施方式中，对第一音频部分和第二音频部分进行特征提取，得到对应第一音频部分的第一特征数据和对应第二音频部分的第二特征数据，其中，该特征提取可利用滤波器组实现。第一特征数据可记为fb_{第一音频部分}，第二特征数据可记为fb_{第二音频部分}。

步骤S133：获取第一特征数据和第二特征数据之间的第一相似度。

本实施方式中，第一相似度可以是第一特征数据和第二特征数据之间的余弦距离。可以理解地，在其他实施方式中，也可通过其他方式计算第一特征数据和第二特征数据之间的第一相似度，在此不做具体限定。

由于第一特征数据和第二特征数据是基于滤波器组分别对第一音频部分和第二音频部分进行特征提取获得的，所以第一特征数据和第二特征数据中包括有文本信息或者其他信息内容。为了屏蔽第一特征数据和第二特征数据中文本信息等其他对于区分真假音频非有用的信息内容，提高音频真伪检测的准确性，在本实施方式中，还需要对第一特征数据和第二特征数据进行特征处理，如图4所示，具体如下：

步骤S1331：利用表征网络分别对第一特征数据和第二特征数据进行特征处理，得到第一特征数据的第一表征向量和第二特征数据的第二表征向量。

本实施方式中，利用表征网络对第一特征数据和第二特征数据进行处理，例如经由表征网络的池化层输出为第一表征向量和第二表征向量。具体地，表征网络对第一特征数据和第二特征数据进行投影，一方面能够使第一特征数据和第二特征数据的维度降低，另一方面将其中对于区分音频真伪无用的信息进行屏蔽，凸显了对于区分音频真伪有用的信息，从而使得表征待测音频的第一表征向量和表征真实音频的第二表征向量可信度更高，更有利于音频真伪的检测。

步骤S1332：获取第一表征向量和第二表征向量之间的第二相似度，以作为第一相似度。

本实施方式中，第一表征向量和第二表征向量之间的第二相似度可以是第一表征向量和第二表征向量之间的余弦距离，并将第一表征向量和第二表征向量之间的余弦距离作为第二相似度。可以理解地，在其他实施方式中，也可通过其他方式计算第一表征向量和第二表征向量之间的第二相似度，在此不做具体限定。

可以理解的是，本实施例利用特征数据的表征向量确定特征数据间的相似度，在其他实施例也可直接对特征数据间的相似度进行计算，如计算特征数据之间的余弦距离，以得到特征数据间的相似度，如在无需使用特征数据的表征向量确定特征数据间的相似度的实施例中，即可不执行上述步骤S131以及步骤S1331-S1332。

步骤S134：将第一相似度作为第一音频部分和第二音频部分之间的特征相似度。

本实施方式中，由于第一特征数据和第二特征数据分别来自于第一音频部分和第二音频部分，所以可以将第一特征数据与第二特征数据之间的第一相似度作为第一音频部分和第二音频部分之间的特征相似度。

步骤S135：判断特征相似度是否大于或等于预设相似度。

本实施方式中，预先设置有预设相似度，通过判定第一音频部分与第二音频部分之间的特征相似度与预设相似度之间的大小关系确定待测音频是伪造音频还是真实音频。其中，预设相似度的具体数值不做具体限定，可根据实际使用场景具体设置。

例如，由于将第一表征向量和第二表征向量之间的余弦距离作为特征相似度，所以预设相似度可根据实际检测经验设定为0.5，但不仅限于此。在特征相似度大于或等于预设相似度0.5时，执行步骤S137；在特征相似度小于预设相似度0.5时，执行步骤S136。

步骤S136：若特征相似度小于预设相似度，则确定待测音频为伪造音频。

本实施方式中，若特征相似度小于预设相似度，则表明待测音频与真实音频差异较大，所以确定待测音频为伪造音频。

步骤S137：若特征相似度大于或等于预设相似度，则确定待测音频为真实音频。

本实施方式中，若特征相似度大于或等于预设相似度，则表明待测音频与真实音频相似，所以确定待测音频为真实音频。

请参阅图5，图5是本申请提供的伪造音频的检测系统一实施例的结构示意图。本实施方式中，伪造音频的检测系统50包括处理器51和存储器53。

处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器51等。

伪造音频的检测系统50中的存储器53用于存储处理器51运行所需的程序指令。

处理器51用于执行程序指令以实现上述本申请伪造音频的检测方法任一实施例及任意不冲突的组合所提供的方法。

请参阅图6，图6是本申请提供的计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质60存储有程序指令61，该程序指令61被执行时实现本申请伪造音频的检测方法任一实施例以及任意不冲突的组合所提供的方法。其中，该程序指令61可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质60中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质60包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种伪造音频的检测方法，其特征在于，所述方法包括：

获取待测音频和真实音频；

提取所述待测音频和所述真实音频中属于共用音素状态的音频部分，其中，所述共用音素状态为所述待测音频和所述真实音频中均存在的音素状态，所述音频部分包括属于所述待测音频的第一音频部分和属于所述真实音频的第二音频部分；

基于所述第一音频部分和所述第二音频部分之间的特征相似度，确定所述待测音频是否为伪造音频。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待测音频和所述真实音频中属于共用音素状态的音频部分，包括：

分别对所述待测音频和所述真实音频进行声学处理，得到所述待测音频的第一音素状态信息和所述真实音频的第二音素状态信息；

基于所述第一音素状态信息和所述第二音素状态信息，确定所述共用音素状态，并从所述待测音频和所述真实音频中提取得到所述音频部分。

3.根据权利要求2所述的方法，其特征在于，所述待测音频包括若干第一帧，所述真实音频包括若干第二帧，所述第一音素状态信息包括各所述第一帧所属的第一音素状态，所述第二音素状态信息包括各所述第二帧所属的第二音素状态；

在所述基于所述第一音素状态信息和所述第二音素状态信息，确定所述共用音素状态之前，所述方法还包括：

从所述第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从所述第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态。

4.根据权利要求3所述的方法，其特征在于，所述第一音素状态信息还包括所述第一帧属于第一音素状态的第一概率，所述第二音素状态信息还包括所述第二帧属于第二音素状态的第二概率；

在所述从所述第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从所述第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态之前，所述方法还包括：

基于所述第一帧对应的所述第一概率，确定得到所述第一帧的音素确信度，以及基于所述第二帧对应的所述第二概率，确定得到所述第二帧的音素确信度。

5.根据权利要求4所述的方法，其特征在于，所述第一要求为属于所有所述第一帧中所述音素确信度最大的前第一比例内，所述第二要求为属于所有所述第二帧中所述音素确信度最大的前第二比例内；

所述基于所述第一帧对应的所述第一概率，确定得到所述第一帧的音素确信度，以及基于所述第二帧对应的所述第二概率，确定得到所述第二帧的音素确信度，包括：

利用熵值法对所述第一帧对应的所述第一概率进行处理，得到所述第一帧的音素确信度；以及利用所述熵值法对所述第二帧对应的所述第二概率进行处理，得到所述第二帧的音素确信度。

6.根据权利要求1所述的方法，其特征在于，在所述基于所述第一音频部分和所述第二音频部分之间的特征相似度，确定所述待测音频是否为伪造音频之前，所述方法还包括：

分别对所述第一音频部分和所述第二音频部分进行特征提取，得到所述第一音频部分的第一特征数据和所述第二音频部分的第二特征数据；

获取所述第一特征数据和所述第二特征数据之间的第一相似度，以作为所述特征相似度。

7.根据权利要求6所述的方法，其特征在于，所述获取所述第一特征数据和所述第二特征数据之间的第一相似度，包括：

利用表征网络分别对所述第一特征数据和所述第二特征数据进行特征处理，得到所述第一特征数据的第一表征向量和所述第二特征数据的第二表征向量；

获取所述第一表征向量和所述第二表征向量之间的第二相似度，以作为所述第一相似度。

8.根据权利要求7所述的方法，其特征在于，所述第一表征向量和所述第二表征向量是由所述表征网络的池化层输出的，所述表征网络是利用样本音频集中的样本音频训练得到的，所述样本音频集包括伪造样本音频和真实样本音频；

和/或，所述第二相似度为所述第一表征向量和所述第二表征向量之间的余弦距离。

9.一种伪造音频的检测系统，其特征在于，所述伪造音频的检测系统包括处理器和存储器，所述处理器用于执行程序指令以实现如权利要求1-8中任一项所述的伪造音频的检测方法，所述存储器用于存储所述程序指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现如权利要求1-8中任一项所述的伪造音频的检测方法。