CN117153149A

CN117153149A - 音频识别方法、相关装置及存储介质

Info

Publication number: CN117153149A
Application number: CN202310721455.1A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-12-01

Abstract

本申请实施例涉及计算机技术领域，提供一种音频识别方法、相关装置及存储介质，音频识别方法包括：获取待处理音频；对待处理音频进行频域转换，得到待处理音频的目标频域声学特征，以及对待处理音频进行特征提取，得到待处理音频的目标音频属性特征；将目标频域声学特征和目标音频属性特征进行特征融合，得到目标音频特征；对目标音频特征进行识别，得到识别结果，识别结果用于指示待处理音频是否为伪造。本申请实施例可以对目标频域声学特征和目标音频属性特征进行融合，得到包含更丰富及全面的音频表征的目标音频特征，从而可以基于目标音频特征准确进行识别，提高了对音频进行伪造痕迹检测的准确性。

Description

音频识别方法、相关装置及存储介质

技术领域

本申请实施例涉及计算机技术领域，更具体地涉及一种音频识别方法、相关装置及存储介质，其中，相关装置包括音频识别装置、计算设备(也可以称为计算机设备或计算机)、计算机程序产品、以及芯片系统等。

背景技术

随着科技的发展，语音的应用越来越广泛，语音承载着人类语言和说话人身份信息，可能会以模仿目标说话人的声音以达到欺骗人或机器听觉的目的，因此，可以通过语音检测技术对深度伪造的语音进行检测。

目前，现有的语音检测技术一般是使用语音较单一的语音特征对语音检测模型进行训练，然后通过训练后的语音检测模型基于较单一的语音特征对深度伪造的语音进行语音检测，这样会使得语音检测模型学习到的知识局限性较大，或使得语音特征包含一些不重要的信息，造成语音检测模型学习偏差，从而导致语音检测模型对语音检测的准确性较低。

发明内容

本申请实施例提供一种音频识别方法、相关装置及存储介质，可以对音频进行伪造痕迹检测的准确性，使得误识别率低，识别敏感度更高。

第一方面，本申请实施例提供一种音频识别方法，该方法包括：

获取待处理音频；

对所述待处理音频进行频域转换，得到所述待处理音频的目标频域声学特征，以及对所述待处理音频进行特征提取，得到所述待处理音频的目标音频属性特征；

将所述目标频域声学特征和所述目标音频属性特征进行特征融合，得到目标音频特征；

对所述目标音频特征进行识别，得到识别结果，所述识别结果用于指示所述待处理音频是否为伪造。

在一个实施方式中，所述通过音频识别模型，对所述目标音频特征进行识别之前，所述方法还包括：

获取音频训练集；

提取所述音频训练集中各个音频训练样本的频域声学特征和音频属性特征；

获取特征集，所述特征集包括多个音频特征，每个音频特征基于同一个音频训练样本的频域声学特征和音频属性特征融合得到；

基于所述特征集对音频识别模型进行训练，得到训练后的音频识别模型。

在一个实施方式中，所述基于所述特征集对音频识别模型进行训练，得到训练后的音频识别模型，包括：

获取音频训练样本的真实标签；

对所述特征集中各个音频特征的进行识别，得到所述音频训练集中各个音频训练样本的预测标签；

获取所述真实标签与所述预测标签之间的差异信息；

根据所述差异信息，调整所述音频识别模型的参数，得到训练后的音频识别模型。

在一个实施方式中，所述对所述待处理音频进行特征提取，得到所述待处理音频的目标音频属性特征，包括：

通过预训练语音模型对所述待处理音频进行多层卷积层的逐层特征提取，得到多层属性特征；

对所述多层属性特征进行加权融合，得到所述待处理音频的目标音频属性特征。

第二方面，本申请实施例提供一种音频识别装置，具有实现对应于上述第一方面提供的音频识别方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施方式中，所述音频识别装置包括：

输入输出模块，被配置为获取待处理音频；

处理模块，被配置为对所述待处理音频进行频域转换，得到所述待处理音频的目标频域声学特征，以及对所述待处理音频进行特征提取，得到所述待处理音频的目标音频属性特征；将所述目标频域声学特征和所述目标音频属性特征进行特征融合，得到目标音频特征；对所述目标音频特征进行识别，得到识别结果，所述识别结果用于指示所述待处理音频是否为伪造。

第三方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面提供的音频识别方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的音频识别方法。

第五方面，本申请实施例提供一种包含指令的计算机程序产品，计算机程序产品包括程序指令，当该程序指令在计算机或处理器上运行时，使得计算机执行上述第一方面提供的音频识别方法。

第六方面，本申请实施例提供一种芯片，该芯片中包括与终端设备的收发器耦合的处理器，用于执行本申请实施例第一方面提供的音频识别方法。

第七方面，本申请实施例提供一种芯片系统，该芯片系统包括处理器，用于支持终端设备实现上述第一方面中所涉及的功能，例如，生成或者处理上述第一方面提供的音频识别方法中所涉及的信息。

在一种可能的设计中，上述芯片系统还包括通信接口，用于输入和/或输出信息。

在一种可能的设计中，上述芯片系统还包括存储器，该存储器用于保存终端设备必需的程序指令和数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

相较于现有技术，本申请实施例中，先对获取的待处理音频进行频域转换，得到具备音频频域表征的目标频域声学特征，以及对待处理音频进行特征提取，得到待处理音频的目标音频属性特征，再将目标频域声学特征和目标音频属性特征进行特征融合，得到最终用来识别的目标音频特征。由于该目标频域声学特征能够表征待处理音频的音频频域特征，该目标音频属性特征能够表征多维音频信息，而该多维音频信息能够包含更丰富音频特征，因此，当对目标频域声学特征和目标音频属性特征进行融合后，得到的目标音频特征会包含更丰富及全面的音频表征。所以，相较于相关技术中简单的基于单一的音频特征进行识别而言，本申请实施例在音频识别模型对目标音频特征进行识别时，会因为该目标音频特征具备包含更丰富及全面的音频表征这一特性而使得音频识别模型获知音频更丰富及全面的音频特征，因此，本申请实施例由于可以通过包含更丰富及全面的音频表征的目标音频特征进行识别，以准确判定待处理音频是否为伪造，因此可以提高对音频进行伪造痕迹检测的准确性，使得误识别率低，识别敏感度更高。

附图说明

通过参考附图阅读本申请实施例的详细描述，本申请实施例的目的、特征和优点将变得易于理解。其中：

图1为本申请实施例中音频识别方法的一种音频识别系统示意图；

图2为本申请实施例的音频识别方法的一种流程示意图；

图3为本申请实施例的音频识别方法的一种音频分帧示意图；

图4为本申请实施例的音频识别方法的另一种音频分帧示意图；

图5为本申请实施例的音频识别方法的一种音频识别模型训练示意图；

图6为本申请实施例的音频识别方法的一种音频识别模型应用示意图；

图7为本申请实施例的音频识别方法的一种音频识别模型优化示意图；

图8为本申请实施例的音频识别方法的另一种流程示意图；

图9为本申请实施例的音频识别方法的另一种流程示意图；

图10为本申请实施例的音频识别方法的另一种流程示意图；

图11为本申请实施例的音频识别装置的一种结构示意图；

图12为本申请实施例的计算设备的一种结构示意图；

图13为本申请实施例中手机的一种结构示意图；

图14为本申请实施例中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一置信度区间和第第二置信度区间分别表示为不同的置信度区间，其他类似)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合，通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例还提供一种音频识别方法、相关装置及存储介质，可应用于能够对音频鉴伪的场景下的音频识别系统，该音频识别系统可包括音频识别装置，该音频识别装置可以至少用于对待处理音频进行识别，以判定待处理音频是否为伪造，其中，音频识别装置可为基于待处理音频进行识别，得到判定待处理音频是否为伪造的识别结果的应用程序，或为安装了基于待处理音频进行识别，得到判定待处理音频是否为伪造的识别结果的应用程序的服务器或终端设备；该应用程序例如是音频识别模型，该音频识别装置还可为部署了音频识别模型的服务器或终端设备，本申请实施例以部署了音频识别模型的服务器对待处理音频进行识别，得到判定待处理音频是否为伪造的识别结果为例，部署了音频识别模型的终端设备对待处理音频进行识别可以参考针对服务器中对待处理音频进行识别，不作赘述。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明：

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

现有技术中音频识别一般是使用较单一的音频特征对模型进行训练，然后通过训练后的模型基于较单一的音频特征进行识别，这样会使得模型学习到的知识局限性较大，或使得音频特征包含一些不重要的信息，造成模型学习偏差，从而导致训练后的模型对音频识别的准确率较低。

相较于现有技术，本申请实施例中，可以对长时音频进行分帧及设定多阈值来对音频进行检测，并且融合频域声学特征及预训练语音模型提取的音频属性特征，得到包含更丰富及全面的音频表征的音频特征，通过音频识别模型基于包含更丰富及全面的音频表征的音频特征准确判定待处理音频是否为伪造，可以在一定程度上提升音频识别模型的综合性能，可以提高对音频进行伪造痕迹检测的准确性，使得误识别率低，识别敏感度更高。

在一些实施方式中，以音频识别装置集成在服务器10为例，参照图1，本申请实施例提供的音频识别方法可基于图1所示的一种音频识别系统实现。该音频识别系统可以包括服务器10和终端设备20。该服务器10可以包括音频识别装置，该服务器10可以部署音频识别程序或音频识别模型，例如基于机器学习的方法训练得到的音频识别模型。

其中，以电话防诈骗的应用场景为例，服务器10可以接收终端设备20发送的通话的音频，将通话的音频作为待处理音频，然后服务器10可以提取待处理音频的目标频域声学特征，以及通过预训练语音模型提取待处理音频的目标音频属性特征，此时服务器10可以将目标频域声学特征和目标音频属性特征进行特征融合，得到最终用来识别的包含更丰富及全面的音频表征的目标音频特征，最后服务器10可以通过音频识别模型对目标音频特征进行识别，得到判定待处理音频是否为伪造识别结果，即通话的音频是否为伪造。由于可以通过包含更丰富及全面的音频表征的目标音频特征进行识别，以准确判定待处理音频是否为伪造，因此可以提高对音频进行伪造痕迹检测的准确性，使得误识别率低，识别敏感度更高。若通话的音频为伪造，则服务器10可以向终端设备20发送提示信息，以便终端设备20可以显示提示信息，以提醒用户当前通话为电话诈骗，避免用户遭受不必要的损失，提高了通话的安全性。

需要说明的是，本申请实施例涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(英文全称：Content Delivery Network，英文简称：CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Personal Communication Service，英文简称：PCS)电话、无绳电话、会话发起协议(英文全称：Session initialization Protocol，英文简称：SIP)话机、无线本地环路(英文全称：Wireless Local Loop，英文简称：WLL)站、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)等设备。

参照图2，图2为本申请实施例提供的一种音频识别方法的流程示意图。该方法可由音频识别装置执行，可应用于需要鉴伪的音频识别场景，通过获取待处理音频的目标频域声学特征和目标音频属性特征，并对目标频域声学特征和目标音频属性特征进行融合，得到包含更丰富及全面的音频表征的目标音频特征，基于目标音频特征进行识别，得到识别结果。该音频识别方法可以包括步骤S101至S104：

步骤101，音频识别装置获取待处理音频。

其中，待处理音频可以是需要进行识别的音频，以识别音频是否是伪造，或者识别音频中包含的说话人声音是否是伪造等。该待处理音频可以包括说话人声音(可以简称为人声)的音频，待处理音频可以是经过人声检测、去噪、滤波或分帧等预处理后的音频，或者是未经预处理的音频，具体在此处不作限定。

待处理音频的获取方式可以包括但不仅局限于以下方式：音频识别装置从用于存储音频的数据库中获取需要进行识别的音频，得到待处理音频；或者，音频识别装置可以接收终端设备发送的用户说话录入的音频，得到待处理音频；或者，音频识别装置可以通过爬虫技术从网上抓取需要进行识别的音频，得到待处理音频，等等。

由于长时音频过长会影响识别的准确性，因此为了提高音频识别的准确性，避免音频过长影响识别的准确性，音频识别装置可以预先对需要识别的音频进行分帧等预处理，并将预处理后的音频作为待处理音频。在一些实施方式中，音频识别装置获取待处理音频，可以包括：

S11、获取原始音频。

S12、若原始音频的长度大于预设长度阈值，则对原始音频进行分帧处理，得到多个音频帧，将多个音频帧作为待处理音频。

S13、若原始音频的长度小于或等于预设长度阈值，则将原始音频作为待处理音频。

具体来说，音频识别装置可以从数据库中获取原始音频，或者接收终端设备发送的用户说话录入的原始音频等；音频识别装置判断原始音频的长度是否大于预设长度阈值，该预设长度阈值可以根据实际需求进行灵活设置，在此处不作限定。

若原始音频的长度大于预设长度阈值，则说明原始音频过长，属于长时音频，此时音频识别装置可以对原始音频进行分帧处理，得到多个音频帧，将多个音频帧作为待处理音频，通过对长时音频做分帧处理，以便后续可以对长时音频做到准确及客观的识别，从而可以准确判定待处理音频是否为伪造。

其中，分帧方式可以根据实际需求进行设置，例如，如图3所示，可以按照预设步长进行滑窗方式对长时音频进行截取，得到多个音频帧，预设步长可以是大于0且小于滑窗的窗口长度。又例如，如图4所示，可以按照步长为0进行滑窗方式对长时音频进行截取，得到多个音频帧。

若原始音频的长度小于或等于预设长度阈值，则说明原始音频属于短时音频，此时音频识别装置不需要对原始音频进行分帧处理，可以直接将原始音频作为待处理音频。

需要说明的是，为了减少音频噪声干扰，音频识别装置还可以对原始音频进行噪、滤波等预处理，以将原始音频中的噪声去除。当需要对音频中包含的说话人声音是否是伪造时，音频识别装置还可以检测原始音频中是否存在人声，当检测到原始音频中不存在人声时，可以不对原始音频进行后续的识别，或者输出未存在人声的提示信息。当检测到原始音频中存在人声时，音频识别装置可以进一步判断原始音频的长度是否大于预设长度阈值，以在原始音频的长度大于预设长度阈值，执行对原始音频的分帧操作。

步骤102，音频识别装置对待处理音频进行频域转换，得到待处理音频的目标频域声学特征，以及对待处理音频进行特征提取，得到待处理音频的目标音频属性特征。

在得到待处理音频后，音频识别装置可以对待处理音频进行一系列信号处理，如对待处理音频进行频域转换，以将待处理音频从时域转换到频域，从而可以在频域维度获取待处理音频的目标频域声学特征，该目标频域声学特征可以是以特征矩阵的形式、列表形式或以其他形式存储，在此处不做限定。当待处理音频包括多帧音频帧时，音频识别装置可以分别对每帧音频帧进行频域转换，并在频域维度获取每帧音频帧对应的目标频域声学特征。

其中，该目标频域声学特征可以用于表征音频在频域维度的音色和音调等特征，频域声学特征可以是常数Q倒谱系数(Constant Q Cepstral Coefficients，CQCC)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、或者线性频率倒谱系数(Linear Frequency Cepstral Coefficient，LFCC)等。

以及，音频识别装置可以对待处理音频进行特征提取，得到待处理音频的目标音频属性特征。当待处理音频包括多帧音频帧时，音频识别装置可以分别对每帧音频帧进行特征提取，得到每帧音频帧对应的目标音频属性特征。其中，目标音频属性特征可以用于表征音频的语义、音色及音调等多维的音频信息，该目标音频属性特征可以是以特征矩阵的形式、列表形式或以其他形式存储，在此处不做限定。

在得到待处理音频后，音频识别装置可以通过预训练语音模型对待处理音频进行特征提取，得到待处理音频的目标音频属性特征，该预训练语音模型可以是经过训练后的wav2vec模型或者是其他语音模型，在此处不作限定。

由于预训练语音模型的处理效率高，且预训练语音模型经过训练后可以提高特征提取的准确性，因此为了提高目标音频属性特征获取的准确性和效率，可以通过预训练语音模型提取待处理音频的目标音频属性特征，在一些实施方式中，音频识别装置对待处理音频进行特征提取，得到待处理音频的目标音频属性特征，可以包括：

S21、通过预训练语音模型对待处理音频进行多层卷积层的逐层特征提取，得到多层属性特征。

S22、对多层属性特征进行加权融合，得到待处理音频的目标音频属性特征。

具体来说，通过预训练语音模型对待处理音频进行多层卷积层的逐层特征提取，得到多层属性特征，可以对多层属性特征进行加权融合，得到待处理音频的目标音频属性特征，或者直接将最后一层层属性特征作为待处理音频的目标音频属性特征，基于预训练语音模型经过训练后学习到音频特征提取的先验知识，不仅提高了目标音频属性特征获取的准确性，而且得到的目标音频属性特征能够更好的表征音频。

步骤103，音频识别装置将目标频域声学特征和目标音频属性特征进行特征融合，得到目标音频特征。

在得到待处理音频的目标频域声学特征和目标音频属性特征后，音频识别装置可以将目标频域声学特征和目标音频属性特征进行特征融合，从而可以得到音频表征更加丰富和全面的目标音频特征。当待处理音频包括多帧音频帧时，可以得到每帧音频帧对应的目标频域声学特征和目标音频属性特征，此时可以将每帧音频帧对应的目标频域声学特征和目标音频属性特征，在特征深度维度上进行特征拼接，得到音频表征更加丰富和全面的目标音频特征。

其中，特征融合方式可以是将待处理音频的频域声学特征和音频属性特征，在特征深度维度上进行特征拼接，得到目标音频特征。例如，可以将M×N维度的频域声学特征与R×N的音频属性特征，在特征深度维度上进行特征拼接，得到(M+R)×N目标音频特征，使得目标音频特征的音频表征更加丰富和全面，能够全量表征音频属性，N表示待处理音频的帧数，M表示频域声学特征的特征深度，R表示音频属性特征的特征深度。

步骤104，音频识别装置对目标音频特征进行识别，得到识别结果。

其中，识别结果用于指示待处理音频是否为伪造。

在一些实施方式中，该识别结果还可以包括真伪标签和置信度等，该真伪标签用于表示待处理音频是否是伪造，例如，若真伪标签为0，则表明待处理音频不是伪造，若真伪标签为1，则表明待处理音频是伪造。当需检测待处理音频中包含的说话人声音是否为目标用户的真实声音时，该真伪标签用于表示待处理音频是否为目标用户的真实声音，例如，若真伪标签为0，则表明待处理音频为目标用户的真实声音，若真伪标签为1，则表明待处理音频不为用户的真实声音。其中，置信度可以包括待处理音频为伪造对应的置信度和待处理音频不为伪造对应的置信度。

由于融合了目标频域声学特征和目标音频属性特征进行识别，使得目标音频特征的音频表征更加丰富和全面，能够全量表征音频属性，因此，通过包含更丰富及全面的音频表征的目标音频特征对待处理音频进行识别，可以准确判定待处理音频是否为伪造，可以了对音频进行伪造痕迹检测的准确性。

针对电话防诈骗的应用场景，音频识别装置可以对通话的音频进行识别，当识别结果为通话的音频为伪造说话人声音(即伪造音频)时，可以输出提示信息，以提醒用户当前通话为电话诈骗，使得用户及时止损，避免用户遭受不必要的损失，提高了通话的安全性。

由于音频识别模型具有较高的处理效率，且音频识别模型经过训练后可以学习到音频识别的先验知识，从而可以提高对音频识别的准确性，因此为了提高音频识别的准确性和效率，音频识别装置可以通过训练后的音频识别模型，对目标音频特征进行识别，从而得到待处理音频的第一置信度，音频识别装置可以基于第一置信度确定待处理音频是否为伪造。在一些实施方式中，对目标音频特征进行识别，得到识别结果，可以包括：

S41、通过音频识别模型，对目标音频特征进行识别，得到待处理音频的第一置信度。

其中，第一置信度可以用于表征待处理音频与真实音频(例如目标用户的真实说话声音)之间的相似度。音频识别模型可以是具有音频鉴伪能力的深度学习模型，例如，该音频识别模型可以是音频鉴伪模型，音频鉴伪模型可以为基于查找的卷积神经网络(Lookup-based Convolutional Neural Network，LCNN)或声纹模型(ECAPA-TDNN)等。

在利用音频识别模型对目标音频特征进行识别之前，可以预先对音频识别模型进行训练，为了提高音频识别模型训练的鲁棒性和泛化性，音频识别装置可以通过音频表征丰富和全面的音频特征预先对音频识别模型进行训练，使得音频识别模型可以学习到更更丰富和全面的音频特征的先验知识。在一些实施方式中，通过音频识别模型，对目标音频特征进行识别之前，可以先对音频识别模型进行训练，包括：

a1、获取音频训练集。

音频识别装置可以从数据库中获取多个音频训练样本，得到音频训练集，或者接收终端设备发送的多个音频训练样本，得到音频训练集，或者通过爬虫技术从网上抓取多个音频训练样本，得到音频训练集等，该音频训练样本真实音频，例如，目标用户说话的真实声音。

a2、提取音频训练集中各个音频训练样本的频域声学特征和音频属性特征。

音频识别装置可以对频训练集中各个音频训练样本进行傅里叶变换等一系列信号处理，以将音频训练样本从时域转换到频域，从而可以在频域维度提取音频训练样本的频域声学特征，该频域声学特征可以是以特征矩阵的形式、列表形式或以其他形式存储，在此处不做限定。其中，该频域声学特征可以用于表征音频在频域维度的音色和音调等特征，频域声学特征可以是CQCC、MFCC、或者LFCC等。

以及，音频识别装置可以通过预训练语音模型wav2vec提取音频训练集中各个音频训练样本的音频属性特征，音频属性特征可以用于表征音频的语义、音色及音调等多维的音频信息，该音频属性特征可以是以特征矩阵的形式、列表形式或以其他形式存储，在此处不做限定。

a3、获取特征集，特征集包括多个音频特征，每个音频特征基于同一个音频训练样本的频域声学特征和音频属性特征融合得到。

音频识别装置可以获取特征集，特征集包括多个音频特征，例如，在得到音频训练样本的频域声学特征和音频属性特征后，可以将每个音频特征基于同一个音频训练样本的频域声学特征和音频属性特征进行特征融合，从而可以得到音频表征更加丰富和全面的音频特征。

a4、基于特征集对音频识别模型进行训练，得到训练后的音频识别模型。

音频识别装置可以基于音频特征对音频识别模型如LCNN进行训练，得到训练后的音频识别模型。例如，针对用户A、用户B和用户C的音频训练样本，可以将用户A的音频训练样本的频域声学特征和音频属性特征进行特征融合，得到用户A的音频特征；将用户B的音频训练样本的频域声学特征和音频属性特征进行特征融合，得到用户B的音频特征；将用户C的音频训练样本的频域声学特征和音频属性特征进行特征融合，得到用户C的音频特征；然后让音频识别模型分别学习用户A、用户B和用户C的音频特征，以便后续可以使得音频识别模型准确识别某个音频是否是用户A的伪造音频，或者是否是用户B的伪造音频，是否是用户C的伪造音频，通过频域声学特征和音频属性特征融合来对音频识别模型进行训练，使得音频识别模型可以学习到更更丰富和全面的音频特征的先验知识，可以提高音频识别模型的鲁棒性和泛化性。

可选的，在本申请的一些实施例中，在对音频识别模型训练的过程中，为了提高音频识别模型训练的可靠性，可以通过真实标签和预测标签之间的差异最小化来调整音频识别模型的参数，使得音频识别模型的预测结果可以向真实真实标签靠拢。具体地，基于特征集对音频识别模型进行训练，得到训练后的音频识别模型，包括：

a41、获取音频训练样本的真实标签。

其中，真实标签可以是特征集中音频训练样本对应的说话人声音的标签，例如，若音频训练样本包含的音频为用户A的真实声音，则真实标签为0，若音频训练样本包含的音频伪造用户A的声音，则真实标签为1。

a42、对特征集中各个音频特征的进行识别，得到音频训练集中各个音频训练样本的预测标签。

其中，预测标签可以是音频识别模型对音频训练样本预测得到说话人声音的置信度，预测标签的取值范围可以是0至1(包括0和1)。

a43、获取真实标签与预测标签之间的差异信息；根据差异信息，调整音频识别模型的参数，得到训练后的音频识别模型。

其中，差异信息可以是真实标签与预测标签是一致还是不一致，或者是，真实标签与预测标签之间的差值。

在对音频识别模型进行训练的过程中，音频识别装置可以获取特征集中音频训练样本预先设置的真实标签，以及通过音频识别模型对特征集中各个音频特征的进行识别(即预测)，得到音频训练集中各个音频训练样本的预测标签(例如置信度)，然后音频识别装置可以将真实标签与预测标签进行比较，以获取真实标签与预测标签之间的差异信息(例如差值)，此时可以根据差异信息构建损失函数，基于损失函数调整音频识别模型的参数，直至损失收敛，即满足差异信息最小化的条件时停止训练，得到训练后的音频识别模型。

本实施例通过融合了频域声学特征和音频属性特征得到的音频特征，对音频识别模型进行训练，一方面，可以使音频识别模型具有一定的先验知识，避免坍塌到不重要的特征上；另一方面，可以提升音频识别模型的表征性能，更全面的表征音频属性，使音频识别模型学习更全面的知识，避免较大范围的偏差，进而提升模型的鲁棒性和泛化性，当遇到未知音频时，音频识别模型仍可以保持较高的检测准确率。

例如，如图5所示，以音频识别模型为音频鉴伪模型为例，在获取到音频训练集后，音频识别装置提取音频训练集中各个音频训练样本的频域声学特征和音频属性特征，将基于同一个音频训练样本的频域声学特征和音频属性特征融合得到多个音频特征，多个音频特征构成特征集，基于特征集对音频鉴伪模型进行训练，得到训练后的音频鉴伪模型，提高了音频鉴伪模型的鲁棒性和泛化性。

需要说明的是，音频训练样本可以是长度小于或等于预设长度阈值短时音频，也可以是长度大于预设长度阈值的长时音频，该预设长度阈值可以根据实际需求进行灵活设置，在此处不作限定。当音频训练样本为长时音频时，可以对音频训练样本进行分帧处理，以使得音频训练样本包含的音频的长度均长度小于或等于预设长度阈值。每个音频训练样本均设置有对应的标签，该标签可以用于表征音频训练样本为是否为目标用户(即说话人)的真实声音的真实标签。

S42、基于第一置信度得到识别结果。

音频识别装置通过训练后的音频识别模型，对目标音频特征进行识别得到第一置信度后，可以基于第一置信度生成待处理音频的识别结果，例如，生成的识别结果中包含置信度，还可以包含真伪标签等。

例如，如图6所示，以音频识别模型为音频鉴伪模型为例，音频识别装置可以对原始音频进行分帧处理，得到包含多个音频帧的待处理音频，在频域维度提取待处理音频中每个音频帧对应的目标频域声学特征，以及通过预训练语音模型提取待处理音频中每个音频帧对的目标音频属性特征，然后将目标频域声学特征和目标音频属性特征进行特征融合，得到目标音频特征，将目标音频特征输入训练后的音频鉴伪模型，以通过训练后的音频鉴伪模型进行多阈值判断，实现对待处理音频的识别，得到判定待处理音频是否为伪造的识别结果。通过音频鉴伪模型基于包含更丰富及全面的音频表征的目标音频特征进行识别，可以准确判定待处理音频是否为伪造，提高了对音频进行伪造痕迹检测的准确性，使得误识别率低，识别敏感度更高。

当待处理音频包括多个音频帧时，可以对多个音频帧通过多阈值判断来鉴伪，避免单纯在多置信度中选择最高置信度作为待处理音频最终的置信度而会提升误报率以及降低容错率，可以提高音频鉴伪的准确性。在一些实施方式中，第一置信度包括各个音频帧的第二置信度，基于第一置信度得到识别结果，可以包括：

b1、确定各个音频帧的第二置信度所属的阈值区间。

b2、根据各个音频帧的第二置信度所属的阈值区间，确定识别结果，识别结果用于指示待处理音频是否存在符合预设伪造条件的音频帧。

当待处理音频包括多个音频帧时，音频识别装置可以基于对多个音频帧进行多阈值判断的逻辑进行鉴伪(可以称为推理)，从而可以对音频做到准确及客观的检测，该多个音频帧可以是对待处理音频进行分帧得到。

具体地，在得到多个音频帧的第二置信度后，音频识别装置可以确定各个音频帧的第二置信度所属的阈值区间，该阈值区间可以包括多个，每个阈值区间的取值范围互不重合，且多个阈值区间构成连续的阈值范围，该阈值区间可以根据实际需求进行灵活设置，在此处不做限定。

然后，音频识别装置可以根据各个音频帧的第二置信度所属的阈值区间，确定待处理音频是否为伪造音频，从而得到待处理音频的识别结果。其中，置信度(score)的取值范围可以为[0，1]。通过多阈值判断来确定待处理音频是否为伪造音频，即判断待处理音频为真实(real)还是伪造(fake)，实现通过多阈值判断来鉴伪，可以提高音频鉴伪的准确性。避免了单纯在多置信度中选择最高置信度作为待处理音频最终的置信度而会提升误报率以及降低容错率，使得无法准确的进行音频鉴伪。

在基于各个音频帧的第二置信度所属的阈值区间来确定识别结果的过程中，由于对多个音频帧通过多阈值判断来鉴伪时，音频帧较多而容易混乱，因此，可以通过多阈值判断结合列表更新方式，并基于表现更直观的更新后的列表对音频进行鉴伪，由于列表存储的直观性，使得可读性更高，更便于统计各个音频帧的第二置信度所属的阈值区间来确定识别结果，因此可以提高音频鉴伪的效率。在一些实施方式中，根据各个音频帧的第二置信度所属的阈值区间，确定识别结果，可以包括：

b21、若多个音频帧中存在至少一个第二置信度不小于目标置信度阈值的第一音频帧，则确定第一音频帧符合预设伪造条件，并将第一标音频帧更新至第一列表中。

其中，目标置信度阈值可以根据实际需求进行灵活设置，在此处不做限定，例如，目标置信度阈值可以取0.5。在得到多个音频帧对应的第二置信度后，音频识别装置可以判断多个音频帧中是否存在至少一个第二置信度不小于目标置信度阈值的第一音频帧。

若多个音频帧中存在至少一个第二置信度不小于目标置信度阈值的第一音频帧，则确定第一音频帧符合预设伪造条件，即第一音频帧为伪造音频帧，并将第一标音频帧更新至第一列表中，该第一列表可以是伪造列表fake_list。

b22、若多个音频帧中存在至少一个第二置信度小于目标置信度阈值的第二音频帧，确定第二音频帧不符合预设伪造条件，并将第二标音频帧更新至第二列表中。

若多个音频帧中存在至少一个第二置信度小于目标置信度阈值的第二音频帧，确定第二音频帧不符合预设伪造条件，即第二音频帧不是伪造的音频帧，并将第二标音频帧更新至第二列表中，该第二列表可以是真实表real_list。

b23、根据第一列表和第二列表，确定待处理音频是否符合预设伪造条件，得到识别结果。

音频识别装置可以根据第一列表和第二列表，确定待处理音频是否符合预设伪造条件，得到识别结果。例如，若第一列表为空，则确定待处理音频不符合预设伪造条件；若第二列表为空，则确定待处理音频符合预设伪造条件。

例如，当音频识别模型针对某个音频帧输出的score大于或等于0.5时，可以将该音频帧及其对应的score存入第一列表fake_list，当音频识别模型针对某个音频帧输出的score小于0.5时，可以将该音频帧及其对应的score存入第二列表real_list，在对多个音频帧判断并存储完毕后，若fake_list为空，则判定待处理音频为真实音频real，置信度为real_list中的最小值min(real_list)；若real_list为空，则判定待处理音频为伪造音频fake，置信度为fake_list中的最大值max(fake_list)。通过将多个音频帧对应的置信度与目标置信度阈值的比对来确定待处理音频是否为伪音频，即判断待处理音频为真实(real)还是伪造(fake)。

由于通过多阈值判断来鉴伪，可以避免单纯在多置信度中选择最高置信度作为待处理音频最终的置信度而会提升误报率以及降低容错率，因此可以提高音频鉴伪的准确性，并且通过多阈值判断结合表现更直观的列表更新方式，并基于表现更直观的更新后的列表对音频进行鉴伪，由于列表存储的直观性，使得可读性更高，使得通过列表可以快速统计并判定各个音频帧的第二置信度所属的阈值区间，达到快速鉴伪的目的，可以提高音频鉴伪的效率。

由于第一列表中已经更新有符合预设伪造条件的第一音频帧，以及第二列表中已经更新有部符合预设伪造条件的第二音频帧，因此，可以分别统计第一列表和第二列表中音频帧的置信度和数量等信息，以便基于统计结果准确地确定待处理音频是否符合预设伪造条件，在一些实施方式中，根据第一列表和第二列表，确定待处理音频是否符合预设伪造条件，可以包括：

b231、获取第一列表中音频帧的第一总量。

b232、基于第一总量，以及根据平均置信度、目标数量、以及第二列表中音频帧的第二总量中的至少一项，确定待处理音频是否符合预设伪造条件，平均置信度为算第一列表中各个音频帧的平均置信度，目标数量为第一列表中置信度属于预设置信度区间的音频帧的目标数量。

其中，目标数量可以包括第一列表中置信度位于第一置信度区间的音频帧的第一数量、置信度位于第二置信度区间的音频帧的第二数量、以及置信度位于第三置信度区间的音频帧的第三数量等，第一置信度区间、第二置信度区间和第三置信度区间组成小于目标置信度阈值的置信度取值范围，且互不重合。

具体来说，若第一列表和第二列表不为空，则音频识别装置可以统计第一列表中音频帧的第一总量fake_count，以及第二列表中音频帧的第二总量real_count。

音频识别装置还可以计算第一列表中音频帧的平均置信度：sample_score＝np.mean(fake_list)。

以及统计第一列表中置信度位于第一置信度区间的音频帧的第一数量：fakescore_count1＝sum(i>阈值1for i in fake_list)，i>阈值1即为第一置信度区间。

以及统计第一列表中置信度位于第二置信度区间的音频帧的第二数量：fakescore_count2＝sum(i>＝阈值2for i in fake_list)，i>＝阈值2即为第二置信度区间。

以及统计第一列表中置信度位于第三置信度区间的音频帧的第三数量：fakescore_count3＝sum(i>＝阈值3for i in fake_list)，i>＝阈值3即为第三置信度区间。

其中，第一置信度区间、第二置信度区间和第三置信度区间组成小于目标置信度阈值的置信度取值范围，且互不重合，第三置信度区间，第一置信度区间、第二置信度区间和第三置信度区间的具体取值可以根据实际需求进行灵活设置，在此不做限定。

由于在多阈值判断的过程中，为了充分及合理利用第一总量、平均置信度、目标数量、第二总量进行准确鉴伪，基于第一总量，以及根据平均置信度、目标数量、以及第二列表中音频帧的第二总量中的至少一项，确定待处理音频是否符合预设伪造条件，包括以下至少一项：

c1、若平均置信度大于第一阈值，且目标数量大于或等于第一总量的一半，则确定待处理音频符合预设伪造条件；

具体来说，若平均置信度sample_score大于第一阈值(例如取值为0.5)，且第二数量fakescore_count2大于或等于第一总量的一半(0.5*fake_count)，第一总量fake_count大于1，即sample_score>0.5and fakescore_count2>＝(0.5*fake_count)and fake_count>1，则确定待处理音频符合预设伪造条件；否则，确定待处理音频不符合预设伪造条件。

c2、若第一总量大于或等于第二总量的第一预设倍数，则确定待处理音频符合预设伪造条件。

具体来说，若第一总量fake_count大于或等于第二总量real_count的第一预设倍数(例如3倍)，即fake_count>＝(3*real_count)，则确定待处理音频符合预设伪造条件，第一预设倍数大于1；否则，确定待处理音频不符合预设伪造条件。

c3、若目标数量大于或等于第二阈值，且第一总量大于第三阈值，则确定待处理音频符合预设伪造条件，第三阈值大于第二阈值，第二阈值大于第一阈值；或者，

具体来说，若第三数量fakescore_count3大于或等于第二阈值(例如取值为2)，且第一总量fake_count大于第三阈值(例如取值为3)，即fakescore_count3>＝2)and fake_count>3，则确定待处理音频符合预设伪造条件；否则，确定待处理音频不符合预设伪造条件。

c3、若目标数量大于或等于第一总量的第二预设倍数，且第一总量大于第四阈值，则确定待处理音频符合预设伪造条件，第二预设倍数小于第一预设倍数，第四阈值大于第三阈值。

具体来说，若第一数量fakescore_count1大于或等于第一总量fake_count的第二预设倍数(例如取值为0.8)，且第一总量fake_count大于第四阈值(例如取值为5)，即fakescore_count1>＝(0.8*fake_count)and fake_count>5，则确定待处理音频符合预设伪造条件，否则，确定待处理音频不符合预设伪造条件。第四阈值大于第三阈值，第三阈值大于第二阈值，第二阈值大于第一阈值，第二预设倍数小于第一预设倍数。

其中，第一阈值、第二阈值、第三阈值、第四阈值、第一预设倍数、以及第二预设倍数等，均可以根据实际需求进行灵活设置，具体在此处不做限定。

综上，音频识别模型推理过程中，当待处理音频被分帧为多个音频帧时，可以创建两个评分表score list，分别为真实列表real_list和伪造列表fake_list。当音频识别模型针对某个音频帧输出的score大于或等于0.5时，可以将该音频帧及其对应的score存入第一列表fake_list，当音频识别模型针对某个音频帧输出的score小于0.5时，可以将该音频帧及其对应的score存入第二列表real_list，在对多个音频帧判断并存储完毕后，

1)若fake_list为空，则判定待处理音频为real，置信度为min(real_list)；

2)若real_list为空，则判定待处理音频为fake，置信度为max(fake_list)；

3)若fake_list和real_list均不为空则统计以下指标：

sample_score＝np.mean(fake_list)；

fakescore_count1＝sum(i>阈值1for i in fake_list)；

fakescore_count2＝sum(i>＝阈值2for i in fake_list)；

fakescore_count3＝sum(i>＝阈值3for i in fake_list)；

并且，存在以下任一种情况均判别为fake，置信度为max(fake_list)，否则判定为real，置信度为min(real_list)：

3.1)sample_score>0.5and fakescore_count2>＝(0.5*fake_count)and fake_count>1；

3.2)fake_count>＝(3*real_count)；

3.3)fakescore_count3>＝2)and fake_count>3；

3.4)fakescore_count1>＝(0.8*fake_count)and fake_count>5。

本申请实施例对于长时音频可以进行分帧处理并结合多阈值判断逻辑来鉴伪，因此，可以对长时音频做到准确及客观的检测，与单纯在多置信度中选择最高置信度作为音频最终的置信度相比，降低了误报率，尤其是在开集数据(未经过训练)和实网数据(互联网)会很大程度提升容错率，使得音频识别模型在遇到长音频时，仍然可以准确的对音频进行鉴伪，提高了音频鉴伪的准确性。

在得到待处理音频是否为伪造的识别结果后，可以利用识别出不是伪造的音频对音频合成模型进行训练，在一些实施方式中，对目标音频特征进行识别，得到识别结果之后，音频识别方法还包括：

d1、当待处理音频不符合预设伪造条件时，将待处理音频作为音频合成模型的训练样本。

d2、通过训练样本对音频合成模型进行训练，得到训练后的音频合成模型。

针对音频合成的应用场景，当音频识别装置通过音频识别模型进行音频识别得到的识别结果为待处理音频不符合预设伪造条件时，说明待处理音频不是伪造音频，比如为某用户的真实声音，此时，可以将待处理音频作为音频合成模型的训练样本，通过训练样本对音频合成模型进行训练，得到训练后的音频合成模型。例如，可以将训练样本的提示信息输入音频合成模型，通过音频合成模型生成音频，将生成的音频与训练样本进行比对，根据生成的音频与训练样本之间的差异来调整音频合成模型的参数，直至音频与训练样本之间的差异最小化时停止训练，使得训练后的音频合成模型可以准确生成所需的音频。本实施例通过识别待处理音频为真后，输给音频合成模型进行训练，从而可以获取到可靠的音频对模型进行精准训练，以提高音频合成模型生成所需的音频的准确性。

在对音频合成模型进行训练后，可以利用音频合成模型的训练结果反馈给音频识别模型进行优化，在一些实施方式中，通过训练样本对音频合成模型进行训练，得到训练后的音频合成模型之后，音频识别方法还包括：

e1、通过训练后的音频合成模型生成目标用户对应的目标音频。

e2、获取目标音频与目标用户对应的真实音频之间的相似度。

e3、根据相似度调整训练后的音频识别模型的参数，得到优化后的音频识别模型。

在训练得到训练后的音频合成模型后，可以通过训练后的音频合成模型生成目标用户对应的目标音频，然后获取目标音频与目标用户对应的真实音频之间的相似度，以判断目标音频与真实音频是否来自同一用户，基于相似度可以使得音频合成模型获知合成效果，根据相似度调整训练后的音频识别模型的参数，即基于合成效果来调整训练后的音频识别模型的参数，以对音频识别模型进行优化，从而可以获取质量更高的音频进行模型优化，使得优化后的音频识别模型可以更加准确对音频进行鉴伪。

例如，如图7所示，以音频识别模型为音频鉴伪模型为例，首先在音频鉴伪阶段，可以通过训练后的音频鉴伪模型对待识别的音频进行鉴伪，若该音频为假，例如为目标用户的伪造声音，则可以丢弃该音频；若该音频为真，例如为目标用户的真实声音，则可以进入训练音频合成模型的阶段，此时可以将待识别的音频作为训练样本，通过训练样本对音频合成模型进行训练，得到训练后的音频合成模型。然后进入优化音频鉴伪模型的阶段，可以通过训练后的音频合成模型生成目标用户对应的目标音频，获取目标音频与目标用户的真实音频之间的相似度，基于相似度对训练后的音频鉴伪模型进行优化，得到优化后的音频鉴伪模型。由于可以利用音频鉴伪模型的鉴伪结果为真来提供样本给音频合成模型训练，并通过训练后的音频合成模型生成目标音频，并基于目标音频的生成效果来反馈给音频鉴伪模型，以对音频鉴伪模型进行优化，可以提高优化后的音频鉴伪模型对音频鉴伪的准确性。

又例如，如图8所示，音频识别装置和音频合成装置之间可以进行交互，包括步骤S31至步骤S38，其中，

S31、音频识别装置可以获取待识别的音频。

S32、音频识别装置可以提取待识别的音频的目标频域声学特征和目标音频属性特征，并将目标频域声学特征和目标音频属性特征进行特征融合，得到目标音频特征。

S33、音频识别装置通过训练后的音频识别模型对待识别的音频进行多阈值识别，若识别出该音频为假，例如为目标用户的伪造声音，则可以丢弃该音频。

S34、若识别出该音频为真(即为真实音频)，例如为目标用户的真实声音，则可以将真实音频发送给音频合成装置。

S35、音频合成装置可以将真实音频作为训练样本，通过训练样本对音频合成模型进行训练，得到训练后的音频合成模型，可以通过训练后的音频合成模型生成目标用户对应的目标音频。

S36、音频合成装置可以获取目标音频与目标用户的真实音频之间的相似度。

S37、音频合成装置可以将目标音频与真实音频之间的相似度发送给音频识别装置。

S38、音频识别装置可以基于相似度对训练后的音频识别模型进行优化，得到优化后的音频识别模型。通过音频合成装置和音频识别装置之间的交互，利用音频识别模型的识别结果来提供样本给音频合成模型训练，并通过训练后的音频合成模型生成目标音频，并基于目标音频的生成效果来反馈给音频识别模型，以对音频识别模型进行优化，可以提高优化后的音频识别模型对音频进行伪造痕迹检测的准确性。

本申请实施例中，先对获取的待处理音频进行频域转换，得到具备音频频域表征的目标频域声学特征，以及对待处理音频进行特征提取，得到待处理音频的目标音频属性特征，再将目标频域声学特征和目标音频属性特征进行特征融合，得到最终用来识别的目标音频特征。由于该目标频域声学特征能够表征待处理音频的音频频域特征，该目标音频属性特征能够表征多维音频信息，而该多维音频信息能够包含更丰富音频特征，因此，当对目标频域声学特征和目标音频属性特征进行融合后，得到的目标音频特征会包含更丰富及全面的音频表征。所以，相较于相关技术中简单的基于单一的音频特征进行识别而言，本申请实施例在音频识别模型对目标音频特征进行识别时，会因为该目标音频特征具备包含更丰富及全面的音频表征这一特性而使得音频识别模型获知音频更丰富及全面的音频特征，因此，本申请实施例由于可以通过包含更丰富及全面的音频表征的目标音频特征进行识别，以准确判定待处理音频是否为伪造，因此可以提高对音频进行伪造痕迹检测的准确性，使得误识别率低，识别敏感度更高。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本实施例以音频识别装置集成在服务器为例，应用于电话防诈骗的应用场景，终端设备A与终端设备B之间进行通话，终端设备B在接收到终端设备A发送的通话的音频后，可以请求终端设备B对应的服务器对该通话的音频进行识别，请参阅图9，图9为本申请实施例提供的音频识别方法的流程示意图。该方法流程可以包括：

S11、终端设备A向终端设备B发送通话的音频。

终端设备A可以与终端设备B建立通话连接，终端设备A在接收到用户基于当前通话录入的音频后，可以向终端设备B发送通话的音频。

S12、终端设备B向服务器发送通话的音频。

终端设备B在接收到终端设备A的通话音频后，可以向服务器转发该通话的音频，以便服务器对通话的音频进行识别。

S13、服务器提取音频的频域声学特征和音频属性特征，并融合得到目标音频特征。

服务器可以对通话的音频进行频域转换，并在频域维度提取该音频的频域声学特征(如CQCC特征矩阵)，以及可以通过预训练语音模型(如wav2vec)对通话的音频进行特征提取，得到该音频的音频属性特征(如音频特征矩阵)，然后可以将频域声学特征和音频属性特征进行特征融合，得到音频表征更加丰富和全面的目标音频特征。

S14、服务器通过训练后的音频识别模型基于目标音频特征对音频进行多阈值识别。

服务器可以通过训练后的音频识别模型(如LCNN)，基于目标音频特征，识别通话的音频为目标用户的真实声音的置信度，基于置信度确定通话的音频是否是模仿目标用户的伪造音频。例如，服务器确定音频的置信度所属的阈值区间，根据置信度所属的阈值区间，确定通话的音频是否是模仿某用户的伪造音频。

S15、若通话的音频为伪造音频，则服务器向终端设备B发送提示信息。

S16、终端设备B显示提示信息。

若通话的音频不为伪造音频，则终端设备B继续维持当前通话。若通话的音频为伪造音频，则服务器可以生成通话的音频为伪造音频相关的提示信息，并向终端设备B发送提示信息，终端设备B可以显示提示信息，以提醒用户当前通话为电话诈骗，此时终端设备B还可以自动中止当前通话或者向发起举报等，使得用户及时止损，避免用户遭受不必要的损失，提高了通话的安全性。

需要说明的是，服务器可以也作为终端设备A和终端设备B之间的防火墙，终端设备A可以与终端设备B建立通话连接，终端设备A在接收到用户基于当前通话录入的音频后，可以先向服务器发送通话的音频。服务器提取音频的频域声学特征和音频属性特征，并融合得到目标音频特征，通过训练后的音频识别模型基于目标音频特征对音频进行多阈值识别，若通话的音频为伪造音频，则服务器向终端设备B发送提示信息，还可以阻断终端设备A和终端设备B之间的通话连接，若通话的音频不为伪造音频，则服务器可以将通话的音频发送给终端设备B。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本实施例以音频识别装置集成在终端设备为例，应用于电话防诈骗的应用场景，终端设备A与终端设备B之间进行通话，终端设备B在接收到终端设备A发送的通话的音频后，可以对该通话的音频进行识别，请参阅图10，图10为本申请实施例提供的音频识别方法的流程示意图。该方法流程可以包括：

S21、终端设备A向终端设备B发送通话的音频。

S22、终端设备B提取音频的频域声学特征和音频属性特征，并融合得到目标音频特征。

终端设备B可以对通话的音频进行频域转换，并在频域维度提取该音频的频域声学特征，以及可以通过预训练语音模型对通话的音频进行特征提取，得到该音频的音频属性特征，然后可以将频域声学特征和音频属性特征进行特征融合，得到音频表征更加丰富和全面的目标音频特征。

S23、终端设备B通过训练后的音频识别模型基于目标音频特征对音频进行多阈值识别。

终端设备B可以通过训练后的音频识别模型，基于目标音频特征，识别通话的音频为目标用户真实声音的置信度，基于置信度确定通话的音频是否是模仿目标用户的伪造音频。例如，终端设备B确定音频的置信度所属的阈值区间，根据置信度所属的阈值区间，确定通话的音频是否是模仿某用户的伪造音频。

S24、若通话的音频为伪造音频，则终端设备B显示提示信息。

若通话的音频不为伪造音频，则终端设备B继续维持当前通话。若通话的音频为伪造音频，则终端设备B可以显示通话的音频为伪造音频相关的提示信息，以提醒用户当前通话为电话诈骗，此时终端设备B还可以自动中止当前通话或者向发起举报等，使得用户及时止损，避免用户遭受不必要的损失，提高了通话的安全性。

以上对本申请实施例中一种音频识别方法进行说明，以下对执行上述音频识别方法的音频识别装置(例如服务器)分别进行介绍。

参阅图11，如图11所示的一种音频识别装置的结构示意图，其可应用于需要鉴伪的音频识别场景下的服务器中，通过获取待处理音频的目标频域声学特征和目标音频属性特征，并对目标频域声学特征和目标音频属性特征进行融合，得到包含更丰富及全面的音频表征的目标音频特征，基于目标音频特征进行识别，得到识别结果。在本申请实施例中的音频识别装置能够实现对应于上述图2中所对应的实施例中所执行的音频识别方法的步骤。音频识别装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，该模块可以是软件和/或硬件。该音频识别装置60可包括输入输出模块601和处理模块602，其中，输入输出模块601和处理模块602的功能实现可参考图2所对应的实施例中所执行的操作，此处不作赘述。

输入输出模块601，被配置为获取待处理音频；

处理模块602，被配置为对所述待处理音频进行频域转换，得到所述待处理音频的目标频域声学特征，以及对所述待处理音频进行特征提取，得到所述待处理音频的目标音频属性特征；将所述目标频域声学特征和所述目标音频属性特征进行特征融合，得到目标音频特征；对所述目标音频特征进行识别，得到识别结果，所述识别结果用于指示所述待处理音频是否为伪造。

在一些实施方式中，处理模块602，被配置为通过音频识别模型，对目标音频特征进行识别，得到待处理音频的第一置信度；基于第一置信度得到识别结果。

在一些实施方式中，音频识别装置60还包括：

第一获取模块，被配置为获取音频训练集；

提取模块，被配置为提取音频训练集中各个音频训练样本的频域声学特征和音频属性特征；

第二获取模块，被配置为获取特征集，特征集包括多个音频特征，每个音频特征基于同一个音频训练样本的频域声学特征和音频属性特征融合得到；

第一训练模块，被配置为基于特征集对音频识别模型进行训练，得到训练后的音频识别模型。

在一些实施方式中，第一训练模块，被配置为获取音频训练样本的真实标签；对特征集中各个音频特征的进行识别，得到音频训练集中各个音频训练样本的预测标签；获取真实标签与预测标签之间的差异信息；根据差异信息，调整音频识别模型的参数，得到训练后的音频识别模型。

在一些实施方式中，待处理音频包括多个音频帧，第一置信度包括各个音频帧的第二置信度，处理模块602，被配置为确定各个音频帧的第二置信度所属的阈值区间；根据各个音频帧的第二置信度所属的阈值区间，确定识别结果，识别结果用于指示待处理音频是否存在符合预设伪造条件的音频帧。

在一些实施方式中，处理模块602，被配置为若多个音频帧中存在至少一个第二置信度不小于目标置信度阈值的第一音频帧，则确定第一音频帧符合预设伪造条件，并将第一标音频帧更新至第一列表中；若多个音频帧中存在至少一个第二置信度小于目标置信度阈值的第二音频帧，确定第二音频帧不符合预设伪造条件，并将第二标音频帧更新至第二列表中；根据第一列表和第二列表，确定待处理音频是否符合预设伪造条件，得到识别结果。

在一些实施方式中，处理模块602，被配置为获取第一列表中音频帧的第一总量；基于第一总量，以及根据平均置信度、目标数量、以及第二列表中音频帧的第二总量中的至少一项，确定待处理音频是否符合预设伪造条件，平均置信度为算第一列表中各个音频帧的平均置信度，目标数量为第一列表中置信度属于预设置信度区间的音频帧的目标数量。

在一些实施方式中，处理模块602，被配置为若平均置信度大于第一阈值，且目标数量大于或等于第一总量的一半，则确定待处理音频符合预设伪造条件；若第一总量大于或等于第二总量的第一预设倍数，则确定待处理音频符合预设伪造条件；若目标数量大于或等于第二阈值，且第一总量大于第三阈值，则确定待处理音频符合预设伪造条件，第三阈值大于第二阈值，第二阈值大于第一阈值；或者，若目标数量大于或等于第一总量的第二预设倍数，且第一总量大于第四阈值，则确定待处理音频符合预设伪造条件，第二预设倍数小于第一预设倍数，第四阈值大于第三阈值。

在一些实施方式中，输入输出模块601，被配置为获取原始音频；若原始音频的长度大于预设长度阈值，则对原始音频进行分帧处理，得到多个音频帧，将多个音频帧作为待处理音频；若原始音频的长度小于或等于预设长度阈值，则将原始音频作为待处理音频。

在一些实施方式中，处理模块602，被配置为通过预训练语音模型对待处理音频进行多层卷积层的逐层特征提取，得到多层属性特征；对多层属性特征进行加权融合，得到待处理音频的目标音频属性特征。

在一些实施方式中，音频识别装置60还包括：

样本获取模块，被配置为当待处理音频不符合预设伪造条件时，将待处理音频作为音频合成模型的训练样本；

第二训练模块，被配置为通过训练样本对音频合成模型进行训练，得到训练后的音频合成模型。

在一些实施方式中，音频识别装置60还包括：

生成模块，被配置为通过训练后的音频合成模型生成目标用户对应的目标音频；

相似度获取模块，被配置为获取目标音频与目标用户对应的真实音频之间的相似度；

优化模块，被配置为根据相似度调整训练后的音频识别模型的参数，得到优化后的音频识别模型。

上面从模块化功能实体的角度对本申请实施例中的音频识别装置60进行了描述，下面从硬件处理的角度分别对本申请实施例中的音频识别装置进行描述。

需要说明的是，图11所示的输入输出模块601对应的实体设备可以为收发器、射频电路、通信模块和输入/输出(I/O)接口等，处理模块602对应的实体设备可以为处理器。

图11所示的装置均可以具有如图12所示的结构，当图11所示的音频识别装置60具有如图12所示的结构时，图12中的处理器和收发器能够实现前述对应该装置的装置实施例提供的输入输出模块601和处理模块602等相同或相似的功能，图13中的存储器存储处理器执行上述音频识别方法时需要调用的计算机程序。

本申请实施例还提供了一种终端设备，如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General PacketRadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图13中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了Wi-Fi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有控制执行以上由音频识别装置执行的音频识别方法流程。

本申请实施例还提供了一种服务器，请参阅图14，图14是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器1100的结构。例如，例如上述实施例中由图11所示的音频识别装置60所执行的步骤可以基于该图14所示的服务器结构。例如，该中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取待处理音频；

中央处理器1122对待处理音频进行频域转换，得到待处理音频的目标频域声学特征，以及对待处理音频进行特征提取，得到待处理音频的目标音频属性特征；将目标频域声学特征和目标音频属性特征进行特征融合，得到目标音频特征；对目标音频特征进行识别，得到用于指示所述待处理音频是否为伪造的识别结果。

还可以通过输入输出接口1158发送识别结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

根据本申请的一个方面，提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如上述本申请的音频识别方法。

根据本申请的一个方面，提供了一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，该处理器执行计算机程序时实现本申请的音频识别方法。其中，该计算设备可以是上述的终端设备或服务器。

根据本申请的一个方面，提供了一种芯片，该芯片中包括与终端设备的收发器耦合的处理器，用于执行本申请实施例提供的音频识别方法。本申请实施例还提供一种芯片系统，该芯片系统包括处理器，用于支持终端设备实现上述音频识别方法中所涉及的功能。在一种可能的设计中，上述芯片系统还包括通信接口，用于输入和/或输出信息。在一种可能的设计中，上述芯片系统还包括存储器，该存储器用于保存终端设备必需的程序指令和数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令(即程序指令)，该计算机指令存储在计算机可读存储介质中。计算机设备(可以称为计算设备或计算机)的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序时，全部或部分地产生按照本申请实施例提供的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

获取待处理音频；

2.根据权利要求1所述的音频识别方法，其特征在于，所述对所述目标音频特征进行识别，得到识别结果，包括：

通过音频识别模型，对所述目标音频特征进行识别，得到所述待处理音频的第一置信度；

基于所述第一置信度得到所述识别结果。

3.根据权利要求2所述的音频识别方法，其特征在于，所述通过音频识别模型，对所述目标音频特征进行识别之前，所述方法还包括：

获取音频训练集；

4.根据权利要求2所述的音频识别方法，其特征在于，所述待处理音频包括多个音频帧，所述第一置信度包括各个音频帧的第二置信度，所述基于所述第一置信度得到所述识别结果，包括：

确定各个音频帧的第二置信度所属的阈值区间；

根据所述各个音频帧的第二置信度所属的阈值区间，确定所述识别结果，所述识别结果用于指示所述待处理音频是否存在符合预设伪造条件的音频帧。

5.根据权利要求4所述的音频识别方法，其特征在于，所述根据所述各个音频帧的第二置信度所属的阈值区间，确定所述识别结果，包括：

若所述多个音频帧中存在至少一个第二置信度不小于目标置信度阈值的第一音频帧，则确定所述第一音频帧符合所述预设伪造条件，并将所述第一标音频帧更新至第一列表中；

若所述多个音频帧中存在至少一个第二置信度小于目标置信度阈值的第二音频帧，确定所述第二音频帧不符合所述预设伪造条件，并将所述第二标音频帧更新至第二列表中；

根据所述第一列表和所述第二列表，确定所述待处理音频是否符合所述预设伪造条件，得到所述识别结果。

6.根据权利要求5所述的音频识别方法，其特征在于，所述根据所述第一列表和所述第二列表，确定所述待处理音频是否符合所述预设伪造条件，包括：

获取所述第一列表中音频帧的第一总量；

基于所述第一总量，以及根据平均置信度、目标数量、以及所述第二列表中音频帧的第二总量中的至少一项，确定所述待处理音频是否符合所述预设伪造条件，所述平均置信度为算所述第一列表中各个音频帧的平均置信度，所述目标数量为所述第一列表中置信度属于预设置信度区间的音频帧的目标数量。

7.根据权利要求6所述的音频识别方法，其特征在于，所述基于所述第一总量，以及根据平均置信度、目标数量、以及所述第二列表中音频帧的第二总量中的至少一项，确定所述待处理音频是否符合所述预设伪造条件，包括以下至少一项：

若所述平均置信度大于第一阈值，且所述目标数量大于或等于所述第一总量的一半，则确定所述待处理音频符合所述预设伪造条件；

若所述第一总量大于或等于所述第二总量的第一预设倍数，则确定所述待处理音频符合所述预设伪造条件；

若所述目标数量大于或等于第二阈值，且所述第一总量大于第三阈值，则确定所述待处理音频符合所述预设伪造条件，所述第三阈值大于所述第二阈值，所述第二阈值大于所述第一阈值；或者，

若所述目标数量大于或等于所述第一总量的第二预设倍数，且所述第一总量大于第四阈值，则确定所述待处理音频符合所述预设伪造条件，所述第二预设倍数小于所述第一预设倍数，所述第四阈值大于所述第三阈值。

8.根据权利要求1所述的音频识别方法，其特征在于，所述获取待处理音频，包括：

获取原始音频；

若所述原始音频的长度大于预设长度阈值，则对所述原始音频进行分帧处理，得到多个音频帧，将所述多个音频帧作为待处理音频；

若所述原始音频的长度小于或等于预设长度阈值，则将所述原始音频作为待处理音频。

9.根据权利要求2至8任一项所述的音频识别方法，其特征在于，所述对所述目标音频特征进行识别，得到识别结果之后，所述方法还包括：

当所述待处理音频不符合预设伪造条件时，将所述待处理音频作为音频合成模型的训练样本；

通过所述训练样本对所述音频合成模型进行训练，得到训练后的音频合成模型。

10.根据权利要求9所述的音频识别方法，其特征在于，所述通过所述训练样本对所述音频合成模型进行训练，得到训练后的音频合成模型之后，所述方法还包括：

通过所述训练后的音频合成模型生成目标用户对应的目标音频；

获取所述目标音频与目标用户对应的真实音频之间的相似度；

根据所述相似度调整所述训练后的音频识别模型的参数，得到优化后的音频识别模型。