CN116913287A

CN116913287A - 音频诊断方法、装置、计算机设备和存储介质

Info

Publication number: CN116913287A
Application number: CN202310974747.6A
Authority: CN
Inventors: 徐雪; 江文乐; 杨洁琼; 王心月
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-20

Abstract

本申请涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品，可用于音频处理技术领域，也可用于金融科技领域或其他相关领域。该方法包括：对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据前音频片段序列，得到与待诊断音频片段对应的预测音频片段，提取待诊断音频片段的背景噪声特征；分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理，根据处理后的目标声纹特征、预测音频片段和处理后的背景噪声特，预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签；根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的诊断结果。采用本方法能够提高音频诊断准确率。

Description

音频诊断方法、装置、计算机设备和存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在金融业务场景中，有时候需要对金融系统的音频进行审核，比如贷款面签过程中的音频。为了保证音频内容的有效性，需要对音频进行诊断，避免音频被篡改伪造，影响音频审核结果。

传统技术中，对金融系统的音频进行诊断时，主要是通过单一维度对音频进行诊断，比如检测音频的声纹，判断音频是否伪造。但是，通过这种单一维度的音频诊断方法，容易存在误判或者错判，导致音频诊断准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够音频诊断准确率的音频诊断方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种音频诊断方法。所述方法包括：

获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列；所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段；

对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征；所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征；

分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征；

将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理，得到融合特征，根据所述融合特征，预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签；

根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果。

在其中一个实施例中，所述对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征，包括：

将所述待诊断音频片段和所述前一音频片段，输入预先训练的音频诊断模型中的声纹特征提取网络，得到所述第一声纹特征和所述第二声纹特征，将所述第一声纹特征和所述第二声纹特征进行组合，得到目标声纹特征；

将所述前音频片段序列输入所述预先训练的音频诊断模型中的声音序列预测网络，得到与所述待诊断音频片段对应的预测音频片段；

将所述待诊断音频片段输入所述预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络，得到所述待诊断音频片段的背景噪声特征。

在其中一个实施例中，所述分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征，包括：

将所述目标声纹特征与所述预测音频片段，输入所述预先训练的音频诊断模型中的第一注意力机制处理层，得到处理后的目标声纹特征；

将所述背景噪声特征与所述预测音频片段，输入所述预先训练的音频诊断模型中的第二注意力机制处理层，得到处理后的背景噪声特征；

所述将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理，得到融合特征，根据所述融合特征，预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签，包括：

将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征，输入所述预先训练的音频诊断模型中的拼接层进行拼接处理，得到拼接特征，作为所述融合特征；

将所述融合特征输入所述预先训练的音频诊断模型中的多标签预测层，得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签。

在其中一个实施例中，所述预先训练的音频诊断模型通过下述方式训练得到：

分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练，得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，并将所述预训练声音序列预测网络作为所述声音序列预测网络；

根据所述预训练声纹特征提取网络、所述声音序列预测网络、所述预训练噪声特征提取网络和所述预训练噪声水平建模网络，对所述待训练的音频诊断模型进行更新，得到预训练的音频诊断模型；

将样本音频片段、所述样本音频片段的前一样本音频片段和所述样本音频片段的前样本音频片段序列，输入所述预训练的音频诊断模型，得到所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签；

根据所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及所述样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对所述预训练的音频诊断模型进行训练，得到训练完成的音频诊断模型，作为所述预先训练的音频诊断模型。

在其中一个实施例中，所述根据所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及所述样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对所述预训练的音频诊断模型进行训练，得到训练完成的音频诊断模型，包括：

根据所述预测真实性标签和所述实际真实性标签之间的差异，得到第一损失值，根据所述预测实时性标签和所述实际实时性标签之间的差异，得到第二损失值，以及根据所述预测背噪性标签和所述实际背噪性标签之间的差异，得到第三损失值；

将所述第一损失值、所述第二损失值和所述第三损失值进行融合处理，得到目标损失值；

根据所述目标损失值，对所述预训练的音频诊断模型中除所述声音序列预测网络之外的网络对应的网络参数进行调整，并对调整后的音频诊断模型进行训练，直到达到训练结束条件；

将达到所述训练结束条件的训练后的音频诊断模型，作为训练完成的音频诊断模型。

在其中一个实施例中，所述根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果，包括：

获取所述真实性标签的第一权重、所述实时性标签的第二权重和所述背噪性标签的第三权重；

根据所述第一权重、所述第二权重和所述第三权重，对所述真实性标签对应的分数、所述实时性标签对应的分数和所述背噪性标签对应的分数进行融合处理，得到目标分数；

根据所述目标分数，确定所述待诊断音频片段的音频诊断结果。

在其中一个实施例中，所述根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果，还包括：

获取所述真实性标签对应的分数与第一预设分数之间的第一对比结果、所述实时性标签对应的分数与第二预设分数之间的第二对比结果、所述背噪性标签对应的分数与第三预设分数之间的第三对比结果；

根据所述第一对比结果、所述第二对比结果和所述第三对比结果，确定所述待诊断音频片段的音频诊断结果。

第二方面，本申请还提供了一种音频诊断装置。所述装置包括：

音频获取模块，用于获取金融系统的待诊断音频片段和所述待诊断音频片段的前音频片段序列；所述前音频片段序列中至少包括所述待诊断音频片段的前一音频片段；

特征提取模块，用于对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征；所述目标声纹特征包括所述待诊断音频片段的第一声纹特征和所述前一音频片段的第二声纹特征；

特征处理模块，用于分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征；

标签确定模块，用于将所述处理后的目标声纹特征、所述预测音频片段和所述处理后的背景噪声特征进行融合处理，得到融合特征，根据所述融合特征，预测得到所述待诊断音频片段的真实性标签、实时性标签和背噪性标签；

结果确定模块，用于根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述音频诊断方法、装置、计算机设备、存储介质和计算机程序产品，通过获取金融系统的待诊断音频片段和待诊断音频片段的前音频片段序列；前音频片段序列中至少包括待诊断音频片段的前一音频片段；然后对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据前音频片段序列，得到与待诊断音频片段对应的预测音频片段，以及提取待诊断音频片段的背景噪声特征；目标声纹特征包括待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征；接着分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征；最后将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行融合处理，得到融合特征，根据融合特征，预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签；根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果。这样，通过对待诊断音频片段和待诊断音频片段的前音频片段序列进行一系列分析，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签，有利于从多个音频诊断维度对音频进行诊断，使得最终得到的音频诊断结果更加准确，从而提高了音频诊断准确率；避免了从单一维度对音频进行诊断，容易存在误判或者错判，导致音频诊断准确率较低的缺陷。

附图说明

图1为一个实施例中音频诊断方法的流程示意图；

图2为一个实施例中音频诊断模型的结构示意图；

图3为一个实施例中声纹特征提取网络的结构示意图；

图4为一个实施例中声音序列预测网络的结构示意图；

图5为一个实施例中噪声特征提取网络的结构示意图；

图6为一个实施例中噪声水平建模网络的结构示意图；

图7为一个实施例中音频诊断模型的训练步骤的流程示意图；

图8为另一个实施例中音频诊断方法的流程示意图；

图9为一个实施例中音频诊断装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请提供的音频诊断方法、装置、计算机设备、存储介质和计算机程序产品，可用于金融科技领域，比如从多个音频诊断维度，对金融系统的待诊断音频片段进行分析，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签，进而得到待诊断音频片段的音频诊断结果，综合考虑了多个音频诊断维度，有利于提高音频诊断准确率；也可以用于其他相关领域，比如在音频处理技术领域中，对待诊断音频片段进行一系列分析处理，得到待诊断音频片段的音频诊断结果。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在一个实施例中，如图1所示，提供了一种音频诊断方法，本实施例以该方法应用于服务器进行举例说明；可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器之间的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：

步骤S101，获取金融系统的待诊断音频片段和待诊断音频片段的前音频片段序列；前音频片段序列中至少包括待诊断音频片段的前一音频片段。

其中，金融系统是指银行系统；金融系统的待诊断音频片段是指金融系统中需要进行诊断处理的音频片段，比如贷款面签过程中的音频、办理银行卡过程中的音频等。

其中，待诊断音频片段的前音频片段序列，是指由待诊断音频片段的前N个音频片段所组成的序列；N为大于或者等于2的正整数。例如，待诊断音频片段的前音频片段序列是指待诊断音频片段的前7个音频片段所组成的序列，即(音频片段1，音频片段2，音频片段3，音频片段4，音频片段5，音频片段6，音频片段7)。需要说明的是，待诊断音频片段的前一音频片段是包含在前音频片段序列中的。

具体地，服务器接收终端发送的针对金融系统的待诊断音频片段的音频诊断请求，并根据该音频诊断请求，从金融系统的音频数据库中获取该待诊断音频片段，以及待诊断音频片段的前N个音频片段；将待诊断音频片段的前N个音频片段进行组合，得到待诊断音频片段的前音频片段序列。

举例说明，参考图2，在金融领域中，服务器响应于针对贷款面签音频片段的音频诊断请求，获取该贷款面签音频片段以及该贷款面签音频片段的前音频片段序列，便于后续根据该贷款面签音频片段以及该贷款面签音频片段的前音频片段序列，得到该贷款面签音频片段的音频诊断结果。

步骤S102，对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据前音频片段序列，得到与待诊断音频片段对应的预测音频片段，以及提取待诊断音频片段的背景噪声特征。

其中，目标声纹特征包括待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征。

其中，第一声纹特征用于反映待诊断音频片段的说话人的音色，进而反映待诊断音频片段的说话人的身份信息。第二声纹特征用于反映前一音频片段的说话人的音色，进而反映前一音频片段的说话人的身份信息。需要说明的是，通过对比第一声纹特征和第二声纹特征是否一致，可以判断出待诊断音频片段是否存在声音伪造情况，从而判断出待诊断音频片段的真实性。

其中，预测音频片段是指根据前音频片段序列预测出的当前音频片段。需要说明的是，通过对比待诊断音频片段和预测音频片段是否相似，可以判断出待诊断音频片段是否为突然转换的内容，从而判断出待诊断音频片段的实时性。

其中，背景噪声特征是指待诊断音频片段中背景噪声的声音特征。需要说明的是，根据待诊断音频片段的背景噪声特征，可以判断出待诊断音频片段是否存在较大背景噪声，从而判断出待诊断音频片段的背噪性。

具体地，参考图2，服务器将待诊断音频片段、前一音频片段和前音频片段序列输入预先训练的音频诊断模型，通过音频诊断模型中的第一分支网络(即声纹特征提取网络)对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征，从而得到目标声纹特征；通过音频诊断模型中的第二分支网络(即声音序列预测网络)，对前音频片段序列进行预测处理，得到与待诊断音频片段对应的预测音频片段；通过音频诊断模型中的第三分支网络(即噪声特征提取网络和噪声水平建模网络)，先提取待诊断音频片段的背景噪声，再对待诊断音频片段的背景噪声进行特征提取处理，得到待诊断音频片段的背景噪声特征。

步骤S103，分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征。

其中，通过引入预测音频片段，对目标声纹特征进行注意力机制处理，有利于提高处理后的目标声纹特征的精度。通过引入预测音频片段，对背景噪声特征进行注意力机制处理，有利于提高处理后的背景噪声特征的精度。

需要说明的是，预测音频片段是结合了前面全局的音频特征进行的预测，完全不会受下一时刻的其他声音影响，如突然出现的特大噪声或者电波，所以在具备全局相关性的同时，可以减少突然情况影响，有助于提升处理后的目标声纹特征和处理后的背景噪声特征的精度。

其中，注意力机制处理可以通过变换网络(Transformer)中的注意力机制层实现。

具体地，服务器利用预测音频片段，对目标声纹特征进行注意力机制处理，得到处理后的目标声纹特征；利用预测音频片段，对背景噪声特征进行注意力机制处理，得到处理后的背景噪声特征。

步骤S104，将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行融合处理，得到融合特征，根据融合特征，预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签。

其中，融合特征是指将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行拼接后所得到的特征。

其中，真实性标签可以通过分数表示，用于描述待诊断音频片段的真实性，比如分数越高，真实性越高。实时性标签可以通过分数表示，用于描述待诊断音频片段的实时性，比如分数越高，实时性越高。背噪性标签可以通过分数表示，用于描述待诊断音频片段的背噪性，比如分数越高，背噪性越高，即背景音影响越大。

具体地，服务器将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行拼接处理，得到拼接特征，作为融合特征；对融合特征进行多标签预测，得到三个数字标签，分别是待诊断音频片段的真实性标签、实时性标签和背噪性标签。

例如，服务器通过对比处理后的目标声纹特征中处理后的第一声纹特征和处理后的第二声纹特征之间的一致性，得到待诊断音频片段的真实性标签；通过对比待诊断音频片段与预测音频片段之间的相似性，得到待诊断音频片段的实时性标签；通过对处理后的背景噪声特征进行分析，得到背景噪声分数，作为待诊断音频片段的背噪性标签。

步骤S105，根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果。

其中，真实性标签、实时性标签和背噪性标签，用于整体诊断待诊断音频片段，从而判断出待诊断音频片段是否存在问题。

具体地，服务器对真实性标签、实时性标签和背噪性标签进行加权求和处理，得到一个目标分数；根据目标分数，确定待诊断音频片段的音频诊断结果；比如目标分数较高，表示待诊断音频片段存在问题。

进一步地，服务器还可以将真实性标签、实时性标签和背噪性标签与对应的阈值进行比较，得到三个比较结果；根据三个比较结果，确定待诊断音频片段的音频诊断结果；比如真实性较低、实时性较低和背噪性较高，表示待诊断音频片段存在问题。

上述音频诊断方法中，通过对待诊断音频片段和待诊断音频片段的前音频片段序列进行一系列分析，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签，有利于从多个音频诊断维度对音频进行诊断，使得最终得到的音频诊断结果更加准确，从而提高了音频诊断准确率；避免了从单一维度对音频进行诊断，容易存在误判或者错判，导致音频诊断准确率较低的缺陷。

在一个实施例中，上述步骤S102，对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据前音频片段序列，得到与待诊断音频片段对应的预测音频片段，以及提取待诊断音频片段的背景噪声特征，具体包括如下内容：将待诊断音频片段和前一音频片段，输入预先训练的音频诊断模型中的声纹特征提取网络，得到第一声纹特征和第二声纹特征，将第一声纹特征和第二声纹特征进行组合，得到目标声纹特征；将前音频片段序列输入预先训练的音频诊断模型中的声音序列预测网络，得到与待诊断音频片段对应的预测音频片段；将待诊断音频片段输入预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络，得到待诊断音频片段的背景噪声特征。

其中，预先训练的音频诊断模型，是指从多个音频诊断维度(比如真实性、实时性和背噪性)对待诊断音频片段进行分析的网络模型。参考图2，音频诊断模型中包括音频分析网络和结果融合网络，音频分析网络中包括第一分支网络、第二分支网络、第三分支网络，第一分支网络是指声纹特征提取网络，第二分支网络是指声音序列预测网络，第三分支网络包括噪声特征提取网络和噪声水平建模网络。结果融合网络包括第一注意力机制处理层(比如变换网络中的注意力机制层)、第二注意力机制处理层(比如变换网络中的注意力机制层)、拼接层和多标签预测层。需要说明的是，第一分支网络、第二分支网络和第三分支网络是并行处理的。

其中，声纹特征提取网络用于提取待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征，并对第一声纹特征和第二声纹特征进行一致性检测，从而输出声纹一致性标签，进而判断出待诊断音频片段是否存在声音伪造情况。参考图3，声纹特征提取网络中包括残差块(比如resblock网络)、线性层(比如Linear)、变换网络(比如Transformer)、若干前馈神经网络(比如joint network)和归一化层(比如softmax层)；两层堆叠的残差块，一方面可以降低数据计算量和参数量，另一方面卷积可以很好的对位置信息进行编码，可以取消变换网络的位置编码过程，后面的变换网络可以对音频片段全局进行较好的依赖性建模，最后的归一化层用于获取声纹一致性标签。需要说明的是，在图3中，当前音频片段是指待诊断音频片段，前一音频片段是指待诊断音频片段的前一音频片段。

其中，声音序列预测网络用于根据待诊断音频片段的前音频片段序列，预测得到当前音频片段，作为与待诊断音频片段对应的预测音频片段，便于后续获取待诊断音频片段与预测音频片段之间的相似性，从而判断出待诊断音频片段是否为突然转换的内容，进而判断出待诊断音频片段的实时性。参考图4，声音序列预测网络中包括特征提取层、变换网络中的注意力模块、注意力机制层、拼接层、卷积层和特征重建层。需要说明的是，图4中，音频片段1、音频片段2……音频片段7是指待诊断音频片段的前7个音频片段，预测出的音频是指与待诊断音频片段对应的预测音频片段。

其中，噪声特征提取网络用于提取待诊断音频片段中的背景噪声。参考图5，噪声特征提取网络中包括特征提取层、变换网络中的注意力模块和特征重建层。需要说明的是，在图5中，当前音频片段是指待诊断音频片段，背景噪声是指待诊断音频片段的背景噪声。而且，噪声特征提取网络利用减法从待诊断音频片段中减去分离出的人声(人声更容易建模)，即可得到待诊断音频片段中的背景噪声。

其中，噪声水平建模网络用于对待诊断音频片段中的背景噪声进行分析，得到待诊断音频片段的背景噪声分数(该背景噪声分数可以通过数值表示)，便于后续基于背景噪声分数判断出待诊断音频片段是否存在较大背景噪声，从而判断出待诊断音频片段的背噪性。参考图6，噪声水平建模网络包括特征提取层、卷积层、2倍双三次下采样层、批量标准化层(比如Batch Normalization层)、激活层(比如LReLU层)和全连接层。需要说明的是，在图6中，背景噪声是指待诊断音频片段的背景噪声，数值是指背景噪声分数。

具体地，参考图2，服务器将待诊断音频片段和前一音频片段，输入预先训练的音频诊断模型中的声纹特征提取网络，通过声纹特征提取网络按照图3的处理流程，对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征，并将待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征进行组合，得到目标声纹特征。同时，服务器将前音频片段序列输入预先训练的音频诊断模型中的声音序列预测网络，通过声音序列预测网络按照图4的处理流程，对前音频片段序列中的各个前音频片段(比如音频片段1、音频片段2……音频片段7)进行预测处理，得到与待诊断音频片段对应的预测音频片段。同时，服务器将待诊断音频片段输入预先训练的音频诊断模型中的噪声特征提取网络，通过噪声特征提取网络按照图5的处理流程，对待诊断音频片段进行背景噪声提取处理，得到待诊断音频片段中的背景噪声，并将待诊断音频片段中的背景噪声输入预先训练的音频诊断模型中的噪声水平建模网络，通过噪声水平建模网络按照图6的处理流程，对待诊断音频片段中的背景噪声进行特征提取处理，得到待诊断音频片段的背景噪声特征，即图6中全连接层的输入特征。

本实施例中，通过预先训练的音频诊断模型中的声纹特征提取网络、声音序列预测网络、噪声特征提取网络和噪声水平建模网络，对待诊断音频片段和前音频片段序列进行一系列分析，得到目标声纹特征、预测音频片段、背景噪声特征，便于后续基于目标声纹特征、预测音频片段、背景噪声特征，得到待诊断音频片段的多个音频诊断标签，有利于从多个音频诊断维度对待诊断音频片段进行诊断，从而提高了音频诊断准确率。

在一个实施例中，上述步骤S103，分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征，具体包括如下内容：将目标声纹特征与预测音频片段，输入预先训练的音频诊断模型中的第一注意力机制处理层，得到处理后的目标声纹特征；将背景噪声特征与预测音频片段，输入预先训练的音频诊断模型中的第二注意力机制处理层，得到处理后的背景噪声特征。

具体地，参考图2，服务器将目标声纹特征与预测音频片段，输入预先训练的音频诊断模型中的第一注意力机制处理层，通过第一注意力机制处理层基于预测音频片段，对目标声纹特征进行注意力机制处理，得到处理后的目标声纹特征。同时，服务器将背景噪声特征与预测音频片段，输入预先训练的音频诊断模型中的第二注意力机制处理层，通过第二注意力机制处理层基于预测音频片段，对背景噪声特征进行注意力机制处理，得到处理后的背景噪声特征。

进一步地，上述步骤S104，将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行融合处理，得到融合特征，根据融合特征，预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签，具体包括如下内容：将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征，输入预先训练的音频诊断模型中的拼接层进行拼接处理，得到拼接特征，作为融合特征；将融合特征输入预先训练的音频诊断模型中的多标签预测层，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签。

其中，拼接特征是指将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行拼接后所得到的特征。

其中，多标签预测层是指多标签任务的预测层，用于预测出待诊断音频片段的真实性标签、实时性标签和背噪性标签。

具体地，参考图2，服务器将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征，输入预先训练的音频诊断模型中的拼接层，通过拼接层对处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征这三者进行拼接处理，得到拼接特征，作为融合特征；接着，服务器将融合特征输入预先训练的音频诊断模型中的多标签预测层，通过多标签预测层基于融合特征进行多标签预测处理，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签。

例如，处理后的目标声纹特征中包括处理后的第一声纹特征和处理后的第二声纹特征，服务器根据处理后的第一声纹特征和处理后的第二声纹特征之间的一致性，得到待诊断音频片段的真实性标签；通过对比待诊断音频片段与预测音频片段之间的相似性，得到待诊断音频片段的实时性标签；通过对处理后的背景噪声特征进行全连接处理，得到背景噪声分数，作为待诊断音频片段的背噪性标签。

本实施例中，通过获取待诊断音频片段的真实性标签、实时性标签和背噪性标签，有利于后续根据真实性标签、实时性标签和背噪性标签这三个标签，确定待诊断音频片段的音频诊断结果，从而提高了音频诊断准确率；避免了从单一维度对音频进行诊断，容易存在误判或者错判，导致音频诊断准确率较低的缺陷。

在一个实施例中，如图7所示，本申请提供的音频诊断方法还包括预先训练的音频诊断模型的训练步骤，具体包括如下步骤：

步骤S701，分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练，得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，并将预训练声音序列预测网络作为声音序列预测网络。

其中，预训练声纹特征提取网络，是指对待训练的音频诊断模型中的待训练声纹特征提取网络进行单独预训练后所得到的网络。预训练声音序列预测网络，是指对待训练的音频诊断模型中的待训练声音序列预测网络进行单独预训练后所得到的网络。预训练噪声特征提取网络，是指对待训练的音频诊断模型中的待训练噪声特征提取网络进行单独预训练后所得到的网络。预训练噪声水平建模网络是指对待训练的音频诊断模型中的待训练噪声水平建模网络进行单独预训练后所得到的网络。

具体地，预训练声纹特征提取网络的训练过程如下：服务器获取样本音频片段、样本音频片段的前一样本音频片段、样本音频片段与前一样本音频片段之间的实际声纹一致性标签，比如两个同一声纹的音频片段的声纹一致性标签为1，两个不同声纹的音频片段的声纹一致性标签为0。接着，服务器将样本音频片段、样本音频片段的前一样本音频片段输入如图3所示的待训练声纹特征提取网络，得到样本音频片段的声纹特征和前一样本音频片段的声纹特征，对样本音频片段的声纹特征和前一样本音频片段的声纹特征进行分析，得到样本音频片段和前一样本音频片段之间的预测声纹一致性标签；根据预测声纹一致性标签和实际声纹一致性标签之间的差异，对待训练声纹特征提取网络进行迭代训练，直到达到训练结束条件(比如损失值小于预设阈值、达到预设训练次数等)，则将达到训练结束条件的训练后的声纹特征提取网络，作为预训练声纹特征提取网络。

预训练声音序列预测网络的训练过程如下：服务器获取样本音频片段和样本音频片段的前样本音频片段序列；将前样本音频片段序列输入如图4所示的待训练声音序列预测网络，得到与样本音频片段对应的预测音频片段；根据预测音频片段与样本音频片段之间的差异，对待训练声音序列预测网络进行迭代训练，直到达到训练结束条件，则将达到训练结束条件的训练后的声音序列预测网络，作为预训练声音序列预测网络。

预训练噪声特征提取网络的训练过程如下：服务器获取混合实际背景噪声和人声的音频，作为样本音频片段；将样本音频片段输入如图5所示的待训练噪声特征提取网络，得到样本音频片段的预测背景噪声；根据预测背景噪声和实际背景噪声之间的差异，对待训练噪声特征提取网络进行迭代训练，直到达到训练结束条件，则将达到训练结束条件的训练后的噪声特征提取网络，作为预训练噪声特征提取网络。需要说明的是，在训练时随机处理干净(无人声)噪声进行训练，可以保证样本的丰富性。

预训练噪声水平建模网络的训练过程如下：服务器获取样本背景噪声和样本背景噪声对应的实际背景噪声分数(即噪声水平)，比如一个极端的背景噪声对应的实际背景噪声分数为1，无噪声或者可接受的低噪声对应的实际背景噪声分数为0。接着，服务器将样本背景噪声输入如图6所示的待训练噪声水平建模网络，得到样本背景噪声的预测背景噪声分数；根据预测背景噪声分数和实际背景噪声分数之间的差异，对待训练噪声水平建模网络进行迭代训练，直到达到训练结束条件，则将达到训练结束条件的训练后的噪声水平建模网络，作为预训练噪声水平建模网络。

步骤S702，根据预训练声纹特征提取网络、声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，对待训练的音频诊断模型进行更新，得到预训练的音频诊断模型。

具体地，服务器分别将待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络，替换为预训练声纹特征提取网络、声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，得到更新后的音频诊断模型，作为预训练的音频诊断模型。

步骤S703，将样本音频片段、样本音频片段的前一样本音频片段和样本音频片段的前样本音频片段序列，输入预训练的音频诊断模型，得到样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签。

具体地，服务器将样本音频片段、样本音频片段的前一样本音频片段和样本音频片段的前样本音频片段序列，输入预训练的音频诊断模型中，通过预训练的音频诊断模型中的声纹特征提取网络对样本音频片段和前一样本音频片段进行声纹特征提取处理，得到样本音频片段的第一声纹特征和前一样本音频片段的第二声纹特征，将样本音频片段的第一声纹特征和前一样本音频片段的第二声纹特征进行组合，得到目标样本声纹特征；同时，通过预训练的音频诊断模型中的声音序列预测网络对前样本音频片段序列进行处理，得到与样本音频片段对应的预测样本音频片段；同时，通过预训练的音频诊断模型中的噪声特征提取网络对样本音频片段进行背景噪声提取处理，得到样本音频片段中的样本背景噪声，并将样本音频片段中的样本背景噪声输入预训练的音频诊断模型中的噪声水平建模网络，通过噪声水平建模网络对样本音频片段中的样本背景噪声进行特征提取处理，得到样本音频片段的样本背景噪声特征。然后，服务器通过预训练的音频诊断模型中的第一注意力机制处理层，基于预测样本音频片段，对目标样本声纹特征进行注意力机制处理，得到处理后的目标样本声纹特征；通过预训练的音频诊断模型中的第二注意力机制处理层，基于预测样本音频片段，对样本背景噪声特征进行注意力机制处理，得到处理后的样本背景噪声特征。最后，服务器将处理后的目标样本声纹特征、预测样本音频片段和处理后的样本背景噪声特征，输入待训练的音频诊断模型中的拼接层，通过拼接层对处理后的目标样本声纹特征、预测样本音频片段和处理后的样本背景噪声特征这三者进行拼接处理，得到拼接特征，作为融合特征；接着，服务器将融合特征输入待训练的音频诊断模型中的多标签预测层，通过多标签预测层基于融合特征进行多标签预测处理，得到样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签。

步骤S704，根据样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对预训练的音频诊断模型进行训练，得到训练完成的音频诊断模型，作为预先训练的音频诊断模型。

需要说明的是，在预训练的音频诊断模型的微调过程中，声音序列预测网络是固定不变的。

具体地，服务器根据样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，结合损失函数，计算得到目标损失值；根据目标损失值对预训练的音频诊断模型进行迭代训练，得到训练完成的音频诊断模型，作为预先训练的音频诊断模型。

本实施例中，先对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练，再在得到的预训练的音频诊断模型中的声音序列预测网络固定不变的情况下，对预训练的音频诊断模型进行再次训练，有利于提高通过训练完成的音频诊断模型输出的真实性标签、实时性标签和背噪性标签的准确率，进而提高了音频诊断准确率。

在一个实施例中，上述步骤S704，根据样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对预训练的音频诊断模型进行训练，得到训练完成的音频诊断模型，具体包括如下内容：根据预测真实性标签和实际真实性标签之间的差异，得到第一损失值，根据预测实时性标签和实际实时性标签之间的差异，得到第二损失值，以及根据预测背噪性标签和实际背噪性标签之间的差异，得到第三损失值；将第一损失值、第二损失值和第三损失值进行融合处理，得到目标损失值；根据目标损失值，对预训练的音频诊断模型中除声音序列预测网络之外的网络对应的网络参数进行调整，并对调整后的音频诊断模型进行训练，直到达到训练结束条件；将达到训练结束条件的训练后的音频诊断模型，作为训练完成的音频诊断模型。

其中，训练结束条件是指目标损失值小于预设阈值，当前训练次数达到预设训练次数等。

具体地，服务器根据预测真实性标签和实际真实性标签之间的差异，计算得到第一损失值；根据预测实时性标签和实际实时性标签之间的差异，计算得到第二损失值，以及根据预测背噪性标签和实际背噪性标签之间的差异，计算得到第三损失值；对第一损失值、第二损失值和第三损失值进行加权求和，得到目标损失值；在目标损失值大于或者等于预设阈值的情况下，根据目标损失值，对预训练的音频诊断模型中除声音序列预测网络之外的网络对应的网络参数进行调整，得到调整后的音频诊断模型，并重复执行步骤S703至S704，以对调整后的音频诊断模型进行再次训练，直到通过训练后的音频诊断模型得到的目标损失值小于预设阈值，则结束模型训练，并将该训练后的音频诊断模型，作为训练完成的音频诊断模型。

本实施例中，根据样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对预训练的音频诊断模型进行迭代训练，无需对整个待训练的音频诊断模型进行训练，有利于降低模型训练成本。

在一个实施例中，上述步骤S105，根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果，具体包括如下内容：获取真实性标签的第一权重、实时性标签的第二权重和背噪性标签的第三权重；根据第一权重、第二权重和第三权重，对真实性标签对应的分数、实时性标签对应的分数和背噪性标签对应的分数进行融合处理，得到目标分数；根据目标分数，确定待诊断音频片段的音频诊断结果。

其中，第一权重、第二权重和第三权重之和为1，是通过预先确定的。

其中，目标分数用于整体判断待诊断音频片段是否存在问题，比如目标分数大于预设分数，说明待诊断音频片段存在问题；比如目标分数小于或者等于预设分数，说明待诊断音频片段不存在问题。

具体地，服务器从数据库中，获取真实性标签的第一权重、实时性标签的第二权重和背噪性标签的第三权重；根据第一权重、第二权重和第三权重，对真实性标签对应的分数、实时性标签对应的分数和背噪性标签对应的分数进行加权求和处理，得到目标分数，即目标分数＝真实性标签对应的分数×第一权重+实时性标签对应的分数×第二权重+背噪性标签对应的分数×第三权重；最后，将目标分数与预设分数进行比较，若目标分数大于预设分数，说明待诊断音频片段存在问题，比如真实性较低、实时性较低和背噪性较高；若目标分数小于或者等于预设分数，说明待诊断音频片段不存在问题，比如真实性较高、实时性较高和背噪性较低。

本实施例中，根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果，有利于综合考虑多个音频诊断维度，使得最终得到的音频诊断结果更加准确，进而提高了音频诊断准确率。

在一个实施例中，上述步骤S105，根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果，还包括如下内容：获取真实性标签对应的分数与第一预设分数之间的第一对比结果、实时性标签对应的分数与第二预设分数之间的第二对比结果、背噪性标签对应的分数与第三预设分数之间的第三对比结果；根据第一对比结果、第二对比结果和第三对比结果，确定待诊断音频片段的音频诊断结果。

其中，第一预设分数、第二预设分数和第三预设分数均不相同。

其中，第一对比结果用于衡量真实性高低，第二对比结果用于衡量实时性高低，第三对比结果用于衡量背噪性高低(或者安静度高低)。第一对比结果、第二对比结果和第三对比结果，用于从三个维度判断待诊断音频片段是否存在问题。

具体地，服务器从数据库中获取第一预设分数、第二预设分数和第三预设分数；接着，将真实性标签对应的分数与第一预设分数进行比较，得到第一对比结果；将实时性标签对应的分数与第二预设分数进行比较，得到第二对比结果；将背噪性标签对应的分数与第三预设分数进行比较，得到第三对比结果；根据第一对比结果、第二对比结果和第三对比结果，确定待诊断音频片段的音频诊断结果。例如，若待诊断音频片段的真实性和实时性均较低，或者待诊断音频片段的背噪性较高，说明待诊断音频片段存在问题。

进一步地，在对音频的三个标签的要求较严格的场景中，服务器还可以在任何一个标签不符合要求的情况下，确认待诊断音频片段存在问题，比如待诊断音频片段的真实性较低，或者待诊断音频片段的实时性较低，或者待诊断音频片段的背噪性较高，则确认待诊断音频片段存在问题。

本实施例中，分别将真实性标签、实时性标签和背噪性标签与对应的预设分数进行比较，得到三个对比结果，进而根据三个对比结果，确定待诊断音频片段的音频诊断结果，有利于综合考虑多个音频诊断标签的对比结果，从而提高了音频诊断准确率，避免了从单一维度对音频进行诊断，导致音频诊断准确率较低的缺陷。

在一个实施例中，如图8所示，提供了另一种音频诊断方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S801，获取金融系统的待诊断音频片段和待诊断音频片段的前音频片段序列；前音频片段序列中至少包括待诊断音频片段的前一音频片段。

步骤S802，将待诊断音频片段和前一音频片段，输入预先训练的音频诊断模型中的声纹特征提取网络，得到第一声纹特征和第二声纹特征，将第一声纹特征和第二声纹特征进行组合，得到目标声纹特征。

步骤S803，将前音频片段序列输入预先训练的音频诊断模型中的声音序列预测网络，得到与待诊断音频片段对应的预测音频片段。

步骤S804，将待诊断音频片段输入预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络，得到待诊断音频片段的背景噪声特征。

步骤S805，将目标声纹特征与预测音频片段，输入预先训练的音频诊断模型中的第一注意力机制处理层，得到处理后的目标声纹特征。

步骤S806，将背景噪声特征与预测音频片段，输入预先训练的音频诊断模型中的第二注意力机制处理层，得到处理后的背景噪声特征。

步骤S807，将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征，输入预先训练的音频诊断模型中的拼接层进行拼接处理，得到拼接特征，作为融合特征。

步骤S808，将融合特征输入预先训练的音频诊断模型中的多标签预测层，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签。

步骤S809，根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果。

在一个实施例中，为了更清晰阐明本申请实施例提供的音频诊断方法，以下以一个具体的实施例对该音频诊断方法进行具体说明。在一个实施例中，参考图2，本申请还提供了一种多模态的音频诊断方法，通过训练一个包括多个音频诊断分支网络和结果融合网络的音频诊断模型，通过音频诊断模型中的多个音频诊断分支网络，从不同音频诊断维度对待诊断音频片段进行诊断，最后根据多个音频诊断分支网络的音频诊断结果，进行音频整体判断，得到待诊断音频片段的最终诊断结果。具体内容如下：

将音频诊断任务定义为多模态学习，而非单任务，用更多的音频特征来加强表征，并且借助预训练，联合训练和微调，提高模型精度，以及降低模型训练成本。整体网络可以分为两个部分，分别为音频分析网络和结果融合网络。

音频分析网络分为三个分支，分别进行声纹判断，实时判断和环境判断。第一个分支使用基于变换网络的声纹识别算法，对长时间上下文音频的时域和频域进行建模，并对声纹进行一致性检测，其中特征提取部分后续用于整体训练。第二个分支使用基于变换网络的声音序列预测算法，处理前阶段的音频序列，以预测当前阶段的音频，且预测出的音频可以和当前音频片段进行余弦值计算，以获取这两者之间的相似性，从而判断是否为突然转换的内容，进而判断实时性。第三个分支使用深度学习语音分离算法提取音频的背景噪声，然后将背景噪声输入基于变换网络的噪声水平建模网络，获取背景噪声的分数，分数越低则噪声越低，比如安静环境对应的分数为0。

结果融合网络用于将第一分支的声纹特征、第三分支的背景音特征与第二分支的预测音频进行注意力机制操作；注意这里训练的时候，第二分支是固定的，原因是预测音频是结合了前面全局的音频特征进行的预测，完全不会受下一时刻的其他声音影响，如突然出现的特大噪声或者电波，所以在具备全局相关性的同时，可以减少突然情况影响，有助于提升第一分支和第三分支的精度；然后将三个分支的结果拼接在一起，经过多标签任务的预测层，获取三个数字标签，即真实性标签、实时性标签和背噪性标签，这三者用于诊断整体音频。

在训练过程中：第一个分支初始网络使用音频和声纹判别结果标签先进行训练(人声部分)；第二个分支初始网络使用音频序列进行训练(全音频)；第三个分支中的第一个网络使用有背景噪声的音频集进行训练，输入为混合背景噪声和人声的音频，标签为背景噪声；第三个分支中的第二个网络使用背景噪声作为输入，噪声水平作为标签(背景部分)。整体训练：系统将音频做好处理后，按要求调度输入整体网络，将三个标签作为训练目标进行联合训练和微调，从而完成多任务的优化。

上述多模态的音频诊断方法，通过综合考虑多个维度的音频诊断结果，有利于从多个诊断维度对音频进行诊断，使得最终得到的音频诊断结果更加准确，从而提高了音频诊断准确率；避免了从单一维度对音频进行诊断，容易存在误判或者错判，导致音频诊断准确率较低的缺陷。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频诊断方法的音频诊断装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频诊断装置实施例中的具体限定可以参见上文中对于音频诊断方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种音频诊断装置，包括：音频获取模块910、特征提取模块920、特征处理模块930、标签确定模块940和结果确定模块950，其中：

音频获取模块910，用于获取金融系统的待诊断音频片段和待诊断音频片段的前音频片段序列；前音频片段序列中至少包括待诊断音频片段的前一音频片段。

特征提取模块920，用于对待诊断音频片段和前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据前音频片段序列，得到与待诊断音频片段对应的预测音频片段，以及提取待诊断音频片段的背景噪声特征；目标声纹特征包括待诊断音频片段的第一声纹特征和前一音频片段的第二声纹特征。

特征处理模块930，用于分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征。

标签确定模块940，用于将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征进行融合处理，得到融合特征，根据融合特征，预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签。

结果确定模块950，用于根据真实性标签、实时性标签和背噪性标签，确定待诊断音频片段的音频诊断结果。

在一个实施例中，特征提取模块920，还用于将待诊断音频片段和前一音频片段，输入预先训练的音频诊断模型中的声纹特征提取网络，得到第一声纹特征和第二声纹特征，将第一声纹特征和第二声纹特征进行组合，得到目标声纹特征；将前音频片段序列输入预先训练的音频诊断模型中的声音序列预测网络，得到与待诊断音频片段对应的预测音频片段；将待诊断音频片段输入预先训练的音频诊断模型中的噪声特征提取网络和噪声水平建模网络，得到待诊断音频片段的背景噪声特征。

在一个实施例中，特征处理模块930，还用于将目标声纹特征与预测音频片段，输入预先训练的音频诊断模型中的第一注意力机制处理层，得到处理后的目标声纹特征；将背景噪声特征与预测音频片段，输入预先训练的音频诊断模型中的第二注意力机制处理层，得到处理后的背景噪声特征；

标签确定模块940，还用于将处理后的目标声纹特征、预测音频片段和处理后的背景噪声特征，输入预先训练的音频诊断模型中的拼接层进行拼接处理，得到拼接特征，作为融合特征；将融合特征输入预先训练的音频诊断模型中的多标签预测层，得到待诊断音频片段的真实性标签、实时性标签和背噪性标签。

在一个实施例中，本申请提供的音频诊断装置还包括模型训练模块，用于分别对待训练的音频诊断模型中的待训练声纹特征提取网络、待训练声音序列预测网络、待训练噪声特征提取网络和待训练噪声水平建模网络进行单独预训练，得到预训练声纹特征提取网络、预训练声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，并将预训练声音序列预测网络作为声音序列预测网络；根据预训练声纹特征提取网络、声音序列预测网络、预训练噪声特征提取网络和预训练噪声水平建模网络，对待训练的音频诊断模型进行更新，得到预训练的音频诊断模型；将样本音频片段、样本音频片段的前一样本音频片段和样本音频片段的前样本音频片段序列，输入预训练的音频诊断模型，得到样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签；根据样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对预训练的音频诊断模型进行训练，得到训练完成的音频诊断模型，作为预先训练的音频诊断模型。

在一个实施例中，模型训练模块，还用于根据预测真实性标签和实际真实性标签之间的差异，得到第一损失值，根据预测实时性标签和实际实时性标签之间的差异，得到第二损失值，以及根据预测背噪性标签和实际背噪性标签之间的差异，得到第三损失值；将第一损失值、第二损失值和第三损失值进行融合处理，得到目标损失值；根据目标损失值，对预训练的音频诊断模型中除声音序列预测网络之外的网络对应的网络参数进行调整，并对调整后的音频诊断模型进行训练，直到达到训练结束条件；将达到训练结束条件的训练后的音频诊断模型，作为训练完成的音频诊断模型。

在一个实施例中，结果确定模块950，还用于获取真实性标签的第一权重、实时性标签的第二权重和背噪性标签的第三权重；根据第一权重、第二权重和第三权重，对真实性标签对应的分数、实时性标签对应的分数和背噪性标签对应的分数进行融合处理，得到目标分数；根据目标分数，确定待诊断音频片段的音频诊断结果。

在一个实施例中，结果确定模块950，还用于获取真实性标签对应的分数与第一预设分数之间的第一对比结果、实时性标签对应的分数与第二预设分数之间的第二对比结果、背噪性标签对应的分数与第三预设分数之间的第三对比结果；根据第一对比结果、第二对比结果和第三对比结果，确定待诊断音频片段的音频诊断结果。

上述音频诊断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待诊断音频片段、真实性标签、实时性标签、背噪性标签、音频诊断结果等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频诊断方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频诊断方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待诊断音频片段和所述前一音频片段进行声纹特征提取处理，得到目标声纹特征，根据所述前音频片段序列，得到与所述待诊断音频片段对应的预测音频片段，以及提取所述待诊断音频片段的背景噪声特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别将所述目标声纹特征、所述背景噪声特征与所述预测音频片段进行注意力机制处理，得到处理后的目标声纹特征和处理后的背景噪声特征，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述预先训练的音频诊断模型通过下述方式训练得到：

5.根据权利要求4所述的方法，其特征在于，所述根据所述样本音频片段的预测真实性标签、预测实时性标签和预测背噪性标签，以及所述样本音频片段的实际真实性标签、实际实时性标签和实际背噪性标签，对所述预训练的音频诊断模型进行训练，得到训练完成的音频诊断模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述真实性标签、所述实时性标签和所述背噪性标签，确定所述待诊断音频片段的音频诊断结果，还包括：

8.一种音频诊断装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。