CN115273892A

CN115273892A - 音频处理方法、装置、设备、存储介质和计算机程序产品

Info

Publication number: CN115273892A
Application number: CN202210893881.9A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-01

Abstract

本申请涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法涉及人工智能的语音处理技术，该音频处理方法包括：通过获取表征音频信号在多个频带上的音频语义信息，也就是获取目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列之后，将目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层，随后根据多个两两频带之间的相似度图层，进行目标检测，可以得到目标音频信号是否与参考音频信号相似的检测结果。本方案能够提升检测两个音频信号是否相似的准确率。

Description

音频处理方法、装置、设备、存储介质和计算机程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着互联网技术的迅速发展，各类视听平台为人们日常观看视频、播放音乐、上传各种视听作品提供了便利。

目前，为保护音频作品版权，视听平台采取了相应措施，主要是通过让审核人员对音频作品进行人为识别和鉴定，这种方式在面对大批量的音频作品时，难以迅速完成审核，效率极低。此外，由于每个人的听觉主观感受不同，对于同一个音频作品，不同审核人员有不同的听觉感受，鉴定结果不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升音频检测的效率与准确性的音频处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

本申请提供了一种音频处理方法。所述方法包括：

获取目标音频信号；

获取所述目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列；所述多频带语义特征序列，表征音频信号在多个频带上的音频语义信息；

将所述目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与所述参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层；

根据所述多个两两频带之间的相似度图层，进行目标检测，得到所述目标音频信号是否与所述参考音频信号相似的检测结果。

本申请还提供了一种音频处理装置。所述装置包括：

信号获取模块，用于获取目标音频信号；

序列获取模块，用于获取所述目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列；所述多频带语义特征序列，表征音频信号在多个频带上的音频语义信息；

计算模块，用于将所述目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与所述参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层；

检测模块，用于根据所述多个两两频带之间的相似度图层，进行目标检测，得到所述目标音频信号是否与所述参考音频信号相似的检测结果。

在一个实施例中，所述序列获取模块，还用于提取所述目标音频信号所包括的每个音频片段各自的时域特征。获取所述每个音频片段的频谱图，提取所述频谱图的频域特征。对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，所述多频带语义特征表征音频片段在多个频带上的音频语义信息。根据所述每个音频片段的多频带语义特征，得到所述目标音频信号的目标多频带语义特征序列。

在一个实施例中，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征。所述序列获取模块，还用于对于每一音频片段，从第一层级开始，将相同层级的时域特征与频域特征进行级联后融合，得到相同层级的交互特征，直至得到最高层级的交互特征后，将每个层级的所述交互特征进行级联后融合，获得所述音频片段的多频带语义特征。

在一个实施例中，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征。所述序列获取模块，还用于将第一层级的时域特征与频域特征级联后融合得到第一层级的交互特征。从第二个层级开始，将当前层级的时域特征、频域特征与上一层级的交互特征级联后融合，得到当前层级的交互特征，直至得到最高层级的交互特征时，基于所述最高层级的交互特征，获得所述音频片段的多频带语义特征。

在一个实施例中，所述序列获取模块，还用于对所述最高层级的交互特征进行通道整合，得到各个频带分别对应的整合特征。对于每个频带，从相应频带所对应的各个整合特征中确定与相应频带对应的最大整合特征和平均整合特征。对于每个频带，将相应频带所对应的最大整合特征和平均整合特征进行叠加处理，得到所述音频片段的多频带语义特征。

在一个实施例中，所述序列获取模块，还用于对每个音频片段进行梅尔频率变换，得到每个音频片段的频谱图。

在一个实施例中，所述计算模块，还用于从所述目标多频带语义特征序列中提取所述多个频带中各频带对应的目标语义特征，从所述参考多频带语义特征序列中提取所述多个频带中各频带对应的参考语义特征；所述语义特征表征同一频带上随时间变化而变化的能量值。对于各频带对应的目标语义特征，分别与各频带对应的参考语义特征计算相似度，得到多个两两频带之间的相似度图层。

在一个实施例中，所述计算模块，还用于对于所述多个频带中的任意两个频带，根据一频带对应的目标语义特征获得多个目标能量值，根据另一频带对应的参考语义特征获得多个参考能量值，将各所述目标能量值分别与各所述参考能量值计算能量值相似度，得到所述一频带与所述另一频带之间的相似度图层。

在一个实施例中，所述检测模块，还用于融合所述多个两两频带之间的相似度图层，得到全频带相似度图层。对所述全频带相似度图层进行目标检测，得到所述目标音频信号是否与所述参考音频信号相似的检测结果。

在一个实施例中，所述检测模块，还用于从所述多个两两频带之间的相似度图层中，获取所述目标音频信号中的第i个音频片段与所述参考音频信号中的第j个音频片段分别对应各个频带的能量值相似度，取最大值作为所述目标音频信号中的第i个音频片段与所述参考音频信号中的第j个音频片段的全频带相似度；其中，所述目标音频信号包含m个音频片段，所述参考音频信号包括n个音频片段，1≤i≤m，1≤j≤n，i、j为整数。根据所述目标音频信号中的各个音频片段分别与所述参考音频信号中各个音频片段的全频带相似度，得到全频带相似度图层。

在一个实施例中，所述检测模块，用于对所述全频带相似度图层进行目标检测。在检测到表征相似音频标记的情况下，得到表示所述目标音频信号与所述参考音频信号相似的检测结果。在未检测到相似音频标记的情况下，得到表示所述目标音频信号与所述参考音频信号不相似的检测结果。

在一个实施例中，所述全频带相似度图层表征所述目标音频信号中的各个音频片段分别与所述参考音频信号中各个音频片段的全频带相似度。所述装置还包括确定模块，所述确定模块，用于在所述检测结果表示所述目标音频信号与所述参考音频信号相似的情况下，根据所述相似音频标记所对应的音频片段，分别确定相似音频片段在所述目标音频信号与所述参考音频信号中的段落位置。

本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标音频信号；

本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标音频信号；

本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标音频信号；

上述音频处理方法、装置、计算机设备、存储介质和计算机程序产品，为检测目标音频信号与参考音频信号之间是否相似，分别获取反映目标音频信号在不同频带上音频语义信息的目标多频带语义特征序列，以及反映参考音频信号在不同频带上音频语义信息的参考多频带语义特征序列。这样，通过对目标多频带语义特征序列所包括的各个频带对应的目标语义特征和参考多频带语义特征序列所包括的各个频带对应的参考语义特征，计算相似度，能够得到多个两两频带所对应的相似度图层。根据多个两两频带所对应的相似度图层，进行目标检测，由于该相似度图层反映了各个频带之间的相似度，能够避免对目标音频信号在频域上进行扰动得出与参考音频信号不准确的检查结果，可以快速且准确地得到关于目标音频信号与参考音频信号之间是否相似的检测结果，相比于通过审核人员对音频信号进行人为识别和鉴定的方式，准确率与检测效率也会更高。

附图说明

图1为一个实施例中音频处理方法的应用环境图；

图2为一个实施例中音频处理方法的流程示意图；

图3为一个实施例中计算相似图层的示意图；

图4为一个实施例中计算全频带相似度图层的示意图；

图5为一个实施例中相似度图层结构的示意图；

图6为一个实施例中目标检测模型的结构的示意图；

图7为一个实施例中全频带相似度图层的示意图；

图8为一个实施例中SSD模型的数据流程图；

图9为一个实施例中获取目标多频带语义特征序列步骤的流程示意图；

图10为一个实施例中音频多频带语义特征提取模型的结构示意图；

图11为一个实施例中应用场景的示意图；

图12为一个实施例中音频处理的流程框图；

图13为一个实施例中音频处理装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的音频处理方法，涉及人工智能(Artificial Intelligence,AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的音频处理方法，具体涉及人工智能的音频处理技术。

本申请旨在检测两个音频信号是否相似，该方法具有较多的应用场景。

例如，针对于大量用户上传至网络在线音乐平台的音乐文件或上传至在线视频平台的音视频作品，为保护平台中版权音乐，可以通过本申请实施例提供的音频处理方法，对上传的音乐文件或音视频作品中的背景音乐进行快速、准确的鉴权检测。尤其是对于一些改编作品，需要具备准确的鉴定能力。

又例如，针对大量用户上传至在线视频平台的视频，通常会配有背景音乐，该背景音乐，可以通过本申请实施例提供的音频处理方法，快速、准确检测出该背景音乐所属的版权音乐。这样，在获取到大量的背景音乐的歌曲信息后，可以统计出受大众喜爱的歌曲，这些歌曲可用于生成背景音乐素材、可用于个性化推荐，从而提升用户体验。

相关技术中，对于检测两个音频信号是否相似，通常采用如下方式：

一、通过人工审核的方式，显然该方式不能进行快速的检测，此外因为每个人的听觉主观感受不同，所以在同一首歌曲下每个审核人员的听觉感应也不同，会一定程度生影响鉴别准确性。

二、将两个音频信号整体上的音频语义特征进行空间距离的计算，也就是音频信号整个频带对应的相似度，这种方式，在面临一定程度上音乐改编尤其是频带扰动时，会导致整体鉴定失效，因为这种改编和扰动会导致全频带的能量变化，从而导致相似度降低，影响检测效果。

本申请实施例提供的音频处理方法，为检测目标音频信号与参考音频信号之间是否相似，分别获取反映目标音频信号在不同频带上音频语义信息的目标多频带语义特征序列，以及反映参考音频信号在不同频带上音频语义信息的参考多频带语义特征序列。这样，通过对目标多频带语义特征序列所包括的各个频带对应的目标语义特征和参考多频带语义特征序列所包括的各个频带对应的参考语义特征，计算相似度，能够得到多个两两频带所对应的相似度图层。根据多个两两频带所对应的相似度图层，进行目标检测，由于该相似度图层反映了各个频带之间的相似度，能够避免对目标音频信号在频域上进行扰动得出与参考音频信号不准确的检查结果，可以快速且准确地得到关于目标音频信号与参考音频信号之间是否相似的检测结果，相比于通过审核人员对音频信号进行人为识别和鉴定的方式，准确率与检测效率也会更高。

本申请实施例提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置，也可以集成在服务器104上，或者集成在云上或其他服务器上。终端102和服务器104均可单独执行该音频处理方法，也可协同执行音频处理方法。

在一个实施例中，终端102可以获取目标音频信号，将目标音频信号发送至服务器104，服务器104获取目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列；多频带语义特征序列，表征音频信号在多个频带上的音频语义信息。随后，服务器104将目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层。接着，服务器104根据多个两两频带之间的相似度图层，进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果。

其中，终端102可以但不限于各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。

在一个实施例中，如图2所示，提供了一种音频处理方法，以该方法应用于计算机设备(计算机设备可以是终端102或服务器104)为例进行说明，包括以下步骤：

步骤202，获取目标音频信号。

其中，目标音频信号是待与参考音频信号进行比对的音频信号。在一个应用场景中，目标音频信号可以为用户上传至多媒体平台的音频信号，例如，计算机设备可以从用户上传的音乐文件中获取目标音频信号，也可以从用户上传的视频文件中获取背景音乐，作为目标音频信号。本申请实施例旨在检测目标音频信号与参考音频信号是否相似，参考音频信号可以是任一音频信号，例如可以是音频库中的任一音频信号。

在一个应用场景中，目标音频信号是待进行版权鉴定的音频信号，参考音频信号是版权音乐或版权音乐中的音乐片段，计算机设备可以获取大量的版权音乐，构建版权音乐库，作为参考音频信号的来源。

可以理解，音频信号是连续时间离散幅值信号，是以时间为自变量、相应的能量值为幅值的一维量化信号。音频信号是一段离散幅值信号，音频信号可以根据需求划分为多个音频片段，每个音频片段也称为一帧，音频信号可以按帧长划分为若干个音频片段。例如，目标音频信号可以按帧长t划分为m帧，参考音频信号可以按帧长t划分为n帧，m与n可以相等，也可以不等。

在一个实施例中，计算机设备在获取到目标音频信号后，可以从大量的版权音频信号中，筛选用于本次与该目标音频信号进行比对的少量的参考音频信号，如1-5个，使用该少量的参考音频信号，分别执行后续的处理步骤。这些筛选出的少量的参考音频信号，均与目标音频信号满足预设匹配条件。该预设匹配条件，可以根据实际需求设置，例如，预设匹配条件可以是目标音频信号中的某一片段(如副歌部分)与版权音频信号中某一片段相似，还可以是目标音频信号的整体音频特征与版权音频信号的整体音频特征相近，音频特征可以用音频信号对应的embedding(映射向量)进行量化表示。

这样，从数据量众多的版权音频信号中初步筛选出与目标音频信号具备一定相似程度的参考音频信号，能够减少检测量，在保证不漏检的情况下，能够极大地提升检测效率。

在一个实施例中，计算机设备基于该目标音频信号和多个版权音频信号，计算任意一个版权音频信号的整体音频特征表示与目标音频信号的整体音频特征表示之间的相似度，将相似度大于预设阈值的版权音频信号作为参考音频信号。相似度可以是采用余弦相似度。

步骤204，获取目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列；多频带语义特征序列，表征音频信号在多个频带上的音频语义信息。

其中，多频带语义特征表征音频信号在多个频带上的音频语义信息。频带是指信号对应的一段频率范围，例如音频信号对应频率0hz-50hz之间的频率范围记为频带A，对应频率50hz-200hz之间的频率范围记为频带B，对应频率200hz-800hz之间的频率范围记为频带C。按照这样的方式以此类推，可以将范围较大的频率划分为多个频带。比如，若音频信号对应的频率范围为0-800hz，则音频信号对应了上述A、B、C这3个频带，每个频带都存在对应的音频语义信息，形成在多个频带上的音频语义信息。

本申请实施例中，多频带语义特征序列，包括多个频带各自对应的语义特征。在目标音频信号包括多个音频片段的情况下，多频带语义特征序列，包括多个频带各自对应的语义特征，该语义特征可称为多片段语义特征，也可以解释为，包括多个音频片段各自对应的多频带语义特征。比如，目标音频信号包括3个音频片段，频带A对应的多片段语义特征为A1 A2 A3，频带B对应的多片段语义特征为B1 B2 B3，频带C对应的多片段语义特征为C1 C2C3，第1个音频片段对应的多频带语义特征为A1 B1 C1，第2个音频片段对应的多频带语义特征为A2 B2 C2，第3个音频片段对应的多频带语义特征为A3 B3 C3，其中A1表示第1个音频片段对应频带A的能量值，其它的类似。

可以理解，对于不同的音乐作品而言，其整体的信号频率范围基本一致，本申请实施例中，目标音频信号整体的信号频率范围与参考音频信号整体的信号频率范围基本一致，那么对应的多个频带也就基本一致。

在一个实施例中，对于获取的目标音频信号与参考音频信号，计算机设备可以通过音频多频带语义特征提取模型，分别提取目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列。

在一个实施例中，计算机设备也可以事先通过音频多频带语义特征提取模型，提取参考音频信号的参考多频带语义特征，将提取的参考多音频语义特征与相应的参考音频信号对应存放到特征库中；在获取到目标音频信号时，通过该音频多频带语义特征提取模型提取目标音频信号的目标多频带语义特征，并从特征库中获取参考音频信号的参考多频带语义特征。

在一个实施例中，对于目标音频信号或参考音频信号，计算机设备可以提取音频信号的时域特征与频域特征，结合时域特征与频域特征进行音频语义信息的提取，得到多频带语义特征序列。可选地，计算机设备可以采用音频多频带语义特征提取模型，结合时域特征与频域特征进行音频语义信息的提取，得到音频信号的多频带语义特征。

在一个实施例中，计算机设备对目标音频信号进行均匀划分得到多个音频片段。对于每个音频片段，计算机设备基于相应音频片段中的多个采样点对应的采样值，通过音频多频带语义特征提取模型提取得到时域特征和频域特征，并通过音频多频带语义特征提取模型对时域特征和频域特征进行至少一次信息交互，得到与相应音频片段对应的多频带语义特征。计算机设备从版权数据库中获取与参考音频信号对应的多频带语义特征序列。

在本实施例中，通过对目标音频信号进行均匀分帧处理，得到帧长度相同的音频片段。这样，确保了后续能够在具有相同时间单位的目标音频信号和参考音频信号中精准定位相似音频标记。通过音频多频带语义特征提取模型，能够对时域特征和频域特征进行交互，得到细节信息更加丰富的多频带语义特征。

步骤206，将目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层。

具体地，计算机设备将目标多频带语义特征序列中，处于相同频带的目标语义特征作为该频带下的目标语义特征。计算机设备将参考多频带语义特征序列中，处于相同频带的参考语义特征作为该频带下的参考语义特征。计算机设备将各个频带对应的目标语义特征，分别与各个频带对应的参考语义特征进行相似度计算，得到多个两两频带之间的相似度图层。

需要说明的是，目标多频带语义特征序列中的各个频带与参考多频带语义特征序列中的各个频带相同。因此，在相似度计算的过程中，每个频带的目标语义特征除了会与不同频带的参考语义特征进行相似度计算之外，均会与相同频带的参考语义特征进行相似度计算，能够完整体现每个频带与所有频带之间的相似情况，从而，能够对后续目标检测提供更多且完整的相似度信息，使得目标检测的结果更加准确。

在一个实施例中，将目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层，包括：从目标多频带语义特征序列中提取多个频带中各频带对应的目标语义特征，从参考多频带语义特征序列中提取多个频带中各频带对应的参考语义特征；语义特征表征同一频带上随时间变化而变化的能量值。对于各频带对应的目标语义特征，分别与各频带对应的参考语义特征计算相似度，得到多个两两频带之间的相似度图层。

具体地，计算机设备基于目标多频带语义特征序列或者参考多频带语义特征序列确定频带数量。对于每个频带，计算机设备从目标多频带语义特征序列中获取处于相应频带中的多个目标语义特征。对于每个频带，计算机设备从参考多频带语义特征序列中，获取处于相应频带中的多个参考语义特征。计算机设备将相应频带所对应的多个目标语义特征分别与多个频带分别对应的参考语义特征进行相似度计算，得到与目标多频带语义特征序列中相应频带对应的多个相似度图层。其中，语义特征为处于同一频带中各个音频片段分别对应的能量值。例如，对于频带A所对应的多个目标语义特征分别为A1、A2、…、An。其中，An为频带A下第n个音频片段对应的目标能量值。

在本实施例中，基于处于同一频带的目标语义特征和参考语义特征，能够反映同一频带下各个时间段内语义特征的变化情况。这样，通过将各频带对应的目标语义特征分别与各个频带对应的参考语义特征计算相似度，能够直观且有效的反映出两两频带之间的相似度情况。

在其中一个实施例中，对于各频带对应的目标语义特征，分别与各频带对应的参考语义特征计算相似度，得到多个两两频带之间的相似度图层，包括：对于多个频带中的任意两个频带，根据一频带对应的目标语义特征获得多个目标能量值，根据另一频带对应的参考语义特征获得多个参考能量值，将各目标能量值分别与各参考能量值计算能量值相似度，得到一频带与另一频带之间的相似度图层。

具体地，对于每个频带，将相应频带下目标音频信号的各个音频片段分别对应的目标能量值，对任意一个频带下参考音频信号的各个音频片段分别对应的参考能量值进行相似度计算，得到相应频带和任意一个频带之间的相似度图层，其中，每个相似度图层中的每个能量值相似度是通过目标音频信号的音频片段对应的频带的能量值和参考音频信号的音频片段对应的频带的能量值所确定的。

其中，相似度计算也可以理解为对两个能量值之间的距离进行计算，如，计算两个能量值的欧式距离。

例如，如图3所示，参照图3，参考音频信号的频带范围记为a～m，参考音频信号包括n个音频片段，目标音频信号的频带范围记为A～M，目标音频信号包括n个音频片段。需要说明的是，a与A是同一个频带，区分大小写是为区分目标音频信号与参考音频信号。对于参考音频信号的参考多频带语义特征序列，存在多个频带对应的参考语义特征，如频带a对应的参考语义特征a1 a2 a3 a4 a5…an，频带b对应的参考语义特征b1 b2 b3 b4 b4…bn，频带m对应的参考语义特征m1 m2 m3 m4 m5…mn。对于目标音频信号的目标多频带语义特征序列，存在多个频带对应的目标语义特征，如频带A对应的目标语义特征为A1 A2 A3 A4A5…An，频带B对应的目标语义特征为B1 B2 B3 B4 B4…Bn，频带M对应的目标语义特征M1M2 M3 M4 M5…Mn。

如图3所示，目标多频带语义特征序列的A频带的目标语义特征A1 A2 A3…An，其中，A1表示目标音频信号中第1个音频片段对应频带A的目标能量值，其它类似。参考多频带语义特征系列的b频带参考语义特征b1 b2 b3…bn，其中，b1表示参考音频信号中第1个音频片段对应频带b的参考能量值，其它类似。对于目标音频信号中的每个频带，将每个目标能量值依次与各个频带的参考能量值进行欧式距离计算，得到一个频带与另一个频带之间的各个能量值相似度，以得到频带A和频带b之间的相似度图层，该相似度图层中包含目标音频信号时间和参考音频信号时间两个时间维度的时间信息。如图3中A1bn为目标音频信号第1个音频片段对应频带A的目标能量值与参考音频信号第n个音频片段对应频带b的参考能量值之间的能量值相似度。

需要说明的是，相似度图层中的每个能量值相似度均是片段与频带共同决定的。

在本实施例中，通过将一频带对应的多个目标能量值与另一频带对应的多个参考能量值进行能量值相似度计算，能够准确反映出来自不同频带的两个能量值的相似情况。这样，基于各个相似度图层所反映的相似情况，有助于后续准确且有效地分析目标音频信号与参考音频信号的相似情况。

步骤208，根据多个两两频带之间的相似度图层，进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果。

其中，目标检测是对全频带相似度图层中的相似音频标记进行识别的检测。该相似音频标记表征了目标音频信号中存在与参考音频信号相似的段落。该相似音频标记可以看作是一个特殊符号，可显示为高亮的斜线。

具体地，计算机设备融合多个两两频带之间的相似度图层，得到全频带相似度图层。计算机设备对全频带相似度图层进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果。

或者，计算机设备对每个相似度图层进行目标检测，得到目标音频信号是否与参考信号相似的检测结果。

在一个实施例中，融合所述多个两两频带之间的相似度图层，得到全频带相似度图层，包括：从多个两两频带之间的相似度图层中，获取目标音频信号中的第i个音频片段与参考音频信号中的第j个音频片段分别对应各个频带的能量值相似度，取最大值作为目标音频信号中的第i个音频片段与参考音频信号中的第j个音频片段的全频带相似度；其中，目标音频信号包含m个音频片段，参考音频信号包括n个音频片段，1≤i≤m，1≤j≤n，i、j为整数。根据目标音频信号中的各个音频片段分别与参考音频信号中各个音频片段的全频带相似度，得到全频带相似度图层。

具体地，计算机设备确定目标音频信号的每个音频片段。计算机设备从多个两两频带之间的相似度图层中，获取参考音频信号的第j个音频片段和目标音频信号的第i个音频片段在各个频带的能量值相似度。计算机设备通过最大池化函数，取能量值相似度最大值作为该第j个音频片段和第i个音频片段在各个频带对应的相似度，即全频带相似度。根据每个音频片段之间的全频带相似度，得到全频带相似度图层。

需要说明的是，为了确保数据分析的有效性，本实施例中的目标音频信号和参考音频信号的时间长度一致，同时，各个帧的帧长度也要确保相同。因此，目标音频信号的每个音频片段与参考音频信号的每个音频片段相同。从而，能够准确分析目标音频信号中各个音频片段与参考音频信号中各个音频片段(即任意两两音频片段之间)的相似情况，确保了音频处理的有效性和准确性。

其中，最大池化函数的维度是基于相似度图层的数量所决定的，如图4所述，现存在N张多频带的相似度图层，通过N×1×1的三维的多个相似度图层的最大池化函数，通过该最大池化函数在整个三维相似度图层中进行池化操作，从上述的第j个音频片段和第i个音频片段在各个频带的能量值相似度，确定能量值相似度最大值，以得到全频带相似度图层。

如图5所示，例如，将目标音频信号分为n个音频片段，参考音频信号分为n个音频片段。将信号的频带范围划分为2个频带，为区分目标音频信号的频带和参考音频信号的频带，令目标音频信号的两个频带分别为频带A和频带B，相应地，令参考音频信号的两个频带分别为频带a、频带b。需要说明的是，a与A是同一个频带，b与B是同一频带，区分大小写是为区分目标音频信号与参考音频信号。频带A的目标语义特征为A1 A2…An、频带B的目标语义特征为B1 B2…Bn。频带a的参考语义特征为a1 a2…an、频带b的参考语义特征为b1 b2…bn。则此时得到4个相似度图层，分别为：是频带A的目标语义特征和频带b的参考语义特征计算得到的相似度图层1、频带A的目标语义特征和频带a的参考语义特征构成的相似度图层2、频带B的目标语义特征和频带b的参考语义特征计算得到的相似度图层3、频带B的目标语义特征和频带a的参考语义特征构成的相似度图层4。其中，每个相似度图层中包含目标音频信号时间和参考音频信号时间两个时间维度的时间信息。比如，对于目标音频信号中的第一个音频片段和参考音频信号的第一个音频片段的能量值相似度分别为：A1b1，A1a1，B1b1，B1a1，取其中相似度最大值作为与目标音频信号中的第一个音频片段和参考音频信号的第一个音频片段对应各个频带的相似度，即目标音频信号中的第一个音频片段和参考音频信号的第一个音频片段对应全频带相似度。以此类推，可以得到任意两个片段对应的全频带相似度，从而得到全频带相似度图层。

在本实施例中，从多个两两频带之间的相似度图层中，通过获取对应第i个音频片段和第j个音频片段的各个频带的能量值相似度，取能量值相似度最大值作为这两个片段各个频带对应的全频带相似度，能够得到由任意两两片段的全频带相似度所构成全频带相似度图层。这样，极大地提高了用于目标检测的相似度图层中特征符号的显著程度，能够抵抗对参考音频信号的频带进行的扰动改编操作，从而，提升了对相似音频标记的精准识别。

在一个实施例中，对全频带相似度图层进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果，包括：对全频带相似度图层进行目标检测。在检测到表征相似音频标记的情况下，得到表示目标音频信号与参考音频信号相似的检测结果。在未检测到相似音频标记的情况下，得到表示目标音频信号与参考音频信号不相似的检测结果。

其中，在两个音频信息存在相似的情况时，在全频带相似度图层中存在相似度特别高的相似音频标记(可以视为短斜线)，在该全频带相似图层中的图像表现为一条高亮的45°角斜线。其中，相似音频标记可以视为标签。

具体地，计算机设备通过训练好的目标检测模型对全频带相似度图层进行目标检测。在检测到表征相似音频标记的情况下，计算机设备确定检测结果为目标音频信号与参考音频信号存在至少一个相似段落。在未检测到相似音频标记的情况下，计算机设备确定检测结果为目标音频信号与参考音频信号不相似。

其中，目标检测模型是一种神经网络模型，该目标检测模型为SSD(Single ShotMultiBox Detector，单次检测器)网络模型，SSD模型是采用VCG16(Visual GeometryGroup16，视觉几何组16)作为基础模型，然后在VCG16模型的基础上新增了卷积层来获得更多的特征图以用于检测。其中，SSD模型是基于一个前向传播的CNN(Convolutional NeuralNetwork，卷积神经网络)网络，该SSD模型首先产生一系列固定大小的边界框(boundingbox)和每个边界框中物体实例的可能性(即得分)。然后，通过非极大值抑制(Non-maximumsuppression)得到最终的预测结果。其中，目标检测模型(SSD模型)的网络结构如图6所示，该网络结构可以分为基础网络和金字塔网络(可视为多个额外的特征层构成)。基础网络即为图6中的VCG16的前4层网络，金字塔是特征图逐渐变小的简单卷积网络，主要有6部分构成，分别是VCG16中的卷积4_3、卷积7、卷积8_2、卷积9_2、卷积10_2、以及最后的平均池化层。该SSD模型进行目标检测时具有三种特点，分别是通过多尺度特征图进行检测(即使用特征金字塔检测方式，从不同尺度的特征图中预测目标的分类和位置)、通过卷积进行检测(在金字塔网络中每个部分都有尺寸为3×3的卷积进行预测，能够得到在某个位置上的一个预测值，该预测值可以是某个分类的得分，也可能是相对于预先框位置的偏差)、预先框和宽高比(对于每个特征图，若每个位置均能预测k个预测框、每个预测框预测c个类别的得分和存在4个与预先框相比较的位置偏移量，则在尺寸为m×n的特征图中可以得到(c+4)×n×m个预测值)。例如，如图6所示的目标检测模型，将尺寸为300×300、通道为3的图像输入至目标检测模型，首先通过池化层5的VGG16基础网络，通过卷积4_3得到38×38×512的第一个预测特征层。其中，与第一个预测特征层对应的分类器个数卷积3×3(3×(类别+4))。通过尺寸为3×3×1024的卷积6(全连接层6)得到输出19×19×1024。通过尺寸为1×1×1024的卷积7(全连接层7)得到19×19×1024的第二个预测特征层。其中，与第二个预测特征层对应的分类器个数卷积3×3(6×(类别+4))。通过尺寸为1×1×255和尺寸为3×3×512-s2所构成的卷积8_2得到10×10×512的第三个预测特征层。通过尺寸为1×1×128和尺寸为3×3×256-s2所构成的卷积9_2得到5×5×256的第四个预测特征层。通过尺寸为1×1×128和尺寸为3×3×256-s2所构成的卷积10_2得到3×3×256的第五个预测特征层。通过全局的平均池化层11得到1×1×256的第六个预测特征层。基于六个预测特征层能够定位到每个类别有7308个先验框，并基于各个先验框，通过非极大值抑制(Non-maximumsuppression)得到最终的预测结果。其中，图6中的72.1mAP 58FPS可以理解为在FPS(Frames Per Second，每单位时间能识别的图像数，可视为检测速度)为58时，mAP(meanaverage precision，平均精确率均值)为72.1。

其中，目标检测模型的训练过程，将在后文进行详细介绍。

例如，计算机设备直接将全频带相似度图层输入至训练好的目标检测模型中进行目标检测，或者，计算机设备将经过二值化处理后的全频带相似度图层输入至训练好的目标检测模型中进行目标检测。在检测到至少一个表征相似音频标记的情况下，计算机设备确定检测结果为目标音频信号与参考音频信号存在至少一个相似段落。在未检测到相似音频标记的情况下，计算机设备确定检测结果为目标音频信号与参考音频信号不相似。

其中，直接将全频带相似度图层输入至训练好的目标检测模型，能够对原始且真实的相似度进行检测处理，确保了目标检测的有效性。将经过二值化处理后的全频带相似度图层输入至训练好的目标检测模型，能够更加直观的表现相似音频标记的特征，从而，能够提高对相似音频标记的敏感程度，有助于对相似音频标记的精准检测。

其中，如图7所示，在全频带相似度图层中检测到四个相似段落。其中，全频带相似度图层中每个点是由参考音频信号中参考音频时间和目标音频信号中目标音频时间所决定的相似度。

在本实施例中，通过训练好的目标检测模型对全频带相似度图层进行目标检测，能够对全频带相似度图层中是否存在相似音频标记进行迅速且准确的检测，确保了目标检测的有效性。

在一个实施例中，全频带相似度图层表征目标音频信号中的各个音频片段分别与参考音频信号中各个音频片段的全频带相似度，方法还包括：在检测结果表示目标音频信号与参考音频信号相似的情况下，根据相似音频标记所对应的音频片段，分别确定相似音频片段在目标音频信号与参考音频信号中的段落位置。

具体地，在检测结果表示目标音频信号与参考音频信号相似的情况下，计算机设备根据相似音频标记所对应的目标音频信号的至少一个音频片段，确定相似音频片段在目标音频信号中的第一时间段。计算机设备根据相似音频标记所对应的参考音频信号的至少一个音频片段，确定相似音频片段在参考音频信号中的第二时间段。计算机设备根据第一时间段确定相似音频片段在目标音频信号中的段落位置，并根据第二时间段确定相似音频片段在参考音频信号中的段落位置。

需要说明的是，相似音频标记所对应的目标音频信号的音频片段数量与相似音频所对应的参考音频信号的音频数量是相同的。相似音频标记可以是由目标音频信号的一个音频片段与参考音频信号的一个音频片段构成，此时，第一时间段为目标音频信号的一个音频片段的时间长度，第二时间段为参考音频信号的一个音频片段的时间长度。相似音频标记也可以是由目标音频信号的连续e个音频片段与参考音频信号的连续e个音频片段所构成的，1≤e＜m，目标音频信号包含m个音频片段，此时，第一时间段为目标音频信号的e个音频片段的总时间长度，第二时间段为参考音频信号的e个音频片段的总时间长度。

例如，在检测结果表征目标音频信号与参考音频信号相似的情况下，计算机设备确定相似音频标记的两个端点，并根据各个端点的坐标位置，确定相似音频标记在目标音频信号中的第一时间段和相似音频标记在参考音频信号中的第二时间段。计算机设备将第一时间段作为相似音频片段在目标音频信号中的段落位置，并将第二时间段作为相似音频片段在参考音频信号中的段落位置。

如图7所示，对于相似音频标记1，该相似音频标记1的两个端点的坐标分别为(100，200)和(220，300)，坐标的单位为毫秒。也就是，一个端点是在参考时刻(参考时刻表征参考音频信号的时刻)为第100毫秒，且目标时刻(目标时刻表征目标音频信号的时刻)为第200毫秒，另一个端点是在参考时刻为第220毫秒，且目标时刻为第300毫秒。因此，第一时间段为从第200毫秒到第300毫秒之间的时间段，第二时间段为从第100毫秒到第220毫秒之间的时间段，即相似音频片段在目标音频信号中的段落位置为第200毫秒到第300毫秒之间的位置，相似音频片段在参考音频信号中的段落位置为第100毫秒到第220毫秒之间的位置。

需要说明的是，在存在多个相似音频标记的第二时间段相同情况下，则说明参考音频信号中的一个段落与目标音频信号的多个段落相似。

在本实施例中，在检测结果表示目标音频信号与参考音频信号相似的情况下，通过对相似音频标记进行定位，能够迅速且准确的识别出全频带相似图层中存在的相似音频片段，极大地降低了整个音频处理的时间成本，从而，大大提高了整个音频处理过程中的效率。

在一个实施例中，计算机设备对每个相似度图层进行目标检测，得到目标音频信号是否与参考信号相似的检测结果，包括：对每个相似度图层进行目标检测，在存在一个相似度图层的检测结果表征目标音频信号与参考音频信号相似的情况下，根据所述相似音频标记所对应的音频片段，分别确定相似音频片段在所述目标音频信号与所述参考音频信号中的段落位置。在存在至少两个相似度图层的检测结果表征目标音频信号与参考音频信号相似的情况下，将表征目标音频信号与参考音频信号相似的相似度图层作为异常图层，并确定每个异常图层中表示目标音频信号与参考音频信号相似的检测结果。确定每个异常图层中相似音频标记所对应的音频片段，对各个异常图层中相似音频标记所对应的音频片段进行整合，确定至少一个整合时间段。根据整合时间段，确定相似音频片段在在目标音频信号与参考音频信号中的段落位置。

在本实施例中，分别对每个相似度图层进行目标检测，能够全面且如实的反映目标音频信号与参考音频信号的相似情况，从而，提高了音频处理的精度。

上述音频处理方法中，为检测目标音频信号与参考音频信号之间是否相似，分别获取反映目标音频信号在不同频带上音频语义信息的目标多频带语义特征序列，以及反映参考音频信号在不同频带上音频语义信息的参考多频带语义特征序列。这样，通过对目标多频带语义特征序列所包括的各个频带对应的目标语义特征和参考多频带语义特征序列所包括的各个频带对应的参考语义特征，计算相似度，能够得到多个两两频带所对应的相似度图层。根据多个两两频带所对应的相似度图层，进行目标检测，由于该相似度图层反映了各个频带之间的相似度，能够避免对目标音频信号在频域上进行扰动得出与参考音频信号不准确的检查结果，可以快速且准确地得到关于目标音频信号与参考音频信号之间是否相似的检测结果，相比于通过审核人员对音频信号进行人为识别和鉴定的方式，准确率与检测效率也会更高。

在一个实施例中，音频多频带语义特征提取模型的训练步骤，包括：构建待确定的音频多频带语义特征提取模型，确定当次第一迭代的多个当次样本音频信号，其中，每个当次样本音频信号携带有对应的当次信号标签。将多个当次样本音频信号输入至待确定的音频多频带语义特征提取模型中，得到多个当次预测结果。基于当次预测结果和当次信号标签，通过第一损失函数，得到当次的第一损失值。在当次的第一损失值不收敛的情况下，基于当次的第一损失值对待确定的音频多频带语义特征提取模型的参数进行调整，进入下一次的第一迭代，将下一第一迭代获取的多个样本音频信号作为当次样本音频信号，返回将多个当次样本音频信号输入至待确定的音频多频带语义特征提取模型中，得到当次的多个预测结果步骤继续执行，直至当次的第一损失收敛时停止，得到训练好的音频多频带语义特征提取模型。

其中，训练音频信号可以从Audioset(音频集)数据集中获取，该数据集是为音频事件检测提供常见的大规模评估任务，并为全面的声音事件词汇提供起点。该数据集是一个由200万个人标记的10秒YouTube视频音轨组成的数据集，其标签来自600多个音频事件类的本体。

其中，该音频多频带语义特征提取模型是以PANNS(Pretrained Audio NeuralNetworks,预训练音频神经网络)系统为基础改造得到的多域多层的音频编码网络，该网络能够实现频域处理支路和时域处理支路的信息结合，从而，可以在不损失初始音频特性的前提下对多频带语义特征序列的提取。其中，PANNS是一种基于大型音频数据集与训练的音频神经网络，其通常用来音频模式识别或者音频帧级别的向量化，作为众多模型前端编码网络。该网络中提出了一种从波形中学习的波形图特征，以及一种波形图，它在音频集标记方面达到了最先进的性能，将地图存档为0.439。同时还研究了PANNS的计算复杂性。还可以被转移到广泛的音频模式识别任务中，并优于以前的一些最先进的系统。此外，能够对新任务的少量数据进行有效的微调。

其中，训练过程是一个分类任务，即通过待确定的音频多频带语义特征提取模型判断样本音频信号是否为音乐的二分类任务。该第一损失函数可以为softmax交叉熵损失函数。通过训练能够判断输入模型中的音频是否为音乐以及音乐的概率是多大，这样，通过二分类的任务，能够使得音频多频带语义特征提取模型学习到语义特征。

在本实施例中，通过对二分类的任务来对音频多频带语义特征提取模型进行训练，实现音频多频带语义特征提取模型对语义特征的学习。这样，基于训练好的音频多频带语义特征提取模型，能够对各个音频信号进行高效且准确的语义特征提取，从而，确保了最终获得的多频带语义特征序列的准确性。

在一个实施例中，目标检测模型的训练步骤，包括：构建待确定的SSD模型，确定当次第二迭代的多个当次样本特征图，其中，每个当次样本特征图携带有对应的当次真实框的位置信息。将当次多个当次样本特征图输入至待确定的SSD模型，得到多个当次先验框的位置信息。基于当次先验框的位置信息和当次真实框的位置信息，通过第二损失函数，得到当次的第二损失值。在当次的第二损失值不收敛的情况下，基于当次的第二损失值对待确定的SSD模型的参数进行调整，进入下一第二迭代，将下一第二迭代获取的多个样本特征图作为当次样本特征图，并返回将当次多个当次样本特征图输入至待确定的SSD模型，得到多个当次先验框的位置信息步骤继续执行，直至当次的第二损失值收敛时停止，得到训练好的SSD模型(即目标检测模型)。

其中，第二损失函数是位置损失和置信度损失的加权和函数。其中，样本特征图也可以从Audioset数据集中获取得到。

需要说明的是，用于目标检测模型训练的样本特征图为具有明显的相似音频标记的相似度图层。每个样本特征图中真实框即是根据相似音频标记的大小所决定的。

其中，在整体上SSD模型的结构可以分为主干模块(backbone)、检测模块(head，用于预测目标的种类和位置)、网络层模块(neck，位于主干网络和检测头之间的网络层)。其中，检测模块包含了用于定位的单元和用于分类的单元。SSD模型的数据流程图，如图8所示，其中，用于定位的单元和用于分类的单元会对每个特征图使用不同的卷积核进行预测。其中，卷积核的数目是由每个特征图上定义的先验框种类的所决定的，比如，图8中的卷积4_3(Conv4_3)输出的特征图，定义了4种先验框，因此，用于定位的单元得到的特征图通道数为4×4，用于分类的单元得到的特征图通道数为4×21。其中，用于分类的单元输出每个先验框的坐标偏移。

其中，特征图分别是6个卷积部分得到的，卷积部分分别为卷积4_3(Conv4_3)、卷积7、卷积8、卷积9、卷积10、平均池化层11。其中，每个卷积部分均得到多个先验框。

在训练的过程中，将携带有真实框的位置信息的样本特征图输入至待确定的SSD模型中。其中，在通过6个卷积部分之后，将每个卷积部分得到的结果分别进行分类处理和定位处理。其中，定位处理是将卷积部分输出的结果依次通过位置的计算(可理解为locs)、排列的计算(可理解为permute)、扁平的计算(可理解为flatten)得到位置信息。分类处理是将卷积部分输出的结果依次通过置信度的计算(可理解为confs)、排列的计算(可理解为permute)、扁平的计算(可理解为flatten)。然后通过第二损失函数计算位置损失和置信度损失的加权和(可理解为Multibox loss)得到损失值，以确定当次迭代是否完成。

其中，对于如图8所示所涉及的一种目标检测模型(即可以理解为是SSD模型)，该目标检测模型可以是通过由卷积1_1、卷积4_3、卷积6、卷积7构成的VGG16、以及多个额外的特征层构成。其中，额外的特征层可以是由卷积8_1和卷积8_2构成的卷积8、也可以是由卷积9_1和卷积9_2构成的卷积9、也可以是由卷积10_1和卷积10_2构成的卷积10、也可以是由卷积11_1和卷积11_2构成的卷积11。例如，基于图8所示的目标检测模型的结构，通过包含有猫的特征的、尺寸为(3，300，300)的样本特征图进行训练，使得通过训练好的模型可以实现对任意一个图像中是否包含猫进行目标检测。具体地，对于每一次迭代均通过下述过程实现：将携带有猫的真实框的位置信息的、且尺寸为(3，300，300)的样本特征图输入至待确定的SSD模型中，通过目标检测模型中分类单元对卷积4_3输出的结果进行第一分类处理，即依次进行L2范数处理、置信度参数为(4*21,38,38)的置信度的计算、排列参数为(38,38,4*21)的排列的计算、扁平参数为(38*38*4*21)的扁平的计算。并基于L2范数处理后确定卷积4_3对应的先验框。同时，通过目标检测模型中定位单元对卷积4_3输出的结果进行第一定位处理，即依次进行位置参数为(4*4,38,38)的位置的计算、排列参数为(38,38,4*4)的排列的计算、扁平参数为(4*4*38*38)的扁平的计算。同样地，通过目标检测模型中分类单元对卷积7输出的结果进行第二分类处理，即依次进行置信度参数为(6*21,19,19)的置信度的计算、排列参数为(19,19,6*21)的排列的计算、扁平参数为(19*19*6*21)的扁平的计算。同时，确定与卷积7对应的先验框。同时，通过目标检测模型中定位单元对卷积7输出的结果进行第二定位处理，即依次进行位置参数为(4*6,19,19)的位置的计算、排列参数为(19,19,4*6)的排列的计算、扁平参数为(4*6*19*19)的扁平的计算。同样地，通过目标检测模型中分类单元对卷积8输出的结果进行第三分类处理，即依次进行置信度参数为(6*21,10,10)的置信度的计算、排列参数为(10,10,6*21)的排列的计算、扁平参数为(6*21*10*10)的扁平的计算。同时，确定与卷积8对应的先验框。同时，通过目标检测模型中定位单元对卷积8输出的结果进行第三定位处理，即依次进行位置参数为(4*6,10,10)的位置的计算、排列参数为(10,10,4*6)的排列的计算、扁平参数为(4*6*10*10)的扁平的计算。同样地，通过目标检测模型中分类单元对卷积9输出的结果进行第四分类处理，即依次进行置信度参数为(6*21,5,5)的置信度的计算、排列参数为(5,5,6*21)的排列的计算、扁平参数为(6*21*5*5)的扁平的计算。同时，确定与卷积9对应的先验框。同时，通过目标检测模型中定位单元对卷积9输出的结果进行第四定位处理，即依次进行位置参数为(4*6,5,5)的位置的计算、排列参数为(5,5,4*6)的排列的计算、扁平参数为(4*6*5*5)的扁平的计算。同样的，通过目标检测模型中分类单元对卷积10输出的结果进行第五分类处理，即依次进行置信度参数为(4*21,3,3)的置信度的计算、排列参数为(3,3,4*21)的排列的计算、扁平参数为(4*21*3*3)的扁平的计算。同时，确定与卷积10对应的先验框。同时，通过目标检测模型中定位单元对卷积10输出的结果进行第五定位处理，即依次进行位置参数为(4*4,3,3)的位置的计算、排列参数为(3,3,4*4)的排列的计算、扁平参数为(4*4*3*3)的扁平的计算。同样的，通过目标检测模型中分类单元对卷积11输出的结果进行第六分类处理，即依次进行置信度参数为(4*21,1,1)的置信度的计算、排列参数为(1,1,4*21)的排列的计算、扁平参数为(4*21*1*1)的扁平的计算。同时，确定与卷积11对应的先验框。同时，通过目标检测模型中定位单元对卷积11输出的结果进行第六定位处理，即依次进行位置参数为(4*4,1,1)的位置的计算、排列参数为(1,1,4*4)的排列的计算、扁平参数为(4*4*1*1)的扁平的计算。基于各个分类处理得到的结果，确定包含有猫的信息的置信度损失，即为(8732,21)，并基于各个定位处理得到的结果，确定包含有猫的信息的位置损失，即为(8732,4)。基于先验框的数量、置信度损失和位置损失，通过加权求和，确定当次迭代对应的损失，确定当次迭代是否完成。

在本实施例中，通过将相似音频标记明显的相似图层作为样本特征图进行训练，能够使得目标检测模型能够对相似或相同的音频表现进行学习。这样，能够训练完成的目标检测模型能够对携带有相似音频标记的相似图层进行精准识别。此外，通过将SSD模型作为目标检测模型，极大地的加快了目标检测的速度，并且在确保检测速度的同时，还能确保检测的精度。

在一个实施例中，计算机设备可以将目标音频信号划分为多个音频片段，例如每个音频片段的时长为50毫秒，随后，计算机设备提取所述目标音频信号所包括的每个音频片段各自的时域特征，获取所述每个音频片段的频谱图，提取所述频谱图的频域特征，对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，所述多频带语义特征表征音频片段在多个频带上的音频语义信息；根据所述每个音频片段的多频带语义特征，得到所述目标音频信号的目标多频带语义特征序列。

计算机设备还可以采用音频多频带语义特征提取模型，按上述步骤对目标音频信号进行处理，获得目标音频信号的目标多频带语义特征序列。下面主要介绍目标音频信号的目标多频带语义特征的获取方式，关于对于参考音频信号，也是采用类似的处理，不再重复说明。

在一个实施例中，如图9所示，获取目标音频信号的目标多频带语义特征序列，包括：

步骤902，提取目标音频信号所包括的每个音频片段各自的时域特征。

具体地，计算机设备对目标音频信号进行分帧处理，得到与各个帧分别对应的音频片段。计算机设备确定每个音频片段中各个音频采样点。计算机设备通过音频多频带语义特征提取模型对各个音频片段的音频采样点进行至少一次时域特征提取，得到每个音频片段各自的时域特征。

其中，各个音频采样点为各个采样时刻分别对应的能量值。

例如，计算机设备确定预设步长和预设帧长度。计算机设备按照预设步长和预设帧长度对目标音频进行分帧处理，得到各个帧分别对应的音频片段。对于每个音频片段，计算机设备基于相应音频片段中的多个音频采样点，通过音频多频带语义特征提取模型中时域处理支路进行时域特征提取，得到每个音频片段各自的时域特征。

其中，音频多频带语义特征提取模型是一个双流型的网络模型，包括时域处理支路、频域处理支路以及时域频域交互支路。时域特征反应了音频信号在时域上的音频特性，如音频信号中各个采样点对应的响度和幅度变化情况。计算机设备可以将音频片段输入到音频多频带语义特征提取模型的时域处理支路，通过该时域处理支路中的多层一维卷积，逐次提取音频片段在各个层级的时域特征，每个层级的时域特征都能表达音频片段的时域特性。频域特征反应了音频信号在频域上的音频特性，如频幅等。计算机设备可以将音频片段输入到音频多频带语义特征提取模型的频域处理支路，通过该时域处理支路将音频片段变换为频域的频谱图之后，通过多层二维卷积，逐次提取该频谱图在各个层级的频域特征，每个层级的频域特征都能表达音频片段的频域特性。此外，计算机设备还通过该时域频域交互支路，将相同层级的时域特征与频域特征联合，得到每个层级的交互特征。

需要说明的是，预设帧长度和预设步长的时间单位均为毫米(ms)级别。其中，在预设步长的时间单位为毫米级别的情况下，确保了各个帧之间的时间差值极其微小，实现了各个音频片段之间时域特征的连贯性。在预设帧长度的时间单位为毫米级别的情况下，使得时域特征的时间粒度都是毫米级别的。这样，能够确保后续生成的多频带语义特征的时间粒度是毫米级别的，因此，后续所生成的相似度图层中的微元粒度为毫米级别，从而，能够使得目标检测时的计算精度保持在毫米级别，确保了音频处理的精确程度。

步骤904，获取每个音频片段的频谱图，提取频谱图的频域特征。

具体地，对于每个音频片段，计算机设备对相应音频片段中的各个采样点进行频域转换，得到每个音频片段的频谱图。计算机设备通过音频多频带语义特征提取模型对各个频谱图进行至少一次频域特征提取，得到每个音频片段各自的频域特征。

例如，对于每个音频片段，计算机设备对相应音频片段中的各个采样点进行频域转换，得到相应音频片段所对应的频谱图。对于每个音频片段，计算机设备基于相应音频片段中的频谱图，通过音频多频带语义特征提取模型中的频域处理支路进行频域特征提取，得到每个音频片段各自的频域特征。

其中，时域处理支路是由至少一个层级的时域提取单元构成的，每个时域提取单元包括有一维卷积块和一维卷积池化层。频域处理支路中是由至少一个层级的频域提取单元构成的，每个频域提取单元包括有二维卷积块和二维最大池化层。

在一个实施例中，获取每个音频片段的频谱图，包括：对每个音频片段进行梅尔频率变换，得到每个音频片段的频谱图。

其中，梅尔频率(Mel频率)是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。梅尔频率是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度。

具体地，计算机设备对每个音频片段中的各个采样点进行梅尔频率变换，得到每个音频片段的频谱图。

在本实施例中，通过对每个音频片段进行梅尔频率转换，得到每个音频片段的频谱图。这样，通过频谱图能够如实且准确的反映出与音频片段中各个采样点分别对应的频域表现性，能够对时域特征进行信息互补，确保音频处理的有效性和准确性。

步骤906，对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，多频带语义特征表征音频片段在多个频带上的音频语义信息。

其中，级联为将处于相同层级的时域特征图的通道和频域特征图的通道进行连接的操作。融合为对处于相同层级的时域特征图中的各个时域特征和频域特征图中的各个频域特征进行特征融合的操作。其中，级联可以通过合并层(可理解为concat)来实现两两特征图中通道的连接。融合可以通过卷积层或者包含有多个卷积层的二维卷积单元来实现。其中，多频带语义特征提取模型中的时域频域交互支路用于将相同层级的时域特征和频域特征进行级联和融合。该时域频域交互支路是由至少一个层级的交互单元构成的，每个交互单元包括合并层和二维卷积块，每个交互单元也可以仅仅包括合并层。

具体地，对于每一音频片段，计算机设备通过音频多频带语义特征提取模型中的时域频域交互支路，将相应音频片段中的各个层级分别对应的时域特征和频域特征进行级联后融合，得到每一音频片段的多频带语义特征。

在一个实施例中，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征。对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，包括：对于每一音频片段，从第一层级开始，将相同层级的时域特征与频域特征进行级联后融合，得到相同层级的交互特征，直至得到最高层级的交互特征后，将每个层级的交互特征进行级联后融合，获得音频片段的多频带语义特征。

具体地，对于每个音频片段，计算机设备从第一层级开始，将相同层级的时域特征图进行形状大小的变换，得到与相同层级的频域特征图形状大小一致的变换后的时域特征图。计算机设备将相同层级的变换后的时域特征图中的时域特征和频域特征图中的频域特征进行级联后融合，得到相同层级的交互特征，直至得到最高层级的交互特征后，获取各个层级的交互特征，并将每个层级的交互特征进行级联后融合，获得音频片段的多频带语义特征。

其中，确定每个层级的交互特征所涉及到的是变换后的时域特征图中的时域特征，而在确定当前层级的时域特征是通过上一层级的时域特征图(未经过形状大小的变换的)的时域特征所确定的。

需要说明的是，每个层级的频域特征图是多通道的二维特征图，因此，为了强化交互特征的特征表现，需要将一通道的一维时域特征图转换为与频域特征图的通道数相同的二维时域特征图。即，变换后的时域特征图是与频域特征图的通道数相同的二维时域特征图。

其中，形状大小的变换可以通过重整层(可理解为reshape)或者缩放层(可理解为resize)实现。其中，重整层是改变矩阵的行列数或者通道数的函数，缩放层是改变特征图的大小。

其中，在同一层级的变换后的时域特征图与频域特图的形状大小不一致的情况下，计算机设备可以对该层级的频域特征图进行二维卷积块的处理，以确保进行级联的同一层级的两个特征图的形状大小一致。

在本实施例中，对于每一音频片段，通过将相同层级的时域特征和频域特征进行级联后融合，实现了在相同层级中两个域的信息交流，使得相同层级中时域信息和频域信息互补。这样，确保了相同层级中的交互特征具备完整且详细的细节信息，能够极大的提高每一音频片段的多频带语义特征的准确性。

在一个实施例中，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征，对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，包括：将第一层级的时域特征与频域特征级联后融合得到第一层级的交互特征。从第二个层级开始，将当前层级的时域特征、频域特征与上一层级的交互特征级联后融合，得到当前层级的交互特征，直至得到最高层级的交互特征时，基于最高层级的交互特征，获得音频片段的多频带语义特征。

具体地，计算机设备将第一层级的时域特征与频域特征级联后融合得到第一层级的交互特征。从第二层级开始，获取上一层级的交互特征、上一层级的时域特征和上一层级的频域特征。计算机设备基于当前层级的时域提取单元对上一层级的时域特征进行时域特征提取，得到当前层级的时域特征。计算机设备基于当前层级的频域提取单元对上一层级的频域特征进行频域特征提取，得到当前层级的频域特征。计算机设备将当前层级的时域特征、当前层级的频域特征与上一层级的交互特征级联后融合，得到当前层级的交互特征。计算机设备将当前层级的交互特征作为下一迭代的上一层级的交互特征，并将当前层级的时域特征作为下一迭代的上一层级的时域特征，并将当前层级的频域特征作为下一迭代的上一层级的频域特征，进入下一层级的迭代，并返回基于当前层级的时域提取单元对上一层级的时域特征进行时域特征提取，得到当前层级的时域特征步骤继续执行，直至得到最高层级的交互特征时停止。计算机设备基于最高层级的交互特征，确定音频片段的多频带语义特征。其中，最高层级的交互特征是由频带维度和时间维度所决定的特征。

其中，时域提取单元包括一维卷积块(Conv1D block)和一维最大池化层(Maxpooling 1D)。频域提取单元包括二维卷积块(Conv2D block)和二维最大池化层(Maxpooling 2D)，频域提取单元也可以仅仅包括二维卷积块，具体不作限定。

其中，对于每一层级，将当前层级的频域特征图中的频域特征作为当前层级的频域特征。将与当前层级的频域特征图形状大小一致的变换后的时域特征图中的时域特征，作为当前层级的时域特征。其中，当前层级的频域特征图是通过当前层级的频域提取单元对上一层级的频域特征进行频域特征提取得到的。其中，当前层级的变换后的时域特征图是通过对当前层级的时域特征图进行形状大小的变换得到的，当前层级的时域特征图是通过当前层级的时域提取单元对上一层级的时域特征进行时域特征提取得到的。

在本实施例中，在确定第一层级的交互特征之后，通过迭代获取从第二层级到最高层级的交互特征，能够让高层网络感知到底层网络信息，从而，能够确保最高层级的交互特征的特征信息全面且准确，进而，能够确保后续生成的目标音频信号的目标多频带语义特征序列的准确性。

在一个实施例中，基于最高层级的交互特征，获得音频片段的多频带语义特征，包括：对最高层级的交互特征进行通道整合，得到各个频带分别对应的整合特征。对于每个频带，从相应频带所对应的各个整合特征中确定与相应频带对应的最大整合特征和平均整合特征。对于每个频带，将相应频带所对应的最大整合特征和平均整合特征进行叠加处理，得到音频片段的多频带语义特征。

其中，最高级的交互特征是最高级的交互特征图中的特征，该交互特征图是一个多通道的二维特征图，维度分别为时间维度和频带维度。

具体地，计算机设备对各个通道分别对应的最高级的交互特征图进行通道整合，得到一个通道的二维的整合特征图。其中，整合特征图是由各个整合特征构成的。对于每个频带，计算机设备将相应频带中的多个整合特征进行均值计算，得到平均整合特征，并将相应频带中最大的整合特征作为最大整合特征。对于每个频带，计算机设备将相应频带所对应的最大整合特征和平均整合特征进行叠加，得到相应频带的叠加特征。计算机设备通过非激活函数对各个频带的叠加特征进行处理，得到音频片段的多频带语义特征。

其中，由于每个层级中的频域特征提取得到的频域特征图是多通道的，因此，最高层级中进行级联后融合得到多个通道的交互特征图。通过对多通道的交互特征图进行通道整合，得到处于同一音频片段中的多频带语义特征。其中，可以通过二维的多层神经网络实现通道整合。

需要说明的是，通过对二维的整合特征图中的平均整合特征和最大整合特征进行叠加，能够得到处于同一音频片段中的多频带语义特征。这样，确保了进入音频多频带语义特征提取模型之前的维度与之后的维度一致。

如图10所示的音频多频带语义特征提取模型，其中，图10中的音频多频带语义特征提取模型包括三个层级。对于每个音频片段的多频带语义特征，均通过在音频多频带语义特征提取模型中执行上述步骤902到步骤906得到的。

例如，对于每一音频片段，计算机设备通过一维卷积对音频片段中的音频采样点进行预处理，得到预处理时域特征图，并通过第一层级的时域特征提取单元中的一维卷积块和一维最大池化层对预处理时域特征图进行第一层级的时域特征提取，得到第一层级的时域特征图。同时，计算机设备对每个音频片段进行梅尔频率变换，得到每个音频片段的频谱图，即为梅尔频谱图。计算机设备通过第一层级的频域特征提取单元中的二维卷积块和二维最大池化层对频谱图进行频域特征提取，得到第一层级的频域特征图。基于第一层级的频域特征图的形状大小，通过重整层(可理解为reshape)或者缩放层(可理解为resize)对第一层级的时域特征图进行形状大小变换，得到第一层级的变化后的时域特征图。

需要说明的是，用于预处理的一维卷积也可以合并到第一层级的时域特征提取单元中的一维卷积块中，即可以是计算机设备通过第一层级的时域特征提取中的一维卷积块和一维最大池化层对音频片段中的音频采样点进行第一层级的时域特征提取，得到第一层级的时域特征图。

其次，计算机设备通过第二层级的时域特征提取单元中的一维卷积块和一维最大池化层对第一层级的时域特征图中的时域特征进行第二层级的时域特征提取，得到第二层级的时域特征图。计算机设备将通过第二层级的频域特征提取单元中的二维卷积块和二维最大池化层对第一层级的频域特征进行第二层级的频域特征提取，得到第二层级的频域特征图。基于第二层级的频域特征图的形状大小，通过重整层(可理解为reshape)或者缩放层(可理解为resize)对第二层级的时域特征图进行形状大小变换，得到第二层级的变换后的时域特征图。

接着，计算机设备通过第三层级的时域特征提取单元中的一维卷积块和一维最大池化层对第二层级的时域特征图中的时域特征进行第三层级的时域特征提取，得到第三层级的时域特征图。计算机设备将通过第三层级的频域特征提取单元中的二维卷积块对第二层级的频域特征进行第三层级的频域特征提取，得到第三层级的频域特征图(可理解为多通道的特征图)。基于第三层级的频域特征图的形状大小，通过重整层(可理解为reshape)或者缩放层(可理解为resize)对第三层级的时域特征图进行形状大小变换，得到第三层级的变换后的时域特征图(可理解为多通道的波形图)。随后，计算机设备通过第一层级的交互单元中的合并层(可理解为concat)将第一层级的频域特征图中的各个频域特征和第一层级的变化后的时域特征图中的各个时域特征进行级联，得到第一层级的级联特征图，并通过第一层级的交互单元中的二维卷积块对第一层级的级联特征图进行融合，得到第一层级的交互特征图，该交互特征图中包括有多个交互特征。

继而，计算机设备通过第二层级的交互单元中的合并层(可理解为concat)将第二层级的频域特征图中的各个频域特征、第二层级的变化后的时域特征图中的各个时域特征和第一层级的交互特征图中的各个交互特征进行级联，得到第二层级的级联特征图，并通过第二层级的交互单元中的二维卷积块对第二层级的级联特征图进行融合，得到第二层级的交互特征图，该交互特征图中包括有多个交互特征。

然后，计算机设备通过第三层级的交互单元中的合并层(可理解为concat)将第三层级的频域特征图中的各个频域特征、第三层级的变化后的时域特征图中的各个时域特征和第二层级的交互特征中的各个交互特征进行级联，得到第三层级的级联特征图。其中，第三层级的级联特征图中包括有多个交互特征。

需要说明的是，每个层级中，通过域特征提取单元提取频域特征后得到频域特征图是多个通道的，故，在对相同层级中的时域特征图进行形状大小变化后，得到多个通道的变化后的时域特征图。这样，能够强化每个层级中交互特征图的特征表现。同样地，每个层级中的交互特征图和级联特征图都是多通道的。

最后，计算机设备通过二维的多层神经网络对多个通道的第三层级的级联特征图进行通道整合，得到一通道的整合特征图。其中，整合特征图是由各个整合特征构成的。对于每个频带，计算机设备将相应频带中的多个整合特征进行均值计算(也可以理解为求平均的计算)，得到平均整合特征，并将相应频带中最大的整合特征作为最大整合特征(也可以理解为求最大的计算)。对于每个频带，计算机设备将相应频带所对应的最大整合特征和平均整合特征进行叠加处理(也可以理解为求和处理)，得到相应频带的叠加特征。计算机设备通过非激活函数对各个频带的叠加特征进行非线性激活处理，得到音频片段的多频带语义特征。其中，非激活函数可以是ReLU(Rectified Linear Unit，线性整流函数)。

在本实施例中，通过对最高层级的交互特征进行通道整合，能够将多通道的交互特征整合成一个通道的整合特征。这样，通过从多个二维的整合特征中确定平均整合特征和最大整合特征，并通过将平均整合特征和最大整合特征进行叠加，能够可以体现处于同一音频片段中的多频带语义特征的特征表现。此外，还确保了进入音频多频带语义特征提取模型之前的维度与之后的维度一致。

步骤908，根据每个音频片段的多频带语义特征，得到目标音频信号的目标多频带语义特征序列。

具体地，计算机设备将每个音频片段的多频带语义特征按照音频片段的时序进行组合，得到目标音频信号的目标多频带语义特征序列。

在本实施例中，对于每一音频片段，通过将相应的时域特征和频域特征进行级联后融合，得到每一音频片段的多频带语义特征。这样，能够实现时域和频域之间的信息交互，极大的增强了多频带语义特征的特征表现。通过各个音频片段的多频带语义特征，能够得到特征表现丰富且明显的目标多频带语义特征序列，有利于后续准确反映目标音频信号和参考音频信号的相似度情况。

本申请还提供一种应用场景，该应用场景应用上述的音频处理方法。具体地，该音频处理方法在该应用场景的应用如下：

在线音乐平台和在线视频平台都是一种可以上传音乐文件或者自拍音乐视频的平台。在大量用户进行音乐翻唱、音乐创作等活动时，为了确保用户上传的音乐文件或者自拍音乐视频没有与平台上版权音乐有相似或相同的音频片段，需要对音乐文件或者自拍音乐视频中的目标音频信号进行音频处理。在对目标音频信号进行检测时，参考图11，将用于音频处理的鉴权系统设置在计算机设备上，该系统能够进行本申请的音频处理方法。具体地，计算机设备获取目标音频信号、并从平台的版权乐库中获取参考音频信号。计算机设备中的鉴权系统获取目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列；多频带语义特征序列，表征音频信号在多个频带上的音频语义信息。计算机设备将目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层，融合多个两两频带之间的相似度图层，得到全频带相似度图层。计算机设备对全频带相似度图层进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果(鉴权结果)。其中，在检测结果表示目标音频信号与参考音频信号相似的情况下，根据相似音频标记所对应的时间段，分别确定相似音频片段在目标音频信号与参考音频信号中的段落位置。其中，相似音频段落可理解为相似音频片段或者相同音频片段，该相似音频段落作为后续维权操作的证据。图11示出了一个实施例中音频处理的应用流程示意图。

本申请还另外提供一种应用场景，该应用场景应用上述的音频处理方法。具体地，该音频处理方法在该应用场景的应用如下：

在各大短视频平台中，存在有大量用户上传的短视频(如UGC(User-GeneratedContent，用户生成内容))。其中，每个短视频中都会加入歌曲以对视频进行配乐。因此，可以通过上述音频处理方式对用户上传的多个短视频进行目标检测，得到各个短视频分别对应的检测结果，从而，能够确定短视频使用的是哪些版权歌曲和版权歌曲的哪些段落。这样，计算机设备能够归纳出在一定时间段内用户选择短视频配乐的行为信息，从而，可以对用户进行个性化推荐，极大地便捷了用户制作短视频的制作过程。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的音频检测方法的应用不局限于上述场景。

在一个具体的实施例中，如图12所示的音频处理的流程框图，该框图可以划分为三个模块，其中，第一模块是音频多频带语义特征提取模型，第二模块是全频带相似度图层提取模块，第三模块是目标检测模型。其中，第一模块包含时域处理支路和频域处理支路。该方法可以由计算机设备执行。

具体地，计算机设备可以获取目标音频信号，并从版权乐库中确定与目标音频信号对应的参考音频信号。计算机设备对目标音频信号进行均匀划分得到多个音频片段。计算机设备将每个音频片段输入至第一模块。对于每个音频片段，计算机设备分别通过时域处理支路的三个层级的一维卷积，逐次提取音频片段在三个层级的时域特征。计算机设备对每个音频片段进行梅尔频率变换，得到每个音频片段的频谱图。计算机设备通过三个层级的二维卷积，逐次提取该频谱图在各个层级的频域特征。计算机设备将第一层级的时域特征与频域特征级联后融合得到第一层级的交互特征，并从第二个层级开始，将当前层级的时域特征、频域特征与上一层级的交互特征级联后融合，得到当前层级的交互特征，直至得到最高层级的级联特征图。其中，级联特征图中包括最高层级的交互特征。计算机设备对最高层级的交互特征进行通道整合，得到各个频带分别对应的整合特征。对于每个频带，计算机设备从相应频带所对应的各个整合特征中确定与相应频带对应的最大整合特征和平均整合特征。对于每个频带，计算机设备将相应频带所对应的最大整合特征和平均整合特征进行叠加处理，得到音频片段的多频带语义特征，以得到目标多频带语义特征序列(如图12所示，该目标多频带语义特征序列涉及到g个频带和目标音频信号的N个音频片段)。计算机设备将目标多频带语义特征序列输入第二模块，并将从版权乐库获取得到的参考多频带语义特征序列输入第二模块(如图12所示，该参考多频带语义特征序列涉及到g个频带和参考音频信号的X个音频片段)。计算机设备从目标多频带语义特征序列中提取多个频带中各频带对应的目标语义特征，计算机设备从参考多频带语义特征序列中提取多个频带中各频带对应的参考语义特征；语义特征表征同一频带上随时间变化而变化的能量值。对于多个频带中的任意两个频带，计算机设备根据一频带对应的目标语义特征获得多个目标能量值，计算机设备根据另一频带对应的参考语义特征获得多个参考能量值，将各目标能量值分别与各参考能量值计算能量值相似度，得到一频带与另一频带之间的相似度图层。计算机设备从多个两两频带之间的相似度图层中，获取目标音频信号中的第i个音频片段与参考音频信号中的第j个音频片段分别对应各个频带的能量值相似度，并根据最大池化函数取最大值作为目标音频信号中的第i个音频片段与参考音频信号中的第j个音频片段的全频带相似度；其中，目标音频信号包含m个音频片段，参考音频信号包括n个音频片段，1≤i≤m，1≤j≤n，i、j为整数。计算机设备根据目标音频信号中的各个音频片段分别与参考音频信号中各个音频片段的全频带相似度，得到全频带相似度图层。计算机设备通过目标检测模型对全频带相似度图层进行目标检测。在检测到表征相似音频标记的情况下，计算机设备得到表示目标音频信号与参考音频信号相似的检测结果。在未检测到相似音频标记的情况下，计算机设备得到表示目标音频信号与参考音频信号不相似的检测结果。在检测结果表示目标音频信号与参考音频信号相似的情况下，计算机设备根据相似音频标记所对应的音频片段，分别确定相似音频片段在目标音频信号与参考音频信号中的段落位置。

在本实施例中，为检测目标音频信号与参考音频信号之间是否相似，分别获取反映目标音频信号在不同频带上音频语义信息的目标多频带语义特征序列，以及反映参考音频信号在不同频带上音频语义信息的参考多频带语义特征序列。这样，通过对目标多频带语义特征序列所包括的各个频带对应的目标语义特征和参考多频带语义特征序列所包括的各个频带对应的参考语义特征，计算相似度，能够得到多个两两频带所对应的相似度图层。根据多个两两频带所对应的相似度图层，进行目标检测，由于该相似度图层反映了各个频带之间的相似度，能够避免对目标音频信号在频域上进行扰动得出与参考音频信号不准确的检查结果，可以快速且准确地得到关于目标音频信号与参考音频信号之间是否相似的检测结果，相比于通过审核人员对音频信号进行人为识别和鉴定的方式，准确率与检测效率也会更高。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频处理方法的音频处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频处理装置实施例中的具体限定可以参见上文中对于音频处理方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种音频处理装置，包括：信号获取模块1302，序列获取模块1304，计算模块1306和检测模块1308，其中：

信号获取模块1302，用于获取目标音频信号；

序列获取模块1304，用于获取目标音频信号的目标多频带语义特征序列与参考音频信号的参考多频带语义特征序列；多频带语义特征序列，表征音频信号在多个频带上的音频语义信息；

计算模块1306，用于将目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层；

检测模块1308，用于根据多个两两频带之间的相似度图层，进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果。

在一个实施例中，序列获取模块1304，还用于提取目标音频信号所包括的每个音频片段各自的时域特征。获取每个音频片段的频谱图，提取频谱图的频域特征。对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，多频带语义特征表征音频片段在多个频带上的音频语义信息。根据每个音频片段的多频带语义特征，得到目标音频信号的目标多频带语义特征序列。

在一个实施例中，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征。序列获取模块1304，还用于对于每一音频片段，从第一层级开始，将相同层级的时域特征与频域特征进行级联后融合，得到相同层级的交互特征，直至得到最高层级的交互特征后，将每个层级的交互特征进行级联后融合，获得音频片段的多频带语义特征。

在一个实施例中，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征。序列获取模块1304，还用于将第一层级的时域特征与频域特征级联后融合得到第一层级的交互特征。从第二个层级开始，将当前层级的时域特征、频域特征与上一层级的交互特征级联后融合，得到当前层级的交互特征，直至得到最高层级的交互特征时，基于最高层级的交互特征，获得音频片段的多频带语义特征。

在一个实施例中，序列获取模块1304，还用于对最高层级的交互特征进行通道整合，得到各个频带分别对应的整合特征。对于每个频带，从相应频带所对应的各个整合特征中确定与相应频带对应的最大整合特征和平均整合特征。对于每个频带，将相应频带所对应的最大整合特征和平均整合特征进行叠加处理，得到音频片段的多频带语义特征。

在一个实施例中，序列获取模块1304，还用于对每个音频片段进行梅尔频率变换，得到每个音频片段的频谱图。

在一个实施例中，计算模块1306，还用于从目标多频带语义特征序列中提取多个频带中各频带对应的目标语义特征，从参考多频带语义特征序列中提取多个频带中各频带对应的参考语义特征；语义特征表征同一频带上随时间变化而变化的能量值。对于各频带对应的目标语义特征，分别与各频带对应的参考语义特征计算相似度，得到多个两两频带之间的相似度图层。

在一个实施例中，计算模块1306，还用于对于多个频带中的任意两个频带，根据一频带对应的目标语义特征获得多个目标能量值，根据另一频带对应的参考语义特征获得多个参考能量值，将各目标能量值分别与各参考能量值计算能量值相似度，得到一频带与另一频带之间的相似度图层。

在一个实施例中，检测模块1308，还用于融合多个两两频带之间的相似度图层，得到全频带相似度图层。对全频带相似度图层进行目标检测，得到目标音频信号是否与参考音频信号相似的检测结果。

在一个实施例中，检测模块1308，还用于从多个两两频带之间的相似度图层中，获取目标音频信号中的第i个音频片段与参考音频信号中的第j个音频片段分别对应各个频带的能量值相似度，取最大值作为目标音频信号中的第i个音频片段与参考音频信号中的第j个音频片段的全频带相似度；其中，目标音频信号包含m个音频片段，参考音频信号包括n个音频片段，1≤i≤m，1≤j≤n，i、j为整数。根据目标音频信号中的各个音频片段分别与参考音频信号中各个音频片段的全频带相似度，得到全频带相似度图层。

在一个实施例中，检测模块1308，还用于对全频带相似度图层进行目标检测。在检测到表征相似音频标记的情况下，得到表示目标音频信号与参考音频信号相似的检测结果。在未检测到相似音频标记的情况下，得到表示目标音频信号与参考音频信号不相似的检测结果。

在一个实施例中，全频带相似度图层表征目标音频信号中的各个音频片段分别与参考音频信号中各个音频片段的全频带相似度，装置还包括确定模块，确定模块，还用于在检测结果表示目标音频信号与参考音频信号相似的情况下，根据相似音频标记所对应的音频片段，分别确定相似音频片段在目标音频信号与参考音频信号中的段落位置。

上述音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1所示的终端或者服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的服务器或终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频处理方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取目标音频信号；

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标音频信号的目标多频带语义特征序列，包括：

提取所述目标音频信号所包括的每个音频片段各自的时域特征；

获取所述每个音频片段的频谱图，提取所述频谱图的频域特征；

对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，所述多频带语义特征表征音频片段在多个频带上的音频语义信息；

根据所述每个音频片段的多频带语义特征，得到所述目标音频信号的目标多频带语义特征序列。

3.根据权利要求2所述的方法，其特征在于，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征；所述对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，包括：

对于每一音频片段，从第一层级开始，将相同层级的时域特征与频域特征进行级联后融合，得到相同层级的交互特征，直至得到最高层级的交互特征后，将每个层级的所述交互特征进行级联后融合，获得所述音频片段的多频带语义特征。

4.根据权利要求2所述的方法，其特征在于，每个音频片段相应的时域特征包括多个层级的时域特征，每个频谱图相应的频域特征包括多个层级的频域特征；所述对于每一音频片段，将相应的时域特征与频域特征进行级联后融合，得到每一音频片段的多频带语义特征，包括：

将第一层级的时域特征与频域特征级联后融合得到第一层级的交互特征；

从第二个层级开始，将当前层级的时域特征、频域特征与上一层级的交互特征级联后融合，得到当前层级的交互特征，直至得到最高层级的交互特征时，基于所述最高层级的交互特征，获得所述音频片段的多频带语义特征。

5.根据权利要求4所述的方法，其特征在于，所述基于所述最高层级的交互特征，获得所述音频片段的多频带语义特征，包括：

对所述最高层级的交互特征进行通道整合，得到各个频带分别对应的整合特征；

对于每个频带，从相应频带所对应的各个整合特征中确定与相应频带对应的最大整合特征和平均整合特征；

对于每个频带，将相应频带所对应的最大整合特征和平均整合特征进行叠加处理，得到所述音频片段的多频带语义特征。

6.根据权利要求2所述的方法，其特征在于，所述获取所述每个音频片段的频谱图，包括：

对每个音频片段进行梅尔频率变换，得到每个音频片段的频谱图。

7.根据权利要求1所述的方法，其特征在于，所述将所述目标多频带语义特征序列所包括的各频带对应的目标语义特征，分别与所述参考多频带语义特征序列所包括的各频带对应的参考语义特征，计算相似度，得到多个两两频带之间的相似度图层，包括：

从所述目标多频带语义特征序列中提取所述多个频带中各频带对应的目标语义特征，从所述参考多频带语义特征序列中提取所述多个频带中各频带对应的参考语义特征；所述语义特征表征同一频带上随时间变化而变化的能量值；

对于各频带对应的目标语义特征，分别与各频带对应的参考语义特征计算相似度，得到多个两两频带之间的相似度图层。

8.根据权利要求7所述的方法，其特征在于，所述对于各频带对应的目标语义特征，分别与各频带对应的参考语义特征计算相似度，得到多个两两频带之间的相似度图层，包括：

对于所述多个频带中的任意两个频带，根据一频带对应的目标语义特征获得多个目标能量值，根据另一频带对应的参考语义特征获得多个参考能量值，将各所述目标能量值分别与各所述参考能量值计算能量值相似度，得到所述一频带与所述另一频带之间的相似度图层。

9.根据权利要求1所述的方法，其特征在于，所述根据所述多个两两频带之间的相似度图层，进行目标检测，得到所述目标音频信号是否与所述参考音频信号相似的检测结果，包括：

融合所述多个两两频带之间的相似度图层，得到全频带相似度图层；

对所述全频带相似度图层进行目标检测，得到所述目标音频信号是否与所述参考音频信号相似的检测结果。

10.根据权利要求9所述的方法，其特征在于，所述融合所述多个两两频带之间的相似度图层，得到全频带相似度图层，包括：

从所述多个两两频带之间的相似度图层中，获取所述目标音频信号中的第i个音频片段与所述参考音频信号中的第j个音频片段分别对应各个频带的能量值相似度，取最大值作为所述目标音频信号中的第i个音频片段与所述参考音频信号中的第j个音频片段的全频带相似度；其中，所述目标音频信号包含m个音频片段，所述参考音频信号包括n个音频片段，1≤i≤m，1≤j≤n，i、j为整数；

根据所述目标音频信号中的各个音频片段分别与所述参考音频信号中各个音频片段的全频带相似度，得到全频带相似度图层。

11.根据权利要求9所述的方法，其特征在于，所述对所述全频带相似度图层进行目标检测，得到所述目标音频信号是否与所述参考音频信号相似的检测结果，包括：

对所述全频带相似度图层进行目标检测；

在检测到表征相似音频标记的情况下，得到表示所述目标音频信号与所述参考音频信号相似的检测结果；

在未检测到相似音频标记的情况下，得到表示所述目标音频信号与所述参考音频信号不相似的检测结果。

12.根据权利要求11所述的方法，其特征在于，所述全频带相似度图层表征所述目标音频信号中的各个音频片段分别与所述参考音频信号中各个音频片段的全频带相似度，所述方法还包括：

在所述检测结果表示所述目标音频信号与所述参考音频信号相似的情况下，根据所述相似音频标记所对应的音频片段，分别确定相似音频片段在所述目标音频信号与所述参考音频信号中的段落位置。

13.一种音频处理装置，其特征在于，所述装置包括：

信号获取模块，用于获取目标音频信号；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。