CN114333908A

CN114333908A - 在线音频分类方法、装置及计算机设备

Info

Publication number: CN114333908A
Application number: CN202111643298.4A
Authority: CN
Inventors: 陈广; 陈增海; 郑康元; 王璞
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12
Anticipated expiration: 2041-12-29
Also published as: CN114333908B

Abstract

本申请涉及音频互动领域和网络直播领域，提出一种在线音频分类方法、装置及计算机设备，该方法包括：获取在线音频信号；提取在线音频信号对应的第一音频特征图；将在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到在线音频信号的分类结果；其中，预训练好的音频分类模型中包括若干个音频分类模块，每个音频分类模块中包括至少一个自注意力模块，自注意力模块用于对音频特征图进行时序维度和频率维度上的远距离特征融合。相对于现有技术，本申请考虑到在线音频信号其语义与时序相关性较强且语义较为复杂的特点，使用自注意力模块对音频特征图进行时序维度和频率维度上的远距离特征融合，提高了在线音频分类结果的准确性。

Description

在线音频分类方法、装置及计算机设备

技术领域

本申请实施例涉及音频互动领域和网络直播领域，尤其涉及一种在线音频分类方法、装置及计算机设备。

背景技术

随着流媒体技术和网络技术的飞速发展，越来越多的用户开始参与线上互动，其中，线上的音频互动方式由于不易受网络干扰、即时性强等特点，更是受到用户的广泛关注和喜爱。

目前，在各种线上音频互动场景中，均会有大量的音频数据产生，例如：游戏互动场景、娱乐互动场景、教育互动场景乃至会议互动场景等。因而，通过对音频数据进行实时监控，准确分类出其中的低俗违法内容成为了亟待解决的问题。

传统的音频分类方法多是基于卷积神经网络或循环神经网络进行的，但是，由于卷积神经网络更善于整合局部特征，因而，其更适用于处理二维图像以及短时音频信号等，循环神经网络则存在较为严重的梯度消失问题，处理能力有限。而在线上音频互动场景下产生的音频数据，不仅实时性高、数据量大、语义与时序的相关性强且语义混杂，故，若采用传统的音频分类方法对其进行处理，则难以保证音频分类的准确性和召回率。

发明内容

本申请实施例提供了一种在线音频分类方法、装置及计算机设备，可以解决在线音频数据分类准确性较差且召回率较低的技术问题，该技术方案如下：

第一方面，本申请实施例提供了一种在线音频分类方法，包括步骤：

获取在线音频信号；其中，所述在线音频信号为将原始在线音频信号分段裁切后得到的；

提取所述在线音频信号对应的第一音频特征图；其中，所述第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征；

将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果；其中，所述预训练好的音频分类模型中包括若干个音频分类模块，每个所述音频分类模块中包括至少一个自注意力模块，所述自注意力模块用于对音频特征图进行所述时序维度和所述频率维度上的远距离特征融合。

第二方面，本申请实施例提供了一种在线音频分类装置，包括：

第一获取单元，用于获取在线音频信号；其中，所述在线音频信号为将原始在线音频信号分段裁切后得到的；

第一特征提取单元，用于提取所述在线音频信号对应的第一音频特征图；其中，所述第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征；

第一分类单元，用于将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果；其中，所述预训练好的音频分类模型中包括若干个音频分类模块，每个所述音频分类模块中包括至少一个自注意力模块，所述自注意力模块用于对音频特征图进行所述时序维度和所述频率维度上的远距离特征融合。

第三方面，本申请实施例提供了一种计算机设备，处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述方法的步骤。

在本申请实施例中，通过获取在线音频信号；其中，在线音频信号为将原始在线音频信号分段裁切后得到的；提取在线音频信号对应的第一音频特征图；其中，第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征；将在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到在线音频信号的分类结果；其中，预训练好的音频分类模型中包括若干个音频分类模块，每个音频分类模块中包括至少一个自注意力模块，自注意力模块用于对音频特征图进行时序维度和频率维度上的远距离特征融合。本申请实施例考虑到在线音频信号其语义与时序相关性较强且语义较为复杂的特点，对音频分类模型进行改进，在每个音频分类模块中增加至少一个自注意力模块，使用该自注意力模块对音频特征图进行时序维度和频率维度上的远距离特征融合，从而能够更易分析出在线音频信号中的上下文语义信息，减少无关信号对语义的干扰，进而提高了在线音频分类结果的准确性和召回率。

为了更好地理解和实施，下面结合附图详细说明本申请的技术方案。

附图说明

图1为本申请实施例提供的在线音频分类方法的应用场景示意图；

图2为本申请实施例提供的在线音频分类方法的另一应用场景示意图；

图3为本申请第一实施例提供的在线音频分类方法的流程示意图；

图4为本申请实施例提供的现有残差神经网络模型的结构示意图；

图5为申请实施例提供的残差神经网络模型的结构示意图；

图6为本申请第一实施例提供的在线音频分类方法中S103的流程示意图；

图7为本申请第一实施例提供的在线音频分类方法中S1031的流程示意图；

图8为本申请实施例提供的自注意力模块的内部结构示意图；

图9为本申请第二实施例提供的在线音频分类装置的结构示意图；

图10为本申请第三实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本领域技术人员可以理解，本申请所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的计算机设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

在本申请实施例中，请参阅图1，图1为本申请实施例提供的在线音频分类方法的应用场景示意图，该应用场景为音频互动场景，该应用场景包括本申请实施例提供的客户端101 和服务器102，客户端101与服务器102进行交互。音频互动场景又可分为语音聊天场景、游戏连麦场景以及语音会议场景等，该音频互动场景下，用户不区分为观众和主播。例如：语音聊天场景可以是多位用户共同加入一间语音房，进行语音连麦聊天。

客户端101所指向的硬件，本质上是指计算机设备，具体地，如图1所示，其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。该客户端101可以通过公知的网络接入方式接入互联网，与服务器102建立数据通信链路。

服务器102作为一个业务服务器，其可以负责进一步连接起相关音频数据服务器、音频分类服务器等，以此构成逻辑上相关联的服务集群，来为相关的终端设备，例如图1中所示的客户端101提供服务。

请参阅图2，图2为本申请实施例提供的在线音频分类方法的另一应用场景示意图，该应用场景为网络直播场景，该应用场景下客户端101分为主播客户端1011和观众客户端1012，主播客户端1011与观众客户端1012通过服务器102进行交互。

其中，所述主播客户端1011是指发送网络直播视频的一端，通常来说是网络直播中主播所采用的客户端。

所述观众客户端1012是指接收和观看网络直播视频的一端，通常来说是网络直播中观看视频的观众所采用的客户端。

同样地，所述主播客户端1011和所述观众客户端1012所指向的硬件，本质上都是指计算机设备。

本申请实施例中，所述主播客户端1011与观众客户端1012可以加入同一个直播间(即直播频道)，上述的直播间是指依靠互联网技术实现的一种聊天室，通常具备音视频播控功能。主播用户通过主播客户端1011在直播间内进行直播，观众客户端1012的观众可以登录服务器102进入直播间观看上直播。

在直播间内，主播用户与观众用户之间可通过语音、视频、文字等公知的线上交互方式来实现互动，一般是主播用户以音视频流的形式为观众用户表演节目，并且在互动过程中还可产生经济交易行为，因此，无论是语音直播间或者音视频直播间内，均会有大量的音频数据产生。

基于上述，本申请实施例提供了一种在线音频分类方法。请参阅图3，图3为本申请第一实施例提供的在线音频分类方法的流程示意图，该方法包括如下步骤：

S101：获取在线音频信号；其中，在线音频信号为将原始在线音频信号分段裁切后得到的。

S102：提取在线音频信号对应的第一音频特征图；其中，第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征。

S103：将在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到在线音频信号的分类结果；其中，预训练好的音频分类模型中包括若干个音频分类模块，每个音频分类模块中包括至少一个自注意力模块，自注意力模块用于对音频特征图进行时序维度和频率维度上的远距离特征融合。

在本实施例中，主要是以服务器为执行主体对在线音频分类方法进行阐述的。

关于步骤S101，获取在线音频信号。

其中，在线音频信号为将原始在线音频信号分段裁切后得到的。

该原始在线音频信号是指从客户端采集的发送至服务器的音频流数据。例如：在网络直播场景下主播开播后，由主播客户端采集并发送至服务器的音频流数据，又或者，在音频互动场景下，至少两个用户开启语音聊天后，由至少两个客户端采集并发送至服务器的音频流数据。

在获取到原始在线音频信号后，服务器对原始在线音频信号进行分段裁切，得到在线音频信号。在一个可选的实施例中，可以裁切为若干段15s的在线音频信号。

可以理解的是，原始在线音频信号为实时的音频流数据，因此，获取原始在线音频信号和裁切原始在线音频信号的过程可以是同步进行的，以及本申请提出的在线音频分类方法也是可以一同执行的，并不是在获取到全部的原始在线音频信号后，才进行分段裁切以及分类的操作。

在一个可选的实施例中，该服务器可以是由业务服务器、音频数据服务器以及音频分类服务器构成的服务器集群，那么音频数据服务器接收到原始在线音频信号后，可以发送至音频分类服务器，再由音频分类服务器执行本申请实施例提出的在线音频分类方法。

关于步骤S102，提取在线音频信号对应的第一音频特征图。

其中，第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征，简单理解来说，时序维度上具有若干个时序点，频率维度上具有若干个时序点，第一音频特征图中包含的是每个时序点对应的每个频率点上的特征，也可以理解为第一音频特征图中包含的是每个频率点对应的每个时序点上的特征。。

在一个可选的实施例中，该第一音频特征图为梅尔频率倒谱系数特征图(MFCC)。梅尔频率倒谱系数特征图中包含了在线音频信号中具有辨识性的成分，基于梅尔频率倒谱系数特征图进行音频分类，更有利于提高音频分类的准确性。

具体地，可以采用现有的开源算法进行梅尔频率倒谱系数特征图的提取。

关于步骤S103，将在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到在线音频信号的分类结果。

其中，预训练好的音频分类模型中包括若干个音频分类模块，每个音频分类模块中包括至少一个自注意力模块，自注意力模块用于对音频特征图进行时序维度和频率维度上的远距离特征融合。

在线音频信号对应的第一音频特征图在输入至预训练好的音频分类模型后，会经由各个音频分类模块处理，最终输出在线音频信号的分类结果。

该预训练好的音频分类模型可以为任意一种深度学习神经网络模型，例如：残差神经网络模型RetNet，深度卷积神经网络模型VGG等。

在本申请实施例中，在音频分类模型的每个音频分类模块均添加了一个至少一个自注意力模块(CoordSelfAttention Module，CSAM)，该自注意力模块可用于对音频特征图进行时序维度和频率维度上的远距离特征融合。即，用于捕捉在音频特征图中，在远距离的时序维度上的特征的相关性以及在远距离的频率维度上的特征的相关性，基于这种相关性进行特征的融合，从而有利于音频分类模型输出更准确的分类结果。

关于音频分类模型的训练过程将在后续说明，下面先详细说明该音频分类模型的内部结构，其具体如何处理在线音频信号对应的第一音频特征图，得到在线音频信号的分类结果的。

在一个可选的实施例中，预训练好的音频分类模型为残差神经网络模型，音频分类模块为残差模块。该残差神经网络模型可选择Resnet18，Resnet18中共有8个残差块。

请参阅图4，图4为本申请实施例提供的现有残差神经网络模型的结构示意图。从图4 (a)可以看到现有的残差神经网络模型至少包括相互连接的残差模块41，每个神经网络模块41的内部结构如图4(b)所示，可以看到，每个残差模块41包括第一个卷积模块411和第二个卷积模块412。每个卷积模块均有卷积层(Conv)、批量归一化层(BN)以及一个激活函数(relu)组成。

残差神经网络模型的特点在于，若残差模块41的输入为X，会先对X进行保存，之后再将X输入第一个卷积模块411以及第二卷积模块412的卷积层(Conv)、批量归一化层(BN)进行处理，再之后将处理结果F(X)和原本保存的X叠加，经过第二个卷积模块412的激活函数激活后再输出至下一个残差模块41中，重复上述步骤，最终得到残差神经网络的输出结果，残差神经网络模型的结构能够解决一定的梯度消失问题，避免浅层网络参数无法更新的问题。

在本实施例中，若每个残差模块中有两个卷积模块，则可以确认的是，自注意力模块有一个，设置在两个卷积模块之间。请参阅图5，图5为申请实施例提供的残差神经网络模型的结构示意图，该图中第一个卷积模块411的激活函数后，插入一个自注意力模块413，自注意力模块的输出结果与第一卷积模块411的输出结果进行点积运算，再输入至第二个卷积模块412中。

在一个可选的实施例中，请参阅图6，S103的步骤包括：

S1031：通过自注意力模块接收上一个卷积模块输出的第二音频特征图，并对第二音频特征图进行时序维度和频率维度上的远距离特征融合，得到第三音频特征图。

S1032：将上一个卷积模块输出的所述第二音频特征图与自注意力模块输出的第三音频特征图进行点积运算，并将点积运算结果输入至下一个卷积模块中。

在本实施例中，未限定预训练好的音频分类模型为残差神经网络模型，其也可以为其他深度学习神经网络模型，并且，也未限定音频分类模块的具体数量，以及音频分类模块中卷积模块的具体数量。

可以确认的是，本实施例中输入至自注意力模块的第二音频特征图为第一音频特征图经过至少一个卷积模块处理后得到的。

上一个卷积模块与下一个卷积模块为音频分类模块中相邻的卷积模块。

具体地，在通过自注意力模块对第二音频特征图进行时序维度和频率维度上的远距离特征融合后，其输出第三音频特征图，将第三音频特征图与原本的第二音频特征图进行点积运算后，再将点积运算结果输入至下一个音频分类模块中。

可以理解的是，每个音频分类模块的设置均是相同的，自注意力模块所起到的作用也均是相同的，经过若干个音频分类模块的处理后，最后预训练好的音频分类模型会输出在线音频信号的分类结果。

下面将展开说明在自注意力模块的内部，其如何对第二音频特征图进行处理，得到第三音频特征图，请参阅图7，图7为本申请第一实施例提供的在线音频分类方法中S1031的流程示意图，具体包括：

S10311：对第二音频特征图中相同频率维度上的若干个时序维度上的特征进行映射，得到第一形状的第一目标音频特征图；其中，第一形状的第一目标音频特征图中每个频率维度上的特征为映射后的若干个时序维度上的特征。

S10312：对第二音频特征图中相同时序维度上的若干个频率维度上的特征进行映射，得到第二形状的第二目标音频特征图；其中，第二形状的第二目标音频特征图中每个时序维度上的特征为映射后的若干个频率维度上的特征。

S10313：根据第一目标音频特征图，得到在若干个频率维度上的时序相关性权重图；其中，每个频率维度上的时序相关性权重图用于指示不同时序维度上的特征的相关性。

S10314：根据第二目标音频特征图，得到在若干个时序维度上的频率相关性权重图；其中，每个时序维度上的频率相关性权重图用于指示不同频率维度上的特征的相关性。

S10315：根据第一目标音频特征图和若干个频率维度上的时序相关性权重图，得到在时序维度上进行远距离特征融合后的第三目标音频特征图。

S10316：根据第二目标音频特征图和若干个时序维度上的频率相关性权重图，得到在频率维度上进行远距离特征融合后的第四目标音频特征图。

S10317：将第三目标音频特征图和第四目标音频特征图进行累加，得到第三音频特征图。

关于步骤S10311～S10312，在本实施例中，若将第二音频特征图表示为R_CxHxW，那么C 表示特征维度，第二音频特征图本质上是一个矩阵，特征是构成该矩阵的向量，特征维度即是向量的维度，H表示频率维度，W表示时序维度。

举例理解，若频率维度为200，时序维度为100，那么，H的值则为200，W的值则为100，第二音频特征图中每个时序维度和每个频率维度共同对应有一个特征，故，第二音频特征图中共有20000个特征。

步骤S10311～S10312均是第二音频特征图的形状进行了改变，而没有改变第二音频特征图中包含的数据量。

具体地，步骤S10311是对第二音频特征图中相同频率维度上的若干个时序维度上的特征进行映射，得到第一形状的第一目标音频特征图。

第一形状的第一目标音频特征图可以表示为R_HxWC，第一形状的第一目标音频特征图中每个频率维度上的特征为映射后的若干个时序维度上的特征，简单理解来说，每个频率点上有长度为WC的特征，频率维度是H，即是共有H个频率点。

步骤S10312是对第二音频特征图中相同时序维度上的若干个频率维度上的特征进行映射，得到第二形状的第二目标音频特征图。

第二形状的第二目标音频特征图可以表示为R_WxHC，第二形状的第二目标音频特征图中每个时序维度上的特征为映射后的若干个频率维度上的特征，简单理解来说，每个时序点上有长度为HC的特征，时序维度是W，即是共有W个时序点。

在一个可选的实施例中，自注意力模块中包含第一卷积模块、第二卷积模块和第三卷积模块，请参阅图8，图8为本申请实施例提供的自注意力模块的内部结构示意图。图8中第一卷积模块(ValueHead)81、第二卷积模块(KeyHead)82和第三卷积模块(QueryHead)83，上述三个卷积模块分别接收第二音频特征图R_CxHxW，并通过1x1的卷积核对第二音频特征图R_CxHxW进行不同的特征映射，以得到第一形状的第一目标音频特征图R_HxWC和第二形状的第二目标音频特征图R_WxHC。

其中，1x1的卷积核通道数与特征维度的值相同，均为C，1x1的卷积核并没有改变数据块的大小，其只是改变了第二音频特征图的形状。

关于步骤S10313～S10314，根据第一目标音频特征图，得到在若干个频率维度上的时序相关性权重图，根据第二目标音频特征图，得到在若干个时序维度上的频率相关性权重图。

其中，每个频率维度上的时序相关性权重图用于指示不同时序维度上的特征的相关性。

每个时序维度上的频率相关性权重图用于指示不同频率维度上的特征的相关性。

具体地，第一目标音频特征图表示为R_HxWC，第二目标音频特征图表示为R_WxHC。

针对第一目标音频特征图R_HxWC，当着眼于某一频率维度时，其对应的是不同时序维度上的特征，基于同一频率维度下不同时序维度上的特征，可以得到一个时序相关性权重图，那么，频率维度为H时，就能够得到H个时序相关性权重图，每个时序相关性权重图可以表示为R_WxW，H个时序相关性权重图表示为R_Hx(WxW)。

具体地，第一目标音频特征图包括若干个所述频率维度上的音频时序特征子图，S10313 包括步骤：对若干个音频时序特征子图进行转置运算，得到转置后的音频时序特征子图；将若干个转置后的音频时序特征子图与对应的转置前的音频时序特征子图进行相关性运算，得到在若干个频率维度上的时序相关性权重图。

其中，第h个频率维度下，时序i上的特征和时序j上的特征的时序相关性可以表示为

R_ic表示第i个时序上的特征，R_jc表示第j个时序上的特征，T表示转置。

针对第二目标音频特征图R_WxHC，当着眼于某一时序维度时，其对应的是不同频率维度上的特征，基于同一时序维度下不同频率维度上的特征，可以得到一个频率相关性权重图，那么，时序维度为W时，就能够得到W个频率相关性权重图。每个频率相关性权重图可以表示为R_HxH，W个频率相关性权重图表示为R_Wx(HxH)。

具体地，第二目标音频特征图包括若干个所述时序维度上的音频频率特征子图，S10314 包括步骤：对若干个音频频率特征子图进行转置运算，得到转置后的音频频率特征子图；将若干个转置后的音频频率特征子图与对应的转置前的音频频率特征子图进行相关性运算，得到在若干个时序维度上的频率相关性权重图。

其中，第w个时序维度下，频率i上的特征和频率j上的特征的频率相关性可以表示为

R_ih表示第i个频率上的特征，R_jh表示第j个频率上的特征，T表示转置。

在本实施例中，特征的相关性运算采用的是点积运算，可以理解的是，上述所有特征图本质为矩阵，因而，点积运算就是指常规的矩阵的点积运算。在其他可选的实施例中，特征的相关性运算也可以采用其他方式，例如：协方差运算等。

请参阅图8，图8中自注意力模块还包括时序相关性计算模块(TemporalAttention)84 和频率相关性计算模块(FrequencyAttention)85，时序相关性计算模块84的输入为两个第一目标音频特征图R_HxWC，输出为H个时序相关性权重图R_Hx(WxW)，频率相关性计算模块85 的输入为两个第二目标音频特征图R_WxHC，输出为W个频率相关性权重图R_Wx(HxH)。

关于步骤S10315～S10316，根据第一目标音频特征图和若干个频率维度上的时序相关性权重图，得到在时序维度上进行远距离特征融合后的第三目标音频特征图。

由于时序相关性权重图中饱含了远距离的时序上的特征的相关性，因而，根据若干个频率维度上的时序相关性权重图，能够得到在时序维度上进行远距离特征融合后的第三目标音频特征图。

具体地，将若干个频率维度上的时序相关性权重图与对应的所述频率维度上的音频时序特征子图进行点积运算，得到若干个在时序维度上进行远距离特征融合后的第三目标音频特征图。

其中，点积运算后每个频率维度上的音频时序特征子图中的特征依据对应的时序相关性权重图重新排布。

若干个频率维度上的时序相关性权重图表示为R_Hx(WxW)，每个时序相关性权重图表示为 R_WxW，第一目标音频特征图表示为R_HxWC，第一目标音频特征图中包括若干个频率维度上的音频时序特征子图，音频时序特征子图表示为R_WC，若干个在时序维度上进行远距离特征融合后的第三目标音频特征图表示为R_HxWxC，频率维度表示为H，R_HxWxC的含义就是H个在时序维度上进行远距离特征融合后的第三目标音频特征图。

此外，还要根据第二目标音频特征图和若干个时序维度上的频率相关性权重图，得到在频率维度上进行远距离特征融合后的第四目标音频特征图。

由于频率相关性权重图中饱含了远距离的频率上的特征的相关性，因而，根据若干个时序维度上的频率相关性权重图，能够得到在频率维度上进行远距离特征融合后的第四目标音频特征图。

具体地，将若干个时序维度上的频率相关性权重图与对应的时序维度上的音频频率特征子图进行点积运算，得到若干个在频率维度上进行远距离特征融合后的第四目标音频特征图。

其中，点积运算后每个时序维度上的音频频率特征子图中的特征依据对应的频率相关性权重图重新排布。

若干个时序维度上的频率相关性权重图表示为R_Wx(HxH)，每个时序相关性权重图表示为 R_HxH，第二目标音频特征图表示为R_WxHC，第二目标音频特征图中包括若干个时序维度上的音频频率特征子图，每个音频频率特征子图表示为R_HC，若干个在频率维度上进行远距离特征融合后的第四目标音频特征图表示为R_WxHxC，时序维度表示为W，R_WxHxC的含义就是W个在频率维度上进行远距离特征融合后的第四目标音频特征图。

请参阅图8，第一卷积模块81输出的第一形状的第一目标音频特征图R_HxWC和第二形状的第二目标音频特征图R_WxHC，分别与H个时序相关性权重图R_Hx(WxW)以及W个频率相关性权重图R_Wx(HxH)进行点积运算，得到R_HxWxC和R_WxHxC。

关于步骤S10317,将第三目标音频特征图和第四目标音频特征图进行累加，得到第三音频特征图。

在将第三目标音频特征图和第四目标音频特征图进行累加前，需要将第三目标音频特征图和第四目标音频特征图进行维度调整，使频率维度、时序维度均对应上，之后再进行特征的累加，得到第三音频特征图。

第三音频特征图可以表示为

在本实施例中，自注意力模块对音频特征图进行时序维度和频率维度上的远距离特征融合，从而能够更易分析出在线音频信号中的上下文语义信息，减少无关信号对语义的干扰，进而提高了在线音频分类结果的准确性和召回率。

下面对于音频分类模型的训练过程进行说明，具体如下：获取在线音频训练信号；其中，所述在线音频训练信号已标注音频分类结果；提取所述在线音频训练信号对应的第一音频特征图；根据所述在线音频训练信号对应的第一音频特征图、预设的优化算法和预设的损失函数，对初始化后的音频分类模型进行训练，得到所述预训练好的音频分类模型。

可以理解的是，关于音频分类模型的训练过程与传统的深度学习神经网络的训练过程是一致的，区别仅在于数据流转至音频分类模块中，中间需要自注意力模块进行时序维度以及频率维度上的远距离特征的融合。

在一个可选的实施例中，预设的优化算法可以为Adam优化算法，预设的损失函数可以为L2正则化的损失函数，学习率可以设置为0.0001，每5个循环衰减为十分之一(1个循环是指对在线音频训练信号对应的第一音频特征图的部训练一次)。

在一个可选的实施例中，为了提高训练效果，在线音频训练信号是经过特殊处理的。具体地，获取原始在线音频训练信号，对原始在线音频训练信号进行分段裁切，得到第一在线音频训练信号；对第一在线音频训练信号解码后进行预处理操作，得到所述在线训练音频信号。

具体地，原始在线音频训练信号的分段尺度与所述原始在线音频信号的分段尺度相同。

对原始在线音频训练信号进行解码后，还可以将左右声道合并为单通道，并将采样率设置为16K。

预处理操作中至少包括波形增强操作和频谱增强操作。

其中，波形增强操作是指对音频信号中每个波形点的能量进行放大或缩小，以及将波形点在时序上按照一定规则(比如与时序相关的一次函数)进行增强。

频率增强操作包括两种，第一种是若音频时长不够，则可以对其进行前后填充静音判断，以达到时长要求，另一种是提取有效的音频片段，在时序上进行随机偏移，填充静音片段，从而提高鲁棒性。

在一个可选的实施例中，服务器中包括第一处理器和第二处理器，通过第一处理器获取在线音频信号，提取在线音频信号对应的第一音频特征图，预训练好的音频分类模型设置在第二处理器中，通过第二处理器获取在线音频信号对应的第一音频特征图，将在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到在线音频信号的分类结果。其中第一处理器可以是指CPU，第二处理器可以是指GPU，通过将CPU与GPU进行隔离运算，能够有效提高服务器资源利用率，提高音频分类效率。

请参阅图9，为本申请第二实施例提供的在线音频分类装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置9包括：

第一获取单元91，用于获取在线音频信号；其中，所述在线音频信号为将原始在线音频信号分段裁切后得到的；

第一特征提取单元92，用于提取所述在线音频信号对应的第一音频特征图；其中，所述第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征；

第一分类单元93，用于将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果；其中，所述预训练好的音频分类模型中包括若干个音频分类模块，每个所述音频分类模块中包括至少一个自注意力模块，所述自注意力模块用于对音频特征图进行所述时序维度和所述频率维度上的远距离特征融合。

在本申请实施例中，该在线音频分类装置应用于服务器中。需要说明的是，上述实施例提供的在线音频分类装置在执行在线音频分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的在线音频分类装置与在线音频分类方法属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

请参阅图10，为本申请第三实施例提供的计算机设备的结构示意图。如图10所示，该计算机设备10可以包括：处理器1000、存储器1001以及存储在该存储器1001并可以在该处理器1000上运行的计算机程序1002，例如：在线音频分类程序；该处理器1000执行该计算机程序1002时实现上述第一实施例中的步骤。

其中，该处理器1000可以包括一个或多个处理核心。处理器1000利用各种接口和线路连接计算机设备10内的各个部分，通过运行或执行存储在存储器1001内的指令、程序、代码集或指令集，以及调用存储器1001内的数据，执行计算机设备10的各种功能和处理数据，可选的，处理器1000可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrambleLogic Array，PLA)中的至少一个硬件形式来实现。处理器1000可集成中央处理器(CentralProcessing Unit， CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1000中，单独通过一块芯片进行实现。

其中，存储器1001可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1001包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1001可用于存储指令、程序、代码、代码集或指令集。存储器1001可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1001可选的还可以是至少一个位于远离前述处理器1000的存储装置。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质可以存储有多条指令，该指令适用于由处理器加载并执行上述实施例的方法步骤，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种在线音频分类方法，其特征在于，所述方法包括步骤：

2.根据权利要求1所述的在线音频分类方法，其特征在于，每个所述音频分类模块包括至少两个卷积模块和至少一个所述自注意力模块，所述自注意力模块设置在相邻的两个所述卷积模块之间，所述将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果的步骤，包括：

通过所述自注意力模块接收上一个所述卷积模块输出的第二音频特征图，并对所述第二音频特征图进行所述时序维度和所述频率维度上的远距离特征融合，得到第三音频特征图；其中，所述第二音频特征图为所述第一音频特征图经过至少一个所述卷积模块处理后得到的；

将上一个所述卷积模块输出的所述第二音频特征图与所述自注意力模块输出的所述第三音频特征图进行点积运算，并将点积运算结果输入至下一个所述卷积模块中；其中，上一个所述卷积模块与下一个所述卷积模块为所述音频分类模块中相邻的卷积模块。

3.根据权利要求2所述的在线音频分类方法，其特征在于，所述对所述第二音频特征图进行所述时序维度和所述频率维度上的远距离特征融合，得到第三音频特征图，包括步骤：

对所述第二音频特征图中相同所述频率维度上的若干个所述时序维度上的特征进行映射，得到第一形状的第一目标音频特征图；其中，所述第一形状的第一目标音频特征图中每个所述频率维度上的特征为映射后的若干个所述时序维度上的特征；

对所述第二音频特征图中相同所述时序维度上的若干个所述频率维度上的特征进行映射，得到第二形状的第二目标音频特征图；其中，所述第二形状的第二目标音频特征图中每个所述时序维度上的特征为映射后的若干个所述频率维度上的特征；

根据所述第一目标音频特征图，得到在若干个所述频率维度上的时序相关性权重图；其中，每个所述频率维度上的时序相关性权重图用于指示不同所述时序维度上的特征的相关性；

根据所述第二目标音频特征图，得到在若干个所述时序维度上的频率相关性权重图；其中，每个所述时序维度上的频率相关性权重图用于指示不同所述频率维度上的特征的相关性；

根据所述第一目标音频特征图和若干个所述频率维度上的时序相关性权重图，得到在所述时序维度上进行远距离特征融合后的第三目标音频特征图；

根据所述第二目标音频特征图和若干个所述时序维度上的频率相关性权重图，得到在所述频率维度上进行远距离特征融合后的第四目标音频特征图；

将所述第三目标音频特征图和所述第四目标音频特征图进行累加，得到所述第三音频特征图。

4.根据权利要求3所述的在线音频分类方法，其特征在于，所述第一目标音频特征图包括若干个所述频率维度上的音频时序特征子图；

所述根据所述第一目标音频特征图，得到在若干个所述频率维度上的时序相关性权重图，包括步骤：

对若干个所述音频时序特征子图进行转置运算，得到转置后的所述音频时序特征子图；

将若干个转置后的所述音频时序特征子图与对应的转置前的所述音频时序特征子图进行相关性运算，得到在若干个所述频率维度上的时序相关性权重图。

5.根据权利要求3所述的在线音频分类方法，其特征在于，所述第二目标音频特征图包括若干个所述时序维度上的音频频率特征子图；

所述根据所述第二目标音频特征图，得到在若干个所述时序维度上的频率相关性权重图，包括步骤：

对若干个所述音频频率特征子图进行转置运算，得到转置后的所述音频频率特征子图；

将若干个转置后的所述音频频率特征子图与对应的转置前的所述音频频率特征子图进行相关性运算，得到在若干个所述时序维度上的频率相关性权重图。

6.根据权利要求3所述的在线音频分类方法，其特征在于，所述第一目标音频特征图中包括若干个所述频率维度上的音频时序特征子图；

所述根据所述第一目标音频特征图和若干个所述频率维度上的时序相关性权重图，得到在所述时序维度上进行远距离特征融合后的第三目标音频特征图，包括步骤:

将若干个所述频率维度上的时序相关性权重图与对应的所述频率维度上的音频时序特征子图进行点积运算，得到若干个在所述时序维度上进行远距离特征融合后的所述第三目标音频特征图；其中，点积运算后每个所述频率维度上的音频时序特征子图中的特征依据对应的所述时序相关性权重图重新排布。

7.根据权利要求3所述的在线音频分类方法，其特征在于，所述第二目标音频特征图中包括若干个所述时序维度上的音频频率特征子图；

所述根据所述第二目标音频特征图和若干个所述时序维度上的频率相关性权重图，得到在所述频率维度上进行远距离特征融合后的第四目标音频特征图，包括步骤：

将若干个所述时序维度上的频率相关性权重图与对应的所述时序维度上的音频频率特征子图进行点积运算，得到若干个在所述频率维度上进行远距离特征融合后的所述第四目标音频特征图；其中，点积运算后每个所述时序维度上的音频频率特征子图中的特征依据对应的所述频率相关性权重图重新排布。

8.根据权利要求1至7任意一项所述的在线音频分类方法，其特征在于：所述预训练好的音频分类模型为残差神经网络模型，所述音频分类模块为残差模块，所述残差模块包括两个卷积模块和一个所述自注意力模块。

9.根据权利要求1至7任意一项所述的在线音频分类方法，其特征在于，所述获取在线音频信号之前，所述方法包括步骤：

获取在线音频训练信号；其中，所述在线音频训练信号已标注音频分类结果；

提取所述在线音频训练信号对应的第一音频特征图；

根据所述在线音频训练信号对应的第一音频特征图、预设的优化算法和预设的损失函数，对初始化后的音频分类模型进行训练，得到所述预训练好的音频分类模型。

10.根据权利要求9所述的在线音频分类方法，其特征在于，所述获取在线音频训练信号包括步骤：

获取原始在线音频训练信号；

对所述原始在线音频训练信号进行分段裁切，得到第一在线音频训练信号；其中，所述原始在线音频训练信号的分段尺度与所述原始在线音频信号的分段尺度相同；

对所述第一在线音频训练信号解码后进行预处理操作，得到所述在线训练音频信号；其中，所述预处理操作至少包括波形增强操作和频谱增强操作。

11.根据权利要求1至7任意一项所述的在线音频分类方法，其特征在于，所述提取所述在线音频信号对应的第一音频特征图，包括步骤：

通过第一处理器获取所述在线音频信号，提取所述在线音频信号对应的第一音频特征图；

所述预训练好的音频分类模型设置在第二处理器中，所述将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果，包括步骤：

通过所述第二处理器获取所述在线音频信号对应的第一音频特征图，将所述在线音频信号对应的第一音频特征图输入至所述预训练好的音频分类模型，得到所述在线音频信号的分类结果。

12.根据权利要求1至7任意一项所述的在线音频分类方法，其特征在于：所述第一音频特征图为梅尔频率倒谱系数特征图。

13.一种在线音频分类装置，其特征在于，包括：

14.一种计算机设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至12任意一项所述方法的步骤。

15.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12任意一项所述方法的步骤。