CN116913286A

CN116913286A - 音频识别方法与多任务音频识别模型训练方法

Info

Publication number: CN116913286A
Application number: CN202311013736.8A
Authority: CN
Inventors: 郑炜乔; 朱孔洋; 赖荣凤; 傅鸿城
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-10-20

Abstract

本申请公开一种多任务音频识别方法，包括接收音频信号；对所述音频信号进行端点处理以获得有效音频片段；提取所述有效语音片段的声学特征向量；将有效语音片段的声学特征向量输入至经训练的多任务音频识别模型，以获得音频分类识别结果和语音内容识别结果；根据音频分类识别结果和语音内容识别结果识别音频的违规内容。本发明方案可用于快速识别上下文或情境中存在色情、低俗等违规内容，提高音频内容安全检测准确率，有效降低音频识别计算成本。

Description

音频识别方法与多任务音频识别模型训练方法

技术领域

本申请涉及多媒体内容处理的技术领域，具体地涉及一种音频识别方法和一种多任务音频识别模型训练方法。另外，本申请还涉及相关的电子设备和存储介质。

背景技术

随着互联网短视频、直播等行业快速发展，由此产生了海量音频内容或带有音频的视频内容。有些用户为了吸引流量或发泄情绪，在短视频或者直播中出现色情、低俗、涉嫌违反运营规则的音频内容，因此有必要对短视频、直播产生的音频进行违规内容检测。

然而，由于诸多原因，如音频中同时存在多种关联违规内容，违规内容有时比较晦涩或者因音频中正常播放声音、如背景音乐(BGM)的干扰，当前的音频违规内容检测效果不佳。

因此，在实现本发明过程中，发明人发现现有技术需要分别建立多个独立的算法模型，但是多个独立的算法模型消耗的计算资源是成倍的，且无法实现快速、准确识别音频违规内容。

本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

发明内容

因此，本发明实施例意图提供一种音频识别方法、一种多任务音频识别模型训练方法以及相关电子设备和计算机存储介质。通过本发明实施例的音频识别方案，可以提高识别准确率，降低音频识别计算成本。

第一方面，本发明实施例提供了一种音频识别方法，包括：

接收音频信号；

对所述音频信号进行端点处理以获得有效音频片段；

提取所述有效语音片段的声学特征向量；

将所述有效语音片段的声学特征向量输入至经训练的多任务音频识别模型，其中，所述声学特征向量经所述多任务音频识别模型的共享编码器处理以获得编码特征向量，所述编码特征向量经所述多任务音频识别模型的第一分类子模型处理以获得音频分类识别结果，且所述编码特征向量经所述多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果，以及，

根据所述音频分类识别结果和所述语音内容识别结果确认所述音频是否满足预设违规条件。

在本发明的一些实施例中，所述共享编码器包括支持输入具有相同维数的任意长度音频的瓶颈层，所述瓶颈层由多个神经网络层构成。

在本发明的一些实施例中，所述第一分类子模型包括对应音频分类数量的线性投射层和分类器。

在本发明的一些实施例中，所述第二解码器子模型包括用于获得多个候选语音内容识别结果的CTC解码器和用于对所述多个候选语音内容识别结果打分的注意力解码器。

在本发明的一些实施例中，所述解码器包括多层Transformer解码层，每层维度与所述共享编码器的维数相同。

在本发明的一些实施例中，所述编码特征向量经所述多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果，包括：

所述CTC解码器计算语音内容识别的候选结果及得分，并按照得分从高至低次序输出所述候选结果；

利用所述注意力解码器对所述候选结果进行重打分；以及，

输出得分最高的所述候选结果作为语音内容识别结果。

在本发明的一些实施例中，提取所述有效语音片段的声学特征向量，包括：

提取经过短时傅里叶变换的所述有效语音片段的一种或多种指定维数的声学特征；以及，

依据所述一种或多种所述声学特征组成所述声学特征向量。

在本发明的一些实施例中，所述接收音频信号包括：

从音视频源中音频通道接收所述音频信号，所述音视频源包括音视频文件和/或直播流链接；和/或，

对所述音频信号进行预处理；对所述音频信号进行预处理包括对所述音频信号进行包括指定编码格式转化、归一化和预加重中一种或多种预处理。

在本发明的一些实施例中，对获取的音频信号进行端点处理以获得所述有效音频片段，包括：

确定所述音频信号的一个或多个表征信息；

根据所述一个或多个表征信息在所述音频信号中截取出所述有效音频片段，其中，所述有效片段包括静音段和/或噪音段，所述表征信息包括幅度、能量、过零率和基频中的一种或多种。

在本发明的一些实施例中，经共享编码器处理之前，可对所述声学特征向量进行下采样。

在本发明的一些实施例中，所述多任务音频识别模型还包括：用于识别音频语种的语种检测解码器；和/或，用于识别所述音频所在环境的情景识别器。

第二方面，提出一种多任务音频识别模型训练方法，包括：

提取训练音频的声学特征向量；

将所述训练音频的所述声学特征向量输入至待训练多任务音频识别模型，其中，所述多任务音频识别模型包括共享编码器、第一分类子模型和第二编码器子模型，其中所述第一分类子模型包括分类器，所述第二编码器子模型包括一个或多个解码器，其中所述第一分类子模型与所述第二编码器子模型并行设置；

由所述多任务音频识别模型的第一分类子模型和第二编码器子模型分别输出音频分类识别训练结果和语音内容识别训练结果；

依据所述音频分类识别训练结果和所述语音内容识别训练结果迭代更新所述多任务音频识别模型的参数，直至达到预设的迭代终止条件，以获得经训练的多任务音频识别模型。

在本发明的一些实施例中，所述多任务音频识别模型的目标损失函数可包括加权的第一分类子损失函数和一个或多个第二解码器子损失函数。

在本发明的一些实施例中，所述第二解码子损失函数可包括CTC解码子损失函数和注意力解码子损失函数，其中所述第一分类子损失函数、CTC解码子损失函数和注意力解码子损失函数的权重值之和为1。

在本发明的一些实施例中，还包括：在被输入待训练多任务音频识别模型前，对所述训练音频信号的声学特征向量进行数据增强处理，所述数据增强处理包括对训练音频信号的时域信号和/或频域信号进行加噪和/或加混响。

在本发明的一些实施例中，所述第二编码器子模型包括CTC解码器和注意力解码器。

在本发明的一些实施例中，所述CTC解码器和所述注意力解码器的输出均连接线性层。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时，实现任一本发明实施例的音频识别方法，任一本发明实施例的多任务音频识别模型训练方法。

第四方面，本发明实施例提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的音频识别方法，任一本发明实施例的多任务音频识别模型训练方法。

本技术方案提供了音频识别的方法，构建多任务音频识别模型，多任务音频识别模型具有共享编码器，通过上下文关系和音频特点等关联信息，形成音频编码特征向量，并行经过分类子模型和编码子模型，同时得到分类识别结果和语音内容识结果，进而基于音频类别与语音内容的识别结果识别音频中的低俗、色情等违规内容。本发明方案可有效提高音频识别准确率，节省音频识别计算资源成本和人工审核成本；音频识别结果可进一步作为对用户或黑产恶意上传的违规音频作出警告或封号处理的依据，为音频内容安全检测提供技术保障。

相比之下，在本发明人已知的某些方案中，对音频检测需要分别建立多个独立的算法模型，如针对娇喘的算法模型、针对区别歌曲和说话的音频类型算法模型等；虽然多个独立任务及其模型能满足音频检测需求，但是多个独立的算法模型消耗的计算资源是成倍的，且其未曾考虑音频任务的关联性，其无法实现快速、准确识别音频违规内容。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出本发明实施例的音频识别方法的示例流程图之一；

图2示出本发明实施例的音频识别方法的示例流程图之二；

图3示出本发明实施例的音频识别方法的示例流程图之三；

图4示出本发明实施例的音频识别方法中的多任务音频识别模型结构示意图之一；

图5示出本发明实施例的音频识别方法的示例流程图之四；

图6示出本发明实施例的音频识别方法中的多任务音频识别模型结构示意图之二；

图7示出本发明实施例的多任务音频识别模型训练方法的示例流程图；

图8示出本发明实施例的音频识别装置的示例性结构图；

图9示出根据本发明实施例的多任务音频识别模型训练装置的示例性结构图；

图10示出能实施根据本发明实施例的方法的电子设备的示例性结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本发明的实施例中，“网络”具有机器学习领域中的常规含义，例如神经网络NN、深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN、Transformer、Conformer其他的机器学习或深度学习网络或它们的组合或修改。在一些实施例中，基于Transformer的相关内容可以参考来自《神经信息处理系统进展》的Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.于2017年发表的论文"Attention Is All You Need(你所需的只是注意力)"；基于Conformer的相关内容可以参考来自《国际学习表示会议》的Gulati,A.,Ahuja,V.,Misra,H.,&Narayanan,S.于2020发表的会议论文“Conformer:Convolution-augmented Transformer for Speech Recognition(Conformer：用于语音识别的卷积增强Transformer)”。

在本发明的实施例中，声学模型可以主要采用DNN模型，例如CNN、CRNN、TDNN、LSTM、RNN等神经网络结构。

在本发明的实施例中，端到端语音识别方法主要包括连接时序分类模型(CTC)、递归神经网络转换器模型(RNN-T)、基于注意力(Attention)机制的序列到序列(Attentionbased Seq2Seq)模型、Transformer和Conformer模型等。其中，连接时序分类模型CTC及对应的CTC解码器要达到的目标就是直接将语音和相应的文字对应起来，实现时序问题分类；注意力机制及对应的注意力解码器是在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

在本发明实施例中，“模型”具有机器学习领域中的常规含义，例如模型可以是机器学习或深度学习模型，例如为包括上述网络或者由上述网络构成的机器学习或深度学习模型。

在本发明实施例中，“损失函数”和“损失值”具有机器学习领域中的常规含义。

在本发明实施例中，对“音频”的处理，包括识别具有声音的视频、短视频，以及由一人或多人借以不同的声音表情和录音格式所录制的声音作品，包括但不限于歌曲、音乐、有声书、音响、说唱节目等进行识别分类处理及必要的音视频技术处理。

本发明实施例提供一种音频识别方法和装置、相关的多任务音频识别模型的训练方法和系统以及存储介质和电子设备。所述方法、系统、装置/模型可以借助于一个或多个计算机实施。在一些实施例中，所述系统、装置/模型可以由软件、硬件或软硬件结合实现。在一些实施例中，该电子设备或计算机可以由本文所记载的计算机或其他可实现相应功能的电子设备实现。

本发明方案可应用于直播或音频相关应用等产品的后台内容安全管理。通过对用户直播的实时音视频流或者上传发布的音视频内容进行音频内容识别，可以对用户或网络黑产上传恶意违规音频内容进行打击警告或封号处理，减少对安全审核人力的成本和提高安全审核的效率，保护产品线的业务安全，避免产品给社会带来了不良影响和监管部门的通报。通过本技术方案，同时结合音频特点类型和音频的语音内容进行识别，精准识别低俗、色情等违规音视频。

因此，如图1所示，在一个示例性实施例中，提供的一种音频识别方法，包括：

S110：接收音频信号。

在本发明一些实施例中，所述接收音频信号可包括从音视频源中音频通道接收所述音频信号，所述音视频源包括音视频文件和/或直播流链接。

具体地，无论是上传发布的音视频文件还是以直播流链接形式提供的直播音视频流，均可通过实时下载或拉取直播流的方式。由于视频与音频编解码原理不同且处于的信号通道中，因此可以从包含声音的视频信号中分离出相应的音频信号。

在本发明一些实施例中，对所述音频信号进行预处理；对所述音频信号进行预处理包括对所述音频信号进行包括指定编码格式转化、归一化和预加重中一种或多种预处理。

具体地，由于所获得的音频信号可能存在编码格式的差异，因此在对音频信号数据进行预处理时首先要将其按照指定的编码类型进行转码，例如根据编码方式的不同，音频信号编码可以通过波形编码、参数编码和混合编码，形成统一的音频编码。为了方便计算处理，例如在后续的端点检测中，为了确定固定的阈值，通常需要对音频信号进行归一化预处理。预加重处理是音频信号处理的前提，用于提升音频信号中的高频分量，特别是对于本发明的应用场景而言，对于一些违规音频的安全检测，例如娇喘等。音频是通过人的发音系统是从肺开始，气流通过声带，引发周期性震动，再经过咽、口腔、唇、舌，形成最后的声音，一般以低频分量为主，但是高频分量中却隐藏着更多的信息，因此可以提高获得音频信号表征内容的完整性。另外，还可以包括但不限于分帧、加窗等其他预处理操作，需要视音频信号和后续音频特征提取的需要而选用。

S120：对获取的音频信号进行端点处理以获得有效音频片段。

在本发明一些实施例中，对获取的音频信号进行端点处理以获得所述有效音频片段，如图2所示，包括：

S121：确定音频信号的一个或多个表征信息。

在本发明一些实施例中，所述表征信息包括幅度、能量、过零率和基频中的一种或多种。

其中，基频有非常多的用途，可以用于检测语音噪声，特殊声音检测，男女判别，说话人识别，参数自适应等。

S122：根据一个或多个表征信息在音频信号中截取出有效音频片段。

在本发明一些实施例中，根据所述一个或多个表征信息确定并取出静音段和/或噪音段。

具体地，计算表征信息并进行有效语音的判断和检测，是为了去除静音段和噪声段，截取获得有效语音片段，减小静音段和噪声段对识别结果的影响。

S130：提取有效语音片段的声学特征向量。

在本发明一些实施例中，提取所述有效语音片段的声学特征向量，如图3所示，包括：

S131：提取经过短时傅里叶变换的有效语音片段的一种或多种指定维数的声学特征。

其中，所述声学特征包括梅尔频率倒谱系数MFCC和/或滤波器组频谱Fbank。

具体地，由于通常的傅里叶变换只能够反映出音频信号在频域的特性,无法在时域内对信号进行分析，因此本发明实施例中，为了将时域和频域相联系，采用了短时傅里叶变换(Short-Time Fourier Transform，STFT)对有效语音频段进行处理，其实质是加窗的傅里叶变换。例如，对有效的语音片段提取80维的FBank特征。

S132：依据所述一种或多种声学特征组成声学特征向量。

在本申请实施例中，可以将这些声学特征、如梅尔频率倒谱系数MFCC和/或滤波器组频谱FBank组成声学特征向量。由特征构件向量的方式可以根据已知技术确定。

S140：将有效语音片段的声学特征向量输入至经训练的多任务音频识别模型。

在本发明一些实施例中，被输入至经训练的多任务音频识别模型的所述声学特征向量将经多任务音频识别模型的共享编码器处理以获得编码特征向量；以及，

所述编码特征向量将经多任务音频识别模型的第一分类子模型处理以获得音频分类识别结果，且编码特征向量经多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果。

在本发明一些实施例中，经共享编码器处理之前，对所述声学特征向量进行下采样。

具体地，将所述声学特征向量进行下采样，包括将所述特征向量经过一个卷积层后输出采样率小于原先采样率预设比例的声学特征向量。例如，在输入共享编码器前先经过卷积层进行下采样将采样率缩小为原来的1/4。

在本发明一些实施例中，所述共享编码器包括支持输入具有相同维数的任意长度音频的瓶颈层，所述瓶颈层由多个神经网络层构成。

具体地，所述共享编码器包含多层神经网络的编码层，所述神经网络包括Transformer、Conformer、CNN、RNN中的一种或多种，所述编码层包括瓶颈层。具体地，本发明实施例以Transformer神经网络为例，Transformer是一种基于序列到序列seq2seq结构的序列生成神经网络，Transformer采用了注意力(attention)神经元。对比RNN，Transformer采用的注意力(attention)机制的优点为训练过程是并行计算，更加适合在大规模的分布式集群中训练；对比CNN，Transformer采用的注意力(attention)机制的优点为可以看到全局的数据。

具体地，依据编码需要确定所述共享编码器的所述神经网络的所述编码层的层数以及指定所述神经网络的参数值。具体地，以Transformer为例，共享编码器是由12层Transformer编码层组成，每个Transformer块中注意力(attention)维度为256，前向(feedforward)的维度为2048。因此，所述声学特征向量输入至所述共享编码器进行编码，包括接收相同维数的任意长度的所述声学特征向量进行编码。因此，本发明所涉及的多任务音频识别方法实现了音频类别识别与语音识别，采取的是共享了音频特征提取和编码器，本质上是音频特征的共享。

现参考图4，在本发明一些实施例中，所述第一分类子模型包括对应音频分类数量的线性投射层和分类器。

可以理解，线性投射层其实就是一个全连接层，用于将每一个结点都与上一层的所有结点相连，把前边提取到的特征综合起来。在一些实施例的具体实现方式上，依据音频分类的类别数量确定所述线性投射层的输出向量的维数；以及，将所述线性投射层的所述输出向量输入至所述分类器后，输出音频类别标签。

在本发明一些实施例中，所述第二解码器子模型包括用于获得多个候选语音内容识别结果的CTC解码器和用于对所述多个候选语音内容识别结果打分的注意力解码器。

可以理解，连接时序分类模型CTC及对应的CTC解码器要达到的目标就是直接将语音和相应的文字对应起来，实现时序问题分类；注意力机制及对应的注意力解码器是在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

在本发明一些实施例中，所述解码器包括多层Transformer解码层，每层维度与所述共享编码器的维数相同。

具体地，所述注意力解码器包含与所述共享编码器中所述神经网络相对应的指定层数的解码层；以及，每层所述解码层的维数与通过所述共享编码器进行编码的所述声学特征向量的维数相同。

在本发明一些实施例中，所述编码特征向量经所述多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果，如图5所示，包括：

S141：所述CTC解码器计算语音内容识别的候选结果及得分，并按照得分从高至低次序输出所述候选结果。

S142：所述注意力解码器对所述候选结果进行重打分。

S143：输出得分最高的所述候选结果作为语音内容识别结果。

具体地，音频分类识别的线性投射层输出维数与类别数量相同的向量，最后经过分类器输出音频类别标签；语音内容识别通过解码器进行识别，采用两步解码方法，先通过CTC解码器获得多个候选结果，最后用注意力解码器对多个候选结果进行重打分，注意力解码器包含了6层Transformer解码层，每层维度与共享编码器的维数相同，通过两步解码方式实现精准语音内容识别。对于音频帧，同步输出音频类别标签和语音识别结果，实现多任务音频识别。

在本发明一些实施例中，所述多任务音频识别模型，如图6所示，还包括：用于识别音频语种的语种检测解码器；和/或，用于识别所述音频所在环境的情景识别器。

具体地，基于本发明的方案，可以继续新增多种识别技术，如语种检测，并根据语音语种连接对应语种的解码器，实现多语种语音识别；还可以结合音频类别识别和语音识别结果判断用户说话所在的情景或环境。

S150：根据音频分类识别结果和语音内容识别结果确认所述音频是否满足预设违规条件。

在本发明一些实施例中，在进行音频识别之前，可以预设至少一个用于判断音频是否违规的预设违规条件，其中，用于确认音频是否违规的音频特征包括但不限于音频中包含/涉及仇恨言论和歧视内容、暴力和威胁内容、色情淫秽内容、非法赌博信息、虚假信息以及欺诈信息、恐怖主义信息、垃圾广告信息，人身攻击内容以及政治敏感信息等，在此不做限定；所述预设违规条件可由确认音频分类识别结果违规条件和确认语音内容识别结条件组成，具体所述预设违规条件的形式包括但不限于分类规则、阈值或者比率分数等，例如：接收到的音频被识别并分类为赌博信息、接收到的音频被识别存在色情言语内容、接收到的音频被识别出其中涉及超过比率阈值的暴力和威胁性词语等。

本领域技术人员应该明白，其可以根据其具体应用本申请所公开的音频识别方法的场景以及自身需求预设符合其期望的预设违规条件，本文上述关于预设违规条件的内容以及组成形式仅为举例参考，不作为对于本申请所述技术方案的限制。

相比之下，在本发明人已知的某些方案中，对音频检测对音频检测需要分别建立多个独立的算法模型，如针对娇喘的算法模型、针对区别歌曲和说话的音频类型算法模型等；虽然多个独立任务及其模型能满足音频检测需求，但是多个独立的算法模型消耗的计算资源是成倍的，且其未曾考虑音频任务的关联性，其无法实现快速、准确识别音频违规内容。。

如图7所示，在一个示例性实施例中，提供一种多任务音频识别模型训练方法。本发明实施例的多任务音频识别模型训练方法，包括：

S210：提取训练音频的声学特征向量。

S220：将训练音频的声学特征向量输入至待训练多任务音频识别模型。

其中，所述多任务音频识别模型包括共享编码器、第一分类子模型和第二编码器子模型，其中所述第一分类子模型包括分类器，所述第二编码器子模型包括一个或多个解码器，其中所述第一分类子模型与所述第二编码器子模型并行设置。

其中，所述CTC解码器和所述注意力解码器的输出均连接线性层的作用是，使输出的所述语音内容识别训练结果的维数与语音内容识别字典大小相同。

在本发明的一些实施例中，所述多任务音频识别模型的目标损失函数包括加权的第一分类子损失函数和一个或多个第二解码器子损失函数。

在本发明的一些实施例中，所述第二解码子损失函数包括CTC解码子损失函数和注意力解码子损失函数，其中所述第一分类子损失函数、CTC解码子损失函数和注意力解码子损失函数的权重值之和为1。

具体地，所述多任务音频识别模型的目标损失函数，可以采用基于Adam优化器进行构建。所述多任务音频识别模型进行训练的目标损失函数为L＝αLoss_Classifier+βLoss_CTC+(1-α-β)Loss_Attention；其中，Loss_Classifier、Loss_CTC、Loss_Attention分别为分类器损失函数、CTC解码器损失函数和注意力解码器损失函数；以及α和β为超参数，用于调节所述分类器损失函数和所述CTC解码器损失函数的权重。

S230：由多任务音频识别模型的第一分类子模型和第二编码器子模型分别输出音频分类识别训练结果和语音内容识别训练结果。

S240：依据音频分类识别训练结果和语音内容识别训练结果迭代更新多任务音频识别模型的参数，直至达到预设的迭代终止条件，以获得经训练的多任务音频识别模型。

本发明实施例中，如图8所示，示出一种多任务音频识别装置800，可以结合任一实施例的多任务音频识别方法的特征。在图8的实施例中，所述多任务音频识别装置800，包括：

第一模块801，配置为对接收到的音频信号进行端点处理以获得有效音频片段。

第二模块802，配置为获取音频的有效语音片段。

第三模块803，配置为提取有效语音片段的声学特征向量。

第四模块804，配置为将有效语音片段的声学特征向量输入至经训练的多任务音频识别模型。

第五模块805，配置为根据音频识别模型输出的识别结果确认所述音频是否满足预设违规条件。

其中，所述声学特征向量经所述多任务音频识别模型的共享编码器处理以获得编码特征向量，所述编码特征向量经所述多任务音频识别模型的第一分类子模型处理以获得音频分类识别结果，且所述编码特征向量经所述多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果。

应理解，本说明书实施例的一种音频识别装置800还可执行图1至图6中音频识别装置(或设备)执行的方法特征，并实现音频识别装置(或设备)在图1至图6所示实例的功能，在此不再赘述。

本发明实施例中，如图9所示，示出一种多任务音频识别模型训练装置900可以结合任一实施例的多任务音频识别模型训练方法的特征。在图9的实施例中，所述多任务音频识别模型训练装置900，包括：

第一模块901，配置为提取训练音频的声学特征向量。

第二模块902，将训练音频的声学特征向量输入至待训练多任务音频识别模型。

第三模块903，由多任务音频识别模型的第一分类子模型和第二编码器子模型分别输出音频分类识别训练结果和语音内容识别训练结果。

第四模块904，依据音频分类识别训练结果和语音内容识别训练结果迭代更新多任务音频识别模型的参数，直至达到预设的迭代终止条件，以获得经训练的多任务音频识别模型。

应理解，本说明书实施例的一种多任务音频识别模型训练装置900还可执行图8中多任务音频识别模型训练装置(或设备)执行的方法特征，并实现多任务音频识别模型训练装置(或设备)在图8所示实例的功能，在此不再赘述。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一实施例的多任务音频识别方法、任一实施例的多任务音频识别模型训练方法。

图10示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1000的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图10所示，电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序和/或数据或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序和/或数据而执行各种适当的操作和处理。处理器1001可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1001可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如，中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1003中，还存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的方法、步骤或功能。

以下部件连接至I/O接口1005：包括键盘、鼠标、触摸屏等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。图10中仅示意性示出部分组件，并不意味着计算机系统1000只包括图10所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

尽管未示出，在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一实施例的多任务音频识别方法、任一实施例的多任务音频识别模型训练方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种音频识别方法，其特征在于，包括：

接收音频信号；

对所述音频信号进行端点处理以获得有效音频片段；

提取所述有效语音片段的声学特征向量；

将所述有效语音片段的声学特征向量输入至经训练的多任务音频识别模型，其中，所述声学特征向量经所述多任务音频识别模型的共享编码器处理以获得编码特征向量，所述编码特征向量经所述多任务音频识别模型的第一分类子模型处理以获得音频分类识别结果，且所述编码特征向量经所述多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果；

2.根据权利要求1所述的音频识别方法，其特征在于，所述共享编码器包括支持输入具有相同维数的任意长度音频的瓶颈层，所述瓶颈层由多个神经网络层构成；

所述第一分类子模型包括对应音频分类数量的线性投射层和分类器；

所述第二解码器子模型包括用于获得多个候选语音内容识别结果的连接时序分类模型CTC解码器和用于对所述多个候选语音内容识别结果打分的注意力解码器。

3.根据权利要求2所述的音频识别方法，其特征在于，所述编码特征向量经所述多任务音频识别模型的并行的第二解码器子模型处理以获得语音内容识别结果，包括：

利用所述CTC解码器计算语音内容识别的候选结果及得分，并按照得分从高至低次序输出所述候选结果；

利用所述注意力解码器对所述候选结果进行重打分；以及，

输出得分最高的所述候选结果作为语音内容识别结果。

4.根据权利要求1所述的音频识别方法，其特征在于，对获取的音频信号进行端点处理以获得所述有效音频片段，包括：

确定所述音频信号的一个或多个表征信息；以及，

根据所述一个或多个表征信息在所述音频信号中截取出所述有效音频片段，所述有效音频片段包括静音段和/或噪音段，所述表征信息包括幅度、能量、过零率和基频中的一种或多种。

5.根据权利要求1至4中任一项所述的音频识别方法，其特征在于，所述多任务音频识别模型还包括：用于识别音频语种的语种检测解码器；和/或，用于识别所述音频所在环境的情景识别器。

6.一种音频识别模型训练方法，其特征在于，包括：

提取训练音频的声学特征向量；

7.根据权利要求6所述的音频识别模型训练方法，其特征在于，所述多任务音频识别模型的目标损失函数包括加权的第一分类子损失函数和一个或多个第二解码器子损失函数。

8.根据权利要求7所述的音频识别模型训练方法，其特征在于，所述第二解码子损失函数包括CTC解码子损失函数和注意力解码子损失函数，其中所述第一分类子损失函数、CTC解码子损失函数和注意力解码子损失函数的权重值之和为1。

9.根据权利要求6至8中任一项所述的音频识别模型训练方法，其特征在于，还包括：在被输入待训练多任务音频识别模型前，对所述训练音频信号的声学特征向量进行数据增强处理，所述数据增强处理包括对训练音频信号的时域信号和/或频域信号进行加噪和/或加混响；

其中，所述第二编码器子模型包括CTC解码器和注意力解码器；

其中，所述CTC解码器和所述注意力解码器的输出均连接线性层。

10.一种电子设备，其特征在于，包括处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行权利要求1至9中任一项所述的方法。

11.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被配置为被运行时执行权利要求1至9中任一项所述的方法。