CN109859743B

CN109859743B - 音频识别方法、系统和机器设备

Info

Publication number: CN109859743B
Application number: CN201910087286.4A
Authority: CN
Inventors: 苏丹; 王珺; 陈杰; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2023-12-08
Anticipated expiration: 2039-01-29
Also published as: WO2020156153A1; US20210233513A1; CN110517666B; EP3920178A4; EP3920178B1; CN110517666A; CN109859743A; EP3920178C0; US11900917B2; EP3920178A1

Abstract

本发明揭示了一种实现音频识别的神经网络训练方法、系统和机器设备。所述方法包括：获取音频数据流；对音频数据流中每个时间帧的不同音频数据，在神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征；为标注数据中的给定标注，通过深度特征对音频数据流在设定损失函数中融合相对给定标注的类间混淆度衡量指数和类内距离惩罚值；通过融合得到的损失函数值，进行神经网络中的参数更新。基于所融合得到的损失函数值进行神经网络的训练，综合音频数据流相对给定标注的类间混淆度衡量指数以及相对中心向量之间距离度量的惩罚来提高所实现音频识别的鲁棒性。

Description

音频识别方法、系统和机器设备

技术领域

本发明涉及计算机声学应用技术领域，特别涉及一种音频识别方法、系统和机器设备。

背景技术

声学场景中音频识别的实现，即各种音频分类任务的执行往往受限于声学场景的变化性，例如基于音频识别的自动语音识别，这将使得音频识别难以应用于各种音频分类任务中。声学场景的变化性是来自于多方面的，例如，说话人、口音、背景噪声、混响、声道和录音条件等等。

随着科学技术的发展和硬件计算能力的大幅提升，将基于神经网络实现音频识别。但是，基于神经网络实现的音频识别仍然无法保证对变化的声学场景的鲁棒性。

用于实现音频识别的神经网络，存在着其训练过程无法涵盖所有可能的声学场景的状况，进而导致后续对神经网络所进行的测试过程是与训练过程不匹配的。

神经网络的训练过程虽然尽可能多的涵盖各种声学场景，但是，仍然可能会遇到新的状况，例如，，新的录音环境、麦克风类型、说话人、口音和背景噪声等声学条件，并且所有的状况都有涵盖到，这些状况的统计分布仍然有着很大的变化性。

也就是说，音频识别的进行存在着训练过程所涵盖的声学场景变化，即声学条件与测试、应用时的不匹配。亟待为音频识别所使用的神经网络增强训练时未见以及变化大的声学条件下的鲁棒性。

发明内容

为了解决相关技术中用于实现音频识别的神经网络缺乏对训练时未见以及变化大的声学条件下的鲁棒性，本发明提供一种实现音频识别的神经网络训练方法、系统和机器设备。

一种音频识别方法，所述方法包括：

获取进行音频识别的音频数据流，所述音频数据流包括分别对应若干时间帧的音频数据；

对所述音频数据流中每个时间帧的不同音频数据，在神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征；

为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值；

通过融合得到相对标注数据中一系列给定标注的损失函数值，对所述音频数据流获得音频标注结果。

一种音频识别系统，所述音频识别系统包括：

数据流获取模块，用于获取进行音频识别的音频数据流，所述音频数据流包括分别对应若干时间帧的音频数据；

特征抽取模块，用于对所述音频数据流中每个时间帧的不同音频数据，在神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征；

融合计算模块，用于为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值；

结果获取模块，用于通过融合得到相对标注数据中一系列给定标注的损失函数值，对所述音频数据流获得音频标注结果。

一种机器设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如前所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

对于给定音频，为音频识别的神经网络训练获取音频数据流，此音频数据流包括了分别对应若干时间帧的音频数据，对音频数据流中每个时间帧的不同音频数据，在所训练神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征，至此便为每一时间帧的不同音频数据都获得了用于对音频数据流进行标注，以识别此音频数据流的深度特征；在此基础之上，再为标注数据中的给定标注，通过深度特征来对音频数据流在设定损失函数融合相对此给定标注的类间混淆度衡量指数以及类内距离度量的惩罚，最后通过所融合得到的损失函数值来进行神经网络中的参数更新，对于用于进行音频识别的神经网络而言，基于所融合得到的损失函数值来进行网络各层的参数更新，综合音频数据流相对给定标注的类间混淆度衡量指数以及类内距离惩罚值来提高所实现神经网络对训练时未见以及变化大的声学条件的鲁棒性。

音频数据流相对给定标注的类间混淆度衡量指数，将保证了音频识别中深度特征的类间区分性；而音频数据流相对给定标注的类内距离惩罚值，对于音频识别而言，则增强了所抽取得到的深度特征的鉴别性能，因此，在此基础上所进行的二者之间融合，保证了深度特征具备类间区分性和类内分布的紧密性，从而得以提高所实现神经网络对训练时未见以及变化大的声学条件的鲁棒性，进而有效提升音频识别的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种音频识别端的硬件结构框图；

图3是根据一示例性实施例示出的一种音频识别方法的流程图；

图4是根据另一示例性实施例示出的一种音频识别方法的流程图

图5是根据图3对应实施例示出的对步骤350进行描述的流程图；

图6是根据图3对应实施例示出的对步骤350在另一个示例性实施例进行描述的流程图；

图7是根据图3对应实施例示出的对步骤370进行描述的流程图；

图8是根据一示例性实施例示出的自动语音识别系统中神经网络的网络架构示意图；

图9是根据一示例性实施例示出的融合损失函数监督训练神经网络时的前向传播和反向传播错误信号流的示意图；

图10是根据一示例性实施例示出的一种音频识别系统的框图；

图11是根据图10对应实施例示出的融合计算模块的框图；

图12是根据图13对应实施例示出的融合计算模块在另一个示例性实施例的框图；

图13是根据图10对应实施例示出的更新模块的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明所涉及的实施环境的示意图。在一个示例性实施例中，该实施环境包括音频源110以及音频识别端130，对于音频源110所发出的音频，例如，一段语音，在音频识别端130进行着神经网络的训练，以此来获得可供实现音频识别的神经网络。

例如，如图1所示的，音频源110，可以是一说话人，也可以是一终端设备，通过说话人的说话向音频识别端130输出一段语音，或者通过一终端设备进行的音频播放向音频识别端130输出一段音频。

音频识别端130可以是智能音箱、智能电视、在线语音识别系统等，对于神经网络的训练过程而言，音频源110将为所进行的神经网络训练提供音频数据流作为训练数据。本发明所实现音频识别的神经网络训练逻辑将应用于音频识别端130，对音频源110输入的音频进行神经网络训练。应当理解，该实施环境的具体框架将与所落地的场景强相关，不同的场景，将使得所在的实施环境除了音频源110和音频识别端130之外，有着不同的架构部署。

音频识别端130将面向于各种音频源110，例如，各种应用所在的设备，通过各种音频源110来为音频识别端130提供进行神经网络训练的音频数据流。

所训练得到的神经网络将应用于诸多场景，例如，安全监控中的音频监控、说话人识别以及人机交互等在此不进行一一列举，实现诸多场景下的音频识别。

图2是根据一示例性实施例示出的一种音频识别端的硬件结构框图。在一个示例性实施例中，音频识别端可以是服务器，当然，其也可以是计算能力优秀的终端设备。图2是根据一示例性实施例示出的作为音频识别端的服务器的硬件结构框图。需要说明的是，该服务器200只是一个适配于本公开的示例，不能认为是提供了对本公开的使用范围的任何限制。该服务器200也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器200中的一个或者多个组件。

该服务器200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，服务器200包括：电源210、接口230、至少一存储介质250、以及至少一中央处理器(CPU，Central Processing Units)270。

其中，电源210用于为服务器200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。

存储介质250作为资源存储的载体，可以是随机存储介质、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。其中，操作系统251用于管理与控制服务器200上的各硬件设备以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是Windows ServerTM、MacOS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对服务器200的一系列操作指令。数据255可以是存储于磁盘中的照片、图片等等。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储介质250通信，用于运算与处理存储介质250中的海量数据255。

如上面所详细描述的，适用本公开的服务器200将通过中央处理器270读取存储介质250中存储的一系列操作指令的形式来进行音频的识别。

图3是根据一示例性实施例示出的一种音频识别方法的流程图。在一个示例性实施例中，该音频识别方法，如图3所示，至少包括以下步骤。

在步骤310中，为音频识别的神经网络训练获取音频数据流，音频数据流包括分别对应若干时间帧的音频数据。

其中，随着音频识别所使用神经网络训练的进行，将首先获取此音频对应的音频数据流，通过此音频数据流来执行神经网络的训练。应当理解，音频数据流描述了音频内容，也反映了输出此音频内容的说话人。音频数据流是由一帧帧音频数据所组成的，因此，音频数据流包含了对应时间帧的若干音频数据。这些音频数据将形成时间序列，也就是说，音频数据流将对应于按照一定的时间顺序所构成的音频序列数据。

在一个示例性实施例中，步骤310包括：获取带噪且连续的音频数据流以及标注数据为神经网络的训练数据。

音频识别的进行，是为了对音频数据流进行分类，即由音频识别所进行的音频标注，便标示了音频数据流归属的类别，进而由此而获知音频数据流所对应的说话人，或者在内容上归属的标签。与此相对应的，用于实现音频识别的神经网络，将以音频数据流作为训练数据，此音频数据流是进行了标注的，因此，对应于音频数据流的标注数据也将作为训练数据，标注数据将与音频数据流相配合进行神经网络的训练。

在一个示例性实施例中，对于所获取的音频数据流，在执行步骤330之前，该音频识别方法还包括以下步骤：

对音频数据流进行分帧，获得对应若干时间帧的音频数据，对应于时间帧的音频数据将通过相应音频标注的预测完成音频识别。

其中，音频数据流往往是任意长度且完成标注的，例如，其可以是短暂输入的语音，也可以是当前所进行的演讲等等，因此，需按照一定的帧长和帧移对进行音频识别的音频数据流进行分帧，以此来获得每一时间帧对应的音频数据，其标注数据中的给定标注将对应于一时间帧的音频数据。

神经网络所实现的音频识别，作为时序分类的一种，由分帧所获得的音频数据形成了时序分类中的时序数据，在后续所进行的特征抽取中，按时序对音频数据进行即可，以此来为每一时间帧下的音频数据输出特征。

音频识别的进行，即为音频标注的预测过程，预测音频数据所在音频数据流的类别，进而为此而打上相应的标注，亦可称之为标签，由此即可获得音频标注结果，通过音频标注结果确认相应的说话人，或者音频在内容上的类别。神经网络的训练与此相对应，因此，需要使用标注的音频数据流来进行神经网络训练。

在步骤330中，对音频数据流中每个时间帧的不同音频数据，在所训练神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征。

其中，对音频数据流，进行每一时间帧下不同音频数据的特征抽取，此特征抽取是在神经网络中进行的，通过神经网络中网络各层的特征抽取来对应于时间帧获得深度特征。

首先应当说明的是，对音频数据进行特征抽取的神经网络，可以适用于多种模型类型和网络拓扑结构，也可以根据需要扩展网络结构，甚至替换各种更为有效的网络拓扑结构。在一个示例性实施例中，神经网络可以通过卷积网络层和Max pool层构成的多层结构、LSTM(Long Short-Term Memory，长短期记忆网络)的多层结构以及全连接层来为不同时间帧下的音频数据输出深度特征。

对应时间帧所输出的深度特征，将是对音频数据的数值化描述，因此，将表征音频数据而进行音频数据流的标注。

在一个示例性实施例中，对步骤330包括：对音频数据流中每个时间帧的不同音频数据，在神经网络中的网络各层逐层进行特征抽取，直至抵达网络最后一层，获得对应时间帧输出的深度特征。

其中，音频数据流中每一时间帧的音频数据，都在神经网络经由网络各层完成深度特征的抽取，以此来以帧为单位获取特征。

而在另一个示例性实施例中，对于步骤330所获得对应时间帧的深度特征，在执行步骤350之前，正如图4所示出的，该音频识别方法还包括：

在步骤410中，对深度特征，获取所对应时间帧之前和之后各指定数量时间帧的深度特征。

其中，在前述示例性实施例中，所获得的深度特征，是对一时间帧的音频数据抽取得到的，而在本示例性实施例中，将为此时间帧按照一定长度拼接深度特征，以此来作为此时间帧输出的深度特征。

基于此，针对对应于每一时间帧的深度特征，都获取在此时间帧之前和之后各指定数量时间帧的深度特征。例如，指定数量时间帧可以是5帧，由获取此时间帧之前和之后各5帧音频数据的深度特征。

在步骤430中，将深度特征按照时序与所对应时间帧之前和之后指定数量时间帧的深度特征拼接，获得时间帧在神经网络输出的深度特征。

其中，在通过步骤410的执行，为时间帧获取指定数量时间帧的深度特征之后，将按照所获取深度特征对应的时间帧，进行深度特征的按时序拼接，以此来获得当前时间帧在神经网络输出的深度特征。

应当理解，对音频数据流分帧而获得若干时间帧对应的音频数据，每一音频数据都描述了音频数据流中的一部分内容。对所有音频数据都进行特征抽取，方能准确进行音频数据流的分类识别。

对于请求进行神经网络训练的音频数据流，通过前述示例性实施例，根据音频识别端自身的硬件部署情况，将音频数据流按照一定的时间长度进行分割，便得到了对应若干时间帧的音频数据，以此来适应于任意音频识别状况和机器部署状况，增强神经网络的可靠性和通用性。

而对应于若干时间帧的不同音频数据，都进行按指定数量时间帧为当前所对应的时间帧进行着深度特征的拼接，以此来获得能够反映上下文信息的深度特征，进而增强神经网络的精准性。

在此应当说明的是，对于所进行的深度特征拼接，所指的当前时间帧，是所进行的深度特征拼接中，当前所处理到的时间帧。所进行的深度特征拼接，是针对于每一时间帧进行的，分别围绕着每一时间帧而为所对应深度特征拼接此时间帧之前以及之后的深度特征，以此来获得此时间帧输出的深度特征。

在步骤350中，为标注数据中的给定标注，通过深度特征对音频数据流在设定损失函数中融合相对给定标注的类间混淆度衡量指数和类内距离惩罚值。

其中，在对时间帧的音频数据抽取得到深度特征之后，即使用深度特征来表征音频数据，进行此音频数据参与的神经网络训练。

标注数据对应于音频数据流，标注数据是为神经网络的训练过程所输入的，标注数据将用于为音频数据流的标注预测提供所有可能的标注，进而通过步骤350所进行的计算通过哪一标注所对应的类别相对于音频数据流所存在的类间混淆度衡量指数，从而确定损失函数值，以此来完成神经网络的一次迭代训练。

而设定损失函数，用于以深度特征为输入，实现音频数据流相对给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合计算。也就是说，设定损失函数即为融合损失函数。在设定损失函数的作用下为神经网络的训练供损失函数值。

标注数据包括若干给定标注，对于每一给定标注，都通过深度特征对音频数据流在设定损失函数中融合相对这一给定标注的类间混淆度衡量指数和类内距离惩罚值，以此来获得这一给定标注的损失函数值。此损失函数值将决定着本次所迭代进行的神经网络训练是否收敛结束。

应当理解的，对于设定损失函数所计算得到的损失函数值，将通过最小化损失函数值来控制所进行的神经网络训练，以保证所进行的神经网络迭代训练能够得到收敛而结束，进而将由此得到的参数更新到神经网络中。

对于所训练得到的神经网络而言，其所对应最小化的损失函数值，由于是由类间混淆度衡量指数和类内距离惩罚值所融合得到的，因此，类间混淆度衡量指数和类内距离惩罚值都将是最小化的。

每一给定标注都对应于一类别，给定标注将作为所对应类别的标签而存在。应当说明的是，音频数据流相对给定标注的类间混淆度衡量指数，用于表征音频数据流归属于这一给定标注所对应类别的可能性，以增强类间区分性，即类间混淆度衡量指数越小，则类间区分性越强；而音频数据流相对给定标注的类内距离惩罚值，则用于通过类内距离的惩罚来增强鉴别性能，以通过类内分布紧凑来满足类内鉴别性能，即类内距离惩罚值越小，则类内分布的紧凑性越强，进而获得类内鉴别性能的增强。

在一个示例性实施例中，所获得相对给定标注的类间混淆度衡量指数和类内距离惩罚值，是面向于时间帧的音频数据而言的。对每一时间帧的音频数据，最将通过其深度特征来实现此音频数据相对给定标注的类间混淆度衡量指数以及类内距离惩罚值二者之间的融合。

在另一个示例性实施例中，所获得给定标注的类间混淆度衡量指数和类内距离惩罚值，是面向于整个音频数据流而言的。针对于标注数据中的每一给定标注，都对音频数据流在整体上进行音频数据流相对当前给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合。

在此示例性实施例中，面向于音频数据流整体进行标注而获得标注序列，由此所获得的损失函数值即为音频数据流相对一可能的标注序列的概率，此概率的数值大小将由音频数据流相对此标注序列的类间混淆度衡量指数以及相对此标注序列的类内距离惩罚值决定。

至此，将单一音频数据的标注优化为音频数据流对所有可能标注序列的预测，从而将不再需要保证神经网络的训练中帧级别标注的进行，不需要为每一时间帧的音频数据都在训练过程中提供所对应的标注，训练过程的输入信号流不再需要保证与标注的长度一致，应当理解，对于一段音频而言，某一个或者某几个时间帧的音频数据无对应标注是正常的，往往会经过几个时间帧才能够对当前时间帧进行音频数据的标注，因此，面向于音频数据流进行整体上的标注，将使得音频识别的实现不再需要在训练过程中进行帧级别的标注，能够支持和采纳序列建模的机制，且能够在序列鉴别训练的同时学习有鉴别性的特征表达。

如前所述的，通过神经网络中的网络各层进行了特征抽取，以此来获得了时间帧音频数据的深度特征，除此之外，对于神经网络而言，还包括了softmax层，将通过softmax层完成结果的输出，当然，所输出的结果是音频数据流相对各给定标注的概率分布，即前述所指的损失函数值，以此来通过最小化的损失函数值优化神经网络。

因此，步骤350的实现将是通过神经网络中的softmax层执行的，进而以此来获得音频数据流相对标注数据中一系列给定标注的损失函数值。

神经网络的softmax层为进行音频数据流相对给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，将通过设定的融合损失函数实现。

应当理解的，类内距离惩罚值，可以通过欧几里得距离计算得到，也可采用其它距离类型计算得到，例如角度距离。与此相对应的，类内距离惩罚值的计算可以通过中心损失函数实现，但也不限于此，也可以通过采用角度距离的Contrastive损失函数、Triplet损失函数、Sphere face损失函数和CosFace损失函数等实现类内距离惩罚值的计算，在此不一一进行列举。

在步骤370中，通过融合得到相对标注数据中一系列给定标注的损失函数值，进行神经网络中的参数更新。

其中，通过步骤350的执行，获得音频数据流相对标注数据中一系列给定标注的损失函数值之后，即可由此损失函数值来控制神经网络的训练。

应当说明的是，所指的一系列给定标注，是音频数据流通过softmax层输出损失函数值所对应的所有给定标注。在一个示例性实施例中，音频数据流融合得到损失函数值所对应的一系列给定标注，包括了每一时间帧所对应音频数据通过sofmax层映射的给定标注。在另一个示例性实施例中，音频数据流融合得到损失函数值所对应的一系列给定标注，则是音频数据流通过softmax层所映射的给定标注。

通过此示例性实施例，将得以显著降低音频识别在未见声学条件下的错误率，有效提高了音频识别对噪声可变性的泛化能力，进而在干净语音条件、训练己见声学条件以及未见声学条件下都能够获得非常低的错误率。

图5是根据图3对应实施例示出的对步骤350进行描述的流程图。在一个示例性实施例中，如图5所示，该步骤350包括：

在步骤351中，为标注数据中的给定标注，获取给定标注所属类别对应的中心向量，该中心向量用于描述所属类别中所有深度特征的中心。

在步骤353中，根据深度特征和中心向量对时间帧的音频数据进行设定损失函数中自身相对给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，获得音频数据相对给定标注的损失函数值。

其中，此示例性实施例是面向于音频数据进行的融合计算，通过设定损失函数来获得每一时间帧音频数据相对给定标注的损失函数值。

如前所述的，标注数据包括若干给定标注。因此，在采用欧几里得距离所进行的类内距离惩罚值计算中，将根据给定标注所在类别的中心向量对深度特征计算类内距离，进而通过惩罚类内距离而获得类内距离惩罚值。应当理解的，中心向量用于描述给定标注所在类别的中心。在神经网络的softmax层所进行的融合计算中，对于每一时间帧的音频数据，都针对于标注数据中的每一给定标注基于中心向量进行相对这一给定标注的类内距离惩罚值的计算。

与此相对应的，对于这一给定标注，也将预测每一时间帧的音频数据相对每一给定标注的类间混淆度衡量指数。

由此可知，所进行的融合计算是针对于标注数据中的每一给定标注进行的，并且在设定损失函数所进行的融合计算中，针对于相同给定标注，都进行自身相对此给定标注的类间混淆度衡量指数及类内距离惩罚值计算，进而进行二者之间的融合，得到音频数据相对于此给定标注的损失函数值，以此类推，运算得到每一时间帧音频数据相对所有给定标注的损失函数值。

通过此示例性实施例，使得音频数据的标注能够在新的声学条件下具备鲁棒性，即便在新的录音环境、遇到新的说话人甚至于新的口音和背景噪声，也能够稳定可靠的完成音频识别。

在另一个示例性实施例中，该步骤353包括：通过深度特征和中心向量，进行给定标注的中心损失计算，获得时间帧的音频数据相对给定标注的类内距离惩罚值。

其中，正如前述所指出的，对应于给定标注的中心向量，将作为所在类别的中心，每一时间帧的音频数据都将通过自身所抽取得到的深度特征对中心向量计算深度特征在相应类别中的类内紧凑性和鉴别性能，这是通过惩罚深度特征和中心向量之间的类内距离所实现的。

因此，在一个示例性实施例中，对于音频数据相对给定标注的中心损失计算，可通过如下所示的中心损失函数实现，即：

其中，L_cl是类内距离惩罚值，u_t是时间帧t的音频数据的深度特征，即神经网络中倒数第二层在第t时间帧的输出，，是第k_t类深度特征的中心向量。

在所进行的中损失计算中，其目标是希望音频数据的深度特征享有中心的距离的平方和要越小越好，即类内距离越小越好。

在另一个示例性实施例中，该步骤353还包括：根据深度特征，采用交叉熵损失函数计算时间帧的音频数据相对给定标注的类间混淆度衡量指数。

其中，交叉熵损失函数用于保证深度特征的类间区分性。

在一个示例性实施例中，交叉熵损失函数为：

其中，L_ce是第t时间帧的音频数据归属于给定标注的类间混淆度衡量指数，是神经网络输出层给过softmax操作之后对应第k_t个结点的输出，神经网络中有K个输出结点，代表K类输出类别。

进一步的，对于将通过下述公式得到，即：

a_t＝Wu_t+B

其中，a_t是神经网络最后一层，即softmax层的前一层的对应时间帧t的输出，表示第j个结点，W和B分别对应最后一层的权重矩阵和偏置向量。

在另一个示例性实施例中，该步骤353还包括：按照指定权重因子，在设定损失函数对类内距离惩罚值和音频数据相对给定标注的类间混淆度衡量指数进行加权计算，得到音频数据相对给定标注的损失函数值。

其中，所进行的融合计算，是按照指定权重因子在设定损失函数进行二者之间的加权计算，以此来获得音频数据相对给定标注的损失函数值。

在一个示例性实施例中，作为融合损失函数的设定损失函数，将通过以下融合损失函数对中心损失函数和交叉熵损失函数进行融合计算，即：

L_fmf＝L_ce+λL_cl

其中，L_fmf是音频数据相对给定标注的损失函数值，λ是指定权重因子。

在一个示例性实施例中，音频数据流中的不同时间帧都通过标注数据中的给定标注进行音频数据的标注。

正如前述所指出的，音频数据流包括了分别对应于若干时间帧的不同音频数据。每一时间帧的音频数据都进行了标注，在标注数据中有着对应的给定标注。

换而言之，标注数据中的给定标注都是对应于音频数据流中不同时间帧的音频数据的，以此来保证神经网络训练中标注数据与音频数据流的对齐。

图6是根据图3对应实施例示出的对步骤350在另一个示例性实施例进行描述的流程图。在另一个示例性实施例中，标注数据中补充空白标注，如图6所示，该步骤350包括：

在步骤501中，对标注数据中的给定标注和补充的空白标注，获取所属类别对应的中心向量。

在步骤503中，对音频数据流按时序对深度特征形成的深度特征序列，计算音频数据流映射为给定序列标注的概率以及给定序列标注分别相对中心向量的距离，获得音频数据流相对给定序列标注的类内距离惩罚值。

其中，给定序列标注包括补充的空白标注和给定标注。

首先应当说明的是，空白标注是标注数据中的新增标注，空白标注对应于“空白类”。应当理解，音频数据流中，往往存在不知道对应于哪一给定标注的一时间帧或者某几时间帧的音频数据，为此将音频数据归属于空白标注即可，由此将得以保证音频数据流与给定序列标注的对齐，即解决音频数据流与标注的长度不一致的问题，音频识别不再受限于帧级别标注数据的限制。

可以理解的，对于音频数据流而言，空白标注将存在于音频数据流归属的给定标注中，即空白标注分隔给定标注。

给定序列标注包括若干给定标注以及给定标注之间插入的空白标注。除此这外，在给定序列标注中，还将在首尾插入空白标注，以此来解决音频数据流中首帧音频数据以及最后一帧音频数据无含义，进而无法标注的问题。

由此，在一个示例性实施例中，音频数据流的标注数据是未对齐的离散标签串，在离散标签串补充空白标注，补充的空白标注和标注数据中的给定标注分别对应于音频数据流中不同时间帧的音频数据。

音频数据流所未对齐的离散标签串，是一给定序列标注，因此，离散标签串包括了若干给定标注，但是，并无法针对于输入信号流的每一帧而对应上每一给定标注。也就是说，并不知道离散标签串中某一给定标注对应到输入信号流的哪些帧。

以音频数据流和未对齐的离散标签串作为训练数据来进行神经网络的训练，在此作用下将使得神经网络的训练以及后续音频识别的实现不再受限于帧级别的标注数据，即不再受限于输入信号流与离散标签串二者之间的无法对齐。

通过所进行的中心损失计算获得音频数据流相对给定序列标注的类内距离惩罚值是对给定序列标注计算音频数据流中深度特征偏离中心向量的距离的期望值。给定标注序列是音频数据流可能对应的标注序列，由给定标注和空白标注构成。

而音频数据流映射为给定序列标注的概率，是相对于每一可能的给定序列标注所进行的计算，用于描述音频数据流与给定序列标注之间的映射关系。

在一个示例性实施例中，所进行音频数据流映射为给定序列标注概率的计算，可通过如下所示的条件概率分布计算实现，即：

p(s,t|z)＝α_t(s)β_t(s)

其中，α_t(s)和β_t(s)分别表示前向变量和后向变量，可依据CTC(ConnectionistTemporal Classification)中的最大似然准则计算得到，z是长度为r的序列标注。

由于给定序列标注实质是一序列标注z插入空白标注所得到的，因此，对此给定序列标注计算音频数据流映射为这一给定序列标注的概率，实质是对序列标注z进行的。

与此相对应的，音频数据流相对给定序列标注的类内距离惩罚值，将通过如下条件期望中心损失函数计算得到，即：

其中，L_ecl是音频数据流相对给定序列标注的类内距离惩罚值，z'是在序列标注z的首尾及每个相邻给定标注之间插入空白标注之后得到的给定序列标注，是给定序列标注中对应类别的中心向量，S则是音频数据流x与序列标注z这一标注对所在的训练集。

在为音频数据流所进行的融合计算中，进行着音频数据流映射为给定序列标注的概率以及给定序列标注分别相对中心向量的距离的计算，以此来完成条件期望中心损失函数的计算，获得音频数据流相对给定序列标注的类内距离惩罚值。标注数据中给定标注和空白标注所能够组成的每一可能的标注序列，都将作为给定序列标注参与计算。

在另一个示例性实施例中，该步骤350包括：根据深度特征，计算音频数据流相对给定序列标注的概率分布，且通过概率分布计算音频数据流的对数似然代价为音频数据流相对给定序列标注的类间混淆度衡量指数。

其中，随着音频数据流相对给定序列标注类内距离惩罚值的计算，也为此音频数据流进行其相对给定序列标注类间混淆度衡量指数的计算。音频数据流相对给定序列标注的类间混淆度衡量指数计算，其目标是最大化相对音频数据流而言给定标注序列为正确标注的概率，将最大化所有正确标注的概率，即最小化音频数据流相对给定序列标注概率分布的对数似然代价。

在一个示例性实施例中，音频数据流相对给定序列标注的概率分布可通过如下所述的公式计算得到，即：

p(z|x)

由此可以得到通过概率分布计算音频数据流的对数似然代价为：

其中，L_ml是音频数据流相对给定序列标注的类间混淆度衡量指数，即音频数据流的对数似然代价。

在另一个示例性实施例中，该步骤350还包括：按照指定权重因子，在设定损失函数中对音频数据流相对给定序列标注的类间混淆度衡量指数和类内距离惩罚值进行加权计算，得到音频数据流相对给定序列标注的损失函数值。

其中，基于如上所述音频数据流相对给定序列标注的类间混淆度衡量指数和类内距离惩罚值，进行二者之间的融合计算，即按照指定权重因子进行二者之间的加权计算，以此来得到音频数据流相对给定序列标注的损失函数值。

在一个示例性实施例中，将根据最小化的损失函数值来确定神经网络训练的收敛结束，因此，与此相对应的，音频数据流相对每一给定序列标注都按照指定权重因子进行加权计算，所对应最小化损失函数值的参数即可更新至神经网络中。

在一个示例性实施例，将通过下述时态多损失融合函数来计算得到音频数据流相对给定序列标注的损失函数值，即：

L_tmf＝L_ml+λL_ecl

其中，L_tmf是音频数据流相对给定序列标注的损失函数值，λ是指定权重因子。

通过时态多损失融合函数，得以保证深度特征在类间的区分性，而条件期望中心损失函数则提高了深度特征在类内分布的紧凑程度，即保证鉴别性。

图7是根据图3对应实施例示出的对步骤370进行描述的流程图。在一个示例性实施例中，如图7所示，该步骤370包括：

在步骤371中，根据融合得到相对标注数据中一系列给定标注的损失函数值，进行神经网络中网络各层所更新参数的迭代训练，直至获得最小化的所述损失函数值。

在步骤373中，将最小化损失函数值对应的参数更新至神经网络的网络各层。

其中，实现音频识别且具备鲁棒性的神经网络，是通过带噪且连续的音频数据流进行训练所得到的。在音频数据流和融合损失函数的作用下，将使得训练所得到的神经网络往往涵盖着各种不同的声学条件，将使得所训练得到的神经网络能够适应各种不同的声学条件，具备更佳的可靠稳定性。

并且在通过神经网络的网络各层进行训练的过程中，根据所最小化的损失函数值进行着网络各层权重参数的优化，以此来获得对未见声学条件具备鲁棒性的神经网络。也就是说，在一个示例性实施例中，将以最小化的设定损失函数为训练目标来进行神经网络的训练，从而方能够通过神经网络实现音频数据流的标注预测。

神经网络的训练，将通过前向传递音频数据流直至输出产生误差信号，反向传播误差信息更新参数，例如网络各层的权重矩阵、softmax层的参数等，完成多层神经网络的训练，进而应用到音频分类任务中。

例如，对于softmax层所采用的时态多损失函数，其也是可微的，因此，神经网络标准的反向传播算法来训练。

通过此示例性实施例，将不断优化训练所得到的神经网络，进而不断增强神经网络进行音频识别的准确性。

通过如上所述的示例性实施例，便得以在各种声学条件，例如，干净语音条件、训练已见声学条件以及训练未见声学条件下实现自动语音识别等多种应用，并且能够取得非常低的字错误率。并且，在未见声学条件下通过如上所述的示例性实施例带来的相对字错误率降低的幅度是在所有声学条件下最为显著的。这都有力说明了通过如上所述的示例性实施例能有效地提高鲁棒性，并且通过同时保证深度特征在类间的区分性和类内分布的紧凑性，能够有效提高对于噪声可变性的泛化能力。

如上所述示例性实施例的训练实现，能够适用于各种网络结构的神经网络，也就是说，并不限定神经网络的模型类型和网络结构，可以替换为各种有效的新型的网络结构，并为所采用的神经网络构建softmax层，在此并未额外增加复杂度，也不需要针对性的做额外的超参或网络结构的调优，一致性的性能得到提高。

通过如上所述的示例性实施例，将能够应用到包括智能音箱、智能电视、在线语音识别系统、智能语音助手、同声传译以及虚拟人等多个项目和产品应用中，在复杂的具有高度可变性的真实声学环境中显著地改善准确率，性能得到极大的提升。

以描述自动语音识别系统的实现为例，结合上述方法实现进行阐述。作为音频识别的一种应用，自动语音识别系统将对输入的音频数据流进行训练，以获得神经网络。现有的自动语音识别的进行，一方面无法适用于所有可能的声学条件以及变化的声学条件，这是由于所采用的神经网络无法在训练时涵盖所有声学条件导致的；另一方面的，在进行神经网络的训练时，需要每个样本帧都具备对应的类别标注，但是这对于实际所进行的神经网络训练过程而言是无法满足的，所能够使用的训练数据是带噪的、连续的音频数据流和未对齐的离散标签序列，并不知道其中某一个标签对应到输入信号流的哪些帧。

为此，将应用如上所述的方法执行自动语音识别，在经由神经网络中的网络各层通过深度特征对音频数据流融合相对给定标注的类间混淆度衡量指数和类内距离惩罚值之后，即可得到音频数据流相对标注数据中一系列给定标注的损失函数值，完成神经网络的训练。

图8是根据一示例性实施例示出的自动语音识别系统中神经网络的网络架构示意图。在一个示例性实施例中，如图8所示，本发明实现自动语音识别系统所属神经网络的网络架构至少包括了卷积网络层加Max pool层的多层结构1010、LSTM的多层结构1030、全连接层1050以及融合损失函数计算模块；与此相对应的，音频数据流经特征提取模块得到输入特征之后经卷积网络层加Max pool层的多层结构1010，再经LSTM的多层结构1030，然后再通过全连接层1050，输出到融合损失函数计算模块，通过其所实现的融合损失函数完成神经网络训练。标注数据可以是音频数据流的音素表达。

而对于这一神经网络，将利用输出音素作为训练目标进行监督训练所得到。

示例性的，假设图8中的神经网络有K个输出结点，代表K类输出类别，例如，上下文相关的音素、上下文相关的子音素以及隐马尔可夫状态标签等。并且假设已有训练数据和对应的帧级别的标注(x_t,k_t):t＝1,...,T，表示是x_t属于第k_t类的输入数据，此时即可采用前述示例性实施例所述的融合损失函数，即L_fmf＝L_ce+λL_cl来计算得到音频数据流相对标注数据中一系列给定标注的损失函数值，以此来得到完成神经网络的训练。

对于自动语音识别系统的实现而言，在此融合损失函数的作用下，得以同时保证深度到的深度特征的类间区分性和类内分布的紧密度，从而提高所使用神经网络对训练时未见的声学场景在测试时的鲁棒性。

在此基础上进一步延伸的，图8所示出神经网络中的融合损失函数计算模块将采用时态多损失融合函数，即L_tmf＝L_ml+λL_ecl，通过此融合损失函数计算模块的实现，保证类间区分性和类内鉴别性。

此时，应当理解的，通过时态多损失融合函数所计算得到音频数据流相对一系列给定序列标注的损失函数值，是通过在所有可能的标注序列上概率分布计算的进行实现的，给定该概率分布，时态多损失函数在直接最大化正确标注的概率的同时惩罚深度特征和对应中心的距离，由此不再受到帧级别标注数据的限制。

在为此自动语音识别系统的神经网络训练中，为计算训练数据的输入特征，取帧长25ms、帧移10ms提取40维的Fbank特征，然后计算它们的一阶和二阶差分构成120维的向量，归一化之后，将当前帧之前和之后的各5帧向量拼接起来，构成120*(5+5+1)＝1320维的输入特征向量，即前述所指的对应时间帧的深度特征。

神经网络的网络结构和超参如表1进行配置，正如前述所指出的该网络结构首先包含两层二维的卷积层，输出频道数分别为64和80，每层kernel size为(3,3)，stride为(1,1)；各卷积层分别接一层maxpool层，其kernel size为(2,2)，stride为(2,2)；然后接五层LSTM层，每层隐结点数为1024，输出结点数为512；然后接一个全联接层，输出结点数即对应K类输出类别，例如，详细实现中可以采用12K类上下文相关的音素。

表1.本发明所采用神经网络中网络结构的一个配置实例

基于上述配置实例所配置的网络架构，可以采用融合损失函数，即L_fmf＝L_ce+λL_cl或者时态多损失融合函数进行训练。对于采用融合损失函数L_fmf＝L_ce+λL_cl的训练过程，在无噪声干净语音条件下的训练过程中，指定权重因子λ取1e-3；在带噪语音条件下的训练过程中，指定权重因子λ取1e-4。训练的优化算法采用Adam方法。学习率在训练开始时设初始值1e-4，而当平均验证似然值(每5K个分批训练后计算一次)连续3次未降时，学习率减半。如果平均验证似然值连续8次未降，则提前终止训练。

而对于采用时态多损失函数所进行神经网络训练，由于时态多损失融合函数也是可微的，因此可以通过标准的反向传播算法来训练，基于前述所描述的破游戏网络学习方法，对应的，图9是根据一示例性实施例示出的融合损失函数监督训练神经网络时的前向传播和反向传播错误信号流的示意图。

示例性的，时态多损失融合函数的学习算法，包括：

输入部分，即以训练标注对(x,z)∈S为输入，并且设置卷积层和LSTM层的初始化参数θ，全连接层的初始化权重参数W和初始化中心向量{c_j|j＝1,2,...,K}，权重因子λ，批动量(batch momentum)μ和学习率γ。

输出部分，在时态多损失融合函数的学习算法中，将进行参数θ和W的调整以及插入空白标注之后中心向量的参数更新。

具体的，按照时态多损失函数，计算由CTC损失函数产生的反向传播错误信号，如图9所示出的，经由softmax层，即可获得音频数据流的对数似然代价L_ml的反向传播错误信号，即：/>

然后计算由条件期望中心损失函数产生的反向传播错误信号，即：

经由如图9中的倒数第二层，计算融合的反向传播错误信号，即：

δ＝W^Tδ_ml+λδ_ecl

至此，根据链式准则，利用上述反向传播错误信号δ_ml和δ参数的W和θ的调整值ΔW和Δθ。

并且更新中心向量，即：

以此类推，直至收敛。

通过如上所述的损失函数训练得到的神经网络应用到自动语音识别系统中，进而获得对未见声学条件的鲁棒性。

当然，应当理解的，也可采用其它训练方法来基于本发明所述的方法获得神经网络对未见声学条件的鲁棒性。

下述为本发明装置实施例，用于执行本发明上述音频识别方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明音频识别方法实施例。

图10是根据一示例性实施例示出的一种音频识别系统的框图。在一个示例性实施例中，如图10所示，该音频识别系统包括但不限于：数据流获取模块1210、特征抽取模块1230、融合计算模块1250以及更新模块1270。

数据流获取模块1210，用于为音频识别的神经网络训练获取音频数据流，所述音频数据流包括分别对应若干时间帧的音频数据；

特征抽取模块1230，用于对所述音频数据流中每个时间帧的不同音频数据，在所训练神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征；

融合计算模块1250，用于为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值；

更新模块1270，用于通过融合得到相对标注数据中一系列给定标注的损失函数值，进行所述神经网络中的参数更新。

图11是根据图10对应实施例示出的融合计算模块的框图。在一个示例性实施例中，如图11所示，该融合计算模块1250包括：

中心向量获取单元1251，用于为所述标注数据中的给定标注，获取所述给定标注所属类别对应的中心向量，所述中心向量用于描述所述类别中所有深度特征的中心；

损失函数值融合单元1253，用于根据所述深度特征和所述中心向量对所述时间帧的音频数据进行设定损失函数中自身相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，获得所述音频数据相对所述给定标注的损失函数值。

在另一个示例性实施例中，该损失函数值融合单元1253进一步用于通过所述深度特征和所述中心向量，进行所述给定标注的中心损失计算，获得所述时间帧的音频数据相对所述给定标注的类内距离惩罚值。

在另一个示例性实施例中，该损失函数值融合单元1253进一用于根据所述深度特征，采用交叉熵损失函数计算所述时间帧的音频数据相对所述给定标注的类间混淆度衡量指数。

在另一个示例性实施例中，该损失函数值融合单元1253进一步用于按照指定权重因子，在设定损失函数对所述类内距离惩罚值和所述音频数据相对所述给定标注的类间混淆度衡量指数进行加权计算，得到所述音频数据相对所述给定标注的损失函数值。

图12是根据图10对应实施例示出的融合计算模块在另一个示例性实施例的框图。在一个示例性实施例中，标注数据中补充空白标注，如图12所示，该融合计算模块1250包括：

类别中心获取单元1301，用于对所述标注数据中的给定标注和补充的所述空白标注，获取所属类别对应的中心向量；

类内距离惩罚值计算单元1303，用于对所述音频数据流按时序对所述深度特征形成的深度特征序列，计算所述音频数据流映射为给定序列标注的概率以及所述给定序列标注分别相对所述中心向量的距离，获得所述音频数据流相对所述给定序列标注的类内距离惩罚值；

其中，所述给定序列标注包括补充的所述空白标注和给定标注。

在另一个示例性实施例中，该融合计算模块1250还包括概率分布计算单元，概率分布计算单元用于根据所述深度特征，计算所述音频数据流相对所述给定序列标注的概率分布，且通过所述概率分布计算所述音频数据流的对数似然代价为所述音频数据流相对所述给定序列标注的类间混淆度衡量指数。

在另一个示例性实施例中，该融合计算模块1250还包括加权计算单元，加权计算单元用于按照指定权重因子，在设定损失函数中对所述音频数据流相对所述给定序列标注的类间混淆度衡量指数和类内距离惩罚值进行加权计算，得到所述音频数据流相对所述给定序列标注的损失函数值。

图13是根据图10对应实施例示出的更新模块的框图。在另一个示例性实施例中，如图13所示，该更新模块370包括：

迭代训练单元371，用于根据融合得到相对标注数据中一系列给定标注的损失函数值，进行所述神经网络中网络各层所更新参数的迭代训练，直至所述获得最小化的所述损失函数值；

参数更新单元373，用于将最小化损失函数值对应的参数更新至所述神经网络的网络各层。

可选的，本发明还提供一种机器设备，该机器设备可以用于图1所示实施环境中，执行图3、图4、图5、图6和图7任一所示的方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行实现前述所指的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关前述实施例中执行了详细描述，此处将不做详细阐述说明。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种实现音频识别的神经网络训练方法，其特征在于，所述方法包括：

为音频识别的神经网络训练获取音频数据流，所述音频数据流包括分别对应若干时间帧的音频数据；

对所述音频数据流中每个时间帧的不同音频数据，在所训练神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征；

为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值，得到所述音频数据流相对标注数据中一系列给定标注的损失函数值；

所述标注数据中补充空白标注，所述为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值，包括：

对所述标注数据中的给定标注和补充的所述空白标注，获取所属类别对应的中心向量；

对所述音频数据流按时序对所述深度特征形成的深度特征序列，计算所述音频数据流映射为给定序列标注的概率以及所述给定序列标注分别相对所述中心向量的距离，获得所述音频数据流相对所述给定序列标注的类内距离惩罚值；

其中，所述给定序列标注包括补充的所述空白标注和给定标注；

通过融合得到相对标注数据中一系列给定标注的损失函数值，进行所述神经网络中的参数更新。

2.根据权利要求1所述的方法，其特征在于，所述为音频识别的神经网络训练获取音频数据流，包括：

获取带噪且连续的音频数据流以及标注数据为所述神经网络的训练数据。

3.根据权利要求1所述的方法，其特征在于，所述为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值，包括：

为所述标注数据中的给定标注，获取所述给定标注所属类别对应的中心向量，所述中心向量用于描述所述类别中所有深度特征的中心；

根据所述深度特征和所述中心向量对所述时间帧的音频数据进行设定损失函数中自身相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，获得所述音频数据相对所述给定标注的损失函数值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述深度特征和所述中心向量对所述时间帧的音频数据进行设定损失函数中自身相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，获得所述音频数据相对所述给定标注的损失函数值，包括：

通过所述深度特征和所述中心向量，进行所述给定标注的中心损失计算，获得所述时间帧的音频数据相对所述给定标注的类内距离惩罚值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述深度特征和所述中心向量对所述时间帧的音频数据进行设定损失函数中自身相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，获得所述音频数据相对所述给定标注的损失函数值，还包括：

根据所述深度特征，采用交叉熵损失函数计算所述时间帧的音频数据相对所述给定标注的类间混淆度衡量指数。

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述深度特征和所述中心向量对所述时间帧的音频数据进行设定损失函数中自身相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值二者之间的融合，获得所述音频数据相对所述给定标注的损失函数值，还包括：

按照指定权重因子，在设定损失函数对所述类内距离惩罚值和所述音频数据相对所述给定标注的类间混淆度衡量指数进行加权计算，得到所述音频数据相对所述给定标注的损失函数值。

7.根据权利要求6所述的方法，其特征在于，所述音频数据流中的不同时间帧都通过所述标注数据中的给定标注进行音频数据的标注。

8.根据权利要求1所述的方法，其特征在于，所述为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值，包括：

根据所述深度特征，计算所述音频数据流相对所述给定序列标注的概率分布，且通过所述概率分布计算所述音频数据流的对数似然代价为所述音频数据流相对所述给定序列标注的类间混淆度衡量指数。

9.根据权利要求1或8所述的方法，其特征在于，所述为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值，还包括：

按照指定权重因子，在所述设定损失函数中对所述音频数据流相对所述给定序列标注的类间混淆度衡量指数和类内距离惩罚值进行加权计算，得到所述音频数据流相对所述给定序列标注的损失函数值。

10.根据权利要求9所述的方法，其特征在于，所述音频数据流的标注数据是未对齐的离散标签串，在所述离散标签串补充空白标注，补充的所述空白标注和所述标注数据中的给定标注分别对应于所述音频数据流中不同时间帧的音频数据。

11.根据权利要求1所述的方法，其特征在于，所述通过融合得到相对标注数据中一系列给定标注的损失函数值，进行所述神经网络中的参数更新，包括：

根据融合得到相对标注数据中一系列给定标注的损失函数值，进行所述神经网络中网络各层所更新参数的迭代训练，直至获得最小化的所述损失函数值；

将最小化损失函数值对应的参数更新至所述神经网络的网络各层。

12.一种实现音频识别的神经网络训练系统，其特征在于，所述实现音频识别的神经网络训练系统包括：

数据流获取模块，用于为音频识别的神经网络训练获取音频数据流，所述音频数据流包括分别对应若干时间帧的音频数据；

特征抽取模块，用于对所述音频数据流中每个时间帧的不同音频数据，在所训练神经网络中进行网络各层的特征抽取，获得对应时间帧输出的深度特征；

融合计算模块，用于为标注数据中的给定标注，通过所述深度特征对所述音频数据流在设定损失函数融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值，得到所述音频数据流相对标注数据中一系列给定标注的损失函数值；

更新模块，用于通过融合得到相对标注数据中一系列给定标注的损失函数值，进行所述神经网络中的参数更新。

13.一种机器设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至11中任一项所述的方法。