CN113409769A

CN113409769A - 基于神经网络模型的数据识别方法、装置、设备及介质

Info

Publication number: CN113409769A
Application number: CN202011334180.9A
Authority: CN
Inventors: 陈杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-09-17
Anticipated expiration: 2040-11-24
Also published as: CN113409769B

Abstract

本申请实施例提供了一种基于神经网络模型的数据识别方法、装置、设备及介质，该方法涉及人工智能技术领域，该方法包括：获取待识别数据；基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征；基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，并基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征；基于待识别数据对应的数据特征，得到待识别数据对应的识别结果。在本申请实施例中，注意力网络可以在特征提取层之间建立更加直接的连接，此时将有利于特征提取层之间梯度的传播，可以缓解梯度消失的问题。

Description

基于神经网络模型的数据识别方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种基于神经网络模型的数据识别方法、装置、设备及介质。

背景技术

通常来说，深度神经网络的表达能力可以随着网络深度的增加而增强，但是，随着网络层数的增加，对网络进行训练的难度也会逐渐加大，梯度消失的问题也会愈加严重，很有可能导致网络性能并不能继续提升，反而可能出现性能下降的情况。

发明内容

本申请实施例提供一种基于神经网络模型的数据识别方法、装置、设备及介质，能够有效的缓解神经网络中梯度消失的问题。

一方面，本申请实施例提供了一种基于神经网络模型的数据识别方法，该神经网络模型包括依次级联的若干个特征提取层以及注意力网络，该方法包括：

获取待识别数据；

基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征；

基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重；

基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征；

基于待识别数据对应的数据特征，得到待识别数据对应的识别结果。

另一方面，本申请实施例提供了一种基于神经网络模型的数据识别装置，该神经网络模型包括依次级联的若干个特征提取层以及注意力网络，该装置包括：

数据获取模块，用于获取待识别数据；

输出特征确定模块，用于基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征；

数据特征确定模块，用于基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，并基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征；

识别结果确定模块，用于基于待识别数据对应的数据特征，得到待识别数据对应的识别结果。

再一方面，本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器执行上述基于神经网络模型的数据识别方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行上述基于神经网络模型的数据识别方法。

本申请实施例提供的技术方案带来的有益效果是：

在本申请可选的实施例中，由于神经网络模型中包括了依次级联的若干个特征提取层以及注意力网络，进而在获取到获取待识别数据时，可以基于各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征，然后可以基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，此时不同的特征提取层在得到待识别数据对应的数据特征中将可以起到不同的作用，提升了神经网络模型的性能；进一步的，可以通过注意力网络，基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征。由此，通过注意力网络可以在特征提取层之间建立更加直接的连接，每一个特征提取层的输出都可直接影响所确定的数据特征，此时将有利于特征提取层之间梯度的传播，可以缓解梯度消失的问题，并且由于注意力网络的梯度传播不受网络层数加深的影响，从而有利于更深层网络的学习，进而可以有效地提升整个网络性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种基于神经网络模型的数据识别方法的流程示意图；

图2为本申请实施例提供的一种Deep-FSMN(Deep-Feedforward SequentialMemory Networks，深层前馈序列记忆神经网络)网络的结构示意图；

图3为本申请实施例提供的又一种基于神经网络模型的数据识别方法的流程示意图；

图4为本申请实施例提供的一种基于神经网络模型的数据识别装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

目前，通常可以基于各种神经网络实现各种不同的功能，但是深度神经网络的表达能力是随着网络深度的增加而增强的，随着网络层数的增加，其训练难度也会逐渐加大，梯度消失的问题也会愈加严重，导致性能反而可能出现下降。也就是说，目前的方案虽然能在一定程度上改善梯度消失的问题，但是效果并不太理想。此时如何在保证深度神经网络性能的前提下、又可以缓解网络梯度消失的问题，仍是亟待解决的问题。

基于此，本申请实施例中提供一种基于神经网络模型的数据识别方法、装置、设备及介质，该方法中的神经网络模型中包括了依次级联的若干个特征提取层以及注意力网络，此时可以通过注意力网络在各特征提取层之间建立连接，有利于层间梯度的传播，进而减少梯度消失，同时注意力网络的信息可以有选择的直接帮助最终的结果，可以提升整个网络的性能。

可以理解的，本申请实施例中所提供的方法涉及到人工智能(ArtificialIntelligence,AI)技术领域。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别(AutomaticSpeech Recognition，ASR)技术和语音合成(Speech Synthesis，如TTS(Text-To-Speech，从文本到语音)技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。而自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的基于神经网络模型的数据识别方法，可以通过服务器或者终端设备执行，可选的，可以由服务器(如应用程序服务器，比如语音识别程序的服务器)执行。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，本申请实施例中所涉及到的数据处理/计算等可以通过云计算的方式实现。其中，云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

如图1所示，本申请实施例提供了一种基于神经网络模型的数据识别方法，该方法中所基于的神经网络模型可以包括依次级联的若干个特征提取层以及注意力网络，可以理解的是，该神经网络模型是经过训练得到的神经网络模型，如图1中所示，该方法可以包括：

步骤S101，获取待识别数据。

其中，对于待识别数据的具体数据类型本申请实施例不做限定，对于不同的应用场景或需求，待识别数据会有所不同。可选的，该待识别数据可以为待识别语音数据、待识别图像数据或待识别文本数据等，也可以为语音数据对应的声学特征或文本数据对应的文本特征等。

步骤S102，基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征。

可选的，该神经网络模型中还包括有输入层，在获取到待识别数据后，可以将待识别数据输入至该输入层，该输入层可以将待识别数据输入至依次级联的若干个特征提取层，然后可以通过各特征提取层，对该待识别数据进行特征提取，得到对应于各特征提取层的输出特征。

作为一个示例，比如待识别数据可以是语音数据，在通过该神经网络模型进行处理时，可以首先提取语音数据的声学特征，之后将语音数据的声学特征输入至神经网络模型中，经过级联的各特征提取层得到各特征提取层对应的语音特征，可以理解的是，后一特征提取层的输入包括该特征提取层的前一特征提取层的输出特征。

步骤S103，基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重。

其中，注意力网络可以为自注意力网络，也可以为多头注意力网络等，本申请实施例对注意力网络的具体类型不进行限定。

在得到各特征提取层的输出特征后，可以将各特征提取层的输出特征输入至注意力网络，该注意力网络可以基于输入的各特征提取层的输出特征进行学习，得到每个特征提取层的权重。其中，每个特征提取层的权重表征了该层的输出特征对最终输出结果的影响。

在本申请实施例中，可以基于注意力网络来改善神经网络模型内的梯度消失的问题，由于注意力网络内层之间的计算比较简便，进而可以有效的提升了数据处理效率，并且在模型训练阶段，也可以减少模型训练时间，提升了模型的训练速度。

步骤S104，基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征。

可选的，在基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征时，可以基于各特征提取层的权重对各特征提取层的输出特征进行加权以及融合处理，得到加权融合处理后的各输出特征，然后可以基于加权融合处理后的各输出特征，得到待识别数据对应的数据特征。

步骤S105，基于待识别数据对应的数据特征，得到待识别数据对应的识别结果。

可选的，由于待识别数据对应的数据特征可以表征待识别数据，因此可以根据得到的数据特征，得到待识别数据对应的识别结果。例如，当待识别数据为待识别文本数据时，可以基于对应的数据特征，得到待识别文本数据的文本识别结果。

在本申请可选的实施例中，由于神经网络模型中包括了依次级联的若干个特征提取层以及注意力网络，进而在获取到获取待识别数据时，可以基于各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征，然后可以基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，此时不同的特征提取层在得到待识别数据对应的数据特征中将可以起到不同的作用，提升了神经网络模型的性能；进一步的，可以通过注意力网络，基于各特征提取层的权重对各特征提取层的输出特征进行加权融合，通过加权融合后的各输出特征，得到待识别数据对应的数据特征。在这个过程中，注意力网络可以在特征提取层之间建立更加直接的连接，每一个特征提取层的输出都可直接影响所确定的数据特征，此时将有利于特征提取层之间梯度的传播，可以缓解梯度消失的问题，并且由于注意力网络的梯度传播不受网络层数加深的影响，此时有利于深层网络的学习，进而可以有效的提升整个网络性能。

在本申请可选的实施例中，若干个特征提取层包括至少三个特征提取层，基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征，包括：

基于待识别数据，通过第一个特征提取层，得到第一个特征提取层对应的输出特征；

基于第一个特征提取层对应的输出特征，通过第二个特征提取层，得到第二个特征提取层对应的输出特征；

对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层，基于该特征提取层的前一特征提取层的输入特征和输出特征，得到该特征提取层对应的输出特征。

其中，本申请实施例中的神经网络模型可以包括至少三个依次级联的特征提取层。可选的，在获取到待识别数据时，可以将待识别数据输入至第一个特征提取层，第一个特征提取层对待识别数据进行特征提取，得到输出特征，然后可以将第一个特征提取层对应的输出特征输入至第二个特征提取层，第二个特征提取层基于输入的第一个特征提取层对应的输出特征进行特征提取，得到对应的输出特征；进一步的，可以将第二个特征提取层对应的输出特征和输入特征(即第一个特征提取层对应的输出特征)输入至第三个特征提取层，第三个特征提取层基于输入的特征进行特征提取，得到对应的输出特征，然后将对应的输出特征和输入特征(即第二个特征提取层对应的输出特征)输入至第四个特征提取层，以此类推，直至得到最后一个特征提取层对应的输出特征。

在本申请实施例中，对于除第一个特征提取层之外的特征提取层，由于该特征提取层的输入包括了前一特征提取层的输入特征和输出特征，此时该特征提取层的输入将会融合了更多的信息，相应的，基于各特征提取层所得到的数据特征将具备更加丰富的语义信息，进而根据该数据特征，所得到的待识别数据对应的识别结果将会更加准确。

在本申请可选的实施例中，神经网络模型还包括残差连接层，各特征提取层中除第一个特征提取层之外的、相邻的特征提取层之间通过残差连接层连接；

对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层，基于该特征提取层的前一特征提取层的输入特征和输出特征，得到该特征提取层对应的输出特征，包括：

对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层，通过该特征提取层和该特征提取层的前一特征提取层之间的残差连接层，将该特征提取层的前一特征提取层的输入特征和输出特征进行融合；

将融合后的特征输入至该特征提取层，得到该特征提取层对应的输出特征。

可选的，神经网络模型在包括多个特征提取层时，对于除第一个特征提取层之外的特征提取层，可以在相邻的特征提取层之间通过残差连接层连接，此时可以基于残差连接层进一步的改善除第一个特征提取层之外的各特征提取层之间的梯度传递情况，有利于深层网络之间的学习。

可选的，当除第一个特征提取层之外的、相邻的特征提取层之间通过残差连接层连接时，对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层，可以通过该特征提取层和该特征提取层的前一特征提取层之间的残差连接层，将该特征提取层的前一特征提取层的输入特征和输出特征进行融合，然后将融合后的特征输入至该特征提取层，得到该特征提取层对应的输出特征。例如，可以通过全连接网络将前一特征提取层的输入特征中的每个元素值和输出特征中对应位置的元素值相加，并将相加处理后得到特征作为该特征提取层对应的输入特征。

在一示例中，假设对于神经网络模型中的第二个特征提取层和第三个特征提取层，此时该第三个特征提取层与第二个特征提取层之间通过残差连接层连接，而在得到第三个特征提取层对应的输入特征时，可以基于该残差连接层将第二个特征提取层的输入特征和第二个特征提取层的输出特征进行按元素点相加(即将两种特征的对应位置的元素值相加)，然后将相加后的特征作为第三个特征提取层的输入特征。

在本申请可选的实施例中，基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，包括：

基于最后一个特征提取层的输出特征，通过注意力网络，得到自注意力网络的查询向量；

基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层所对应的键向量；

基于查询向量和各特征提取层所对应的键向量，通过注意力网络，得到各特征提取层的权重。

可选的，可以将各特征提取层的输出特征输入至注意力网络，此时可以基于最后一个特征提取层的输出特征，通过注意力网络，得到自注意力网络的查询向量、以及基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层所对应的各键向量，相应的，可以基于得到的查询向量和各特征提取层所对应的键向量，通过注意力网络，得到各特征提取层的权重(即各特征提取层的输出特征所对应的权重)。

其中，注意力网络中可以包括分别用于确定查询向量和各键向量的网络结构(如全连接层)，此时可以基于该网络结构得到查询向量和各特征提取层所对应的键向量。相应的，可以将最后一个特征提取层的输出特征输入至用于确定查询向量的网络结构，然后基于该网络结构得到注意力网络的查询向量，以及可以将各特征提取层的输出特征输入至用于确定各键向量的网络结构，该网络结构可以基于各特征提取层的输出特征，得到各键向量，每个键向量对应于一个特征提取层，具体的可以基于下列公式(1)和公式(2)表征：

Q＝F_LW_Q 公式(1)

K_l＝F_lW_K,l＝1…L 公式(2)

其中，Q表示查询向量，l表示第l个特征提取层，K_l表示对应于第l个特征提取层的键向量，F_L表示第L个特征提取层的输出特征(即最后一个特征提取层的输出特征)，F_l表示第l个特征提取层的输出特征，W_Q和W_K分别表示用于确定查询向量和各键向量的网络结构的权重参数(即注意力网络的网络参数)，其中，W_Q和W_K可以通过训练神经网络模型时基于误差(即训练损失)传递学习得到。

可选的，基于查询向量和各键向量，通过注意力网络，得到各特征提取层的输出特征对应的权重时，可以通过注意力网络分别计算各特征提取层对应的键向量与查询向量的相似度，然后基于各特征提取层对应的键向量与查询向量的相似度，得到各特征提取层的权重。具体可以通过如下列公式(3)和公式(4)表征：

E_l＝＜Q,K_l＞公式(3)

其中，Q表示查询向量，K_l表示对应于第l个特征提取层的键向量，E_l表示第l个特征提取层对应的键向量与查询向量的相似度，α_l表示第l个特征提取层的权重。

在本申请可选的实施例中，基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征，包括：

基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的值向量：

使用各特征提取层的权重，分别对各特征提取层的值向量进行加权处理，通过融合加权处理后的各值向量，得到待识别数据对应的数据特征。

可选的，在基于各特征提取层的权重对各特征提取层的输出特征进行加权处理时，可以基于各特征提取层的输出特征，通过注意力网络，得到注意力网络对应于各特征提取层的值向量(即各特征提取层的输出特征的值向量)，然后通过注意力网络、使用各特征提取层的权重分别对各特征提取层的输出特征的值向量进行加权以及融合处理，得到融合处理后的特征，并将融合处理后的特征作为待识别数据对应的数据特征，具体可以通过如下公式(5)所示：

其中，Y表示待识别数据对应的数据特征，即融合加权处理后的特征，V_l表示对应于第l个特征提取层的值向量，α_l表示对应于第l个特征提取层的权重。

其中，注意力网络中可以包括用于确定各特征提取层的值向量的网络结构(如全连接层)，此时可以将各特征提取层的输出特征输入至该网络结构，得到注意力网络对应于各特征提取层的值向量，具体可以通过下列公式(6)表示：

V_l＝F_lW_V,l＝1…L 公式(6)

其中，V_l表示对应于第l个特征提取层的值向量，L表示共L个特征提取层，L即最后一个特征提取层，l表示第l个特征提取层，F_l表示第l个特征提取层的输出特征，W_V表示用于确定值向量的网络结构的权重参数(即注意力网络的参数)，其中，W_V可以通过训练神经网络模型时基于误差传递学习得到。

在本申请可选的实施例中，注意力网络包括多头注意力网络，基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，包括：

对于多头注意力网络的每一注意力网络分支，基于各特征提取层的输出特征，通过该注意力网络分支，得到各特征提取层的权重；

基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征，包括：

对于多头注意力网络的每一注意力网络分支，基于该注意力网络分支对应的各特征提取层的权重对各特征提取层的输出特征进行加权处理，通过融合加权处理后的各输出特征，得到该注意力网络分支对应的融合后的特征；

拼接多头注意力网络的各注意力网络分支对应的融合后的特征，并基于拼接后的特征，得到待识别数据对应的数据特征。

可选的，当注意力网络包括多头注意力网络时，该多头注意力网络包括多个注意力网络分支，此时对于每个注意力网络分支，可以基于各特征提取层的输出特征，通过该注意力网络分支，得到各特征提取层的权重，然后基于各特征提取层的权重对各特征提取层的输出特征进行加权处理，通过融合加权处理后的各输出特征，得到该注意力网络分支对应的融合后的特征；相应的，在得到每个注意力网络分支对应的融合后的特征后，可以将每个注意力网络分支对应的融合后的特征进行拼接，得到拼接后的特征，然后基于拼接后的特征，得到待识别数据对应的数据特征。

作为一种可选的实施例，在将每个注意力网络分支对应的融合后的特征进行拼接时，可以通过全连接网络将每个注意力网络分支对应的融合后的特征分别映射至相同维度的特征，然后将各相同维度的特征进行拼接，得到拼接后的特征，而在基于拼接后的特征，得到待识别数据对应的数据特征时，可以通过对该拼接后的特征进行进一步特征提取得到，如可以将拼接后的特征点乘该多头注意力网络的网络参数(如权重参数)，得到待识别数据对应的数据特征。

其中，对于每个注意力网络分支，在确定该注意力网络分支对应的融合后的特征时，该注意力网络分支存在对应的查询向量、以及对应于各特征提取层的键向量和值向量，此时可以将注意力网络分支对应的查询向量、各键向量和各值向量称之为一个向量组。其中，确定一个注意力网络分支对应的查询向量、以及对应于各特征提取层的键向量和值向量的方式与前文中确定查询向量、各键向量和各值向量的方式原理相同，具体可参见前文描述，在此就不再赘述。

可选的，注意力网络可以是多头注意力网络，得到待识别数据对应的数据特征可以通过下列公式(7)表征：

其中，MultiHead(Q,K,V)表示待识别数据对应的数据特征，Q表示查询向量，K表示键向量，V表示值向量，head_h表示第h个注意力网络分支对应的融合后的特征，head_i表示第i个注意力网络分支对应的融合后的特征，(Q_i,K_i,V_i)表示第i个注意力网络分支的向量组，Q_i表示第i个注意力网络分支对应的查询向量，K_li表示第i个注意力网络分支对应第l个特征提取层的键向量，V_li表示第i个注意力网络分支对应第l个特征提取层的值向量，W_Qi、W_Ki和W_Vi表示第i个注意力网络分支时，用于确定第i个注意力网络分支对应的查询向量、各键向量和各值向量的网络结构的权重参数(即第i个注意力网络分支的网络参数)，F_l表示第l个特征提取层的输出特征，Concat(head₁,…,head_h)表示将h个注意力网络分支对应的融合后的特征进行拼接，W^O表示权重参数(即多头注意力网络的网络参数)，W^O也是通过训练神经网络模型时基于误差(即训练损失)传递学习得到，基于该权重参数实现对拼接后的特征的进一步提取，得到待识别数据对应的数据特征。

在本申请实施例中，在注意力网络为多头注意力网络时，由于多头注意力网络包括多个注意力网络分支，此时可以先分别采用每个注意力网络分支、以及各特征提取层的输出特征，对各特征提取层的输出特征先进行加权和融合处理，得到每个注意力网络分支对应的融合后的特征，然后再对每个注意力网络分支对应的融合后的特征进行拼接，得到待识别数据对应的数据特征。可见，在本申请实施例中，可以基于每个注意力网络分支先对特征提取层之间建立连接，从而体现出不同的特征提取层在得到数据特征时可以起到的作用，然后再将每个注意力网络分支对应的融合后的特征进行拼接，并基于拼接后的特征得到最终的数据特征，通过再一次对各特征提取层之间建立连接，扩展了不同位置的特征提取层的能力，从而有利于特征提取层之间梯度的传播，进一步地提升了神经网络模型的性能。

在本申请可选的实施中，待识别数据包括待识别语音数据，神经网络模型包括声学模型；

基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征，包括：

对待识别语音数据进行特征提取，得到待处理语音数据中各帧语音数据对应的声学特征；

对于任一帧语音数据对应的声学特征，通过各特征提取层，提取得到该声学特征分别对应于各特征提取层的输出特征；

基于待识别数据的数据特征，得到待识别数据对应的识别结果，包括：

基于各帧语音数据对应的数据特征，得到待识别语音数据对应的声学特征的后验概率；

基于后验概率，得到待处理语音数据对应的识别结果。

可选的，本申请实施例中的方法可以应用在语音识别的场景中，此时声学模型中可以包括依次级联的若干个特征提取层以及注意力网络，在基于该声学模型得到语音数据的对应的识别结果时，可以对待识别语音数据进行特征提取，得到待识别语音数据中各帧语音数据对应的声学特征，此时对于任一帧语音数据对应的声学特征，可以通过各特征提取层，提取得到该声学特征分别对应于各特征提取层的输出特征，然后基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，并基于各特征提取层的权重对各特征提取层的输出特征进行加权以及融合处理，通过加权融合处理后的各输出特征，得到该帧语音数据对应的数据特征；相应的，在得到待识别包括的各帧语音数据对应的数据特征后，可以基于各帧语音数据对应的数据特征，得到待识别语音数据的识别结果。

在实际应用中，在对待识别语音数据进行语音识别时，通常可以通过训练好的语音识别模型实现，但是训练好的语音识别模型通常对训练数据中的标注语料存在依赖，而为了摆脱语音识别模型对标注语料的依赖，提升语音识别模型的鲁棒性，在进行待识别语音数据的语音识别时可以确定待识别语音数据的声学特征所对应的后验概率，然后基于得到后验概率，得到待识别语音数据的语音识别结果，此时得到的语音识别结果将更加准确。相应的，在本申请实施例中，在基于神经网络模型得到待识别语音数据的识别结果时，可以先确定各帧语音数据对应的数据特征，并基于各帧语音数据对应的数据特征，得到待识别语音数据对应的声学特征的后验概率，然后可以基于得到的声学特征的后验概率，得到待识别语音数据的语音识别结果。

可选的，声学特征的具体类型本申请实施例不限定，如可以为FBANK(Filterbank，基于滤波器组)特征，对于FBANK特征，还可以经过一系列处理，如包括加入二阶差分、归一化、扩帧等处理。所得到的用于表征后验概率的维度与声学模型的建模单元有关，常用的建模单元包括音素、音节等。

可以理解的是，本申请实施例所提供的方式所应用的场景包括但不限于语音识别的神经网络模型中，对于存在可能存在梯度消失的神经网络模型，均可以采用本申请实施例所提供的方法。

为了更好的理解本申请实施例所提供的方法，下面结合具体的应用场景对该方法进行详细说明。在本示例中，神经网络模型为如图2所示的带有残差连接层(即skipconnection)的深层前馈序列记忆神经网络(Deep-FSMN)，该Deep-FSMN模型为声学模型中的一种。如图2所示，该Deep-FSMN模型包括输入层(即Input)、依次级联的L个隐藏层(FSMN层，即前文中的特征提取层)、注意力网络(Attention Network)以及输出层(即Output)，可选的，注意力网络在网络结构示意图中可通过Attention Layer来表征，各隐藏层中除第一个隐藏层之外的、相邻的隐藏层之间通过残差连接层连接，该注意力网络包括用于分别确定查询向量(Query)、键向量(Key)和值向量(Value)的全连接层(图2中未示出)。其中，在本示例中，可以通过f_l(l＝1,2,…,L)表示各隐藏层的变换，此时各隐藏层的输出为F_l＝f_l(O_l)，O_l表示隐藏层的输入，F_l(l＝1,2,…,L)代表各隐藏层的输出特征；对于除第一个隐藏层和第二个隐藏层之外的隐藏层的输入为O_l＝O_l-1+F_l-1，O_l-1代表当前隐藏层的前一隐藏层的输入特征，F_l-1代表当前隐藏层的前一隐藏层的输出特征。

可选的，在本示例中，待识别数据为待识别语音数据，声学特征为FBANK特征，待识别数据对应的识别结果为语音识别结果，此时在得到语音识别结果时具体可以如图3所示：

步骤S401，获取待识别语音数据，并输入至神经网络模型中；

可选的，在获取到待识别语音数据后，可以对待识别语音数据中的每帧语音数据进行声学特征提取，得到待识别语音数据对应的FBANK特征(本示例中以待识别语音数据包括一帧语音数据为例进行说明)，并将FBANK特征(即O₀)输入至神经网络模型中。

步骤S402，基于神经网络模型中的各隐藏层，提取得到待识别语音数据分别对应于各隐藏层的输出特征；

其中，由于第一个隐藏层不带有残差连接层，该第一个隐藏层的输入(即O₀)即为待识别语音数据的FBANK特征。可选的，当FBANK特征通过输入层输入至Deep-FSMN模型中后，第一个隐藏层对FBANK特征进行特征提取，得到输出特征F₁，然后可以将F₁输入至第二个隐藏层，第二隐藏层基于F₁进行特征提取，得到对应的输出特征F₂，然后可以基于残差连接层将F₂和输入特征O₁(即第一个隐藏层对应的输出特征F₁)输入至第三个隐藏层，以此类推，直至得到最后一个隐藏层对应的输出特征F_L。

步骤S403，将各隐藏层的输出特征输入至注意力网络；

可选的，在得到各隐藏层对应的输出特征F_l(l＝1,2,…,L)时，可以将各隐藏层对应的输出特征输入至注意力网络。

步骤S404，基于最后一个隐藏层的输出特征，通过注意力网络，得到注意力网络的查询向量；

可选的，可以基于注意力网络将最后一个隐藏层对应的输出特征F_L与用于确定查询向量的全连接层的权重参数W_Q相乘得到注意力网络的查询向量Q。

步骤S405，基于各隐藏层的输出特征，通过注意力网络，得到各隐藏层所对应的键向量；

可选的，可以通过注意力网络将每个隐藏层的输出特征F_l(l＝1,2,…,L)，分别与用于确定键向量的全连接层的权重参数W_K相乘得到各隐藏层对应的键向量K_l。

步骤S406，基于查询向量和各隐藏层所对应的键向量，通过注意力网络，得到各隐藏层的权重。

可选的，将每个各隐藏层的输出特征F_l(l＝1,2,…,L)分别与用于确定值向量的全连接层(注意力网络内)的权重参数W_V相乘得到各隐藏层对应的值向量V_l。进一步的，可以通过注意力网络分别计算每个隐藏层对应的键向量K_l与查询向量Q的相似度E_l，然后基于各隐藏层对应的键向量K_l与查询向量Q的相似度E_l，得到各隐藏层的权重α_l。

步骤S407，使用各隐藏层的权重，分别对各特征提取层的值向量进行加权处理，通过融合加权处理后的各值向量，得到待识别数据对应的数据特征；

进一步的，对于各隐藏层的输出特征，可以基于各隐藏层的权重α_l分别对各隐藏层的输出特征F_l(l＝1,2,…,L)进行加权处理，得到各加权处理后的各特征，然后将各加权处理后的各特征进行融合处理，并将融合处理后的特征作为待识别语音数据对应的数据特征。

步骤S408，基于待识别语音数据对应的数据特征，得到待识别语音数据对应的语音识别结果。

可选的，在得到待识别语音数据对应的数据特征后，可以基于该数据特征确定用于确定语音识别结果的后验概率Y，然后基于后验概率Y，得到待识别语音数据对应的语音识别结果并通过输出层输出。

其中，所输出后验概率的维度与声学模型(本示例中为Deep-FSMN模型)的建模单元有关，常用建模单元包括音素、音节等。在语音识别中，语音识别系统中的解码器会利用声学模型和语音模型的输出来进行解码，得到最终的语音识别结果，此时得到的后验概率对语音识别系统中的解码器的识别效果起到至关重要的作用。

本申请实施例提供了一种基于神经网络模型的数据识别装置，如图4所示，该基于神经网络模型的数据识别装置60可以包括：数据获取模块601、输出特征确定模块602、数据特征确定模块603以及识别结果确定模块604，其中，

数据获取模块601，用于获取待识别数据；

输出特征确定模块602，用于基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征；

数据特征确定模块603，用于基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，并基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征；

识别结果确定模块604，用于基于待识别数据对应的数据特征，得到待识别数据对应的识别结果。

可选的，若干个特征提取层包括至少三个特征提取层，输出特征确定模块在基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征时，具体用于：

可选的，神经网络模型还包括残差连接层，各特征提取层中除第一个特征提取层之外的、相邻的特征提取层之间通过残差连接层连接；

对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层，输出特征确定模块在基于该特征提取层的前一特征提取层的输入特征和输出特征，得到该特征提取层对应的输出特征时，具体用于：

可选的，数据特征确定模块在基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重时，具体用于：

可选的，数据特征确定模块在基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征时，具体用于：

可选的，注意力网络包括多头注意力网络，数据特征确定模块在基于各特征提取层的输出特征，通过注意力网络，得到各特征提取层的权重，以及基于各特征提取层的权重、以及各特征提取层的输出特征，得到待识别数据对应的数据特征时，具体用于：

对于多头注意力网络的每一注意力网络分支，基于各特征提取层的输出特征，通过该注意力网络分支，得到各特征提取层的权重，并基于各特征提取层的权重对各特征提取层的输出特征进行加权处理，通过融合加权处理后的各输出特征，得到该注意力网络分支对应的融合后的特征；

可选的，待识别数据包括待识别语音数据，神经网络模型包括声学模型；

输出特征确定模块在基于待识别数据，通过各特征提取层，提取得到待识别数据分别对应于各特征提取层的输出特征时，具体用于：

对待识别语音数据进行特征提取，得到待识别语音数据中各帧语音数据对应的声学特征；

识别结果确定模块在基于待识别数据的数据特征，得到待识别数据对应的识别结果时，具体用于：

基于各帧语音数据对应的数据特征，得到待识别语音数据的声学特征的后验概率；

基于后验概率，得到待识别语音数据对应的识别结果。

本申请实施例的基于神经网络模型的数据识别装置可执行本申请实施例提供的一种基于神经网络模型的数据识别方法，其实现原理相类似，此处不再赘述。

本申请实施例提供了一种电子设备，如图5所示，图5所示的电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选地，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现图4所示的各模块的功能。

处理器2001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备，RAM或者可存储信息和计算机程序的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。

存储器2003用于存储执行本申请方案的应用程序的计算机程序，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序，以实现图4所示实施例提供的基于神经网络模型的数据识别装置的动作。

本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器上述实施例中的任一项方法。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行上述实施例中的任一项方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种基于神经网络模型的数据识别方法，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于神经网络模型的数据识别方法，其特征在于，所述神经网络模型包括依次级联的若干个特征提取层以及注意力网络，所述方法包括：

获取待识别数据；

基于所述待识别数据，通过各所述特征提取层，提取得到所述待识别数据分别对应于各所述特征提取层的输出特征；

基于各所述特征提取层的输出特征，通过所述注意力网络，得到各所述特征提取层的权重；

基于各所述特征提取层的权重、以及各所述特征提取层的输出特征，得到所述待识别数据对应的数据特征；

基于所述待识别数据对应的数据特征，得到所述待识别数据对应的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述若干个特征提取层包括至少三个特征提取层，所述基于所述待识别数据，通过各所述特征提取层，提取得到所述待识别数据分别对应于各所述特征提取层的输出特征，包括：

基于所述待识别数据，通过第一个特征提取层，得到所述第一个特征提取层的输出特征；

基于所述第一个特征提取层的输出特征，通过第二个特征提取层，得到所述第二个特征提取层的输出特征；

对于除所述第一个特征提取层和第二个特征提取层之外的任一特征提取层，基于所述特征提取层的前一特征提取层的输入特征和输出特征，得到所述特征提取层的输出特征。

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型还包括残差连接层，各所述特征提取层中除所述第一个特征提取层之外的、相邻的所述特征提取层之间通过残差连接层连接；

所述对于除所述第一个特征提取层和第二个特征提取层之外的任一特征提取层，基于所述特征提取层的前一特征提取层的输入特征和输出特征，得到所述特征提取层的输出特征，包括：

对于除所述第一个特征提取层和第二个特征提取层之外的任一特征提取层，通过所述特征提取层和所述特征提取层的前一特征提取层之间的残差连接层，将所述特征提取层的前一特征提取层的输入特征和输出特征进行融合；

将融合后的特征输入至所述特征提取层，得到所述特征提取层的输出特征。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于各所述特征提取层的输出特征，通过所述注意力网络，得到各所述特征提取层的权重，包括：

基于最后一个特征提取层的输出特征，通过所述注意力网络，得到所述注意力网络的查询向量；

基于各所述特征提取层的输出特征，通过所述注意力网络，得到各所述特征提取层所对应的键向量；

基于所述查询向量和各所述特征提取层所对应的键向量，通过所述注意力网络，得到各所述特征提取层的权重。

5.根据权利要求4所述的方法，其特征在于，所述基于各所述特征提取层的权重、以及各所述特征提取层的输出特征，得到所述待识别数据对应的数据特征，包括：

基于各所述特征提取层的输出特征，通过所述注意力网络，得到各所述特征提取层的值向量；

使用各所述特征提取层的权重，分别对各所述特征提取层的值向量进行加权处理，通过融合加权处理后的各值向量，得到所述待识别数据对应的数据特征。

6.根据权利要求1所述的方法，其特征在于，所述注意力网络包括多头注意力网络，所述基于各所述特征提取层的输出特征，通过所述注意力网络，得到各所述特征提取层的权重，基于各所述特征提取层的权重、以及各所述特征提取层的输出特征，得到所述待识别数据对应的数据特征，包括：

对于所述多头注意力网络的每一注意力网络分支，基于各所述特征提取层的输出特征，通过所述注意力网络分支，得到各所述特征提取层的权重，并基于各所述特征提取层的权重对各所述特征提取层的输出特征进行加权处理，通过融合加权处理后的各输出特征，得到所述注意力网络分支对应的融合后的特征；

拼接所述多头注意力网络的各注意力网络分支对应的融合后的特征，并基于拼接后的特征，得到所述待识别数据对应的数据特征。

7.根据权利要求1所述的方法，其特征在于，所述待识别数据包括待识别语音数据，所述神经网络模型包括声学模型；

所述基于所述待识别数据，通过各所述特征提取层，提取得到所述待识别数据分别对应于各所述特征提取层的输出特征，包括：

对所述待识别语音数据进行特征提取，得到所述待识别语音数据中各帧语音数据对应的声学特征；

对于任一帧语音数据对应的声学特征，通过各所述特征提取层，提取得到所述声学特征分别对应于各所述特征提取层的输出特征；

所述基于所述待识别数据的数据特征，得到所述待识别数据对应的识别结果，包括：

基于各帧语音数据对应的数据特征，得到所述待识别语音数据的声学特征的后验概率；

基于所述后验概率，得到所述待处理语音数据对应的识别结果。

8.一种基于神经网络模型的数据识别装置，其特征在于，所述神经网络模型包括依次级联的若干个特征提取层以及注意力网络，所述装置包括：

数据获取模块，用于获取待识别数据；

输出特征确定模块，用于基于所述待识别数据，通过各所述特征提取层，提取得到所述待识别数据分别对应于各所述特征提取层的输出特征；

数据特征确定模块，用于基于各所述特征提取层的输出特征，通过所述注意力网络，得到各所述特征提取层的权重，并基于各所述特征提取层的权重、以及各所述特征提取层的输出特征，得到所述待识别数据对应的数据特征；

识别结果确定模块，用于基于所述待识别数据对应的数据特征，得到所述待识别数据对应的识别结果。

9.一种电子设备，其特征在于，包括处理器以及存储器：

所述存储器被配置用于存储计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行权利要求1-7中任一项所述的方法。