CN112883149B

CN112883149B - 一种自然语言处理方法以及装置

Info

Publication number: CN112883149B
Application number: CN202110077612.0A
Authority: CN
Inventors: 张鹏; 张静; 魏俊秋
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2024-03-26
Anticipated expiration: 2041-01-20
Also published as: CN112883149A; WO2022156561A1

Abstract

本申请公开了人工智能领域的一种自然语言处理方法以及装置，用于在自然语言处理过程中，更高效地解读出各个词在其语料中更优的语义信息。该方法包括：获取输入序列，该输入序列中包括第一语料中的至少一个词对应的初始向量表示；将输入序列作为自注意力模型的输入得到输出序列，输出序列表示第一语料中的各个词的语义信息；其中，自注意力模型包括多层网络，每层网络包括多个自注意力模块，用于基于输入的向量计算关联度，即第一语料中每个词和相邻的词之间的关联程度，并融合关联度和输入的向量，得到第一序列，融合多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出即可得到的当前网络层的输出。

Description

一种自然语言处理方法以及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种自然语言处理方法以及装置。

背景技术

自注意力(self-attention，SA)模型是自然语言处理领域的主要部分，有着非常广泛的应用，如机器翻译、预训练语言模型等。自注意力模型将一个序列数据通过计算词与词之间的依赖关系，将词有效编码成为若干向量表示，使得输出的词向量表示包含其上下文语义信息。因此，如何通过自注意力模型解读出各个词更优的语义信息，将词转换为更优的向量来表示，成为亟待解决的问题。

发明内容

本申请提供一种自然语言处理方法以及装置，用于在自然语言处理过程中，通过在自注意力模型的各个网络层中增加对上一层网络的隐状态复用，更高效地解读出各个词在其语料中更优的语义信息。

有鉴于此，第一方面，本申请提供一种自然语言处理方法，包括：首先获取输入序列，该输入序列中包括第一语料中的至少一个词对应的初始向量表示，通常一个词对应一个初始向量表示；将输入序列作为自注意力模型的输入，得到输出序列，输出序列中包括经自注意力模型进行自然语言处理(natural language processing，NLP)后的第一语料中的至少一个词对应的向量表示，输出序列表示第一语料中的各个词在第一语料中的语义信息，其语义信息中结合了第一语料的上下文信息，能够准确表示出各个词在第一语料中的准确含义；其中，自注意力模型包括多层网络，多层网络中除第一层之外的任意一层网络的输入为上一层网络的输出，每层网络包括多个自注意力模块，每个自注意力模块用于基于输入的向量计算关联度，即第一语料中每个词和相邻的至少一个词之间的关联程度并融合关联度和输入的向量，得到第一序列，每层网络的输出为融合多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出的第一序列得到。

因此，在本申请实施方式中，通过神经常微分方程网络的机制来实现自注意力模型，通过一层自注意力模块的神经常微分化(即自注意力模型中的多次调用和求和)，实现多层自注意力的拟合，得到能更准确表达语义的输出序列。并且，将状态复用机制引入神经常微分方程，在神经常微分方程对每一层的拟合过程中(第一层除外)复用前一层内部的隐状态信息，从而提高计算速度。即当前网络层可以复用上一层网络的SA模块的输出，从而使自注意力模型可以快速得到更准确的输出结果，降低了模型的计算复杂度，提高自注意力模型的训练以及推理的效率。

在一种可能的实施方式中，自注意力模型中还包括特征提取网络，上述方法还可以包括：特征提取网络根据输入序列中相邻的多个初始向量表示提取特征，得到局部特征序列，并将局部特征序列作为多层网络的输入。

因此，本申请实施方式中，可以从输入序列中提取局部特征，从而将局部特征作为多层网络的输入，使多层网络可以参考局部信息来进行关联度计算，提高对局部信息的关注度，使输出序列针对局部信息的解读更优。

在一种可能的实施方式中，自注意力模型还包括融合网络，上述方法还可以包括，融合网络融合局部特征序列和多层网络的输出结果，得到输出序列。

因此，本申请实施方式中，可以从输入序列中提取局部特征，并融合局部特征和SA网络的输出结果得到输出序列，使输出序列中融合了局部特征。从而使最终得到的自注意力结果关注局部特征，得到能更准确表示每个词的语义的序列。

在一种可能的实施方式中，上述的融合网络融合局部特征序列和多层网络的输出结果，具体可以包括：融合网络计算局部特征序列和输出结果之间的相似度，融合相似度和局部特征序列，得到输出序列。

本申请实施方式中，可以通过计算相似度的方式来融合相似度和局部特征，从而得到输出序列，使输出序列中包含局部信息，所表示的语义更准确。

在一种可能的实施方式中，自注意力模型还包括分类网络，上述方法还可以包括，将分类网络的输入为输出序列，输出第一语料对应的类别。因此，本申请实施方式提供的方法可以应用于分类的场景中，通过在自注意力模型中增加分类网络，即可实现对语料的分类。

在一种可能的实施方式中，自注意力模型还包括翻译网络，上述方法还可以包括：将输出序列作为翻译网络的输入，输出第二语料，第一语料的语言种类为第一类，第二语料的语言种类为第二类，第一类和第二类为不同的语言种类。因此，本申请实施方式提供的方法还可以应用于翻译场景，即在自注意力模型中增加翻译网络，即可实现对语料的翻译，将输入序列对应的语料翻译为语种不同的语料。

在一种可能的实施方式中，多层网络中每一层网络中的多个自注意力模块的参数相同。因此，本申请实施方式中，可以通过相同的SA模块的参数来实现自注意力模型，使自注意力模型占用减少的存储量，并且可以提高自注意力模型的训练和正向推理的效率。通过将ODE引入SA机制中，通过ODE的方式实现SA模型，解决了一些SA模型中多层重叠带来的参数冗余问题，使用一层网络的参数量即可达到原有的多层网络所能达到的效果。

在一种可能的实施方式中，在获取输入序列之前，还可以使用训练集对自注意力模型进行训练，训练集中可以包括至少一种语料，每种语料包括至少一个词，将每个语料转换为包括了每个词的初始向量表示的序列，然后将该序列输入至自注意力模型，得到输出的序列。然后可以通过adjoint ODE算法计算出梯度值，基于该梯度之来更新自注意力模型的参数，使自注意力模型的输出结果与语料对应的标签更接近。因此，本申请实施方式中，采用数值解法求梯度，相对于反向传播算法，大大减少了内存消耗和梯度误差。

第二方面，本申请提供一种自注意力模型，该自注意力模型包括多层网络，多层网络中的任意一层网络的输入为上一层网络的输出，每层网络包括多个自注意力模块，每个自注意力模块用于基于输入的向量计算关联度，并融合关联度和输入的向量，得到第一序列，每层网络的输出为融合多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出的第一序列得到，关联度表示第一语料中每个词和相邻的至少一个词之间的关联程度；将输入序列作为自注意力模型的输入，得到输出序列，输出序列中包括经自注意力模型进行自然语言处理NLP后的第一语料中的至少一个词对应的向量表示，输出序列表示第一语料中的各个词在第一语料中的语义信息。

在一种可能的实施方式中，自注意力模型中还包括特征提取网络，用于从输入序列中以相邻的多个初始向量表示为单位提取特征，得到局部特征序列，并将局部特征序列作为多层网络的输入。

在一种可能的实施方式中，自注意力模型还包括融合网络，用于融合局部特征序列和多层网络的输出结果，得到输出序列。

在一种可能的实施方式中，融合网络具体用于计算局部特征序列和输出结果之间的相似度，融合相似度和局部特征序列，得到输出序列。

在一种可能的实施方式中，自注意力模型还包括分类网络，分类网络的输入为输出序列，输出第一语料对应的类别。因此，本申请实施方式提供的方法可以应用于分类的场景中，通过在自注意力模型中增加分类网络，即可实现对语料的分类。

在一种可能的实施方式中，自注意力模型还包括翻译网络，第一语料的语言种类为第一类，翻译网络的输入为输出序列，输出第二语料，第二语料的语言种类为第二类，第一类和第二类为不同的语言种类。因此，本申请实施方式提供的方法还可以应用于翻译场景，即在自注意力模型中增加翻译网络，即可实现对语料的翻译，将输入序列对应的语料翻译为语种不同的语料。

第三方面，本申请实施例提供一种自然语言处理装置，该自然语言处理装置具有实现上述第一方面自然语言处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第四方面，本申请实施例提供一种自然语言处理装置，包括：处理器和存储器，其中，处理器和存储器通过线路互联，处理器调用存储器中的程序代码用于执行上述第一方面任一项所示的自然语言处理方法中与处理相关的功能。可选地，该自然语言处理装置可以是芯片。

第五方面，本申请实施例提供了一种自然语言处理装置，该自然语言处理装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行如上述第一方面或第一方面任一可选实施方式中与处理相关的功能。

第六方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一可选实施方式中的方法。

第七方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一可选实施方式中的方法。

附图说明

图1为本申请应用的一种人工智能主体框架示意图；

图2为本申请提供的一种系统架构示意图；

图3为本申请提供的另一种系统架构示意图；

图4A为本申请实施例提供的一种自注意力模型的结构示意图；

图4B为本申请实施例提供的一种序列转换的结构示意图；

图5为本申请实施例提供的另一种自注意力模型的结构示意图；

图6A为本申请实施例提供的另一种自注意力模型的结构示意图；

图6B为本申请实施例提供的另一种自注意力模型的结构示意图；

图7为本申请实施例提供的另一种自注意力模型的结构示意图；

图8为本申请实施例提供的另一种自注意力模型的结构示意图；

图9为本申请实施例提供的另一种自注意力模型的结构示意图；

图10为本申请实施例提供的另一种自注意力模型的结构示意图；

图11为本申请实施例提供的一种融合网络的结构示意图；

图12为本申请实施例提供的一种自然语言处理方法的流程示意图；

图13为本申请实施例提供的一种自然语言处理装置的结构示意图；

图14为本申请实施例提供的另一种自然语言处理装置的结构示意图；

图15为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片，如中央处理器(centralprocessing unit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(英语：graphics processing unit，GPU)、专用集成电路(application specificintegrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array，FPGA)等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能交通、智能医疗、自动驾驶、平安城市等。

本申请实施例涉及了神经网络和自然语言处理(natural language processing，NLP)的相关应用，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

语料(Corpus)：也称为自由文本，其可以是字、词语、句子、片段、文章及其任意组合。例如，“今天天气真好”即为一段语料。

自注意力模型(self-attention model)，是指将一个序列数据(如自然语料“你的手机很不错。”)有效编码成为若干多维的向量，方便进行数值运算，该多维向量融合了序列中每个元素的相互之间的相似度信息，该相似度被称为自注意力。

神经常微分方程网络(neural ordinary differential equations networks，ODENet)，是一种针对时间相关的神经网络或者多步/层神经网络的实现方式，神经常微分方程网络可以拟合该给定的神经网络在各个不同连续的时间点或者各个不同步/层下的输出，用一套参数拟合多个连续时间点或者多个步/层下原有神经网络的输出，具有很高的参数效率。

损失函数(loss function)：也可以称为代价函数(cost function)，一种比较机器学习模型对样本的预测输出和样本的真实值(也可以称为监督值)区别的度量，即用于衡量机器学习模型对样本的预测输出和样本的真实值之间的区别。该损失函数通常可以包括误差平方均方、交叉熵、对数、指数等损失函数。例如，可以使用误差均方作为损失函数，定义为具体可以根据实际应用场景选择具体的损失函数。

梯度：损失函数关于参数的导数向量。

随机梯度：机器学习中样本数量很大，所以每次计算的损失函数都由随机采样得到的数据计算，相应的梯度称作随机梯度。

反向传播(back propagation，BP)：一种计算根据损失函数计算模型参数梯度、更新模型参数的算法。

常微分方程伴随求解(adjoint ODE)算法：是训练常微分方程(ordinarydifferential equation，ODE)的一种反向更新算法，通过采用数值解法求梯度，即直接求解到梯度值，相对于反向传播算法，大大减少了内存消耗和梯度误差。

神经机器翻译(neural machine translation)：神经机器翻译是自然语言处理的一个典型任务。该任务是给定一个源语言的句子，输出其对应的目标语言句子的技术。在常用的神经机器翻译模型中，源语言和目标语言的句子中的词均会编码成为向量表示，在向量空间进行计算词与词以及句子与句子之间的关联，从而进行翻译任务。

预训练语言模型(pre-trained language model，PLM)：是一种自然语言序列编码器，将自然语言序列中的每个词进行编码为一个向量表示，从而进行预测任务。PLM的训练包含两个阶段，即预训练(pre-training)阶段和微调(finetuning)阶段。在预训练阶段，该模型在大规模无监督文本上进行语言模型任务的训练，从而学习到词表示方式。在微调阶段，该模型利用预训练阶段学到的参数做初始化，在文本分类(text classification)或序列标注(sequence labeling)等下游任务(Downstream Task)上进行较少步骤的训练，就可以成功把预训练得到的语义信息成功迁移到下游任务上来。

Embedding：指样本的特征表示。

本申请实施例提供的自然语言处理方法可以在服务器上被执行，还可以在终端设备上被执行。其中该终端设备可以是具有图像处理功能的移动电话、平板个人电脑(tabletpersonal computer，TPC)、媒体播放器、智能电视、笔记本电脑(laptop computer，LC)、个人数字助理(personal digital assistant，PDA)、个人计算机(personal computer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device，WD)或者自动驾驶的车辆等，本申请实施例对此不作限定。

参见附图2，本申请实施例提供了一种系统架构200。该系统架构中包括数据库230、客户设备240。数据采集设备260用于采集数据并存入数据库230，训练模块202基于数据库230中维护的数据生成目标模型/规则201。下面将更详细地描述训练模块202如何基于数据得到目标模型/规则201，目标模型/规则201即本申请以下实施方式中所提及的神经网络，具体参阅以下图4A-图12中的相关描述。

计算模块可以包括训练模块202，训练模块202得到的目标模型/规则可以应用不同的系统或设备中。在附图2中，执行设备210配置收发器212，该收发器212可以是无线收发器、光收发器或有线接口(如I/O接口)等，与外部设备进行数据交互，“用户”可以通过客户设备240向收发器212输入数据，例如，客户设备240可以向执行设备210发送目标任务，请求执行设备训练神经网络，并向执行设备210发送用于训练的数据库。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

计算模块211使用目标模型/规则201对输入的数据进行处理。具体地，计算模块211用于：获取输入序列，输入序列包括第一语料中至少一个词对应的初始向量表示；将输入序列作为自注意力模型的输入，得到输出序列，输出序列中包括经自注意力模型进行自然语言处理NLP后的第一语料中的至少一个词对应的向量表示，输出序列表示第一语料中的各个词在第一语料中的语义信息，自注意力模型为通过训练集训练得到，训练集中包括至少一种语料，每种语料包括至少一个词；其中，自注意力模型包括多层网络，多层网络中的任意一层网络的输入为上一层网络的输出，每层网络包括多个自注意力模块，每个自注意力模块用于基于输入的向量计算表示第一语料中每个词和相邻的至少一个词之间的关联程度的关联度，并融合关联度和输入的向量，得到第一序列，该多层网络中每一层之间连接，每层网络的输出为融合多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出的第一序列得到。

最后，收发器212将构建得到的神经网络返回给客户设备240，以在客户设备240或者其他设备中部署该神经网络。

更深层地，训练模块202可以针对不同的任务，基于不同的数据得到相应的目标模型/规则201，以给用户提供更佳的结果。

在附图2中所示情况下，可以根据用户的输入数据确定输入执行设备210中的数据，例如，用户可以在收发器212提供的界面中操作。另一种情况下，客户设备240可以自动地向收发器212输入数据并获得结果，若客户设备240自动输入数据需要获得用户的授权，用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到与目标任务关联的数据存入数据库230。

在本申请所提及的训练或者更新过程可以由训练模块202来执行。可以理解的是，神经网络的训练过程即学习控制空间变换的方式，更具体即学习权重矩阵。训练神经网络的目的是使神经网络的输出尽可能接近期望值，因此可以通过比较当前网络的预测值和期望值，再根据两者之间的差异情况来更新神经网络中的每一层神经网络的权重向量(当然，在第一次更新之前通常可以先对权重向量进行初始化，即为深度神经网络中的各层预先配置参数)。例如，如果网络的预测值过高，则调整权重矩阵中的权重的值从而降低预测值，经过不断的调整，直到神经网络输出的值接近期望值或者等于期望值。具体地，可以通过损失函数(loss function)或目标函数(objective function)来衡量神经网络的预测值和期望值之间的差异。以损失函数举例，损失函数的输出值(loss)越高表示差异越大，神经网络的训练可以理解为尽可能缩小loss的过程。本申请以下实施方式中更新起点网络的权重以及对串行网络进行训练的过程可以参阅此过程，以下不再赘述。

如图2所示，根据训练模块202训练得到目标模型/规则201，该目标模型/规则201在本申请实施例中可以是本申请中的自注意力模型，该自注意力模型可以包括深度卷积神经网络(deep convolutional neural networks,DCNN)，循环神经网络(recurrent neuralnetwork，RNNS)等等网络。本申请提及的神经网络可以包括多种类型，如深度神经网络(deep neural network，DNN)、卷积神经网络(convolutional neural network，CNN)、循环神经网络(recurrent neural networks，RNN)或残差网络其他神经网络等。

其中，在训练阶段，数据库230可以用于存储有用于训练的样本集。执行设备210生成用于处理样本的目标模型/规则201，并利用数据库中的样本集合对目标模型/规则201进行迭代训练，得到成熟的目标模型/规则201，该目标模型/规则201具体表现为神经网络。执行设备210得到的神经网络可以应用不同的系统或设备中。

在推理阶段，执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。数据存储系统250可以置于执行设备210中，也可以为数据存储系统250相对执行设备210是外部存储器。计算模块211可以通过神经网络对执行设备210获取到的样本进行处理，得到预测结果，预测结果的具体表现形式与神经网络的功能相关。

需要说明的是，附图2仅是本申请实施例提供的一种系统架构的示例性的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在附图2中，数据存储系统250相对执行设备210是外部存储器，在其它场景中，也可以将数据存储系统250置于执行设备210中。

根据训练模块202训练得到的目标模型/规则201可以应用于不同的系统或设备中，如应用于手机，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端设备等。

该目标模型/规则201在本申请实施例中可以是本申请中的自注意力模型，具体的，本申请实施例提供的自注意力模型可以包括CNN，深度卷积神经网络(deepconvolutional neural networks,DCNN)，循环神经网络(recurrent neural network，RNN)等等网络。

参见附图3，本申请实施例还提供了一种系统架构300。执行设备210由一个或多个服务器实现，可选的，与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备；执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统250中的数据，或者调用数据存储系统250中的程序代码实现本申请以下图12对应的用于计算设备的训练方法的步骤。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。具体地，该通信网络可以包括无线网络、有线网络或者无线网络与有线网络的组合等。该无线网络包括但不限于：第五代移动通信技术(5th-Generation，5G)系统，长期演进(long termevolution，LTE)系统、全球移动通信系统(global system for mobile communication，GSM)或码分多址(code division multiple access，CDMA)网络、宽带码分多址(widebandcode division multiple access，WCDMA)网络、无线保真(wireless fidelity，WiFi)、蓝牙(bluetooth)、紫蜂协议(Zigbee)、射频识别技术(radio frequency identification，RFID)、远程(Long Range，Lora)无线通信、近距离无线通信(near field communication，NFC)中的任意一种或多种的组合。该有线网络可以包括光纤通信网络或同轴电缆组成的网络等。

在另一种实现中，执行设备210的一个方面或多个方面可以由每个本地设备实现，例如，本地设备301可以为执行设备210提供本地数据或反馈计算结果。该本地设备也可以称为计算设备。

需要注意的，执行设备210的所有功能也可以由本地设备实现。例如，本地设备301实现执行设备210的功能并为自己的用户提供服务，或者为本地设备302的用户提供服务。

一些常用的SA模型，通常由多个SA模块堆叠得到，每个SA模块都具有相应的参数，对于自然语言表示，SA模型通过多层堆叠的方式学习更加抽象的语义信息，这往往会造成参数冗余，容易导致训练和推理的效率降低。并且，SA模型可以捕捉到全局信息，但局部信息融合被忽略，而并不能学习到文本所表示的实际含义。

因此，本申请提出了一种自注意力模型以及基于该自注意力模型的自然语言处理方法，用于在自然语言处理过程中，通过在自注意力模型的各个网络层中增加对上一层网络的隐状态复用，更高效地解读出各个词在其语料中更优的语义信息。此外，还可以通过融合全局信息和局部信息，解读出文本中每个词在其文本中的语义信息，即更准确地解读出文本中每个词在其所在的语料中所表示的上下文语义。

下面对本申请提供的自注意力模型以及基于该自注意力模型的自然语言处理方法进行详细介绍。

首先，对本申请提供的自注意力模型进行介绍。

本申请提供的自注意力模型的输入为输入序列，输出为对输入序列进行自注意力处理后得到的输出序列。如图4A所示，输入序列可以是一段语料对应的向量组成的序列，该语料中的每个词都对应一个向量，一个或多个向量即组成一个序列。将输入序列输入自注意力模型401，然后由自注意力模型401根据输入序列中序列之间的依赖关系，解读出对应的语料中各个词在语料中的语义，从而得到输出序列。

例如，自注意力模型可以通过计算词与词之间的依赖关系，将词有效编码成为若干向量表示，使得输出的词向量表示包含其在语料中的语义信息，且结合了语料的上下文信息，使词向量表示所表征的语义更准确，该词向量表示在深度学习(Deep Learning)中也称为隐状态。如图4B所示，如语料“你的手机很不错。”中每个词分别对应一个初始向量，从而组成序列[x₁x₂x₃x₄x₅x₆x₇x₈]，如“你”对应初始向量x₁，“的”对应初始向量x₂等以此类推。经自注意力模型进行编码后，输出每个输入的向量对应的输出向量，得到输出序列[h₁h₂h₃h₄h₅h₆h₇h₈]，通常输出序列的长度与输入序列的长度相同或者具有相应的映射关系。可以理解为，自注意力模型可以根据每个向量与相邻向量之间的相似度或者依赖关系来解读每个词在语料中的语义，从而得到表示每个词在语料中的语义的输出序列，将词的初始向量进一步优化成为更优的向量表示。

因此，在本申请实施方式中，在自注意力模型中引入了ODE化的SA模块，从而通过ODE的方式来计算自注意力。相对于一些现有方案的SA模块堆叠机制，本申请提供的本申请体用的自注意力模型中引入了ODE化的SA模块，有更高的参数效率，提高了自注意力模型的训练和推理的效率。

示例性地，参阅图5，本申请提供的一种自注意力模型的结构示意图，如下所述。

该自注意力模型可以包括多层网络层，每层网络层包括一个或者多个自注意力(self-attention)模块。为便于区分，本申请以下实施方式中，将该多层网络层称为SA网络。

具体地，第一层网络层的输入为输入序列，该输入序列包括待处理语料(或者称为第一语料)中每个词对应的初始向量表示。第一层之后的每一层网络层的输入为上一层网络层的输出。最后一层网络层输出SA网络的输出结果。

更具体地，本申请实施例提供的自注意力模型的SA网络中，每一层网络中包括了一个或者多个SA模块。当每一层网络包括了多个SA模块时，每个SA模块的输入端与一个或多个SA模块连接，每个SA模块的输入包括与其输入端连接的一个或多个SA模块的输出。

或者，一些可能的场景中，每个SA模块的输入端除了与一个或多个SA模块连接，还可以与上一层网络的输出端连接或者与SA网络的输入端连接，即每个SA模块的输入还可以包括当前网络层的输入。通常，若当前网络层为第一层网络，则当前网络层的输入为输入序列，若当前网络层为非第一层网络，则当前网络层的输入为上一层网络的输出。当某一个SA模块的输入包括了多个序列(每个序列包括一个或多个向量)时，可以对该多个序列进行融合，得到当前SA模块的输入。例如，若某一个SA模块的输入包括了多个SA模块的输出，则可以对该多个SA的输出进行融合，得到当前SA模块的输入；或者，当某一个SA模块的输入包括一个或多个SA模块的输出，以及上一层网络的输出，则对该一个或多个SA模块的输出和上一层网络的输出进行融合，得到当前SA模块的输入。

为便于理解，示例性地，SA网络的结构可以如图6A所示，其中，该SA网络中包括i+1层网络层，除了第一层，每一层网络层可以复用上一层网络层内部的隐状态，从而结合上一层网络层内部的隐状态，以及当前层中SA模块的计算结果，得到当前层的输出结果。图6A中右侧是其中一层网络层的结构示意图，其中，该，ODE化的第i层内部包含若干SA模块以及相互之间的连接，每个SA模块通常具有同样的架构与参数，每一个连接包含一个权重(如图6A中所示的a₁、a₂、a₃…)，该权重也作为ODE化的SA网络的参数，同SA模块的参数一并在训练的过程中学习得到。

更详细的，如图6B所示，以第一层网络层和第二层网络层为例对SA网络的具体结构进行说明。

其中，在获取到输入序列之后，即可将输入序列作为第一层网络(即图6B中所示的网络层1)中每个SA模块的输入。

此外，第一网络层中的第一个SA模块的输入可以是输入序列，除第一个SA模块外的其他SA模块的输入除了可以包括输入序列，还可以包括与其连接的前一个SA模块的输出。当SA模块的输入包括了输入序列和与其连接的前一个SA模块的输出时，可以融合该输入序列和与其连接的前一个SA模块的输出，得到新的向量并作为当前SA模块的输入。

融合第一层网络侧层中所有SA模块的输出，即可得到第一层网络层的输出结果。

第一层网络的输出结果作为第二层网络(即图6B中所示的网络层2)的输入，第二层网络中每个SA模块的计算过程与第一层网络中每个SA模块的计算方式类似。此外，还将第一层网络中每个SA模块的输出作为第二层网络的输入，即将第一层网络中得到的隐状态作为第二层网络的输入。第二层网络对第一层网络中每个SA模块的输出进行融合，得到第一序列，然后融合该第一序列和第二层网络中每个SA模块的输出，即可得到第二层网络的输出。

因此，在本申请提供的自注意力模型中，不仅引入了在自注意力模型中引入了ODE机制，每一层网络还可以复用上一层网络的隐状态，从而可以更准确地计算出自注意力，提高自注意力模型的训练效率，使自注意力模型可以快速收敛，还可提高自注意力模型的输出准确度。

更具体地，下面对每个SA模块内部的计算流程进行示例性说明。

SA模块可以用于基于输入的向量来计算关联度，即语料中每个词和相邻的一个或多个词之间的关联程度，然后融合输入的向量和关联度，即可得到SA模块的输出结果。计算关联度的算法可以包括多种，如相乘、转置相乘等，具体可以选择适应实际应用场景的算法。

示例性地，在将成序列[x₁x₂x₃x₄x₅x₆x₇x₈]，转换为输出序列[h₁h₂h₃h₄h₅h₆h₇h₈]的处理过程中，若输入的序列长度为N，每个词(即每个初始向量)的维度为d，输入的序列向量就构成了一个的矩阵X，这个矩阵X会分别和三个矩阵W_k，W_v，/>做矩阵乘法(即线性变换)，从而得到三个矩阵K，V，/>作为计算计算自注意力(即关联度)的输入。计算自注意力时，将计算K和Q的乘积，从而得到一个N×N的注意力矩阵(attentionmatrix)，表示输入序列中各个元素之间的依赖，即关联度，最终将这个矩阵与V相乘并经过softmax处理，转换为一个/>的序列表示，包含N个d维的向量，即SA模块的输出结果。自注意力模型由每个输入序列中的词向量x_i和输入序列中其他所有词向量的相似度信息融入了h_i，即h_i对该句子每个输入词向量的信息都有依赖，即称输出序列包含了全局信息，即输出序列学到的序列的向量表示能够捕捉长距离的依赖，而且SA模型的训练与推理过程具有更优的并行性，从而实现SA模型的更高效率的训练和推理的效果。

可选地，本申请提供的SA模型中，每个网络层中的SA模块的参数相同，或者，SA模型中每个SA模块的参数相同等。因此，在本申请提供的SA模型具有更高的参数效率，提高了模型的训练速度，且占用存储量更少，提高了模型的泛化能力。

此外，自注意力模型中还可以包括特征提取网络，用于提取输入序列的局部特征，即以相邻的多个初始向量表示为单位从输入序列中提取特征，得到局部特征序列，并可以将局部特征序列作为前述的多层网络的输入。可以理解为，本申请实施方式中，通过特征提取网络，以相邻的多个向量为单位来进行特征提取，从而提取到包含了局部信息的向量。

因此，本申请实施方式中，可以通过局部特征提取的方式，从而关注输入序列的局部信息，提取到输入序列中细节的信息，从而得到能更准确表示语义的输出序列。

具体地，特征提取网络可以由多个卷积核组成，通常卷积核的宽度即提取特征的单位的长度。例如，若卷积核的宽度为3，则可以表示提取特征时，可以以相邻的3个初始向量为单位进行特征提取，即将3个相邻的初始向量作为卷积核的输入，从而输出提取到的局部特征序列。

此外，可选地，自注意力模型还可以包括融合网络，用于融合局部特征序列和多层网络的输出结果，从而得到输出序列。可以理解为，SA网络输出的序列中携带了全局信息，而局部特征序列中携带了局部信息，融合了全局信息和局部信息之后，即可得到能表示全局和局部信息的输出序列。

示例性地，如图7所示，自注意力模型中可以包括特征提取网络701、SA网络702和融合网络703，SA网络即如图前述图5-图6B中所示出的网络。

特征提取网络701可以从输入序列中提取特征，然后将得到的局部特征序列作为SA网络702的输入。

SA网络702可以用于通过计算语料中每个词和相邻的至少一个词之间的关联程度，来得到输出结果。SA网络702的输入可以是特征提取网络701输出的局部特征序列，SA网络702具体可以基于局部特征序列来计算语料中每个词和相邻的至少一个词之间的关联程度，从而得到输出结果，参阅前述图5-图6B中的相关描述，此处不再赘述。

融合网络703可以融合SA网络702的输出结果和特征提取网络701输出的局部特征序列，得到输出序列。

具体的融合方式例如，融合网络703可以计算局部特征序列和融合SA网络702的输出结果之间的相似度，然后融合相似度和所述局部特征序列，得到输出序列。

因此，在本申请实施方式中，融合了全局和局部语义信息，得到更准确的上下文语义信息，使最终输出的输出序列可以更优地表示出每个词在语料中的语义，从而提高下游任务的准确度。

此外，另一种自注意力模型的结构可以如图8所示，特征提取网络701所提取到的局部特征序列也可以不作为SA网络702的输入，即输入序列作为SA网络702的输入，特征提取网络701输出的局部特征序列和SA网络702的输出结果作为融合网络703的输入，得到输出序列。即融合网络融合了局部特征序列和SA网络的输出结果，从而得到输出序列，相当于输出序列中即包含全局信息也包含局部信息，从而关注了语料中的全局和局部的语义，使输出序列中所解读出的语义更准确。

需要说明的是，本申请以上或者以下实施方式中所提及的融合，可以是指将两个值相乘、加权融合、或者直接拼接等操作，具体可以根据实际应用场景来选择具体的融合方式，本申请对此并不作限定。例如，在得到两个序列之后，将这两个序列相乘，即可得到融合后的序列。又例如，得到了两个维度分别为5、8的序列，可直接将这两个序列进行拼接，即可得到维度为13的序列。还例如，在得到两个序列之后，为每个序列赋予相应的权重值，然后通过加权融合的方式得到新的序列。

此外，本申请提供的自注意力模型中还可以包括与下游任务相关的网络，如是神经机器翻译、文本分类或者预训练语言模型等。下面示例性地，以其中几种网络为例进行示例性介绍。

示例一、分类网络

其中，自注意力模型中还可以包括分类网络，或者自注意力模型的输出可以用于输入至分类网络，以识别输入序列对应的语料的类别。

例如，包括了分类网络的自注意力模型的结构可以如图9所示，N-Gram卷积层用于学习输入的文本表征矩阵(即输入序列)的局部信息。该N-Gram卷积层对输入的序列表示进行卷积计算，N-Gram卷积层包含若干卷积核，每个卷积核会与每一个固定长度的子序列(如N＝3，该子序列即图9中所示的每相邻的三个词对应的初始向量)做卷积运算，最终将所有卷积核计算得到的值进行汇总得到序列中每个初始向量的新的向量表示，由于每个卷积核的宽度有限，只能在相邻的若干个元素的表示上做卷积计算得到隐状态，如图9所示，每个隐状态由相邻2个或者3个的向量表示，因此每个隐状态只能够包含该元素与相邻有限元素的依赖关系，即局部信息。

如图10所示，展示了本申请中ODE化的SA模块，图中展示了第一层和第二层的ODE化的SA计算方式，第一层包含4个SA模块，第二层包含3个SA模块，此外，也包括对于前一层状态的复用，第二层往上的每一层的架构和参数与第二层通常是相同的，每个SA模块通常也是相同的，如图10中的下半图中所示。图中每一层图中G()表示相应层输出的隐状态。图10中a_i和c_i是ODE化的SA模块的模型参数，r是SA模型的超参数，通常是固定值。例如，SA网络的输出可以表示为：K＝(XW_K)，Q＝(XW_Q),V＝(XW_V)，X即为输入序列。

其次，融合网络可以参阅图11。图中h^L表示从特征提取网络输出的包含局部信息的词向量序列，h^G表示从ODE化的SA网络输出的包含全局信息的词向量序列，该融合网络通过注意力机制(attention)和门(gate)机制将两者进行融合，得到一个融合了局部信息和全局信息的词向量序列，即h^O。具体的融合方式可以包括，对h^L和h^G做一个欧式注意力进计算(Euclidean Attention)的操作，具体而言就是根据欧式距离计算h^L和h^G中每个词向量之间的相似度，得到相似度矩阵E，如表示为之后会将E和h^L做矩阵乘法，如表示为h^E＝E.h^L，得到一个新的词向量表示h^E。至终，h^L、h^E和两个参数矩阵相乘并经过层归一(Layernorm)得到最终的输出h^O，如表示为h^O＝layer_norm(W^L*h^L+W^E*h^E)。

分类网络可以用于识别输入的向量的语句的类型、或者输入的向量的语句中所包括的名词的分类。具体例如，若输入序列对应的文本为“你的手机很不错”，则识别出该文本对应的类别为“手机”。

示例二、翻译网络

其中，自注意力模型还可以包括翻译网络，输出序列作为该翻译网络的输入，输出与输入序列对应的语句不同语种的语文，或者此处将翻译后得到的语料称为第二语料。第一语料的语种和第二语料的语种不相同。

例如，第一语料的输入序列经过SA网络之后，通过SA网络来分析第一语料中每个词的含义，从而得到能够表示第一语料的语义的输出序列。将该输出序列作为翻译网络的输入，得到第一语料对应的翻译结果。具体例如，若输入序列对应的文本为“你的手机很不错”，经过SA网络可以分析出该文本中每个词在其文本中的语义，然后通过翻译网络翻译得到对应的英文“Your cell phone is very nice”。

包括了翻译网络的自注意力模型的结构与前述图9-图11所示的结构类似，区别仅在于翻译网络的结构。

本申请所提及的分类网络或翻译网络等可以选取深度卷积神经网络(deepconvolutional neural networks,DCNN)，循环神经网络(recurrent neural network，RNNS)等等。本申请提及的神经网络可以包括多种类型，如深度神经网络(deep neuralnetwork，DNN)、卷积神经网络(convolutional neural network，CNN)、循环神经网络(recurrent neural networks，RNN)或残差网络其他神经网络等。

因此，在本申请实施方式中，ODE化自注意力模型可以应用于多种场景，完成多种下游任务，泛化能力强，可以适应更多的场景。

此外，在对本申请提供的自注意力模型进行训练时，可以使用BP或adjoint ODE等算法来进行更新。例如，以使用adjoint ODE算法来进行更新自注意力模型为例，在自注意力模型完成一次正向推理得到推理结果之后，可以通过adjoint ODE算法，采用数值解法求梯度，即直接计算出梯度，而无需再进行反向传播，大大减少了内存消耗和梯度误差。

前述对本申请提供的自注意力模型的结构进行了介绍，下面基于前述图4A-图11提供的自注意力模型，对本申请提供的自然语言处理方法进行详细介绍。

参阅图12，本申请提供的一种自然语言处理方法的流程示意图，如下所述。

1201、获取输入序列。

其中，输入序列中包括了语料中各个词对应的初始向量表示。

例如，在得到一句语料(或者称为一段文本)之后，按照预先设定的映射关系将语料中的每个词转换为初始向量表示，每个词对应一个初始向量表示，一个或者多个初始表现向量组成一段输入序列。具体例如，获取到一段待处理的语料“今天天气怎样”，可以提前设置映射表，该映射表中设定了每个词对应一个向量，如“今”对应向量x₁，“天”对应向量x₂等。

1202、将输入序列作为自注意力模型的输入，得到输出序列。

其中，输出序列中包括经自注意力模型进行自然语言处理后的第一语料中的至少一个词对应的向量表示，该输出序列中的每个向量表示第一语料中的各个词在第一语料中的语义信息，其语义信息中结合了第一语料的上下文信息，能够准确表示出各个词在第一语料中的准确含义。

通常，自注意力模型包括多层网络，该多层网络中的任意一层网络的输入为上一层网络的输出，每层网络包括多个自注意力模块，每个自注意力模块用于基于输入的向量来计算表示第一语料中每个词和相邻的至少一个词之间的关联程度的关联度，并融合关联度和输入的向量，得到第一序列，融合多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出的第一序列，即可得到每层网络的输出。

更具体地，本步骤中所提及的自注意力模型可以参阅前述图4A-图11中的相关描述，此处不再赘述。

具体地，若自注意力模型中包括了SA网络，而不包括特征提取网络和融合网络，则在得到输入序列之后，即可直接将输入序列作为SA网络的输入，得到输出序列。例如，自注意力模型可以是如前述图5-图6B中所示出的自注意力模型，在得到输入序列之后，即可将该输入序列输入至SA网络中，然后由SA网络来输出对应的输出序列。

若自注意力模型除了包括SA网络，还包括了特征提取网络和融合网络，如前述图7所示，则可以将输入序列作为特征提取网络的输入，提取到输入序列的局部特征序列，然后将该局部特征序列作为SA网络的输入，并将SA网络的输出结果和局部特征序列输入至融合网络中，由融合网络来融合SA网络的输出结果和局部特征序列，从而得到最终的输出序列。此外，如前述图8所示，特征提取网络提取到的局部特征序列也可以不作为SA网络的输入，而直接将输入序列作为SA网络的输入，由融合网络来融合SA网络的输出结果和局部特征序列，从而得到最终的输出序列。

在一种可能的场景中，前述的SA网络中的每一层网络中每个SA模块的参数相同，或者，整个SA网络中的每个SA模块的参数相同。因此，本申请实施方式中，可以通过相同的SA模块的参数来实现自注意力模型，使自注意力模型占用减少的存储量，并且可以提高自注意力模型的训练和正向推理的效率。通过将ODE引入SA机制中，通过ODE的方式实现自注意力模型，解决了一些SA模型中多层重叠带来的参数冗余问题，使用一层网络的参数量即可达到原有的多层网络所能达到的效果。

此外，在步骤1201之前，还可以使用训练集对自注意力模型进行训练，该训练集中可以包括至少一条语料，每条语料包括至少一个词以及对应的标签，每个标签中可以包括语料对应的能表示其中每个词的语义的向量。具体例如，可以将训练集中的语料作为自注意力模型的输入，得到自注意力模型的推理结果，然后使用adjoint ODE算法计算出梯度值，基于该梯度之来更新自注意力模型的参数，使自注意力模型的输出结果与语料对应的标签更接近。因此，本申请实施方式中，采用数值解法求梯度，相对于反向传播算法，大大减少了内存消耗和梯度误差。

前述对本申请提供的自注意力模型和自然语言处理方法进行了详细介绍，下面对承载该自注意力模型或执行前述自然语言处理方法的装置进行详细介绍。

参阅图13，本申请提供一种自然语言处理装置，包括：

获取模块1301，用于获取输入序列，输入序列包括第一语料中至少一个词对应的初始向量表示；

处理模块1302，用于将输入序列作为自注意力模型的输入，得到输出序列，输出序列中包括经自注意力模型进行自然语言处理NLP后的第一语料中的至少一个词对应的向量表示，输出序列表示第一语料中的各个词在第一语料中的语义信息；

其中，自注意力模型包括多层网络，多层网络中的任意一层网络的输入为上一层网络的输出，每层网络包括多个自注意力模块，每个自注意力模块用于基于输入的向量计算关联度，并融合关联度和输入的向量，得到第一序列，每层网络的输出为融合多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出的第一序列得到，关联度表示第一语料中每个词和相邻的至少一个词之间的关联程度。

在一种可能的实施方式中，自注意力模型中还包括特征提取网络，用于从输入序列中以相邻的多个初始向量表示为单位提取特征，得到局部特征序列，局部特征序列作为多层网络的输入。

在一种可能的实施方式中，自注意力模型还包括融合网络，融合网络用于融合局部特征序列和多层网络的输出结果，得到输出序列。

在一种可能的实施方式中，融合网络具体用于：计算局部特征序列和输出结果之间的相似度，融合相似度和局部特征序列，得到输出序列。

在一种可能的实施方式中，自注意力模型还包括分类网络，分类网络的输入为输出序列，输出第一语料对应的类别。

在一种可能的实施方式中，自注意力模型还包括翻译网络，第一语料的语言种类为第一类，翻译网络的输入为输出序列，输出第二语料，第二语料的语言种类为第二类，第一类和第二类为不同的语言种类。

在一种可能的实施方式中，多层网络中每一层网络中的多个自注意力模块的参数相同。

此外，上述提及的自注意模型可以参阅前述图4A-图12中的相关描述，此处不再赘述。

请参阅图14，本申请提供的另一种自然语言处理装置的结构示意图，如下所述。

该自然语言处理装置可以包括处理器1401和存储器1402。该处理器1401和存储器1402通过线路互联。其中，存储器1402中存储有程序指令和数据。

存储器1402中存储了前述图4A-图12中的步骤对应的程序指令以及数据。

处理器1401用于执行前述图4A-图12中任一实施例所示的自然语言处理装置执行的方法步骤。

可选地，该自然语言处理装置还可以包括收发器1403，用于接收或者发送数据。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成车辆行驶速度的程序，当其在计算机上行驶时，使得计算机执行如前述图4A-图12所示实施例描述的方法中的步骤。

可选地，前述的图14中所示的自然语言处理装置为芯片。

本申请实施例还提供了一种自然语言处理装置，该自然语言处理装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行前述图4A-图12中任一实施例所示的自然语言处理装置执行的方法步骤。

本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理器1401，或者处理器1401的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时，该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理芯片中未集成存储器时，可以通过通信接口与外置的存储器连接。该数字处理芯片根据外置的存储器中存储的程序代码来实现上述实施例中自然语言处理装置执行的动作。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上行驶时，使得计算机执行如前述图4A-图12所示实施例描述的方法中自然语言处理装置所执行的步骤。

本申请实施例提供的自然语言处理装置可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使服务器内的芯片执行上述图4A-图12所示实施例描述的自然语言处理方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体地，前述的处理单元或者处理器可以是中央处理器(central processingunit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(graphicsprocessing unit，GPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器等。

示例性地，请参阅图15，图15为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 150，NPU 150作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路1503，通过控制器1504控制运算电路1503提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1503内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路1503是二维脉动阵列。运算电路1503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1508中。

统一存储器1506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)1505，DMAC被搬运到权重存储器1502中。输入数据也通过DMAC被搬运到统一存储器1506中。

总线接口单元(bus interface unit，BIU)1510，用于AXI总线与DMAC和取指存储器(instruction fetch buffer，IFB)1509的交互。

总线接口单元1510(bus interface unit，BIU)，用于取指存储器1509从外部存储器获取指令，还用于存储单元访问控制器1505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1506或将权重数据搬运到权重存储器1502中或将输入数据数据搬运到输入存储器1501中。

向量计算单元1507包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如批归一化(batch normalization)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元1507能将经处理的输出的向量存储到统一存储器1506。例如，向量计算单元1507可以将线性函数和/或非线性函数应用到运算电路1503的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1507生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1503的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1504连接的取指存储器(instruction fetch buffer)1509，用于存储控制器1504使用的指令；

统一存储器1506，输入存储器1501，权重存储器1502以及取指存储器1509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，循环神经网络中各层的运算可以由运算电路1503或向量计算单元1507执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述图4A-图12的方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

最后应说明的是：以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种自然语言处理方法，其特征在于，包括：

获取输入序列，所述输入序列包括第一语料中至少一个词对应的初始向量表示；

将所述输入序列作为自注意力模型的输入，得到输出序列，所述输出序列中包括经所述自注意力模型进行自然语言处理NLP后的所述第一语料中的至少一个词对应的向量表示，所述输出序列表示所述第一语料中的各个词在所述第一语料中的语义信息；

其中，所述自注意力模型包括多层网络，所述多层网络中的任意一层网络的输入为上一层网络的输出，每层网络包括多个自注意力模块，每个自注意力模块用于基于常微分方程伴随求解算法和输入的向量计算关联度，并融合所述关联度和输入的向量，得到第一序列，每个自注意力模块的输入包括与所述每个自注意力模块的输入端连接的一个或多个自注意力模块的输出，所述每层网络的输出为融合所述多个自注意力模块输出的第一序列和上一层网络中的多个自注意力模块输出的第一序列得到，所述关联度表示所述第一语料中每个词和相邻的至少一个词之间的关联程度。

2.根据权利要求1所述的方法，其特征在于，所述自注意力模型中还包括特征提取网络，所述方法还包括：

所述特征提取网络根据所述输入序列中相邻的多个初始向量表示提取特征，得到局部特征序列，并将所述局部特征序列作为所述多层网络的输入。

3.根据权利要求2所述的方法，其特征在于，所述自注意力模型还包括融合网络，所述方法还包括：

所述融合网络融合所述局部特征序列和所述多层网络的输出结果，得到所述输出序列。

4.根据权利要求3所述的方法，其特征在于，所述融合网络融合所述局部特征序列和所述多层网络的输出结果，包括：

所述融合网络计算所述局部特征序列和所述输出结果之间的相似度，融合所述相似度和所述局部特征序列，得到所述输出序列。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述自注意力模型还包括分类网络，所述方法还包括：

将所述输出序列作为所述分类网络的输入，所述分类网络输出所述第一语料对应的类别。

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述自注意力模型还包括翻译网络，所述方法还包括：

将所述输出序列作为所述翻译网络的输入，输出第二语料，所述第一语料的语言种类为第一类，所述第二语料的语言种类为第二类，所述第一类和所述第二类为不同的语言种类。

7.根据权利要求1-3中任一项所述的方法，其特征在于，所述多层网络中每一层网络中的多个自注意力模块的参数相同。

8.一种自然语言处理装置，其特征在于，包括：

获取模块，用于获取输入序列，所述输入序列包括第一语料中至少一个词对应的初始向量表示；

处理模块，用于将所述输入序列作为自注意力模型的输入，得到输出序列，所述输出序列中包括经所述自注意力模型进行自然语言处理NLP后的所述第一语料中的至少一个词对应的向量表示，所述输出序列表示所述第一语料中的各个词在所述第一语料中的语义信息；

9.根据权利要求8所述的装置，其特征在于，所述自注意力模型中还包括特征提取网络，用于根据所述输入序列中相邻的多个初始向量表示提取特征，得到局部特征序列，并将所述局部特征序列作为所述多层网络的输入。

10.根据权利要求9所述的装置，其特征在于，所述自注意力模型还包括融合网络，所述融合网络用于融合所述局部特征序列和所述多层网络的输出结果，得到所述输出序列。

11.根据权利要求10所述的装置，其特征在于，所述融合网络具体用于：计算所述局部特征序列和所述输出结果之间的相似度，融合所述相似度和所述局部特征序列，得到所述输出序列。

12.根据权利要求8-11中任一项所述的装置，其特征在于，所述自注意力模型还包括分类网络，所述分类网络的输入为所述输出序列，输出所述第一语料对应的类别。

13.根据权利要求8-11中任一项所述的装置，其特征在于，

所述自注意力模型还包括翻译网络，所述第一语料的语言种类为第一类，所述翻译网络的输入为所述输出序列，输出第二语料，所述第二语料的语言种类为第二类，所述第一类和所述第二类为不同的语言种类。

14.根据权利要求8-11中任一项所述的装置，其特征在于，所述多层网络中每一层网络中的多个自注意力模块的参数相同。

15.一种自然语言处理装置，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，包括程序，当其被处理单元所执行时，执行如权利要求1至7中任一项所述的方法。

17.一种自然语言处理装置，其特征在于，包括处理单元和通信接口，所述处理单元通过所述通信接口获取程序指令，当所述程序指令被所述处理单元执行时实现权利要求1至7中任一项所述的方法。