CN113468883B

CN113468883B - 位置信息的融合方法、装置及计算机可读存储介质

Info

Publication number: CN113468883B
Application number: CN202010238604.5A
Authority: CN
Inventors: 童毅轩; 张永伟; 董滨; 姜珊珊; 张佳师
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2024-04-30
Anticipated expiration: 2040-03-30
Also published as: US20210303777A1; CN113468883A; US11562123B2

Abstract

本发明提供了一种位置信息的融合方法、装置及计算机可读存储介质。本发明提供的位置信息的融合方法，包括：对输入语句进行分词处理，得到所述输入语句中的词的第一序列，生成所述第一序列中的词的绝对位置信息；对所述第一序列中的词进行拆分，获得包括子词的第二序列，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息；将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测。本发明在自注意力模型中引入子词拆分算法后，在模型输入特征中融合基于词绝对位置的词位置信息，可以使得后续任务能够获得更为准确的位置信息，提高模型的准确性。

Description

位置信息的融合方法、装置及计算机可读存储介质

技术领域

本发明涉及自然语言处理(NLP，Natural Language Processing)技术领域，具体涉及一种位置信息的融合方法、装置及计算机可读存储介质。

背景技术

近年来，注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理的任务中。随着注意力机制的深入研究，各式各样的attention模型被研究者们提出。2017年6月google机器翻译团队在arXiv上发表的《Attention is all you need》论文受到了业界广泛关注，自注意力(self-attention)机制开始成为神经网络注意力机制的研究热点，在各个任务上也取得了不错的效果。

自注意力模型(也可以称作自注意力网络模型)通过对输入序列中的每对元素应用attention来生成考虑上下文的表示。相比于卷积神经网络(CNN，Convolutional NeuralNetworks)和循环神经网络(RNN，Recurrent Neural Network)而言，自注意力模型在对远距离和局部相关性建模两方面都比较灵活。

在自然语言处理中，使用较小的词表有助于提高系统的性能，例如，在机器翻译/对话的序列到序列模型中通常希望设置较小的词表。传统词表示方法存在未登录词(OOV，Out Of Vocabulary)问题，难以处理未知或罕见的词汇，如果采用较小的词表，将会使得OOV问题更加突出。

为了减小词表的大小，减少未知词的数量，可以使用各种对词进行拆分的算法，将词进一步拆分为至少一个子词(Subword)，子词有时候也被称作词片段(WordPiece)。子词的粒度介于词和字符之间，能够较好的平衡OOV问题。在模型中采用对词进行拆分的子词拆分算法，已经成为提升模型性能提升的一种重要手段。常见的子词拆分算法有双字节编码(BPE，Byte Pair Encoding)算法和一元语言模型(ULM，Unigram Language Model)算法等。

在自注意力模型中引用子词拆分算法后，如何处理原来的词位置信息，以使后续任务能够获得更为准确的词的位置信息，保证模型的准确性，成为一个亟待解决的问题。

发明内容

本发明实施例要解决的技术问题是提供一种位置信息的融合方法、装置及计算机可读存储介质，在自注意力模型中引入子词后，在模型输入特征中融合基于词绝对位置的词位置信息，可以使得后续任务能够获得更为准确的位置信息，提高模型的准确性。

根据本发明实施例的一个方面，提供了一种位置信息的融合方法，包括：

对输入语句进行分词处理，得到所述输入语句中的词的第一序列，生成所述第一序列中的词的绝对位置信息；

对所述第一序列中的词进行子词拆分，获得包括子词的第二序列，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息；

将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测。

此外，根据本发明至少一个实施例，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息的步骤，包括：

根据第一绝对位置信息和第二绝对位置信息，计算所述第二序列中的目标子词与参考子词的之间的相对距离；根据所述相对距离，生成目标子词的位置信息；

其中，所述第一绝对位置信息为所述目标子词在所述第一序列中所属的目标词的绝对位置信息，所述第二绝对位置信息为参考子词在所述第一序列中所属的参考词的绝对位置信息。

此外，根据本发明至少一个实施例，将所述第二序列中子词的子词位置信息融合到自注意力模型中的步骤，包括：

通过映射处理，将目标子词的位置信息映射为3个N维向量，所述3个N维向量与自注意力模型的输入向量Q、K和V一一对应，所述N为预设的超参数；

将所述3个N维向量分别与对应的输入向量Q、K和V融合后，输入至所述自注意力模型。

将所述子词在所述第一序列中所属的词的绝对位置信息，作为所述子词的位置信息。

通过映射处理，将所述子词的位置信息映射为1个M维向量，所述M为预设的超参数；

将所述M维向量与所述子词的词向量融合后，输入至所述自注意力模型。

此外，根据本发明至少一个实施例，所述映射处理包括以下处理中的至少一种：

基于正弦函数的计算处理；

基于余弦函数的计算处理；

基于正弦函数和余弦函数的计算处理；

引入新增的可训练模型参数，基于所述可训练模型参数进行运算。

本发明实施例还提供了一种位置信息的融合装置，包括：

分词处理模块，用于对输入语句进行分词处理，得到所述输入语句中的词的第一序列，生成所述第一序列中的词的绝对位置信息；

子词拆分模块，用于对所述第一序列中的词进行子词拆分，获得包括子词的第二序列，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息；

融合模块，用于将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测。

此外，根据本发明至少一个实施例，所述子词拆分模块，还用于根据第一绝对位置信息和第二绝对位置信息，计算所述第二序列中的目标子词与参考子词的之间的相对距离；根据所述相对距离，生成目标子词的位置信息；

此外，根据本发明至少一个实施例，所述融合模块，还用于通过映射处理，将目标子词的位置信息映射为3个N维向量，所述3个N维向量与自注意力模型的输入向量Q、K和V一一对应，所述N为预设的超参数；将所述3个N维向量分别与对应的输入向量Q、K和V融合后，输入至所述自注意力模型。

此外，根据本发明至少一个实施例，所述子词拆分模块，还用于将所述子词在所述第一序列中所属的词的绝对位置信息，作为所述子词的位置信息。

此外，根据本发明至少一个实施例，所述融合模块，还用于通过映射处理，将所述子词的位置信息映射为1个M维向量，所述M为预设的超参数；将所述M维向量与所述子词的词向量融合后，输入至所述自注意力模型。

基于正弦函数的计算处理；

基于余弦函数的计算处理；

基于正弦函数和余弦函数的计算处理；

本发明实施例还提供了一种位置信息的融合装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的位置信息的融合方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的位置信息的融合方法的步骤。

与现有技术相比，本发明实施例提供的位置信息的融合方法、装置及计算机可读存储介质，在自注意力模型中引入子词拆分算法后，在模型输入特征中融合基于词绝对位置的词位置信息，避免使用子词绝对位置带来的表示错误，使得后续任务能够获得更为准确的位置信息，另外，由于使用了基于词绝对位置进行位置表示的生成，本发明实施例可以避免位置表示中包含错误信息，从而提高了模型的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的位置信息的融合方法的一种流程示意图；

图2为本发明实施例提供的神经机器翻译模型的一个结构示例图；

图3为本发明实施例的位置信息的融合装置的一种结构示意图；

图4为本发明实施例的位置信息的融合装置的另一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了帮助理解本发明实施例，首先对本发明实施例可能涉及的相关概念进行简单说明。

1、词(word)

词是语言中能够独立运用的最小单位，是指词在句法结构中的地位和作用而言的。例如，在英文中，词通常是指单词(word)，可以包括一个或多个英文字母。另外，英文的语句表示中，词与词之间通常有空格或标点符号。在中文中，词通常是指词语，可以包括一个或多个汉字。中文的语句表示中，词和词之间通常没有边界。

2、字符(character)

字符：本文中的字符通常是指英文中的字母，中文中的汉字，以及各种标点符号(如句号、逗号等)。

3、子词(subword)

子词(subword)，有时候也可以称为词片段(WordPiece)，是介于字符与词之间的一种文本表示单元。例如，对于英文单词“homework”来说，它包括有8个字符，可能被拆分为2个子词，分别为“home”和“work”，还可能被拆分为3个子词，分别为“ho”、“me”和“work”。对于中文词语“生命探测仪”，它包括有5个字符，可能被拆分为2个子词，分别为“生命”和“探测仪”，还可能被拆分为3个子词，分别为“生命”、“探测”和“仪”。

本发明实施例提供的位置信息的融合方法，在自注意力模型中引入子词后，在模型输入特征中融合基于词绝对位置的词位置信息，可以使得后续任务能够获得更为准确的位置信息，提高模型的准确性。请参照图1，给出了本发明实施例提供的位置信息的融合方法的一种流程示意图，如图1所示，本发明实施例提供的位置信息的融合方法包括：

步骤11，对输入语句进行分词处理，得到所述输入语句中的词的第一序列，生成所述第一序列中的词的绝对位置信息。

这里，所述输入语句可以是用于训练模型的训练语句，还可以用于提供给模型进行预测或转换(如翻译)的待处理语句。分词处理是将输入语句切分为词的序列(即第一序列)，具体可以利用各种分词工具或分词算法进行处理。

例如，本发明实施例可以通过python库的自然语言工具包(NLTK，NaturalLanguage Toolkit)将原本的句子序列切分成词序列。

又例如，本发明实施例可以采用基于词典的分词算法，如最大匹配分词算法和最短路径分词算法等进行分词处理，还可以采用基于字的分词算法，如生成式模型分词算法和判别式模型分词算法等进行分词处理。其中，生成式模型包括n-gram模型、隐马尔可夫模型(HMM，Hidden Markov Model)和朴素贝叶斯分类等，判别式模型包括有感知机模型和条件随机场(CRF，Conditional Random Field)模型等。

在分词处理后，本发明实施例还记录所述第一序列中各个词的绝对位置信息。例如，针对第一序列中的首个词，可以记录绝对位置为0，后续的各个词的绝对位置依次是1、2、3、……，以此类推。

另外，在步骤11中的分词处理之前，本发明实施例还可能需要对输入语句进行预处理，具体可以包括数据格式转换和数据清洗。其中，所述数据格式转换主要是将原本的数据格式转换为方便使用的目标格式；数据清洗则主要是将数据中的噪声去除。噪声通常包括：统一资源定位符(URL，Uniform Resource Locator)、电子邮件地址以及诸如“&lt；”、“&gt；”等由网页引入的符号；去除由网页引入的“<html>”、“<title>”以及“<body>”等xml标签，只保留标签之间的文本。

步骤12，对所述第一序列中的词进行子词拆分，获得包括子词的第二序列，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息。

这里，本发明实施例可以使用BPE算法或ULM算法等子词拆分算法，对第一序列中的词进行子词拆分，每个词可以拆分成至少一个子词，从而获得包括各个子词的第二序列。另外需要说明的是，有些词可能无法进一步拆分，此时可以认为该词拆分后的子词即为该词本身。

作为一种示例，本发明实施例可以利用基于BPE算法的开源工具subword-nmt对第一序列中的词进行拆分，具体为：

i.训练拆分模型。使用源端和目标端的文本联合训练拆分模型，其中，超参数“s”可以设置为15000。

ii.使用训练好的拆分模型切分源端和目标端的词序列，其中，超参数“vocabulary-threshold”可以设置为50。

本发明实施例中，子词的位置信息可以使用相对位置或绝对位置。

例如，在使用绝对位置时，可以将子词在所述第一序列中所属的词的绝对位置信息，直接作为所述子词的位置信息。

表1以日文语句“試料は富山県富岩運河の底質を用いた”为例，提供了对语句进行分词处理以及子词拆分后所得序列的一个示例，表1中直接采用子词在所述第一序列中所属的词的绝对位置信息，作为所述子词的位置信息：

表1

从表1可以看出，日文语句“試料は富山県富岩運河の底質を用いた”进行分词处理后所得到的第一序列为“試料/は/富山/県/富岩/運河/の/底質/を/用い/た”，其中的“/”用于表示相邻词之间的间隔符号。这里以0为首个词的绝对位置，从而第一序列包括从词绝对位置0开始，到10结束的一共11个词，分别为“試料”、“は”、“富山”、“県”、“富岩”、“運河”、“の”、“底質”、“を”、“用い”和“た”。对第一序列中的词进行子词拆分处理后，词绝对位置为0的词“試料”，拆分后得到的子词“試料”，即为该词本身。子词“試料”的位置信息使用词“試料”的绝对位置，因此，子词“試料”的位置信息为0。而词绝对位置为4的词“富岩”，拆分后得到的子词为“富@@”和“岩”，由于它们是从第一序列中同一个词拆分得到的，也就是说，它们在第一序列中所属的词为同一个词，因此它们的位置信息相同，均为4。类似的，子词为“運@@”和“河”均是从第一序列中词绝对位置为5的同一个词“運河”拆分得到的，因此它们的位置信息相同，均为5。另外上述子词中的“@@”表示该子词为某个词拆分得到的多个子词中的首个子词。

又例如，在使用相对位置时，可以根据第一绝对位置信息和第二绝对位置信息，计算所述第二序列中的目标子词与参考子词的之间的相对距离；根据所述相对距离，生成目标子词的位置信息。该位置信息是目标子词和参考子词的相对位置度量；其中，所述第一绝对位置信息为所述目标子词i在所述第一序列中所属的目标词的绝对位置信息，所述第二绝对位置信息为参考子词t在所述第一序列中所属的参考词的绝对位置信息。i表示目标子词为第二序列中的第i个子词，t表示参考子词为第二序列中的第t个子词。

上述目标子词的位置信息的一种计算方式，具体为：

Distance_t，i＝min(s，max(-s，Position_i-Position_t))+s (1)

其中，Position_i和Position_t分别表示所述第一绝对位置信息和所述第二绝对位置信息；Position_i-Position_t表示所述相对距离；s为超参数，具体为一个正整数；Distance_t,i表示目标子词i的位置信息，其取值范围为0～2s，共包含有2s+1个取值。另外需要说明的是，以上公式1仅为本发明实施例可以采用的基于相对距离生成位置信息的一种计算方式，本发明实施例还可以采用基于所述相对距离的其他度量方式，以将基于词绝对位置信息的相对距离引入到子词的位置信息中，对此本发明实施例不做具体限定。

仍然以表1中的输出为例，按照以上公式1，融合位置信息后的子词的相对位置信息的度量结果如表2所示，这里s取值为6。

子词t	子词i	子词的位置信息
			試料	河	11
試料	富@@	10
			試料	富山	8
試料	底質	12
			岩	富@@	6
岩	富山	4
			岩	用い	11

表2

步骤13，将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测。

这里，在将第二序列输入自注意力模型时，本发明实施例将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测。模型训练是指在利用融合的子词的位置信息进行模型的训练，以获得期望的模型。模型预测是指利用训练好的模型进行预测处理，例如进行翻译等。

由于子词的位置信息是基于子词所属的词位置信息生成的，从而本发明实施例在模型输入特征中融合了基于词绝对位置的词位置信息，避免使用子词绝对位置带来的表示错误，使得后续任务能够获得更为准确的位置信息，另外，由于使用了基于词绝对位置进行位置表示的生成，本发明实施例可以避免位置表示中包含错误信息，从而提高了模型的准确性。

例如，以绝对位置为例，本发明实施例可以通过映射处理，将所述子词的位置信息映射为1个M维向量，所述M为预设的超参数；然后将所述M维向量与所述子词的词向量融合后，输入至所述自注意力模型。

又例如，以相对位置为例，本发明实施例可以通过映射处理，将目标子词的位置信息映射为3个N维向量，所述3个N维向量与自注意力模型的输入向量Q、K和V一一对应，所述N为预设的超参数；将所述3个N维向量分别与对应的输入向量Q、K和V融合后，输入至所述自注意力模型。

具体的，上述映射处理可以包括以下处理中的至少一种：

基于正弦函数的计算处理；

基于余弦函数的计算处理；

基于正弦函数和余弦函数的计算处理；

引入新增的可训练模型参数，基于所述可训练模型参数进行运算，生成所述N维向量或M维向量。

下面通过一个基于可训练模型参数映射处理的示例，对本发明实施例如何将子词的位置信息融合到自注意力模型中作进一步的说明。

1)随机初始化3个维度为d×(2s+1)的矩阵，参数d是自注意力模型隐层的宽度，假设此处d＝768。超参数s为上述公式1中的超参数。将这3个矩阵记为：m_q、m_k和m_v。这些矩阵中的参数在模型优化过程中一起被优化。

2)按照上述公式1的计算方式，计算得到Distance_t，i；从矩阵m_q中取第Distance_t，i列，记为用于表示子词的相对位置信息Distance_t，i所映射的N维向量，这里N＝d。此向量是自注意力模型输入向量Q对应的N维向量。采用相同方式，可以从矩阵m_k中获取向量/>从矩阵m_v中获取向量/>它们分别是自注意力模型输入向量K和V对应的N维向量。

这里，Q、K和V分别为查询向量、键向量和值向量，代表了query、key-value对。查询向量Q、键向量K、值向量V通常是由编码器的输入向量乘以不同维度的权重矩阵生成。根据query和key相似度计算注意力权重，然后根据注意力权重对value进行加权即得到注意力。

3)对于每个子词t，计算它基于自注意力模型的表示，计算方式如下所示：

以上公式中，x_i和x_t分别是输入序列(如上文的第二序列)中第i个和第t个子词的分布式表示；超参数d是自注意力模型的隐层宽度；W^Q、W^K和W^V均为可训练参数矩阵，尺寸均为e×d；参数e则是子词分布式表示的宽度。

通过以上公式，本发明实施例将子词t的位置信息(相对位置信息)融合到自注意力模型中。需要说明的是，以上仅是本发明实施例可以采用的融合方式的一种示例，该示例采用向量相加的融合方式，通过将子词的位置信息与对应的输入向量Q、K或V相加，将子词的位置信息融入至自注意力模型的输入中。当然，本发明实施例还可以利用可训练的权重参数，对上述公式中的子词的位置信息所映射的N维向量进行加权后，再与对应的输入向量相加。除了向量相加的融合方式外，本发明实施例还可以采用向量相乘和/或向量拼接等方式进行融合，这里不再一一详细说明。

通过以上步骤，本发明实施例在自注意力模型中引入子词的分布式表示后，在模型输入特征中融合基于词绝对位置的词位置信息，可以使得后续任务能够获得更为准确的位置信息，提高模型的准确性。

为了帮助更好的理解以上实施例，下面通过一个基于自注意力机制的神经机器翻译模型对本发明作进一步的说明。图2提供了基于自注意力机制的神经机器翻译模型的结构，其中左侧为编码器，右侧为解码器，具体的：

1)源输入(Source Input)和目标输入(Target Input)是输入子词序列的分布式表示。例如，在日语到中文的翻译模型中，在训练阶段源输入端和目标输入端分别输入待训练的日语和中文语句；在预测阶段只在源输入端输入待翻译的日语语句。

2)自注意力模型为本发明实施例融合位置信息的自注意力机制模块。左侧的编码器中的自注意力模块被用来学习输入序列元素之间的关系，右侧解码器中的自注意力模块被用来学习输入序列元素之间以及与编码器端元素的关系。

3)前向反馈(Feed Forward)模块，按照以下公式5对自注意力模块的结果进行映射：

s_t＝Relu(z_tW₁+b₁)W₂+b₂ (5)

上式中，W₁和W₂是尺寸分别为d×d_f和d_f×d的参数矩阵。超参数d为自注意力模型的隐层宽度。超参数d_f是中间层的宽度，这里d_f＝1536。这两个矩阵中的参数在训练过程中一并调整优化。Relu()表示线性整流函数。

4)线性层(Linear)模块通过参数矩阵，将模型输出映射为与词汇表相同维度。

5)Softmax模块代表输出层，用于将输出归一化为概率值。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图3，本发明实施例提供的位置信息的融合装置300，该位置信息的融合装置300在模型输入特征中融合基于词绝对位置的词位置信息，可以使得后续任务能够获得更为准确的位置信息，提高模型的准确性。

如图3所示，该位置信息的融合装置300具体包括：

分词处理模块301，用于对输入语句进行分词处理，得到所述输入语句中的词的第一序列，生成所述第一序列中的词的绝对位置信息；

子词拆分模块302，用于对所述第一序列中的词进行子词拆分，获得包括子词的第二序列，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息；

融合模块303，用于将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测。

通过以上模块，本发明实施例的位置信息的融合装置300，将基于词绝对位置的词位置信息，融合到子词的分布式表示中，使得后续任务能够获得更为准确的位置信息，提高模型的准确性。

此外，根据本发明至少一个实施例，所述子词拆分模块302，还用于根据第一绝对位置信息和第二绝对位置信息，计算所述第二序列中的目标子词与参考子词的之间的相对距离；根据所述相对距离，生成目标子词的位置信息；

此外，根据本发明至少一个实施例，所述融合模块303，还用于通过映射处理，将目标子词的位置信息映射为3个N维向量，所述3个N维向量与自注意力模型的输入向量Q、K和V一一对应，所述N为预设的超参数；将所述3个N维向量分别与对应的输入向量Q、K和V融合后，输入至所述自注意力模型。

此外，根据本发明至少一个实施例，所述子词拆分模块302，还用于将所述子词在所述第一序列中所属的词的绝对位置信息，作为所述子词的位置信息。

此外，根据本发明至少一个实施例，所述融合模块303，还用于通过映射处理，将所述子词的位置信息映射为1个M维向量，所述M为预设的超参数；将所述M维向量与所述子词的词向量融合后，输入至所述自注意力模型。

基于正弦函数的计算处理；

基于余弦函数的计算处理；

基于正弦函数和余弦函数的计算处理；

请参考图4，本发明实施例还提供了位置信息的融合装置的一种硬件结构框图，如图4所示，该位置信息的融合装置400包括：

处理器402；和

存储器404，在所述存储器404中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器402执行以下步骤：

进一步地，如图4所示，该位置信息的融合装置400还可以包括网络接口401、输入设备403、硬盘405、和显示设备406。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器402代表的一个或者多个中央处理器(CPU)，以及由存储器404代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口401，可以连接至网络(如因特网、局域网等)，从网络中接收数据(如模型的训练语句)，并可以将接收到的数据保存在硬盘405中。

所述输入设备403，可以接收操作人员输入的各种指令，并发送给处理器402以供执行。所述输入设备403可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备406，可以将处理器402执行指令获得的结果进行显示，例如模型训练的进度等。

所述存储器404，用于存储操作系统运行所必须的程序和数据，以及处理器402计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器404可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器404旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器404存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统4041和应用程序4042。

其中，操作系统4041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序4042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4042中。

本发明上述实施例揭示的位置信息的融合方法可以应用于处理器402中，或者由处理器402实现。处理器402可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述位置信息的融合方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器404，处理器402读取存储器404中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器402执行时还可实现如下步骤：

这里，所述映射处理包括以下处理中的至少一种：

基于正弦函数的计算处理；

基于余弦函数的计算处理；

基于正弦函数和余弦函数的计算处理；

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的位置信息的融合方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种位置信息的融合方法，其特征在于，包括：

将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测；

其中，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息的步骤，包括：

2.如权利要求1所述的融合方法，其特征在于，将所述第二序列中子词的子词位置信息融合到自注意力模型中的步骤，包括：

3.如权利要求2所述的融合方法，其特征在于，所述映射处理包括以下处理中的至少一种：

基于正弦函数的计算处理；

基于余弦函数的计算处理；

基于正弦函数和余弦函数的计算处理；

4.一种位置信息的融合装置，其特征在于，包括：

融合模块，用于将所述第二序列中子词的位置信息融合到自注意力模型中，进行模型训练或模型预测；

其中，所述子词拆分模块，还用于根据第一绝对位置信息和第二绝对位置信息，计算所述第二序列中的目标子词与参考子词的之间的相对距离；根据所述相对距离，生成目标子词的位置信息；

5.如权利要求4所述的融合装置，其特征在于，

所述融合模块，还用于通过映射处理，将目标子词的位置信息映射为3个N维向量，所述3个N维向量与自注意力模型的输入向量Q、K和V一一对应，所述N为预设的超参数；将所述3个N维向量分别与对应的输入向量Q、K和V融合后，输入至所述自注意力模型。

6.一种位置信息的融合装置，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

其中，根据所述子词在所述第一序列中所属的词的绝对位置信息，生成所述第二序列中子词的位置信息，包括：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的位置信息的融合方法的步骤。