CN110399454B

CN110399454B - 一种基于变压器模型和多参照系的文本编码表示方法

Info

Publication number: CN110399454B
Application number: CN201910481144.6A
Authority: CN
Inventors: 杨志明
Original assignee: Ideepwise Artificial Intelligence Robot Technology Beijing Co ltd
Current assignee: Ideepwise Artificial Intelligence Robot Technology Beijing Co ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2022-02-25
Anticipated expiration: 2039-06-04
Also published as: CN110399454A

Abstract

公开了基于变压器模型和多参照系的文本编码表示方法，该方法包括，基于语境化文本的词向量和分隔符向量编码结果，将词向量和所在句的分割符向量进行拼接，获得拼接词向量；将所述拼接词向量按照设置的至少两个以上语义概念进行映射，获得所述词向量的至少两个以上语义概念向量，并使得当词向量的绝对语义概念数小于设定的语义概念总数时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量；通过最大池化，从所述不相似的语义概念向量中选择出词向量在当前语境中最合适的语义概念向量，作为词向量在当前语境下的语义预测结果；获得词向量的概率向量，根据概率向量，确定词向量所对应语义概念下的词语概率。

Description

一种基于变压器模型和多参照系的文本编码表示方法

技术领域

本发明涉及自然语言的机器理解领域，特别地，涉及一种基于变压器模型和多参照系的文本编码表示方法。

背景技术

为了使机器更好地利用语言，通过词向量的方式将词语映射到多维空间中去。由于人类的文字表述往往需要结合上下文才可以形成完整的语义，这对机器理解来说，文本的语义表示成为极大的挑战。

现有预训练语言表示方法模型通过词语的词向量来构建，而人类对文本的层次理解方式是词语-词组-句子-段落-篇章的方式，现有构建的语言模型与人类对理解方式有所差异，导致了信息粒度具备一定的局限性。

另外，现有预训练语言表示方法的模型中，例如，BERT、ELMO、ULMFiT等，不仅在嵌入层，还在预测层(参照系计算层)使用了单一词向量表作为参照系，这使得预训练语言表示训练过程中，同一词语的不同语义参照同一目标收敛。例如，手机“苹果”和水果“苹果”虽然是同一词语，却在语义空间上彼此独立，无法用同一词向量来表示，当应用上述现有模型进行预训练语言表示时，手机“苹果”和水果“苹果”参照同一目标进行收敛。

发明内容

本发明提供了一种基于变压器模型和多参照系的文本编码表示方法，以更好地提供文本的语义表示。

本发明提供的基于变压器模型和多参照系的文本编码表示方法是这样实现的：

一种基于变压器模型和多参照系的文本编码表示方法，其特征在于，该方法包括，

将自然语言文本按照句子进行分词，获得各个分词序列的词向量；

将所述词向量基于变压器模型进行编码，获得语境化编码结果；

基于语境化编码结果，将词向量进行拼接，获得拼接词向量；

将所述拼接词向量按照设置的至少两个以上语义概念进行映射，获得所述词向量的至少两个以上语义概念向量，并使得当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量；

通过最大池化，从所述不相似的语义概念向量中选择出词向量在当前语境中最合适的语义概念向量，作为词向量在当前语境下的语义预测结果；

将词向量在当前语境下的语义预测结果进行归一化，并获得词向量的概率向量，

根据概率向量，确定词向量所对应语义概念下的词语概率。

其中，所述使得当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量包括，对所述至少两个以上语义概念向量按照相似性程度分别进行加权，获得各个独立语义概念向量之间的牵引力。

较佳地，将自然语言文本按照句子进行分词，获得各个分词序列的词向量进一步包括，插入句子级分隔符，并获得分隔符向量；将分词序列中的部分分词设置为遮掩，并获得被遮掩分词的词向量。

其中，所述基于语境化编码结果，将词向量进行拼接，获得句子级编码的词向量包括，将词向量和其所在句的句子分隔符向量拼接起来，获得句子级编码的拼接词向量。

其中，所述将所述拼接词向量按照设置的至少两个以上语义概念进行映射，获得所述词向量的至少两个以上语义概念向量包括，

预先建立包括表征语义概念的词语集合的词汇表，

对于被遮掩分词的词向量，基于词汇表，按照设定的语义概念总数P，通过连续P次映射生成P个语义概念向量，所述语义概念向量的维度为词汇表中的语义概念总数，语义概念向量的每一维代表词汇表集合中的一个词语，向量元素的取值代表被遮掩分词是该词语的确定程度；

所述通过最大池化，从所述不相似的语义概念向量中选择出词向量在当前语境中最合适的语义概念向量，作为词向量在当前语境下的语义预测结果包括，

根据所述语义概念向量元素的取值，选择最大取值所在的语义概念向量，作为该词向量在当前语境中最合适的语义概念向量；

对所选择的各个语义概念向量进行归一化，得到各个词向量在当前语境下的语义预测结果。

其中，所述获得词向量的概率向量，包括，

基于归一化后的当前语境下的语义预测结果，构建被遮掩词向量的概率向量，所述概率向量的维度为词汇表中的语义概念总数，概率向量每一维代表词汇表集合中的一个词语，向量元素的取值代表被遮掩词向量是该词语的概率；

所述根据概率向量，确定词向量所对应语义概念下的词语概率包括，

根据概率向量元素的取值，选择最大取值所在维代表的词语，作为被遮掩词向量对应的词语，得到所述文本在其语境下的语义表示的训练结果。

较佳地，该方法还包括，

计算所述词向量的语义预测结果与真实词语之间的损失函数，

根据损失函数对编码层参数进行更新；

其中，损失函数根据设定的概率和标注来产生负对数似然损失，

所述被遮掩分词按照所述文本中词语的概率统计来选择，所述被遮掩分词数量小于分词序列的总数。

本发明还提供一种基于变压器模型和多参照系的文本编码表示装置，该装置包括，

词嵌入层模块，将自然语言文本按照句子进行分词，获得各个分词序列的词向量；

变压器模块，将所述词向量基于变压器模型进行编码，获得语境化编码结果；

句子级编码融入层模块，基于语境化编码结果，将词向量进行拼接，获得拼接词向量；

多参照系计算模块，将所述拼接词向量按照设置的至少两个以上语义概念进行映射，获得所述词向量的至少两个以上语义概念向量，并使得当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量；

损失计算层模块，将词向量在当前语境下的语义预测结果进行归一化，获得词向量的概率向量，

根据概率向量，确定词向量所对应语义概念下的词语概率。

本发明还提供一种支持机器理解的电子设备，该电子包括存储器和处理器，其中，

存储器用于存储指令，该指令在由处理器执行时使得处理器执行上述基于变压器模型和多参照系的文本编码表示的步骤。

本发明进一步提供一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述基于变压器模型和多参照系的文本编码表示方法的步骤。

本发明通过将词向量在多参照系进行映射，获得多种不相似的语义概念向量，从而实现模拟从词语到句子，再通过句子指导理解词语的过程，并可获得词向量的多种语义概念向量的表示。以在最精确的参照系下获得词向量的预测结果，解决了词语多义性难以学习的问题。

附图说明

图1是本发明实施例一种预训练语言表示方法模型的示意图；

图2为本发明实施例基于变压器模型和多参照系的文本编码表示方法的一种流程图。

图3为基于变压器模型和多参照系的文本编码表示装置的一种示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

本发明实施例将文本中的句子作为预训练任务，鉴于使用单一参照系训练语言模型，词语的多义性会对训练效果造成干涉，因此，对每一词语设置了至少一个以上相互独立的语义表示，从而能够结合上下文推出最恰当的语义表示，用以精准训练语境化语义表示；为了避免至少一个以上独立语义无法收敛的情况，采用加权所形成的牵引力结构(语义的相关性)达到：当任一词语的实际语义概念数(绝对语义概念数)n<设置的语义集合中的总语义概念数时，所映射的语义概念向量表示将开始趋同，并最终剩下n种不相似的语义概念向量表示。本发明实施例真实地模拟了从词语到句子，再通过句子指导理解词语的过程，使得文本能够遵循语义而获得较佳的编码表示。

参见图1所示，图1为本发明实施例一种预训练语言表示方法模型的示意图。该模型包括，

将不可操作的文字、符号的非机器语言(例如，自然语言)文本从句子中进行分词，得到分词序列的词嵌入层，

输出语境化编码结果的编码层，

将词向量和其所在句的句子分隔符向量拼接起来的句子级编码融入层，

建立至少一个以上参照系语义的多参照系计算层，以及

损失计算层；

其中：

词嵌入层将文本中的各个分词词语映射到多维空间、通过向量方式实现词语语义化，具体为，通过预先训练的词向量集合将各个分词词语映射为N维的向量，例如，通过Word2vec预训练的词向量将文本中各个词语映射为300维的向量，以将待编码表示的文本转化为向量表示。在本发明实施例中，还插入了句子级分隔符，以便在句子级编码融入层时将词向量与分隔符向量进行拼接；另外，文本中有部分分词被遮掩(mask)，这就好比设计了一完形填空，以使得被遮掩的分词能够尽可能地结合上下文确定出其语义，例如，文本“我喜欢苹果”中，苹果一词因具有多种语义的分词而需要结合上下文来确定语义，故将该分词设置为遮掩。通常，按照文本中词语的概率统计来选择被遮掩的词语。此外，为了区分是词向量还是句子分隔符向量而插入不同的向量特征，强化两者的信息差异，还对普通词向量和句子分隔符向量进行了不同的typewise操作(实现向量加法，以实现空间位移)。图中，w1，w2…wm表示词向量，s1，s2…sn表示句子分割符。

输出语境化编码结果的编码层包括了初级编码层和高级编码层，初级编码层包括堆叠的两层双向长短时记忆网络(LSTM)神经网络结构，基于该结构对文本进行初步编码，以丰富词语、句子分隔符的信息，每层之间采用残差连接技术；高级编码层包括堆叠的六层变压器(Transformer)神经网络结构，基于该结构对文本进行了深度的双向语境化编码，每个block之间采用残差连接技术。通过堆叠了多层的transformer神经网络结构来确保每一个词语、句子分隔符可以获取到丰富的语境信息。

经过了编码层多层的学习，句子分隔符将从某种意义上代表了这个句子的信息。基于此，在句子级编码融入层，将词向量和所在句的句子分隔符向量拼接起来，得到具有更多语义信息的句子级编码拼接词向量。通过融入句子级编码，立足于更高的信息粒度丰富词语语义。图中，句子级编码融入层输出词向量w1，w2…wm。

词语的语义用词汇表中的概念来释义，在本申请中称为语义概念；假设任一词语至多有P种语义概念，该词语的实际语义概念数为p，所述实际语义概念数是指绝对的语义概念数，是与由上下文所确定的语义概念数相对而言，例如，一词语在字典中所罗列出的语义概念数即为该词语的实际语义概念数；当p<P时，该词语的语义概念向量表示将开始趋同，并最终剩下p种不相似的语义概念向量表示。由于在上下文中同一词语有不同的语义，在多参照系计算层，为一个词向量映射多个的语义概念向量，一个语义概念向量的维度为词汇表中的语义概念总数，每一维语义概念向量代表词汇表集合中的一个词语，向量元素的取值代表是该词语的确定程度。基于此，将m个词向量中的任一被遮掩的词向量wi，通过连续P次映射生成P个语义概念向量，通过最大池化，即，根据语义概念向量元素中最大的确定程度，选择出该词语在该语境中最合适的语义表示。图中，任一被遮掩词向量wi映射有P个逻辑回归多参照系语义表示logit 1，logit 2，…logit p，其中p<P，i<m；通过最大池化，分别为各个被遮掩的词向量wi选择出其在该语境中最佳逻辑回归多参照系语义表示。

例如，p为10，代表该词语最多有10种独立语义；又比如，苹果的独立语义为手机苹果，水果苹果等，若p等于1，所映射个逻辑回归多参照系语义表示logit1同时表示手机苹果和水果苹果，这时，映射的则苹果所拥有的两种独立语义就无法有区分度地被表示出来。因此，通过多参照系的映射，能够尽可能地避免混合语义，并通过学习独立语义来获取最精确的语义表示，这也意味着，p值越大，能够精确化语义表示的程度越高。

为了避免在获得p种不相似的语义概念向量表示时可能遇到各个独立语义无法收敛的情形，对于所映射的各个语义概念向量进行一定的加权，通过赋予各个独立语义概念向量不同的权值，来建立各个独立语义概念向量之间的相关性，在本申请中称为牵引力结构。对于语义越相似的，所赋予的权值越大。例如，对于苹果一词，映射有10个逻辑回归多参照系语义表示logit 1，logit 2，…logit 10，其中，logit 1是手机苹果语义表示，logit 2是水果苹果语义表示，logit 3是乐队名为苹果的语义表示…，为避免10个独立语义表示无法收敛,对各个逻辑回归多参照系语义表示logit 1，logit 2，…logit 10分别赋予不同的权值。

对在多参照系计算层所获得各个被遮掩词向量的最佳语义概念向量，进行归一化处理，例如，采用softmax函数进行归一化处理，从而得到词向量的语义预测结果。图中，基于各个最佳逻辑回归多参照系语义表示best logit i进行归一化，得到归一化后的词向量的语义预测结果。

计算得到的词向量的语义预测结果与真实词语之间的损失函数，该损失函数可以是根据符合设定的概率和标注来产生负对数似然损失：由此首先，基于归一化后的词向量的语义预测结果，构建各个被遮掩词向量wi的概率向量，每一个概率向量的维度为词汇表中的语义概念总数，每一维代表词汇表集合中的一个词语，向量元素的取值代表被遮掩词向量wi是该词语的概率；然后，根据概率与标注来产生负对数似然损失，来对编码层参数进行更新，以使得文本获得更好的语义表示，由此，以最精确的参照系计算损失，解决了词语多义性难以学习的问题。图中，基于各个最佳逻辑回归多参照系语义表示best logit i进行归一化以及损失函数计算后，得到各个被遮掩词向量wi的词义概率向量probs i。

参见图2所示，图2为本发明实施例基于变压器模型和多参照系的文本编码表示方法的一种流程图。该方法包括如下步骤：

步骤201，将自然语言文本按照句子进行分词，获得各个分词序列的词向量；

在该步骤中，还可以插入句子级分隔符，并获得分隔符向量；和/或将分词序列中的部分分词设置为遮掩；

其中，获得各个分词序列的词向量包括，将文本中的各个分词词语映射到多维空间、通过向量方式实现词语语义化。

步骤202，将所述词向量基于变压器模型进行编码，获得语境化编码结果；

实施方式之一是，通过堆叠的两层双向长短词记忆网络(LSTM)神经网络结构模型、以及级联的堆叠的六层变压器(Transformer)神经网络结构模型，对各个词向量分别进行编码，得到语境化编码结果，包括了分词的词向量编码结果和分隔符的词向量编码结果。

步骤203，基于语境化编码结果，将词向量进行拼接，获得拼接词向量；

在该步骤中，将词向量和所在句的句子分隔符向量拼接起来，得到具有更多语义信息的句子级编码拼接词向量。

步骤204，将所述拼接词向量按照设置的至少两个以上语义概念进行映射，获得所述词向量的至少两个以上语义概念向量，并使得当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量；通过最大池化，从所述不相似的语义概念向量中选择出词向量在当前语境中最合适的语义概念向量，作为词向量在当前语境下的语义预测结果；

在该步骤中，为实现多参照系的映射，可预先建立包括表征语义概念的词语集合的词汇表；词汇表是表征语义概念的词语集合。

将m个词向量中的任一被遮掩的词向量wi，通过连续P次映射生成P个语义概念向量，语义概念向量的维度为词汇表中的语义概念总数，每一维语义概念向量代表词汇表集合中的一个词语，向量元素的取值代表是该词语的确定程度。其中，P为设定的要映射的语义概念总数，也是所建立参考系的总数。

对所述至少两个以上语义概念向量按照相似性程度分别进行加权，获得各个独立语义概念向量之间的牵引力，以使得词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量，即，使得映射的p个独立语义概念向量能够收敛。其中，绝对语义概念数p小于P。

当获得p种不相似的语义概念向量后，根据所述语义概念向量元素的取值，选择最大取值所在的语义概念向量，作为该词向量在当前语境中最合适的语义概念向量；对所选择的各个语义概念向量进行归一化，得到各个词向量在当前语境下的语义预测结果。

步骤205，基于归一化后的各个词向量在当前语境下的语义预测结果，分别获得各个词向量的概率向量，根据概率向量，确定词向量所对应语义概念下的词语概率。

在该步骤中，基于归一化后的各个词向量在当前语境下的语义预测结果，构建被遮掩词向量的概率向量，所述概率向量的维度为词汇表中的语义概念总数，概率向量每一维代表词汇表集合中的一个词语，向量元素的取值代表被遮掩词向量是该词语的概率；根据概率向量元素的取值，选择最大取值所在维代表的词语，作为被遮掩词向量对应的词语，得到所述文本在其语境下的语义表示的训练结果。

步骤206，根据预训练语言表示方法的训练结果，对编码层参数进行更新，以使得文本活的更好的语义表示。本发明实施例是，计算所述词向量的语义预测结果与真实词语之间的损失函数，其中，损失函数根据设定的概率和标注来产生负对数似然损失；为使得损失函数最小来对编码层参数进行更新。

参见图3所示，图3为基于变压器模型和多参照系的文本编码表示装置的一种示意图。该装置包括，

根据概率向量，确定词向量所对应语义概念下的词语概率。

该装置还包括损失计算层模块，计算所述词向量的语义预测结果与真实词语之间的损失函数，

所述损失函数根据设定的概率和标注来产生负对数似然损失。

其中，

所述词嵌入层模块还包括，插入句子级分隔符，并获得分隔符向量；将分词序列中的部分分词设置为遮掩，并获得被遮掩分词的词向量。

所述句子级编码融入层模块还包括，将词向量和其所在句的句子分隔符向量拼接起来，获得句子级编码的拼接词向量。

所述多参照系计算模块还包括，预先建立包括表征语义概念的词语集合的词汇表，

通过牵引力使得所映射的语义概念向量收敛成p个不相似的语义概念向量；

基于各个词向量在当前语境下的语义预测结果，构建被遮掩词向量的概率向量，所述概率向量的维度为词汇表中的语义概念总数，概率向量每一维代表词汇表集合中的一个词语，向量元素的取值代表被遮掩词向量是该词语的概率；

该装置还包括，

更新模块，根据损失函数，对变压器模块中的编码层参数进行更新，以使得损失函数达到最小；。

本发明上述方法和装置可应用于支持机器理解的任一种电子设备，该电子设备包括存储器和处理器，其中，

存储器用于存储指令，该指令在由处理器执行时使得处理器执行任一所述基于变压器模型和多参照系的文本编码表示的步骤。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

计算所述词向量的语义预测结果与真实词语之间的损失函数，获得词向量的概率向量，

根据概率向量，确定词向量所对应语义概念下的词语概率。

对于装置/网络侧设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于变压器模型和多参照系的文本编码表示方法，其特征在于，该方法包括，

将自然语言文本从句子进行分词，获得各个分词序列的词向量；

将所述拼接词向量按照设置的至少两个语义概念进行映射，获得所述词向量的至少两个语义概念向量，并使得：当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量；

根据概率向量，确定词向量所对应语义概念下的词语概率；

其中，

所述将所述拼接词向量按照设置的至少两个语义概念进行映射，获得所述词向量的至少两个语义概念向量，包括，

对于所设置的被遮掩分词的词向量，基于包括表征语义概念的词语集合，按照设定的语义概念总数P，通过连续P次映射生成P个语义概念向量，

所述通过最大池化，从所述不相似的语义概念向量中选择出词向量在当前语境中最合适的语义概念向量，作为词向量在当前语境下的语义预测结果，包括，

2.如权利要求1所述的方法，其特征在于，所述使得当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量，包括，

对所述至少两个语义概念向量按照相似性程度分别进行加权，获得各个独立语义概念向量之间的牵引力，所述牵引力为按照相似性程度进行加权的结果。

3.如权利要求1或2所述的方法，其特征在于，所述将自然语言文本从句子进行分词，获得各个分词序列的词向量进一步包括，

插入句子级分隔符，并获得分隔符向量；

将分词序列中的部分分词设置为遮掩，并获得被遮掩分词的词向量。

4.如权利要求3所述的方法，其特征在于，所述基于语境化编码结果，将词向量进行拼接，获得句子级编码的词向量包括，

将词向量和其所在句的句子分隔符向量拼接起来，获得句子级编码的拼接词向量。

5.如权利要求4所述的方法，其特征在于，所述词语集合为词汇表，

所述语义概念向量的维度为词汇表中的语义概念总数，语义概念向量的每一维代表词汇表集合中的一个词语，向量元素的取值代表被遮掩分词是该词语的确定程度。

6.如权利要求5所述的方法，其特征在于，所述获得词向量的概率向量，包括，

7.如权利要求6所述的方法，其特征在于，该方法还包括，

根据损失函数对编码层参数进行更新；

8.一种基于变压器模型和多参照系的文本编码表示装置，其特征在于，该装置包括，

词嵌入层模块，用于将自然语言文本按照句子进行分词，获得各个分词序列的词向量；

变压器模块，用于将所述词向量基于变压器模型进行编码，获得语境化编码结果；

句子级编码融入层模块，用于基于语境化编码结果，将词向量进行拼接，获得拼接词向量；

多参照系计算模块，用于将所述拼接词向量按照设置的至少两个语义概念进行映射，获得所述词向量的至少两个语义概念向量，并使得：当词向量的绝对语义概念数p小于设定的语义概念总数P时，该词向量的语义概念向量表示趋同，最终剩下p种不相似的语义概念向量；

损失计算层模块，用于将词向量在当前语境下的语义预测结果进行归一化，获得词向量的概率向量，

根据概率向量，用于确定词向量所对应语义概念下的词语概率；

其中，

9.一种支持机器理解的电子设备，其特征在于，该电子设备包括存储器和处理器，其中，

存储器用于存储指令，该指令在由处理器执行时使得处理器执行如权利要求1至7任一所述基于变压器模型和多参照系的文本编码表示方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述基于变压器模型和多参照系的文本编码表示方法的步骤。