CN111144129B

CN111144129B - 一种基于自回归与自编码的语义相似度获取方法

Info

Publication number: CN111144129B
Application number: CN201911362305.6A
Authority: CN
Inventors: 王开业; 蒋登位; 崔斌; 谭启涛
Original assignee: Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Current assignee: Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-06-06
Anticipated expiration: 2039-12-26
Also published as: CN111144129A

Abstract

本发明属于深度学习技术领域，公开了一种基于自回归与自编码的语义相似度获取方法，包括如下步骤：S1：根据输入的原始文本，进行文本表征，获取优化的内容特征和查询特征；S2：根据上述步骤得到的内容特征和查询特征，使用优化语义提取模型进行语义特征提取；S3：根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征，获取语义相似度。本发明提高了中文语言文本表征的准确性和文本相似度计算的准确率，解决了现有技术存在的性能损失、无法分辨单词关系以及单向问题。

Description

一种基于自回归与自编码的语义相似度获取方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于自回归与自编码的语义相似度获取方法。

背景技术

现有技术通常分为两大类：一类是基于统计学的计算方法，如编辑距离计算、杰卡德系数、TF-IDF算法等等。此种方法通常需要大规模的语料库进行训练，并且在计算时没有考虑文本中的句子的结构信息和语义信息，计算的结果有时会与文本的真实语义相差较大；另一类是基于语义理解的计算方法，如word2vec、CNN、LSTM、Bert等。这种方法不仅考虑了文本的统计特征，同时，也考察了句子的层次结构、语义信息等语言特征，是目前进行语义相似度计算的主流方法。这种基于语义理解的计算方法主要流程基本相同，首先通过算法模型对两个文本中的语句进行向量表征(如字向量，词向量，句向量)，再对两个向量进行比较确定其相似程度，向量表征的优劣直接决定了最后的相似度结果。目前，向量表征模型有两类：自回归模型、自编码模型。

自回归是时间序列分析或者信号处理领域的一个术语，自回归模型(AR)是指假定一个句子的生成过程如下：首先根据概率分布生成第一个词，然后根据第一个词生成第二个词，然后根据前两个词生成第三个词，不停的迭代，直到生成整个句子。自回归模型的优势是擅长生成式自然语言处理任务。因为在生成上下文时，通常是前向的。AR语言模型很自然地适用于此类NLP任务。但AR语言模型有一些缺点，它只能使用前向上下文或后向上下文，这意味着它不能同时使用前向和后向上下文。

自编码器模型(AE)是一种无监督学习，它用一个神经网络将输入的文本(输入通常还会增加一些噪声)变成一个低维的特征，这就是编码部分，然后再用一个Decoder尝试把特征恢复成原始的信号。自编码模型的优势是，它可以从向前和向后的方向看到上下文。但AE语言模型也有其缺点；它在预训练时通常会随机屏蔽掉文本中的部分词，但这种人为的干预在真实数据中是不存在的，必然导致预训练-调优的差异，降低模型的泛化能力；同时，选取屏蔽词的前提是假定每个屏蔽词在给定未屏蔽词的前提下是彼此独立的，但在真实的语言环境中，这种假设并不成立。

发明内容

本发明旨在于至少在一定程度上解决上述技术问题之一，本发明目的在于提供一种基于自回归与自编码的语义相似度获取方法。

本发明所采用的技术方案为：

一种基于自回归与自编码的语义相似度获取方法，包括如下步骤：

S1：根据输入的原始文本，进行文本表征，获取优化的内容特征和查询特征；

S2：根据上述步骤得到的内容特征和查询特征，使用优化语义提取模型进行语义特征提取；

S3：根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征，获取语义相似度。

进一步地，步骤S1中，内容特征包括字向量、声调向量、词性向量以及位置向量；

查询特征包括声调向量、词性向量以及位置向量。

进一步地，步骤S2中，根据全排列机制和多信息注意力机制对Transformer模型进行优化，获取优化语义提取模型。

进一步地，全排列机制的具体方法为：将当前原始文本的优化的内容特征的字向量、声调向量、词性向量以及位置向量作为Transformer模型的输入向量，根据输入向量的排列顺序，获取当前字的预测输出向量。

进一步地，多信息注意力机制的具体方法为：根据上一隐藏层的所有字的内容特征，获取当前隐藏层的当前字的内容特征；根据上一隐藏层的除当前字以外的所有字的内容特征以及上一隐藏层的当前字的查询特征，获取当前隐藏层的当前字的查询特征。

进一步地，步骤S3中，使用余弦相似度方法，获取语义相似度。

进一步地，余弦相似度方法的公式为：

式中，Si为语义相似度；

为原始文本的语义特征向量；/>

为目标文本的语义特征向量。

本发明的有益效果为：

1)本发明提高了中文语言文本表征的准确性，通过引入声调向量和词性向量，使得中文语言特征表述更丰富、准确，对于语言理解更加准确；

2)本发明解决了现有技术中存在的使用模式不一致的情形导致的性能损失以及无法分辨文本单词之间关系的问题；

3)本发明自回归与自编码结合的算法则可以同时利用上下文进行预测，解决了现有技术中存在的从左到右或者从右到左单向处理导致不能同时很好利用上文和下文进行预测单向问题；

4)本发明提高了文本相似度计算的准确率，相比于现有技术，自回归与自编码结合的算法提高了文本相似度计算的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于自回归与自编码的语义相似度获取方法流程框图。

图2是内容特征和查询特征模型示意图。

图3是优化语义提取模型示意图。

图4是全排列机制模型示意图。

图5是多信息注意力机制模型示意图。

图6是余弦相似度计算模型示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本发明公开的功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本发明阐述的实施例中。

应当理解，本发明使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若术语“包括”、“包括了”、“包含”和/或“包含了”在本发明中被使用时，指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性，并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如，取决于所涉及的功能/动作，实际上可以实质上并发地执行，或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

本实施例提供一种基于自回归与自编码的语义相似度获取方法，如图1所示，包括如下步骤：

S1：根据输入的原始文本，进行文本表征，如图2所示，获取优化的内容特征和查询特征；

内容特征包括字向量、声调向量、词性向量以及位置向量；

查询特征包括声调向量、词性向量以及位置向量；

由于计算机没有办法直接处理中文文字，需要对原始文本进行转化，在原始文本表征方面，现有的只有字向量和位置向量，而针对于汉语来说，无法充分表述汉语言的文本特征；因此本实施例引入了声调向量和词性向量；因为不同的声调和词性往往对应着不同的意思表达，通过声调向量、词性向量的引入，增强了对中文文本语义的表述；同时将内容特征和查询特征进行了分离，提高了后续语义表征的准确性和丰富性；

根据全排列机制和多信息注意力机制对Transformer模型进行优化，获取优化语义提取模型，如图3所示；

全排列机制的具体方法为：将当前原始文本的优化的内容特征的字向量、声调向量、词性向量以及位置向量作为Transformer模型的输入向量，根据输入向量的排列顺序，获取当前字的预测输出向量；如图4所示，其中x_i表示第i个字的输入向量；G^j表示第j层网络的隐藏状态；H_i ^j表示第j层隐藏层的第i个位置的权重向量(该参数是模型学习所得)；T_i表示第i个字的预测输出；当需要预测第2个字向量时，通过不同的排列组合，则可得到不同的上下文关系，G^j表示第j层(上一层)的隐藏状态，当排列顺序为3→2→1→4时，第2个字向量与x₃及G^j有关系；当排列顺序为4→3→1→2时，第2个字向量与x₁、x₄、x₁及G^j有关系；

为了消除自编码模型中的人为干预过程，同时避免割裂屏蔽词之间的相互关联，本实施例引入了多信息注意力机制，多信息注意力机制的具体方法为：根据上一隐藏层的所有字的内容特征，获取当前隐藏层的当前字的内容特征；根据上一隐藏层的除当前字以外的所有字的内容特征以及上一隐藏层的当前字的查询特征，获取当前隐藏层的当前字的查询特征；如图5所示，C_i ^j表示第j个隐藏层第i个字的内容向量；Q_i ^j表示第j个隐藏层第i个字的位置信息向量；K、V表示字信息的查询键值对；Q、K、V三者都是模型学习所得参数；

S3：根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征，使用余弦相似度方法，获取语义相似度；余弦相似度方法的公式为：

式中，Si为语义相似度；

为原始文本的语义特征向量；/>

为目标文本的语义特征向量；当两个向量/>

与/>

的夹角为90度时，其余弦值为0，说明相似度为0；当夹角为0度时，其余弦值为1，说明相似度为1，如图6所示。

以上所描述的实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于自回归与自编码的语义相似度获取方法，其特征在于：包括如下步骤：

S3：根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征，获取语义相似度；

所述的步骤S1中，所述的内容特征包括字向量、声调向量、词性向量以及位置向量；

所述的查询特征包括声调向量、词性向量以及位置向量；

所述的步骤S2中，根据全排列机制和多信息注意力机制对Transformer模型进行优化，获取优化语义提取模型；

所述的全排列机制的具体方法为：将当前原始文本的优化的内容特征的字向量、声调向量、词性向量以及位置向量作为Transformer模型的输入向量，根据输入向量的排列顺序，获取当前字的预测输出向量；

所述的多信息注意力机制的具体方法为：根据上一隐藏层的所有字的内容特征，获取当前隐藏层的当前字的内容特征；根据上一隐藏层的除当前字以外的所有字的内容特征以及上一隐藏层的当前字的查询特征，获取当前隐藏层的当前字的查询特征。

2.根据权利要求1所述的基于自回归与自编码的语义相似度获取方法，其特征在于：所述的步骤S3中，使用余弦相似度方法，获取语义相似度。

3.根据权利要求2所述的基于自回归与自编码的语义相似度获取方法，其特征在于：所述的余弦相似度方法的公式为：

式中，Si为语义相似度；

为原始文本的语义特征向量；/>

为目标文本的语义特征向量。/>