CN110532557A

CN110532557A - 一种无监督的文本相似度计算方法

Info

Publication number: CN110532557A
Application number: CN201910807636.XA
Authority: CN
Inventors: 吴超; 宋颖毅; 柯文俊; 陈旭; 陈静; 王坤龙; 杨雨婷
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-03
Anticipated expiration: 2039-08-29
Also published as: CN110532557B

Abstract

本发明涉及一种无监督的文本相似度计算方法，其中，包括：步骤一：进行嵌入层模型预训练，对问题集合中的所有词进行预训练，生成满足模型需要的词向量；步骤二：编码层网络，挖掘句子的语义信息；步骤三：进行基于TFIDF融合的模型改进，包括：在每条问句输入到神经网络的同时，对输入的每条问句进行TFIDF的计算，并将计算好的权值输入到神经网络中，控制最后的句子向量表示，采用了归一化的TFIDF计算方法，并将其融入到编码层和表示层。本发明将深度神经网络模型(Bi‑LSTM)用于语料库的无监督训练，得到语言模型，通过无监督的训练方式，可以充分地利用大规模的语料库的信息，从而提高文本匹配的准确率，提升信息检索的精度。

Description

一种无监督的文本相似度计算方法

技术领域

本发明涉及一种通信方法，特别涉及一种无监督的文本相似度计算方法。

背景技术

随着大数据时代的到来，信息爆炸式增长，信息的检索与匹配在各个领域中发挥着越来越重要的作用。而这其中的关键技术之一就是文本相似度计算技术。传统的文本相似度计算方式主要是基于字符串的方法和基于语料库的方法。基于字符串的方法是从字面层次对文本进行比较，以字符串共现和重复程度为相似度的衡量标准；基于语料库的方法是利用从语料库中获取的信息来进行文本相似度计算。基于语料库的方法主要是基于神经网络的方法，经过有监督学习的算法得到训练分类器，利用此分类器计算短文本之间的相似度分数。

基于字符串的方法将字符或词语作为独立的知识单元考虑，并未考虑词语本身的含义和词语之间的关系，因而这种方法对于表达方式不同但具有相同含义的情况，无法精确计算。基于有监督的神经网络的方法，虽然可以很好地利用语义信息，但是训练分类器的好坏很大程度取决于训练样本的精度，而标签数据的构建是一个耗时耗力的工作，有监督的方式越来越难以满足信息高速增长的要求。

发明内容

本发明的目的就是提出一种无监督的文本相似度计算方法，以解决上述现有技术的问题。

本发明一种无监督的文本相似度计算方法，其中，包括：步骤一：进行嵌入层模型预训练，对问题集合中的所有词进行预训练，生成满足模型需要的词向量；步骤二：编码层网络，挖掘句子的语义信息；步骤三：进行基于TFIDF融合的模型改进，包括：在每条问句输入到神经网络的同时，对输入的每条问句进行TFIDF的计算，并将计算好的权值输入到神经网络中，控制最后的句子向量表示，采用了归一化的TFIDF计算方法，并将其融入到编码层和表示层；归一化的TFIDF算法包括：输入：问答集分词结果S，其中，s_i是第i个问题分词结果。记为第i个问题分词结果s_i中的第j个词汇；输入问答集中句子的分词结果集合s；针对集合s中的每一个问句s_i，取并集，获得所有的分词词汇集合W，其中k为集合s中所有词汇的个数：W＝[w₁，w₂，w₃，...，w_k]；计算集合W中每一个词汇w_p的归一化TF-IDF值：其中，TFIDF(w_p)为词汇w_p的TF-IDF值，为集合W所有词汇的TF-IDF之和；w_p的TF-IDF值TFIDF(w_p)计算如下：TF值：TF(w_p)＝n_w/n_s，其中，n_w表示w_p在该句子中出现的次数，n_s表示该句子中的词汇总数；IDF值IDF(w_p)＝log N/N_w，其中，N表示句子总数，N_w表示含有该词汇的句子总数；计算w_p的TF-IDF值：TFIDF(w_p)＝TF(w_p)*IDF(w_p)；输出：基于TF-IDF的词汇归一化结果集合；进行编码层TFIDF的融合包括：通过对LSTM门控结构分析，输入门控制着进入网络的信息量，将TFIDF的信息添加进入输入门，并用其控制信息的记忆；对输入门计算更新为如下：i_t＝σ(ω_i[h_t-1，x_t]+b_i)；i′_t＝i_t*softmax(tfidf(t))；表示层TFIDF的融合，在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值；模型的表示层计算更新为如下：h′_t＝h_t*softmax(tfidf(t))；其中，h_t为时间步t时刻的输出。

根据本发明的无监督的文本相似度计算方法的一实施例，其中，采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。

根据本发明的无监督的文本相似度计算方法的一实施例，其中，Word2Vector包括：训练模型CBOW和训练模型Skip_gram。

根据本发明的无监督的文本相似度计算方法的一实施例，其中，BERT模型训练层包括预训练语言模型阶段和根据具体语义标注任务的模型改造阶段，其中在预训练阶段中，采用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达，以期获取准确的语言模型。

根据本发明的无监督的文本相似度计算方法的一实施例，其中，步骤二选用了Bi-LSTM网络来进行编码和训练。

根据本发明的无监督的文本相似度计算方法的一实施例，其中，LSTM细胞结构包括：LSTM通过三种门结构来对信息进行筛选，以此来控制信息输出，分别为遗忘门、输入门和输出门，LSTM隐藏层内部信息更新包括：f_t为t时刻遗忘门输出的值，遗忘门是控制历史信息对当前细胞单元状态的影响，计算公式如下：f_t＝σ(ω_f[h_t-1，x_t]+b_f)；i_t为t时刻输入门输出的值，输入门的作用是当前的输入信息对当前细胞单元状态的影响，计算公式如下：i_t＝σ(ω_i[h_t-1，x_t]+b_i)；当前细胞状态单元的候选值，通过得到当前时刻细胞单元的状态值C_t，计算公式如下：O_t为当前细胞状态单元的输出候选值，由输出门进行控制，通过O_t与C_t进行结合得到细胞单元在该时刻的输出h_t，计算公式如下：O_t＝σ(ω_o[h_t-1，x_t]+b_o)；h_t＝O_t*tanh(C_t)。

本发明将深度神经网络模型(Bi-LSTM)用于语料库的无监督训练，得到语言模型，从而提取文本的语义信息；同时，融合TF-IDF加权技术，在考虑语义信息的同时，充分利用文本的词频统计信息，实现句子最终的向量表示；最后，通过计算文本间向量表示的空间距离来计算文本的相似度。通过无监督的训练方式，可以充分地利用大规模的语料库的信息，从而提高文本匹配的准确率，提升信息检索的精度。

附图说明

图1所示为网络总体模型框架示意图；

图2所示为Word2Vector模型示意图；

图3所示为Bert模型结构示意图；

图4所示为LSTM细胞结构示意图；

图5所示为Bi-LSTM网络结构示意图；

图6所示为编码层改进网络模型结构图；

图7所示为表示层改进网络模型结构示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1所示为网络总体模型框架示意图，如图1所示，无监督的文本相似度计算方法包括：

步骤一：嵌入层模型预训练包括：

对问答语料的预处理，可以得到由词组成的问题集，由于神经网络只能接受数值型数据，无法直接处理中文词组，需要对问题集合中的所有词进行预训练，生成可以满足模型需要的词向量。

基于神经网络的Word embedding词嵌入方法在词语的语义表示上表现出非常好的性能，Word embedding词嵌入方法是一种将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术，把每一个词语嵌入到另一个空间，使离散的词汇和实数域的特征向量之间形成单射映射关系，最终得到每个词语在另外一个空间中的表示。本发明主要采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。

(1)Word2Vector包括：

图2所示为Word2Vector模型示意图，如图2所示，与现有one-hot词向量表示方法相比，Word2vector词向量的维度更低(100-300维)。词向量维度的降低，大大降低了计算的复杂度，不会造成向量维度灾难。并且由于Word2vector词向量是根据词汇所在上下文计算出的，充分利用了上下文的语义信息，通过它计算得到两个词汇的相似程度准确性更高。Word2vector包含了两种训练模型，分别是CBOW(Continuous Bag Of Words Model)和Skip_gram。

(2)BERT模型

图3所示为Bert模型结构示意图，如图3所示，BERT(Bidirectional EncoderRepresentation from Transformers)，是一种新型的语言模型，通过联合调节所有层中的双向Transformer来训练深度双向表示。BERT模型训练层包括两个阶段，分别是预训练语言模型阶段和根据具体语义标注任务的模型改造阶段，其中在预训练阶段中，采用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达，以期获取准确的语言模型。

与Word2Vector相比，BERT使用了Transformer而不是BI-LSTM做Encoder，可以有更深的层数、具有更好并行性。并且线性的Transformer比LSTM更易免受MASK标记影响，只需要通过self-attention减小MASK标记权重即可；而LSTM类似黑盒模型，很难确定其内部对于MASK标记的处理方式。不同于Word2Vector模型产生的上下文无关的静态向量，BERT能够很好的利用上下文信息，为每个词产生动态的向量，可以很好的解决Word2Vector模型对于一词多义的缺点。

步骤二：编码层网络包括：

经过嵌入层模型预训练，生成了问句的每个词的向量表示；而编码层网络的主要目的是挖掘句子的语义信息，通过最终训练好的语言模型去更好地预测出句子的语义表示。为了更好的捕捉句子长距离的依存关系的信息，选用了Bi-LSTM网络来进行编码和训练；

(1)LSTM细胞结构包括：

图4所示为LSTM细胞结构示意图，如图4所示，LSTM通过三种门结构来对信息进行筛选，以此来控制信息输出，分别为遗忘门(inputgate)、输入门(forgetgate)、输出门(outputgate)。LSTM隐藏层内部信息更新如下：

f_t为t时刻遗忘门输出的值，遗忘门主要的作用是控制历史信息对当前细胞单元状态的影响，计算公式如下：

f_t＝σ(ω_f[h_t-1，x_t]+b_f)

i_t为t时刻输入门输出的值，输入门的主要作用是当前的输入信息对当前细胞单元状态的影响，计算公式如下：

i_t＝σ(ω_i[h_t-1，x_t]+b_i)

当前细胞状态单元的候选值，通过得到当前时刻细胞单元的状态值C_t，计算公式如下：

O_t为当前细胞状态单元的输出候选值，由输出门进行控制。通过O_t与C_t进行结合得到该细胞单元在该时刻的输出h_t，计算公式如下：

O_t＝σ(ω_o[h_t-1，x_t]+b_o)

h_t＝O_t*tanh(C_t)

(2)Bi-LSTM

图5所示为Bi-LSTM网络结构示意图，如图5所示，

单向LSTM网络的传递过程中的单向决定了网络只能很好地挖掘和利用词语的上文信息，而对于词语下文信息难以利用，因此，本发明引入了双向神经网络(Bi-LSTM)。通过对两个方向的信息的融合，模型的输出能够很好地利用词语的上下文信息。

步骤三：基于TFIDF融合的模型改进

通过对于LSTM神经元结构的分析，可以看出，通过遗忘门、输入门和输出门的控制，LSTM模型可以很好的学习文本序列中远距离依赖的特性，因此LSTM神经网络模型可以很好地表征文本的整个语义信息。但是，LSTM默认对于所有时刻的信息同等看待，也就是说缺少对于信息权重的概念。

为了将TFIDF融合到使用模型预测的过程中，在每条问句输入到神经网络的同时，需要对输入的每条问句进行TFIDF的计算，并将计算好的权值输入到神经网络中，控制最后的句子向量表示。采用了归一化的TFIDF计算方法，并将其融入到编码层和表示层。

(1)归一化的TFIDF算法包括：

对于每个样本中的元素而言，常规的TF-IDF值在数量级上差别过大，会出现不同权重的元素对于整个样本的影响差别显著，这就违背了本发明使用TF-IDF值的目的，因此对其进行归一化处理，使得每个词语对应的归一化TF-IDF值都处于区间(0,1)之内。

算法1：归一化的TF-IDF算法

(2)编码层TFIDF的融合包括：

图6所示为编码层改进网络模型结构图，如图6所示，通过对LSTM门控结构分析，其中的输入门的主要作用就是控制着进入网络的信息量，也就是说控制着与老记忆合并的新记忆的量。因此本发明的改进思想是将TFIDF的信息添加进入输入门，并用其控制信息的记忆。而其他门结构采用与LSTM相同的结构进行。

针对输入门计算更新为如下：

i_t＝σ(ω_i[h_t-1，x_t]+b_i)

i′_t＝i_t*softmax(tfidf(t))

(3)表示层TFIDF的融合

图7所示为表示层改进网络模型结构示意图，如图7所示，相比原始LSTM网络结构和编码层融合网络结构，在表示层添加TFIDF值并不改变网络结构，只是在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值，从而增加对信息的筛选，针对每次输入的语句可以抓取关键信息，对输入语句在语料库中进行精确匹配。

模型的表示层计算更新为如下：

h′_t＝h_t*softmax(tfidf(t))

其中，h_t为时间步t时刻的输出。

为了能充分地利用文本特征与语义特征，本发明提出了一种新的语义相似度计算模型，将双向长短期记忆网络神经网络模型(Bi-LSTM)与TF-IDF加权技术相结合。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种无监督的文本相似度计算方法，其特征在于，包括：

步骤一：进行嵌入层模型预训练，对问题集合中的所有词进行预训练，生成满足模型需要的词向量；

步骤二：编码层网络，挖掘句子的语义信息；

步骤三：进行基于TFIDF融合的模型改进，包括：

在每条问句输入到神经网络的同时，对输入的每条问句进行TFIDF的计算，并将计算好的权值输入到神经网络中，控制最后的句子向量表示，采用了归一化的TFIDF计算方法，并将其融入到编码层和表示层；

归一化的TFIDF算法包括：

输入：问答集分词结果S，其中，s_i是第i个问题分词结果。记为第i个问题分词结果s_i中的第j个词汇；

输入问答集中句子的分词结果集合s；

针对集合s中的每一个问句s_i，取并集，获得所有的分词词汇集合W，其中k为集合s中所有词汇的个数：

W＝[w₁，w₂，w₃，...，w_k]；

计算集合W中每一个词汇w_p的归一化TF-IDF值：

其中，TFIDF(w_p)为词汇w_p的TF-IDF值，为集合W所有词汇的TF-IDF之和；

w_p的TF-IDF值TFIDF(w_p)计算如下：

TF值：TF(w_p)＝n_w/n_s，其中，n_w表示w_p在该句子中出现的次数，n_s表示该句子中的词汇总数；

IDF值IDF(w_p)＝logN/N_w，其中，N表示句子总数，N_w表示含有该词汇的句子总数；

计算w_p的TF-IDF值：

TFIDF(w_p)＝TF(w_p)*IDF(w_p)；

输出：基于TF-IDF的词汇归一化结果集合；

进行编码层TFIDF的融合包括：

通过对LSTM门控结构分析，输入门控制着进入网络的信息量，将TFIDF的信息添加进入输入门，并用其控制信息的记忆；

对输入门计算更新为如下：

i_t＝σ(ω_i[h_t-1，x_t]+b_i)：

i′_t＝i_t*softmax(tfidf(t))：

表示层TFIDF的融合，在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值；

模型的表示层计算更新为如下：

h′_t＝h_t*softmax(tfidf(t))；

其中，ht为时间步t时刻的输出。

2.如权利要求1所述的无监督的文本相似度计算方法，其特征在于，采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。

3.如权利要求2所述的无监督的文本相似度计算方法，其特征在于，Word2Vector包括：训练模型CBOW和训练模型Skip_gram。

4.如权利要求2所述的无监督的文本相似度计算方法，其特征在于，BERT模型训练层包括预训练语言模型阶段和根据具体语义标注任务的模型改造阶段，其中在预训练阶段中，采用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达，以期获取准确的语言模型。

5.如权利要求1所述的无监督的文本相似度计算方法，其特征在于，步骤二选用了Bi-LSTM网络来进行编码和训练。

6.如权利要求5所述的无监督的文本相似度计算方法，其特征在于，LSTM细胞结构包括：

LSTM通过三种门结构来对信息进行筛选，以此来控制信息输出，分别为遗忘门、输入门和输出门，LSTM隐藏层内部信息更新包括：

f_t为t时刻遗忘门输出的值，遗忘门是控制历史信息对当前细胞单元状态的影响，计算公式如下：

f_t＝σ(ω_f[h_t-1，x_t]+b_f)：

i_t为t时刻输入门输出的值，输入门的作用是当前的输入信息对当前细胞单元状态的影响，计算公式如下：

i_t＝σ(ω_i[h_t-1，x_t]+b_i)：

O_t为当前细胞状态单元的输出候选值，由输出门进行控制，通过O_t与C_t进行结合得到细胞单元在该时刻的输出h_t，计算公式如下：

O_t＝σ(ω_o[h_t-1，x_t]+b_o)；

h_t＝O_t*tanh(C_t)。