CN111274794A

CN111274794A - 一种基于传递的同义词扩展方法

Info

Publication number: CN111274794A
Application number: CN202010063190.7A
Authority: CN
Inventors: 鲁伟明; 俞家乐; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-12
Anticipated expiration: 2040-01-19
Also published as: CN111274794B

Abstract

本发明公开了一种基于传递的同义词扩展方法：利用百科多义词页面获取实体三元组t＝<e₁,e₂,e₃>作为正负例，其中e₂分别与e₁、e₃同义；以百科词条正文作为语料，检索得到e₁和e₂的共现语句包S₁以及e₂和e₃的共现语句包S₂；通过BERT或BiLSTM模型分别编码S₁和S₂中所有语句，并采用注意力机制选择有效语句；利用注意力权重和门控机制计算实体的融合向量；通过多角度匹配网络从三个层面匹配e₂在S₁和S₂中语义，并进行同义关系分类；模型判别为正例即表明e₁和e₃具有同义关系，从而实现同义词扩展。本发明首次提出了一个基于传递的同义词判别模型，该模型结合深度学习技术，通过共有同义词的语义传递辅助实体对的同义关系判别，对于从海量数据中挖掘同义信息具有重要价值。

Description

一种基于传递的同义词扩展方法

技术领域

本发明涉及基于传递的同义词扩展方法，特别是涉及一种通过共有同义词的语义传递辅助实体对间同义关系判别的方法。

背景技术

同义词实体是指一组描述同一概念、指向同一实体的词语。人们通常喜欢采用不同方式表述某个实体，实体的多种名称构成了同义关系。实体同义名称的应用虽然能够增加语言表述的丰富性，但同时也加大了文本理解和文本分析的难度。因此，从海量语料中自动识别同义词实体已经成为一项重要任务。它不仅能够为知识挖掘提供丰富的语义信息，还能使许多下游任务受益，例如在Web搜索、问答系统、知识图谱构建等应用领域中，同义信息都发挥着不可或缺的作用。

获取同义词实体的一种最直接方法是利用公开知识资源，著名英文知识库例如WordNet、ConceptNet和DBpedia中均包含了大量同义信息，而中文词典《同义词词林》、《同义词词林扩展版》以及中文WordNet也都是可靠的同义资源。然而这些知识资源大多基于人工，需要耗费大量的时间和人力去构造及维护。尤其随着信息时代的到来，同义词实体的数量也在飞速增长，知识资源中的同义信息覆盖率已远远满足不了人们的需求。自动同义词实体抽取任务已逐渐成为一项研究热点。

发明内容

本发明设计并实现了一种基于传递的同义词扩展方法。该方法提出并解决了一个新任务，即判断同义关系能否传递，模型结合多角度实体匹配策略和同义语句选择任务，通过一个中间同义词来辅助判别实体对间是否存在同义关系，从而实现同义词扩展。

本发明解决其技术问题采用的技术方案如下：一种基于传递的同义词扩展算法，包括以下步骤：

1)数据集构建：爬取并解析百科词条正文，存储到Lucene索引文件中，同时利用Word2Vec工具训练词向量；爬取百科词条的多义词页面，解析得到每个页面中所有多义义项，并从义项的词条页中获取该义项的同义属性；同一义项若存在多个同义词，则以该义项名称作为中间实体e₂，任选它的两个同义词作为e₁和e₃，构成正例三元组t＝<e₁,e₂,e₃>；具有相同名称的不同义项，可以随机选取两个义项各自的同义词分别作为e₁和e₃，与义项名e₂构成负例三元组；所有实体三元组t构成了集合T；根据已获得的实体三元组集合，在语料的Lucene索引文件中进行布尔检索，得到同时包含一对实体的所有语句s_i并构成共现语句包S＝{s₁,s₂,...,s_|s|}，即检索e₁和e₂得到共现语句包S₁，检索e₂和e₃得到共现语句包S₂；

2)句子编码：对步骤1)中每个实例t对应的两个语句包S₁和S₂，采用BERT模型或BiLSTM模型进行句子编码，具体过程如下：

a)BERT编码：给定一个同时包含实体对e_i和e_j的语句s，利用BERT自带分词器对s进行分词，并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”，在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示，得到语句序列s＝{w₀，w₁,…,w_|s|+5}，其中w_k为序列中第k个词语；将预处理后的语句序列输入到BERT模型中，获得编码后的整个序列表示H＝{h₀,h₁,...h_|s|+5}，其中h_k为第k个词的隐层向量输出；根据两个实体的位置，同时可以得到e_i的序列表示

和e_j的序列表示

整个句子的隐层表示为h_s＝h₀，即“[CLS]”对应输出；

b)BiLSTM编码：给定一个同时包含实体对e_i和e_j的语句s，采用HanLP分词器对s分词，得到语句序列s＝{W₁,w₂,…,w_|s|}；将序列中的每个词w_k转换为词嵌入后，拼接每个词的词向量

与距离实体对e_i和e_j的两个位置向量

和

作为该词的嵌入表示

其中d_w为词向量维度，d_p为位置向量维度，

为向量拼接操作；将序列

输入到BiLSTM模型中进行编码，正反向编码公式如下：

其中，BiLSTM采用两层标准的长短期记忆网络，LSTM_fw为正向编码公式，LSTM_bw为反向编码公式，v_t为第t个时间步的输入，

为正向第t个时间步的隐层输出，

为反向第t个时间步的隐层输出，即对应句子中第t个词语；

将正反向的隐层输出拼接，得到

作为第t个词语的隐层表示，即获得整个语句的序列表示H＝{h₁,h₂,...h_|s|}；类似上述步骤a)，同时可得到e_i的序列表示

和e_j的序列表示

将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接，作为句子的隐层表示

c)句子表示：利用步骤a)或步骤b)对语句s编码后，得到了句子隐层表示h_s和实体序列表示

与H_ej，将h_s经过一个包含激活函数tanh的全连接层转化，得到句子向量v_s，公式如下：

v_s＝tanh(W_sh_s+b_s)

其中

和

为模型的可训练参数，d_h为编码器隐层输出的维度，d_c为全连接层的输出维度；

对实体序列中每个词的隐层向量计算平均，同样经过一个包含激活函数tanh的全连接层转化，计算获得e_i的实体向量

与e_j的实体向量

公式如下：

其中

和

为模型的可训练参数，k∈{1,2,3}为实体编号；将句子向量与两个实体向量拼接，作为该句子的最终表示

d)语句包表示：通过前三个步骤，对语句包S中每个语句进行编码，得到语句向量集合

同时采用注意力机制对语句包内的有效语句加以选择，得到每个句子的注意力权重α_i，计算公式如下：

公式采用的是乘法注意力，其中

表示同义关系向量，由模型随机初始化，维度与句子向量相同，exp为指数函数；

将所有语句向量进行加权求和，即得到语句包的向量表示V_s：

将Vs依次经过一个全连接层和一个softmax层，得到预测概率p(e_i≈e_j|S)，即模型基于语句包S，判别实体对e_i和e_j存在同义关系的概率，同时也验证了语句选择的有效性：

o＝W₁V_s+b₁

其中

和

为模型的可训练参数，o₁和o₂为向量o的两个元素，o₁对应模型预测为正确的维度，o₂对应模型预测为错误的维度；

3)实体编码：将实例t对应语句包S₁和S₂中的所有语句分别经过步骤2)中编码器编码后，获得S₁中e₁的实体向量包

和e₂的实体向量包

以及S₂中e₃的实体向量包

和e₂的实体向量包

利用步骤2)中第d)步的句子注意力权重，对实体向量包进行加权，作为实体在整个语句包内的语义融合向量，公式如下：

其中k∈{1,2}为语句包编号，i∈{1,2,3为实体编号，

为语句包S_k中第j个语句的注意力权重，

为该句中第i个实体；经过计算，得到四个实体融合向量

和

接着采用门控机制分别将

的语义融入

将

的语义融入

得到e₂在S₁中的最终向量表示

在S₂中的最终向量表示

公式为：

其中语句包编号k∈{1,2}，实体编号i∈{1,3}，

为门控向量，是可训练参数，维度与实体向量相同，⊙为向量元素乘操作；

4)多角度实体匹配：对步骤3)中得到的e₂的两个实体向量包

和

以及e₂的两个实体向量

和

同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配，具体匹配过程如下：

a)E2E匹配：实体向量之间的匹配，利用向量元素乘的结果作为匹配向量V_m，其中

为向量元素乘操作：

b)E2B匹配：实体向量和实体向量包之间的匹配，主要采用基于LSTM模块的多步匹配策略，将

中每个向量

作为LSTM每一个时间步的输入，并且不断通过

影响隐层状态h′_t的计算，以提取出

与

间语义相似的部分，计算公式如下：

其中LSTM(x,[h,c])为标准的LSTM单元，x为输入，h和c分别为LSTM的隐层状态和单元状态；即按照标准LSTM进行循环计算，单元状态c_t不变，隐层状态h＇_t只取前d_c个元素，与当前输入

相加后拼接

输入到下一步计算中；i∈{1,2}和j∈{1,2}为语句包编号，

为拼接操作；d_c与实体向量维度相同；

以LSTM模块最后一个时间步的输出作为E2B的匹配向量，即匹配

和

得到

匹配

和

得到

c)B2B匹配：实体向量包之间的匹配，实际为两个包内所有向量间的两两匹配，首先计算

和

的相似度矩阵M：

其中

为模型的可训练参数，d_c为实体向量维度；

对于

中的某个向量

与

中每个向量匹配得到|₂|个相似分数，有分数取平均即得到

与整个

的相似分数，公式为：

其中m_ij为M中第i行第j列元素，mean_pooling为平均池化函数；

接着通过softmax公式计算

中每个向量的对应权重向量，经过加权后获得

关于

的匹配向量

在相似度矩阵M的第0维上进行操作为

匹配，得到

同理，在M的第1维上进行相同操作即为

匹配，可得到

5)同义关系分类：将步骤4)中得到的五个匹配向量拼接，依次通过一个全连接层和一个softmax分类器，得到基于语句包S₁和S₂、实例t中e₁和e₃存在同义关系的概率p(e₁≈e₃|S₁,S₂)：

其中

为模型的可训练参数，

和

为o_m中两个元素，

对应模型预测为正确的维度，

对应模型预测为错误的维度；

6)模型训练：采用交叉熵作为损失函数，通过步骤2)计算所有实例T对应的语句包的有效选择概率，同时计算损失L₁：

其中

和

为第i个实例对应的两个支持语句包，θ₁为步骤2)中所有参数；

通过步骤5)获得所有实例的预测概率，并计算损失L₂：

其中θ₂为步骤3)至步骤5)中所有参数；

最终将步骤2)的有效语句选择作为子任务，与步骤5)的同义关系预测主任务进行联合训练，即加和两种损失作为模型的总损失L＝L₁+L₂，并采用优化器最小化损失函数，获得最佳模型。

进一步地，所述的步骤1)中，Word2Vec向量采用Skip-gram模型，基于百度百科语料，并设置模型的滑动窗口大小为5，词向量维度d_w为100，经过15轮迭代训练后，得到的中文预训练词向量；

进一步地，所述的步骤1)中，数据集中所有共现语句包中语句数量为2到16，并将实例集合T按照20:1:1的比例随机划分成训练集、验证集和测试集；

进一步地，所述的步骤2)中，BERT模型采用的是Google开源的中文BERT-base版本，该版本包含12层Transformer，隐层维度为768，总计有110M参数；BiLSTM模型的位置向量维度d_p为5，隐层维度d_h为768；全连接层维度d_c为128。

进一步地，所述的步骤4)中，E2B匹配中LSTM的隐层维度为2d_c即256维。

进一步地，所述的步骤6)中，优化器采用Adam，其中BERT模型的初始学习率为0.00001，BiLSTM模型的初始学习率为0.0001，并设置0.1的随机失活率(Dropout)；模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标，经过50轮迭代训练，选择验证集上F1分数达到最高时的模型参数作为最佳参数。

本发明方法与现有技术相比具有的有益效果：

1.该方法首次提出并解决了一个新任务，即通过一个共有同义词来辅助判断两个实体是否存在同义关系，该模型实现了基于传递性的同义关系判别，对于同义词扩展具有极大应用价值；

2.该方法基于深度学习模型，结合远程监督关系分类任务和多角度实体匹配网络，通过联合训练，有效地提高了同义关系判别的准确性。

附图说明

图1是本发明的总体模型图；

图2为多角度实体匹配网络的模型图；

图3为BERT编码器的模型图；

图4为BiLSTM编码器的模型图；

图5为百度百科的多义词页面；

图6为百度百科的词条页面。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供的一种基于传递的同义词扩展方法，包括以下步骤：

2)句子编码：如图3和图4所示，对步骤1)中每个实例t对应的两个语句包S₁和S₂，采用BERT模型或BiLSTM模型进行句子编码，具体过程如下：

a)BERT编码：给定一个同时包含实体对e_i和e_j的语句s，利用BERT自带分词器对s进行分词，并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”，在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示，得到语句序列s＝{w₀,w₁,…,w_|s|+5}，其中w_k为序列中第k个词语；将预处理后的语句序列输入到BERT模型中，获得编码后的整个序列表示H＝{h₀,h₁,...g_|s|+5}，其中h_k为第k个词的隐层向量输出；根据两个实体的位置，同时可以得到e_i的序列表示

和e_j的序列表示

整个句子的隐层表示为h_s＝h₀，即“[CLS]”对应输出；

与距离实体对e_i和e_j的两个位置向量

和

作为该词的嵌入表示

其中d_w为词向量维度，d_p为位置向量维度，

为向量拼接操作；将序列

输入到BiLSTM模型中进行编码，正反向编码公式如下：

为正向第t个时间步的隐层输出，

为反向第t个时间步的隐层输出，即对应句子中第t个词语；

将正反向的隐层输出拼接，得到

和e_j的序列表示

与

将h_s经过一个包含激活函数tanh的全连接层转化，得到句子向量v_s，公式如下：

v_s＝tanh(W_sh_s+b_s)

其中

和

与e_j的实体向量

公式如下：

其中

和

公式采用的是乘法注意力，其中

将V_s依次经过一个全连接层和一个softmax层，得到预测概率p(e_i≈e_j|)，即模型基于语句包S，判别实体对e_i和e_j存在同义关系的概率，同时也验证了语句选择的有效性：

o＝W₁V_s+b₁

其中

和

和e₂的实体向量包

以及S₂中e₃的实体向量包

和e₂的实体向量包

其中k∈{1,2}为语句包编号，i∈{1,2,3为实体编号，

为语句包S_k中第j个语句的注意力权重，

为该句中第i个实体；经过计算，得到四个实体融合向量

和

接着采用门控机制分别将

的语义融入

将

的语义融入

得到e₂在S₁中的最终向量表示

在S₂中的最终向量表示

公式为：

其中语句包编号k∈{1,2}，实体编号i∈{1,3}，

4)多角度实体匹配：如图2所示，对步骤3)中得到的e₂的两个实体向量包

和

以及e₂的两个实体向量

和

为向量元素乘操作：

中每个向量

作为LSTM每一个时间步的输入，并且不断通过

影响隐层状态h′_t的计算，以提取出

与

间语义相似的部分，计算公式如下：

其中LSTM(x,[h,c])为标准的LSTM单元，x为输入，h和c分别为LSTM的隐层状态和单元状态；即按照标准LSTM进行循环计算，单元状态c_t不变，隐层状态h′_t只取前d_c个元素，与当前输入

相加后拼接

输入到下一步计算中；i∈{1,2}和j∈{1,2}为语句包编号，

为拼接操作；d_c与实体向量维度相同；

以LSTM模块最后一个时间步的输出作为E2B的匹配向量，即匹配

和

得到

匹配

和

得到

和

的相似度矩阵M：

其中

为模型的可训练参数，d_c为实体向量维度；

对于

中的某个向量

与

中每个向量匹配得到|S₂|个相似分数，将所有分数取平均即得到

与整个

的相似分数，公式为：

其中m_ij为M中第i行第j列元素，mean_为平均池化函数；

接着通过softmax公式计算

中每个向量的对应权重向量，经过加权后获得

关于

的匹配向量

在相似度矩阵M的第0维上进行操作为

匹配，得到

同理，在M的第1维上进行相同操作即为

匹配，可得到

其中

为模型的可训练参数，

和

为o_m中两个元素，

对应模型预测为正确的维度，

对应模型预测为错误的维度；

其中

和

通过步骤5)获得所有实例的预测概率，并计算损失L₂：

其中θ₂为步骤3)至步骤5)中所有参数；

进一步地，所述的步骤1)中，数据集中所有共现语句包的语句数量为2到16，并将实例集合T按照20:1:1的比例随机划分成训练集、验证集和测试集；

实施例

下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

(1)如图5所示，百度百科的多义词页面展示了同一名称的所有义项，例如“莲花”可以指代16个不同实体；如图6所示，部分百科词条页包含了同义属性，如“水浮莲”、“子午莲”都是“睡莲”的别称；同一义项的不同同义词可以构成正例，如“{水浮莲，睡莲，子午莲}”；同一名称、不同义项的同义词可以构成负例，如“{睡莲，莲花，路特斯}”，“睡莲”是睡莲科水生植物，“路特斯”是汽车品牌；

(2)如表1所示，爬取百度百科所有多义词页面，按照(1)中方法构建正负例实体三元组，并依照20:1:1的比例将数据集划分成训练集、验证集和测试集；

表1：实施例的数据集统计

同义实体三元组数	训练集	验证集	测试集
				总计	10201	470	475
正例数	5175	234	236
				负例数	5025	236	239

(2)如图1所示，利用(1)中训练集作为输入，分别采用图3的BERT模型和图4的BiLSTM模型编码语句，获得句子向量；

(3)如图1所示，将(2)中句子向量通过实体编码器编码，获得实体融合向量和实体向量包表示；

(4)如图2所示，将(3)中得到的实体融合向量与实体向量包进行多角度实体匹配，获得五个匹配向量；

(5)如图1所示，结合有效语句选择任务和实体匹配任务，对模型进行训练，并获得模型的预测结果；

(6)如表2所示，采用准确率、精确度、召回率、F1分数对实施例进行评估，表中为验证集上取到最佳F1分数时，模型在测试集上的预测结果。实验结果表明：同义语句选择任务能够在一定程度上减少远程监督引入的噪声信息，获得更准确的实体表达，从而提升本发明的性能；本发明中的B2E、B2B和E2E三种匹配都具有一定的作用，当仅使用单一匹配方法进行实体匹配时，模型性能有较为明显的下降；

表2：实施例的实验结果

模型	准确率	精确度	召回率	F1分数
					基于BERT模型	0.830	0.802	0.873	0.836
-无同义语句选择任务	0.830	0.833	0.822	0.827
					-只有B2E匹配	0.796	0.788	0.805	0.797
-只有B2B匹配	0.785	0.779	0.792	0.786
					-只有E2E匹配	0.760	0.724	0.835	0.776
基于BiLSTM模型	0.832	0.820	0.848	0.833
					-无同义语句选择任务	0.827	0.824	0.830	0.827
-只有B2E匹配	0.827	0.818	0.839	0.829
					-只有B2B匹配	0.773	0.762	0.788	0.775
-只有E2E匹配	0.743	0.734	0.759	0.746

(7)本实施例对于两个实际样例的预测情况如表3所示，第一个为正例，第二个为负例，实体e₁和e₃间都没有共现语句，通过区分e₂在两个语句中的语义，本实施例做出了正确预测。

表3：实施例的样例结果

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于传递的同义词扩展方法，其特征在于，包括以下步骤：

1)数据集构建：爬取并解析百科词条正文，存储到Lucene索引文件中，同时利用Word2Vec工具训练词向量；爬取百科词条的多义词页面，解析得到每个页面中所有多义义项，并从义项的词条页中获取该义项的同义属性；同一义项若存在多个同义词，则以该义项名称作为中间实体e₂，任选它的两个同义词作为e₁和e₃，构成正例三元组t＝<e₁，e₂，e₃>；具有相同名称的不同义项，可以随机选取两个义项各自的同义词分别作为e₁和e₃，与义项名e₂构成负例三元组；所有实体三元组t构成了集合T；根据已获得的实体三元组集合，在语料的Lucene索引文件中进行布尔检索，得到同时包含一对实体的所有语句s_i并构成共现语句包S＝{s₁，s₂，...，s_|s|}，即检索e₁和e₂得到共现语句包S₁，检索e₂和e₃得到共现语句包S₂；

a)BERT编码：给定一个同时包含实体对e_i和e_j的语句s，利用BERT自带分词器对s进行分词，并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”，在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示，得到语句序列s＝{w₀，w₁，...，w_|s|+5}，其中w_k为序列中第k个词语；将预处理后的语句序列输入到BERT模型中，获得编码后的整个序列表示H＝{h₀，h₁，...h_|s|+5}，其中h_k为第k个词的隐层向量输出；根据两个实体的位置，同时可以得到e_i的序列表示

和e_j的序列表示

整个句子的隐层表示为h_s＝h₀，即“[CLS]”对应输出；

b)BiLSTM编码：给定一个同时包含实体对e_i和e_j的语句s，采用HanLP分词器对s分词，得到语句序列s＝{w₁，w₂，...，w_|s|}；将序列中的每个词w_k转换为词嵌入后，拼接每个词的词向量

与距离实体对e_i和e_j的两个位置向量

和

作为该词的嵌入表示

其中d_w为词向量维度，d_p为位置向量维度，

为向量拼接操作；将序列

输入BiLSTM模型中进行编码，正反向编码公式如下：

为正向第t个时间步的隐层输出，

为反向第t个时间步的隐层输出，即对应句子中第t个词语；

将正反向的隐层输出拼接，得到

作为第t个词语的隐层表示，即获得整个语句的序列表示H＝{h₁，h₂，...h_|s|}；类似上述步骤a)，同时可得到e_i的序列表示

和e_j的序列表示

与

v_s＝tanh(W_sh_s+b_s)

其中

和

与e_j的实体向量

公式如下：

其中

和

为模型的可训练参数，k∈{1，2，3}为实体编号；将句子向量与两个实体向量拼接，作为该句子的最终表示

公式采用的是乘法注意力，其中

定示同义关系向量，由模型随机初始化，维度与句子向量相同，exp为指数函数；

将V_s依次经过一个全连接层和一个softmax层，得到预测概率p(e_i≈e_j|S)，即模型基于语句包S，判别实体对e_i和e_j存在同义关系的概率，同时也验证了语句选择的有效性：

o＝W₁V_s+b₁

其中

和

和e₂的实体向量包

以及S₂中e₃的实体向量包

和e₂的实体向量包

其中k∈{1，2}为语句包编号，i∈{1，2，3}为实体编号，

为语句包S_k中第j个语句的注意力权重，

为该句中第i个实体；经过计算，得到四个实体融合向量

和

接着采用门控机制分别将

的语义融入

将

的语义融入

得到e₂在S₁中的最终向量表示

在S₂中的最终向量表示

公式为：

其中语句包编号k∈{1，2}，实体编号i∈{1，3}，

4)多角度实体匹配：对步骤3)中得到的e₂的两个实体向量包

和

以及e₂的两个实体向量

和

为向量元素乘操作：

中每个向量

作为LSTM每一个时间步的输入，并且不断通过

彭响隐层状态h′_t的计算，以提取出

与

间语义相似的部分，计算公式如下：

其中LSTM(x，[h，c])为标准的LSTM单元，x为输入，h和c分别为LSTM的隐层状态和单元状态；即按照标准LSTM进行循环计算，单元状态c_t不变，隐层状态h′_t只取前d_c个元素，与当前输入

相加后拼接

输入到下一步计算中；i∈{1，2}和j∈{1，2}为语句包编号，

为拼接操作；d_c与实体向量维度相同；

以LSTM模块最后一个时间步的输出作为E2B的匹配向量，即匹配

和

得到

匹配

和

得到

和

的相似度矩阵M：

其中

为模型的可训练参数，d_c为实体向量维度；

对于

中的某个向量

与

与整个

的相似分数，公式为：

其中m_ij为M中第i行第j列元素，mean_pooling为平均池化函数；

接着通过softmax公式计算

中每个向量的对应权重向量，经过加权后获得

关于

的匹配向量

在相似度矩阵M的第0维上进行操作为

匹配，得到

同理，在M的第1维上进行相同操作即为

匹配，可得到

5)同义关系分类：将步骤4)中得到的五个匹配向量拼接，依次通过一个全连接层和一个softmax分类器，得到基于语句包S₁和S₂、实例t中e₁和e₃存在同义关系的概率p(e₁≈e₃|S₁，S₂)：

其中

为模型的可训练参数，

和

为o_m中两个元素，

对应模型预测为正确的维度，

对应模型预测为错误的维度；

其中

和

通过步骤5)获得所有实例的预测概率，并计算损失L₂：

其中θ₂为步骤3)至步骤5)中所有参数；

2.根据权利要求1所述的基于传递的同义词扩展方法，其特征在于，所述的步骤1)中，Word2Vec向量采用Skip-gram模型，基于百度百科语料，并设置模型的滑动窗口大小为5，词向量维度d_w为100，经过15轮迭代训练后，得到的中文预训练词向量。

3.根据权利要求1所述的基于传递的同义词扩展方法，其特征在于，所述的步骤1)中，数据集中所有共现语句包的语句数量为2到16，并将实例集合T按照20∶1∶1的比例随机划分成训练集、验证集和测试集。

4.根据权利要求1所述的基于传递的同义词扩展方法，其特征在于，所述的步骤2)中，BERT模型采用的是Google开源的中文BERT-base版本，该版本包含12层Transformer，隐层维度为768，总计有110M参数；BiLSTM模型的位置向量维度d_p为5，隐层维度d_h为768；全连接层维度d_c为128。

5.根据权利要求1所述的基于传递的同义词扩展方法，其特征在于，所述的步骤4)中，E2B匹配中LSTM的隐层维度为2d_c即256维。

6.根据权利要求1所述的基于传递的同义词扩展方法，其特征在于，所述的步骤6)中，优化器采用Adam，其中BERT模型的初始学习率为0.00001，BiLSTM模型的初始学习率为0.0001，并设置0.1的随机失活率(Dropout)；模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标，经过50轮迭代训练，选择验证集上F1分数达到最高时的模型参数作为最佳参数。