CN111274794A - 一种基于传递的同义词扩展方法 - Google Patents
一种基于传递的同义词扩展方法 Download PDFInfo
- Publication number
- CN111274794A CN111274794A CN202010063190.7A CN202010063190A CN111274794A CN 111274794 A CN111274794 A CN 111274794A CN 202010063190 A CN202010063190 A CN 202010063190A CN 111274794 A CN111274794 A CN 111274794A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- sentence
- model
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公开了一种基于传递的同义词扩展方法:利用百科多义词页面获取实体三元组t=<e1,e2,e3>作为正负例,其中e2分别与e1、e3同义;以百科词条正文作为语料,检索得到e1和e2的共现语句包S1以及e2和e3的共现语句包S2;通过BERT或BiLSTM模型分别编码S1和S2中所有语句,并采用注意力机制选择有效语句;利用注意力权重和门控机制计算实体的融合向量;通过多角度匹配网络从三个层面匹配e2在S1和S2中语义,并进行同义关系分类;模型判别为正例即表明e1和e3具有同义关系,从而实现同义词扩展。本发明首次提出了一个基于传递的同义词判别模型,该模型结合深度学习技术,通过共有同义词的语义传递辅助实体对的同义关系判别,对于从海量数据中挖掘同义信息具有重要价值。
Description
技术领域
本发明涉及基于传递的同义词扩展方法,特别是涉及一种通过共有同义词的语义传递辅助实体对间同义关系判别的方法。
背景技术
同义词实体是指一组描述同一概念、指向同一实体的词语。人们通常喜欢采用不同方式表述某个实体,实体的多种名称构成了同义关系。实体同义名称的应用虽然能够增加语言表述的丰富性,但同时也加大了文本理解和文本分析的难度。因此,从海量语料中自动识别同义词实体已经成为一项重要任务。它不仅能够为知识挖掘提供丰富的语义信息,还能使许多下游任务受益,例如在Web搜索、问答系统、知识图谱构建等应用领域中,同义信息都发挥着不可或缺的作用。
获取同义词实体的一种最直接方法是利用公开知识资源,著名英文知识库例如WordNet、ConceptNet和DBpedia中均包含了大量同义信息,而中文词典《同义词词林》、《同义词词林扩展版》以及中文WordNet也都是可靠的同义资源。然而这些知识资源大多基于人工,需要耗费大量的时间和人力去构造及维护。尤其随着信息时代的到来,同义词实体的数量也在飞速增长,知识资源中的同义信息覆盖率已远远满足不了人们的需求。自动同义词实体抽取任务已逐渐成为一项研究热点。
发明内容
本发明设计并实现了一种基于传递的同义词扩展方法。该方法提出并解决了一个新任务,即判断同义关系能否传递,模型结合多角度实体匹配策略和同义语句选择任务,通过一个中间同义词来辅助判别实体对间是否存在同义关系,从而实现同义词扩展。
本发明解决其技术问题采用的技术方案如下:一种基于传递的同义词扩展算法,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2;
2)句子编码:对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,…,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...h|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示和ej的序列表示整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={W1,w2,…,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量与距离实体对ei和ej的两个位置向量和作为该词的嵌入表示其中dw为词向量维度,dp为位置向量维度,为向量拼接操作;将序列 输入到BiLSTM模型中进行编码,正反向编码公式如下:
其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,为正向第t个时间步的隐层输出,为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示和ej的序列表示将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
vs=tanh(Wshs+bs)
将所有语句向量进行加权求和,即得到语句包的向量表示Vs:
将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|S),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包和e2的实体向量包以及S2中e3的实体向量包和e2的实体向量包利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:
4)多角度实体匹配:对步骤3)中得到的e2的两个实体向量包和以及e2的两个实体向量和同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配,具体匹配过程如下:
b)E2B匹配:实体向量和实体向量包之间的匹配,主要采用基于LSTM模块的多步匹配策略,将中每个向量作为LSTM每一个时间步的输入,并且不断通过影响隐层状态h′t的计算,以提取出与间语义相似的部分,计算公式如下:
其中LSTM(x,[h,c])为标准的LSTM单元,x为输入,h和c分别为LSTM的隐层状态和单元状态;即按照标准LSTM进行循环计算,单元状态ct不变,隐层状态h't只取前dc个元素,与当前输入相加后拼接输入到下一步计算中;i∈{1,2}和j∈{1,2}为语句包编号,为拼接操作;dc与实体向量维度相同;
其中mij为M中第i行第j列元素,mean_pooling为平均池化函数;
5)同义关系分类:将步骤4)中得到的五个匹配向量拼接,依次通过一个全连接层和一个softmax分类器,得到基于语句包S1和S2、实例t中e1和e3存在同义关系的概率p(e1≈e3|S1,S2):
6)模型训练:采用交叉熵作为损失函数,通过步骤2)计算所有实例T对应的语句包的有效选择概率,同时计算损失L1:
通过步骤5)获得所有实例的预测概率,并计算损失L2:
其中θ2为步骤3)至步骤5)中所有参数;
最终将步骤2)的有效语句选择作为子任务,与步骤5)的同义关系预测主任务进行联合训练,即加和两种损失作为模型的总损失L=L1+L2,并采用优化器最小化损失函数,获得最佳模型。
进一步地,所述的步骤1)中,Word2Vec向量采用Skip-gram模型,基于百度百科语料,并设置模型的滑动窗口大小为5,词向量维度dw为100,经过15轮迭代训练后,得到的中文预训练词向量;
进一步地,所述的步骤1)中,数据集中所有共现语句包中语句数量为2到16,并将实例集合T按照20:1:1的比例随机划分成训练集、验证集和测试集;
进一步地,所述的步骤2)中,BERT模型采用的是Google开源的中文BERT-base版本,该版本包含12层Transformer,隐层维度为768,总计有110M参数;BiLSTM模型的位置向量维度dp为5,隐层维度dh为768;全连接层维度dc为128。
进一步地,所述的步骤4)中,E2B匹配中LSTM的隐层维度为2dc即256维。
进一步地,所述的步骤6)中,优化器采用Adam,其中BERT模型的初始学习率为0.00001,BiLSTM模型的初始学习率为0.0001,并设置0.1的随机失活率(Dropout);模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标,经过50轮迭代训练,选择验证集上F1分数达到最高时的模型参数作为最佳参数。
本发明方法与现有技术相比具有的有益效果:
1.该方法首次提出并解决了一个新任务,即通过一个共有同义词来辅助判断两个实体是否存在同义关系,该模型实现了基于传递性的同义关系判别,对于同义词扩展具有极大应用价值;
2.该方法基于深度学习模型,结合远程监督关系分类任务和多角度实体匹配网络,通过联合训练,有效地提高了同义关系判别的准确性。
附图说明
图1是本发明的总体模型图;
图2为多角度实体匹配网络的模型图;
图3为BERT编码器的模型图;
图4为BiLSTM编码器的模型图;
图5为百度百科的多义词页面;
图6为百度百科的词条页面。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于传递的同义词扩展方法,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2;
2)句子编码:如图3和图4所示,对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,…,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...g|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示和ej的序列表示整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={w1,w2,…,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量与距离实体对ei和ej的两个位置向量和作为该词的嵌入表示其中dw为词向量维度,dp为位置向量维度,为向量拼接操作;将序列 输入到BiLSTM模型中进行编码,正反向编码公式如下:
其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,为正向第t个时间步的隐层输出,为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示和ej的序列表示将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
vs=tanh(Wshs+bs)
将所有语句向量进行加权求和,即得到语句包的向量表示Vs:
将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包和e2的实体向量包以及S2中e3的实体向量包和e2的实体向量包利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:
4)多角度实体匹配:如图2所示,对步骤3)中得到的e2的两个实体向量包和以及e2的两个实体向量和同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配,具体匹配过程如下:
b)E2B匹配:实体向量和实体向量包之间的匹配,主要采用基于LSTM模块的多步匹配策略,将中每个向量作为LSTM每一个时间步的输入,并且不断通过影响隐层状态h′t的计算,以提取出与间语义相似的部分,计算公式如下:
其中LSTM(x,[h,c])为标准的LSTM单元,x为输入,h和c分别为LSTM的隐层状态和单元状态;即按照标准LSTM进行循环计算,单元状态ct不变,隐层状态h′t只取前dc个元素,与当前输入相加后拼接输入到下一步计算中;i∈{1,2}和j∈{1,2}为语句包编号,为拼接操作;dc与实体向量维度相同;
其中mij为M中第i行第j列元素,mean_为平均池化函数;
5)同义关系分类:将步骤4)中得到的五个匹配向量拼接,依次通过一个全连接层和一个softmax分类器,得到基于语句包S1和S2、实例t中e1和e3存在同义关系的概率p(e1≈e3|S1,S2):
6)模型训练:采用交叉熵作为损失函数,通过步骤2)计算所有实例T对应的语句包的有效选择概率,同时计算损失L1:
通过步骤5)获得所有实例的预测概率,并计算损失L2:
其中θ2为步骤3)至步骤5)中所有参数;
最终将步骤2)的有效语句选择作为子任务,与步骤5)的同义关系预测主任务进行联合训练,即加和两种损失作为模型的总损失L=L1+L2,并采用优化器最小化损失函数,获得最佳模型。
进一步地,所述的步骤1)中,Word2Vec向量采用Skip-gram模型,基于百度百科语料,并设置模型的滑动窗口大小为5,词向量维度dw为100,经过15轮迭代训练后,得到的中文预训练词向量;
进一步地,所述的步骤1)中,数据集中所有共现语句包的语句数量为2到16,并将实例集合T按照20:1:1的比例随机划分成训练集、验证集和测试集;
进一步地,所述的步骤2)中,BERT模型采用的是Google开源的中文BERT-base版本,该版本包含12层Transformer,隐层维度为768,总计有110M参数;BiLSTM模型的位置向量维度dp为5,隐层维度dh为768;全连接层维度dc为128。
进一步地,所述的步骤4)中,E2B匹配中LSTM的隐层维度为2dc即256维。
进一步地,所述的步骤6)中,优化器采用Adam,其中BERT模型的初始学习率为0.00001,BiLSTM模型的初始学习率为0.0001,并设置0.1的随机失活率(Dropout);模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标,经过50轮迭代训练,选择验证集上F1分数达到最高时的模型参数作为最佳参数。
实施例
下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)如图5所示,百度百科的多义词页面展示了同一名称的所有义项,例如“莲花”可以指代16个不同实体;如图6所示,部分百科词条页包含了同义属性,如“水浮莲”、“子午莲”都是“睡莲”的别称;同一义项的不同同义词可以构成正例,如“{水浮莲,睡莲,子午莲}”;同一名称、不同义项的同义词可以构成负例,如“{睡莲,莲花,路特斯}”,“睡莲”是睡莲科水生植物,“路特斯”是汽车品牌;
(2)如表1所示,爬取百度百科所有多义词页面,按照(1)中方法构建正负例实体三元组,并依照20:1:1的比例将数据集划分成训练集、验证集和测试集;
表1:实施例的数据集统计
同义实体三元组数 | 训练集 | 验证集 | 测试集 |
总计 | 10201 | 470 | 475 |
正例数 | 5175 | 234 | 236 |
负例数 | 5025 | 236 | 239 |
(2)如图1所示,利用(1)中训练集作为输入,分别采用图3的BERT模型和图4的BiLSTM模型编码语句,获得句子向量;
(3)如图1所示,将(2)中句子向量通过实体编码器编码,获得实体融合向量和实体向量包表示;
(4)如图2所示,将(3)中得到的实体融合向量与实体向量包进行多角度实体匹配,获得五个匹配向量;
(5)如图1所示,结合有效语句选择任务和实体匹配任务,对模型进行训练,并获得模型的预测结果;
(6)如表2所示,采用准确率、精确度、召回率、F1分数对实施例进行评估,表中为验证集上取到最佳F1分数时,模型在测试集上的预测结果。实验结果表明:同义语句选择任务能够在一定程度上减少远程监督引入的噪声信息,获得更准确的实体表达,从而提升本发明的性能;本发明中的B2E、B2B和E2E三种匹配都具有一定的作用,当仅使用单一匹配方法进行实体匹配时,模型性能有较为明显的下降;
表2:实施例的实验结果
模型 | 准确率 | 精确度 | 召回率 | F1分数 |
基于BERT模型 | 0.830 | 0.802 | 0.873 | 0.836 |
-无同义语句选择任务 | 0.830 | 0.833 | 0.822 | 0.827 |
-只有B2E匹配 | 0.796 | 0.788 | 0.805 | 0.797 |
-只有B2B匹配 | 0.785 | 0.779 | 0.792 | 0.786 |
-只有E2E匹配 | 0.760 | 0.724 | 0.835 | 0.776 |
基于BiLSTM模型 | 0.832 | 0.820 | 0.848 | 0.833 |
-无同义语句选择任务 | 0.827 | 0.824 | 0.830 | 0.827 |
-只有B2E匹配 | 0.827 | 0.818 | 0.839 | 0.829 |
-只有B2B匹配 | 0.773 | 0.762 | 0.788 | 0.775 |
-只有E2E匹配 | 0.743 | 0.734 | 0.759 | 0.746 |
(7)本实施例对于两个实际样例的预测情况如表3所示,第一个为正例,第二个为负例,实体e1和e3间都没有共现语句,通过区分e2在两个语句中的语义,本实施例做出了正确预测。
表3:实施例的样例结果
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (6)
1.一种基于传递的同义词扩展方法,其特征在于,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2;
2)句子编码:对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,...,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...h|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示和ej的序列表示整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={w1,w2,...,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量与距离实体对ei和ej的两个位置向量和作为该词的嵌入表示其中dw为词向量维度,dp为位置向量维度,为向量拼接操作;将序列 输入BiLSTM模型中进行编码,正反向编码公式如下:
其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,为正向第t个时间步的隐层输出,为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示和ej的序列表示将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
vs=tanh(Wshs+bs)
将所有语句向量进行加权求和,即得到语句包的向量表示Vs:
将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|S),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包和e2的实体向量包以及S2中e3的实体向量包和e2的实体向量包利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:
4)多角度实体匹配:对步骤3)中得到的e2的两个实体向量包和以及e2的两个实体向量和同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配,具体匹配过程如下:
b)E2B匹配:实体向量和实体向量包之间的匹配,主要采用基于LSTM模块的多步匹配策略,将中每个向量作为LSTM每一个时间步的输入,并且不断通过彭响隐层状态h′t的计算,以提取出与间语义相似的部分,计算公式如下:
其中LSTM(x,[h,c])为标准的LSTM单元,x为输入,h和c分别为LSTM的隐层状态和单元状态;即按照标准LSTM进行循环计算,单元状态ct不变,隐层状态h′t只取前dc个元素,与当前输入相加后拼接输入到下一步计算中;i∈{1,2}和j∈{1,2}为语句包编号,为拼接操作;dc与实体向量维度相同;
其中mij为M中第i行第j列元素,mean_pooling为平均池化函数;
5)同义关系分类:将步骤4)中得到的五个匹配向量拼接,依次通过一个全连接层和一个softmax分类器,得到基于语句包S1和S2、实例t中e1和e3存在同义关系的概率p(e1≈e3|S1,S2):
6)模型训练:采用交叉熵作为损失函数,通过步骤2)计算所有实例T对应的语句包的有效选择概率,同时计算损失L1:
通过步骤5)获得所有实例的预测概率,并计算损失L2:
其中θ2为步骤3)至步骤5)中所有参数;
最终将步骤2)的有效语句选择作为子任务,与步骤5)的同义关系预测主任务进行联合训练,即加和两种损失作为模型的总损失L=L1+L2,并采用优化器最小化损失函数,获得最佳模型。
2.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤1)中,Word2Vec向量采用Skip-gram模型,基于百度百科语料,并设置模型的滑动窗口大小为5,词向量维度dw为100,经过15轮迭代训练后,得到的中文预训练词向量。
3.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤1)中,数据集中所有共现语句包的语句数量为2到16,并将实例集合T按照20∶1∶1的比例随机划分成训练集、验证集和测试集。
4.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤2)中,BERT模型采用的是Google开源的中文BERT-base版本,该版本包含12层Transformer,隐层维度为768,总计有110M参数;BiLSTM模型的位置向量维度dp为5,隐层维度dh为768;全连接层维度dc为128。
5.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤4)中,E2B匹配中LSTM的隐层维度为2dc即256维。
6.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤6)中,优化器采用Adam,其中BERT模型的初始学习率为0.00001,BiLSTM模型的初始学习率为0.0001,并设置0.1的随机失活率(Dropout);模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标,经过50轮迭代训练,选择验证集上F1分数达到最高时的模型参数作为最佳参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010063190.7A CN111274794B (zh) | 2020-01-19 | 2020-01-19 | 一种基于传递的同义词扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010063190.7A CN111274794B (zh) | 2020-01-19 | 2020-01-19 | 一种基于传递的同义词扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274794A true CN111274794A (zh) | 2020-06-12 |
CN111274794B CN111274794B (zh) | 2022-03-18 |
Family
ID=71001761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010063190.7A Active CN111274794B (zh) | 2020-01-19 | 2020-01-19 | 一种基于传递的同义词扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274794B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859926A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 同义句对生成方法、装置、计算机设备及存储介质 |
CN111914558A (zh) * | 2020-07-31 | 2020-11-10 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
CN112347269A (zh) * | 2020-11-11 | 2021-02-09 | 重庆邮电大学 | 基于BERT和Att-BiLSTM的论点对识别方法 |
CN114021572A (zh) * | 2022-01-05 | 2022-02-08 | 苏州浪潮智能科技有限公司 | 一种自然语言处理方法、装置、设备及可读存储介质 |
CN117786092A (zh) * | 2024-02-27 | 2024-03-29 | 成都晓多科技有限公司 | 一种商品评论关键短语提取方法及系统 |
CN117786092B (zh) * | 2024-02-27 | 2024-05-14 | 成都晓多科技有限公司 | 一种商品评论关键短语提取方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092380A1 (zh) * | 2015-12-03 | 2017-06-08 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
US20180189269A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
CN109086269A (zh) * | 2018-07-19 | 2018-12-25 | 大连理工大学 | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 |
CN109522547A (zh) * | 2018-10-23 | 2019-03-26 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
WO2019168202A1 (ja) * | 2018-03-02 | 2019-09-06 | 日本電信電話株式会社 | ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム |
CN110287337A (zh) * | 2019-06-19 | 2019-09-27 | 上海交通大学 | 基于深度学习和知识图谱获取医学同义词的系统及方法 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
-
2020
- 2020-01-19 CN CN202010063190.7A patent/CN111274794B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092380A1 (zh) * | 2015-12-03 | 2017-06-08 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
US20180189269A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
WO2019168202A1 (ja) * | 2018-03-02 | 2019-09-06 | 日本電信電話株式会社 | ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム |
CN109086269A (zh) * | 2018-07-19 | 2018-12-25 | 大连理工大学 | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 |
CN109522547A (zh) * | 2018-10-23 | 2019-03-26 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
CN109783641A (zh) * | 2019-01-08 | 2019-05-21 | 中山大学 | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
CN110287337A (zh) * | 2019-06-19 | 2019-09-27 | 上海交通大学 | 基于深度学习和知识图谱获取医学同义词的系统及方法 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
DONGYU ZHANG 等: "Combining the Attention Network and Semantic Representation for Chinese Verb Metaphor Identification", 《IEEE ACCESS》 * |
JIAMING SHEN 等: "Mining Entity Synonyms with Efficient Neural Set Generation", 《ARXIV:1811.07032V1 [CS.CL]》 * |
MUHAMMAD ASIF ALI 等: "Antonym-Synonym Classification Based on New Sub-space Embeddings", 《ARXIV:1906.05612V1[CS.CL]》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859926A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 同义句对生成方法、装置、计算机设备及存储介质 |
CN111859926B (zh) * | 2020-07-28 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 同义句对生成方法、装置、计算机设备及存储介质 |
CN111914558A (zh) * | 2020-07-31 | 2020-11-10 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
CN111914558B (zh) * | 2020-07-31 | 2024-04-16 | 湖北工业大学 | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 |
CN112347269A (zh) * | 2020-11-11 | 2021-02-09 | 重庆邮电大学 | 基于BERT和Att-BiLSTM的论点对识别方法 |
CN114021572A (zh) * | 2022-01-05 | 2022-02-08 | 苏州浪潮智能科技有限公司 | 一种自然语言处理方法、装置、设备及可读存储介质 |
CN114021572B (zh) * | 2022-01-05 | 2022-03-22 | 苏州浪潮智能科技有限公司 | 一种自然语言处理方法、装置、设备及可读存储介质 |
CN117786092A (zh) * | 2024-02-27 | 2024-03-29 | 成都晓多科技有限公司 | 一种商品评论关键短语提取方法及系统 |
CN117786092B (zh) * | 2024-02-27 | 2024-05-14 | 成都晓多科技有限公司 | 一种商品评论关键短语提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111274794B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN111274794B (zh) | 一种基于传递的同义词扩展方法 | |
CN108733742B (zh) | 全局归一化阅读器系统和方法 | |
CN101251862B (zh) | 一种基于内容的问题自动分类方法及其系统 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
CN107908614A (zh) | 一种基于Bi‑LSTM的命名实体识别方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN103823859B (zh) | 基于决策树规则和多种统计模型相结合的人名识别算法 | |
Xie et al. | Topic enhanced deep structured semantic models for knowledge base question answering | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN115640410B (zh) | 基于强化学习路径推理的知识图谱多跳问答方法 | |
CN103699529A (zh) | 一种使用词义消歧的融合机器翻译系统的方法及装置 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN111324691A (zh) | 一种基于知识图谱的少数民族领域智能问答方法 | |
CN103646099A (zh) | 一种基于多层图的论文推荐方法 | |
CN105955953A (zh) | 一种分词系统 | |
CN113407697A (zh) | 深度百科学习的中文医疗问句分类系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
Khan et al. | Offensive language detection for low resource language using deep sequence model | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |