CN111274794A - 一种基于传递的同义词扩展方法 - Google Patents

一种基于传递的同义词扩展方法 Download PDF

Info

Publication number
CN111274794A
CN111274794A CN202010063190.7A CN202010063190A CN111274794A CN 111274794 A CN111274794 A CN 111274794A CN 202010063190 A CN202010063190 A CN 202010063190A CN 111274794 A CN111274794 A CN 111274794A
Authority
CN
China
Prior art keywords
entity
vector
sentence
model
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010063190.7A
Other languages
English (en)
Other versions
CN111274794B (zh
Inventor
鲁伟明
俞家乐
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010063190.7A priority Critical patent/CN111274794B/zh
Publication of CN111274794A publication Critical patent/CN111274794A/zh
Application granted granted Critical
Publication of CN111274794B publication Critical patent/CN111274794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种基于传递的同义词扩展方法:利用百科多义词页面获取实体三元组t=<e1,e2,e3>作为正负例,其中e2分别与e1、e3同义;以百科词条正文作为语料,检索得到e1和e2的共现语句包S1以及e2和e3的共现语句包S2;通过BERT或BiLSTM模型分别编码S1和S2中所有语句,并采用注意力机制选择有效语句;利用注意力权重和门控机制计算实体的融合向量;通过多角度匹配网络从三个层面匹配e2在S1和S2中语义,并进行同义关系分类;模型判别为正例即表明e1和e3具有同义关系,从而实现同义词扩展。本发明首次提出了一个基于传递的同义词判别模型,该模型结合深度学习技术,通过共有同义词的语义传递辅助实体对的同义关系判别,对于从海量数据中挖掘同义信息具有重要价值。

Description

一种基于传递的同义词扩展方法
技术领域
本发明涉及基于传递的同义词扩展方法,特别是涉及一种通过共有同义词的语义传递辅助实体对间同义关系判别的方法。
背景技术
同义词实体是指一组描述同一概念、指向同一实体的词语。人们通常喜欢采用不同方式表述某个实体,实体的多种名称构成了同义关系。实体同义名称的应用虽然能够增加语言表述的丰富性,但同时也加大了文本理解和文本分析的难度。因此,从海量语料中自动识别同义词实体已经成为一项重要任务。它不仅能够为知识挖掘提供丰富的语义信息,还能使许多下游任务受益,例如在Web搜索、问答系统、知识图谱构建等应用领域中,同义信息都发挥着不可或缺的作用。
获取同义词实体的一种最直接方法是利用公开知识资源,著名英文知识库例如WordNet、ConceptNet和DBpedia中均包含了大量同义信息,而中文词典《同义词词林》、《同义词词林扩展版》以及中文WordNet也都是可靠的同义资源。然而这些知识资源大多基于人工,需要耗费大量的时间和人力去构造及维护。尤其随着信息时代的到来,同义词实体的数量也在飞速增长,知识资源中的同义信息覆盖率已远远满足不了人们的需求。自动同义词实体抽取任务已逐渐成为一项研究热点。
发明内容
本发明设计并实现了一种基于传递的同义词扩展方法。该方法提出并解决了一个新任务,即判断同义关系能否传递,模型结合多角度实体匹配策略和同义语句选择任务,通过一个中间同义词来辅助判别实体对间是否存在同义关系,从而实现同义词扩展。
本发明解决其技术问题采用的技术方案如下:一种基于传递的同义词扩展算法,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2
2)句子编码:对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,…,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...h|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示
Figure BDA0002374358210000021
和ej的序列表示
Figure BDA0002374358210000022
整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={W1,w2,…,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量
Figure BDA0002374358210000023
与距离实体对ei和ej的两个位置向量
Figure BDA0002374358210000024
Figure BDA0002374358210000025
作为该词的嵌入表示
Figure BDA0002374358210000026
其中dw为词向量维度,dp为位置向量维度,
Figure BDA0002374358210000027
为向量拼接操作;将序列
Figure BDA0002374358210000028
Figure BDA0002374358210000029
输入到BiLSTM模型中进行编码,正反向编码公式如下:
Figure BDA00023743582100000210
Figure BDA00023743582100000211
其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,
Figure BDA00023743582100000212
为正向第t个时间步的隐层输出,
Figure BDA00023743582100000213
为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到
Figure BDA00023743582100000214
作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示
Figure BDA0002374358210000031
和ej的序列表示
Figure BDA0002374358210000032
将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
Figure BDA0002374358210000033
c)句子表示:利用步骤a)或步骤b)对语句s编码后,得到了句子隐层表示hs和实体序列表示
Figure BDA0002374358210000034
与Hej,将hs经过一个包含激活函数tanh的全连接层转化,得到句子向量vs,公式如下:
vs=tanh(Wshs+bs)
其中
Figure BDA0002374358210000035
Figure BDA0002374358210000036
为模型的可训练参数,dh为编码器隐层输出的维度,dc为全连接层的输出维度;
对实体序列中每个词的隐层向量计算平均,同样经过一个包含激活函数tanh的全连接层转化,计算获得ei的实体向量
Figure BDA0002374358210000037
与ej的实体向量
Figure BDA0002374358210000038
公式如下:
Figure BDA0002374358210000039
其中
Figure BDA00023743582100000310
Figure BDA00023743582100000311
为模型的可训练参数,k∈{1,2,3}为实体编号;将句子向量与两个实体向量拼接,作为该句子的最终表示
Figure BDA00023743582100000312
d)语句包表示:通过前三个步骤,对语句包S中每个语句进行编码,得到语句向量集合
Figure BDA00023743582100000313
同时采用注意力机制对语句包内的有效语句加以选择,得到每个句子的注意力权重αi,计算公式如下:
Figure BDA00023743582100000314
Figure BDA00023743582100000315
公式采用的是乘法注意力,其中
Figure BDA00023743582100000316
表示同义关系向量,由模型随机初始化,维度与句子向量相同,exp为指数函数;
将所有语句向量进行加权求和,即得到语句包的向量表示Vs
Figure BDA00023743582100000317
将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|S),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1
Figure BDA00023743582100000318
其中
Figure BDA0002374358210000041
Figure BDA0002374358210000042
为模型的可训练参数,o1和o2为向量o的两个元素,o1对应模型预测为正确的维度,o2对应模型预测为错误的维度;
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包
Figure BDA0002374358210000043
和e2的实体向量包
Figure BDA0002374358210000044
以及S2中e3的实体向量包
Figure BDA0002374358210000045
和e2的实体向量包
Figure BDA0002374358210000046
利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:
Figure BDA0002374358210000047
其中k∈{1,2}为语句包编号,i∈{1,2,3为实体编号,
Figure BDA0002374358210000048
为语句包Sk中第j个语句的注意力权重,
Figure BDA0002374358210000049
为该句中第i个实体;经过计算,得到四个实体融合向量
Figure BDA00023743582100000410
Figure BDA00023743582100000411
接着采用门控机制分别将
Figure BDA00023743582100000412
的语义融入
Figure BDA00023743582100000413
Figure BDA00023743582100000414
的语义融入
Figure BDA00023743582100000415
得到e2在S1中的最终向量表示
Figure BDA00023743582100000416
在S2中的最终向量表示
Figure BDA00023743582100000417
公式为:
Figure BDA00023743582100000418
其中语句包编号k∈{1,2},实体编号i∈{1,3},
Figure BDA00023743582100000419
为门控向量,是可训练参数,维度与实体向量相同,⊙为向量元素乘操作;
4)多角度实体匹配:对步骤3)中得到的e2的两个实体向量包
Figure BDA00023743582100000420
Figure BDA00023743582100000421
以及e2的两个实体向量
Figure BDA00023743582100000422
Figure BDA00023743582100000423
同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配,具体匹配过程如下:
a)E2E匹配:实体向量之间的匹配,利用向量元素乘的结果作为匹配向量Vm,其中
Figure BDA00023743582100000424
为向量元素乘操作:
Figure BDA00023743582100000425
b)E2B匹配:实体向量和实体向量包之间的匹配,主要采用基于LSTM模块的多步匹配策略,将
Figure BDA00023743582100000426
中每个向量
Figure BDA00023743582100000427
作为LSTM每一个时间步的输入,并且不断通过
Figure BDA00023743582100000428
影响隐层状态h′t的计算,以提取出
Figure BDA00023743582100000429
Figure BDA00023743582100000430
间语义相似的部分,计算公式如下:
Figure BDA00023743582100000431
Figure BDA0002374358210000051
其中LSTM(x,[h,c])为标准的LSTM单元,x为输入,h和c分别为LSTM的隐层状态和单元状态;即按照标准LSTM进行循环计算,单元状态ct不变,隐层状态h't只取前dc个元素,与当前输入
Figure BDA0002374358210000052
相加后拼接
Figure BDA0002374358210000053
输入到下一步计算中;i∈{1,2}和j∈{1,2}为语句包编号,
Figure BDA0002374358210000054
为拼接操作;dc与实体向量维度相同;
以LSTM模块最后一个时间步的输出作为E2B的匹配向量,即匹配
Figure BDA0002374358210000055
Figure BDA0002374358210000056
得到
Figure BDA0002374358210000057
匹配
Figure BDA0002374358210000058
Figure BDA0002374358210000059
得到
Figure BDA00023743582100000510
c)B2B匹配:实体向量包之间的匹配,实际为两个包内所有向量间的两两匹配,首先计算
Figure BDA00023743582100000511
Figure BDA00023743582100000512
的相似度矩阵M:
Figure BDA00023743582100000513
其中
Figure BDA00023743582100000514
为模型的可训练参数,dc为实体向量维度;
对于
Figure BDA00023743582100000515
中的某个向量
Figure BDA00023743582100000516
Figure BDA00023743582100000517
中每个向量匹配得到|2|个相似分数,有分数取平均即得到
Figure BDA00023743582100000518
与整个
Figure BDA00023743582100000519
的相似分数,公式为:
Figure BDA00023743582100000520
其中mij为M中第i行第j列元素,mean_pooling为平均池化函数;
接着通过softmax公式计算
Figure BDA00023743582100000521
中每个向量的对应权重向量,经过加权后获得
Figure BDA00023743582100000522
关于
Figure BDA00023743582100000523
的匹配向量
Figure BDA00023743582100000524
Figure BDA00023743582100000525
Figure BDA00023743582100000526
在相似度矩阵M的第0维上进行操作为
Figure BDA00023743582100000527
匹配,得到
Figure BDA00023743582100000528
同理,在M的第1维上进行相同操作即为
Figure BDA00023743582100000529
匹配,可得到
Figure BDA00023743582100000530
5)同义关系分类:将步骤4)中得到的五个匹配向量拼接,依次通过一个全连接层和一个softmax分类器,得到基于语句包S1和S2、实例t中e1和e3存在同义关系的概率p(e1≈e3|S1,S2):
Figure BDA00023743582100000531
Figure BDA00023743582100000532
其中
Figure BDA0002374358210000061
为模型的可训练参数,
Figure BDA0002374358210000062
Figure BDA0002374358210000063
为om中两个元素,
Figure BDA0002374358210000064
对应模型预测为正确的维度,
Figure BDA0002374358210000065
对应模型预测为错误的维度;
6)模型训练:采用交叉熵作为损失函数,通过步骤2)计算所有实例T对应的语句包的有效选择概率,同时计算损失L1
Figure BDA0002374358210000066
其中
Figure BDA0002374358210000067
Figure BDA0002374358210000068
为第i个实例对应的两个支持语句包,θ1为步骤2)中所有参数;
通过步骤5)获得所有实例的预测概率,并计算损失L2
Figure BDA0002374358210000069
其中θ2为步骤3)至步骤5)中所有参数;
最终将步骤2)的有效语句选择作为子任务,与步骤5)的同义关系预测主任务进行联合训练,即加和两种损失作为模型的总损失L=L1+L2,并采用优化器最小化损失函数,获得最佳模型。
进一步地,所述的步骤1)中,Word2Vec向量采用Skip-gram模型,基于百度百科语料,并设置模型的滑动窗口大小为5,词向量维度dw为100,经过15轮迭代训练后,得到的中文预训练词向量;
进一步地,所述的步骤1)中,数据集中所有共现语句包中语句数量为2到16,并将实例集合T按照20:1:1的比例随机划分成训练集、验证集和测试集;
进一步地,所述的步骤2)中,BERT模型采用的是Google开源的中文BERT-base版本,该版本包含12层Transformer,隐层维度为768,总计有110M参数;BiLSTM模型的位置向量维度dp为5,隐层维度dh为768;全连接层维度dc为128。
进一步地,所述的步骤4)中,E2B匹配中LSTM的隐层维度为2dc即256维。
进一步地,所述的步骤6)中,优化器采用Adam,其中BERT模型的初始学习率为0.00001,BiLSTM模型的初始学习率为0.0001,并设置0.1的随机失活率(Dropout);模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标,经过50轮迭代训练,选择验证集上F1分数达到最高时的模型参数作为最佳参数。
本发明方法与现有技术相比具有的有益效果:
1.该方法首次提出并解决了一个新任务,即通过一个共有同义词来辅助判断两个实体是否存在同义关系,该模型实现了基于传递性的同义关系判别,对于同义词扩展具有极大应用价值;
2.该方法基于深度学习模型,结合远程监督关系分类任务和多角度实体匹配网络,通过联合训练,有效地提高了同义关系判别的准确性。
附图说明
图1是本发明的总体模型图;
图2为多角度实体匹配网络的模型图;
图3为BERT编码器的模型图;
图4为BiLSTM编码器的模型图;
图5为百度百科的多义词页面;
图6为百度百科的词条页面。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于传递的同义词扩展方法,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2
2)句子编码:如图3和图4所示,对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,…,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...g|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示
Figure BDA0002374358210000081
和ej的序列表示
Figure BDA0002374358210000082
整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={w1,w2,…,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量
Figure BDA0002374358210000083
与距离实体对ei和ej的两个位置向量
Figure BDA0002374358210000084
Figure BDA0002374358210000085
作为该词的嵌入表示
Figure BDA0002374358210000086
其中dw为词向量维度,dp为位置向量维度,
Figure BDA0002374358210000087
为向量拼接操作;将序列
Figure BDA0002374358210000088
Figure BDA0002374358210000089
输入到BiLSTM模型中进行编码,正反向编码公式如下:
Figure BDA00023743582100000810
Figure BDA00023743582100000811
其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,
Figure BDA00023743582100000812
为正向第t个时间步的隐层输出,
Figure BDA00023743582100000813
为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到
Figure BDA00023743582100000814
作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示
Figure BDA00023743582100000815
和ej的序列表示
Figure BDA00023743582100000816
将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
Figure BDA00023743582100000817
c)句子表示:利用步骤a)或步骤b)对语句s编码后,得到了句子隐层表示hs和实体序列表示
Figure BDA00023743582100000818
Figure BDA00023743582100000819
将hs经过一个包含激活函数tanh的全连接层转化,得到句子向量vs,公式如下:
vs=tanh(Wshs+bs)
其中
Figure BDA00023743582100000820
Figure BDA00023743582100000821
为模型的可训练参数,dh为编码器隐层输出的维度,dc为全连接层的输出维度;
对实体序列中每个词的隐层向量计算平均,同样经过一个包含激活函数tanh的全连接层转化,计算获得ei的实体向量
Figure BDA00023743582100000822
与ej的实体向量
Figure BDA00023743582100000823
公式如下:
Figure BDA00023743582100000824
其中
Figure BDA00023743582100000825
Figure BDA00023743582100000826
为模型的可训练参数,k∈{1,2,3}为实体编号;将句子向量与两个实体向量拼接,作为该句子的最终表示
Figure BDA0002374358210000091
d)语句包表示:通过前三个步骤,对语句包S中每个语句进行编码,得到语句向量集合
Figure BDA0002374358210000092
同时采用注意力机制对语句包内的有效语句加以选择,得到每个句子的注意力权重αi,计算公式如下:
Figure BDA0002374358210000093
Figure BDA0002374358210000094
公式采用的是乘法注意力,其中
Figure BDA0002374358210000095
表示同义关系向量,由模型随机初始化,维度与句子向量相同,exp为指数函数;
将所有语句向量进行加权求和,即得到语句包的向量表示Vs
Figure BDA0002374358210000096
将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1
Figure BDA0002374358210000097
其中
Figure BDA0002374358210000098
Figure BDA0002374358210000099
为模型的可训练参数,o1和o2为向量o的两个元素,o1对应模型预测为正确的维度,o2对应模型预测为错误的维度;
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包
Figure BDA00023743582100000910
和e2的实体向量包
Figure BDA00023743582100000911
以及S2中e3的实体向量包
Figure BDA00023743582100000912
和e2的实体向量包
Figure BDA00023743582100000913
利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:
Figure BDA00023743582100000914
其中k∈{1,2}为语句包编号,i∈{1,2,3为实体编号,
Figure BDA00023743582100000915
为语句包Sk中第j个语句的注意力权重,
Figure BDA00023743582100000916
为该句中第i个实体;经过计算,得到四个实体融合向量
Figure BDA00023743582100000917
Figure BDA00023743582100000918
接着采用门控机制分别将
Figure BDA0002374358210000101
的语义融入
Figure BDA0002374358210000102
Figure BDA0002374358210000103
的语义融入
Figure BDA0002374358210000104
得到e2在S1中的最终向量表示
Figure BDA0002374358210000105
在S2中的最终向量表示
Figure BDA0002374358210000106
公式为:
Figure BDA0002374358210000107
其中语句包编号k∈{1,2},实体编号i∈{1,3},
Figure BDA0002374358210000108
为门控向量,是可训练参数,维度与实体向量相同,⊙为向量元素乘操作;
4)多角度实体匹配:如图2所示,对步骤3)中得到的e2的两个实体向量包
Figure BDA0002374358210000109
Figure BDA00023743582100001010
以及e2的两个实体向量
Figure BDA00023743582100001011
Figure BDA00023743582100001012
同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配,具体匹配过程如下:
a)E2E匹配:实体向量之间的匹配,利用向量元素乘的结果作为匹配向量Vm,其中
Figure BDA00023743582100001013
为向量元素乘操作:
Figure BDA00023743582100001014
b)E2B匹配:实体向量和实体向量包之间的匹配,主要采用基于LSTM模块的多步匹配策略,将
Figure BDA00023743582100001015
中每个向量
Figure BDA00023743582100001016
作为LSTM每一个时间步的输入,并且不断通过
Figure BDA00023743582100001017
影响隐层状态h′t的计算,以提取出
Figure BDA00023743582100001018
Figure BDA00023743582100001019
间语义相似的部分,计算公式如下:
Figure BDA00023743582100001020
Figure BDA00023743582100001021
其中LSTM(x,[h,c])为标准的LSTM单元,x为输入,h和c分别为LSTM的隐层状态和单元状态;即按照标准LSTM进行循环计算,单元状态ct不变,隐层状态h′t只取前dc个元素,与当前输入
Figure BDA00023743582100001022
相加后拼接
Figure BDA00023743582100001023
输入到下一步计算中;i∈{1,2}和j∈{1,2}为语句包编号,
Figure BDA00023743582100001024
为拼接操作;dc与实体向量维度相同;
以LSTM模块最后一个时间步的输出作为E2B的匹配向量,即匹配
Figure BDA00023743582100001025
Figure BDA00023743582100001026
得到
Figure BDA00023743582100001027
匹配
Figure BDA00023743582100001028
Figure BDA00023743582100001029
得到
Figure BDA00023743582100001030
c)B2B匹配:实体向量包之间的匹配,实际为两个包内所有向量间的两两匹配,首先计算
Figure BDA00023743582100001031
Figure BDA00023743582100001032
的相似度矩阵M:
Figure BDA00023743582100001033
其中
Figure BDA00023743582100001034
为模型的可训练参数,dc为实体向量维度;
对于
Figure BDA00023743582100001035
中的某个向量
Figure BDA00023743582100001036
Figure BDA00023743582100001037
中每个向量匹配得到|S2|个相似分数,将所有分数取平均即得到
Figure BDA0002374358210000111
与整个
Figure BDA0002374358210000112
的相似分数,公式为:
Figure BDA0002374358210000113
其中mij为M中第i行第j列元素,mean_为平均池化函数;
接着通过softmax公式计算
Figure BDA0002374358210000114
中每个向量的对应权重向量,经过加权后获得
Figure BDA0002374358210000115
关于
Figure BDA0002374358210000116
的匹配向量
Figure BDA0002374358210000117
Figure BDA0002374358210000118
Figure BDA0002374358210000119
在相似度矩阵M的第0维上进行操作为
Figure BDA00023743582100001110
匹配,得到
Figure BDA00023743582100001111
同理,在M的第1维上进行相同操作即为
Figure BDA00023743582100001112
匹配,可得到
Figure BDA00023743582100001113
5)同义关系分类:将步骤4)中得到的五个匹配向量拼接,依次通过一个全连接层和一个softmax分类器,得到基于语句包S1和S2、实例t中e1和e3存在同义关系的概率p(e1≈e3|S1,S2):
Figure BDA00023743582100001114
Figure BDA00023743582100001115
其中
Figure BDA00023743582100001116
为模型的可训练参数,
Figure BDA00023743582100001117
Figure BDA00023743582100001118
为om中两个元素,
Figure BDA00023743582100001119
对应模型预测为正确的维度,
Figure BDA00023743582100001120
对应模型预测为错误的维度;
6)模型训练:采用交叉熵作为损失函数,通过步骤2)计算所有实例T对应的语句包的有效选择概率,同时计算损失L1
Figure BDA00023743582100001121
其中
Figure BDA00023743582100001122
Figure BDA00023743582100001123
为第i个实例对应的两个支持语句包,θ1为步骤2)中所有参数;
通过步骤5)获得所有实例的预测概率,并计算损失L2
Figure BDA00023743582100001124
其中θ2为步骤3)至步骤5)中所有参数;
最终将步骤2)的有效语句选择作为子任务,与步骤5)的同义关系预测主任务进行联合训练,即加和两种损失作为模型的总损失L=L1+L2,并采用优化器最小化损失函数,获得最佳模型。
进一步地,所述的步骤1)中,Word2Vec向量采用Skip-gram模型,基于百度百科语料,并设置模型的滑动窗口大小为5,词向量维度dw为100,经过15轮迭代训练后,得到的中文预训练词向量;
进一步地,所述的步骤1)中,数据集中所有共现语句包的语句数量为2到16,并将实例集合T按照20:1:1的比例随机划分成训练集、验证集和测试集;
进一步地,所述的步骤2)中,BERT模型采用的是Google开源的中文BERT-base版本,该版本包含12层Transformer,隐层维度为768,总计有110M参数;BiLSTM模型的位置向量维度dp为5,隐层维度dh为768;全连接层维度dc为128。
进一步地,所述的步骤4)中,E2B匹配中LSTM的隐层维度为2dc即256维。
进一步地,所述的步骤6)中,优化器采用Adam,其中BERT模型的初始学习率为0.00001,BiLSTM模型的初始学习率为0.0001,并设置0.1的随机失活率(Dropout);模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标,经过50轮迭代训练,选择验证集上F1分数达到最高时的模型参数作为最佳参数。
实施例
下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)如图5所示,百度百科的多义词页面展示了同一名称的所有义项,例如“莲花”可以指代16个不同实体;如图6所示,部分百科词条页包含了同义属性,如“水浮莲”、“子午莲”都是“睡莲”的别称;同一义项的不同同义词可以构成正例,如“{水浮莲,睡莲,子午莲}”;同一名称、不同义项的同义词可以构成负例,如“{睡莲,莲花,路特斯}”,“睡莲”是睡莲科水生植物,“路特斯”是汽车品牌;
(2)如表1所示,爬取百度百科所有多义词页面,按照(1)中方法构建正负例实体三元组,并依照20:1:1的比例将数据集划分成训练集、验证集和测试集;
表1:实施例的数据集统计
同义实体三元组数 训练集 验证集 测试集
总计 10201 470 475
正例数 5175 234 236
负例数 5025 236 239
(2)如图1所示,利用(1)中训练集作为输入,分别采用图3的BERT模型和图4的BiLSTM模型编码语句,获得句子向量;
(3)如图1所示,将(2)中句子向量通过实体编码器编码,获得实体融合向量和实体向量包表示;
(4)如图2所示,将(3)中得到的实体融合向量与实体向量包进行多角度实体匹配,获得五个匹配向量;
(5)如图1所示,结合有效语句选择任务和实体匹配任务,对模型进行训练,并获得模型的预测结果;
(6)如表2所示,采用准确率、精确度、召回率、F1分数对实施例进行评估,表中为验证集上取到最佳F1分数时,模型在测试集上的预测结果。实验结果表明:同义语句选择任务能够在一定程度上减少远程监督引入的噪声信息,获得更准确的实体表达,从而提升本发明的性能;本发明中的B2E、B2B和E2E三种匹配都具有一定的作用,当仅使用单一匹配方法进行实体匹配时,模型性能有较为明显的下降;
表2:实施例的实验结果
模型 准确率 精确度 召回率 F1分数
基于BERT模型 0.830 0.802 0.873 0.836
-无同义语句选择任务 0.830 0.833 0.822 0.827
-只有B2E匹配 0.796 0.788 0.805 0.797
-只有B2B匹配 0.785 0.779 0.792 0.786
-只有E2E匹配 0.760 0.724 0.835 0.776
基于BiLSTM模型 0.832 0.820 0.848 0.833
-无同义语句选择任务 0.827 0.824 0.830 0.827
-只有B2E匹配 0.827 0.818 0.839 0.829
-只有B2B匹配 0.773 0.762 0.788 0.775
-只有E2E匹配 0.743 0.734 0.759 0.746
(7)本实施例对于两个实际样例的预测情况如表3所示,第一个为正例,第二个为负例,实体e1和e3间都没有共现语句,通过区分e2在两个语句中的语义,本实施例做出了正确预测。
表3:实施例的样例结果
Figure BDA0002374358210000141
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (6)

1.一种基于传递的同义词扩展方法,其特征在于,包括以下步骤:
1)数据集构建:爬取并解析百科词条正文,存储到Lucene索引文件中,同时利用Word2Vec工具训练词向量;爬取百科词条的多义词页面,解析得到每个页面中所有多义义项,并从义项的词条页中获取该义项的同义属性;同一义项若存在多个同义词,则以该义项名称作为中间实体e2,任选它的两个同义词作为e1和e3,构成正例三元组t=<e1,e2,e3>;具有相同名称的不同义项,可以随机选取两个义项各自的同义词分别作为e1和e3,与义项名e2构成负例三元组;所有实体三元组t构成了集合T;根据已获得的实体三元组集合,在语料的Lucene索引文件中进行布尔检索,得到同时包含一对实体的所有语句si并构成共现语句包S={s1,s2,...,s|s|},即检索e1和e2得到共现语句包S1,检索e2和e3得到共现语句包S2
2)句子编码:对步骤1)中每个实例t对应的两个语句包S1和S2,采用BERT模型或BiLSTM模型进行句子编码,具体过程如下:
a)BERT编码:给定一个同时包含实体对ei和ej的语句s,利用BERT自带分词器对s进行分词,并在s前后插入句子起始符“[CLS]”和终止符“[SEP]”,在两个实体前后分别用特定符号“[ENT1]”和“[ENT2]”进行标示,得到语句序列s={w0,w1,...,w|s|+5},其中wk为序列中第k个词语;将预处理后的语句序列输入到BERT模型中,获得编码后的整个序列表示H={h0,h1,...h|s|+5},其中hk为第k个词的隐层向量输出;根据两个实体的位置,同时可以得到ei的序列表示
Figure FDA0002374358200000011
和ej的序列表示
Figure FDA0002374358200000012
整个句子的隐层表示为hs=h0,即“[CLS]”对应输出;
b)BiLSTM编码:给定一个同时包含实体对ei和ej的语句s,采用HanLP分词器对s分词,得到语句序列s={w1,w2,...,w|s|};将序列中的每个词wk转换为词嵌入后,拼接每个词的词向量
Figure FDA0002374358200000013
与距离实体对ei和ej的两个位置向量
Figure FDA0002374358200000014
Figure FDA0002374358200000015
作为该词的嵌入表示
Figure FDA0002374358200000016
其中dw为词向量维度,dp为位置向量维度,
Figure FDA0002374358200000017
为向量拼接操作;将序列
Figure FDA0002374358200000018
Figure FDA0002374358200000019
输入BiLSTM模型中进行编码,正反向编码公式如下:
Figure FDA00023743582000000110
Figure FDA00023743582000000111
其中,BiLSTM采用两层标准的长短期记忆网络,LSTMfw为正向编码公式,LSTMbw为反向编码公式,vt为第t个时间步的输入,
Figure FDA0002374358200000021
为正向第t个时间步的隐层输出,
Figure FDA0002374358200000022
为反向第t个时间步的隐层输出,即对应句子中第t个词语;
将正反向的隐层输出拼接,得到
Figure FDA0002374358200000023
作为第t个词语的隐层表示,即获得整个语句的序列表示H={h1,h2,...h|s|};类似上述步骤a),同时可得到ei的序列表示
Figure FDA0002374358200000024
和ej的序列表示
Figure FDA0002374358200000025
将正向最后一个时间步的隐层状态与反向最后一个时间步的隐层状态拼接,作为句子的隐层表示
Figure FDA0002374358200000026
c)句子表示:利用步骤a)或步骤b)对语句s编码后,得到了句子隐层表示hs和实体序列表示
Figure FDA0002374358200000027
Figure FDA0002374358200000028
将hs经过一个包含激活函数tanh的全连接层转化,得到句子向量vs,公式如下:
vs=tanh(Wshs+bs)
其中
Figure FDA0002374358200000029
Figure FDA00023743582000000210
为模型的可训练参数,dh为编码器隐层输出的维度,dc为全连接层的输出维度;
对实体序列中每个词的隐层向量计算平均,同样经过一个包含激活函数tanh的全连接层转化,计算获得ei的实体向量
Figure FDA00023743582000000211
与ej的实体向量
Figure FDA00023743582000000212
公式如下:
Figure FDA00023743582000000213
其中
Figure FDA00023743582000000214
Figure FDA00023743582000000215
为模型的可训练参数,k∈{1,2,3}为实体编号;将句子向量与两个实体向量拼接,作为该句子的最终表示
Figure FDA00023743582000000216
d)语句包表示:通过前三个步骤,对语句包S中每个语句进行编码,得到语句向量集合
Figure FDA00023743582000000217
同时采用注意力机制对语句包内的有效语句加以选择,得到每个句子的注意力权重αi,计算公式如下:
Figure FDA00023743582000000218
Figure FDA00023743582000000219
公式采用的是乘法注意力,其中
Figure FDA00023743582000000220
定示同义关系向量,由模型随机初始化,维度与句子向量相同,exp为指数函数;
将所有语句向量进行加权求和,即得到语句包的向量表示Vs
Figure FDA00023743582000000221
将Vs依次经过一个全连接层和一个softmax层,得到预测概率p(ei≈ej|S),即模型基于语句包S,判别实体对ei和ej存在同义关系的概率,同时也验证了语句选择的有效性:
o=W1Vs+b1
Figure FDA0002374358200000031
其中
Figure FDA0002374358200000032
Figure FDA0002374358200000033
为模型的可训练参数,o1和o2为向量o的两个元素,o1对应模型预测为正确的维度,o2对应模型预测为错误的维度;
3)实体编码:将实例t对应语句包S1和S2中的所有语句分别经过步骤2)中编码器编码后,获得S1中e1的实体向量包
Figure FDA0002374358200000034
和e2的实体向量包
Figure FDA0002374358200000035
以及S2中e3的实体向量包
Figure FDA0002374358200000036
和e2的实体向量包
Figure FDA0002374358200000037
利用步骤2)中第d)步的句子注意力权重,对实体向量包进行加权,作为实体在整个语句包内的语义融合向量,公式如下:
Figure FDA0002374358200000038
其中k∈{1,2}为语句包编号,i∈{1,2,3}为实体编号,
Figure FDA0002374358200000039
为语句包Sk中第j个语句的注意力权重,
Figure FDA00023743582000000310
为该句中第i个实体;经过计算,得到四个实体融合向量
Figure FDA00023743582000000311
Figure FDA00023743582000000312
接着采用门控机制分别将
Figure FDA00023743582000000313
的语义融入
Figure FDA00023743582000000314
Figure FDA00023743582000000315
的语义融入
Figure FDA00023743582000000316
得到e2在S1中的最终向量表示
Figure FDA00023743582000000317
在S2中的最终向量表示
Figure FDA00023743582000000318
公式为:
Figure FDA00023743582000000319
其中语句包编号k∈{1,2},实体编号i∈{1,3},
Figure FDA00023743582000000320
为门控向量,是可训练参数,维度与实体向量相同,⊙为向量元素乘操作;
4)多角度实体匹配:对步骤3)中得到的e2的两个实体向量包
Figure FDA00023743582000000321
Figure FDA00023743582000000322
以及e2的两个实体向量
Figure FDA00023743582000000323
Figure FDA00023743582000000324
同时采用E2E(Entity-to-Entity)、E2B(Entity-to-entity Bag)和B2B(entity Bag-to-entity Bag)三种匹配进行多角度实体语义匹配,具体匹配过程如下:
a)E2E匹配:实体向量之间的匹配,利用向量元素乘的结果作为匹配向量Vm,其中
Figure FDA00023743582000000325
为向量元素乘操作:
Figure FDA00023743582000000326
b)E2B匹配:实体向量和实体向量包之间的匹配,主要采用基于LSTM模块的多步匹配策略,将
Figure FDA0002374358200000041
中每个向量
Figure FDA0002374358200000042
作为LSTM每一个时间步的输入,并且不断通过
Figure FDA0002374358200000043
彭响隐层状态h′t的计算,以提取出
Figure FDA0002374358200000044
Figure FDA0002374358200000045
间语义相似的部分,计算公式如下:
Figure FDA0002374358200000046
Figure FDA0002374358200000047
其中LSTM(x,[h,c])为标准的LSTM单元,x为输入,h和c分别为LSTM的隐层状态和单元状态;即按照标准LSTM进行循环计算,单元状态ct不变,隐层状态h′t只取前dc个元素,与当前输入
Figure FDA0002374358200000048
相加后拼接
Figure FDA0002374358200000049
输入到下一步计算中;i∈{1,2}和j∈{1,2}为语句包编号,
Figure FDA00023743582000000410
为拼接操作;dc与实体向量维度相同;
以LSTM模块最后一个时间步的输出作为E2B的匹配向量,即匹配
Figure FDA00023743582000000411
Figure FDA00023743582000000412
得到
Figure FDA00023743582000000413
匹配
Figure FDA00023743582000000414
Figure FDA00023743582000000415
得到
Figure FDA00023743582000000416
c)B2B匹配:实体向量包之间的匹配,实际为两个包内所有向量间的两两匹配,首先计算
Figure FDA00023743582000000417
Figure FDA00023743582000000418
的相似度矩阵M:
Figure FDA00023743582000000419
其中
Figure FDA00023743582000000420
为模型的可训练参数,dc为实体向量维度;
对于
Figure FDA00023743582000000421
中的某个向量
Figure FDA00023743582000000422
Figure FDA00023743582000000423
中每个向量匹配得到|S2|个相似分数,将所有分数取平均即得到
Figure FDA00023743582000000424
与整个
Figure FDA00023743582000000425
的相似分数,公式为:
Figure FDA00023743582000000426
其中mij为M中第i行第j列元素,mean_pooling为平均池化函数;
接着通过softmax公式计算
Figure FDA00023743582000000427
中每个向量的对应权重向量,经过加权后获得
Figure FDA00023743582000000428
关于
Figure FDA00023743582000000429
的匹配向量
Figure FDA00023743582000000430
Figure FDA00023743582000000431
Figure FDA00023743582000000432
在相似度矩阵M的第0维上进行操作为
Figure FDA00023743582000000433
匹配,得到
Figure FDA00023743582000000434
同理,在M的第1维上进行相同操作即为
Figure FDA00023743582000000435
匹配,可得到
Figure FDA00023743582000000436
5)同义关系分类:将步骤4)中得到的五个匹配向量拼接,依次通过一个全连接层和一个softmax分类器,得到基于语句包S1和S2、实例t中e1和e3存在同义关系的概率p(e1≈e3|S1,S2):
Figure FDA0002374358200000051
Figure FDA0002374358200000052
其中
Figure FDA0002374358200000053
为模型的可训练参数,
Figure FDA0002374358200000054
Figure FDA0002374358200000055
为om中两个元素,
Figure FDA0002374358200000056
对应模型预测为正确的维度,
Figure FDA0002374358200000057
对应模型预测为错误的维度;
6)模型训练:采用交叉熵作为损失函数,通过步骤2)计算所有实例T对应的语句包的有效选择概率,同时计算损失L1
Figure FDA0002374358200000058
其中
Figure FDA0002374358200000059
Figure FDA00023743582000000510
为第i个实例对应的两个支持语句包,θ1为步骤2)中所有参数;
通过步骤5)获得所有实例的预测概率,并计算损失L2
Figure FDA00023743582000000511
其中θ2为步骤3)至步骤5)中所有参数;
最终将步骤2)的有效语句选择作为子任务,与步骤5)的同义关系预测主任务进行联合训练,即加和两种损失作为模型的总损失L=L1+L2,并采用优化器最小化损失函数,获得最佳模型。
2.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤1)中,Word2Vec向量采用Skip-gram模型,基于百度百科语料,并设置模型的滑动窗口大小为5,词向量维度dw为100,经过15轮迭代训练后,得到的中文预训练词向量。
3.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤1)中,数据集中所有共现语句包的语句数量为2到16,并将实例集合T按照20∶1∶1的比例随机划分成训练集、验证集和测试集。
4.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤2)中,BERT模型采用的是Google开源的中文BERT-base版本,该版本包含12层Transformer,隐层维度为768,总计有110M参数;BiLSTM模型的位置向量维度dp为5,隐层维度dh为768;全连接层维度dc为128。
5.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤4)中,E2B匹配中LSTM的隐层维度为2dc即256维。
6.根据权利要求1所述的基于传递的同义词扩展方法,其特征在于,所述的步骤6)中,优化器采用Adam,其中BERT模型的初始学习率为0.00001,BiLSTM模型的初始学习率为0.0001,并设置0.1的随机失活率(Dropout);模型采用准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数作为评估指标,经过50轮迭代训练,选择验证集上F1分数达到最高时的模型参数作为最佳参数。
CN202010063190.7A 2020-01-19 2020-01-19 一种基于传递的同义词扩展方法 Active CN111274794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010063190.7A CN111274794B (zh) 2020-01-19 2020-01-19 一种基于传递的同义词扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010063190.7A CN111274794B (zh) 2020-01-19 2020-01-19 一种基于传递的同义词扩展方法

Publications (2)

Publication Number Publication Date
CN111274794A true CN111274794A (zh) 2020-06-12
CN111274794B CN111274794B (zh) 2022-03-18

Family

ID=71001761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010063190.7A Active CN111274794B (zh) 2020-01-19 2020-01-19 一种基于传递的同义词扩展方法

Country Status (1)

Country Link
CN (1) CN111274794B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859926A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 同义句对生成方法、装置、计算机设备及存储介质
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112347269A (zh) * 2020-11-11 2021-02-09 重庆邮电大学 基于BERT和Att-BiLSTM的论点对识别方法
CN114021572A (zh) * 2022-01-05 2022-02-08 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN117786092A (zh) * 2024-02-27 2024-03-29 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统
CN117786092B (zh) * 2024-02-27 2024-05-14 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092380A1 (zh) * 2015-12-03 2017-06-08 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
US20180189269A1 (en) * 2016-12-30 2018-07-05 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN109086269A (zh) * 2018-07-19 2018-12-25 大连理工大学 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法
WO2019168202A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092380A1 (zh) * 2015-12-03 2017-06-08 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
US20180189269A1 (en) * 2016-12-30 2018-07-05 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
WO2019168202A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム
CN109086269A (zh) * 2018-07-19 2018-12-25 大连理工大学 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109933785A (zh) * 2019-02-03 2019-06-25 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGYU ZHANG 等: "Combining the Attention Network and Semantic Representation for Chinese Verb Metaphor Identification", 《IEEE ACCESS》 *
JIAMING SHEN 等: "Mining Entity Synonyms with Efficient Neural Set Generation", 《ARXIV:1811.07032V1 [CS.CL]》 *
MUHAMMAD ASIF ALI 等: "Antonym-Synonym Classification Based on New Sub-space Embeddings", 《ARXIV:1906.05612V1[CS.CL]》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859926A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 同义句对生成方法、装置、计算机设备及存储介质
CN111859926B (zh) * 2020-07-28 2023-07-25 中国平安人寿保险股份有限公司 同义句对生成方法、装置、计算机设备及存储介质
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111914558B (zh) * 2020-07-31 2024-04-16 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112347269A (zh) * 2020-11-11 2021-02-09 重庆邮电大学 基于BERT和Att-BiLSTM的论点对识别方法
CN114021572A (zh) * 2022-01-05 2022-02-08 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN114021572B (zh) * 2022-01-05 2022-03-22 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN117786092A (zh) * 2024-02-27 2024-03-29 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统
CN117786092B (zh) * 2024-02-27 2024-05-14 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统

Also Published As

Publication number Publication date
CN111274794B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN111274794B (zh) 一种基于传递的同义词扩展方法
CN108733742B (zh) 全局归一化阅读器系统和方法
CN101251862B (zh) 一种基于内容的问题自动分类方法及其系统
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN107908614A (zh) 一种基于Bi‑LSTM的命名实体识别方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN103823859B (zh) 基于决策树规则和多种统计模型相结合的人名识别算法
Xie et al. Topic enhanced deep structured semantic models for knowledge base question answering
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN115640410B (zh) 基于强化学习路径推理的知识图谱多跳问答方法
CN103699529A (zh) 一种使用词义消歧的融合机器翻译系统的方法及装置
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN103646099A (zh) 一种基于多层图的论文推荐方法
CN105955953A (zh) 一种分词系统
CN113407697A (zh) 深度百科学习的中文医疗问句分类系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
Khan et al. Offensive language detection for low resource language using deep sequence model
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant