CN113591478B - 一种基于深度强化学习的远程监督文本实体关系抽取方法 - Google Patents

一种基于深度强化学习的远程监督文本实体关系抽取方法 Download PDF

Info

Publication number
CN113591478B
CN113591478B CN202110636514.6A CN202110636514A CN113591478B CN 113591478 B CN113591478 B CN 113591478B CN 202110636514 A CN202110636514 A CN 202110636514A CN 113591478 B CN113591478 B CN 113591478B
Authority
CN
China
Prior art keywords
sentence
label
words
representation
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110636514.6A
Other languages
English (en)
Other versions
CN113591478A (zh
Inventor
罗欣
赖广龄
耿昊天
赫熙煦
许文波
冷庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical University of Electronic Science and Technology of China
Priority to CN202110636514.6A priority Critical patent/CN113591478B/zh
Publication of CN113591478A publication Critical patent/CN113591478A/zh
Application granted granted Critical
Publication of CN113591478B publication Critical patent/CN113591478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于深度强化学习的远程监督文本实体关系抽取方法,该方法包括:进行数据预处理,通过分词、词向量转化、位置向量构成文本向量;Bi‑LSTM+Attentnion将自然文本编码为含有上下文语义的特征向量;通过实体类型嵌入得到实体类型信息的嵌入表示;再构建出依存树,组合表示为最终的句子表示;选用一个句子注意力机制,得到加权的包表示;通过softmax函数计算得到预测标签;使用强化学习方法在远程监督标注和预测标签中选择一个作为软标签,再使用软标签作为正确标签训练,得到最终的关系抽取结果。

Description

一种基于深度强化学习的远程监督文本实体关系抽取方法
技术领域
本发明属于自然语言处理领域,涉及一种远程监督文本实体关系抽取方法。
背景技术
目前的社会是信息化社会,互联网伴随着软硬件技术的提升和普及,已经成为人们生活中必不可少的一部分,互联网上的信息一般为文字、图像或视频音频等,这些媒介也是地理信息的主要传播模式,而这些数据随着互联网的迅速发展呈现出指数增长的形式,所以从海量的杂乱无序的信息中快速准确的找到符合自我需求的信息的技术就应运而生。根据人工智能的三个台阶:计算智能、感知智能、认知智能划分,第三层次的认知智能的发展也远远不够,认知智能的基础是知识,旨在赋予机器数据理解、知识表达、逻辑推理、自主学习的能力,让机器也能够像人类一样的思考能力和判断能力,甚至具备各个行业领域专家的知识积累和运用的能力。认知智能的实现离不开知识图谱技术、自然语言处理技术(Natural Language Processing,NLP)的支撑。富含实体、概念、属性、关系等复杂信息的知识图谱,是机器认识和理解世界所依赖的知识体系,而从大量杂乱无章的信息中获得对人们有意义的知识以便于构建知识图谱是学者们亟需研究的主题。构建知识图谱的第一步一般为信息抽取,并且实体关系抽取又作为信息抽取的关键子任务,如何从文本大数据中快速准确的抽取出文本的实体关系信息是构建知识图谱的重点。
目前的实体关系抽取算法主要针对英文,中文的抽取技术还在不断探索中,并且目前抽取效果很好的方法大多为有监督学习方法,这需要精准标注的数据集,而现在恰恰缺乏这些,并且专业领域的数据集更为稀少,因此如何建立专业的领域知识库,减少人工标注成本,快速进行领域实体关系抽取是构建领域知识图谱的难点和重点之一。本专利旨在通过远程监督(Distant Supervision)方法进行实体关系抽取,并降低标注噪声,提高算法精度,最终得到高质量的信息。
发明内容
为了克服现有技术的不足,本发明提供一种基于深度强化学习的远程监督关系抽取方法,在标签级别上对数据进行降噪处理,且结合实体对类型信息与依存树信息,降噪效果好,抽取结果精度高。
本发明解决其技术问题所采用的技术方案包括以下步骤:
S1:进行数据预处理,对通过远程监督标注的数据集中的句子进行分词,并使用Word2Vec模型对分好的词转换为词语的语义向量,再根据每个词在句子中的相对位置获得词的位置向量,将语义向量与位置向量结合得到词语的词向量表示。
S2:通过S1得到的词向量以及Bi-LSTM+Attentnion将自然文本编码为含有上下文语义的特征向量,得到一个句子的初步向量表示。
S3:通过实体类型嵌入得到实体类型信息的嵌入表示。
S4:利用依存句法分析将句子中词语之间的语法关系表达出来,并基于此构建出依存树。
S5:串联S2、S3、S4得到的向量,可以得到本专利最终的句子表示。
S6:选用一个句子注意力机制,计算包中句子的注意力权重,得到加权的包表示。
S7:基于S6的结果,通过softmax函数计算得到关系概率分布,概率最大的关系即为关系的预测标签。
S8:使用强化学习方法在远程监督标注和预测标签中选择一个作为软标签,再使用软标签作为正确标签重复S2-S7,得到最终的关系抽取结果。
所述数据预处理的分词工具使用语言技术平台(Language TechnologyPlantform,LTP)完成,远程监督数据标注采用公开数据集与百度百科的结构化数据对齐生成,每个词作为一个token,然后使用Word2Vec对词进行词嵌入,词的语义嵌入维度为300维,位置嵌入是输入词语与实体的相对距离作为特征编码成的向量,维度为5维。
所述句子编码器的输入是将词嵌入与位置嵌入串联起来输入进Bi-LSTM+Attention中,Bi-LSTM能够获得词语的上下文的丰富语义信息,而Attention可以计算出词语与实体词的相关性大小,以便得到对实体词更重要词语的表示。
所述实体类型信息,将其映射到一个k维的向量空间中,若实体有多个类型,那么取对应类型的平均向量作为实体的类型嵌入表示。对于实体对(e1,e2),将两者的类型嵌入连接起来,作为实体类型对关系的约束信息。
所述依存树信息由LTP的依存句法分析模块得到,依存树的节点表示句子中各个词,用边将含有依存关系的节点连接起来就构成了依存树,在一个句子中,若两个实体之间确有关系,那么它们之间大可能性有依存关系,所以基于此思想,本专利建立了基于依存树的特征表示,不使用整个句子的依存树结构,而是获得句子中包含实体对的依存子树,并将包含实体对的依存子树编码为局部特征向量,这样可以减少噪声并强调实体对之间的关系特征。
所述句子注意力机制,远程监督假设包含同一实体对的句子都能表示它们之间的关系,但实际情况并非如此,并不是所有包含同一实体对的句子都对关系抽取任务有效,有些句子信息量较少,有些句子则是噪声数据,为了降低这些影响,本专利期望能够在包中获得高质量的句子,根据句子质量的高低得到不同的权重,因此选用一个句子注意力机制,计算包中句子的注意力权重。
所述强化学习的状态为S7的输出,动作被设计成一个选择标签的二分类:根据此时的状态表示向量,动作将会选择关系抽取器计算得到的标签或语料库中的远程监督标签中的一个,将这个标签标记为包的软标签。
本发明的有益效果是:
第一,由于有监督机器学习需要大量的标注语料,而目前的标注预料较少,标注成本较高,所以本专利的远程监督方法可以快速获得大量标注语料,减少人工成本。
第二,由于远程监督会产生噪声问题,现有技术大多采用句子级别或者包级别的方法进行降噪,忽略了噪声标签对模型产生的影响,本专利采用标签降噪的方法,更正错误标签,既能够更大程度上利用数据集,又能够避免由于句子质量较差,而且若一个包中的句子都是噪声句子,那么模型还是会将至少一个句子作为描述了包标签的句子进行训练,这就会对模型造成较大影响的问题。
第三,本专利提出的深度学习方法中结合了Bi-LSTM+Attention、实体类型信息与依存树信息,并结合句子注意力机制,可以很大程度上减少由于句子语义信息的错误导致将负例作为正例、降噪效果较差等问题。
第四,降低了噪声句子对关系抽取结果的影响,本专利采用的是更改噪声标签的方法,所以理论上不存在噪声句子,只要将噪声句子的关系标签更正为正确标签,就可以视之为正确句子,解决了数据集使用不充分的问题。
附图说明
图1为深度学习模型结构图
图2为词向量表示图
图3为Bi-LSTM+Attention结构图
图4为标签降噪效果实例
具体实施方式
下面结合实施例对本发明作进一步说明,本发明包括但不仅限于下述实施例。
本发明实施例包括以下步骤:
S1:由百度百科知识库与互联网语料库对齐得到远程监督标注数据作为数据集,互联网语料库包括但不局限于百度百科非结构化文本数据与新闻网页文本。
S2:使用LTP对数据集中的句子进行分词,每个词作为一个token,再使用Word2Vec模型生成包含词语语义信息的词嵌入。位置嵌入是输入词语与实体的相对距离作为特征编码成的向量,用来表示输入词语相对于实体的位置信息,比如第i个输入词语与实体对的相对距离可以表示为i-pos1和i-pos2,再被编码为向量。最终词嵌入和位置嵌入串联成一个向量xi,如果输入的句子X长度为n,那么这个句子可以表示为X={x1,x2,…,xn}。
S3:LSTM相较于传统RNN,可以处理在句子较长时距离较远的词语之间的依赖信息,其通过三个门结构来丢弃无用的前文信息,再加入当前输入的部分信息,最终整合到当前状态并产生输出状态。但是LSTM只能从前到后对句子进行编码,无法考虑下文信息,而Bi-LSTM由前向网络和后向网络结合而成,对于包含n个词语的句子,通过Bi-LSTM得到的隐向量可以表示为公式H={h1,h2,...,hn}。hi表示了句子中第i个词语的高维语义信息,但是在实际应用中句子中不同词语对句子的语义有着不同的重要性。Attention机制就是基于这种思想,为每个词赋予不同的重要性权值,再将权值与对应的词进行组合运算,得到最终表示。因此本专利通过计算词语与实体之间的重要性程度构建词注意力机制来充实词语的语义信息,经过词注意力层的句子可以表示为公式
Figure BDA0003105963350000051
其中αi表示Attention的权重,最后使用最大池化层捕获句子中最关键的特征信息,句子的向量表示为sa=maxpool(x)。
S4:构建实体类型信息,文本中不同类型的实体对所对应的关系一般也不同,比如实体“中国”(地名,国家名)和“北京”(地名,城市名)之间对应的关系不可能是“出生地”。远程监督的语料库是通过结构化的文本知识库和非结构化文本对齐得到的,而这些文本知识库中就包含了本文所需的实体类型信息,所以可以直接得到这些信息,若知识库中没有语料库中的某些实体,这些实体的类型信息在命名实体识别时会自动获得。为了得到实体类型信息的嵌入表示,将实体类型信息映射到一个k维的向量空间中,若实体有多个类型,那么取对应类型的平均向量作为实体的类型嵌入表示。对于实体对(e1,e2),将两者的类型嵌入连接起来,作为实体类型对关系的约束,计算方法为
Figure BDA0003105963350000063
其中Typee1表示实体e1的类型嵌入,Typee2表示实体e2的类型嵌入。
S5:构建依存句法树,依存句法分析能够将句子中词语之间的语法关系表达出来,并基于此构建出依存树。依存树的节点表示句子中各个词,用边将含有依存关系的节点连接起来就构成了依存树,在一个句子中,若两个实体之间确有关系,那么它们之间大可能性有依存关系,所以基于此思想,本模型建立了基于依存树的特征表示,不使用整个句子的依存树结构,而是获得句子中包含实体对的依存子树,并将包含实体对的依存子树编码为局部特征向量,这样可以减少噪声并强调实体对之间的关系特征。则包含实体对的依存子树可以表示为Tree=[t1,t2,...,ti],其中t表示依存子树上第i个节点的词向量表示。
S6:结合S3-S5的结果,可以得到最终的句子表示,最终表示为s=[sa,Typee,Tree]。
S7:计算包中不同句子的重要性,期望能够在包中获得高质量的句子,根据句子质量的高低得到不同的权重,因此选用一个句子注意力机制,计算包中句子的注意力权重,对于第i个句子,它的权重βi的计算方法为
Figure BDA0003105963350000061
其中,s表示句子向量,u和v表示两个加权向量,⊙表示对逐个元素进行乘积,那么经过加权之后的包表示为
Figure BDA0003105963350000062
基于包的表示,可以通过softmax函数计算得到关系概率分布,最终对包的预测标签的计算方法为y=argmax{p1,p2,...,pn},其中pi表示对第i种关系的预测概率,由softmax函数计算得到。
S8:使用强化学习方法在S7得到的预测标签和S1得到的远程监督标签中选择一个标签作为软标签对噪声标签进行更正。强化学习的状态表示为预测标签向量、远程标签向量和平均预测分数向量串联得到,强化学习的动作表示为一个二分类,即选择S7得到的预测标签或S1得到的远程监督标签。强化学习的策略被参数化,用一个概率分布函数来表示为π(at|st;Θ)∈(0,1),此式表示为在Θ下对状态st采取动作at的概率分布,由sigmoid函数计算得到,强化学习的奖励被设计为一个延迟奖励,这个奖励是关系抽取器对于软标签效果的好坏进行的一个反馈,这个反馈是在得到软标签之后才产生的,延迟奖励可以表示为rt=0(t=1,…,T-1),当达到终点时刻T时状态为st,此时才会得到奖励。奖励的计算公式为
Figure BDA0003105963350000071
其中,Val表示验证集,yi表示gi的远程监督标签,gi表示第i个包,p(yi|gi)表示深度学习模型经过含有软标签的数据训练之后的结果。
S9:深度学习模型输出的预测分数作为强化学习的输入状态,然后由S8得到的状态产生动作,动作对标签进行选择得到软标签,软标签能够监督深度学习的训练并更新深度学习的参数,最终得到经过标签降噪之后的关系抽取结果。
其中,在更新深度学习模型的参数时采用Adam优化器更新,词向量维度为300,位置向量维度为5,实体向量维度为50,Bi-LSTM隐藏层维度为300,dropout为0.5,学习率为0.001,批次大小为50。

Claims (8)

1.一种基于深度强化学习的远程监督关系抽取方法,其特征在于,包括:
步骤1:数据预处理,通过远程监督标注的数据集中的句子进行分词,并使用Word2Vec模型对分好的词转换为词语的语义向量,再根据每个词在句子中的相对位置获得词的位置向量,将语义向量与位置向量结合得到词语的词向量表示;
步骤2:通过步骤1得到的词向量以及Bi-LSTM+Attentnion将自然文本编码为含有上下文语义的特征向量,得到一个句子的初步向量表示;
步骤3:通过实体类型嵌入得到实体类型信息的嵌入表示;
步骤4:利用依存句法分析将句子中词语之间的语法关系表达出来,并基于此构建出依存树;
步骤5:串联步骤2、步骤3、步骤4得到的向量,得到最终的句子表示;
步骤6:基于句子注意力机制计算包中句子的注意力权重,得到加权的包表示;
步骤7:基于步骤6的结果,通过softmax函数计算得到关系概率分布,选定概率最大的关系即为关系的预测标签;
步骤8:使用强化学习方法在远程监督标注和预测标签中选择一个作为软标签,再使用软标签作为正确标签重复步骤2-步骤7,得到最终的关系抽取结果。
2.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于,对于远程监督启发式标注的数据集的获取,是由百度百科知识库与互联网语料库对齐得到远程监督标注数据作为数据集;再使用LTP对数据集中的每个句子进行分词,使用Word2Vec模型对分好的词转换为词语的语义向量,再根据每个词在句子中的相对位置获得词的位置向量,将语义向量与位置向量结合得到词语的词向量表示。
3.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于,通过计算词语与实体之间的重要性程度构建词注意力机制来充实词语的语义信息,基于Bi-LSTM+Attentnion机制将自然文本编码为含有上下文语义的特征向量,得到句子的初步向量表示。
4.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于从远程监督获得的语料库中直接构建实体类型信息,将实体类型信息映射到一个k维的向量空间中,得到实体类型信息的嵌入表示。
5.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于,基于依存句法分析构建出依存树;建立基于依存树的特征表示,获得句子中包含实体对的依存子树,并将包含实体对的依存子树编码为局部特征向量,这样可以减少噪声并强调实体对之间的关系特征。
6.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于,通过步骤3至步骤5得到最终的句子表示,基于选用一个句子注意力机制,计算包中句子的注意力权重,最终得到加权的包。
7.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于,基于步骤6中得到的包的表示,通过Softmax函数计算得到关系概率分布,概率最大的关系即为关系的预测标签。
8.根据权利要求1所述的一种基于深度强化学习的远程监督关系抽取方法,其特征在于,如权利要求1所述方法,其特征在于,使用强化学习方法在步骤7得到的预测标签和步骤1得到的远程监督标签中选择一个标签作为软标签对噪声标签进行更正。
CN202110636514.6A 2021-06-08 2021-06-08 一种基于深度强化学习的远程监督文本实体关系抽取方法 Active CN113591478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110636514.6A CN113591478B (zh) 2021-06-08 2021-06-08 一种基于深度强化学习的远程监督文本实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110636514.6A CN113591478B (zh) 2021-06-08 2021-06-08 一种基于深度强化学习的远程监督文本实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN113591478A CN113591478A (zh) 2021-11-02
CN113591478B true CN113591478B (zh) 2023-04-18

Family

ID=78243479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110636514.6A Active CN113591478B (zh) 2021-06-08 2021-06-08 一种基于深度强化学习的远程监督文本实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN113591478B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238524B (zh) * 2021-12-21 2022-05-31 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法
CN114004233B (zh) * 2021-12-30 2022-05-06 之江实验室 一种基于半训练和句子选择的远程监督命名实体识别方法
CN114996407B (zh) * 2022-06-27 2024-04-30 吉林大学 基于包重构的远程监督关系抽取方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101134391B1 (ko) * 2011-05-03 2012-04-09 이승철 배전반, 자동제어 플랜트 설비의 원격감시제어장치 및 원격감시제어방법
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109783799A (zh) * 2018-12-13 2019-05-21 杭州电子科技大学 一种基于语义依存图的关系提取方法
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112016293A (zh) * 2020-10-22 2020-12-01 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101134391B1 (ko) * 2011-05-03 2012-04-09 이승철 배전반, 자동제어 플랜트 설비의 원격감시제어장치 및 원격감시제어방법
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109783799A (zh) * 2018-12-13 2019-05-21 杭州电子科技大学 一种基于语义依存图的关系提取方法
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112016293A (zh) * 2020-10-22 2020-12-01 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Zhiyuan Fan等.Research on entity relationship extraction for diabetes medical literature.《2020 IEEE 9th Joint International Infromation Technology and Artificial Intelligence Conference》.2021,第424-430页. *
李枫林 等.基于深度学习框架的实体关系抽取研究进展.《情报科学》.2018,第36卷(第03期),第169-176页. *

Also Published As

Publication number Publication date
CN113591478A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113591478B (zh) 一种基于深度强化学习的远程监督文本实体关系抽取方法
WO2021190236A1 (zh) 一种基于生物医学文献的实体关系挖掘方法
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111709474A (zh) 一种融合拓扑结构和节点属性的图嵌入链路预测方法
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN112949281A (zh) 一种图神经网络的增量社交事件检测方法
CN113946684A (zh) 电力基建知识图谱构建方法
CN112364125B (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN114444481B (zh) 一种新闻评论的情感分析与生成方法
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN115935957A (zh) 一种基于句法分析的句子语法纠错方法及系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN116151260A (zh) 一种基于半监督学习的糖尿病命名实体识别模型构建方法
CN114648017A (zh) 一种基于异质图注意力网络的文档级关系抽取方法
CN113486180A (zh) 一种基于关系层级交互的远程监督关系抽取方法及系统
CN112380836A (zh) 一种智能侨情问句生成方法
CN116227428B (zh) 一种基于迁移模式感知的文本风格迁移方法
CN116562275B (zh) 一种结合实体属性图的自动文本摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant