CN113342929A - 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 - Google Patents

一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 Download PDF

Info

Publication number
CN113342929A
CN113342929A CN202110496956.5A CN202110496956A CN113342929A CN 113342929 A CN113342929 A CN 113342929A CN 202110496956 A CN202110496956 A CN 202110496956A CN 113342929 A CN113342929 A CN 113342929A
Authority
CN
China
Prior art keywords
relation
material field
text
performance
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110496956.5A
Other languages
English (en)
Inventor
魏晓
钱权
陈永琪
赵睿
丁聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110496956.5A priority Critical patent/CN113342929A/zh
Publication of CN113342929A publication Critical patent/CN113342929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向材料领域的材料‑组分‑工艺‑性能关系四元组抽取方法,本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料‑组分‑工艺‑性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one‑hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本发明在材料领域关系抽取上有较好的效果。

Description

一种面向材料领域的材料-组分-工艺-性能关系四元组抽取 方法
技术领域
本发明涉及实体关系联合抽取领域,特别是涉及一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法。
背景技术
材料领域不同材料的组分、制造工艺与其性能有着密切的联系,且组分或工艺细小的变化都可能导致材料性能的骤变,因此挖掘组分-性能、工艺-性能关系,可以为材料领域科研人员提供更加直接、全面、结构化的材料优化相关知识,进而为材料的进一步优化以及新材料的研发提供参考。例如,从“深冷处理使高速钢硬度和耐磨性能得到提高”中,可以总结出对于高速钢而言,深冷处理可以提升其两个性能:硬度和耐磨性能的知识。
目前关系抽取领域大多是针对关系三元组任务抽取,即(entity1,relation,entity2),其中只涉及到两个实体,而材料领域一条材料优化知识往往涉及到三个实体:什么材料,改变了哪一组分或采用什么工艺,结果导致什么性能发生改变。因此使用传统的三元组实体关系抽取方法难以满足材料领域的需求。
发明内容
本发明的主要目的在于克服现有技术的不足,提供一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,充分挖掘材料实体组分-工艺-性能之间的关系。
为实现上述目的,本发明采用以下技术方案:
一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,包含以下步骤:
步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;
步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;
步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;
步骤S4:对步骤S3搭建的关系抽取模型进行训练;
步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。
优选地,所述步骤S1具体为:
步骤S1-1:根据材料领域手册的相关词条,爬取相关论文、专利中的材料文本数据;
步骤S1-2:对步骤S1-1处理后的文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称;
步骤S1-3:重复步骤S1-1至步骤S1-2,获取所有句子都完成标注,即构造完材料领域的语料库。
优选地,所述步骤S2具体为:
步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;
步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;
步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示。
优选地,所述步骤S3具体为:
步骤S3-1:对于步骤S2中得到的每一个字向量xt,利用编码层的BiLSTM分别计算前向和后向传播得到的材料领域文本的特征信息,分别记为
Figure BDA0003054798830000021
步骤S3-2:将
Figure BDA0003054798830000022
拼接得到t时刻编码层的特征向量,记为
Figure BDA0003054798830000023
步骤S3-3:以
Figure BDA0003054798830000024
作为t时刻解码层BiLSTM的输入,同理分别计算前向和后向传播得到材料领域文本的语义信息,分别记为
Figure BDA0003054798830000025
步骤S3-4:拼接得到最终的语义信息
Figure BDA0003054798830000026
即为在t时刻解码层BiLSTM根据上下文的信息解析得到的语义向量;
步骤S3-5:将步骤S3-3得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;
步骤S3-6:重复步骤S3-4,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;
步骤S3-7:将步骤S3-3得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取。
优选地,所述步骤S4具体为:
步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:
Figure BDA0003054798830000031
其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;
步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;
步骤S4-4:对模型进行训练,并保存训练后的模型。
优选地,所述步骤S5具体为:
步骤S5-1:以步骤S4-1中获得的测试集作为模型的输入,对模型进行测试;
步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:
Figure BDA0003054798830000032
Figure BDA0003054798830000033
Figure BDA0003054798830000034
其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。
一种计算机系统,其程序执行本发明面向材料领域的材料-组分-工艺-性能关系四元组抽取方法。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:
1.本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据库,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取;
2.本发明在材料领域关系抽取上有较好的效果。
附图说明
图1是本发明的一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法的流程图;
图2是本发明的四元组关系抽取模型图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当强调的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
参阅图1,一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,包含以下步骤:
步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;
步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;
步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;
步骤S4:对步骤S3搭建的关系抽取模型进行训练;
步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。
在上述实施例中,参考图1,图1是本发明的一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法一实施例的流程图。本实施例方法在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据库,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取。
实施例二:
在本实施例中,步骤S1具体包括以下步骤:
步骤S1-1:根据材料领域手册的相关词条,从知网等文献检索网站和国家知识产权专利检索网站爬取相关论文、专利中的材料文本,通过人工手动摘取文本中部分段落构造材料领域文本集;
步骤S1-2:对步骤S1-1处理后的每一个文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称,具体标注方法如表1所示;分别使用MAT、CON、CRA、PER作为材料实体、组分名称、工艺名称、性能名称的类型标签;采用“BIO”标注原则,其中B表示每个实体或名称的初始字,I表示每个实体或名称的中间或结尾字,其他字用O进行标注;
表1材料-组分-工艺-性能标签符号表示
Figure BDA0003054798830000041
Figure BDA0003054798830000051
由于本发明主要挖掘材料组分与工艺的改变对性能的影响,所以着重抽取组分、工艺与性能间的关系,具体包含三种关系:提升、削弱、unknown,而材料实体与组分、工艺、性能之间只存在包含和不包含两种关系;
步骤S1-3:重复步骤S1-1至步骤S1-2,知道所有句子都完成标注,即构造完材料领域的语料库;
在本实施例中,步骤S2具体包括以下步骤:
步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;
步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;
步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示;
在本实施例中,如图2所示,步骤S3具体包括以下步骤:
步骤S3-1:对于步骤S2中得到的每一个字向量xt,利用编码层的BiLSTM分别计算前向和后向传播得到的材料领域文本的特征信息,分别记为
Figure BDA0003054798830000052
步骤S3-2:将
Figure BDA0003054798830000053
拼接得到t时刻编码层的特征向量,记为
Figure BDA0003054798830000054
步骤S3-3:以
Figure BDA0003054798830000055
作为t时刻解码层BiLSTM的输入,同理分别计算前向和后向传播得到材料领域文本的语义信息,分别记为
Figure BDA0003054798830000056
步骤S3-4:同理,拼接得到最终的语义信息
Figure BDA0003054798830000057
即为在t时刻解码层BiLSTM根据上下文的信息解析得到的语义向量。
步骤S3-5:将步骤3-2得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;
步骤S3-6:重复步骤3-3,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;
步骤S3-7:将步骤3-2得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取;
在本实施例中,步骤S4具体包括以下步骤:
步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:
Figure BDA0003054798830000061
其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;
步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;
步骤S4-4:对模型进行训练,并保存训练后的模型;
在本实施例中,步骤S5具体包括以下步骤:
步骤S5-1:以步骤S4中获得的测试集作为模型的输入,对模型进行测试;
步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:
Figure BDA0003054798830000062
Figure BDA0003054798830000063
Figure BDA0003054798830000064
其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。
本实施例面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one-hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本实施例方法在材料领域关系抽取上有较好的效果。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims (6)

1.一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于,包含以下步骤:
步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;
步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;
步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;
步骤S4:对步骤S3搭建的关系抽取模型进行训练;
步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。
2.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S1具体为:
步骤S1-1:根据材料领域手册的相关词条,爬取相关论文、专利中的材料文本数据;
步骤S1-2:对步骤S1-1处理后的文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称;
步骤S1-3:重复步骤S1-1至步骤S1-2,获取所有句子都完成标注,即构造完材料领域的语料库。
3.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S2具体为:
步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;
步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;
步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示。
4.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S3具体为:
步骤S3-1:对于步骤S2中得到的每一个字向量xt,利用编码层的BiLSTM分别计算前向和后向传播得到的材料领域文本的特征信息,分别记为
Figure FDA0003054798820000011
步骤S3-2:将
Figure FDA0003054798820000012
拼接得到t时刻编码层的特征向量,记为
Figure FDA0003054798820000013
步骤S3-3:以
Figure FDA0003054798820000021
作为t时刻解码层BiLSTM的输入,同理分别计算前向和后向传播得到材料领域文本的语义信息,分别记为
Figure FDA0003054798820000022
步骤S3-4:拼接得到最终的语义信息
Figure FDA0003054798820000023
Figure FDA0003054798820000024
即为在t时刻解码层BiLSTM根据上下文的信息解析得到的语义向量;
步骤S3-5:将步骤S3-3得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;
步骤S3-6:重复步骤S3-4,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;
步骤S3-7:将步骤S3-3得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取。
5.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S4具体为:
步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:
Figure FDA0003054798820000025
其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;
步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;
步骤S4-4:对模型进行训练,并保存训练后的模型。
6.根据权利要求书所述面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于:所述步骤S5具体为:
步骤S5-1:以步骤S4-1中获得的测试集作为模型的输入,对模型进行测试;
步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:
Figure FDA0003054798820000026
Figure FDA0003054798820000031
Figure FDA0003054798820000032
其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。
CN202110496956.5A 2021-05-07 2021-05-07 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法 Pending CN113342929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496956.5A CN113342929A (zh) 2021-05-07 2021-05-07 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496956.5A CN113342929A (zh) 2021-05-07 2021-05-07 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法

Publications (1)

Publication Number Publication Date
CN113342929A true CN113342929A (zh) 2021-09-03

Family

ID=77469864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496956.5A Pending CN113342929A (zh) 2021-05-07 2021-05-07 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法

Country Status (1)

Country Link
CN (1) CN113342929A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110807084A (zh) * 2019-05-15 2020-02-18 北京信息科技大学 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN110807084A (zh) * 2019-05-15 2020-02-18 北京信息科技大学 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 *

Similar Documents

Publication Publication Date Title
CN103049435B (zh) 文本细粒度情感分析方法及装置
Chen et al. A Two‐Step Resume Information Extraction Algorithm
CN110688488A (zh) 一种通用的知识图谱云服务系统
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN111626050B (zh) 基于表情词典与情感常识的微博情感分析方法
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
Pad'o et al. Predictability of distributional semantics in derivational word formation
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
Foxcroft et al. Name2vec: Personal names embeddings
Haque et al. Literature review of automatic single document text summarization using NLP
CN112749283A (zh) 一种面向法律领域的实体关系联合抽取方法
Raghav et al. Text and citations based cluster analysis of legal judgments
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
do Carmo et al. Embedding propagation over heterogeneous event networks for link prediction
CN112905746A (zh) 一种基于知识图谱技术的制度档案知识挖掘处理方法
CN117033654A (zh) 一种面向科技迷雾识别的科技事件图谱构建方法
CN113342929A (zh) 一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法
CN111008285A (zh) 一种基于论文关键属性网络的作者消歧方法
Luo et al. Towards combining web classification and web information extraction: a case study
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
Moriwal et al. An efficient Algorithm for finding frequent Sequential traversal Patterns from Web Logs Based on Dynamic Weight Constraint
Jena et al. Data extraction and web page categorization using text mining
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels
Zhao et al. Determining the topic hashtags for chinese microblogs based on 5W model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903