CN112685513A - 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 - Google Patents
一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 Download PDFInfo
- Publication number
- CN112685513A CN112685513A CN202110017771.1A CN202110017771A CN112685513A CN 112685513 A CN112685513 A CN 112685513A CN 202110017771 A CN202110017771 A CN 202110017771A CN 112685513 A CN112685513 A CN 112685513A
- Authority
- CN
- China
- Prior art keywords
- entity
- corpus
- model
- relationship
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 229910021364 Al-Si alloy Inorganic materials 0.000 title claims abstract description 21
- 239000000956 alloy Substances 0.000 title claims abstract description 18
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 239000000463 material Substances 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 6
- 229910045601 alloy Inorganic materials 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 34
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 229910001325 element alloy Inorganic materials 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 238000004883 computer application Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 5
- 229910000521 B alloy Inorganic materials 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于文本挖掘的Al‑Si合金材料实体关系抽取方法,属于计算机应用技术领域。本发明所述方法为收集材料文献并按句子进行切分,形成句子语料集;根据制定的合金关系抽取语料库构建标准进行实体以及实体关系标注,将标注后的语料集随机分为训练语料集和测试语料集;将训练语料集中的样本数据输入至ELMo模型获得词嵌入,得到的词嵌入作为端到端的联合模型的输入,进行模型训练。本发明所述方法解决了从材料文献中抽取实体及实体关系的问题,可以将材料文献中实体和实体间的关系提取出来,与传统方法相比提高了准确率;同时构造了合金关系抽取语料库,解决了材料实体关系语料库的构建问题。
Description
技术领域
本发明涉及一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,属于计算机应用技术领域。
背景技术
材料科学研究中机器可解释的数据主要来源于结构化属性数据库,然而绝大多数的科学知识都是以文本形式发表的,结构化属性数据库中仅包含研究文献中的一小部分知识。材料科学文献是材料科学大数据的一类重要来源,其中包含大量有价值的信息;但是这些信息多以非结构化文本的形式存在,加之文献数目以千万计,因此需要信息的高效获取以及利用有效的计算机技术。
目前关系抽取已广泛应用于特定领域,在生物医学文本挖掘等领域取得了显著成效。随着“材料基因组计划”的提出,现有的材料数据由于共享性较差,不足以支撑材料研发的应用。由于材料科学实体间存在着错综复杂的关系,其中蕴含了大量有价值的信息。因此,材料科学实体关系抽取是信息抽取工作的核心。材料科学实体关系抽取是对于文献中用户关注的实体,如成分、结构、性能以及实验参数等,判定他们在文本范围内的语义上是否存在关系,以及存在何种关系。
然而,已有相关研究表明,不同领域的文本在文本结构及语言表述上存在较大的差异。材料科学文本挖掘不能直接照搬通用NLP的方法和工具,需要进行专门的研究。针对材料科学文献的文本语料在句子级关系抽取上存在的一些问题:一是与通用领域相比,材料科学领域的文章中的句子即长且结构复杂,关系抽取性能有待提高;二是在材料科学领域目前并没有公开的信息抽取评测数据集,由于材料的多样性及复杂性,语料库的构造是需要解决一个主要问题。
发明内容
针对上述背景技术中存在的问题,本发明提供了一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,本方法使用的是深度学习模型,能够在Al-Si合金材料文献中自动抽取实体及实体之间的关系。
为实现上述目的,本发明提供了以下方案:
一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,具体包括如下步骤:
步骤S1,构造语料集,按8:1的比例将语料随机分为训练语料集和测试语料集。
步骤S2,通过资料收集,人工整理出材料实体对间的多种关系,采用端到端的联合模型,对材料实体识别与关系抽取任务进行联合建模;将训练语料输入至联合模型进行训练和测试,生成关系抽取模型。
步骤S3,使用关系抽取模型预测测试语料文本中的实体之间的关系。
进一步的,本发明步骤S1中所述构造语料集还包括:收集整理Al-Si合金的材料科学文献,将材料科学文献按句子进行切分,形成句子语料集。
根据制定的Al-Si合金关系抽取语料库构建标准,利用数据标注平台Brat对语料库数据进行标注,产生.ann和.conll两个文件。
使用BIO标注方法;其中“B”代表某种实体的开始位置,“I”代表某种实体的内部,“O”不代表任何实体类型;将.ann和.conll两个文件的标注内容通过预处理将其转换包括[token_id,token,BIO,relation,head]这五列的输入格式。
本发明所述材料实体对是指材料的科学术语。
优选的,本发明所述的材料实体包括以下11种实体类型:含量、元素、合金、实验、实验结果、测试名、测试值、测试图、相、参数名、参数值;所述多种关系包括以下13种关系:含量-元素、元素-合金、合金-实验、实验-实验结果、实验-参数名、实验结果-参数名、参数名-参数值、合金-测试名、测试名-参数名、测试名-测试值、测试名-测试图、测试名-相、相-测试值。
在步骤S2中生成关系抽取模型还包括:
S21对训练语料进行预处理,将预处理后的数据输入至ELMo模型得到每个词的词向量;
S22采用将实体识别与关系抽取进行联合的端到端建模任务,将关系抽取视为多头选择问题,为每一个实体识别潜在的多种关系来解决实体关系重叠问题;通过基于深度神经网络的BiLSTM模型、CRF模型以及sigmoid函数同时进行材料科学文献中的实体识别和关系抽取;
S23将训练语料输入至联合模型进行训练和测试,生成关系抽取模型,在训练过程中单独留出样本集,将其用于调整模型的超参数并对模型进行初步评估。
进一步的,本发明将训练语料输入至联合模型进行训练和测试,生成关系抽取模型,训练和测试包括以下几个部分:
(1)双向长短期记忆神经网络层(Bi LSTM Layer),LSTM是一种特殊的RNN;针对材料文献中句子长且结构复杂的情况,多层的LSTM能够很好的捕捉较长的依赖关系;采用双向长短期记忆神经网络对文献句子中所有的词向量进行双向编码得到双向的信息,包括前向向量和反向向量步长为i的输出:
(2)CRF Layer(条件随机场层):用于完成NER(命名实体识别)任务,本发明将命名实体识别问题作为一个序列标注问题;为了利用标签之间的依赖关系,在NER中使用一个线性链的CRF,计算每个令牌最可能的实体标签,本发明为每个实体标签计算每个令牌Wi的分数:
s(e)(hi)=V(e)f(U(e)hi+b(e)) (2)
其中上标(e)表示NER任务,f(·)是逐元素激活函数relu.V(e)∈Rp×l,U(e)∈Rl×2d,b(e)∈Rl,d为LSTM的隐藏大小,p为NER标签(例如B-Alloy)的数量,l为图层宽度
假设词向量为W,则得分向量序列为s1 (e),…,sn (e),标签预测向量为y1 (e),…,yn (e),线性链得分定义为:
其中是令牌Wi的预测标签的分数;T是一个正方形转换矩阵,其中每个条目代表从一个标签到另一个标签的转换分数;T∈R(p+2)×(p+2),y01 (e)和yn (e)是分别代表句子开头和结尾的两个辅助标签;然后,将给定标签序列在输入句子w的所有可能标签序列上的概率定义为:
(3)Lable Embedding(标签嵌入)用于学习实体识别标签的嵌入,获得令牌wi的标签嵌入gi;下一层的输入为隐藏LSTM状态hi和令牌wi的标签嵌入gi的拼接:
zi=[hi;gi],i=0,…,n
(4)Sigmoid Layer:使用sigmoid损失来获得多个关系;每一个单词(token)可以与其他的单词(token)有多种关系,本发明预测的元组中,是头向量,是每个令牌wi对应的关系的向量;给定一个令牌序列W和一组关系标签R作为输入,本发明的目标是识别每个令牌wi,i=0,…,n最有可能的头向量和最可能对应的关系标签给定标签rk,本发明计算令牌wi和wj之间的分数:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (5)
上角标r表示关系抽取任务,f()是激活函数,V(r)∈Rl,U(r)∈Rl×(2d+b),W(r)∈Rl ×(2d+b),b(r)∈Rl,其中d是LSTM隐藏层的大小,l是LSTM层的宽度。
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk) (6)
上面公式为令牌wj为令牌wi的头的概率,其关系标签为rk。
在步骤S3中使用关系抽取模型预测测试语料文本中的实体之间的关系包括:
(1)将分割后所得到的句子输入到关系抽取模型,提取出实体关系对;
(2)对提取出的实体关系对进行人工排查,剔除错误的实体关系对。
本发明的有益效果:
本发明的上述技术方案,通过基于深度神经网络的BiLSTM(双向长短期记忆神经网络)模型、CRF模型以及sigmoid函数同时进行材料科学文献中的实体识别和关系抽取,在一定程度上提高了材料数据挖掘效率。另一方面本发明提出了材料实体对间的多种关系,均为材料科学研究所需的基本内容,为材料数据文本挖掘建立基础。
附图说明
图1是本发明方法流程示意图;
图2是本发明Al-Si合金实体关系结构图;
图3是本发明方法模型的结构示意图。
具体实施方式
下面通过实施例对本发明进一步详细说明,但本发明保护范围不局限于所述内容。
材料科学实体关系抽取是对于文献中用户关注的实体,如成分、结构、性能以及实验参数等,判定他们在文本范围内的语义上是否存在关系,以及存在何种关系;如图1、图2和图3所示。
本实施例提供一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,具体包括以下步骤。
(1)收集整理Al-Si合金的材料科学文献,将材料科学文献按句子进行切分,形成句子语料集;根据制定的Al-Si合金关系抽取语料库构建标准,在数据标注平台Brat上对语料库数据进行标注,产生.ann和.conll两个文件;使用BIO标注方法,其中“B”代表某种实体的开始位置,“I”代表某种实体的内部,“O”不代表任何实体类型;将.ann和.conll两个文件的标注内容通过预处理将其转换包括[token_id,token,BIO,relation,head]这五列的输入格式;按8:1的比例将标注好的语料随机分为训练语料集和测试语料集;
(2)根据制定的Al-Si合金关系抽取语料库构建标准,根据标注主干线将文献划分元素、合金、实验、测试以及参数五个部分,如图2所示;最终构建了11种实体类型如表1所示,13种关系类型如表2所示。
表1
表2
(3)将训练语料输入至联合模型,进行训练和测试,生成关系抽取模型;模型包括Embedding Layer,BiLSTM Layer,CRF layer,Label Embeddings,Sigmoid Layer,HeadsRelations,模型结构如图3所示。
在模型Embedding Layer获取一句话的单词向量表示,通过ELMo预训练模型将每一个单词映射成一个单词词向量,模型的输入为一句话的单词向量表示。
采用将实体识别与关系抽取进行联合的端到端建模任务,联合模型进行实体识别和关系抽取的主要模型结构包括以下几个部分:
BiLSTM Layer(双向长短期记忆神经网络层),LSTM是一种特殊的RNN;针对材料文献中句子长且结构复杂的情况,多层的LSTM能够很好的捕捉较长的依赖关系;采用双向的LSTM(BiLSTM)通过双向编码得到双向的信息,包括前向向量和反向向量步长为i的输出:
CRF Layer(条件随机场层)用于完成NER(命名实体识别)任务,将命名实体识别问题作为一个序列标注问题;为了利用标签之间的依赖关系,在NER中使用一个线性链的CRF,计算每个令牌最可能的实体标签,本发明为每个实体标签计算每个令牌Wi的分数:
s(e)(hi)=V(e)f(U(e)hi+b(e)) (2)
其中上标(e)表示NER任务,f(·)是逐元素激活函数relu.V(e)∈Rp×l,U(e)∈Rl×2d,b(e)∈Rl,d为LSTM的隐藏大小,p为NER标签(例如B-Alloy)的数量,l为图层宽度
假设词向量为W,则得分向量序列为s1 (e),…,sn (e),标签预测向量为y1 (e),…,yn (e),线性链得分定义为:
其中是令牌Wi的预测标签的分数;T是一个正方形转换矩阵,其中每个条目代表从一个标签到另一个标签的转换分数;T∈R(p+2)×(p+2),y01 (e)和yn (e)是分别代表句子开头和结尾的两个辅助标签;然后,将给定标签序列在输入句子w的所有可能标签序列上的概率定义为:
Lable Embedding(标签嵌入)用于学习实体识别标签的嵌入,获得令牌wi的标签嵌入gi;下一层的输入为隐藏LSTM状态hi和令牌wi的标签嵌入gi的拼接:
zi=[hi;gi],i=0,…,n
Sigmoid Layer使用sigmoid损失来获得多个关系。每一个单词(token)可以与其他的单词(token)有多种关系,本发明预测的元组中,是头向量,是每个令牌wi对应的关系的向量。给定一个令牌序列W和一组关系标签R作为输入,本发明的目标是识别每个令牌wi,i=0,…,n最有可能的头向量和最可能对应的关系标签给定标签rk,本发明计算令牌wi和wj之间的分数:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (5)
上角标r表示关系抽取任务,f()是激活函数,V(r)∈Rl,U(r)∈Rl×(2d+b),W(r)∈Rl ×(2d+b),b(r)∈Rl,其中d是LSTM隐藏层的大小,l是LSTM层的宽度。
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk) (6)
上面公式为令牌wj为令牌wi的头的概率,其关系标签为rk。
训练完成后将测试样本集输入模型中,将其用于调整模型的超参数并对模型进行初步评估;将待抽取的测试语料数据输入到调整后的关系抽取模型,提取出待抽取文本的实体关系对;对提取出的实体关系对进行人工排查,剔除错误的实体关系对。
如上所述为本发明从材料文献中抽取实体及其实体关系的实施方式介绍,本发明通过收集的训练样本数据,训练联合模型,之后通过该模型预测材料文献中的实体及其关系,并提取出来;提取的实体以及实体关系,参见图2。
以上所述,仅为本发明专利较好的实施例,对本发明而言仅仅是说明性,而非限制性,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (5)
1.一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,具体包括如下步骤:
步骤S1,构造语料集,收集整理Al-Si合金的材料科学文献,将材料科学文献按句子进行切分,形成句子语料集;根据制定的Al-Si合金关系抽取语料库构建标准,利用数据标注平台对句子语料集中的语料数据进行标注,形成标注数据;按8:1的比例将标注后的句子语料集随机分为训练语料集和测试语料集;
步骤S2,通过资料收集,人工整理出材料实体间的多种关系,采用端到端的联合模型,对材料实体识别与关系抽取任务进行联合建模,将训练语料输入至联合模型进行训练和测试,生成关系抽取模型;
步骤S3,使用关系抽取模型预测测试语料文本中的实体之间的关系。
2.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于:对步骤S2中所述的材料实体包括以下11种实体类型:含量、元素、合金、实验、实验结果、测试名、测试值、测试图、相、参数名、参数值;所述多种关系包括以下13种关系:含量-元素、元素-合金、合金-实验、实验-实验结果、实验-参数名、实验结果-参数名、参数名-参数值、合金-测试名、测试名-参数名、测试名-测试值、测试名-测试图、测试名-相、相-测试值。
3.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于:步骤S2中关系抽取模型包括:
S21对训练语料进行预处理,将预处理后的数据输入至ELMo模型得到每个词的词向量;
S22采用将实体识别与关系抽取进行联合的端到端建模任务,将关系抽取视为多头选择问题,为每一个实体识别潜在的多种关系来解决实体关系重叠问题;通过基于深度神经网络的BiLSTM模型、CRF模型以及sigmoid函数同时进行材料科学文献中的实体识别和关系抽取;
S23将训练语料输入至联合模型进行训练和测试,生成关系抽取模型,在训练过程中单独留出样本集,将其用于调整模型的超参数并对模型进行初步评估。
4.根据权利要求3所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于,将训练语料输入至联合模型进行训练和测试,生成关系抽取模型,训练和测试包括以下几个部分:
(2)条件随机场层:在NER中使用一个线性链的CRF,计算每个令牌最可能的实体标签,每个实体标签计算每个令牌Wi的分数:
s(e)(hi)=V(e)f(U(e)hi+b(e)) (2)
其中上标(e)表示NER任务,f(·)是逐元素激活函数relu.V(e)∈Rp×l,U(e)∈Rl×2d,b(e)∈Rl,d为LSTM的隐藏大小,p为NER标签的数量,l为图层宽度;
假设词向量为W,则得分向量序列为s1 (e),...,sn (e),标签预测向量为y1 (e),...,yn (e),线性链得分定义为:
其中是令牌Wi的预测标签的分数;T是一个正方形转换矩阵,其中每个条目代表从一个标签到另一个标签的转换分数;T∈R(p+2)×(p+2),y01 (e)和yn (e)是分别代表句子开头和结尾的两个辅助标签;然后,将给定标签序列在输入句子w的所有可能标签序列上的概率定义为:
(3)标签嵌入:用于学习实体识别标签的嵌入,获得令牌wi的标签嵌入gi;下一层的输入为隐藏LSTM状态hi和令牌wi的标签嵌入gi的拼接:
zi=[hi;gi],i=0,...,n
(4)Sigmoid Layer:使用sigmoid损失来获得多个关系;每一个单词可以与其他的单词有多种关系,预测的元组中,是头向量,是每个令牌wi对应的关系的向量;给定一个令牌序列W和一组关系标签R作为输入,目标是识别每个令牌wi,i=0,...,n最有可能的头向量和最可能对应的关系标签给定标签rk,计算令牌wi和wj之间的分数:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (5)
上角标r表示关系抽取任务,f()是激活函数,V(r)∈Rl,U(r)∈Rl×(2d+b),W(r)∈Rl×(2d+b),b(r)∈Rl,其中d是LSTM隐藏层的大小,l是LSTM层的宽度;
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk) (6)
上面公式为令牌wj为令牌wi的头的概率,其关系标签为rk。
5.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于,步骤S3中使用关系抽取模型预测测试语料文本中的实体之间的关系包括:
将分割后所得到的句子输入到关系抽取模型,提取出实体关系对;
对提取出的实体关系对进行人工排查,剔除错误的实体关系对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110017771.1A CN112685513A (zh) | 2021-01-07 | 2021-01-07 | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110017771.1A CN112685513A (zh) | 2021-01-07 | 2021-01-07 | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685513A true CN112685513A (zh) | 2021-04-20 |
Family
ID=75456272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110017771.1A Pending CN112685513A (zh) | 2021-01-07 | 2021-01-07 | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685513A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221566A (zh) * | 2021-05-08 | 2021-08-06 | 北京百度网讯科技有限公司 | 实体关系抽取方法、装置、电子设备和存储介质 |
CN113779995A (zh) * | 2021-08-26 | 2021-12-10 | 北京科技大学 | 一种基于文本挖掘的科技文献数据自动抽取方法及系统 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
CN111428036A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
-
2021
- 2021-01-07 CN CN202110017771.1A patent/CN112685513A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110781683A (zh) * | 2019-11-04 | 2020-02-11 | 河海大学 | 一种实体关系联合抽取方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
CN111428036A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
Non-Patent Citations (3)
Title |
---|
GIANNIS BEKOULIS等: "Joint entity recognition and relation extraction as a multi-head selection problem", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
吴俊等: "基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究", 《情报学报》 * |
谢腾等: "基于BERT-BiLSTM-CRF模型的中文实体识别", 《计算机系统应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221566A (zh) * | 2021-05-08 | 2021-08-06 | 北京百度网讯科技有限公司 | 实体关系抽取方法、装置、电子设备和存储介质 |
CN113221566B (zh) * | 2021-05-08 | 2023-08-01 | 北京百度网讯科技有限公司 | 实体关系抽取方法、装置、电子设备和存储介质 |
CN113779995A (zh) * | 2021-08-26 | 2021-12-10 | 北京科技大学 | 一种基于文本挖掘的科技文献数据自动抽取方法及系统 |
CN113779995B (zh) * | 2021-08-26 | 2023-07-18 | 北京科技大学 | 一种基于文本挖掘的科技文献数据自动抽取方法及系统 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685513A (zh) | 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110019839A (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN109344187B (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及系统 | |
CN110298403B (zh) | 一种财经新闻中企业主体的情感分析方法和系统 | |
CN105893485B (zh) | 一种基于图书目录的专题自动生成方法 | |
CN111382565A (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN110046248A (zh) | 用于文本分析的模型训练方法、文本分类方法和装置 | |
CN105976056A (zh) | 基于双向rnn的信息提取系统 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN112101014B (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113946685B (zh) | 一种融合规则和深度学习的渔业标准知识图谱构建方法 | |
CN109241520A (zh) | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
Liu et al. | Automatic document metadata extraction based on deep networks | |
CN112069320A (zh) | 一种基于跨度的细粒度情感分析方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
Thattinaphanich et al. | Thai named entity recognition using Bi-LSTM-CRF with word and character representation | |
Vardhan et al. | Named-entity recognition for legal documents | |
Tarride et al. | A comparative study of information extraction strategies using an attention-based neural network | |
CN105975456A (zh) | 一种企业实体名称分析识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |
|
RJ01 | Rejection of invention patent application after publication |