CN110826303A - 一种基于弱监督学习的联合信息抽取方法 - Google Patents

一种基于弱监督学习的联合信息抽取方法 Download PDF

Info

Publication number
CN110826303A
CN110826303A CN201911100130.1A CN201911100130A CN110826303A CN 110826303 A CN110826303 A CN 110826303A CN 201911100130 A CN201911100130 A CN 201911100130A CN 110826303 A CN110826303 A CN 110826303A
Authority
CN
China
Prior art keywords
vector
word
entity
label
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911100130.1A
Other languages
English (en)
Inventor
宫法明
司朋举
李昕
马玉辉
唐昱润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201911100130.1A priority Critical patent/CN110826303A/zh
Publication of CN110826303A publication Critical patent/CN110826303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于弱监督学习的联合信息抽取方法,属于自然语言处理领域。本发明为了解决基于有监督学习的信息抽取所造成的数据集标注耗时费力,以及双子任务(信息抽取通常分为两个子任务,实体识别和关系抽取)造成的误差传播问题。我们的信息抽取方法通过将信息抽取转化为序列化数据标注的任务,结合知识表示学习方法,采用联合信息抽取的形式,利用公开知识库结合少量数据集,实现弱监督学习联合信息抽取。我们希望训练一个可以对文本进行更准确的信息抽取模型。通过弱监督学习结合联合信息抽取的策略,经过端到端网络的训练,提高信息抽取的准确率和召回率,与当前的信息抽取方法相比在性能方面有了实质性的改进。

Description

一种基于弱监督学习的联合信息抽取方法
技术领域
本发明属于自然语言处理领域,具体涉及到一种基于弱监督学习的联合信息抽取方法。
背景技术
随着互联网的快速发展,使用人群数量的快速增长,互联网已经给成为了当前规模最大的、内容最丰富且可用的信息源。但是由于互联网数据缺乏语义相关的信息,计算机或程序无法理解这些丰富的数据资源,特别是非结构化的信息。而信息抽取一直是自然语言处理领域的一个重要研究课题,能够将文本中包含的信息进行结构化处理,变成类似表格样式的组织形式,输入信息抽取系统的是原始文本,包含了网页数据和单独的纯文字等内容,输出了固定格式的有效信息点,信息点是从各种各样的文本中抽取出来,随后以统一的格式集成在一起。显然,信息抽取技术可以抽取出有效知识用于构建基于知识的服务。
传统的信息抽取方法需要对实体关系的类型进行预先定义,随后需要人工标注训练集,最后采用机器学习的方法训练分类器进行实体识别和关系抽取。这样就产生了以下问题,对实体关系的预先定义不可能是全面的,且人工构建大规模的训练集是非常耗时费力的。虽然目前国内外研究者在信息抽取的子任务,即命名实体识别和关系抽取,上取得了突破性进展,但是对非结构化文本提取有效信息始终需要分两步进行,即先命名实体识别,再进行关系抽取,或者先进行关系抽取再进行命名实体识别。但是不管这两个子任务以如何顺序进行,都逃脱不了第一个子任务对第二个子任务的误差传播,最后直接影响到了信息抽取的准确率。
发明内容
针对上述问题,本发明提出一种基于弱监督学习的联合信息抽取方法,结合知识表示学习方法,采用联合信息抽取的形式,利用公开知识库结合少量数据集,使得信息提取器的对非结构化文本的提取准确性提高。本发明的具体步骤如下:
S1,预处理通过网络爬虫获取到的文本信息,剔除掉无用信息,并和外部知识库文本对齐,进行自动标注;
S2,对自动标注的文本集进行筛选,对得到的部分文本采用基于序列化标注的Mutiple-BIO标注法进行标注;
S3,将S1和S2生成的数据集分为训练集和测试集,将训练集转换为嵌入向量形式,此步骤中预训练模型采用了表示学习中静定的TransE模型;
S4,使用双向长短期记忆神经网络对向量进行编码,有效地捕获每个词语的语义信息;
S5,使用LSTM解码层生成预测标签序列;
S6,将上步骤产生的标签预测向量,输入Softmax层,结合TransE链接预测概率,进行标签分类,输出该实体标签的概率;
S7,通过最大化以在某一句子条件下预测标签和真实标签相等的概率为底的对数,进行迭代优化目标函数,得到准确率更高的信息提取器。
本发明的技术方案特征和改进为:
对于步骤S2,本发明采用基于序列化标注的Mutiple-BIO标注法对步骤S1中的部分数据进行手工标注,每个单词都被分配了一个有助于提取信息的标签,与提取结果无关的单词标记为“O”,其他标记由实体中的单词位置、关系类型和关系角色三部分组成,若某个实体属于多个三元组,则该实体包含了多个上述的三部分,以并列方式存在。
对于步骤S3,本发明采用知识表示学习中的TransE模型,将训练集随机初始化为向量,以向量的形式作为输入,并产生训练集中实体集和预定义的关系集所对应的词向量作为输出,由于操作主要是调整正确三元组和错误三元组之间的误差,输出的实体关系词向量将根据调整过程正样本向量的变化而改变,给定实体集、关系集和训练集,通过训练集随机的替换头实体或者尾实体构建负样本,计算正确三元组实体和关系之间的距离、负样本中实体关系的距离,并调整两者之间的误差,将实体关系表示成符合现实关系的向量,TransE损失函数如下:
式(1)中,TransE的损失函数分为超参数、正样本距离和负样本距离之差两部分的和,γ表示超参数,f(h,r,t)表示正样本的距离,f(h',r',t')表示负样本的距离,Δ表示正样本集合,Δ'表示负样本集合,[x]+表示max(0,x),其中距离公式为:
f(h,r,t)=(h+r-t)2 (2)
式(2)中,h表示头实体,r表示关系,t表示尾实体。
对于步骤S4,首先将训练集随机向量初始化,随后本发明采用Bi-LSTM双向长短期记忆神经网络将随机初始化产生的向量作为输入,并产生对目标词的预测向量作为输出,迭代模块操作主要包含了向量层、前向长短期记忆网络层、后向长短期记忆网络层以及连接层,输出的向量将根据前向长短期记忆网络层的输出和后向长短期记忆网络层的输出而改变。给定训练集,前向LSTM考虑目标词前面的上下文信息,即从ω1到ωt的上下文信息,得到了目标词的一个预测向量ct,具体计算如下:
Figure BDA0002269600230000031
式(3)中W={ω1,...ωtt+1...ωn}表示了词语序列,ωt∈Rd表示某句话中的第t词的向量表示,该词向量是d维词向量,n表示了该句话中词的个数,ht-1表示Bi-LSTM中的记忆模块中之前隐藏向量,ct-1表示记忆模块中之前原向量;
同时将目标词经过后向LSTM计算,考虑到了目标词后面的上下文信息,即从ωt+1到ωn的上下文信息,得到了另一个预测向量ot,具体计算如下:
ot=δ(Wωoωt+Whoht-1+Wcoct+bo) (4)
随后将上述同时产生的两个向量ct和ot输入连接层,使用双曲正切函数,得到该目标词的预测向量ht,具体计算如下:
ht=ot tanh(ct) (5)
式(5)中ct和ot表示式(3)和式(4)产生的与此目标词向量,ht表示目标词的预测向量。
对于步骤S5,本发明采用长短期记忆网络将S4步骤得到的向量作为输入,产生序列标签作为输出,关键操作是将S4步骤产生的最终预测向量ht以及前向LSTM预测向量和词语所在的位置序号相乘,将其进行更新并连接,最终将双曲正切运算得到预测向量与其所在的位置向量相乘并加上其偏差值,得到预测标签向量作为输出,具体计算如下:
Figure BDA0002269600230000032
式(6)中Tt-1表示了之前预测标签向量,将其与位置信息和偏差值进行运算得到预测标签向量Tt
对于步骤S6,将S5步骤产生的预测标签向量,输入Softmax层,进行标签分类,将其产生的实体标签概率加上TransE链接预测标签概率值进行归一化,输出该实体标签的概率,具体计算如下:
Figure BDA0002269600230000041
式(7)中Wy是Softmax层的矩阵,Nt表示了标签的数量,Tt表示预测标签向量,yt表示实体关系标签概率,最终得到
Figure BDA0002269600230000044
表示了归一化后的标签概率。
对于步骤S7,本发明的网络建立在弱监督学习结合联合信息抽取的基础上,通过迭代优化下述目标函数,我们希望可以训练一个更好的对文本进行信息抽取的模型,得到一个多样化、一体化的信息提取器。总的损失函数如下:
Figure BDA0002269600230000042
式(8)中|D|表示训练集,Lj表示xj这句话的长度,
Figure BDA0002269600230000043
表示xj中第j个词语的标签I(O)表示如果标签为“O”则为0,相反为1。
本发明的基于弱监督学习和联合信息抽取方法,解决了现有技术对文本信息抽取时存在的部分问题,具有以下优点:
(1)本发明为利用互联网信息源的提取工作提供了信息提取的方法,能够提高信息提取的效率及准确率,解放了人力;
(2)在训练模型时引入知识表示学习中的模型,对模型训练进行了更好的监督矫正;
(3)本发明针对信息抽取时存在的有监督耗时费力,将信息抽取拆分为两个子任务存在误差传播的问题,提出利用远程监督结合少量人工标注数据,实现基于弱监督学习的联合信息抽取,从而解决了需要庞大训练集、语料库,以及误差传播的问题,得到多样化、一体化的信息提取器。
附图说明
图1为本发明中基于一种基于弱监督学习的联合信息抽取方法的流程图。
图2为本发明中Mutiple-BIO标注数据示意图。
图3为本发明中Bi-LSTM关键模块网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于弱监督学习的联合信息抽取方法的实现流程图,该方法包含:
S1,预处理通过网络爬虫获取到的文本信息,剔除掉无用信息,针对百度百科词语描述获取确定该词语网页的候选元素以及保存候选元素的文本信息,借用公开的Onlink知识库和纯文本对齐,进行自动标注。
S2,对自动标注的文本集进行筛选,对得到的部分文本采用基于序列化标注的Mutiple-BIO标注法进行人工标注。如图2所示,一个有效地标签由实体中的单词位置、实体关系类型和实体关系角色三部分组成,每个单词都被分配了一个有助于提取信息的标签,与提取结果无关的单词标记为“O”;考虑到了一个实体可能属于多个三元组中的情况,其中实体在传统的BIO标注法上加上了多种关系的标签,以并列的方式区别实体属于哪个三元组,关系类型从预定义的集合中获取,作为训练时所用到的少量数据集。
S3,将S1和S2生成的数据集分为训练集和测试集,且将其涉及到的实体和关系进行预训练,转换为嵌入向量形式,此步骤中预训练模型采用了表示学习中的TransE模型,将训练集随机初始化为向量的形式作为输入,并产生训练集中实体集和预定义的关系集所对应的词向量作为输出,由于操作主要是调整正确三元组和错误三元组之间的误差,输出的实体关系词向量将根据调整过程正样本向量的变化而改变,给定实体集、关系集和训练集,将通过训练集随机的替换头实体或者尾实体构建负样本,计算正确三元组实体和关系之间的距离,负样本中实体关系的距离,并调整两者之间的误差,将实体关系表示成符合现实关系的向量TransE损失函数如下:
Figure BDA0002269600230000051
式(9)中,TransE的损失函数分为超参数和正样本距离和负样本距离之差两部分的和,其中γ表示超参数,f(h,r,t)表示正样本的距离,f(h',r',t')表示负样本的距离,Δ表示正样本集合,Δ'表示负样本集合,[x]+表示max(0,x),其中距离公式为:
f(h,r,t)=(h+r-t)2 (10)
式(10)中,h表示头实体,r表示关系,t表示尾实体。
S4,使用双向长短期记忆网络层对向量进行编码,有效地捕获每个词语的语义信息,其中关键模块包含了前向长短期记忆网络层、后向长短期记忆网络层和连接层,关键思想是通过前向LSTM考虑目标词前面的上下文信息,将目标词语表示为向量,通过后向LSTM考虑目标词后面的上下文信息,将目标词表示为向量,最终将两个向量进行连接,如图3所示,将训练集随机向量初始化,作为Bi-LSTM双向长短期记忆网络的输入,并产生对目标词的预测向量作为输出,迭代模块操作主要包含了向量层、前向长短期记忆网络层、后向长短期记忆网络层以及连接层,输出的向量将根据前向长短期记忆网络层的输出和后向长短期记忆网络层的输出而改变。给定训练集,前向LSTM考虑目标词前面的上下文信息,即从ω1到ωt的上下文信息,得到了目标词的一个预测向量ct,具体计算如下:
Figure BDA0002269600230000061
式(11)中W={ω1,...ωtt+1...ωn}表示了词语序列,ωt∈Rd表示某句话中的第t词的向量表示,该词向量是d维词向量,n表示了该句话中词的个数,ht-1表示Bi-LSTM中的记忆模块中之前隐藏向量,ct-1表示记忆模块中之前原向量;
同时将目标词经过后向LSTM计算,考虑到了目标词后面的上下文信息,即从ωt+1到ωn的上下文信息,得到了另一个预测向量ot,具体计算如下:
ot=δ(Wωoωt+Whoht-1+Wcoct+bo) (12)
随后将上述同时产生的两个向量ct和ot输入连接层,使用双曲正切函数,得到该目标词的预测向量ht,具体计算如下:
ht=ot tan h(ct) (13)
式(13)中ct和ot表示式(3)和式(4)产生的与此目标词向量,ht表示目标词的预测向量。
S5,使用LSTM解码层生成预测标签序列,关键思想是将上步骤产生的最终预测向量以及前向LSTM预测向量同词语的位置相乘,最后加上偏差函数,经过一系列运算,输出目标词的预测标签向量,如图三所示,采用长短期记忆网络将S4步骤得到的向量作为输入,产生序列标签作为输出,关键操作是将S4步骤产生的最终预测向量ht以及前向LSTM预测向量和词语所在的位置序号相乘进行更新并连接,最终经过双曲正切运算得到预测向量与其所在的位置向量相乘加上其偏差值,得到预测标签向量作为输出Tt
Figure BDA0002269600230000071
式(14)中Tt-1表示了之前预测标签向量,表示前向原向量,经过与位置信息和偏差值的运算得到预测标签向量Tt
S6,将S5步骤产生的标签预测向量,输入Softmax层,进行标签分类,将其产生的实体标签概率加上被赋予权重的TransE链接预测标签概率值进行归一化,输出该实体标签的概率,具体计算如下:
Figure BDA0002269600230000073
式(15)中Wy是Softmax层的矩阵,Nt表示了标签的数量,Tt表示预测标签向量,yt表示实体关系标签概率,最终得到
Figure BDA0002269600230000075
表示了归一化后的标签概率。
S7,本发明的网络建立在弱监督学习结合联合信息抽取的基础上,通过迭代优化目标函数,即最大化以在某一句子条件下预测标签和真实标签相等的概率为底的对数,我们希望可以训练一个更好的对文本进行信息抽取的模型,得到一个多样化、一体化的信息提取器。总的损失函数如下:
式(16)中|D|表示训练集,Lj表示xj这句话的长度,表示xj中第j个词语的标签I(O)表示如果标签为“O”则为0,相反为1。
本发明的一种基于弱监督学习的联合信息抽取方法,主要思想是将弱监督学习与联合信息抽取相结合,并引入了知识表示学习中TransE模型。从而得到一个多样化的、一体化的、高准确率的信息抽取器,解决了有监督学习需要巨大语料库的问题、以及传统信息抽取中子任务之间的误差传播问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于弱监督学习的联合信息抽取,其特征即具体步骤如下:
S1,预处理通过网络爬虫获取到的文本信息,剔除掉无用信息,并和外部知识库文本对齐,进行自动标注;
S2,对自动标注的文本集进行筛选,对得到的部分文本采用基于序列化标注的Mutiple-BIO标注法进行标注;
S3,将S1和S2生成的数据集分为训练集和测试集,将训练集转换为嵌入向量形式,此步骤中预训练模型采用了表示学习中经典的TransE模型;
S4,使用双向长短期记忆神经网络对向量进行编码,有效地捕获每个词语的语义信息;
S5,使用LSTM解码层生成预测标签序列;
S6,将上步骤产生的标签预测向量,输入Softmax层,结合TransE链接预测概率,进行标签分类,输出该实体标签的概率;
S7,通过最大化以在某一句子条件下预测标签和真实标签相等的概率为底的对数,进行迭代优化目标函数,得到准确率更高的信息提取器。
2.根据权利1所述的一种基于弱监督学习的联合信息抽取方法,其特征在于,对于步骤S2,本发明采用基于序列化标注的Mutiple-BIO标注法对步骤S1中的部分数据进行手工标注,每个单词都被分配了一个有助于提取信息的标签,与提取结果无关的单词标记为“O”,其他标记由实体中的单词位置、关系类型和关系角色三部分组成,若某个实体属于多个三元组,则该实体包含了多个上述的三部分,以并列方式存在。
3.根据权利1所述的一种基于弱监督学习的联合信息抽取方法,其特征在于,对于步骤S3,本发明采用知识表示学习中的TransE模型,将训练集随机初始化为向量,以向量的形式作为输入,并产生训练集中实体集和预定义的关系集所对应的词向量作为输出,由于操作主要是调整正确三元组和错误三元组之间的误差,输出的实体关系词向量将根据调整过程中正样本向量的变化而改变,给定实体集、关系集和训练集后,通过训练集随机的替换头实体或者尾实体构建负样本,计算正确三元组实体和关系之间的距离、负样本中实体关系的距离,并调整两者之间的误差,将实体关系表示成符合现实关系的向量,TransE损失函数如下:
Figure FDA0002269600220000011
式(1)中,TransE的损失函数分为超参数、正样本距离和负样本距离之差两部分的和,γ表示超参数,f(h,r,t)表示正样本的距离,f(h',r',t')表示负样本的距离,Δ表示正样本集合,Δ'表示负样本集合,[x]+表示max(0,x),其中距离公式为:
f(h,r,t)=(h+r-t)2 (2)
式(2)中,h表示头实体,r表示关系,t表示尾实体。
4.根据权利1所述的一种基于弱监督学习的联合信息抽取方法,其特征在于,对于步骤S4,首先将训练集随机向量初始化,随后本发明采用Bi-LSTM双向长短期记忆神经网络将随机初始化产生的向量作为输入,并产生对目标词的预测向量作为输出,迭代模块操作主要包含了向量层、前向长短期记忆网络层、后向长短期记忆网络层以及连接层,输出的向量将根据前向长短期记忆网络层的输出和后向长短期记忆网络层的输出而改变。给定训练集后,前向LSTM考虑目标词前面的上下文信息,即从ω1到ωt的上下文信息,得到了目标词的一个预测向量ct,具体计算如下:
式(3)中W={ω1,...ωtt+1...ωn}表示了词语序列,ωt∈Rd表示某句话中的第t词的向量表示,该词向量是d维词向量,n表示了该句话中词的个数,ht-1表示Bi-LSTM中的记忆模块中之前隐藏向量,ct-1表示记忆模块中之前原向量;
同时将目标词进行后向LSTM计算,考虑到了目标词后面的上下文信息,即从ωt+1到ωn的上下文信息,得到了另一个预测向量ot,具体计算如下:
ot=δ(Wωoωt+Whoht-1+Wcoct+bo) (4)
随后将上述同时产生的两个向量ct和ot输入连接层,使用双曲正切函数,得到该目标词的预测向量ht,具体计算如下:
ht=ottanh(ct) (5)
式(5)中ct和ot表示了式(3)和式(4)产生的预测目标词向量,ht表示目标词的预测向量。
5.根据权利1所述的一种基于弱监督学习的联合信息抽取方法,其特征在于,对于步骤S5,本发明采用长短期记忆网络将S4步骤得到的向量作为输入,产生序列标签作为输出,关键操作是将S4步骤产生的最终预测向量ht以及前向LSTM预测向量和词语所在的位置序号相乘,将其进行更新并连接,最终将双曲正切运算得到的预测向量与其所在的位置向量进行相乘并加上对应的偏差值,得到预测标签向量作为输出,具体计算如下:
Figure FDA0002269600220000031
式(6)中Tt-1表示了之前预测标签向量,将其与位置信息和偏差值进行运算得到预测标签向量Tt
6.根据权利1所述的一种基于弱监督学习的联合信息抽取方法,其特征在于,对于步骤S6,将S5步骤产生的预测标签向量,输入Softmax层,进行标签分类,将其产生的实体标签概率加上TransE链接预测标签概率值,随后将概率值进行归一化,输出该实体标签的概率,具体计算如下:
Figure FDA0002269600220000032
式(7)中Wy是Softmax层的矩阵,Nt表示了标签的数量,Tt表示预测标签向量,yt表示实体关系标签概率,最终得到
Figure FDA0002269600220000033
表示了归一化后的标签概率。
7.根据权利1所述的一种基于弱监督学习的联合信息抽取方法,其特征在于,对于步骤S7,本发明的网络建立在弱监督学习结合联合信息抽取的基础上,通过迭代优化下述目标函数,我们希望可以训练一个更好的对文本进行信息抽取的模型,得到一个多样化、一体化的信息提取器。总的损失函数如下:
Figure FDA0002269600220000034
式(8)中|D|表示训练集,Lj表示xj这句话的长度,
Figure FDA0002269600220000035
表示xj中第j个词语的标签I(O)表示如果标签为“O”则为0,相反为1。
CN201911100130.1A 2019-11-12 2019-11-12 一种基于弱监督学习的联合信息抽取方法 Pending CN110826303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911100130.1A CN110826303A (zh) 2019-11-12 2019-11-12 一种基于弱监督学习的联合信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911100130.1A CN110826303A (zh) 2019-11-12 2019-11-12 一种基于弱监督学习的联合信息抽取方法

Publications (1)

Publication Number Publication Date
CN110826303A true CN110826303A (zh) 2020-02-21

Family

ID=69554271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911100130.1A Pending CN110826303A (zh) 2019-11-12 2019-11-12 一种基于弱监督学习的联合信息抽取方法

Country Status (1)

Country Link
CN (1) CN110826303A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111563117A (zh) * 2020-07-14 2020-08-21 北京每日优鲜电子商务有限公司 结构化信息显示方法、装置、电子设备和计算机可读介质
CN111832293A (zh) * 2020-06-24 2020-10-27 四川大学 基于头实体预测的实体和关系联合抽取方法
CN112364174A (zh) * 2020-10-21 2021-02-12 山东大学 基于知识图谱的病人病历相似度评估方法及系统
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
CN112861538A (zh) * 2021-02-08 2021-05-28 哈尔滨工业大学 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN113420145A (zh) * 2021-05-11 2021-09-21 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113627194A (zh) * 2021-10-13 2021-11-09 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN114091406A (zh) * 2021-10-15 2022-02-25 北京大学 一种面向知识抽取的智能文本标注方法及系统
CN114138966A (zh) * 2021-11-30 2022-03-04 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
CN114519356A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN115033702A (zh) * 2022-03-04 2022-09-09 贵州电网有限责任公司 一种基于集成学习的变电站选址知识抽取方法
CN116227434A (zh) * 2022-12-27 2023-06-06 中国航空综合技术研究所 基于弱监督学习的航空产品文本实体识别方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488726B (zh) * 2020-03-31 2023-05-23 成都数之联科技股份有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111832293A (zh) * 2020-06-24 2020-10-27 四川大学 基于头实体预测的实体和关系联合抽取方法
CN111832293B (zh) * 2020-06-24 2023-05-26 四川大学 基于头实体预测的实体和关系联合抽取方法
CN111563117A (zh) * 2020-07-14 2020-08-21 北京每日优鲜电子商务有限公司 结构化信息显示方法、装置、电子设备和计算机可读介质
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
CN112364174A (zh) * 2020-10-21 2021-02-12 山东大学 基于知识图谱的病人病历相似度评估方法及系统
CN112861538A (zh) * 2021-02-08 2021-05-28 哈尔滨工业大学 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN113420145A (zh) * 2021-05-11 2021-09-21 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113420145B (zh) * 2021-05-11 2023-05-23 杭州未名信科科技有限公司 一种基于半监督学习的招标文本分类方法与系统
CN113627194A (zh) * 2021-10-13 2021-11-09 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN114091406A (zh) * 2021-10-15 2022-02-25 北京大学 一种面向知识抽取的智能文本标注方法及系统
CN114138966A (zh) * 2021-11-30 2022-03-04 四川大学 一种基于弱监督学习的网络威胁情报文本关键信息抽取方法
CN114519356A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN114519356B (zh) * 2022-02-22 2023-07-18 平安科技(深圳)有限公司 目标词语的检测方法、装置、电子设备及存储介质
CN115033702A (zh) * 2022-03-04 2022-09-09 贵州电网有限责任公司 一种基于集成学习的变电站选址知识抽取方法
CN115033702B (zh) * 2022-03-04 2024-06-04 贵州电网有限责任公司 一种基于集成学习的变电站选址知识抽取方法
CN116227434A (zh) * 2022-12-27 2023-06-06 中国航空综合技术研究所 基于弱监督学习的航空产品文本实体识别方法
CN116227434B (zh) * 2022-12-27 2024-02-13 中国航空综合技术研究所 基于弱监督学习的航空产品文本实体识别方法

Similar Documents

Publication Publication Date Title
CN110826303A (zh) 一种基于弱监督学习的联合信息抽取方法
CN109299216B (zh) 一种融合监督信息的跨模态哈希检索方法和系统
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110929119A (zh) 数据标注方法、装置、设备及计算机存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
Zhang et al. Hypergraph label propagation network
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN113836319B (zh) 融合实体邻居的知识补全方法及系统
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN114021584A (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN117236335A (zh) 基于提示学习的两阶段命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200221