CN111274814B - 一种新型的半监督文本实体信息抽取方法 - Google Patents

一种新型的半监督文本实体信息抽取方法 Download PDF

Info

Publication number
CN111274814B
CN111274814B CN201911369784.4A CN201911369784A CN111274814B CN 111274814 B CN111274814 B CN 111274814B CN 201911369784 A CN201911369784 A CN 201911369784A CN 111274814 B CN111274814 B CN 111274814B
Authority
CN
China
Prior art keywords
entity
phrase
type
document
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911369784.4A
Other languages
English (en)
Other versions
CN111274814A (zh
Inventor
寿黎但
王珏
陈珂
陈刚
伍赛
骆歆远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911369784.4A priority Critical patent/CN111274814B/zh
Publication of CN111274814A publication Critical patent/CN111274814A/zh
Application granted granted Critical
Publication of CN111274814B publication Critical patent/CN111274814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合;建立有、无监督学习部分,有、无标注的文档分别有、无监督学习;文档和实体类型输入实体抽取模块输出实体信息;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相加为损失;文档输入实体抽取模块获得每个实体类型的损失;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相乘后相加构成损失;两部分加权计算获得总损失,优化训练获得模型参数;将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据,显著增强模型性能,在小样本标注数据的条件下有着显著的提升,也适用于零样本学习的半监督文本数据处理。

Description

一种新型的半监督文本实体信息抽取方法
技术领域
本发明涉及计算机领域下的自然语言处理技术的一种半监督文本数据处理方法,尤其涉及一种基于自我学习机制的半监督文本实体抽取方法。
背景技术
文本实体抽取方法是信息抽取方法和任务导向对话系统中的重要的组成部分,其旨在从给定的文本中抽取文本实体,通常包括命名实体、数字表达式、时间表达式等。目前,文本实体抽取通常被解释为序列标注任务,主要以基于深度学习的方法为主,但是深度学习方法需要大量的标注数据来保证模型的准确率。由于实际应用场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的一大挑战。
半监督学习能够缓解标注数据不足的问题,是同时利用标注数据和无标注数据,通过大量无标注数据来弥补标注数据的不足。目前主要的方法在无标注语料上训练词向量或语言模型,再迁移有标注数据上进行训练。但是这类方法仍然不能有效地学习领域内知识。
发明内容
本发明的目的在于针对现有技术的不足,提供一种新型的新型半监督文本实体抽取方法,能够有效地利用领域内无标注数据,在少量标注数据下准确率有显著的提升,也可适用于零样本学习的半监督文本数据处理。
如图1所示,本发明解决其技术问题采用的技术方案如下:
(1)在大量的众多文档上进行短语分割,由一个文档中的所有短语构成一个短语集合,得到短语集合作为候选实体集合;对一部分文档中的短语进行标注形成有标注的文档,具体标注出短语、短语是否为实体以及实体类型,对另一部分文档中的短语不进行标注形成无标注的文档;有标注的文档是文档中已经标注有短语、该短语是否为实体、以及实体的类型。
(2)建立实体抽取(EE)模块和类型选择(TS)模块:实体抽取模块将文档和一实体类型作为输入,输出该实体类型对应的实体信息的概率分布;类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入,输出该短语所属实体类型的概率分布;
(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型,在有监督学习部分对于有标注的文档进行有监督学习,在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习;有监督学习部分独立地训练实体抽取模块和类型选择模块,无监督学习部分结合有监督学习部分训练实体抽取模块和类型选择模块。
有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块;
有监督学习部分中,已有文档、该文档包含并标注为实体的一个短语、该标注短语对应的标注实体类型,文档和标注实体类型输入到有监督学习部分的实体抽取模块,输出该实体类型对应的实体信息的概率分布;文档和标注短语输入到有监督学习部分的类型选择模块,输出该短语所属实体类型的概率分布;实体抽取模块和类型选择模块的输出通过交叉熵分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值,将两个模块的损失值相加作为有监督学习损失;
无监督学习部分中,已有文档、该文档候选实体集合中采样的一个短语,文档输入到无监督学习部分的实体抽取模块,并依次输入所有实体类型,输出文档中各个词是否组成各个实体类型的概率,计算采样短语与每个实体类型输出的概率分布之间的损失值;文档和候选实体集合中采样的一个短语输入到无监督学习部分的类型选择模块,输出该采样短语所属实体类型的概率分布;实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失,将所有实体类型的初步损失相加构成无监督学习损失loss,表示为:
Figure RE-GDA0002469370320000021
Figure RE-GDA0002469370320000022
其中,ri表示短语所属第i个实体类型的概率,i表示实体类型的序号,C 表示实体类型的总数,lossi表示第i个实体类型的无监督学习损失;
将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失,然后采用Adam求解方法对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数;
(4)针对待测的文本,将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果,进而获得该实体类型对应的短语,然后将文档以及该实体类型对应的短语输入到类型选择模块输出各个短语所属实体类型的概率分布,针对每个短语取最大概率的所属实体类型和实体抽取模块输入的实体类型进行比较:
若一致,则将该短语作为实体,输出该短语及其实体类型作为实体信息;
若不一致,则舍弃该短语,不作为实体。
本发明中,所述的实体为具有语义含义的短语,例如为张三、李四、北京等。
本发明具体实施中的实体类型分为人名、地名、时间等。不同需求有不同的分类情况,还可以有货币、百分比、机构名等。单个类别比如地点又可以细分为:出发地、目的地、经停地等。
所述的文档采用社交软件数据库中的对话记录数据、电子商务数据库中的商品描述数据等类型的文档。
所述的实体抽取模块包括两个第一双向LSTM神经网络、第一自注意力机制神经网络和第一前馈神经网络,文档输入到第一个第一双向LSTM神经网络中,第一个第一双向LSTM神经网络输出经第一自注意力机制神经网络后输入到第二个第一双向LSTM神经网络中,实体类型同时输入到第二个第一双向 LSTM神经网络,第二个第一双向LSTM神经网络的处理输出输入到第一前馈神经网络中,由第一前馈神经网络输出文档中各个词是否组成该实体类型的结果,由是组成该实体类型的词组成该实体类型对应的短语;如果各个词是组成该实体类型的结果,则提取出该实体类型的短语。
所述的类型选择模块包括两个第二双向LSTM神经网络、第二自注意力神经网络、注意力神经网络和第二前馈神经网络,文档输入到第一个第二双向 LSTM神经网络中,第一个第二双向LSTM神经网络输出经第二自注意力神经网络后输入到第二个第二双向LSTM神经网络中,从该文档的候选实体集合采样的一个短语同时输入到第二个第二双向LSTM神经网络,第二个第二双向 LSTM神经网络的处理的输出输入到注意力神经网络,注意力神经网络的处理输出输入到第二前馈神经网络中,由第二前馈神经网络输出该短语所属实体类型的概率分布。
所述的有监督学习部分和无监督学习部分的实体抽取模块的结构相同且参数共享,有监督学习部分和无监督学习部分的类型选择模块的结构相同且参数共享,训练抽取模型时,有监督学习部分和无监督学习部分的实体抽取模块保持一致,有监督学习部分和无监督学习部分的类型选择模块也保持一致。
所述步骤(2)中,短语分割使用现有工具,或者使用机器学习方法在短语分割数据集上训练,且短语集合中剔除部分停用词。
所述步骤(3)中,有标注的文档不覆盖文档中的所有实体类型,即文档中存在短语的实体类型没有标注。
具体实施中,采用以下评价参数来验证获得本发明方法处理的情况,包括精准率P值、召回率R以及F1值:精准率Precision=正确抽取的实体数/抽取实体总数*100%;召回率Recall=正确抽取的实体数/数据集实体总数* 100%;精准率和召回率的调和平均值F1=2PR/(P+R)。
本发明能够利用海量无标注数据,显著增强模型性能。具体而言,训练模型时,给定一个文档及其包含的一个短语,类型选择模块评估该短语和每个实体类型之间的相关性;同时,对于每个实体类型,实体抽取模块都尝试进行实体预测,并以该短语为标注分别计算损失,最后由刚才所得的相关分数加权求和。
本发明的有益效果是:
相比现有监督方法,本发明方法在小样本标注数据的条件下有着显著的提升;同时,本发明方法能够适用于零样本学习,即在没有对应标注数据的情况下挖掘新实体类型。
本发明利用了大量无标注语料,大幅提高了文本实体抽取的准确率。通过现有的短语分割技术处理,更有效地利用无标注语料所蕴含的丰富信息量。
利用本发明提出的半监督方法,通过两个模块协同训练,能够有效利用该信息。在小样本或者零样本情况下,精准率、召回率及F1值的准确性参数都有大幅的提升。
附图说明
图1是本发明模型训练步骤流程图。
图2是本发明无监督部分的一个例子。
图3是本发明模型训练结构图。
图4是本发明模型所包含的两个模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所述实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例,都属于本发明的保护范围。
本发明实施在小样本的场景下,利用大量无标注语料,从而显著提升文本实体抽取的各项参数,包括精准度、召回率、F1值等。
如图1,本发明具体实施过程和工作原理如下:
(1)在众多文档上进行短语分割,由一个文档中的所有短语构成一个短语集合,得到短语集合作为候选实体集合;
短语分割可采用现有的工具与算法,如Flair[FLAIR:An Easy-to-Use Frameworkfor State-of-the-Art NLP]、AutoPhrase[Automated Phrase Mining from MassiveText Corpora]等方法,并过滤停用词。停用词为一个人为预先定义的词表,包括语气助词“啊”、“哎”,结构助词“的”、“了”,以及其他不重要的词汇“要”、“列出”、“请问”等。
对一部分文档中的短语进行标注形成有标注的文档,具体标注出短语、短语是否为实体以及实体类型,对另一部分文档中的短语不进行标注形成无标注的文档;
例如,文档“列出周六晚上从杭州飞往北京的航班”,经过短语分割与停用词过滤,获得候选实体集合为:“周六晚上”、“杭州”、“北京”。选择部分文档及文档的候选实体集合经过人工标注后形成有标注文档,其中“周六晚上”是事件时间实体类型,“杭州”是出发地实体类型,“北京”是目的地实体类型;对另一部分文档中的短语不进行标注形成无标注的文档。
(2)使用如图3所示框架进行训练。
根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型,见图4,在有监督学习部分对于有标注的文档进行有监督学习,在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习;有监督学习部分独立地训练实体抽取模块和类型选择模块,无监督学习部分结合有监督学习部分训练实体抽取模块和类型选择模块。
有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块;
有监督学习部分中,准备文档、该文档包含并标注为实体的一个短语、该标注短语对应的标注实体类型,文档和标注实体类型输入到实体抽取模块,输出该实体类型对应的实体信息的概率分布;文档和标注短语输入到类型选择模块,输出该短语所属实体类型的概率分布;实体抽取模块和类型选择模块的输出通过交叉熵分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值,将两个模块的损失值相加作为有监督学习损失;
无监督学习部分中,准备文档、该文档候选实体集合中采样的一个短语,文档输入到实体抽取模块,并依次输入所有实体类型,输出文档中各个词是否组成各个实体类型的概率,计算采样短语与每个实体类型输出的概率分布之间的损失值;文档和采样短语输入到类型选择模块,输出该采样短语所属实体类型的概率分布;实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失,将所有实体类型的初步损失相加构成无监督学习损失loss,表示为:
Figure RE-GDA0002469370320000061
Figure RE-GDA0002469370320000062
其中,ri表示短语所属第i个实体类型的概率,i表示实体类型的序号,C 表示实体类型的总数,lossi表示第i个实体类型的无监督学习损失;
将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失,然后采用Adam求解方法对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数;
以文档“列出周六晚上从杭州飞往北京的航班”为例:
有监督学习部分中,准本文档“列出周六晚上从杭州飞往北京的航班”、短语“周六晚上”被标注为实体、该标注短语的标注实体类型为事件时间实体类型。文档“列出周六晚上从杭州飞往北京的航班”输入到实体抽取模块,事件时间实体类型也输入到实体抽取模块,实体抽取模块输出与事件时间实体类型对应的实体信息概率分布,计算短语“周六晚上”与实体抽取模块输出的实体信息概率分布之间的损失值;文档“列出周六晚上从杭州飞往北京的航班”输入到类型选择模块,短语“周六晚上”也输入到类型选择模块,类型选择模块输出短语“周六晚上”所对应的实体类型的概率分布,计算标注的事件时间实体类型与类型选择模块输出的概率分布之间的损失值。将两个模块的损失值相加作为有监督学习损失。
无监督学习部分中,文档“列出周六晚上从杭州飞往北京的航班”的候选实体集合为“周六晚上”、“杭州”、“北京”,随机采样候选实体集合中的一个短语,例如“周六晚上”。将文档“列出周六晚上从杭州飞往北京的航班”输入到实体抽取模块,将所有实体类型包括事件时间实体类型、出发地实体类型、目的地实体类型,也依次输入到实体抽取模块,输出文档“列出周六晚上从杭州飞往北京的航班”中各个词是否组成各个实体类型的概率,分别计算采样短语“周六晚上”与每个实体类型输出的实体信息概率分布的损失;文档“列出周六晚上从杭州飞往北京的航班”和短语“周六晚上”输入到类型选择模块,输出短语“周六晚上”所属实体类型的概率分布;实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语“周六晚上”所属该实体类型的概率对应相乘后获得该实体类型的初步损失,将所有实体类型的初步损失相加构成无监督学习损失。图2展示了无监督学习部分的一个例子。
在每一个训练步中,虽然举例时使用了同一个文档,但实际训练时有监督学习部分和无监督学习部分不需要使用相同的输入文档。
将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失,然后采用Adam求解方法对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数。
(3)针对待测的文本,将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果,进而获得该实体类型对应的短语,然后将文档以及该实体类型对应的短语输入到类型选择模块输出各个短语所属实体类型的概率分布,针对每个短语取最大概率的所属实体类型和实体抽取模块输入的实体类型进行比较:
若一致,则将该短语作为实体,输出该短语及其实体类型作为实体信息;
若不一致,则舍弃该短语,不作为实体。
以文档“列出周六晚上从杭州飞往北京的航班”为例:
假设可能的实体类型为事件时间实体类型、出发地实体类型、目的地实体类型、经停地实体类型,将文档与可能的实体类型依次输入实体抽取模块,分别获得“周六晚上”、“杭州”、“北京”、“北京”,注意这里第二个“北京”是实体抽取模块犯的错误,实际不存在改实体。将这四个预测的短语依次输入类型选择模块,获得每个短语取最大概率的所属实体类型分别为事件时间实体类型、出发地实体类型、目的地实体类型、目的地实体类型,其中前三个与输入实体类型一致,因此输出这些短语及其实体类型;最后一个实体类型不一致,因此舍弃该预测短语,不作为实体。最终获得三个文本实体信息,“周六晚上”为事件时间实体类型,“杭州”为出发地实体类型,“北京”为目的地实体类型。
(4)在公开数据集上进行了实验,结果表明的新型半监督学习方法相对于传统有监督学习方法有非常显著的提升。在特定的数据集上,小样本(如50句标注语句)下F1值相比传统有监督学习方法约提升20%。
本技术领域的人员根据本发明所提供的文字描述、附图以及权利要求书能够很容易在不脱离权力要求书所限定的本发明的思想和范围条件下,可以做出多种变化和改动。凡是依据本发明的技术思想和实质对上述实施例进行的任何修改、等同变化,均属于本发明的权利要求所限定的保护范围之内。

Claims (5)

1.一种新型的半监督文本实体信息抽取方法,其特征在于:方法包括以下步骤:
(1)在众多文档上进行短语分割,由一个文档中的所有短语构成一个短语集合,得到短语集合作为候选实体集合;
对一部分文档中的短语进行标注形成有标注的文档,具体标注出短语、短语是否为实体以及实体类型,对另一部分文档中的短语不进行标注形成无标注的文档;
(2)建立实体抽取模块和类型选择模块:实体抽取模块将文档和一实体类型作为输入,输出该实体类型对应的实体信息的概率分布;类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入,输出该短语所属实体类型的概率分布;
(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型,在有监督学习部分对于有标注的文档进行有监督学习,在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习;
有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块;
有监督学习部分中,文档和标注实体类型输入到实体抽取模块,输出该实体类型对应的实体信息的概率分布;文档和标注短语输入到类型选择模块,输出该短语所属实体类型的概率分布;实体抽取模块和类型选择模块的输出分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值,将两个模块的损失值相加作为有监督学习损失;
无监督学习部分中,文档输入到实体抽取模块,并依次输入所有实体类型,输出文档中各个词是否组成各个实体类型的概率,计算采样短语与每个实体类型输出的概率分布之间的损失值;文档和候选实体集合中采样的一个短语输入到类型选择模块,输出该采样短语所属实体类型的概率分布;实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失,将所有实体类型的初步损失相加构成无监督学习损失loss,表示为:
Figure FDA0002339364750000021
Figure FDA0002339364750000022
其中,ri表示短语所属第i个实体类型的概率,i表示实体类型的序号,C表示实体类型的总数,lossi表示第i个实体类型的无监督学习损失;
将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失,然后对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数;
(4)针对待测的文本,将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果,进而获得该实体类型对应的短语,然后将文档以及该实体类型对应的短语输入到类型选择模块输出各个短语所属实体类型的概率分布,针对每个短语取最大概率的所属实体类型和实体抽取模块输入的实体类型进行比较:
若一致,则将该短语作为实体,输出该短语及其实体类型作为实体信息;
若不一致,则舍弃该短语,不作为实体。
2.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法,其特征在于:所述的实体抽取模块包括两个第一双向LSTM神经网络、第一自注意力机制神经网络和第一前馈神经网络,文档输入到第一个第一双向LSTM神经网络中,第一个第一双向LSTM神经网络输出经第一自注意力机制神经网络后输入到第二个第一双向LSTM神经网络中,实体类型同时输入到第二个第一双向LSTM神经网络,第二个第一双向LSTM神经网络的处理输出输入到第一前馈神经网络中,由第一前馈神经网络输出文档中各个词是否组成该实体类型的结果,由是组成该实体类型的词组成该实体类型对应的短语;
所述的类型选择模块包括两个第二双向LSTM神经网络、第二自注意力神经网络、注意力神经网络和第二前馈神经网络,文档输入到第一个第二双向LSTM神经网络中,第一个第二双向LSTM神经网络输出经第二自注意力神经网络后输入到第二个第二双向LSTM神经网络中,从该文档的候选实体集合采样的一个短语同时输入到第二个第二双向LSTM神经网络,第二个第二双向LSTM神经网络的处理的输出输入到注意力神经网络,注意力神经网络的处理输出输入到第二前馈神经网络中,由第二前馈神经网络输出该短语所属实体类型的概率分布。
3.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法,其特征在于:所述的有监督学习部分和无监督学习部分的实体抽取模块的结构相同且参数共享,有监督学习部分和无监督学习部分的类型选择模块的结构相同且参数共享,训练抽取模型时,有监督学习部分和无监督学习部分的实体抽取模块保持一致,有监督学习部分和无监督学习部分的类型选择模块也保持一致。
4.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法,其特征在于:所述步骤(2)中,短语分割使用现有工具,或者使用机器学习方法在短语分割数据集上训练,且短语集合中剔除部分停用词。
5.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法,其特征在于:所述步骤(3)中,有标注的文档不覆盖文档中的所有实体类型,即文档中存在短语的实体类型没有标注。
CN201911369784.4A 2019-12-26 2019-12-26 一种新型的半监督文本实体信息抽取方法 Active CN111274814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911369784.4A CN111274814B (zh) 2019-12-26 2019-12-26 一种新型的半监督文本实体信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911369784.4A CN111274814B (zh) 2019-12-26 2019-12-26 一种新型的半监督文本实体信息抽取方法

Publications (2)

Publication Number Publication Date
CN111274814A CN111274814A (zh) 2020-06-12
CN111274814B true CN111274814B (zh) 2021-09-24

Family

ID=71000130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911369784.4A Active CN111274814B (zh) 2019-12-26 2019-12-26 一种新型的半监督文本实体信息抽取方法

Country Status (1)

Country Link
CN (1) CN111274814B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860669B (zh) * 2020-07-27 2024-05-07 平安科技(深圳)有限公司 Ocr识别模型的训练方法、装置和计算机设备
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN112651513A (zh) * 2020-12-22 2021-04-13 厦门渊亭信息科技有限公司 一种基于零样本学习的信息抽取方法及系统
CN112836017B (zh) * 2021-02-09 2022-07-26 天津大学 一种基于分层主题驱动的自注意力机制的事件检测方法
CN113343697A (zh) * 2021-06-15 2021-09-03 中国科学院软件研究所 基于小样本学习的网络协议实体抽取方法与系统
CN115130462B (zh) * 2022-06-23 2023-09-01 成都信息工程大学 一种基于深度神经网络的信息抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958025A (zh) * 2017-11-13 2018-04-24 北京工业大学 弱监督实体关系抽取方法及其装置和电子设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109858041A (zh) * 2019-03-07 2019-06-07 北京百分点信息科技有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US11170287B2 (en) * 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US11334608B2 (en) * 2017-11-23 2022-05-17 Infosys Limited Method and system for key phrase extraction and generation from text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958025A (zh) * 2017-11-13 2018-04-24 北京工业大学 弱监督实体关系抽取方法及其装置和电子设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109858041A (zh) * 2019-03-07 2019-06-07 北京百分点信息科技有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Semi-Supervised Few-Shot Learning for Dual Question-Answer Extraction;Jue Wang 等;《https://arxiv.org/abs/1904.03898》;20190408;1-7 *
冯钦林.基于半监督和深度学习的生物实体关系抽取.《中国优秀硕士学位论文全文数据库-信息科技辑》.2017,I138-6118. *
半监督集成学习综述;蔡毅 等;《计算机科学》;20170630;7-14 *
基于半监督学习的中文电子病历实体识别和实体关系抽取研究;牧杨子;《中国优秀硕士学位论文全文数据库-信息科技辑》;20181215;I138-1789 *

Also Published As

Publication number Publication date
CN111274814A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN111222305B (zh) 一种信息结构化方法和装置
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN109871955A (zh) 一种航空安全事故因果关系抽取方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN105138570A (zh) 网络言论数据疑似犯罪度计算方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN103793371B (zh) 一种新闻文本情绪倾向分析方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN111435375A (zh) 一种基于FastText的威胁情报自动化标注方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN115080750A (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN105389303A (zh) 一种异源语料自动融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant