CN111274814B

CN111274814B - 一种新型的半监督文本实体信息抽取方法

Info

Publication number: CN111274814B
Application number: CN201911369784.4A
Authority: CN
Inventors: 寿黎但; 王珏; 陈珂; 陈刚; 伍赛; 骆歆远
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-09-24
Anticipated expiration: 2039-12-26
Also published as: CN111274814A

Abstract

本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合；建立有、无监督学习部分，有、无标注的文档分别有、无监督学习；文档和实体类型输入实体抽取模块输出实体信息；文档和短语输入类型选择模块输出短语概率分布；两模块损失值相加为损失；文档输入实体抽取模块获得每个实体类型的损失；文档和短语输入类型选择模块输出短语概率分布；两模块损失值相乘后相加构成损失；两部分加权计算获得总损失，优化训练获得模型参数；将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据，显著增强模型性能，在小样本标注数据的条件下有着显著的提升，也适用于零样本学习的半监督文本数据处理。

Description

一种新型的半监督文本实体信息抽取方法

技术领域

本发明涉及计算机领域下的自然语言处理技术的一种半监督文本数据处理方法，尤其涉及一种基于自我学习机制的半监督文本实体抽取方法。

背景技术

文本实体抽取方法是信息抽取方法和任务导向对话系统中的重要的组成部分，其旨在从给定的文本中抽取文本实体，通常包括命名实体、数字表达式、时间表达式等。目前，文本实体抽取通常被解释为序列标注任务，主要以基于深度学习的方法为主，但是深度学习方法需要大量的标注数据来保证模型的准确率。由于实际应用场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的一大挑战。

半监督学习能够缓解标注数据不足的问题，是同时利用标注数据和无标注数据，通过大量无标注数据来弥补标注数据的不足。目前主要的方法在无标注语料上训练词向量或语言模型，再迁移有标注数据上进行训练。但是这类方法仍然不能有效地学习领域内知识。

发明内容

本发明的目的在于针对现有技术的不足，提供一种新型的新型半监督文本实体抽取方法，能够有效地利用领域内无标注数据，在少量标注数据下准确率有显著的提升，也可适用于零样本学习的半监督文本数据处理。

如图1所示，本发明解决其技术问题采用的技术方案如下：

(1)在大量的众多文档上进行短语分割，由一个文档中的所有短语构成一个短语集合，得到短语集合作为候选实体集合；对一部分文档中的短语进行标注形成有标注的文档，具体标注出短语、短语是否为实体以及实体类型，对另一部分文档中的短语不进行标注形成无标注的文档；有标注的文档是文档中已经标注有短语、该短语是否为实体、以及实体的类型。

(2)建立实体抽取(EE)模块和类型选择(TS)模块：实体抽取模块将文档和一实体类型作为输入，输出该实体类型对应的实体信息的概率分布；类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入，输出该短语所属实体类型的概率分布；

(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型，在有监督学习部分对于有标注的文档进行有监督学习，在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习；有监督学习部分独立地训练实体抽取模块和类型选择模块，无监督学习部分结合有监督学习部分训练实体抽取模块和类型选择模块。

有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块；

有监督学习部分中，已有文档、该文档包含并标注为实体的一个短语、该标注短语对应的标注实体类型，文档和标注实体类型输入到有监督学习部分的实体抽取模块，输出该实体类型对应的实体信息的概率分布；文档和标注短语输入到有监督学习部分的类型选择模块，输出该短语所属实体类型的概率分布；实体抽取模块和类型选择模块的输出通过交叉熵分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值，将两个模块的损失值相加作为有监督学习损失；

无监督学习部分中，已有文档、该文档候选实体集合中采样的一个短语，文档输入到无监督学习部分的实体抽取模块，并依次输入所有实体类型，输出文档中各个词是否组成各个实体类型的概率，计算采样短语与每个实体类型输出的概率分布之间的损失值；文档和候选实体集合中采样的一个短语输入到无监督学习部分的类型选择模块，输出该采样短语所属实体类型的概率分布；实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失，将所有实体类型的初步损失相加构成无监督学习损失loss，表示为：

其中，r_i表示短语所属第i个实体类型的概率，i表示实体类型的序号，C 表示实体类型的总数，loss_i表示第i个实体类型的无监督学习损失；

将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失，然后采用Adam求解方法对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数；

(4)针对待测的文本，将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果，进而获得该实体类型对应的短语，然后将文档以及该实体类型对应的短语输入到类型选择模块输出各个短语所属实体类型的概率分布，针对每个短语取最大概率的所属实体类型和实体抽取模块输入的实体类型进行比较：

若一致，则将该短语作为实体，输出该短语及其实体类型作为实体信息；

若不一致，则舍弃该短语，不作为实体。

本发明中，所述的实体为具有语义含义的短语，例如为张三、李四、北京等。

本发明具体实施中的实体类型分为人名、地名、时间等。不同需求有不同的分类情况，还可以有货币、百分比、机构名等。单个类别比如地点又可以细分为：出发地、目的地、经停地等。

所述的文档采用社交软件数据库中的对话记录数据、电子商务数据库中的商品描述数据等类型的文档。

所述的实体抽取模块包括两个第一双向LSTM神经网络、第一自注意力机制神经网络和第一前馈神经网络，文档输入到第一个第一双向LSTM神经网络中，第一个第一双向LSTM神经网络输出经第一自注意力机制神经网络后输入到第二个第一双向LSTM神经网络中，实体类型同时输入到第二个第一双向 LSTM神经网络，第二个第一双向LSTM神经网络的处理输出输入到第一前馈神经网络中，由第一前馈神经网络输出文档中各个词是否组成该实体类型的结果，由是组成该实体类型的词组成该实体类型对应的短语；如果各个词是组成该实体类型的结果，则提取出该实体类型的短语。

所述的类型选择模块包括两个第二双向LSTM神经网络、第二自注意力神经网络、注意力神经网络和第二前馈神经网络，文档输入到第一个第二双向 LSTM神经网络中，第一个第二双向LSTM神经网络输出经第二自注意力神经网络后输入到第二个第二双向LSTM神经网络中，从该文档的候选实体集合采样的一个短语同时输入到第二个第二双向LSTM神经网络，第二个第二双向 LSTM神经网络的处理的输出输入到注意力神经网络，注意力神经网络的处理输出输入到第二前馈神经网络中，由第二前馈神经网络输出该短语所属实体类型的概率分布。

所述的有监督学习部分和无监督学习部分的实体抽取模块的结构相同且参数共享，有监督学习部分和无监督学习部分的类型选择模块的结构相同且参数共享，训练抽取模型时，有监督学习部分和无监督学习部分的实体抽取模块保持一致，有监督学习部分和无监督学习部分的类型选择模块也保持一致。

所述步骤(2)中，短语分割使用现有工具，或者使用机器学习方法在短语分割数据集上训练，且短语集合中剔除部分停用词。

所述步骤(3)中，有标注的文档不覆盖文档中的所有实体类型，即文档中存在短语的实体类型没有标注。

具体实施中，采用以下评价参数来验证获得本发明方法处理的情况，包括精准率P值、召回率R以及F1值：精准率Precision＝正确抽取的实体数/抽取实体总数*100％；召回率Recall＝正确抽取的实体数/数据集实体总数* 100％；精准率和召回率的调和平均值F1＝2PR/(P+R)。

本发明能够利用海量无标注数据，显著增强模型性能。具体而言，训练模型时，给定一个文档及其包含的一个短语，类型选择模块评估该短语和每个实体类型之间的相关性；同时，对于每个实体类型，实体抽取模块都尝试进行实体预测，并以该短语为标注分别计算损失，最后由刚才所得的相关分数加权求和。

本发明的有益效果是：

相比现有监督方法，本发明方法在小样本标注数据的条件下有着显著的提升；同时，本发明方法能够适用于零样本学习，即在没有对应标注数据的情况下挖掘新实体类型。

本发明利用了大量无标注语料，大幅提高了文本实体抽取的准确率。通过现有的短语分割技术处理，更有效地利用无标注语料所蕴含的丰富信息量。

利用本发明提出的半监督方法，通过两个模块协同训练，能够有效利用该信息。在小样本或者零样本情况下，精准率、召回率及F1值的准确性参数都有大幅的提升。

附图说明

图1是本发明模型训练步骤流程图。

图2是本发明无监督部分的一个例子。

图3是本发明模型训练结构图。

图4是本发明模型所包含的两个模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所述实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例，都属于本发明的保护范围。

本发明实施在小样本的场景下，利用大量无标注语料，从而显著提升文本实体抽取的各项参数，包括精准度、召回率、F1值等。

如图1，本发明具体实施过程和工作原理如下：

(1)在众多文档上进行短语分割，由一个文档中的所有短语构成一个短语集合，得到短语集合作为候选实体集合；

短语分割可采用现有的工具与算法，如Flair[FLAIR:An Easy-to-Use Frameworkfor State-of-the-Art NLP]、AutoPhrase[Automated Phrase Mining from MassiveText Corpora]等方法，并过滤停用词。停用词为一个人为预先定义的词表，包括语气助词“啊”、“哎”，结构助词“的”、“了”，以及其他不重要的词汇“要”、“列出”、“请问”等。

对一部分文档中的短语进行标注形成有标注的文档，具体标注出短语、短语是否为实体以及实体类型，对另一部分文档中的短语不进行标注形成无标注的文档；

例如，文档“列出周六晚上从杭州飞往北京的航班”，经过短语分割与停用词过滤，获得候选实体集合为：“周六晚上”、“杭州”、“北京”。选择部分文档及文档的候选实体集合经过人工标注后形成有标注文档，其中“周六晚上”是事件时间实体类型，“杭州”是出发地实体类型，“北京”是目的地实体类型；对另一部分文档中的短语不进行标注形成无标注的文档。

(2)使用如图3所示框架进行训练。

根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型，见图4，在有监督学习部分对于有标注的文档进行有监督学习，在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习；有监督学习部分独立地训练实体抽取模块和类型选择模块，无监督学习部分结合有监督学习部分训练实体抽取模块和类型选择模块。

有监督学习部分中，准备文档、该文档包含并标注为实体的一个短语、该标注短语对应的标注实体类型，文档和标注实体类型输入到实体抽取模块，输出该实体类型对应的实体信息的概率分布；文档和标注短语输入到类型选择模块，输出该短语所属实体类型的概率分布；实体抽取模块和类型选择模块的输出通过交叉熵分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值，将两个模块的损失值相加作为有监督学习损失；

无监督学习部分中，准备文档、该文档候选实体集合中采样的一个短语，文档输入到实体抽取模块，并依次输入所有实体类型，输出文档中各个词是否组成各个实体类型的概率，计算采样短语与每个实体类型输出的概率分布之间的损失值；文档和采样短语输入到类型选择模块，输出该采样短语所属实体类型的概率分布；实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失，将所有实体类型的初步损失相加构成无监督学习损失loss，表示为：

以文档“列出周六晚上从杭州飞往北京的航班”为例：

有监督学习部分中，准本文档“列出周六晚上从杭州飞往北京的航班”、短语“周六晚上”被标注为实体、该标注短语的标注实体类型为事件时间实体类型。文档“列出周六晚上从杭州飞往北京的航班”输入到实体抽取模块，事件时间实体类型也输入到实体抽取模块，实体抽取模块输出与事件时间实体类型对应的实体信息概率分布，计算短语“周六晚上”与实体抽取模块输出的实体信息概率分布之间的损失值；文档“列出周六晚上从杭州飞往北京的航班”输入到类型选择模块，短语“周六晚上”也输入到类型选择模块，类型选择模块输出短语“周六晚上”所对应的实体类型的概率分布，计算标注的事件时间实体类型与类型选择模块输出的概率分布之间的损失值。将两个模块的损失值相加作为有监督学习损失。

无监督学习部分中，文档“列出周六晚上从杭州飞往北京的航班”的候选实体集合为“周六晚上”、“杭州”、“北京”，随机采样候选实体集合中的一个短语，例如“周六晚上”。将文档“列出周六晚上从杭州飞往北京的航班”输入到实体抽取模块，将所有实体类型包括事件时间实体类型、出发地实体类型、目的地实体类型，也依次输入到实体抽取模块，输出文档“列出周六晚上从杭州飞往北京的航班”中各个词是否组成各个实体类型的概率，分别计算采样短语“周六晚上”与每个实体类型输出的实体信息概率分布的损失；文档“列出周六晚上从杭州飞往北京的航班”和短语“周六晚上”输入到类型选择模块，输出短语“周六晚上”所属实体类型的概率分布；实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语“周六晚上”所属该实体类型的概率对应相乘后获得该实体类型的初步损失，将所有实体类型的初步损失相加构成无监督学习损失。图2展示了无监督学习部分的一个例子。

在每一个训练步中，虽然举例时使用了同一个文档，但实际训练时有监督学习部分和无监督学习部分不需要使用相同的输入文档。

将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失，然后采用Adam求解方法对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数。

(3)针对待测的文本，将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果，进而获得该实体类型对应的短语，然后将文档以及该实体类型对应的短语输入到类型选择模块输出各个短语所属实体类型的概率分布，针对每个短语取最大概率的所属实体类型和实体抽取模块输入的实体类型进行比较：

若不一致，则舍弃该短语，不作为实体。

以文档“列出周六晚上从杭州飞往北京的航班”为例：

假设可能的实体类型为事件时间实体类型、出发地实体类型、目的地实体类型、经停地实体类型，将文档与可能的实体类型依次输入实体抽取模块，分别获得“周六晚上”、“杭州”、“北京”、“北京”，注意这里第二个“北京”是实体抽取模块犯的错误，实际不存在改实体。将这四个预测的短语依次输入类型选择模块，获得每个短语取最大概率的所属实体类型分别为事件时间实体类型、出发地实体类型、目的地实体类型、目的地实体类型，其中前三个与输入实体类型一致，因此输出这些短语及其实体类型；最后一个实体类型不一致，因此舍弃该预测短语，不作为实体。最终获得三个文本实体信息，“周六晚上”为事件时间实体类型，“杭州”为出发地实体类型，“北京”为目的地实体类型。

(4)在公开数据集上进行了实验，结果表明的新型半监督学习方法相对于传统有监督学习方法有非常显著的提升。在特定的数据集上，小样本(如50句标注语句)下F1值相比传统有监督学习方法约提升20％。

本技术领域的人员根据本发明所提供的文字描述、附图以及权利要求书能够很容易在不脱离权力要求书所限定的本发明的思想和范围条件下，可以做出多种变化和改动。凡是依据本发明的技术思想和实质对上述实施例进行的任何修改、等同变化，均属于本发明的权利要求所限定的保护范围之内。

Claims

1.一种新型的半监督文本实体信息抽取方法，其特征在于：方法包括以下步骤：

(2)建立实体抽取模块和类型选择模块：实体抽取模块将文档和一实体类型作为输入，输出该实体类型对应的实体信息的概率分布；类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入，输出该短语所属实体类型的概率分布；

(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型，在有监督学习部分对于有标注的文档进行有监督学习，在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习；

有监督学习部分中，文档和标注实体类型输入到实体抽取模块，输出该实体类型对应的实体信息的概率分布；文档和标注短语输入到类型选择模块，输出该短语所属实体类型的概率分布；实体抽取模块和类型选择模块的输出分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值，将两个模块的损失值相加作为有监督学习损失；

无监督学习部分中，文档输入到实体抽取模块，并依次输入所有实体类型，输出文档中各个词是否组成各个实体类型的概率，计算采样短语与每个实体类型输出的概率分布之间的损失值；文档和候选实体集合中采样的一个短语输入到类型选择模块，输出该采样短语所属实体类型的概率分布；实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失，将所有实体类型的初步损失相加构成无监督学习损失loss，表示为：

其中，r_i表示短语所属第i个实体类型的概率，i表示实体类型的序号，C表示实体类型的总数，loss_i表示第i个实体类型的无监督学习损失；

将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失，然后对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数；

若不一致，则舍弃该短语，不作为实体。

2.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法，其特征在于：所述的实体抽取模块包括两个第一双向LSTM神经网络、第一自注意力机制神经网络和第一前馈神经网络，文档输入到第一个第一双向LSTM神经网络中，第一个第一双向LSTM神经网络输出经第一自注意力机制神经网络后输入到第二个第一双向LSTM神经网络中，实体类型同时输入到第二个第一双向LSTM神经网络，第二个第一双向LSTM神经网络的处理输出输入到第一前馈神经网络中，由第一前馈神经网络输出文档中各个词是否组成该实体类型的结果，由是组成该实体类型的词组成该实体类型对应的短语；

所述的类型选择模块包括两个第二双向LSTM神经网络、第二自注意力神经网络、注意力神经网络和第二前馈神经网络，文档输入到第一个第二双向LSTM神经网络中，第一个第二双向LSTM神经网络输出经第二自注意力神经网络后输入到第二个第二双向LSTM神经网络中，从该文档的候选实体集合采样的一个短语同时输入到第二个第二双向LSTM神经网络，第二个第二双向LSTM神经网络的处理的输出输入到注意力神经网络，注意力神经网络的处理输出输入到第二前馈神经网络中，由第二前馈神经网络输出该短语所属实体类型的概率分布。

3.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法，其特征在于：所述的有监督学习部分和无监督学习部分的实体抽取模块的结构相同且参数共享，有监督学习部分和无监督学习部分的类型选择模块的结构相同且参数共享，训练抽取模型时，有监督学习部分和无监督学习部分的实体抽取模块保持一致，有监督学习部分和无监督学习部分的类型选择模块也保持一致。

4.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法，其特征在于：所述步骤(2)中，短语分割使用现有工具，或者使用机器学习方法在短语分割数据集上训练，且短语集合中剔除部分停用词。

5.根据权利要求1所述的一种新型的半监督文本实体信息抽取方法，其特征在于：所述步骤(3)中，有标注的文档不覆盖文档中的所有实体类型，即文档中存在短语的实体类型没有标注。