CN111125378A

CN111125378A - 一种基于自动样本标注的闭环实体抽取方法

Info

Publication number: CN111125378A
Application number: CN201911354247.2A
Authority: CN
Inventors: 宿鹏; 段飞虎; 陈锋涛; 冯自强; 韩文; 张宏伟
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08

Abstract

本发明公开了一种基于自动样本标注的闭环实体抽取方法，所述方法包括：构建种子词库，将领域相关的实体种子词导入词典，存储到数据库中；选取在词典中相关行业领域的实体种子词，然后使用词向量的方法找到关联词，在语料库中通过倒排索引摘取出相关的语料集，进行程序自动标注，生成训练的数据集；把实体识别的训练集数据导入到程序中并通过BiLSTM‑CRF算法进行模型训练操作，生成实体提取的模型；将待检测数据集输入导入模型中，进行实体识别，并根据识别结果，判断模型的性能；将筛选后的实体词导入词典中，在下一次训练时标注训练数据集。

Description

一种基于自动样本标注的闭环实体抽取方法

技术领域

本发明涉及训练集实体识别技术领域，尤其涉及一种基于自动样本标注的闭环实体抽取方法。

背景技术

随着现阶段计算机硬件性能的极大提升，自然语言处理迎来了爆发期，满足着各行各业的不同需求。而实体识别在自然语言处理领域是重要的工具，例如在信息获取，智能问答，机器翻译等场景都有着重要的作用。传统的实体识别的训练样本由人工进行标注，训练样本的性能差异化，导致生成模型也会产生很大的不同，并且传统的人工标记方式造成了大量的的人力浪费。

现有的实体识别方案有：1、基于统计的实体识别，将语料进行分词操作，然后把分词的标记符号转换为实体识别的标记。该方法需要大量的训练数据，来保证模型的可靠型；2、基于规则的实体识别，由语言学家构造模板，选用特征。然后采用模式匹配和字符匹配的手段进行实体识别，该方法依赖于数据字典的建立，并且该方法可移植性差，建设周期长。3、基于神经网络的实体识别模型，可以自动提取特征，是一种数据驱动型方法，但是该方法对参数依赖性大，模型可解释性差。

为了实际项目中实体识别更加方便快捷，在本文中提出了一种基于自动样本标注的闭环实体抽取方法。该方法首先构建种子词库，将领域相关的实体种子词导入词典，存储到数据库中，之通过在语料库中摘取出相关的语料集，进行程序自动标注，然后使用BiLSTM-CRF进行训练模型，之后对待检测样本进行识别，检验模型的可靠性。将实体提取结果进行人为的筛选，避免错误实体的出现，然后将实体导入词典中，方便下次训练的使用。

发明内容

实体识别有助于构建知识图谱的搭建，但是在实际工程中，在很多领域由于缺少足够的训练标注语料，导致实体识别结果错误或者识别的实体不够全面。其相关研究发展十分缓慢。为解决上述技术问题，本发明的目的是提供一种基于自动样本标注的闭环实体抽取方法，该方法用来构建实体语料集。可以因此降低实体识别的工作难度，提高效率，降低人工标注的费时费力。解决了在实际项目中解决一些特殊行业领域的实体识别训练集数据不足，以及提取难度大的问题。

本发明的目的通过以下的技术方案来实现：

一种基于自动样本标注的闭环实体抽取方法，包括：

A构建种子词库，将领域相关的实体种子词导入词典，存储到数据库中；

B选取在词典中相关行业领域的实体种子词，然后使用词向量的方法找到关联词，在语料库中通过倒排索引摘取出相关的语料集，进行程序自动标注，生成训练的数据集；

C把实体识别的训练集数据导入到程序中并通过BiLSTM-CRF算法进行模型训练操作，生成实体提取的模型；

D将待检测数据集输入导入模型中，进行实体识别，并根据识别结果，判断模型的性能；

E将筛选后的实体词导入词典中。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

该方法中使用词向量，BiLSTM-CRF算法进行计算。本发明主要是提出样本的自动标注以及闭环的工作流程，样本的自动标注降低了人力资源的消耗与人工标注的难度。闭环的工作流程缩短整体的工作周期，提高工作效率。推动该领域知识图谱的构建，以及其他应用的发展。

附图说明

图1是基于自动样本标注的闭环实体抽取方法流程图；

图2是BiLSTM-CRF算法的工作流程图；

图3是模型在待检测样本中提取的实体结果图；

图4是实体结果加入词典的操作图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于自动样本标注的闭环实体抽取方法流程，包括以下步骤：

步骤10构建种子词库，将领域相关的实体种子词导入词典，存储到数据库中；

步骤20选取在词典中相关行业领域的实体种子词，然后使用词向量的方法找到关联词，在语料库中通过倒排索引摘取出相关的语料集，进行程序自动标注，标注格式：B-*，I-*,O。B表示该实体的首部，I表示实体短语的中间部分，O表示不是实体；生成训练的数据集，用于后续的操作计算。

步骤30把实体识别的训练集数据导入到程序中并通过BiLSTM-CRF算法进行模型训练操作，生成实体提取的模型；

BiLSTM-CRF算法包括以下操作：

将输入的词转化为向量，随机初始化的embedding矩阵将句子的每个字由one-hot向量映射为低维稠密的字向量；并且对获取的字向量进行dropout操作，避免过拟合问题；

将获取的数据结果作为双向LSTM神经网络隐藏层的输入，经过多层神经元的处理，获取双向LSTM神经网络的输出数据。将输出的隐形状态序列进行拼接操作处理；

将双向LSTM神经网络的输出结果作为CRF算法的输入端。约束最终的预测结果的正确性，进行句子级序列标注工作；

在训练的过程中，经过长时间的迭代，调整参数；最终获得实体识别模型。

步骤40将待检测数据集输入导入模型中，进行实体识别，并根据识别结果，判断模型的性能；

还可以人为对识别结果进行筛选。这样可以避免由于模型识别的错误结果，在下一次训练时导致的误差累积。

步骤50将筛选后的实体词导入词典中。以便在下一次训练模型时，可以获取更加全面准确的训练集。从而实现了一个关于实体识别的闭环工作流程；可以有效地缩短项目周期，提取提高模型的准确率。

上述dropout是指在深度学习网络的训练过程中,防止神经网络过拟合的方法，对于神经网络单元按照一定的概率将其暂时从网络中丢弃。减小对权重的依赖，从而到达减小过拟合的目的。

在上述步骤10中获取医院的真实病例数据，按照统一数据格式进行存储并且抽取其中的实体包括：疾病，症状，身体部位，治疗手段，以及药物名称等，将抽取的实体导入种子词典中。然后通过匹配算法对语料进标注。标注如下所示。

例句：严重的急性闭角型青光眼可以引起晶状体改变。标注成训练文本后为一下格式：

严 O

重 O

的 O

急 B-DISEASE

性 I-DISEASE

闭 I-DISEASE

角 I-DISEASE

型 I-DISEASE

青 I-DISEASE

光 I-DISEASE

眼 I-DISEASE

可 O

以 O

引 O

起 O

晶 B-BODY

状 I-BODY

体 I-BODY

改 O

变 O

。 O

第一列数据表示标注到的实体，第二列的数据表示实体的类别以及该数据在实体中位置。在上述例句中识别到两个实体内容1：急性闭角型青光眼，实体类型为疾病。2：晶状体，实体类型为身体部位。

然后将带有标签序列的训练数据集导入到程序中。用于神经网络实体提取模型的训练，LSTM神经网络计算操作如下：

遗忘门：f^(t)＝σ(W_fh^(t-1)+U_fx^(t)+b_f)

f^(t)代表了遗忘上一层隐藏细胞状态的概率，h^(t-1)为上一序列的隐藏状态，x^(t)表示本序列数据。W_f，U_f，b_f是线性关系的系数和偏倚。

输入门：i^(t)＝σ(W_ih^(t-1)+U_ix^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_ax^(t)+b_a)

在输入门由两部分计算组成，用两种计算结果的乘积更新细胞状态。式子涉及到的变量与遗忘门中的相同。

细胞状态：C^(t)＝C^(t-1)⊙f^(t)+i^(t)⊙a^(t)

再次计算中，C^(t-1)是上一细胞状态，其他几个变量是上文的计算结果。

输出门：O^(t)＝σ(W_oh^(t-1)+U_ox^(t)+b_o)

h^(t)＝o^(t)⊙tanh(C^(t))

隐藏状态更新由上述两部分构成，并且会把当前的隐藏状态的计算结果作为输入传输给下一时刻。BiLSTM会有正向和反向的隐藏状态，将两者进行拼接操作，最初生成完整的隐藏状态

接下来使用CRF算法进行标注提取实体，长度为n的标签序列 y＝{y₁,y₂,y₃Λy_n}，计算文本在y标签序列下的得分如下所示。Z_i为BiLSTM 的输出，Ai为CRF算法的转移矩阵。

最终计算所有的可能公式如下：

该上述公式中y^t表示该文本可能概率的集合。在实际计算中需要对真实的标记序列的概率取log计算。

log(P(y|x))＝source(x,y)-log(∑(exp(source(x,y'))))

最终预测结果的计算公式如下式所示：

CRF算法通过初始化概率和B，I，O的转移概率计算标签学列的最终结果，可以用来尽可能保证标签预测的合法性，降低非法预测序列出现的概率。将最正确的标签序列作为实体提取的结果。

将待检测样本导入生成的模型内计算进行实体提取，输出最大可能性的标签序列，其标签格式如下所示。

例句1：社区获得性肺炎严重威胁儿童健康，属于儿童常见病

标签序列：B-DISEASE I-DISEASE I-DISEASE I-DISEASE I-DISEASE I-DISEASEI-DISEASE O O O O O O O O O O O O O O O O

例句2：年纪小的患者感染后气道上皮细胞充血水肿

标签序列：O O O O O O O O O O O O O B-SYMPTOM I-SYMPTOM I-SYMPTOM I-SYMPTOM

然后通过得出的标注序列就可以对其提取出的实体结果结果如图3所示。

最后步骤：对实体的提取结果进行人为的筛选，将错误标注的实体提取结果筛出，正确的提取结果导入到数据库中的种子词典，实体导入词典操作如图4所示。以便于下次训练时可以得到更全面准确的训练数据集。而且通过人为的筛选避免由于模型识别实际错误导致错误的积累。在下一轮进行实体模型训练时可以获取更加全面准确的训练集，使训练的模型结果更加的可靠。这样就实现了基于样本自动标注的闭环实体抽取的方法。可以避免人工标注的工作量和某些专业领域的标注难度，使得整体的工作周期缩短。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于自动样本标注的闭环实体抽取方法，其特征在于，所述方法包括：

E将筛选后的实体词导入词典中，在下一次训练时标注训练数据集。

2.如权利要求1所述的基于自动样本标注的闭环实体抽取方法，其特征在于，所述步骤B中语料集的自动标注格式为B-*，I-*,O，其中B表示该实体的首部，I表示实体短语的中间部分，O表示不是实体。

3.如权利要求1所述的基于自动样本标注的闭环实体抽取方法，其特征在于，所述步骤C中：BiLSTM-CRF算法包括：

将输入的词转化为向量，随机初始化的embedding矩阵将句子的每个字由one-hot向量映射为低维稠密的字向量；并将获取的字向量进行dropout操作；

将获取的字向量数据结果作为双向LSTM神经网络隐藏层的输入，经过多层神经元的处理，获取双向LSTM神经网络的输出数据；

将双向LSTM神经网络的输出结果作为CRF算法的输入端；

调整训练过程中参数，获得实体识别模型。