CN111125378A - 一种基于自动样本标注的闭环实体抽取方法 - Google Patents

一种基于自动样本标注的闭环实体抽取方法 Download PDF

Info

Publication number
CN111125378A
CN111125378A CN201911354247.2A CN201911354247A CN111125378A CN 111125378 A CN111125378 A CN 111125378A CN 201911354247 A CN201911354247 A CN 201911354247A CN 111125378 A CN111125378 A CN 111125378A
Authority
CN
China
Prior art keywords
entity
training
words
model
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911354247.2A
Other languages
English (en)
Inventor
宿鹏
段飞虎
陈锋涛
冯自强
韩文
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN201911354247.2A priority Critical patent/CN111125378A/zh
Publication of CN111125378A publication Critical patent/CN111125378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自动样本标注的闭环实体抽取方法,所述方法包括:构建种子词库,将领域相关的实体种子词导入词典,存储到数据库中;选取在词典中相关行业领域的实体种子词,然后使用词向量的方法找到关联词,在语料库中通过倒排索引摘取出相关的语料集,进行程序自动标注,生成训练的数据集;把实体识别的训练集数据导入到程序中并通过BiLSTM‑CRF算法进行模型训练操作,生成实体提取的模型;将待检测数据集输入导入模型中,进行实体识别,并根据识别结果,判断模型的性能;将筛选后的实体词导入词典中,在下一次训练时标注训练数据集。

Description

一种基于自动样本标注的闭环实体抽取方法
技术领域
本发明涉及训练集实体识别技术领域,尤其涉及一种基于自动样本标注的闭环实体抽取方法。
背景技术
随着现阶段计算机硬件性能的极大提升,自然语言处理迎来了爆发期,满足着各行各业的不同需求。而实体识别在自然语言处理领域是重要的工具,例如在信息获取,智能问答,机器翻译等场景都有着重要的作用。传统的实体识别的训练样本由人工进行标注,训练样本的性能差异化,导致生成模型也会产生很大的不同,并且传统的人工标记方式造成了大量的的人力浪费。
现有的实体识别方案有:1、基于统计的实体识别,将语料进行分词操作,然后把分词的标记符号转换为实体识别的标记。该方法需要大量的训练数据,来保证模型的可靠型;2、基于规则的实体识别,由语言学家构造模板,选用特征。然后采用模式匹配和字符匹配的手段进行实体识别,该方法依赖于数据字典的建立,并且该方法可移植性差,建设周期长。3、基于神经网络的实体识别模型,可以自动提取特征,是一种数据驱动型方法,但是该方法对参数依赖性大,模型可解释性差。
为了实际项目中实体识别更加方便快捷,在本文中提出了一种基于自动样本标注的闭环实体抽取方法。该方法首先构建种子词库,将领域相关的实体种子词导入词典,存储到数据库中,之通过在语料库中摘取出相关的语料集,进行程序自动标注,然后使用BiLSTM-CRF进行训练模型,之后对待检测样本进行识别,检验模型的可靠性。将实体提取结果进行人为的筛选,避免错误实体的出现,然后将实体导入词典中,方便下次训练的使用。
发明内容
实体识别有助于构建知识图谱的搭建,但是在实际工程中,在很多领域由于缺少足够的训练标注语料,导致实体识别结果错误或者识别的实体不够全面。其相关研究发展十分缓慢。为解决上述技术问题,本发明的目的是提供一种基于自动样本标注的闭环实体抽取方法,该方法用来构建实体语料集。可以因此降低实体识别的工作难度,提高效率,降低人工标注的费时费力。解决了在实际项目中解决一些特殊行业领域的实体识别训练集数据不足,以及提取难度大的问题。
本发明的目的通过以下的技术方案来实现:
一种基于自动样本标注的闭环实体抽取方法,包括:
A构建种子词库,将领域相关的实体种子词导入词典,存储到数据库中;
B选取在词典中相关行业领域的实体种子词,然后使用词向量的方法找到关联词,在语料库中通过倒排索引摘取出相关的语料集,进行程序自动标注,生成训练的数据集;
C把实体识别的训练集数据导入到程序中并通过BiLSTM-CRF算法进行模型训练操作,生成实体提取的模型;
D将待检测数据集输入导入模型中,进行实体识别,并根据识别结果,判断模型的性能;
E将筛选后的实体词导入词典中。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法中使用词向量,BiLSTM-CRF算法进行计算。本发明主要是提出样本的自动标注以及闭环的工作流程,样本的自动标注降低了人力资源的消耗与人工标注的难度。闭环的工作流程缩短整体的工作周期,提高工作效率。推动该领域知识图谱的构建,以及其他应用的发展。
附图说明
图1是基于自动样本标注的闭环实体抽取方法流程图;
图2是BiLSTM-CRF算法的工作流程图;
图3是模型在待检测样本中提取的实体结果图;
图4是实体结果加入词典的操作图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于自动样本标注的闭环实体抽取方法流程,包括以下步骤:
步骤10构建种子词库,将领域相关的实体种子词导入词典,存储到数据库中;
步骤20选取在词典中相关行业领域的实体种子词,然后使用词向量的方法找到关联词,在语料库中通过倒排索引摘取出相关的语料集,进行程序自动标注,标注格式:B-*,I-*,O。B表示该实体的首部,I表示实体短语的中间部分,O表示不是实体;生成训练的数据集,用于后续的操作计算。
步骤30把实体识别的训练集数据导入到程序中并通过BiLSTM-CRF算法进行模型训练操作,生成实体提取的模型;
BiLSTM-CRF算法包括以下操作:
将输入的词转化为向量,随机初始化的embedding矩阵将句子的每个字由one-hot向量映射为低维稠密的字向量;并且对获取的字向量进行dropout操作,避免过拟合问题;
将获取的数据结果作为双向LSTM神经网络隐藏层的输入,经过多层神经元的处理,获取双向LSTM神经网络的输出数据。将输出的隐形状态序列进行拼接操作处理;
将双向LSTM神经网络的输出结果作为CRF算法的输入端。约束最终的预测结果的正确性,进行句子级序列标注工作;
在训练的过程中,经过长时间的迭代,调整参数;最终获得实体识别模型。
步骤40将待检测数据集输入导入模型中,进行实体识别,并根据识别结果,判断模型的性能;
还可以人为对识别结果进行筛选。这样可以避免由于模型识别的错误结果,在下一次训练时导致的误差累积。
步骤50将筛选后的实体词导入词典中。以便在下一次训练模型时,可以获取更加全面准确的训练集。从而实现了一个关于实体识别的闭环工作流程;可以有效地缩短项目周期,提取提高模型的准确率。
上述dropout是指在深度学习网络的训练过程中,防止神经网络过拟合的方法,对于神经网络单元按照一定的概率将其暂时从网络中丢弃。减小对权重的依赖,从而到达减小过拟合的目的。
在上述步骤10中获取医院的真实病例数据,按照统一数据格式进行存储并且抽取其中的实体包括:疾病,症状,身体部位,治疗手段,以及药物名称等,将抽取的实体导入种子词典中。然后通过匹配算法对语料进标注。标注如下所示。
例句:严重的急性闭角型青光眼可以引起晶状体改变。标注成训练文本后为一下格式:
严 O
重 O
的 O
急 B-DISEASE
性 I-DISEASE
闭 I-DISEASE
角 I-DISEASE
型 I-DISEASE
青 I-DISEASE
光 I-DISEASE
眼 I-DISEASE
可 O
以 O
引 O
起 O
晶 B-BODY
状 I-BODY
体 I-BODY
改 O
变 O
。 O
第一列数据表示标注到的实体,第二列的数据表示实体的类别以及该数据在实体中位置。在上述例句中识别到两个实体内容1:急性闭角型青光眼,实体类型为疾病。2:晶状体,实体类型为身体部位。
然后将带有标签序列的训练数据集导入到程序中。用于神经网络实体提取模型的训练,LSTM神经网络计算操作如下:
遗忘门:f(t)=σ(Wfh(t-1)+Ufx(t)+bf)
f(t)代表了遗忘上一层隐藏细胞状态的概率,h(t-1)为上一序列的隐藏状态,x(t)表示本序列数据。Wf,Uf,bf是线性关系的系数和偏倚。
输入门:i(t)=σ(Wih(t-1)+Uix(t)+bi)
a(t)=tanh(Wah(t-1)+Uax(t)+ba)
在输入门由两部分计算组成,用两种计算结果的乘积更新细胞状态。式子涉及到的变量与遗忘门中的相同。
细胞状态:C(t)=C(t-1)⊙f(t)+i(t)⊙a(t)
再次计算中,C(t-1)是上一细胞状态,其他几个变量是上文的计算结果。
输出门:O(t)=σ(Woh(t-1)+Uox(t)+bo)
h(t)=o(t)⊙tanh(C(t))
隐藏状态更新由上述两部分构成,并且会把当前的隐藏状态的计算结果作为输入传输给下一时刻。BiLSTM会有正向和反向的隐藏状态,将两者进行拼接操作,最初生成完整的隐藏状态
Figure RE-GDA0002413657560000051
接下来使用CRF算法进行标注提取实体,长度为n的标签序列 y={y1,y2,y3Λyn},计算文本在y标签序列下的得分如下所示。Zi为BiLSTM 的输出,Ai为CRF算法的转移矩阵。
Figure RE-GDA0002413657560000052
最终计算所有的可能公式如下:
Figure RE-GDA0002413657560000061
该上述公式中yt表示该文本可能概率的集合。在实际计算中需要对真实的标记序列的概率取log计算。
log(P(y|x))=source(x,y)-log(∑(exp(source(x,y'))))
最终预测结果的计算公式如下式所示:
Figure RE-GDA0002413657560000062
CRF算法通过初始化概率和B,I,O的转移概率计算标签学列的最终结果,可以用来尽可能保证标签预测的合法性,降低非法预测序列出现的概率。将最正确的标签序列作为实体提取的结果。
将待检测样本导入生成的模型内计算进行实体提取,输出最大可能性的标签序列,其标签格式如下所示。
例句1:社区获得性肺炎严重威胁儿童健康,属于儿童常见病
标签序列:B-DISEASE I-DISEASE I-DISEASE I-DISEASE I-DISEASE I-DISEASEI-DISEASE O O O O O O O O O O O O O O O O
例句2:年纪小的患者感染后气道上皮细胞充血水肿
标签序列:O O O O O O O O O O O O O B-SYMPTOM I-SYMPTOM I-SYMPTOM I-SYMPTOM
然后通过得出的标注序列就可以对其提取出的实体结果结果如图3所示。
最后步骤:对实体的提取结果进行人为的筛选,将错误标注的实体提取结果筛出,正确的提取结果导入到数据库中的种子词典,实体导入词典操作如图4所示。以便于下次训练时可以得到更全面准确的训练数据集。而且通过人为的筛选避免由于模型识别实际错误导致错误的积累。在下一轮进行实体模型训练时可以获取更加全面准确的训练集,使训练的模型结果更加的可靠。这样就实现了基于样本自动标注的闭环实体抽取的方法。可以避免人工标注的工作量和某些专业领域的标注难度,使得整体的工作周期缩短。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (3)

1.一种基于自动样本标注的闭环实体抽取方法,其特征在于,所述方法包括:
A构建种子词库,将领域相关的实体种子词导入词典,存储到数据库中;
B选取在词典中相关行业领域的实体种子词,然后使用词向量的方法找到关联词,在语料库中通过倒排索引摘取出相关的语料集,进行程序自动标注,生成训练的数据集;
C把实体识别的训练集数据导入到程序中并通过BiLSTM-CRF算法进行模型训练操作,生成实体提取的模型;
D将待检测数据集输入导入模型中,进行实体识别,并根据识别结果,判断模型的性能;
E将筛选后的实体词导入词典中,在下一次训练时标注训练数据集。
2.如权利要求1所述的基于自动样本标注的闭环实体抽取方法,其特征在于,所述步骤B中语料集的自动标注格式为B-*,I-*,O,其中B表示该实体的首部,I表示实体短语的中间部分,O表示不是实体。
3.如权利要求1所述的基于自动样本标注的闭环实体抽取方法,其特征在于,所述步骤C中:BiLSTM-CRF算法包括:
将输入的词转化为向量,随机初始化的embedding矩阵将句子的每个字由one-hot向量映射为低维稠密的字向量;并将获取的字向量进行dropout操作;
将获取的字向量数据结果作为双向LSTM神经网络隐藏层的输入,经过多层神经元的处理,获取双向LSTM神经网络的输出数据;
将双向LSTM神经网络的输出结果作为CRF算法的输入端;
调整训练过程中参数,获得实体识别模型。
CN201911354247.2A 2019-12-25 2019-12-25 一种基于自动样本标注的闭环实体抽取方法 Pending CN111125378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911354247.2A CN111125378A (zh) 2019-12-25 2019-12-25 一种基于自动样本标注的闭环实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911354247.2A CN111125378A (zh) 2019-12-25 2019-12-25 一种基于自动样本标注的闭环实体抽取方法

Publications (1)

Publication Number Publication Date
CN111125378A true CN111125378A (zh) 2020-05-08

Family

ID=70503041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911354247.2A Pending CN111125378A (zh) 2019-12-25 2019-12-25 一种基于自动样本标注的闭环实体抽取方法

Country Status (1)

Country Link
CN (1) CN111125378A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985240A (zh) * 2020-08-19 2020-11-24 腾讯云计算(长沙)有限责任公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
US20180189269A1 (en) * 2016-12-30 2018-07-05 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189269A1 (en) * 2016-12-30 2018-07-05 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张向荣,冯婕,刘芳,焦李成: "模式识别", pages: 178 - 179 *
潘璀然;王青华;汤步洲;姜磊;黄勋;王理;: "基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别", no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985240A (zh) * 2020-08-19 2020-11-24 腾讯云计算(长沙)有限责任公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN111985240B (zh) * 2020-08-19 2024-02-27 腾讯云计算(长沙)有限责任公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN114925678B (zh) * 2022-04-21 2023-05-26 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法

Similar Documents

Publication Publication Date Title
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
US11580415B2 (en) Hierarchical multi-task term embedding learning for synonym prediction
CN108920445B (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN110807320B (zh) 基于cnn双向gru注意力机制的短文本情感分析方法
CN111444726A (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN110210037A (zh) 面向循证医学领域的类别检测方法
CN110287481A (zh) 命名实体语料标注训练系统
CN106919794B (zh) 面向多数据源的药品类实体识别方法及装置
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN108363743A (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN112765952A (zh) 一种图卷积注意力机制下的条件概率联合事件抽取方法
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN112420191A (zh) 一种中医辅助决策系统及方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN114742059A (zh) 一种基于多任务学习的中文电子病历命名实体识别方法
CN111125378A (zh) 一种基于自动样本标注的闭环实体抽取方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN111523320A (zh) 一种基于深度学习的中文病案分词方法
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508

RJ01 Rejection of invention patent application after publication