CN109543181B - 一种基于主动学习和深度学习相结合的命名实体模型和系统 - Google Patents

一种基于主动学习和深度学习相结合的命名实体模型和系统 Download PDF

Info

Publication number
CN109543181B
CN109543181B CN201811332518.XA CN201811332518A CN109543181B CN 109543181 B CN109543181 B CN 109543181B CN 201811332518 A CN201811332518 A CN 201811332518A CN 109543181 B CN109543181 B CN 109543181B
Authority
CN
China
Prior art keywords
word
model
named entity
example sentence
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811332518.XA
Other languages
English (en)
Other versions
CN109543181A (zh
Inventor
张力文
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN201811332518.XA priority Critical patent/CN109543181B/zh
Publication of CN109543181A publication Critical patent/CN109543181A/zh
Application granted granted Critical
Publication of CN109543181B publication Critical patent/CN109543181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

命名实体识别是信息抽取中的一项基础任务,现阶段工业界主要采用性能卓越的有监督方法来抽取命名实体,但这类方法过分依赖于人工的标注语料,而获取大规模的标注语料是十分困难的。如何利用有效地利用丰富的未标注语料是目前亟待解决的问题。本发明提供了一种基于主动学习和深度学习相结合的命名实体模型及系统。本系统是让命名实体识别模型自动从未标注语料中,选取最有训练价值的代标注例句,提交人工进行标注后,再加入到训练集中,以提高模型的性能。该系统可以让标注人员极大限度地提高工作效率,有效地减少人力成本;本模型的构建使用卷积神经网络(CNN)作为编码器,以减少未登录词对任务的影响;使用长短期记忆网络(LSTM)/GRU作为解码器,以加速模型的训练速度。本发明采用人工与自动相结合的方式进行标注来扩展训练语料,在提高实体识别的精确率和召回率的同时,能够显著地降低人工标注的工作量。

Description

一种基于主动学习和深度学习相结合的命名实体模型和系统
技术领域
本发明涉及文本实体识别领域,具体而言,是一种基于主动学习和深度学习相结合的实体识别模型和系统。
背景技术
命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用极为广泛。比如:从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称以及某些特有词语等等。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。
相较于传统模型,深度神经网络(DNN)在该任务中表现更好。可是,若已标注的训练数据规模太小,深度学习技术的优势则明显减弱。但是,获取已标注的数据成本很高,需要有一定相关经验的标注人员进行多次标注,并反复校验。身处大数据的今天,获取未标注数据十分容易。因此,为了发挥深度学习的最大优势,就要减少其对标注数据的依赖性,并有效提高未标注数据的利用率。在这种情况下,主动学习提供了一种较为有效地选择需要标记的样本的方法。相较于监督式学习,主动学习模型,可以在未标注数据集中选择要标记的示例,并将其放入训练集中,对模型进行训练,不断迭代以提高模型的准确率,从而有效的利用了未标注数据。进一步提高命名实体模型的准确率和召回率,可以为后续的语句甚至篇章的语义分析与研究奠定坚实的基础。
现有的深度学习模型存在以下缺陷:(1)人工标注的语料数据的成本太高。若缺乏大规模、高质量的实体标注语料,将会导致神经网络性能较差,无法准确识别实体;(2)没有利用丰富的未标注数据。未标注数据获取容易,规模巨大。只利用已标注的数据无法大幅度提高模型的准确率和召回率。
发明内容
本发明的目的在于提供一种基于主动学习和深度学习相结合的命名实体模型和系统,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的第一方面,提供一种基于主动学习和深度学习相结合的实体识别模型,该模型包括如下部分:
部分一:字级编码部分。该部分本质上是特征抽取器,由卷积神经网络(CNN)构成,将字向量和字典特征向量拼合,通过CNN抽取例句中每个字的特征,经过卷积、池化等过程,输出有关字的特征向量。
所述部分一包括:
(1)字向量,根据大规模语料利用无监督的方法训练字向量。主流的词向量训练模型是word2vec,Glove以及最新的Elmo模型。本模型使用Glove模型,得到维度100,数目为16783的字向量矩阵。
(2)字典特征向量,字典特征表示某字在词语中位置,例如,在“清热解毒”中,“清”是词语的开头,以‘0’表示,“热”在词语中间,以‘1’表示。“解”同“热”,用‘1’表示,“毒”是词语的结尾,用‘2’表示。此外,单字成词的则用‘3’表示。
部分二:词级编码部分。该部分同样也是CNN构成的特征抽取器,由于例句中某字和周围其他字的存在语义和语法的关系,因而周围字影响着该字的标签。本部分就是提取某字与周围其他字的特征。输出有关词的特征向量。
部分三:标签解码部分。将部分二输出的向量输入长短期记忆网络(LSTM),经过计算得到某字相应标签序列的概率分布。使用softmax作为损失函数,训练命名识别模型。
优选地,长短期记忆网络(LSTM)可以用(GRU)代替。
根据本发明的第二方面,提供一种基于主动学习和深度学习相结合的实体识别系统,该系统包括:
基于深度学习的命名实体模块,所述模块将序列文本转换为向量,并通过深度神经网络,得到句中每个字相应的标签序列的概率分布。
基于主动学习的例句选择模块;所述模块执行如下操作:
A.不确定性采样,依据最小置信度选取待标注例句。
B.选择待标注例句,通过操作A,选择可信度最低的例句,返回给标注员。
(3)标注模块,所述模块是连接标注员和模型的“桥梁”。利用小规模标注语料训练模型,然后在大规模未标注语料中选择最需要人工标注的例句,并回传给标注员令其进行标注。标注员将标好的例句提交给系统,系统获得一定规模的标注例句后,重新训练模型。以上过程称为一轮。经过多轮的不断迭代,逐步提高模型性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了字级编码部分的网络模型;
图2示出了一种基于深度学习命名实体模型;
图3示出了一种基于主动学习和深度学习的命名实体识别系统的工作流程。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示例性地示出了字级编码部分的网络模型。
该模型主要包括:
字向量,整合中文维基百科等中文语料,利用Glove和word2vec模型训练词向量。经过对比,本模型使用Glove向量。
外部字典特征向量,字典特征表示某字在词语中位置,例如,在“清热解毒”中,“清”是词语的开头,以‘0’表示,“热”在词语中间,以‘1’表示。“解”同“热”,用‘1’表示,“毒”是词语的结尾,用‘2’表示。此外,单字成词的则用‘3’表示。综上所述,标号0-3共有4个向量,随机初始化4*50的字典特征向量矩阵。
拼接字向量和外部字典特征向量,作为模型的输入。
图2示例性示出一种基于深度学习命名实体模型。
本模型采用CNN-CNN—GRU网络架构,将字向量和外部特征向量拼接后作为模型的输入,经过两层卷积神经网络的卷积和池化,输出特征向量,最后经过GRU网络,输出相应词的标签序列概率分布。并利用如下公式求最小置信度,选取待标注例句。
Figure BDA0001860380790000041
图3示出了一种基于主动学习和深度学习的命名实体识别系统的工作流程。
用小规模已标注的训练数据训练模型,待模型训练完成后,引入大规模未标注语料。本模型利用主动学习的思想,依据最小置信度,选取待人工标注的例句,回退给标注人员。标注人员进行标注后,将标注例句再次送入模型中,等待积累一定规模的例句后,重新训练模型。注意,为了保证模型的训练速度,训练集并不全利用新标注例句,而是新标注的例句与原标注例句按一定比例混合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (2)

1.一种基于主动学习和深度学习相结合的命名实体识别系统,其特征在于,该系统包括:
1)基于深度学习的命名实体模块,所述基于深度学习的命名实体模块将序列文本转换为向量,并通过深度神经网络,得到句子中每个字相应的标签序列的概率分布;
所述基于深度学习的命名实体模块包括如下部分:
a)字级编码部分,该部分由卷积神经网络构成,将字向量和字典特征向量拼合,通过卷积神经网络抽取例句中每个字的特征,经过卷积、池化,输出有关字的特征向量;
b)词级编码部分,其是由卷积神经网络构成的特征抽取器,该部分提取例句中某个字及该字周围其他字的特征,输出有关词的特征向量;
c)标签解码部分,所述标签解码部分将所述词级编码部分输出的有关词的特征向量输入长短期记忆网络,经过计算得到某字相应标签序列的概率分布,然后利用softmax作为损失函数,训练命名实体识别模型;
所述部分a)中的字向量,根据大规模语料利用无监督的方法进行训练,采用Glove模型,得到维度为100,数目为16783的字向量矩阵;
所述部分a)中的字典特征表示某字在词语中的位置;
2)基于主动学习的例句选择模块,所述基于主动学习的例句选择模块执行如下操作:
(a)不确定性采样:依据最小置信度选取待标注例句;
(b)选择待标注例句:通过操作(a)选择可信度最低的例句返回给标注员;
3)标注模块,所述标注模块连接标注员和模型,利用小规模标注语料训练模型,然后再大规模未标注语料中选择最需要人工标注的例句回传给标注员进行标注,标注员将标注好的例句提交给系统,系统获得一定规模的标注例句后,将新标准例句与原标准例句按照一定比例混合,重新训练模型。
2.一种如权利要求1所述的系统,其特征在于:所述系统经过多次不断迭代,进一步提高模型性能。
CN201811332518.XA 2018-11-09 2018-11-09 一种基于主动学习和深度学习相结合的命名实体模型和系统 Active CN109543181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811332518.XA CN109543181B (zh) 2018-11-09 2018-11-09 一种基于主动学习和深度学习相结合的命名实体模型和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811332518.XA CN109543181B (zh) 2018-11-09 2018-11-09 一种基于主动学习和深度学习相结合的命名实体模型和系统

Publications (2)

Publication Number Publication Date
CN109543181A CN109543181A (zh) 2019-03-29
CN109543181B true CN109543181B (zh) 2023-01-31

Family

ID=65846599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811332518.XA Active CN109543181B (zh) 2018-11-09 2018-11-09 一种基于主动学习和深度学习相结合的命名实体模型和系统

Country Status (1)

Country Link
CN (1) CN109543181B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069602B (zh) * 2019-04-15 2021-11-19 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN111783993A (zh) * 2019-05-23 2020-10-16 北京京东尚科信息技术有限公司 智能标注方法、装置、智能平台及存储介质
CN110287481B (zh) * 2019-05-29 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110502742B (zh) * 2019-07-11 2021-11-05 中国科学院计算技术研究所 一种复杂实体抽取方法、装置、介质及系统
CN110472235A (zh) * 2019-07-22 2019-11-19 北京航天云路有限公司 一种面向中文文本的端到端实体关系联合抽取方法
CN110516253B (zh) * 2019-08-30 2023-08-25 思必驰科技股份有限公司 中文口语语义理解方法及系统
CN110704633B (zh) * 2019-09-04 2023-07-21 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN110795072B (zh) * 2019-10-16 2021-10-29 北京航空航天大学 一种基于群体智能的群智竞赛平台框架系统及方法
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台
CN111695345B (zh) * 2020-06-12 2024-02-23 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
一种基于主动学习的框架元素标注;屠寒非等;《中文信息学报》;20160715(第04期);第44-55页 *
主动学习的多标签图像在线分类;徐美香等;《中国图象图形学报》;20150216(第02期);全文 *
基于深度学习的中文机构名识别研究――一种汉字级别的循环神经网络方法;朱丹浩等;《现代图书情报技术》;20161225(第12期);全文 *
基于深度学习的医疗命名实体识别;张帆等;《计算技术与自动化》;20170315(第01期);全文 *
基于联合模型的中文社交媒体命名实体识别;易黎等;《计算机与数字工程》;20171220(第12期);全文 *
实体―属性抽取的GRU+CRF方法;王仁武等;《现代情报》;20181015(第10期);全文 *

Also Published As

Publication number Publication date
CN109543181A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN109635279B (zh) 一种基于神经网络的中文命名实体识别方法
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN110717331B (zh) 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN110377903B (zh) 一种句子级实体和关系联合抽取方法
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN109359291A (zh) 一种命名实体识别方法
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN112464662B (zh) 医学短语匹配方法、装置、设备及存储介质
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN111339750A (zh) 去除停用语并预测句子边界的口语文本处理方法
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN111382568B (zh) 分词模型的训练方法和装置、存储介质和电子设备
CN110222338A (zh) 一种机构名实体识别方法
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant