CN110598212A - 一种快速命名体识别方法 - Google Patents

一种快速命名体识别方法 Download PDF

Info

Publication number
CN110598212A
CN110598212A CN201910834672.5A CN201910834672A CN110598212A CN 110598212 A CN110598212 A CN 110598212A CN 201910834672 A CN201910834672 A CN 201910834672A CN 110598212 A CN110598212 A CN 110598212A
Authority
CN
China
Prior art keywords
text
body recognition
named body
named
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910834672.5A
Other languages
English (en)
Inventor
齐涛
黄永峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910834672.5A priority Critical patent/CN110598212A/zh
Publication of CN110598212A publication Critical patent/CN110598212A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出一种快速命名体识别方法,涉及命名体识别领域。该方法首先对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;对预处理完毕的文本分别进行局部信息建模和全局信息建模,得到文本字符的局部上下文表示和全局上下文表示;基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。本发明在保持命名体识别性能的前提下有效地提升了命名体识别的速度。

Description

一种快速命名体识别方法
技术领域
本发明涉及命名体识别领域,具体涉及一种快速命名体识别方法,用于从文本中快速抽取命名实体。
背景技术
命名体识别旨在从文本中提取命名体,并将它们分类为不同的类别,例如人员,位置和组织。例如,在句子“阿里准备去阿里工作”中,命名体识别任务的目的是将第一个“阿里”识别为人员实体,将第二个“阿里”识别为组织实体。命名体识别是自然语言处理领域的一项重要任务,也是许多下游应用程序的先决条件,例如实体链接和关系抽取,这两者对于构建和应用知识图非常重要。因此,命名体识别任务近年来受到越来越多的关注。
近年来,基于深度学习的方法已在命名体识别中广泛使用。这些方法通常基于LSTM(长短时记忆网络)-CRF(条件随机场)架构及其变体。例如,Lample等人提出了一种基于LSTM-CRF的命名体识别方法,其中LSTM用于从句子的上下文信息中学习单词的隐向量表示,CRF用于捕获单词标签之间的依赖关系以进行联合标签解码。Chiu等人提出了一种基于CNN-LSTM-CRF架构的方法,其中卷积神经网络(CNN)网络用于从单词字母中学习单词的表示。彼得斯等人提出了一种基于CNN-LSTMs-CRF架构的名为TagLM的半监督命名体识别方法。他们建议将来自预训练语言模型的上下文单词向量合并到他们的模型中以增强单词表示。与英文文本不同,中文文本中的词语没有明确的分隔符如空格,来将词语进行分割。因此,中文命名体识别通常被建模为字符级序列标记问题。例如,彭等人提出了一种基于LSTM-CRF架构的中文命名体识别方法,其中LSTM网络用于从全局上下文信息中学习字符表示,并且CRF用于捕获用于标签解码的相邻标签之间的依赖性。
然而,计算LSTM网络的时间复杂度非常高。此外,它也难以有效地被并行计算加速,很难通过GPU加速获益。因此,这些基于LSTM-CRF的NER方法的效率通常不令人满意。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种快速命名体识别方法。该方法在保持命名体识别性能的前提下有效地提升了命名体识别的速度。
本发明提出一种快速命名体识别方法,其特征在于,包括以下步骤:
1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;
2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示;
3)对步骤1)预处理完毕的文本进行全局信息进行建模,得到文本字符的全局上下文表示;
4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。
本发明的特点及有益效果在于:
本发明的一种快速命名体识别方法,使用了一个CNNs-SelfAttention-CRF的框架,首先从文本中捕捉文本的局部信息,进而利用这些基于局部信息的字符表示学习基于全局信息的字符表示,并利用两种表示联合解码标签序列。该方法在保持命名体识别性能的前提下有效地提升了命名体识别的速度。
附图说明
图1为为本发明方法的整体流程图。
图2为本发明实施例的工作原理图。
具体实施方式
本发明提出一种快速命名体识别方法,下面结合附图和具体实施例对本发明进一步详细说明如下。
本发明提出一种快速命名体识别方法,整体流程如图1所示,包括以下步骤:
1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;
2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示。
进一步地,在本发明的一个实施例中,步骤2)包括:使用字符向量嵌入矩阵查找所述文本字符的向量表示;使用字符级别的卷积神经网络,根据字符的局部上下文学习文本字符的隐向量表示。
局部信息对于实体的识别十分重要。例如,在“中美关系”中,通过字符“美”,我们可以很容易地推断,字符“中”是一个地名实体。可以理解的是,本发明实施例可以对通过对文本中的字符对文本局部信息进行建模,使用字符嵌入矩阵查找所述字符的语义向量表示;并使用两层字符级别的卷积神经网络,从字符的语义向量表示学习字符的局部上下文表示。
具体而言,图2为本发明实施例的工作原理图。如图2所示,本发明实施例对于一个文本的字符序列[w1,w2,...,wN],需要从中建模文本局部信息的隐向量表示。通过这一个步骤,每个字符通过字符嵌入查找表被映射到一个低维向量,其中V是词汇量大小,D是嵌入维度。在模型训练期间,该字符嵌入查找表的参数可以训练。该文本字符序列被转换为向量序列[e1,e2,…,eN]。
下一层是CNN(Convolutional Neural Networks,卷积神经网络)。将ci记作为i个字符由第一层卷积神经网络学到的表示,其计算方法如下:
ci=ReLU(F1×e(i-k:i+k)+b1),
其中e(i-k:i+k)是从位置i-k到i+k的字符嵌入向量的串联, 是CNN网络中的滤波器参数,NF1是滤波器数量,2k+1是窗口大小。ReLU是非线性激活函数。
将gi记作为第i个字符的局部上下文表示,其为第二层卷积神经网络的输出,其计算方法如下:
gi=ReLU(F2×c(i-t:i+t)+b2),
其中c(i-t:i+t)是从位置i-t到i+t的第一层卷积神经网络输出的串联, 是CNN网络中的滤波器参数,NF2是滤波器数量,2t+1是窗口大小。CNN网络的输出是一系列字符的上下文表示,表示为[g1,g2,…,gN]。
3)对步骤1)预处理完毕的文本进行全局信息建模,得到文本字符的全局上下文表示;
进一步地,在本发明的一个实施例中,所述步骤3)包括:使用字符级的多头自我注意力机制,根据文本字符的全局上下文信息学习字符的隐向量表示。
可以理解的是,本实例可以通过一个多头自我注意力机制,利用文本字符的局部上下文表示对文本的全局信息进行建模,得到文本字符的全局上下文表示。
具体而言,如图2所示,在这一步骤中,多头自我注意力机制利用文本字符的局部上下文表示[g1,g2,...,gN]对文本的全局信息进行建模,得到文本字符的全局上下文表示[m1,m2,...,mM]:
4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。
进一步地,在本发明的一个实施例中,所述步骤4)包括:使用条件随机场利用文本的局部和全局上下文字符表示解码出标签,得到预测的命名实体,获取当前文本实体标注的loss函数。
具体而言,如图2所示,在这一步骤中,我们首先将2)中得到的局部上下文字符表示和3)中得到的全局上下文字符表示进行拼接,得到一个信息更为全面的字符表示hj=[gj;mj]。我们通过条件随机场利用该字符表示h=[h1,h2,…,hN]计算字符序列对应于每一个标签序列y的分数。
Li=WChi+bC,
其中s(r,y)是候选序列y的总分,Li是将第i个字符标记为yi的分数,将两个连续的标签分别分配为yi和yi+1的转移分数,WC,bC和T是条件随机场模型的参数。
将计算该文本序列x标记为标签序列y的概率为:
其中Y为全部候选标签的集合。
最后,我们可以得到命名体识别任务的损失函数为:
其中X为全部文本的集合。
我们通过Adam优化器对损失函数来进行优化训练我们的模型。
在预测阶段,选择p(y|x)中最高的标签序列作为文本的命名体识别结果。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (1)

1.一种快速命名体识别方法,其特征在于,包括以下步骤:
1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;
2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示;
3)对步骤1)预处理完毕的文本进行全局信息进行建模,得到文本字符的全局上下文表示;
4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。
CN201910834672.5A 2019-09-05 2019-09-05 一种快速命名体识别方法 Pending CN110598212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910834672.5A CN110598212A (zh) 2019-09-05 2019-09-05 一种快速命名体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910834672.5A CN110598212A (zh) 2019-09-05 2019-09-05 一种快速命名体识别方法

Publications (1)

Publication Number Publication Date
CN110598212A true CN110598212A (zh) 2019-12-20

Family

ID=68857496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910834672.5A Pending CN110598212A (zh) 2019-09-05 2019-09-05 一种快速命名体识别方法

Country Status (1)

Country Link
CN (1) CN110598212A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761923A (zh) * 2020-10-26 2021-12-07 北京沃东天骏信息技术有限公司 命名实体识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
US20180121413A1 (en) * 2016-10-28 2018-05-03 Kira Inc. System and method for extracting entities in electronic documents
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109977402A (zh) * 2019-03-11 2019-07-05 北京明略软件系统有限公司 一种命名实体识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121413A1 (en) * 2016-10-28 2018-05-03 Kira Inc. System and method for extracting entities in electronic documents
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109977402A (zh) * 2019-03-11 2019-07-05 北京明略软件系统有限公司 一种命名实体识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵亚南等: "融合多头自注意力机制的金融新闻极性分析", 《计算机工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761923A (zh) * 2020-10-26 2021-12-07 北京沃东天骏信息技术有限公司 命名实体识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN110263325A (zh) 中文分词系统
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN109284361A (zh) 一种基于深度学习的实体抽取方法及系统
CN110188175A (zh) 一种基于BiLSTM-CRF模型的问答对抽取方法、系统及存储介质
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114443813B (zh) 一种智能化的在线教学资源知识点概念实体链接方法
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN109446523A (zh) 基于BiLSTM和条件随机场的实体属性抽取模型
CN113486181A (zh) 一种多关系的同步抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191220