CN110826335B - 一种命名实体识别的方法和装置 - Google Patents

一种命名实体识别的方法和装置 Download PDF

Info

Publication number
CN110826335B
CN110826335B CN201911112724.4A CN201911112724A CN110826335B CN 110826335 B CN110826335 B CN 110826335B CN 201911112724 A CN201911112724 A CN 201911112724A CN 110826335 B CN110826335 B CN 110826335B
Authority
CN
China
Prior art keywords
dictionary
type
entity
training
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911112724.4A
Other languages
English (en)
Other versions
CN110826335A (zh
Inventor
祝彦森
袁灿
于政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911112724.4A priority Critical patent/CN110826335B/zh
Publication of CN110826335A publication Critical patent/CN110826335A/zh
Application granted granted Critical
Publication of CN110826335B publication Critical patent/CN110826335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种命名实体识别方法,包括:根据原始语料修剪原始词典,得到修剪后的词典;将所述原始语料中包含的至少部分潜在实体标注为未知Unknown类型;根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测;根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;根据所述新构建的词典确定训练语料;利用所述训练语料,再次进行训练,得到识别后的实体。本发明还公开了一种命名实体识别的装置。

Description

一种命名实体识别的方法和装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种命名实体识别或抽取的方法和装置。
背景技术
命名实体识别(Named Entity Recognition,NER),也叫实体抽取,是自然语言处理(Natural Language Processing,NLP)领域中的一些复杂任务的基础问题之一,诸如智能问答,关系抽取,图谱构建等过程中都涉及到命名实体识别。实体识别的效果会直接影响后续任务的效果,因此也是NLP研究的一个基础性问题。其中实体的定义最开始是由MUC-6(The Sixth in a Series of Message Understanding Conferences)的实体评测任务进行制定,主要识别文本中的三大类(命名实体、时间表达式、数量表达式)、七小类实体,后续CoNLL-2002(Conference on Computational Natural Language Learning)和CoNLL-2003定义了命名实体识别主要包括人民、地名、机构名、时间和数量等,当然也可以根据具体需求自定义实体类型。命名实体识别则是从非结构化文本中找出相关实体,并标注其文本中的所在位置以及类型。实体抽取任务的核心思想是找到命名实体,并进行类型的识别。
在相关技术领域中,已发展形成以下有关命名实体识别的方案:
1、基于规则的方法
基于规则的方法虽然能够在特定的语料上获得较高的识别效果,但是识别效果越好,越需要大量规则的制定。人工制定命名实体的规则可行性非常低,且基于规则的方法通常是指定场景制定的规则,往往无法移植。
2、基于统计机器学习的方法
统计机器学习方法利用人工标注的语料进行训练,标注语料不需要广博的语言学知识,但是需要大量时间进行数据标注任务。这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料进行一次训练即可,主要方法包括:隐马尔可夫模型(HiddenMarkov Model,HMM)、最大熵(Maximum Entropy,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(Conditional Random Fields,CRF)等。
3、基于深度学习的方法
近年来,随着硬件能力的发展以及词嵌入(word embedding)的出现,神经网络从而可以有效地进行许多NLP任务的处理。使用词向量作为特征进行词语的表示,一方面解决了高维度向量空间带来的数据稀疏问题,另一方面词向量本身也比人工选择的特征包含更多的语义信息,而且该方法可以从非结构化的文本中获取统一向量空间下的特征表示,适用于NER这种典型的序列化标注问题。基于深度学习的主要方法包括:LSTM、DNN、CNN和混合神经网络(HNN)等。
在实践应用中,这些现有的技术方案存在以下不足:
1、基于规则的方法
在构建规则的过程中往往需要大量的语言学知识,不同语言的识别规则不尽相同,而且需要规则之间可能存在冲突的问题;构建规则的过程费时费力、且可移植性能力差。
2、基于统计机器学习的方法
特征需要人工提取,耗时耗力;用one-hot编码表示词语并不能很好地表述语义信息。
3、基于神经网络的方法
对每个token打标签的过程是一个独立的分类,所以不能直接利用上文已经预测的标签(只能靠隐状态传递上文信息),进而导致预测出的标签序列可能是非法的,例如标签B-LOC后面应该紧跟着I-LOC,但神经网络进行多分类时使用的Softmax不会利用这个信息,有可能会出现实体开头为I-LOC,后面却连接着I-PER;该LOC实体没有开始的标签(B-LOC),且PER实体前也没有B-PER,这是明显错误的预测结果。
因此,为了不断提升命名实体识别(即实体抽取)的识别效果,需要不断发展改进相关技术方案。
发明内容
鉴于相关命名实体识别方案存在诸多不足,本发明提供一种命名实体识别的方法和装置,改进了命名实体识别的方案,提高了识别准确性,整体提升了识别效果。
本发明提供了一种命名实体识别方法,其特征在于,包括:
根据原始语料修剪原始词典,得到修剪后的词典;
将所述原始语料中包含的至少部分潜在实体标注为未知Unknown类型;
根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测;
根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;
根据所述新构建的词典确定训练语料;
利用所述训练语料,再次进行训练,得到识别后的实体。
可选地,其中,所述根据原始语料修剪原始词典,得到修剪后的词典,包括:对原始语料进行分词处理,得到至少一个分词;
从所述原始词典中将不属于所述至少一个分词的其他词删除,得到所述修剪后的词典。
可选地,其中,所述针将所述原始语料中包含的至少部分潜在实体标注为未知Unknown类型,包括:
对所述原始语料进行分词处理,得到至少一个分词;
根据所述修剪后的词典,将所获得的至少一个分词中部分分词中不明确其类型的分词作为潜在实体,标注为未知Unknown类型。
可选地,其中,根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测,包括:
根据标注后的潜在实体,通过双向长短期记忆网络-条件随机场BiLSTM-CRF模型对原始语料处理后得到的分词进行训练,找出所有Unknown类型的分词,生成Unknown类型的实体词典;
通过K最近邻KNN分类算法对所述修剪后的词典中的不同类型的实体进行训练;根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中潜在实体对应的类型;其中,KNN分类算法中的k值为大于或等于1的自然数。
可选地,其中,所述根据初步训练及预测结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典,包括:
将所述Unknown类型的实体词典中预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典。
可选地,其中,根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中潜在实体对应的类型,包括:
针对所述Unknown类型的实体词典中的实体,根据所得到的训练结果,通过所述KNN分类算法分别计算各不同类型的类别中心和Unknown类型的潜在实体之间的距离,选择距离最近的类别中心对应的类型作为所述Unknown类型的潜在实体的预测的类型。
可选地,其中,所述根据所述新构建的词典确定训练语料,包括:
使用BERT模型将新构建的词典中每个词及所对应的类型输入到词嵌入的字向量模型中,找到类型所对应的词向量,采用所述词向量作为训练语料。
可选地,其中,所述利用所述训练语料,再次进行训练,得到识别后的实体,包括:
将词嵌入之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定原始语料中潜在实体的类型,完成对潜在实体的识别。
本发明还提供一种命名实体识别的装置,其特征在于,包括:
修剪模块,设置为根据原始语料修剪原始词典,得到修剪后的词典;
标注模块,设置为将所述原始语料中包含的至少部分潜在实体标注为未知Unknown类型;
初步预测模块,设置为根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测;
识别模块,设置为根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;根据所述新构建的词典确定训练语料;利用所述训练语料,再次进行训练,得到识别后的实体。
可选地,所述识别模块,还设置为使用BERT模型将新构建的词典中每个词及所对应的类型输入到词嵌入的字向量模型中,找到类型所对应的词向量,采用所述词向量作为训练语料;将词嵌入之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定原始语料中潜在实体的类型,完成对潜在实体的识别。
本发明提供的一种命名实体识别的方法和装置,是一种多策略融合的命名实体识别方案,是一种基于深度学习+条件随机场、词嵌入和词典进行融合的实体抽取方法,克服了现有技术方案的不足,提升了命名实体识别效果。
附图说明
图1为本发明实施例一提供的一种命名实体识别方法流程图;
图2为本发明实施例二提供的一种命名实体识别方法流程图;
图3为本发明实施例二中提供的KNN训练和预测结果示例图;
图4为本发明实施例三提供的一种命名实体识别装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
首先,本领域相关技术术语定义如下:
Word Embedding:又称词嵌入,是自然语言处理中语言模型与表征学习技术的统称。它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
BiLSTM:BiLSTM是Bi-directional Long Short-Term Memory的缩写,双向长短期记忆网络,是由前向LSTM与后向LSTM组合而成。LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。两者在自然语言处理任务中都常被用来建模上下文信息。
CRF:条件随机场(Conditional Random Fields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。
KNN:K最近邻(KNN,k-Nearest Neighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
BERT模型:Bidirectional Encoder Representation from Transformers,即对Transformer的双向编码进行调整后的算法。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP(Natural Language Processing)任务中作微调,最终应用于该NLP任务。
词典:指的是人工构建的词库,比如词库里有一些代表地名的词,如某某路,某某镇等,标记为LOC;杨某某,周某某等人名被标记为PER。
实施例一
如图1所示,本实施例提供一种命名实体识别的方法,包括:
步骤101,根据原始语料修剪原始词典,得到修剪后的词典;
步骤102,将所述原始语料中包含的部分潜在实体标注为未知Unknown类型;
步骤103,根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测;
步骤104,根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;
步骤105,根据所述新构建的词典确定训练语料;
步骤106,利用所述训练语料,再次进行训练,得到识别后的实体。
可选地,其中,所述根据原始语料修剪原始词典,得到修剪后的词典,包括:对原始语料进行分词处理,得到至少一个分词;从所述原始词典中将不属于所述至少一个分词的其他词删除,得到所述修剪后的词典。
可选地,其中,所述针对原始语料,进行数据标注,将所述原始语料中包含的部分潜在实体标注为未知Unknown类型,包括:对所述原始语料进行分词处理,得到至少一个分词;根据所述修剪后的词典,将所获得的至少一个分词中部分分词中不明确其分词类型的潜在实体标注为未知Unknown类型。
可选地,其中,根据标注后的潜在实体,对原始语料进行Unknown类型的训练及预测,包括:
根据标注后的潜在实体,通过BiLSTM-CRF模型对原始语料处理后得到的分词进行训练,找出所有Unknown类型的分词,生成Unknown类型的实体词典;
通过K最近邻KNN分类算法对所述修剪后的词典中的不同类型的实体进行训练;根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中至少一个潜在实体的类型;其中,KNN分类算法中的k值为大于或等于1的自然数。
可选地,其中,所述根据训练及预测结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典,包括:
将所述Unknown类型的实体词典中预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典。
可选地,其中,根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中至少一个潜在实体的类型,包括:
针对所述Unknown类型的实体词典中的实体,根据所得到的训练结果,通过所述KNN分类算法分别计算各不同类型的类别中心和Unknown类型的潜在实体之间的距离,选择距离最近的类别中心对应的类型作为所述Unknown类型的潜在实体的预测的类型。
可选地,其中,所述根据所述新构建的词典确定训练语料,包括:
使用BERT模型将新构建的词典中每个词及所对应的类型输入到词嵌入的字向量模型中,找到类型所对应的词向量,采用所述词向量作为训练语料。
可选地,其中,所述利用所述训练语料,再次进行训练,得到识别后的实体,包括:
将词嵌入之后的向量连接上具有CRF层的BiLSTM网络进行训练,确定原始语料中潜在实体的类型,完成对潜在实体的识别;即,通过BiLSTM-CRF模型对新构建的词典所对应的上述训练语料进行训练,确定原始语料中潜在实体的类型。
实施例二
如图2所示,本实施例提供一种命名实体识别的方法,包括:
步骤201,对原始语料进行分词处理,得到分词集合,从所述原始词典中将不属于分词集合的其他词删除,得到所述修剪后的词典。
步骤202,根据所述修剪后的词典,将原始语料分词处理后得到的部分分词中不明确其类型的潜在实体标注为未知Unknown类型。
步骤203,根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测。
可选地,其中,步骤203包括:根据标注后的潜在实体,通过BiLSTM-CRF模型对原始语料的分词进行训练,找出所有Unknown类型的分词,生成Unknown类型的实体词典。
进一步地,对所述修剪后词典和Unknown类型的实体词典一起进行向量化,然后根据修剪后词典内各个词的标签使用K最近邻算法(KNN算法)对所述修剪后的词典中的不同类型的实体进行训练,其中,KNN分类算法中的k值为大于或等于1的自然数。
进一步地,分别计算修剪后词典内不同标签(类型)的类别中心和所述Unknown类型的潜在实体之间的距离,选择距离某个标签的类别中心最近的类型确定为该潜在实体的预测类型。
步骤204,将确定了预测类型的潜在实体对应的分词及标签(类型)加入所述修剪后的词典,得到新构建的词典。
步骤205,使用BERT模型将新构建的词典中每个词及所对应的标签(类型)输入到词嵌入的字向量模型中,找到标签所对应的词向量,采用所述词向量作为训练语料。
步骤206,将词嵌入(Embedding)之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定原始语料中潜在实体的类型,完成对需要进行预测的语料的实体识别。即,通过BiLSTM-CRF模型对新构建的词典所对应的上述训练语料进行再次训练,确定原始语料中潜在实体的类型。
举例如下:
原始语料:包含50个分词的一段英文,如下:
Clerk:Can I help you?
Jason:Yes,I want reserve a seat to San Francisco.
Clerk:Just one moment,please.Let me check for you.
Jason:OK.
Clerk:We have three flights to San Francisco each day.One at 2pm,Oneat5pm,and the other at 7pm.
部分原始语料示例:Clerk:We have three flights to San Francisco eachday.
原始词典:包括100个词的词库。
1、对原始语料进行分词处理,得到50个分词。
2、把原始词典中的100个词与50个分词进行比较,如果不在这50个分词之中,则从原始词典中删除。以上述原始词典为例,100词中70个都不在上述50个分词中,因此删除。得到修剪后的词典,包含30个词(这30个词都在原始词典中有对应的标签,标签标识其对应的类型)。
3、原始语料分词处理后的50个分词中还有20个词未明确其类型,针对这20个词中的部分词进行标注,比如,对其中10个未明确其类型的分词进行标注。选择BIO标注体系,标注出其中未知Unknown类型(Unknown类型表示一些未知类型的短语,有可能成为潜在的实体)。具体标注分别为B-Unknown、I-Unknown、O-Unknown,其中B-Unknown表示此元素所在的片段属于Unknown类型并且此元素在此片段的开头;I-Unknown表示此元素所在的片段属于Unknown类型并且此元素在此片段的中间位置,位于这个实体的内部;O-Unknown表示不属于Unknown类型,即属于已知的类型。
对上述部分原始语料分词标注结果如下:
表1
O O O O O O B-Unknown I-Unkown O O
Clerk We have three flights to San Francisco each day
4、根据标注后的潜在实体,对原始语料进行Unknown类型的训练及预测,包括:
使用BiLSTM-CRF模型对原始语料的全部分词进行训练,进行Unknown类型的识别,识别出原始语料中全部的Unknown类型的分词,生成Unknown类型的实体词典;其中,这个Unknown类型的实体词典里只包含属于Unknown类型的词,但没有对应的标签,即并没有对应标注这个词的确定的类型;
训练后,将修剪后的词典中的实体和Unknown类型的实体词典中的实体使用Word2Vec进行向量化,然后再采用KNN分类算法(例如,取K的值3的KNN分类算法)对修剪后的词典中的不同标签的实体进行训练;
针对向量化后的Unknown类型的实体词典中的实体,根据KNN分类算法训练所得到的训练结果,通过KNN算法分别计算各不同类型的类别中心和需要预测的Unknown类型的潜在实体之间的距离,选择距离最近的类别中心对应的类型作为所述需要预测的Unknown类型的潜在实体的预测类型,将对应的Unknown类型的实体词典中的实体标记为所预测出的类型。
例如,如图3所示,修剪后的词典内有三种不同标签(类型)的实体,如人名、地名、组织名,每个标签下对应着许多不一样的实体。绿色的点代表每个实体,红点代表不同类型(不同标签)的类别中心,而红点与绿点之间的连线代表实体属于该类型(标签),长度代表向量化后的距离,五角星的代表需要进行预测Unknown类型的潜在实体,根据它与红点之间的距离长短来判断它属于何种类型的标签,选择距离最近的红点对应的类型作为所述需要预测的Unknown类型的潜在实体的预测类型。
5、将预测出了类型的潜在实体加入所述修剪后的词典,得到新构建的词典。
例如,上述表1中体现的部分原始语料中的2个Unknown类型的词分别被预测出类型后,被添加到修剪后的词典中。而针对全部原始语料而言,通过BiLSTM-CRF模型的训练,假定原始语料中共10个分词被识别为Unknown类型的分词,根据以上步骤4,都将预测出各自的类型,将这个10个预测出类型后的分词加入所述修剪后的词典;加入后,修剪后的词典包括40个词,即得到了新构建的词典。
6、使用BERT模型将新构建的词典中每个词及所对应的标签(类型)输入到词嵌入的字向量模型中,找到标签所对应的词向量,采用所述词向量作为训练语料。
例如,新构建的词典共包含40个词,其中,30个来自修剪后的词典,10个是来自上述步骤4训练后预测出了类型的新词。将这40个标注了类型(标签)的实体输入到词嵌入的字向量模型中,找到所标注的实体所对应的词向量,采用所述词向量作为训练语料。词嵌入,即得到一个文档,文档就是一个单词序列号,比如“A B A C B F G”,文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示,比如A对应的向量为[0.1 0.6 -0.5],B对应的向量为[-0.2 0.9 0.7];如果字典中有词A则使用A的向量形式,否则该词的向量等于随机初始化的向量;
7、利用WordEmbedding+BiLSTM+CRF进行训练语料的训练,进行原始语料的二次识别。具体包括:将步骤6中词嵌入(Embedding)之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定潜在实体的最终的类型,即完成对所述潜在实体的识别。即,通过BiLSTM-CRF模型对新构建的词典所对应的上述训练语料进行再次训练,确定原始语料中潜在实体的类型。
实施例三
如图4所示,本实施例提供一种命名实体识别的装置40,包括:
修剪模块41,设置为根据原始语料修剪原始词典,得到修剪后的词典;
标注模块42,设置为针对原始语料,进行数据标注,将所述原始语料中包含的部分潜在实体标注为未知Unknown类型;
初步预测模块43,设置为根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测;
识别模块44,设置为根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;根据所述新构建的词典确定训练语料;利用所述训练语料,再次进行训练,得到识别后的实体。
可选地,其中,所述修剪模块41,设置为对原始语料进行分词处理,得到至少一个分词;从所述原始词典中将不属于所述至少一个分词的其他词删除,得到所述修剪后的词典。
可选地,其中,所述标注模块42,设置为对分词处理后得到的至少一个分词,根据所述修剪后的词典,将所获得的至少一个分词中部分分词中不明确其分词类型的潜在实体标注为未知Unknown类型。
可选地,其中,所述初步预测模块43,设置为根据标注后的潜在实体,通过BiLSTM-CRF模型对原始语料处理后得到的分词进行训练,找出所有Unknown类型的分词,生成Unknown类型的实体词典;
通过K最近邻KNN分类算法对所述修剪后的词典中的不同类型的实体进行训练;根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中至少一个潜在实体的类型;其中,KNN分类算法中的k值为大于或等于1的自然数。
可选地,其中,所述识别模块44设置为将所述Unknown类型的实体词典中预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典。
可选地,其中,所述初步预测模块43设置为针对所述Unknown类型的实体词典中的实体,根据所得到的训练结果,通过所述KNN分类算法分别计算各不同类型的类别中心和Unknown类型的潜在实体之间的距离,选择距离最近的类别中心对应的类型作为所述Unknown类型的潜在实体的预测的类型。
可选地,其中,所述识别模块44,设置为使用BERT模型将新构建的词典中每个词及所对应的类型输入到词嵌入的字向量模型中,找到类型所对应的词向量,采用所述词向量作为训练语料;将词嵌入之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定原始语料中潜在实体的类型,完成对潜在实体的识别。
本发明提供的一种命名实体识别的方法和装置,是一种多策略融合的命名实体识别方案,是一种基于深度学习+条件随机场、词嵌入和词典进行融合的实体抽取方法。该模型避免了传统的基于词典进行远程监督时会产生不完美标签的问题,同时深度学习模型和词嵌入能更好地利用上下文的语义信息,明显提高识别效果。除此之外,修剪词典可以避免未现词对模型的预测结果产生歧义,KNN算法(K最近邻KNN,k-Nearest Neighbor分类算法)结合初次识别可以对下一步命名实体识别的结果进行纠错和补充。
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (8)

1.一种命名实体识别方法,其特征在于,包括:
根据原始语料修剪原始词典,得到修剪后的词典;
将所述原始语料中包含的至少部分潜在实体标注为未知Unknown类型,包括:
对所述原始语料进行分词处理,得到至少一个分词;
根据所述修剪后的词典,将所获得的至少一个分词中部分分词中不明确其类型的分词作为潜在实体,标注为未知Unknown类型;
根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测,包括:
根据标注后的潜在实体,通过双向长短期记忆网络-条件随机场BiLSTM-CRF模型对原始语料处理后得到的分词进行训练,找出所有Unknown类型的分词,生成Unknown类型的实体词典;
通过K最近邻KNN分类算法对所述修剪后的词典中的不同类型的实体进行训练;根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中潜在实体对应的类型;其中,KNN分类算法中的k值为大于或等于1的自然数;
根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;
根据所述新构建的词典确定训练语料;
利用所述训练语料,再次进行训练,得到识别后的实体。
2.根据权利要求1所述的方法,其特征在于,
其中,所述根据原始语料修剪原始词典,得到修剪后的词典,包括:对原始语料进行分词处理,得到至少一个分词;
从所述原始词典中将不属于所述至少一个分词的其他词删除,得到所述修剪后的词典。
3.根据权利要求1所述的方法,其特征在于,
其中,所述根据初步训练及预测结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典,包括:
将所述Unknown类型的实体词典中预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典。
4.根据权利要求1所述的方法,其特征在于,
其中,根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中潜在实体对应的类型,包括:
针对所述Unknown类型的实体词典中的实体,根据所得到的训练结果,通过所述KNN分类算法分别计算各不同类型的类别中心和Unknown类型的潜在实体之间的距离,选择距离最近的类别中心对应的类型作为所述Unknown类型的潜在实体的预测的类型。
5.根据权利要求1-4中任一项所述的方法,其特征在于,
其中,所述根据所述新构建的词典确定训练语料,包括:
使用BERT模型将新构建的词典中每个词及所对应的类型输入到词嵌入的字向量模型中,找到类型所对应的词向量,采用所述词向量作为训练语料。
6.根据权利要求5所述的方法,其特征在于,
其中,所述利用所述训练语料,再次进行训练,得到识别后的实体,包括:
将词嵌入之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定原始语料中潜在实体的类型,完成对潜在实体的识别。
7.一种命名实体识别的装置,其特征在于,包括:
修剪模块,设置为根据原始语料修剪原始词典,得到修剪后的词典;
标注模块,设置为将所述原始语料中包含的至少部分潜在实体标注为未知Unknown类型,包括:
对所述原始语料进行分词处理,得到至少一个分词;
根据所述修剪后的词典,将所获得的至少一个分词中部分分词中不明确其类型的分词作为潜在实体,标注为未知Unknown类型;
初步预测模块,设置为根据标注后的潜在实体,对原始语料进行Unknown类型的初步训练及预测,包括:
根据标注后的潜在实体,通过双向长短期记忆网络-条件随机场BiLSTM-CRF模型对原始语料处理后得到的分词进行训练,找出所有Unknown类型的分词,生成Unknown类型的实体词典;
通过K最近邻KNN分类算法对所述修剪后的词典中的不同类型的实体进行训练;根据所得到的训练结果,通过KNN分类算法预测所述Unknown类型的实体词典中潜在实体对应的类型;其中,KNN分类算法中的k值为大于或等于1的自然数;
识别模块,设置为根据初步训练及预测的结果,将预测出类型的潜在实体加入所述修剪后的词典,得到新构建的词典;根据所述新构建的词典确定训练语料;利用所述训练语料,再次进行训练,得到识别后的实体。
8.根据权利要求7中所述的装置,其特征在于,
所述识别模块,还设置为使用BERT模型将新构建的词典中每个词及所对应的类型输入到词嵌入的字向量模型中,找到类型所对应的词向量,采用所述词向量作为训练语料;将词嵌入之后的向量连接上具有CRF层的BiLSTM网络进行再次训练,确定原始语料中潜在实体的类型,完成对潜在实体的识别。
CN201911112724.4A 2019-11-14 2019-11-14 一种命名实体识别的方法和装置 Active CN110826335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911112724.4A CN110826335B (zh) 2019-11-14 2019-11-14 一种命名实体识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911112724.4A CN110826335B (zh) 2019-11-14 2019-11-14 一种命名实体识别的方法和装置

Publications (2)

Publication Number Publication Date
CN110826335A CN110826335A (zh) 2020-02-21
CN110826335B true CN110826335B (zh) 2023-06-02

Family

ID=69555091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911112724.4A Active CN110826335B (zh) 2019-11-14 2019-11-14 一种命名实体识别的方法和装置

Country Status (1)

Country Link
CN (1) CN110826335B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460827B (zh) * 2020-04-01 2020-12-15 北京爱咔咔信息技术有限公司 文本信息处理方法、系统、设备及计算机可读存储介质
CN111709241B (zh) * 2020-05-27 2023-03-28 西安交通大学 一种面向网络安全领域的命名实体识别方法
CN111859966B (zh) * 2020-06-12 2022-04-15 中国科学院信息工程研究所 一种面向网络威胁情报的标注语料生成方法及电子装置
CN111737973A (zh) * 2020-06-29 2020-10-02 北京明略软件系统有限公司 自然语言检索语句解析方法、装置、设备和存储介质
CN111914553B (zh) * 2020-08-11 2023-10-31 民生科技有限责任公司 一种基于机器学习的金融信息负面主体判定的方法
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113065353B (zh) * 2021-03-16 2024-04-02 北京金堤征信服务有限公司 实体识别方法及装置
CN113761215A (zh) * 2021-03-25 2021-12-07 中科天玑数据科技股份有限公司 一种基于反馈自学习的动态字典库生成方法
CN113033663A (zh) * 2021-03-26 2021-06-25 同济大学 一种基于机器学习的自动化集装箱码头设备健康预测方法
CN116720519B (zh) * 2023-06-08 2023-12-19 吉首大学 一种苗医药命名实体识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法

Also Published As

Publication number Publication date
CN110826335A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826335B (zh) 一种命名实体识别的方法和装置
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN112949415B (zh) 图像处理方法、装置、设备和介质
CN110162749A (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111309915A (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
JP2023529939A (ja) マルチモーダルpoi特徴の抽出方法及び装置
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN112560478A (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN115983271B (zh) 命名实体的识别方法和命名实体识别模型的训练方法
CN111742322A (zh) 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112417878B (zh) 实体关系抽取方法、系统、电子设备及存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant