CN110287480B - 一种命名实体识别方法、装置、存储介质及终端设备 - Google Patents

一种命名实体识别方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN110287480B
CN110287480B CN201910450114.9A CN201910450114A CN110287480B CN 110287480 B CN110287480 B CN 110287480B CN 201910450114 A CN201910450114 A CN 201910450114A CN 110287480 B CN110287480 B CN 110287480B
Authority
CN
China
Prior art keywords
corpus
named entity
layer
entity recognition
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910450114.9A
Other languages
English (en)
Other versions
CN110287480A (zh
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN201910450114.9A priority Critical patent/CN110287480B/zh
Publication of CN110287480A publication Critical patent/CN110287480A/zh
Application granted granted Critical
Publication of CN110287480B publication Critical patent/CN110287480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种命名实体识别方法,包括:获取未标注语料;根据所述未标注语料对预设的语言模型进行训练;对所述未标注语料进行标注,获得标注语料;根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。相应的,本发明还公开了一种命名实体识别装置、计算机可读存储介质及终端设备。采用本发明的技术方案能够充分利用未标注语料训练语言模型,增强语言模型的上下文理解能力,从而降低训练成本,提高识别效果。

Description

一种命名实体识别方法、装置、存储介质及终端设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法、装置、计算机可读存储介质及终端设备。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能、语言学所关注的计算机和人类语言之间相互作用的领域,是计算机科学领域与人工智能领域中的一个重要方向。作为NLP中的一项基本任务,命名实体识别(Named EntityRecognition,NER)是指从文本中识别出具有特定类别的实体,例如人名、地名、机构名、专有名词等的技术,在所有涉及NLP的人工智能研究中,命名实体识别都是一个必须攻克的任务,命名实体的识别效果,对后续的一系列人工智能技术都有重要的影响。
现有技术一般通过构建命名实体识别模型,并根据训练后的命名实体识别模型对文本中的命名实体进行识别,在训练命名实体识别模型时,需要大量的标注语料,由于标注语料获取困难,通常做法是针对特定领域收集未标注语料,人工进行标注,但是,人工标注需要耗费大量的时间和精力,能够获得的标注语料较少,导致训练成本加高,并且根据少量的标注语料训练获得的命名实体识别模型的识别效果较差。
发明内容
本发明实施例所要解决的技术问题在于,提供一种命名实体识别方法、装置、计算机可读存储介质及终端设备,能够充分利用未标注语料训练语言模型,增强语言模型的上下文理解能力,从而降低训练成本,提高识别效果。
为了解决上述技术问题,本发明实施例提供了一种命名实体识别方法,包括:
获取未标注语料;
根据所述未标注语料对预设的语言模型进行训练;
对所述未标注语料进行标注,获得标注语料;
根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;所述命名实体识别模型中的Word Embedding层和Bi-LSTM层为所述语言模型中的经过训练的Word Embedding层和Bi-LSTM层;
根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
进一步地,所述获取未标注语料,具体包括:
收集文本语料;
对所述文本语料进行预处理,获得所述未标注语料;其中,所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。
进一步地,所述根据所述未标注语料对预设的语言模型进行训练,具体包括:
基于所述Word Embedding层,根据所述未标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第一输出结果;
基于所述Softmax层,根据所述第一输出结果相应获得预测概率;
根据所述预测概率和预设的第一损失函数计算第一损失值;
根据所述第一损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
进一步地,所述第一损失函数为
Figure GDA0003933343610000021
其中,loss表示损失值,N表示训练样本的总数,pi表示训练样本中的第i个字符的预测概率。
进一步地,所述对所述未标注语料进行标注,获得标注语料,具体包括:
根据BIEO标注方式对所述未标注语料进行标注,获得所述标注语料。
进一步地,所述根据所述标注语料对预设的命名实体识别模型进行训练,具体包括:
基于所述Word Embedding层,根据所述标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第二输出结果;
基于所述Softmax层,根据所述第二输出结果相应获得所述词向量中的每个字符映射到每个标注标签的第一预测分值;
基于所述CRF层,根据所述第一预测分值获得每个字符的映射到每个标注标签的第二预测分值;
根据所述第二预测分值和预设的第二损失函数计算第二损失值;
根据所述第二损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
进一步地,所述第二损失函数根据最大似然估计获得。
为了解决上述技术问题,本发明实施例还提供了一种命名实体识别装置,包括:
语料获取模块,用于获取未标注语料;
语言模型训练模块,用于根据所述未标注语料对预设的语言模型进行训练;
语料标注模块,用于对所述未标注语料进行标注,获得标注语料;
识别模型训练模块,用于根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;所述语言模型包括WordEmbedding层、Bi-LSTM层和Softmax层,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;所述命名实体识别模型中的Word Embedding层和Bi-LSTM层为所述语言模型中的经过训练的Word Embedding层和Bi-LSTM层;以及,
识别模块,用于根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的命名实体识别方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的命名实体识别方法。
与现有技术相比,本发明实施例提供了一种命名实体识别方法、装置、计算机可读存储介质及终端设备,通过未标注语料对语言模型进行训练,根据训练后的语言模型构建命名实体识别模型,并通过标注语料对命名实体识别模型进行训练,根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别,无需获取大量的标注语料,能够充分利用未标注语料训练语言模型,增强了语言模型的上下文理解能力,从而增强了命名实体识别模型的上下文理解能力,进而降低了训练成本,提高了识别效果。
附图说明
图1是本发明提供的一种命名实体识别方法的一个优选实施例的流程图;
图2是本发明提供的一种命名实体识别装置的一个优选实施例的结构框图;
图3是本发明提供的一种终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种命名实体识别方法,参见图1所示,是本发明提供的一种命名实体识别方法的一个优选实施例的流程图,所述方法包括步骤S11至步骤S15:
步骤S11、获取未标注语料;
步骤S12、根据所述未标注语料对预设的语言模型进行训练;
步骤S13、对所述未标注语料进行标注,获得标注语料;
步骤S14、根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;
步骤S15、根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
具体的,首先获取大量的用于模型训练的未标注语料,根据获得的未标注语料对预先构建的语言模型中的网络结构和相关参数进行训练;接着对未标注语料中的少量语料(具体标注的数量可以根据实际需要进行选择)进行标注处理,相应获得标注语料,根据训练后的语言模型的网络结构和相关参数构建命名实体识别模型,根据标注语料对构建的命名实体识别模型中的相关参数进行训练;最后根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别,相应获得识别结果。
需要说明的是,使用未标注语料,训练的是语言模型,可以增强语言模型对上下文信息的理解能力,使用标注语料,训练的是命名实体识别模型,由于命名实体识别模型是根据训练后的语言模型构建获得的,在根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别时,同样可以增强命名实体识别模型对待识别文本中的字符的上下文信息的理解能力,而使用标注语料对命名实体模型进行训练,相当于是修正训练后的语言模型中的相关参数,使得命名实体模型的识别结果更加准确,从而可以增强命名实体识别模型的识别效果,同时,在训练命名实体识别模型时,由于命名实体识别模型的部分网络结构和部分参数已经根据大量的未标注语料训练过,无需再使用大量的标注语料进行训练,因而可以降低训练成本。
在另一个优选实施例中,所述获取未标注语料,具体包括:
收集文本语料;
对所述文本语料进行预处理,获得所述未标注语料;其中,所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。
可以理解的,结合上述实施例,为了获取大量的用于模型训练的未标注语料,需要收集大量的文本语料,并且由于收集文本语料时可能有不同的语料来源(如从网上获取)、不同格式的文本语料,导致收集到的文本语料比较杂乱,因此需要对收集到的文本语料进行预处理,例如对文本语料进行语料去重处理、繁体转简体处理、全角符号转半角符号处理和去除噪音字符处理(如标点符号)等,从而获得符合一定标准的未标注语料。
在又一个优选实施例中,所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层;则,
所述根据所述未标注语料对预设的语言模型进行训练,具体包括:
基于所述Word Embedding层,根据所述未标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第一输出结果;
基于所述Softmax层,根据所述第一输出结果相应获得预测概率;
根据所述预测概率和预设的第一损失函数计算第一损失值;
根据所述第一损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
具体的,结合上述实施例,预先根据Word Embedding层、Bi-LSTM层和Softmax层构建语言模型,在根据获得的未标注语料对构建的语言模型中的网络结构和相关参数进行训练时,首先通过Word Embedding层将未标注语料转化为词向量,接着将词向量输入Bi-LSTM层,相应获得Bi-LSTM层的第一输出结果,将第一输出结果输入Softmax层,根据第一输出结果相应获得一个预测概率,然后根据该预测概率和预先设置的第一损失函数可以计算得到第一损失值,最后根据计算获得的第一损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新。
需要说明的是,对于Bi-LSTM层,包括前向LSTM层和反向LSTM层(前向LSTM层和反向LSTM层是相互独立的,不共享任何参数),前向LSTM层和反向LSTM层均包括数量相同的若干个LSTM单元,且前向LSTM层的第i个LSTM单元的输出作为前向LSTM层的第i+1个LSTM单元的输入,反向LSTM层的第i+1个LSTM单元的输出作为反向LSTM层的第i个LSTM单元的输入。
对于词向量中的第i个字符,将第i个字符输入到前向LSTM层的第i个LSTM单元,相应获得一个输出yi1,将词向量中的第i个字符输入到反向LSTM层的第i个LSTM单元,相应获得一个输出yi2,将yi1和yi2进行拼接,从而获得将第i个字符输入Bi-LSTM层后对应的输出结果yi,同理,将词向量中的每一个字符依次输入Bi-LSTM层的每一个LSTM单元,相应获得该词向量对应的第一输出结果。
在将第一输出结果输入Softmax层后,以第i个字符为例,可以预测第i个字符的下一个字符,即第i+1个字符出现的概率,同理,可以预测词向量中的每一个字符的下一个字符出现的概率,相应获得上述预测概率,根据预测概率以及预先设置的损失函数计算第一损失值,以根据第一损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新(Bi-LSTM层的权重的初始值可以使用Xavier算法随机初始化),从而达到对语言模型中的网络结构和相关参数进行训练的目的。
损失函数用于衡量预测结果与标准结果之间的差距,从而能够根据差距使用反向传播算法更新每一个LSTM单元的权重(对差距求导、计算梯度、使用梯度下降法更新权重)。
采用这种训练方法,可以使Bi-LSTM层的权重矩阵包含字符之间的顺序信息、共现概率等上下文理解方面的信息,从而使训练后的语言模型具有上下文理解能力。
作为优选方案,所述第一损失函数为
Figure GDA0003933343610000071
其中,loss表示损失值,N表示训练样本的总数,pi表示训练样本中的第i个字符的预测概率。
需要说明的是,训练样本为上述实施例中的词向量。
在又一个优选实施例中,所述对所述未标注语料进行标注,获得标注语料,具体包括:
根据BIEO标注方式对所述未标注语料进行标注,获得所述标注语料。
具体的,对于未标注语料中的每一个句子,对每个字符进行标记,相应获得标注语料,标记规则使用BIEO(begin,inside,end,other)规则;例如,某个三字人名中的第一个字、第二个字和第三个字对应标注的标签分别为B、I和E。
在又一个优选实施例中,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;则,
所述根据所述标注语料对预设的命名实体识别模型进行训练,具体包括:
基于所述Word Embedding层,根据所述标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第二输出结果;
基于所述Softmax层,根据所述第二输出结果相应获得所述词向量中的每个字符映射到每个标注标签的第一预测分值;
基于所述CRF层,根据所述第一预测分值获得每个字符的映射到每个标注标签的第二预测分值;
根据所述第二预测分值和预设的第二损失函数计算第二损失值;
根据所述第二损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
具体的,结合上述实施例,预先根据Word Embedding层、Bi-LSTM层、Softmax层和CRF层构建命名实体识别模型(Word Embedding层和Bi-LSTM层为语言模型中的经过训练的Word Embedding层和Bi-LSTM层,这里直接复用),在根据获得的标注语料对构建的命名实体识别模型中的网络结构和相关参数进行训练时,首先通过Word Embedding层将标注语料转化为词向量,接着将词向量输入Bi-LSTM层,相应获得Bi-LSTM层的第二输出结果,将第二输出结果输入Softmax层,根据第二输出结果相应获得词向量中的每个字符映射到每个标注标签的第一预测分值,然后将第一预测分值输入CRF层,根据第一预测分值相应获得每个字符的映射到每个标注标签的第二预测分值,根据该第二预测分值和预先设置的第二损失函数可以计算得到第二损失值,最后根据计算获得的第二损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新。
例如,将某个三字人名中的第一个字x1、第二个字x2和第三个字x3依次输入Bi-LSTM层和Softmax层,预测获得第一个字x1、第二个字x2和第三个字x3对应的标注标签,并且以发射概率的形式进行表示,假如第一个字x1对应获得的发射概率为[0.9,0.1,0.5],表示第一个字x1对应的标注标签是B的概率为0.9,是O的概率为0.1,是I的概率为0.5。
虽然仅根据Word Embedding层、Bi-LSTM层和Softmax层可以预测获得每个字符对应的概率最大的标注标签,但是并不能保证概率最大的标注标签就是该字符对应的正确标签,因此可以将Softmax层的输出作为CRF层的输入,通过CRF层对Softmax层的输出进行约束,以提高识别结果的准确性。
需要说明的是,在根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别时,可以根据命名实体识别模型的CRF层的输出相应获得识别结果。
作为优选方案,所述第二损失函数根据最大似然估计获得。
需要说明的是,在根据最大似然估计获得第二损失函数并且相应计算获得第二损失值后,根据第二损失值和反向传播算法对Bi-LSTM层的权重值进行优化更新,首先通过第二损失函数衡量模型输出与标签的差距(即第二损失值),根据这个差距进行求导计算出梯度,再通过梯度下降法更新每一个LSTM单元的权重值。
本发明实施例还提供了一种命名实体识别装置,能够实现上述任一实施例所述的命名实体识别方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的命名实体识别方法的作用以及实现的技术效果对应相同,这里不再赘述。
参见图2所示,是本发明提供的一种命名实体识别装置的一个优选实施例的结构框图,所述装置包括:
语料获取模块11,用于获取未标注语料;
语言模型训练模块12,用于根据所述未标注语料对预设的语言模型进行训练;
语料标注模块13,用于对所述未标注语料进行标注,获得标注语料;
识别模型训练模块14,用于根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;以及,
识别模块15,用于根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
优选地,所述语料获取模块11具体包括:
语料获取单元,用于收集文本语料;以及,
语料预处理单元,用于对所述文本语料进行预处理,获得所述未标注语料;其中,所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。
优选地,所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层;则,所述语言模型训练模块12具体包括:
第一词向量获取单元,用于基于所述Word Embedding层,根据所述未标注语料获得词向量;
第一输出结果获取单元,用于基于所述Bi-LSTM层,根据所述词向量获得第一输出结果;
预测概率获取单元,用于基于所述Softmax层,根据所述第一输出结果相应获得预测概率;
第一损失值获取单元,用于根据所述预测概率和预设的第一损失函数计算第一损失值;以及,
第一优化单元,用于根据所述第一损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
优选地,所述第一损失函数为
Figure GDA0003933343610000101
其中,loss表示损失值,N表示训练样本的总数,pi表示训练样本中的第i个字符的预测概率。
优选地,所述语料标注模块13具体包括:
语料标注单元,用于根据BIEO标注方式对所述未标注语料进行标注,获得所述标注语料。
优选地,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;则,所述识别模型训练模块14具体包括:
第二词向量获取单元,用于基于所述Word Embedding层,根据所述标注语料获得词向量;
第二输出结果获取单元,用于基于所述Bi-LSTM层,根据所述词向量获得第二输出结果;
第一预测分值获取单元,用于基于所述Softmax层,根据所述第二输出结果相应获得所述词向量中的每个字符映射到每个标注标签的第一预测分值;
第二预测分值获取单元,用于基于所述CRF层,根据所述第一预测分值获得每个字符的映射到每个标注标签的第二预测分值;
第二损失值获取单元,用于根据所述第二预测分值和预设的第二损失函数计算第二损失值;以及,
第二优化单元,用于根据所述第二损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
优选地,所述第二损失函数根据最大似然估计获得。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的命名实体识别方法。
本发明实施例还提供了一种终端设备,参见图3所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现上述任一实施例所述的命名实体识别方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图3结构框图仅仅是上述终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例所提供的一种命名实体识别方法、装置、计算机可读存储介质及终端设备,通过未标注语料对语言模型进行训练,根据训练后的语言模型构建命名实体识别模型,并通过标注语料对命名实体识别模型进行训练,根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别,无需获取大量的标注语料,能够充分利用未标注语料训练语言模型,增强了语言模型的上下文理解能力,从而增强了命名实体识别模型的上下文理解能力,进而降低了训练成本,提高了识别效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种命名实体识别方法,其特征在于,包括:
获取未标注语料;
根据所述未标注语料对预设的语言模型进行训练;
对所述未标注语料进行标注,获得标注语料;
根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;所述语言模型包括Word Embedding层、Bi-LSTM层和Softmax层,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;所述命名实体识别模型中的Word Embedding层和Bi-LSTM层为所述语言模型中的经过训练的Word Embedding层和Bi-LSTM层;
根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述获取未标注语料,具体包括:
收集文本语料;
对所述文本语料进行预处理,获得所述未标注语料;其中,所述预处理包括语料去重、繁体转简体、全角符号转半角符号和去除噪音字符。
3.如权利要求1所述的命名实体识别方法,其特征在于,所述根据所述未标注语料对预设的语言模型进行训练,具体包括:
基于所述Word Embedding层,根据所述未标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第一输出结果;
基于所述Softmax层,根据所述第一输出结果相应获得预测概率;
根据所述预测概率和预设的第一损失函数计算第一损失值;
根据所述第一损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
4.如权利要求3所述的命名实体识别方法,其特征在于,所述第一损失函数为
Figure FDA0003933343600000021
其中,loss表示损失值,N表示训练样本的总数,pi表示训练样本中的第i个字符的预测概率。
5.如权利要求1所述的命名实体识别方法,其特征在于,所述对所述未标注语料进行标注,获得标注语料,具体包括:
根据BIEO标注方式对所述未标注语料进行标注,获得所述标注语料。
6.如权利要求1所述的命名实体识别方法,其特征在于,所述根据所述标注语料对预设的命名实体识别模型进行训练,具体包括:
基于所述Word Embedding层,根据所述标注语料获得词向量;
基于所述Bi-LSTM层,根据所述词向量获得第二输出结果;
基于所述Softmax层,根据所述第二输出结果相应获得所述词向量中的每个字符映射到每个标注标签的第一预测分值;
基于所述CRF层,根据所述第一预测分值获得每个字符的映射到每个标注标签的第二预测分值;
根据所述第二预测分值和预设的第二损失函数计算第二损失值;
根据所述第二损失值和反向传播算法对所述Bi-LSTM层的权重值进行优化更新。
7.如权利要求6所述的命名实体识别方法,其特征在于,所述第二损失函数根据最大似然估计获得。
8.一种命名实体识别装置,其特征在于,包括:
语料获取模块,用于获取未标注语料;
语言模型训练模块,用于根据所述未标注语料对预设的语言模型进行训练;
语料标注模块,用于对所述未标注语料进行标注,获得标注语料;
识别模型训练模块,用于根据所述标注语料对预设的命名实体识别模型进行训练;其中,所述命名实体识别模型根据训练后的语言模型构建获得;所述语言模型包括WordEmbedding层、Bi-LSTM层和Softmax层,所述命名实体识别模型包括Word Embedding层、Bi-LSTM层、Softmax层和CRF层;所述命名实体识别模型中的Word Embedding层和Bi-LSTM层为所述语言模型中的经过训练的Word Embedding层和Bi-LSTM层;以及,
识别模块,用于根据训练后的命名实体识别模型对待识别文本中的命名实体进行识别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~7任一项所述的命名实体识别方法。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~7任一项所述的命名实体识别方法。
CN201910450114.9A 2019-05-27 2019-05-27 一种命名实体识别方法、装置、存储介质及终端设备 Active CN110287480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910450114.9A CN110287480B (zh) 2019-05-27 2019-05-27 一种命名实体识别方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910450114.9A CN110287480B (zh) 2019-05-27 2019-05-27 一种命名实体识别方法、装置、存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN110287480A CN110287480A (zh) 2019-09-27
CN110287480B true CN110287480B (zh) 2023-01-24

Family

ID=68002556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450114.9A Active CN110287480B (zh) 2019-05-27 2019-05-27 一种命名实体识别方法、装置、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN110287480B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825827B (zh) * 2019-11-13 2022-10-25 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN112989828B (zh) * 2019-12-17 2024-08-02 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN111062216B (zh) * 2019-12-18 2021-11-23 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111143518B (zh) * 2019-12-30 2021-09-07 北京明朝万达科技股份有限公司 跨领域语言模型训练方法、装置、电子设备及存储介质
CN111259134B (zh) * 2020-01-19 2023-08-08 出门问问信息科技有限公司 一种实体识别方法、设备及计算机可读存储介质
CN111523324B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 命名实体识别模型的训练方法及装置
CN111651989B (zh) * 2020-04-13 2024-04-02 上海明略人工智能(集团)有限公司 命名实体识别方法和装置、存储介质及电子装置
CN113642329A (zh) * 2020-04-27 2021-11-12 阿里巴巴集团控股有限公司 术语识别模型的建立方法及装置、术语识别方法及装置
CN111881692B (zh) * 2020-07-28 2023-01-13 平安科技(深圳)有限公司 基于多训练目标的机构实体抽取方法、系统及装置
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112766485B (zh) * 2020-12-31 2023-10-24 平安科技(深圳)有限公司 命名实体模型的训练方法、装置、设备及介质
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN113327581B (zh) * 2021-05-04 2022-05-24 西安博达软件股份有限公司 一种提升语音识别准确率的识别模型优化方法及系统
CN113779999B (zh) * 2021-11-12 2022-02-15 航天宏康智能科技(北京)有限公司 命名实体识别方法和命名实体识别装置
CN114925158A (zh) * 2022-03-15 2022-08-19 青岛海尔科技有限公司 语句文本的意图识别方法和装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016196320A1 (en) * 2015-05-29 2016-12-08 Microsoft Technology Licensing, Llc Language modeling for speech recognition leveraging knowledge graph
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016196320A1 (en) * 2015-05-29 2016-12-08 Microsoft Technology Licensing, Llc Language modeling for speech recognition leveraging knowledge graph
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法

Also Published As

Publication number Publication date
CN110287480A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
US11501182B2 (en) Method and apparatus for generating model
CN108733837B (zh) 一种病历文本的自然语言结构化方法及装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN110795938B (zh) 文本序列分词方法、装置及存储介质
WO2021174864A1 (zh) 基于少量训练样本的信息抽取方法及装置
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
WO2019075967A1 (zh) 企业名称识别方法、电子设备及计算机可读存储介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112989043B (zh) 指代消解方法、装置、电子设备及可读存储介质
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN110633724A (zh) 意图识别模型动态训练方法、装置、设备和存储介质
CN110472248A (zh) 一种中文文本命名实体的识别方法
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
Tlili-Guiassa Hybrid method for tagging Arabic text
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN115238115A (zh) 基于中文数据的图像检索方法、装置、设备及存储介质
CN110705211A (zh) 文本重点内容标记方法、装置、计算机设备及存储介质
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN116341646A (zh) Bert模型的预训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant