CN109284400B - 一种基于Lattice LSTM和语言模型的命名实体识别方法 - Google Patents

一种基于Lattice LSTM和语言模型的命名实体识别方法 Download PDF

Info

Publication number
CN109284400B
CN109284400B CN201811434481.1A CN201811434481A CN109284400B CN 109284400 B CN109284400 B CN 109284400B CN 201811434481 A CN201811434481 A CN 201811434481A CN 109284400 B CN109284400 B CN 109284400B
Authority
CN
China
Prior art keywords
lstm
named entity
language model
character
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811434481.1A
Other languages
English (en)
Other versions
CN109284400A (zh
Inventor
廖伟智
王宇
马攀
阴艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811434481.1A priority Critical patent/CN109284400B/zh
Publication of CN109284400A publication Critical patent/CN109284400A/zh
Application granted granted Critical
Publication of CN109284400B publication Critical patent/CN109284400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于Lattice LSTM和语言模型的命名实体识别方法,该方法包括语言模型训练语料预处理,构建基于LSTM的语言模型,命名实体识别训练语料预处理,构建基于Lattice LSTM和语言模型的命名实体识别模型,进行命名实体识别。本发明通过构建基于Lattice LSTM和语言模型的命名实体识别模型,有效的利用了字符嵌入和词嵌入来进行命名实体识别,并且在命名识别模型中使用语言模型来提供上下文信息,显著提高了命名实体识别的识别精度,同时减少了人工数据标注造成的人力消耗。

Description

一种基于Lattice LSTM和语言模型的命名实体识别方法
技术领域
本发明属于命名实体识别技术领域,具体涉及一种基于Lattice LSTM和语言模型的命名实体识别方法。
背景技术
传统的命名实体识别方法可以分为基于词典的命名实体识别方法,基于规则的命名实体识别方法,基于传统机器学习的命名实体识别的方法,基于LSTM-CRF的命名实体识别的方法。
基于词典的命名实体识别方法,其原理是将可能多的不同类别的实体收入词典中,识别时将文本信息和词典中的词语进行匹配,匹配上的则标记为对应的实体类别。
基于规则的命名实体识别方法的原理利用手工编写的规则,将文本与规则进行匹配来识别出命名实体。例如,对于中文来说,“说”、“老师”等词语可作为人名的下文,“大学”、“医院”等词语可作为组织机构名的结尾,还可以利用到词性、句法信息。
基于传统机器学习的命名实体识别的方法,例如基于CRF(条件随机场)的命名实体识别的方法、基于HMM(隐马尔可夫)的命名实体识别的方法等,这类方法的原理是通过人工构建特征模板提取特征,作为输入,学习前后一个词的语义信息,然后做出分类判断。基于LSTM-CRF的命名实体识别的方法,其原理是通过输入词向量或者字符向量,让LSTM自动提取特征作为CRF的输入,然后通过CRF来进行分类判断。
上述现有技术存在下列缺陷:
1、基于词典的命名实体识别方法严重依赖于词典库,无法识别未登录词。
2、基于规则的命名实体识别方法在构建规则的过程中往往需要大量的语言学知识,不同语言的识别规则不尽相同,而且需要谨慎处理规则之间的冲突问题;此外,构建规则的过程费时费力、可移植性不好。
3、基于传统机器学习的命名实体识别的方法需要人工提取特征模板,非常耗时耗力,并且特征模板的质量对命名实体识别的影响很大,以及这种方法只能关联当前词的前一个词的语义,无法解决长依赖的问题,并且无法识别未登录词。
4、基于LSTM-CRF的命名实体识别的方法,这种方法主要有两种形式,一种是基于词的(输入为词向量),一种是基于字的(输入为字符向量)。基于词主要有两个缺陷:(1)基于词的需要先分词,然后在做命名实体识别,所以分词的准确度对后面的命名实体识别有着较大的影响;(2)词向量的学习,对一些语料中未出现的,或者出现次数比较少的,他们的词向量的质量是很难保证的,而语料中未出现或者次数较少的词也很大一部分是实体词。基于字的主要有两个缺陷:(1)没有利用粗粒度的信息,比如词信息、上下文信息;(2)一个字符对应一个固定的字符向量不合理,因为同一个字符在不同的语境中或者词中其含义是不同的
发明内容
本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明提出了一种能够有效的提高命名实体识别精度的基于Lattice LSTM和语言模型的命名实体识别方法。
本发明的技术方案是:一种基于Lattice LSTM和语言模型的命名实体识别方法,包括以下步骤:
A、获取语言模型的训练语料数据并进行预处理;
B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型;
C、获取命名实体识别模型的训练语料数据并进行标注,形成标注语料;
D、对步骤C得到标注语料进行预处理;
E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型;
F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果。
进一步地,所述步骤A中,对语言模型的训练语料数据进行预处理,具体包括以下分步骤:
A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData;
A2、统计字符级的语料数据NewData中的字符,得到字符集合CharSet,并将每个字符进行编号,得到字符集合对应字符编号集合CharID;
A3、将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch;
A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData;
A5、删除文档的第一个字符,将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch,并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData。
进一步地,所述步骤B中,基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层。
进一步地,所述步骤B还包括将步骤A4得到的固定长度的数据和步骤A5得到的固定长度的标签数据输入到基于LSTM的语言模型中,训练基于LSTM的语言模型的模型参数。
进一步地,所述步骤C中,对命名实体识别模型的训练语料数据进行标注具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注。
进一步地,所述步骤D对步骤C得到标注语料进行预处理,具体包括以下分步骤:
D1、统计标注语料的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合对应字符编号集合CharID;统计标注语料的标签,得到标签集合LableSet,将每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
D2、以汉语词典为基础建立一棵单词查找树,将标注语料中的每一句话与单词查找树进行匹配,保留匹配成功的词,得到单词集合WordSet;
D3、去除单词集合WordSet中的重复词得到新的WordSet,并对新的WordSet中的每个词进行编号,得到新WordSet对应的编号集合WordID;
D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID,并让标注语料中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;
D5、将步骤D4中转换成ID后的语料随机排列顺序,并采用随机无放回的方式从标注语料中抽取BatchSize句数据c,以及对应的标签y和对应的单词集合w。
进一步地,所述步骤E中,基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。
进一步地,所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。
进一步地,所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果,具体为:
将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID,并将预测数据中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中,并采用维特比算法求出每句话最大可能的标注序列,将其作为命名实体识别结果。
本发明的有益效果是:本发明通过构建基于Lattice LSTM和语言模型的命名实体识别模型,有效的利用了字符嵌入和词嵌入来进行命名实体识别,并且在命名识别模型中使用语言模型来提供上下文信息,显著提高了命名实体识别的识别精度,同时减少了人工数据标注造成的人力消耗。
附图说明
图1为本发明的基于Lattice LSTM和语言模型的命名实体识别方法的流程示意图;
图2为本发明实施例中长序列切分为子序列的处理过程示意图;
图3为本发明实施例中基于LSTM的语言模型的结构示意图;
图4为本发明实施例中基于Lattice LSTM和语言模型的命名实体识别模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的基于Lattice LSTM和语言模型的命名实体识别方法的流程示意图。一种基于Lattice LSTM和语言模型的命名实体识别方法,包括以下步骤:
A、获取语言模型的训练语料数据并进行预处理;
B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型;
C、获取命名实体识别模型的训练语料数据并进行标注,形成标注语料;
D、对步骤C得到标注语料进行预处理;
E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型;
F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果。
在本发明的一个可选实施例中,上述步骤A首先获取语言模型的训练语料数据,然后对语言模型的训练语料数据进行预处理,具体包括以下分步骤:
A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData;
A2、统计字符级的语料数据NewData中的字符,得到字符集合CharSet,并将每个字符进行编号,得到字符集合对应字符编号集合CharID;
A3、将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch;
如图2所示,为本发明实施例中长序列切分为子序列的处理过程示意图。假设batch的大小是4,则先将这个文档平分为4个子序列,然后按Length的长度去截断序列,得到m个Batch。这里batch的大小即为batchsize,将所有样本分组,一个batch就是一个组,batch的大小就是一个batch里面有多少个样本;长度Length表示一个样本中包含的字的个数;例如4句话分别为‘abcde’,‘fghk’,‘tgfds’,‘tf’,其中每一个字母代表一个字,假设batch大小为2,则这2个子序列可以为:‘abcdefgh’,‘ktgfdstf’,length为4,则可以得到两个batch,分别为{‘abcd’,‘ktgf’}和{‘degf’,‘dstf’}。
A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData;
A5、删除文档的第一个字符,将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch,并将每一个Batch的字符通过CharID转换为固定长度的标签数据PredictData。
在本发明的一个可选实施例中,上述步骤B根据步骤A预处理后的训练语料数据构建基于LSTM(Long Short-Term Memory,长短期记忆网络)的语言模型,如图3所示,为本发明实施例中基于LSTM的语言模型的结构示意图,基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层,其中
1)Embedding层,用于将输入的字符数据转换为向量;
2)第一DropOut层,用于防止过拟合;
3)第一单向LSTM层,包含若干LSTM单元,用于提取字符级间的语义关系;
4)第二DropOut层,用于防止过拟合;
5)第二单向LSTM层,包含若干LSTM单元,用于提取字符级间的语义关系;
6)SoftMax层,用于预测下一个字符。
本发明还包括将步骤A4得到的固定长度的数据和步骤A5得到的固定长度的标签数据输入到基于LSTM的语言模型中,训练基于LSTM的语言模型的模型参数具体为:
将数据BatchData及标签数据PredictData输入到基于LSTM的语言模型中,然后采用SGD(梯度下降法)或其他优化方法训练基于LSTM的语言模型的模型参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N时,则终止该模型的训练。
在本发明的一个可选实施例中,上述步骤C中,对命名实体识别模型的训练语料数据进行标注具体为采用BMESO(begin,middle,end,single,other)的标记方式对命名实体识别模型的训练语料数据进行标注,形成标注语料。
如果一个字符单元是一个实体词的开始,则标记为(S-...);如果一个字符单元是一个实体词的中间字符,则标记为(M-...);如果一个字符单元是一个实体词的最后一个字符,则标记为(E-...);如果一个字符为单独的一个实体词,则标记为(S-...);如果一个字符不属于实体词则标注为(O)。例如“小华出生在成都,现在在华为工作。”,其标注结果为:小S-PER、华S-PER、出O、生O、在O、成B-LOC、都E-LOC、,O、现O、在O、在O、华B-ORG、为E-ORG、工O、作O。
在本发明的一个可选实施例中,上述步骤D对步骤C得到标注语料进行预处理,具体包括以下分步骤:
D1、统计标注语料的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合对应字符编号集合CharID;统计标注语料的标签,得到标签集合LableSet,将每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
D2、以汉语词典为基础建立一棵单词查找树,将标注语料中的每一句话与单词查找树进行匹配,保留匹配成功的词,得到单词集合WordSet;
例如一句话为“南京市长江大桥”,匹配的过程:首先匹配“南”作为首字符的词,依次查找单词树中是否有“南京市长江大桥”、“南京市长江大”,“南京市长江”,“南京市长”,“南京市”,“南京”,最后可以得到以“南”为首字符的词的一个列表[“南京市”,“南京”],然后再依次查找以‘京’,‘市’,‘长’,‘江’,‘大’,‘桥’作为首字符的词,将匹配到的词保存到WordSet中。
D3、去除单词集合WordSet中的重复词得到新的WordSet,并对新的WordSet中的每个词进行编号,得到新WordSet对应的编号集合WordID;
D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID,并让标注语料中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;
D5、将步骤D4中转换成ID后的语料随机排列顺序,并采用随机无放回的方式从标注语料中抽取BatchSize句数据c,以及对应的标签y和对应的单词集合w。
在本发明的一个可选实施例中,上述步骤E根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型,如图4所示,为本发明实施例中基于Lattice LSTM和语言模型的命名实体识别模型的结构示意图,基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层;其中
1)Embedding层,用于将输入的字符和词数据转换为向量;
2)DropOut层,用于防止过拟合;
3)Lattice LSTM层,用于提取字符和词的语义;
4)拼接层,用于将Lattice LSTM和语言模型的输出进行拼接;
5)DropOut层,用于防止过拟合;
6)LSTM层,用于进一步提取语义信息;
7)CRF层,用于预测标签;
上述Embedding层,根据我们输入的字符和词的ID,转换为对应的字符向量和词向量,作为下一层的输入;
上述第一DropOut层,根据输入的比例,按比例的让部分输入为0,防止过拟合;
上述Lattice LSTM层,是对LSTM进行改进,实现同时处理字符向量和词向量。
假设需要处理一个字符序列S=c1,c2,c3....,cm,通过
Figure BDA0001883439600000071
可以得到每个字符的字符向量
Figure BDA0001883439600000072
将S序列和单词查找树进行匹配,可以得到这个序列隐藏的词集合,表示为
Figure BDA0001883439600000073
下标b代表这个词的第一个字符在句子中的索引,下标e代表这个词的最后一个字符在句子中的索引,例如“南京市长江大桥”,代表词“南京”,代表词“长江”;通过
Figure BDA0001883439600000074
可以得到每个词的词向量,然后将字符向量
Figure BDA0001883439600000075
和词向量
Figure BDA0001883439600000076
作为模型的输入,通过Lattice LSTM进行语义提取,然后对每个字符进行标注。
Lattice LSTM包括两部分:词的LSTM单元和字符的LSTM单元,其中w为词的LSTM单元,其计算公式为
Figure BDA0001883439600000077
Figure BDA0001883439600000078
其中,
Figure BDA0001883439600000079
为输入门,
Figure BDA00018834396000000710
为遗忘门,
Figure BDA00018834396000000711
为其细胞状态。在传统的LSTM的基础上,本发明中词的LSTM单元减少了输出门和隐藏状态。
本发明中字符的LSTM单元与传统LSTM在计算细胞状态时不同,由于字符的LSTM单元是输入不仅仅来自上一个字符的状态和字符向量,还有前面多个词的LSTM单元输出的细胞状态。其计算公式为
Figure BDA00018834396000000712
Figure BDA0001883439600000081
Figure BDA0001883439600000082
Figure BDA0001883439600000083
其中,
Figure BDA0001883439600000084
为上一个词的细胞状态,
Figure BDA0001883439600000085
为上一个词的细胞状态的权重。
上述拼接层,主要是将步骤B训练好的基于LSTM的语言模型取出来,并把步骤D5中的数据c作为输入,然后将第二层的LSTM的输出和Lattice LSTM层的输出进行拼接,然后作为DropOut层的输入。
上述第二DropOut层,根据设定的比例,按比例的让部分输入为0,防止过拟合。
上述LSTM层,将DropOut层的输出作为输入,进一步的提取语义信息。
上述CRF层,将LSTM层的输出作为输入,进行句子级的序列标注。
CRF层的参数是一个(k+2)×(k+2)的矩阵A,Ai,j表示的是从第i和j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,其中2是表示在句子首部添加一个起始状态以及在句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列,那么模型对于句子x的标签等于y的打分为
Figure BDA0001883439600000086
可以得出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率,表示为:
Figure BDA0001883439600000087
本发明还通过最大化对数似然函数训练基于Lattice LSTM和语言模型的命名实体识别模型,对一个训练样本(x,yx)的对数似然表示为
Figure BDA0001883439600000091
若有N个样本,
Figure BDA0001883439600000092
可以得到其损失函数为
Figure BDA0001883439600000093
其中,||θ||2为L2正则项,λ为正则化参数。
本发明训练基于Lattice LSTM和语言模型的命名实体识别模型的模型参数时,将步骤D5中得到的数据c和数据w作为模型的输入,然后采用SGD(梯度下降法)或其他优化方法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N时,则终止该模型的训练。
在本发明的一个可选实施例中,上述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果,具体为:
将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID,并将预测数据中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中,并采用维特比算法求出每句话最大可能的标注序列,将其作为命名实体识别结果。
本发明的基于Lattice LSTM和语言模型的命名实体识别方法通过构建基于Lattice LSTM和语言模型的命名实体识别模型,有效的利用了字符嵌入和词嵌入来进行命名实体识别,提高了识别精度,而不需要人工提取特征;并且在命名识别模型中使用语言模型来提供上下文信息,进一步提高了识别精度。
本发明能够更精确的对文本中的命名实体进行标注,为一些下游工作,比如:知识图谱、问答系统、信息检索、机器翻译等,提供了一个良好的基础;同时既减少了许多数据标注的人力,又具备了较高的精确度。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,包括以下步骤:
A、获取语言模型的训练语料数据并进行预处理;
具体包括以下分步骤:
A1、将语言模型的训练语料数据OrgData转换为字符级的语料数据NewData;
A2、统计字符级的语料数据NewData中的字符,得到字符集合CharSet,并将每个字符进行编号,得到字符集合对应字符编号集合CharID;
A3、将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch;
A4、将每一个Batch的字符通过字符编号集合CharID转换为固定长度的数据BatchData;
A5、删除文档的第一个字符,将整个文档切分为Batch大小个子序列,然后以长度Length切分这些序列,得到m个Batch,并将每一个Batch的字符通过字符编号集合CharID转换为固定长度的标签数据PredictData;
B、根据步骤A预处理后的训练语料数据构建基于LSTM的语言模型;
所述基于LSTM的语言模型包括Embedding层、第一DropOut层、第一单向LSTM层、第二DropOut层、第二单向LSTM层和SoftMax层;
所述步骤B还包括将步骤A4得到的固定长度的数据BatchData和步骤A5得到的固定长度的标签数据PredictData输入到基于LSTM的语言模型中,训练基于LSTM的语言模型的模型参数;
C、获取命名实体识别模型的训练语料数据并进行标注,形成标注语料,具体为采用BMESO的标记方式对命名实体识别模型的训练语料数据进行标注;
D、对步骤C得到标注语料进行预处理;
具体包括以下分步骤:
D1、统计标注语料的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合对应字符编号集合CharID;统计标注语料的标签,得到标签集合LableSet,将每个标签进行编号,得到标签集合LableSet对应的标签编号集合LableID;
D2、以汉语词典为基础建立一棵单词查找树,将标注语料中的每一句话与单词查找树进行匹配,保留匹配成功的词,得到单词集合WordSet;
D3、去除单词集合WordSet中的重复词得到新的WordSet,并对新的WordSet中的每个词进行编号,得到新WordSet对应的编号集合WordID;
D4、将标注语料中的每个字符和标签分别根据CharID和LableID转换为对应ID,并让标注语料中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;
D5、将步骤D4中转换成ID后的语料随机排列顺序,并采用随机无放回的方式从标注语料中抽取BatchSize句数据c,以及对应的标签y和对应的单词集合w;
E、根据步骤B得到的基于LSTM的语言模型和步骤D预处理后的标注语料构建基于Lattice LSTM和语言模型的命名实体识别模型;
F、利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果。
2.如权利要求1所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述步骤E中,基于Lattice LSTM和语言模型的命名实体识别模型包括Embedding层、第一DropOut层、Lattice LSTM层、拼接层、第二DropOut层、LSTM层和CRF层。
3.如权利要求2所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述基于Lattice LSTM和语言模型的命名实体识别模型中的拼接层将步骤D5中的数据c输入到基于LSTM的语言模型后的输出与Lattice LSTM层的输出进行拼接。
4.如权利要求3所述的基于Lattice LSTM和语言模型的命名实体识别方法,其特征在于,所述步骤F利用步骤E得到的基于Lattice LSTM和语言模型的命名实体识别模型对待识别数据进行处理,得到命名实体识别结果,具体为:
将待识别数据中的每个字符根据字符编号集合CharID转换为对应ID,并将预测数据中的每一句话与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据WordID转换为对应的ID;然后将转换后的ID输入到基于Lattice LSTM和语言模型的命名实体识别模型中,并采用维特比算法求出每句话最大可能的标注序列,将其作为命名实体识别结果。
CN201811434481.1A 2018-11-28 2018-11-28 一种基于Lattice LSTM和语言模型的命名实体识别方法 Active CN109284400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811434481.1A CN109284400B (zh) 2018-11-28 2018-11-28 一种基于Lattice LSTM和语言模型的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811434481.1A CN109284400B (zh) 2018-11-28 2018-11-28 一种基于Lattice LSTM和语言模型的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN109284400A CN109284400A (zh) 2019-01-29
CN109284400B true CN109284400B (zh) 2020-10-23

Family

ID=65173458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811434481.1A Active CN109284400B (zh) 2018-11-28 2018-11-28 一种基于Lattice LSTM和语言模型的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN109284400B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858041B (zh) * 2019-03-07 2023-02-17 北京百分点科技集团股份有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109902307B (zh) * 2019-03-15 2023-06-02 北京金山数字娱乐科技有限公司 命名实体识别方法、命名实体识别模型的训练方法及装置
CN110083831B (zh) * 2019-04-16 2023-04-18 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110059320B (zh) * 2019-04-23 2021-03-16 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110287480B (zh) * 2019-05-27 2023-01-24 广州多益网络股份有限公司 一种命名实体识别方法、装置、存储介质及终端设备
CN110442858B (zh) * 2019-06-24 2024-01-30 平安科技(深圳)有限公司 一种问句实体识别方法、装置、计算机设备及存储介质
CN110597970B (zh) * 2019-08-19 2023-04-07 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN110750992B (zh) * 2019-10-09 2023-07-04 吉林大学 命名实体识别方法、装置、电子设备及介质
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
CN111476022B (zh) * 2020-05-15 2023-07-07 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN112420151A (zh) * 2020-12-07 2021-02-26 医惠科技有限公司 一种超声报告后结构化解析方法、系统、设备和介质
CN115630649B (zh) * 2022-11-23 2023-06-30 南京邮电大学 一种基于生成模型的医学中文命名实体识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047690A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Integration of Flex and Yacc into a linguistic services platform for named entity recognition
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN107967251A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的命名实体识别方法
CN107797988A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN107797987B (zh) * 2017-10-12 2021-02-09 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN107977353A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于lstm-cnn的混合语料命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107992468A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料命名实体识别方法
CN107832289A (zh) * 2017-10-12 2018-03-23 北京知道未来信息技术有限公司 一种基于lstm‑cnn的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN109284400A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN109284400B (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN108804612B (zh) 一种基于对偶神经网络模型的文本情感分类方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN110334187A (zh) 基于迁移学习的缅语情感分析方法及装置
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113360667B (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN113204967A (zh) 简历命名实体识别方法及系统
CN115544255A (zh) 微博数据正负面识别方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN111178009A (zh) 一种基于特征词加权的文本多语种识别方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN112257447B (zh) 基于深度网络as-lstm的命名实体识别系统及识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant