CN107797987B - 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 - Google Patents

一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 Download PDF

Info

Publication number
CN107797987B
CN107797987B CN201710946532.8A CN201710946532A CN107797987B CN 107797987 B CN107797987 B CN 107797987B CN 201710946532 A CN201710946532 A CN 201710946532A CN 107797987 B CN107797987 B CN 107797987B
Authority
CN
China
Prior art keywords
data
character
lstm
label
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710946532.8A
Other languages
English (en)
Other versions
CN107797987A (zh
Inventor
唐华阳
岳永鹏
刘林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Know Future Information Technology Co ltd
Original Assignee
Beijing Know Future Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Know Future Information Technology Co ltd filed Critical Beijing Know Future Information Technology Co ltd
Priority to CN201710946532.8A priority Critical patent/CN107797987B/zh
Publication of CN107797987A publication Critical patent/CN107797987A/zh
Application granted granted Critical
Publication of CN107797987B publication Critical patent/CN107797987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法。该方法在训练阶段将带有标签的训练混合语料数据转换为字符级的混合语料数据,然后训练基于Bi‑LSTM‑CNN的深度学习模型,在预测阶段将没有标签的测试混合语料数据转换为字符级的混合语料数据,然后使用训练阶段训练好的深度学习模型进行预测。本发明采用字符级而不是词语级的向量,可以免受分词精度的影响,同时还可以规避未登录词的问题;另外采用双向长短期记忆神经网络Bi‑LSTM和卷积神经网络CNN的组合模型,相比传统的算法精度提高了很多;直接使用混合语料进行模型训练,不需要将混合语料的每个语种检测并分开,最终到达可以识别混合语料的目的。

Description

一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
技术领域
本发明属于信息技术领域,具体涉及一种基于Bi-LSTM-CNN的混合语料命名实体识别方法。
背景技术
命名实体识别指的是对于给定的数据集识别指定的具有特定意义的实体名词的过程。命名实体的识别方法的实践场景包括:
场景1:事件检测。地点、时间、人物是时间的几个基本构成部分,在构建事件的摘要时,可以突出相关人物、地点、单位等。在事件搜索系统中,相关的人物、时间、地点可以作为索引关键词。事件的几个构成部分之间的关系,从语义层面更详细的描述了事件。
场景2:信息检索。命名实体可以用来提高和改进检索系统的效果,当用户输入“重大”时,可以发现用户更想检索的是“重庆大学”,而不是其对应的形容词含义。此外,在建立倒排索引的时候,如果把命名实体切成多个单词,将会导致查询效率降低。此外,搜索引擎正在向语义理解、计算答案的方向发展。
场景3:语义网络。语义网络中一般包括概念和实例及其对应的关系,例如“国家”是一个概念,中国是一个实例,“中国”是一个“国家”表达实体与概念之间的关系。语义网络中的实例有很大一部分是命名实体。
场景4:机器翻译。命名实体的翻译常会有一些特殊翻译规则,例如中国人民翻译成英文时要使用名字的拼音来表示,有名在前姓在后的规则,而普通的词语要翻译成对应的英文单词。准确识别出文本中的命名实体,对提高机器翻译的效果有重要的意义。
场景5:问答系统。准确的识别出问题的各个组成部分特别重要,问题的相关领域,相关概念。目前,大部分问答系统都只能搜索答案,而不能计算答案。搜索答案进行关键词的匹配,用户根据搜索结果人工提取答案,而更加友好的方式是把答案计算好呈现给用户。问答系统中有一部分问题需要考虑到实体之间的关系,例如“美国第四十五届总统”,目前的搜索引擎会以特殊的格式返回答案“特朗普”。
传统的对包含多种语言的混合文本的实体识别方法的步骤是:
多语言输入文本-->(分段或分句)文本语言检查-->实体识别
并且其对每一种语言的实体识别可以采用基于词典、基于统计和基于人工神经网络模型的方法。基于词典的命名实体识别,其原理大致是:将尽量多的不同类别的实体词汇收入词典中,识别时将文本信息与词典中的词语进行匹配,匹配上的则标记为对应的实体类别;基于词频统计的方法,例如CRF(条件随机场),其原理大致是学习到前后一个词的语义信息,然后做出分类判断。
上述方法具有以下缺点:
缺点1:对多语言的检测粒度不好区分,并且有因某种语言没有检测到而有分词精度的损失。对于一篇文档包含多种语言的情况,首先需要分段处理,然后对每一个段落做语言类型的检测,然而如果对段落中也包含多种语言的情形,又需要做分句的处理,对句子中包含多种语言都不能做再做分割了。因分词的模型与语料严重的依赖,结果就会出现因某种语言并没有检测到而丢失分词的信息。
缺点2:基于词频统计的HMM(隐马尔可夫)和CRF(条件随机场)方法只能关联当前词的前一个词的语义,识别精度不够高,尤其是未登录词的识别率较低;
缺点3:基于人工神经网络模型的方法,在训练时存在梯度消失问题,并且在实际的应用中网络层数少,最终命名实体识别结果优势不明显。
发明内容
本发明针对上述问题,提供一种基于Bi-LSTM-CNN的混合语料命名实体识别方法,能够有效提高混合语料命名实体识别的精度。其中Bi-LSTM为Bi-directional LongShort-Term Memory,即双向长短期记忆神经网络;CNN为Convolution Neural Network,即卷积神经网络。
本发明中,登录词指的是已经出现在词表中的词;未登录词指的是没有出现在词表中的词;混合语料指的是训练或者预测的数据中包含了至少一种语言的语料数据。
本发明采用的技术方案如下:
一种基于Bi-LSTM-CNN的混合语料命名实体识别方法,包括以下步骤:
1)将原始混合语料数据OrgData转化为字符级的混合语料数据NewData;
2)统计NewData中的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合CharSet对应的字符编号集合CharID;统计NewData中字符的标签,得到标签集合LabelSet,将每个标签进行编号,得到标签集合LabelSet对应的标签编号集合LabelID;
3)将NewData按照句子长度对句子进行分组,得到包括n组句子的数据集合GroupData;
4)随机无放回的从GroupData的某组中抽取BatchSize句数据w,以及对应的标签y,并将抽取的数据w通过CharID转换为固定长度的数据BatchData,将对应的标签通过LabelID转换为固定长度的标签yID
5)将数据BatchData及标签yID送入基于Bi-LSTM-CNN的深度学习模型,训练该深度学习模型的参数,当深度学习模型产生的损失值满足设定条件或者达到最大迭代次数N,则终止该深度学习模型的训练;否则采用步骤4)重新生成数据以训练该深度学习模型;
6)将待预测的数据PreData转换成与该深度学习模型匹配的数据PreMData,并将其送入训练好的该深度学习模型,得到命名实体识别结果OrgResult。
进一步地,步骤1)包括:
1-1)将原始混合语料数据中的数据与标签分离,并对数据的每个词语进行字符级切分;
1-2)采用BMESO的标记方式对每个字符进行标记:设某个词对应的标签为Label,则位于该词语最开始的字符标记为Label_B,位于该词语中间的字符标记为Label_M,位于该词语末尾的词语标记为Label_E,若该词语只有一个字符则标记为Label_S,若该词语没有带标签或者不属于实体标签则标记为o。
进一步地,步骤3)中,设li表示第i句话的句子长度,则将|li-lj|<δ的句子归入一组,其中δ表示句子长度间隔。
进一步地,步骤4)包括:
4-1)将抽取到的数据w转换成数字,也即通过CharSet与CharID的对应关系,将w中的每个字符转换成对应的数字;
4-2)将抽取的数据w对应的标签y转换成数字,也即通过LabelSet与LabelID的对应关系,将y中的每个字符转换成对应的数字;
4-3)假设规定长度为maxLen,当抽取到的数据句子长度l<maxLen时,将句子后面补maxLen-l个0,得到BatchData,并将w对应的标签y后面补maxLen-l个0,得到yID
进一步地,步骤5)所述基于Bi-LSTM-CNN的深度学习模型包括:
Embedding层,用于将输入的字符数据转换为向量;
Bi-LSTM层,包含若干正向和反向的LSTM单元,用于提取字符间的语义关系;
Concatenate层,用于将正向和反向的LSTM单元提取到的语义信息拼接在一起;
第一个DropOut层,用于防止模型过拟合;
Conv层,用于将整句话与当前单个字符通过LSTM提取得到的语义信息抽象出词特征;
第二个DropOut层,用于防止模型过拟合;
SoftMax层,用于对每个字符进行分类。
本发明基于Bi-LSTM-CNN的混合语料命名实体识别方法,采用字符级而不是词语级的向量,可以免受分词精度的影响,同时还可以规避未登录词的问题;另外采用双向长短期记忆神经网络Bi-LSTM和卷积神经网络CNN的组合模型相比传统的算法,精度提高了很多。直接使用混合语料进行模型训练,不需要将混合语料的每个语种检测并分开,最终到达可以识别混合语料的目的。
附图说明
图1.本发明方法的步骤流程图。
图2.深度学习模型示意图。
图3.LSTM单元示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明公开了一种基于Bi-LSTM-CNN的混合语料命名实体识别方法。例如在多种语言混合使用的语料数据中识别人名、地名和组织机构名等命名实体。本发明的核心问题包含三个:1混合语料识别的效率,2命名实体识别的精度,3未登录词的识别精度。
为了解决未登录词问题,本发明放弃了传统的词表方法,而是采用基于词向量的思想,而且是基于字符的向量,而不是基于词语的向量。
为了解决传统命名实体识别方法精度低的问题,本发明采用深度学习的思想,利用双向长短期记忆神经网络模型(Bi-LSTM)和卷积神经网络(CNN)模型相结合进行命名实体识别。
为了解决混合语料识别效率低,避开对每个字符进行语种检测的问题,本发明我们将混合语料一起放入深度学习模型中,进行训练。
本发明的混合语料命名实体识别方法流程如图1所示。该方法分两个阶段:训练阶段,预测阶段。
(一)训练阶段:(流程图的左边虚线框)
步骤1:将带有标签的训练混合语料数据转换为字符级的混合语料数据。
步骤2:使用Adam梯度下降算法训练深度学习模型。此外也可以采用其它算法训练深度学习模型,如SGD即随机梯度下降算法。
(二)预测阶段:(流程图的右边虚线框)
步骤1:将没有标签的测试混合语料数据转换为字符级的混合语料数据。
步骤2:使用训练阶段训练好的深度学习模型进行预测。
下面具体说明两个阶段的具体实现过程。
(一)训练阶段:
步骤1-1:将原始混合语料数据OrgData转化为字符级的混合语料数据NewData。具体为:
步骤1-1-1:将原始语料数据中的数据与标签分离,并对数据的每个词语进行字符级切分。
例如,原始数据为“[张三]/pre[gradated]/o[from]/o[哈佛大学]/org[。]/o”,数据标签分离之后为:
数据为:“[张三][gradated][from][哈佛大学][。]”
标签为:“pre o o org o”
对数据按字符级切分之后为:“[张三][g r a d a t e d][f r o m][哈佛大学][。]”
步骤1-1-2:采用BMESO(Begin,Middle,End,Single,Other)的标记方式对每个字符进行标记(也可以采用其它标记方式)。设某个词对应的标签为Label,则该位于该词语最开始的字符标记为Label_B,位于该词语中间的字符标记为Label_M,位于该词语末尾的词语标记为Label_E,如果该词语只有一个字符则标记为Label_S,若该词语没有带标签或者不属于实体标签则标记为o。
例如,步骤1-1-1中的数据转化为字符级的数据后对应的每个字符的标签为:“pre_B pre_E o_B o_M o_M o_M o_M o_M o_M o_E o_B o_M o_M o_E org_B org_M org_M org_E o_S”。
步骤1-2:统计NewData的字符集合CharSet,为了避免在预测时遇到未知字符,在CharSet中添加一个特殊的符号“null”。并将每个字符按照自然数增序编号,得到字符集合CharSet对应的字符编号集合CharID。
例如步骤1-1中的例子,统计后的CharSet为:{null,张,三,g,r,a,d,t,e,f,r,o,m,哈,佛,大,学,。},标点符号也会统计在里面;CharID为:{null:0,张:1,三:2,g:3,r:4,a:5,d:6,t:7,e:8,f:9,r:10,o:11,m:12,哈:13,佛:14,大:15,学:16,。:17}。
统计标签集合LabelSet,将每个标签进行编号,产生对应的标签编号集合LabelID。
例如步骤1-1中的例子,统计后的LabelSet为:{pre_B,pre_M,pre_E,o_B,o_M,o_E,o_s,org_B,org_M,org_E};LabelID为:{pre_B:0,pre_M:1,pre_E:2,o_B:3,o_M:4,o_E:5,o_s:6,org_B:7,org_M:8,org_E:9}。
步骤1-3:将NewData按照句子长度进行划分。
设li表示第i句话的句子长度,则将|li-lj|<δ的句子归入一组,其中δ表示句子长度间隔。设分组之后的数据为GroupData,一共设为n组。
步骤1-4:随机无放回的从GroupData的某组中抽取BatchSize句数据w,以及对应的标签y,并将抽取的数据通过CharID转换为固定长度的数据BatchData,以及把对应的标签通过LabelID转换为固定长度的标签yID
所述的将抽取的数据通过CharID转换为固定长度的数据BatchData,以及把对应的标签通过LabelID转换为固定长度的标签yID,具体为:
步骤1-4-1:将抽取到的数据w转换成数字,也即通过CharSet与CharID的对应关系,将w中的每个字符转换成对应的数字。
例如步骤1-1中的数据转换为CharID后为:[1,2,3,4,5,6,5,7,8,6,9,10,11,12,13,14,15,16,17]
步骤1-4-2:将抽取的数据w对应的标签y转换成数字,也即通过LabelSet与LabelID的对应关系,将y中的每个字符转换成对应的数字。
例如步骤1-1中的标签转换为LabelID后为:[0,2,3,4,4,4,4,4,4,5,3,4,4,5,7,8,8,9,6]
步骤1-4-3:假设规定长度为maxLen,当抽取到的数据句子长度l<maxLen时,将句子后面补maxLen-l个0,得到BatchData。并将w对应的标签y后面补maxLen-l个0,得到yID
步骤1-5:将步骤1-4的数据BatchData送入深度学习模型,产生损失函数Cost(y′,yID)。
本发明的混合语料命名实体识别方法中深度学习模型如图2所示。其中各部分的含义说明如下:
w1~wn:表示(可以直观的理解为某句话中的各个字符,也就是步骤1-4中的数据w,不过在传入Embedding层时,需要将步骤1-4走完)。
y1~yn:可以直观的理解为某句话中各个字符对应预测标签,将用于和实际标签yID计算损失值。
Embedding层:即嵌入层,也就是向量化的过程,用于将输入的字符数据转换为向量。
Bi-LSTM层:包含若干正向和反向的LSTM单元,用于提取字符间的语义关系。
Concatenate层:用于将正向和反向的LSTM单元提取到的语义信息拼接在一起。
第一个DropOut层:即过滤层,用于防止模型过拟合。
Conv层:即卷积层,用于将整句话与当前单个字符通过LSTM提取得到的语义信息抽象出词特征。
第二个DropOut层:即过滤层,用于防止模型过拟合。
SoftMax层:即分类层,用于最终对每个字符进行分类。
训练所述的深度学习模型的步骤具体为:
步骤1-5-1:将传入的数据BatchData在Embedding层进行向量化,也即将数据BatchData中的每一条数据中的每个字符都通过一向量表Char2Vec转换成BatchVec。
步骤1-5-2:将BatchVec传入Bi-LSTM层,详细为:将每条数据中的第一个向量传入正向的第一个LSTM单元,正向的第二个向量传入第二个LSTM单元,依次类推。同时正向的第i个LSTM单元的输入除了每条数据中的第i个向量外,还包含正向的第i-1个LSTM单元的输出。再将每条数据中的第一个向量传入反向的第一个LSTM单元,反向的第二个向量传入第二个LSTM单元,依次类推。同样反向的第i个LSTM单元的输入除了每条数据中的第i个向量外,还包含反向的第i-1个LSTM单元的输出。注意,每个LSTM单元一次接收到的向量并不是只有一个,而是BatchSize个。
更详细的LSTM单元描述见图3。图3中各符号的含义说明如下:
w:输入数据(例如一句话)中的字符。
Ci-1,Ci:分别表示前i-1个字符累积得到的语义信息和前i个字符累积得到的语义信息。
hi-1,hi:分别表示第i-1个字符的特征信息和第i个字符的特征信息。
f:遗忘门,用于控制前i-1个字符的累积语义信息(Ci-1)保留多少。
i:输入门,用于控制输入数据(w和hi-1)保留多少。
o:输出门,用于控制在输出第i个字符的特征时输出多少特征信息。
tanh:双曲正切函数
u:tanh:与输入门i一起控制第i个字符有多少特征信息保留在Ci-1中。
*,+:分别表示按位进行乘法和按位进行加法。
步骤1-5-3:将正向和反向的每个LSTM单元的输出
Figure BDA0001431825840000071
Figure BDA0001431825840000072
传入Concatenate层,也即是将正向和反向的LSTM单元的输出结果拼接在一起组合成
Figure BDA0001431825840000073
步骤1-5-4:将Concatenate层的输出传入DropOut层,也即是随机的将hi中η(0≤η≤1)的数据隐藏掉,不让其继续向后传递。
步骤1-5-5:将DropOut的输出传入Conv卷积层进行卷积后,使用ReLU激活函数
Figure BDA0001431825840000081
并将卷积层的输出设为ci
步骤1-5-6:与步骤1-5-4类似,将Conv层的输出ci传入DropOut层,也即是随机的将ci中η(0≤η≤1)的数据隐藏掉,不让其继续向后传递。
步骤1-5-7:将DropOut的输出传入SoftMax层,并产生最终的损失值Cost(y′,yID)。具体的计算公式如下:
Cost(y′,yID)=-yIDlog(y′)+(1-yID)log(1-y′) (公式1)
其中y′表示BatchData经过深度学习模型分类层(SoftMax层)后的输出,对应于图2中的y1,y2,…,yn。yID表示对应的真实标签。
步骤1-6:使用Adam梯度下降算法训练深度学习模型的参数。
步骤1-7:如果深度学习模型产生的Cost(y′,yID)不再降低,或者达到最大迭代次数N,则终止深度学习模型的训练;否则跳到步骤1-4。
Figure BDA0001431825840000082
其中,Cost′i(y′,yID)表示前i次迭代时的损失值,Cost(y′,yID)表示当前迭代产生的损失值。该公式的含义是,如果当前的损失值与前M次损失值的平均值的差小于阈值θ,则认为不再降低。
(二)预测阶段:
步骤2-1:将待预测的数据转换PreData成与模型匹配的数据格式PreMData。具体为:将待预测的数据转换成字符级的数字数据。
步骤2-2:将PreMData送入训练阶段训练好的深度学习模型,并得到预测结果OrgResult。
预测阶段步骤2所述的深度学习模型,即为训练阶段训练好的深度学习模型,不过在预测时,其中涉及到的DropOut层的参数η=1,表示不隐藏任何数据,全部都传递到下一层。
本发明对测试数据的正确率在91.7%左右。现有技术中,例如基于字典的方法,是完全没有办法解决未登录词的,也就是说未登录词的识别率是0,基于统计的方法或者基于传统人工神经网络的方法的正确率大概在92.5%。但这些都是在单语种的语料情况下,本发明则是在多语种混合语料的情况下进行计算的,就将语种分开后单独处理每个语种而言,本发明能够实现统一处理,在精度降低可接受的范围内,处理效率提高了很多。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于Bi-LSTM-CNN的混合语料命名实体识别方法,其特征在于,包括以下步骤:
1)将原始混合语料数据OrgData转化为字符级的混合语料数据NewData;
2)统计NewData中的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合CharSet对应的字符编号集合CharID;统计NewData中字符的标签,得到标签集合LabelSet,将每个标签进行编号,得到标签集合LabelSet对应的标签编号集合LabelID;
3)将NewData按照句子长度对句子进行分组,得到包括n组句子的数据集合GroupData;
4)随机无放回的从GroupData的某组中抽取BatchSize句数据w,以及对应的标签y,并将抽取的数据w通过CharID转换为固定长度的数据BatchData,将对应的标签通过LabelID转换为固定长度的标签yID
5)将数据BatchData及标签yID送入基于Bi-LSTM-CNN的深度学习模型,训练该深度学习模型的参数,当深度学习模型产生的损失值满足设定条件或者达到最大迭代次数N,则终止该深度学习模型的训练;否则采用步骤4)重新生成数据以训练该深度学习模型;
6)将待预测的数据PreData转换成与该深度学习模型匹配的数据PreMData,并将其送入训练好的该深度学习模型,得到命名实体识别结果OrgResult。
2.如权利要求1所述的方法,其特征在于,步骤1)包括:
1-1)将原始混合语料数据中的数据与标签分离,并对数据的每个词语进行字符级切分;
1-2)采用BMESO的标记方式对每个字符进行标记:设某个词语对应的标签为Label,则位于该词语最开始的字符标记为Label_B,位于该词语中间的字符标记为Label_M,位于该词语末尾的词语标记为Label_E,若该词语只有一个字符则标记为Label_S,若该词语没有带标签或者不属于实体标签则标记为o。
3.如权利要求1所述的方法,其特征在于,步骤3)中,设li表示第i句话的句子长度,lj表示第j句话的句子长度,则将|li-lj|<δ的句子归入一组,其中δ表示句子长度间隔。
4.如权利要求1所述的方法,其特征在于,步骤4)包括:
4-1)将抽取到的数据w转换成数字,也即通过CharSet与CharID的对应关系,将w中的每个字符转换成对应的数字;
4-2)将抽取的数据w对应的标签y转换成数字,也即通过LabelSet与LabelID的对应关系,将y中的每个字符转换成对应的数字;
4-3)假设规定长度为maxLen,当抽取到的数据句子长度l<maxLen时,将句子后面补maxLen-l个0,得到BatchData,并将w对应的标签y后面补maxLen-l个0,得到yID
5.如权利要求1所述的方法,其特征在于,步骤5)所述基于Bi-LSTM-CNN的深度学习模型包括:
Embedding层,用于将输入的字符数据转换为向量;
Bi-LSTM层,包含若干正向和反向的LSTM单元,用于提取字符间的语义关系;
Concatenate层,用于将正向和反向的LSTM单元提取到的语义信息拼接在一起;
第一个DropOut层,用于防止模型过拟合;
Conv层,用于将整句话与当前单个字符通过LSTM提取得到的语义信息抽象出词特征;
第二个DropOut层,用于防止模型过拟合;
SoftMax层,用于对每个字符进行分类。
6.如权利要求5所述的方法,其特征在于,步骤5)训练所述深度学习模型的步骤包括:
5-1)将传入的数据BatchData在Embedding层进行向量化,也即将数据BatchData中的每一条数据中的每个字符都通过一向量表Char2Vec转换成BatchVec;
5-2)将BatchVec传入Bi-LSTM层;
5-3)将正向和反向的每个LSTM单元的输出
Figure FDA0002776683430000021
Figure FDA0002776683430000022
传入Concatenate层;
5-4)将Concatenate层的输出传入第一个DropOut层;
5-4)将第一个DropOut层的输出传入Conv层;
5-5)将Conv层的输出ci传入第二个DropOut层;
5-6)将第二个DropOut层的输出传入SoftMax层,并产生最终的损失值。
7.如权利要求6所述的方法,其特征在于,步骤5-2)将每条数据中的第一个向量传入正向的第一个LSTM单元,正向的第二个向量传入第二个LSTM单元,依次类推,同时正向的第i个LSTM单元的输入除了每条数据中的第i个向量外,还包含正向的第i-1个LSTM单元的输出;再将每条数据中的第一个向量传入反向的第一个LSTM单元,反向的第二个向量传入第二个LSTM单元,依次类推,同样反向的第i个LSTM单元的输入除了每条数据中的第i个向量外,还包含反向的第i-1个LSTM单元的输出;每个LSTM单元一次接收到的向量是BatchSize个。
8.如权利要求6所述的方法,其特征在于,所述损失值的计算公式为:
Cost(y′,yID)=-yIDlog(y′)+(1-yID)log(1-y′),
其中y′表示BatchData经过深度学习模型的SoftMax层后的输出,yID表示对应的标签。
9.如权利要求8所述的方法,其特征在于,如果损失值Cost(y′,yID)不再降低则终止深度学习模型的训练,采用以下公式判断Cost(y′,yID)不再降低:
Figure FDA0002776683430000031
其中,Cost′i(y′,yID)表示前i次迭代时的损失值,Cost(y′,yID)表示当前迭代产生的损失值,如果当前的损失值与前M次损失值的平均值的差小于阈值θ,则认为损失值不再降低。
10.如权利要求1所述的方法,其特征在于,步骤5)使用Adam梯度下降算法训练深度学习模型的参数。
CN201710946532.8A 2017-10-12 2017-10-12 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 Active CN107797987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710946532.8A CN107797987B (zh) 2017-10-12 2017-10-12 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710946532.8A CN107797987B (zh) 2017-10-12 2017-10-12 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法

Publications (2)

Publication Number Publication Date
CN107797987A CN107797987A (zh) 2018-03-13
CN107797987B true CN107797987B (zh) 2021-02-09

Family

ID=61533773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710946532.8A Active CN107797987B (zh) 2017-10-12 2017-10-12 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法

Country Status (1)

Country Link
CN (1) CN107797987B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523993B (zh) * 2018-11-02 2022-02-08 深圳市网联安瑞网络科技有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
CN109284400B (zh) * 2018-11-28 2020-10-23 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109800310B (zh) * 2018-12-03 2021-11-09 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN109740151A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
CN110782002B (zh) * 2019-09-12 2022-04-05 成都四方伟业软件股份有限公司 一种lstm神经网络训练方法及装置
CN110738319A (zh) * 2019-11-11 2020-01-31 四川隧唐科技股份有限公司 一种基于crf识别中标单位的lstm模型单元训练方法及装置
CN111141412A (zh) * 2019-12-25 2020-05-12 深圳供电局有限公司 电缆温度和防盗的双监测方法、系统和可读存储介质
CN112052852B (zh) * 2020-09-09 2023-12-29 国家气象信息中心 一种基于深度学习的手写气象档案资料的字符识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106649272A (zh) * 2016-12-23 2017-05-10 东北大学 一种基于混合模型的命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278951A1 (en) * 2013-03-15 2014-09-18 Avaya Inc. System and method for identifying and engaging collaboration opportunities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106649272A (zh) * 2016-12-23 2017-05-10 东北大学 一种基于混合模型的命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中英命名实体识别及对齐中的中文分词优化;尹存燕 等;《电子学报》;20150831;第43卷(第8期);第1481-1487页 *

Also Published As

Publication number Publication date
CN107797987A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN107908614A (zh) 一种基于Bi‑LSTM的命名实体识别方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN110263325A (zh) 中文分词系统
CN107967251A (zh) 一种基于Bi-LSTM-CNN的命名实体识别方法
CN110472548B (zh) 一种基于语法分类器的视频连续手语识别方法及系统
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN107992468A (zh) 一种基于lstm的混合语料命名实体识别方法
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN111353029A (zh) 一种基于语义匹配的多轮对话口语理解方法
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
Kshirsagar et al. A review on application of deep learning in natural language processing
CN107797986B (zh) 一种基于lstm-cnn的混合语料分词方法
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN116502628A (zh) 基于知识图谱的政务领域多阶段融合的文本纠错方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 301, Unit 1, 3rd Floor, Building 15, No.1 Courtyard, Gaolizhang Road, Haidian District, Beijing, 100080

Patentee after: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD.

Address before: 100102 room 112102, unit 1, building 3, yard 1, Futong East Street, Chaoyang District, Beijing

Patentee before: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD.