CN111160033A - 一种基于神经网络的命名实体识别方法、计算设备及存储介质 - Google Patents
一种基于神经网络的命名实体识别方法、计算设备及存储介质 Download PDFInfo
- Publication number
- CN111160033A CN111160033A CN201911310505.7A CN201911310505A CN111160033A CN 111160033 A CN111160033 A CN 111160033A CN 201911310505 A CN201911310505 A CN 201911310505A CN 111160033 A CN111160033 A CN 111160033A
- Authority
- CN
- China
- Prior art keywords
- word
- attribute
- named entity
- speech
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 74
- 230000011218 segmentation Effects 0.000 claims abstract description 52
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011668 ascorbic acid Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- OMMBWIJMWMSGBX-UHFFFAOYSA-N n,n-diethyl-2-(5-imino-3-phenyl-1,2,4-oxadiazol-4-yl)ethanamine;hydrochloride Chemical compound [Cl-].O1C(=N)N(CC[NH+](CC)CC)C(C=2C=CC=CC=2)=N1 OMMBWIJMWMSGBX-UHFFFAOYSA-N 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于神经网络的命名实体识别方法,该方法包括步骤:对待识别语料进行分词以获得分词结果,其中待识别预料包括多个字;基于分词结果来获取待识别语料中每个字的字属性、词属性、词性属性;对于每个字,基于其字属性、词属性、词性属性构造表征该字的属性向量;利用神经网络模型对每个字的属性向量进行处理,以获得每个字的标识,该标识指示相应的字为命名实体的开头字、命名实体的中间字、命名实体的结尾字、以及非命名实体字之一;以及根据所获得的字标识来确定待识别语料中的命名实体。本发明还公开了相应的计算设备及存储介质。
Description
技术领域
本发明涉及命名实体识别领域,特别涉及一种基于神经网络的命名实体识别方法、计算设备及存储介质。
背景技术
命名实体识别任务是对文本数据中的实体进行识别,提取文本中的有效信息,具体的,识别的对象是文本数据,如一句话或一段文章;识别的要求是标记出这段文字中的实体名称,如人名、地名、机构名、称谓等等。目前,现有技术中实现命名实体识别有以下方案:
1)基于规则的最大正/反向匹配,以及双向匹配;
2)规则里糅合一定的统计规则,采用动态规划计算最大的概率路径的分词;
3)基于传统机器学习的方法,以CRF为主。
然而传统的文本分类方法没有考虑到词与词之间的关系以及对低频词不友好,无法很好地判断特殊任务中命名体的边界。现有的基于学习的命名实体识别系统大量依赖于需要高代价的标注数据,如何利用已公开的数据集,而不需要额外人工标注新的数据集,进行高效的命名实体识别已经成为亟待解决的问题。
发明内容
为此,本发明提供了一种基于神经网络的命名实体识别方法、计算设备及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种基于神经网络的命名实体识别方法,该方法包括步骤:对待识别语料进行分词以获得分词结果,所述待识别预料包括多个字;基于分词结果来获取待识别语料中每个字的字属性、词属性、词性属性;对于每个字,基于其字属性、词属性、词性属性构造表征该字的属性向量;利用神经网络模型对每个字的属性向量进行处理,以获得每个字的标识,该标识指示相应的字为命名实体的开头字、命名实体的中间字、命名实体的结尾字、以及非命名实体字之一;以及根据所获得的字标识来确定待识别语料中的命名实体。
可选地,在根据本发明的命名实体识别方法中,在根据分词结果获取所述待识别语料中每个字的字属性、词属性、词性属性之前,根据词库对分词结果进行修正,该词库包括多个特定词汇。
可选地,在根据本发明的命名实体识别方法中,根据词库对分词结果进行修正的步骤包括:当分词结果相邻两个或多个词中所有字符包含在词库中的某个特定词汇中,将相邻的两个或者多个词进行拼接为一个词。
可选地,在根据本发明的命名实体识别方法中,根据词库对分词结果进行修正的步骤还包括:当分词结果相邻两个或多个词中部分连续字符包含在词库中的某个特定词汇中,拆开相邻的两个或者多个词,并将拆开后的两个词或者多个词中与特定词汇相对应的字符进行拼接为一个词。
可选地,在根据本发明的命名实体识别方法中,根据词库对分词结果进行修正的步骤还包括:当分词结果中多个连续词同时是词库中的特定词汇,依据长词组进行拼接。
可选地,在根据本发明的命名实体识别方法中,词性属性为连接词。
可选地,在根据本发明的命名实体识别方法中,基于字属性、词属性、词性属性构造表征字的属性向量包括步骤:根据字属性构造字属性向量;根据词属性构造词属性向量;根据词性属性构造词性属性向量;将字属性向量、词属性向量、词性属性向量进行拼接以获得表征该字的属性向量。
可选地,在根据本发明的命名实体识别方法中,根据字属性构造字属性向量,根据所述词属性构造词属性向量包括步骤:对字属性进行word2vec编码构造字属性向量;对词属性进行word2vec编码构造词属性向量。
可选地,在根据本发明的命名实体识别方法中,字属性向量的维度为200,词属性向量的维度为200。
可选地,在根据本发明的命名实体识别方法中,对词性属性进行独热码编码获得词性属性向量。
可选地,在根据本发明的命名实体识别方法中,词性属性向量的维度为2。
可选地,在根据本发明的命名实体识别方法中,当词性属性为是连接词时,编码为[1,0],当词性属性为非连接词时,编码为[0,1]。
可选地,在根据本发明的命名实体识别方法中,神经网络模型为双向长短神经网络和条件随机场的合并模型。
根据本发明的又一个方面,提供了一种计算设备,包括至少一个处理器;以及存储器,存储有程序指令,其中程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行根据本发明的基于神经网络的命名实体识别方法。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当该程序指令被客户端读取并执行时,使得客户端执行本发明的基于神经网络的命名实体识别方法。
根据本发明的技术方案,根据对待识别语料的分词结果,构建表征每个字的属性向量,属性向量基于每个字的字属性、词属性、词性属性构建。因为词性属性代表语义即词汇之间的关系,利用字、词和词汇之间的关系作为输入特征,使用神经网络进行命名实体识别,实体识别结果更加精准。另外,还可以结合引入的特定词汇对分词结果进行修正,增加命名实体识别下标的准确性。
进一步地,词性属性为连接词,因为连接词前后的表达的语义是相似或者相反的关系,对垂直领域来说不需要额外标注大量词汇,只需要结合已公开的数据集,利用相对少量的特定词汇就可以提升实体识别的整体效果,增加命名实体识别的召回率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的构造示意图;
图2示出了根据本发明的一个实施例的命名实体识别方法200的流程图;
图3示出了根据本发明的一个实施例的神经网络模型300的结构图;
图4示出了根据本发明的一个实施例的命名实体识别方法的识别结果400的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中,计算设备100被配置为执行基于神经网络的命名实体识别方法,程序数据124中就包含了用于执行所述方法的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。在本方案中,可以通过键盘之类的数据输入设备获取待识别的语料,当然,也可以通过通信设备146获取待识别的语料。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行某些方法的指令,如根据本发明的实施例,计算设备100通过所述指令来执行基于实基于神经网络的命名实体识别方法。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
图2示出了根据本发明的一个实施例的命名实体识别方法200的流程图。方法200适于在计算设备(例如前述计算设备100)中执行。如图2所示,命名实体识别方法始于步骤210。
在步骤S210中,对待识别语料进行分词以获得分词结果,待识别预料包括多个字。
利用现有的自然语言处理技术,例如LTP,对句子进行分词和词性解析。其中,LTP是开源的一套中文语言处理系统,涵盖了基本功能:分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。当然还有其他自然语言处理技术对待识别语料进行处理,本发明不做限制。
例如词性标注集如下所示:n/名词nh/人名ns/地名ni/机构名nz/其它专名m/数词q/量词mq/数量词t/时间词f/方位词s/处所词v/动词a/形容词d/副词h/前接成分k/后接成分i/习语j/简称r/代词c/连接词p/介词u/助词y/语气助词e/叹词o/拟声词g/语素wp/标点ws/外文x/其它。
对于“aion lx埃安lx和宝马320li怎么样?”其中“aion lx埃安lx”是一个标准的车系名称,“宝马320li”是一个车系的别名,都需要利用实体识别模型能够识别出的实体。使用LTP的分词和词性解析结果如下:
aion | lx | 埃安 | lx | 和 | 宝马 | 320li | 怎么样 | ? |
ws | ws | nh | ws | c | nz | % | r | wp |
现有的开源的自然语言分词技术基本都是针对开放领域进行开发的,难点主要集中在分词标准,切分歧义和新词三部分,新词即为分词时使用的词典未出现过的词。新词主要分为新出现的词汇、专业名词和垂直领域词语等,这些词对分词精度的影响远远超过歧义划分,识别难度也很大。根据本发明的一个实施例,根据词库对分词结果进行修正,词库包括多个特定词汇。
对于垂直领域的一些特定的名词无法进行准确的识别的情况,例如在汽车垂直领域中“aion lx”是一个车系的简称,所以利用包含这些特定词汇的词库对LTP的结果进行垂直领域分词的修正。
根据本发明的一个实施例,修正规则包括当分词结果相邻两个或多个词中所有字符包含在词库中的某个特定词汇中,将相邻的两个或者多个词进行拼接为一个词。
例如“aion lx埃安lx和宝马320li怎么样?”中,LTP分词结果为“aion//lx/埃安/lx/和/宝马/320li/怎么样/?”,而“aion lx”是包含在词库中的特定词汇,所以将“aion//lx”进行拼接,所以结果为“aion lx/埃安/lx/和/宝马/320li/怎么样/?”。
根据本发明的一个实施例,修正规则包括当分词结果相邻两个或多个词中部分连续字符包含在词库中的某个特定词汇中,拆开相邻的两个或者多个词,并将拆开后的两个词或者多个词中与特定词汇相对应的字符进行拼接为一个词。
例如“奔驰E3004s店在哪里?”,其LTP的分词和词性结果如下:“奔驰/E3004s/店/在/哪里/?”。
其中“4s店”作为一个特定词汇包含在词库中,但是在LTP中被拆分开“4s”和“店”,并且“4s”和前面的四个字符“E300”共同组合成了一个词汇“E3004s”。依据修正规则,将“E3004s”中的“4s”和后面词汇“店”组合成词库中的特定词汇“4s店”,将“E300”作为一个单独的词汇,所以根据修正规则进行修正后的分词结果为“奔驰/E300/4s店/在/哪里/?”。
根据本发明的一个实施例,修正规则还包括,当分词结果中多个连续词同时是词库中的特定词汇,依据长词组进行拼接。
例如,“这个车带不带后排中央安全气囊啊?”,该语句在LTP模型中的分词结果如下:“这个/车/带/不/带/后排/中央/安全/气囊/啊/?”。
其中“安全气囊”和“后排中央安全气囊”都是词库中已经收录的特定词汇,很明显“后排中央安全气囊”和“安全气囊”是真包含关系,并且“后排中央安全气囊”包含“安全气囊”,所以将“后排中央安全气囊”作为一个单独的词汇进行分词,即分词结果如下:“这个/车/带/不/带/后排中央安全气囊/啊/?”。
根据上述修正规则,在垂直领域的词典中“aion lx”是一个词库中已经收录的词汇,所以对LTP分词结果应该修正为:
aion lx | 埃安 | lx | 和 | 宝马 | 320li | 怎么样 | ? |
ws | nh | ws | c | nz | % | r | wp |
根据本发明的一个实施例,基于正向最大匹配规则,从左到右将句子文本中的几个连续字符与词库的特定词汇匹配,如果匹配上,则记录下该词为词库中的一个特定词汇。例如“aion lx埃安lx和宝马320li怎么样?”,从左到右将“a”“i”“o”“n”等字符按照顺序进行匹配判断,当匹配到字符“x”时,连续字符“a”“i”“o”“n”“”“l”“x”组合成的“aion lx”与垂直领域词典中的“aion lx”匹配上,所以记录句子中“aion lx”为词库中的一个特定词汇。还有其他方式查找句子中的特定词汇,例如逆向最大匹配法、双向最大匹配法等,本发明不做限制。
在步骤S220中,基于分词结果来获取所述待识别语料中每个字的字属性、词属性、词性属性。字属性是每个字本身,词属性是这个字所在的分词结果的词,词性属性是这个字所在的分词结果的词性。
其中,词性利用语法类划分划分为名词、动词、形容词、连接词、数词等十几类,由于词类的划分是结合语义进行的,短语层所使用的规则除语法规则外还涉及语义规则。
进一步地,词性属性为连接词。中文连接词可以表示为并列、承接、转折、因果、选择、假设、比较、让步等关系,其中并列、承接、选择、比较等连接词更容易体现出连接词前后的表达的语义是相似或者相反的关系,例如“aion lx埃安lx和宝马320li怎么样?”,其中“和”为并列连接词,如果“aion lx埃安lx”是一个已经收录的实体,那么“和”之后连接一个实体的概率就很大,所以为了增加“宝马320li”能够识别成实体的概率,我们将语句中的连接词的位置作为一个输入特征。
目前,主要使用并列、承接、选择、比较、转折等连接词关系:
并列连词:和、跟、与、同、及、而、况、况且、何况、乃至等;
承接连词:则、乃、就、而、于是、至于、说到、此外、像、如、一般、比方等;
转折连词:却、但是、然而、而、偏偏、只是、不过、至于、致、不料、岂知等;
选择连词:或、抑、非…即、不是…就是等;
比较连词:像、好比、如同、似乎、等于、不如、不及、与其…不如、若…则、虽然…可是等。
将待识别语料分词结果中的连接词的字符用“C”进行表示,非连接词的字符使用“O”进行表示,结果如下:
aion lx | 埃安 | lx | 和 | 宝马 | 320li | 怎么样 | ? |
O | O | O | C | O | O | O | O |
在步骤S230中,对于每个字,基于属性、词属性、词性属性构造表征该字的属性向量。
根据本发明的一个实施例,根据字属性构造字属性向量,根据词属性构造词属性向量,根据词性属性构造词性属性向量,将字属性向量、词属性向量、词性属性向量进行拼接获得表征该字的属性向量。
具体地,字属性是每个字本身,对字属性进行word2vec编码构造字属性向量,词属性是这个字所在的分词结果的词,对词属性进行word2vec编码构造词属性向量。word2vec是一个开源且预训练好的模型,用于将中文文本的字和词映射到一个新的空间中,并以多维的连续实数向量进行表示。其依赖skip-grams或连续词袋来建立神经词嵌入,可用来表示词对词之间的关系。具体地,word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。
例如,利用垂直领域的纯文本文章数据,结合word2vec算法进行字级别和词级别的向量模型的训练,分别获得字级别和词级别的向量库。根据本发明的一个实施例,在进行向量模型的训练时,指定字属性向量和词属性向量的维度为200。则通过训练获得“a”字符的向量为[-3.516124 3.260292 … -4.266627],“aion lx”词的向量为[0.534945 -0.136487 … 0.08850]。
词性属性是这个字所在的分词结果的词性,词性属性编码采用独热码编码方式,独热码又称one-hot编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。进一步地,词性属性为连接词。
根据本发明的一个实施例,对于连接词采用one-hot向量方式进行编码,由于连接词的标识只有两种:“O”对应非连接词,“C”对应为连接词,词性属性向量的维度为2。当词性属性为是连接词时,编码为[1,0],当词性属性为非连接词时,编码为[0,1]。
然后将根据上述方法得到的字属性向量、词属性向量、词性属性向量进行横向拼接,获得表征字的属性向量横向拼接。拼接的顺序本发明不做限制,例如将字向量、词向量和连接词向量按照先后顺序进行横向拼接,然后对“aion lx”词中“a”字符编码,结果为[-3.516124 3.260292 … -4.266627 0.534945 -0.136487 … 0.088505 0 1],其拼接之后的向量为200+200+2的402维向量。
步骤S240中,利用神经网络模型对每个字的属性向量进行处理,以获得每个字的标识,标识指示相应的字为命名实体的开头字、命名实体的中间字、命名实体的结尾字、以及非命名实体字之一。
在该步骤中,可以使用双向长短神经网络和条件随机场的合并模型即BiLSTM-CRF模型进行数据训练,获得最优模型。使用最优模型进行命名实体识别,获得命名实体识别结果。还有其他结构的神经网络模型本发明不做限制。
图3示出了根据本发明的一个实施例的神经网络模型300的结构图,其中BLSTM-CRF网络由两个部分组成:BLSTM层和CRF层。BLSTM可以生成属于不同标识得分,对于命名实体识别任务来说,仅根据前向的信息来推出后面的LSTM是不够的,因此通过双向的LSTM可以考虑到前向和后向的顺序,最大化标识选择的概率。其中“B_s”代表模型识别出的词汇的开始字符位置,“B_m”代表模型识别出的词汇的中间字符位置,“B_e”代表模型识别出的词汇的结束字符位置,“O”代表非命名实体之一。该任务的标识还含有限制条件,例如“B-e”前只能接“B-m”,“B-s”后不能接“B-s”,因此使用CRF限定生成标识之间关系。
具体地,对于每个字输入拼接后的属性向量,让神经网络发现通过字的属性组合成的潜在的信息,然后通过第一层的正向Bi-LSTM层l1-1n和第二层的反向Bi-LSTM层r1-rn,然后得到两个方向的LSTM输出再拼接,再经过一个全连接层p1-pn,通过条件随机场CRF的方法进行预测标识。其中,n与输入的字符数对应,可以为任意自然数,此处不做限制。利用神经网络对待识别的文本数据进行处理,神经网络会返回条件随机场生成的转移概率矩阵和生成logit值。得到移概率矩阵和logit值即可通过维特比算法进行解码,标记出每个字的最终标识。
图4示出了根据本发明的一个实施例的命名实体识别方法的识别结果400的示意图。将“aion lx埃安lx和宝马320li怎么样?”中各个字符产生的属性向量输入BiLSTM-CRF模型中进行预测,获得模型预测结果为每个字符对应的实体标识位置的标注结果,即每个字的标识,该标识指示相应的字为命名实体的开头字、命名实体的中间字、命名实体的结尾字、以及非命名实体字之一。具体地,其中“B_s”代表模型识别出的词汇的开始字符位置,“B_m”代表模型识别出的词汇的中间字符位置,“B_e”代表模型识别出的词汇的结束字符位置,“O”代表非命名实体之一。开始标注位置“B_s”到多个中间标注位置“B_m”和结束位置“B_e”的连续字符共同组合成了一个实体。
步骤S250中,根据所获得的字标识来确定待识别语料中的命名实体。
依据实体识别出的字符对应的实体标注结果,解析获得句子中的通过模型识别出的实体。例如“aion lx埃安lx和宝马320li怎么样?”依据模型的预测结果,获得识别出的实体为“aion lx埃安lx”和“宝马320li”。
根据本发明的技术方案,根据对待识别语料的分词结果,构建表征每个字的属性向量,属性向量基于每个字的字属性、词属性、词性属性构建。因为词性属性代表语义即词汇之间的关系,利用字、词和词汇之间的关系作为输入特征,使用神经网络进行命名实体识别,实体识别结果更加精准。另外,还可以结合引入的特定词汇对分词结果进行修正,增加命名实体识别下标的准确性。
进一步地,词性属性为连接词,因为连接词前后的表达的语义是相似或者相反的关系,对垂直领域来说不需要额外标注大量词汇,只需要结合已公开的数据集,利用相对少量的特定词汇就可以提升实体识别的整体效果,增加命名实体识别的召回率。
A8、如A7所述的方法,所述根据所述字属性构造字属性向量,根据所述词属性构造词属性向量包括步骤:
对所述字属性进行word2vec编码构造字属性向量;
对所述词属性进行word2vec编码构造词属性向量。
A9、如A8所述的方法,所述字属性向量的维度为200,所述词属性向量的维度为200。
A10、如A7所述的方法,根据所述词性属性构造词性属性向量包括步骤:
对所述词性属性进行独热码编码获得词性属性向量。
A11、如A10所述的方法,所述词性属性向量的维度为2。
A13、如A1-A12中任一项所述的方法,所述神经网络模型为双向长短神经网络和条件随机场的合并模型。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种基于神经网络的命名实体识别方法,包括步骤:
对待识别语料进行分词以获得分词结果,所述待识别预料包括多个字;
基于所述分词结果来获取所述待识别语料中每个字的字属性、词属性、词性属性;
对于每个字,基于所述字属性、词属性、词性属性构造表征所述字的属性向量;
利用神经网络模型对每个字的属性向量进行处理,以获得每个字的标识,所述标识指示相应的字为命名实体的开头字、命名实体的中间字、命名实体的结尾字、以及非命名实体字之一;以及
根据所获得的字标识来确定所述待识别语料中的命名实体。
2.如权利要求1所述的方法,还包括步骤,在所述根据分词结果获取所述待识别语料中每个字的字属性、词属性、词性属性之前:
根据词库对分词结果进行修正,所述词库包括多个特定词汇。
3.如权利要求2所述的方法,所述根据词库对分词结果进行修正的步骤包括:
当分词结果相邻两个或多个词中所有字符包含在词库中的某个特定词汇中,将所述相邻的两个或者多个词进行拼接为一个词。
4.如权利要求2或3所述的方法,所述根据词库对分词结果进行修正的步骤还包括:
当分词结果相邻两个或多个词中部分连续字符包含在词库中的某个特定词汇中,拆开所述相邻的两个或者多个词,并将拆开后的两个词或者多个词中与所述特定词汇相对应的字符进行拼接为一个词。
5.如权利要求2-4中任一项所述的方法,所述根据词库对分词结果进行修正的步骤还包括:
当分词结果中多个连续词同时是词库中的特定词汇,依据长词组进行拼接。
6.如权利要求1-5中任一项所述的方法,所述词性属性为连接词。
7.如权利要求1-6中任一项所述的方法,所述基于所述字属性、词属性、词性属性构造表征所述字的属性向量包括步骤:
根据所述字属性构造字属性向量;
根据所述词属性构造词属性向量;
根据所述词性属性构造词性属性向量;
将所述字属性向量、词属性向量、词性属性向量进行拼接以获得表征所述字的属性向量。
8.如权利要求6或7中所述的方法,当所述词性属性为是连接词时,编码为[1,0],当所述词性属性为非连接词时,编码为[0,1]。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述的基于神经网络的命名实体识别方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被客户端读取并执行时,使得所述客户端执行如权利要求1-8中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310505.7A CN111160033B (zh) | 2019-12-18 | 2019-12-18 | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310505.7A CN111160033B (zh) | 2019-12-18 | 2019-12-18 | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160033A true CN111160033A (zh) | 2020-05-15 |
CN111160033B CN111160033B (zh) | 2024-02-27 |
Family
ID=70557724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911310505.7A Active CN111160033B (zh) | 2019-12-18 | 2019-12-18 | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160033B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906380A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176953A (zh) * | 2013-03-20 | 2013-06-26 | 新浪网技术(中国)有限公司 | 一种文本处理方法及系统 |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
CN110298019A (zh) * | 2019-05-20 | 2019-10-01 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110502742A (zh) * | 2019-07-11 | 2019-11-26 | 中国科学院计算技术研究所 | 一种复杂实体抽取方法、装置、介质及系统 |
-
2019
- 2019-12-18 CN CN201911310505.7A patent/CN111160033B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176953A (zh) * | 2013-03-20 | 2013-06-26 | 新浪网技术(中国)有限公司 | 一种文本处理方法及系统 |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
CN110298019A (zh) * | 2019-05-20 | 2019-10-01 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN110502742A (zh) * | 2019-07-11 | 2019-11-26 | 中国科学院计算技术研究所 | 一种复杂实体抽取方法、装置、介质及系统 |
Non-Patent Citations (2)
Title |
---|
买买提阿依甫,吾守尔·斯拉木,帕丽旦·木合塔尔,杨文忠: "基于BiLSTM-CNN-CRF 模型的维吾尔文命名实体识别" * |
李丽双;郭元凯;: "基于CNN-BLSTM-CRF模型的生物医学命名实体识别" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906380A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111160033B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US6721697B1 (en) | Method and system for reducing lexical ambiguity | |
Acedański | A morphosyntactic Brill tagger for inflectional languages | |
CN110210043B (zh) | 文本翻译方法、装置、电子设备及可读存储介质 | |
US20050289463A1 (en) | Systems and methods for spell correction of non-roman characters and words | |
US20040243409A1 (en) | Morphological analyzer, morphological analysis method, and morphological analysis program | |
Chanlekha et al. | Thai named entity extraction by incorporating maximum entropy model with simple heuristic information | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
Na | Conditional random fields for Korean morpheme segmentation and POS tagging | |
CN110377882B (zh) | 用于确定文本的拼音的方法、装置、系统和存储介质 | |
CN107832301A (zh) | 分词处理方法、装置、移动终端及计算机可读存储介质 | |
CN100429648C (zh) | 一种文本自动分块的方法、分块器和文本到语言合成系统 | |
CN111460115A (zh) | 智能人机对话模型训练方法、模型训练装置及电子设备 | |
Moradi et al. | A hybrid approach for Persian named entity recognition | |
CN111192570A (zh) | 语言模型训练方法、系统、移动终端及存储介质 | |
CN112417878A (zh) | 实体关系抽取方法、系统、电子设备及存储介质 | |
CN111241290B (zh) | 一种评论标签生成方法、装置和计算设备 | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
Schaback et al. | Multi-level feature extraction for spelling correction | |
CN114462401A (zh) | 一种针对领域的新词发现方法及计算设备 | |
CN115017870A (zh) | 一种闭环的话术扩写方法、装置、计算机设备及存储介质 | |
Alosaimy et al. | Tagging classical Arabic text using available morphological analysers and part of speech taggers | |
CN111160033B (zh) | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |