CN108959262B - 一种命名实体识别方法及装置 - Google Patents

一种命名实体识别方法及装置 Download PDF

Info

Publication number
CN108959262B
CN108959262B CN201810743942.7A CN201810743942A CN108959262B CN 108959262 B CN108959262 B CN 108959262B CN 201810743942 A CN201810743942 A CN 201810743942A CN 108959262 B CN108959262 B CN 108959262B
Authority
CN
China
Prior art keywords
probability matrix
confidence
sequence
emission
transition probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810743942.7A
Other languages
English (en)
Other versions
CN108959262A (zh
Inventor
秦海宁
单培
李士勇
张瑞飞
李广刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dinfo Beijing Science Development Co ltd
Original Assignee
Dingfu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co ltd filed Critical Dingfu Intelligent Technology Co ltd
Priority to CN201810743942.7A priority Critical patent/CN108959262B/zh
Publication of CN108959262A publication Critical patent/CN108959262A/zh
Application granted granted Critical
Publication of CN108959262B publication Critical patent/CN108959262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种命名实体识别方法及装置,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度;能够从预测文本序列的转移概率矩阵获取高梯度值的转移概率作为第二类可信结果,并使用第二类可信结果的梯度值对第二类可信结果进行自加权,以提高第二类可信结果对求解最大概率路径的贡献度,生成优化的转移概率矩阵,通过优化的发射概率矩阵和优化的转移概率矩阵引导最大概率路径朝着更贴近命名实体真实结果的方向去产生,提高了基于隐马尔可夫模型进行命名实体识别的准确性。

Description

一种命名实体识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法及装置。
背景技术
在自然语言处理技术领域,命名实体识别是一项基础任务,其目的是识别语料中人名、地名、组织机构名等命名实体,为信息抽取等任务做铺垫。命名实体识别的应用极为广泛,例如从警情语料中提取出地址信息、从电商的搜索结果中识别产品名称等。
现有技术的命名实体识别方法主要包括基于规则的方法和基于统计的方法等。其中,基于统计的方法主要通过训练一些机器学习模型,并根据训练后的机器学习模型去进行命名实体识别,这些机器学习模型包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、较大熵(MaximumEntropy,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。在这些模型对文本进行命名实体的预测标注时,可以使用维特比(Veterbi)算法作为预测结果的最优解的求解算法。
现有技术,在使用隐马尔可夫模型和维特比算法进行求解时存在着一些问题,例如:该维特比算法只计算预测结果的局部最优解,对预测结果的全局最优解缺乏考虑等。从而,导致现有技术中基于隐马尔可夫模型进行命名实体识别时,其预测结果的准确性还有待提升。
发明内容
本申请实施例提供了一种命名实体识别方法及装置,以解决现有技术中基于统计的机器学习模型在进行命名实体识别时,预测结果的准确性不高的问题。
第一方面,本申请实施例提供了一种命名实体识别方法,包括:
获取预测文本序列的发射概率矩阵和转移概率矩阵;
获取所述发射概率矩阵的基准置信度序列;
根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;
使用所述第一类可信结果的置信度优化所述发射概率矩阵;
使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别模型的最优解;
其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。
第二方面,本申请实施例提供了一种命名实体识别装置,包括:
预测模型模块,用于获取预测文本序列的发射概率矩阵和转移概率矩阵;
第一获取模块,用于获取所述发射概率矩阵的基准置信度序列;
第二获取模块,用于根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;
第一优化模块,用于使用所述第一类可信结果的置信度优化所述发射概率矩阵;
求解模块,用于使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别模型的最优解;
其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。
由以上技术方案可知,本申请实施例提供了一种命名实体识别方法及装置,其中,该方法包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取发射概率矩阵的基准置信度序列;根据基准置信度序列从发射概率矩阵中获取第一类可信结果;使用第一类可信结果的置信度优化发射概率矩阵;使用优化的发射概率矩阵和转移概率矩阵产生命名实体识别的最优解;其中,基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。本申请实施例提供的技术方案,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度,通过优化的发射概率矩阵引导最大概率路径朝着更贴近命名实体的真实结果的方向去产生,从而,提高了基于隐马尔可夫模型进行命名实体识别的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例示出的一种命名实体识别方法的流程图;
图2是隐马尔可夫链的示意图;
图3是本申请一示例性实施例示出的一种命名实体识别方法步骤S120的流程图;
图4是本申请一示例性实施例示出的一种命名实体识别方法步骤S130的流程图;
图5为本申请一示例性实施例示出的另一种命名实体识别方法的流程图;
图6是本申请一示例性实施例示出的优化最优解的产生过程的示意图;
图7是本申请一示例性实施例示出的一种命名实体识别装置的示意图;
图8是本申请一示例性实施例示出的另一种命名实体识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了提高自然语言处理技术领域中使用隐马尔可夫模型进行命名实体识别的准确性,本申请提供了一种命名实体识别方法及装置。
下面是本申请的方法实施例。
图1是本申请一示例性实施例示出的一种命名实体识别方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑和手机等多种设备中。
参见图1所示,该方法可以包括以下步骤:
步骤S110,获取预测文本序列的发射概率矩阵和转移概率矩阵。
隐马尔可夫模型(HMM)是一种典型的基于统计的机器学习模型,主要由初始概率、转移概率分布和发射概率分布(也称观测概率分布)组成。图2是隐马尔可夫链的示意图,如图2所示,在隐马尔可夫链中,上面一行节点表示机器学习模型的预测序列在隐含层之间传递的概率(即:转移概率),从上面一行节点到下面一行节点表示机器学习模型的预测序列在隐含层至可见状态之间传递的概率(即:发射概率)。
现有技术通过维特比算法从隐马尔可夫模型的中确定出一条最优路径,作为命名实体识别的最优解。但是,现有技术的维特比算法在计算最优路径时,仅仅是横向比较路径上某个节点前后的转移概率,是一种局部最优解的求解算法,对全局最优解的求解计算缺失;并且,现有技术的维特比算法在求解最优路径时,对发射概率矩阵的置信度不做处理,导致发射概率矩阵中的所有节点无论其预测结果是否准确都在计算时的权重一致,从而影响求解的准确性。
本申请中,通过使用基于字序标注的BI-LSTM模型获取预测文本序列的发射概率矩阵和转移概率矩阵。其中,BI-LSTM模型可以通过将基于字的BIE标注的样本语料的词向量序列输入到LSTM(长短期记忆网络)模型中训练获得。BIE标注是一种序列标注方法,对于字的BIE标注来说,一个句子、一个文本段落等可以视为一个序列,序列中的每个字可以看作一个元素,序列标注就是要把序列中的每个元素都添加上对应的标签。
本申请基于命名实体识别的需求,使用BIE标注的方法对样本语料进行序列标注,根据元素是否属于命名实体,可将元素标注为:B、I、E、O,以及S等。其中,B用于标注命名实体的起始字符、I用于标注命名实体的中间字符、E用于标注命名实体的结尾字符、O用于标注非命名实体字符、S用于标注单独成词的字符。一组被标注的样本语料例如可以是以下形式:
工-B商-I银-I行-E的-S行-O情-O
本申请在训练获得BI-LSTM模型时,使用词向量训练模型训练获得样本语料中字符的词向量,然后将已标注的样本语料的词向量序列输入到BI-LSTM模型中以训练获得可用于产生预测文本序列的发射概率矩阵和转移概率矩阵的BI-LSTM模型。
下面以一个示例,示意性地说明BI-LSTM模型输出的发射概率矩阵和转移概率矩阵的具体形式,本申请实施例在对步骤S120~步骤S180的阐述说明中还将沿用本示例:
示例地,预测文本序列中包含:南京市长江大桥。使用BI-LSTM模型对“南京市长江大桥”进行预测的示例性地输出结果为:
发射概率矩阵:
南B/0.5I/0.0E/0.1
京B/0.1I/0.3E/0.3
市B/0.5I/0.0E/0.1
长B/0.1I/0.1E/0.1
江B/0.5I/0.4E/0.1
大B/0.5I/0.3E/0.1
桥B/0.5I/0.1E/0.7
转移概率矩阵:
南→京0.15
京→市0.00001
市→长0.10
长→江0.30
江→大0.00001
大→桥0.20
需要补充说明的是,上述发射概率矩阵仅为说明本申请实施例的技术方案而示出了一部分,在预测文本序列中的每个字符通过BI-LSTM模型都会预测到一个对应的发射概率,本领域技术人员容易理解的是在“南”之前和“桥”之后还可能存在其他字符,本申请实施例对这些字符的转移概率不做具体示出。此外,上述转移概率矩阵仅为说明本申请实施例的技术方案而示出了一部分,例如:南→京0.15,表示“南”字出现后,下一个字为“京”字的概率,本领域技术人员在此基础上容易理解“南”字出现后,下一个字还会出现其他字和对应的转移概率,本申请实施例对“南”字跟随的其他字和对应的转移概率不做具体示出。
步骤S120,获取所述发射概率矩阵的基准置信度序列。
本申请实施例中,针对发射概率矩阵中每个字符的发射概率,定义了每个字符的基准置信度,发射概率矩阵中每个发射概率的基准置信度就形成了一个基准置信度序列。字符的基准置信度在数学意义上表达了与当前字符相邻的多个字符的预测结果的置信度均值,用于衡量当前预测节点的置信度与置信度均值的差距,从而确定当前字符的预测结果是否高度可信或不可信。
本申请实施例中,可根据发射概率矩阵中预测节点的发射概率计算预测节点的置信度,以得到发射概率矩阵的基准置信度序列。
图3是本申请一示例性实施例示出的一种命名实体识别方法步骤S120的流程图,如图3所示,在一种可选择的实施方式中,步骤S120,即获取发射概率矩阵的基准置信度序列的方法,可以包括以下步骤:
步骤S121,所述发射概率矩阵中获取连续N个预测节点的发射概率。
本申请实施例中,一种思路是将发射概率矩阵中一个目标预测节点的相邻且连续的前N个预测节点的置信度的均值作为这个目标预测节点的基准置信度。其中,每个预测节点对应预测文本序列中的一个字符,每个预测节点的置信度可根据该预测节点的发射概率计算得到。
示例地,取N=6,即在步骤S121中选取发射概率矩阵中的连续6个预测节点的发射概率,例如:
南B/0.5I/0.0E/0.1 (1)
京B/0.1I/0.3E/0.3 (2)
市B/0.5I/0.0E/0.1 (3)
长B/0.1I/0.1E/0.1 (4)
江B/0.5I/0.4E/0.1 (5)
大B/0.5I/0.3E/0.1 (6)
步骤S122,根据N个预测节点的发射概率分别计算每个预测节点的置信度。
本申请实施例中,将预测节点的发射概率中所有预测概率值的均方差作为该预测节点的置信度。以“南”字的发射概率为例:
发射概率中B、I、E的预测值分别为0.5、0.0、0.1,因此,可计算得到预测值的总体均值ν为:
ν=(0.5+0.0+0.1)÷3=0.2
然后,计算所有预测概率值的均方差δ1为:
Figure BDA0001723873750000051
因此,预测节点“南”的置信度为0.374。
根据上述置信度的计算方法,以此计算其余预测节点的置信度,可得到:
“京”的置信度为δ2=0.115
“市”的置信度为δ3=0.374
“长”的置信度为δ4=0.000
“江”的置信度为δ5=0.208
“大”的置信度为δ6=0.200
步骤S123,对计算得到的N个置信度取均值作为第N+1个预测节点的基准置信度。
本申请实施例中的基准置信度体现的是当前预测节点的前N个预测节点的置信度的平均水平,从而通过比较当前预测节点的置信度和其对应的基准置信度,就能够获得当前预测节点的置信度相对于其周边的预测节点的置信度平均水平的差距和变化趋势,从而,便于从发射概率矩阵的所有预测节点中选取置信度高于平均水平的高置信度节点。
示例地,根据在步骤S121的示例中计算获得的6个预测节点置信度,得到第7个预测节点“桥”的基准置信度λ为:
Figure BDA0001723873750000061
步骤S124,依次获取所述发射概率矩阵中每个预测节点的基准置信度,以得到所述基准置信度序列。
基于步骤S121~步骤S123示出的计算预测节点的基准置信度的方法,可依此获取发射概率矩阵中每个预测节点的基准置信度,具体地,可以建立一个宽度可容纳N个预测节点,步进为1个预测节点的取样窗口,通过取样窗口在预测文本序列的发射概率矩阵中选取连续N个预测节点的发射概率,并在每次计算出第N+1个预测节点的基准置信度后,将取样窗口步进一个预测节点的位移,直到获取所有预测节点的基准置信度,从而得到发射概率矩阵的基准置信度序列。此外,需要补充说明的是,如果某个当前预测节点之前的预测节点数两少于N个,例如为M(M<N)个,那么将M个预测节点的置信度的均值作为该当前预测节点的基准置信度。
此外,本申请实施例中,另一种思路是以当前预测节点为中心,选取其相邻的前P个预测节点和其相邻的后P个预测节点的发射概率,然后根据获取到的2P个预测节点的发射概率计算出2P个置信度,并以2P个预测节点的置信度的均值作为当前预测节点的基准置信度。
此外,本申请实施例中,除了将预测节点的发射概率中所有预测概率值的均方差作为该预测节点的置信度,还可以将将预测节点的发射概率中所有预测概率值的总体方差(或方差)作为该预测节点的置信度,此时需要对每个预测节点的发射概率的预测值进行放大处理,使预测值的整数位大于或等于1(当预测值不为0时),例如:将“南”的预测值0.5、0.0、0.1放大为5、0、1,然后再计算总体方差(或方差)。
步骤S130,根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果。
本申请实施例中,基准置信度序列反映了发射概率矩阵中预测节点的置信度的整体水平和变化趋势,以基准置信度序列中的基准置信度为衡量基准,可以从发射概率矩阵中筛选出高置信度节点,本申请实施例中,可将高置信度节点的发射概率作为第一类可信结果,并将置信度高于其基准置信度的预测节点作为高置信度节点。
图4是本申请一示例性实施例示出的一种命名实体识别方法步骤S130的流程图,如图4所示,在一种可选择的实施方式中,步骤S130,即根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果的方法,可以包括以下步骤:
步骤S131,将所述发射概率矩阵中每个所述预测节点的置信度与所述基准置信度序列中对应的基准置信度进行数值比较。
示例地,预测节点“桥”的置信度δ=0.305;在基准置信度序列中,与预测节点“桥”对应的基准置信度λ=0.211,数值比较结果为δ>λ
步骤S132,如果所述预测节点的置信度大于对应的基准置信度,则所述预测节点的发射概率为第一类可信结果。
本申请实施例中,定义将置信度大于对应的基准置信度的预测节点的发射概率作为第一类可信结果。
示例地,预测节点“桥”的置信度δ大于其对应的基准置信度λ,所以,预测节点“桥”的发射概率属于第一类可信结果。
步骤S140,使用所述第一类可信结果的置信度优化所述发射概率矩阵。
本申请实施例中,通过使用第一类可信结果的置信度优化发射概率矩阵,可使第一类可信结果的预测值得到增大,以提高在隐马尔可夫模型中寻找最大概率路径时,第一类可信结果对最大概率路径的贡献,从而提高最大概率路径与命名实体的真实结果的契合程度,使隐马尔可夫模型的预测结果更加准确。
在一种可选择的实施方式中,步骤S140,即使用第一类可信结果的置信度优化发射概率矩阵的方法可以是:使用所述第一类可信结果的置信度对所述第一类可信结果进行自加权,以增大所述第一类可信结果的发射概率预测值。
示例地,使用“桥”的发射概率的置信度δ=0.305对“桥”的发射概率进行自加权可以包括:首先,将置信度δ=0.305进行小数点移位,得到数值大于1的加权系数μ,例如,得到加权系数μ=3.05(小数点向右移动了一位);然后,将加权系数μ=3.05与“桥”的发射概率中的最大预测值相乘,以实现对“桥”的发射概率的自加权。计算过程如下所示:
Figure BDA0001723873750000071
步骤S150,使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别的最优解。
与现有技术通过维特比算法求解隐马尔可夫模型最优解的方法不同,本申请实施例中,产生命名实体识别的最优解的基本思路是:依次将优化的发射概率矩阵与转移概率矩阵中对应预测节点的预测值相乘,并根据相乘结果得到一条最大概率路径。
示例地:
“南B/0.5I/0.0E/0.1”与“南京0.15”相乘会得到以下三个路径节点的概率:南B-南京=0.075、南I-南京=0、南E-南京=0.015。
“京B/0.1I/0.3E/0.3”与“京市0.00001”相乘会得到以下三个路径节点的概率:京B-京市=0.000001、京I-京市=0.000003、京E-京市=0.000003。
……
最后,根据每个预测节点的预测值相乘的结果,从所有的路径节点中选择出一条最大概率路径,就是命名实体识别的最优解。例如,根据上述相乘结果得到的最大概率路径为:
南/B京/I市/E长/B江/E大/B桥/E
因此,从预测文本序列“南京市长江大桥”中识别到的命名实体包括南京市、长江、大桥。
本申请实施例优化后的发射概率矩阵中,第一类可信结果的发射概率预测值被增大,从而在求解隐马尔可夫模型的最大概率路径时,第一类可信结果对确定最大概率路径所起到的贡献度也越大,从而使最大概率路径能够更贴近命名实体的真实结果。
由以上技术方案可知,本申请实施例提供了一种命名实体识别方法,包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取发射概率矩阵的基准置信度序列;根据基准置信度序列从发射概率矩阵中获取第一类可信结果;使用第一类可信结果的置信度优化发射概率矩阵;使用优化的发射概率矩阵和转移概率矩阵产生命名实体识别的最优解;其中,基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。本申请实施例提供的技术方案,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度,通过优化的发射概率矩阵引导最大概率路径朝着更贴近命名实体的真实结果的方向去产生,从而,提高了基于隐马尔可夫模型进行命名实体识别的准确性。
此外,本申请实施例提供了另一种命名实体识别方法,该方法在图1所示方法的基础上,还包括对预测文本序列的转移概率矩阵进行优化,以提高基于隐马尔可夫模型进行命名实体识别的准确性。
图5为本申请一示例性实施例示出的另一种命名实体识别方法的流程图。
参见图5所示,该方法在步骤S110~步骤S140的基础上,还包括:
步骤S160,获取所述转移概率矩阵的梯度值序列。
在预测文本序列转移概率矩阵中,预测节点的转移概率(由一个字符连接另一个字符的概率)是不断变化的。由于每个预测节点的转移概率由于数值不同,相邻两个预测节点的转移概率会形成一个斜率,这个斜率表示相邻两个预测节点的转移概率的变化趋势。在本申请实施例中,可以定义某个预测节点与其前一个相邻节点之间的斜率值作为该预测节点的梯度值,而梯度值序列中依次包括了转移概率矩阵中每个预测节点的梯度值。
在一种可选择的实施方式中,步骤S160,即获取转移概率矩阵的梯度值序列的步骤,可以通过以下方法实现:对所述转移概率矩阵求导,根据求导结果获取每个预测节点与其前一个相邻节点之间的斜率值,并将所述斜率值作为预测节点的梯度值,获取转移概率矩阵的梯度值序列。
步骤S170,根据所述梯度值序列从所述转移概率矩阵中获取第二类可信结果。
梯度值反映了某个预测节点的转移概率相比于其前一个相邻预测节点的转移概率的变化趋势,梯度值越大,说明这个预测节点的转移概率越高于其相邻预测节点的转移概率,梯度值越小,说明这个预测节点的转移概率越低于其相邻预测节点的转移概率。本申请实施例中定义,如果某个预测节点的转移概率高于其相邻预测节点的转移概率,且高出预设范围,那么,这个预测节点的转移概率就属于第二类可信结果。
基于上述对第二类可信结果的定义,在一种可选择的实施方式中,步骤S170,即根据梯度值序列从转移概率矩阵中获取第二类可信结果的方法,可以包括以下步骤:
步骤S171,分析所述梯度值序列中的每个转移概率的梯度值是否高于预设阈值。
为了从转移概率矩阵中选出第二类可信结果,本申请实施例预设了一个阈值,并使用该阈值与每个转移概率的梯度值进行数值比较。阈值的取值区间为(1,∞+),阈值取值越大,选取出的第二类可信结果的比例越小,阈值取值越小,选取的第二类可信结果的比例越大,本领域技术人员在应用本申请实施例提供的方法优化转移概率矩阵时,可根据实际需求合理选择阈值的取值,以确定出期望比例的第二类可信结果。
步骤S172,如果所述转移概率的梯度值高于预设阈值,则所述转移概率属于第二类可信结果。
步骤S180,使用所述第二类可信结果的梯度值优化所述转移概率矩阵。
本申请实施例中,通过使用第二类可信结果的置信度优化转移概率矩阵,可使第二类可信结果的梯度值得到增大,以提高在隐马尔可夫模型中寻找最大概率路径时,第二类可信结果对最大概率路径的贡献,从而提高最大概率路径与命名实体的真实结果的契合程度,使隐马尔可夫模型的预测结果更加准确。
在一种可选择的实施方式中,步骤S180,即使用第二类可信结果的置信度优化转移概率矩阵的方法可以是:使用第二类可信结果的所述梯度值对所述转移概率矩阵进行加权,以增大所述第二类可信结果的转移概率值。
示例地,如果步骤S170中得到的第二类可信结果为:市→长0.10、大→桥0.20,那么,在步骤S180中,首先,可以将第二类可信结果的梯度值进行小数点移位,得到数值大于1的加权系数β,例如,得到“市→长”的加权系数β=10(小数点向右移动了两位);然后,将加权系数β=10与“市→长”的转移概率相乘,以实现对“市→长”的转移概率的自加权。计算过程如下所示:
Figure BDA0001723873750000091
Figure BDA0001723873750000101
步骤S190,使用优化的所述发射概率矩阵和优化的所述转移概率矩阵产生命名实体识别的最优解。
与现有技术通过维特比算法求解隐马尔可夫模型最优解的方法不同,本申请实施例中,在得到优化的发射概率矩阵和优化的转移概率矩阵之后,产生命名实体识别的最优解的基本思路是:依次将优化的发射概率矩阵与优化的转移概率矩阵中对应预测节点的预测值相乘,并根据相乘结果得到一条最大概率路径。
示例地:
“市B/0.5I/0.0E/0.1”与“市长1”相乘会得到以下三个路径节点的概率:市B-市长=0.5、市I-市长=0、市E-市长=0.1。
“大B/0.5I/0.3E/0.1”与“大桥2”相乘会得到以下三个路径节点的概率:大B-大桥=1、大I-大桥=0、大E-大桥=0.2。
……
最后,根据每个预测节点的预测值相乘的结果,从所有的路径节点中选择出一条最大概率路径,就是命名实体识别的最优解。例如,根据上述相乘结果得到的最大概率路径为:
南/B京/I市/E长/B江/E大/B桥/E
因此,从预测文本序列“南京市长江大桥”中识别到的命名实体包括南京市、长江、大桥。
本申请实施例对转移概率矩阵和发射概率矩阵均进行了优化,在优化后的发射概率矩阵中,第一类可信结果的发射概率预测值被增大,在优化后的转移概率矩阵中,第二类可信结果的转移概率预测值被增大,从而在求解隐马尔可夫模型的最大概率路径时,第一类可信结果和第二类可信结果对确定最大概率路径所起到的贡献度均得到了增大,从而使最大概率路径能够更贴近命名实体的真实结果。
本申请实施例中,为了进一步提高基于隐马尔可夫模型进行命名实体识别的准确性,可进一步构建预测文本序列的词性转移概率矩阵,并使用词性转移概率矩阵优化命名实体识别的最优解的产生过程。
图6是本申请一示例性实施例示出的优化最优解的产生过程的示意图。
参见图6所示,使用词性转移概率矩阵优化命名实体识别的最优解的产生过程,包括以下步骤:
步骤S201,获取预测文本序列中每个分词的词性。
在步骤S201中,基本思路是使用预设的分词工具对预测文本序列进行分词,以获取预测文本序列的全部分词和每个分词的词性。
示例地,预测文本序列为:
夜间跑步关于身体
分词后会得到:
夜间(名词)跑步(动词)关于(介词)运动(名词)
步骤S202,根据预先统计的词性转移概率库,生成所述预测文本序列的词性转移概率矩阵。
本申请中的词性转移概率是指文本中出现一种词性的分词后,接着出现另一种词性的分词的概率,例如:从动词到名词的概率、从介词到动词的概率等。词性转移概率可预先通过文本统计获得,具体方法为:收集样本语料,对样本语料进行分词并获取每个分词的词性,然后,统计样本语料中所有相邻的两个分词的词性,并根据统计结果计算出每一种词性转移情形下的词性转移概率(未出现的词性转移情形的词性转移概率为0),以生成词性转移概率库。
在统计出词性转移概率库后,根据词性转移概率库为预测文本序列中的每一对相邻的分词匹配对应的词性转移概率,从而得到预测文本序列的词性概率矩阵,当预测文本序列中出现了不可能存在的词性转移情形时,该预测文本序列的词性概率矩阵中会出现某个维度值为0。
示例地,预测文本序列的词性转移概率矩阵可以为以下形式:
夜间(名词)→跑步(动词)0.3
跑步(动词)→关于(介词)0(表示动词后出现名词的情形是不可能出现的)
关于(介词)→运动(名词)0.15
步骤S203,使用所述词性转移概率矩阵优化命名实体识别的最优解的产生过程。
在步骤S203中,基本思路是在产生命名实体识别的最优解时,将预测文本序列的词性概率矩阵与转移概率矩阵相乘,以实现对转移概率矩阵的校验,如果词性转移概率矩阵中存在维度值为0,那么,当它对转移概率矩阵相乘时,会导致相乘后的转移概率矩阵中出现转移概率为0的节点,使基于隐马尔可夫模型的产生求解路径在该节点处被打断,避免错误的最优解产生。
由以上技术方案可知,本申请实施例提供了一种命名实体识别方法,包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取发射概率矩阵的基准置信度序列;根据基准置信度序列从发射概率矩阵中获取第一类可信结果;使用第一类可信结果的置信度优化发射概率矩阵;使用优化的发射概率矩阵和转移概率矩阵产生命名实体识别的最优解;其中,基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。本申请实施例提供的技术方案,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度;以及,能够从预测文本序列的转移概率矩阵获取高梯度值的转移概率作为第二类可信结果,并使用第二类可信结果的梯度值对第二类可信结果进行自加权,以提高第二类可信结果对求解最大概率路径的贡献度,生成优化的转移概率矩阵,通过优化的发射概率矩阵和优化的转移概率矩阵引导最大概率路径朝着更贴近命名实体的真实结果的方向去产生,从而,提高了基于隐马尔可夫模型进行命名实体识别的准确性。
下面是本申请的装置实施例,可用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图7是本申请一示例性实施例示出的一种命名实体识别装置的示意图。该装置可以应用于服务器、PC(个人电脑)、平板电脑和手机等多种设备中。
参见图7所示,该装置可以包括:
预测模型模块310,用于获取预测文本序列的发射概率矩阵和转移概率矩阵;
第一获取模块320,用于获取所述发射概率矩阵的基准置信度序列;
第二获取模块330,用于根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;
第一优化模块340,用于使用所述第一类可信结果的置信度优化所述发射概率矩阵;
求解模块350,用于使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别的最优解;
其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。
由以上技术方案可知,本申请实施例提供了一种命名实体识别装置,该装置用于:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取发射概率矩阵的基准置信度序列;根据基准置信度序列从发射概率矩阵中获取第一类可信结果;使用第一类可信结果的置信度优化发射概率矩阵;使用优化的发射概率矩阵和转移概率矩阵产生命名实体识别的最优解;其中,基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。本申请实施例提供的技术方案,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度,通过优化的发射概率矩阵引导最大概率路径朝着更贴近命名实体的真实结果的方向去产生,从而,提高了基于隐马尔可夫模型进行命名实体识别的准确性。
图8是本申请一示例性实施例示出的另一种命名实体识别装置的示意图。该装置可以应用于服务器、PC(个人电脑)、平板电脑和手机等多种设备中。
参见图8所示,该装置在图7所示基础上还可以包括:
第三获取模块360,用于获取所述转移概率矩阵的梯度值序列;
第四获取模块370,用于根据所述梯度值序列从所述转移概率矩阵中获取第二类可信结果;
第二优化模块380,用于使用所述第二类可信结果的梯度值优化所述转移概率矩阵;
其中,所述梯度值序列包括所述转移概率矩阵中每个转移概率的梯度值。
由以上技术方案可知,本申请实施例提供了一种命名实体识别装置,该装置用于:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取发射概率矩阵的基准置信度序列;根据基准置信度序列从发射概率矩阵中获取第一类可信结果;使用第一类可信结果的置信度优化发射概率矩阵;使用优化的发射概率矩阵和转移概率矩阵产生命名实体识别的最优解;其中,基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。本申请实施例提供的技术方案,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度;以及,能够从预测文本序列的转移概率矩阵获取高梯度值的转移概率作为第二类可信结果,并使用第二类可信结果的梯度值对第二类可信结果进行自加权,以提高第二类可信结果对求解最大概率路径的贡献度,生成优化的转移概率矩阵,通过优化的发射概率矩阵和优化的转移概率矩阵引导最大概率路径朝着更贴近命名实体的真实结果的方向去产生,从而,提高了基于隐马尔可夫模型进行命名实体识别的准确性。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (9)

1.一种命名实体识别方法,其特征在于,包括:
获取预测文本序列的发射概率矩阵和转移概率矩阵;
根据发射概率矩阵中预测节点的发射概率计算预测节点的置信度,获取所述发射概率矩阵的基准置信度序列;所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度;
将所述发射概率矩阵中每个预测节点的置信度与所述基准置信度序列中对应的基准置信度进行数值比较;
如果预测节点的置信度大于对应的基准置信度,则所述预测节点的发射概率为第一类可信结果;
使用所述第一类可信结果的置信度优化所述发射概率矩阵;
依次将优化的发射概率矩阵与转移概率矩阵中对应预测节点的预测值相乘,根据每个预测节点的预测值相乘的结果,获取命名实体识别的最优解。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述转移概率矩阵的梯度值序列;
根据所述梯度值序列从所述转移概率矩阵中获取第二类可信结果;
使用所述第二类可信结果的梯度值优化所述转移概率矩阵;
使用优化的所述发射概率矩阵和优化的所述转移概率矩阵产生命名实体识别的最优解;
其中,所述梯度值序列包括所述转移概率矩阵中每个转移概率的梯度值。
3.根据权利要求1所述的方法,其特征在于,获取所述 发射概率矩阵的基准置信度序列,包括:
所述发射概率矩阵中获取连续N个预测节点的发射概率;
根据N个预测节点的发射概率分别计算每个预测节点的置信度;
对计算得到的N个置信度取均值作为第N+1个预测节点的基准置信度;
依次获取所述发射概率矩阵中每个预测节点的基准置信度,以得到所述基准置信度序列。
4.根据权利要求1所述的方法,其特征在于,所述使用第一类可信结果的置信度优化所述发射概率矩阵,包括:
使用所述第一类可信结果的置信度对所述第一类可信结果进行自加权,以增大所述第一类可信结果的预测值。
5.根据权利要求2所述的方法,其特征在于,获取所述 转移概率矩阵的梯度值序列,包括:
对所述转移概率矩阵求导,根据求导结果获取每个预测节点与其前一个相邻节点之间的斜率值,并将所述斜率值作为预测节点的梯度值,以获取转移概率矩阵的梯度值序列。
6.根据权利要求5所述的方法,其特征在于,所述根据梯度值序列从所述转移概率矩阵中获取第二类可信结果,包括:
分析所述梯度值序列中的每个转移概率的梯度值是否高于预设阈值;
如果所述转移概率的梯度值高于预设阈值,则所述转移概率属于第二类可信结果。
7.根据权利要求2所述的方法,其特征在于,所述使用第二类可信结果的梯度值优化所述发射概率矩阵,包括:
使用第二类可信结果的所述梯度值对所述转移概率矩阵进行加权,以增大所述第二类可信结果的转移概率值。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取预测文本序列中每个分词的词性;
根据预先统计的词性转移概率库,生成所述预测文本序列的词性转移概率矩阵;
使用所述词性转移概率矩阵优化命名实体识别的最优解的产生过程。
9.一种命名实体识别装置,其特征在于,包括:
预测模型模块,用于获取预测文本序列的发射概率矩阵和转移概率矩阵;
第一获取模块,用于根据发射概率矩阵中预测节点的发射概率计算预测节点的置信度,获取所述发射概率矩阵的基准置信度序列;所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度;
第二获取模块,用于将所述发射概率矩阵中每个预测节点的置信度与所述基准置信度序列中对应的基准置信度进行数值比较;如果预测节点的置信度大于对应的基准置信度,则所述预测节点的发射概率为第一类可信结果;
第一优化模块,用于使用所述第一类可信结果的置信度优化所述发射概率矩阵;
求解模块,用于依次将优化的发射概率矩阵与转移概率矩阵中对应预测节点的预测值相乘,根据每个预测节点的预测值相乘的结果,获取命名实体识别的最优解。
CN201810743942.7A 2018-07-09 2018-07-09 一种命名实体识别方法及装置 Active CN108959262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810743942.7A CN108959262B (zh) 2018-07-09 2018-07-09 一种命名实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810743942.7A CN108959262B (zh) 2018-07-09 2018-07-09 一种命名实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN108959262A CN108959262A (zh) 2018-12-07
CN108959262B true CN108959262B (zh) 2022-07-26

Family

ID=64483461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810743942.7A Active CN108959262B (zh) 2018-07-09 2018-07-09 一种命名实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN108959262B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488737B (zh) * 2019-01-09 2023-04-14 阿里巴巴集团控股有限公司 文本识别方法、装置及设备
CN111881681B (zh) * 2020-06-16 2024-04-09 北京三快在线科技有限公司 实体样本获取方法、装置及电子设备
CN114492426B (zh) * 2021-12-30 2023-04-07 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505156B1 (en) * 1997-09-18 2003-01-07 Siemens Aktiengesellschaft Method for recognizing a keyword in speech
CN107832301A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249981B2 (en) * 2008-12-16 2012-08-21 Ge Corporate Financial Services, Inc. Methods and systems for generating transition probability matrices through an optimization framework

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505156B1 (en) * 1997-09-18 2003-01-07 Siemens Aktiengesellschaft Method for recognizing a keyword in speech
CN107832301A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HMM(隐马尔科夫)用于中文分词;longgb123;《https://blog.csdn.net/longgb123/article/details/78154295》;20171003;第1-7页 *

Also Published As

Publication number Publication date
CN108959262A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
Dahouda et al. A deep-learned embedding technique for categorical features encoding
Yang et al. Multi-task cross-lingual sequence tagging from scratch
Yao et al. Efficient methods for topic model inference on streaming document collections
Khouja Stance prediction and claim verification: An Arabic perspective
Saha et al. Combining multiple classifiers using vote based classifier ensemble technique for named entity recognition
Xia et al. Distantly supervised lifelong learning for large-scale social media sentiment analysis
CN114298417A (zh) 反欺诈风险评估方法、训练方法、装置及可读存储介质
CN108959262B (zh) 一种命名实体识别方法及装置
Aras et al. An evaluation of recent neural sequence tagging models in Turkish named entity recognition
CN110516210B (zh) 文本相似度的计算方法和装置
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
Hedderich et al. Analysing the noise model error for realistic noisy label data
Mitroi et al. Sentiment analysis using topic-document embeddings
Noshin Jahan et al. Bangla real-word error detection and correction using bidirectional lstm and bigram hybrid model
Zhang et al. Neuro-symbolic sentiment analysis with dynamic word sense disambiguation
CN114880991A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
Rudra Murthy et al. A deep learning solution to named entity recognition
Tang et al. Chinese sentiment analysis based on lightweight character-level bert
CN113449508A (zh) 一种基于事件链的网络舆情关联推演预测分析方法
Hemmer et al. Estimating Post-OCR Denoising Complexity on Numerical Texts
Al-Bayaty et al. Comparative analysis between Naïve Bayes algorithm and decision tree to solve WSD using empirical approach
Lapeña et al. Exploring new directions in traceability link recovery in models: The process models case
CN114297235A (zh) 风险地址识别方法、系统及电子设备
Sowmya Lakshmi et al. Bidirectional Long Short-Term Memory for Automatic English to Kannada Back-Transliteration
Lefort et al. Uncertainty in Sentiment Analysis with LLMs using QCM (Quantiles of Correlation Matrices)-Distance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: ULTRAPOWER SOFTWARE Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co.,Ltd.

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant