CN106354713A

CN106354713A - 自动识别中文姓名的方法

Info

Publication number: CN106354713A
Application number: CN201610753576.4A
Authority: CN
Inventors: 陈运文; 纪达麒; 桂洪冠; 江永青; 张健
Original assignee: Information Technology (shanghai) Co Ltd
Current assignee: Information Technology (shanghai) Co Ltd
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2017-01-25

Abstract

本发明涉及计算机应用技术领域，具体涉及自动识别中文姓名的方法。本发明包括标注数据训练部分和人名识别部分。本发明不需要穷举人名，而是通过算法自动识别人名中文人名的组合极多，而且每时每刻都有新增的人名，直接将所有人名加入词典显然是不可能实现的。自动根据上下文来判断人名姓名的分布受上下文影响很大。另外，还有一些生僻的中文姓名，给自动人名识别带来了很大的困难。通过本发明专利的方法，可以全面解决上述复杂情况的识别。

Description

自动识别中文姓名的方法

技术领域

本发明涉及自动识别中文姓名的方法，具体涉及根据标注出人名的中文训练语料集，统计特定汉字在中文人名不同位置出现的先验概率，再根据所提出的中文人名组合概率计算方法，判断并提取中文人名片段。

背景技术

在中文的文章中，经常会出现人物姓名，例如“王建国”、“张晓明”、“李明”等，但是怎样通过计算机系统自动来识别哪些是人物的姓名，是本专利待解决的问题。

解决该问题的难点在于，中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符。例句：“Actress Ziyi Zhang won the prize”,英文可自然分割为Actress/Margaret/Grace/won/the/prize这样的词汇，每个词能独立表义；而中文里：“女影星章子怡赢得了奖金”,由于缺少分隔符，在寻找进行符合汉字表义的切分就会遇到困难。

另一方面，在中文里，“词”比“单字”的表义能力更强；现代汉语的基本表达单元为“词”，以双字或者多字居多，其单独切分后难以独自表义。例如：章子怡，如果按单子切分为“章”、“子”、“怡”，则这些单字不符合人对中文语义的理解，因此不符合需求。

发明内容

针对现有技术中的上述不足之处，本发明专利提出一种自动识别中文姓名的方法，来自动识别中文文章中连续的字的含义，判断其中是否存在中文姓名，如果存在则可以自动进行提取。

本发明采取的技术方案如下：

自动识别中文姓名的方法，包括如下两步骤：

第一步，标注数据训练部分；

第二步，人名识别部分；

第一步所述的标注数据训练部分包括如下步骤：

C.将单字按照出现的位置划分为以下类型：

1H_1：出现在中文人名的首部/Head；

2M_1：出现在中文人名的中间/Middle；

3T_1：出现在中文人名的尾部/Tail；

4N_1：未出现在中文人名的以上任何位置/None；

5统计所有单字在以上4种类型中的数量，并计算概率；对单字w_i来说，其条件概率分别为：

P(H_1|w_i)，P(M_1|w_i)，P(T_1|w_i)，P(N_1|w_i)，

D.将双字按照出现的位置划分为以下类型：

1H_2：出现在中文人名首部的双字复姓/Head；

2HM_2：2字人名，但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle；

3MT_2：经常作3字中国人名的2字词语；

4N_2：未出现在中文人名的以上任何位置/None；

所述对2HM_2和3MT_2两种类型，抽取方法为在全部人名中，出现频次高于阈值β的组合；

5统计所有双字在以上4类情况中的数量，并计算概率；对双字w_i来说，条件概率分别为：

P(H_2|w_i)，P(HM_2|w_i)，P(MT_2|w_i)，P(N_2|w_i),

对在以上4类情况中出现的双字组合和以上概率值，构成词典DoubleWord_Dict；

C.通过贝叶斯概率公式近似计算单字和双字出现概率，

P (w_i | H_1) = \frac{P (H_1 | w_i) P (w_i)}{Σ_{i = 1}^{N} P (H_1 | w_i) P (w_i)},

其中N为所有出现在H_1位置的单字的总数；

类似的，可以得到单字在所有可能位置的概率：

P(w_i|M_1)，P(w_i|T_1)，P(w_i|N_1)，

和双字的所有概率：

P(w_i|H_2)，P(w_i|HM_2)，P(w_i|MT_2)，P(w_i|N_2),

第二步所述的人名识别部分包括如下步骤：

A.初始化，候选的文本串；

B.判断当前词是否为DoubleWord_dict中类型为H_2或者HM_2的双字词；假如是H_2或者HM_2的双字词，设置d1为该双字词，取对应的条件概率数值，并进入步骤3：假如不是H_2或者HM_2的双字词，则进行步骤3：

C.判断当前词是否为单字中类型为H_1的词；如果不是类型为H_1的词，则认为当前词非人名，继续沿文本向前遍历，直至文本结束；如果为是类型为H_1的词，则设置d1为该单字，取对应的单字条件概率，并进入步骤4；

D.判断d1后紧接的两汉字是否为Doubleword_dict中类型为MT_2中出现的双字名；如果出现双字名，则设置MT_2的对应双字为d2，并取对应概率，进入二阶贝叶斯概率人名判断模块，即进入F步；如果不出现双字名，则分别取其后的连续两字，设置为d2、d3，将d1、d2、d3送入三阶人名判断模块，即进入G步；

E.如果上述判断仍然为否，则将d1、d2送入二阶人名判断模块；

F.二阶贝叶斯概率人名判断模块；

G.三阶贝叶斯概率人名判断模块；

H.结束。

2.根据权利1所述的自动识别中文姓名的方法，其特征在于，第二步涉及到的F步的二阶贝叶斯概率人名判断模块的算法为：

构成人名的概率为：

P (H T | d 1 d 2) = \frac{P (d 1 d 2 | H T) P (H T)}{P (d 1 d 2)},

通过该贝叶斯算法计算P(HT|d1d2)，来判断当前组合为二阶人名的概率，在该公式中，P(HT)为常数，当d1，d2确定时，P(d1d2)不变，因此只需要计算概率P(d1d2|HT)，由于在计算双字组合时，已经将两字间存在紧密关系的部分拆离出来，因此，可认为d1，d2直接独立分布，因此近似计算方法为：

P(d1d2|HT)＝P(d1|H)×P(d2|T)，

其中，P(d1|H)和P(d2|T)在前面的训练阶段已经计算并存储好，直接读取并计算即可，判断当且仅当满足：

P(d1d2|HT)>P(d1|N)*P(d2|N)，P(d1d2|HT)>P(d1|N)*P(d2|H)时，则d1，d2的组合为中文人名。

3.根据权利1所述的自动识别中文姓名的方法，其特征在于，第二步涉及到的G步的三阶贝叶斯概率人名判断模块的算法为：

与二阶模块类似，贝叶斯计算公式：

P (H M T | d 1 d 2 d 3) = \frac{P (d 1 d 2 d 3 | H M T) P (H M T)}{P (d 1 d 2 d 3)},

P(d1d2d3|HMT)＝P(d1|H)×P(d2|M)×P(d3|T)，

当计算所得的P(d1d2d3|HMT)同时满足：

P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|N)，P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|B)，P(d1d2d3|HMT)>P(d1|N)*P(d2|B)*P(d3|E)；P(d1d2d3|HMT)>P(d1|B)*P(d2|E)*P(d3|O)，P(d1d2d3|HMT)>P(d1|B)*，P(d2|E)*P(d3|B)；则该组合d1/d2/d3为合法的三阶人名组合。

采用上述技术方案，本发明包括以下有益技术效果：

1.不需要穷举人名，而是通过算法自动识别人名中文人名的组合极多，而且每时每刻都有新增的人名，直接将所有人名加入词典显然是不可能实现的。

2.自动根据上下文来判断人名姓名的分布受上下文影响很大。例如“王军虎去广州了”，这里“王军虎”是一个人的名字，而在句子“王军虎头虎脑的”中，“王军虎”不是一个人名。这里的判定要根据上下文才能识别。

3.自动识别中文人名中存在的复杂情况。中文人名中，存在有单姓、复姓；二字人名、三字人名、四字人名等多样情况，除了“王、张、赵、陈、李”等常见单姓外，还有很多复姓“欧阳、司马、公孙、上官”等复姓，中文人名的长度也不一，另外，还有一些生僻的中文姓名，给自动人名识别带来了很大的困难。通过本专利的方法，可以全面解决上述复杂情况的识别。

附图说明

图1示例性示出了本发明的流程示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。整体流程分为2大部分：标注数据训练部分和人名识别部分。其中，标注数据训练部分的具体步骤如下：

其中姓名数据训练部分可使用已标注好中文人名的大量训练文本作为基础语料，具体操作包括：

1.将单字按照出现的位置划分为以下类型：

H_1：出现在中文人名的首部/Head，为单姓，例如：张、李、王；

M_1：出现在中文人名的中间/Middle，例如：晓、学、海等；

T_1：出现在中文人名的尾部/Tail，例如：文、斌、涛；

N_1：未出现在中文人名的以上任何位置/None；

统计所有单字在以上4种类型中的数量，并计算概率；对单字w_i来说，其条件概率分别为：

P(H_1|w_i)，P(M_1|w_i)，P(T_1|w_i)，P(N_1|w_i)；

2.将双字按照出现的位置划分为以下类型：

H_2：出现在中文人名首部的双字复姓/Head，例如：欧阳，上官，司马等；

HM_2：2字人名，但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle，例如：刘晓、李嘉、张明；

MT_2：经常作3字中国人名的2字词语，例如：晓明、建国、学军；

N_2：未出现在中文人名的以上任何位置/None；

其中对HM_2，MT_2两种类型，抽取方法为在全部人名中，出现频次高于阈值β的组合；

统计所有双字在以上4类情况中的数量，并计算概率；对双字w_i来说，条件概率分别为：

P(H_2|w_i)，P(HM_2|w_i)，P(MT_2|w_i)，P(N_2|w_i)；

对在以上4类情况中出现的双字组合和以上概率值，构成词典DoubleWord_Dict。

3.通过贝叶斯概率公式近似计算单字和双字出现

P (w_i | H_1) = \frac{P (H_1 | w_i) P (w_i)}{Σ_{i = 1}^{N} P (H_1 | w_i) P (w_i)},

其中，N为所有出现在H_1位置的单字的总数。类似的，我们可以得到单字在所有可能位置的概率：

P(w_i|M_1)，P(w_i|T_1)，P(w_i|N_1)，

和双字的所有概率：

P(w_i|H_2)，P(w_i|HM_2)，P(w_i|MT_2)，P(w_i|N_2)；

以上为数据训练和准备阶段，全部完成并将模型记录好以后，就可以进入第2阶段。对待检测的文章，进行第2阶段人名识别部分工作的具体步骤为：

A.初始化，候选的文本串；

F.二阶贝叶斯概率人名判断模块；

G.三阶贝叶斯概率人名判断模块；

H.结束。

第二步涉及到的F步的二阶贝叶斯概率人名判断模块的算法为：构成人名的概率为：

P (H T | d 1 d 2) = \frac{P (d 1 d 2 | H T) P (H T)}{P (d 1 d 2)},

P(d1d2|HT)＝P(d1|H)×P(d2|T)，

第二步涉及到的G步的三阶贝叶斯概率人名判断模块的算法为：

与二阶模块类似，贝叶斯计算公式：

P (H M T | d 1 d 2 d 3) = \frac{P (d 1 d 2 d 3 | H M T) P (H M T)}{P (d 1 d 2 d 3)},

P(d1d2d3|HMT)＝P(d1|H)×P(d2|M)×P(d3|T)，

当计算所得的P(d1d2d3|HMT)同时满足：

本方法适用与中文人名识别，能够处理长度从2-4的任意中文人名，例如：2字：王明；3字：汤晓欧；4字：欧阳夏丹。基于二阶和三阶贝叶斯概率统计的方法，有良好的识别稳定性。巧妙的使用了单字和双字组合策略进行概率计算，提出的方法能处理中文人名歧义切分的问题。

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.自动识别中文姓名的方法，其特征在于，包括如下两步骤：

第一步，标注数据训练部分；

第二步，人名识别部分；

第一步所述的标注数据训练部分包括如下步骤：

A.将单字按照出现的位置划分为以下类型：

1 H_1：出现在中文人名的首部/Head；

2 M_1：出现在中文人名的中间/Middle；

3 T_1：出现在中文人名的尾部/Tail；

4 N_1：未出现在中文人名的以上任何位置/None；

P(H_1|w_i)，P(M_1|w_i)，P(T_1|w_i)，P(N_1|w_i)，

B.将双字按照出现的位置划分为以下类型：

1 H_2：出现在中文人名首部的双字复姓/Head；

2 HM_2：2字人名，但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle；

3 MT_2：经常作3字中国人名的2字词语；

4 N_2：未出现在中文人名的以上任何位置/None；

所述对2 HM_2和3 MT_2两种类型，抽取方法为在全部人名中，出现频次高于阈值β的组合；

P(H_2|w_i)，P(HM_2|w_i)，P(MT_2|w_i)，P(N_2|w_i),

C.通过贝叶斯概率公式近似计算单字和双字出现概率，

P (w_i | H_1) = \frac{P (H_1 | w_i) P (w_i)}{Σ_{i = 1}^{N} P (H_1 | w_i) P (w_i)},

其中N为所有出现在H_1位置的单字的总数；

类似的，可以得到单字在所有可能位置的概率：

P(w_i|M_1)，P(w_i|T_1)，P(w_i|N_1)，

和双字的所有概率：

P(w_i|H_2)，P(w_i|HM_2)，P(w_i|MT_2)，P(w_i|N_2)，

第二步所述的人名识别部分包括如下步骤：

A.初始化，候选的文本串；

F.二阶贝叶斯概率人名判断模块；

G.三阶贝叶斯概率人名判断模块；

H.结束。

构成人名的概率为：

P (H T | d 1 d 2) = \frac{P (d 1 d 2 | H T) P (H T)}{P (d 1 d 2)},

P(d1d2|HT)＝P(d1|H)×P(d2|T)，

与二阶模块类似，贝叶斯计算公式：

P (H M T | d 1 d 2 d 3) = \frac{P (d 1 d 2 d 3 | H M T) P (H M T)}{P (d 1 d 2 d 3)},

P(d1d2d3|HMT)＝P(d1|H)×P(d2|M)×P(d3|T)，

当计算所得的P(d1d2d3|HMT)同时满足：