CN109344233A - 一种中文人名识别方法 - Google Patents
一种中文人名识别方法 Download PDFInfo
- Publication number
- CN109344233A CN109344233A CN201810984171.0A CN201810984171A CN109344233A CN 109344233 A CN109344233 A CN 109344233A CN 201810984171 A CN201810984171 A CN 201810984171A CN 109344233 A CN109344233 A CN 109344233A
- Authority
- CN
- China
- Prior art keywords
- chinese
- personal name
- name
- chinese personal
- surname
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种中文人名识别方法,属于信息技术领域。本发明首先建立中国姓氏和中国人名数据库作为基础数据库;接着对待识别的字符串利用基础数据库进行首次中文人名识别;然后利用基于规则的方法进行二次中文人名识别;接着利用贝叶斯决策结合基础数据库进行第三次中文人名识别;最后通过人工筛选得到中文人名识别的最终结果。本发明与现有技术相比,通过引入贝叶斯决策,解决了传统的基于规则的中文人名识别技术规则的可移植性差,对中文人名的识别存在歧义,从而使得中文人名识别结果准确率低的现象,以提高中文人名识别的准确性。
Description
技术领域
本发明涉及一种中文人名识别方法,属于信息技术领域。
背景技术
命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,而中文人名识别是命名实体识别的一个子问题,因此,对它的研究具有重要意义和价值。
一般地,中文语义复杂,中国人名的用字又具有很大的任意性,所以传统的命名实体识别技术不能有效地识别出新词;同时,由于中国人名数量众多、没有形态上的特征、规律各异、包含生僻字等特点,所以传统的基于规则的中文人名识别技术由于可移植性差,会使得对人名的识别会变得不够准确,以上所述都会给中文人名识别造成困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种中文人名识别方法,引入贝叶斯决策,解决了传统的基于规则的中文人名识别技术规则的可移植性差,对中文人名的识别存在歧义,从而使得中文人名识别结果准确率低的现象,以提高中文人名识别的准确性。
本发明的技术方案是:一种中文人名识别方法,引入贝叶斯决策对传统的基于规则的中文人名识别技术进行改进,首先建立中国姓氏和中国人名数据库作为基础数据库;接着对待识别的字符串利用基础数据库进行首次中文人名识别;然后利用基于规则的方法进行二次中文人名识别;接着利用贝叶斯决策结合基础数据库进行第三次中文人名识别;最后通过人工筛选得到中文人名识别的最终结果。
具体步骤为:
①建立中国姓氏和中国人名数据库。
②对待识别的字符串利用基础数据库进行首次中文人名识别。
③利用基于规则的方法进行二次中文人名识别。
④利用贝叶斯决策结合基础数据库进行第三次中文人名识别。
⑤通过人工筛选得到中文人名识别的最终结果。
进一步地,步骤①所述的中国姓氏和中国人名数据库用作中文人名识别的基础数据库,可通过《百家姓》和维基百科得到。
进一步地,步骤②所述的首次中文人名识别的具体实现为:将待识别的字符串匹配所述中国人名数据库,判断待识别的字符串是否包含中国人名数据库中的人名,若包含,则提取出人名,再进行步骤③所述的基于规则的二次中文人名识别;若不包含,则直接进行二次中文人名识别。
进一步地,步骤③所述的基于规则的二次中文人名识别的具体实现为:匹配所述中国姓氏数据库,判断待识别的字符串中是否含有中国姓氏数据库中的姓氏,若不含有,则该字符串不含有人名,若含有,则提取出该姓氏以及其前后两个字作为疑似含有人名的字段等待下一步处理。
进一步地,所述的疑似含有人名的字段的下一步处理的具体实现为:首先匹配所述中国姓氏数据库,判断姓氏前两个字是否含有中国姓氏数据库中的姓氏,若含有,则该姓氏不作为姓氏处理,将前一个姓氏作为姓氏处理,若不含有,则将该姓氏后两个字匹配所述中国人名数据库,判断其中是否含有中国人名数据库中的名字,若含有,则提取出名字,结合姓氏组成人名,若不含有,则进行步骤④所述的第三次中文人名识别。
进一步地,步骤④所述的利用贝叶斯决策进行第三次中文人名识别的具体实现为:利用贝叶斯公式计算疑似含有人名的字段中姓氏后两个字的后验概率P(b|a),若P(b|a)大于或等于门限值λ,则将该两个字作为名,否则该两个字不作为名。
进一步地,所述的疑似含有人名的字段中姓氏后两个字的后验概率P(b|a)的计算公式为:
其中,a为第一个字,b为第二个字,P(a)和P(b)为先验概率,即a和b在基础数据库出现的概率,P(a|b)为类条件概率密度,即在b出现的条件下a出现的概率。
进一步地,所述的类条件概率密度P(a|b)通过训练样本用最大似然法得到。
进一步地,所述的门限值λ通过测试实验确定。
进一步地,步骤⑤所述的人工筛选的具体实现为:在得到候选的人名后,通过人工进行最后的判定,若人名中存在消极或者不符合取名习惯的字眼,则过滤掉不作为人名,否则作为最终的人名识别结果。
本发明的有益效果是:通过引入贝叶斯决策,解决了传统的基于规则的中文人名识别技术规则的可移植性差,对中文人名的识别存在歧义,从而使得中文人名识别结果准确率低的现象,以提高中文人名识别的准确性。
附图说明
图1是本发明流程示意图;
图2是本发明步骤②~③流程示意图;
图3是本发明步骤④~⑤流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种中文人名识别方法,首先建立中国姓氏和中国人名数据库作为基础数据库;接着对待识别的字符串利用基础数据库进行首次中文人名识别;然后利用基于规则的方法进行二次中文人名识别;接着利用贝叶斯决策结合基础数据库进行第三次中文人名识别;最后通过人工筛选得到中文人名识别的最终结果。
具体步骤为:
①建立中国姓氏和中国人名数据库。
②对待识别的字符串利用基础数据库进行首次中文人名识别。
③利用基于规则的方法进行二次中文人名识别。
④利用贝叶斯决策结合基础数据库进行第三次中文人名识别。
⑤通过人工筛选得到中文人名识别的最终结果。
进一步地,步骤①所述的中国姓氏和中国人名数据库用作中文人名识别的基础数据库,可通过《百家姓》和维基百科得到。
进一步地,步骤②所述的首次中文人名识别的具体实现为:将待识别的字符串匹配所述中国人名数据库,判断待识别的字符串是否包含中国人名数据库中的人名,若包含,则提取出人名,再进行步骤③所述的基于规则的二次中文人名识别;若不包含,则直接进行二次中文人名识别。
进一步地,步骤③所述的基于规则的二次中文人名识别的具体实现为:匹配所述中国姓氏数据库,判断待识别的字符串中是否含有中国姓氏数据库中的姓氏,若不含有,则该字符串不含有人名,若含有,则提取出该姓氏以及其前后两个字作为疑似含有人名的字段等待下一步处理。
进一步地,所述的疑似含有人名的字段的下一步处理的具体实现为:首先匹配所述中国姓氏数据库,判断姓氏前两个字是否含有中国姓氏数据库中的姓氏,若含有,则该姓氏不作为姓氏处理,将前一个姓氏作为姓氏处理,若不含有,则将该姓氏后两个字匹配所述中国人名数据库,判断其中是否含有中国人名数据库中的名字,若含有,则提取出名字,结合姓氏组成人名,若不含有,则进行步骤④所述的第三次中文人名识别。
进一步地,步骤④所述的利用贝叶斯决策进行第三次中文人名识别的具体实现为:利用贝叶斯公式计算疑似含有人名的字段中姓氏后两个字的后验概率P(b|a),若P(b|a)大于或等于门限值λ,则将该两个字作为名,否则该两个字不作为名。
进一步地,所述的疑似含有人名的字段中姓氏后两个字的后验概率P(b|a)的计算公式为:
其中,a为第一个字,b为第二个字,P(a)和P(b)为先验概率,即a和b在基础数据库出现的概率,P(a|b)为类条件概率密度,即在b出现的条件下a出现的概率。
进一步地,所述的类条件概率密度P(a|b)通过训练样本用最大似然法得到。
进一步地,所述的门限值λ通过测试实验确定。
进一步地,步骤⑤所述的人工筛选的具体实现为:在得到候选的人名后,通过人工进行最后的判定,若人名中存在消极或者不符合取名习惯的字眼,则过滤掉不作为人名,否则作为最终的人名识别结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种中文人名识别方法,其特征在于:
①建立中国姓氏和中国人名数据库;
②对待识别的字符串利用基础数据库进行首次中文人名识别;
③利用基于规则的方法进行二次中文人名识别;
④利用贝叶斯决策结合基础数据库进行第三次中文人名识别;
⑤通过人工筛选得到中文人名识别的最终结果。
2.根据权利要求1所述的中文人名识别方法,其特征在于:步骤①所述的中国姓氏和中国人名数据库用作中文人名识别的基础数据库,可通过《百家姓》和维基百科得到。
3.根据权利要求1所述的中文人名识别方法,其特征在于:步骤②所述的首次中文人名识别的具体实现为:将待识别的字符串匹配所述中国人名数据库,判断待识别的字符串是否包含中国人名数据库中的人名,若包含,则提取出人名,再进行步骤③所述的基于规则的二次中文人名识别;若不包含,则直接进行二次中文人名识别。
4.根据权利要求1所述的中文人名识别方法,其特征在于:步骤③所述的基于规则的二次中文人名识别的具体实现为:匹配所述中国姓氏数据库,判断待识别的字符串中是否含有中国姓氏数据库中的姓氏,若不含有,则该字符串不含有人名,若含有,则提取出该姓氏以及其前后两个字作为疑似含有人名的字段等待下一步处理。
5.根据权利要求4所述的中文人名识别方法,其特征在于:所述的疑似含有人名的字段的下一步处理的具体实现为:首先匹配所述中国姓氏数据库,判断姓氏前两个字是否含有中国姓氏数据库中的姓氏,若含有,则该姓氏不作为姓氏处理,将前一个姓氏作为姓氏处理,若不含有,则将该姓氏后两个字匹配所述中国人名数据库,判断其中是否含有中国人名数据库中的名字,若含有,则提取出名字,结合姓氏组成人名,若不含有,则进行步骤④所述的第三次中文人名识别。
6.根据权利要求1所述的中文人名识别方法,其特征在于:步骤④所述的利用贝叶斯决策进行第三次中文人名识别的具体实现为:利用贝叶斯公式计算疑似含有人名的字段中姓氏后两个字的后验概率P(b|a),若P(b|a)大于或等于门限值λ,则将该两个字作为名,否则该两个字不作为名。
7.根据权利要求6所述的中文人名识别方法,其特征在于:所述的疑似含有人名的字段中姓氏后两个字的后验概率P(b|a)的计算公式为:
其中,a为第一个字,b为第二个字,P(a)和P(b)为先验概率,即a和b在基础数据库出现的概率,P(a|b)为类条件概率密度,即在b出现的条件下a出现的概率。
8.根据权利要求7所述的中文人名识别方法,其特征在于:所述的类条件概率密度P(a|b)通过训练样本用最大似然法得到。
9.根据权利要求6所述的中文人名识别方法,其特征在于:述的门限值λ通过测试实验确定。
10.根据权利要求1所述的中文人名识别方法,其特征在于:步骤⑤所述的人工筛选的具体实现为:在得到候选的人名后,通过人工进行最后的判定,若人名中存在消极或者不符合取名习惯的字眼,则过滤掉不作为人名,否则作为最终的人名识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810984171.0A CN109344233B (zh) | 2018-08-28 | 2018-08-28 | 一种中文人名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810984171.0A CN109344233B (zh) | 2018-08-28 | 2018-08-28 | 一种中文人名识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344233A true CN109344233A (zh) | 2019-02-15 |
CN109344233B CN109344233B (zh) | 2022-07-19 |
Family
ID=65297059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810984171.0A Active CN109344233B (zh) | 2018-08-28 | 2018-08-28 | 一种中文人名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344233B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131871A (zh) * | 2020-09-22 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
CN115935985A (zh) * | 2022-06-08 | 2023-04-07 | 北京有限元科技有限公司 | 中文姓名的识别方法、装置、电子设备及存储介质 |
CN117421670A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种敏感信息识别方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932846A (zh) * | 2006-10-12 | 2007-03-21 | 上海交通大学 | 基于外表模型的视频人脸跟踪识别方法 |
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN101426360A (zh) * | 2007-10-31 | 2009-05-06 | 松下电器产业株式会社 | 一种用贴片机在印刷电路板上贴装元器件的方法 |
CN102339286A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 中文人名自动识别方法 |
CN104199840A (zh) * | 2014-08-05 | 2014-12-10 | 杭州安恒信息技术有限公司 | 基于统计模型的智能地名识别技术 |
CN106354713A (zh) * | 2016-08-29 | 2017-01-25 | 达而观信息科技(上海)有限公司 | 自动识别中文姓名的方法 |
CN107608974A (zh) * | 2017-07-28 | 2018-01-19 | 昆明理工大学 | 一种基于条件随机场的柬‑汉人名翻译方法 |
-
2018
- 2018-08-28 CN CN201810984171.0A patent/CN109344233B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN1932846A (zh) * | 2006-10-12 | 2007-03-21 | 上海交通大学 | 基于外表模型的视频人脸跟踪识别方法 |
CN101426360A (zh) * | 2007-10-31 | 2009-05-06 | 松下电器产业株式会社 | 一种用贴片机在印刷电路板上贴装元器件的方法 |
CN102339286A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 中文人名自动识别方法 |
CN104199840A (zh) * | 2014-08-05 | 2014-12-10 | 杭州安恒信息技术有限公司 | 基于统计模型的智能地名识别技术 |
CN106354713A (zh) * | 2016-08-29 | 2017-01-25 | 达而观信息科技(上海)有限公司 | 自动识别中文姓名的方法 |
CN107608974A (zh) * | 2017-07-28 | 2018-01-19 | 昆明理工大学 | 一种基于条件随机场的柬‑汉人名翻译方法 |
Non-Patent Citations (1)
Title |
---|
周波等: "基于贝叶斯算法的中国人名识别", 《计算机应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131871A (zh) * | 2020-09-22 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
CN112131871B (zh) * | 2020-09-22 | 2023-06-30 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
CN115935985A (zh) * | 2022-06-08 | 2023-04-07 | 北京有限元科技有限公司 | 中文姓名的识别方法、装置、电子设备及存储介质 |
CN117421670A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种敏感信息识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109344233B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134720B (zh) | 融合局部特征与深度学习的事件联合抽取方法 | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN108959258B (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN106649275A (zh) | 基于词性信息和卷积神经网络的关系抽取方法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN110598005A (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN104572958A (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN104598535A (zh) | 一种基于最大熵的事件抽取方法 | |
CN110008323A (zh) | 一种半监督学习结合集成学习的问题等价性判别的方法 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN109344233A (zh) | 一种中文人名识别方法 | |
CN104881399B (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN110427612A (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN111091009A (zh) | 一种基于语义分析的文档关联审核方法 | |
CN109934251A (zh) | 一种用于小语种文本识别的方法、识别系统及存储介质 | |
CN110377690A (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
CN114388141A (zh) | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 | |
CN110347812A (zh) | 一种面向司法文本的搜索排序方法及系统 | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
Wu et al. | Public opinion monitoring for proactive crime detection using named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |