CN109344233B - 一种中文人名识别方法 - Google Patents
一种中文人名识别方法 Download PDFInfo
- Publication number
- CN109344233B CN109344233B CN201810984171.0A CN201810984171A CN109344233B CN 109344233 B CN109344233 B CN 109344233B CN 201810984171 A CN201810984171 A CN 201810984171A CN 109344233 B CN109344233 B CN 109344233B
- Authority
- CN
- China
- Prior art keywords
- chinese
- surname
- name
- chinese name
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种中文人名识别方法,属于信息技术领域。本发明首先建立中国姓氏和中国人名数据库作为基础数据库;接着对待识别的字符串利用基础数据库进行首次中文人名识别;然后利用基于规则的方法进行二次中文人名识别;接着利用贝叶斯决策结合基础数据库进行第三次中文人名识别;最后通过人工筛选得到中文人名识别的最终结果。本发明与现有技术相比,通过引入贝叶斯决策,解决了传统的基于规则的中文人名识别技术规则的可移植性差,对中文人名的识别存在歧义,从而使得中文人名识别结果准确率低的现象,以提高中文人名识别的准确性。
Description
技术领域
本发明涉及一种中文人名识别方法,属于信息技术领域。
背景技术
命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,而中文人名识别是命名实体识别的一个子问题,因此,对它的研究具有重要意义和价值。
一般地,中文语义复杂,中国人名的用字又具有很大的任意性,所以传统的命名实体识别技术不能有效地识别出新词;同时,由于中国人名数量众多、没有形态上的特征、规律各异、包含生僻字等特点,所以传统的基于规则的中文人名识别技术由于可移植性差,会使得对人名的识别会变得不够准确,以上所述都会给中文人名识别造成困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种中文人名识别方法,引入贝叶斯决策,解决了传统的基于规则的中文人名识别技术规则的可移植性差,对中文人名的识别存在歧义,从而使得中文人名识别结果准确率低的现象,以提高中文人名识别的准确性。
本发明的技术方案是:一种中文人名识别方法,引入贝叶斯决策对传统的基于规则的中文人名识别技术进行改进,首先建立中国姓氏和中国人名数据库作为基础数据库;接着对待识别的字符串利用基础数据库进行首次中文人名识别;然后利用基于规则的方法进行二次中文人名识别;接着利用贝叶斯决策结合基础数据库进行第三次中文人名识别;最后通过人工筛选得到中文人名识别的最终结果。
具体步骤为:
①建立中国姓氏和中国人名数据库。
②对待识别的字符串利用基础数据库进行首次中文人名识别。
③利用基于规则的方法进行二次中文人名识别。
④利用贝叶斯决策结合基础数据库进行第三次中文人名识别。
⑤通过人工筛选得到中文人名识别的最终结果。
进一步地,步骤①所述的中国姓氏和中国人名数据库用作中文人名识别的基础数据库,可通过《百家姓》和维基百科得到。
进一步地,步骤②所述的首次中文人名识别的具体实现为:将待识别的字符串匹配所述中国人名数据库,判断待识别的字符串是否包含中国人名数据库中的人名,若包含,则提取出人名,再进行步骤③所述的基于规则的二次中文人名识别;若不包含,则直接进行二次中文人名识别。
进一步地,步骤③所述的基于规则的二次中文人名识别的具体实现为:匹配所述中国姓氏数据库,判断待识别的字符串中是否含有中国姓氏数据库中的姓氏,若不含有,则该字符串不含有人名,若含有,则提取出该姓氏以及其前后两个字作为疑似含有人名的字段等待下一步处理。
进一步地,所述的疑似含有人名的字段的下一步处理的具体实现为:首先匹配所述中国姓氏数据库,判断姓氏前两个字是否含有中国姓氏数据库中的姓氏,若含有,则该姓氏不作为姓氏处理,将前一个姓氏作为姓氏处理,若不含有,则将该姓氏后两个字匹配所述中国人名数据库,判断其中是否含有中国人名数据库中的名字,若含有,则提取出名字,结合姓氏组成人名,若不含有,则进行步骤④所述的第三次中文人名识别。
进一步地,步骤④所述的利用贝叶斯决策进行第三次中文人名识别的具体实现为:利用贝叶斯公式计算疑似含有人名的字段中姓氏后两个字的后验概率P(b|a),若P(b|a)大于或等于门限值λ,则将该两个字作为名,否则该两个字不作为名。
进一步地,所述的疑似含有人名的字段中姓氏后两个字的后验概率P(b|a)的计算公式为:
其中,a为第一个字,b为第二个字,P(a)和P(b)为先验概率,即a和b在基础数据库出现的概率,P(a|b)为类条件概率密度,即在b出现的条件下a出现的概率。
进一步地,所述的类条件概率密度P(a|b)通过训练样本用最大似然法得到。
进一步地,所述的门限值λ通过测试实验确定。
进一步地,步骤⑤所述的人工筛选的具体实现为:在得到候选的人名后,通过人工进行最后的判定,若人名中存在消极或者不符合取名习惯的字眼,则过滤掉不作为人名,否则作为最终的人名识别结果。
本发明的有益效果是:通过引入贝叶斯决策,解决了传统的基于规则的中文人名识别技术规则的可移植性差,对中文人名的识别存在歧义,从而使得中文人名识别结果准确率低的现象,以提高中文人名识别的准确性。
附图说明
图1是本发明流程示意图;
图2是本发明步骤②~③流程示意图;
图3是本发明步骤④~⑤流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种中文人名识别方法,首先建立中国姓氏和中国人名数据库作为基础数据库;接着对待识别的字符串利用基础数据库进行首次中文人名识别;然后利用基于规则的方法进行二次中文人名识别;接着利用贝叶斯决策结合基础数据库进行第三次中文人名识别;最后通过人工筛选得到中文人名识别的最终结果。
具体步骤为:
①建立中国姓氏和中国人名数据库。
②对待识别的字符串利用基础数据库进行首次中文人名识别。
③利用基于规则的方法进行二次中文人名识别。
④利用贝叶斯决策结合基础数据库进行第三次中文人名识别。
⑤通过人工筛选得到中文人名识别的最终结果。
进一步地,步骤①所述的中国姓氏和中国人名数据库用作中文人名识别的基础数据库,可通过《百家姓》和维基百科得到。
进一步地,步骤②所述的首次中文人名识别的具体实现为:将待识别的字符串匹配所述中国人名数据库,判断待识别的字符串是否包含中国人名数据库中的人名,若包含,则提取出人名,再进行步骤③所述的基于规则的二次中文人名识别;若不包含,则直接进行二次中文人名识别。
进一步地,步骤③所述的基于规则的二次中文人名识别的具体实现为:匹配所述中国姓氏数据库,判断待识别的字符串中是否含有中国姓氏数据库中的姓氏,若不含有,则该字符串不含有人名,若含有,则提取出该姓氏以及其前后两个字作为疑似含有人名的字段等待下一步处理。
进一步地,所述的疑似含有人名的字段的下一步处理的具体实现为:首先匹配所述中国姓氏数据库,判断姓氏前两个字是否含有中国姓氏数据库中的姓氏,若含有,则该姓氏不作为姓氏处理,将前一个姓氏作为姓氏处理,若不含有,则将该姓氏后两个字匹配所述中国人名数据库,判断其中是否含有中国人名数据库中的名字,若含有,则提取出名字,结合姓氏组成人名,若不含有,则进行步骤④所述的第三次中文人名识别。
进一步地,步骤④所述的利用贝叶斯决策进行第三次中文人名识别的具体实现为:利用贝叶斯公式计算疑似含有人名的字段中姓氏后两个字的后验概率P(b|a),若P(b|a)大于或等于门限值λ,则将该两个字作为名,否则该两个字不作为名。
进一步地,所述的疑似含有人名的字段中姓氏后两个字的后验概率P(b|a)的计算公式为:
其中,a为第一个字,b为第二个字,P(a)和P(b)为先验概率,即a和b在基础数据库出现的概率,P(a|b)为类条件概率密度,即在b出现的条件下a出现的概率。
进一步地,所述的类条件概率密度P(a|b)通过训练样本用最大似然法得到。
进一步地,所述的门限值λ通过测试实验确定。
进一步地,步骤⑤所述的人工筛选的具体实现为:在得到候选的人名后,通过人工进行最后的判定,若人名中存在消极或者不符合取名习惯的字眼,则过滤掉不作为人名,否则作为最终的人名识别结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种中文人名识别方法,其特征在于:
①建立中国姓氏和中国人名数据库;
②对待识别的字符串利用基础数据库进行首次中文人名识别;
③利用基于规则的方法进行二次中文人名识别;
④利用贝叶斯决策结合基础数据库进行第三次中文人名识别;
⑤通过人工筛选得到中文人名识别的最终结果;
步骤②所述的首次中文人名识别的具体实现为:将待识别的字符串匹配中国人名数据库,判断待识别的字符串是否包含中国人名数据库中的人名,若包含,则提取出人名,再进行步骤③所述的基于规则的二次中文人名识别;若不包含,则直接进行二次中文人名识别;
步骤③所述的基于规则的二次中文人名识别的具体实现为:匹配中国姓氏数据库,判断待识别的字符串中是否含有中国姓氏数据库中的姓氏,若不含有,则该字符串不含有人名,若含有,则提取出该姓氏以及其前后两个字作为疑似含有人名的字段等待下一步处理:首先匹配中国姓氏数据库,判断姓氏前两个字是否含有中国姓氏数据库中的姓氏,若含有,则该姓氏不作为姓氏处理,将前一个姓氏作为姓氏处理,若不含有,则将该姓氏后两个字匹配所述中国人名数据库,判断其中是否含有中国人名数据库中的名字,若含有,则提取出名字,结合姓氏组成人名,若不含有,则进行步骤④所述的第三次中文人名识别;
步骤④所述的利用贝叶斯决策进行第三次中文人名识别的具体实现为:利用贝叶斯公式计算疑似含有人名的字段中姓氏后两个字的后验概率P(b|a),若P(b|a)大于或等于门限值λ,则将该两个字作为名,否则该两个字不作为名。
2.根据权利要求1所述的中文人名识别方法,其特征在于:步骤①所述的中国姓氏和中国人名数据库用作中文人名识别的基础数据库,通过《百家姓》和维基百科得到。
4.根据权利要求3所述的中文人名识别方法,其特征在于:所述的类条件概率密度P(a|b)通过训练样本用最大似然法得到。
5.根据权利要求1所述的中文人名识别方法,其特征在于:述的门限值λ通过测试实验确定。
6.根据权利要求1所述的中文人名识别方法,其特征在于:步骤⑤所述的人工筛选的具体实现为:在得到候选的人名后,通过人工进行最后的判定,若人名中存在消极或者不符合取名习惯的字眼,则过滤掉不作为人名,否则作为最终的人名识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810984171.0A CN109344233B (zh) | 2018-08-28 | 2018-08-28 | 一种中文人名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810984171.0A CN109344233B (zh) | 2018-08-28 | 2018-08-28 | 一种中文人名识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344233A CN109344233A (zh) | 2019-02-15 |
CN109344233B true CN109344233B (zh) | 2022-07-19 |
Family
ID=65297059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810984171.0A Active CN109344233B (zh) | 2018-08-28 | 2018-08-28 | 一种中文人名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344233B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131871B (zh) * | 2020-09-22 | 2023-06-30 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
CN115935985A (zh) * | 2022-06-08 | 2023-04-07 | 北京有限元科技有限公司 | 中文姓名的识别方法、装置、电子设备及存储介质 |
CN117421670A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种敏感信息识别方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932846A (zh) * | 2006-10-12 | 2007-03-21 | 上海交通大学 | 基于外表模型的视频人脸跟踪识别方法 |
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN101426360A (zh) * | 2007-10-31 | 2009-05-06 | 松下电器产业株式会社 | 一种用贴片机在印刷电路板上贴装元器件的方法 |
CN102339286A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 中文人名自动识别方法 |
CN104199840A (zh) * | 2014-08-05 | 2014-12-10 | 杭州安恒信息技术有限公司 | 基于统计模型的智能地名识别技术 |
CN106354713A (zh) * | 2016-08-29 | 2017-01-25 | 达而观信息科技(上海)有限公司 | 自动识别中文姓名的方法 |
CN107608974A (zh) * | 2017-07-28 | 2018-01-19 | 昆明理工大学 | 一种基于条件随机场的柬‑汉人名翻译方法 |
-
2018
- 2018-08-28 CN CN201810984171.0A patent/CN109344233B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN1932846A (zh) * | 2006-10-12 | 2007-03-21 | 上海交通大学 | 基于外表模型的视频人脸跟踪识别方法 |
CN101426360A (zh) * | 2007-10-31 | 2009-05-06 | 松下电器产业株式会社 | 一种用贴片机在印刷电路板上贴装元器件的方法 |
CN102339286A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 中文人名自动识别方法 |
CN104199840A (zh) * | 2014-08-05 | 2014-12-10 | 杭州安恒信息技术有限公司 | 基于统计模型的智能地名识别技术 |
CN106354713A (zh) * | 2016-08-29 | 2017-01-25 | 达而观信息科技(上海)有限公司 | 自动识别中文姓名的方法 |
CN107608974A (zh) * | 2017-07-28 | 2018-01-19 | 昆明理工大学 | 一种基于条件随机场的柬‑汉人名翻译方法 |
Non-Patent Citations (1)
Title |
---|
基于贝叶斯算法的中国人名识别;周波等;《计算机应用》;20060430;第26卷(第4期);第998-1000页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109344233A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN109344233B (zh) | 一种中文人名识别方法 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
Alotaibi et al. | Optical character recognition for quranic image similarity matching | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN113076411A (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
CN112084308A (zh) | 用于文本类型数据识别的方法、系统及存储介质 | |
CN114090736A (zh) | 一种基于文本相似度的企业行业识别系统及识别方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN108519978A (zh) | 一种基于主动学习的中文正式文本分词方法 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN112632963A (zh) | 基于政府工作报告的中文隐喻信息知识库构建方法、装置 | |
CN116720520A (zh) | 一种面向文本数据的别名实体快速识别方法及系统 | |
CN116662479A (zh) | 一种用于医保目录的文本匹配方法 | |
CN109299456B (zh) | 一种地名识别方法 | |
Li et al. | Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts | |
CN113505863A (zh) | 基于级联均值向量综合评分的图片多级分类方法及系统 | |
CN105740359B (zh) | 个股识别的方法及装置 | |
CN111538805A (zh) | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |