CN109299456B - 一种地名识别方法 - Google Patents
一种地名识别方法 Download PDFInfo
- Publication number
- CN109299456B CN109299456B CN201810984200.3A CN201810984200A CN109299456B CN 109299456 B CN109299456 B CN 109299456B CN 201810984200 A CN201810984200 A CN 201810984200A CN 109299456 B CN109299456 B CN 109299456B
- Authority
- CN
- China
- Prior art keywords
- place name
- place
- characters
- probability
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种地名识别方法,属于信息技术领域。本发明首先建立行政区划数据库和常见地名数据库作为基础数据库;接着对大量含有地名的语料库进行统计分析,得到基于统计的地名识别模型;然后对待识别的字符串利用基础数据库进行首次地名识别;接着利用基于规则的方法进行二次地名识别;最后利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。本发明通过将统计模型和规则识别进行结合,解决了传统的地名识别技术规则的可移植性差,对地名的识别存在歧义,从而使得地名识别结果准确率低的现象,以提高地名识别的准确性。
Description
技术领域
本发明涉及一种地名识别方法,属于信息技术领域。
背景技术
命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,而地名识别是命名实体识别的一个子问题,因此,对它的研究具有重要意义和价值。
一般地,地名语义复杂,地名的用字又具有很大的任意性,所以传统的地名识别技术不能有效地识别出新词;同时,由于地名数量众多、没有形态上的特征、规律各异等特点,所以传统的基于规则的地名识别技术由于可移植性差,会使得对地名的识别会变得不够准确,以上所述都会给地名识别造成困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种地名识别方法,将统计模型和规则识别进行结合,解决了传统的地名识别技术规则的可移植性差,对地名的识别存在歧义,从而使得地名识别结果准确率低的现象,以提高地名识别的准确性。
本发明的技术方案是:一种地名识别方法,首先建立行政区划数据库和常见地名数据库作为基础数据库;接着对大量含有地名的语料库进行统计分析,得到基于统计的地名识别模型;然后对待识别的字符串利用基础数据库进行首次地名识别;接着利用基于规则的方法进行二次地名识别;最后利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。
具体步骤为:
①建立行政区划数据库和常见地名数据库。
②对大量含有地名的语料进行统计分析,得到基于统计的地名识别模型。
③对待识别的字符串利用基础数据库进行首次地名识别。
④利用基于规则的方法进行二次地名识别。
⑤利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。
⑥通过人工筛选得到地名识别的最终结果。
进一步地,步骤②所述的基于统计的地名识别模型要提取的特征有:地名用字概率以及地名前后字或词的词性特征。
进一步地,所述的地名用字概率通过训练地名语料库后统计得到,具体实现为:将地名语料库中的地名按字切分,得到一个由字组成的集合A,再统计每个字出现的频率,即为概率,最后按照频率的大小进行排序,取前m个为地名用字概率大的字,作为后续地名识别的依据,所述地名用字概率的计算公式为:
其中,pi为第i个字出现的概率,n为集合A中的字的总个数,wi为地名语料库中第i个字出现的次数;所述的门限m通过大量实验后得到。
进一步地,提取所述的地名前后字或词的词性特征的具体实现为:首先对地名前后字或词进行词性标注,再分别计算地名前面的词的词性出现的概率p(q)、地名后面的词的词性出现的概率p(h)以及地名前后的词的词性出现的条件概率p(q|h),所述的p(q)、p(h)、p(q|h)可利用每个词性出现的频率表示,计算公式为:
其中,z为词性的总个数,q、h分别为地名前、后词性出现的次数,p(h|q)为在前一个词性确定的情况下前一个词性出现的概率,可通过训练样本用最大似然法得到。
进一步地,步骤③所述的首次地名识别的具体实现为:将待识别的字符串匹配所述行政区划数据库和常见地名数据库,判断待识别的字符串是否包含行政区划数据库和常见地名数据库中的地名,若包含,则提取出地名,再进行步骤④所述的基于规则的二次地名识别;若不包含,则直接进行二次地名识别。
进一步地,所述的基于规则的二次地名识别的具体实现为:首先统计出地名最后一个字出现概率大的字,作为地名特征字,再统计出地名前一个字出现概率大的字或词,作为地名指示词,然后判断待识别的字符串中是否含有地名特征字,若含有,则提取出地名特征字前六个字作为疑似地名等待下一步处理,若不含有,则进行步骤⑤所述的利用统计好的地名识别模型进行第三次地名识别。
进一步地,所述的下一步处理的具体实现为:判断这六个字中是否存在地名用字概率大的字,若不存在,则视为没有地名,若存在,则继续判断这六个字中是否存在地名指示词且指示词不为最后一个字,若存在,则将指示词后面的部分作为地名,若不存在,则视为没有地名。
进一步地,所述的利用统计好的地名识别模型进行第三次地名识别的具体实现为:将待识别的字符串作为输入,添加已经提取好的特征,利用统计模型实现地名自动识别。
进一步地,步骤⑥所述的人工筛选的具体实现为:在得到候选的地名后,通过人工进行最后的判定,若地名中存在不符合地名用字习惯的字眼,则过滤掉不作为地名,否则作为最终的地名识别结果。
本发明的有益效果是:通过将统计模型和规则识别进行结合,解决了传统的地名识别技术规则的可移植性差,对地名的识别存在歧义,从而使得地名识别结果准确率低的现象,以提高地名识别的准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤③~④流程示意图;
图3是本发明步骤⑤~⑥流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种地名识别方法,首先建立行政区划数据库和常见地名数据库作为基础数据库;接着对大量含有地名的语料库进行统计分析,得到基于统计的地名识别模型;然后对待识别的字符串利用基础数据库进行首次地名识别;接着利用基于规则的方法进行二次地名识别;最后利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。
具体步骤为:
①建立行政区划数据库和常见地名数据库。
②对大量含有地名的语料进行统计分析,得到基于统计的地名识别模型。
③对待识别的字符串利用基础数据库进行首次地名识别。
④利用基于规则的方法进行二次地名识别。
⑤利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果。
⑥通过人工筛选得到地名识别的最终结果。
进一步地,步骤②所述的基于统计的地名识别模型要提取的特征有:地名用字概率以及地名前后字或词的词性特征。
进一步地,所述的地名用字概率通过训练地名语料库后统计得到,具体实现为:将地名语料库中的地名按字切分,得到一个由字组成的集合A,再统计每个字出现的频率,即为概率,最后按照频率的大小进行排序,取前m个为地名用字概率大的字,作为后续地名识别的依据,所述地名用字概率的计算公式为:
其中,pi为第i个字出现的概率,n为集合A中的字的总个数,wi为地名语料库中第i个字出现的次数;所述的门限m通过大量实验后得到。
进一步地,提取所述的地名前后字或词的词性特征的具体实现为:首先对地名前后字或词进行词性标注,再分别计算地名前面的词的词性出现的概率p(q)、地名后面的词的词性出现的概率p(h)以及地名前后的词的词性出现的条件概率p(q|h),所述的p(q)、p(h)、p(q|h)可利用每个词性出现的频率表示,计算公式为:
其中,z为词性的总个数,q、h分别为地名前、后词性出现的次数,p(h|q)为在前一个词性确定的情况下前一个词性出现的概率,可通过训练样本用最大似然法得到。
进一步地,步骤③所述的首次地名识别的具体实现为:将待识别的字符串匹配所述行政区划数据库和常见地名数据库,判断待识别的字符串是否包含行政区划数据库和常见地名数据库中的地名,若包含,则提取出地名,再进行步骤④所述的基于规则的二次地名识别;若不包含,则直接进行二次地名识别。
进一步地,所述的基于规则的二次地名识别的具体实现为:首先统计出地名最后一个字出现概率大的字,作为地名特征字,再统计出地名前一个字出现概率大的字或词,作为地名指示词,然后判断待识别的字符串中是否含有地名特征字,若含有,则提取出地名特征字前六个字作为疑似地名等待下一步处理,若不含有,则进行步骤⑤所述的利用统计好的地名识别模型进行第三次地名识别。
进一步地,所述的下一步处理的具体实现为:判断这六个字中是否存在地名用字概率大的字,若不存在,则视为没有地名,若存在,则继续判断这六个字中是否存在地名指示词且指示词不为最后一个字,若存在,则将指示词后面的部分作为地名,若不存在,则视为没有地名。
进一步地,所述的利用统计好的地名识别模型进行第三次地名识别的具体实现为:将待识别的字符串作为输入,添加已经提取好的特征,利用统计模型实现地名自动识别。
进一步地,步骤⑥所述的人工筛选的具体实现为:在得到候选的地名后,通过人工进行最后的判定,若地名中存在不符合地名用字习惯的字眼,则过滤掉不作为地名,否则作为最终的地名识别结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.一种地名识别方法,其特征在于:
①建立行政区划数据库和常见地名数据库;
②对大量含有地名的语料进行统计分析,得到基于统计的地名识别模型;
③对待识别的字符串利用基础数据库进行首次地名识别;
④利用基于规则的方法进行二次地名识别;
⑤利用统计好的地名识别模型进行第三次地名识别,得到地名识别的最终结果;
⑥通过人工筛选得到地名识别的最终结果;
步骤③所述的首次地名识别的具体实现为:将待识别的字符串匹配所述行政区划数据库和常见地名数据库,判断待识别的字符串是否包含行政区划数据库和常见地名数据库中的地名,若包含,则提取出地名,再进行步骤④所述的基于规则的二次地名识别;若不包含,则直接进行二次地名识别;
所述的基于规则的二次地名识别的具体实现为:首先统计出地名最后一个字出现概率大的字,作为地名特征字,再统计出地名前一个字出现概率大的字或词,作为地名指示词,然后判断待识别的字符串中是否含有地名特征字,若含有,则提取出地名特征字前六个字作为疑似地名等待下一步处理,若不含有,则进行步骤⑤所述的利用统计好的地名识别模型进行第三次地名识别;
所述的下一步处理的具体实现为:判断这六个字中是否存在地名用字概率大的字,若不存在,则视为没有地名,若存在,则继续判断这六个字中是否存在地名指示词且指示词不为最后一个字,若存在,则将指示词后面的部分作为地名,若不存在,则视为没有地名;
所述的利用统计好的地名识别模型进行第三次地名识别的具体实现为:将待识别的字符串作为输入,添加已经提取好的特征,利用统计模型实现地名自动识别;
步骤②所述的基于统计的地名识别模型要提取的特征有:地名用字概率以及地名前后字或词的词性特征。
4.根据权利要求1所述的地名识别方法,其特征在于:步骤⑥所述的人工筛选的具体实现为:在得到候选的地名后,通过人工进行最后的判定,若地名中存在不符合地名用字习惯的字眼,则过滤掉不作为地名,否则作为最终的地名识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810984200.3A CN109299456B (zh) | 2018-08-28 | 2018-08-28 | 一种地名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810984200.3A CN109299456B (zh) | 2018-08-28 | 2018-08-28 | 一种地名识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299456A CN109299456A (zh) | 2019-02-01 |
CN109299456B true CN109299456B (zh) | 2022-07-19 |
Family
ID=65165458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810984200.3A Active CN109299456B (zh) | 2018-08-28 | 2018-08-28 | 一种地名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299456B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399613B (zh) * | 2019-07-26 | 2023-03-31 | 浪潮软件股份有限公司 | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199840A (zh) * | 2014-08-05 | 2014-12-10 | 杭州安恒信息技术有限公司 | 基于统计模型的智能地名识别技术 |
CN106598950A (zh) * | 2016-12-23 | 2017-04-26 | 东北大学 | 一种基于混合层叠模型的命名实体识别方法 |
CN108595435A (zh) * | 2018-05-03 | 2018-09-28 | 鹏元征信有限公司 | 一种机构名称识别处理方法、智能终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9110986B2 (en) * | 2011-01-31 | 2015-08-18 | Vexigo, Ltd. | System and method for using a combination of semantic and statistical processing of input strings or other data content |
-
2018
- 2018-08-28 CN CN201810984200.3A patent/CN109299456B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199840A (zh) * | 2014-08-05 | 2014-12-10 | 杭州安恒信息技术有限公司 | 基于统计模型的智能地名识别技术 |
CN106598950A (zh) * | 2016-12-23 | 2017-04-26 | 东北大学 | 一种基于混合层叠模型的命名实体识别方法 |
CN108595435A (zh) * | 2018-05-03 | 2018-09-28 | 鹏元征信有限公司 | 一种机构名称识别处理方法、智能终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109299456A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN106095928B (zh) | 一种事件类型识别方法及装置 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN110826320B (zh) | 一种基于文本识别的敏感数据发现方法及系统 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN107168956B (zh) | 一种基于管道的中文篇章结构分析方法及系统 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN110941720A (zh) | 一种基于知识库的特定人员信息纠错方法 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN107247739A (zh) | 一种基于因子图的金融公报文本知识提取方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN109344233B (zh) | 一种中文人名识别方法 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN110347812A (zh) | 一种面向司法文本的搜索排序方法及系统 | |
CN106776866A (zh) | 一种对高校网站上的会议稿进行知识抽取的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |