CN106503150A - 中文地名行政区划归属识别方法 - Google Patents

中文地名行政区划归属识别方法 Download PDF

Info

Publication number
CN106503150A
CN106503150A CN201610920383.3A CN201610920383A CN106503150A CN 106503150 A CN106503150 A CN 106503150A CN 201610920383 A CN201610920383 A CN 201610920383A CN 106503150 A CN106503150 A CN 106503150A
Authority
CN
China
Prior art keywords
administrative division
place name
knowledge
ownership
administrative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610920383.3A
Other languages
English (en)
Inventor
宋传宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201610920383.3A priority Critical patent/CN106503150A/zh
Publication of CN106503150A publication Critical patent/CN106503150A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。本发明中提出了一种中文地名行政区划归属识别方法,具有更准确的地名行政区归属效果,更快的处理速度。

Description

中文地名行政区划归属识别方法
技术领域
本发明涉及文字信息处理领域,具体涉及一种中文地名行政区划归属识别方法。
背景技术
在对互联网资讯新闻等文本语义分析中,完成地名命名实体识别后,准确地标定每一个地名的行政区划归属,可以应用于文章的地区新闻分类,文章事件抽取的事件发生地确定等方面;同时做为地名命名实体识别的增强技术,也可以广泛应用信息抽取、信息检索、自动问答、机器翻译等领域中。行政区划在世界各国划分标准不尽相同,这里主要针对中国国内的地名和行政区划进行处理。我国的行政区划主要有以下层级:国家、省和直辖市、市和地区、区和县、乡和镇、行政村和自然村。在资讯文章中,地名的行政区划层级有大有小,尤其是小层级的地名,重名现象非常普遍;同时,地名也包含非直接行政区划地名,比如:景点、道路、水域、自然区域等;利用上下文语境和背景知识,准确确定每一个地名在文章中语义表达的行政区划归属,是一个较为复杂的语义分析难题,给文本挖掘相关应用带来很大困扰。
发明内容
本发明的目的是针对现有的技术存在的不足,提出了一种工作效率高的中文地名行政区划归属识别方法。
本发明所解决的技术问题采用以下技术方案来实现一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。
本发明的有益效果为:提出了一种中文地名行政区划归属识别方法,具有更准确的地名行政区归属效果,更快的处理速度。
具体实施方式
参照附图,一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。
本发明提出了一种中文地名行政区划归属识别方法,包括以下步骤:
A、建立行政区划知识库,知识库中包括行政区划层级归属关系知识集、常见地名行政区划归属知识集、禁止词集;
B、扫描文本,对文本进行分词和地名识别;
C、获取文章完整的地名识别结果集合,包括每一个地名的位置信息,如果文章区分标题和正文等字段,则将地名出现的字段名也标记在地名识别结果中;
D、根据地名的字段和位置,先标题后正文,位置是从文本开始到结束,逐个地名查询知识库,获得每一个地名的行政区划背景知识;对于同名的情况,则保留多个行政区划层级路径,对于未出现在背景知识库中的地名,则暂不处理;
E、统计全部有行政区划知识的地名结果,汇总出各个行政区划层级路径的频率权重,对出现在标题中的行政区划层级路径进行适当增权处理,然后按出现频率权重由高到低对行政区划层级路径进行排序;
F、遍历扫描地名结果,处理同一地名多个行政区划路径的情况,根据步骤E统计的行政区划层级路径频率权重,优先选择频率权重高的行政区划路径做为同名地名的最终行政区划归属;
G、再次遍历扫描地名结果,处理无行政区划背景知识的地名,遍历扫描顺序仍然是按先标题后正文,文本位置从开始到结束,遇到第一个无行政区划背景知识的地名,则将其上一个地名的行政区划层级归属赋予当前地名,如果当前地名是文章最开始的一个地名且无行政区划背景知识,则直接将步骤E统计到的文章最高频率权重行政区划层级做为当前地名的行政区划归属。
经过上述步骤后,文章的每一个地名都完成了其行政区划归属识别;识别的效果除流程设计外,对文章内地名的数量,以及行政区划背景知识库的完善度有着较高的依赖,知识库约完善,则识别效果越好。
此外,对于上述流程步骤,还可以进一步优化完善,比如步骤G的行政区划归属识别,可以再根据文章整体行政区划层级统计情况,进行层级进一步细化,而不是单纯的依赖前一个地名的结果。
所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种中文地名行政区划归属识别方法,其特征在于:包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。
CN201610920383.3A 2016-10-21 2016-10-21 中文地名行政区划归属识别方法 Pending CN106503150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610920383.3A CN106503150A (zh) 2016-10-21 2016-10-21 中文地名行政区划归属识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610920383.3A CN106503150A (zh) 2016-10-21 2016-10-21 中文地名行政区划归属识别方法

Publications (1)

Publication Number Publication Date
CN106503150A true CN106503150A (zh) 2017-03-15

Family

ID=58318339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610920383.3A Pending CN106503150A (zh) 2016-10-21 2016-10-21 中文地名行政区划归属识别方法

Country Status (1)

Country Link
CN (1) CN106503150A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220240A (zh) * 2017-06-06 2017-09-29 深圳中泓在线股份有限公司 微博微信文本中地名识别方法
CN109359174A (zh) * 2018-09-03 2019-02-19 杭州数梦工场科技有限公司 行政区划归属识别方法、装置、存储介质及计算机设备
CN109871424A (zh) * 2019-02-28 2019-06-11 中国科学院地理科学与资源研究所 一种中文学术研究热点区域信息自动提取和地图制作方法
CN110245277A (zh) * 2019-06-12 2019-09-17 杭州数澜科技有限公司 用于确定地名串的方法和系统
CN111090994A (zh) * 2019-11-12 2020-05-01 北京信息科技大学 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112069824A (zh) * 2020-11-11 2020-12-11 北京智慧星光信息技术有限公司 基于上下文概率和引证的地域识别方法、装置及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN104199840A (zh) * 2014-08-05 2014-12-10 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN104199840A (zh) * 2014-08-05 2014-12-10 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220240A (zh) * 2017-06-06 2017-09-29 深圳中泓在线股份有限公司 微博微信文本中地名识别方法
CN109359174A (zh) * 2018-09-03 2019-02-19 杭州数梦工场科技有限公司 行政区划归属识别方法、装置、存储介质及计算机设备
CN109359174B (zh) * 2018-09-03 2019-08-20 杭州数梦工场科技有限公司 行政区划归属识别方法、装置、存储介质及计算机设备
CN109871424A (zh) * 2019-02-28 2019-06-11 中国科学院地理科学与资源研究所 一种中文学术研究热点区域信息自动提取和地图制作方法
CN109871424B (zh) * 2019-02-28 2021-05-04 中国科学院地理科学与资源研究所 一种中文学术研究热点区域信息自动提取和地图制作方法
CN110245277A (zh) * 2019-06-12 2019-09-17 杭州数澜科技有限公司 用于确定地名串的方法和系统
CN111090994A (zh) * 2019-11-12 2020-05-01 北京信息科技大学 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112069824A (zh) * 2020-11-11 2020-12-11 北京智慧星光信息技术有限公司 基于上下文概率和引证的地域识别方法、装置及介质

Similar Documents

Publication Publication Date Title
CN106503150A (zh) 中文地名行政区划归属识别方法
CN106446208B (zh) 一种考虑路网契合度的智能手机出行方式识别方法
CN102722558B (zh) 一种为用户推荐提问的方法和装置
CN107665603A (zh) 一种判定车位占用的实时检测方法
Lin et al. Regional differences of urbanization in China and its driving factors
CN106250393B (zh) 一种基于知识图谱的短文本理解方法及装置
CN104077806B (zh) 基于城市建筑三维模型的自动分体提取方法
CN106407484A (zh) 一种基于弹幕语义关联的视频标签提取方法
CN109492226A (zh) 一种提高情感倾向占比低文本预断准确率的方法
CN105486684A (zh) 一种基于网络平台的红木家具木材种类的无损检测方法
CN104239321B (zh) 一种面向搜索引擎的数据处理方法及装置
CN105320645A (zh) 中文企业名称的识别方法
CN102855251B (zh) 一种需求识别的方法及装置
CN105447633A (zh) 一种科研机构综合评价方法及系统
CN106886517A (zh) 业务选址方法、装置以及系统
CN101751396A (zh) 一种兴趣点信息加工处理系统
CN104493874B (zh) 一种白纸疵点裁切区域的自动定位方法
CN108153860A (zh) 一种基于多语言新闻的地理位置分析方法
CN106257457B (zh) 一种舆情收集整理方法
CN106484671A (zh) 一种时效性查询内容的识别方法
CN104320705B (zh) 网络电视收视监测方法和装置
CN103413310B (zh) 协同分割方法和装置
CN102708371B (zh) 基于分割线的漫画帧识别与自动排序方法
Vitoria et al. Endocalyx melanoxanthus var. melanoxanthus (Ascomycota): new to Brazil and three new hosts
CN101576874A (zh) 商户名称解析方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170315