CN105677700B - 一种基于集合运算的中文地址行政区划解析方法 - Google Patents
一种基于集合运算的中文地址行政区划解析方法 Download PDFInfo
- Publication number
- CN105677700B CN105677700B CN201510980148.0A CN201510980148A CN105677700B CN 105677700 B CN105677700 B CN 105677700B CN 201510980148 A CN201510980148 A CN 201510980148A CN 105677700 B CN105677700 B CN 105677700B
- Authority
- CN
- China
- Prior art keywords
- administrative division
- zoning
- provincial
- result
- administrative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于集合运算的中文地址行政区划解析方法,该方法包括以下步骤:首先利用行政区划字典和移动窗口最大匹配算法,从中文地址中提取所有可能的行政区划数据集,然后利用中文地址行政区划元素之间具有层次关系的特点,建立行政区划条件集合运算规则,最后对行政区划集合进行条件集合运算,得到信息量最完整最准确的中文地址的行政区划。本发明方法解决了在互联网中中文地址数据混乱无序的情况下快速解析出中文地址行政区划的问题,并能得到信息量最完整最准确的中文地址的行政区划解析结果。
Description
技术领域
本发明涉及中文地址解析技术,尤其涉及一种基于集合运算的中文地址行政区划解析方法。
背景技术
科技的不断发展,人们对生活中各个方面的需求不断提升,服务化社会成为未来发展的趋势。作为服务化中的一种形式,当今地理信息位置服务是通过国家地理信息普查、实地勘察等方式获取数据建立一个标准的中文地址库,然后通过匹配进行信息返回。
在互联网位置服务中,地理位置可以有多种方式来表达,中文地址是其中之一。一个规范的中文地址应包含完整的行政区划,并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室的次序来表达。一个完整规范的中文地址可以得到与其对应的地理位置。然而,在互联网上,中文地址的经常用非规范行政区划方式来描述,中文地址中与行政区划相关的方式有:行政区划用简称(省略行政区划特征词)、省略部分行政区划、省略行政区划、行政区划信息不是规范次序出现。此外,地址的非行政区划部分存在与行政区划同名的情况,主要表现在:路街的名称常用行政区划名称命名、建筑(或企业)名称中包含行政区划名称、地名与行政区划同名,等等。在互联网中纷杂的非规范信息中,辨别出相对于用户需要的信任度比较高的信息,在当今地理信息位置服务方面变得十分必要,一个基于集合运算的中文地址行政区划解析算法随着用户的需要而产生。
对于一个中文地址为了快速地解析出地址的行政区划,一般借助行政区划字典来匹配地址中的行政区划。由于可能存在多个行政区划信息,利用字典则会匹配出多个行政区划集合。例如地址中存在行政区划词“江苏”和“鼓楼”,查询返回的结果集为{{江苏省,南京市,鼓楼区},{江苏省,徐州市,鼓楼区},{福建省,福州市,鼓楼区},{河南省,开封市,鼓楼区}},{江苏省,,},无法得到更详尽更准确的行政区划信息。因此,针对上诉问题,发明一种基于集合运算的中文地址行政区划解析算法,可以有效的提高地址数据查找的速度和准确性,从而提高网络地图在线服务质量,为用户更好的定位。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于集合运算的中文地址行政区划解析方法。
本发明解决其技术问题所采用的技术方案是:一种基于集合运算的中文地址行政区划解析方法,它包括以下步骤:
1)利用行政区划字典和移动窗口最大匹配算法(Move Window Max Match,MWMM),查询匹配出所需解析的中文地址字符串中所有可能的行政区划结果集;
2)根据步骤1)得到的所有可能的行政区划结果集,进行条件集合运算;
行政区划条件集合运算规则如下:
一个行政区划是包括省、市、县、乡、村5级行政区划元素,并按照省、市、县、乡、村的次序组成,于是行政区划D记为:D={d1,d2,d3,d4,d5};
2.1)若所有可能的行政区划结果集为1个行政区划集合,则计算1个行政区划集合的交集;
一个行政区划集合DS={D1,D2,…,Dm},并且D1,D2,…,Dm的省级区划元素都不为空,则行政区划集合DS的交集为DI(D1,D2,…,Dm);用公式(1)表示:
DI(D1,D2,…,Dm)=∩DS=∩{D1,D2,…,Dm}=D1∩D2∩…∩Dm (1)
2.2)若所有可能的行政区划结果集为多个行政区划集合,则计算多个行政区划集合的交集;
多个行政区划集合的交为多个行政区划集合分别两两相交结果的集合,记为DSI;
用公式(2)表示:
若上述两两相交结果的集合中有运算结果为空的,则将对应的行政区划的交运算变成并运算;
3)输出解析出的行政区划。
按上述方案,步骤2)中计算行政区划的交集具体规则如下:
行政区划的交为各级行政区划元素的交,2个行政区划元素的交记为:dIi,i=1,2,3,4,5;
由于行政区划元素之间存在包含关系,即除了省级区划外,其它各级区划都属于1个或n个上级行政区划,先计算省级行政化元素的交,再计算非省级区划元素的交;
a)省级行政区划元素的交规则如下:
其中ρ表示不确定,即2个行政区划中存在一个行政区划的省级区划元素为空此时需要对省级区划元素为空的行政区划利用行政区划字典查询得到其省级区划元素再进行计算;
即当省级区划元素相等时,则交的结果为该省级区划元素;
当省级区划元素不相等,且省级区划元素都不为空,则交的结果为空;
当省级区划元素不相等,且区划元素有一个为空时,此时需要对省级区划元素为空的行政区划利用行政区划字典查询得到其省级区划元素再进行计算;
b)非省级区划元素的交结果采用以下规则;
即当区划元素相等时,则交的结果为区划元素;
当区划元素不相等,且区划元素都不为空,则结果为空;
当区划元素不相等,且区划元素有一个为空时,如果存在非空的交父元素结果为非空区划元素值。
本发明产生的有益效果是:本发明方法解决了在互联网中中文地址数据混乱无序的情况下快速解析出中文地址行政区划的问题,并能得到信息量最完整最准确的中文地址的行政区划解析结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于集合运算的中文地址行政区划解析方法,它包括以下步骤:
S1、利用行政区划字典和移动窗口最大匹配算法(Move Window Max Match,MWMM),查询匹配出一个中文地址字符串中所有可能的行政区划结果集。
S1中的MWMM得到的所有可能的行政区划结果集,是根据中文地址中包含的行政区划元素词计算出这个地址字符串所包含的可能行政区划结果集。行政区划元素词是指中文地址中的词可以与行政区划字典成功匹配出一个或多个行政区划的词。
(1)一个中文地址中只包含一个行政区划元素词,且只匹配一个行政区划。
(2)一个中文地址中只包含一个行政区划元素词,且可以匹配多个行政区划,则只有一个行政区划集合。
(3)一个中文地址中包含多个行政区划元素词。每个行政区划元素都匹配一个行政区划集合,则多个行政区划元素词可以匹配多个行政区划集合。
S2、根据S1中行政区划集合个数,计算行政区划的交集、1个行政区划集合的交集、多个行政区划的交集。
(1)计算行政区划的交集:
若有2个行政区划D1={d11,d12,d13,d14,d15}和D2={d21,d22,d23,d24,d25}。则行政区划的交为各级行政区划元素的交。记为:DI。用公式(1)表示。2个行政区划元素的交记为:dIi,i=1,2,3,4,5。
DI(D1,D2)=D1∩D2={d11,d12,d13,d14,d15}∩{d21,d22,d23,d24,d25}
={d11∩d21,d12∩d22,d13∩d23,d14∩d24,d15∩d25}
={dI1,dI2,dI3,dI4,dI5} (1)
由于行政区划元素之间存在包含关系,即除了省级区划外,其它各级区划都属于1个或n个上级行政区划。先计算省级行政化元素的交,再计算非省级区划元素的交。
a)省级行政区划元素的交
ρ表示不确定,即2个行政区划中存在一个行政区划的省级区划元素为空此时需要对省级区划元素为空的行政区划利用行政区划字典查询得到省级区划元素非空的行政区划。
假设,行政区划D={d1,d2,d3,d4,d5},其中选取D中的一个区划元素dk,用公式(3)表示。
则用行政区划字典查询得到m个行政区划的集合:
query(wdk)=DS(wdk)
={{wd11,…,wd1k},…,{wdm1,…,wdmk}} (4)
如果,D=D1,则
d11∩d21={wd11∩d21∪…∪wdm1∩d21} (5)
b)非省级区划元素的交
当区划元素相等时,则交的结果为区划元素;
当区划元素不相等,且区划元素都不为空,则结果为空;
当区划元素不相等,且区划元素有一个为空时,如果存在非空的交父元素结果为非空区划元素值。
(2)计算一个行政区划集合的交集
一个行政区划集合DS={D1,D2,…,Dm},并且D1,D2,…,Dm的省级区划元素都不为空,则行政区划集合DS的交集为DI(D1,D2,…,Dm)。用公式(7)表示。
DI(D1,D2,…,Dm)=∩DS=∩{D1,D2,…,Dm}=D1∩D2∩…∩Dm (7)
(3)计算多个行政区划集合的交集
a)多个行政区划集合的交为多个行政区划集合分别两两相交结果的交。记为DSI。用公式(8)表示。
b)判断步骤a)中的行政区划集合的交集运算结果是否为空
①如果则造成地址的行政区划信息的丢失。为了避免行政区划信息的丢失,当时,将行政区划的交运算变成并运算。即DSI(DS1,DS2,…,DSn)→∪DSU(DS1,DS2,…,DSn),用公式(9)表示。
DSI(DS1,DS2,…,DSn)→∪DSU(DS1,DS2,…,DSn)
=∪{D11,D12,…,D1k}∪{D21,D22,…,D2l}∪…{Dn1,Dn2,…,Dnm}
=∪{D11,D12,…,D1k,D21,D22,…,D2l,…,Dn1,Dn2,…,Dnm} (9)
②如果则最终行政区划集合结果即为DSI。
S3、输出解析出的行政区划。
下面选取中文地址“福州市鼓楼区洪山园路”对本发明的具体实施过程进行说明。
S1、利用行政区划字典和移动窗口最大匹配算法(Move Window Max Match,MWMM),计算出该地址所包含的可能行政区划结果集。
输入地址“福州市鼓楼区洪山园路”,得到所有可能的行政区划结果集为:
DS1={D11}={{福建省,福州市,}}
DS3={D31}={{湖北省,武汉市,洪山区}}
S2、根据S1的MWMM得到行政区划字符串“福州市”、“鼓楼区”、“洪山
匹配得出的DS1,DS2,DS3,计算多行政区划集合的交集DSI(DS1,DS2,DS3)={{DS1∩DS2,DS1∩DS3,DS2∩DS3。分别计算DS1∩DS2,DS1∩DS3,DS2∩DS3。
DS1∩DS2={D11}∩{D21,D22,D23,D24}={{福建省,福州市,}∩{江苏省,南京市,鼓楼区},{福建省,福州市,}∩{江苏省,徐州市,鼓楼区},{福建省,福州市,}∩{福建省,福州市,鼓楼区},{福建省,福州市,}∩{河南省,开封市,鼓楼区}}={{,,},{,,},{福建省,福州市,鼓楼区},{,,}}={福建省,福州市,鼓楼区};
因为,变换为并集运算。
DS1∩DS3→DS1∪DS3={{福建省,福州市,},{湖北省,武汉市,洪山区}}
因为,变换为并集运算。即:
则有:
对{{DS1∩DS2},{DS1∪DS3},{DS2∪DS3}}的结果并运算,结果为:
S3、输出解析出的行政区划。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (1)
1.一种基于集合运算的中文地址行政区划解析方法,包括以下步骤:
1)利用行政区划字典和移动窗口最大匹配算法,查询匹配出所需解析的中文地址字符串中所有可能的行政区划结果集;
2)根据步骤1)得到的所有可能的行政区划结果集,进行条件集合运算;
行政区划条件集合运算规则如下:
一个行政区划是包括省、市、县、乡、村5级行政区划元素,并按照省、市、县、乡、村的次序组成,于是行政区划D记为:D={d1,d2,d3,d4,d5};
2.1)1个行政区划集合的交集;
一个行政区划集合DS={D1,D2,...,Dm},并且D1,D2,...,Dm的省级区划元素都不为空,则行政区划集合DS的交集为DI(D1,D2,...,Dm);用公式(1)表示:
DI(D1,D2,...,Dm)=∩DS=∩{D1,D2,...,Dm}=D1∩D2∩...∩Dm (1)
2.2)多个行政区划集合的交集;
多个行政区划集合的交为多个行政区划集合分别两两相交结果的集合,记为DSI;
用公式(2)表示:
若上述两两相交结果的集合中有运算结果为空的,则将对应的行政区划的交运算变成并运算;
步骤2)中计算行政区划的交集具体规则如下:
由于行政区划元素之间存在包含关系,即除了省级区划外,其它各级区划都属于1个或多个上级行政区划,先计算省级行政化元素的交,再计算非省级区划元素的交;
a)省级行政区划元素的交规则如下:
当省级区划元素相等时,则交的结果为该省级区划元素;
当省级区划元素不相等,且省级区划元素都不为空,则交的结果为空;
当省级区划元素不相等,且区划元素有一个为空时,此时需要对省级区划元素为空的行政区划利用行政区划字典查询得到其省级区划元素再进行计算交的结果;
b)非省级区划元素的交结果采用以下规则;
当区划元素相等时,则交的结果为区划元素;
当区划元素不相等,且区划元素都不为空,则结果为空;
当区划元素不相等,且区划元素有一个为空时,如果存在非空的交父元素,结果为非空区划元素值;
3)根据步骤2)条件集合运算的结果输出解析出的行政区划。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510980148.0A CN105677700B (zh) | 2015-12-23 | 2015-12-23 | 一种基于集合运算的中文地址行政区划解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510980148.0A CN105677700B (zh) | 2015-12-23 | 2015-12-23 | 一种基于集合运算的中文地址行政区划解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677700A CN105677700A (zh) | 2016-06-15 |
CN105677700B true CN105677700B (zh) | 2018-12-14 |
Family
ID=56189584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510980148.0A Expired - Fee Related CN105677700B (zh) | 2015-12-23 | 2015-12-23 | 一种基于集合运算的中文地址行政区划解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677700B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528526B (zh) * | 2016-10-09 | 2019-05-28 | 武汉工程大学 | 一种基于贝叶斯分词算法的中文地址语义标注方法 |
CN106709065B (zh) * | 2017-01-19 | 2020-08-04 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN108038090B (zh) * | 2017-12-26 | 2019-01-25 | 北京明朝万达科技股份有限公司 | 一种文本地址的处理方法和装置 |
CN108628811B (zh) * | 2018-04-10 | 2022-04-12 | 北京京东尚科信息技术有限公司 | 地址文本的匹配方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376636B1 (en) * | 2002-06-07 | 2008-05-20 | Oracle International Corporation | Geocoding using a relational database |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN102955833A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN104615782A (zh) * | 2015-03-02 | 2015-05-13 | 武汉工程大学 | 基于滑动窗口最大匹配算法的地址匹配方法 |
CN104657486A (zh) * | 2015-03-02 | 2015-05-27 | 武汉工程大学 | 一种基于多因子的行政区划的可信度计算的方法 |
-
2015
- 2015-12-23 CN CN201510980148.0A patent/CN105677700B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376636B1 (en) * | 2002-06-07 | 2008-05-20 | Oracle International Corporation | Geocoding using a relational database |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN102955833A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN104615782A (zh) * | 2015-03-02 | 2015-05-13 | 武汉工程大学 | 基于滑动窗口最大匹配算法的地址匹配方法 |
CN104657486A (zh) * | 2015-03-02 | 2015-05-27 | 武汉工程大学 | 一种基于多因子的行政区划的可信度计算的方法 |
Non-Patent Citations (2)
Title |
---|
"一种基于规则的模糊中文地址分词匹配方法";程昌秀等;《地理与地理信息科学》;20110515;第27卷(第3期);第26-29页 * |
"基于条件随机场的中文地址行政区划提取方法";段艳会等;《武汉工程大学学报》;20151130;第37卷(第11期);第47-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105677700A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677700B (zh) | 一种基于集合运算的中文地址行政区划解析方法 | |
US20240098157A1 (en) | System and method for automatic storyline construction based on determined breaking news | |
CA2913283C (en) | Generating a feed of content items associated with a topic from multiple content sources | |
CN108038090B (zh) | 一种文本地址的处理方法和装置 | |
US11514063B2 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
US10810242B2 (en) | Scalable and effective document summarization framework | |
US20160359790A1 (en) | System and method for determining and delivering breaking news utilizing social media | |
US10387915B2 (en) | Digital magazine recommendations by topic | |
US20170220580A1 (en) | Topic Thread Creation | |
WO2014134940A1 (en) | Method and server of group recommendation | |
CN1764916A (zh) | 用于频率计数的方法和装置 | |
CN103324645A (zh) | 一种网页推荐方法和装置 | |
CN104636371A (zh) | 信息推荐方法及设备 | |
CN102184240B (zh) | 基于移动通讯设备终端的网页页面排版方法及系统 | |
CN101916285A (zh) | 一种互联网网页内容解析方法及装置 | |
CN101976148A (zh) | 一种手写输入系统和方法 | |
CN104504135A (zh) | 推广账户结构的生成方法和装置 | |
CN103345493A (zh) | 用于移动终端上的文本内容显示的方法、装置及系统 | |
CN104778239A (zh) | 一种嵌入式浏览器焦点查询方法 | |
CN105912679A (zh) | 一种数据查询的方法和装置 | |
CN106933878A (zh) | 一种信息处理方法及装置 | |
CN104699809A (zh) | 一种优选词库的控制方法及装置 | |
CN101593171B (zh) | 一种可通过内存映射方式访问的字体文件及其访问方法 | |
CN105678584A (zh) | 一种自动匹配广告模板的方法及系统 | |
CN103514193A (zh) | 一种用于确定推广关键词的推广结果信息的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181214 Termination date: 20211223 |
|
CF01 | Termination of patent right due to non-payment of annual fee |