CN104615782A - 基于滑动窗口最大匹配算法的地址匹配方法 - Google Patents
基于滑动窗口最大匹配算法的地址匹配方法 Download PDFInfo
- Publication number
- CN104615782A CN104615782A CN201510092653.1A CN201510092653A CN104615782A CN 104615782 A CN104615782 A CN 104615782A CN 201510092653 A CN201510092653 A CN 201510092653A CN 104615782 A CN104615782 A CN 104615782A
- Authority
- CN
- China
- Prior art keywords
- administrative division
- matching
- inquiry
- moving window
- result set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2428—Query predicate definition using graphical user interfaces, including menus and forms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Human Computer Interaction (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于滑动窗口最大匹配算法的地址匹配方法,包括以下步骤:建立行政区划表;对行政区划表建立匹配查询关系;设置滑动窗口,进行匹配查询。本发明方法将地理赋值的两个环节“地址分词”与“地址匹配”整合到了一起,即在分词的同时进行数据库匹配,实现了在分词完成的同时也查找到了所匹配的记录;通过这种方法可以有效的减少数据库的查询访问次数,从而加快匹配速度。
Description
技术领域
本发明涉及计算地址字符串中所有可能的行政区划,具体涉及基于滑动窗口最大匹配算法的地址匹配方法。
背景技术
数字城市是以空间信息为核心的城市信息系统体系,而在数字城市的信息资源的集成和融合中,地名地址匹配是一项非常关键的技术。地名地址匹配,又称为地理编码,它是基于空间定位技术的一种编码方法。
国外的地理赋值技术已基本成熟,但是对于中文地址的地理赋值方法还有待研究。一是因为中英文之间的差异,比如中文地址的词与词之间没有空格隔开等问题的存在。二是因为我国的现有地名,地址体系异常复杂,地址系统混乱、无需、缺乏规律性和统一的标准。因此,国外已有的地理赋值技术并不适合中国国情,直接套用国外的地理赋值技术是不可行的。
目前,国内各部门与学者已经陆续开展了中国地质标准化的研究,为标准地址库的建立奠定了良好的数据基础。但是普通百姓在输入其需要定位的地址时,往往输入的地址是一些模糊的中文地址。以地址“湖北武汉洪山江苏省鼓楼区办事处”为例,可能有几种不同的行政区划,如何通过算法计算出所有的行政区划,然后找出可信度最大的行政区划来进行准确的定位,是我国进入实用阶段的一个重要问题。
发明内容
针对上述现有技术中的不足,本发明的目的在于提供一种基于滑动窗口最大匹配算法的地址匹配方法,能够有效减少数据库的查询访问次数,加快匹配速度。
为了实现上述发明的目的,本发明提供了以下技术方案:一种基于滑动窗口最大匹配算法的地址匹配方法,其特征在于:它包括以下步骤:
S1、建立行政区划表:
行政区划表中包含行政区划信息,每个行政区划信息包含以下字段:序号、行政区划名称、行政区划级别,三者一一对应;
S2、对行政区划表建立匹配查询关系:
根据行政区划级别之间的隶属关系对行政区划信息建立关联性;
匹配查询:在给定一个查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配父行政区划,直到最高行政区划级别;
S3、设置滑动窗口,进行匹配查询:
3.1、读入待匹配地址字符串,设置滑动窗口的起始位置为待匹配地址字符串的第一位,截止位置为待匹配地址字符串的最后一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集;若匹配不成功,则进行下一步;
3.2、滑动窗口的起始位置不变,将滑动窗口的截止位置向前移一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集,将滑动窗口的起始位置设置为剩余字符串的开始,截止位置设置为剩余字符串的最后一位,继续进行匹配查询,直至截止位置减去起始位置的值小于2,进行下一步;若匹配不成功,则返回本步骤开始,继续进行匹配查询;
3.3、将滑动窗口的起始位置向后移一位,截止位置为待匹配地址字符串的最后一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集;若匹配不成功,则返回本步骤开始,继续进行匹配查询,直至截止位置减去起始位置的值小于2,结束匹配查询。
按上述方案,所述的匹配查询包括完全匹配查询和部分匹配查询,若查询字符串包含行政区划特征词则进行完全匹配查询,否则进行部分匹配查询;
完全匹配查询:在给定一个包含行政区划特征词的查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配父行政区划,直到最高行政区划级别;
部分匹配查询:在给定一个不含行政区划特征词的查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配的父行政区划,直到最高行政区划级别;
其中行政区划隶属于与该行政区划匹配的父行政区划;行政区划结果集包含所有可能的行政区划的集合。
本发明的有益效果为:
1、将地理赋值的两个环节“地址分词”与“地址匹配”整合到了一起,即在分词的同时进行数据库匹配,实现了在分词完成的同时也查找到了所匹配的记录;通过这种方法可以有效的减少数据库的查询访问次数,从而加快匹配速度。
2、该算法通过移动窗口最大匹配算法,截取字符串中的字符对行政区划表进行完全匹配查询或部分查询匹配,返回对应的行政区划结果集,包含与该行政区划匹配父行政区划,直到省级。
具体实施方式
下面结合具体实例对本发明作进一步说明。
本发明提供一种基于滑动窗口最大匹配算法的地址匹配方法,对于以自然语言形式表示的地址信息,建立用于地址匹配的语义库或知识库,然后根据地址数据表达的语义特点,建立地址的匹配规则,通过适当的匹配算法计算出所有可能的行政区划。具体包括以下步骤:
S1、建立行政区划表:
行政区划表中包含行政区划信息,每个行政区划信息包含以下字段:序号、行政区划名称、行政区划级别,三者一一对应;
S2、对行政区划表建立匹配查询关系:
根据行政区划级别之间的隶属关系对行政区划信息建立关联性;
匹配查询:在给定一个查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配父行政区划,直到最高行政区划级别;
S3、设置滑动窗口,进行匹配查询:
3.1、读入待匹配地址字符串,设置滑动窗口的起始位置为待匹配地址字符串的第一位,截止位置为待匹配地址字符串的最后一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集;若匹配不成功,则进行下一步;
3.2、滑动窗口的起始位置不变,将滑动窗口的截止位置向前移一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集,将滑动窗口的起始位置设置为剩余字符串的开始,截止位置设置为剩余字符串的最后一位,继续进行匹配查询,直至截止位置减去起始位置的值小于2,进行下一步;若匹配不成功,则返回本步骤开始,继续进行匹配查询;
3.3、将滑动窗口的起始位置向后移一位,截止位置为待匹配地址字符串的最后一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集;若匹配不成功,则返回本步骤开始,继续进行匹配查询,直至截止位置减去起始位置的值小于2,结束匹配查询。
输入的待匹配地址字符串有可能缺少行政区划特征词(例如省、地区、县、市、区、自治州等),为了更好的进行匹配查询,优选的,所述的匹配查询包括完全匹配查询和部分匹配查询,若查询字符串包含行政区划特征词则进行完全匹配查询,否则进行部分匹配查询;
完全匹配查询:在给定一个包含行政区划特征词的查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配父行政区划,直到最高行政区划级别;
部分匹配查询:在给定一个不含行政区划特征词的查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配的父行政区划,直到最高行政区划级别;
其中行政区划隶属于与该行政区划匹配的父行政区划;行政区划结果集包含所有可能的行政区划的集合。
这里选取中文地址“中山东港新区金广东海岸滨城国际俱乐部”对本发明的具体实施过程进行说明。
首先对该地址进行分析,其中该地址存在一下几方面的问题:1)该地址的行政区划部分是不完整的,并且行政区划是没有规律的;2)该地址不是按照省、地市、县的规则形成的,无法按照一般的分词算法匹配出正确的行政区划;3)地址中存在要素残缺,没有邮政编码和电话区号,无法推测出完整的地址。由此可见,该地址存在语义残缺与地址要素残缺等地址中常见的模糊问题,很具有代表性。下面就以上述地址为例,详细说明本发明的具体实施过程。
取整个待匹配地址字符串 “中山东港新区金广东海岸滨城国际俱乐部”,设置滑动窗口的起始位置为“中”,截止位置为“部”,对行政区划表进行匹配,此时匹配失败,则修改窗口的截止位置,截止位置向前移动一位字符,即“乐”;然后取窗口中的字符串组成查询字符串去匹配行政区划,此时仍然匹配失败,继续修改窗口的截止位置,直到截止位置减去起始位置的值小于2,此时字符串“中山”可以进行部分查询匹配,返回的行政区划结果为“广东省,中山市”。
把剩余字符串“东港新区金广东海岸滨城国际俱乐部”按照上述步骤继续进行匹配,能够进行匹配的字符串为“东港”,此时返回的行政区划结果为“辽宁省,丹东市,东港市”、“山东省,日照市,东港区”。
继续将剩余字符串进行匹配,最后得到所有可能的行政区划结果集为“广东省,中山市”、“辽宁省,大连市,中山区”、“广东省”、“山东省,滨州市,滨城区”。
根据最终匹配的结果,用移动窗口最大匹配算法对中文地址“中山东港新区金广东海岸滨城国际俱乐部”进行匹配,得出所有可能的行政区划结果集为:a)广东省,中山市;b)辽宁省,大连市,中山区;c)辽宁省,丹东市,东港市;d)山东省,日照市,东港区;e)广东省;f)山东省,滨州市,滨城区。
同样,用移动窗口最大匹配算法对中文地址“湖北武汉洪山江苏省鼓楼区办事处”进行匹配,得出所有可能的行政区划结果集为:a)湖北省;b)湖北省,武汉市;c)湖北省,武汉市,洪山区;d)江苏省;e)江苏省,南京市,鼓楼区;f)江苏省,徐州市,鼓楼区;g)福建省,福州市,鼓楼区;h)河南省,开封市,鼓楼区。
利用本发明方法,能够在将待匹配地址字符串分词的同时,获得所有可能的行政区划结果集,有效减少数据库的查询访问次数,加快匹配速度。至于行政区划结果集中的行政区划哪个更可信,可以依赖于其它的算法进行。
最后应说明的是:显然,上述实例仅仅是为清楚地说明本申请所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出显而易见的变化或变动仍处于本申请型的保护范围之中。
Claims (2)
1.一种基于滑动窗口最大匹配算法的地址匹配方法,其特征在于:它包括以下步骤:
S1、建立行政区划表:
行政区划表中包含行政区划信息,每个行政区划信息包含以下字段:序号、行政区划名称、行政区划级别,三者一一对应;
S2、对行政区划表建立匹配查询关系:
根据行政区划级别之间的隶属关系对行政区划信息建立关联性;
匹配查询:在给定一个查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配父行政区划,直到最高行政区划级别;
S3、设置滑动窗口,进行匹配查询:
3.1、读入待匹配地址字符串,设置滑动窗口的起始位置为待匹配地址字符串的第一位,截止位置为待匹配地址字符串的最后一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集;若匹配不成功,则进行下一步;
3.2、滑动窗口的起始位置不变,将滑动窗口的截止位置向前移一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集,将滑动窗口的起始位置设置为剩余字符串的开始,截止位置设置为剩余字符串的最后一位,继续进行匹配查询,直至截止位置减去起始位置的值小于2,进行下一步;若匹配不成功,则返回本步骤开始,继续进行匹配查询;
3.3、将滑动窗口的起始位置向后移一位,截止位置为待匹配地址字符串的最后一位,取滑动窗口中的字符组成查询字符串,进行匹配查询;若匹配成功,则输出对应的行政区划结果集;若匹配不成功,则返回本步骤开始,继续进行匹配查询,直至截止位置减去起始位置的值小于2,结束匹配查询。
2.根据权利要求1所述的基于滑动窗口最大匹配算法的地址匹配方法,其特征在于:所述的匹配查询包括完全匹配查询和部分匹配查询,若查询字符串包含行政区划特征词则进行完全匹配查询,否则进行部分匹配查询;
完全匹配查询:在给定一个包含行政区划特征词的查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配父行政区划,直到最高行政区划级别;
部分匹配查询:在给定一个不含行政区划特征词的查询字符串时,根据上述关联性输出对应的行政区划结果集,行政区划结果集包含与该行政区划匹配的父行政区划,直到最高行政区划级别;
其中行政区划隶属于与该行政区划匹配的父行政区划;行政区划结果集包含所有可能的行政区划的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510092653.1A CN104615782B (zh) | 2015-03-02 | 2015-03-02 | 基于滑动窗口最大匹配算法的地址匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510092653.1A CN104615782B (zh) | 2015-03-02 | 2015-03-02 | 基于滑动窗口最大匹配算法的地址匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615782A true CN104615782A (zh) | 2015-05-13 |
CN104615782B CN104615782B (zh) | 2017-10-10 |
Family
ID=53150224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510092653.1A Expired - Fee Related CN104615782B (zh) | 2015-03-02 | 2015-03-02 | 基于滑动窗口最大匹配算法的地址匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615782B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677700A (zh) * | 2015-12-23 | 2016-06-15 | 武汉工程大学 | 一种基于集合运算的中文地址行政区划解析方法 |
CN106709065A (zh) * | 2017-01-19 | 2017-05-24 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN108428187A (zh) * | 2017-12-21 | 2018-08-21 | 中国平安人寿保险股份有限公司 | 地址匹配方法、装置及存储介质 |
CN112069303A (zh) * | 2020-09-17 | 2020-12-11 | 四川长虹电器股份有限公司 | 字符串的匹配查找方法、装置及终端 |
CN116701561A (zh) * | 2023-06-09 | 2023-09-05 | 读书郎教育科技有限公司 | 与词典笔匹配的学习资源搜集方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN101350012B (zh) * | 2007-07-18 | 2013-01-16 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
US20130275466A1 (en) * | 2010-12-31 | 2013-10-17 | Yan Xiao | Retrieval method and system |
CN103853738A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
-
2015
- 2015-03-02 CN CN201510092653.1A patent/CN104615782B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012B (zh) * | 2007-07-18 | 2013-01-16 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
US20130275466A1 (en) * | 2010-12-31 | 2013-10-17 | Yan Xiao | Retrieval method and system |
CN103853738A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
Non-Patent Citations (1)
Title |
---|
郭文龙: "《基于SNM算法的大数据量中文地址清洗方法》", 《计算机工程与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677700A (zh) * | 2015-12-23 | 2016-06-15 | 武汉工程大学 | 一种基于集合运算的中文地址行政区划解析方法 |
CN105677700B (zh) * | 2015-12-23 | 2018-12-14 | 武汉工程大学 | 一种基于集合运算的中文地址行政区划解析方法 |
CN106709065A (zh) * | 2017-01-19 | 2017-05-24 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN106709065B (zh) * | 2017-01-19 | 2020-08-04 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN108428187A (zh) * | 2017-12-21 | 2018-08-21 | 中国平安人寿保险股份有限公司 | 地址匹配方法、装置及存储介质 |
CN112069303A (zh) * | 2020-09-17 | 2020-12-11 | 四川长虹电器股份有限公司 | 字符串的匹配查找方法、装置及终端 |
CN116701561A (zh) * | 2023-06-09 | 2023-09-05 | 读书郎教育科技有限公司 | 与词典笔匹配的学习资源搜集方法及其系统 |
CN116701561B (zh) * | 2023-06-09 | 2024-04-26 | 读书郎教育科技有限公司 | 与词典笔匹配的学习资源搜集方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104615782B (zh) | 2017-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615782A (zh) | 基于滑动窗口最大匹配算法的地址匹配方法 | |
CN106156082B (zh) | 一种本体对齐方法及装置 | |
CN109033086A (zh) | 一种地址解析、匹配的方法及装置 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN105653700A (zh) | 视频检索方法及系统 | |
CN108287843A (zh) | 一种兴趣点信息检索的方法和装置、及导航设备 | |
CN107092659A (zh) | 一种通用的树形结构存储解析方法 | |
CN103810192A (zh) | 一种用户的兴趣推荐方法和装置 | |
CN105260354A (zh) | 一种基于关键词字典树构造的中文ac自动机工作方法 | |
CN105930493A (zh) | 一种不同数据库间数据同步的方法和系统 | |
CN106326303A (zh) | 一种口语语义解析系统及方法 | |
CN103605752A (zh) | 一种基于语义识别的地址匹配方法 | |
CN101727502A (zh) | 一种数据查询方法及装置、系统 | |
CN107665217A (zh) | 一种用于搜索业务的词汇处理方法及系统 | |
CN107766433A (zh) | 一种基于Geo‑BTree的范围查询方法及装置 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN106021556A (zh) | 地址信息处理方法及装置 | |
CN104391908A (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN109165331A (zh) | 一种英文地名的索引建立方法及其查询方法和装置 | |
CN105893601B (zh) | 一种数据对比方法 | |
CN102314464A (zh) | 歌词搜索方法及搜索引擎 | |
CN107608981A (zh) | 基于正则表达式的字符匹配方法及系统 | |
CN104008205A (zh) | 一种内容路由的查询方法及系统 | |
CN111984673B (zh) | 一种电网电能量计量系统树形结构模糊检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171010 Termination date: 20200302 |
|
CF01 | Termination of patent right due to non-payment of annual fee |