CN104021184B - 一种定位方法与系统 - Google Patents
一种定位方法与系统 Download PDFInfo
- Publication number
- CN104021184B CN104021184B CN201410255891.5A CN201410255891A CN104021184B CN 104021184 B CN104021184 B CN 104021184B CN 201410255891 A CN201410255891 A CN 201410255891A CN 104021184 B CN104021184 B CN 104021184B
- Authority
- CN
- China
- Prior art keywords
- packet
- integration
- character
- administrative region
- maximum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种定位方法与系统,遍历全地址,解析获得多个字符,将相同类型字符组合为相同块,再采用正向最大分词算法对块进行逐块分词,之后根据行政区域对分词进行分组,计算分组积分,选取积分最大的分组,解析该分组,获取地址实现定位。整个过程处理严谨、由字符、块、分词以及分组实现定位,并且采用正向最大分词算法、考虑不同行政区域的权重系数真实准确获取地址,不需要用户的参与,其定位准确度高、定位成功率高。
Description
技术领域
本发明涉及位置服务技术领域,特别是涉及一种定位方法与系统。
背景技术
目前市场中普遍的分词算法是基于地址位置服务的应用,主要的实现是通过关键词与字典的模糊匹配进行分词,将所有的分词结果反馈到前端由用户判断,上述方法需要前端用户的参与或者仅能应用于对定位精度要求不高的场景。
随着人们对定位服务的需求以及要求不断提高,对定位精度的要求以及定位成功率的要求也在不断提高,上述方法仅能实现简单定位,且还需要前端用户的参与,显然无法满足人们需求,无法推广应用到各个定位场景服务中。
发明内容
基于此,有必要针对现有分词定位方法定位精度低且需要前端用户参与的问题,提供一种定位精度高、定位成功率高的一种定位方法与系统。
一种定位方法,包括步骤:
解析输入全地址,获得多个字符;
识别所述多个字符的类型,将相同类型的字符合并为相同块,其中,所述字符类型包括中文字符、英文字符、数字字符和特殊字符;
采用正向最大分词算法对每个块进行逐块分词;
根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分;
选取积分最大的分组;
解析所述积分最大的分组,获得定位地址。
一种定位系统,包括:
字符获取模块,用于解析输入全地址,获得多个字符;
合并模块,用于识别所述多个字符的类型,并将相同类型的字符合并为相同块,其中,所述字符类型包括中文字符、英文字符、数字字符和特殊字符;
分词模块,用于采用正向最大分词算法对每个块进行逐块分词;
积分计算模块,用于根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分;
分组选取模块,用于选取积分最大的分组;
定位模块,用于解析所述积分最大的分组,获得定位地址。
本发明一种定位方法与系统,遍历全地址,解析获得多个字符,将相同类型字符组合为相同块,再采用正向最大分词算法对块进行逐块分词,之后根据行政区域对分词进行分组,计算分组积分,选取积分最大的分组,解析该分组,获取地址实现定位。整个过程处理严谨、由字符、块、分词以及分组实现定位,并且采用正向最大分词算法、考虑不同行政区域的权重系数真实准确获取地址,不需要用户的参与,其定位准确度高、定位成功率高。
附图说明
图1为本发明一种定位方法第一个实施例的流程示意图;
图2为本发明一种定位方法第二个实施例的流程示意图;
图3为本发明一种定位系统第一个实施例的结构示意图;
图4为本发明一种定位系统第二个实施例的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下根据附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施仅仅用以解释本发明,并不限定本发明。
如图1所示,一种定位方法,包括步骤:
S100:解析输入全地址,获得多个字符。
解析输入的全地址获得多个字符,全地址的组成可以包括汉字、英文、数字以及特出符号,具体包括哪些种类需要根据实际情况而定,解析后获得的字符类型也可以包括多种种类。
S200:识别所述多个字符的类型,并将相同类型的字符合并为相同块,其中,所述字符类型包括中文字符、英文字符、数字字符和特殊字符。
解析后获得字符类型有多种,具体来说,字符类型包括中文字符、英文字符、数字字符和特殊字符等,在这里需要识别每个字符的类型,以便在后续步骤中进行区分。逐步将相同类型的字符合并为相同的一个块,以便在后续步骤中进一步处理。
S300:采用正向最大分词算法对每个块进行逐块分词。
最大正向分词算法是一种成熟的基于中文分词解析算法,具体来说,每次取最长设定的字符串,从字典查找,如果没有,从右边减少一个字符匹配,直至完全匹配字典。字典可以理解为一个数据库。
S400:根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分。
行政区域有不同的等级,例如就我国而言行政区域为省份(直辖市)、二级行政区域为市、三级行政区域为县(区)等依次类推,在这里首先根据行政区域对分词进行分组,之后再根据行政区域预设权重系数计算各分组的积分,考虑行政区域的权重,真实准确评判各分组的积分。行政区域预设权重系数是预先设定可以根据实际应用环境的需求进行设定或者修改。
S500:选取积分最大的分组。
每个分组都计算有对应的积分,选取所有分组中积分最大的分组。
S600:解析所述积分最大的分组,获得定位地址。
解析积分最大的分组,获得该分组所指代的地址,实现精准定位。
本发明一种定位方法,遍历全地址,解析获得多个字符,将相同类型字符组合为相同块,再采用正向最大分词算法对块进行逐块分词,之后根据行政区域对分词进行分组,计算分组积分,选取积分最大的分组,解析该分组,获取地址实现定位。整个过程处理严谨、由字符、块、分词以及分组实现定位,并且采用正向最大分词算法、考虑不同行政区域的权重系数真实准确获取地址,不需要用户的参与,其定位准确度高、定位成功率高。
如图2所示,在其中一个实施例中,所述S400具体包括:
S420:根据行政区域对分词进行分组;
S440:识别每个分组中行政区域等级种类;
S460:根据分组中行政区域等级种类以及行政区域预设权重系数计算各分组的积分。
由于行政区域等级有多种,在本实施例中,对分组中行政区域等级种类进一步细化,综合考虑分组中行政区域等级种类以及行政区域预设权重系数,进一步提高了定位精度。例如,首先根据省份对分词进行分组,之后识别每个分组行政区域等级种类(市、县、镇等)最后根据省市县镇和各个行政区域预设权重系数计算各分组的积分。
如图2所示,在其中一个实施例中,所述S600具体包括步骤:
S620:按区域和城市细化所述积分最大的分组,
S640:解析细化后的积分最大的分组,获得唯一一组地址。
在本实施例中,按区域和城市进一步细化积分最大的分组,再解析细化后的最大分组获得唯一一组地址。进一步细化分组能够进一步提高定位的准确度。
在其中一个是私立中,所述选取积分最大的分组具体为:
获取积分大于或等于预设积分阈值且积分最大的分组。
在本实施例中,只有积分大于或等于预设积分阈值的分组才为有效分组,才能参与选取积分最大分组。剔除了异常分组,提高了定位准确性和定位成功率。
为了更进一步详细解释本发明一种定位方法的技术方案及其带来的效果,下面将采用实例进行说明。
将以“广东广州荔湾花海街20号”为例
1、遍历地址,解析结果[广,1],[东,1],[,1]…[2,3],[0,3],[号,1]
2、遍历解析结果分块,分块结果[广东广州荔湾花海街,1],[20,3],[号,1]
3、步骤2拆分了3个词块,设定b1=广东广州荔湾花海街,b2=20,b3=号,取b1[1]字符(广),取b1[2]字符(东),判断地址字典是否存在广,东开头的地址数据。
4、如果不存在分块索引位+1(从东开始解析)。
5、如果存在取b1[3]-b1[7]字符(广州荔湾花),从地址字典查找广东开头的所有地址,是否有“广州荔湾花”。
6、如果地址字典无“广州荔湾花”,查询位减1,取b1[3]-b1[6]字符(广州荔湾),重复5步骤。
7、如果地址字典有“广州荔湾”,则地址匹配成功,解析地址为“广东广州荔湾”,索引位+地址匹配(广州荔湾)长度,即从b1[7]开始重复执行3。(4、5、6、7为正向最大分词算法对每个块进行逐块分词的步骤详解)
8、分词解析完成后,结果为:[广东][广州][荔湾][花海街][20][号]。
9、假设对应编码分别为[101101],[101101001],[101101001001],[101101202001],[102102001001],编码设定自由规则,每个层级都有一定关联关系,方便只通过编码进行地址编码分组及层级关系。
10、针对地址编码结构特点,调用权重筛选模块.按省份分组:key11:[101101,101101001,101101001001,101101202001],key22:[102102001001],计算权重得分公式如下。K的取值为当前地址解析系统的地址最大精度(当前解析到四级地址,则k=4),U为地址编码,S为编码对应权重分值。计算总和为地址分值.
11、根据权重计算总分。key11=1+3+2=6,key22=2;获取分值最大的分组.公司如下:p=max{hi}。p即为最可能地址。
12.P内继续分组,若存在四级地址应依次按照区域/城市分组,去掉重复地址,结果为key11:[101101,101101001,101101001001]为最终结果。
13.最后转换为标准地址:广东省广州市荔湾区花海街。
如图3所示,一种定位系统,包括:
字符获取模块100,用于解析输入全地址,获得多个字符;
合并模块200,用于识别所述多个字符的类型,并将相同类型的字符合并为相同块,其中,所述字符类型包括中文字符、英文字符、数字字符和特殊字符;
分词模块300,用于采用正向最大分词算法对每个块进行逐块分词;
积分计算模块400,用于根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分;
分组选取模块500,用于选取积分最大的分组;
定位模块600,用于解析所述积分最大的分组,获得定位地址。
本发明一种定位系统,字符获取模块100遍历全地址,解析获得多个字符,合并模块200将相同类型字符组合为相同块,分词模块300采用正向最大分词算法对块进行逐块分词,积分计算模块400根据行政区域对分词进行分组,计算分组积分,分组选取模块500选取积分最大的分组,定位模块600解析该分组,获取地址实现定位。整个过程处理严谨、由字符、块、分词以及分组实现定位,并且采用正向最大分词算法、考虑不同行政区域的权重系数真实准确获取地址,不需要用户的参与,其定位准确度高、定位成功率高。
如图4所示,在其中一个实施例中,所述积分计算模块400具体包括:
分组单元420,用于根据行政区域对分词进行分组;
行政区域等级种类识别单元440,用于识别每个分组中行政区域等级种类;
计算单元460,用于根据分组中行政区域等级种类以及行政区域预设权重系数计算各分组的积分。
如图4所示,在其中一个实施例中,所述定位模块600具体包括:
细化单元620,用于按区域和城市细化所述积分最大的分组,
定位单元640,用于解析细化后的积分最大的分组,获得唯一一组地址。
在其中一个实施例中,所述分组选取模块具体用于,获取积分大于或等于预设积分阈值且积分最大的分组。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种定位方法,其特征在于,包括步骤:
解析输入全地址,获得多个字符;
识别所述多个字符的类型,逐步将相同类型的字符合并为相同块,其中,所述字符类型包括中文字符、英文字符、数字字符和特殊字符;
采用正向最大分词算法对每个块进行逐块分词;
根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分;
选取积分最大的分组;
解析所述积分最大的分组,获得定位地址。
2.根据权利要求1所述的一种定位方法,其特征在于,所述根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分具体包括步骤:
根据行政区域对分词进行分组;
识别每个分组中行政区域等级种类;
根据分组中行政区域等级种类以及行政区域预设权重系数计算各分组的积分。
3.根据权利要求1或2所述的一种定位方法,所述解析所述积分最大的分组,获得定位地址具体包括步骤:
按区域和城市细化所述积分最大的分组,
解析细化后的积分最大的分组,获得唯一一组地址。
4.根据权利要求1或2所述的一种定位方法,其特征在于,所述选取积分最大的分组具体为:
获取积分大于或等于预设积分阈值且积分最大的分组。
5.一种定位系统,其特征在于,包括:
字符获取模块,用于解析输入全地址,获得多个字符;
合并模块,用于识别所述多个字符的类型,逐步将相同类型的字符合并为相同块,其中,所述字符类型包括中文字符、英文字符、数字字符和特殊字符;
分词模块,用于采用正向最大分词算法对每个块进行逐块分词;
积分计算模块,用于根据行政区域对分词进行分组,并根据行政区域预设权重系数计算各分组的积分;
分组选取模块,用于选取积分最大的分组;
定位模块,用于解析所述积分最大的分组,获得定位地址。
6.根据权利要求5所述的一种定位系统,其特征在于,所述积分计算模块具体包括:
分组单元,用于根据行政区域对分词进行分组;
行政区域等级种类识别单元,用于识别每个分组中行政区域等级种类;
计算单元,用于根据分组中行政区域等级种类以及行政区域预设权重系数计算各分组的积分。
7.根据权利要求5或6所述的一种定位系统,所述定位模块具体包括:
细化单元,用于按区域和城市细化所述积分最大的分组,
定位单元,用于解析细化后的积分最大的分组,获得唯一一组地址。
8.根据权利要求5或6所述的一种定位系统,其特征在于,所述分组选取模块具体用于,获取积分大于或等于预设积分阈值且积分最大的分组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410255891.5A CN104021184B (zh) | 2014-06-10 | 2014-06-10 | 一种定位方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410255891.5A CN104021184B (zh) | 2014-06-10 | 2014-06-10 | 一种定位方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021184A CN104021184A (zh) | 2014-09-03 |
CN104021184B true CN104021184B (zh) | 2017-07-11 |
Family
ID=51437938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410255891.5A Active CN104021184B (zh) | 2014-06-10 | 2014-06-10 | 一种定位方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104021184B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701133B (zh) * | 2014-11-28 | 2021-03-30 | 方正国际软件(北京)有限公司 | 一种地址输入的方法和设备 |
CN108038090B (zh) * | 2017-12-26 | 2019-01-25 | 北京明朝万达科技股份有限公司 | 一种文本地址的处理方法和装置 |
CN109359174B (zh) * | 2018-09-03 | 2019-08-20 | 杭州数梦工场科技有限公司 | 行政区划归属识别方法、装置、存储介质及计算机设备 |
CN109558876B (zh) * | 2018-11-20 | 2021-11-16 | 浙江口碑网络技术有限公司 | 字符识别处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719128A (zh) * | 2009-12-31 | 2010-06-02 | 浙江工业大学 | 一种基于模糊匹配的中文地理编码确定方法 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
CN102880650A (zh) * | 2012-08-27 | 2013-01-16 | 中国工商银行股份有限公司 | 一种数据匹配方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7836047B2 (en) * | 2007-12-11 | 2010-11-16 | Pitney Bowes Inc. | Method for assignment of point level address geocodes to street networks |
-
2014
- 2014-06-10 CN CN201410255891.5A patent/CN104021184B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719128A (zh) * | 2009-12-31 | 2010-06-02 | 浙江工业大学 | 一种基于模糊匹配的中文地理编码确定方法 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
CN102880650A (zh) * | 2012-08-27 | 2013-01-16 | 中国工商银行股份有限公司 | 一种数据匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104021184A (zh) | 2014-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104021184B (zh) | 一种定位方法与系统 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN109344263B (zh) | 一种地址匹配方法 | |
CN105069056B (zh) | 基于字符串匹配的身份证住址信息解析方法及系统 | |
CN108802776B (zh) | 基于异常点剔除及轨迹压缩算法的公交gps纠偏方法 | |
CN105976604B (zh) | 一种基于gis和公交gps数据的公交线路匹配方法 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN107633227A (zh) | 一种基于csi的细粒度手势识别方法和系统 | |
CN101605126B (zh) | 一种多协议数据分类识别的方法和系统 | |
CN104778470B (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
CN108038090B (zh) | 一种文本地址的处理方法和装置 | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
CN102955833A (zh) | 一种通讯地址识别、标准化的方法 | |
CN106844786A (zh) | 一种基于文本相似度的舆情地域热点发现方法 | |
CN105677661A (zh) | 一种检测社交媒体重复数据的方法 | |
CN102622370A (zh) | 一种获取路线描述的方法及装置、电子地图服务器 | |
WO2021189977A1 (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN107145523A (zh) | 基于迭代匹配的大型异构知识库对齐方法 | |
CN103324612A (zh) | 一种分词的方法及装置 | |
CN110399613B (zh) | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 | |
CN106610937A (zh) | 一种基于信息论的中文自动分词算法 | |
CN107025232A (zh) | 物流系统中地址信息的处理方法及装置 | |
CN106155998A (zh) | 一种数据处理方法及装置 | |
CN106294861A (zh) | 面向大规模数据的情报系统中文本聚合及展现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |