CN109165273A - 一种面向大数据环境的通用中文地址匹配方法 - Google Patents

一种面向大数据环境的通用中文地址匹配方法 Download PDF

Info

Publication number
CN109165273A
CN109165273A CN201810970921.9A CN201810970921A CN109165273A CN 109165273 A CN109165273 A CN 109165273A CN 201810970921 A CN201810970921 A CN 201810970921A CN 109165273 A CN109165273 A CN 109165273A
Authority
CN
China
Prior art keywords
address
matching
value
information
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810970921.9A
Other languages
English (en)
Other versions
CN109165273B (zh
Inventor
水新莹
张宇光
黄亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Xunfei Intelligent Technology Co ltd
Original Assignee
Anhui Xunfei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Xunfei Intelligent Technology Co ltd filed Critical Anhui Xunfei Intelligent Technology Co ltd
Priority to CN201810970921.9A priority Critical patent/CN109165273B/zh
Publication of CN109165273A publication Critical patent/CN109165273A/zh
Application granted granted Critical
Publication of CN109165273B publication Critical patent/CN109165273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种面向大数据环境的通用中文地址匹配方法,包括S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key‑value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key‑value形式转换,建立基于key‑value的多种距离匹配模型并由此计算综合匹配度,据此对目标地址进行排序;S5、综合匹配度最大值是否大于给定阈值参数,并由此给出匹配结果。本发明将单条地址的匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。

Description

一种面向大数据环境的通用中文地址匹配方法
技术领域
本发明涉及大数据和智慧城市领域,具体涉及一种面向大数据环境的通用中文地址匹配方法。
背景技术
社区网格化的提出是建立智慧社区的重要基石,地址匹配技术在建立统一、便捷的社区一体化服务过程中起着至关重要的作用。地址匹配技术是将一条文字描述的地址信息与目标数据库中的地理坐标或地址信息进行映射的过程,对用户输入的地址信息,按照一定的切词、匹配算法,在地理编码数据库中进行查找匹配,根据匹配结果标记相应的空间坐标。
由于中文地址富含了大量语义信息,在处理过程中更为复杂。从中文地址要素分词解析来看,基于机械分词、统计分词和自然语言分词的地址匹配算法是当前主要的中文地址匹配方案。机械分词主要基于数据库中的字典对中文地址进行分词匹配。在匹配顺序上分为正向和逆向匹配,基于分词顺序依次找出匹配度最大的词;而逆向匹配是中文地址处理中的较为常用的匹配方法;统计分词主要研究上下文信息,如两个中文字符同时出现频率较高,则可以推断其构成一个词的概率高;而基于自然语言分词的地址匹配算法,由于中文地址包含了丰富的语义信息,同一地址可能存在多种表述形式,因此,结合语义信息进行地址要素解析能够有效提高匹配精确。
上述匹配算法在大数据规模中文地址匹配场景下,算法的执行效率和地址的匹配精确度普遍较差,大多数算法对匹配精确度更为关注,忽略了当前地址大数据环境下,地址信息中富含的海量、多样以及异构等特性,匹配效率较低,单条地址信息匹配需要1min左右。
发明内容
本发明的目的在于提供一种面向大数据环境的通用中文地址匹配方法,解决现有技术对中文地址处理效率、匹配率以及匹配度上的性能普遍较差的缺陷。
所述的面向大数据环境的通用中文地址匹配方法,包括以下步骤:
S1、数据预处理;
S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;
S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;
S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;
S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。
优选的,所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。
优选的,所述步骤S1具体包括下列步骤:
步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,修正乱码或重复字符;
步骤二、数字或字母信息预处理,地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写;
步骤三、正则提取出中文、字母和数字信息,添加分隔符完成提取分离。
优选的,所述步骤S2具体包括下列步骤:
步骤一、行政要素解析,行政要素包括国家、城市和行政区县;
步骤二、基本约束信息解析,基本约束信息包括街道、集镇、工业区和自然村;
步骤三、位置信息解析,位置信息包括建筑物信息和门牌号。
优选的,所述步骤S3中距离包括:
覆盖距离,即有限元素组成的有序集合之间,相同元素与长度较短集合的集合长度比值;
匹配距离,即有限元素组成的有序集合,从第一个元素进行对应匹配,直至匹配到元素不相等时的距离长度与较短集合的长度比值。
优选的,所述步骤S3中距离计算公式如下:
覆盖距离计算公式,若采用A,B分别表示有限元素集合,|A|,|B|分别表示A和B的集合长度,A∩B表示进行集合交集操作,则覆盖距离可采用下式表示:
匹配距离计算公式,对于上述集合A,B,A∧B表示从一个元素起进行连续匹配操作,则该距离可表示为:
优选的,所述步骤S4的具体步骤如下:
步骤一、将分离出的字母和数字信息进行倒排,即按照门牌号-单元号-楼栋号-小区号进行倒排,然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值,Value值即为解析的中文地址要素;
步骤二、根据上述设计的key-value数据库,对于目标地址,在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选;
步骤三、根据定义的距离计算公式循环计算待匹配地址与筛选出的目标地址之间的多种距离,若给定的覆盖距离和匹配距离的权重为α和β,则最终计算的综合匹配度如下所示:
inte_md=α*cd+β*md
步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序。
优选的,获取综合匹配度排序最高的目标地址作为最终的待选匹配地址,同时给定参数p,若综合匹配度小于p则说明该地址匹配度较低,结果为目标地址库无匹配项,否则接受排序最高的目标地址作为最终的待选匹配地址,完成地址匹配过程。
本发明的优点在于:将中文字符串、数字与字母分别进行地址要素解析,将地址信息重新组织构成适应于大数据环境下的key-value形式的地址记录,将转换后的地址记录存储于Hbase数据库中,设计了多种距离信息构成的地址匹配算法,该算法效率比传统算法将单条地址匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。
附图说明
图1为本发明一种面向大数据环境的通用中文地址匹配方法的整体流程图;
图2为本发明实施例中文地址结构解析的示意图;
图3为本发明中基于key-value的多种距离匹配模型进行匹配计算的流程图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
通常,地址要素解析难以同时满足语义解析、解析效率、解析准确性等要求。考虑到中文地址复杂的语义特性,录入方式的多样化使得同一地址的表现形式复杂多样。下文结合中文地址的语义特性进行解析,并提出了中文字符、数字及字母分离的解析方法,降低了智能推理匹配的计算规模。首先基于已有的成熟的语义分词框架进行地址要素解析,解析对应结果入字典库。由于数字信息在地址中所占的信息量比重较大,通过初步模糊匹配得出预处理结果集,从而降低了数据处理规模。
如图1-3所示,本发明提供了一种面向大数据环境的通用中文地址匹配方法,包括以下步骤:
(1)数据预处理。数据预处理过程主要包括三方面:一、完成基本的脏数据处理,如解决修正地址字符串中的乱码或重复字符;二、将地址信息中门牌信息中的中文数字信息统一转换为阿拉伯数字,字母信息统一转换为大写,为匹配算法提供规范文本;三、通过正则表达式等方式完成对地址信息的中文、数字和字母的提取分离。
(2)中文地址要素解析,标准地址一般由行政区划要素、基本约束信息和位置信息组成,行政要素的组成部分主要是国家、城市和行政区县,而基本约束信息是从街道、集镇、工业区或自然村进行表述,最后,位置信息主要是包含数字或字母信息的建筑物编号、门牌号或标志物。该步骤进行解析主要是行政要素和基本约束信息,位置信息的解析则通过前一步中数字与字母信息分离完成提取。
(3)定义多种与中文地址匹配相关的距离及其计算公式,在解决中文地址要素匹配时,需要从已分离出的多种要素之间设计不同的距离计算方式,给出了适用于中文字符串和数字、字母信息的覆盖距离和匹配距离定义。其中相似度距离用于分析两段文字或个体间的差异大小,评判是否相同或同属一类。相似度计算方式可采用如欧式距离度量和皮尔逊相似度,适用于对数据进行分类,若采用A,B分别表示有限元素集合,主要分为:覆盖距离,即有限元素组成的有序集合之间,相同元素与长度较短集合的集合长度比值;匹配距离是有限元素组成的有序集合,从第一个元素进行对应匹配,直至匹配到元素不相等时的距离长度与较短集合的长度比值。
(4)建立基于key-value的多种距离匹配模型。对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。并由此建立基于key-value的数据库,对于预处理后的地址匹配问题,在目标数据库搜索阶段,基于key值进行过滤搜索,有效缩小了目标地址集合,然后循环计算待匹配地址与目标地址之间的多种距离,进一步计算综合匹配度并排序。
(5)根据排序结果获取综合匹配度最高的目标地址,判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。
为了更清晰地描述上述发明的实施步骤,下面结合实例进一步说明,若给出了一个示例虚拟地址“安徽省芜湖市弋%江区柏庄春暖花开a区区88幢十一单元703室”为待匹配地址。则匹配方法的具体步骤如下:
(1)数据预处理,主要包含以下三个步骤:
步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,如示例地址清洗后转换为“安徽省芜湖市弋江区柏庄春暖花开a区88幢十一单元703室”;
步骤二、数字或字母信息预处理,将地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写,示例地址处理后为“安徽省芜湖市弋江区柏庄春暖花开A区88幢11单元703室”;
步骤三、正则提取出中文、字母和数字信息,添加分隔符完成提取分离。步骤二处理的地址信息提取后,中文地址串为“安徽省芜湖市弋江区柏庄春暖花开”,数字和字母串为“A-88-11-703”。
(2)中文地址要素解析。主要包括以下三个步骤:
步骤一、行政要素解析,主要包括国家、城市和行政区县,如示例地址中省市可解析为安徽省芜湖市,县区解析为弋江区;
步骤二、基本约束信息解析,主要包括街道、集镇、工业区或自然村,示例地址中街道委员会解析为空,用NULL表示,小区、村镇解析为柏庄春暖花开;
步骤三、位置信息解析,主要是建筑物、门牌号,示例地址中解析为88幢11单元703室;附图2中给出了该中文地址要素的结构解析示意图。
(3)定义多种与中文地址匹配相关的距离及其计算公式,根据定义的多种相关距离,从已分离出的多种要素之间设计不同的距离计算公式,本实施例中时计算中文字符串和数字、字母信息的覆盖距离和匹配距离。
步骤一、计算覆盖距离,若采用A,B分别表示有限元素集合,|A|、|B|分别表示A和B的集合长度,A∩B表示进行集合交集操作,则覆盖距离可采用下式表示:
步骤二、计算匹配距离,对于上述集合A、B,A∧B表示从一个元素起进行连续匹配操作,则该距离可表示为:
(4)建立基于key-value的多种距离匹配模型。主要包括以下步骤:
步骤一、将分离出的字母和数字信息进行倒排,即按照门牌号-单元号-楼栋号-小区号进行倒排,例如示例地址处理后为“703-11-88-A”,然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值,即“703-11-88-A-timestamp”,其中timestamp为时间戳,Value值即为解析的中文地址要素;
步骤二、根据上述步骤设计的key-value数据库,对于示例的目标地址,在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选;
步骤三、根据之前定义的距离及其计算公式循环计算示例地址与筛选后各目标地址之间的多种距离,即覆盖距离和匹配距离。若给定覆盖距离和匹配距离的权重分别为α和β,则最终的综合匹配度计算公式如下所示:
inte_md=α*cd+β*md;
步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序;
(5)获取排序最高的目标地址作为最终的待选匹配地址,同时给定参数p,与待选匹配地址的综合匹配度inte_md比较,若inte_md<p则说明待选匹配地址匹配度较低,即目标地址库中无相应的匹配项,输出无匹配项的结果;否则接受综合匹配度inte_md最高的待选匹配地址作为最终的匹配结果输出,至此,完成示例地址的匹配过程。
上述算法效率相比于传统算法,将单条地址的匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。

Claims (8)

1.一种面向大数据环境的通用中文地址匹配方法,其特征在于:包括如下步骤:
S1、数据预处理;
S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;
S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;
S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;
S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。
2.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。
3.根据权利要求1或2所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S1具体包括下列步骤:
步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,修正乱码或重复字符;
步骤二、数字或字母信息预处理,地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写;
步骤三、正则提取出中文、字母和数字信息,添加分隔符完成提取分离。
4.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S2具体包括下列步骤:
步骤一、行政要素解析,行政要素包括国家、城市和行政区县;
步骤二、基本约束信息解析,基本约束信息包括街道、集镇、工业区和自然村;
步骤三、位置信息解析,位置信息包括建筑物信息和门牌号。
5.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S3中距离包括:
覆盖距离,即有限元素组成的有序集合之间,相同元素与长度较短集合的集合长度比值;
匹配距离,即有限元素组成的有序集合,从第一个元素进行对应匹配,直至匹配到元素不相等时的距离长度与较短集合的长度比值。
6.根据权利要求5所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S3中距离计算公式如下:
覆盖距离计算公式,若采用A,B分别表示有限元素集合,|A|,|B|分别表示A和B的集合长度,A∩B表示进行集合交集操作,则覆盖距离可采用下式表示:
匹配距离计算公式,对于上述集合A,B,A∧B表示从一个元素起进行连续匹配操作,则该距离可表示为:
7.根据权利要求2所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S4的具体步骤如下:
步骤一、将分离出的字母和数字信息进行倒排,即按照门牌号-单元号-楼栋号-小区号进行倒排,然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值,Value值即为解析的中文地址要素;
步骤二、根据上述设计的key-value数据库,对于目标地址,在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选;
步骤三、根据定义的距离计算公式循环计算待匹配地址与筛选出的目标地址之间的多种距离,若给定的覆盖距离和匹配距离的权重为α和β,则最终计算的综合匹配度如下所示:
inte_md=α*cd+β*md;
步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序。
8.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:获取综合匹配度排序最高的目标地址作为最终的待选匹配地址,同时给定参数p,若综合匹配度小于p则说明该地址匹配度较低,结果为目标地址库无匹配项,否则接受排序最高的目标地址作为最终的待选匹配地址,完成地址匹配过程。
CN201810970921.9A 2018-08-24 2018-08-24 一种面向大数据环境的通用中文地址匹配方法 Active CN109165273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810970921.9A CN109165273B (zh) 2018-08-24 2018-08-24 一种面向大数据环境的通用中文地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810970921.9A CN109165273B (zh) 2018-08-24 2018-08-24 一种面向大数据环境的通用中文地址匹配方法

Publications (2)

Publication Number Publication Date
CN109165273A true CN109165273A (zh) 2019-01-08
CN109165273B CN109165273B (zh) 2021-10-26

Family

ID=64896629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810970921.9A Active CN109165273B (zh) 2018-08-24 2018-08-24 一种面向大数据环境的通用中文地址匹配方法

Country Status (1)

Country Link
CN (1) CN109165273B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871422A (zh) * 2019-01-24 2019-06-11 杭州志远科技有限公司 一种地理信息系统的地址自动分析匹配系统
CN111914241A (zh) * 2020-08-06 2020-11-10 上海熙菱信息技术有限公司 一种动态识别非结构化对象身份信息的方法
CN112732779A (zh) * 2020-12-29 2021-04-30 合肥市智享亿云信息科技有限公司 一种基于地点poi的大数据解析地址文本的方法
CN112800778A (zh) * 2021-02-07 2021-05-14 北京智通云联科技有限公司 一种基于词串长度的意图识别方法、系统及存储介质
CN113190596A (zh) * 2021-04-22 2021-07-30 华中科技大学 一种地名地址混合匹配的方法和装置
CN113568951A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种数据挖掘、处理方法和装置,存储介质和电子设备
CN114168705A (zh) * 2021-12-03 2022-03-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102646032A (zh) * 2012-04-16 2012-08-22 杭州海康威视数字技术股份有限公司 一种分布式屏幕拼接控制系统及控制方法
CN102945026A (zh) * 2012-10-24 2013-02-27 青岛海信宽带多媒体技术有限公司 控制示波器的方法及系统
JP2015102987A (ja) * 2013-11-25 2015-06-04 日本電信電話株式会社 地名推定方法、地名推定装置及び地名推定プログラム
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN105095205A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 地址定位方法及装置
CN105468632A (zh) * 2014-09-05 2016-04-06 高德软件有限公司 一种地理编码方法及装置
WO2017012200A1 (zh) * 2015-07-18 2017-01-26 深圳市前海颐老科技有限公司 基于电子诊疗单的诊疗机构识别方法和网络医院平台
CN106663380A (zh) * 2014-07-31 2017-05-10 埃米特·法里斯 用于控制无人机递送的系统及方法
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102646032A (zh) * 2012-04-16 2012-08-22 杭州海康威视数字技术股份有限公司 一种分布式屏幕拼接控制系统及控制方法
CN102945026A (zh) * 2012-10-24 2013-02-27 青岛海信宽带多媒体技术有限公司 控制示波器的方法及系统
JP2015102987A (ja) * 2013-11-25 2015-06-04 日本電信電話株式会社 地名推定方法、地名推定装置及び地名推定プログラム
CN105095205A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 地址定位方法及装置
CN106663380A (zh) * 2014-07-31 2017-05-10 埃米特·法里斯 用于控制无人机递送的系统及方法
CN105468632A (zh) * 2014-09-05 2016-04-06 高德软件有限公司 一种地理编码方法及装置
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
WO2017012200A1 (zh) * 2015-07-18 2017-01-26 深圳市前海颐老科技有限公司 基于电子诊疗单的诊疗机构识别方法和网络医院平台
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王勇等: "顾及位置关系的网络POI地址信息标准化处理方法", 《测绘学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871422A (zh) * 2019-01-24 2019-06-11 杭州志远科技有限公司 一种地理信息系统的地址自动分析匹配系统
CN111914241A (zh) * 2020-08-06 2020-11-10 上海熙菱信息技术有限公司 一种动态识别非结构化对象身份信息的方法
CN111914241B (zh) * 2020-08-06 2024-01-30 上海熙菱信息技术有限公司 一种动态识别非结构化对象身份信息的方法
CN112732779A (zh) * 2020-12-29 2021-04-30 合肥市智享亿云信息科技有限公司 一种基于地点poi的大数据解析地址文本的方法
CN112800778A (zh) * 2021-02-07 2021-05-14 北京智通云联科技有限公司 一种基于词串长度的意图识别方法、系统及存储介质
CN112800778B (zh) * 2021-02-07 2023-07-18 北京智通云联科技有限公司 一种基于词串长度的意图识别方法、系统及存储介质
CN113190596A (zh) * 2021-04-22 2021-07-30 华中科技大学 一种地名地址混合匹配的方法和装置
CN113568951A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种数据挖掘、处理方法和装置,存储介质和电子设备
CN114168705A (zh) * 2021-12-03 2022-03-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法
CN114168705B (zh) * 2021-12-03 2022-11-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法

Also Published As

Publication number Publication date
CN109165273B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN109165273A (zh) 一种面向大数据环境的通用中文地址匹配方法
CN101093478B (zh) 一种根据实体的汉语简称识别汉语全称的方法及系统
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN100405371C (zh) 一种提取新词的方法和系统
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN111353030A (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN108287858A (zh) 自然语言的语义提取方法及装置
CN107153713A (zh) 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN109359200A (zh) 地名地址数据智能解析系统
CN105224622A (zh) 面向互联网的地名地址提取与标准化方法
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103235774A (zh) 一种科技项目申请书特征词提取方法
CN109145073A (zh) 一种基于分词算法的地址解析方法及装置
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104346438A (zh) 基于大数据数据管理服务系统
CN110502640A (zh) 一种基于建构的概念词义发展脉络的提取方法
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN108595582A (zh) 一种基于社会信号的灾害性气象热点事件识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 241000 room 01, 18 / F, iFLYTEK intelligent building, No. 9, Wenjin West Road, Yijiang District, Wuhu City, Anhui Province

Patentee after: ANHUI XUNFEI INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 241000 Floor 9, block A1, Wanjiang Fortune Plaza, Jiujiang District, Wuhu City, Anhui Province

Patentee before: ANHUI XUNFEI INTELLIGENT TECHNOLOGY Co.,Ltd.