CN107423295A - 一种海量地址数据智能快速匹配方法 - Google Patents

一种海量地址数据智能快速匹配方法 Download PDF

Info

Publication number
CN107423295A
CN107423295A CN201610342418.XA CN201610342418A CN107423295A CN 107423295 A CN107423295 A CN 107423295A CN 201610342418 A CN201610342418 A CN 201610342418A CN 107423295 A CN107423295 A CN 107423295A
Authority
CN
China
Prior art keywords
address
matching
name element
space left
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610342418.XA
Other languages
English (en)
Inventor
张向利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610342418.XA priority Critical patent/CN107423295A/zh
Publication of CN107423295A publication Critical patent/CN107423295A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种针对海量地址数据进行快速智能匹配的方法。此方法采用机器学习技术自动学习地址元素信息、地址元素关系信息,并且在进行海量地址数据匹配过程中积累经验值,调整地址元素和地址元素关系优先使用级别,优化匹配算法;利用散列表直接访问数据的特性,与树形结构相结合,对地址元素名称进行重新组织存放,实现智能快速地址匹配的目的;针对街道、小区和乡镇三种不同的地址类型制定不同的匹配策略;引入提取剩余地址信息特征码方法,提炼未匹配剩余地址信息的关键信息,进行模糊匹配处理。

Description

一种海量地址数据智能快速匹配方法
技术领域
本发明涉及地址匹配识别技术领域,尤其涉及地址元素信息机器自动学习,以及地址快速、智能匹配识别的方法。
背景技术
现在地址匹配技术需要一个庞大的标准地址库作为参照,把待匹配地址与标准地址库进行对照,得出相应的标准地址,完成地址匹配。此种匹配技术存在的问题:首先,标准地址数据库是按照人为规定的一套规则标准建立而来,全国的地址情况五花八门,需要制定一套非常复杂的规则标准,而且规则标准不可能兼顾所有情况;其次,标准地址数据库需要人工采集并收录到数据库中,采集人员需要对规则标准进行主观理解,主观理解的差异性是确定存在的,因此采集的地址数据不可能完全执行统一的规则标准,造成了标准地址库不标准;另外,标准地址与人们书写使用地址之间存在差异,难以做到精确地址匹配。
采用标准地址参照库的匹配技术存在两个无法回避的问题:第一,需要使匹配算法能够识别和处理没有按照规则采集的标准地址数据,并加以纠正;第二,标准地址与人们书写地址习惯存在差异,匹配算法需要处理或适应两者的差异性。以上两个问题是制约匹配准确率和成功率关键因素。
标准地址参照库匹配技术属于机械式的处理方式,不能对各种匹配情况进行灵活处理,也不能学习包含在地址中元素之间的关系信息,更不能保存过去匹配的经验信息以便于提高匹配准确率和成功率。
发明内容
本发明提出一套全新的地址匹配方法,对相同地址的不同书写方法加以识别,生成统一的地址识别码,完成相同地址之间的关联匹配,并且创造了一套具有准确、高效、占用计算机资源少的地址最大匹配算法。
本发明并不依赖于标准地址库,而是在对海量待处理地址进行匹配操作的过程中,采用机器学习技术,积累匹配经验值,生成一套具有高度统一规则的地址信息简化标准库。地址信息简化标准库包括三种信息:第一,由描述一条准确地址必要的元素信息组成的地址信息简化数据表;第二,街道名称、小区别墅名称、大厦名称、写字楼名称、乡镇村名称等最小地址名称元素信息表;第三,街道门牌与小区、社区、大厦、写字楼等的对应关系表。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一并用于解释本发明,并不构成对本发明的限制。在附图中:
图1为地址名称元素树形逻辑结构图;
图2为地址名称元素最大匹配方法流程图;
图3为地址名称元素最大匹配示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,以便于理解本发明的原理及实施方式,此处所描述的优选实施例仅用于说明和理解本发明,并不用于限定本发明。
本发明所提及的“行政区划”指的是《中华人民共和国行政区划代码》GB/T2260国家标准所提供的内容。
本发明所提及的“实体地址”为不包含行政区划的地址信息部分。
本发明所提及的“剩余地址信息”为去掉实体地址中的街道名称、小区别墅名称、大厦名称、写字楼名称、乡镇村名称等地址名称元素信息后的其他地址信息部分。
步骤1:待匹配地址数据预处理:去除标点符(“-”和“#”符号除外)、空格等信息;去除超长的字母、数字组合字符串,如证件号码,电话号码,手机号码;把全角英文、数字字符转换成半角字符。
步骤2:整理历次行政区划变更情况,形成新旧行政区划对应表,用于把撤销的行政区划转换成新的行政区划。
步骤3:解析行政区划信息,如“北京市东城区东直门内大街19号”,解析后:“北京市|东城区|东直门内大街19号”。针对行政区划缺少后缀名的情况加以识别并补全,如“北京东城区东直门内大街19号”,解析后:“北京市|东城区|东直门内大街19号”。针对行政区划不完整的情况,根据行政区划缺失情况进行补全处理。补全原则为:只对能够确定唯一性的行政区划进行补全操作,如“东城区东直门内大街19号”,解析后“:北京市|东城区|东直门内大街19号”;如果不能确定其行政区划具有唯一性,以其地址中包含的行政区划信息情况进行最接近的补全处理,如“江苏省通州区朝霞路88号”,解析后:“江苏省|南通市|通州区 朝霞路88号”。
步骤4:标注已发生变更的行政区划,并把变更的原行政区划转化为新的行政区划。
步骤5:对于包含不只一个有效地址的数据进行舍弃处理。舍弃原则为:舍弃除第一条有效地址的其他信息。具体处理规则:对于存在多个连续相同行政区划的地址,只保留一个行政区划;存在多个不相同行政区划,截取具有完整行政区划的第一条有效地址。
步骤6:针对待匹配的地址数据进行机器学习,生成“地址名称元素信息表”。地址元素信息表包含街道名称、小区别墅名称、大厦名称、写字楼名称、乡镇村名称等信息。机器学习的具体方法如下:
机器学习操作的目标内容为去除行政区划后的实体地址信息部分。对于无法解析行政区划的地址不进行机器学习操作。
“地址名称元素信息表”分为三种类型数据:“街道”类型,收录街道名称;“小区”类型收录小区名称、别墅名称、大厦名称、写字楼名称等信息;“乡镇”类型收录乡镇名称、行政村名称、自然村名称信息。如表1所示。
表1 地址名称元素信息表
街道名称机器学习方法:截取实体地址中“路”、“街”、“街道”、“大道”、“巷”、“里”、“胡同”之前的部分(包含以上列出的关键字部分)作为街道名称,并标注地址元素类型为“街道”,保存至“地址名称元素信息表”。如“^北京市|宣武区广安门外手帕口南街甲1号院朗琴园小区8号楼2302号”,机器学习街道地址名称元素为“广安门外手帕口南街”。
小区别墅名称、大厦名称、写字楼名称机器学习方法:截取实体地址中字母、数字或甲乙丙丁任意组合字符串加上“号”、“号院”、“弄”、“支弄”、“条”、“巷”、“里”、“胡同”,与字母或数字加“号楼”、“座”、“幢”、“栋”、“区”之间的汉字部分作为小区别墅名称、大厦名称、写字楼名,并标注地址元素类型为“小区”,保存至“地址名称元素信息表”。如“^北京市|宣武区广安门外手帕口南街甲1号院朗琴园小区8号楼2302号”,机器学习小区地址名称元素为“朗琴园小区”。
乡镇村名称机器学习方法:截取地址实体中包含“乡”或“镇”,截取“村”、“庄”、“店”之前的部分(包含以上列出的关键字部分)作为乡镇村名称,并标注地址元素类型为“乡镇”,保存至“地址元素信息表”。如“北京市|门头沟区军庄镇东杨坨村121号2门201室”,机器学习乡镇地址名称元素为“军庄镇”和“东杨坨村”。
步骤7:此步骤为本发明具有独创性的最关键部分,是为“地址元素”匹配算法准备数据存放结构表,它的最大特点是占用最小的计算机资源、便于快速完成“地址元素”最大匹配操作。
“地址元素”数据存放结构表利用散列表(Hash table,也叫哈希表)可以通过关键码值直接访问数据的特性,与树形结构可表示上下层次关系的特性,将两者巧妙的结合在一起,对“地址名称元素信息表”进行重新组合存放,以达到节省计算机资源、快速查找、标注地址元素之间包含关系的目的。
例如在地址名称元素信息表中存的地址元素有(表2):
地址名称元素
安德路
安德路北街
安德路西营房
安德里
安德里北街
安定路
安定路东大街
安定门
安定门内大街
表2 地址名称元素表
经过树形结构转换后逻辑结构图如图1所示(树形逻辑结构图)。
地址元素表转换成散列表如表3所示(地址元素数据存放散列表)。
表3 地址元素数据存放散列表
步骤8:此步骤为地址匹配技术核心算法部分,以匹配“北京市|东城区|安定门内大街28号”为例进行匹配算法说明。
截取出实体地址部分“安定门内大街28号”,把实体地址分解成单个字符列表,如实体地址字符分解表(表4):
序号 分解字符
1
2
3
4
5
6
7 2
8 8
9
表4 实体地址字符分解表
从实体地址字符分解表中按顺序逐个取出字符并累加,把累加字符串作为散列表的关键码值,并在“地址元素”数据散列表中验证是否存在。如果散列表存在此关键码值,并且散列表数值为“否”(不是完整地址元素),继续取出下一个字符与之前的字符串累加进行“地址元素”数据散列表关键码值验证;如果散列表不存在此关键码值,则放弃此次匹配,重新开始累加字符进行散列表关键码值验证。
在“地址元素”数据散列表关键码值验证过程中,散列表数值为“是”(是一个完整地址元素),但还存在分支结点地址元素,还要对叶子结点进行散列表关键码值验证,以达到地址元素最大匹配的目的,如图3所示(地址名称元素最大匹配示意图)。
匹配处理结果为“北京市|东城区|【安定门内大街】28号”。
步骤9:记录每个地址元素匹配成功的次数,经过多次不同地址数据的匹配操作后,对机器学习的地址名称元素信息进行可靠性检查,删除仅匹配成功一次的地址元素。
步骤10:地址元素匹配成功后,如果地址元素类型为街道,提取出街道门牌号。提取规则为:如果街道之后紧跟数字或“甲乙丙丁”任意组合字符串与“号”、“号楼”、“号院”、“弄”、“支弄”组合在一起,则进行街道门牌号提取。“北京市|东城区|【安定门内大街】28号”处理结果为“北京市|东城区|【安定门内大街】<28号>”。
步骤11:提取除地址元素、街道门牌号之外的剩余地址信息特征码。提取规则为:按顺序提取连续字母、数字、“甲乙丙丁”任意组合字符串。“北京市|东城区|【安定门内大街】<28号>甲A座1501室”处理结果如“北京市|东城区|【安定门内大街】<28号>{甲A}{1501}”。
步骤12:生成实体地址唯一标识码。
实体地址唯一标识码生成方式:地址名称元素字符、街道门牌号与剩余地址信息特征码合并后,对合并后字符串进行MD5算法处理,生成固定长度的加密字符串作为实体地址唯一标识码。具体生成规则为:对于没有门牌号的“街道”类型的地址元素,必须提取剩余地址信息特征码后方可生成实体地址唯一标识码;对于“小区”类型的地址元素,必须提取剩余地址信息特征码后方可生成实体地址唯一标识码;对于成功匹配街道门牌号和“乡镇村”类型的地址元素,无需地址剩余信息特征码也可生成实体地址唯一标识码。
地址元素优先选取原则:如果实体地址匹配多个地址元素,则优先选择带有门牌号信息的“街道”类型的地址元素,其次选择“乡镇”类型的地址元素,最后选择“小区写字楼”类型的地址元素,参与实体地址唯一标识码生成。
步骤13:针对成功匹配“街道”和“小区”两种地址元素类型的实体地址,进行街道与小区对应关系的机器学习操作,以便于完成街道与小区、写字楼、大厦之间匹配合并。如果匹配的地址元素中同时存在“街道”与“小区”地址元素类型,并且街道有门牌号信息,把街道门牌与小区对应关系保存到对应关系表中,并记录街道门牌与小区、写字楼、大厦的对应关系在匹配过程中出现的次数,以便于确定对应关系的可靠性,剔除对应关系不常出现的情况。如“^北京市|宣武区【广安门外手帕口南街】<甲1号院>【朗琴园小区】8号楼2302号”,机器学习结果为“广安门外手帕口南街甲1号院朗琴园小区”,如表5(街道门牌与小区对应关系表)所示。
街道门牌 小区名称 出现次数
广安门外手帕口南街甲1号院 朗琴园小区 5
表5 街道门牌与小区对应关系表
步骤14:根据街道门牌与小区对应关系表,合并存在街道门牌与小区、写字楼、大厦对应关系数据,全部以街道的地址元素重新生成实体地址唯一标识码。如成功匹配“朗琴园小区”地址名称元素的地址,按照“广安门外手帕口南街甲1号院”为地址名称元素重新生成实体地址标别码。
步骤15:收集成功生成实体地址标识码匹配数据,收集内容有:行政区划、实体地址标识码、地址名称元素、剩余地址信息特征码、匹配成功次数,并保存到地址简化数据表中,并记录其成功匹配操作的次数,此表将作为匹配标准库使用。如表6(地址简化数据表)所示。
行政区划 北京市宣武区
实体地址标识码 c0d89afec6d33e8bbd9488af1a430372
地址名称元素 广安门外手帕口南街甲1号院
剩余地址特征码 {8}{2302}
匹配成功次数 10
表6 地址简化数据表
步骤16:凡是行政区划和实体地址标识码相同的地址,视为精确匹配成功,并添加匹配成功标志。
步骤17:进行模糊匹配操作,并利用模糊匹配算法计算模糊匹配级别。
模糊匹配算法具体内容:模糊匹配是在已经成功匹配地址元素和提取剩余地址信息特征码的前提下进行,并且只对存在两个及以上剩余地址特征码段的数据进行操作。
如果两条地址的行政区划和地址名称元素相同,一条地址数据剩余地址特征码左包含在另一条地址数据的剩余地址特征码中,则判定为两条地址数据相似度为“AAA级”。
如果两条地址的行政区划和地址名称元素相同,一条地址数据剩余地址特征码段排列顺序一致包含在另一条地址数据的剩余地址特征码中,则判定为两条地址数据相似度为“AA级”。
如果两条地址的行政区划和地址元素相同,一条地址数据剩余地址特征码段间隔包含在另一条地址数据的剩余地址特征码中,则判定为两条地址数据相似度为“A级”。
步骤18:在地址简化数据表中保存模糊匹配结果,建立地址简化信息之间多对多的模糊匹配关系。
最后应说明的是:以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实例外所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种海量地址数据智能快速匹配方法,其特征在于:此地址匹配方法采用机器学习技术,并可在匹配过程中积累经验值,优化匹配算法,提取剩余地址信息特征码,进行模糊匹配。
具体步骤分为:
步骤A:解析行政区划;
步骤B:机器学习地址名称元素;
步骤C:地址名称元素树形结构重组;
步骤D:地址名称元素散列表转化;
步骤E:地址智能快速匹配算法;
步骤F:提取剩余地址信息特征码;
步骤G:生成实体地址标识码;
步骤H:剩余地址信息特征码模糊匹配处理;
步骤I:建立地址简化信息之间多对多的模糊匹配关系。
2.如权利要求1所述,完成步骤A“解析行政区划信息后”,进行步骤B“地址名称元素机器学习”,其特征在于:不需要地址元素参照数据库,完全由机器自动学习完成处理,并统计地址元素出现的次数,分析评估每个地址元素机器学习的可靠性和准确性。
3.如权利要求1所述,步骤C“地址名称元素树形结构重组”,其特征在于:把地址名称元素逐个字符递进行分解,利用树形数据结构表示地址名称元素分解字符串的上下级逻辑关系,目的是利用这种上下级关系实现地址名称元素的最大匹配操作。
4.如权利要求3所述,完成地址名称元素树形结构重组后,进行权利要求1步骤D“地址名称元素散列表转化”,其特征在于,把地址名称元素逐个字符递进分解字符串作为散列表的关键码值,关键码值对应数值为是否为完整地址名称元素标志,转化为散列表目的是为了实现地址名称元素分解字符串的快速查找。
5.如权利要求1所述,步骤E“地址智能快速匹配算法”,其特征在于:把去除行政区划的实体地址部分,按逐个字符递增的循环取出,并在如权利要求1所述步骤D“地址名称元素散列表”中验证关键码值是否存在,直到匹配出最大的完整地址名称元素。
6.如权利要求1所述,步骤F“提取剩余地址信息特征码”,其特征在于:完成权利要求1所述步骤E“地址智能快速匹配算法”后,对剩余的地址信息提取特征码,特征码为连续的字母、数字、甲乙丙丁的任意组合字符串,并使用大括号括起来,形成若干个剩余地址信息特征码。
7.如权利要求1所述,步骤G“生成实体地址标识码”,其特征在于:在完成权利要求5步骤E和权利要求6所述步骤F的条件下,按统一选取规则,选取“地址名称元素”,并与剩余地址信息特征码组合成字符串,对组合字符串使用MD5算法生成加密定长字符串,作为实体地址标识码,行政区划和实体地址标识码相同的地址视为精确匹配成功。
8.如权利要求1所述,步骤H“剩余地址信息特征码模糊匹配处理”,其特征在于:在行政区划和地址名称元素相同的条件下,根据剩余地址信息特征码的包含关系,对地址进行模糊匹配处理。模糊匹配处理分为三个级别:AAA级,剩余地址信息特征码为左包含关系;AA级,剩余地址信息特征码为中间包含关系;A级,剩余地址信息特征码为顺序间隔包含关系。
9.如权利要求1所述,步骤I“建立地址简化信息之间多对多的模糊匹配关系”,其特征在于:在完成如权利要求8所述步骤H后,把模糊匹配结果在“地址简化数据表”进行标注,建立模糊匹配关系。
CN201610342418.XA 2016-05-24 2016-05-24 一种海量地址数据智能快速匹配方法 Pending CN107423295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610342418.XA CN107423295A (zh) 2016-05-24 2016-05-24 一种海量地址数据智能快速匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610342418.XA CN107423295A (zh) 2016-05-24 2016-05-24 一种海量地址数据智能快速匹配方法

Publications (1)

Publication Number Publication Date
CN107423295A true CN107423295A (zh) 2017-12-01

Family

ID=60422574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610342418.XA Pending CN107423295A (zh) 2016-05-24 2016-05-24 一种海量地址数据智能快速匹配方法

Country Status (1)

Country Link
CN (1) CN107423295A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法
CN108733810A (zh) * 2018-05-21 2018-11-02 北京神州泰岳软件股份有限公司 一种地址数据匹配方法及装置
CN109615559A (zh) * 2018-12-11 2019-04-12 北京沃尔斯特新技术有限公司 一种基于空间地址信息的水务用户大数据普查及挖掘方法
CN109947893A (zh) * 2017-12-11 2019-06-28 航天信息股份有限公司 地址识别方法及装置
WO2020037006A1 (en) * 2018-08-13 2020-02-20 Pebblepost, Inc. Associating anonymized identifiers with addressable endpoints
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN112329099A (zh) * 2020-10-27 2021-02-05 中国铁路设计集团有限公司 一种基于自定义数据库的铁路山岭隧道正洞智能匹配方法
CN112685408A (zh) * 2020-12-23 2021-04-20 深圳供电局有限公司 变压器信息识别方法、装置、计算机设备和存储介质
CN113283908A (zh) * 2021-06-09 2021-08-20 武汉斗鱼鱼乐网络科技有限公司 目标团体的识别方法及装置
CN114970518A (zh) * 2022-02-15 2022-08-30 北京青萌数海科技有限公司 一种修正地址数据的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103336890A (zh) * 2013-06-08 2013-10-02 东南大学 一种快速计算软件相似度的方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
US20150227594A1 (en) * 2014-02-12 2015-08-13 Sap Ag Interval Based Fuzzy Database Search

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103336890A (zh) * 2013-06-08 2013-10-02 东南大学 一种快速计算软件相似度的方法
US20150227594A1 (en) * 2014-02-12 2015-08-13 Sap Ag Interval Based Fuzzy Database Search
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947893A (zh) * 2017-12-11 2019-06-28 航天信息股份有限公司 地址识别方法及装置
CN108416062A (zh) * 2018-03-26 2018-08-17 国家电网公司客户服务中心 一种基于地址匹配技术的电网数据关联方法
CN108733810A (zh) * 2018-05-21 2018-11-02 北京神州泰岳软件股份有限公司 一种地址数据匹配方法及装置
CN108733810B (zh) * 2018-05-21 2021-02-05 鼎富智能科技有限公司 一种地址数据匹配方法及装置
WO2020037006A1 (en) * 2018-08-13 2020-02-20 Pebblepost, Inc. Associating anonymized identifiers with addressable endpoints
CN109615559A (zh) * 2018-12-11 2019-04-12 北京沃尔斯特新技术有限公司 一种基于空间地址信息的水务用户大数据普查及挖掘方法
CN111427977B (zh) * 2019-01-10 2023-12-19 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN112329099A (zh) * 2020-10-27 2021-02-05 中国铁路设计集团有限公司 一种基于自定义数据库的铁路山岭隧道正洞智能匹配方法
CN112329099B (zh) * 2020-10-27 2023-04-14 中国铁路设计集团有限公司 一种基于自定义数据库的铁路山岭隧道正洞智能匹配方法
CN112685408A (zh) * 2020-12-23 2021-04-20 深圳供电局有限公司 变压器信息识别方法、装置、计算机设备和存储介质
CN113283908A (zh) * 2021-06-09 2021-08-20 武汉斗鱼鱼乐网络科技有限公司 目标团体的识别方法及装置
CN114970518A (zh) * 2022-02-15 2022-08-30 北京青萌数海科技有限公司 一种修正地址数据的方法和装置
CN114970518B (zh) * 2022-02-15 2022-12-16 北京青萌数海科技有限公司 一种修正地址数据的方法和装置

Similar Documents

Publication Publication Date Title
CN107423295A (zh) 一种海量地址数据智能快速匹配方法
CN104624509B (zh) 一种快递自动分拣系统及自动分拣方法
CN103810224B (zh) 信息持久化和查询方法及装置
CN102122285B (zh) 一种数据缓存系统中的数据查询系统和数据查询方法
CN106649378A (zh) 一种数据同步方法及装置
CN109299086B (zh) 最优排序键压缩和索引重建
CN106534164B (zh) 基于网络空间用户标识的有效虚拟身份刻画方法
CN105808696B (zh) 一种基于全局和局部特征的跨在线社交网络用户匹配方法
CN103838837B (zh) 基于语义模板的遥感元数据集成方法
WO2016119275A1 (zh) 网络账号识别匹配方法
CN106649464A (zh) 一种中文地址树的构建方法及装置
CN107092639A (zh) 一种搜索引擎系统
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN102122291A (zh) 一种基于树形日志模式分析的博客好友推荐方法
KR101549220B1 (ko) 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조
CN101859323A (zh) 密文全文检索系统
CN103810171B (zh) 生成限定范围的随机测试数据的方法及系统
CN106933985A (zh) 一种核心方的分析发现方法
CN103150409B (zh) 一种用户检索词推荐的方法及系统
CN107145568A (zh) 一种快速的新闻事件聚类系统及方法
CN104615782B (zh) 基于滑动窗口最大匹配算法的地址匹配方法
CN104008205A (zh) 一种内容路由的查询方法及系统
CN113961549A (zh) 基于数据仓库的医疗数据整合方法及系统
CN109741034A (zh) 一种网格树形组织管理方法及装置
Park et al. A Study on the Link Server Development Using B-Tree Structure in the Big Data Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171201