CN106096024A - 地址相似度的评估方法和评估装置 - Google Patents

地址相似度的评估方法和评估装置 Download PDF

Info

Publication number
CN106096024A
CN106096024A CN201610473801.9A CN201610473801A CN106096024A CN 106096024 A CN106096024 A CN 106096024A CN 201610473801 A CN201610473801 A CN 201610473801A CN 106096024 A CN106096024 A CN 106096024A
Authority
CN
China
Prior art keywords
participle
address
similarity
assessed
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610473801.9A
Other languages
English (en)
Inventor
许文靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610473801.9A priority Critical patent/CN106096024A/zh
Publication of CN106096024A publication Critical patent/CN106096024A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的地址相似度的评估方法,通过将待评估地址进行分词处理,得到组成待评估地址的多个分词,分别计算每个分词和标准地址的相似度,以及每个分词的权重,通过分词相似度和分词权重计算最终的地址相似度,在相似度计算中兼顾了每个分词和分词次序对相似度的影响,使最后的相似度比值更能反应地址比对的真实结果。在进一步的实施例中,引入逆向的斐波那契数进行权重计算。本发明同时提供地址相似度的评估装置。

Description

地址相似度的评估方法和评估装置
技术领域
本发明涉及信息处理技术领域,具体涉及一种地址相似度的评估方法和评估装置。
背景技术
目前地理信息系统在业务系统中应用得越来越广泛。例如,电子商务系统中,拣货员根据发货地址或收货地址将业务指派给特定的配送站点;在GIS系统中,用户输入目标地址查询公交线路,或查询某个地址周边的信息。针对这些应用场景中,需要根据地址确定该地址对应的坐标位置。现有技术的做法是在标准地址库中查找和该地址最为相似的标准地址,然后返回标准地址的坐标作为该地址的近似坐标。
判定地址和标准地址库是否相似,非常突出的技术困难是输入的地址不完整,例如,北京市朝阳公园南路6号院,漏掉了朝阳区,或者输入的地址格式不规范,例如,北京市朝阳区朝阳公园南路6号院(联系电话138********)。
目前识别地址相似度的评估技术中使用最多的是基于编辑距离(LevenshteinDistance)相似度的算法。在编辑距离相似度算法中,通过距离矩阵算出2个地址字符串之间的编辑距离,根据编辑距离和字符串长度计算出最终2个地址字符串的相似度。但是该评估技术没有考虑地址字符串中分词顺序和关键词对相似度的影响,例如,朝阳区人民公园和朝阳市人民公园,地址字符串相似度很高,但实际上相距很远。
发明内容
有鉴于此,本发明提供一种地址相似度的评估方法和装置,以解决上述问题。
根据本发明的第一方面,本发明提供一种地址相似度的评估方法,包括:根据地址词库对待评估地址进行分词处理,得到组成所述待评估地址的多个分词;计算每个所述分词和标准地址的分词相似度;计算每个所述分词的分词权重;以及根据所述分词相似度和所述分词权重计算所述待评估地址和所述标准地址的相似度。
优选地,所述计算每个所述分词和标准地址的分词相似度包括:将所述待评估地址的分词和所述标准地址的分词分别编码;根据分词编码构建距离矩阵;以及根据所述距离矩阵计算所述分词相似度。
优选地,所述计算每个所述分词的分词权重包括:从斐波那契数列中选择若干个连续数值,所述连续数值的个数等于所述分词的个数;以及将所述连续数值的逆序后计算所述分词权重。
优选地,所述计算每个所述分词的分词权重包括:获取每一所述分词对应的角色类型;以及根据所述角色分类获取每一所述分词的权重。
优选地,在根据地址词库对待评估地址进行分词处理前,将所述待评估地址进行预处理。
优选地,所述地址词库包含地名数据,地址后缀数据和数字地址数据。
根据本发明的第二方面,本发明提供一种地址相似度的评估装置,包括:分词单元,用于根据地址词库对待评估地址进行分词处理,得到组成所述待评估地址的多个分词;第一计算单元,用于计算每个所述分词和标准地址的分词相似度;第二计算单元,用于计算每个所述分词的分词权重;第三计算单元,用于根据所述分词相似度和所述分词权重计算所述待评估地址和所述标准地址的相似度。
优选地,第一计算单元包括:编码模块,用于将所述待评估地址的分词和所述标准地址的分词分别编码;距离矩阵构建模块,用于根据分词编码构建距离矩阵;以及分词相似度计算模块,用于根据所述距离矩阵计算所述分词相似度。
优选地,所述第二计算单元包括:从斐波那契数列中选择若干个连续数值,所述连续数值的个数等于所述分词的个数;以及将所述连续数 值的逆序后计算所述分词权重。
优选地,所述第二计算单元包括:获取每一所述分词对应的角色类型;以及根据所述角色分类获取每一所述分词的权重。
优选地,还包括:预处理单元,用于对所述待评估地址进行预处理。
优选地,所述地址词库包含地名数据,地址后缀数据和数字地址数据。
本发明提供的地址相似度的评估方法,通过将待评估地址进行分词处理,得到组成待评估地址的多个分词,分别计算每个分词和标准地址的相似度,以及每个分词的权重,通过分词相似度和分词权重计算最终的地址相似度,在相似度计算中兼顾了每个分词和分词次序对相似度的影响,使最后的相似度比值更能反应地址比对的真实结果。在进一步的实施例中,引入逆向的斐波那契数进行权重计算。
附图说明
通过参照以下附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是根据本发明实施例的地址相似度评估方法的流程图;
图2是根据本发明另一实施例的地址相似度评估方法的流程图;
图3是根据本发明实施例的地址相似度的评估装置的结构图;
图4是图3中第一计算单元的进一步的分解结构图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。
附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作,流程图和框图上的方框可以代表一个模 块、程序段或仅仅是一段代码,所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意,所述实现规定逻辑功能的可执行指令可以重新组合,从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤,而不应以此作为对发明本身的限制。
图1是根据本发明实施例的地址相似度评估方法的流程图,包括步骤101至步骤104。
在步骤101中,根据地址词库对待评估地址进行分词处理,得到组成待评估地址的多个分词。
本发明中的地址词库泛指一切存储地址关键词的词料库,这些词料包括诸如北京,海淀,文化大厦等地名数据,和诸如省、市、县、小区、号、栋、室等地址后缀信息,区域,地理专有名词等,和诸如5-302等数字地址信息。通常地址词库越完备,本步骤中的分词效果越准确,越有助于地址相似度的计算。例如,“北京市朝阳区朝阳公园南路6号院”经过分词得到五个分词“北京市,朝阳区,朝阳公园,南路,6号院”。
在步骤102中,计算每个分词和标准地址的分词相似度。
在本步骤中计算从前述步骤中获得的每个分词和标准地址的分词相似度。目前计算字符串相似度的算法有编辑距离算法、最长公共子串算法、贪心字符串匹配算法等多种算法。这些算法由于侧重点不同,应用于不同的领域中。
在步骤103中,计算待评估地址的每个分词的分词权重。
可以理解,在地址字符串中,每个分词权重不仅和分词本身相关,同时和该分词在地址串中的位置相关。例如,北京市朝阳区前进大街,分词“北京市”的权重理应大于“朝阳区”,“前进大街”,分词“朝阳区”的权重应该大于“前进大街”,因此将权重特征加入到相似度计算中,有助于更好的体现地址相似度比较的真实特征。
在一个优选的实施例中,在进行分词权重分析时,先确定每个分词对应的角色定义,再根据角色检索对应的权重。分词角色从预先定义的数据库中检索获得。例如,“北京市”定义为一级行政区划,“朝阳区”, “海淀区”定义为二级行政区划,“海淀大厦”,“京东贸易公司”定义为实体名称。
在另一个优选的实施例中,通过逆向斐波那契数列计算分词权重。斐波那契数列指的是这样一个数列:0、1、1、2、3、5、8、13、21…用文字来说,就是斐波那契数列由0和1开始,之后的斐波那契数列系数就由之前的两数相加。因为0在当前场景中没有实际业务意义,本发明中采用从1开始的斐波那契数。根据分词序列的长度,例如,“北京市朝阳区朝阳公园南路6号院”包括“北京市,朝阳区,朝阳公园,南路,6号院”五个分词,对应的逆向的斐波那契数为[5,3,2,1,1],按照当前值在总值的比例(比如“北京市”对应的斐波那契数是5,除以总和(5+3+2+1+1)精确2位小数等于0.42)换算成权重[0.42,0.25,0.17,0.08,0.08]。
在步骤104中,根据分词相似度和分词权重计算待评估地址和标准地址的相似度。
在步骤102和步骤103中分别计算获得分词相似度和分词权重,通过公式分词相似度和分词权重相乘之和,获得待评估地址和标准地址的相似度。例如,分词相似度为:[1,0.5,0.33,0.5,0.6]和分词权重为:[0.42,0.25,0.17,0.08,0.08],最终得到地址相似度为:1*0.42+0.5*0.25+0.33*0.17+0.5*0.08+0.6*0.08=0.687,相似度值的取值范围在0~1。
本领域的技术人员可以理解到,现有技术中的其他计算分词权重的算法也适用于本发明,也应属于本发明的保护范围之内。
图2是根据本发明另一实施例的地址相似度评估方法的流程图,包括步骤201-步骤206。
其中,步骤201,205,206和图1中的步骤101,103和104相同,这里就不再赘述。步骤202-204详细描写了分词相似度的计算方式。
在步骤202中,将待评估地址的分词和标准地址的分词分别编码。
在步骤203中,根据分词编码构建距离矩阵。
在步骤204中,根据距离矩阵计算分词相似度。
下面以一个示例说明上述三个步骤。
假设标准地址为:“北京市朝阳区将台路5号院15号楼朝阳人才”,待评估地址为:“北京市将台路5号院普天创业园15号楼”,标准地址输出分词序列为[北京市,朝阳区,将台路,5号院,15号楼,朝阳人才],待评估地址的分词序列是[北京市,将台路,普天创业园,5号院,15号楼]。
首先,确定分词编码:北京市->‘A’,朝阳区->’B’,将台路->’C’,普天创业园->’D’,5号院->’E’,15号楼->’F’,朝阳人才->’G’,则标准地址编码结果是‘ABCEFG’,待评估地址编码结果是‘ACDEF。分词编码要求不同的分词采用不同的字母标识。
接着,根据分词编码构建距离矩阵。先创建7*8的表格,将标准地址编码填入到列,将待评估地址编码填入到每行,再填入数字,如表格1所示。
表格1
A B C E F G
0 1 2 3 4 5 6
A 1
C 2
D 3
E 4
F 5
再根据Levenshtein Distance算法填入表格中的各值(如果行列的字符相同,对应值填入0,否则填入左边、左上角和上面的值中的最小值并且加1),最终得到表格2的距离矩阵:
表格2
最后,计算每个分词和标准地址的相似度。表格2的斜体数字为A,C,D,E,F和标准地址的编辑距离,通过公式1-编辑距离/地址长度,得到每个分词的相似度(A:1-0/1=1;C:1-1/2=0.5;D:1-2/3=0.33;E:1-2/4=0.5;F:1-2/5=0.6)。
在上述实施例中,通过将待评估地址进行分词处理,得到组成待评估地址的多个分词,分别计算每个分词和标准地址的相似度,以及每个分词的权重,通过分词相似度和分词权重计算最终的地址相似度,在相似度计算中兼顾了每个分词和分词次序对相似度的影响,使相似度的计算更能反应地址比对的真实结果。另外,本发明中还引入逆向的斐波那契数进行权重计算。
在一个优选的实施例中,该评估方法还包括:在根据地址词库对待评估地址进行分词处理前,将待评估地址进行预处理。例如,将全角字符变为半角字符,去掉地址串中的非法字符,如#,¥,空格等。再例如,将待评估地址的信息补全,如将在“朝阳区”前面增加“北京市”。通过预处理使分词处理更加便捷。
图3是根据本发明实施例的地址相似度的评估装置的结构图。参考图3,地址相似度的评估装,30包括地址词库300、分词单元310、第一计算单元311、第二计算单元312和第三计算单元313。
分词单元310接收输入的待评估的地址,根据地址词库300将待评估地址进行分词处理,获得待评估地址的多个分词。地址词库300中包含地名数据,地址后缀数据和数字地址数据。
第一计算单元311从分词单元310中获得多个分词,计算每个分词和标准地址的分词相似度。
第二计算单元312从分词单元310中获得多个分词,计算每个分词在待评估地址中的权重。优选的计算方式是根据分词的级别定义进行权重计算,或者根据斐波那契数列进行分词权重计算。
第三计算单元313从第一计算单元311和第二计算单元312中获得分词相似度和分词权重,汇总计算待评估地址和标准地址的相似度。优选地,可以设置相似度阈值,超过相似度阈值的待评估地址为标准地址的相似地址。
图4是图3中第一计算单元的进一步的分解结构图。参考图4,第一计算单元311包括:编码模块3111、距离矩阵构建模块3112和分词相似度计算模块3113。
编码模块3111接收待评估地址和标准地址的多个分词,并对每个分词编码。
距离矩阵构建模块3112根据分词编码构建距离矩阵。距离矩阵的构建方式和方法步骤中的相同,这里就不再赘述。
分词相似度计算模块3113根据距离矩阵计算分词相似度。计算方式和方法步骤中的相同,这里就不再赘述。
在一个优选的实施例中,上述评估装置还包括:预处理单元,用于对待评估地址进行预处理。例如,将全角字符变为半角字符,去掉地址串中的非法字符,如#,¥,空格等。通过预处理使分词处理更加便捷。
本发明中提供的评估装置,包括:分词单元,用于根据地址词库对待评估地址进行分词处理,得到组成待评估地址的多个分词;第一计算单元,用于计算每个分的分词相似度;第二计算单元,用于计算每个所述分词的分词权重;第三计算单元,用于根据所述分词相似度和所述分词权重计算所述待评估地址和所述标准地址的相似度。该评估装置根据分词相似度和分词权重计算最终的地址相似度,在相似度计算中兼顾了每个分词和分词次序对相似度的影响,使相似度的计算更能反应地址比对的真实结果。
系统的各个模块或单元可以通过硬件、固件或软件实现。软件例如包括采用JAVA、C/C++/C#、SQL等各种编程语言形成的编码程序。虽然在方法以及方法图例中给出本发明实施例的步骤以及步骤的顺序,但是所述步骤实现规定的逻辑功能的可执行指令可以重新组合,从而生成新的步骤。所述步骤的顺序也不应该仅仅局限于所述方法以及方法图例中 的步骤顺序,可以根据功能的需要随时进行调整。例如将其中的某些步骤并行或按照相反顺序执行。
根据本发明的系统和方法可以部署在单个或多个服务器上。例如,可以将不同的模块分别部署在不同的服务器上,形成专用服务器。或者,可以在多个服务器上分布式部署相同的功能单元、模块或系统,以减轻负载压力。所述服务器包括但不限于在同一个局域网以及通过Internet连接的多个PC机、PC服务器、刀片机、超级计算机等。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种地址相似度的评估方法,包括:
根据地址词库对待评估地址进行分词处理,得到组成所述待评估地址的多个分词;
计算每个所述分词和标准地址的分词相似度;
计算每个所述分词的分词权重;以及
根据所述分词相似度和所述分词权重计算所述待评估地址和所述标准地址的相似度。
2.根据权利要求1所述的评估方法,其中,所述计算每个所述分词和标准地址的分词相似度包括:
将所述待评估地址的分词和所述标准地址的分词分别编码;
根据分词编码构建距离矩阵;以及
根据所述距离矩阵计算所述分词相似度。
3.根据权利要求1所述的评估方法,其中,所述计算每个所述分词的分词权重包括:从斐波那契数列中选择若干个连续数值,所述连续数值的个数等于所述分词的个数;以及将所述连续数值的逆序后计算所述分词权重。
4.根据权利要求1所述的评估方法,其中,所述计算每个所述分词的分词权重包括:获取每一所述分词对应的角色类型;以及根据所述角色分类获取每一所述分词的权重。
5.根据权利要求1所述的评估方法,其中,在所述根据地址词库对待评估地址进行分词处理前,将所述待评估地址进行预处理。
6.根据权利要求1所述的评估方法,其中,所述地址词库包含地名数据,地址后缀数据和数字地址数据。
7.一种地址相似度的评估装置,包括:
分词单元,用于根据地址词库对待评估地址进行分词处理,得到组成所述待评估地址的多个分词;
第一计算单元,用于计算每个所述分词和标准地址的分词相似度;
第二计算单元,用于计算每个所述分词的分词权重;
第三计算单元,用于根据所述分词相似度和所述分词权重计算所述待评估地址和所述标准地址的相似度。
8.根据权利要求7所述的评估装置,其中,第一计算单元包括:
编码模块,用于将所述待评估地址的分词和所述标准地址的分词分别编码;
距离矩阵构建模块,用于根据分词编码构建距离矩阵;以及
分词相似度计算模块,用于根据所述距离矩阵计算所述分词相似度。
9.根据权利要求7所述的评估装置,其中,所述第二计算单元包括:从斐波那契数列中选择若干个连续数值,所述连续数值的个数等于所述分词的个数;以及将所述连续数值的逆序后计算所述分词权重。
10.根据权利要求7所述的评估装置,其中,所述第二计算单元包括:获取每一所述分词对应的角色类型;以及根据所述角色分类获取每一所述分词的权重。
11.根据权利要求7所述的评估装置,还包括:预处理单元,用于对所述待评估地址进行预处理。
12.根据权利要求7所述的评估装置,其中,所述地址词库包含地名数据,地址后缀数据和数字地址数据。
CN201610473801.9A 2016-06-24 2016-06-24 地址相似度的评估方法和评估装置 Pending CN106096024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610473801.9A CN106096024A (zh) 2016-06-24 2016-06-24 地址相似度的评估方法和评估装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610473801.9A CN106096024A (zh) 2016-06-24 2016-06-24 地址相似度的评估方法和评估装置

Publications (1)

Publication Number Publication Date
CN106096024A true CN106096024A (zh) 2016-11-09

Family

ID=57253602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610473801.9A Pending CN106096024A (zh) 2016-06-24 2016-06-24 地址相似度的评估方法和评估装置

Country Status (1)

Country Link
CN (1) CN106096024A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256230A (zh) * 2017-05-03 2017-10-17 昆明理工大学 一种基于多元化地理信息点的融合方法
CN107577744A (zh) * 2017-08-28 2018-01-12 苏州科技大学 非标地址自动匹配模型、匹配方法以及模型建立方法
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108256112A (zh) * 2018-02-09 2018-07-06 浙江省地理信息中心 基于地理语义的地名地址检索质量评价方法
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN109657034A (zh) * 2018-11-05 2019-04-19 阿里巴巴集团控股有限公司 地址相似度计算方法及其系统
CN109657163A (zh) * 2018-12-19 2019-04-19 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN109829025A (zh) * 2019-01-22 2019-05-31 浙江数链科技有限公司 线路校正方法及装置、电子设备、存储介质
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
CN110147418A (zh) * 2019-04-18 2019-08-20 厦门市美亚柏科信息股份有限公司 一种判断地址是否标准化、地址标准化的方法及系统
CN110188184A (zh) * 2019-06-04 2019-08-30 鹏元征信有限公司 一种地址信息比对的处理方法、存储介质及终端设备
CN110196834A (zh) * 2019-05-21 2019-09-03 厦门市美亚柏科信息股份有限公司 一种用于数据项、文件、数据库的对标方法和系统
CN110427365A (zh) * 2019-06-25 2019-11-08 深圳市跨越新科技有限公司 提高合单准确性的地址合并方法及系统
CN110826311A (zh) * 2020-01-13 2020-02-21 支付宝(杭州)信息技术有限公司 对象识别方法以及装置
CN111488497A (zh) * 2019-01-25 2020-08-04 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN111639493A (zh) * 2020-05-22 2020-09-08 上海微盟企业发展有限公司 一种地址信息标准化方法、装置、设备及可读存储介质
CN111723164A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN111966766A (zh) * 2020-02-18 2020-11-20 上海寻梦信息技术有限公司 地址信息的检测方法、系统、电子设备和存储介质
CN112184350A (zh) * 2019-07-04 2021-01-05 中国移动通信集团江西有限公司 一种用户订单处理方法、装置、存储介质和服务器
CN112347221A (zh) * 2021-01-08 2021-02-09 北京安泰伟奥信息技术有限公司 一种房屋地址相似度分析方法及装置
CN112508228A (zh) * 2020-11-03 2021-03-16 北京理工大学前沿技术研究院 一种驾驶行为风险预测方法及系统
CN113836357A (zh) * 2021-10-12 2021-12-24 北京商越网络科技有限公司 基于文本相似度计算的地址库数据处理方法和控制系统
CN114064827A (zh) * 2020-08-05 2022-02-18 北京四维图新科技股份有限公司 位置搜索方法、装置以及设备
CN115687870A (zh) * 2023-01-03 2023-02-03 四川易利数字城市科技有限公司 一种基于矩阵运算的地名匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279843A (zh) * 2010-06-13 2011-12-14 北京四维图新科技股份有限公司 处理短语数据的方法以及装置
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279843A (zh) * 2010-06-13 2011-12-14 北京四维图新科技股份有限公司 处理短语数据的方法以及装置
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256230A (zh) * 2017-05-03 2017-10-17 昆明理工大学 一种基于多元化地理信息点的融合方法
CN107256230B (zh) * 2017-05-03 2020-08-25 昆明理工大学 一种基于多元化地理信息点的融合方法
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
CN107577744A (zh) * 2017-08-28 2018-01-12 苏州科技大学 非标地址自动匹配模型、匹配方法以及模型建立方法
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108171529B (zh) * 2017-12-04 2021-09-14 昆明理工大学 一种地址相似度评估方法
CN108256112A (zh) * 2018-02-09 2018-07-06 浙江省地理信息中心 基于地理语义的地名地址检索质量评价方法
CN108628811B (zh) * 2018-04-10 2022-04-12 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN109657034A (zh) * 2018-11-05 2019-04-19 阿里巴巴集团控股有限公司 地址相似度计算方法及其系统
CN109657163A (zh) * 2018-12-19 2019-04-19 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN109800346B (zh) * 2019-01-11 2020-12-29 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN109829025A (zh) * 2019-01-22 2019-05-31 浙江数链科技有限公司 线路校正方法及装置、电子设备、存储介质
CN111488497A (zh) * 2019-01-25 2020-08-04 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN111488497B (zh) * 2019-01-25 2023-05-12 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN111723164B (zh) * 2019-03-18 2023-12-12 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN111723164A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN110147418A (zh) * 2019-04-18 2019-08-20 厦门市美亚柏科信息股份有限公司 一种判断地址是否标准化、地址标准化的方法及系统
CN110147418B (zh) * 2019-04-18 2022-04-29 厦门市美亚柏科信息股份有限公司 一种判断地址是否标准化、地址标准化的方法及系统
CN110196834B (zh) * 2019-05-21 2022-04-29 厦门市美亚柏科信息股份有限公司 一种用于数据项、文件、数据库的对标方法和系统
CN110196834A (zh) * 2019-05-21 2019-09-03 厦门市美亚柏科信息股份有限公司 一种用于数据项、文件、数据库的对标方法和系统
CN110188184A (zh) * 2019-06-04 2019-08-30 鹏元征信有限公司 一种地址信息比对的处理方法、存储介质及终端设备
CN110427365A (zh) * 2019-06-25 2019-11-08 深圳市跨越新科技有限公司 提高合单准确性的地址合并方法及系统
CN112184350A (zh) * 2019-07-04 2021-01-05 中国移动通信集团江西有限公司 一种用户订单处理方法、装置、存储介质和服务器
CN110826311B (zh) * 2020-01-13 2020-05-05 支付宝(杭州)信息技术有限公司 对象识别方法以及装置
CN110826311A (zh) * 2020-01-13 2020-02-21 支付宝(杭州)信息技术有限公司 对象识别方法以及装置
CN111966766A (zh) * 2020-02-18 2020-11-20 上海寻梦信息技术有限公司 地址信息的检测方法、系统、电子设备和存储介质
CN111639493A (zh) * 2020-05-22 2020-09-08 上海微盟企业发展有限公司 一种地址信息标准化方法、装置、设备及可读存储介质
CN114064827A (zh) * 2020-08-05 2022-02-18 北京四维图新科技股份有限公司 位置搜索方法、装置以及设备
CN112508228A (zh) * 2020-11-03 2021-03-16 北京理工大学前沿技术研究院 一种驾驶行为风险预测方法及系统
CN112347221A (zh) * 2021-01-08 2021-02-09 北京安泰伟奥信息技术有限公司 一种房屋地址相似度分析方法及装置
CN113836357A (zh) * 2021-10-12 2021-12-24 北京商越网络科技有限公司 基于文本相似度计算的地址库数据处理方法和控制系统
CN113836357B (zh) * 2021-10-12 2022-09-16 北京商越网络科技有限公司 基于文本相似度计算的地址库数据处理方法和控制系统
CN115687870A (zh) * 2023-01-03 2023-02-03 四川易利数字城市科技有限公司 一种基于矩阵运算的地名匹配方法

Similar Documents

Publication Publication Date Title
CN106096024A (zh) 地址相似度的评估方法和评估装置
CN107145977B (zh) 一种对在线社交网络用户进行结构化属性推断的方法
CN109886294B (zh) 知识融合方法、装置、计算机设备和存储介质
CN106708966B (zh) 基于相似度计算的垃圾评论检测方法
WO2018095049A1 (zh) 生成推荐结果的方法和装置
TWI508011B (zh) Category information providing method and device
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN105809473B (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
CN107786943B (zh) 一种用户分群方法及计算设备
US20150294027A1 (en) Fast Component Enumeration in Graphs with Implicit Edges
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
WO2019114673A1 (zh) 基于最小分支路径函数胎记的软件局部抄袭证据生成方法
CN106649273B (zh) 一种文本处理方法及装置
CN112069276A (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
AU2013246140B2 (en) Discovering spam merchants using product feed similarity
CN110705585A (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
CN107918778A (zh) 一种信息匹配方法及相关装置
CN109299379A (zh) 文章推荐方法、装置、存储介质和电子设备
CN111835776A (zh) 一种网络流量数据隐私保护方法及系统
CN110598123B (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
CN111680498A (zh) 实体消歧方法、装置、存储介质及计算机设备
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
CN107767155A (zh) 一种评估用户画像数据的方法及系统
CN111667018B (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109

RJ01 Rejection of invention patent application after publication