CN113743080A - 一种分层级地址文本相似度比对方法、装置及介质 - Google Patents

一种分层级地址文本相似度比对方法、装置及介质 Download PDF

Info

Publication number
CN113743080A
CN113743080A CN202110934730.9A CN202110934730A CN113743080A CN 113743080 A CN113743080 A CN 113743080A CN 202110934730 A CN202110934730 A CN 202110934730A CN 113743080 A CN113743080 A CN 113743080A
Authority
CN
China
Prior art keywords
text information
address text
information
address
compared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110934730.9A
Other languages
English (en)
Inventor
孟泽洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingyun Digital Technology Co Ltd
Original Assignee
Nanjing Xingyun Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingyun Digital Technology Co Ltd filed Critical Nanjing Xingyun Digital Technology Co Ltd
Priority to CN202110934730.9A priority Critical patent/CN113743080A/zh
Publication of CN113743080A publication Critical patent/CN113743080A/zh
Priority to CA3170672A priority patent/CA3170672A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分层级地址文本相似度比对方法、装置及介质,属于信息比对技术领域,方法包括:接收待比对的至少两个地址文本信息,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本发明能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。

Description

一种分层级地址文本相似度比对方法、装置及介质
技术领域
本发明涉及信息比对技术领域,特别涉及一种分层级地址文本相似度比对方法、装置及介质。
背景技术
人类的各类活动都离不开位置,从数值上可以表示为空间坐标,从文本上则表征为通讯地址,通讯地址广泛存在于电商物流、信息登记、金融交通等领域,对通讯地址的分析、聚合服务是一项重要基础服务,它支撑着诸多互联网场景,比如地址异常筛查、物流分析等;实际应用中,地址文本存在写法自由、缺省别名多以及地域性强等特点,这对地址的解析、归一化和匹配等数据处理操作都造成了困难;目前针对这些问题,业内常见的做法是人工比对两个地址的文本;或者通过输入地址至地图服务中解析地理位置,从而判断是否为重叠位置的地址。
针对传统人工比对的处理方式有明显的弊端,主要是人工审核工作量极大;因为通常数据库中有大量的地址信息,例如有100条地址进行两两比对,共需要人工交叉比对100*100=10,000次,随着地址增多,比对次数也是呈指数级别增加,此外,如果采用地理位置坐标转换,则会引入、依赖第三方地图服务,这种做法在增加了不确定性的同时,也不适合某些包含隐私信息的敏感地址信息,更不适合离线部署。
发明内容
为了克服上述技术问题,本发明的目的在于提供一种分层级地址文本相似度比对方法、装置及介质,以解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
本发明实施例提供的具体技术方案如下:
第一方面,提供了一种分层级地址文本相似度比对方法,所述方法包括:
接收待比对的至少两个地址文本信息;
对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
进一步地,所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,包括:
将每个待处理的地址文本信息分为N层子信息,其中第1至N-1层为非详细子信息,第N层为详细子信息。
进一步地,所述根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对,包括:
将待比对的至少两个地址文本信息的第1至N-1层非详细子信息一一进行比对;
若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;
若每一层的比对结果均一致,则对第N层子信息进行比对。
进一步地,所述对第N层子信息进行比对,还包括:
将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;
获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数;
获取第N层子信息相似度比对方法的权重比值r;
通过
Figure BDA0003212547960000031
计算至少两个地址文本信息的相似度S。
进一步地,所述对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理之前还包括:
对接收的待比对的至少两个地址文本信息进行格式化,并提取所述文本信息的地址层信息。
进一步地,所述对接收的待比对的至少两个地址文本信息进行格式化,包括:
对地址文本信息中缺失的信息进行补全;
和/或
对英文地址文本信息进行规范化表述。
进一步地,若待比对的至少两个地址文本信息为不同语种时,所述接收的待比对的至少两个地址文本信息进行格式化之后,包括:
将不同语种的待比对的至少两个地址文本信息翻译成统一的语种地址文本信息。
第二方面,提供了一种分层级地址文本相似度比对装置,所述装置包括:
接收模块接收待比对的至少两个地址文本信息;
处理模块对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
比对模块根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
第三方面,提供了一种计算机设备,所述设备包括:
存储器、处理器及存储在存储器上的计算机程序,所述处理器执行时实现第一方面任一所述的分层级地址文本相似度比对方法的步骤。
第四方面,提供了一种计算机介质,所述介质包括:
其上存储有计算机程序,所述计算机程序被存储器执行时实现第一方面任一所述的分层级地址文本相似度比对方法的步骤。
与现有技术相比,本发明提供的技术方案接收待比对的至少两个地址文本信息,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本发明能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的分层级地址文本相似度比对方法的框架图;
图2为本发明实施例二提供的分层级地址文本相似度比对方法的具体流程图;
图3为本发明实施例二提供的分层级地址文本相似度比对方法图;
图4为本发明实施例三提供的分层级地址文本相似度比对装置结构示意图;
图5为本发明实施例五提供的可被用于实施本申请中所述的各个实施例的示例性系统;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例一
本发明实施例提供了一种分层级地址文本相似度比对方法,如图1所示,该方法可以包括:
接收待比对的至少两个地址文本信息;
对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
可以理解的是,提出了一种技术方法:将两个地址文本信息分层级提取地址信息,再进行语言翻译或将语种描述规范化,最终通过分层级地址文本相似度比对方法得到相似度的方案,包含流程如下:
1,对省市区等非详细地址文本信息分层提取;
2,对不同语种的地址文本信息进行翻译并规范化处理;
3,每层地址文本信息做比对,并通过分层级地址文本相似度比对方法计算相似度。
具体地,所述方法可以校对同一个标示下的不同来源的地址文本信息是否一致,若不一致可以自动纠正或提醒用户人工核对;
还可以将用户手动输入或自动粘贴的地址文本信息进行拆解识别;
或将单个地址文本信息和数据库中现有的地址文本信息(比如黑名单地址文本)进行逐一比对,若地址重合表示可能存在风险,则推送并提醒业务人员进行排查。
其中,在实际应用中,需要进行地址文本信息解析和比对的应用场景包含不限于以下一些常见的情况:反洗钱地址文本信息要素筛查、客户地址信息核实校对、地址信息归类等。
本发明实施例能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
实施例二
本发明实施例提供了一种分层级地址文本相似度比对方法,如图2所示,该方法可以包括:
步骤S01、S02,接收待比对的至少两个地址文本信息。
具体地,步骤S01、S02的实现过程可以包括:
接收单个地址文本信息或两个地址文本信息,可以以[英-中]、[中-英]、[英-英]或[中-中]的形式作为输入形式出现,本发明定义的中文地址文本信息中常见的五个层级,从大到小层级所列如下:
1,省、市、区信息
2,县、乡、镇、街道信息
3,路网、路号信息
4,POI(如园区、小区等)、楼栋号、楼层号、户室号信息
5,其他信息
其中,若是中文地址文本信息,文本之间没有逗号、句号或空格等分隔符,且地址文本信息一般从大范围开始描述,并逐步缩小地址范围;而英文地址文本信息则会通过空格和逗号作断点,且地址文本信息从小范围开始描述,逐步至大范围信息(如国家或省、州等级别),举例如下:
中文地址信息:中国(上海)自由贸易试验区富特北路353号1棟七层701部位
英文地址信息:No.1603A,Block C,New Century Plaza,No.48Xingyi Road,Shanghai
步骤S1,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
将每个待处理的地址文本信息分为N层子信息,其中第1至N-1层为非详细子信息,第N层为详细子信息。
对接收的待比对的至少两个地址文本信息进行格式化,并提取所述文本信息的地址层信息。
对地址文本信息中缺失的信息进行补全;
和/或
对英文地址文本信息进行规范化表述。
具体地,步骤S1的实现过程可以包括:
将每个待处理的地址文本信息分为N层子信息,其中第1至N-1层为非详细子信息,第N层为详细子信息。
其中,若N为四,那一到三层为非详细地址文本信息,第四层为详细地址文本信息。
对接收的待比对的至少两个地址文本信息中缺失的信息进行补全,例如:将“江苏南京”补全为“江苏省南京市”;
若接收的至少两个地址文本信息语种是英文,则对英文的所述地址文本信息表述规范化处理,例如:
将“No.14/No 14/no 14/no.14”统一表述成“Number 14”;
而需要具体到的层级信息可以根据具体场景应用的需求,通过配置来设定,在实际应用中最常见的是非详细地址信息层级具体到省市区即可,最新的省市区信息已经在国家统计局的全国统计用区划分中被详细罗列。
如下为地址文本信息拆分输入和输出结果对照表:
Figure BDA0003212547960000081
可以理解的,地址输入的类型可以是单个字符串,包含全部地址文本信息,或已经分成省、市、区和详细地址四个字段的字符串文本类型,本方案的输出统一定义为四个字段的字符串类型(即省、市、区和详细地址),提取方法通过分析详细地址字段,若其中包括省市区的信息,则提取出来;在省市区输入字段不为空时,输出时替换输入的省市区的字段字符串。
这里,所述方法从地址文本信息里提取可自定义的非详细地址信息(如省市区),并过滤掉无关的地址文本信息;以及非详细地址层级配置信息,可以在不同的场景应用需求中切换不同的配置。
步骤S2,将不同语种的待比对的至少两个地址文本信息翻译成统一的语种地址文本信息;
对不同语种的地址文本信息互译的模式统一规定为将中文翻译成英文模式。
具体地,步骤S2的实现过程可以包括:
所述方法是比对两个不同语种的地址文本信息,需要根据地址文本信息的语言情况进行统一化处理,比如繁体转换为简体,以及中英文地址文本信息比对,通过实施例测试,本方案中对不同语种地址文本信息互译的模式统一规定为中文翻译成英文模式。
其中,这么规定的原因是:在中文字库中,同音不同形的情况比较常见,当只给出英文地址文本描述时,很难推断出对应的准确中文信息;例如英文信息中的“HexingRoad”,对应中文信息无法确定是“和兴路”、“和新路”还是“合兴路”,这种情况会造成地址文本信息相似度比对结果不准确。
当然,这里中文翻译成英文的翻译模式可以设定为基于规则的翻译模型,也可以是深度网络翻译模型,或者是两种模型的叠加组合;一般,深度网络翻译模型可以翻译出比较规范的英文描述,但偶尔会存在“过度翻译”情况(例下表中加粗的部分),而基于规则的翻译模型则需要配置大量的特殊地点和兴趣点,以克服“欠翻译”的情况;在实际应用中,具体可以根据实际情况切换选择翻译模型,下表是地址文本信息两种翻译模型结果比对表:
Figure BDA0003212547960000091
具体地,语言翻译模型可以切换基于规则的翻译模型和深度网络翻译模型或者将两者模型叠加的方案,实际情况下基于规则的翻译模型能满足绝大多数情况下的地址文本信息翻译需求。
步骤S21,判断接收的地址文本信息是否是单个地址文本信息,若是,则不需要翻译,将格式化后的单个地址文本信息存入数据库;
若否,则需要对接收的至少两个地址文本信息的对应语种的文本信息情况进行统一化处理。
步骤S3,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
步骤S3包括如下步骤:
步骤S31,将待比对的至少两个地址文本信息的第1至N-1层非详细子信息一一进行比对;
若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;
若每一层的比对结果均一致,则对第N层子信息进行比对。
这里,分层级可以分为硬分层级和软分层级,硬分层级指非详细地址文本信息的层级,即第1至N-1层级;软分层级指详细地址文本信息的层级,即第N层级。
通过分层级地址文本相似度比对方法比对后,可以得到相似度数值,即一个介于0和1之间的浮点数;这个数值的大小可以判断两个地址文本信息是否一致,其中0表示两个地址文本信息完全不一致,1则表示两个地址文本信息完全一致。
其中,硬分层级和软分层级的定义描述,具体如下:
设定目前分层的配置为省、市、区以及详细地址共四个层级(N个层级),所述分层级地址文本相似度比对方法首先会对前三个硬分层级(1至N-1个非详细地址层级)进行比对,若它们前三个硬分层级字段均不为空且不全相同,则相似度直接输出为0,比对流程提前结束;若它们前三个硬分层级字段全部相同或者为空,则进入详细地址文本比对环节;之所以称之为硬分层级是因为这部分的相似度输出对最终相似度的结果影响是二元的,对硬分层级做比对最大的好处是缩短了前三个硬分层级非详细地址文本信息完全不相同的地址文本信息的比对时间。
步骤S32,将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;
获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数。
这里,详细地址文本信息比对方法中加入了路号、楼栋号的软层级规则做比对,这些层级规则均可被配置,且每一种规则都会对整个详细地址相似度的比对结果贡献一部分数值比例(例如共有m种规则,每一种规则都将贡献1/m或者0的相似度数值比例),软分层级详细地址文本信息比对方法和前面的硬分层级非详细地址文本信息比对方法是相对的,硬分层级比对至少一层比对结果不一致则相似度结果数值直接输出为0,而软分层级比对相似度数值有缓冲区域,每一种规则都会对整个详细地址相似度的比对结果贡献一部分数值比例;软分层级比对比较符合实际情况,有时地址文本信息比对需要进行适当的模糊匹配,以增加比对方法的召回率,防止相似度比对结果不全面的情况。
例如,对于地址一:Number 17-18,YingBin Road,JingChu Industrial Park和地址二:Number 17,YingBin Road,JingChu Industrial Park,如果采用硬分层级比对方案,则Number 17-18和Number 17是不相同的,因此相似度比对结果输出为0,这是不太合理的;而采用软分层级比对方案,这里的Number 17-18和Number 17软分层级规则对整体详细地址文本信息比对的相似度比对结果贡献数值比例是33.3%,而最终这两个地址文本信息是否一致可以通过后期的人工校对来确认,从而达到防止相似度比对结果不全面的情况发生。
此外,在详细地址文本信息比对方法中,还采用了地址文本信息的最小编辑距离作为详细地址文本信息比对结果没有得出相似度值产生异常后的默认相似度数值;最小编辑距离是指,两个地址文本信息若要变成完全相同的地址文本信息,所需要经过的最少编辑次数。
步骤S33,获取第N层子信息相似度比对方法的权重比值r;
通过
Figure BDA0003212547960000111
计算至少两个地址文本信息的相似度S。
具体地,r可以设置为0.5,公式中的r为第N层子信息相似度比对方法的权重比值,即可以理解为两种详细地址文本信息比对相似度计算方法各占一半的比重。
图3为分层级地址文本相似度比对方法图;
可以理解的,在分层级地址文本相似度比对方法的步骤中,本实施例增加了软分层级详细地址文本信息的对比方法,在达到相似度结果准确的前提下,同时可以兼容非标准、非规范的地址文本信息,从而增加比对方法的召回率,最后详细地址文本信息比对方法计算相似度时采用了“将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配”和“获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离”两种对比方案,增加了比对方法的稳定性。
具体地,实际的地址文本信息比对任务复杂多样,这里适用范围包括但不限于物流地址文本信息解析提取、简体繁体文地址文本信息比对、商户注册地址文本信息校验以及国际性多语种地址文本信息相似度计算等任务。
步骤S4,输出地址文本信息比对结果,并存入数据库。
具体地,步骤S4的实现过程还可以包括:
输出的地址文本信息比对结果包括:ID、地址一、地址二、相似度数值,实际应用中为了节省数据库存储空间,可以不存储相似度数值为0的地址比对结果。
这里,为了检测所述比对方法的鲁棒性,人工创建了中英地址文本信息数据样本,其中包含正样本数据和负样本数据各3,000条示例对,下表为提供的正负地址文本样本格式示意表:
Figure BDA0003212547960000121
Figure BDA0003212547960000131
其中,正样本地址为同一个地址,负样本为不同地址,经过测试统计,定义最终相似度数值s≥0.5的地址文本信息是同一个地址,那么统计测试后可以看出所述比对方法对正样本的准确率为90.3%,负样本准确率为99.4%,结果被认为处于合理范围内,所以通过所述分层级地址文本相似度比对方法计算的相似度数值是准确有效的。
此外,通过测试,在实际应用地址文本信息对比的任务中,所述比对方法整体比对的平均耗时为12ms,在大规模存量地址数据筛查时,通过测试比对了2,000条英文地址文本和400,000条中文地址进行地址文本信息之间的交叉比对任务,比对任务的实际耗时为40分钟左右,可以满足数据当天更新的需求。
本发明实施例的分层级地址文本相似度比对方法作为PySpark大数据的地址文本历史回溯筛查方法,与ModelX接口对应进行客户地址和黑名单地址筛查比对任务,同时所述正负样本地址数据在AI训练平台内的net_project_disk磁盘中存储,所述分层级地址文本相似度比对方法的比对性能和稳定性均符合常规业务需求。
本发明实施例提供的技术方案接收待比对的至少两个地址文本信息,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本发明能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
实施例三
本发明提供了一种分层级地址文本相似度比对装置,如图4所示,所述装置包括接收模块、处理模块、检测模块、比对模块、输出模块。
在本实施例中,接收模块接收待比对的至少两个地址文本信息;处理模块对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;比对模块根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对;输出模块输出地址文本信息比对结果,并存入数据库。
进一步地,处理模块用于将每个待处理的地址文本信息分为N层子信息,其中第1至N-1层为非详细子信息,第N层为详细子信息。
进一步地,比对模块用于将待比对的至少两个地址文本信息的第1至N-1层非详细子信息一一进行比对。
进一步地,检测模块用于若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;
若每一层的比对结果均一致,则对第N层子信息进行比对。
进一步地,比对模块还用于将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;
获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数;
获取第N层子信息相似度比对方法的权重比值r;
通过
Figure BDA0003212547960000141
计算至少两个地址文本信息的相似度S。
进一步地,处理模块用于对接收的待比对的至少两个地址文本信息进行格式化,并提取所述文本信息的地址层信息。
进一步地,处理模块还可用于对地址文本信息中缺失的信息进行补全;
和/或
对英文地址文本信息进行规范化表述。
进一步地,处理模块还可用于将不同语种的待比对的至少两个地址文本信息翻译成统一的语种地址文本信息。
进一步地,检测模块还可用于判断接收的地址文本信息是否是单个地址文本信息,若是,则不需要翻译,将格式化后的单个地址文本信息存入数据库;
若否,则需要对接收的至少两个地址文本信息的对应语种的文本信息情况进行统一化处理。
进一步地,处理模块还可用于对不同语种的地址文本信息互译的模式统一规定为将中文翻译成英文模式。
本发明实施例提供的技术方案带来的有益效果是:
通过接收待比对的至少两个地址文本信息,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本发明能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
实施例四
本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时可以实现分层级地址文本相似度比对方法:接收待比对的至少两个地址文本信息;对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
实施例五
本发明提供了一种计算机存储介质,在存储器上存储有计算机程序,并在存储器执行所述计算机程序时实现以下步骤:
接收待比对的至少两个地址文本信息;
对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
进一步地,所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,包括:
将每个待处理的地址文本信息分为N层子信息,其中第1至N-1层为非详细子信息,第N层为详细子信息。
进一步地,所述根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对,包括:
将待比对的至少两个地址文本信息的第1至N-1层非详细子信息一一进行比对;
若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;
若每一层的比对结果均一致,则对第N层子信息进行比对。
进一步地,所述对第N层子信息进行比对,还包括:
将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;
获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数;
获取第N层子信息相似度比对方法的权重比值r;
通过
Figure BDA0003212547960000161
计算至少两个地址文本信息的相似度S。
进一步地,所述对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理之前还包括:
对接收的待比对的至少两个地址文本信息进行格式化,并提取所述文本信息的地址层信息。
进一步地,所述对接收的待比对的至少两个地址文本信息进行格式化,包括:
对地址文本信息中缺失的信息进行补全;
和/或
对英文地址文本信息进行规范化表述。
进一步地,若待比对的至少两个地址文本信息为不同语种时,所述接收的待比对的至少两个地址文本信息进行格式化之后,包括:
将不同语种的待比对的至少两个地址文本信息翻译成统一的语种地址文本信息。
图5为本发明实施例五提供的可被用于实施本申请中所述的各个实施例的示例性系统;
如图5所示,在一些实施例中,系统能够作为各所述实施例中的任意一个用于分层级地址文本相似度比对的上述设备。在一些实施例中,系统可包括具有结果的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备)以及与该一个或多个计算机可读介质耦合并被配置为执行结果以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来结果相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种分层级地址文本相似度比对方法,其特征在于,所述方法包括:
接收待比对的至少两个地址文本信息;
对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
2.根据权利要求1所述的分层级地址文本相似度比对方法,其特征在于,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,包括:
将每个待处理的地址文本信息分为N层子信息,其中第1至N-1层为非详细子信息,第N层为详细子信息。
3.根据权利要求2所述的分层级地址文本相似度比对方法,其特征在于,所述根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对,包括:
将待比对的至少两个地址文本信息的第1至N-1层非详细子信息一一进行比对;
若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;
若每一层的比对结果均一致,则对第N层子信息进行比对。
4.根据权利要求3所述的分层级地址文本相似度比对方法,其特征在于,所述对第N层子信息进行比对,包括:
将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;
获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数;
获取第N层子信息相似度比对方法的权重比值r;
通过
Figure FDA0003212547950000021
计算至少两个地址文本信息的相似度S。
5.根据权利要求1所述的分层级地址文本相似度比对方法,其特征在于,所述对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理之前还包括:
对接收的待比对的至少两个地址文本信息进行格式化,并提取所述文本信息的地址层信息。
6.根据权利要求5所述的分层级地址文本相似度比对方法,其特征在于,所述对接收的待比对的至少两个地址文本信息进行格式化,包括:
对地址文本信息中缺失的信息进行补全;
和/或
对英文地址文本信息进行规范化表述。
7.根据权利要求6所述的分层级地址文本相似度比对方法,其特征在于,若待比对的至少两个地址文本信息为不同语种时,所述接收的待比对的至少两个地址文本信息进行格式化之后,包括:
将不同语种的待比对的至少两个地址文本信息翻译成统一的语种地址文本信息。
8.一种分层级地址文本相似度比对装置,其特征在于,包括:
接收模块接收待比对的至少两个地址文本信息;
处理模块对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
比对模块根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
9.一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被存储器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202110934730.9A 2021-08-16 2021-08-16 一种分层级地址文本相似度比对方法、装置及介质 Pending CN113743080A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110934730.9A CN113743080A (zh) 2021-08-16 2021-08-16 一种分层级地址文本相似度比对方法、装置及介质
CA3170672A CA3170672A1 (en) 2021-08-16 2022-08-16 Method of comparing hierarchical address text similarities, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934730.9A CN113743080A (zh) 2021-08-16 2021-08-16 一种分层级地址文本相似度比对方法、装置及介质

Publications (1)

Publication Number Publication Date
CN113743080A true CN113743080A (zh) 2021-12-03

Family

ID=78731172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110934730.9A Pending CN113743080A (zh) 2021-08-16 2021-08-16 一种分层级地址文本相似度比对方法、装置及介质

Country Status (2)

Country Link
CN (1) CN113743080A (zh)
CA (1) CA3170672A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292342A (zh) * 2022-10-09 2022-11-04 湖北省国土测绘院 一种基于poi数据更新城市用地现状图的方法、系统及设备
CN116306627A (zh) * 2023-02-09 2023-06-23 北京海致星图科技有限公司 多路融合地址相似度计算方法、装置、存储介质和设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118096001A (zh) * 2024-04-26 2024-05-28 青岛冠成软件有限公司 一种货物仓储数据管理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置
CN110598791A (zh) * 2019-09-12 2019-12-20 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质
CN110928971A (zh) * 2019-11-21 2020-03-27 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置
CN111159974A (zh) * 2019-12-30 2020-05-15 北京明略软件系统有限公司 地址信息的标准化方法、装置、存储介质及电子设备
CN111966766A (zh) * 2020-02-18 2020-11-20 上海寻梦信息技术有限公司 地址信息的检测方法、系统、电子设备和存储介质
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112612863A (zh) * 2020-12-23 2021-04-06 武汉大学 一种基于中文分词器的地址匹配方法及系统
CN112818685A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址匹配方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置
CN110598791A (zh) * 2019-09-12 2019-12-20 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质
WO2021047526A1 (zh) * 2019-09-12 2021-03-18 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质
CN110928971A (zh) * 2019-11-21 2020-03-27 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置
CN111159974A (zh) * 2019-12-30 2020-05-15 北京明略软件系统有限公司 地址信息的标准化方法、装置、存储介质及电子设备
CN111966766A (zh) * 2020-02-18 2020-11-20 上海寻梦信息技术有限公司 地址信息的检测方法、系统、电子设备和存储介质
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112612863A (zh) * 2020-12-23 2021-04-06 武汉大学 一种基于中文分词器的地址匹配方法及系统
CN112818685A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址匹配方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292342A (zh) * 2022-10-09 2022-11-04 湖北省国土测绘院 一种基于poi数据更新城市用地现状图的方法、系统及设备
CN115292342B (zh) * 2022-10-09 2022-12-20 湖北省国土测绘院 一种基于poi数据更新城市用地现状图的方法、系统及设备
CN116306627A (zh) * 2023-02-09 2023-06-23 北京海致星图科技有限公司 多路融合地址相似度计算方法、装置、存储介质和设备

Also Published As

Publication number Publication date
CA3170672A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
CN113743080A (zh) 一种分层级地址文本相似度比对方法、装置及介质
CN110020433B (zh) 一种基于企业关联关系的工商高管人名消歧方法
CN112347222B (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
CN110765773A (zh) 地址数据获取方法以及装置
CN107122415B (zh) 地名地址库数据融合集成的系统
CN112988715B (zh) 一种基于开源方式的全球网络地名数据库的构建方法
WO2019069505A1 (ja) 情報処理装置、結合条件生成方法および結合条件生成プログラム
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN112907358A (zh) 贷款用户信用评分方法、装置、计算机设备和存储介质
KR102017229B1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
CN113157978B (zh) 数据的标签建立方法和装置
CN106649875B (zh) 舆情大数据的可视化系统
CN112818072A (zh) 旅游知识图谱更新方法、系统、设备及存储介质
CN111144429B (zh) 对象分类方法及其系统、计算机系统及计算机可读介质
CN111523433A (zh) 快件末端地址的标准化处理方法、装置和设备
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN111125272B (zh) 一种区域特征获取方法、装置、计算机设备及介质
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
CN113377887A (zh) 一种地图数据更新方法、装置、电子设备及存储介质
CN111198912A (zh) 一种地址数据处理方法及其装置
CN114780682B (zh) 一种解析数据评估方法、设备及介质
JP2003223459A (ja) 住所情報の管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination