CN114048797A - 确定地址相似度的方法、装置、介质及电子设备 - Google Patents
确定地址相似度的方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN114048797A CN114048797A CN202111223452.2A CN202111223452A CN114048797A CN 114048797 A CN114048797 A CN 114048797A CN 202111223452 A CN202111223452 A CN 202111223452A CN 114048797 A CN114048797 A CN 114048797A
- Authority
- CN
- China
- Prior art keywords
- address information
- administrative division
- similarity
- standardized
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Abstract
本公开涉及一种确定地址相似度的方法、装置、介质及电子设备。确定地址相似度的方法,包括:获取待处理的至少两个地址信息;对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,其中,每个所述标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息;基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度。通过本公开,可满足用户针对地址相似度查询的个性化需求,提升确定地址相似度的适用范围。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及一种确定地址相似度的方法、装置、介质及电子设备。
背景技术
地址信息是常用的企业注册信息,在查看两家企业是否属于同一地区时,通常要计算地址信息相似度。但企业在注册信息时填写的格式不统一和规范,地址信息中省市名称包含有全称或简称,一些企业注册信息省略了省市等信息,对地址信息的相似度计算带来负面影响。
目前确定地址信息的相似度时,一般基于文本相似度的方法直接计算两个地址之间的相似度,该方法没有考虑到地址信息本身存在的行政区划的包含信息,并且在地址长度不同的时候,对相似度的影响较大。而且,当需要对企业地址分布进行分析时,并不能灵活地根据用户的实际需求对地址相似度进行计算,造成用户统计、分析的不便。
发明内容
本公开的目的是提供一种确定地址相似度的方法、装置、介质及电子设备。
为了实现上述目的,第一方面,本公开提供一种确定地址相似度的方法,包括:
获取待处理的至少两个地址信息;
对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,其中,每个所述标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息;
基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度。
可选地,所述对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,包括:
按照行政区划级别由高到低的顺序,从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息;
将所述地址信息中的除所述行政区划地址信息之外的信息作为所述详细地址信息。
可选地,所述从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息,包括:
从行政区划分级词库中依次识别所述地址信息中包括的省市区的行政区划级,得到识别成功的行政区划级别;
依据所述地址信息中的识别成功的行政区划级别对未识别成功的行政区划级别进行补全,得到全部行政区划级别;
将所述全部行政区划级别,作为所述行政区划地址信息。
可选地,基于所述标准化地址信息中的所述行政区划地址信息,确定对应的所述地址信息之间的相似度,包括:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
至少根据与行政区划级别对应的每一第一相似度值,得到两个标准化地址信息之间的相似度。
可选地,基于所述标准化地址信息中的所述详细地址信息,确定对应的所述地址信息之间的相似度,包括:
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
至少根据所述第二相似度值,得到两个标准化地址信息之间的相似度。
可选地,基于所述标准化地址信息中的所述行政区划地址信息和所述详细地址信息,确定对应的所述地址信息之间的相似度,包括:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度,包括:
获取对应行政区划级别的权重系数和详细地址信息的权重系数;
根据与行政区划级别对应的每一第一相似度值和对应的权重系数,以及与详细地址信息对应的第二相似度值和对应的权重系数,对每一第一相似度值和第二相似度值进行加权处理,得到加权后的目标相似度值;
将所述目标相似度值作为两个标准化地址信息之间的相似度。
第二方面,本公开提供一种确定地址相似度的装置,包括:
获取模块,用于获取待处理的至少两个地址信息;
处理模块,用于对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,其中,每个所述标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息;
确定模块,用于基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度。
可选地,所述处理模块采用如下方式对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息:
按照行政区划级别由高到低的顺序,从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息;
将所述地址信息中的除所述行政区划地址信息之外的信息作为所述详细地址信息。
可选地,所述处理模块采用如下方式从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息:
从行政区划分级词库中依次识别所述地址信息中包括的省市区的行政区划级,得到识别成功的行政区划级别;
依据所述地址信息中的识别成功的行政区划级别对未识别成功的行政区划级别进行补全,得到全部行政区划级别;
将所述全部行政区划级别,作为所述行政区划地址信息。
可选地,所述确定模块采用如下方式基于所述标准化地址信息中的所述行政区划地址信息,确定对应的所述地址信息之间的相似度:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
至少根据与行政区划级别对应的每一第一相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述确定模块用于采用如下方式基于所述标准化地址信息中的所述详细地址信息,确定对应的所述地址信息之间的相似度:
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
至少根据所述第二相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述确定模块采用如下方式基于所述标准化地址信息中的所述行政区划地址信息和所述详细地址信息,确定对应的所述地址信息之间的相似度:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述确定模块采用如下方式根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度:
获取对应行政区划级别的权重系数和详细地址信息的权重系数;
根据与行政区划级别对应的每一第一相似度值和对应的权重系数,以及与详细地址信息对应的第二相似度值和对应的权重系数,对每一第一相似度值和第二相似度值进行加权处理,得到加权后的目标相似度值;
将所述目标相似度值作为两个标准化地址信息之间的相似度。
通过上述技术方案,通过获取待处理的至少两个地址信息,并对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息之后,基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度,可满足用户针对地址相似度查询的个性化需求,提升确定地址相似度的适用范围。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种确定地址相似度的方法的流程图。
图2是根据一示例性实施例示出的一种确定地址相似度的方法的框图。
图3是根据一示例性实施例示出的一种装置的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种确定地址相似度的方法的流程图,如图1所示,确定地址相似度的方法包括以下步骤。
在步骤S11中,获取待处理的至少两个地址信息。
在步骤S12中,对每个地址信息进行标准化处理,得到与每个地址信息对应的标准化地址信息。
本公开中,每个标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息。
本公开中涉及的行政区划地址信息可以是具有省、市、区级别的行区域的地址信息。也可以具有省、市、区、县、街道级别的行政区域的地址信息,等等。
一种实施方式中,可通过如下方式对每个地址信息进行标准化处理,得到与每个地址信息对应的标准化地址信息:
按照行政区划级别由高到低的顺序,从行政区划分级词库中依次识别地址信息,得到行政区划地址信息,将地址信息中的除行政区划地址信息之外的信息作为详细地址信息。
其中,行政区划分级词库是基于全国行政区划数据中省市区之间的包含关系确定得到。行政区划分级词库中可以包括标准的行政区划级别以及与标准的行政区划级别对应的缺省的行政区划级别和不标准的行政区划级别。
一种实施方式中,例如可通过如下方式从行政区划分级词库中依次识别地址信息,得到行政区划地址信息:
从行政区划分级词库中依次识别地址信息中包括的省市区的行政区划级,得到识别成功的行政区划级别,依据所述地址信息中的识别成功的行政区划级别对未识别成功的行政区划级别进行补全,得到全部行政区划级别,将全部行政区划级别,作为行政区划地址信息。
例如,获取的地址信息为:“海淀区知春路65号院”,先从行政区划分级词库中识别省级行政区划和市级行政区划,都没有匹配数据,然后从行政区划分级词库中识别区级行政区划,通过行政等级“海淀”匹配得到“海淀区”,然后通过“海淀区”这一区级行政区划信息,对未识别成功的省级行政区划和市级行政区划进行补全,即根据“海淀区”反查得到省级行政区划和市级行政区划分别为“北京市”、“北京市”,最终得到全部行政区划级别(包括省市区),即为(省)北京市、(市)北京市和(区)海淀区。将(省)北京市、(市)北京市和(区)海淀区作为用户输入的地址信息“海淀区知春路65号院”的行政区划地址信息。将知春路65号院作为用户输入的地址信息“海淀区知春路65号院”的详细地址信息。
在步骤S13中,基于标准化地址信息中的行政区划地址信息和/或详细地址信息,确定对应的地址信息之间的相似度。
一种实施方式中,基于标准化地址信息中的行政区划地址信息,可通过如下方式确定对应的所述地址信息之间的相似度:
基于完全匹配方式,确定两个标准化地址信息中同一行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值,至少根据与行政区划级别对应的每一第一相似度值,得到两个标准化地址信息之间的相似度。
例如,一个标准化地址信息包括的行政区划地址信息为“北京市海淀区”,另一个标准化地址信息包括的行政区划地址信息为“北京市朝阳区”,基于完全匹配的方式,得到同一行政区划级别“北京市”和“北京市”的地址相似度为1,得到同一行政区划级别“海淀区”和“朝阳区”的地址相似度为0,所以基于完全匹配的方式得出两个标准地址信息之间的相似度为0。
一种实施方式中,针对具有相同行政区域的不同详细地址的两个标准化地址信息,为了快速确定两个地址信息之间相似度,并减少对地址相似度的计算量,可基于所述标准化地址信息中的所述详细地址信息,通过如下方式确定对应的所述地址信息之间的相似度:
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值,根据第二相似度值,得到两个标准化地址信息之间的相似度。
例如,针对标准化地址信息为北京市海淀区知春路65号院,和标准化地址信息为北京市海淀区西三环北路,基于计算文本相似度的方式确定上述两个标准化信息中详细地址信息之间的相似度,得到两个标准化地址信息之间的相似度。具体地,可通过匹配长度之和的2倍除以地址长度之和计算。例如上述两个标准化地址中的详细地址信息分别为“知春路65号院”“西三环北路”,由于两个详细地址信息中均包括“路”,故两个文本的匹配长度之和为1,地址长度之和为12,将匹配长度之和的2倍(2)除以地址长度之和(12),计算相似度为2/12,结果为0.167。即两个标准化地址信息之间的相似度为0.167。
一种实施方式中,基于所述标准化地址信息中的所述行政区划地址信息和所述详细地址信息,可通过如下方式确定对应的所述地址信息之间的相似度:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值,之后基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值。根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度。
其中,可通过如下方式根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度:
获取对应行政区划级别的权重系数和详细地址信息的权重系数,根据与行政区划级别对应的每一第一相似度值和对应的权重系数,以及与详细地址信息对应的第二相似度值和对应的权重系数,对每一第一相似度值和第二相似度值进行加权处理,得到加权后的目标相似度值,将所述目标相似度值作为两个标准化地址信息之间的相似度。
例如为了均衡行政区划级别和详细地址,可以将对应行政区划地址信息和详细地址信息的权重均设置为1。或者为了突出详细地址的权重,可以将省市区的权重系数设置为0.5,详细地址的权重设置为0.9。
例如针对标准化地址信息为北京市海淀区知春路65号院,和标准化地址信息为北京市朝阳区东三环北路,基于计算文本相似度的方式确定上述两个标准化信息中详细地址信息之间的相似度,可通过匹配长度之和的2倍除以地址长度之和计算。例如上述两个标准化地址中的详细地址信息分别为“知春路65号院”“东三环北路”,由于两个详细地址信息中均包括“路”,故两个文本的匹配长度之和为1,地址长度之和为12,将匹配长度之和的2倍(2)除以地址长度之和(12),计算相似度为2/12,结果为0.167。也可以使用其他的计算文本相似度的方式,如杰卡德相似度,将两个地址信息中文本的交集与文本的并集的比值作为详细地址信息之间的相似度,举例说明,两个详细地址信息“知春路65号院”和“东三环北路”的交集有“路”是1,并集是11,则计算相似度为1/11,结果为0.091。当然还可以使用最小编辑距离加一取倒数、海明距离加一取倒数等方式计算文本相似度。
之后,根据上述两个标准化地址“北京市海淀区知春路65号院”和“北京市朝阳区北三环东路”中每一个第一相似度值即包括省、市和区的相似度值(1,1,0)和第二相似度值(例如取第一种计算方式得到的)0.167,将对应行政区划级别的权重系数和详细地址信息的权重系数均设置为1,得到加权后的目标相似度值:
(1+1+0+0.167)/4=0.541
将目标相似度值(0.541)作为上述两个标准化地址信息之间的相似度。
进一步地,还可以设置相似度阈值,将两个标准化地址信息之间的相似度值与预设的相似度阈值进行比较,若两个标准化地址信息之间的相似度值大于相似度阈值,则确定两个标准化地址信息为相似地址信息。
例如,设置的相似度阈值为0.76,针对上述例子,将目标相似度值(0.541)与预设的相似度阈值(0.76)进行比较,可以得到目标相似度值小于相似度阈值0.76,则确定两个标准化地址信息为不相似地址信息。
在本公开的示例性实施例中,通过获取待处理的至少两个地址信息,并对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息之后,基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度,可满足用户针对地址相似度查询的个性化需求,提升确定地址相似度的适用范围。
图2是根据一示例性实施例示出的一种确定地址相似度的装置200的框图。参照图2,确定地址相似度的装置,包括:
获取模块201,用于获取待处理的至少两个地址信息;
处理模块202,用于对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,其中,每个所述标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息;
确定模块203,用于基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度。
可选地,所述处理模块202采用如下方式对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息:
按照行政区划级别由高到低的顺序,从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息;
将所述地址信息中的除所述行政区划地址信息之外的信息作为所述详细地址信息。
可选地,所述处理模块202采用如下方式从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息:
从行政区划分级词库中依次识别所述地址信息中包括的省市区的行政区划级,得到识别成功的行政区划级别;
依据所述地址信息中的识别成功的行政区划级别对未识别成功的行政区划级别进行补全,得到全部行政区划级别;
将所述全部行政区划级别,作为所述行政区划地址信息。
可选地,所述确定模块203采用如下方式基于所述标准化地址信息中的所述行政区划地址信息,确定对应的所述地址信息之间的相似度:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
至少根据与行政区划级别对应的每一第一相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述确定模块203用于采用如下方式基于所述标准化地址信息中的所述详细地址信息,确定对应的所述地址信息之间的相似度:
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
至少根据所述第二相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述确定模块203采用如下方式基于所述标准化地址信息中的所述行政区划地址信息和所述详细地址信息,确定对应的所述地址信息之间的相似度:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度。
可选地,所述确定模块203采用如下方式根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度:
获取对应行政区划级别的权重系数和详细地址信息的权重系数;
根据与行政区划级别对应的每一第一相似度值和对应的权重系数,以及与详细地址信息对应的第二相似度值和对应的权重系数,对每一第一相似度值和第二相似度值进行加权处理,得到加权后的目标相似度值;
将所述目标相似度值作为两个标准化地址信息之间的相似度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种电子设备700的框图。如图3所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的确定地址相似度的方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的确定地址相似度的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的确定地址相似度的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的确定地址相似度的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的确定地址相似度的方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的确定地址相似度的方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的确定地址相似度的方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种确定地址相似度的方法,其特征在于,包括:
获取待处理的至少两个地址信息;
对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,其中,每个所述标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息;
基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,包括:
按照行政区划级别由高到低的顺序,从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息;
将所述地址信息中的除所述行政区划地址信息之外的信息作为所述详细地址信息。
3.根据权利要求2所述的方法,其特征在于,所述从行政区划分级词库中依次识别所述地址信息,得到所述行政区划地址信息,包括:
从行政区划分级词库中依次识别所述地址信息中包括的省市区的行政区划级,得到识别成功的行政区划级别;
依据所述地址信息中的识别成功的行政区划级别对未识别成功的行政区划级别进行补全,得到全部行政区划级别;
将所述全部行政区划级别,作为所述行政区划地址信息。
4.根据权利要求1所述的方法,其特征在于,基于所述标准化地址信息中的所述行政区划地址信息,确定对应的所述地址信息之间的相似度,包括:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
至少根据与行政区划级别对应的每一第一相似度值,得到两个标准化地址信息之间的相似度。
5.根据权利要求1所述的方法,其特征在于,基于所述标准化地址信息中的所述详细地址信息,确定对应的所述地址信息之间的相似度,包括:
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
至少根据所述第二相似度值,得到两个标准化地址信息之间的相似度。
6.根据权利要求1所述的方法,其特征在于,基于所述标准化地址信息中的所述行政区划地址信息和所述详细地址信息,确定对应的所述地址信息之间的相似度,包括:
基于完全匹配方式,确定两个标准化地址信息中相同行政区划级别之间的相似度值,得到与行政区划级别对应的第一相似度值;
基于计算文本相似度的方式,确定两个标准化地址信息对应的详细地址信息之间的第二相似度值;
根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据与行政区划级别对应的每一第一相似度值、与详细地址信息对应的第二相似度值,得到两个标准化地址信息之间的相似度,包括:
获取对应行政区划级别的权重系数和详细地址信息的权重系数;
根据与行政区划级别对应的每一第一相似度值和对应的权重系数,以及与详细地址信息对应的第二相似度值和对应的权重系数,对每一第一相似度值和第二相似度值进行加权处理,得到加权后的目标相似度值;
将所述目标相似度值作为两个标准化地址信息之间的相似度。
8.一种确定地址相似度的装置,其特征在于,包括:
获取模块,用于获取待处理的至少两个地址信息;
处理模块,用于对每个所述地址信息进行标准化处理,得到与每个所述地址信息对应的标准化地址信息,其中,每个所述标准化地址信息包括具有行政区划级别的行政区划地址信息和不具有行政区划级别的详细地址信息;
确定模块,用于基于所述标准化地址信息中的所述行政区划地址信息和/或所述详细地址信息,确定对应的所述地址信息之间的相似度。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223452.2A CN114048797A (zh) | 2021-10-20 | 2021-10-20 | 确定地址相似度的方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223452.2A CN114048797A (zh) | 2021-10-20 | 2021-10-20 | 确定地址相似度的方法、装置、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048797A true CN114048797A (zh) | 2022-02-15 |
Family
ID=80205724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111223452.2A Pending CN114048797A (zh) | 2021-10-20 | 2021-10-20 | 确定地址相似度的方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048797A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306627A (zh) * | 2023-02-09 | 2023-06-23 | 北京海致星图科技有限公司 | 多路融合地址相似度计算方法、装置、存储介质和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649803A (zh) * | 2016-12-29 | 2017-05-10 | 华南师范大学 | 一种地址匹配方法及系统 |
US20170337292A1 (en) * | 2015-02-13 | 2017-11-23 | Alibaba Group Holding Limited | Text address processing method and apparatus |
CN109739997A (zh) * | 2019-01-28 | 2019-05-10 | 致诚阿福技术发展(北京)有限公司 | 地址对比方法、装置及系统 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110895651A (zh) * | 2018-08-23 | 2020-03-20 | 北京京东金融科技控股有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
CN111274811A (zh) * | 2018-11-19 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
CN112581252A (zh) * | 2020-12-03 | 2021-03-30 | 信用生活(广州)智能科技有限公司 | 融合多维相似度与规则集合的地址模糊匹配方法及系统 |
-
2021
- 2021-10-20 CN CN202111223452.2A patent/CN114048797A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337292A1 (en) * | 2015-02-13 | 2017-11-23 | Alibaba Group Holding Limited | Text address processing method and apparatus |
CN106649803A (zh) * | 2016-12-29 | 2017-05-10 | 华南师范大学 | 一种地址匹配方法及系统 |
CN110895651A (zh) * | 2018-08-23 | 2020-03-20 | 北京京东金融科技控股有限公司 | 地址标准化处理方法、装置、设备及计算机可读存储介质 |
CN111274811A (zh) * | 2018-11-19 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
CN109739997A (zh) * | 2019-01-28 | 2019-05-10 | 致诚阿福技术发展(北京)有限公司 | 地址对比方法、装置及系统 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN112581252A (zh) * | 2020-12-03 | 2021-03-30 | 信用生活(广州)智能科技有限公司 | 融合多维相似度与规则集合的地址模糊匹配方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306627A (zh) * | 2023-02-09 | 2023-06-23 | 北京海致星图科技有限公司 | 多路融合地址相似度计算方法、装置、存储介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10095711B2 (en) | Method and apparatus of recommending candidate terms based on geographical location | |
US20120296865A1 (en) | Terminal device and word stock update method thereof | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
US20130238332A1 (en) | Automatic input signal recognition using location based language modeling | |
US20190124179A1 (en) | Adding conversation context from detected audio to contact records | |
CN110619039A (zh) | 一种房产信息的校验方法、装置、存储介质及电子设备 | |
CN111522838A (zh) | 地址相似度计算方法及相关装置 | |
CN111597279B (zh) | 基于深度学习的信息预测方法及相关设备 | |
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
US8396877B2 (en) | Method and apparatus for generating a fused view of one or more people | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
CN114048797A (zh) | 确定地址相似度的方法、装置、介质及电子设备 | |
US11347821B2 (en) | Real-time generation of an improved graphical user interface for overlapping electronic content | |
CN110737820A (zh) | 用于生成事件信息的方法和装置 | |
CN108830298B (zh) | 一种确定用户特征标签的方法及装置 | |
US20220215054A1 (en) | Merging Point-of-Interest Datasets for Mapping Systems | |
CN116303937A (zh) | 回复方法、装置、电子设备及可读存储介质 | |
GB2513642A (en) | Content Distribution | |
CN111126120B (zh) | 城市区域分类方法、装置、设备和介质 | |
CN113722580A (zh) | 地址信息处理方法、装置、电子设备和计算机可读介质 | |
CN112749169A (zh) | 地址树构建方法、地址规划规范方法、装置和电子设备 | |
CN109241208B (zh) | 地址定位、地址监测、信息处理方法及装置 | |
CN111984748A (zh) | 地址信息处理方法和装置、存储介质及电子设备 | |
CN111581228A (zh) | 更正搜索条件的搜索方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230801 Address after: 224008 Rooms 404-405 and 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224008 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNK) Applicant before: Yancheng Jindi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |