CN105988988A - 文本地址处理方法及装置 - Google Patents

文本地址处理方法及装置 Download PDF

Info

Publication number
CN105988988A
CN105988988A CN201510079914.6A CN201510079914A CN105988988A CN 105988988 A CN105988988 A CN 105988988A CN 201510079914 A CN201510079914 A CN 201510079914A CN 105988988 A CN105988988 A CN 105988988A
Authority
CN
China
Prior art keywords
address
urtext
feature
text
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510079914.6A
Other languages
English (en)
Inventor
熊军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510079914.6A priority Critical patent/CN105988988A/zh
Priority to SG11201706625YA priority patent/SG11201706625YA/en
Priority to PCT/CN2016/073441 priority patent/WO2016127904A1/zh
Priority to EP16748705.7A priority patent/EP3258397A1/en
Priority to JP2017542458A priority patent/JP6594988B2/ja
Priority to KR1020177025509A priority patent/KR102079860B1/ko
Priority to SG10201907254XA priority patent/SG10201907254XA/en
Publication of CN105988988A publication Critical patent/CN105988988A/zh
Priority to US15/675,177 priority patent/US10795964B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种文本地址处理方法及装置。方法包括:根据业务系统中用户的社会关系圈,确定至少一个地址集合,每个地址集合包括:至少两个原始文本地址;对于每个地址集合,对地址集合中的原始文本地址进行归一化处理,以获得地址集合对应的目标文本地址。本申请以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面相当于缩小了待归一化的原始文本地址的范围,另一方面相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,可以更加容易地把控文本地址之间的容错边界,有利于提高归一化结果的准确性。

Description

文本地址处理方法及装置
【技术领域】
本申请涉及通信技术领域,尤其涉及一种文本地址处理方法及装置。
【背景技术】
随着互联网技术的发展,基于互联网的应用越来越广泛。在互联网应用中,经常需要用户以文本方式填写一些地址信息,例如家庭住址、公司地址等。将用户对地址信息的文本描述方式简称为文本地址。用户以文本方式填写地址信息时,一般都有自己的描述习惯,且不同用户的描述习惯一般不同,这就导致同一地址信息对应不同的文本地址。例如,对于“一号楼一单元”这样的地址信息,有的用户会描述成“101”,有的用户会描述成“1-01”,有的用户会描述成“一号楼一单元”等,导致同一地址信息出现多种文本地址。
为了便于对地址信息进行管理和应用(例如可以基于地址信息做一些应用挖掘等),需要对文本地址进行归一化处理,即需要将对应同一地址信息的不同文本地址统一成一个文本地址。现有为本地址归一化的思路主要是:确定所有需要进行归一化的文本地址,提取文本地址所包含的标准片段,然后基于文本地址所包含的标准片段两两计算相关度,基于两个文本地址的相关度确定两个文本地址是否应该被归一化。
由于文本地址本身存在多样性,对于描述同一地址信息的不同文本地址的文本内容可能差异较大,而描述不同地址信息的文本地址在文本内容上可能差异较小,基于此,若需要进行归一化处理的文本地址数量较多,就会使容错边界难以把控,导致文本地址的归一化结果的准确率较低。
【发明内容】
本申请的多个方面提供一种文本地址处理方法及装置,用以提高文本地址的归一化结果的准确率。
本申请的一方面,提供一种文本地址处理方法,包括:
根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;
对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
本申请的另一方面,提供一种文本地址处理装置,包括:
确定模块,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;
归一化模块,用于对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
在本申请中,根据业务系统中用户的社会关系圈,确定至少一个地址集合,之后以地址集合为单位,分别对每个地址集合中的原始文本地址进行归一化处理,以获得每个地址集合对应的目标文本地址,实现对文本地址的归一化处理。由于以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面将待归一化的原始文本地址的范围限定在了用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的文本地址处理方法的流程示意图;
图2为本申请一实施例提供的归一化过程图示示意图;
图3为本申请一实施例提供的文本地址处理装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的文本地址处理方法的流程示意图。如图1所示,该方法包括:
101、根据业务系统中用户的社会关系圈,确定至少一个地址集合,至少一个地址集合中的每个地址集合包括:至少两个原始文本地址。
102、对于每个地址集合,对该地址集合中的原始文本地址进行归一化处理,以获得该地址集合对应的目标文本地址。
本实施例提供一种文本地址处理方法,可由文本地址处理装置来执行。本实施例提供的方法主要用于对文本地址进行归一化处理。
首先说明,本实施例中的文本地址是指对地址信息的文本描述。不同文本地址可能是对同一地址信息的文本描述。另外,为便于描述和区分,本实施例将归一化之前的文本地址称为原始文本地址,将归一化之后得到的文本地址称为目标文本地址。无论是原始文本地址还是目标文本地址,都是对地址信息的文本描述。
通常,只有在有归一化需求时,才会对文本地址进行归一化处理。而对文本地址进行归一化处理的需求,通常是针对某个或某些业务系统的。简单来说就是,需要针对某个或某些业务系统,对与之相关的文本地址进行归一化,以便于通过归一化的文本地址进行新的业务或新的业务需求的挖掘,或者进行有关信息的统计分析等。
值得说明的是,本实施例并不对业务系统进行限制,该业务系统可以是各种会涉及到文本地址的业务系统,例如可以是电子商务系统、在线支付系统、即时通讯系统、电子邮件系统等等。
在进行文本地址归一化处理之前,需要确定与业务系统相关的待归一化处理的原始文本地址。在本申请中,根据业务系统中用户的社会关系圈,确定与业务系统相关的原始文本地址。对一用户来说,其社会关系圈主要包括与该用户存在关联关系的其他用户。优选的,可以从与该用户存在关联关系的其他用户中,选择关联关系较密切的其他用户作为该用户的社会关系圈。举例说明,获取用户的社会关系圈可以采用以下至少一种方式:
获取与该用户存在资金往来(例如转账)的其他用户作为该用户的社会关系圈中的用户;优选的,可以获取与该用户的转账频次或者金额超过一定的阈值的其他用户作为该用户的社会关系圈中的用户;
获取该用户的通讯录中里面的其他用户作为该用户的社会关系圈中的用户;一般用户授权后,各应用都可以读取到的用户的通讯录;
获取通过即时通讯工具与该用户进行通讯的其他用户作为该用户的社会关系圈中的用户;即时通讯工具包括但不限于微信、QQ等;优选的,获取与该用户的互动频次或通讯时长超过一定的阈值的其他用户作为该用户的社会关系圈中的用户;
获取与该用户使用同一台设备的其他用户作为该用户的社会关系圈中的用户,这里的设备可以包括电脑、手机、WIFI等,优选的,获取与该用户使用同一台设备的频次或时长超过一定阈值的其他用户作为该用户的社会关系圈中的用户。
具体的,当需要进行文本地址归一化处理时,文本地址处理装置根据业务系统中用户的社会关系圈,确定至少一个地址集合。其中,每个地址集合包括至少两个原始文本地址。在该过程中,除了根据用户的社会关系圈确定与业务系统相关的原始文本地址之外,同时对与该业务系统有关的原始文本地址进行了划分,将与业务系统相关的原始文本地址划分到不同的地址集合中。
在一种可选实施方式中,可以根据业务系统中的用户数量来确定地址集合的数量,例如一个用户对应一个地址集合。
具体的,对业务系统中的每个用户来说,文本地址处理装置首先需要确定该用户的社会关系圈(具体可以采用前面描述的方式确定用户的社会关系圈);然后,获取该用户曾经使用的地址信息以及该用户的社会关系圈中的用户曾经使用的地址信息,作为一个地址集合。
对于每个地址集合,文本地址处理装置对该地址集合中的原始文本地址进行归一化处理,从而获得该地址集合对应的目标文本地址。这相当于将文本地址的归一化处理限制在每个地址集合内,一方面相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的地址信息之间,这两方面使得文本地址处理装置可以更加容易的把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
在一可选实施方式中,对于每个地址集合,文本地址处理装置对该地址集合中的原始文本地址进行归一化处理,以获得该地址集合对应的目标文本地址的过程包括:
文本地址处理装置根据该地址集合中的每两个原始文本地址的特征,计算每两个原始文本地址的相似度;根据每两个原始文本地址的相似度,确定每两个原始文本地址是否可以归一化成每两个原始文本地址中的一个,以获得该地址集合对应的目标文本地址。
值得说明的是,地址集合对应的目标文本地址可以是一个或多个。
具体的,对于一个地址集合来说,文本地址处理装置对该地址集合中每两个原始文本地址进行特征提取,以获得每两个原始文本地址的特征;之后,根据提取的每两个原始文本地址的特征,计算每两个原始文本地址之间的相似度;进一步根据每两个原始文本地址的相似度,确定每两个原始文本地址是否可以归一化成每两个原始文本地址中的一个。
可选的,本实施例所采用的原始文本地址的特征可以包括:标准片段特征、经纬度特征和字母数字特征中的至少一个。
基于上述,对于一个地址集合来说,文本地址处理装置对该地址集合中每两个原始文本地址进行特征提取,以获得每两个原始文本地址的标准片段特征、经纬度特征以及字母数字特征中的至少一个特征;对于至少一个特征中的每个特征,根据该特征,计算每两个原始文本地址对应于该特征的相似度;进一步根据每两个原始文本地址对应于每个特征的相似度,来判断每两个原始文本地址是否应该被归一化成其中一个。
其中,标准片段特征具体反映原始文本地址所包括的标准地址片段。例如,可以对原始文本地址进行结构化解析,以获得原始文本地址所包括的标准片段。在本实施例中,可以预先将文本地址划分为24个标准地址片段。例如,可以对原始文本地址进行结构化分析,以获得原始文本地址包括24个标准片段中的哪些片段。24个标准片段包括如:省、市、区、开发区、路等片段信息。
经纬度特征具体可以反映原始文本地址所描述的地址信息的经纬度信息。例如,可以利用高德的Geocoding技术来提取原始文本地址的经纬度特征。Geocoding技术是基于空间定位技术的一种编码方法,它提供了一种把文本地址转换成可以被用于地理信息系统(GIS)的地理坐标的方式,具体描述可参见现有技术。
字母数字特征具体可以反映原始文本地址中包含的字母和/或数字。该字母数字特征可以直接从原始文本地址中提取获得。
对上述标准片段特征、经纬度特征和字母数字特征中的至少一个特征中的每个特征:
若该特征为标准片段特征,则文本地址处理装置可以采用SimHash算法对每两个原始文本地址的标准片段特征进行处理,获得每两个原始文本地址在标准片段特征维度上的相似度。
SimHash算法的主要思想是特征降维,将高维度的标准片段特征映射成一个低维度的标准片段特征,然后通过比较两个低纬度的标准片段特征的汉明距离,来确定两个低纬度的标准片段特征所标识的两个文本地址是否重复或者是否高度近似。其中,两个码字的对应比特取值不同的比特数称为这两个码字的汉明距离。在一个有效编码集中,任意两个码字的汉明距离的最小值称为该编码集的汉明距离。举例说明:码字10101和码字00110从第一位开始依次有第一位、第四位、第五位不同,则汉明距离为3。
若上述特征为经纬度特征,则文本地址处理装置可以采用经纬度距离算法对每两个原始文本地址的经纬度特征进行处理,获得每两个原始文本地址在经纬度特征维度上的相似度。
具体的,文本处理装置可以根据两个原始文本地址的经纬度特征,计算两个原始文本地址所描述的地址信息之间的距离,根据距离确定两个原始文本地址在经纬度特征维度上的相似度。
在实际应用中,部分用户描述的原始文本地址可能可以精确到地图上的点,部分用户描述的原始文本地址可能只能精确到地图上的线,甚至部分用户描述的原始文本地址可能只能精准到地图上的面,由于粒度不一致,若从地图的角度对原始文本地址进行归一化,只能从最粗粒度上进行归一化,导致归一化结果的精度不够。而本实施例将原始文本地址映射到经纬度上,由于所有文本地址都可以映射到经纬度,且经纬度的粒度相对较细,这相当于将归一化处理统一到了一个相对较细的粒度上,有利于提高归一化结果的精确度。
若上述特征为字母数字特征,则文本地址处理装置可以采用杰卡德(Jaccard)系数算法对每两个原始文本地址的字母数字特征进行处理,获得每两个原始文本地址在字母数字特征维度上的相似度。
Jaccard系数主要用来比较样本集中的相似性和分散性的一个概率。Jaccard系数等于样本集合的交集与样本集合的并集的比值,即J=|A∩B|/|A∪B|。其中,上述一个原始文本地址的字母数字特征作为一个样本集合,字母数字特征中的字母和/或数字作为样本集合中的元素。
基于上述每两个原始文本地址在标准片段特征维度上的相似度、在经纬度特征上的相似度以及在字母数字特征维度上的相似度,文本地址处理装置具体可以同时根据每两个原始文本地址在标准片段特征维度上的相似度、在经纬度特征上的相似度以及在字母数字特征维度上的相似度,确定两个原始文本地址是否可以被归一化成其中一个文本地址。
例如,可以分别将两个原始文本地址在每个维度上的相似度,与对应的阈值进行比较,如果两个原始文本地址在每个维度上的相似度均大于对应的阈值,则确定两个原始文本地址可以被归一化成其中一个;反之,对于其他情况,确定两个原始文本地址不可以被归一化成其中一个。
又例如,可以优先将两个原始文本地址在某个维度上的相似度,与对应的阈值进行比较,如果两个原始文本地址在该维度上的相似度大于对应的阈值,则直接确定两个原始文本地址可以被归一化成其中一个。
又例如,可以预先为每个维度上的相似度配置一个权重,则可以对每两个原始文本地址在每个维度上的相似度和相应的权重进行数值处理,获得一个处理结果,将该处理结果与预设的阈值进行比较,若大于该阈值,则确定两个原始文本地址可以被归一化成其中一个;反之,确定两个原始文本地址不可以被归一化成其中一个。
进一步,在一可选实施方式中,考虑到一个用户可能同时与业务系统中的多个用户存在社会关系,从而出现在多个用户的社会关系圈中,这就意味着该用户曾经使用的原始文本地址可能出现在不同的地址集合中。对于这种情况,在获得每个地址集合对应的目标文本地址之后,可以进一步进行地址集合之间的归一化,以便于获得更加精确和精简的归一化结果。
值得说明的是,在对每个地址集合进行归一化过程中,文本地址处理装置可以记录目标文本地址与原始文本地址的对应关系,该对应关系可以体现目标文本地址具体是由哪些原始文本地址归一化得到的。
基于上述,在获得每个地址集合对应的目标文本地址之后,文本地址处理装置还可以根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;其中,对应于同一原始文本地址的至少两个目标文本地址分别对应于不同的地址集合;之后,对对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
在一可选实施方式中,文本地址处理装置可以获取对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段;进一步,获得对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集,该片段交集包括对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址都包含的标准地址片段;接着,根据该片段交集,对对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
一种具体归一化处理的方式包括:文本地址处理装置判断该片段交集是否可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个,若判断结果为是,即该片段交集可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个,则将对应于同一原始文本地址的至少两个目标文本地址归一化成该片段交集可表征的目标文本地址;反之,若判断结果为否,即该片段交集无法表征对应于同一原始文本地址的至少两个目标文本地址中的任何一个,则不做归一化处理。
具体的,可以预先设定表征一个目标文本地址所需的片段集合,则可以将该片段交集与预设的片段集合进行比较,若该片段交集与预设的片段集合一致,则确定该片段交集可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个;反之,确定该片段交集无法表征对应于同一原始文本地址的至少两个目标文本地址中的任何一个。
进一步,若上述片段交集可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个,则可以将该片段交集与该片段交集可表征的目标文本地址对应存储到特征知识库中。这样,可以使用这个特征知识库去归一化更多的原始文本地址。
下面以业务系统包括第一用户和第二用户为例,假设第一用户的社会关系圈包括用户A、用户B和用户C,第二用户的社会关系圈包括:用户D、用户E和用户F。第一用户曾经使用的文本地址及其社会关系圈中的用户曾经使用的文本地址构成第一地址集合,假设第一地址集合包括的文本地址为X1、X2和X3;第一用户、用户A、用户B和用户C,与文本地址X1、X2和X3之间没有固定的对应关系,可能是一个用户曾经使用过一个文本地址,也可能是多个用户曾经使用过相同的文本地址,还可能是一个用户曾经使用过多个文本地址。例如,第一用户曾经使用了文本地址X1,用户A和用户B使用了文本地址X2,用户C使用了文本地址X1和X3。第二用户曾经使用的文本地址及其社会关系圈中的用户曾经使用的文本地址构成第二地址集合,假设第二地址集合包括的文本地址为X2、X4和X5。同理,第二用户、用户D、用户E和用户F,与文本地址X2、X4和X5之间同样没有固定的对应关系,可能是一个用户曾经使用过一个文本地址,也可能是多个用户曾经使用过相同的文本地址,还可能是一个用户曾经使用过多个文本地址。例如,第二用户曾经使用了文本地址X2,用户D曾经使用了文本地址X2、X4和X5;用户E曾经使用了文本地址X2和X5,用户F曾经使用了文本地址X5。
基于上述,整个归一化过程具体如图2所示:
首先确定第一用户的社会关系圈,获得第一地址集合,如图2所示,第一地址集合包括文本地址X1、X2和X3;并确定第二用户的社会关系圈,获得第二地址集合,如图2所示,第二地址集合包括文本地址X2、X4和X5。
针对第一地址集合中的文本地址两两进行相似度计算,根据相似度完成归一化处理,其中,文本地址X1和X2归一化为X1和X2中的一个,假设归一化为X1,文本地址X3归一化为文本地址X3,也就是说,第一地址集合对应的两个目标文本地址分别是文本地址X1和X3,如图2所示;同理,针对第二地址集合中的文本地址两两进行相似度计算,根据相似度完成归一化处理,其中,文本地址X2和X4归一化为X2和X4中的一个,假设归一化为X4;文本地址X5归一化为文本地址X5,也就是说,第二地址集合对应的两个目标文本地址分别是文本地址X4和X5,如图2所示。
进一步,由于第一地址集合对应的目标文本地址X1与第二地址集合对应的目标文本地址X4均由文本地址X2归一化得到,因此可以对这两个目标文本地址进行归一化处理,这两个目标文本地址进一步归一化为X1和X4中的一个,假设归一化为文本地址X1,如图2所示,。至此,原来的文本地址X1、X2、X3、X4和X5被归一化为文本地址X1、X3和X5。
值得说明的是,在上述过程中,若文本地址X1和X2归一化为X2,且文本地址X2和X4也归一化为X2,由于文本地址X1、X2和X4已经归一化为同一文本地址,故在对上述两个地址集合对应的目标文本地址进行归一化过程中,可以不用对这两个相同的目标文本地址进行归一化处理,有利于节约归一化所消耗的资源,提高归一化处理的效率。
由上述可见,通过对文本地址进行归一化处理,简化了文本地址的个数,且对文本地址进行了统一,更加便于管理和应用文本地址。另外,以用户的社会关系圈对待归一化的原始文本地址进行划分,一方面将待归一化的原始文本地址的范围限定在了每个用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内的用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本申请一实施例提供的文本地址处理装置的结构示意图。如图3所示,该装置包括:确定模块31和归一化模块32。
确定模块31,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址。
归一化模块32,用于对于确定模块31确定的每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
值得说明的是,地址集合对应的目标文本地址可以是一个或多个。
在一可选实施方式中,确定模块31具体用于:
确定业务系统中每个用户的社会关系圈;
获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。
在一可选实施方式中,归一化模块32具体用于:
根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度;
根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。
归一化模块32在根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度时,进一步具体用于:
对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经纬度特征以及字母数字特征中的至少一个特征;
对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。
归一化模块32在对于所述至少一个特征中的每个特征,根据该特征,计算所述每两个原始文本地址对应于该特征的相似度时,进一步具体用于:
若该特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度;
若该特征为经纬度特征,则采用经纬度距离算法对所述每两个原始文本地址的经纬度特征进行处理,获得所述每两个原始文本地址在经纬度特征维度上的相似度;
若该特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。
在一可选实施方式中,确定模块31还用于:在所述归一化模块32获得每个地址集合对应的目标文本地址之后,根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;
所述归一化模块32还用于:对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
归一化模块32在对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理时,具体用于:
获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集;
根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
在一可选实施方式中,本实施例的文本地址处理装置还可以包括:特征知识库,用于在上述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个时,对应存储所述片段交集与所述可表征的目标文本地址。
本实施例提供的文本地址处理装置,根据业务系统中用户的社会关系圈,确定至少一个地址集合,之后以地址集合为单位,分别对每个地址集合中的原始文本地址进行归一化处理,以获得每个地址集合对应的目标文本地址,实现对文本地址的归一化处理。由于本实施例提供的文本地址处理装置以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面将待归一化的原始文本地址的范围限定在了用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (17)

1.一种文本地址处理方法,其特征在于,包括:
根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;
对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
2.根据权利要求1所述的方法,其特征在于,所述根据业务系统中用户的社会关系圈,确定至少一个地址集合,包括:
确定所述业务系统中每个用户的社会关系圈;
获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址,包括:
根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度;
根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。
4.根据权利要求3所述的方法,其特征在于,所述根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度,包括:
对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经纬度特征以及字母数字特征中的至少一个特征;
对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度,包括:
若所述特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度;
若所述特征为经纬度特征,则采用经纬度距离算法对所述每两个原始文本地址的经纬度特征进行处理,获得所述每两个原始文本地址在经纬度特征维度上的相似度;
若所述特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。
6.根据权利要求1-5任一项所述的方法,其特征在于,在获得每个地址集合对应的目标文本地址之后,还包括:
根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;
对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
7.根据权利要求6所述的方法,其特征在于,所述对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理,包括:
获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集;
根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
8.根据权利要求7所述的方法,其特征在于,所述根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理,包括:
若所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个,则将所述对应于同一原始文本地址的至少两个目标文本地址归一化成所述片段交集可表征的目标文本地址。
9.根据权利要求8所述的方法,其特征在于,还包括:
若所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个,将所述片段交集与所述片段交集可表征的目标文本地址对应存储到特征知识库中。
10.一种文本地址处理装置,其特征在于,包括:
确定模块,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;
归一化模块,用于对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
11.根据权利要求10所述的装置,其特征在于,所述确定模块具体用于:
确定所述业务系统中每个用户的社会关系圈;
获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。
12.根据权利要求10所述的装置,其特征在于,所述归一化模块具体用于:
根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度;
根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。
13.根据权利要求12所述的装置,其特征在于,所述归一化模块进一步具体用于:
对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经纬度特征以及字母数字特征中的至少一个特征;
对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。
14.根据权利要求13所述的装置,其特征在于,所述归一化模块进一步具体用于:
若所述特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度;
若所述特征为经纬度特征,则采用经纬度距离算法对所述每两个原始文本地址的经纬度特征进行处理,获得所述每两个原始文本地址在经纬度特征维度上的相似度;
若所述特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。
15.根据权利要求10-14任一项所述的装置,其特征在于,
所述确定模块还用于:在所述归一化模块获得每个地址集合对应的目标文本地址之后,根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;
所述归一化模块还用于:对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
16.根据权利要求15所述的装置,其特征在于,所述归一化模块具体用于:
获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集;
根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
17.根据权利要求16所述的装置,其特征在于,还包括:
特征知识库,用于在所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个时,对应存储所述片段交集与所述片段交集可表征的目标文本地址。
CN201510079914.6A 2015-02-13 2015-02-13 文本地址处理方法及装置 Pending CN105988988A (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201510079914.6A CN105988988A (zh) 2015-02-13 2015-02-13 文本地址处理方法及装置
SG11201706625YA SG11201706625YA (en) 2015-02-13 2016-02-04 Text address processing method and apparatus
PCT/CN2016/073441 WO2016127904A1 (zh) 2015-02-13 2016-02-04 文本地址处理方法及装置
EP16748705.7A EP3258397A1 (en) 2015-02-13 2016-02-04 Text address processing method and apparatus
JP2017542458A JP6594988B2 (ja) 2015-02-13 2016-02-04 住所テキストを処理する方法及び機器
KR1020177025509A KR102079860B1 (ko) 2015-02-13 2016-02-04 텍스트 주소 처리 방법 및 장치
SG10201907254XA SG10201907254XA (en) 2015-02-13 2016-02-04 Text address processing method and apparatus
US15/675,177 US10795964B2 (en) 2015-02-13 2017-08-11 Text address processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510079914.6A CN105988988A (zh) 2015-02-13 2015-02-13 文本地址处理方法及装置

Publications (1)

Publication Number Publication Date
CN105988988A true CN105988988A (zh) 2016-10-05

Family

ID=56615030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510079914.6A Pending CN105988988A (zh) 2015-02-13 2015-02-13 文本地址处理方法及装置

Country Status (7)

Country Link
US (1) US10795964B2 (zh)
EP (1) EP3258397A1 (zh)
JP (1) JP6594988B2 (zh)
KR (1) KR102079860B1 (zh)
CN (1) CN105988988A (zh)
SG (2) SG11201706625YA (zh)
WO (1) WO2016127904A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460046A (zh) * 2017-02-21 2018-08-28 菜鸟智能物流控股有限公司 一种地址聚合的方法以及设备
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN108876440A (zh) * 2018-05-29 2018-11-23 阿里巴巴集团控股有限公司 区域划分方法和服务器
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN109388634A (zh) * 2018-09-18 2019-02-26 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN111488334A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN111723164A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN116402050A (zh) * 2022-12-26 2023-07-07 北京码牛科技股份有限公司 一种地址归一化及补充方法、装置、电子设备及存储介质
CN109388634B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988988A (zh) 2015-02-13 2016-10-05 阿里巴巴集团控股有限公司 文本地址处理方法及装置
CN110417841B (zh) * 2018-04-28 2022-01-18 阿里巴巴集团控股有限公司 地址归一化处理方法、装置和系统、数据处理方法
CN111274811B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN109635063A (zh) * 2018-12-06 2019-04-16 拉扎斯网络科技(上海)有限公司 地址库的信息处理方法、装置、电子设备和存储介质
CN111435360B (zh) * 2019-01-15 2023-08-29 菜鸟智能物流控股有限公司 地址类型识别方法和装置以及电子设备
CN110598791A (zh) * 2019-09-12 2019-12-20 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质
CN110851669A (zh) * 2019-10-17 2020-02-28 清华大学 基于地理位置信息的机构命名排歧方法及装置
CN111522901B (zh) * 2020-03-18 2023-10-20 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
US11159458B1 (en) 2020-06-10 2021-10-26 Capital One Services, Llc Systems and methods for combining and summarizing emoji responses to generate a text reaction from the emoji responses
CN112711950A (zh) * 2020-12-23 2021-04-27 深圳壹账通智能科技有限公司 地址信息抽取方法、装置、设备及存储介质
CN115225609A (zh) * 2021-04-20 2022-10-21 大金(中国)投资有限公司 用户数据处理方法及装置、服务器
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备
CN115952779B (zh) * 2023-03-13 2023-09-29 中规院(北京)规划设计有限公司 一种位置名称校准方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102682128A (zh) * 2012-05-17 2012-09-19 厦门雅迅网络股份有限公司 一种用于兴趣点信息的排重方法
CN103425648A (zh) * 2012-05-15 2013-12-04 腾讯科技(深圳)有限公司 关系圈的处理方法和系统
CN103428164A (zh) * 2012-05-15 2013-12-04 腾讯科技(深圳)有限公司 用户社交网络关系圈划分方法和系统
US20140108442A1 (en) * 2012-10-16 2014-04-17 Google Inc. Person-based information aggregation
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067596A (ja) 2001-08-30 2003-03-07 Fujitsu Ltd 売り手買い手の場所マッチング装置
JP3803961B2 (ja) * 2001-12-05 2006-08-02 日本電信電話株式会社 データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
US7885901B2 (en) * 2004-01-29 2011-02-08 Yahoo! Inc. Method and system for seeding online social network contacts
US7743048B2 (en) * 2004-10-29 2010-06-22 Microsoft Corporation System and method for providing a geographic search function
JP4687089B2 (ja) * 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム
US20140230030A1 (en) * 2006-11-22 2014-08-14 Raj Abhyanker Method and apparatus for geo-spatial and social relationship analysis
US8050690B2 (en) 2007-08-14 2011-11-01 Mpanion, Inc. Location based presence and privacy management
US20090319515A1 (en) * 2008-06-02 2009-12-24 Steven Minton System and method for managing entity knowledgebases
US20120317217A1 (en) * 2009-06-22 2012-12-13 United Parents Online Ltd. Methods and systems for managing virtual identities
US20120051657A1 (en) * 2010-08-30 2012-03-01 Microsoft Corporation Containment coefficient for identifying textual subsets
CN101996247B (zh) * 2010-11-10 2013-02-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
KR101556714B1 (ko) * 2011-01-03 2015-10-02 네이버 주식회사 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20120215853A1 (en) * 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
KR20120124581A (ko) 2011-05-04 2012-11-14 엔에이치엔(주) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
US8515964B2 (en) * 2011-07-25 2013-08-20 Yahoo! Inc. Method and system for fast similarity computation in high dimensional space
CN102955832B (zh) * 2011-08-31 2015-11-25 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
JP5866176B2 (ja) * 2011-10-31 2016-02-17 日本郵便株式会社 住所録管理システム、住所録管理方法及び住所録管理プログラム
JP5676517B2 (ja) 2012-04-12 2015-02-25 日本電信電話株式会社 文字列類似度計算装置、方法、及びプログラム
US20140214895A1 (en) * 2013-01-31 2014-07-31 Inplore Systems and method for the privacy-maintaining strategic integration of public and multi-user personal electronic data and history
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
CN104660581A (zh) * 2014-11-28 2015-05-27 华为技术有限公司 一种为业务策略确定目标用户的方法、装置及系统
CN105988988A (zh) 2015-02-13 2016-10-05 阿里巴巴集团控股有限公司 文本地址处理方法及装置
US10002292B2 (en) * 2015-09-30 2018-06-19 Microsoft Technology Licensing, Llc Organizational logo enrichment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103425648A (zh) * 2012-05-15 2013-12-04 腾讯科技(深圳)有限公司 关系圈的处理方法和系统
CN103428164A (zh) * 2012-05-15 2013-12-04 腾讯科技(深圳)有限公司 用户社交网络关系圈划分方法和系统
CN102682128A (zh) * 2012-05-17 2012-09-19 厦门雅迅网络股份有限公司 一种用于兴趣点信息的排重方法
US20140108442A1 (en) * 2012-10-16 2014-04-17 Google Inc. Person-based information aggregation
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PETER CHRISTEN1 等: "A Probabilistic Geocoding System", 《SPRINGER BERLIN HEIDELBERG》 *
刘哲 等: "一种中文地址类相似重复信息的检测方法", 《小型微型计算机系统》 *
张巍 等: "基于相似度模型的可融合兴趣点分类研究", 《中国海洋大学学报》 *
戴冬冬: "基于地址匹配方法的POI数据更新研究", 《电脑知识与技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460046A (zh) * 2017-02-21 2018-08-28 菜鸟智能物流控股有限公司 一种地址聚合的方法以及设备
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN108536657B (zh) * 2018-04-10 2021-09-21 百融云创科技股份有限公司 人为填写的地址文本相似度处理方法和系统
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN108876440A (zh) * 2018-05-29 2018-11-23 阿里巴巴集团控股有限公司 区域划分方法和服务器
CN108876440B (zh) * 2018-05-29 2021-09-03 创新先进技术有限公司 区域划分方法和服务器
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN109388634A (zh) * 2018-09-18 2019-02-26 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN109388634B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 地址信息的处理方法、终端设备及计算机可读存储介质
CN111488334A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN111488334B (zh) * 2019-01-29 2023-04-14 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN111723164A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN111723164B (zh) * 2019-03-18 2023-12-12 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN116402050A (zh) * 2022-12-26 2023-07-07 北京码牛科技股份有限公司 一种地址归一化及补充方法、装置、电子设备及存储介质
CN116402050B (zh) * 2022-12-26 2023-11-10 北京码牛科技股份有限公司 一种地址归一化及补充方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR20170117481A (ko) 2017-10-23
US10795964B2 (en) 2020-10-06
KR102079860B1 (ko) 2020-02-20
JP6594988B2 (ja) 2019-10-23
SG11201706625YA (en) 2017-09-28
US20170337292A1 (en) 2017-11-23
EP3258397A4 (en) 2017-12-20
SG10201907254XA (en) 2019-09-27
JP2018510410A (ja) 2018-04-12
WO2016127904A1 (zh) 2016-08-18
EP3258397A1 (en) 2017-12-20

Similar Documents

Publication Publication Date Title
CN105988988A (zh) 文本地址处理方法及装置
US10715949B2 (en) Determining timing for determination of applicable geo-fences
Tong et al. A linear road object matching method for conflation based on optimization and logistic regression
US20190228411A1 (en) Methods and systems for improving merchant data
CN108573428A (zh) 一种资源推荐方法和装置
TWI703862B (zh) 內容推薦方法及裝置
US11055297B2 (en) Scalable dynamic acronym decoder
EP3364309B1 (en) Account mapping method and device based on address information
WO2019024496A1 (zh) 企业推荐方法及应用服务器
CN109559226A (zh) 区块链交易执行方法、系统及电子设备和存储介质
US10496993B1 (en) DNS-based device geolocation
CN112861972B (zh) 一种展业区域的选址方法、装置、计算机设备和介质
CN107430631B (zh) 从位置报告确定语义地点名称
WO2016018677A1 (en) Method and apparatus of controlling network payment
JP2019530046A (ja) コンピュータシステムからのユーザ情報の収集
CN106528570A (zh) 推荐方法及装置
CN106250502A (zh) 确定相似职位的方法及装置
CN109034199A (zh) 数据处理方法及装置、存储介质和电子设备
CN110235161A (zh) 用于从数字钱包认证中收集设备数据的系统和方法
AU2016318193A1 (en) Method of compiling city guide database using payment system data
US9560027B1 (en) User authentication
TW202011323A (zh) 網際網路交易定位方法、裝置及伺服器
CN105335385A (zh) 一种基于项目的协同过滤推荐方法及装置
US20200410587A1 (en) Prioritized Distribution of Funds in Reverse Mortgages
CN112528327A (zh) 数据脱敏方法及装置、数据还原方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161005