CN106407221A - 地址数据检索方法及装置 - Google Patents
地址数据检索方法及装置 Download PDFInfo
- Publication number
- CN106407221A CN106407221A CN201510464690.0A CN201510464690A CN106407221A CN 106407221 A CN106407221 A CN 106407221A CN 201510464690 A CN201510464690 A CN 201510464690A CN 106407221 A CN106407221 A CN 106407221A
- Authority
- CN
- China
- Prior art keywords
- address
- predefined
- section
- text
- address section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了地址数据检索方法及装置,该方法包括:确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及文本内容;检索出目标地址,并确定目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;针对所述目标地址,判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,确定为所述目标地址段;将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;根据各目标地址对应的相似度权重,返回检索结果。通过本申请实施例,可以使得检索结果的准确度得到提高。
Description
技术领域
本申请涉及地址检索技术领域,特别是涉及地址数据检索方法及装置。
背景技术
地址数据检索,就是在输入一个检索文本(该检索文本一般也是一个地址文本)时,由检索引擎在预置的地址库中检索出与该检索文本相似的至少一条目标地址数据。例如,在快递服务商进行包裹配送的过程中,需要根据收货地址来选择为该包裹进行派送服务的网店,然后将包裹从分拨中心发往该网点。在传统的方式下,上述分拣的过程是由人工的方式完成的,但是存在不准确、效率低等问题。在使用地址数据检索技术的情况下,可以将包裹的收货地址作为输入的待搜索地址,在地址库中搜索出与该地址相似的其他地址,然后再根据历史派送记录中记录的为其他地址分配的派送网点,就可以确定出当前的收货地址对应的派送网点。
地址数据检索是一类特殊的检索,以至于在使用传统的检索技术进行地址数据的检索时,得到的检索结果往往准确性比较低,或者可能会匹配出错误的检索结果。这是因为,现有的检索排序理论,主要是将一个文档进行关键词分词,一个关键词对应多个包含该关键词的文档集合。关键词检索时,将待检索的多个关键词所对应的文档集合进行交叉运算。对检索结果进行排序时,主要从关键词的数量、关键词在文档中的位置以及文档的大小、时间等这些方面来计算关键词的权重。而地址文本数据的特殊性,在于不同的地址关键词段,所表述的地理语义不同,因此,对于地址文本数据的处理,现有的检索排序理论对于相似度计算和排序效果较差。
因此,如何提供更准确的地址数据检索结果,成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了地址数据检索方法及装置,可以使得检索结果的准确度得到提高。
本申请提供了如下方案:
一种地址数据检索方法,预先设置多个预定义地址段,每个预定义地址段对应一个预置权重,所述方法包括:
确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
根据所述待检索地址文本从预置的地址库中检索出满足预置条件的至少一条目标地址,并确定所述目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
针对所述目标地址,通过以下方式确定至少一个目标地址段:判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段;
将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;
根据各目标地址对应的相似度权重,返回检索结果。
一种地址数据检索装置,预先设置多个预定义地址段,每个预定义地址段对应一个预置权重,所述装置包括:
待检索地址文本确定单元,用于确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
检索单元,用于根据所述待检索地址文本从预置的地址库中检索出满足预置条件的至少一条目标地址,并确定所述目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
目标地址段确定单元,用于针对所述目标地址,通过以下方式确定至少一个目标地址段:判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段;
相似度权重确定单元,用于将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;
检索结果返回单元,用于根据各目标地址对应的相似度权重,返回检索结果。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以将地址文本分为多个地址段,这样,对于待检索地址文本与检索结果中的目标地址文本,可以在对应的地址段上进行文本内容的比对,并根据这种比对结果确定目标地址文本与待检索地址文本之间的相似度,进而可以基于这种相似度返回检索结果。由于在比对的过程中是将对应地址段上的文本内容进行比对,因此,可以使得检索结果的准确度得到提高。
另外,还可以将地址文本以二进制编码的形式进行表示,通过这种通过二进制编码,可以将检索得到的目标地址与具体应用中的地址完整性要求进行确定性匹配的方式,这样可以简化匹配的过程,提高效率。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法的流程图;
图2是本申请实施例提供的装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,可以为了更好的适用于地址数据的检索,可以预先设置多个预定义的地址段,并为各个地址段设置对应的权重。这些地址段可以是通过对地址数据进行研究,根据关键词等进行划分的,并且,可以将地址段划分为不同的级别。例如,各个预定义地址段及示例可以如以下表1所示:
表1
级别 | 预定义地址段描述 | 示例 |
1 | 省 | 浙江省 |
2 | 市 | 杭州市 |
3 | 区 | 余杭区 |
4 | 工业区 | —— |
5 | 乡填 | 余杭镇 |
6 | 村/社区 | 西溪园区 |
7 | 组 | —— |
8 | 商圈 | —— |
9 | 道路 | 文一西路 |
10 | 支路 | —— |
11 | 道路门牌号 | 969号 |
12 | 道路支门牌号 | —— |
13 | 标志性POI,主门牌附属POI | —— |
14 | 楼栋号 | 1号楼 |
15 | 单元号 | —— |
16 | 楼层号 | 2楼 |
17 | 房间号 | 203 |
18 | 地址描述 | —— |
上述地址段涵盖了一个地址中所有可能出现的地址段,并且兼容城市地址和农村地址,通常书写的一个实际的地址只是上述地址段的子集。例如,上述表3的实例中描述的地址,是由以下地址段来描述的:省、市、区、乡镇、村/社区、道路、道路门牌号、楼栋号、楼层号、房间号,并不包含“工业区”、“组”、“商圈”等地址段。
在设置了上述预定义地址段之后,还可以为各个地址段设置不同的权重。具体实现时,在设置权重是可以是根据各个预定义地址段的地理语义重要性确定的。也就是说,不同的预定义地址段,所表述的地理语义不同,对于整个地址完整性的贡献度、对于判断地址相似性时的贡献度可能是不同的。因此,可以基于该原则为不同级别的地址段分配预置权重。对于整个地址完整性的贡献度以及判断地址相似性时的贡献度越高的地址段,预置的权重也越高,反之则越低。例如,针对表1中的各个预定义地址段,按照级别由高到低排列可以为:
表2
上述表2中,是按照级别由高到低的顺序排列的。其中,在确定各个地址段的级别时,可以根据实际的需求而定,上述表2只是示例性的介绍,在实际应用中,还可以有其他的级别排序结果。例如,如果在实际应用中的场景是,针对当前需要分拣的包裹的收货地址,确定出与该收货地址相似的其他地址,以便确定出需要将该包裹分拣到哪个具体的配送网点,进而由该配送网点的服务人员将该包裹派送到具体的收货地址。对于上述场景,由于不同的配送网点一般会具有不同的配送范围,而对于同一行政区域范围内的不同配送网点而言,其配送范围间的区别往往能够通过POI、主路、支路、商圈等的不同而体现出来,并且还能够准确的确定出应该对应哪个配送网点,因此,这些地址段的级别最高。其次是行政区划信息方面的信息,包括省、市、区、村镇等等,这些信息可以用于进行粗粒度的分拨,但对于具体服务网点的确定,其贡献度要低于POI、主路、支路等信息,因此,其级别略低。并且,行政区划级别越高,在本申请实施例中的地址段级别越低,例如,从表2中可见,“省”的级别低于“市”,“市”的级别低于“区”,等等。地址段级别最低的是楼栋号、楼层号、房间号等,一方面,这些信息本身在不同地址之间的区分度很低,因为就算是不同城市的不同小区,也可能出现相同的楼栋号、楼层号、房间号,因此,极端情况下,如果两个地址仅在楼栋号、楼层号、房间号上相同,两个地址的相似性其实是很低的;而如果两个地址仅在楼栋号、楼层号、房间号上不同,其他地址段的内容都相同,则这两个地址的相似性则是很高的,并且一般会对应同一个配送网点。因此,对于楼栋号、楼层号、房间号等,其地址段级别最低,对应分配的权重也最低,在检索过程中进行地址间的相似性比对时,这样可以使得楼栋号、楼层号、房间号对应的具体内容对比对结果的影响比较小。
总之,在为不同的地址段设置了不同的级别以及对应的权重的情况下,可以使得不同地址段对地址相似性比对的影响是不同的,并且使得更重要的信息的影响比较凸显,这样有利于得到更为准确的地址数据检索结果。其中,具体在设置各个级别对应的预置权重时,可以有多种实现方式。例如,可以使得不同级别之间的权重呈现线性增长的趋势,或者,还可以使得不同级别之间的权重呈现非线性(例如级数关系等)增长的趋势。例如,第n级别的预定义地址段对应的权重为2n-1,其中,n=1,2,3……N,N为正整数,是预定义地址段的总数。例如,在前述例子中,N=18,相应的,各个预定义地址段以及对应的权重可以如表3所示:
表3
例如,某地址为“浙江省杭州市余杭区余杭镇西溪园区文一路99号同城印象1号楼2单元5楼501”,该地址具有的预定义地址段包括:省、市、区、镇、开发区、主路、主路号、POI、楼栋号、单元号、楼层、房间,如以下表4所示:
表4
整个地址文本的权重为21+22+23+24+25+26+27+28+29+213+215+217=173054,转换为二进制为101010001111111110,二进制的每一码位恰为地址段所对应的级别有无,1表示有,0表示无。这种二进制权重设计,不但可以精确地表现出地址段权重与级别的关系,而且这种权重模型,对于后续返回的检索结果的确定性匹配问题也有帮助,关于该确定性匹配问题,在后文中会有详细介绍。
总之,在设置了多个预定义地址段及其级别,并对各个级别的地址段设置了对应的权重之后,就可以基于上述信息进行具体的地址数据检索。下面对具体的检索方法进行介绍。
参见图1,本申请实施例首先提供了一种地址数据检索方法,如前文所述,可以预先设置多个预定义地址段,每个预定义地址段对应一个预置权重,具体进行检索时,所述方法可以包括以下步骤:
S101:确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
待检索地址文本可以是接收到的用户输入,或者也可以是系统自动确定出的。例如,当用户基于某种需求需要搜索与某地址相似的地址时,就可以输入一地址文本作为待检索地址文本。或者,假设快递服务商在对各个包裹进行分拣处理时,也可以将各个包裹对应的收货地址自动确定为待检索地址文本,等等。
在确定了待检索地址文本之后,可以确定出其中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容。具体实现时,可以预先为各个预定义地址段设置判断规则,例如,每个地址段常用的关键字,前后相邻字段的常用关键字,在地址文本中的位置,等等。这样,在确定了待检索地址文本之后,可以首先对待检索地址文本进行分词,然后根据分词得到的各个词条以及前述判断规则,判断分别属于哪个地址段。例如,地址段“省”的判断规则为:出现在地址文本的起始位置,一般包含关键字“省”,其相邻的后一个字段的常用关键字为“市”,等等,因此,如果某待检索地址文本中包含的第一个分词结果是“浙江省”,则可以确定该地址文本中包含地址段“省”,并且其文本内容为“浙江”。其他地址段的判断也可以同理进行。这样,针对一个待检索文本就可以确定出其包含哪些预定义地址段,各个预定义地址段上分别为什么文本内容。例如,待检索地址文本为“浙江省杭州市余杭区余杭镇西溪园区文一路99号同城印象1号楼2单元5楼501”,则确定出的包含的地址段以及各种的文本内容可以如表3中的第2行以及第3行所示。
S102:根据所述待检索地址文本从预置的地址库中检索出满足预置条件的至少一条目标地址,并确定所述目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
从地址库中检索的过程与传统的检索方式类似,检索的条件可以根据实际需要而设置。例如,同样假设待检索地址文本为“浙江省杭州市余杭区余杭镇西溪园区文一路99号同城印象1号楼2单元5楼501”,检索的条件可以设置为:前四级行政区划信息完全匹配,则该检索的过程可以为:从地址库中检索出包含“浙江省杭州市余杭区余杭镇”的至少一条目标地址;或者,检索的条件还可以为:前五级行政区划信息完全匹配,则该检索的过程可以为:从地址库中检索出包含“浙江省杭州市余杭区余杭镇西溪园区”的至少一条目标地址,等等。
在本申请实施例中,确定出前述符合条件的至少一条目标地址之后,还可以分别确定出各个目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容。由于各个目标地址也具有各自的地址文本,因此,具体的方式与步骤S101中描述的确定待检索地址文本中包含的预定义地址段及其文本内容的过程类似,也即,可以对目标地址的文本进行分词,然后根据各个地址段对应的判定规则,确定出分词后的结果分别属于哪个预定义地址段,以及各自对应的文本内容。
例如,某目标地址为“浙江省杭州市余杭区余杭镇华一路3号”,则可以确定出该目标地址包含的预定义地址段以及各自对应的文本内容,如以下表5所示:
表5
另一目标地址为:“浙江省杭州市余杭区余杭镇西溪园区文一路80号”则可以确定出该目标地址包含的预定义地址段以及各自对应的文本内容,如以下表6所示:
表6
其他各目标地址也都可以按照类似的方式分别进行处理。
S103:针对所述目标地址,通过以下方式确定至少一个目标地址段:判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段;
在针对各个目标地址确定出其包含的预定义地址段及其文本内容之后,就可以与待检索地址文本进行相似度计算,针对每个目标地址,都可以确定出至少一个目标地址段。具体在确定这种目标地址段时,可以判断目标地址在某预定义地址段上的文本内容是否与待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段。
例如,对于前述表5中所示的目标地址的例子,在与表4中的待检索地址文本的各个预定义地址段进行比对时发现,在省、市、区、镇这几个地址段上的文本内容相同;该目标地址中虽然还包含“主路”以及“主路号”这两个预定义地址段,但是其文本内容与待检索地址文本在对应地址段上的内容不同;另外,该目标地址中也不再包含其他预定义地址段,因此,对于该目标地址,目标地址段就是省、市、区、镇这四个地址段。
又如,对于前述表6中所示的目标地址的例子,在与表4中的待检索地址文本的各个预定义地址段进行比对时发现,在省、市、区、镇、开发区、主路这几个地址段上的文本内容相同,目标地址中虽然还包含“主路号”这一预定义地址段,但是其文本内容与待检索地址文本在对应地址段上的内容不同,因此;另外,该目标地址不再包含其他预定义地址段,对于该目标地址,目标地址段就是省、市、区、镇、开发区、主路这六个地址段。
S104:将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;
由于每个目标地址中都可以确定出至少一个目标地址段,因此,在确定目标地址相对于待检索地址文本的相似度权重时,就可以将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,得到的值就可以作为该目标地址相对于当前待检索地址文本的相似度权重。
例如,对于前述表5中所示的目标地址,其相对于表4中所示的待检索地址文本,相似度权重为省、市、区、镇这四个预定义地址段分别对应的权重值和,也即:
25+26+27+28=480
对于前述表6中所示的目标地址,其相对于表4中所示的待检索地址文本,相似度权重为省、市、区、镇、开发区、主路这六个预定义地址段分别对应的权重值和,也即:
25+26+27+28+29+215=33808
S105:根据各目标地址对应的相似度权重,返回检索结果。
在确定出各个目标地址对应的相似度权重之后,就可以据此返回检索结果。例如,可以将相似度权重高于某阈值的目标地址返回,或者,还可以按照该相似度权重由高到低的顺序进行排序后返回,等等。
总之,通过本申请实施例,可以将地址文本分为多个地址段,这样,对于待检索地址文本与检索结果中的目标地址文本,可以在对应的地址段上进行文本内容的比对,并根据这种比对结果确定目标地址文本与待检索地址文本之间的相似度,进而可以基于这种相似度返回检索结果。由于在比对的过程中是将对应地址段上的文本内容进行比对,因此,可以使得检索结果的准确度得到提高。
需要说明的是,在具体的应用中,对检索结果中各个目标地址的地址完整性可能是有要求的,这种地址完整性要求一般为:要求目标地址中至少包括指定预定义地址段,其中,这种指定预定义地址段为至少一个。例如,某应用要求目标地址必须包括“省/市/区/道路/路号”这几个地址段,另一个应用可能要求目标地址中必须包括“省/市/区/POI”这几个地址段,等等。因此,在通过上述方式确定出检索结果之后,还可以根据这种地址完整性要求,对各个目标地址进行过滤,使得最终的检索结果能够满足具体应用的要求。
其中,具体在进行上述过滤时,由于本申请实施例中已经预先对各个预定义地址段进行了分级,并按照级别的高低进行了排序,因此,可以通过以下方式进行:
步骤一:按照各个预定义地址段的顺序,以及目标地址在对应预定义地址段上信息的有无,生成第一二进制编码串;所述第一二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果目标地址在对应的预定义地址段上有信息,则为1,否则为0。
例如,对于表5中所示的目标地址,生成的第一二进制编码串为:
001010000111100000
对于表6中所示的目标地址,生成的第一二进制编码串为:
001010001111100000
步骤二:对于地址完整性要求,由于也可以通过包含哪些预定义地址段来描述,因此,也可以按照各个地址段的顺序,以及地址完整性要求中对应地址段上信息的有无,生成第二二进制编码串;该第二二进制编码串的长度也为N,N为预定义地址段的总数量,同样的,在编码串的各个码位上,如果地址完整性要求在对应的预定义地址段上有信息,则为1,否则为0。
例如,对于必须包括“省/市/区/道路/路号”这几个地址段这一地址完整性要求,生成的第二二进制编码串为:
001010000011100000
对于必须包括“省/市/区/POI”这几个地址段这一地址完整性要求,生成的第二二进制编码串为:
100000000011100000
步骤三:将所述第一二进制编码串转换为1×N的第一矩阵;
例如,对于表5中的目标地址对应的第一二进制编码串,转换成的第一矩阵为:
[001010000111100000]对于表6中的目标地址对应的第一二进制编码串,转换成的第一矩阵为:
[001010001111100000]步骤四:将所述第二二进制编码转换为N×1的第二矩阵;
例如,对于必须包括“省/市/区/道路/路号”这几个地址段这一地址完整性要求,转换成的第二矩阵为:
[001010000011100000]T
对于必须包括“省/市/区/POI”这几个地址段这一地址完整性要求,转换成的第二矩阵为:
[100000000011100000]T
其中,T表示矩阵的转置。
步骤五:将所述第一矩阵与第二矩阵进行叉乘;
例如,对于表5中的目标地址,地址完整性要求为必须包括“省/市/区/道路/路号”这几个地址段,则叉乘运算可以表示为:
[001010000111100000]×[001010000011100000]T=5
步骤六:根据叉乘计算结果,确定所述目标地址是否满足所述地址完整性要求。
例如,对于前述步骤五中的例子,叉乘计算的结果为5,也就是说,表5中的目标地址包含该完整性要求中的全部5个地址段,因此,符合该地址完整性要求。
当然,在具体实现时,同一应用可能会具有多个地址完整性要求,不同的要求之间可能是“且”或者“或”的关系。例如,某应用的地址完整性要求为:“省/市/区/道路/路号”或“省/市/区/POI”或“省/市/区/开发区”。则可以分别将这多个要求生成所述第二二进制编码串,并转换成N×M的第三矩阵。其中,M为地址完整性要求的数量。在该例子中,M=3,生成的第三矩阵可以为:
在将第一矩阵与第三矩阵进行叉乘计算:
也就是说,该目标地址命中了第一个地址完整要求中的全部5个地址段,但只命中了第二个地址完整要求中的3个地址段,第三个地址完整要求中的3个地址段,因此,该目标地址仅符合第一个地址完整性要求。如果该应用的条件为:符合其中一个地址完整性要求即可,则可以确定该目标地址符合该应用的要求。如果某目标地址对其中任意一个完整性要求都不满足,则可以将该目标地址从检索结果中过滤掉。
通过这种通过二进制编码,将检索得到的目标地址与具体应用中的地址完整性要求进行确定性匹配的方式,可以简化匹配的过程,提高效率。
与本申请实施例提供的地址数据检索方法相对应,本申请实施例还提供了一种地址数据检索装置,预先设置多个预定义地址段,每个预定义地址段对应一个预置权重,参见图2,所述装置可以包括:
待检索地址文本确定单元201,用于确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
检索单元202,用于根据所述待检索地址文本从预置的地址库中检索出满足预置条件的至少一条目标地址,并确定所述目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
目标地址段确定单元203,用于针对所述目标地址,通过以下方式确定至少一个目标地址段:判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段;
相似度权重确定单元204,用于将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;
检索结果返回单元205,用于根据各目标地址对应的相似度权重,返回检索结果。
其中,各个预定义地址段对应的预置权重根据各个预定义地址段的地理语义重要性确定。
预定义地址段可以包括N个级别,第n级别的预定义地址段对应的权重为2n-1;
其中,
n=1,2,3……N,N为正整数。
具体实现时,该装置还可以包括:
过滤单元,用于按照预置的地址完整性要求对所述目标地址进行过滤,所述地址完整性要求为:目标地址中至少包括指定预定义地址段,所述指定预定义地址段为至少一个。
另外,该装置还可以包括:
排序单元,用于按照预置权重的大小对各个预定义地址段进行排序;
第一编码串生成单元,用于按照各个预定义地址段的顺序,以及所述目标地址在对应预定义地址段上信息的有无,生成第一二进制编码串;所述第一二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果所述目标地址在对应的预定义地址段上有信息,则为1,否则为0;
第二编码串生成单元,用于按照各个地址段的顺序,以及所述地址完整性要求中对应地址段上信息的有无,生成第二二进制编码串;所述第二二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果所述地址完整性要求在对应的预定义地址段上有信息,则为1,否则为0;
第一转换单元,用于将所述第一二进制编码串转换为1×N的第一矩阵;
第二转换单元,用于将所述第二二进制编码转换为N×M的第二矩阵;其中,M为正整数,表示地址完整性要求的数量;
矩阵计算单元,用于将所述第一矩阵与第二矩阵进行叉乘计算;
确定单元,用于根据叉乘计算结果,确定所述目标地址是否满足所述地址完整性要求。
通过本申请实施例,可以将地址文本分为多个地址段,这样,对于待检索地址文本与检索结果中的目标地址文本,可以在对应的地址段上进行文本内容的比对,并根据这种比对结果确定目标地址文本与待检索地址文本之间的相似度,进而可以基于这种相似度返回检索结果。由于在比对的过程中是将对应地址段上的文本内容进行比对,因此,可以使得检索结果的准确度得到提高。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的地址数据检索方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种地址数据检索方法,其特征在于,预先设置多个预定义地址段,每个预定义地址段对应一个预置权重,所述方法包括:
确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
根据所述待检索地址文本从预置的地址库中检索出满足预置条件的至少一条目标地址,并确定所述目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
针对所述目标地址,通过以下方式确定至少一个目标地址段:判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段;
将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;
根据各目标地址对应的相似度权重,返回检索结果。
2.根据权利要求1所述的方法,其特征在于,各个预定义地址段对应的预置权重根据各个预定义地址段的地理语义重要性确定。
3.根据权利要求2所述的方法,其特征在于,预定义地址段包括N个级别,第n级别的预定义地址段对应的权重为2n-1;
其中,
n=1,2,3……N,N为正整数。
4.根据权利要求1所述的方法,其特征在于,还包括:
按照预置的地址完整性要求对所述目标地址进行过滤,所述地址完整性要求为:目标地址中至少包括指定预定义地址段,所述指定预定义地址段为至少一个。
5.根据权利要求4所述的方法,其特征在于,还包括:
按照预置权重的大小对各个预定义地址段进行排序;
按照各个预定义地址段的顺序,以及所述目标地址在对应预定义地址段上信息的有无,生成第一二进制编码串;所述第一二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果所述目标地址在对应的预定义地址段上有信息,则为1,否则为0;
按照各个地址段的顺序,以及所述地址完整性要求中对应地址段上信息的有无,生成第二二进制编码串;所述第二二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果所述地址完整性要求在对应的预定义地址段上有信息,则为1,否则为0;
将所述第一二进制编码串转换为1×N的第一矩阵;
将所述第二二进制编码转换为N×M的第二矩阵;其中,M为正整数,表示地址完整性要求的数量;
将所述第一矩阵与第二矩阵进行叉乘计算;
根据叉乘计算结果,确定所述目标地址是否满足所述地址完整性要求。
6.一种地址数据检索装置,其特征在于,预先设置多个预定义地址段,每个预定义地址段对应一个预置权重,所述装置包括:
待检索地址文本确定单元,用于确定待检索地址文本,并确定所述待检索地址文本中包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
检索单元,用于根据所述待检索地址文本从预置的地址库中检索出满足预置条件的至少一条目标地址,并确定所述目标地址包含的至少一个预定义地址段,以及每个预定义地址段上的文本内容;
目标地址段确定单元,用于针对所述目标地址,通过以下方式确定至少一个目标地址段:判断所述目标地址在某预定义地址段上的文本内容是否与所述待检索地址文本的在对应预定义地址段的文本内容相同,如果是,则将该地址段确定为所述目标地址段;
相似度权重确定单元,用于将同一目标地址中确定出的各个目标地址段对应的预置权重进行累加,确定目标地址相对于所述待检索地址文本的相似度权重;
检索结果返回单元,用于根据各目标地址对应的相似度权重,返回检索结果。
7.根据权利要求6所述的装置,其特征在于,各个预定义地址段对应的预置权重根据各个预定义地址段的地理语义重要性确定。
8.根据权利要求7所述的装置,其特征在于,预定义地址段包括N个级别,第n级别的预定义地址段对应的权重为2n-1;
其中,
n=1,2,3……N,N为正整数。
9.根据权利要求6所述的装置,其特征在于,还包括:
过滤单元,用于按照预置的地址完整性要求对所述目标地址进行过滤,所述地址完整性要求为:目标地址中至少包括指定预定义地址段,所述指定预定义地址段为至少一个。
10.根据权利要求9所述的装置,其特征在于,还包括:
排序单元,用于按照预置权重的大小对各个预定义地址段进行排序;
第一编码串生成单元,用于按照各个预定义地址段的顺序,以及所述目标地址在对应预定义地址段上信息的有无,生成第一二进制编码串;所述第一二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果所述目标地址在对应的预定义地址段上有信息,则为1,否则为0;
第二编码串生成单元,用于按照各个地址段的顺序,以及所述地址完整性要求中对应地址段上信息的有无,生成第二二进制编码串;所述第二二进制编码串的长度为N,N为预定义地址段的总数量,在编码串的各个码位上,如果所述地址完整性要求在对应的预定义地址段上有信息,则为1,否则为0;
第一转换单元,用于将所述第一二进制编码串转换为1×N的第一矩阵;
第二转换单元,用于将所述第二二进制编码转换为N×M的第二矩阵;其中,M为正整数,表示地址完整性要求的数量;
矩阵计算单元,用于将所述第一矩阵与第二矩阵进行叉乘计算;
确定单元,用于根据叉乘计算结果,确定所述目标地址是否满足所述地址完整性要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510464690.0A CN106407221B (zh) | 2015-07-31 | 2015-07-31 | 地址数据检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510464690.0A CN106407221B (zh) | 2015-07-31 | 2015-07-31 | 地址数据检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106407221A true CN106407221A (zh) | 2017-02-15 |
CN106407221B CN106407221B (zh) | 2020-02-07 |
Family
ID=58007273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510464690.0A Active CN106407221B (zh) | 2015-07-31 | 2015-07-31 | 地址数据检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407221B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460046A (zh) * | 2017-02-21 | 2018-08-28 | 菜鸟智能物流控股有限公司 | 一种地址聚合的方法以及设备 |
CN109284498A (zh) * | 2017-07-20 | 2019-01-29 | 菜鸟智能物流控股有限公司 | 自提柜推荐方法、自提柜推荐装置和电子装置 |
CN112052673A (zh) * | 2020-08-28 | 2020-12-08 | 丰图科技(深圳)有限公司 | 物流网点识别方法、装置、计算机设备和存储介质 |
CN112070429A (zh) * | 2020-07-31 | 2020-12-11 | 深圳市跨越新科技有限公司 | 一种地址合并方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009005492A1 (en) * | 2007-06-29 | 2009-01-08 | United States Postal Service | Systems and methods for validating an address |
EP2107339A2 (de) * | 2008-03-11 | 2009-10-07 | Navigon AG | Verfahren zur Erzeugung einer elektronischen Adressdatenbank, Verfahren zur Durchsuchung einer elektronischen Adressdatenbank und Navigationsgerät mit einer elektronischen Adressdatenbank |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
CN102279843A (zh) * | 2010-06-13 | 2011-12-14 | 北京四维图新科技股份有限公司 | 处理短语数据的方法以及装置 |
-
2015
- 2015-07-31 CN CN201510464690.0A patent/CN106407221B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009005492A1 (en) * | 2007-06-29 | 2009-01-08 | United States Postal Service | Systems and methods for validating an address |
EP2107339A2 (de) * | 2008-03-11 | 2009-10-07 | Navigon AG | Verfahren zur Erzeugung einer elektronischen Adressdatenbank, Verfahren zur Durchsuchung einer elektronischen Adressdatenbank und Navigationsgerät mit einer elektronischen Adressdatenbank |
CN102279843A (zh) * | 2010-06-13 | 2011-12-14 | 北京四维图新科技股份有限公司 | 处理短语数据的方法以及装置 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460046A (zh) * | 2017-02-21 | 2018-08-28 | 菜鸟智能物流控股有限公司 | 一种地址聚合的方法以及设备 |
CN109284498A (zh) * | 2017-07-20 | 2019-01-29 | 菜鸟智能物流控股有限公司 | 自提柜推荐方法、自提柜推荐装置和电子装置 |
CN112070429A (zh) * | 2020-07-31 | 2020-12-11 | 深圳市跨越新科技有限公司 | 一种地址合并方法及系统 |
CN112070429B (zh) * | 2020-07-31 | 2024-03-15 | 深圳市跨越新科技有限公司 | 一种地址合并方法及系统 |
CN112052673A (zh) * | 2020-08-28 | 2020-12-08 | 丰图科技(深圳)有限公司 | 物流网点识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106407221B (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102184169B (zh) | 用于确定字符串信息间相似度信息的方法、装置和设备 | |
EP2783307B1 (en) | Location based full text search | |
Hu et al. | Distance indexing on road networks | |
CN103473230B (zh) | 服务范围确定方法、物流服务提供方推荐方法及相应装置 | |
CN103823900B (zh) | 信息点重要性确定方法和装置 | |
CN106055621A (zh) | 一种日志检索方法及装置 | |
CN102483749B (zh) | 从电子文献集合传送查询结果的方法、系统及设备 | |
CN103902701B (zh) | 一种数据存储系统和存储方法 | |
US20080201302A1 (en) | Using promotion algorithms to support spatial searches | |
CN104281664B (zh) | 分布式图计算系统数据切分方法和系统 | |
CN106407221A (zh) | 地址数据检索方法及装置 | |
CN103902702A (zh) | 一种数据存储系统和存储方法 | |
CN102456016B (zh) | 一种对搜索结果进行排序的方法及装置 | |
CN103914456A (zh) | 一种数据存储方法和系统 | |
CN104881472A (zh) | 一种基于网络数据收集的旅游线路景点组合推荐方法 | |
CN102023984A (zh) | 甄别重复实体数据的方法和系统 | |
CN106326475A (zh) | 一种高效的静态哈希表实现方法及系统 | |
CN102737123B (zh) | 一种多维数据分布方法 | |
CN112000736B (zh) | 时空轨迹伴随分析方法、系统及电子设备和存储介质 | |
CN105404675A (zh) | Ranked反近邻空间关键字查询方法及装置 | |
CN105209858A (zh) | 企业场所数据的非确定性消岐和匹配 | |
CN102890719B (zh) | 一种对车牌号进行模糊搜索的方法及装置 | |
CN106919588A (zh) | 一种应用程序搜索系统及方法 | |
CN105373546A (zh) | 一种用于知识服务的信息处理方法及系统 | |
CN107644050A (zh) | 一种基于solr的Hbase的查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180412 Address after: Four story 847 mailbox of the capital mansion of Cayman Islands, Cayman Islands, Cayman Applicant after: CAINIAO SMART LOGISTICS HOLDING Ltd. Address before: Cayman Islands Grand Cayman capital building a four storey No. 847 mailbox Applicant before: ALIBABA GROUP HOLDING Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |