CN112699676B - 一种地址相似关系生成方法及装置 - Google Patents
一种地址相似关系生成方法及装置 Download PDFInfo
- Publication number
- CN112699676B CN112699676B CN202011640350.6A CN202011640350A CN112699676B CN 112699676 B CN112699676 B CN 112699676B CN 202011640350 A CN202011640350 A CN 202011640350A CN 112699676 B CN112699676 B CN 112699676B
- Authority
- CN
- China
- Prior art keywords
- address
- hash
- text
- vector
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址相似关系生成方法及装置,该方法包括:将地址集合中的地址的文本拆分成多个文本段;地址集合包括目标地址;根据多个文本段生成地址集合中每一个地址对应的地址向量;利用局部敏感哈希算法将地址向量分入多个哈希桶;在目标地址对应的哈希桶中搜索与目标地址相似的地址,得到目标地址的相似地址列表。可知,本申请实施例提供的方法,通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中,从而使得本申请实施例提供的方法在搜索目标地址的相似地址时,只需要搜索目标地址对应的哈希桶中的地址。如此,本申请提供的方法在搜索目标地址的相似地址时的搜索量较小,从而该方法消耗的计算资源也较少,搜索效率较高。
Description
技术领域
本申请涉及通信领域,尤其涉及一种地址相似关系生成方法及装置。
背景技术
用户的地址信息中,通常包含了多种隐藏的用户属性。若两个用户的地址信息相似,他们某些方面的用户属性可能也较为相似。目前,搜索目标地址的相似地址的方法通常是根据目标地址,对地址集合中的所有地址进行遍历查询,一一比对相似性从而得到目标地址的相似地址。
但如果地址集合中的地址数量较为庞大,这种通过一一比对的方法,比对的次数较多,消耗了大量的计算资源,效率较为低下。因此,本领域的技术人员急需一种效率较高的地址相似关系生成方法。
发明内容
为了解决上述技术问题,本申请提供了一种地址相似关系生成方法及装置,用于在庞大的地址集合中搜索目的地址的相似地址。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种地址相似关系生成方法,所述方法包括:
将地址集合中的地址的文本拆分成多个文本段;所述地址集合包括目标地址;
根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量;
利用局部敏感哈希算法将所述地址向量分入多个哈希桶;
在所述目标地址对应的哈希桶中搜索与目标地址相似的地址,得到所述目标地址的相似地址列表。
可选地,所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶,包括:
将所述地址向量分为多个区间;
计算所述多个区间中每一个区间的哈希值;
将所述多个区间中的哈希值相等的区间分入同一个哈希桶中;不同的哈希桶各自对应一个不同的哈希值。
可选地,所述根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量,包括:
构建文本段集合;所述文本集合包含所述地址集合中所有不重复的文本段;
根据所述文本段集合和所述地址集合,生成地址与文本段的映射矩阵;
根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量。
可选地,所述方法还包括:
根据最小哈希算法对所述地址向量进行压缩,得到压缩后的地址向量;
所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶,包括:
利用局部敏感哈希算法将所述压缩后的地址向量分入多个哈希桶。
可选地,所述方法还包括:
对地址原始数据进行预处理,得到所述地址集合;所述预处理包括文本清洗和/或地址标准化。
本申请实施例还提供了一种地址相似关系生成装置,所述装置包括:
拆分模块,用于将地址集合中的地址的文本拆分成多个文本段;所述地址集合包括目标地址;
生成模块,用于根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量;
分类模块,用于利用局部敏感哈希算法将所述地址向量分入多个哈希桶;
搜索模块,用于在所述目标地址对应的哈希桶中搜索与目标地址相似的地址,得到所述目标地址的相似地址列表。
可选地,分类模块具体用于:
将所述地址向量分为多个区间;
计算所述多个区间中每一个区间的哈希值;
将所述多个区间中的哈希值相等的区间分入同一个哈希桶中;不同的哈希桶各自对应一个不同的哈希值。
可选地,所述生产模块,具体用于:
构建文本段集合;所述文本集合包含所述地址集合中所有不重复的文本段;
根据所述文本段集合和所述地址集合,生成地址与文本段的映射矩阵;
根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量。
可选地,所述装置还包括:
压缩模块,用于根据最小哈希算法对所述地址向量进行压缩,得到压缩后的地址向量;
所述分类模块,具体用于:
利用局部敏感哈希算法将所述压缩后的地址向量分入多个哈希桶。
可选地,所述装置还包括:
预处理模块,用于对地址原始数据进行预处理,得到所述地址集合;所述预处理包括文本清洗和/或地址标准化。
通过上述技术方案可知,本申请具有以下有益效果:
本申请实施例提供了一种地址相似关系生成方法及装置,该方法包括:将地址集合中的地址的文本拆分成多个文本段;地址集合包括目标地址;根据多个文本段生成地址集合中每一个地址对应的地址向量;利用局部敏感哈希算法将地址向量分入多个哈希桶;在目标地址对应的哈希桶中搜索与目标地址相似的地址,得到目标地址的相似地址列表。
由此可知,本申请实施例提供的方法,通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中,从而使得本申请实施例提供的方法在搜索目标地址的相似地址时,只需要搜索目标地址对应的哈希桶中的地址。如此,本申请提供的方法,在搜索目标地址的相似地址时的搜索量较小,从而该方法在实施时消耗的计算资源也较少,搜索效率较高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种地址相似关系生成方法流程示意图;
图2为本申请实施例提供的一种利用局部敏感算法进行哈希分桶的方法示意图;
图3为本申请实施例提供的一种包含地址标准化的地址拆分方法示意图;
图4为本申请实施例提供的一种地址相似关系生成装置结构示意图。
具体实施方式
为了帮助更好地理解本申请实施例提供的方案,在介绍本申请实施例提供的方法之前,先介绍本申请实施例方案的应用的场景。
用户的地址信息中,通常包含了多种隐藏的用户属性。若两个用户的地址信息相似,他们某些方面的用户属性可能也较为相似。目前,搜索目标地址的相似地址的方法通常是根据目标地址,对地址集合中的所有地址进行遍历查询,一一比对相似性从而得到目标地址的相似地址。但如果地址集合中的地址数量较为庞大,这种通过一一比对的方法,比对的次数较多,消耗了大量的计算资源。因此,本领域的技术人员急需一种较为节省计算资源的地址相似关系生成方法。
为了解决上述的问题,本申请实施例提供了一种地址相似关系生成方法及装置,该方法包括:将地址集合中的地址的文本拆分成多个文本段;地址集合包括目标地址;根据多个文本段生成地址集合中每一个地址对应的地址向量;利用局部敏感哈希算法将地址向量分入多个哈希桶;在目标地址对应的哈希桶中搜索与目标地址相似的地址,得到目标地址的相似地址列表。
由此可知,本申请实施例提供的方法,通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中,从而使得本申请实施例提供的方法在搜索目标地址的相似地址时,只需要搜索目标地址对应的哈希桶中的地址。如此,本申请提供的方法,在搜索目标地址的相似地址时的搜索量较小,从而该方法在实施时消耗的计算资源也较少。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
参见图1,该图为本申请实施例提供的一种地址相似关系生成方法流程示意图。如图1所示,本申请实施例中的地址相似关系生成方法,包括如下步骤101至步骤S104:
S101:将地址集合中的地址的文本拆分成多个文本段;地址集合包括目标地址。
S102:根据多个文本段生成地址集合中每一个地址对应的地址向量。
S103:利用局部敏感哈希算法将地址向量分入多个哈希桶。
S104:在目标地址对应的哈希桶中搜索与目标地址相似的地址,得到目标地址的相似地址列表。
需要说明的是,本申请实施例的哈希桶为利用局部敏感哈希算法将地址向量分类后,每个地址类别的容器。当然,该容器还可以为其他可容量统一个地址类别的地址的容器,本申请实施例在此不做限定。
在本申请实施例中,作为一种可能的实施方式,本申请实施例中的将地址集合中的地址的文本拆分成多个文本段中的文本段,可以为固定长度的文本段,也可以为非固定长度的文本段,本申请实施例在此不做限定。在本申请实施例中,为了更好的分类效果,还可以同时采用固定长度文本段的拆分方式和非固定长度文本段的拆分方式,并将这两种方法得到的结果进行拼合,组成文本段集合。可以理解的是,采用非固定长度文本段的拆分方式,拆分出来的文本段往往带有固定的语义,可以从地址中分离出完整的地名;而采用固定长度文本段的拆分方式,可以生产更多的文本段数量,且能在一定程度上保留上述方式分离出来的地名的先后位置信息。因此,本申请实施例结合这两种方法得到的文本段集合中,即包含了完整的地名信息,又在一定程度上包含了地名信息的顺序,从而能得到更好的分类效果。
在本申请实施例中,根据多个文本段生成地址集合中每一个地址对应的地址向量,可以为:构建文本段集合;文本集合包含地址集合中所有不重复的文本段;根据文本段集合和地址集合,生成地址与文本段的映射矩阵;根据映射矩阵生成地址集合中每一个地址对应的地址向量。
需要说明的是,本申请实施例中的映射矩阵为元素只取0或者1的布尔矩阵。作为一个示例,在地址1包含文本段1时,地址1与文本段1对应的矩阵元素为1;否则为0。本申请实施例中,目标地址对应的地址向量为在该映射矩阵中,目标地址对应的所有元素组成的有序数列。如下表所示,该表为本申请实施例提供的一种映射矩阵表,其中A1至An分别代表n个地址,w1至wm分别代表m个文本段,当地址A1包含文本段wi,则地址A1与文本段w1对应的元素为1;不包含,则该元素为0。从而,在该示例中,地址A1对应的地址向量为该映射矩阵的第一列元素。
在本申请实施例中,为了进一步减少本申请实施例提供的方法消耗的计算资源,当生成地址集合中每一个地址对应的地址向量后,方法还包括:根据最小哈希算法对地址向量进行压缩,得到压缩后的地址向量。利用局部敏感哈希算法将地址向量分入多个哈希桶,包括:利用局部敏感哈希算法将压缩后的地址向量分入多个哈希桶。可以理解的是,在本申请实施例中,利用最小哈希算法得到的压缩后的地址向量的长度,比原地址向量的长度将大幅减少。如此,在后续对地址向量进行处理时,将节省大量的技术资源。
在本申请实施例中,利用局部敏感哈希算法将地址向量分入多个哈希桶,包括:将地址向量分为多个区间;计算多个区间中每一个区间的哈希值;将多个区间中的哈希值相等的区间分入同一个哈希桶中;不同的哈希桶各自对应一个不同的哈希值。参见图2,该图为本申请实施例提供的一种利用局部敏感算法进行哈希分桶的方法示意图。如图2所示,本申请实施例提供的利用局部敏感算法进行哈希分桶的方法示意图,通过将地址分为B1至Bn个分区,然后利用哈希函数(Hash函数)计算每一个区间的哈希值,并根据该区间的哈希值(Hash值),将该区间对应的地址放入相应的哈希桶(Hash桶)中。
可以理解的是,本申请实施例中放入相同的哈希桶中的地址有较大概率是相似的,而放入不同桶的地址在通常情况下是不相似的。因此,本申请实施例提供的方法可以,仅通过搜索目标地址对应的哈希桶,就可以获得目标地址的相似地址。
在本申请实施例中,作为一种可能的实施方式,本申请实施例提供的地址相似关系生成方法,还包括:对地址原始数据进行预处理,得到地址集合;预处理包括文本清洗和/或地址标准化。
地址预处理分为两个步骤:一是按照城市划分地址集合,二是地址文本预处理。按照城市划分地址后,不同城市的地址可单独计算地址相似关系,初步降低地址相似关系生成过程的计算量,也有利于后面流程的并行处理。划分地址集合可采用匹配城市名词、开户机构号、邮政编码等各类信息进行处理。
在地址文本预处理中,又可以划分成两个子步骤:文本清洗和地址标准化。
原始的地址文本数据常常是高度非结构化的数据,包含很多噪声,因此需要先进行文本清洗。干净的文本数据有利于提升后续算法的效率和准确率。文本数据中常见的噪声包括特殊字符、数字、英文字符、错别字、标点符号等。由于地址文本的特殊性,本方法保留数字,避免丢失小区、街道、门牌号等重要信息。
(2)地址标准化
地址标准化是指将原始的非结构化地址数据,经过一系列的处理过程,转换成符合省、市、区(县)、乡镇(街道)结构的标准地址。地址标准化问题可抽象成公式:F(a)=s(a∈A,b∈S)。其中A表示原始地址集合,a为原始地址之一,S为标准地址集合,需要使用算法F从集合S中寻找a对应的标准地址s。其中包含两部分工作:一是获取标准地址集合S;二是设计算法F。
在构建标准地址集合时,需要考虑地址的全面性和权威性,因此本方法中的标准地址集合采用国家标准的四级地址库。该地址库在本方法中的地址标准化和分词中都起到了重要作用。在本申请实施例中,作为一种可能的实施方式,为了能匹配上地址的缩写,除了“北京市”、“河北省”等标准地址名称外,还对标准地址名称的后缀进行了处理,生成“北京”、“河北”等地址名词简称。
作为一种可能的实施方式,为提升本申请实施例中的文本段的有效性,本申请实施中的将地址集合中的地址的文本拆分成多个文本段后,可以进行地址标准化。参见图3,该图为本申请实施例提供的一种包含地址标准化的地址拆分方法示意图。如图3所示,在分词时加入标准地址词典。将标准地址库中的四级地址拆分为标准地址名词,生成标准地址词典。在匹配时,若能成功唯一匹配到标准化省、市、区信息,则使用标准地址替代相应级别的词语;若不能唯一匹配,则不替换相应级别的原地址。
由上可知,本申请实施例提供的方法,通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中,从而使得本申请实施例提供的方法在搜索目标地址的相似地址时,只需要搜索目标地址对应的哈希桶中的地址。如此,本申请提供的方法,在搜索目标地址的相似地址时的搜索量较小,从而该方法在实施时消耗的计算资源也较少。
根据上述实施例提供的地址相似关系生成方法,本申请实施例还提供了一种地址相似关系生成装置。
参见图4,该图为本申请实施例提供的一种地址相似关系生成装置结构示意图。如图4所示,本申请实施例提供的地址相似关系生成装置,包括:
拆分模块100,用于将地址集合中的地址的文本拆分成多个文本段;地址集合包括目标地址。生成模块200,用于根据多个文本段生成地址集合中每一个地址对应的地址向量。分类模块300,用于利用局部敏感哈希算法将地址向量分入多个哈希桶。搜索模块400,用于在目标地址对应的哈希桶中搜索与目标地址相似的地址,得到目标地址的相似地址列表。
在本申请实施例中,作为一种可能的实施方式,分类模块具体用于:将地址向量分为多个区间;计算多个区间中每一个区间的哈希值;将多个区间中的哈希值相等的区间分入同一个哈希桶中;不同的哈希桶各自对应一个不同的哈希值。
在本申请实施例中,作为一种可能的实施方式,生产模块,具体用于:构建文本段集合;文本集合包含地址集合中所有不重复的文本段;根据文本段集合和地址集合,生成地址与文本段的映射矩阵;根据映射矩阵生成地址集合中每一个地址对应的地址向量。
在本申请实施例中,作为一种可能的实施方式,装置还包括:压缩模块,用于根据最小哈希算法对地址向量进行压缩,得到压缩后的地址向量。分类模块,具体用于:利用局部敏感哈希算法将压缩后的地址向量分入多个哈希桶
在本申请实施例中,作为一种可能的实施方式,装置还包括:预处理模块,用于对地址原始数据进行预处理,得到地址集合;预处理包括文本清洗和/或地址标准化。
由上可知,本申请实施例提供的装置,通过局部敏感哈希算法对地址集合中的地址进行分入多个哈希桶中,从而使得本申请实施例提供的方法在搜索目标地址的相似地址时,只需要搜索目标地址对应的哈希桶中的地址。如此,本申请提供的方法,在搜索目标地址的相似地址时的搜索量较小,从而该方法在实施时消耗的计算资源也较少。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见系统部分说明即可。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种地址相似关系生成方法,其特征在于,所述方法包括:
将地址集合中的地址的文本拆分成多个文本段;所述地址集合包括目标地址,所述地址的文本具有地名;
根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量;
其中,所述根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量,包括:构建文本段集合;所述文本段集合包含所述地址集合中所有不重复的文本段;根据所述文本段集合和所述地址集合,生成地址与文本段的映射矩阵,所述映射矩阵为元素取0或者1的布尔矩阵;根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量,所述目标地址对应的所有元素组成的有序数列;
利用局部敏感哈希算法将所述地址向量分入多个哈希桶;
其中,所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶,包括:将所述地址向量分为多个区间;计算所述多个区间中每一个区间的哈希值;将所述多个区间中的哈希值相等的区间分入同一个哈希桶中;不同的哈希桶各自对应一个不同的哈希值;
在所述目标地址对应的哈希桶中搜索与目标地址相似的地址,得到所述目标地址的相似地址列表。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据最小哈希算法对所述地址向量进行压缩,得到压缩后的地址向量;
所述利用局部敏感哈希算法将所述地址向量分入多个哈希桶,包括:
利用局部敏感哈希算法将所述压缩后的地址向量分入多个哈希桶。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对地址原始数据进行预处理,得到所述地址集合;所述预处理包括文本清洗和/或地址标准化。
4.一种地址相似关系生成装置,其特征在于,所述装置包括:
拆分模块,用于将地址集合中的地址的文本拆分成多个文本段;所述地址集合包括目标地址,所述地址的文本具有地名;
生成模块,用于根据所述多个文本段生成所述地址集合中每一个地址对应的地址向量;
其中,所述生成模块具体用于:构建文本段集合;所述文本段集合包含所述地址集合中所有不重复的文本段;根据所述文本段集合和所述地址集合,生成地址与文本段的映射矩阵,所述映射矩阵为元素取0或者1的布尔矩阵;根据所述映射矩阵生成所述地址集合中每一个地址对应的地址向量,所述目标地址对应的所有元素组成的有序数列;
分类模块,用于利用局部敏感哈希算法将所述地址向量分入多个哈希桶;
其中,所述分类模块具体用于:将所述地址向量分为多个区间;计算所述多个区间中每一个区间的哈希值;将所述多个区间中的哈希值相等的区间分入同一个哈希桶中;不同的哈希桶各自对应一个不同的哈希值;
搜索模块,用于在所述目标地址对应的哈希桶中搜索与目标地址相似的地址,得到所述目标地址的相似地址列表。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
压缩模块,用于根据最小哈希算法对所述地址向量进行压缩,得到压缩后的地址向量;
所述分类模块,具体用于:
利用局部敏感哈希算法将所述压缩后的地址向量分入多个哈希桶。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对地址原始数据进行预处理,得到所述地址集合;所述预处理包括文本清洗和/或地址标准化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011640350.6A CN112699676B (zh) | 2020-12-31 | 2020-12-31 | 一种地址相似关系生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011640350.6A CN112699676B (zh) | 2020-12-31 | 2020-12-31 | 一种地址相似关系生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699676A CN112699676A (zh) | 2021-04-23 |
CN112699676B true CN112699676B (zh) | 2024-04-12 |
Family
ID=75513997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011640350.6A Active CN112699676B (zh) | 2020-12-31 | 2020-12-31 | 一种地址相似关系生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699676B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050043035A (ko) * | 2003-11-04 | 2005-05-11 | 임혜숙 | 복수의 해슁 함수를 이용한 ip 어드레스 검색 방법 및하드웨어 구조 |
CN101808143A (zh) * | 2010-03-12 | 2010-08-18 | 中国电力科学研究院 | 一种IPv4电力终端接入IPv6电力数据通信网络的方法 |
KR20130020050A (ko) * | 2011-08-18 | 2013-02-27 | 삼성전자주식회사 | 로컬리티 센서티브 해시의 버킷 구간 관리 장치 및 그 방법 |
CN104035949A (zh) * | 2013-12-10 | 2014-09-10 | 南京信息工程大学 | 一种基于局部敏感哈希改进算法的相似性数据检索方法 |
CN105630767A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 一种文本相似性的比较方法以及装置 |
CN106649715A (zh) * | 2016-12-21 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 |
CN107391554A (zh) * | 2017-06-07 | 2017-11-24 | 中国人民解放军国防科学技术大学 | 高效分布式局部敏感哈希方法 |
CN107545033A (zh) * | 2017-07-24 | 2018-01-05 | 清华大学 | 一种基于表示学习的知识库实体分类的计算方法 |
CN109241208A (zh) * | 2017-07-10 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 地址定位、地址监测、信息处理方法及装置 |
CN110019531A (zh) * | 2017-12-29 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种获取相似对象集合的方法和装置 |
CN111177719A (zh) * | 2019-08-13 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 地址类别判定方法、装置、计算机可读存储介质及设备 |
CN111753060A (zh) * | 2020-07-29 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 信息检索方法、装置、设备及计算机可读存储介质 |
WO2020257993A1 (zh) * | 2019-06-24 | 2020-12-30 | 深圳市欢太科技有限公司 | 内容推送方法、装置、服务端及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100014445A1 (en) * | 2006-07-28 | 2010-01-21 | Panasonic Corporation | Address updating method, corresponding mobile terminal and node |
US10521413B2 (en) * | 2015-11-20 | 2019-12-31 | Oath Inc. | Location-based recommendations using nearest neighbors in a locality sensitive hashing (LSH) index |
CN111475424B (zh) * | 2019-01-23 | 2023-07-28 | 伊姆西Ip控股有限责任公司 | 用于管理存储系统的方法、设备和计算机可读存储介质 |
-
2020
- 2020-12-31 CN CN202011640350.6A patent/CN112699676B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050043035A (ko) * | 2003-11-04 | 2005-05-11 | 임혜숙 | 복수의 해슁 함수를 이용한 ip 어드레스 검색 방법 및하드웨어 구조 |
CN101808143A (zh) * | 2010-03-12 | 2010-08-18 | 中国电力科学研究院 | 一种IPv4电力终端接入IPv6电力数据通信网络的方法 |
KR20130020050A (ko) * | 2011-08-18 | 2013-02-27 | 삼성전자주식회사 | 로컬리티 센서티브 해시의 버킷 구간 관리 장치 및 그 방법 |
CN104035949A (zh) * | 2013-12-10 | 2014-09-10 | 南京信息工程大学 | 一种基于局部敏感哈希改进算法的相似性数据检索方法 |
CN105630767A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 一种文本相似性的比较方法以及装置 |
CN106649715A (zh) * | 2016-12-21 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 |
CN107391554A (zh) * | 2017-06-07 | 2017-11-24 | 中国人民解放军国防科学技术大学 | 高效分布式局部敏感哈希方法 |
CN109241208A (zh) * | 2017-07-10 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 地址定位、地址监测、信息处理方法及装置 |
CN107545033A (zh) * | 2017-07-24 | 2018-01-05 | 清华大学 | 一种基于表示学习的知识库实体分类的计算方法 |
CN110019531A (zh) * | 2017-12-29 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种获取相似对象集合的方法和装置 |
WO2020257993A1 (zh) * | 2019-06-24 | 2020-12-30 | 深圳市欢太科技有限公司 | 内容推送方法、装置、服务端及存储介质 |
CN111177719A (zh) * | 2019-08-13 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 地址类别判定方法、装置、计算机可读存储介质及设备 |
CN111753060A (zh) * | 2020-07-29 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 信息检索方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112699676A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Event detection over twitter social media streams | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
US20040236566A1 (en) | System and method for identifying special word usage in a document | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN110674635B (zh) | 一种用于文本段落划分的方法和装置 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN114090735A (zh) | 一种文本匹配方法、装置、设备及存储介质 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN111339784A (zh) | 一种新话题的自动挖掘方法和系统 | |
EP3926484B1 (en) | Improved fuzzy search using field-level deletion neighborhoods | |
CN117494711A (zh) | 一种基于语义的用电地址相似度匹配的方法 | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
CN112699676B (zh) | 一种地址相似关系生成方法及装置 | |
Turrado García et al. | Locating similar names through locality sensitive hashing and graph theory | |
CN111680122B (zh) | 空间数据主动推荐方法、装置、存储介质及计算机设备 | |
JP2011159100A (ja) | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム | |
CN115827817A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
CN111639099A (zh) | 全文索引方法及系统 | |
CN112541105A (zh) | 一种关键词生成方法、舆情监测方法、装置、设备和介质 | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
CN115994205B (zh) | 自组装属性提取方法及装置 | |
Benna et al. | Building a social network, based on collaborative tagging, to enhance social information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |