CN112307169B - 地址数据的匹配方法、装置、计算机设备及存储介质 - Google Patents
地址数据的匹配方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112307169B CN112307169B CN202011195424.XA CN202011195424A CN112307169B CN 112307169 B CN112307169 B CN 112307169B CN 202011195424 A CN202011195424 A CN 202011195424A CN 112307169 B CN112307169 B CN 112307169B
- Authority
- CN
- China
- Prior art keywords
- preset
- address data
- area information
- matching
- compared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012937 correction Methods 0.000 claims abstract description 57
- 230000002441 reversible effect Effects 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种地址数据的匹配方法、装置、计算机设备及存储介质。所述方法包括:通过单词查找树解析出用户地址数据的待比对关键区域信息,根据待比对关键区域信息从用户地址数据分割出待比对模糊区域信息;根据预设的倒排索引检索结构对待比对模糊区域信息进行倒排索引检索,获取与用户地址数据之间的匹配值满足预设匹配条件的预设候选标准地址;将用户地址数据的待比对关键区域信息与获取的预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;根据矫正成功的矫正结果确定出与用户地址数据匹配的标准匹配地址,并将标准匹配地址代替用户登记的用户地址数据。通过本发明可快速匹配出准确且与用户地址数据对应的标准匹配地址。
Description
技术领域
本发明涉及数据查询领域,尤其涉及一种地址数据的匹配方法、装置、计算机设备及存储介质。
背景技术
目前,在数据处理过程经常会碰到一些非数值型的文本数据,且该部分文本数据往往包含了一些很有价值的数据,如何从这些文本数据确定出有价值的数据就显得更为重要。现有技术中,会采用关键词匹配的方式提取有价值的数据,但在提取之前,需预先进行标注工作,如,在对客户地址进行标注时,需人工标注客户地址,但由于用户填写的地址可能模糊不完整,如同一个小区可能出现在多个城市,此外,用户填写可能存在错别字等,上述情况均会导致在根据地理关键词匹配客户所居住的客户地址的过程中产生匹配错误和数据遗漏的问题,而人工标注的工作会非常繁琐,耗时且耗成本,且上述现有技术关键词匹配的方式,关键词需查找一个最匹配的关键词进行匹配,花费匹配时间会较长,关键词标注错误以及上述标注工作的问题都会影响到准确率,因此现有技术很难保证有效且快速获取用户较为准确的客户地址。
发明内容
基于此,有必要针对上述技术问题,提供一种地址数据的匹配方法、装置、计算机设备及存储介质,用于解决上述问题。
一种地址数据的匹配方法,包括:
获取用户登记的用户地址数据;
通过单词查找树解析出所述用户地址数据的待比对关键区域信息,同时根据所述待比对关键区域信息从所述用户地址数据分割出待比对模糊区域信息;
根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址;每一个所述预设候选标准地址均包括预设模糊区域信息和预设关键区域信息,所述倒排索引检索结构是根据多个所述预设候选标准地址的预设模糊区域信息所构建;
将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;
在所述矫正结果为矫正成功时,根据矫正成功的所述矫正结果确定出与所述用户地址数据匹配的标准匹配地址,并将所述标准匹配地址代替所述用户登记的用户地址数据。
一种地址数据的匹配装置,包括:
第一获取模块,用于获取用户登记的用户地址数据;
第一分割模块,用于通过单词查找树解析出所述用户地址数据的待比对关键区域信息,同时根据所述待比对关键区域信息从所述用户地址数据分割出待比对模糊区域信息;
第二获取模块,用于根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址;每一个所述预设候选标准地址均包括预设模糊区域信息和预设关键区域信息,所述倒排索引检索结构是根据多个所述预设候选标准地址的预设模糊区域信息所构建;
第三获取模块,用于将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;
代替模块,用于在所述矫正结果为矫正成功时,根据矫正成功的所述矫正结果确定出与所述用户地址数据匹配的标准匹配地址,并将所述标准匹配地址代替所述用户登记的用户地址数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述地址数据的匹配方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述地址数据的匹配方法。
上述地址数据的匹配方法、装置、计算机设备及存储介质,结合单词查找树以及倒排索引检索实现对用户登记的用户地址数据进行模糊匹配,解决用户登记过程中用户地址数据填写模糊不完整以及错别字而导致用户地址数据匹配错误和数据遗漏的问题;结合匹配值对应的匹配机制和矫正机制来快速匹配出准确且与用户地址数据对应的标准匹配地址,提高企业对客户所对应的标准匹配地址的利用程度,也间接提高客户所对应的标准匹配地址的价值;通过单词查找树和倒排索引检索结构来代替人工标注,以减少人工标注所带来的时间和人工成本的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中地址数据的匹配方法的一应用环境示意图;
图2是本发明一实施例中地址数据的匹配方法的一流程图;
图3是本发明一实施例中地址数据的匹配装置的结构示意图;
图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的地址数据的匹配方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信。其中,客户端可以包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种地址数据的匹配方法,该方法可以应用于客户端,也可以应用在服务器。该方法可以应用在客户端所存在的应用软件和系统中。以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10,获取用户登记的用户地址数据;
可理解地,用户登记的用户地址数据可来源于多种渠道,可来源于数据库中记录数据,也可来源于各种用户填写的收集表等,但此用户地址数据可能存在数据错误以及数据模糊不完整的问题。
S20,通过单词查找树解析出所述用户地址数据的待比对关键区域信息,同时根据所述待比对关键区域信息从所述用户地址数据分割出待比对模糊区域信息;
可理解地,单词查找树为tire树,用于存储大量的字符串以便支持快速模式匹配,其主要应用在信息检索领域,且单词查找树可以分为三种,标准tire、压缩tire和后缀tire,而本实施例使用的是标准tire,其中,标准tire是将所有公共前缀字符串挂在树中的同一个节点中,节点会间接连接一个串集合,本实施例是将地址数据中的省市区地址(可精细到县、镇、乡等各种行政区)作为公共前缀字符串,如山东省和山西省共有的“山”字符串作为公共前缀字符串,并以“山”字来分别连接“东”和“西”字符串,再以“东”和“西”字符串作为公共前缀字符串,分别连接“省”字符串,而最后会在“省”字分别接上一个串集合“山东省”和“山西省”(一个串集合可理解成一个结果),根据类似的原理可将所有的省市区地址等行政区进行相同处理;待比对关键区域信息是指各种行政区,因此可根据上述单词查找树解析出用户地址数据的待比对关键区域信息;待比对模糊区域信息是指除行政区以外的具体地址数据,如具体的街道和小区等;本实施例在确定出与行政区关联的行政区,可从用户地址数据分割出与具体地址关联的待比对模糊区域信息。
S30,根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址;每一个所述预设候选标准地址均包括预设模糊区域信息和预设关键区域信息,所述倒排索引检索结构是根据多个所述预设候选标准地址的预设模糊区域信息所构建;
可理解地,倒排索引检索是一种索引方法,被用来存储在全文搜索下某个单词在一个文档中的存储位置的映射,本实施例以倒排索引检索这种方法所对应的倒排文件作为一种倒排索引检索结构,倒排索引检索结构是根据预设候选标准地址的预设模糊区域信息构建的,其中预设模糊区域信息是与待比对模糊区域信息对应的,而预设关键区域信息是与待比对关键区域信息对应的,且预设候选标准地址是来源于已确定规范合格的地址数据(底层数据资源),可按照两种区域信息的特性预先已做好的预设模糊区域信息和预设关键区域信息的分割;匹配值是指用户地址数据中的待比对模糊区域信息与预设候选标准地址中的预设模糊区域信息匹配程度,匹配值确定过程为:在倒排索引检索结构中每一个预设候选标准地址中的预设模糊区域信息都会被作为一个比对文档,该比对文档会被赋予一个文档ID,也被拆分成多个索引关键字,因此每一个索引关键字至少关联一个文档ID,而在倒排索引检索结构中待比对模糊区域信息会被拆分成多个检索字,最后检索字会与索引关键字进行匹配以确定出待比对模糊区域信息所对应的文档ID,计算该文档ID所出现的次数,以该文档ID所出现的次数作为匹配值;预设匹配条件是指根据文档ID所出现的次数对文档ID进行大小排序(将文档ID所出现的数量多排序在前)后,从排序在先的文档ID挑选出预设数量(可以为5个)的文档ID所对应的比对文档作为目标文档,并以所述目标文档作为与用户地址数据匹配的预设候选标准地址。
S40,将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;
可理解地,矫正结果分为矫正成功和矫正失败,矫正结果是指用户地址数据的待比对关键区域信息与获取的预设数量的预设候选标准地址的预设关键区域信息进行比对后,得到矫正成功和矫正失败结果,在比对不通过时(矫正失败结果),对预设候选标准地址的预设关键区域信息进行剔除,在比对通过时(矫正成功结果),返回命中的预设候选标准地址的预设关键区域信息。
S50,在所述矫正结果为矫正成功时,根据矫正成功的所述矫正结果确定出与所述用户地址数据匹配的标准匹配地址,并将所述标准匹配地址代替所述用户登记的用户地址数据。
可理解地,矫正成功的矫正结果中的预设候选标准地址被作为与用户地址数据匹配的标准匹配地址,该标准匹配地址是与用户地址数据匹配程度最高的一个或者可匹配的多个,此时可借助该标准地址度用户登记的用户地址数据进行替换。
步骤S10至步骤S50的实施例,结合单词查找树以及倒排索引检索实现对用户登记的用户地址数据进行模糊匹配,解决用户登记过程中用户地址数据填写模糊不完整以及错别字而导致用户地址数据匹配错误和数据遗漏的问题;结合匹配值对应的匹配机制和矫正机制来快速匹配出准确且与用户地址数据对应的标准匹配地址,提高企业对客户所对应的标准匹配地址的利用程度,也间接提高客户所对应的标准匹配地址的价值;通过单词查找树和倒排索引检索结构来代替人工标注,以减少人工标注所带来的时间和人工成本的问题。
进一步地,所述通过单词查找树解析出所述用户地址数据的待比对关键区域信息之前,还包括:
预先建造一个初始节点,按照预设前缀特性将所有关键区域信息划分为多个子节点,并根据所述关键区域信息所对应的串集合将所述子节点组装至所述初始节点中。
可理解地,关键区域信息与待比对关键区域信息属于同一种数据,关键区域信息可为全国涉及到的各种行政区的地址数据;预设前缀特性是指步骤S20所说的公共前缀字符串,如“山”字符串,串集合为步骤S20所说的“山东省”和“山西省”,子节点为步骤S20所说的“山”字符串,“东”和“西”字符串,初始节点为单词查找树的root。
进一步地,所述根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索之前,还包括:
获取多个所述预设候选标准地址,并通过预设划分规则从所述预设候选标准地址中分割出预设模糊区域信息和预设关键区域信息;
将一个所述预设模糊区域信息作为一个比对文档,对所述比对文档进行分词,得到多个词条,并生成与每一个所述比对文档对应的文档ID;
将所述比对文档中分词得到的所述词条作为与其对应的文档ID关联的关键字索引,根据所述关键字索引构建所述倒排索引检索结构。
可理解地,文档ID是以64进制进行编码,由于比对文档中存在多个字,对对比文文档进行分词将产生多个词条(一个词条对应一个字),每一个词条可同时出现在多个比对文档中,且比对文档对应一个文档ID,因此每一个词条(关键字索引)可同时对应起至少一个文档ID;本实施例是用于构建出倒排索引检索结构,以单个字的关键字索引作为索引粒度,最后可通过该倒排索引检索结构中的索引粒度检索出与待比对模糊区域信息对应的预设数量的预设候选标准地址。
进一步地,所述根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址,包括:
从所述待比对模糊区域信息划分出多个检索字,根据所述倒排索引检索结构检索出与所述检索字对应的索引关键字,并获取所述索引关键字所关联的所有文档ID;一个所述检索字对应一个所述索引关键字;
对与各所述检索字对应的所有文档ID进行汇总,得到汇总文档ID,将与各所述检索字对应的所有文档ID在所述汇总文档ID中所出现的次数记录为该检索字的目标次数,根据所述目标次数确定各所述文档ID与所述用户地址数据之间的匹配值,并对匹配值进行排序;
将排序之后匹配值序列在先的预设数量的所述文档ID对应的比对文档均记录为目标文档,并将所述倒排索引检索结构中所述目标文档所属的预设候选标准地址记录为与所述用户地址数据匹配的预设候选标准地址。
对本实施例进行举例,在本实施例的待比对模糊区域信息为平安大厦时,检索字为“平”、“安”、“大”和“厦”,检索字对应的索引关键字的文档ID为:“平”对应的文档ID为【0,1,3,23】、“安”对应的文档ID为【1,5,12,23】、“大”对应的文档ID为【1,5,76】和“厦”对应的文档ID为【1,5,12,76】,汇总文档ID为【0,1,3, 1,5,12,23, 1,5,76,1,5,12,76】,匹配值0为1次、1为4次、3为1次、5为3次、12为2次、23为1次和76为2次,按从大小进行排序,则排序后的匹配值1,5,12,23,76,与5个匹配值对应的文档ID的比对文档为目标文档,5个目标文档所属的5个预设候选标准地址为与用户地址数据匹配的5个预设候选标准地址。
进一步地,所述将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果之后,还包括:
在所述矫正结果为矫正失败时,将矫正失败的矫正结果所对应的预设关键区域信息进行剔除。
综上所述,上述提供了一种地址数据的匹配方法,结合单词查找树以及倒排索引检索实现对用户登记的用户地址数据进行模糊匹配,解决用户登记过程中用户地址数据填写模糊不完整以及错别字而导致用户地址数据匹配错误和数据遗漏的问题;结合匹配值对应的匹配机制和矫正机制来快速匹配出准确且与用户地址数据对应的标准匹配地址,提高企业对客户所对应的标准匹配地址的利用程度,也间接提高客户所对应的标准匹配地址的价值;通过单词查找树和倒排索引检索结构来代替人工标注,以减少人工标注所带来的时间和人工成本的问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种地址数据的匹配装置,该地址数据的匹配装置与上述实施例中地址数据的匹配方法一一对应。如图3所示,该地址数据的匹配装置包括第一获取模块11、第一分割模块12、第二获取模块13、第三获取模块14和代替模块15。各功能模块详细说明如下:
第一获取模块11,用于获取用户登记的用户地址数据;
第一分割模块12,用于通过单词查找树解析出所述用户地址数据的待比对关键区域信息,同时根据所述待比对关键区域信息从所述用户地址数据分割出待比对模糊区域信息;
第二获取模块13,用于根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址;每一个所述预设候选标准地址均包括预设模糊区域信息和预设关键区域信息,所述倒排索引检索结构是根据多个所述预设候选标准地址的预设模糊区域信息所构建;
第三获取模块14,用于将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;
代替模块15,用于在所述矫正结果为矫正成功时,根据矫正成功的所述矫正结果确定出与所述用户地址数据匹配的标准匹配地址,并将所述标准匹配地址代替所述用户登记的用户地址数据。
进一步地,所述地址数据的匹配装置还包括:
组装模块,用于预先建造一个初始节点,按照预设前缀特性将所有关键区域信息划分为多个子节点,并根据所述关键区域信息所对应的串集合将所述子节点组装至所述初始节点中。
进一步地,所述地址数据的匹配装置还包括:
第二分割模块,用于获取多个所述预设候选标准地址,并通过预设划分规则从所述预设候选标准地址中分割出预设模糊区域信息和预设关键区域信息;
生成模块,用于将一个所述预设模糊区域信息作为一个比对文档,对所述比对文档进行分词,得到多个词条,并生成与每一个所述比对文档对应的文档ID;
构建模块,用于将所述比对文档中分词得到的所述词条作为与其对应的文档ID关联的关键字索引,根据所述关键字索引构建所述倒排索引检索结构。
进一步地,所述第二获取模块包括:
获取子模块,用于从所述待比对模糊区域信息划分出多个检索字,根据所述倒排索引检索结构检索出与所述检索字对应的索引关键字,并获取所述索引关键字所关联的所有文档ID;一个所述检索字对应一个所述索引关键字;
确定子模块,用于对与各所述检索字对应的所有文档ID进行汇总,得到汇总文档ID,将与各所述检索字对应的所有文档ID在所述汇总文档ID中所出现的次数记录为该检索字的目标次数,根据所述目标次数确定各所述文档ID与所述用户地址数据之间的匹配值,并对匹配值进行排序;
记录子模块,用于将排序之后匹配值序列在先的预设数量的所述文档ID对应的比对文档均记录为目标文档,并将所述倒排索引检索结构中所述目标文档所属的预设候选标准地址记录为与所述用户地址数据匹配的预设候选标准地址。
进一步地,所述地址数据的匹配装置还包括:
剔除模块,用于在所述矫正结果为矫正失败时,将矫正失败的矫正结果所对应的预设关键区域信息进行剔除。
关于地址数据的匹配装置的具体限定可以参见上文中对于地址数据的匹配方法的限定,在此不再赘述。上述地址数据的匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器也可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址数据的匹配方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址数据的匹配方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中地址数据的匹配方法的步骤,例如图2所示的步骤S10至步骤S50。或者,处理器执行计算机程序时实现上述实施例中地址数据的匹配装置的各模块/单元的功能,例如图3所示模块11至模块15的功能。为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中地址数据的匹配方法的步骤,例如图2所示的步骤S10至步骤S30。或者,计算机程序被处理器执行时实现上述实施例中地址数据的匹配装置的各模块/单元的功能,例如图3所示模块11至模块15的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种地址数据的匹配方法,其特征在于,包括:
获取用户登记的用户地址数据;
通过单词查找树解析出所述用户地址数据的待比对关键区域信息,同时根据所述待比对关键区域信息从所述用户地址数据分割出待比对模糊区域信息;
根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址;每一个所述预设候选标准地址均包括预设模糊区域信息和预设关键区域信息,所述倒排索引检索结构是根据多个所述预设候选标准地址的预设模糊区域信息所构建;
所述根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索之前,还包括:
获取多个所述预设候选标准地址,并通过预设划分规则从所述预设候选标准地址中分割出预设模糊区域信息和预设关键区域信息;
将一个所述预设模糊区域信息作为一个比对文档,对所述比对文档进行分词,得到多个词条,并生成与每一个所述比对文档对应的文档ID;
将所述比对文档中分词得到的所述词条作为与其对应的文档ID关联的关键字索引,根据所述关键字索引构建所述倒排索引检索结构;
所述根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址,包括:
从所述待比对模糊区域信息划分出多个检索字,根据所述倒排索引检索结构检索出与所述检索字对应的索引关键字,并获取所述索引关键字所关联的所有文档ID;一个所述检索字对应一个所述索引关键字;
对与各所述检索字对应的所有文档ID进行汇总,得到汇总文档ID,将与各所述检索字对应的所有文档ID在所述汇总文档ID中所出现的次数记录为该检索字的目标次数,根据所述目标次数确定各所述文档ID与所述用户地址数据之间的匹配值,并对匹配值进行排序;
将排序之后匹配值序列在先的预设数量的所述文档ID对应的比对文档均记录为目标文档,并将所述倒排索引检索结构中所述目标文档所属的预设候选标准地址记录为与所述用户地址数据匹配的预设候选标准地址;
将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;
在所述矫正结果为矫正成功时,根据矫正成功的所述矫正结果确定出与所述用户地址数据匹配的标准匹配地址,并将所述标准匹配地址代替所述用户登记的用户地址数据。
2.根据权利要求1所述的地址数据的匹配方法,其特征在于,所述通过单词查找树解析出所述用户地址数据的待比对关键区域信息之前,还包括:
预先建造一个初始节点,按照预设前缀特性将所有关键区域信息划分为多个子节点,并根据所述关键区域信息所对应的串集合将所述子节点组装至所述初始节点中。
3.根据权利要求1所述的地址数据的匹配方法,其特征在于,所述将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果之后,还包括:
在所述矫正结果为矫正失败时,将矫正失败的矫正结果所对应的预设关键区域信息进行剔除。
4.一种地址数据的匹配装置,实现如权利要求1至3中任一项所述地址数据的匹配方法,其特征在于,所述装置包括:
第一获取模块,用于获取用户登记的用户地址数据;
第一分割模块,用于通过单词查找树解析出所述用户地址数据的待比对关键区域信息,同时根据所述待比对关键区域信息从所述用户地址数据分割出待比对模糊区域信息;
第二获取模块,用于根据预设的倒排索引检索结构对所述待比对模糊区域信息进行倒排索引检索,获取与所述用户地址数据之间的匹配值满足预设匹配条件的预设数量的预设候选标准地址;每一个所述预设候选标准地址均包括预设模糊区域信息和预设关键区域信息,所述倒排索引检索结构是根据多个所述预设候选标准地址的预设模糊区域信息所构建;
第三获取模块,用于将所述用户地址数据的待比对关键区域信息与获取的预设数量的所述预设候选标准地址的预设关键区域信息进行对比矫正,获取矫正结果;
代替模块,用于在所述矫正结果为矫正成功时,根据矫正成功的所述矫正结果确定出与所述用户地址数据匹配的标准匹配地址,并将所述标准匹配地址代替所述用户登记的用户地址数据。
5.根据权利要求4所述的地址数据的匹配装置,其特征在于,所述地址数据的匹配装置还包括:
组装模块,用于预先建造一个初始节点,按照预设前缀特性将所有关键区域信息划分为多个子节点,并根据所述关键区域信息所对应的串集合将所述子节点组装至所述初始节点中。
6.根据权利要求5所述的地址数据的匹配装置,其特征在于,所述地址数据的匹配装置还包括:
第二分割模块,用于获取多个所述预设候选标准地址,并通过预设划分规则从所述预设候选标准地址中分割出预设模糊区域信息和预设关键区域信息;
生成模块,用于将一个所述预设模糊区域信息作为一个比对文档,对所述比对文档进行分词,得到多个词条,并生成与每一个所述比对文档对应的文档ID;
构建模块,用于将所述比对文档中分词得到的所述词条作为与其对应的文档ID关联的关键字索引,根据所述关键字索引构建所述倒排索引检索结构。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述地址数据的匹配方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述地址数据的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011195424.XA CN112307169B (zh) | 2020-10-30 | 2020-10-30 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011195424.XA CN112307169B (zh) | 2020-10-30 | 2020-10-30 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307169A CN112307169A (zh) | 2021-02-02 |
CN112307169B true CN112307169B (zh) | 2023-12-15 |
Family
ID=74333455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011195424.XA Active CN112307169B (zh) | 2020-10-30 | 2020-10-30 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307169B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220670A (zh) * | 2021-03-16 | 2021-08-06 | 航天精一(广东)信息科技有限公司 | 一种地址数据的校正方法及装置 |
CN116757737B (zh) * | 2023-08-10 | 2023-12-19 | 山景智能(北京)科技有限公司 | 基于地址信息的营销方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN108062365A (zh) * | 2017-12-06 | 2018-05-22 | 吉旗(成都)科技有限公司 | 一种提高地址解析准确度的方法 |
CN109783589A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安人寿保险股份有限公司 | 电子地图解析地址的方法、装置及存储介质 |
CN111309847A (zh) * | 2019-11-01 | 2020-06-19 | 上海热璞网络科技有限公司 | 一种基于改进字典树算法的快递服务系统地址匹配方法 |
-
2020
- 2020-10-30 CN CN202011195424.XA patent/CN112307169B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN108062365A (zh) * | 2017-12-06 | 2018-05-22 | 吉旗(成都)科技有限公司 | 一种提高地址解析准确度的方法 |
CN109783589A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安人寿保险股份有限公司 | 电子地图解析地址的方法、装置及存储介质 |
CN111309847A (zh) * | 2019-11-01 | 2020-06-19 | 上海热璞网络科技有限公司 | 一种基于改进字典树算法的快递服务系统地址匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112307169A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020186786A1 (zh) | 文件处理方法、装置、计算机设备和存储介质 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN110442603B (zh) | 地址匹配方法、装置、计算机设备及存储介质 | |
WO2021258848A1 (zh) | 数据字典生成方法、数据查询方法、装置、设备及介质 | |
CN112307169B (zh) | 地址数据的匹配方法、装置、计算机设备及存储介质 | |
CN111563051B (zh) | 基于爬虫的数据核验方法、装置、计算机设备及存储介质 | |
CN112181489B (zh) | 代码迁移方法、装置、计算机设备及存储介质 | |
US20210397631A1 (en) | Detecting relationships across data columns | |
CN109325042B (zh) | 处理模版获取方法、表格处理方法、装置、设备及介质 | |
CN112286934A (zh) | 数据库表导入方法、装置、设备及介质 | |
CN111797134A (zh) | 分布式数据库的数据查询方法、装置和存储介质 | |
CN107832227B (zh) | 业务系统的接口参数测试方法、装置、设备和存储介质 | |
CN111339088A (zh) | 数据库的分库分表方法、装置、介质及计算机设备 | |
CN111488736B (zh) | 自学习分词方法、装置、计算机设备和存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN108595437B (zh) | 文本查询纠错方法、装置、计算机设备和存储介质 | |
CN111737981A (zh) | 词汇纠错方法、装置、计算机设备及存储介质 | |
CN111984659B (zh) | 数据更新方法、装置、计算机设备和存储介质 | |
CN111274291B (zh) | 用户访问数据的查询方法、装置、设备及介质 | |
US20210056085A1 (en) | Deduplication of data via associative similarity search | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN111679963A (zh) | 用户行为数据的处理方法、装置、设备及存储介质 | |
CN114003685B (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN113221558B (zh) | 一种快递地址纠错方法、装置、存储介质及电子设备 | |
CN114461606A (zh) | 数据存储方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |