CN117076590A - 地址标准化方法、装置、计算机设备及可读存储介质 - Google Patents
地址标准化方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN117076590A CN117076590A CN202311026736.1A CN202311026736A CN117076590A CN 117076590 A CN117076590 A CN 117076590A CN 202311026736 A CN202311026736 A CN 202311026736A CN 117076590 A CN117076590 A CN 117076590A
- Authority
- CN
- China
- Prior art keywords
- address
- automaton
- dictionary tree
- dictionary
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title abstract description 5
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种地址标准化方法、装置、计算机设备及可读存储介质。方法包括:根据地址库中的地址构建字典树;构建基于字典树的AC自动机;获取待匹配的地址字符,根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。本申请对地址构建字典树并使用AC自动机完成地址标准化,大幅度地提升地址元素匹配的速度。对银行等各业务场景的地址进行有效清理和输出,提高地址信息在营销、反欺诈等领域的应用价值。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种地址标准化方法、装置、计算机设备及可读存储介质。
背景技术
在银行等各类场景中,地址信息是一项常见的用户信息,如户籍地址、单位地址、寄卡地址等等。地址是一个连接广大的人、物、事的关键桥梁,这类信息对于客户画像、精准营销、风控反欺诈等工作有着非常重要的意义。然而在实际应用中,用户地址信息往往不规范,作为典型的非结构化信息,地址数据如何被有效识别与精确计算存在着以下无法回避的问题:
我国的地址标准化发展起步较晚,各界人士缺乏地址标准化的需求和意识。同时,由于中国地理面积巨大,人口众多,由于历史和环境原因,导致各个地市命名并不规范,难以总结出一个具有通用性的地址模型。从各行业采集来的地址数据,因应用目的不同,而导致数据格式多样,描地名命名方式不统一,地址描述的详细程度各异,整个行业缺乏公共的可参考的地名数据库。另外,中文属于表意文字,不但存在相同的词语在不同的情景下表示不同地址要素的含义,而且也存在不同中文词语表示同一地名的情况,例如,人们习惯称呼为“XX路XX号”,而有的人就只称呼“XX金融中心”,但是实际上两者表示同一地址位置。同时中文地址要素之间没有明显的分隔符,这增加了对地址元素的识别难度。因此,急需一种对各类地址进行标准化的方法。
发明内容
基于此,有必要针对上述问题,提出一种地址标准化方法、装置、计算机设备及可读存储介质,能够对地址信息进行标准化。
第一方面,本申请提供一种地址标准化方法,所述方法包括:
根据地址库中的地址构建字典树;
构建基于字典树的AC自动机;
获取待匹配的地址字符,根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。
在一些实施例中,所述地址库包括行政区地址库和其它等级地址库;
所述根据地址库中的地址构建字典树,包括:
将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;
将所述第一地址和所述第二地址按照字典序进行字典树的构建。
在一些实施例中,所述字典树的每个结点具有以下三种状态中的一种:转移成功且可输出、转移成功但不可输出、转移失败。
在一些实施例中,所述字典树为双数组字典树,双数组包括base数组和check数组,所述base数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移,所述check数组用于验证地址字符是否由同一个状态转移而来。
在一些实施例中,所述构建基于字典树的AC自动机,包括:
补充字典树的每个结点的状态信息,设置地址匹配失败时跳转的匹配路径;
增加fail数组,将所述fail数组中状态信息相同的索引进行关联,以将整个字典树中的状态信息关联。
在一些实施例中,所述根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,包括:
根据所述AC自动机对所述待匹配的地址字符进行拆分,得到多个地址片段;
根据多个地址片段进行匹配,得到输出结果,所述输出结果为地址补充最全的结果。
第二方面,本申请还提供一种地址标准化装置,所述装置包括:
字典树构建模块,用于根据地址库中的地址构建字典树;
AC自动机构建模块,用于构建基于字典树的AC自动机;
处理模块,用于获取待匹配的地址字符,根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。
在一些实施例中,所述地址库包括行政区地址库和其它等级地址库;
所述字典树构建模块具体用于:
将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;
将所述第一地址和所述第二地址按照字典序进行字典树的构建。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面任一项所述地址标准化方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如第一方面任一项所述地址标准化方法的步骤。
采用本申请实施例,至少具有如下有益效果:
本申请实施例根据地址库中的地址构建字典树;构建基于字典树的AC自动机;获取待匹配的地址字符,根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。通过对地址构建字典树并使用AC自动机完成地址标准化,大幅度地提升地址元素匹配的速度。对银行等各业务场景的地址进行有效清理和输出,提高地址信息在营销、反欺诈等领域的应用价值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请一个实施例中地址标准化方法的流程示意图;
图2为本申请一个实施例中步骤S110的流程示意图;
图3为本申请一个实施例中构建字典树的示意图;
图4为本申请一个实施例中步骤S120的流程示意图;
图5为本申请一个实施例中步骤S130的流程示意图;
图6为本申请一个实施例中步骤S132的示意图;
图7为本申请一个实施例中计算机设备的内部结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在银行等各类场景中,地址信息是一项常见的用户信息,如户籍地址、单位地址、寄卡地址等等。地址是一个连接广大的人、物、事的关键桥梁,这类信息对于客户画像、精准营销、风控反欺诈等工作有着非常重要的意义。然而在实际应用中,用户地址信息往往不规范,作为典型的非结构化信息,地址数据如何被有效识别与精确计算存在着以下无法回避的问题:
我国的地址标准化发展起步较晚,各界人士缺乏地址标准化的需求和意识。同时,由于中国地理面积巨大,人口众多,由于历史和环境原因,导致各个地市命名并不规范。但随着国内空间地理信息资源的开发和地理信息系统技术的研究与应用,各地政府部门已经开始逐步规范地名、地址的管理和使用,国内不少企业和研究机构也逐步开展了地址模型方面的研究。如某些地图软件也开放了相关的地址查询服务,提供海量的基础地址数据库供广大学者进行地址库的研究。但在地址标准化的方面还存在诸多的问题。
(1)从社会层面来看,现有的地址模型难以涵盖所有的中文地址。国家统计局除了对县及县以上的行政地址名称有相关的约定之外,其它各等级的地址元素(包括县、乡、镇、居委会、村等)命名都带有很强的随意性,因此难以总结出一个具有通用性的地址模型。
(2)从行业背景来看,从各行业采集来的地址数据,因应用目的不同,而导致数据格式多样,描地名命名方式不统一,地址描述的详细程度各异,整个行业缺乏公共的可参考的地名数据库。
(3)从技术层面来看,中文属于表意文字。不但存在相同的词语在不同的情景下表示不同地址要素的含义,而且也存在不同中文词语表示同一地名的情况,例如,人们习惯称呼为“XX路XX号”,而有的人就只称呼“XX金融中心”,但是实际上两者表示同一地址位置。同时中文地址要素之间没有明显的分隔符,这增加了对地址元素的识别难度。
基于上述问题,本申请提供了一种地址标准化方法、装置、计算机设备及可读存储介质,能够基于字典树和AC自动机对地址进行标准化,进而对银行等各业务场景的地址进行有效清理和输出,提高地址信息在营销、反欺诈等领域的应用价值。
本申请的AC自动机通过将Trie树(即字典树)和状态跳转转移相结合,将要处理的地址字符串进行分词后得到一个词向量,从而将字符串预处理为确定有限状态自动机,使得扫描文本一遍就能结束。确定有限状态自动机是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型。有限状态自动机拥有有限数量的状态,每个状态可以迁移到零个或多个状态,根据输入的字符串决定执行哪个状态的迁移。有限状态自动机可以表示为一个有向图。
AC自动机按照顺序依次匹配输入的文本字符,根据输入的文本字符来发生响应并且进行状态转移。其转移状态主要分为以下三种:
(1)按照输入字符成功转移到下一个Trie树结点,但该结点不是可输出结点。
(2)按照输入字符成功转移到下一个Trie树结点,且该结点是可输出结点。
(3)按照输入字符转移失败,当前结点的子结点中不符合转移条件。
AC算法中将Trie树和转移失败规则跳转表都压缩到success数组、failure数组和output数组三个核心数组之中。success数组记录了字符串在匹配过程中,接收字符之后,成功转移到另一个状态的规则。failure数组记录了各个结点中在不可顺着字符串转移的前提下,进行字符回调的规则。output数组记录了整个Trie树中,在成功状态转移和失败状态转移的过程中,命中的模式字符串。
本申请实施例中,AC自动机在地址标准化中的应用主要是:使用AC自动机对地址标准化,即从中文地址本身的信息中,尽可能地提取出完整的地址信息。首先对各个输入的地址进行分词,然后将单条地址切分后放入到字典库,然后将各个词都组织到Trie树的每个结点,当地址和地址库进行匹配的时候,根据匹配到的中文地址信息,反馈出中文地址中的不同地址片段的词性。在地址中常见的实词有名词、形容词、数词,虚词有介词、副词、连词、助词等。
第一方面,本申请实施例提供了一种地址标准化方法。图1为本申请一个实施例中地址标准化方法的流程示意图。请参照图1,在一些实施例中,该地址标准化方法包括:
S110:根据地址库中的地址构建字典树。
在一些实施例中,可以通过Python爬虫技术从网站爬取地址库。地址库包括行政区地址库和其它等级地址库。行政区地址库包括“XX省”、“XX市”、“XX区”,其它等级地址库包括“XX县”、“XX乡”、“XX镇”、“XX居委会”、“XX村”等。爬取地址库后,根据地址库中的地址构建地址字典树。
本申请的字典树在每个结点状态(State)中,增加了命中状态emits和失败转移状态failure。其初始结点状态如下:
State={depth=0,failure=null,emit=null,success=null,index=0}
其中,depth表明了字符在Trie树中的深度或者层数;failure表明了当前状态匹配失败后,该状态能转移的前一个的节点状态位置;emit表明了当前状态支持输出的字符串,输出值是下标集合,每个下标指定了中文地址元素在字典树中的索引位置,整个emits构成output数组。success表明了当前状态匹配成功后的所有下一个可选结点状态,index表明了当前词的状态的唯一编码,index状态编码确定了该字符在base数组和check数组中的对应的下标位置。
图2为本申请一个实施例中步骤S110的流程示意图。请参照图2,在一些实施例中,步骤S110具体包括:
S111:将行政区地址库和其它等级地址库中的每个地址拆分为第一地址和第二地址,第一地址包括地址名称,所述第二地址包括地址名称和关键词;
S112:将第一地址和第二地址按照字典序进行字典树的构建。
其中,关键词指的是“省”、“市”、“区”、“县”等。将行政区地址库和其它等级地址库中的每个地址拆分为地址名称和地址名称+关键词两部分。例如,“广东省深圳市”会被拆分为“广东”、“深圳”和“省”、“市”。其中,“广东”和“深圳”为地址名称,“省”、“市”为关键词。
将拆开的地址名称和地址名称+关键词两部分通过元素的字典顺序进行排序,排完序之后按照字典序依次进行Trie树的构建。整个构建过程按照深度优先顺序进行插入,各个结点中基于State的success属性,按字典序构建出字典树的成功匹配状态。由于success属性的底层数据结构采用红黑树的TreeMap实现,可以快速的实现字典序的排序和查找定位,完成Trie树的构建。
图3为本申请一个实施例中构建字典树的示意图。请参照图3,以“路北/街道/D”、“武汉/市/B”、“武汉/路/F”、“武汉路北/社区/E”等8个地址举例说明。
其中,D、B、F、E等字母表示地址层级,具体地:
A表示“省”、“自治区”、“直辖市”。
B表示“市”、“自治州”、“州”。
C表示“区”、“新区”、“自治区”、“县”、“自治县”。
D表示“乡”、“镇”、“街道”、“街道办”。
E表示“村”、“屯”、“新村”、“社区”。
F表示“路”、“街”、“巷”、“大街”、“大道”、“公路”、“国道”等。
G表示“号”。
H表示“小区”、“大厦”、“广场”、“大楼”、“公司”、“饭店”“公寓”、“酒店”。
I表示“栋”、“幢”。
J表示“单元”。
K表示“楼”、“层”。
L表示“室”、“舍”、“房”。
“L”之后还可以有更多的字母来表示不同的地址层级,本申请实施例在此不再赘述。
将8个地址中的“地址名称”和“地址名称+关键词”按照字典序进行排序,得到图3中(a)所示。排完序之后按照字典序依次进行Trie树的构建,完成图3中(b)所示的Trie树的构建。其中0结点表示根节点,带有阴影的结点表示可输出结点,即匹配成功的结点,其他结点表示不可输出结点,即匹配失败的结点。例如,结点9匹配的是“路北”,(a)中有该地址,匹配成功,因此结点9为可输出结点。再例如,结点10匹配的是“路北街”,(a)中无该地址,匹配失败,因此结点10为不可输出结点。
在一些实施例中,字典树为双数组字典树,双数组包括base数组和check数组。其中,base数组用于存储字典树的各个结点当前的状态信息以进行字符状态转移,check数组用于验证地址字符是否由同一个状态转移而来。在构建字典树的过程中,从根结点开始,根据success属性确定下层属性的兄弟结点的所有字符编码状态。采用深度优先顺序遍历Trie树,依次地读取各个字符的State,在读取的过程中维护base和check两个数组,期间每次插入一个结点,都会修改这两个数组。
S120:构建基于字典树的AC自动机。
在一些实施例中,完成Trie树的构建之后,下一步需要构建基于字典树的AC自动机。图4为本申请一个实施例中步骤S120的流程示意图。请参照图4,构建基于字典树的AC自动机,具体包括:
S121:补充字典树的每个结点的状态信息,设置地址匹配失败时跳转的匹配路径;
S122:增加fail数组,将fail数组中状态信息相同的索引进行关联,以将整个字典树中的状态信息关联。
具体地,完成基于双数组的Trie树的构建之后,补充Trie树的每个结点State中的failure属性,指明地址匹配失败时跳转的匹配路径。匹配失败表示该路径不通,无输出,无返回。地址匹配失败时跳转的匹配路径是指沿着字典树向下搜索,找到匹配的进行输出。在base和check双数组的基础上,增加fail数组,将fail数组中的相同State中的index下标关联起来,从而将整个Trie树中的failure属性关联。增加了fail数组之后,可以根据每个结点State中的index快速地定位到上级跳转路径的索引中。也就是说,在Trie树中的匹配中,不是依次返回下一个State的引用,而是返回State中具体的index,利用下标Index,成功匹配的情况下可以按照Success表(也就是base数组和check数组)转移,失败匹配的时候可以按照fail数组来实现跳转,跳转到failure所指引的合适位置。
上述状态转移过程就是一个广度优先搜索过程,利用队列维护整个过程的搜索顺序。利用父结点的失败者状态减少整个匹配失败的快速跳转,一步一步的完善各个子结点整个匹配失败的状态转移。
S130:获取待匹配的地址字符,根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。
在一些实施例中,获取待匹配的地址字符,待匹配的地址字符为需要标准化的字符串,例如“武汉邮科院”。“武汉邮科院”缺少行政区,是不标准的地址信息,因此需要对其进行标准化。
图5为本申请一个实施例中步骤S130的流程示意图。请参照图5,在一些实施例中,根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配,包括:
S131:根据AC自动机对待匹配的地址字符进行拆分,得到多个地址片段;
S132:根据多个地址片段进行匹配,得到输出结果,输出结果为地址补充最全的结果。
以输入的待匹配的地址字符为“武汉邮科院”为例,通过AC自动机拆分后,会得到地址片段:“武汉/市/B”、“武汉/路/F”、“邮科院/U”。需要说明的是,得到的地址片段实际上取决于中国的地址库,也就是说对于“武汉”来说,在中国只存在“武汉市”和“武汉路”这两个真实地址,不存在其他地址。
图6为本申请一个实施例中步骤S132的示意图。请参照图6,根据这几个地址片段“武汉/市/B”、“武汉/路/F”、“邮科院/U”进行匹配,会以最长前缀匹配的思路输出匹配的所有地址,即输出的匹配地址中,地址补充的最全的那个。因此,最后得到的标准化地址为“武汉市邮科院”或“武汉路邮科院”。
在一些实施例中,若输入的待匹配的地址字符为“武汉市邮科院”,则通过AC自动机拆分后只会得到“武汉/市/B”和“邮科院/U”两个地址片段。本申请实施例将同一个地址片段拆分为两份,一份是地址名称,一份是“地址名称+关键词”,可以很好地解决地址片段关键词缺失和错误等问题。
在一些实施例中,如果只是匹配了部分地址名称,将输出地址名称下的所有符合条件等级的地址要素。以“武汉邮科院”为例,如果只匹配了“武汉”这个地址名称,将会输出“武汉市”和“武汉路”。
结合上述,本申请实施例的地址标准化方法,在基于地址预处理的基础上,对地址构建Trie树并使用AC自动机完成地址标准化,不仅通过状态转移生成最优地址输出,还压缩了地址字典的内存构建开销(这是字典树的特性,采用字典树搜索都会压缩存储内存),大幅度地提升地址元素匹配的速度。对银行等各业务场景的地址进行有效清理和输出,提高地址信息在营销、反欺诈等领域的应用价值。
第二方面,本申请实施例还提供了一种地址标准化装置,包括:
字典树构建模块,用于根据地址库中的地址构建字典树;
AC自动机构建模块,用于构建基于字典树的AC自动机;
处理模块,用于获取待匹配的地址字符,根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如第一方面任一项所述地址标准化方法的步骤。
图7为本申请一个实施例中计算机设备的内部结构图。请参照图7,在一些实施例中,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现如上任一项地址标准化方法的步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行如上任一项地址标准化方法的步骤。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如第一方面任一项所述地址标准化方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种地址标准化方法,其特征在于,所述方法包括:
根据地址库中的地址构建字典树;
构建基于字典树的AC自动机;
获取待匹配的地址字符,根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。
2.根据权利要求1所述的地址标准化方法,其特征在于,所述地址库包括行政区地址库和其它等级地址库;
所述根据地址库中的地址构建字典树,包括:
将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;
将所述第一地址和所述第二地址按照字典序进行字典树的构建。
3.根据权利要求2所述的地址标准化方法,其特征在于,所述字典树的每个结点具有以下三种状态中的一种:转移成功且可输出、转移成功但不可输出、转移失败。
4.根据权利要求1所述的地址标准化方法,其特征在于,所述字典树为双数组字典树,双数组包括base数组和check数组,所述base数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移,所述check数组用于验证地址字符是否由同一个状态转移而来。
5.根据权利要求4所述的地址标准化方法,其特征在于,所述构建基于字典树的AC自动机,包括:
补充字典树的每个结点的状态信息,设置地址匹配失败时跳转的匹配路径;
增加fail数组,将所述fail数组中状态信息相同的索引进行关联,以将整个字典树中的状态信息关联。
6.根据权利要求1所述的地址标准化方法,其特征在于,所述根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,包括:
根据所述AC自动机对所述待匹配的地址字符进行拆分,得到多个地址片段;
根据多个地址片段进行匹配,得到输出结果,所述输出结果为地址补充最全的结果。
7.一种地址标准化装置,其特征在于,所述装置包括:
字典树构建模块,用于根据地址库中的地址构建字典树;
AC自动机构建模块,用于构建基于字典树的AC自动机;
处理模块,用于获取待匹配的地址字符,根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果。
8.根据权利要求7所述的地址标准化装置,其特征在于,所述地址库包括行政区地址库和其它等级地址库;
所述字典树构建模块具体用于:
将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;
将所述第一地址和所述第二地址按照字典序进行字典树的构建。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述地址标准化方法的步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述地址标准化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026736.1A CN117076590A (zh) | 2023-08-15 | 2023-08-15 | 地址标准化方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026736.1A CN117076590A (zh) | 2023-08-15 | 2023-08-15 | 地址标准化方法、装置、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076590A true CN117076590A (zh) | 2023-11-17 |
Family
ID=88703543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311026736.1A Pending CN117076590A (zh) | 2023-08-15 | 2023-08-15 | 地址标准化方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076590A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117640259A (zh) * | 2024-01-25 | 2024-03-01 | 武汉思普崚技术有限公司 | 一种脚本分步检测方法、装置、电子设备及介质 |
-
2023
- 2023-08-15 CN CN202311026736.1A patent/CN117076590A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117640259A (zh) * | 2024-01-25 | 2024-03-01 | 武汉思普崚技术有限公司 | 一种脚本分步检测方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
US6738759B1 (en) | System and method for performing similarity searching using pointer optimization | |
US6618727B1 (en) | System and method for performing similarity searching | |
CN110609902B (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
WO2021139074A1 (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
US20230229677A9 (en) | Artificial intelligence-based property data linking system | |
US20160275196A1 (en) | Semantic search apparatus and method using mobile terminal | |
CN110019689A (zh) | 职位匹配方法和职位匹配系统 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN104346438A (zh) | 基于大数据数据管理服务系统 | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
CN117076590A (zh) | 地址标准化方法、装置、计算机设备及可读存储介质 | |
CN116431837B (zh) | 基于大型语言模型和图网络模型的文档检索方法和装置 | |
CN111291099B (zh) | 一种地址模糊匹配方法、系统及计算机设备 | |
CN113946686A (zh) | 电力营销知识图谱构建方法及系统 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN111026787A (zh) | 网点检索方法、装置及系统 | |
CN116860825B (zh) | 一种基于区块链的可验证检索方法及系统 | |
CN111767476B (zh) | 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法 | |
WO2021186287A1 (en) | Vector embedding models for relational tables with null or equivalent values | |
CN115952770B (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN112632406A (zh) | 查询方法、装置、电子设备及存储介质 | |
CN115329083A (zh) | 文档分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |