CN111008625A - 一种地址校正方法、装置、设备及存储介质 - Google Patents
一种地址校正方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111008625A CN111008625A CN201911241103.6A CN201911241103A CN111008625A CN 111008625 A CN111008625 A CN 111008625A CN 201911241103 A CN201911241103 A CN 201911241103A CN 111008625 A CN111008625 A CN 111008625A
- Authority
- CN
- China
- Prior art keywords
- address
- standard
- candidate set
- corrected
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种地址校正方法、装置、设备及存储介质。该方法包括:获取待校正地址和预设字符索引,其中,预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;根据预设字符索引得到与待校正地址匹配的候选集,并对候选集进行裁剪处理,得到标准地址候选集;分别计算标准地址候选集中每个候选标准地址的置信率,根据置信率从标准地址候选集中匹配出目标标准地址;根据目标标准地址对待校正地址进行校正。本发明实施例的技术方案,充分考虑了校正过程的完备性、最优性和高效性,可以对待校正地址进行快速且精准的校正,具有较强的通用性。
Description
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种地址校正方法、装置、设备及存储介质。
背景技术
随着信息系统的普及以及人工智能的推广,在信息系统中输入地址的场景变得越来越多,比如,银行办理开户时需要填写通讯地址、身份证识别时需要识别家庭地址,这些地址在信息系统录入时容易存在或多或少的错误。
在金融行业的信息系统中,例如,针对用户在信息系统中需要手动输入地址的情况,可能存在因为用户的粗心大意而导致输入结果中包含错别字的情况。再例如,针对证件图片识别的情况,光学字符识别(Optical Character Recognition,OCR)已经成为一种常用的辅助手段,其可对证件图片进行识别并将识别结果填充到信息系统中。但是,OCR识别不能保证百分百的准确性,特别是对于地址这类长度较长且文字间关联性较弱的识别对象,错误率较高。因此,对信息系统中的地址进行精准校正是一个高准确性系统的必要环节。
发明内容
本发明实施例提供了一种地址校正方法、装置、设备及存储介质,以实现地址精准校正的效果。
第一方面,本发明实施例提供了一种地址校正方法,可以包括:
获取待校正地址和预设字符索引,其中,预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;
根据预设字符索引得到与待校正地址匹配的候选集,并对候选集进行裁剪处理,得到标准地址候选集;
分别计算标准地址候选集中每个候选标准地址的置信率,根据置信率从标准地址候选集中匹配出目标标准地址;
根据目标标准地址对待校正地址进行校正。
可选的,分别计算标准地址候选集中每个候选标准地址的置信率,可包括:
预处理包括基于地址级别的分隔处理,根据地址级别对待校正地址进行分隔处理,并根据分隔处理结果更新待校正地址;
提取出待校正地址的待校正地址段,以及,标准地址候选集中候选标准地址的与待校正地址段属于同一地址级别的候选标准地址段;
计算待校正地址段和候选标准地址段间的编辑距离,并根据编辑距离和预设调节因子得到置信率。
可选的,对候选集进行裁剪处理,得到标准地址候选集,可以包括:
采用分枝界定策略,对候选集进行裁剪处理,得到标准地址候选集。
可选的,上述地址校正方法,还可以包括:
获取预设头部索引,其中,预设头部索引是根据地址头部文件构建的,地址头部文件包括一级地址和省会城市地址;
相应的,在得到标准地址候选集之后,该方法还可以包括:
根据预设头部索引对标准地址候选集进行筛选,并根据筛选结果更新标准地址候选集。
可选的,根据预设头部索引对标准地址候选集进行筛选,并根据筛选结果更新标准地址候选集,可以包括:
采用最优剪枝策略,根据预设头部索引对标准地址候选集进行剪枝处理,并根据剪枝处理结果更新标准地址候选集。
可选的,预设字符索引和/或预设头部索引是倒排索引文件。
可选的,根据目标标准地址对待校正地址进行校正,可以包括:
采用贪婪策略,根据目标标准地址对待校正地址进行校正。
第二方面,本发明实施例还提供了一种地址校正装置,该装置可以包括:
获取模块,用于获取待校正地址和预设字符索引,预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;
裁剪模块,用于根据预设字符索引得到与待校正地址匹配的候选集,并对候选集进行裁剪处理,得到标准地址候选集;
匹配模块,用于分别计算标准地址候选集中每个候选标准地址的置信率,根据置信率从标准地址候选集中匹配出目标标准地址;
校正模块,用于根据目标标准地址对待校正地址进行校正。
第三方面,本发明实施例还提供了一种设备,该设备可以包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例所提供的地址校正方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的地址校正方法。
本发明实施例的技术方案,通过获取待校正地址和预设字符索引,预设字符索引的应用可快速匹配出待校正地址的候选集;通过剪枝策略对候选集进行裁剪处理,快速缩小候选集的范围以得到标准地址候选集;通过计算标准地址候选集中每个候选标准地址的置信率以匹配出最优解即目标标准地址;根据目标标准地址对待校正地址进行校正,得到校正结果。上述技术方案充分考虑了匹配校正过程的完备性、最优性和高效性,可以对待校正地址进行快速且精准的校正,具有较强的通用性。
附图说明
图1是本发明实施例一中的一种地址校正方法的流程图;
图2是本发明实施例一中的一种地址校正方法中字符索引的结构示意图;
图3是本发明实施例一中的一种地址校正方法中头部索引的结构示意图;
图4是本发明实施例一中的一种地址校正方法的优选实施例图;
图5是本发明实施例二中的一种地址校正装置的结构框图;
图6是本发明实施例三中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中提供的一种地址校正方法的流程图。本实施例可适用于对待校正地址进行校正的情况,尤其适用于证件内容识别后的地址校正的情况。该方法可以由本发明实施例提供的地址校正装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在设备上。
参见图1,本发明实施例的方法具体包括如下步骤:
S110、获取待校正地址和预设字符索引,其中,预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的。
其中,预设地址库可以是全国五级地址库,其包括省、市(盟)、县(区、旗)、镇(乡、街道)、村(社区),需要说明的是,直辖市为四级地址。将预设地址库作为校正词表,可以保证校正结果的权威性和科学性。
为了提高地址校正这一过程的处理效率,可以对预设地址库中的标准地址进行预处理,得到地址源文件。具体的,导入预设地址库,将其中的每一个地址作为标准地址,对标准地址进行预处理,得到地址源文件。在地址源文件中,每行一个标准地址,标准地址可按行编号,全国49410个标准地址均记录在一个地址源文件中。示例性的,上述预处理可以是基于地址级别的分隔处理,各级别的标准地址段用“|”分隔,这样设置的好处在于,以地址级别为单位,对待校正地址和标准地址进行分段处理,比如在后续校正环节,针对每个地址级别的待校正地址段依次校正,这可以避免出现待校正地址中错误的市级地址和标准地址中某个县级地址一致而导致匹配和/或校正错误的情况,由此提高了处理效率和校正精度。在此基础上,示例性的,以预设地址库是全国五级地址库为例,地址源文件中的内容可以如表一所示,其中,安徽省是省级地址段,安庆市是市级地址段,其余内容以此类推。
表一 地址源文件
进一步地,为了提高地址匹配的效率,可以根据地址源文件构建字符索引,由此实现了检索引擎的建立。需要说明的是,构建字符索引的原因在于,待校正地址中词的概念弱化,且地址校正是为待校正地址中的某个字进行纠错校正,因此采用单个字符为关键字建立字符索引,该字符索引可以是倒排索引文件。也就是说,读取倒排索引文件以获取预设字符索引,且可以将倒排索引文件加载到缓存中以减少文件的I/O次数。具体的,字符索引可以用来记录地址源文件中出现过的全部字符的相关信息,包括某个字符在地址源文件中的位置信息。实际应用中,搜索时根据用户输入的查询串字符在字符索引里查询,能够获得相应位置信息,这是后续匹配环节的基础。
示例性的,以预设地址库是全国五级地址库为例,倒排索引文件中的内容可以如表二所示,其中,位置信息可以理解为表二中“培864 2260”,即在地址源文件第864行和2260行的标准地址中存在“培”。
表二 倒排索引文件
在此基础上,可选的,地址源文件包含接近5万条数据,是一个规模较大的文档集合,而其中包含的单字也达到几千个,几乎囊括了常用汉字,能否快速定位某个字符,这直接影响搜索时的响应速度,因此,需要高效的数据结构来对单字字典进行构建和查找,如哈希表加链表的数据结构。示例性的,如图2所示的预设字符索引INDEX_CACHE的结构示意图,其采用倒排索引的思想,可以提高匹配效率以快速生成候选集。具体的,预设字符索引主要由两个部分构成:主体部分是哈希表,哈希表的关键字key为单个字符,每个哈希表项保存一个指针,指针指向一个地址链表,该地址链表可以保存该字符在地址源文件中出现过的全部地址(Identity,id),而且,在地址源文件中,每行一个标准地址,标准地址按行编号,每行标准地址都有一个id。
S120、根据预设字符索引得到与待校正地址匹配的候选集,并对候选集进行裁剪处理,得到标准地址候选集。
其中,在预设字符索引中匹配待校正地址,获得所有可能的解,并由这些所有可能的解构成候选集。具体的,可以将待校正地址逐字符分割,在分割过程中过滤掉其中的数字和括号,并将已分割的字符放到列表List(char)中;进一步,按字符遍历列表List(char),获得候选集。
针对按字符遍历列表List(char)以获得候选集的一种可选的实施方式,将当前字符currentChar在预设字符索引INDEX_CACHE中查找,获取匹配成功的标准地址的id;计算该id对应的匹配次数,记为匹配次数集Map(id,count);将当前字符currentChar拼接到该id对应的匹配字串的最后,并存到匹配字串集Map(id,chars);按id遍历Map(id,chars)中的匹配串,如果匹配串的最后一个字符不等于当前字符currentChar,也就是说当前字符currentChar没有匹配到该id,匹配串为非连续匹配,则增加空格分隔符。
以待校正地址是北京天阳为例,根据预设字符索引INDEX_CACHE在地址源文件中查找到匹配成功的标准地址是1北京市朝阳区和2北京市海淀区,那么,针对匹配次数集Map(id,count),“北京天阳”和“北京朝阳”的匹配次数是3,则匹配次数集Map(第1行标准地址的id,3),而“北京天阳”和“北京海淀”的匹配次数是2,则匹配次数集Map(第2行标准地址的id,2),匹配次数集设置的意义在于,可以优先处理匹配次数较高的标准地址;针对匹配字串集Map(id,chars),“北京天阳”和“北京朝阳”的匹配字串是“北”“京”“阳”,则匹配字串集Map(第1行标准地址的id,“北”“京”“阳”),而“北京天阳”和“北京海淀”的匹配字串是“北”“京”,则匹配字串集Map(第2行标准地址的id,“北”“京”)。而且,由于“北京天阳”和“北京朝阳”中的“朝”未匹配上,则可以在“北京”和“阳”中间增加空格符,得到“北京阳”。
需要说明的是,匹配次数集Map(id,count)和匹配字串集Map(id,chars)中的id是一致的,即候选集。因为待校正地址中可能会包含错别字,这导致匹配字串集Map(id,chars)中的很多匹配串也是错乱的,因此需要通过某些匹配条件将这些错乱的字符串进行裁剪,比如,按照匹配串的有效性进行剪裁以得到标准地址候选集。这样一来,可以通过对匹配字串集Map(id,chars)的裁剪来缩小候选集中标准地址的范围。
在此基础上,可选的,可以采用分枝界定策略对候选集进行裁剪处理,得到标准地址候选集,分支界定策略的应用可快速收缩候选集范围。具体的,分枝界定策略的核心思想就是剪枝策略,可采用广度优先的方式搜索结果集空间,将可行解作为一个集合,对凡是界限超出已知可行解的子集剪裁掉,上述可行解即为匹配字串集Map(id,chars)。而且,为了提高候选集的裁剪效率,此处对分枝界定策略进行了改进,将匹配次数集Map(id,count)转换为匹配次序集Map(count,id),转换过程中记录最大匹配次数maxMatch。这样在遍历匹配次序集Map(count,id)中的id时,可以直接从最大匹配次数maxMatch开始循环,每次-1,省掉了排序操作。
具体的,在遍历匹配次序集Map(count,id)时,根据次数获取与其匹配的id,如果该次数无匹配id,则忽略,继续循环;根据匹配id从地址源文件中获取标准地址;根据匹配id从匹配字串集Map(id,chars)中获取匹配串chars;对匹配串chars按空格进行分段,得到若干子串,示例性的,若匹配串chars是“北京阳”,则按空格分段后的若干子串是“北京”和“阳”;检查每段子串是否包含在标准地址中,若所有子串都能在标准地址中匹配到将该标准地址放入到标准地址候选集Candidate_Set(chars)中,换言之,每段子串应该属于标准地址的子串,否则为无效匹配串,可从候选集中裁剪掉。
S130、分别计算标准地址候选集中每个候选标准地址的置信率,根据置信率从标准地址候选集中匹配出目标标准地址。
其中,置信率是衡量统计匹配可靠程度的概率,其核心思想是计算标准地址候选集和待校正地址的各分段地址的相似度,以便从标准地址候选集Candidate_Set(chars)中找到置信率最大的目标标准地址。具体的,置信率可以基于编辑(Levenshtein)距离计算:判断输入的两个字符串的长度是否一致;若否则直接返回0,这一设置是针对地址匹配做出的改进,可以提高相似度的计算效率;若是则计算两个字符串的编辑距离,即两个字符串中相同字符的个数,比如北京天阳和北京朝阳的编辑距离是3;相似度为编辑距离/字符串长度;如果最后一个字为“街村里巷乡”的其中之一且相似度<1,则相似度为0;返回相似度,基于该相似度可以得到标准地址候选集的置信率,并通过置信率定位到最优解以得到目标标准地址。
在此基础上,可选的,分别计算所述标准地址候选集中每个候选标准地址的置信率,可以包括:预处理包括基于地址级别的分隔处理,根据地址级别对待校正地址进行分隔处理,并根据分隔处理结果更新待校正地址;提取出待校正地址的待校正地址段,以及,标准地址候选集中候选标准地址的与待校正地址段属于同一地址级别的候选标准地址段;计算待校正地址段和候选标准地址段间的编辑距离,如采用改进的编辑距离算法计算待校正地址段和候选标准地址段间的编辑距离,并根据编辑距离和预设调节因子得到置信率,预设调节因子的引入可保证候选集更快收敛。上述步骤具体可以描述为:
(1)预设置信率可为0,分段栏位值与预设地址库有关,若预设地址库是全国五级地址库,则分段栏位值为5,超过了五级地址的最大分段值5。
(2)循环,遍历标准地址候选集Candidate_Set(chars),计算标准地址串和待校正字串的置信度,也就是计算待校正地址段和候选标准地址段的置信率,由此得到标准地址候选集中置信率最大的目标标准地址,步骤(2)的具体实现过程可包括步骤(21)-(24):
(21)将标准地址候选集中候选标准地址按“|”分段,得到候选标准地址段;
(22)循环,遍历地址分段,得到每个地址分段的置信率,步骤(22)的具体实现过程可包括步骤(22a)-(22d):
(22a)每段按同等长度截取待校正地址,获得分段
(22b)计算两个分段字串的相似度
(22c)若相似度>=第一预设值,则置信率=置信率+相似度*调节因子
(22d)若相似度<第二预设值,则置信率不累加,调节因子=调节因子*3/4;
(23)返回置信率、相似度大于50%时的最后一个分段栏位;
(24)判断置信率是否大于预设值或栏位值是否小于预设值,若是则赋给预设值并记录当前的i,其中i为Candidate_Set(chars)的当前遍历的索引值;若相等则追加到置信率集中。
(3)得到Candidate_Set(chars)[i]即为目标标准地址。
需要说明的是,上述内容考察置信率和分段栏位的原因在于,置信率越高,则匹配度更高;栏位更靠前,则匹配位置更靠前,匹配可信度更高。调节因子引入的原因在于拉开置信率的差距,保证让标准地址候选集更快收敛。通过置信率进一步对标准地址候选集进行裁剪,得到了匹配效果最好的一个目标标准地址,即置信率最大的候选标准地址。
S140、根据目标标准地址对待校正地址进行校正。
其中,在地址校正环节,可根据预设地址库校正相应地址级别的待校正地址段。比如,若预设地址库是全国五级地址库,待校正地址段是待校正地址中的前五级地址,对于五级地址之外的其他信息如小区、门牌号等不作校正。
在此基础上,可选的,可采用贪婪策略最大范围的对待校正地址进行校正。贪婪策略的基本思路是对目标标准地址进行分段,每一段与待校正地址的对应段进行匹配;根据相似匹配测度,若匹配成功则添加到部分解中,接着进行下一段的匹配,每一步只考虑这一段;若未匹配成功,则不把该数据添加到部分解中,直到把所有数据枚举完为止。示例性的,采用贪婪策略对待校正地址进行校正的实现过程可以如下所述:
(1)将目标标准地址按“|”分割,得到多个目标标准地址段。
(2)循环,遍历目标标准地址段:将目标标准地址段与待校正地址中同等级别的字段进行匹配,若匹配成功则将该目标标准地址段视为部分解,记录当前匹配位置;若匹配失败则继续循环;得到最长的匹配位置。
(3)根据最长匹配位置,将目标标准地址的匹配字串替换待校正地址中的对应字串。示例性的,一个待校正地址为“威都市青羊区”,通过上述内容得到最长匹配地址为“成都市青羊区”,校正结果为“成都市青羊区”。
本发明实施例的技术方案,通过获取待校正地址和预设字符索引,预设字符索引的应用可快速匹配出待校正地址的候选集;通过剪枝策略对候选集进行裁剪处理,快速缩小候选集的范围以得到标准地址候选集;通过计算标准地址候选集中每个候选标准地址的置信率以匹配出最优解即目标标准地址;根据目标标准地址对待校正地址进行校正,得到校正结果。上述技术方案充分考虑了匹配校正过程的完备性、最优性和高效性,可以对待校正地址进行快速且精准的校正,具有较强的通用性。
一种可选的技术方案,在此基础上,上述地址校正方法,还可以包括:获取预设头部索引,其中,预设头部索引是根据地址头部文件构建的,地址头部文件包括一级地址和省会城市地址;相应的,在得到标准地址候选集之后,该方法还可以包括:根据预设头部索引对标准地址候选集进行筛选,并根据筛选结果更新标准地址候选集。
其中,地址头部文件包含了全部标准地址可能出现的头部数据即一级地址,比如省、直辖市和自治区。此外,考虑到某些应用场景,如身份证住址栏位中的地址为省会城市时,会省略省级名称并直接以省会城市开头,由五级地址变为四级地址,如成都市天府新区华阳街道XX社区,因此,可将省会城市地址亦添加到地址头部文件中。示例性的,以预设地址库是全国五级地址库为例,地址头部文件中的内容如表三所示,共包括地址数据58条:
表三 地址头部文件
根据地址头部文件可构建预设头部索引HEAD_CACHE,或是说,将地址头部文件加载到内存可得到预设头部索引,其可采用倒排索引的思想,属于倒排索引文件。而且,预设头部索引可采用哈希表和链表的数据结构,示例性的,如图3所示,每一个地址头部按字符分割,字符+位置作为哈希表的关键字(key),链表中保存的是该key对应的全部地址头部。需要说明的是,地址头部文件中的“省”和“市”对待校正地址的匹配并无价值,可忽略。
进一步,根据预设头部索引可对标准地址候选集进行筛选,即头部地址的匹配来剪裁标准地址候选集,由此进一步缩小候选集的范围。这样设置好的好处在于,若候选集的范围过大,在后续置信率计算环节,可能存在多个置信率相同的候选标准地址,这就无法匹配出置信率最大的目标标准地址。
在此基础上,可选的,可采用最优剪枝策略,根据预设头部索引对标准地址候选集进行正确性剪枝处理,并根据剪枝处理结果更新标准地址候选集。其中,实际应用中,剪枝处理过程可采用最优剪枝策略,即通过某些判断条件,避免一些不必要的遍历过程,就是剪去了搜索遍历路径中的某些“枝条”。最优剪枝策略的核心问题是设计剪枝判断方法,即确定哪些枝条应当舍弃,哪些枝条应当保留,比如,如果全部的头部地址都不能在某个候选标准地址中匹配到,则将该候选标准地址从标准地址候选集中删除。
具体剪枝过程可如下所述:待校正地址的前2至4个字应该在地址头部文件中,即省名或省会城市名,获取待校正地址的头部两个字;将两字拆分,分别在预设头部索引HEAD_CACHE中查找索引结果;两个字的索引结果取交集,若交集为空,说明头部字串中存在错字,则取并集;交集或并集的结果记为头部候选集Head_Set(chars);循环遍历标准地址候选集Candidate_Set(chars),如果全部的头部候选集都不能在标准地址候选集中的某个候选标准地址中匹配到,则将该候选标准地址从标准地址候选集中删除。需要说明的是,若待校正地址的头部字串都正确,则交集有值,能快速定位标准地址候选集;若存在一个错字,则交集可能为空,为了避免漏掉可能的解,取并集以保留标准地址候选集中的可能解;若两个字都是错误的,则可能删除正确解,但这种情况出现的概率极低,而且可以通过二级、三级地址的反向校正来解决。
为了更好地理解上述步骤的具体实现过程,下面结合具体示例“全国五级地址库”,对本实施例的地址校正方法进行示例性的说明。示例性的,如图4所示,对全国五级地址库进行预处理,得到地址源文件,并根据地址源文件得到地址头部文件和倒排索引文件;建立检索引擎,将倒排索引文件和地址头部文件均加载到内存,分别得到字符索引INDEX_CACHE和头部索引HEAD_CACHE,二者均采用倒排索引的思想;在字符索引表中匹配待校正地址,获得候选集;根据分支界定策略对候选集进行裁剪,在此基础上,结合最优剪枝策略和头部索引对裁剪结果再次进行裁剪得到标准地址候选集;采用改进的编辑距离算法以及引入预设调节因子可快速计算标准地址候选集中每个候选标准地址的置信率以匹配出最优解,这可保证候选集的快速收敛;采用贪婪匹配校正策略,基于最优解对待校正地址进行校正,得到校正结果。
上述技术方案在实现过程中充分考虑了匹配过程的完备性、最优性和高效性,具有如下优势:采用倒排索引,提高匹配效率,快速生成候选集;采用剪枝策略,基于分支界定法,快速收缩候选集范围;对编辑距离算法根据地址串的特征进行改进,提高了相似度的计算效率;通过置信率定位到最优解;采用贪婪算法最大范围的对地址进行校正,对于五级地址之外的其他信息如小区、门牌号等,则完全保留,实现了地址的快速且精准校正。
实施例二
图5为本发明实施例二提供的地址校正装置的结构框图,该装置用于执行上述任意实施例所提供的地址校正方法。该装置与上述各实施例的地址校正方法属于同一个发明构思,在地址校正装置的实施例中未详尽描述的细节内容,可以参考上述地址校正方法的实施例。参见图5,该装置具体可包括:获取模块210、裁剪模块220、匹配模块230和校正模块240。
其中,获取模块210,用于获取待校正地址和预设字符索引,预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;
裁剪模块220,用于根据预设字符索引得到与待校正地址匹配的候选集,并对候选集进行裁剪处理,得到标准地址候选集;
匹配模块230,用于分别计算标准地址候选集中每个候选标准地址的置信率,根据置信率从标准地址候选集中匹配出目标标准地址;
校正模块240,用于根据目标标准地址对待校正地址进行校正。
可选的,匹配模块230,具体可以包括:
分隔处理单元,用于预处理包括基于地址级别的分隔处理,根据地址级别对待校正地址进行分隔处理,并根据分隔处理结果更新待校正地址;
提取单元,用于提取出待校正地址的待校正地址段,以及,标准地址候选集中候选标准地址的与待校正地址段属于同一地址级别的候选标准地址段;
计算单元,用于计算待校正地址段和候选标准地址段间的编辑距离,并根据编辑距离和预设调节因子得到置信率。
可选的,裁剪模块220,具体可以用于:
采用分枝界定策略,对候选集进行裁剪处理,得到标准地址候选集。
可选的,在上述装置的基础上,该装置还可包括:
构建模块,用于获取预设头部索引,其中,预设头部索引是根据地址头部文件构建的,地址头部文件包括一级地址和省会城市地址;
筛选模块,用于根据预设头部索引对标准地址候选集进行筛选,并根据筛选结果更新标准地址候选集。
可选的,筛选模块,具体可用于:
采用最优剪枝策略,根据预设头部索引对标准地址候选集进行剪枝处理,并根据剪枝处理结果更新标准地址候选集。
可选的,预设字符索引和/或预设头部索引是倒排索引文件。
可选的,校正模块240,具体可用于:
采用贪婪策略,根据目标标准地址对待校正地址进行校正。
本发明实施例二提供的地址校正装置,通过获取模块获取待校正地址和预设字符索引,预设字符索引的应用可快速匹配出待校正地址的候选集;裁剪模块通过剪枝策略对候选集进行裁剪处理,快速缩小候选集的范围以得到标准地址候选集;匹配模块通过计算标准地址候选集中每个候选标准地址的置信率以匹配出目标标准地址;校正模块根据目标标准地址对待校正地址进行校正,得到校正结果。上述装置充分考虑了匹配校正过程的完备性、最优性和高效性,可以对待校正地址进行快速且精准的校正,具有较强的通用性。
本发明实施例所提供的地址校正装置可执行本发明任意实施例所提供的地址校正方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述地址校正装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图6为本发明实施例三提供的一种设备的结构示意图,如图6所示,该设备包括存储器310、处理器320、输入装置330和输出装置340。设备中的处理器320的数量可以是一个或多个,图6中以一个处理器320为例;设备中的存储器310、处理器320、输入装置330和输出装置340可以通过总线或其它方式连接,图6中以通过总线350连接为例。
存储器310作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的地址校正方法对应的程序指令/模块(例如,地址校正装置中的获取模块210、裁剪模块220、匹配模块230和校正模块240)。处理器320通过运行存储在存储器310中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的地址校正方法。
存储器310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器310可进一步包括相对于处理器320远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
实施例四
本发明实施例四提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种地址校正方法,该方法包括:
获取待校正地址和预设字符索引,其中,预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;
根据预设字符索引得到与待校正地址匹配的候选集,并对候选集进行裁剪处理,得到标准地址候选集;
分别计算标准地址候选集中每个候选标准地址的置信率,根据置信率从标准地址候选集中匹配出目标标准地址;
根据目标标准地址对待校正地址进行校正。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的地址校正方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。依据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种地址校正方法,其特征在于,包括:
获取待校正地址和预设字符索引,其中,所述预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;
根据所述预设字符索引得到与所述待校正地址匹配的候选集,并对所述候选集进行裁剪处理,得到标准地址候选集;
分别计算所述标准地址候选集中每个候选标准地址的置信率,根据所述置信率从所述标准地址候选集中匹配出目标标准地址;
根据所述目标标准地址对所述待校正地址进行校正。
2.根据权利要求1所述的方法,其特征在于,所述分别计算所述标准地址候选集中每个候选标准地址的置信率,包括:
所述预处理包括基于地址级别的分隔处理,根据所述地址级别对所述待校正地址进行分隔处理,并根据分隔处理结果更新所述待校正地址;
提取出所述待校正地址的待校正地址段,以及,所述标准地址候选集中候选标准地址的与所述待校正地址段属于同一地址级别的候选标准地址段;
计算所述待校正地址段和所述候选标准地址段间的编辑距离,并根据所述编辑距离和预设调节因子得到置信率。
3.根据权利要求1所述的方法,其特征在于,所述对所述候选集进行裁剪处理,得到标准地址候选集,包括:
采用分枝界定策略,对所述候选集进行裁剪处理,得到标准地址候选集。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取预设头部索引,其中,所述预设头部索引是根据地址头部文件构建的,所述地址头部文件包括一级地址和省会城市地址;
相应的,在所述得到标准地址候选集之后,所述方法还包括:
根据所述预设头部索引对所述标准地址候选集进行筛选,并根据筛选结果更新所述标准地址候选集。
5.根据权利要求4所述的方法,其特征在于,所述根据所述预设头部索引对所述标准地址候选集进行筛选,并根据筛选结果更新所述标准地址候选集,包括:
采用最优剪枝策略,根据所述预设头部索引对所述标准地址候选集进行剪枝处理,并根据剪枝处理结果更新所述标准地址候选集。
6.根据权利要求4所述的方法,其特征在于,所述预设字符索引和/或所述预设头部索引是倒排索引文件。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标标准地址对所述待校正地址进行校正,包括:
采用贪婪策略,根据所述目标标准地址对所述待校正地址进行校正。
8.一种地址校正装置,其特征在于,包括:
获取模块,用于获取待校正地址和预设字符索引,所述预设字符索引是根据在对预设地址库中的标准地址进行预处理后得到的地址源文件构建的;
裁剪模块,用于根据所述预设字符索引得到与所述待校正地址匹配的候选集,并对所述候选集进行裁剪处理,得到标准地址候选集;
匹配模块,用于分别计算所述标准地址候选集中每个候选标准地址的置信率,根据所述置信率从所述标准地址候选集中匹配出目标标准地址;
校正模块,用于根据所述目标标准地址对所述待校正地址进行校正。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的地址校正方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的地址校正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241103.6A CN111008625B (zh) | 2019-12-06 | 2019-12-06 | 一种地址校正方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241103.6A CN111008625B (zh) | 2019-12-06 | 2019-12-06 | 一种地址校正方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008625A true CN111008625A (zh) | 2020-04-14 |
CN111008625B CN111008625B (zh) | 2023-07-18 |
Family
ID=70114944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911241103.6A Active CN111008625B (zh) | 2019-12-06 | 2019-12-06 | 一种地址校正方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008625B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783757A (zh) * | 2020-06-01 | 2020-10-16 | 成都科大极智科技有限公司 | 一种基于ocr技术的复杂场景下身份证识别方法 |
CN112836497A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址纠正方法、装置、电子设备及存储介质 |
CN113515677A (zh) * | 2021-07-22 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102934075A (zh) * | 2010-06-28 | 2013-02-13 | 高通股份有限公司 | 用于使用预先通知技术改变程序的顺序流程的方法和设备 |
CN103198079A (zh) * | 2012-01-06 | 2013-07-10 | 北大方正集团有限公司 | 相关搜索的实现方法和装置 |
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN105760360A (zh) * | 2014-12-16 | 2016-07-13 | 高德软件有限公司 | 一种地址纠正方法和装置 |
CN107154899A (zh) * | 2017-03-23 | 2017-09-12 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种用后缀索引查找ip路由的系统 |
CN107491525A (zh) * | 2017-08-17 | 2017-12-19 | 小草数语(北京)科技有限公司 | 分布式地址比对方法和装置 |
CN108369582A (zh) * | 2018-03-02 | 2018-08-03 | 福建联迪商用设备有限公司 | 一种地址纠错方法及终端 |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN110019645A (zh) * | 2017-09-28 | 2019-07-16 | 北京搜狗科技发展有限公司 | 索引库构建方法、搜索方法及装置 |
-
2019
- 2019-12-06 CN CN201911241103.6A patent/CN111008625B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102934075A (zh) * | 2010-06-28 | 2013-02-13 | 高通股份有限公司 | 用于使用预先通知技术改变程序的顺序流程的方法和设备 |
CN103198079A (zh) * | 2012-01-06 | 2013-07-10 | 北大方正集团有限公司 | 相关搜索的实现方法和装置 |
CN104375992A (zh) * | 2013-08-12 | 2015-02-25 | 中国移动通信集团浙江有限公司 | 一种地址匹配的方法和装置 |
CN105760360A (zh) * | 2014-12-16 | 2016-07-13 | 高德软件有限公司 | 一种地址纠正方法和装置 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN107154899A (zh) * | 2017-03-23 | 2017-09-12 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种用后缀索引查找ip路由的系统 |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN107491525A (zh) * | 2017-08-17 | 2017-12-19 | 小草数语(北京)科技有限公司 | 分布式地址比对方法和装置 |
CN110019645A (zh) * | 2017-09-28 | 2019-07-16 | 北京搜狗科技发展有限公司 | 索引库构建方法、搜索方法及装置 |
CN108369582A (zh) * | 2018-03-02 | 2018-08-03 | 福建联迪商用设备有限公司 | 一种地址纠错方法及终端 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783757A (zh) * | 2020-06-01 | 2020-10-16 | 成都科大极智科技有限公司 | 一种基于ocr技术的复杂场景下身份证识别方法 |
CN112836497A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址纠正方法、装置、电子设备及存储介质 |
CN113515677A (zh) * | 2021-07-22 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113515677B (zh) * | 2021-07-22 | 2023-10-27 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111008625B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3846048A1 (en) | Online log analysis method, system, and electronic terminal device thereof | |
WO2021135444A1 (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN111008625A (zh) | 一种地址校正方法、装置、设备及存储介质 | |
CN104142915B (zh) | 一种添加标点的方法和系统 | |
CN110674396B (zh) | 文本信息处理方法、装置、电子设备及可读存储介质 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
CN107784110B (zh) | 一种索引建立方法及装置 | |
CN107748778B (zh) | 一种提取地址的方法及装置 | |
CN111324750B (zh) | 一种大规模文本相似度计算及文本查重方法 | |
CN111159497B (zh) | 正则表达式的生成方法及基于正则表达式的数据提取方法 | |
CN111062397A (zh) | 一种智能票据处理系统 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN107168966B (zh) | 一种搜索引擎索引构建方法及装置 | |
CN115168345B (zh) | 数据库分级分类方法、系统、装置及存储介质 | |
CN110147351A (zh) | 一种Office文件数据分片识别、排序、重组方法 | |
CN116414824A (zh) | 行政区划信息识别和标准化处理的方法、装置及存储介质 | |
US20140149341A1 (en) | System and method for refining address database for improving performance of automated mail sorting machine | |
CN112287657B (zh) | 基于文本相似度的信息匹配系统 | |
CN113961768A (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN111310450A (zh) | 一种字符串分词方法、装置、设备及存储介质 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN115577269A (zh) | 一种基于字符串文本特征相似度的黑名单模糊匹配方法 | |
CN113723082A (zh) | 从文本中检测中文拼音的方法和装置 | |
CN114238709A (zh) | 字符串匹配方法、装置、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220927 Address after: 12 / F, 15 / F, 99 Yincheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Applicant after: Jianxin Financial Science and Technology Co.,Ltd. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |