CN115185986A

CN115185986A - 省市区地址信息匹配方法、装置、计算机设备及存储介质

Info

Publication number: CN115185986A
Application number: CN202210515057.XA
Authority: CN
Inventors: 涂开欣
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-10-14

Abstract

本申请涉及地址匹配技术领域，提供了一种省市区地址信息匹配方法、装置、计算机设备及存储介质，其中方法包括：对地址数据进行标准化处理，得到标准化行政区划级别匹配表；将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串，将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/或区级信息；解析出区级信息的名称并与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果。本发明通过正则匹配的方式能够减少待匹配的地址字段关联次数，提高大数据的运行效率以及提高数据饱和率。

Description

省市区地址信息匹配方法、装置、计算机设备及存储介质

技术领域

本申请涉及地址匹配技术领域，特别是涉及一种省市区地址信息匹配方法、装置、计算机设备及存储介质。

背景技术

地址清洗是指对用户自主填写地址进行智能查重、补全、规范等清洗，形成干净、高效、清晰的用户地址档案。详细的说就是针对用户地址字段残缺、重复、混乱进行分析处理，系统自动将不统一、缺漏、错误的地址加以整理、规范、补全，矫正，并且通过地址查重后整理归一，形成规整有效的地址数据。

目前大数据端针对企业和用户的地址信息是通过简单的截取关键字(省、市、区)等获取行政区划信息。用户填写的地址信息由于没有进行强校验，会存在填写错误，遗漏等情况。而通过截取的形式并不能保证地址信息准确。

发明内容

本申请提供一种省市区地址信息匹配方法、装置、计算机设备及存储介质，以解决目前的地址匹配不准确的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种省市区地址信息匹配方法，包括：对地址数据进行标准化处理，得到标准化行政区划级别匹配表；

将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；

将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/或区级信息；

截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

作为本申请的进一步改进，对地址数据进行标准化处理，得到标准化行政区划级别匹配表具体包括：

将至少一个地址数据组中的地址数据转化为数组形式；

对每个数据组中转化后的数据进行拼接；

将拼接后的数据确定为标准化行政区划级别匹配表。

作为本申请的进一步改进，预先设定的标准化行政区划级别匹配正则表达式训练过程具体包括：

获取第一训练样本集合和第一测试样本集合，其中，第一训练样本和第一测试样本均包括历史行政区划级别文本和相应的标注行政区划级别信息序列；

用第一训练样本集合中标注行政区划级别信息序列不为空的各第一训练样本生成第一正样本集合；

在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合；

对于第一目标数目个第一正样本子集合中的每个第一正样本子集合，基于该第一正样本子集合中各第一正样本，生成与该第一正样本子集合对应的候选正则表达式；

基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率；

将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为标准化行政区划级别匹配正则表达式。

作为本申请的进一步改进，将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串之前还包括：

将数据源中公开的多源地址数据的清洗和去重；

依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件，创建地址匹配索引库；

对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎；

在地址匹配引擎的基础上执行正向或逆向的地址匹配。

作为本申请的进一步改进，对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎包括：

获取地址数据表，将地址数据表中所包括的地址元素采用词典标签进行标识，得到标签地址元素词典；

获取包括至少一个字的待分词地址，待分词地址中的每个字为待匹配字符，将标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素；

执行预设的规则将待匹配字符采用地址分词标签分别进行标识，地址分词标签包括待匹配字符对应的待匹配地址元素中包括的地址字符的词典标签；

对待分词地址中的待匹配字符，执行预设的规则根据所标识的地址分词标签所包括的词典标签进行分词。

作为本申请的进一步改进，截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址包括：

获取用户输入的地址信息，得到标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址；

根据所述区级信息匹配成功的标准化行政区划地址解析出所述区级信息的名称；

用获取的所述标准化行政区划匹配表与所述解析出的区级信息名称逐级向上匹配，补齐所述用户输入的地址信息，得到补全后地址匹配结果。

作为本申请的进一步改进，截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址之后还包括：

用补齐后的地址信息与标准化行政区划匹配表进行匹配；

判断补齐后的地址信息与标准化行政区划匹配表是否匹配成功，匹配成功则进行高可信度标注，匹配不成功则进行低可信度标注。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种省市区地址信息匹配装置，包括：获取模块，对地址数据进行标准化处理，得到标准化行政区划级别匹配表；

匹配模块，将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；

截取模块，将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和 /或区级信息；

补全模块，截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机设备，计算机设备包括处理器、与处理器耦接的存储器，存储器中存储有程序指令，程序指令被处理器执行时，使得处理器执行上述中任一项的省市区地址信息匹配方法的步骤。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储有能够实现上述中任一项的省市区地址信息匹配方法的程序指令。

本申请的有益效果是：本申请的省市区地址信息匹配方法通过根据地址数据得到标准化行政区划级别匹配表，将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串，再将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/或区级信息，利用解析出区级信息的名称并与标准化行政区划级别匹配表进行逐级向上匹配，从而得到补全后地址匹配结果，其利用正则匹配的方式来补全地址的省、市行政规划信息，能够减少待匹配的地址字段关联次数，提高大数据的运行效率以及提高数据饱和率。

附图说明

图1是本发明实施例的省市区地址信息匹配方法的流程示意图；

图2是本发明实施例的省市区地址信息匹配方法的另一实施例流程示意图；

图3是本发明实施例的省市区地址信息匹配方法的另一实施例流程示意图；

图4是本发明实施例的省市区地址信息匹配方法的另一实施例流程示意图；

图5是本发明实施例的省市区地址信息匹配装置的功能模块示意图；

图6是本发明实施例的计算机设备的结构示意图；

图7是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明实施例的省市区地址信息匹配方法的流程示意图。需注意的是，若有实质上相同的结果，本申请的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括：

步骤S1、对地址数据进行标准化处理，得到标准化行政区划级别匹配表。

需要说明的是，从国家统计局获取最新的中国行政区划划分信息，根据统计局的数据，中国行政区划分大概分为五个级别，这五层的结构其实只是一般性的结构，并不具备一定性，比如北京市是省级单位，下属行政区单位跳过市级直接就到区级别。又比如有些市级单位下属行政区市只有区级单位，然后区级单位下属有镇，有的市级单位有区也有镇，甚至有的市只有镇。尽管地址层级结构相对复杂，但国家统计局获得的有很强的上下级从属关系。对于本发明而言，只需要用到前面三级。

具体地，对地址数据进行标准化处理，得到标准化行政区划级别匹配表，建立行政区划表，行政区划表中包含行政区划信息，每个行政区划信息包含以下字段；行政区划省、市、区级别一一对应。

进一步地，如图2所示，步骤S1、对地址数据进行标准化处理，得到标准化行政区划级别匹配表具体包括：

步骤S11、将至少一个地址数据组中的地址数据转化为数组形式。

具体地，处理单元调用collect_list()函数将至少一个数据组中的数据转化为数组形式，例如：处理单元调用collect_list()函数将各个数据组中的所有UL地址数据转化为数组形式。

步骤S12、对每个数据组中转化后的数据进行拼接。

具体地，调用concat_ws()函数对每个数据组中转化后的数据进行拼接，处理单元调用concat_ws()函数对同一个数据组(如：需要匹配字段的那一组)中的所有地址行政区划数据进行拼接，将省市区的名称字段以‘|’为连接符连接起来，形成一个只有一行记录，省市区三个字段的匹配用表，如：XXX省|XXX市|XXX区。

步骤S13、将拼接后的数据确定为标准化行政区划级别匹配表。

具体地，处理单元调用collect_list()函数将至少一个数据组中的数据转化为数组形式，进一步调用concat_ws()函数对每个数据组中转化后的数据进行拼接，处理单元将拼接后的地址数据确定为标准化行政区划匹配表。按照关联字段分组的每个保单数据组都被映射成为[XXX省|XXX 市|XXX区]的形式，即标准化行政区划匹配表。简化单元对标准数据进行简化处理，得到简化标准数据。

步骤S2、将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串。

具体地，对行政区划表建立匹配查询关系，根据行政区划级别之间的隶属关系对行政区划信息建立关联性，将标准化行政区划级别匹配表与标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串。

步骤S3、将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/ 或区级信息。

具体地，对行政区划表建立匹配查询关系，根据行政区划级别之间的隶属关系对行政区划信息建立关联性，将标准化行政区划级别匹配表与标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串，将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省、市、区信息。通过正则匹配的方式来识别地址，即通过定义每个地址类型的正则表达式，然后通过正则表达式来匹配地址类型，其中，正则表达式可以看做是查找串。例如：确定每个地址类型的正则表达式。

令REGEXP_EXTRACT(x)表示x的正则表达式，根据现有地址数据，将上述六种地址类型的正则表示式确定如下：

REGEXP_EXTRACT(办公场所)＝大厦、商厦、写字楼、办公楼、公司、银行、.座、集团、软件园、研究院、产业园、.店、.中心

REGEXP_EXTRACT(住宅)＝住宅、小区、家园、嘉园、家苑、家属院、((区、园、苑).+(号楼、栋、幢、排))、单元、公寓、嘉苑

REGEXP_EXTRACT(学校)＝学校、大学、宿舍、学院、中学、小学、校区、教学楼、学生公寓、幼儿园

REGEXP_EXTRACT(医院)＝医院、门诊、附属医院、护士站、手术室、急诊、(放射、妇、内、外、产、儿、骨、检验)科、住院部、病区、医生、住院楼、护理、手术室、病房

REGEXP_EXTRACT(娱乐场所)＝网吧、网咖、ktv、酒吧、酒楼、洗浴

REGEXP_EXTRACT(酒店)＝酒店、宾馆、旅馆、旅店

正则表达式的具体含义如下：

、表示或，如：Rep(x)＝大厦、商厦表示匹配到大厦或者商厦。

.表示匹配到任何文字。

+表示匹配到前面的文字一次或无限次，

|表示隔开，

如：REGEXP_EXTRACT(x)＝((区、园、苑).+|(号楼、栋、幢、排)) 表示匹配到xx区|xx栋或者xx园|xx号楼等文字模式。

本申请中设定的标准化行政区划级别匹配正则表达式为 REGEXP_EXTRACT(x)＝((省).+|(市).+|(区))表示匹配到xx省|xx市|xx 区。

进一步地，预先设定的标准化行政区划级别匹配正则表达式训练过程具体包括：

步骤S201、获取第一训练样本集合和第一测试样本集合，其中，第一训练样本和第一测试样本均包括历史行政区划级别文本和相应的标注行政区划级别信息序列；

具体地，获取第一训练样本集合和第一测试样本集合。其中，第一训练样本和第一测试样本均包括历史行政区划级别文本和相应的标注行政区划级别信息序列，需要说明的是，实践中，行政区划级别文本中可能不包括行政区划级别标识或者包括至少一个行政区划级别标识。因此，第一训练样本和第一测试样本中包括的标注行政区划级别标识信息序列可能为空，或者可能包括至少一个行政区划级别标识信息。第一训练样本和第一测试样本中的标注行政区划级别信息序列可以是由人工对相应的历史行政区划级别文本进行标注得到的。

步骤S202、用第一训练样本集合中标注行政区划级别信息序列不为空的各第一训练样本生成第一正样本集合；

具体地，如果第一训练样本集合中的第一训练样本的标注行政区划级别标识位置信息序列不为空，表明该第一训练样本的历史行政区划级别文本中包括了至少一个行政区划级别标识，那么该第一训练样本即为第一正样本。因此，可以用第一训练样本集合中标注行政区划级别标识位置信息序列不为空的各第一训练样本生成第一正样本集合。

步骤S203、在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合；

具体地，第一目标数目可以是预先设定的，第一目标数目也可以经由上述执行主体中提供的界面接收用户输入而确定。在第一正样本集合中随机选取N个第一正样本组成第一正样本子集合。其中，N为对L除以M的商向下取整所得的整数，L是第一正样本集合中的第一正样本数量，M是大于等于2小于L的正整数。举例说明，比如，第一正样本集合中包括419个第一正样本，第一目标数目为4，M为2，L即419，N 为419除以2的商向下取整的正整数209，这里执行4次以下操作：从该包括419个第一正样本的第一正样本集合中随机选取209个第一正样本组成第一正样本子集合。最终可得到4个第一正样本子集合，而每个第一正样本子集合包括209个第一正样本。

步骤S204、对于第一目标数目个第一正样本子集合中的每个第一正样本子集合，基于该第一正样本子集合中各第一正样本，生成与该第一正样本子集合对应的候选正则表达式；

具体地，基于该第一正样本子集合中各第一正样本，采用各种实现方式生成候选正则表达式。具体而言，可以首先对于该第一正样本子集合中的每个第一正样本，按照该第一正样本的标注行政区划标识位置信息序列中每个标注行政区划标识位置信息中的起始位置和终止位置获取该第一正样本的历史行政区划级别文本中的相应行政区划级别标识。然后，基于针对该第一正样本子集合中的各第一正样本所获取的行政区划级别标识，生成与该第一正样本子集合对应的候选正则表达式。需要说明的是，基于至少一个文本生成正则表达式是目前广泛研究和应用的现有技术。

步骤S205、基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率；

具体地，对于所获取的第一测试样本集合中的每个第一测试样本，确定该第一测试样本中的历史行政区划级别文本是否与该候选正则表达式匹配；如果确定匹配，则表明根据该候选正则表达式该第一测试样本中的历史行政区划级别文本包括行政区划级别标识，再进一步确定该第一测试样本中的标注行政区划级别标识位置信息序列是否为空，如果为空表明该第一测试样本中的历史行政区划级别文本中不包括行政区划级别标识，则可以确定该第一测试样本相对于该候选正则表达式为负样本，如果不为空表明该第一测试样本中的历史行政区划级别文本中包括行政区划级别标识，可以确定该第一测试样本相对于该候选正则表达式为正样本；如果确定不匹配，则表明根据该候选正则表达式该测试样本中的历史行政区划级别文本不包括行政区划级别标识，再进一步确定该第一测试样本中的标注行政区划级别信息序列是否为空，如果为空表明该第一测试样本中的历史行政区划级别文本中不包括行政区划级别标识，则可以确定该第一测试样本相对于该候选正则表达式为正样本，如果不为空表明该第一测试样本中的历史行政区划级别文本中包括行政区划级别标识，则可以确定该第一测试样本相对于该候选正则表达式为负样本；最后，将第一测试样本集合中相对于该候选正则表达式为正样本的第一测试样本数目除以第一测试样本集合中第一测试样本的总数所得的比值确定为该候选正则表达式对应的准确率。

步骤S206、将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为标准化行政区划级别匹配正则表达式。

具体地，上述步骤可以自动生成行政区划标识提取正则表达式，降低了生成行政区划标识提取正则表达式的人工成本。并且随着时间的推移，人们表达方式会产生变化，反应在标准化行政区划级别文本中的标准化行政区划级别标识也可能会产生变化，如果还是按照固有的方式去提取标准化行政区划级别文本中的标准化行政区划级别地标识可能会出现错误。这时可以获取最新的第一训练样本集合和第一测试样本集合采用第一训练步骤重新生成标准化行政区划级别标识提取正则表达式，以符合当前标准化行政区划级别文本的最新表达需求。

进一步地，步骤S2、将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串之前还包括：

步骤S21、将数据源中公开的多源地址数据的清洗和去重；

需要说明的是，数据过滤的流程是重复记录清洗的过程，包括重复记录检测及处理。为了使数据库中每条记录都表示不同用户地址的准确数据，通常对相似重复记录聚类中数据的处理可采用合并或删除的方法。依据实际情况将计算机自动处理与人工处理相结合。针对地址类信息的相似重复记录进行检测和处理，分为预处理和重复记录匹配两个模块。预处理模块包括属性选择(选取用于记录匹配的属性)、初步骤类(将潜在的可能重复的记录调整到邻近的位置)及清洗脏字段(处理不规范的数据)三个步骤。

具体地，在本实施例中，多源地址数据类型包括：公安地址数据、工商法人地址数据、导航地图地址数据、建筑物信息中的地址数据。公安地址数据特点是地址结构较完整，地址元素较标准，但地址精确至房间号。工商法人地址数据特点是地址形式较为多样，包含地址描述信息，地址元素缺失现象较多，较少使用门牌号作为定位方式。导航地图地址数据特点是数据量较少，地址中夹带如“()”、“\”、“<>”等特殊符号。建筑物信息中的地址数据特点是地址形式极为混乱，地址元素难以简易拆分，地址元素缺失严重。由于地址多为用户自己填写，因此很多情况下用户并没有按照一个通用并且标准的格式去填写。这就造成了原始地址数据中存在很多影响后续处理的脏数据，例如：空字符(空格，制表符等)，标点符号(逗号，括号等，全角和半角)等。地址清洗主要利用地址清洗规则树对这些脏数据进行选择性去除和保留。

步骤S22、依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件，创建地址匹配索引库；

具体地，地址分级数据库的构建依托于关系数据库，受影响于地址元素等级划分，取决于地址分词的准确性。中文地址分级数据库建设的意义在于采用带有地理属性的分类方法，将组合地址的不同地址元素存储在各个表中，每个表之间又存在相关关系。每个等级对应的表可以建立索引，作为搜索引擎的索引库参与到地址匹配中。

步骤S23、对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎；

步骤S24、在地址匹配引擎的基础上执行正向或逆向的地址匹配。

具体地，对输入数据的预处理，包括以下子步骤，去除标点符号，去除地址中如“()”、“\”、“<>”、“。”标点符号。拼音汉字转换。将地址中的拼音全部转换为汉字形式。简易正则化。对汉字字符串进行进一步处理，具体为去除每个字符内多余空格。对输入地址进行地址解析。对地址元素编码。构建带有地址类型语义信息的地址编码方案，对地址分级数据库中地址元素进行编码。编码时每一级的主要区别在于当前对象的最后一级地址元素的等级不同，则编码中的类型码不同。

进一步地，步骤S23、对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎包括：

步骤S231、获取地址数据表，将地址数据表中所包括的地址元素采用词典标签进行标识，得到标签地址元素词典。

具体地，本实施例通过将地址标签分为三个不同的标签位，对地址字符实现降维，使得更好地应用各种不同的规则。

在其中一个实施例中，地址词典表的地址元素之间具有父级别和子级别的级别关系，还包括：

根据标签地址词典中的地址元素之间的级别关系，生成对应的包括至少一个地址节点的标签地址词典树，标签地址词典树的每个地址节点与一个地址元素对应，且地址节点对应的地址元素的父级别地址元素对应该地址节点的父地址节点，地址节点对应的地址元素的子级别地址元素对应该地址节点的子地址节点。

本实施例将标签地址词典采用树结构进行保存，能够提高中文地址分词速度。

在其中一个实施例中，地址词典表包括常用地址词典表和特征词典表，常用地址词典表所包括的地址元素为完整地址，特征词典表所包括的地址元素为完整地址的特征字符。

步骤S232、获取包括至少一个字的待分词地址，待分词地址中的每个字为待匹配字符，将标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素。

具体地，对于在常用标签地址元素词典中未能找到待匹配地址元素的待匹配字符作为待匹配特征字符，将由特征词典表所得到的标签地址元素词典作为特征标签地址元素词典，将常用标签地址元素词典中与一个或连续多个待匹配特征字符相同的地址元素作为与待匹配特征字符对应的待匹配特征元素。

步骤S233、执行预设的规则将待匹配字符采用地址分词标签分别进行标识，地址分词标签包括待匹配字符对应的待匹配地址元素中包括的地址字符的词典标签；

具体地，对于在常用标签地址元素词典中未能找到待匹配地址元素的待匹配字符作为待匹配特征字符，将由特征词典表所得到的标签地址元素词典作为特征标签地址元素词典，将常用标签地址元素词典中与一个或连续多个待匹配特征字符相同的地址元素作为与待匹配特征字符对应的待匹配特征元素，执行预设的规则将待匹配特征字符采用地址分词标签分别进行标识，地址分词标签包括待匹配特征字符对应的待匹配特征元素中包括的特征字符的词典标签。

本发明最佳实施例所使用的地址词典共2类：地址词典树和特征词典。地址词典主要用于地址分词中地址元素识别和匹配阶段，利用中文地址词库标签设计方案，对现有地址元素进行标签化，生成原始地址词典表，“省级”原始地址词典表，其每个地址元素为一个完整的地址，例如：北京市或者天津市等。

步骤S234、对待分词地址中的待匹配字符，执行预设的规则根据所标识的地址分词标签所包括的词典标签进行分词。

具体地，重新排序完毕后，则可以按照候选标签列表从上到下的顺序输出分词结果，此处的具体分词结果输出样式视业务的具体需求而定，候选分词标签列表中的每个分词标签即为最终的一个分词，每个分词标签中包含一些附属信息，可供业务方扩展应用。候选分词标签列表(位置信息包含在每个分词标签中)进行最终分词和分词结果输出全部完成。

步骤S4、截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

具体地，检查出标准化的省、市、区字段中只包含区级别的字段，将只包含区级别的字段再次与行政区划级别匹配表进行匹配，得到包含省、市、区完整的地址数据。运用模糊规则对待匹配地址的地址要素进行糊转换，获取相关索引，从区级地址要素开始，获取该要素模糊索引所对应的分类。截取匹配成功区级信息，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

进一步地，如图3所示，步骤S4、截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址包括：

步骤S41、获取用户输入的地址信息，得到标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址；

具体地，获取用户输入的地址信息，地址信息是区一级的，将地址信息与相应的标准化行政区划级别信息字符串进行匹配得到标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，也就是得到一份含有省市区的字段后，检查过滤出存在小但大为空的数据，例如，区县字段有值而省市为空的数据。

步骤S42、根据所述区级信息匹配成功的标准化行政区划地址解析出所述区级信息的名称；

具体地，若地址信息不是标准化地址信息，对地址信息通过人工回补；当地址信息不是标准化地址信息时，确定人工回补的地址信息为标准化地址信息。根据区级信息匹配成功的标准化行政区划地址解析出所述区级信息的名称。

步骤S43、用获取的所述标准化行政区划匹配表与所述解析出的区级信息名称逐级向上匹配，补齐所述用户输入的地址信息，得到补全后地址匹配结果。

具体地，过滤地址信息里面的特殊字符串，补充完整市级信息。用获取的标准化行政区划匹配表补齐用户输入的地址信息的行政区划，用补齐后的地址信息与标准化行政区划匹配表进行匹配。通过不为空的数据再次关联区划表，返回出省市信息进行回补。截取标准化的省级和/ 或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级的名称，将解析出的区级名称与数据库存储的各行政区名称进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。将匹配成功的结果存入数据库。

进一步地，如图4所示，步骤S4、截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址之后还包括：

步骤S5、用补齐后的地址信息与标准化行政区划匹配表进行匹配；

具体地，对用户输入的地名进行建模分析，通过建模分析判断得出用户输入的地名地址是否包含行政区划信息：包含行政区划信息后得到行政区划的表达模型，将行政区划的表达模型与相应的行政区划景区名称库进行匹配。

步骤S6、判断补齐后的地址信息与标准化行政区划匹配表是否匹配成功，匹配成功则进行高可信度标注，匹配不成功则进行低可信度标注。

具体地，针对匹配完成的信息可以再次关联区划表进行可信度打标，省市区全部符合匹配上的给更高的可信度，地址存在冲突给更低的可信度。判断补齐后的地址信息与行政区划匹配表是否匹配成功，匹配成功则进行高可信度标注，匹配不成功则进行低可信度标注。

本发明实施例的省市区地址信息匹配方法通过根据地址数据得到标准化行政区划级别匹配表，将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串，再将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/或区级信息，利用解析出区级信息的名称并与标准化行政区划级别匹配表进行逐级向上匹配，从而得到补全后地址匹配结果。其利用正则匹配的方式来补全地址的省、市行政规划信息，能够减少待匹配的地址字段关联次数，提高大数据的运行效率以及提高数据饱和率。

图5是本申请实施例的省市区地址信息匹配装置的功能模块示意图。如图5所示，该省市区地址信息匹配装置2包括获取模块21、匹配模块 22、截取模块23、补全模块24。

获取模块21，用于对地址数据进行标准化处理，得到标准化行政区划级别匹配表；

匹配模块22，用于将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；

截取模块23，将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/或区级信息；

补全模块24，用于截取匹配成功区级信息，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

可选地，获取模块21执行对地址数据进行标准化处理，得到标准化行政区划级别匹配表的操作具体包括：

将至少一个地址数据组中的地址数据转化为数组形式；

对每个数据组中转化后的数据进行拼接；

将拼接后的数据确定为标准化行政区划级别匹配表。

可选地，匹配模块22执行预先设定的标准化行政区划级别匹配正则表达式训练过程的操作具体包括：

可选地，匹配模块22执行将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串的操作之前还包括：

将数据源中公开的多源地址数据的清洗和去重；

在地址匹配引擎的基础上执行正向或逆向的地址匹配。

可选地，对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎包括：

可选地，补全模块24执行截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址的操作包括：

可选地，补全模块24执行截取标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址截取匹配成功区级信息，解析出区级信息的名称，将解析出的区级信息名称与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址的操作之后还用于：

用补齐后的地址信息与标准化行政区划匹配表进行匹配；

关于上述实施例省市区地址信息匹配装置中各模块实现技术方案的其他细节，可参见上述实施例中的省市区地址信息匹配方法中的描述，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可

请参阅图6，图6为本申请实施例的计算机设备的结构示意图。如图6所示，该计算机设备30包括处理器31及和处理器31耦接的存储器32。

存储器32存储有程序指令，程序指令被处理器31执行时，使得处理器31执行上述实施例中的省市区地址信息匹配方法的步骤。

其中，处理器31还可以称为CPU(Central Processing Unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序指令41，其中，该程序指令41可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等计算机设备。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种省市区地址信息匹配方法，其特征在于，包括：

对地址数据进行标准化处理，得到标准化行政区划级别匹配表；

将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；

将所述标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到所述待匹配的地址字段的标准化的省级和/或市级和/或区级信息；

截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出所述区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

2.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述对地址数据进行标准化处理，得到标准化行政区划级别匹配表具体包括：

将至少一个地址数据组中的所述地址数据转化为数组形式；

对每个数据组中转化后的数据进行拼接；

将拼接后的数据确定为所述标准化行政区划级别匹配表。

3.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述预先设定的标准化行政区划级别匹配正则表达式训练过程具体包括：

用所述第一训练样本集合中标注行政区划级别信息序列不为空的各第一训练样本生成第一正样本集合；

在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合；

对于所述第一目标数目个第一正样本子集合中的每个第一正样本子集合，基于该第一正样本子集合中各第一正样本，生成与该第一正样本子集合对应的候选正则表达式；

基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率；

将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述标准化行政区划级别匹配正则表达式。

4.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串之前还包括：

将数据源中公开的多源地址数据的清洗和去重；

在地址匹配引擎的基础上执行正向或逆向的地址匹配。

5.根据权利要求4所述的省市区地址信息匹配方法，其特征在于，所述对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎包括：

获取地址数据表，将所述地址数据表中所包括的地址元素采用词典标签进行标识，得到标签地址元素词典；

获取包括至少一个字的待分词地址，所述待分词地址中的每个字为待匹配字符，将所述标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素；

对待分词地址中的待匹配字符，执行预设的规则根据所标识的所述地址分词标签所包括的所述词典标签进行分词。

6.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址包括：

7.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址之后还包括：

用补齐后的地址信息与所述标准化行政区划匹配表进行匹配；

判断所述补齐后的地址信息与所述标准化行政区划匹配表是否匹配成功，匹配成功则进行高可信度标注，匹配不成功则进行低可信度标注。

8.一种省市区地址信息匹配装置，其特征在于，其包括：

获取模块，对地址数据进行标准化处理，得到标准化行政区划级别匹配表；

匹配模块，将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；

截取模块，将所述标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到所述待匹配的地址字段的标准化的省级和/或市级和/或区级信息；

补全模块，截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出所述区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如权利要求1-7中任一项权利要求所述的省市区地址信息匹配方法的步骤。

10.一种存储介质，其特征在于，存储有能够实现如权利要求1-7中任一项所述的省市区地址信息匹配方法的程序指令。