具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本说明书提供了一种企业注册地址的识别方法及系统,以解决或者部分解决目前识别企业地址的准确率较低的技术问题。
本发明的实施方案的主要目的是为了对企业注册地址进行识别,得到企业的结构化地址提供给具有企业地址需求的系统,例如监管系统、金融系统等等。举例来说,监管系统必须获知准确的企业注册地址,才能够对其所在辖区的企业进行精确统计,并制定针对性的监管制度,保证监管效果。而金融系统获得企业注册地址,能够针对性的对企业进行金融方面的防控。
目前针对企业注册地址的识别,是直接从注册地址中抽取省、市、区、县等关键词进行结构化处理,获得结构化地址提供给各类系统。但是如果企业注册地址信息不全,例如只出现县名称时,就会得到错误的结构化地址(我国的县级单位存在重名的现象,例如河北省和陕西省都有“长安区”)。因此,单纯从注册地址入手进行识别准确率不高。
故而,在本发明的方案中,从标准行政区划代码和所述待识别企业的地址信息的入手,获得待识别结构化地址,再从登记机关为表中解析出标准结构化地址作为参考,通过两者验证来得到待识别企业的结构化地址,能够综合待识别企业的标准行政区划代码、所述待识别企业的地址信息、登记机关维表等多个和注册地址相关的因素进行综合验证,以能够提高对企业注册地址的识别准确度。
具体来说,首先通过获得待识别企业的标准行政区划代码和所述待识别企业的地址信息,由于待识别企业的地址信息包含所述待识别企业的注册地址和所述待识别企业所在登记机关的相关信息,即便是注册地址缺失,也可以由其所在登记机关的相关信息进行补充,避免注册地址信息缺失带来的问题。再从企业的地址信息入手,基于预设映射表对所述待识别企业的地址信息进行映射来获得待识别行政区划代码。然后以标准行政区划代码作为验证标准,验证待验证行政区划代码的准确性,再根据验证结果和行政区划维表获得待识别企业的待识别结构化地址。进一步的,从登记机关为表中解析出标准结构化地址对所述待识别结构化地址进行验证,由于登记机关维表记录的是登记机关的相关信息,其对企业所在省(自治区、直辖市)、地区(市、州、盟)的解析是很准确的,解析成功率达到100%,同时登记机关作为企业管辖的行政单位,可将其所在的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)作为企业结构化解析地址的标准,故而利用登记机关维表作为对结构化地址的验证,并根据验证结果得到待识别企业的结构化地址,能够进一步提高待识别企业的结构化地址识别的准确度。
进一步的,解析出企业注册地的结构化地址后,还可以将具有相同结构化地址的企业推送给各类系统进行处理,例如推送给对应的金融监管当局归口管理。
下面提供本说明书中涉及名词的具体释义。
注册地址:企业的注册地址,是在营业执照上登记的“住址”,一般情况下,企业以其主要办事机构所在地为住所,不同的城市对注册地址的要求也不一样,具体以当地工商局要求为准。
行政区划代码:也称行政代码,它是国家行政机关的识别符号,一般执行两项国家标准:《中华人民共和国行政区划代码》(GB/T2260-2007)和《以下行政区划代码编制规则》(GB/T10114-2003),该标准对我国县以上行政区划的代码做了规定,用六位阿拉伯数字分层次代表我国的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)的名称。
登记机关:企业进行登记,必须在国家规定的公司注册登记机关进行。依《公司登记管理条例》及相关法律文件的规定,我国的公司登记机关是国家工商行政管理局和地方各级工商行政管理局。
统一社会信用代码:标准规定统一社会信用代码用18位阿拉伯数字或大写英文字母表示,分别是1位登记管理部门代码、1位机构类别代码、6位登记管理机关行政区划码、9位主体标识码、1位校验码。
工商注册号:即营业执照注册号(代码结构工商注册号)由14位数字本体码和1位数字校验码组成,其中本体码从左至右依次为:6位登记管理机关行政区划码、8位顺序码,1位数字校验码组成。
行政区划代码维表:行政区划代码与省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)的映射表。
登记机关维表:登记机关和其所在地理位置的映射表。具体的,是工商登记机关与其所在省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)等地理位置的映射表。登记机关维表包含所有登记机关和其所在地理位置的映射关系。例如深圳市市场监督管理局和其地理位置的映射关系。
预设映射表,包含地址(省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)等)和行政代码的对应关系,用于根据地址中的省市区匹配获取行政区划代码,例如110000,北京,北京,朝阳。
结构化地址:企业所在的地结构化的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)信息,如“浙江省”、“杭州市”、“西湖区”的结构化地址。
下面请参看图1,是本实施例公开的一种企业注册地址的识别方法的实施过程图,具体包括以下步骤:
步骤11,获得待识别企业的标准行政区划代码和所述待识别企业的地址信息。
待识别企业,是对需要识别企业地址的所有企业的统称,其包含的具体企业数量不定。本实施例的系统可接收需求方的企业地址识别请求,基于该企业地址识别请求确定待识别企业。具体的,企业地址识别请求中包含请求识别的地理区域范围和/或企业名称。例如监管系统请求识别“浙江省杭州市”的所有企业地址,以进行针对性管理。那么本实施例的系统则会基于该企业地址识别请求,自主搜索(确定)地理区域范围中的待识别企业。例如,将“浙江省杭州市”的所有企业确定为待识别企业。若企业地址识别请求中还包括企业名称,进而本实施例的系统可企业名称确定出地理区域范围中的待识别企业。当然,若对某个企业具有获取其企业地址的需求,可直接根据需求方提供的企业名称将其作为待识别企业。
标准行政区划代码,从统一社会信用代码或者工商注册号中提取得到,它能够表征待识别企业所在省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗),能够作为识别其他行政区划代码的标准。具体来说,企业在办理营业执照时,在其所在地的登记机关登记之后,会颁发营业执照,营业执照上会记录企业名称、企业法人、企业的注册地址,统一社会信用代码等等信息。另外,登记后得到的工商注册号中也会包含标准行政区划代码。
在具体的实施过程中,可从所述待识别企业的相关登记代码中提取所述标准行政区划代码。相关登记代码包括但不限于是统一社会信用代码,工商注册号等等。
所述待识别企业的地址信息,包含所述待识别企业的注册地址和所述待识别企业所在登记机关的相关信息。待识别企业的注册地址,是在营业执照上登记的“住址”。登记机关的相关信息,包括但不限于是登记机关名称、登记机关所在地理位置(辖区)等等信息。例如,深圳市市场监督管理局。将两者都作为待识别企业的地址信息,能够弥补注册地址中缺失的信息,并且待识别企业所在登记机关的相关信息的地理位置准确率为100%,因此能够保证待识别企业的地址信息的准确性,避免由于地址不准或者地址缺失导致识别出的结构化地址不准的问题出现,能够提高企业注册地址识别的准确性,得到准确的结构化地址。
具体来说,获得所述待识别企业的注册地址信息;获得所述待识别企业所在登记机关的相关信息;所述相关信息至少包括登记机关名称;然后将所述注册地址信息和所述相关信息进行合并,获得所述待识别企业的地址信息。
步骤12,基于预设映射表对所述待识别企业的地址信息进行映射,获得所述待识别企业的待验证行政区划代码。
其中,该预设映射表又称省市区简称维表,包含所有省市区简称和省市区各代码的对应关系。例如,北京市(110000BJ)。
在具体的映射过程中,待识别企业的地址信息中包含了省级名称(自治区、直辖市)、地区级名称(市、州、盟)、县级名称(区、市、旗)、街道名称等等一种或者多种。调用省市区简称维表将这些地址信息映射成具体的行政区划代码,即待验证行政区划代码。
由于映射表中具有省市区简称和省市区各代码的对应关系,这种对应关系是真实存在。采用其对待识别企业的地址信息进行映射,进而能够保证从地址信息中映射出的待验证行政区划代码客观、准确,为后续地址识别的准确性打好基础。
作为一种可选的实施例,由于待识别企业的地址信息种类繁多,可能存在重名的情况,因此会导致映射的待验证行政区划代码不准确的缺陷存在。例如,待识别企业的注册地址中存在不同省的关键字,例如“上海市黄浦区南京路”会出现“上海”和“南京”两条信息,可能会映射出江苏省南京市这种错误的行政区划代码。为了避免这一问题,在获得标准行政代码之后,可以预先根据待识别企业的标准行政区划代码,确定待识别企业对应的省级名称。将待识别企业先划分到对应的省级范围之内,以克服上述缺陷。具体来说,可以提取预设位数的代码(例如前2位)对待识别企业进行划分。
进一步的,将根据标准行政区划代码确定出的省级名称也合并到待识别企业的地址信息中。
故而,在映射过程中,作为一种可选的实施例,可以先根据标准行政区划代码对应的省级名称,在预设映射表中映射出省级区划代码,克服上述待识别企业的地址本身带来的解析不准的问题。再根据待识别企业的地址信息,在预设映射表中映射出对应的市级区划代码、区级区划代码等等,进而能够获得准确的待验证行政区划代码,为后续地址识别的准确性打好基础。
步骤13,调用所述标准行政区划代码对所述待验证行政区划代码进行验证,得到第一验证结果,并根据所述第一验证结果和行政区划代码维表确定所述待识别企业的待识别结构化地址。
具体来说,行政区划代码维表指的是行政区划代码与省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)的映射表。在本实施例中,由于行政管辖区域会发生变更,故而会实时优化行政区划代码维表,以提高解析的准确率。举例来说,AA原本为县级,对应的代码为X1,后升级为市级,其对应的代码为X2,那么则会优化行政区划代码维表,将AA和X2进行映射。再例如,曾用名A对应的代码为X1’,现用名B,则优化行政区划代码维表,将B和X1’进行映射,由此,会克服由于行政管辖区域会发生变更带来的解析错误的缺陷,会提高解析的准确率。
而在具体的验证过程中,调用所述标准行政区划代码对所述待验证行政区划代码进行对比验证,主要目的是为了验证两者是否相同,然后获得所述第一验证结果。
在确定所述待识别结构化地址的具体过程中,若标准行政区划代码和所述待验证行政区划代码相同,则可以择其一,根据所述待验证行政区划代码和所述行政区划代码维表确定所述待识别结构化地址,由此,能够保证待识别结构化地址的准确度。具体来说,将待验证行政区划代码映射到行政区划代码维表中,获取对应的省/市/区等等名称,进而获得待识别结构化地址。
若标准行政区划代码和所述待验证行政区划代码不同,则表示待验证行政区划代码错误,那么则根据所述标准行政区划代码和所述行政区划代码维表确定所述待识别结构化地址。由此,能够保证待识别结构化地址的准确度。
在获得待识别结构化地址之后,为了进一步提高解析的准确性,还可以执行下述步骤。
步骤14,调用从登记机关维表中解析的标准结构化地址对所述待识别结构化地址进行验证,获得第二验证结果。
所述登记机关维表是登记机关和其所在地理位置的映射表。包含所述登记机关的名称和所在地理位置的对应关系。该所在地理位置以标准结构化地址呈现。其对企业所在省(自治区、直辖市)、地区(市、州、盟)的解析是很准确的,解析成功率达到100%,同时登记机关作为企业管辖的行政单位,可将其所在的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)作为企业结构化解析地址的标准,故而利用登记机关维表作为对结构化地址的二次验证,能够进一步提高结构化地址的验证准确度,
待识别企业的标准化结构地址,是通过所述待识别企业所在登记机关在所述登记机关维表进行映射获得。
而在验证的过程中,调用所述标准结构化地址对所述待识别结构化地址进行对比验证,以验证两个结构化地址是否相同,并获得所述第二验证结果。
根据第二验证结果的不同,会有不同的方式确定待识别企业的结构化地址。具体请参看下面的步骤。
步骤15,根据所述第二验证结果确定所述待识别企业的目标结构化地址。
其中,若所述标准结构化地址和所述待识别结构化地址一致,则择其一即可,例如,将所述待识别结构化地址确定为所述待识别企业的地址,或者将所述标准结构化地址确定为所述待识别企业的目标结构化地址。
若所述标准结构化地址和所述待识别结构化地址不一致,则表示待识别结构化地址不对,将所述标准化结构化地址确定为所述待识别企业的目标结构化地址。
以上便是本发明确定待识别企业的地址的具体实施方式,而上述一个或者多个实施例需要在待识别企业的注册地址、所述待识别企业的相关登记代码和所述登记机关的相关信息等等都存在的情况下实施。而作为一种可选的实施例,在获得待识别企业的标准行政区划代码和所述待识别企业的地址信息之前,判断所述待识别企业的注册地址、所述待识别企业的相关登记代码和所述登记机关的相关信息是否存在;
若所述待识别企业的注册地址存在,且所述待识别企业的相关登记代码和所述登记机关的相关信息都不存在,则待识别企业的数据的信息空缺,无法对其进行处理。进而,调用地址定位函数处理所述待识别企业的注册地址,定位注册地址所在的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)获得所述待识别企业的目标结构化地址。待识别企业的地址以结构化地址的形式呈现,以便于提供给其他需要地址信息的系统统计。
若所述待识别企业的注册地址、所述待识别企业的相关登记代码和所述登记机关的相关信息都不存在,调用所述地址定位函数处理所述待识别企业的企业名称,获得所述待识别企业的结构化地址。具体实施过程中,待识别企业的企业名称中可能包含有地址信息,即将其解析出来作为对应的目标结构化地址。
基于与前述实施例中同样的发明构思,参看图2,本说明书实施例一种企业注册地址的识别系统,包括:
第一获得模块21,用于获得待识别企业的标准行政区划代码和所述待识别企业的地址信息;所述待识别企业的地址信息包含所述待识别企业的注册地址和所述待识别企业所在登记机关的相关信息;
映射模块22,用于基于预设映射表对所述待识别企业的地址信息进行映射,获得所述待识别企业的待验证行政区划代码;其中,所述预设映射表包含地址和行政代码的对应关系;
第一验证模块23,用于调用所述标准行政区划代码对所述待验证行政区划代码进行验证得到第一验证结果,并根据所述第一验证结果和行政区划代码维表确定所述待识别企业的待识别结构化地址;
第二验证模块23,用于调用从登记机关维表中解析的标准结构化地址对所述待识别结构化地址进行验证,获得第二验证结果;所述标准化结构地址通过所述待识别企业所在登记机关在所述登记机关维表进行映射获得;所述登记机关维表包含登记机关和所在地理位置的映射表;
第一确定模块24,用于根据所述第二验证结果确定所述待识别企业的目标结构化地址。
作为一种可选的实施例,所述第一获得模块21,具体用于从所述待识别企业的相关登记代码中提取所述标准行政区划代码;其中,所述相关登记代码包括统一社会信用代码,工商注册号。
作为一种可选的实施例,所述第一获得模块21,具体包括:
第一获得子模块,用于获得所述待识别企业的注册地址信息;
第二获得子模块,用于获得所述待识别企业所在登记机关的相关信息;所述相关信息至少包括登记机关名称;
合并模块,用于将所述注册地址信息和所述相关信息进行合并,获得所述待识别企业的地址信息。
作为一种可选的实施例,所述系统还包括:
第二确定模块,用于根据所述待识别企业的标准行政区划代码,确定所述待识别企业对应的省级名称。
作为一种可选的实施例,所述映射模块22,具体包括:
第一映射子模块,用于根据所述标准行政区划代码对应的省级名称,在所述预设映射表中映射出省级区划代码;
第二映射子模块,用于根据所述待识别企业的地址信息,在所述预设映射表中映射出所述待验证行政区划代码。
作为一种可选的实施例,所述第一验证模块23,具体包括:
第二确定模块,用于若标准行政区划代码和所述待验证行政区划代码相同,则根据所述待验证行政区划代码和所述行政区划代码维表确定所述待识别结构化地址;
第三确定模块,用于若标准行政区划代码和所述待验证行政区划代码不同,则根据所述标准行政区划代码和所述行政区划代码维表确定所述待识别结构化地址。
作为一种可选的实施例,所述第一确定模块24,包括:
第四确定模块,用于若所述标准结构化地址和所述待识别结构化地址一致,则将所述待识别结构化地址确定为所述待识别企业的目标结构化地址;
第五确定模块,用于若所述标准结构化地址和所述待识别结构化地址不一致,则将所述标准化结构化地址确定为所述待识别企业的目标结构化地址。
作为一种可选的实施例,所述系统包括:
判断模块,用于判断所述待识别企业的注册地址、所述待识别企业的相关登记代码和所述登记机关的相关信息是否存在;
第二获得模块,用于若所述待识别企业的注册地址存在,且所述待识别企业的相关登记代码和所述登记机关的相关信息都不存在,则调用地址定位函数处理所述待识别企业的注册地址,获得所述待识别企业的目标结构化地址。
作为一种可选的实施例,所述系统还包括:
第三获得模块,用于若所述待识别企业的注册地址、所述待识别企业的相关登记代码和所述登记机关的相关信息都不存在,调用所述地址定位函数处理所述待识别企业的企业名称,获得所述待识别企业的目标结构化地址。
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本说明书的实施例还提供一种计算机设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文任一所述方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他终端设备通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
通过本说明书的一个或者多个实施例,本说明书具有以下有益效果或者优点:
本实施例公开了一种企业注册地址的识别方法和系统。首先通过获得待识别企业的标准行政区划代码和所述待识别企业的地址信息,由于待识别企业的地址信息包含所述待识别企业的注册地址和所述待识别企业所在登记机关的相关信息,即便是注册地址缺失,也可以由其所在登记机关的相关信息进行补充,避免注册地址信息缺失带来的问题。再从企业的地址信息入手,基于预设映射表对所述待识别企业的地址信息进行映射来获得待识别行政区划代码。然后以标准行政区划代码作为验证标准,验证待验证行政区划代码的准确性,再根据验证结果和行政区划维表获得待识别企业的待识别结构化地址。进一步的,从登记机关为表中解析出标准结构化地址对所述待识别结构化地址进行验证,由于登记机关维表记录的是登记机关的相关信息,其对企业所在省(自治区、直辖市)、地区(市、州、盟)的解析是很准确的,解析成功率达到100%,同时登记机关作为企业管辖的行政单位,可将其所在的省(自治区、直辖市)、地区(市、州、盟)、县(区、市、旗)作为企业结构化解析地址的标准,故而利用登记机关维表作为对结构化地址的验证,并根据验证结果得到待识别企业的目标结构化地址,能够进一步提高待识别企业的结构化地址识别的准确度。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本说明书也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本说明书的内容,并且上面对特定语言所做的描述是为了披露本说明书的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本说明书的示例性实施例的描述中,本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本说明书的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本说明书的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。