CN104899213B - 一种解析组织机构名的方法和装置 - Google Patents
一种解析组织机构名的方法和装置 Download PDFInfo
- Publication number
- CN104899213B CN104899213B CN201410079740.9A CN201410079740A CN104899213B CN 104899213 B CN104899213 B CN 104899213B CN 201410079740 A CN201410079740 A CN 201410079740A CN 104899213 B CN104899213 B CN 104899213B
- Authority
- CN
- China
- Prior art keywords
- area
- key
- character
- name
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 48
- 239000000284 extract Substances 0.000 claims abstract description 11
- 230000008878 coupling Effects 0.000 claims description 13
- 238000010168 coupling process Methods 0.000 claims description 13
- 238000005859 coupling reaction Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000009448 modified atmosphere packaging Methods 0.000 description 48
- 230000008520 organization Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 238000005194 fractionation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 235000019837 monoammonium phosphate Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种解析组织机构名的方法和装置,针对组织机构名执行:S1、提取前N1个字符,N1为预设的正整数;S2、将当前提取的字符与预先建立的地址MAP中的key进行匹配,如果存在匹配的key,则执行S3;如果不存在匹配的key,则执行S4;S3、记录MAP中匹配到的key所对应的value中的地区名称,将该地区名称从组织机构名中删除后,针对剩余的字符串转至执行S1;S4、将当前已记录的组织机构名中的地区名称构成组织机构名的地区部分,组织机构名的其他部分作为机构名部分;其中,MAP中的key是从地址库中地区名称提取的前N1个字符,value包含对应key所来源的地区名称。本发明能够自动将组织机构名拆分为地区部分和机构名部分。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种解析组织机构名的方法和装置。
【背景技术】
随着大数据时代的来临,越来越多的企业面临海量数据的利用,其中对于诸如电子商务、物流等类型企业累积了大量的组织机构库资源,但组织机构库中存在的海量数据因其来源的不同往往存在对同一组织机构名的不同表达,这就需要对组织机构名进行判重的处理,或者组织机构库中存在大量错误的组织机构名,这就需要对组织机构名进行错误识别的处理,等等。但无论在对组织机构名进行判重和错误识别等处理,都需要对组织机构名进行拆分,拆分为地区部分和机构名部分。
【发明内容】
有鉴于此,本发明提供了一种解析组织机构名的方法和装置,以便于自动将组织机构名拆分为地区部分和机构名部分。
具体技术方案如下:
本发明提供了一种解析组织机构名的方法,针对组织机构名执行:
S1、提取前N1个字符,所述N1为预设的正整数;
S2、将当前提取的字符与预先建立的地址MAP中的key进行匹配,如果存在匹配的key,则执行S3;如果不存在匹配的key,则执行S4;
S3、记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,针对剩余的字符串转至执行所述S1;
S4、将当前已记录的所述组织机构名中的地区名称构成所述组织机构名的地区部分,所述组织机构名的其他部分作为机构名部分;
其中,所述MAP中的key是从地址库中地区名称提取的前N1个字符,value包含对应key所来源的地区名称。
根据本发明一优选实施方式,预先建立所述MAP的过程包括对地址库中的各地区名称分别执行:
清除地区名称中的地区公共关键词;
提取剩余的字符的前N1个字符作为key,将该地区名称包含在该key对应的value中。
根据本发明一优选实施方式,预先建立所述MAP的过程包括对地址库中的各地区名称分别执行:
清除地区名称中的地区公共关键词;
若该地区名称中剩余的字符个数小于或等于所述N1,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;
若该地区名称中剩余的字符个数大于所述N1,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,所述N2为预设的正整数且大于所述N1。
根据本发明一优选实施方式,在所述S1中提取前N1个字符之前还包括:
提取前N2个字符,将当前提取的字符与所述MAP中的key进行匹配,如果存在匹配的key,则转至执行所述S3,如果不存在匹配的key,则继续执行所述提取前N1个字符。
根据本发明一优选实施方式,所述N1为2,所述N2为3。
根据本发明一优选实施方式,在所述S4中还包括:若所述地区部分中包含两个以上的地区名称,则按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定所述地区部分正确。
根据本发明一优选实施方式,所述MAP的value中还包含对应key所来源的地区ID和上一级地区ID;
所述按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系包括:若所述相邻两个地区名称中后记录的地区名称在value中的上一级地区ID与先记录的地区名称在value中的地区ID一致,则确定符合正确的上下级关系。
根据本发明一优选实施方式,如果所述相邻两个地区名称不符合正确的上下级关系,则若所述相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则确定该后记录的地区名称不属于地区部分,而属于机构名部分。
根据本发明一优选实施方式,该方法进一步包括:
将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
本发明还提供了一种解析组织机构名的装置,该装置包括:
提取单元,用于针对输入的字符串提取前N1个字符,将所述N1个字符提供给匹配单元;所述N1为预设的正整数,所述输入的字符串初始为组织机构名;
匹配单元,用于将所述提取单元提供的字符与预先建立的地址MAP中的key进行匹配;
记录单元,用于如果所述匹配单元匹配到key,则记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,将剩余的字符串输入给所述提取单元;
确定单元,用于如果所述匹配单元未匹配到key,则将所述记录单元当前已记录的所述组织机构名中的地区名称构成所述组织机构名的地区部分,所述组织机构名的其他部分作为机构名部分;
其中,所述MAP中的key是从地址库中地区名称提取的前N1个字符,value包含对应key所来源的地区名称。
根据本发明一优选实施方式,该装置还包括:第一MAP建立单元,用于对地址库中的各地区名称分别执行以下操作以建立所述MAP:
清除地区名称中的地区公共关键词;
提取剩余的字符的前N1个字符作为key,将该地区名称包含在该key对应的value中。
根据本发明一优选实施方式,该装置还包括:第二MAP建立单元,用于对地址库中的各地区名称分别执行以下操作以建立所述MAP:
清除地区名称中的地区公共关键词;
若该地区名称中剩余的字符个数小于或等于所述N1,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;
若该地区名称中剩余的字符个数大于所述N1,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,所述N2为预设的正整数且大于所述N1。
根据本发明一优选实施方式,所述提取单元具体包括:第一提取子单元、匹配子单元和第二提取子单元;
所述第一提取子单元,用于针对输入的字符串提取前N2个字符,将所述N2个字符提供给所述匹配子单元,所述输入的字符串初始为组织机构名;
所述匹配子单元,用于将所述第一提取单元提供的字符与所述MAP中的key进行匹配;
所述记录单元,还用于如果所述匹配子单元匹配到key,则记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,将剩余的字符串输入给所述第一提取子单元;
所述第二提取子单元,用于如果所述匹配子单元未匹配到key,则针对输入所述第一提取子单元的字符串提取前N1个字符,将所述N1个字符提供给所述匹配单元。
根据本发明一优选实施方式,所述N1为2,所述N2为3。
根据本发明一优选实施方式,该装置还包括:
正确性判断单元,用于若所述地区部分中包含两个以上的地区名称,则按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定所述地区部分正确。
根据本发明一优选实施方式,所述MAP的value中还包含对应key所来源的地区ID和上一级地区ID;
所述正确性判断单元在按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系时,具体用于若所述相邻两个地区名称中后记录的地区名称在value中的上一级地区ID与先记录的地区名称在value中的地区ID一致,则确定符合正确的上下级关系。
根据本发明一优选实施方式,所述正确性判断单元,还用于如果所述相邻两个地区名称不符合正确的上下级关系,则若所述相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则确定该后记录的地区名称不属于地区部分,而属于机构名部分。
根据本发明一优选实施方式,所述确定单元,还用于将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
由以上技术方案可以看出,本发明通过将组织机构名的字符从前至后进行提取,与预先建立的MAP中的key进行匹配并记录MAP中匹配的key所对应的value中的地区名称,循环该匹配过程直至匹配不到任何key,最终利用已记录的地区名称构成组织机构名的地区部分,其他部分构成机构名部分,从而实现了自动将组织机构名拆分为地区部分和机构名部分。
【附图说明】
图1为本发明实施例一提供的建立MAP的流程图;
图2为本发明实施例二提供的解析组织机构名的方法流程图;
图3为本发明实施例三提供的解析组织机构名的装置结构图;
图4为本发明实施例四提供的解析组织机构名的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明中所涉及的组织机构名可以包括但不限于:企业机构名、行政机关名、社会团体名等。其中企业机构名诸如:浙江奉贤贸易有限公司、浙江省杭州市胜利五金厂等;行政机构名诸如杭州地震局、郑州市公安局等;社会团体名诸如陕西省作家协会、杭州市妇女联合会等。
在本发明中首先利用地址库中的地址信息来建立key-value对构成的MAP(映射),下面首先通过实施例一对建立MAP的过程进行描述。
实施例一、
图1为本发明实施例一提供的建立MAP的流程图,本实施例中建立MAP是基于地区库的,地区库包含大量地区信息,通常一条地区信息中包含地区名称、地区ID、地区类型、上一级地区ID等。如图1中所示,针对地址库中的各地址分别执行以下步骤:
步骤101:清除地区名称中的地区公共关键词。
地区公共关键词指的是诸如“省”、“自治区”、“市”、“区”等行政区划共用的关键词,主要用于区分地区类型。
步骤102:判断地区名称中剩余的字符个数是否小于或等于N1,N1为预设的正整数,如果是,则执行步骤103;否则,执行步骤104。
鉴于中国的大多数地区类型采用两个字,例如“浙江”、“河南”、“杭州”、“郑州”、“解放”、“朝阳”等,因此N1值可以取2,
步骤103:以该剩余的字符作为key,以该地区名称对应的地区信息作为value构建MAP。
例如,在地址库中存在“浙江省”的地区名称,清除地区公共关键词后剩余“浙江”,那么就直接将“浙江”作为key,对应的value为“1526,浙江省、CN,province”,其中“1526”为地区ID,“浙江省”为地区名称,“CN”为上一级地区ID,“province”为地区类型。需要说明的是,value中至少包括地区名称,其他信息可选。
104:提取剩余的字符的前N2个字符作为key,以该地区名称对应的地区信息作为value构建MAP,所述N2为预设的正整数且大于N1。
鉴于有一些特殊的地区名称是三个字、四个字甚至更多字,例如“呼和浩特市”、“新疆维吾尔自治区”等,为了能够保证这些地区将来也能够高效准确地被解析,对于大于2个字符的地区名称,在此可以提取前3(例如N2取3)个字符作为key。
例如,地区库中存在这样一个地区名称“谢家集区”,清除地区公共关键词后剩余“谢家集”,提取前3个字符“谢家集”作为key,以该地区名称对应的地区信息“3569,谢家集区,3561,district”,其中“3569”为地区ID,“谢家集区”为地区名称,“3561”为上一级地区ID,“district”为地区类型。同样value中至少包括地区名称,其他信息可选。
上述实施例一是一种优选的实施方式,对N1和N2个字符进行区分是为了加快对特殊地区名称的解析,提高对特殊地区名称解析的准确性。也可以不进行区分,即在执行步骤101之后,直接从剩余的字符中提取前N1个字符作为key,例如,直接提取剩余的字符的前2个字符作为key,该地区名称对应的地区信息作为value。
在针对地区库中所有的地区信息都执行上述步骤之后,就完成了MAP的建立。下面通过实施例二对基于该预先建立的MAP解析组织机构名的方法进行详细描述。
实施例二、
图2为本发明实施例二提供的解析组织机构名的方法流程图,如图2中所示,该方法可以包括以下过程:
步骤201:对组织机构名进行格式统一的预处理。
本步骤实际上是将组织机构名预处理成统一的格式,例如有的组织机构名因采用了不同的输入法造成格式的不统一,有的采用半角输入,有的采用全角输入,在此就可以进行预处理后统一成全角或统一成半角;再例如,有的组织机构名中因无输入而混杂了英文字符,那么在此就可以过滤掉非中文字符,等等。
步骤202:提取前N2个字符。
步骤203:将当前提取的字符与MAP中的key进行匹配,如果存在匹配的key,则执行步骤206;如果不存在匹配的key,则执行步骤204。
先用较长的字符与MAP中的key进行匹配,目的是为了提高对特殊地区名称的匹配效率和准确性,例如,先提取组织机构名的前3个字符,在MAP中进行匹配,对于诸如“呼和浩特”开头的组织机构名,则能够很快的匹配到key。
对于普通的地区名称,例如某组织机构名为“浙江奉贤贸易有限公司”,其前三个字符“浙江奉”无法匹配到key,则执行步骤204,减少提取的字符数,例如改提取前两个字符来进行匹配。
步骤204:提取前N1个字符。
步骤205:将当前提取的字符与MAP中的key进行匹配,如果存在匹配的key,则执行步骤206;如果不存在匹配的key,则执行步骤207。
步骤206:记录MAP中匹配到的key所对应的value中的地区名称,将该地区名称从组织机构名中删除后,针对剩余的字符串转至步骤202。
如果匹配到key,则说明存在对应的地区名称,则可以从value中获取完整的地区名称,记录该地区名称,并将该地区名称从该组织机构名中删除后,对剩余的字符串继续进行地区名称的匹配。如果仍无法匹配到key,则匹配结束,可能地区名已经结束。
步骤207:将当前已记录的上述组织机构名中的地区名称构成该组织机构名的地区部分,其他部分作为机构名部分。
以“浙江省杭州市胜利五金厂”为例,取前3个字符时未匹配到key,改取前2个字符时,匹配到key“浙江”,对应的value中地址名称为“浙江省”,记录该地址名称,并将“浙江省”从该组织机构名中删除,剩余“杭州市胜利五金厂”;再对该剩余部分取前3个字符时未匹配到key,改取前2个字符时,匹配到key“杭州”,对应的value中地址名称为“杭州市”,记录该地址名称,并将“杭州市”从该组织机构名中删除,剩余“胜利五金厂”,后续无法匹配到key,则确定已记录的“浙江省杭州市”作为地区部分,其他部分“胜利五金厂”作为机构名部分。
另外,除了上述步骤207所示的方式,直接确定组织机构名的地区部分和机构名部分之外,还可以进一步验证一下地区名称是否正确,即如果地区部分中包含两个以上的地区名称,则继续执行步骤208:按照记录顺序依次判断地区部分中相邻两个地区名称是否符合正确的上下级关系,如果是,则确定该地区部分正确;否则执行步骤209。
在验证相邻两个地区名称是否符合正确的上下级关系时,若其中后记录的地区名称(即下一级地区名称)在value中的上一级地区ID与先记录的地区名称(即上一级地区名称)在value中的地区ID一致,则确定符合正确的上下级关系。举个例子,仍以“浙江省杭州市”为例,“杭州市”在value中上一级地区ID为“1526”,“浙江省”在value中的地区ID为“1526”,两者一致,则确定符合正确的上下级关系,说明该地区部分正确。
再例如“江苏省杭州市”,“杭州市”在value中上一级地区ID为“1526”,“江苏省”在value中的地区ID为“2520”,两者不一致,则确定不符合正确的上下级关系。
步骤209:判断该相邻两个地区名称中后记录的地区名称是否包含地区公共关键词,如果不包含,则执行步骤210;如果包含,则确定该地区部分错误,也即是说该组织机构名为错误的组织机构名。
步骤210:确定后记录的地区名称不属于地区部分,而属于机构名部分。
之所以执行步骤209和210是因为还可能存在一种情况,就是某公司的商号可能与某个地区名称相同,被误划分至地区部分,但实际上其应该属于机构名部分。例如“杭州高阳毛巾厂”,经过上述地区的匹配后确定地区部分为“杭州高阳”,机构名部分为“毛巾厂”,但经过对地区部分的上下级进行判断后,由于“高阳”是河北的一个县,与“杭州”不符合上下级关系,再通过本步骤中判断“高阳”不包含地区公共关键词(诸如“省”、“市”、“区”、“县”等),因此可以确定“高阳”是商号,应划分在机构名部分,也就是说,地区部分为“杭州”,机构名部分为“高阳毛巾厂”。
无论是在步骤210之后,还是在确定地区部分正确之后,都可以对机构名部分进行进一步解析,即执行步骤211:将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
组织形式库包含各种组织形式的关键词,诸如“厂”、“公司”、“有限公司”、“集团”等等。通常情况下,对于企业机构存在这样的区分需求,对于其他不存在这样区分需求的组织机构名可以不执行本步骤。
仍以“杭州高阳毛巾厂”为例,对其中的机构名部分“高阳毛巾厂”与组织形式库匹配后,确定“厂”为组织形式部分,“高阳毛巾”为商号经营范围部分。
上述实施例二是一种优选的实施方式,首先提取组织机构名中的N2个字符在MAP中进行匹配,没有匹配到对应的key时再改为提取组织机构名中的前N1个字符在MAP中进行匹配,这么做的目的是为了加快对特殊地区名称的解析,提高对特殊地区名称解析的准确性。当然,也可以不进行如此区分,而是在步骤201之后不再执行步骤202和203,而是直接执行步骤204提取组织机构名的前N1个字符,并且在步骤206执行完毕后,针对剩余的字符串转至步骤204,也就是说,每次都提取组织机构名剩余字符串的前N1个字符在MAP中进行匹配。例如,对于待解析的组织机构名,在进行预处理后,提取前2个字符在MAP中进行匹配,如果存在匹配的key,则记录MAP中匹配到的key所对应的value中的地区名称,将该地区名称从组织机构名中删除后,提取剩余的字符串的前2个字符继续进行匹配,直至无法匹配到对应的key,最后将当前已记录的组织机构名中的地区名称构成该组织机构名的地区部分,其他部分作为机构名部分。
以上是对本发明所提供的方法进行的详细描述,下面结合实施例三和实施例四对本发明提供的装置进行详细描述。
实施例三、
图3为本发明实施例三提供的解析组织机构名的装置结构图,如图3所示,该装置可以包括:提取单元10、匹配单元20、记录单元30和确定单元40,还可以进一步包括第一MAP建立单元00和正确性判断单元50。
首先,提取单元10针对输入的字符串提取前N1个字符,将N1个字符提供给匹配单元20;N1为预设的正整数,例如可以取2,输入的字符串初始为待解析的组织机构名。另外,提取单元10在提取字符之前,可以首先对待解析的组织机构名进行格式统一的预处理,将组织机构名预处理成统一的格式,例如有的组织机构名因采用了不同的输入法造成格式的不统一,有的采用半角输入,有的采用全角输入,在此就可以进行预处理后统一成全角或统一成半角;再例如,有的组织机构名中因无输入而混杂了英文字符,那么在此就可以过滤掉非中文字符,等等。
匹配单元20负责将提取单元10提供的字符与预先建立的地址MAP中的key进行匹配,其中,MAP中的key是从地址库中地区名称提取的前N1个字符,value包含对应key所来源的地区名称。
如果匹配单元20匹配到key,则记录单元30记录MAP中匹配到的key所对应的value中的地区名称,将该地区名称从组织机构名中删除后,将剩余的字符串输入给提取单元10。
如果匹配单元20未匹配到key,则确定单元40将记录单元30当前已记录的组织机构名中的地区名称构成组织机构名的地区部分,组织机构名的其他部分作为机构名部分。
本发明实施例中建立MAP是基于地区库的,地区库包含大量地区信息,通常一条地区信息中包含地区名称、地区ID、地区类型、上一级地区ID等。第一MAP建立单元00对地址库中的各地区名称分别执行以下操作以建立MAP:
清除地区名称中的地区公共关键词;提取剩余的字符的前N1个字符作为key,将该地区名称包含在该key对应的value中,除此之外,该value中还可以包含地区ID、上一级地区ID、地区类型等。
这里的地区公共关键词指的是诸如“省”、“自治区”、“市”、“区”等行政区划共用的关键词,主要用于区分地区类型。
另外,鉴于确定的组织机构名的地区部分并不一定正确,因此,还可以进一步对地区部分的正确性进行验证,即若地区部分中包含两个以上的地区名称,则正确性判断单元50按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定地区部分正确。
具体地,正确性判断单元50在按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系时,具体用于若相邻两个地区名称中后记录的地区名称(即下一级地区名称)在value中的上一级地区ID与先记录的地区名称(即上一级地区名称)在value中的地区ID一致,则确定符合正确的上下级关系。
以“浙江省杭州市”为例,“杭州市”在value中上一级地区ID为“1526”,“浙江省”在value中的地区ID为“1526”,两者一致,则确定符合正确的上下级关系,说明该地区部分正确。
再例如“江苏省杭州市”,“杭州市”在value中上一级地区ID为“1526”,“江苏省”在value中的地区ID为“2520”,两者不一致,则确定不符合正确的上下级关系。
更进一步地,如果相邻两个地区名称不符合正确的上下级关系,则若相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则正确性判断单元50确定该后记录的地区名称不属于地区部分,而属于机构名部分。这么做的目的是因为还可能存在一种情况,就是某公司的商号可能与某个地区名称相同,被误划分至地区部分,但实际上其应该属于机构名部分。例如“杭州高阳毛巾厂”,经过上述地区的匹配后确定地区部分为“杭州高阳”,机构名部分为“毛巾厂”,但经过对地区部分的上下级进行判断后,由于“高阳”是河北的一个县,与“杭州”不符合上下级关系,再通过判断“高阳”不包含地区公共关键词(诸如“省”、“市”、“区”、“县”等),因此可以确定“高阳”是商号,应划分在机构名部分,也就是说,地区部分为“杭州”,机构名部分为“高阳毛巾厂”。
在确定地区部分正确后,可以对机构名部分进行进一步解析,即确定单元40还用于将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。组织形式库包含各种组织形式的关键词,诸如“厂”、“公司”、“有限公司”、“集团”等等。
仍以“杭州高阳毛巾厂”为例,对其中的机构名部分“高阳毛巾厂”与组织形式库匹配后,确定“厂”为组织形式部分,“高阳毛巾”为商号经营范围部分。
除了上述实施例三之外,还存在一种更优选的实施方式,即以下实施例四。
实施例四、
图4为本发明实施例四提供的解析组织机构名的装置结构图,如图4所示,本实施例中的装置与实施例三不同的是,在建立MAP库时采用不同的方式,由第二MAP建立单元01实现,并且提取单元10具体包括了第一提取子单元11、匹配子单元12和第二提取子单元13。
第二MAP建立单元01对地址库中的各地区名称分别执行以下操作以建立MAP:
清除地区名称中的地区公共关键词;若该地区名称中剩余的字符个数小于或等于N1,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;若该地区名称中剩余的字符个数大于N1,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,N2为预设的正整数且大于N1,例如N1取2,N2取3。
地区公共关键词指的是诸如“省”、“自治区”、“市”、“区”等行政区划共用的关键词,主要用于区分地区类型。
本实施例是鉴于有一些特殊的地区名称是三个字、四个字甚至更多字,例如“呼和浩特市”、“新疆维吾尔自治区”等,为了能够保证这些地区将来也能够高效准确的被解析,对于大于2个字符的地区名称,在此可以提取前3(例如N2取3)个字符作为key,对于小于或等于2个字符的地区名称,则直接作为key。
例如,地区库中存在这样一个地区名称“谢家集区”,清除地区公共关键词后剩余“谢家集”,提取前3个字符“谢家集”作为key,以该地区名称对应的地区信息“3569,谢家集区,3561,district”,其中“3569”为地区ID,“谢家集区”为地区名称,“3561”为上一级地区ID,“district”为地区类型。同样value中至少包括地区名称,其他信息可选。
如果地区库中存在这样一个地区名称“浙江省”,清除地区公共关键词后剩余“浙江”,那么就直接将“浙江”作为key,对应的value为“1526,浙江省、CN,province”,其中“1526”为地区ID,“浙江省”为地区名称,“CN”为上一级地区ID,“province”为地区类型。需要说明的是,value中至少包括地区名称,其他信息可选。
对应于上述的MAP建立方式,提取单元10的采用如下方式实现:
首先第一提取子单元11针对输入的字符串提取前N2个字符,将N2个字符提供给匹配子单元12,输入的字符串初始为待解析的组织机构名。
然后匹配子单元12将第一提取单元11提供的字符与MAP中的key进行匹配。
此时,该装置中的记录单元30还用于如果匹配子单元12匹配到key,则记录MAP中匹配到的key所对应的value中的地区名称,将该地区名称从组织机构名中删除后,将剩余的字符串输入给第一提取子单元11。
如果匹配子单元12未匹配到key,则第二提取子单元13针对输入第一提取子单元11的字符串提取前N1个字符,将N1个字符提供给匹配单元20。
匹配单元20、记录单元30、确定单元40和正确性判断单元50的实现与实施例三中相同,在本实施例中不再赘述。
本实施例中实际上是,先取较长的前N2个字符来进行匹配,如果未匹配到key,则改取较短的前N1个字符来进行匹配,如果匹配到,则循环该匹配过程;直到匹配不到任何key。
以“浙江省杭州市胜利五金厂”为例,取前3个字符时未匹配到key,改取前2个字符时,匹配到key“浙江”,对应的value中地址名称为“浙江省”,记录该地址名称,并将“浙江省”从该组织机构名中删除,剩余“杭州市胜利五金厂”;再对该剩余部分取前3个字符时未匹配到key,改取前2个字符时,匹配到key“杭州”,对应的value中地址名称为“杭州市”,记录该地址名称,并将“杭州市”从该组织机构名中删除,剩余“胜利五金厂”,后续无法匹配到key,则确定已记录的“浙江省杭州市”作为地区部分,其他部分“胜利五金厂”作为机构名部分。
由以上描述可以看出,本发明提供的方法和装置具备以下优点:
1)本发明能够将组织机构名自动拆分为地区部分和机构名部分。
2)本发明通过先提取组织机构名的较长的前N2个字符在MAP中进行匹配,如果未匹配到key,则改取较短的前N1个字符来进行匹配,如果匹配到,则循环该匹配过程;直到匹配不到任何key。这种方式能够具备较高的拆分效率,并且针对特殊的地区也能够具有较高的拆分准确率。
3)本发明通过对拆分得到的地区部分进行准确性判断,从而进一步提高拆分准确率。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种解析组织机构名的方法,其特征在于,针对组织机构名执行:
S1、提取前N1个字符,所述N1为预设的正整数;
S2、将当前提取的字符与预先建立的地址MAP中的key进行匹配,如果存在匹配的key,则执行S3;如果不存在匹配的key,则执行S4;
S3、记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,针对剩余的字符串转至执行所述S1;
S4、将当前已记录的所述组织机构名中的地区名称构成所述组织机构名的地区部分,所述组织机构名的其他部分作为机构名部分;
其中,所述MAP中的key是从地址库中地区名称提取的前N1个字符,value包含对应key所来源的地区名称。
2.根据权利要求1所述的方法,其特征在于,预先建立所述MAP的过程包括对地址库中的各地区名称分别执行:
清除地区名称中的地区公共关键词;
提取剩余的字符的前N1个字符作为key,将该地区名称包含在该key对应的value中。
3.根据权利要求1所述的方法,其特征在于,预先建立所述MAP的过程包括对地址库中的各地区名称分别执行:
清除地区名称中的地区公共关键词;
若该地区名称中剩余的字符个数小于或等于所述N1,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;
若该地区名称中剩余的字符个数大于所述N1,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,所述N2为预设的正整数且大于所述N1。
4.根据权利要求3所述的方法,其特征在于,在所述S1中提取前N1个字符之前还包括:
提取前N2个字符,将当前提取的字符与所述MAP中的key进行匹配,如果存在匹配的key,则转至执行所述S3,如果不存在匹配的key,则继续执行所述提取前N1个字符。
5.根据权利要求3或4所述的方法,其特征在于,所述N1为2,所述N2为3。
6.根据权利要求1至4任一权项所述的方法,其特征在于,在所述S4中还包括:若所述地区部分中包含两个以上的地区名称,则按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定所述地区部分正确。
7.根据权利要求6所述的方法,其特征在于,所述MAP的value中还包含对应key所来源的地区ID和上一级地区ID;
所述按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系包括:若所述相邻两个地区名称中后记录的地区名称在value中的上一级地区ID与先记录的地区名称在value中的地区ID一致,则确定符合正确的上下级关系。
8.根据权利要求6所述的方法,其特征在于,如果所述相邻两个地区名称不符合正确的上下级关系,则若所述相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则确定该后记录的地区名称不属于地区部分,而属于机构名部分。
9.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
10.一种解析组织机构名的装置,其特征在于,该装置包括:
提取单元,用于针对输入的字符串提取前N1个字符,将所述N1个字符提供给匹配单元;所述N1为预设的正整数,所述输入的字符串初始为组织机构名;
匹配单元,用于将所述提取单元提供的字符与预先建立的地址MAP中的key进行匹配;
记录单元,用于如果所述匹配单元匹配到key,则记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,将剩余的字符串输入给所述提取单元;
确定单元,用于如果所述匹配单元未匹配到key,则将所述记录单元当前已记录的所述组织机构名中的地区名称构成所述组织机构名的地区部分,所述组织机构名的其他部分作为机构名部分;
其中,所述MAP中的key是从地址库中地区名称提取的前N1个字符,value包含对应key所来源的地区名称。
11.根据权利要求10所述的装置,其特征在于,该装置还包括:第一MAP建立单元,用于对地址库中的各地区名称分别执行以下操作以建立所述MAP:
清除地区名称中的地区公共关键词;
提取剩余的字符的前N1个字符作为key,将该地区名称包含在该key对应的value中。
12.根据权利要求10所述的装置,其特征在于,该装置还包括:第二MAP建立单元,用于对地址库中的各地区名称分别执行以下操作以建立所述MAP:
清除地区名称中的地区公共关键词;
若该地区名称中剩余的字符个数小于或等于所述N1,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;
若该地区名称中剩余的字符个数大于所述N1,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,所述N2为预设的正整数且大于所述N1。
13.根据权利要求12所述的装置,其特征在于,所述提取单元具体包括:第一提取子单元、匹配子单元和第二提取子单元;
所述第一提取子单元,用于针对输入的字符串提取前N2个字符,将所述N2个字符提供给所述匹配子单元,所述输入的字符串初始为组织机构名;
所述匹配子单元,用于将所述第一提取单元提供的字符与所述MAP中的key进行匹配;
所述记录单元,还用于如果所述匹配子单元匹配到key,则记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,将剩余的字符串输入给所述第一提取子单元;
所述第二提取子单元,用于如果所述匹配子单元未匹配到key,则针对输入所述第一提取子单元的字符串提取前N1个字符,将所述N1个字符提供给所述匹配单元。
14.根据权利要求12或13所述的装置,其特征在于,所述N1为2,所述N2为3。
15.根据权利要求10至13任一权项所述的装置,其特征在于,该装置还包括:
正确性判断单元,用于若所述地区部分中包含两个以上的地区名称,则按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定所述地区部分正确。
16.根据权利要求15所述的装置,其特征在于,所述MAP的value中还包含对应key所来源的地区ID和上一级地区ID;
所述正确性判断单元在按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系时,具体用于若所述相邻两个地区名称中后记录的地区名称在value中的上一级地区ID与先记录的地区名称在value中的地区ID一致,则确定符合正确的上下级关系。
17.根据权利要求15所述的装置,其特征在于,所述正确性判断单元,还用于如果所述相邻两个地区名称不符合正确的上下级关系,则若所述相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则确定该后记录的地区名称不属于地区部分,而属于机构名部分。
18.根据权利要求10所述的装置,其特征在于,所述确定单元,还用于将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410079740.9A CN104899213B (zh) | 2014-03-06 | 2014-03-06 | 一种解析组织机构名的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410079740.9A CN104899213B (zh) | 2014-03-06 | 2014-03-06 | 一种解析组织机构名的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104899213A CN104899213A (zh) | 2015-09-09 |
CN104899213B true CN104899213B (zh) | 2018-06-05 |
Family
ID=54031881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410079740.9A Active CN104899213B (zh) | 2014-03-06 | 2014-03-06 | 一种解析组织机构名的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899213B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956192A (zh) * | 2016-06-15 | 2016-09-21 | 中国互联网络信息中心 | 一种基于网站首页信息获取组织机构名简称的方法及系统 |
CN108073564B (zh) * | 2016-11-09 | 2021-05-14 | 北京国双科技有限公司 | 法院名称的统计方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN101930435A (zh) * | 2009-10-27 | 2010-12-29 | 深圳市北科瑞声科技有限公司 | 机构名称检索方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079252A (ja) * | 2010-10-06 | 2012-04-19 | Fujitsu Ltd | 情報端末装置、文字入力方法および文字入力プログラム |
-
2014
- 2014-03-06 CN CN201410079740.9A patent/CN104899213B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930435A (zh) * | 2009-10-27 | 2010-12-29 | 深圳市北科瑞声科技有限公司 | 机构名称检索方法及系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
Non-Patent Citations (1)
Title |
---|
一种基于词典的中文分词法的设计与实现;周军 等;《黑龙江科技信息》;20080905(第25期);第264页第2部分第1栏第1段 * |
Also Published As
Publication number | Publication date |
---|---|
CN104899213A (zh) | 2015-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103167172B (zh) | 将多种聊天记录整合的方法和系统 | |
US7752179B1 (en) | Method and system for extracting consistent disjoint set membership from multiple inconsistent data sources | |
CN111897863B (zh) | 多源异构数据融合汇聚方法 | |
CN106202028B (zh) | 一种地址信息识别方法及装置 | |
CN105989059A (zh) | 数据记录核对方法及装置 | |
CN102567534B (zh) | 互动产品用户生成内容拦截系统及其拦截方法 | |
CN106886567A (zh) | 基于语义扩展的微博突发事件检测方法及装置 | |
CN103631967B (zh) | 一种带自增量标识字段的数据表的处理方法及装置 | |
CN103699544B (zh) | 跨页选择数据的方法和系统 | |
CN108269107A (zh) | 用户信息处理方法及装置 | |
CN110019542B (zh) | 企业关系的生成、生成组织成员数据库及识别同名成员 | |
CN107944866B (zh) | 交易记录排重方法及计算机可读存储介质 | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
CN108268592A (zh) | 基于json数据的筛选方法、装置、服务器和存储介质 | |
JP6972935B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
CN105488471B (zh) | 一种字形识别方法及装置 | |
CN104899213B (zh) | 一种解析组织机构名的方法和装置 | |
CN112307318B (zh) | 一种内容发布方法、系统及装置 | |
CN105677579B (zh) | 缓存系统中的数据访问方法和系统 | |
CN105335459A (zh) | 基于xbrl智能报告平台的合并报表数据抽取方法 | |
CN109558381A (zh) | 一种数据处理方法及装置 | |
US20140222771A1 (en) | Management device and management method | |
CN102855288B (zh) | 差异数据的处理方法和装置 | |
CN106844338A (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
CN106803202B (zh) | 一种待测试交易记录的提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240331 Address after: Singapore Patentee after: Alibaba Singapore Holdings Ltd. Country or region after: Singapore Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Patentee before: ALIBABA GROUP HOLDING Ltd. Country or region before: Cayman Islands |
|
TR01 | Transfer of patent right |