CN110210020B

CN110210020B - 通讯地址标准化的系统及其方法

Info

Publication number: CN110210020B
Application number: CN201910426629.5A
Authority: CN
Inventors: 伍孟轩
Original assignee: WUHAN HONGXU INFORMATION TECHNOLOGY CO LTD
Current assignee: WUHAN HONGXU INFORMATION TECHNOLOGY CO LTD
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-06-20
Anticipated expiration: 2039-05-22
Also published as: CN110210020A

Abstract

本发明公开了一种通讯地址标准化的系统及其方法，涉及通讯地址技术领域。本系统是：地址接收模块（100）、地址分词模块（200）、词条标准化模块（300）、词条标注模块（400）、词条填补模块（500）、处理未标注词条模块（600）、输出标准化地址信息（700）依次交互；地址分词模块（200）访问数据字典（A）；词条标准化模块（300）访问字典映射（B）；标注词条模块（400）访问带层级的地址标准库（C）。本发明使用大量的词库对待标准化的文本地址信息进行正向最大匹配分词处理，从而保证了分词的准确性；采用文本推断算法，解决了同名地址被正确标准化的问题；采用标准地址元数据信息词条分级，可快速完成缺省数据地址填补功能。

Description

通讯地址标准化的系统及其方法

技术领域

本发明涉及通讯地址技术领域，尤其涉及一种通讯地址标准化的系统及其方法。

背景技术

随着技术的逐渐发展，海量的结构化、半结构化和文本数据中存在大量的地址信息，其中这些地址信息中有一些为标准化的地址数据信息，而还有一部分或者说存在很大一部分为非标准化的信息。由于非标准化的地址信息会为需要通过地址信息辅助进行下一步处理的功能带来极大的不便和负担。比如：地址转换经纬度、快递地址投递以及基于地址信息辅助实现的数据去重功能等。

以目前系统整合过程中数据身份证缺失而导致去重困难为例。单位对各种来源的数据需要进行集中化管理，由于来源于各种不同数据源的数据可能涉及到同一个体的信息，同一个体的多条数据信息可能存在身份证缺失的情况而存在实体地址信息的情况，地址没有通过标准化而利用地址信息辅助去重会导致数据的丢失，所以此种情况下会导致数据无法去重而直接入库从而导致数据库中出现大量的重复数据。在数据量不但积累的情况下，用户搜索出重复记录会逐渐增加，系统会增加用户的使用负担；此外，过多的冗余数据会增加系统压力，浪费过多的硬件资源。然而随着建立数据中心成为必然趋势，借助于标准化的地址信息去重必然也是非常去重过程中一个非常重要的指标。类似其他利用地址信息进一步处理的功能而言，地址标准化也非常重要。因此，将非标准化的通讯地址信息进行准确的标准化，使其能够为数据去重服务的一个非常重要的参考指标已经成为迫不及待解决的问题。

发明内容

本发明的目的就在于克服现有技术存在的缺点和不足，提供一种通讯地址标准化的系统及其方法，使未标准化的通讯地址实现通讯地址标准化，从而将未标准化的通讯地址进行标准化处理后，可为依赖于辅助地址进一步处理的功能提供有力的数据支持。

一、通讯地址标准化的系统（简称系统）

本系统包括地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块、输出标准化地址信息、数据字典、字典映射和带层级的地址标准库；

地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块和输出标准化地址信息依次交互；

地址分词模块访问数据字典；

词条标准化模块访问字典映射；

标注词条模块访问带层级的地址标准库。

二、方法

本方法包括下列步骤：

①地址接收模块接收待处理的地址数据；

②地址分词模块以数据字典为基础对待处理的地址信息使用最大正向文本匹配算法对数据进行切分，并获取词条信息；

③词条标准化模块以循环迭代的方式接收步骤②所获取的词条信息；

词条标准化模块判断地址别名和地址标准化名词是在一一对应关系，如果存在则认为其没有歧义，接着实现词条标准化；

词条标准化模块判断地址别名和地址标准化名不属于一一对应关系，则认为存在歧义，则将存在歧义的数据放入词条歧义容器中；

④词条标注模块通过上下文推断中读取歧义容器中的词条，然后经过词条标准化模块结合带层级的地址信息标准库完成地址词条信息标准化并输出半标准化词条集合；

⑤词条填补模块接收词条集合信息，并使用词条算法填补获得半标准化的文本信息；首先收集步骤④输出的地址词条集合信息S1，然后剔除没有被标注层级的词条信息，并将词条保存到集合S2中，然后使用排序算法对集合S1的内容进行从小到大排序；

⑥词条填补模块将集合S1中的词条中的标准化词条存入集合P中，并分别取数值为i和i+1（i为集合P内的下标索引）的词条信息；

⑦词条填补模块分别取出P[i] 和P[i+1]中的词条标注数值进行计算，如果计算出来的值大于1，则使用P[i+1]在带层级的地址库中搜索，直到搜索到的值与P[i]相等，则停止搜索；此时将P[i]和P[i+1]之间的词条保存到集合中，然后逐层循环，获得所有已标注词条之间的词，并对词条进行标注然后保存到集合Q中；

⑧词条填补模块将集合P中的词和集合Q中的词进行合并并生成集合PQ，然后根据词条标注字段进行从小到大排序生成集合PQS，最后将已经标注过的词条进行组装，最后输出地址文本信息；

⑨未标注地址处理模块对步骤⑤中所产生的未标记层级的词条S2集合进行标注化处理；

⑩收集步骤⑧和步骤⑨中的标注化地址信息，并组合输出标注化地址信息。

本发明具有下列优点和积极效果：

1、使用大量的词库对待标准化的文本地址信息进行正向最大匹配分词处理，从而保证了分词的准确性；

2、采用文本推断算法，解决了同名地址被正确标准化的问题；

3、采用标准地址元数据信息词条分级，可快速完成缺省数据地址填补功能。

附图说明：

图1是系统的结构方框图；

图2是数据字典A的结构方框图；

图3是词条标准化模块300的工作流程图；

图4是词条填补模块500的工作流程图；

图5是带层级的地址标准库C的结构示意图。

图中：

100—地址接收模块；

200—地址分词模块；

300—词条标准化模块；

400—词条标注模块；

500—词条填补模块；

600—处理未标注词条模块；

700—输出标准化地址信息。

A—数据字典，

A1—地址元数据标准名，

A2—地址元数据标准名别名；

B—字典映射；

C—带层级的地址标准库。

具体实施方式

下面结合附图和实际例进一步的说明。

一、系统

1、总体

如图1，本系统包括地址接收模块100、地址分词模块200、词条标准化模块300、词条标注模块400、词条填补模块500、处理未标注词条模块600、输出标准化地址信息700、数据字典A、字典映射B和带层级的地址标准信息库C；

地址接收模块100、地址分词模块200、词条标准化模块300、词条标注模块400、词条填补模块500、处理未标注词条模块600和输出标准化地址信息700依次交互；

地址分词模块200访问数据字典A；

词条标准化模块300访问字典映射B；

模块标注词条400访问带层级的地址标准信息库C。

2、功能块

1）地址接收模块100

地址接收模块100是一种用于接收地址信息输入的模块，其功能是专门用于接收外部传递过来的地址信息。

2）地址分词模块200

地址分词模块200是一种借助于数据字典A用于对地址接收模块100接收的地址信息进行分词处理的模块，其功能是接收地址接收模块100的地址信息，并利用最大正向文本匹配算法对地址信息进行切分，并以词条集合的形式将结果输出。

3）词条标准化模块300

词条标准化模块300是一种借助于字典映射B将地址分词模块200输出的词条集合进行转化的模块，其功能是专门用于接收地址分词模块200输出的词条集合，并根据字典映射B将不符合标准化的地址表述的词条转化为符合标准化的地址表述的词条。

如图3，词条标准化模块300的工作流程是：

a、获取词条集合—301；

b、以循环迭代的方式获取词条集合中的词条，判断词条是否具备歧义—302，是则经过词条歧义容器-306和上下文推断-307再跳转到步骤e；否则进入步骤c；

所述的词条歧义容器-306是指对无法被词条标准化模块300确定为唯一映射的词条进行存储集合；

所述的上下文推断-307是指无法被标准化模块300处理的词条进行推断而获得可靠的符合标准化的地址表述的词条，上下文推断是通过所有的地址词条结合无法被唯一识别的地址词条综合判断，从而确定未被处理地址词条的唯一性；

c、标准化处理—303

标准化模块300确定了待处理词条的唯一性，则将词条信息直接标准化为符合标准化的地址表述的词条；

d、将符合标准化的地址表述的词条存入数组B—304；

e、输出结果—305。

4）词条标注模块400

词条标注模块400是一种根据带层级的地址标准信息库C对词条标准化模块300所输出的符合标准化的地址表述的词条进行层级标注，从而输出带层级词条。

5）词条填补模块500

地址接收模块500是通过以下工作流程，实现地址信息填补功能。

如图4，词条填补模块500的工作流程是：

A、开始—501；

B、排序标注过层级的词条—502

词条填补模块500使用词条算法填补获得半标准化的文本信息；首先收集词条标准化模块300的结果输出到词条集合S1中，然后剔除没有被标注层级的词条信息，并将该词条信息保存到词条集合S2中；然后使用排序算法对集合S1的内容进行从小到大排序；

C、词条存入集合P，取词条索引—503

将集合S1中的词条中的标准化词条存入放入集合P中，并分别取数值为i和i+1的词条信息，i的取值范围为：0<i<p.length；

D、计算词条之间的距离—504

分别取出P[i]和P[i+1]中的词条标注数值进行计算，如果计算出来的值大于1，则使用P[i+1]在带层级的地址库中搜索，直到搜索到的值与P[i]相等，则停止搜索；此时将P[i]和P[i+1]之间的词条保存到集合中，然后逐层循环，获得所有已标注词条之间的词，并对词条进行标注，然后保存到集合Q中；

E、排序所有词条—505

将集合P中的词条和集合Q中的词条进行合并并生成集合PQ然后根据词条标注字段进行从小到大排序生成集合PQS,最后将已经标注过的词条进行组装，最后输出地址文本信息。

6）处理未标注词条模块600

处理未标注词条模块600是一种根据关键字匹配，判断未被标准化词条的类型，并将未被标注化词条进行标准化处理。

7）输出标准化地址信息700

输出标准化地址信息700是一种用于输出标准化地址的模块。

8）数据字典A

如图2，数据字典A包括地址元数据标准名A1和地址元数据标准名别名A2。

地址元数据标准名A1是地址学名；比如湖北省、武汉市等。

地址元数据标准名别名A2是地址别名或者简称；比如：湖北省别名为鄂，湖北省简称湖北等。

7）字典映射B

字典映射B是指地址学名和地址别名或者地址简称之间的映射关系。

10）带层级的地址标准信息库C

带层级的地址标准信息库C指按照国家行政区域划分的各级地址的地址元数据标准名，从大到小将地址词条分为多个等级。其中带层级的地址标准信息库C中包括全国；各省、自治区、直辖市；自治州、县、自治县、市；乡、名族乡、镇；村、建筑物的名词、小区等信息。

如图5，有中国C1、香港特别行政区C2、东湖新技术开发区C3、光谷一路C4和怡园小区C5。

3、工作机理

本系统通过地址接收模块100接收待处理的地址信息然后将接收到的地址输入地址分词模块200；地址分词模块200借助于数据字典A对接收到的地址信息进行分词处理，并输出词条集合；词条标准化模块300借助字典映射B对词条集合进行处理，输出标准化地址、词条信息到词条标注模块400；词条标注模块400访问带层级的地址标准信息库C对标准化词条信息进行标注，并输出带标注的词条集合和未被标注的词条集合；词条填补模块500对带标注的词条集合中的地址进行补充；处理未标注词条模块600对未被标注的词条集合进行关键字匹配，并将信息转化为标准化地址；输出标准化地址信息700；

二、实施例

①地址接收模块100接收待处理的地址数据；

当待标准化地址信息抵达地址接收模块100，地址接收模块100以管道的方式接收待标准化地址信息。

②地址分词模块200以数据字典A为基础对待处理的地址信息使用最大正向文本匹配算法对数据进行切分，并获取词条信息；

地址接收模块100将接收到的待标准化信息传递到数据分词模块200；基于数据字典A，分词模块200对待标准化地址信息进行分词处理，其中数据字典A中包含地址元数据标准名A1和地址元数据别名A2；地址元数据标准名A1中包含按照国家行政区域划分的各级地址的地址元数据标准名，其中数据字典中包括全国各省、自治区、直辖市、自治州、县、自治县、市、乡、名族乡、镇、村、建筑物的名词、小区等信息；地址元数据别名A2中包括地址元数据标准名的别名信息，比如：湖北省对应的别名有：湖北、鄂；洪山区对应的别名有洪山；武汉东湖新技术开发区对应的别名有东湖高新区、东湖高新等；通过数据字典A中的数据对待处理的地址信息使用最大正向文本匹配算法对数据进行切分，并获取词条信息；最大正向文本匹配算法匹从待标准化的地址中匹配出的词语是字典中包含字数最多的词条；以“江西九江庐山区怡和园17-1-1302”地址为例，地址经过数据字典分词模块后，输出地址信息为一组词条（“江西”、“九江”、“庐山区”、“怡和园”、“17-1-1302”）。

③词条标准化模块（300）以循环迭代的方式接收步骤②所获取的词条信息；

词条标准化模块（300）判断地址别名和地址标准化名词是在一一对应关系，如果存在则认为其没有歧义，接着实现词条标准化；词条标准化模块（300）判断地址别名和地址标准化名不属于一一对应关系，则认为存在歧义，则将存在歧义的数据放入词条歧义容器中；

地址分词模块200完成了对待处理的地址信息进行切分后输出词条信息，词条标准化模块300借助字典映射模块B，其中字典映射模块包含的内容是将别名映射成标准名的对应关系；湖北、鄂对应湖北省、洪山对应洪山区、东湖高新区、东湖高新对应武汉东湖新技术开发区等。然后通过词条标准化算法对地址分词模块200输出的一组词条（“江西”、“九江”、“庐山区”、“怡和园”、“17-1-1302”）实现词条标准化；其中词条标准化算法如图4所示；

以词条标准化算法首先以循环迭代的方式接收步骤②输出的词条信息-301；

词条标准化模块通过接收词条并判断词条是否具备歧义，此处歧义代表的含义是同一个名字是否可以代表不同地方的简称；如果词条通过字典映射关系转化的过程中地址别名和地址标准化名是否存在属于一一对应关系；

如果地址别名和地址标准化名词存在一一对应关系则认为其没有歧义，接着实现词条标准化；

将存在一一对应关系的别名转化后，输出结果，并将无歧义的词条放入数组B中；

如果地址别名和地址标准化名不属于一一对应关系，则认为存在歧义，则将存在歧义的数据放入词条歧义容器中。以步骤②输出的其中一个词条“九江”为例，其中九江能够代表江西省的九江市，也能代表吉林市昌邑区九江大路。

④词条标注模块400通过上下文推断中读取歧义容器中的词条，然后经过词条标准化模块300结合带层级的地址标准库完成地址词条信息标准化并输出半标准化词条集合S1；

上下文推断中读取歧义容器中的词条，然后经过词条标准化模块400结合带层级的地址信息标准库C搜索包含“九江”这个词的地址信息；通过搜索“九江”这个词条，并将搜索到关于九江的词条地址往上递归，直到找到根节点即带层级的地址标准化词库中的第一层结束，并将词条路径连接起来作为包含“九江”这个词的地址信息。通过计算之后，将结果集以数组的形式保存在内存数组A中，然后判断A中数组的大小；当搜索完后数组A中有两条地址信息[“江西省九江市”,”吉林省吉林市昌邑区九江大路”]。A数组中的两条地址信息所包含的标准地址如下所示：“江西省九江市”包含标准化词条“江西省”“九江市”，然后将词条“江西省”放入数组k中、“吉林省吉林市昌邑区九江大路”包含词条“吉林省”、“吉林市”、“昌邑区”“九江大道”，然后将“吉林省”、“吉林市”、“昌邑区”放入数组m中。分别将计算数组k和数组m与步骤7中产生的数组求交集，分别得到的数组为k1和m1；然后比较k1和m1数组的长度，长度大的说明符合度越高。通过计算后k1=[“江西省”]，m1=[]；其中k1的长度为1，而m1的长度为零；此处说明”江西省九江市”更符合，所以此处为将“九江”词条标准化为“九江市”；

步骤④完成后，即所有能被标准化的词条均被标准化词条；最后将标准化和部分未标准化的词输出；输出一组词条（“江西省”、“九江市”、“庐山区”、“怡和园小区”、“17-1-1302”）的数组，数组用S1表示；

词条标注模块400结合带层级的地址标准库C实现对数组S1中的词条进行标注层级，其中标注后的数组信息S1为（“江西省”1、“九江市”2、“庐山区”3、“怡和园小区”5、“17-1-1302”）。

⑤词条填补模块500接收词条集合信息，并使用词条算法填补获得半标准化的文本信息；首先收集步骤④输出的地址词条集合信息S1，然后剔除没有被标注层级的词条信息，并将词条保存到集合S2中，然后使用排序算法对集合S1的内容进行从小到大排序；

使用词条填补模块500中的词条算法填补获得半标准化的文本信息；首先收集步骤④中输出的数组信息S1,然后剔除没有被标注层级的词条信息，并将词条保存到S2集合中。S1经过处理后生成带层级的词条集合S1=（“江西省”、“九江市”、“庐山区”、“怡和园小区”）。然后使用排序算法对集合S1的内容进行从小到大排序。

⑥词条填补模块500将集合S1中的词条中的标准化词条存入集合P中，并分别取数值为i和i+1的词条信息，i为集合P内的下标索引；

将集合S1中的词条中的标准化词条存入放入集合P中，并分别取数值为i,i+1的词条信息，i的取值范围为：0<i<p.length-1。

⑦词条填补模块500分别取出P[i] 和P[i+1]中的词条标注数值进行计算，如果计算出来的值大于1，则使用P[i+1]在带层级的地址库中搜索，直到搜索到的值与P[i]相等，则停止搜索；此时将P[i]和P[i+1]之间的词条保存到集合中，然后逐层循环，获得所有已标注词条之间的词，并对词条进行标注然后保存到集合Q中；

分别取出P[i+1]和P[i]中的词条标注数值进行计算，如果计算出来的值大于1，则使用P[i+1]在带层级的地址库中搜索，知道搜索到的值与P[i]相等，则停止搜索。此时将P[i]和P[i+1]之间的词条保存到集合中，然后逐层循环，获得所有已标注词条之间的词，并对词条进行标注然后保存到集合Q中；比如取出集合中的词条“怡和园小区”(P[3])和“庐山区”P[2],计算P[3]-P[2]>1,此时说明“庐山区”“怡和园小区”之间存在更多的信息。通过上述描述的算法对集合中的数据进行搜索，然后得到“陆家坡路”4词条，此时将词条存入集合Q中，则Q={“陆家坡路”4}。

将集合P中的词条和集合Q中的词条进行合并并生成集合PQ={“江西省”1、“九江市”2、“庐山区”3、“怡和园小区”5、“陆家坡路”4}，然后根据词条标注字段进行从小到大排序生成集合PQS,最后将已经标注过的词条进行组装，最后输出地址文本信息为：江西省九江市庐山区陆家坡路怡和园小区。

由于经过前面的步骤之后，数据已经高度标准化；数据未标准化的部分仅仅是对详细信息的标准化；基本形式为XXX村YY组zz号、21栋1单元2103等信息的标准化；PQS通过排序处于最后的标准化词条，然后判断词条信息中是否具备某些关键字；比如“村”则代表此地址已经到村级别；“小区”则代表此地址已经到小区级别，路则代表地址已经到了街道级别；以此文中的例子为例：“怡和园小区”中包括关键字“小区”，系统则认为此地址已经到小区级别。最后将步骤12中生成的集合S2={17-1-1302}标准化为17栋1单元13楼02号房。

⑩收集步骤⑧和步骤⑨中的标注化地址信息，并组合输出标注化地址信息；

合并步骤⑧和步骤⑨中的标准化输出则待标准化文本地址信息即可转化为:江西省九江市庐山区陆家坡路怡和园小区17栋1单元13楼02号房，此时即可输出最终结果。

Claims

1.一种通讯地址标准化的系统，其特征在于：

包括地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)、数据字典(A)、字典映射(B)和带层级的地址标准库(C)；

地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)依次交互；

地址分词模块(200)访问数据字典(A)；

词条标准化模块(300)访问字典映射(B)；

标注词条模块(400)访问带层级的地址标准库(C)；

所述的词条标准化模块(300)的工作流程是：

a、获取词条集合(301)；

b、以循环迭代的方式获取词条集合中的词条，判断词条是否具备歧义(302)，是则经过词条歧义容器(306)和上下文推断(307)再跳转到步骤e；否则进入步骤c；

所述的词条歧义容器(306)是指对无法被词条标准化模块300确定为唯一映射的词条的存储集合；

所述的上下文推断(307)是指对无法被标准化模块(300)处理的词条进行推断而获得可靠的符合标准化的地址表述的词条，上下文推断是通过所有的地址词条结合无法被唯一识别的地址词条综合判断，从而确定未被处理地址词条的唯一性；

c、标准化处理(303)

标准化模块(300)确定了待处理词条的唯一性，则将词条信息直接标准化为符合标准化的地址表述的词条；

d、将符合标准化的地址表述的词条存入数组B(304)；

e、输出结果(305)；

所述的词条填补模块(500)的工作流程是：

A、开始(501)；

B、排序标注过层级的词条(502)

词条填补模块(500)使用词条算法填补获得半标准化的文本信息；首先收集词条标准化模块(300)的结果输出到词条集合S1中，然后剔除没有被标注层级的词条信息，并将该词条信息保存到词条集合S2中；然后使用排序算法对集合S1的内容进行从小到大排序；

C、词条存入集合P，取词条索引(503)

将集合S1中的标准化词条存入集合P中，并分别取数值为i和i+1的词条信息，i的取值范围为：0<i<p.length-1；

D、计算词条之间的距离(504)

E、排序所有词条(505)

2.基于权利要求1所述系统的标准化方法，其特征在于包括下列步骤：

①地址接收模块(100)接收待处理的地址数据；

②地址分词模块(200)以数据字典(A)为基础对待处理的地址信息使用最大正向文本匹配算法对数据进行切分，并获取词条信息；

③词条标准化模块(300)以循环迭代的方式接收步骤②所获取的词条信息；

词条标准化模块(300)判断地址别名和地址标准化名词是在一一对应关系，如果存在则认为其没有歧义，接着实现词条标准化；

词条标准化模块(300)判断地址别名和地址标准化名不属于一一对应关系，则认为存在歧义，则将存在歧义的数据放入词条歧义容器中；

④词条标注模块(400)通过上下文推断中读取歧义容器中的词条，然后经过词条标准化模块(300)结合带层级的地址信息标准库完成地址词条信息标准化并输出半标准化词条集合；

⑤词条填补模块(500)接收词条集合信息，并使用词条算法填补获得半标准化的文本信息；首先收集步骤④输出的地址词条信息集合S1，然后剔除没有被标注层级的词条信息，并将词条信息保存到集合S2中，然后使用排序算法对集合S1的内容进行从小到大排序；

⑥词条填补模块(500)将集合S1中的词条中的标准化词条存入集合P中，并分别取数值为i和i+1的词条信息；

i为集合P内的下标索引；

⑦词条填补模块(500)分别取出P[i]和P[i+1]中的词条标注数值进行计算，如果计算出来的值大于1，则使用P[i+1]在带层级的地址库中搜索，直到搜索到的值与P[i]相等，则停止搜索；此时将P[i]和P[i+1]之间的词条保存到集合中，然后逐层循环，获得所有已标注词条之间的词，并对词条进行标注然后保存到集合Q中；