CN1959712A - 按投递地址段自动制作商函的方法及其系统 - Google Patents

按投递地址段自动制作商函的方法及其系统 Download PDF

Info

Publication number
CN1959712A
CN1959712A CNA2006100621619A CN200610062161A CN1959712A CN 1959712 A CN1959712 A CN 1959712A CN A2006100621619 A CNA2006100621619 A CN A2006100621619A CN 200610062161 A CN200610062161 A CN 200610062161A CN 1959712 A CN1959712 A CN 1959712A
Authority
CN
China
Prior art keywords
address
letter
field
merchant
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100621619A
Other languages
English (en)
Inventor
李凯乐
谈宏
王晓敏
张强
刘宗沛
华衡
霍俊
孙文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN ROUTDATA TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN ROUTDATA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ROUTDATA TECHNOLOGY Co Ltd filed Critical SHENZHEN ROUTDATA TECHNOLOGY Co Ltd
Priority to CNA2006100621619A priority Critical patent/CN1959712A/zh
Publication of CN1959712A publication Critical patent/CN1959712A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明为了提高商函分拣投递处理的效率和成本的问题,提供一种中文地名及组织机构名称的识别分类并制作的方法及系统。该系统包括:商函工作站、地名数据库、商函打印机;还包括名址匹配引擎,用于接收所述商函工作站输出的待投递商函用户的原始名称和地址信息,并对该商函用户的原始名称和地址信息进行标准化处理、分词处理,地址层次分析和投递段分析;所述名址匹配引擎的输入端通过数据线连接所述商函工作站和地名数据库,其输出端通过数据线连接所述商函打印机。通过该方法和系统,将直接制作出按投递段分类的商函,消除了中间分拣的环节,从而达到提高商函投递效率,降低商函投递成本的目的。

Description

按投递地址段自动制作商函的方法及其系统
技术领域
本发明涉及商函制作系统和方法,尤其涉及中文地名及组织机构名称的识别分类并制作的方法及系统。
背景技术
现在邮政部门的商函投递过程如下:
商函局制作出商函邮件后,交由邮政中心局分拣。中心局先进行一次分拣,按商函邮件地址把邮件分拣到不同的投递站,然后把一次分拣后的商函邮件运输到各个投递站。各个投递站对运送来的商函邮件进行二次分拣,按商函邮件地址把邮件分拣到不同的投递段,交由投递员投递。分拣工作一般依靠人工,效率难以满足商函客户对商函时限的要求,同时,也耗费了大量的人力和物力。以深圳移动话费账单为例,以传统业务处理流程制作并投递一批90万封商函需要10天左右。大约一半的时间用于商函的分拣。按分拣环节工作效率为6000件每人每日计算,约需要150个人工作日。
针对人工分拣商函的效率低下,成本又相对过高,如中国专利申请号为CN97103463.X的说明书文件公开的一种“按顺序分拣方式拣出和整理信件的方法和装置”,提供一种对邮件进行分拣和重新整理的装置,信件装进计算机控制的分拣机中,分拣机进行多遍分拣,以完成对信件的分拣。但是这种方法仍然需要经过对商函邮件的分拣程序,难以满足对大量商函分拣的效率上的要求。
发明内容
本发明为了提高商函分拣投递处理的效率和成本的问题,提供一种中文地名及组织机构名称的识别分类并制作的方法及系统。通过该方法和系统,将直接制作出按投递段分类的商函,消除了中间分拣的环节,从而达到提高商函投递效率,降低商函投递成本的目的。
为了实现上述技术目的,本发明提供了:
一种按投递地址段自动制作商函的方法,该方法包括如下步骤:
a.由商函工作站采集待投递商函用户的原始名称和地址;
b.所述商函工作站把所述待投递商函用户的原始名称和地址送入名址匹配引擎;
c.由所述名址匹配引擎先对用户的原始名称和地址的字符编码进行标准化;
d.所述名址匹配引擎调用由系统预置的地名数据库的地名数据,利用该地名数据库的地名数据对标准化了的用户地址进行分词处理,然后进行地址层次分析和投递段分析,最后获得按商函投递段顺序排列的用户地址;
e.所述名址匹配引擎把所述按商函投递段顺序排列的用户地址输出到商函打印机;
f.所述商函打印机按照商函投递段有顺分类打印制作商函从而实现商函的自动分拣。
以上步骤中,所述对用户的原始名称和地址的字符编码进行标准化包括如下步骤:
a.把商函用户的原始名称和地址所包含的字符串中的小写字符转换为大写字符;
b.把商函用户的原始名称和地址所包含的字符串中的全角字符转换为半角字符;
c.把商函用户的原始名称和地址所包含的字符串中的中文数字转换为阿拉伯数字。
所述系统预置的地名数据库的存放的数据包括:地址树的树状结构的地址节点以及该地址节点对应的站段规则。
所述地址树是由地市的地名层次节点所形成的一个树状结构;
所述地名树上一层次节点包含下一节点的地址范围,末节点建立在能够区分不同投递段的地址范围上,不完全建立在具体的门牌上,所述地名树详细收集和描述了一个地市辖区内的所有地名及主要组织机构名称的信息;
地名树的数据结构中包括以下字段:
1)节点编号,字段名为LNo,字段类型为Numeric,字长为8个字节;
2)父节点编号,字段名为PNo,字段类型为Numeric,字长为8个字节;
3)节点名称,字段名为MS,字段类型为VARCHAR2,字长为40个字节;
4)是否是别名,字段名为BZ,字段类型为Numeric,字长为1个字节;
5)地名类型,字段名为NTYPE,字段类型为Numeric,字长为2个字节;
6)不包括别名的节点孩子数,字段名为NCHILDREN,字段类型为Numeric,字长为6个字节;
7)地址字节长度,字段名为NLEN,字段类型为Numeric,字长为2个字节;
8)使用次数,字段名为NREPEAT,字段类型为Numeric,字长为2个字节;
9)节点级别,字段名为NLEVEL,字段类型为Numeric,字长为2个字节;
10)是否关键词,字段名为IS_KEY,字段类型为Numeric,字长为1个字节。
所述地址树的地址节点对应的站段规则包括,站段编码以及该站段编码指明某个地址节点由那些投递段投递;
该站段规则的数据结构包括如下字段:
1)序列号,字段名为TDNO,字段类型为Numeric,字长为12个字节;
2)节点编号,字段名为LNO,字段类型为Numeric,字长为8个字节;
3)投递段号,字段名为SNO,字段类型为Numeric,字长为8个字节;
4)投递规则,字段名为MS,字段类型为Numeric,字长为40个字节;
5)门牌起始编号,字段名为BEGINNO,字段类型为Numeric,字长为6个字节;
6)门牌结束编号,字段名为ENDNO,字段类型为Numeric,字长为6个字节;
7)投递顺序号,字段名为ord,字段类型为Numeric,字长为6个字节。
所述分词处理实现以下功能,名址匹配引擎用正向最大匹配的方法将待分析的地址汉字字符串与所述地名库中的某个词条进行匹配,若在所述地名库中找到该待分析的地址汉字字符串,则匹配成功,或称识别出一个地名;
分词处理的工作流程原理方框图,工作流程描述如下:
a.字符编码进行标准化的名称和地址字符输入分词处理模块、,该模块中的当前位置指针置0,并计算当前地址长度;
b.判断当前位置指针是否不大于输入地址的长度与最小关键词长的差;
c.如果步骤b判断为“是”,则分词处理完毕;
d.如果步骤b判断为“否”,则对输入的地址按词长由大至小的顺序,到所述按照关键词的词长构建的哈希表中,按照词长由大到小查找关键词;
e.步骤d没有找到关键词,则当前位置指针增加1,然后进行步骤b的流程;
f.如果步骤d找到了关键词,则当前位置指针加上关键词的词长作为位置指针,然后进行步骤b的流程。
所述分词处理的字符串结果还要被名址匹配引擎整理,地址别名将被标准化。
所述的地址层次分析实现以下功能,计算机根据地名树对用户地址进行语义分析、定位地名,即从众多候选词中选出唯一正确识别到段的地址节点;所述的地址层次分析工作流程如下:
a.进行了分词处理的用户地址输入地址层次分析模块,其分词结果为地址包含的关键词列表,该模块对关键词进行判断,是否为最后一个关键词;
b.如果a步骤判断为“是”,则输出路径及站段匹配的最优节点;
c.如果a步骤判断为“否”,则计算该关键词所有上级节点在地址中出现的次数,判断出现的次数是否最大;
d.如果c步骤判断为“是”,则记录该最大值,并且计算该节点站段匹配次数,设此值为最大值;
e.找到下一个关键词,并再执行a步骤;
f.如果c步骤判断为“否”,则判断c步骤中该关键词所有上级节点在地址中出现的次数与最大的次数相比是否相等;
g.如果f步骤判断为“是”,则计算该关键词站段匹配次数,并判断该站段匹配次数是否最大;
h.如果g步骤判断为“是”,则该节点站段匹配次数设为最大值,再执行步骤e;
i.如果g步骤判断为“否”,则执行步骤e;
j.如果f步骤判断为“否”,则执行步骤e;
所述投递段分析是指,地址层次分析模块对不同投递段的用户名称和地址分别配置到相应的地址段。
一种按投递地址段自动制作商函的的系统,包括:商函工作站,该商函工作站设置在各商函局或邮政支局,用于采集待投递商函用户的原始名称和地址信息;地名数据库,用于按系统规定的数据格式存储城市地名及商函投递段的数据信息,供系统的其他模块调用;
商函打印机,用于按照商函投递段有顺分类打印制作商函;
还包括名址匹配引擎,用于接收所述商函工作站输出的待投递商函用户的原始名称和地址信息,并对该商函用户的原始名称和地址信息进行标准化处理、分词处理,地址层次分析和投递段分析;
所述名址匹配引擎的输入端通过数据线连接所述商函工作站和地名数据库,其输出端通过数据线连接所述商函打印机。
所述名址匹配引擎包括:字符串输入接口、标准化模块、分词处理模块、地址层次分析模块以及字符串输出接口;
用户的原始名称和地址由字符串输入接口输入,字符串输入接口输出连接标准化模块,标准化模块输出连接分词处理模块,分词处理模块输出连接地址层次分析模块,地址层次分析模块输出连接字符串输出接口。
所述名址匹配引擎为与所述商函工作站、地名数据库和商函打印机连成网络的电子计算机。
所述地名数据库存储有地名树及与地名树相关的投递段信息库,所述地名数据库的数据信息可以进行更新。
和现有技术相比较,本发明具有如下有点:对商函地址按投递段进行分析,直接按地址段分别打印商函,取消了商函的分拣工作,提高了商函的投递效率和降低了商函的投递成本。
附图说明
图1是本发明按投递地址段自动制作商函的系统组成的结构框图;
图2是名址匹配引擎工作流程的原理方框图;
图3是名址匹配引擎的硬件逻辑单元组成图;
图4是对用户地址的字符编码进行标准化的工作流程图;
图5是关键词库加载到哈希表工作流程图;
图6是分词处理的工作流程图;
图7是对已作了分词处理的用户地址进行地址层次分析的工作流程图。
具体实施方式
以下结合附图及附图所示之实施例对本发明系统和方法作进一步详述。
如图1所示,本发明提供一种按投递地址段自动制作商函的的系统,包括:
商函工作站5,该商函工作站5设置在各商函局或邮政支局,用于采集待投递商函用户的原始名称和地址信息;
地名数据库2,用于按系统规定的数据格式存储城市地名及商函投递段的数据信息,供系统的其他模块调用;
商函打印机3,用于按照商函投递段有顺分类打印制作商函;
名址匹配引擎1,用于接收所述商函工作站5输出的待投递商函用户的原始名称和地址信息,并对该商函用户的原始名称和地址信息进行标准化处理、分词处理,地址层次分析和投递段分析;
名址匹配引擎1的输入端通过数据线连接所述商函工作站5和地名数据库2,其输出端通过数据线连接所述商函打印机3。
所述地名数据库2存储有地名树及与地名树相关的投递段信息库,所述地名数据库2的数据信息可以进行更新。
如图2所示,所述名址匹配引擎1包括:字符串输入接口10、标准化模块11、分词处理模块12、地址层次分析模块13以及字符串输出接口14;
用户的原始名称和地址由字符串输入接口10输入,字符串输入接口10输出连接标准化模块11,标准化模块11输出连接分词处理模块12,分词处理模块12输出连接地址层次分析模块13,地址层次分析模块13输出连接字符串输出接口14。
同时,词处理模块12和地址层次分析模块13分别和地名数据库2,并且在进行各自功能时候都要使用地名数据库2所储存的数据。
如图3所示,名址匹配引擎1工作流程如下:
a.接收用户的原始名称和地址;
b.对输入的原始名称和地址的字符编码进行标准化处理;
c.根据所述地名词库对标准化了的名称和地址进行分词处理;
d.对进行了分词处理的用户地址进行地址层次分析;
e.对进行了地址层次分析的用户地址进行投递段分析,并输出按地名段排列的用户地址;
以下根据附图对名址匹配引擎1工作流程的每个步骤进行描述:
如图4所示,对用户原始名称和地址的字符编码进行标准化工作流程如下:
a.输入用户的原始名称和地址的字符串到标准化模块11;
b.把该字符串中的小写字符转换为大写字符,如把字符“a”转换为字符“A”;
c.把该字符串所包含的全角字符转换为半角字符;
d.把该字符串所包含的中文数字转换为阿拉伯数字,如把字符“一”转换为字符“1”。
通过以上流程,输入的用户原始地址的字符串被标准化。
根据图5和图6所示,以下描述即完成完整的对标准化了的用户地址进行分词处理的过程。
所述分词是指如下操作:本发明正向最大匹配方法将待分析的地址汉字串与一个“充分大的”地名词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,即识别出一个地名。
本发明用添加别名的方式来提高分词率。别名包括同音字,常见错别字,地名缩写等。
对标准化了的用户地址进行分词处理需要根据地名树及与地名树相关的投递段信息库,即所述的地名词典,我们所构建的地名树及与地名树相关的投递段信息库存储在地名数据库2中。
所述地名树是由地市的地名层次节点建立而成的一个树状结构的数据库,上一层次节点包含下一节点的地址范围,末节点建立在能够区分不同投递段的地址范围上,不完全建立在具体的门牌上,所述地名树详细收集和描述了一个地市辖区内的所有地名及主要组织机构名称的信息。所述投递段信息库包括站段编码,该站段编码指明某个地址节点由那些投递段投递。
所述地名树是由地市的地名层次节点建立而成的一个树状结构的数据库,上一层次节点包含下一节点的地址范围,末节点建立在能够区分不同投递段的地址范围上,不完全建立在具体的门牌上,所述地名树详细收集和描述了一个地市辖区内的所有地名及主要组织机构名称的信息,其数据结构如下:
  字段意义   字段名   字段类型及大小   说明
  节点编号   LNo   Numeric(8)   NOT NULL UNIQUE
  父节点编号   PNo   Numeric(8)   NOT NULL
  节点名称   MS   VARchar2(40)   NOT NULL
  是否别名   BZ   Numeric(1)   DEFAULT 0
  地名类型   NTYPE   Numeric(2)   NOT NULL
  节点孩子数(不包括别名)   NCHILDREN   Numeric(6)   DEFAULT 0
  地址字节长度   NLEN   Numeric(2)   DEFAULT 0
  使用次数   NREPEAT   Numeric(2)   DEFAULT 0
  节点级别   NLEVEL   Numeric(2)   DEFAULT 0
  是否关键词   IS_KEY   Numeric(1)
所述地名类型以数字的形式表示地名的区域级别,其区域级别越高,其数字越小,如:80表示市;100表示区;200表示镇;250表示村;300表示交通道路;400表示小区域;450表示住宅小区;500表示大楼大厦;600表示公司、单位、组织。
别名标志:0,不是别名,1,别名。
所述关键词是指地理意义上唯一,且没有重名的地址节点。设为主关键词的地址节点将不做缺失性条件检查。如,a小区,如果是A镇下的子节点,而用户给的地址只写了a小区没有写A镇,将视为无效地址;如果除了A镇以外,其他镇都没有a小区,则可以把a小区设置为关键词,该只写a小区的写法则视为有效地址。
图5是关键词库加载到哈希表工作流程的原理方框图,包括以下步骤:
a.初始化哈希表;
b.关键词库加载到哈希表;
c.对关键词词长分组,词长由大至小存放到一维数组。
图6是分词处理的工作流程原理方框图,工作流程描述如下:
a.标准化地址输入分词处理模块12,该模块12中的当前位置指针置0,并计算当前输入的地址长度;
b.断当前位置指针是否不大于输入地址的长度与最小关键词长的差;
c.如果步骤b判断为“是”,则分词处理完毕;
d.如果步骤b判断为“否”,则对输入的地址按词长由大至小的顺序,到所述按照关键词的词长构建的哈希表中,按照词长由大到小查找关键词;
e.步骤d没有找到关键词,则当前位置指针增加1,然后进行步骤b的流程;
f.如果步骤d找到了关键词,则当前位置指针加上关键词的词长作为位置指针,然后进行步骤b的流程。
所述分词处理的字符串结果还要被名址匹配引擎整理,地址别名将被标准化。地址名称的收集应注意如下问题:全面、详尽的收集城市街道、花园小区、大楼大厦、党政机关、企事业单位的名称,并且大型连锁机构及党政机关的名称应描述详细。应尽可能为地址节点增加别名,以提高自动分拣的识别率。
地址别名的种类:
1)常用错别字,同音字,如“新洲”写为“新州”;
2)常用缩写,如“建国门外大街”写为“建外大街”;
3)其它称呼。
可通过对所述地名数据库2的读写,批量增加别名。
所述的地址层次分析,是指根据地名树对用户地址进行语义分析并定位地名。定位地名是指从众多候选词中选出唯一正确识别到段的地址节点,并将该地址标准化。地名定位的原则是路径权重值最大。所述路径权重是指某关键词的所有上级节点在用户地址中出现的次数。
图7是对进行了分词处理的用户地址进行地址层次分析的工作流程原理方框图,其工作流程如下:
a.进行了分词处理的用户地址,其分词结果为地址包含的关键词列表,输入关键词列表到地址层次分析模块13,判断是否为最后一个关键词;
b.如果a步骤判断为“是”,则输出路径及站段匹配的最优节点;
c.如果a步骤判断为“否”,则计算该关键词所有上级节点在地址中出现的次数,判断出现的次数是否最大;
d.如果c步骤判断为“是”,则记录该最大值,并且计算该节点站段匹配次数,设此值为最大值;
e.找到下一个关键词,并再执行a步骤;
f.如果c步骤判断为“否”,则判断c步骤中该关键词所有上级节点在地址中出现的次数与最大的次数相比是否相等;
g.如果f步骤判断为“是”,则计算该关键词站段匹配次数,并判断该站段匹配次数是否最大;
h.如果g步骤判断为“是”,则该节点站段匹配次数设为最大值,再执行步骤e;
i.如果g步骤判断为“否”,则执行步骤e;
j.如果f步骤判断为“否”,则执行步骤e;
通过上述步骤,即可以完成对对进行了分词处理的用户地址进行地址层次分析的工作。
在地名树节点配置投递信息,是指每个地名节点关联相关的投递站段,也就是说不同的地名,在投递信件的时候由不同的投递段投递。
投递段信息库包括站段编码,该站段编码指明某个地址节点由那些投递段投递;投递段的数据结构如下:
  字段意义   字段名   字段类型及大小  说明
  序列号   TDNO   Numeric(12)  NOT NULL UNIQUE
  节点编号   LNO   Numeric(8)  NOT NULL,foreign key
  投递段号   SNO   VARchar2(8)  NOT NULL
  投递规则   MS   VARchar2(40)  NOT NULL
  门牌起始编号   BEGINNO   Numeric(6)  DEFAULT 0
  门牌结束编号   ENDNO   Numeric(6)  DEFAULT 99999
  投递顺序号   ord   Numeric(6)
站段编码
站段编码指明某个地址节点由那些投递段投递。
段规则
对于需要分段投递的主干道路、较大的花园小区,要标明段规则(即投递范围)。
例如,深南大道是深圳的主干道路,由下述5个投递段投递,则深南大道的站段信息描述如下:
节点名称为“深南大道”;
段规则如下表:
投递站   投递段   开始编号   结束编号   范围规则
034 科技园   001   1   200   单号
034 科技园   002   1   200   双号
054 竹子林   005   201   500   单号
054 竹子林   006   201   500   双号
065 建设路   001   501   99999   全部
以上是名址匹配引擎1完整的工作流程,下例是对具体地址“深圳市华强北路32号海关大院16-405”的分词以及地址层次分析的实际输出结果:
分词处理的结果如下表:
  地址   深圳市华强北路海关大院16-405
  分词结果(有效关键字)   “深圳市”、“华强北路”、“海关大院”
对关键词的说明如下:
“深圳市”是地名树库的唯一根节点;“华强北路”在地名树中有唯一节点,其路径“深圳市/福田区/华强北路”;“海关大院”在地名树中存在多条记录,分别对应不同的路径:“深圳市/罗湖区/和平路/海关大院”、“深圳市/罗湖区/草埔/海关大院”、“深圳市/福田区/华强北路/海关大院”和“深圳市/南山区/蛇口新街/海关大院”。
统计结果表明,单纯使用正向最大匹配的错误率小于千分之一。
以输出结果为“深圳市”、“华强北路”、“海关大院”为例子,各关键词的路径分析如下表:
  关键词  路径分析说明
  深圳市  根节点,路径权重值为0
  华强北路  直接上级节点没有出现,间接上级“深圳市”出现,路径权重值为1-
  海关大院  “深圳市/罗湖区/和平路/海关大院”路径权重值为1--“深圳市/罗湖区/草埔/海关大院”路径权重值为1--“深圳市/福田区/华强北路/海关大院”路径权重值为2-“深圳市/南山区/蛇口新街/海关大院”路径权重值为1--
本例依据路径权重最大原则选择“华强北路”下的“海关大院”。
所述名址匹配引擎1根据所述地名数据库2中存储的内容,对输入的无序的商函中文地名与组织机构名称,并对输入进行字符编码进行标准化、分词处理、地址层次分析并进行投递段分析,即可以输出按地名段排列的用户地址,通过数据线传给商函打印机3打印制作商函。
所述商函打印机3根据从所述名址匹配引擎1接收到的按地址段分段的商函中文地名及组织机构名称,分段打印制作商函。该打印制作好的商函即可交由不同的投递站投递,不需要再进行分拣。

Claims (13)

1、一种按投递地址段自动制作商函的方法,其特征在于该方法包括如下步骤:
a.由商函工作站(5)采集待投递商函用户的原始名称和地址;
b.所述商函工作站(5)把所述待投递商函用户的原始名称和地址送入名址匹配引擎(1);
c.由所述名址匹配引擎(1)先对用户的原始名称和地址的字符编码进行标准化;
d.所述名址匹配引擎(1)调用由系统预置的地名数据库(2)的地名数据,利用该地名数据库(2)的地名数据对标准化了的用户地址进行分词处理,然后进行地址层次分析和投递段分析,最后获得按商函投递段顺序排列的用户地址;
e.所述名址匹配引擎(1)把所述按商函投递段顺序排列的用户地址输出到商函打印机(3);
f.所述商函打印机(3)按照商函投递段有顺分类打印制作商函从而实现商函的自动分拣。
2、根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于:所述步骤c中对用户的原始名称和地址的字符编码进行标准化包括如下步骤:
a.把商函用户的原始名称和地址所包含的字符串中的小写字符转换为大写字符;
b.把商函用户的原始名称和地址所包含的字符串中的全角字符转换为半角字符;
c.把商函用户的原始名称和地址所包含的字符串中的中文数字转换为阿拉伯数字。
3、根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于:所述系统预置的地名数据库(2)存放的数据包括:地址树的树状结构的地址节点以及该地址节点对应的站段规则。
4、根据权利要求3所述的按投递地址段自动制作商函的方法,其特征在于:所述地址树是由地市的地名层次节点所形成的一个树状结构;
所述地名树上一层次节点包含下一节点的地址范围,末节点建立在能够区分不同投递段的地址范围上,不完全建立在具体的门牌上,所述地名树详细收集和描述了一个地市辖区内的所有地名及主要组织机构名称的信息;
地名树的数据结构中包括以下字段:
1)节点编号,字段名为LNo,字段类型为Numeric,字长为8个字节;
2)父节点编号,字段名为PNo,字段类型为Numeric,字长为8个字节;
3)节点名称,字段名为MS,字段类型为VARCHAR2,字长为40个字节;
4)是否是别名,字段名为BZ,字段类型为Numeric,字长为1个字节;
5)地名类型,字段名为NTYPE,字段类型为Numeric,字长为2个字节;
6)不包括别名的节点孩子数,字段名为NCHILDREN,字段类型为Numeric,字长为6个字节;
7)地址字节长度,字段名为NLEN,字段类型为Numeric,字长为2个字节;
8)使用次数,字段名为NREPEAT,字段类型为Numeric,字长为2个字节;
9)节点级别,字段名为NLEVEL,字段类型为Numeric,字长为2个字节;
10)是否关键词,字段名为IS KEY,字段类型为Numeric,字长为1个字节。
5、根据权利要求3所述的按投递地址段自动制作商函的方法,其特征在于:所述地址树的地址节点对应的站段规则包括,站段编码以及该站段编码指明某个地址节点由那些投递段投递;
该站段规则的数据结构包括如下字段:
1)序列号,字段名为TDNO,字段类型为Numeric,字长为12个字节;
2)节点编号,字段名为LNO,字段类型为Numeric,字长为8个字节;
3)投递段号,字段名为SNO,字段类型为Numeric,字长为8个字节;
4)投递规则,字段名为MS,字段类型为Numeric,字长为40个字节;
5)门牌起始编号,字段名为BEGINNO,字段类型为Numeric,字长为6个字节;
6)门牌结束编号,字段名为ENDNO,字段类型为Numeric,字长为6个字节;
7)投递顺序号,字段名为ord,字段类型为Numeric,字长为6个字节。
6、根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于:所述分词处理实现以下功能,名址匹配引擎(1)用正向最大匹配的方法将待分析的地址汉字字符串与所述地名库(2)中的某个词条进行匹配,若在所述地名库(2)中找到该待分析的地址汉字字符串,则匹配成功,或称识别出一个地名;
分词处理的工作流程如下:
a.字符编码进行标准化的名称和地址字符输入分词处理模块(12),该模块中的当前位置指针置0,并计算当前地址长度;
b.判断当前位置指针是否不大于输入地址的长度与最小关键词长的差;
c.如果步骤b判断为“是”,则分词处理完毕;
d.如果步骤b判断为“否”,则对输入的地址按词长由大至小的顺序,到所述按照关键词的词长构建的哈希表中,按照词长由大到小查找关键词;
e.步骤d没有找到关键词,则当前位置指针增加1,然后进行步骤b的流程;
f.如果步骤d找到了关键词,则当前位置指针加上关键词的词长作为位置指针,然后进行步骤b的流程。
7、根据权利要求6所述的按投递地址段自动制作商函的方法,其特征在于:所述分词处理的字符串结果还要被名址匹配引擎(1)整理,地址别名将被标准化。
8、根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于:所述的地址层次分析实现以下功能,计算机根据地名树对用户地址进行语义分析、定位地名,即从众多候选词中选出唯一正确识别到段的地址节点;所述的地址层次分析工作流程如下:
a.进行了分词处理的用户地址输入地址层次分析模块(13),其分词结果为地址包含的关键词列表,该模块(13)对关键词进行判断,是否为最后一个关键词;
b.如果a步骤判断为“是”,则输出路径及站段匹配的最优节点;
c.如果a步骤判断为“否”,则计算该关键词所有上级节点在地址中出现的次数,判断出现的次数是否最大;
d.如果c步骤判断为“是”,则记录该最大值,并且计算该节点站段匹配次数,设此值为最大值;
e.找到下一个关键词,并再执行a步骤;
f.如果c步骤判断为“否”,则判断c步骤中该关键词所有上级节点在地址中出现的次数与最大的次数相比是否相等;
g.如果f步骤判断为“是”,则计算该关键词站段匹配次数,并判断该站段匹配次数是否最大;
h.如果g步骤判断为“是”,则该节点站段匹配次数设为最大值,再执行步骤e;
i.如果g步骤或f步骤判断为“否”,则执行步骤e。
9、根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于:所述投递段分析是指,地址层次分析模块(13)对不同投递段的用户名称和地址分别配置到相应的地址段。
10、一种按投递地址段自动制作商函的的系统,包括:
商函工作站(5),该商函工作站(5)设置在各商函局或邮政支局,用于采集待投递商函用户的原始名称和地址信息;
地名数据库(2),用于按系统规定的数据格式存储城市地名及商函投递段的数据信息,供系统的其他模块调用;
商函打印机(3),用于按照商函投递段有顺分类打印制作商函;
其特征在于:还包括名址匹配引擎(1),用于接收所述商函工作站(5)输出的待投递商函用户的原始名称和地址信息,并对该商函用户的原始名称和地址信息进行标准化处理、分词处理,地址层次分析和投递段分析;
所述名址匹配引擎(1)的输入端通过数据线连接所述商函工作站(5)和地名数据库(2),其输出端通过数据线连接所述商函打印机(3)。
11、根据权利要求10所述的按投递地址段自动制作商函的,其特征在于:所述名址匹配引擎(1)包括:顺序单向连接的字符串输入接口(10)、标准化模块(11)、分词处理模块(12)、地址层次分析模块(13)和字符串输出接口(14);用户的原始名称和地址由字符串输入接口(10)输入,所述字符串输出接口(14)连接所述商函打印机(3)。
12、根据权利要求10所述按投递地址段自动制作商函的系统,其特征在于:所述名址匹配引擎(1)为与所述商函工作站(5)、地名数据库(2)和商函打印机(3)连成网络的电子计算机。
13、根据权利要求10所述按投递地址段自动制作商函的系统,其特征在于:所述地名数据库(2)存储有地名树及与地名树相关的投递段信息库,所述地名数据库(2)的数据信息可以进行更新。
CNA2006100621619A 2006-08-14 2006-08-14 按投递地址段自动制作商函的方法及其系统 Pending CN1959712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006100621619A CN1959712A (zh) 2006-08-14 2006-08-14 按投递地址段自动制作商函的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100621619A CN1959712A (zh) 2006-08-14 2006-08-14 按投递地址段自动制作商函的方法及其系统

Publications (1)

Publication Number Publication Date
CN1959712A true CN1959712A (zh) 2007-05-09

Family

ID=38071398

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100621619A Pending CN1959712A (zh) 2006-08-14 2006-08-14 按投递地址段自动制作商函的方法及其系统

Country Status (1)

Country Link
CN (1) CN1959712A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102314645A (zh) * 2011-09-26 2012-01-11 深圳市络道科技有限公司 一种地址匹配方法及匹配系统
CN102393937A (zh) * 2011-10-12 2012-03-28 深圳市络道科技有限公司 一种基于反向生成的地址树的地址匹配方法及匹配系统
CN102999618A (zh) * 2012-11-30 2013-03-27 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
CN105205173A (zh) * 2015-10-14 2015-12-30 浙江百世技术有限公司 基于关键词数据库检索的快递分拣装置及方法
CN105678493A (zh) * 2016-01-04 2016-06-15 北京京东尚科信息技术有限公司 多级配送路径的建立方法和多级配送系统
CN113761909A (zh) * 2021-01-18 2021-12-07 北京京东振世信息技术有限公司 一种识别地址的方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102298585B (zh) * 2010-06-24 2016-01-13 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102314645A (zh) * 2011-09-26 2012-01-11 深圳市络道科技有限公司 一种地址匹配方法及匹配系统
CN102393937A (zh) * 2011-10-12 2012-03-28 深圳市络道科技有限公司 一种基于反向生成的地址树的地址匹配方法及匹配系统
CN102999618A (zh) * 2012-11-30 2013-03-27 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
CN102999618B (zh) * 2012-11-30 2016-02-24 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
CN105205173A (zh) * 2015-10-14 2015-12-30 浙江百世技术有限公司 基于关键词数据库检索的快递分拣装置及方法
CN105678493A (zh) * 2016-01-04 2016-06-15 北京京东尚科信息技术有限公司 多级配送路径的建立方法和多级配送系统
CN105678493B (zh) * 2016-01-04 2020-09-01 北京京东尚科信息技术有限公司 多级配送路径的建立方法和多级配送系统
CN113761909A (zh) * 2021-01-18 2021-12-07 北京京东振世信息技术有限公司 一种识别地址的方法及装置
CN113761909B (zh) * 2021-01-18 2023-11-07 北京京东振世信息技术有限公司 一种识别地址的方法及装置

Similar Documents

Publication Publication Date Title
CN1959712A (zh) 按投递地址段自动制作商函的方法及其系统
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN101075253A (zh) 一种广告信息推送系统和方法
CN1126608C (zh) 识别邮件发送信息的方法和装置
CN102622592B (zh) 一种基于云技术的名片识别方法
CN1559044A (zh) 信息解析方法以及装置
CN1862543A (zh) 一种浏览器/服务器系统中的数据导入与导出方法
CN1653452A (zh) 管理数据库系统中的表达式
CN1536483A (zh) 网络信息抽取及处理的方法及系统
CN101068217A (zh) 一种简化电子邮件操作的方法及装置
CN101751433B (zh) 名片字符条目分类方法与装置
CN1326308A (zh) 便携式终端、信息输入方法、字典检索方法和装置及媒体
CN1581192A (zh) 用于投递时间敏感电子邮件的方法和系统
CN1991836A (zh) 用于从文本储存库里提取仿真陈述的系统和方法
CN1489089A (zh) 文件检索系统和问题回答系统
CN1543608A (zh) 电子邮件、互联网目标和直接营销、以及电子邮件标题的方法和系统
CN1392989A (zh) 用于发送/接收具有附件的电子邮件的系统
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
CN1492367A (zh) 询问应答系统及询问应答方法
CN1239793A (zh) 基于字符分类检索字符串的装置和方法
CN1828610A (zh) 一种改进的基于文档结构的文档相似性度量方法
CN101039463A (zh) 基于点对点短消息的短消息转发计数系统及计数方法
CN1694093A (zh) 一种树型通讯录的构造方法
US8655014B2 (en) System and method for automated address directory updating
CN1828608A (zh) 一种基于句子关系图的多文档摘要方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20070509