CN104933024A

CN104933024A - 中文地址分词标注方法

Info

Publication number: CN104933024A
Application number: CN201510240706.XA
Authority: CN
Inventors: 王明兴; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2015-05-12
Filing date: 2015-05-12
Publication date: 2015-09-23
Anticipated expiration: 2035-05-12
Also published as: WO2016179987A1; CN104933024B

Abstract

本发明涉及一种中文地址分词标注方法。该方法包括：步骤11、人工分词标注挑选出的地址数据作为训练数据；步骤12、对出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以指定的单个阿拉伯数字字符或英文字母字符替换；步骤13、将训练数据转换成CRF++工具需要的格式；步骤14、定义特征模板；步骤15、建立分词标注模型；步骤16、地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该指定的单个阿拉伯数字字符或英文字母字符替换；步骤17、用CRF++工具分词标注；步骤18、还原替换前的阿拉伯数字字符或英文字母字符。本发明的中文地址分词标注方法的准确率高。

Description

中文地址分词标注方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种中文地址分词标注方法。

背景技术

人们在填写收件人地址、办公地址、家庭住址等地址信息时一般都是将省、市、区、门牌号、住宅小区、房间号等信息写在一起组成地址信息，如“广东深圳南山区高新中一道9号科技园软件大厦713”，这种写法适合人工识别，而当通过机器识别地址的结构化细节信息时首先要做的处理就是分词与标注，将输入的长文本切分成一个一个的词，并对词的属性进行标注，如上例地址信息的分词标注结果可能为：“广东/省深圳/市南山区/区高新中一道/道路 9号/路号科技园/片区软件大厦/楼栋 713/房间”。中文地址分词标注是地址信息处理的一项基础性工作，其准确程度将直接影响到后续处理的正确性。

现有分词标注技术中应用的比较成熟的是基于统计的方法，例如，隐马尔可夫模型(HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。但是，应用通用的分词标注或实体识别技术来进行中文地址分词标注的结果准确率不太高，只有80％左右。因此，亟需一种高准确率的中文地址分词标注方法。

发明内容

本发明的目的在于提供一种中文地址分词标注方法，提高中文地址分词标注的准确率。

为实现上述目的，本发明提供一种中文地址分词标注方法，包括：

步骤11、对挑选出的地址数据进行人工分词标注，以作为训练数据；

步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换；

步骤13、采用由分词标签和标注标签组成的组合标签将该训练数据转换成CRF++工具所需要的格式；

步骤14、定义特征模板；

步骤15、使用CRF++工具建立分词标注模型；

步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换，同时保存替换前的阿拉伯数字字符或英文字母字符；

步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注；

步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。

其中，所述分词标签包括表示字在词的开头或中间的标签以及表示字是词的结尾的标签。

其中，所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。

其中，步骤17包括获取地址中每个字的组合标签以及解析每个字的分词标签和标注标签。

其中，解析每个字的分词标签和标注标签的过程包括：

a)首先建立一个字的缓存区，初始为空，并从头开始按顺序处理输入地址的每个字；

b)将字存入缓存区，拆开组合标签获得分词标签和标注标签两个独立标签；

c)如果字的分词标签表示字在词的开头或中间且非最后一个字，则继续处理下一个字；

d)否则取出缓存区所有的字并组成一个词，且该词的标注属性为标注标签，将结果输出，清空缓存区。

其中，所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。

其中，所述步骤15中使用CRF++工具提供的crf_learn命令训练分词标注模型。

其中，训练分词标注模型的过程迭代100步。

综上所述，本发明的中文地址分词标注方法的准确率高。

附图说明

图1为本发明中文地址分词标注方法一较佳实施例的流程图。

具体实施方式

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

本发明采用基于条件随机场模型的分词框架，条件随机场相关技术采用开源的CRF++工具。CRF++是著名的条件随机场开源工具，也是目前综合性能最佳的CRF工具。

对应于地址的标注标签，本发明定义地址如下概念：

省：由“国家地名地址数据规范”规定的一级行政区域，包含：省、直辖市、自治区、特别行政区；

市：由“国家地名地址数据规范”规定的二级行政区域，包含：地级市、地区、自治州、盟；

区：由“国家地名地址数据规范”规定的三级行政区域，包含：市辖区、县级市、县、旗、特区、林区；

街道：由“国家地名地址数据规范”规定的四级行政区域，包含：区公所、镇、乡、苏木、街道；

社区：由“国家地名地址数据规范”规定的五级行政区域，包含：社区、居委会、行政村；

道路：道路、街、巷；

路号：门牌号；

片区：区域性质的地址名，通常该名称所代表的地址区域内容有数栋建筑，如科技园、深南花园、下沙村等；

楼栋：建筑物名称，通指一栋建筑，如软件大厦、1栋、2号楼、A座等；

房间：楼栋内的房间编号，如713；

其他：其他内容。

参见图1，其为本发明中文地址分词标注方法一较佳实施例的流程图。该方法主要包括：

步骤11、对挑选出的地址数据进行人工分词标注，以作为训练数据。

挑选一批地址数据，可以是数千至数万条，数据来源应符合多样性，尽量保证地址常见的写法都涵盖，人工对其进行分词并标注，作为模型的训练数据。

训练数据可整理成如下格式，即每个词之间用空格隔开，标注信息添加在每个词后面，以斜线”/”(或其他特殊符号)作为分隔符，如：

广东/省深圳/市南山区/区高新中一道/道路 9号/路号科技园/片区软件大厦/楼栋 713/房间；

广东省/省深圳市/市南山区/区沙河街道/街道沙河街社区/社区上白石/片区五坊/片区 15号/楼栋；

广东省/省深圳市/市福田区/区梅林街道/街道新阁社区/社区林园东路/道路 32号/门牌号华天公寓/楼栋；

福田/区莲花路/道路与/其他香梅路/道路交汇处/其他康欣园/片区。

步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换。

由于数字、字母在中文地址中绝大部分是作为整体出现的，很少存在把在数字、字母切分开的情况，如上面例子中“713/房间”中的713,以及“15号/楼栋”中的15，都是作为整体出现。针对这个情况，本发明将地址中所有连续的字母数字统一用一个字符替换，任一数字或字母都可以，比如用1替换。如存在其它数字、字母形式，如：2A123，也可以替换成1。

原训练数据：

“广东/省深圳/市南山区/区高新中一道/道路 9号/路号科技园/片区软件大厦/楼栋 713/房间”。

处理后变为：

“广东/省深圳/市南山区/区高新中一道/道路 1号/路号科技园/片区软件大厦/楼栋 1/房间”。

这样处理的好处有2点：1是保证数字字母不会被错误的拆分开；2是减少了训练数据中的特征数量，可节约模型的训练时间，同时提升地址分词与标注的速度。替换操作可以选择对训练数据进行，也可以选择在对挑选出的地址数据进行人工分词标注操作前进行。

步骤13、采用由分词标签和标注标签组成的组合标签将该训练数据转换成CRF++工具所需要的格式。

上述训练数据的格式方便人的阅读与处理，但并不是CRF++工具所需要的格式，因此需要转换一下。CRF++工具要求的格式为每行内容为一个字及其标签，中间用空格或制表符隔开。

由于本发明中地址分词与标注任务是同时解决的，一个标签需同时支持这2个任务，因此采用组合标签：第一个标签为分词标签用于分词，第二个标签为标注标签用于标注，两个标签之间用“-”连接。其中分词标签采用I和E，I代表这个字在词的开头或中间，E代表这个字是词的结尾，即这个字与前面所有I标记的字组成一个词；标注标签用于表示此词的标注属性，如省、市、楼栋等。通过采用组合标签的形式，可以相对提升最终分词标注结果的准确度。示例数据如下：

深 I-市

圳 I-市

市 E-市

福 I-区

田 I-区

区 E-区

福 I-道路

强 I-道路

路 E-道路。

训练数据到CRF++格式数据转换方法如下：

1)对每行训练数据，用空格进行拆分得到地址单元信息组，如：{"广东/省","深圳/市","南山区/区","高新中一道/道路","9号/路号","科技园/片区","软件大厦/楼栋","713/房间"}；

2)对每个地址单元信息(如"软件大厦/楼栋"),用斜线”/”进行拆分，获得一个二元组，其中第一个为地址单元的名称(软件大厦)，第二个为标注信息(楼栋)；

3)对于地址名称(如“软件大厦”)的每个字符x，按顺序输出一行:

a)如果该字符是名称的最后一个字，输出“x E-标注”，如“厦 E-楼栋”；

b)否则输出“x I-标注”，如“软 I-楼栋”；

4)该行训练数据的所有地址单元信息处理完毕后输出一个空行。

步骤14、定义特征模板。

针对不同的问题，CRF++工具需要提供合理特征模板以便高效、合理的解决对应的问题。本发明中采用如下模板：

#Unigram

U00:％x[-2,0]

U01:％x[-1,0]

U02:％x[0,0]

U03:％x[1,0]

U04:％x[2,0]

U05:％x[-2,0]/％x[-1,0]/％x[0,0]

U06:％x[-1,0]/％x[0,0]/％x[1,0]

U07:％x[0,0]/％x[1,0]/％x[2,0]

U08:％x[-1,0]/％x[0,0]

U09:％x[0,0]/％x[1,0]

#Bigram

B

步骤15、使用CRF++工具建立分词标注模型。

使用CRF++工具提供的crf_learn命令训练模型，训练命令格式如下：

crf_learn-m num template_file train_file model_file。

其中template_file为特征模板文件，train_file为训练数据文件，model_file为获得的模型文件，供以后使用；-m num参数可指定训练过程最大迭代步数，如可设置为–m 100，即最多迭代100步。crf_learn还有其他数个参数用于控制训练效果、训练时间，具体可参看工具的帮助文档。

到此，分词标注的模型建立完毕，接下来就可使用该模型解决具体的地址分词、标注问题。

步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换，同时保存替换前的阿拉伯数字字符或英文字母字符。

由于建立模型时对数字字母进行了特殊处理，相应的模型使用时也需要对字母数据进行处理，即将所有连续的字母数字用1替换，同时将替换了的原数字字母按顺序保存起来，以便后续还原。如输入：

深圳市福田区福田村牛巷坊89号4层02室；

处理后为：

深圳市福田区福田村牛巷坊1号1层1室；

同时保存替换的3个字母数字组：{“89” “4” “02”}。

步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注。

地址经上一步处理后可用CRF++工具进行分析，获取地址中每个字的组合标签，如下：

深/I-市圳/I-市市/E-市福/I-区田/I-区区/E-区福/I-片区田/I-片区村/E-片区牛/I-片区巷/I-片区坊/E-片区 1/I-楼栋号/E-楼栋 1/I-房间层/I-房间1/I-房间室/E-房间。

解析每个字的标签。解析每个字的分词标签和标注标签的过程如下：

b)将字存入缓存区，拆开字的组合标签获得分词标签(第一个标签)和标注标签(第二个标签)两个独立标签；

c)如果字的分词标签表示字在词的开头或中间且非最后一个字，则继续处理下一个字；也就是如果第一个标签为I且非最后一个字，则继续处理下一个字；

d)否则取出缓存区所有的字并组成一个词，且该词的标注属性为缓存区中字的标注标签，将结果输出，清空缓存区。

按顺序处理完输入地址的每个字后，可得中文地址的分词与标注结果，对于示例输入，其解析结果如下：

深圳市/市福田区/区福田村/片区牛巷坊/片区 1号/楼栋 1层1室/房间。

获得分词标注结果后，需将替换了的字母数字按顺序还原，还原后结果如下：

深圳市/市福田区/区福田村/片区牛巷坊/片区 89号/楼栋 4层02室/房间。

至此得到了中文地址的最终分词标注结果。实验证明，本发明分词标注的准确率可达95％，远高于其他方法。

综上所述，本发明的中文地址分词标注方法的准确率高。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文地址分词标注方法，其特征在于，包括：

步骤14、定义特征模板；

步骤15、使用CRF++工具建立分词标注模型；

2.根据权利要求1所述的中文地址分词标注方法，其特征在于，所述分词标签包括表示字在词的开头或中间的标签以及表示字是词的结尾的标签。

3.根据权利要求1所述的中文地址分词标注方法，其特征在于，所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。

4.根据权利要求1所述的中文地址分词标注方法，其特征在于，步骤17包括获取地址中每个字的组合标签以及解析每个字的分词标签和标注标签。

5.根据权利要求4所述的中文地址分词标注方法，其特征在于，解析每个字的分词标签和标注标签的过程包括：

b)将字存入缓存区，拆开字的组合标签获得分词标签和标注标签两个独立标签；

6.根据权利要求1所述的中文地址分词标注方法，其特征在于，所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。

7.根据权利要求1所述的中文地址分词标注方法，其特征在于，所述步骤15中使用CRF++工具提供的crf_learn命令训练分词标注模型。

8.根据权利要求7所述的中文地址分词标注方法，其特征在于，训练分词标注模型的过程迭代100步。