CN109271625B

CN109271625B - 一种汉语地名的拼音拼写规范化方法

Info

Publication number: CN109271625B
Application number: CN201810989125.XA
Authority: CN
Inventors: 黄明伟; 陈超; 杨锦; 丁婷; 王圣尧
Original assignee: PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Current assignee: PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2023-07-14
Anticipated expiration: 2038-08-28
Also published as: CN109271625A

Abstract

本发明的涉及一种汉语地名的拼音拼写规范化方法，依据获取的地名类型，构建相应汉语关键词词典，并结合字符串标签，完成地名中关键词的最佳匹配与自动分词；接着进行地名拼音转换与拼写规范化操作，最终实现汉语地名转化成对应拼写规范的拼音要素。本发明的分词方法可避免分词歧义，提高分词效率，在汉语地名数据库中数据量多、语义丰富、汉语地名类型复杂的需求场合下，解决汉语地名自动分词问题；实现汉语地名数据库的汉语地名快速拼音转换，以及拼音拼写规范化，解决了大数据量汉语地名库的汉语拼音转换及规范化拼写问题。

Description

一种汉语地名的拼音拼写规范化方法

技术领域

本发明属于地理信息系统领域，用于对地名数据库中汉语地名自动分词及拼音转换功能，最终实现汉语地名的拼音拼写规范化。

背景技术

汉语地名作为地理信息的重要属性，其对应的规范化拼音是地图上辅助认知中国地名的重要桥梁。随着地理信息系统领域不断发展，为了地名汉语拼音拼写规范化，中国地名委员会、中国文字改革委员会等机构授权公布了一套汉字标准名称、拼音标准及拼写规范。然而，汉语地名常表现为数据量多、语义丰富、汉语地名类型复杂，导致地名汉语难以实现拼音拼写规范化的自动化操作。

专利申请CN201210332072公开了一种基于单词查找树实现的汉语拼音快速分词方法，该方法通过建立哈希树的数据结构实现拼音的与词典的最小次数配对，完成快速拼音快速分词。但该方法直接对汉语拼音进行分词处理，对存在歧义的拼音词语无法进行合理判断。例如，针对包含多个语义的关键词，例如：piao，既可以解释成“票”，也可以解释成“皮袄”，该方法分词结果不能准确表达汉语意思。

专利申请CN200810203059公开了一种主要基于汉语语法分析基础上的汉语文本智能分词方法，该方法通过建立匹配数据库实现汉语分词。该数据库内容十分丰富，涵盖了专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、形容词、动词等。但是，该方法需要遍历所有关键词，计算复杂度过高，不适用于较大数据量的分词处理。

专利申请CN201310106588公开了一种汉字转换成拼音及首字母的方法，该方法通过对所有拼音进行编号，建立汉字拼音的基础对照表，并依据对照表将汉字转换为拼音及拼音首字母的方法。但该方法没有依据拼音拼写规范完成汉语地名中不同词素间自动分词，因此，不适用于汉语地名的拼音规范化。

上述方案中汉语分词及拼音转换方法虽然有诸如内存中易维护、分词策略简单等优点，但存在分词歧义、分词效率低等缺点。

发明内容

本发明目的在于提供一种避免分词歧义，提高分词效率的汉语地名的拼音拼写规范化方法。

本发明提供了一种地名汉语拼音拼写规范化的方法，包括如下步骤：

S100.读取地名数据库，遍历汉语地名，对各个汉语地名进行分类，一级分类为地名类型包括自然地地名和居民地地名；地名类型下设置二级分类，为汉语地名的分类名称，对各分类名称赋予类型编码，并对相同分类名称下的各汉语地名赋予相应的类型编码；基于一级分类、二级分类和类型编码构建类型编码查找表；

S200.构建不同类型编码相应的关键词专名词典和关键词通名词典，读取汉语地名字符串及其类型编码字符串，根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典，遍历汉语地名字符串，匹配关键词，在关键词处添加分词符号；

S300.构建特殊词词典，包括单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典和中国南海及中国邻近国际公域词典；基于特殊词词典遍历汉语地名，在特殊词处添加分词符号，并将汉语地名字符串划分成一个多个字符串，对每个特殊词字符串赋予相应标签，添加相应属性信息；

所述标签的属性信息包括：

判断是否分词，存储形式为布尔值；

判断是否为特殊词，存储形式为布尔值；

特殊词标签值：按照前述特殊词词典的类型赋值，划分特殊词所属词典；

判断是否指定拼音内容，存储形式为布尔值；

拼音内容字符串：指定的特殊词转化拼音，以字符串形式存储；

S400.构建汉字拼音转换对照库，对应汉字拼音转换对照库对汉语地名进行拼音转化，包括：分词符号转化为空格，其他标点符号保留；特殊词基于标签属性进行转化，如果布尔值为True，则获取指定的拼音内容字符串，作为特殊词的拼音；如果布尔值为False，则对应汉字拼音转换对照库对汉语地名进行拼音转化；分词的首字母大写，其余部分小写；

S500.输出汉语地名的拼音转换结果。

本发明的方法依据获取的地名类型，构建相应汉语关键词词典，并结合字符串标签，完成地名中关键词的最佳匹配与自动分词；接着进行地名拼音转换与拼写规范化操作，最终实现汉语地名转化成对应拼写规范的拼音要素。本发明的分词方法可避免分词歧义，提高分词效率，在汉语地名数据库中数据量多、语义丰富、汉语地名类型复杂的需求场合下，解决汉语地名自动分词问题；实现汉语地名数据库的汉语地名快速拼音转换，以及拼音拼写规范化，解决了大数据量汉语地名库的汉语拼音转换及规范化拼写问题。

附图说明

图1为是本发明方法的流程图；

图2为本发明中汉语地名按地名类型的分词流程图；

图3为本发明中含修饰词汉语地名分词流程图；

图4为本发明中含元音汉字的汉语地名分词流程图；

图5为本发明中含歧义词的汉语地名分词流程图；

图6为本发明中含行政区划的汉语地名的一个实施例；

图7为本发明中汉语地名数字标记与转换流程图；

图8为本发明中含数字的汉语地名的一个实施例；

图9为汉语地名拼音转换及规范化流程图。

具体实施方式

本发明提供一种地名汉语拼音拼写规范化方法，为使本发明的发明目的、技术方案和优点更加清晰，下面将会结合附图及具体实施例进一步详细、完整地阐述本发明。应理解以下叙述实施例仅用于说明本发明而不用于限制本发明的使用范围。

本发明的方法具体步骤包括：

S100.读取地名数据库，对各汉语地名进行遍历，对各个汉语地名进行分类，一级分类为地名类型包括自然地地名和居民地地名；地名类型下设置二级分类，为汉语地名的分类名称，对各分类名称赋予类型编码，并对相同分类名称下的各汉语地名赋予相应的类型编码；汉语地名类型和分类名称在地名数据库中由人工定义，并且设定相应汉语地名的类型编码，汉语地名类型的一种编码方式参见下表1。

表1汉语地名类型编码表

S200.构建不同类型编码相应的关键词专名词典和通名词典，读取汉语地名字符串及其类型编码字符串，根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典，遍历汉语地名字符串，匹配关键词，在关键词处添加分词符号；

具体步骤如图2所示，包括：

S201.读取汉语地名字符串，获取汉语地名的类型编码；

S202.调取地名类型编码对应的关键词专名词典和关键词通名词典，遍历汉语地名字符串，匹配专名词典中关键词，如果地名中包含专名关键词，跳转S203，否则跳转S206；

S203.遍历汉语地名字符串，匹配通名词典中关键词，如果地名中包含通名关键词，跳转S204，否则跳转S206；

S204.根据字符串长度判断匹配到的通名关键词字数，如果通名关键词字数在两个或以上，则在地名中的通名关键词处添加分词符号；如果通名关键词字数为一个，跳转S205；

S205.如果通名关键词在汉语地名末尾，则在地名中的通名关键词处添加分词符号，否则跳转S206；

S206.结束分词。

本实施例中，专名词典与通名词典的制定方式包括：遍历同一分类名称下相应的汉语地名，从既定的专名、通名词库中匹配相应的专名、通名，编入词库；并对汉语地名进行统计，获取高频词，对专名词典与通名词典进行补全，词典示例见表2、表3。

表2汉语地名专名词典示例表

专名类型	词条举例
		行政区域核心词	江苏、浙江、北京、上海、海淀……
自然村镇	岳各庄、龙王集、文家市、旧县……
		民族地名	哈萨克(族)、阿尔夏提(村)、惹嘎拉(山口)……
企事业单位	石河子农场、一八八团场、219道班……
		矿点	铁石岗(矿区)、井陉(矿区)……
游览地、纪念地	长城、颐和园、故宫……
		交通设施	京沪线、人民路……
水利设施	武汉长江二桥、葛洲坝……
		江、河、湖、海	长江、黄河、洞庭湖、黄海……
自然区域	珠穆朗玛(峰)、秦岭、长白山……

表3汉语地名通名词典示例表

对专名词典与通名词典的一个举例说明：

汉语地名“江苏省基础地理信息中心”，在利用专名词典和通名词典进行分词时，首先获取该类型编码为319019，对应地名类型下的分类名称为“企事业单位名”；其次，遍历该分类名称下词典的关键词，进行分词；最终，分词结果为“江苏/省/基础/地理/信息/中心”。

所述标签的属性信息结构如下：

其中，基于各特殊词词典的分词方式具体示例如下：

S301.基于单字附加修饰词词典(词典示例见表4)的分词方式；

根据汉语地名中附加修饰词与被修饰词关系进行分词。

表4单字附加修饰词词典示例

具体步骤细节如图3所示。首先，判断汉语地名中是否含单字附加修饰词；若有，则依据修饰词对地名划分成多个字符串，并对修饰词贴上特殊词标签；接着，依据标签的前后缀判断是否存在相邻同类型词；如果相邻，则将相邻修饰词进行合并，并依据合并的修饰词进行前后分词，反之将单字附加修饰词与邻近的后缀进行连写；根据前后缀判断结果更新属性信息。

举个例子：

汉语地名“小外圆礁”，首先完专名词典与通名词典遍历后，得到结果“小外圆/礁”；接着，遍历到“附加修饰词词典时”，对{“小”、“外”、“圆”}三个单字附加修饰词，贴上特殊词标签；然后，依据标签的前后缀判断是否存在相邻同类型词；则得到最终结果仍为“小外圆/礁”。

S302.基于元音词组词典(词典示例见表5)的分词方式；

步骤细节如图4所示，基于元音词组词典遍历读取的汉语地名字符串，进行元音字判断，如果存在元音字，判断该元音字是否为元音词组词典中的非首位字，如果是非首位字，则在该元音字的字符串第一个字符前添加单引号，更新属性信息。

表5元音词组词典示例

词典类型	词条举例
		元音词组词典	西安、长安、天峨、建瓯、萨迦、澳前村……

举个例子：

汉语地名“淮安涟水机场”，进行元音汉字判断，判断出存在“安”字；接着，判断“安”字是否为元音词组词典中的非首位字，若是，则对该元音字的第一音节前添加单引号；最终，符号标记结果为“淮’安/涟水/机场”。

S303.基于歧义词词典(词典示例见表6)的分词方式；

将存在歧义的词组设定先后次序，实现准确分词。

表6歧义词词典示例

步骤细节如图5所示，具体为：首先，构建歧义词词典，并设定每对歧义词的优先权；其次，当汉语地名存在歧义词“A-B”形式的任一关键词时，具备高优先权的A关键词进行先行配对，若存在A关键词，则对汉语地名中的A关键词贴上特殊词标签；接着，对汉语地名的未贴上该标签的部分，进行B关键词搜索；最终，得到完成歧义词词典的分词成果。

举个例子：

汉语地名“连云港市连云区宿城乡”，在遍历行政关键词时，分别先后遍历“连云港(市)”、“连云(区)”，为避免关键词“连云”对“连云港”进行错误分词，将两词加入歧义词词典；接着，设定词典中“连云港”的优先权大于“连云”，当遇到汉语地名中存在“连云港”时，对“连云港”贴上特殊词标签，该标签表明该词不再后期参与分词操作；最后，最终分词结果为“连云港/市/连云/区/宿城/乡”。

S304.对含“儿”字的汉语地名，对特殊词“儿”指定拼音内容“r”或者“er”，没有“儿”字的儿话音地名不予在拼音中表示。

具体步骤：首先，判定汉语地名中存在汉字“儿”，若是，则对“儿”字贴上特殊词标签，标签属性信息为：“是否继续分词”为“否”、“含特殊词性”为“是”、特殊词性为“儿化音”、“是否指定拼音”为“是”、“指定拼音内容”根据地名情况判定为“r”或“er”。

S305.含行政区划名称的汉语地名，对地名依据先专名后通名进行逐级分词处理。

具体步骤：逐级遍历行政区划级别专名词典，当存在某一行政专名时，判断是否同时存在该政区级别的通名，若存在，则依据政区专名与通名进行同时分词处理；接着，遍历该行政区划专名中的下一级别的专名以及对应通名；最后，完成分词处理。

举例说明：

汉语地名“江苏省南京市中国银行鼓楼分行”，在利用行政区划专名与通名分词时，步骤细节如图7所示，首先遍历省级行政区划“浙江、江苏……”，判断含江苏该词；接着，判断该地名是否含扩展词“江苏省”，并将该词划分为“江苏/省/南京市中国银行鼓楼分行”；同理，遍历“江苏省”附属的市级行政区划词典时，得到分词结果“江苏/省/南京/市/中国银行鼓楼分行”；当遍历“南京市”附属的区级专名时，遇到“鼓楼”这一区级行政单位，由于不含扩展词“鼓楼区”，则分词仅对“鼓楼”进行分词操作，结果为“江苏/省/南京/市/中国银行/鼓楼/分行”；再结合其他关键词词典，最终分词结果为“江苏/省/南京/市/中国/银行/鼓楼/分行”。

S306.对企事业单位、人工建筑、城市街巷等地名类型中含数字的汉语地名，将汉字数字转换阿拉伯数字。

步骤细节如图7所示，具体为：首先，判断汉语地名的类型是否为目标地名类型，若是，则利用数字将汉语地名划分成多个字符串，并贴上特殊词标签；其次，遍历数字后缀词典(词典示例见表7)，若数字与词典中的关键词相邻，则将标签属性中“指定拼音内容”为相应的阿拉伯数字，若否，则标签标记该词不再参与分词操作且不指定拼音内容；然后，判断数字的前缀是否为序数词关键字“第”，若是，则将汉字“第”转换成“第-”；然后，完成汉语地名中所有数字的标记与转换操作，最终合并分词结果。

表7数字后缀词典示例

词典类型	词条举例
		数字后缀词典	厂，场，站，分站，公司，分公司，总公司，局，库，水厂……

举例说明：

汉语地名“消防三大队十二支队”，进行数字转换时，步骤细节如图8所示，首先根据数字“三”、“十二”将地名划分成{“消防”、“三”、“大队”、“十二”、“支队”}等5个字符串；其次，对数字贴上特殊词标签，并检测数字的前缀与后缀，将汉语数字的指定拼音内容为相应阿拉伯数字，最终分词结果为“消防/3/大队/12/支队”。

S307.构建“交通线路简称与全称对照词典”(词典示例见表8)，实现简称与全称转换。

表8交通线路中行政区划缩写与全称对照词典示例

词典类型	词条举例
		交通线路对照词典	{京广→北京-广州}、{京沪→北京-上海}……

具体步骤：首先，判断汉语地名中存在交通线路简称；其次，若存在，则依据相应词典，将汉语地名中的交通线路简称，改为全称；最后，结合其他关键词词典，完成分词处理。

举个例子：

汉语地名“京沪线”，先判定该地名为交通线路类型地名，并遍历相关名词典得到分词结果“京沪/线”；接着，遍历“交通线路简称与全称对照词典”关键词，最终得到全称状态下的交通线路名称为“北京-上海/线”。

S308.构建“蒙、维、藏等少数民族语音译字”词典，对汉语地名中的少数民族音译字，贴上特殊词标签，并指定相关拼音内容。

若判定汉语地名中存在少数民族语音译字，则对该字设定标签信息为：“是否继续分词”为“否”、“含特殊词性”为“是”、特殊词性为“少数民族语音译字”、“是否指定拼音”为“是”、“指定拼音内容”指定相关拼音内容(少数民族及地区拼音拼写示例见表9、表10)。

表9少数民族名称拼音拼写情况

表中括注的内容表示在地名民族族称的汉字中含有“族”时，族称的罗马字母也须加。

表10少数民族地名拼音拼写示例

汉字族称	罗马字母	汉字族称	罗马字母
				拉萨	Lhasa	准格尔旗	Junger Qi
呼和浩特	Hohhot	乌布拉格音阿木	U Bulgin Am
				巴彦桃来	Bayan Toroi	阿尔夏提	Arxat
查干木伦	Qagan Moron	阿音柯	Aykol
				哲里木	Jirem	乌孜塔格	üzatag
宗务隆	Jun Ul	乌尊布拉克	乌尊布拉克
				阿登高勒	Adun Gol	阿嘎隆巴	Agar Lungba
巴汗淖	Bag Nur	……	……

S309.构建港澳台地区汉语地名拼音转换对照词典，对港澳台地区汉语地名，贴上特殊词标签，按当地拼写习惯，指定相关拼音内容。

若判定汉语地名中存在港澳台地区汉语地名，则对该字设定标签信息为：“含特殊词性”为“是”、特殊词性为“港澳台地区汉语地名”、“是否指定拼音”为“是”、“指定拼音内容”指定相关拼音内容(港、澳、台地区地名拼音拼写示例见表11)。

表11港、澳、台地区地名拼音拼写示例

汉字族称	罗马字母
		香港	Hongkong
澳门	Macau
		巴彦桃来	Bayan Toroi
台北	Taipei
		……	……

S310.构建中国南海及中国邻近国际公域的汉语地名拼音转换对照词典，对相关地名，贴上特殊词标签，并以中国地名委员会标准，指定相关拼音内容。

若判定汉语地名中存在中国南海及中国邻近国际公域，则对该字设定标签信息为：“含特殊词性”为“是”、特殊词性为“中国南海及中国邻近国际公域”、“是否指定拼音”为“是”、“指定拼音内容”指定相关拼音内容(中国南海及中国邻近国际公域地名拼音拼写示例见表12)。

表12中国南海及中国邻近国际公域地名拼音拼写示例

步骤细节如图9所示，具体为：首先，根据汉语地名的标签信息进行相关处理，若汉语地名中存在指定拼音内容，则使用指定内容，若无指定，则对照汉字拼音转换对照库，将汉字转成拼音；其次，若汉语地名中存在分词符号，按原有顺序转换成空格；接着，若存在单引号、括号、连接号等符号，按原有顺序保留在汉语地名中；最后，将汉语地名中的拼音首字母与分词各段的每段首字母由小写字母转换成大写字母，其余部分小写，最终获得汉语地名对应的规范化拼音要素。

举个例子：

汉语地名“淮安市中国工商银行”完成自动分词结果是“淮’安/市/中国/工商/银行”。首先，对分词结果进行根据汉字拼音对照表逐字转换，当遇到分词符号，则转换成空格，当遇到单引号时，将单引号按顺序保留在拼音中；接着，由于词组“银行”的标签信息已指明该词存在多音字“行”的特殊词，其指定拼音内容为“Yinhang”，因此，该词不做拼音转换，直接将该指定拼音内容保留在最后结果中；最后，得到拼音转换结果“Huai’an ShiZhongguo Gongshang Yinhang”。

S500.输出汉语地名的拼音转换结果。

Claims

1.一种汉语地名的拼音拼写规范化方法，其特征在于，包括如下步骤：

所述标签的属性信息包括：

判断是否为特殊词，存储形式为布尔值；

判断是否指定拼音内容，存储形式为布尔值；

S500.输出汉语地名的拼音转换结果。

2.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述专名词典与通名词典的制定方式包括：遍历同一分类名称下相应的汉语地名，从既定的专名、通名词库中匹配相应的专名、通名，编入词库；并对汉语地名进行统计，获取高频词，对专名词典与通名词典进行补全。

3.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法，其特征在于，根据关键词专名词典和关键词通名词典对汉语地名进行分词的步骤包括：

S201.读取汉语地名字符串，获取汉语地名的类型编码；

S206.结束分词。

4.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述S300中，根据汉语地名类型编码字符串所属的一级分类对汉语地名字符串进行分词；

如果地名类型为自然地地名，则遍历单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、多音字字典，查找特殊词；

如果地名类型为居民地类型，则遍历单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典、中国南海及中国邻近国际公域词典，查找特殊词。

5.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述S300中，基于单字附加修饰词词典的特殊词分词方式如下：

基于单字附加修饰词词典遍历读取的汉语地名字符串，如果匹配到单字附加修饰词，则依据修饰词将汉语地名字符串划分为多个字符串，对各单字附加修饰词对应的字符串赋予相应标签；

依据标签的前后缀判断是否存在相邻同类型词；如果相邻，则将相邻修饰词进行合并，并依据合并的修饰词进行前后分词，反之将单字附加修饰词与邻近的后缀进行连写；根据前后缀判断结果更新属性信息。

6.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述S300中，基于元音词组词典的特殊词分词方式如下：

基于元音词组词典遍历读取的汉语地名字符串，进行元音字判断，如果存在元音字，判断该元音字是否为元音词组词典中的非首位字，如果是非首位字，则在该元音字的字符串第一个字符前添加单引号，更新属性信息。

7.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述S300中，基于歧义词词典的特殊词分词方式如下：

构建歧义词词典时，对每队歧义词设定优先权；

基于歧义词词典遍历读取的汉语地名字符串，如果汉语地名中包含A-B形式的歧义词，对具备高优先权的A关键词进行先行配对，若存在A关键词，则对汉语地名中的A关键词贴上特殊词标签，不再进行后续分词操作；之后对汉语地名中未贴上该特殊词标签的剩余字符串进行B关键词搜索，完成分词。

8.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述S300中，遍历读取的汉语地名字符串，如果含“儿”字，对“儿”字贴上特殊词标签，标签属性信息为：

是否分词为“False”；

含特殊词性为“True”；

特殊词性为儿化音；

是否指定拼音为“True”；

指定拼音内容根据地名情况判定为“r”或“er”。

9.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法，其特征在于，所述S300中，基于数字词典的特殊词分词方式如下：

根据汉语地名类型编码字符串所属的一级分类对汉语地名字符串进行分词；如果地名类型为居民地类型，则基于数字词典遍历读取的汉语地名字符串；

若存在中文数字，则依据中文数字将汉语地名字符串划分为多个字符串，对各中文数字对应的字符串赋予特殊词标签；

a)读取特殊词标签的后缀字符串，如果后缀字符串中包含地名关键词，则对标签属性信息赋值：是否指定拼音为“True”；指定拼音内容为中文数字对应的阿拉伯数字；否则跳转c)；

b)读取特殊词标签的前缀字符串，如果前缀字符串对应为汉字“第”，则在前缀字符串和该特殊词字符串间增加符号“-”；

c)重复步骤a)-c)，直至所有特殊词标签处理完毕。