CN109271625B - 一种汉语地名的拼音拼写规范化方法 - Google Patents

一种汉语地名的拼音拼写规范化方法 Download PDF

Info

Publication number
CN109271625B
CN109271625B CN201810989125.XA CN201810989125A CN109271625B CN 109271625 B CN109271625 B CN 109271625B CN 201810989125 A CN201810989125 A CN 201810989125A CN 109271625 B CN109271625 B CN 109271625B
Authority
CN
China
Prior art keywords
word
chinese
dictionary
name
place name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810989125.XA
Other languages
English (en)
Other versions
CN109271625A (zh
Inventor
黄明伟
陈超
杨锦
丁婷
王圣尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Original Assignee
PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PROVINCIAL GEOMATICS CENTRE OF JIANGSU filed Critical PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Priority to CN201810989125.XA priority Critical patent/CN109271625B/zh
Publication of CN109271625A publication Critical patent/CN109271625A/zh
Application granted granted Critical
Publication of CN109271625B publication Critical patent/CN109271625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明的涉及一种汉语地名的拼音拼写规范化方法,依据获取的地名类型,构建相应汉语关键词词典,并结合字符串标签,完成地名中关键词的最佳匹配与自动分词;接着进行地名拼音转换与拼写规范化操作,最终实现汉语地名转化成对应拼写规范的拼音要素。本发明的分词方法可避免分词歧义,提高分词效率,在汉语地名数据库中数据量多、语义丰富、汉语地名类型复杂的需求场合下,解决汉语地名自动分词问题;实现汉语地名数据库的汉语地名快速拼音转换,以及拼音拼写规范化,解决了大数据量汉语地名库的汉语拼音转换及规范化拼写问题。

Description

一种汉语地名的拼音拼写规范化方法
技术领域
本发明属于地理信息系统领域,用于对地名数据库中汉语地名自动分词及拼音转换功能,最终实现汉语地名的拼音拼写规范化。
背景技术
汉语地名作为地理信息的重要属性,其对应的规范化拼音是地图上辅助认知中国地名的重要桥梁。随着地理信息系统领域不断发展,为了地名汉语拼音拼写规范化,中国地名委员会、中国文字改革委员会等机构授权公布了一套汉字标准名称、拼音标准及拼写规范。然而,汉语地名常表现为数据量多、语义丰富、汉语地名类型复杂,导致地名汉语难以实现拼音拼写规范化的自动化操作。
专利申请CN201210332072公开了一种基于单词查找树实现的汉语拼音快速分词方法,该方法通过建立哈希树的数据结构实现拼音的与词典的最小次数配对,完成快速拼音快速分词。但该方法直接对汉语拼音进行分词处理,对存在歧义的拼音词语无法进行合理判断。例如,针对包含多个语义的关键词,例如:piao,既可以解释成“票”,也可以解释成“皮袄”,该方法分词结果不能准确表达汉语意思。
专利申请CN200810203059公开了一种主要基于汉语语法分析基础上的汉语文本智能分词方法,该方法通过建立匹配数据库实现汉语分词。该数据库内容十分丰富,涵盖了专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、形容词、动词等。但是,该方法需要遍历所有关键词,计算复杂度过高,不适用于较大数据量的分词处理。
专利申请CN201310106588公开了一种汉字转换成拼音及首字母的方法,该方法通过对所有拼音进行编号,建立汉字拼音的基础对照表,并依据对照表将汉字转换为拼音及拼音首字母的方法。但该方法没有依据拼音拼写规范完成汉语地名中不同词素间自动分词,因此,不适用于汉语地名的拼音规范化。
上述方案中汉语分词及拼音转换方法虽然有诸如内存中易维护、分词策略简单等优点,但存在分词歧义、分词效率低等缺点。
发明内容
本发明目的在于提供一种避免分词歧义,提高分词效率的汉语地名的拼音拼写规范化方法。
本发明提供了一种地名汉语拼音拼写规范化的方法,包括如下步骤:
S100.读取地名数据库,遍历汉语地名,对各个汉语地名进行分类,一级分类为地名类型包括自然地地名和居民地地名;地名类型下设置二级分类,为汉语地名的分类名称,对各分类名称赋予类型编码,并对相同分类名称下的各汉语地名赋予相应的类型编码;基于一级分类、二级分类和类型编码构建类型编码查找表;
S200.构建不同类型编码相应的关键词专名词典和关键词通名词典,读取汉语地名字符串及其类型编码字符串,根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配关键词,在关键词处添加分词符号;
S300.构建特殊词词典,包括单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典和中国南海及中国邻近国际公域词典;基于特殊词词典遍历汉语地名,在特殊词处添加分词符号,并将汉语地名字符串划分成一个多个字符串,对每个特殊词字符串赋予相应标签,添加相应属性信息;
所述标签的属性信息包括:
判断是否分词,存储形式为布尔值;
判断是否为特殊词,存储形式为布尔值;
特殊词标签值:按照前述特殊词词典的类型赋值,划分特殊词所属词典;
判断是否指定拼音内容,存储形式为布尔值;
拼音内容字符串:指定的特殊词转化拼音,以字符串形式存储;
S400.构建汉字拼音转换对照库,对应汉字拼音转换对照库对汉语地名进行拼音转化,包括:分词符号转化为空格,其他标点符号保留;特殊词基于标签属性进行转化,如果布尔值为True,则获取指定的拼音内容字符串,作为特殊词的拼音;如果布尔值为False,则对应汉字拼音转换对照库对汉语地名进行拼音转化;分词的首字母大写,其余部分小写;
S500.输出汉语地名的拼音转换结果。
本发明的方法依据获取的地名类型,构建相应汉语关键词词典,并结合字符串标签,完成地名中关键词的最佳匹配与自动分词;接着进行地名拼音转换与拼写规范化操作,最终实现汉语地名转化成对应拼写规范的拼音要素。本发明的分词方法可避免分词歧义,提高分词效率,在汉语地名数据库中数据量多、语义丰富、汉语地名类型复杂的需求场合下,解决汉语地名自动分词问题;实现汉语地名数据库的汉语地名快速拼音转换,以及拼音拼写规范化,解决了大数据量汉语地名库的汉语拼音转换及规范化拼写问题。
附图说明
图1为是本发明方法的流程图;
图2为本发明中汉语地名按地名类型的分词流程图;
图3为本发明中含修饰词汉语地名分词流程图;
图4为本发明中含元音汉字的汉语地名分词流程图;
图5为本发明中含歧义词的汉语地名分词流程图;
图6为本发明中含行政区划的汉语地名的一个实施例;
图7为本发明中汉语地名数字标记与转换流程图;
图8为本发明中含数字的汉语地名的一个实施例;
图9为汉语地名拼音转换及规范化流程图。
具体实施方式
本发明提供一种地名汉语拼音拼写规范化方法,为使本发明的发明目的、技术方案和优点更加清晰,下面将会结合附图及具体实施例进一步详细、完整地阐述本发明。应理解以下叙述实施例仅用于说明本发明而不用于限制本发明的使用范围。
本发明的方法具体步骤包括:
S100.读取地名数据库,对各汉语地名进行遍历,对各个汉语地名进行分类,一级分类为地名类型包括自然地地名和居民地地名;地名类型下设置二级分类,为汉语地名的分类名称,对各分类名称赋予类型编码,并对相同分类名称下的各汉语地名赋予相应的类型编码;汉语地名类型和分类名称在地名数据库中由人工定义,并且设定相应汉语地名的类型编码,汉语地名类型的一种编码方式参见下表1。
表1汉语地名类型编码表
Figure SMS_1
Figure SMS_2
S200.构建不同类型编码相应的关键词专名词典和通名词典,读取汉语地名字符串及其类型编码字符串,根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配关键词,在关键词处添加分词符号;
具体步骤如图2所示,包括:
S201.读取汉语地名字符串,获取汉语地名的类型编码;
S202.调取地名类型编码对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配专名词典中关键词,如果地名中包含专名关键词,跳转S203,否则跳转S206;
S203.遍历汉语地名字符串,匹配通名词典中关键词,如果地名中包含通名关键词,跳转S204,否则跳转S206;
S204.根据字符串长度判断匹配到的通名关键词字数,如果通名关键词字数在两个或以上,则在地名中的通名关键词处添加分词符号;如果通名关键词字数为一个,跳转S205;
S205.如果通名关键词在汉语地名末尾,则在地名中的通名关键词处添加分词符号,否则跳转S206;
S206.结束分词。
本实施例中,专名词典与通名词典的制定方式包括:遍历同一分类名称下相应的汉语地名,从既定的专名、通名词库中匹配相应的专名、通名,编入词库;并对汉语地名进行统计,获取高频词,对专名词典与通名词典进行补全,词典示例见表2、表3。
表2汉语地名专名词典示例表
专名类型 词条举例
行政区域核心词 江苏、浙江、北京、上海、海淀……
自然村镇 岳各庄、龙王集、文家市、旧县……
民族地名 哈萨克(族)、阿尔夏提(村)、惹嘎拉(山口)……
企事业单位 石河子农场、一八八团场、219道班……
矿点 铁石岗(矿区)、井陉(矿区)……
游览地、纪念地 长城、颐和园、故宫……
交通设施 京沪线、人民路……
水利设施 武汉长江二桥、葛洲坝……
江、河、湖、海 长江、黄河、洞庭湖、黄海……
自然区域 珠穆朗玛(峰)、秦岭、长白山……
表3汉语地名通名词典示例表
Figure SMS_3
Figure SMS_4
对专名词典与通名词典的一个举例说明:
汉语地名“江苏省基础地理信息中心”,在利用专名词典和通名词典进行分词时,首先获取该类型编码为319019,对应地名类型下的分类名称为“企事业单位名”;其次,遍历该分类名称下词典的关键词,进行分词;最终,分词结果为“江苏/省/基础/地理/信息/中心”。
S300.构建特殊词词典,包括单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典和中国南海及中国邻近国际公域词典;基于特殊词词典遍历汉语地名,在特殊词处添加分词符号,并将汉语地名字符串划分成一个多个字符串,对每个特殊词字符串赋予相应标签,添加相应属性信息;
所述标签的属性信息结构如下:
Figure SMS_5
其中,基于各特殊词词典的分词方式具体示例如下:
S301.基于单字附加修饰词词典(词典示例见表4)的分词方式;
根据汉语地名中附加修饰词与被修饰词关系进行分词。
表4单字附加修饰词词典示例
Figure SMS_6
具体步骤细节如图3所示。首先,判断汉语地名中是否含单字附加修饰词;若有,则依据修饰词对地名划分成多个字符串,并对修饰词贴上特殊词标签;接着,依据标签的前后缀判断是否存在相邻同类型词;如果相邻,则将相邻修饰词进行合并,并依据合并的修饰词进行前后分词,反之将单字附加修饰词与邻近的后缀进行连写;根据前后缀判断结果更新属性信息。
举个例子:
汉语地名“小外圆礁”,首先完专名词典与通名词典遍历后,得到结果“小外圆/礁”;接着,遍历到“附加修饰词词典时”,对{“小”、“外”、“圆”}三个单字附加修饰词,贴上特殊词标签;然后,依据标签的前后缀判断是否存在相邻同类型词;则得到最终结果仍为“小外圆/礁”。
S302.基于元音词组词典(词典示例见表5)的分词方式;
步骤细节如图4所示,基于元音词组词典遍历读取的汉语地名字符串,进行元音字判断,如果存在元音字,判断该元音字是否为元音词组词典中的非首位字,如果是非首位字,则在该元音字的字符串第一个字符前添加单引号,更新属性信息。
表5元音词组词典示例
词典类型 词条举例
元音词组词典 西安、长安、天峨、建瓯、萨迦、澳前村……
举个例子:
汉语地名“淮安涟水机场”,进行元音汉字判断,判断出存在“安”字;接着,判断“安”字是否为元音词组词典中的非首位字,若是,则对该元音字的第一音节前添加单引号;最终,符号标记结果为“淮’安/涟水/机场”。
S303.基于歧义词词典(词典示例见表6)的分词方式;
将存在歧义的词组设定先后次序,实现准确分词。
表6歧义词词典示例
Figure SMS_7
步骤细节如图5所示,具体为:首先,构建歧义词词典,并设定每对歧义词的优先权;其次,当汉语地名存在歧义词“A-B”形式的任一关键词时,具备高优先权的A关键词进行先行配对,若存在A关键词,则对汉语地名中的A关键词贴上特殊词标签;接着,对汉语地名的未贴上该标签的部分,进行B关键词搜索;最终,得到完成歧义词词典的分词成果。
举个例子:
汉语地名“连云港市连云区宿城乡”,在遍历行政关键词时,分别先后遍历“连云港(市)”、“连云(区)”,为避免关键词“连云”对“连云港”进行错误分词,将两词加入歧义词词典;接着,设定词典中“连云港”的优先权大于“连云”,当遇到汉语地名中存在“连云港”时,对“连云港”贴上特殊词标签,该标签表明该词不再后期参与分词操作;最后,最终分词结果为“连云港/市/连云/区/宿城/乡”。
S304.对含“儿”字的汉语地名,对特殊词“儿”指定拼音内容“r”或者“er”,没有“儿”字的儿话音地名不予在拼音中表示。
具体步骤:首先,判定汉语地名中存在汉字“儿”,若是,则对“儿”字贴上特殊词标签,标签属性信息为:“是否继续分词”为“否”、“含特殊词性”为“是”、特殊词性为“儿化音”、“是否指定拼音”为“是”、“指定拼音内容”根据地名情况判定为“r”或“er”。
S305.含行政区划名称的汉语地名,对地名依据先专名后通名进行逐级分词处理。
具体步骤:逐级遍历行政区划级别专名词典,当存在某一行政专名时,判断是否同时存在该政区级别的通名,若存在,则依据政区专名与通名进行同时分词处理;接着,遍历该行政区划专名中的下一级别的专名以及对应通名;最后,完成分词处理。
举例说明:
汉语地名“江苏省南京市中国银行鼓楼分行”,在利用行政区划专名与通名分词时,步骤细节如图7所示,首先遍历省级行政区划“浙江、江苏……”,判断含江苏该词;接着,判断该地名是否含扩展词“江苏省”,并将该词划分为“江苏/省/南京市中国银行鼓楼分行”;同理,遍历“江苏省”附属的市级行政区划词典时,得到分词结果“江苏/省/南京/市/中国银行鼓楼分行”;当遍历“南京市”附属的区级专名时,遇到“鼓楼”这一区级行政单位,由于不含扩展词“鼓楼区”,则分词仅对“鼓楼”进行分词操作,结果为“江苏/省/南京/市/中国银行/鼓楼/分行”;再结合其他关键词词典,最终分词结果为“江苏/省/南京/市/中国/银行/鼓楼/分行”。
S306.对企事业单位、人工建筑、城市街巷等地名类型中含数字的汉语地名,将汉字数字转换阿拉伯数字。
步骤细节如图7所示,具体为:首先,判断汉语地名的类型是否为目标地名类型,若是,则利用数字将汉语地名划分成多个字符串,并贴上特殊词标签;其次,遍历数字后缀词典(词典示例见表7),若数字与词典中的关键词相邻,则将标签属性中“指定拼音内容”为相应的阿拉伯数字,若否,则标签标记该词不再参与分词操作且不指定拼音内容;然后,判断数字的前缀是否为序数词关键字“第”,若是,则将汉字“第”转换成“第-”;然后,完成汉语地名中所有数字的标记与转换操作,最终合并分词结果。
表7数字后缀词典示例
词典类型 词条举例
数字后缀词典 厂,场,站,分站,公司,分公司,总公司,局,库,水厂……
举例说明:
汉语地名“消防三大队十二支队”,进行数字转换时,步骤细节如图8所示,首先根据数字“三”、“十二”将地名划分成{“消防”、“三”、“大队”、“十二”、“支队”}等5个字符串;其次,对数字贴上特殊词标签,并检测数字的前缀与后缀,将汉语数字的指定拼音内容为相应阿拉伯数字,最终分词结果为“消防/3/大队/12/支队”。
S307.构建“交通线路简称与全称对照词典”(词典示例见表8),实现简称与全称转换。
表8交通线路中行政区划缩写与全称对照词典示例
词典类型 词条举例
交通线路对照词典 {京广→北京-广州}、{京沪→北京-上海}……
具体步骤:首先,判断汉语地名中存在交通线路简称;其次,若存在,则依据相应词典,将汉语地名中的交通线路简称,改为全称;最后,结合其他关键词词典,完成分词处理。
举个例子:
汉语地名“京沪线”,先判定该地名为交通线路类型地名,并遍历相关名词典得到分词结果“京沪/线”;接着,遍历“交通线路简称与全称对照词典”关键词,最终得到全称状态下的交通线路名称为“北京-上海/线”。
S308.构建“蒙、维、藏等少数民族语音译字”词典,对汉语地名中的少数民族音译字,贴上特殊词标签,并指定相关拼音内容。
若判定汉语地名中存在少数民族语音译字,则对该字设定标签信息为:“是否继续分词”为“否”、“含特殊词性”为“是”、特殊词性为“少数民族语音译字”、“是否指定拼音”为“是”、“指定拼音内容”指定相关拼音内容(少数民族及地区拼音拼写示例见表9、表10)。
表9少数民族名称拼音拼写情况
Figure SMS_8
Figure SMS_9
表中括注的内容表示在地名民族族称的汉字中含有“族”时,族称的罗马字母也须加。
表10少数民族地名拼音拼写示例
汉字族称 罗马字母 汉字族称 罗马字母
拉萨 Lhasa 准格尔旗 Junger Qi
呼和浩特 Hohhot 乌布拉格音阿木 U Bulgin Am
巴彦桃来 Bayan Toroi 阿尔夏提 Arxat
查干木伦 Qagan Moron 阿音柯 Aykol
哲里木 Jirem 乌孜塔格 üzatag
宗务隆 Jun Ul 乌尊布拉克 乌尊布拉克
阿登高勒 Adun Gol 阿嘎隆巴 Agar Lungba
巴汗淖 Bag Nur …… ……
S309.构建港澳台地区汉语地名拼音转换对照词典,对港澳台地区汉语地名,贴上特殊词标签,按当地拼写习惯,指定相关拼音内容。
若判定汉语地名中存在港澳台地区汉语地名,则对该字设定标签信息为:“含特殊词性”为“是”、特殊词性为“港澳台地区汉语地名”、“是否指定拼音”为“是”、“指定拼音内容”指定相关拼音内容(港、澳、台地区地名拼音拼写示例见表11)。
表11港、澳、台地区地名拼音拼写示例
汉字族称 罗马字母
香港 Hongkong
澳门 Macau
巴彦桃来 Bayan Toroi
台北 Taipei
…… ……
S310.构建中国南海及中国邻近国际公域的汉语地名拼音转换对照词典,对相关地名,贴上特殊词标签,并以中国地名委员会标准,指定相关拼音内容。
若判定汉语地名中存在中国南海及中国邻近国际公域,则对该字设定标签信息为:“含特殊词性”为“是”、特殊词性为“中国南海及中国邻近国际公域”、“是否指定拼音”为“是”、“指定拼音内容”指定相关拼音内容(中国南海及中国邻近国际公域地名拼音拼写示例见表12)。
表12中国南海及中国邻近国际公域地名拼音拼写示例
Figure SMS_10
Figure SMS_11
S400.构建汉字拼音转换对照库,对应汉字拼音转换对照库对汉语地名进行拼音转化,包括:分词符号转化为空格,其他标点符号保留;特殊词基于标签属性进行转化,如果布尔值为True,则获取指定的拼音内容字符串,作为特殊词的拼音;如果布尔值为False,则对应汉字拼音转换对照库对汉语地名进行拼音转化;分词的首字母大写,其余部分小写;
步骤细节如图9所示,具体为:首先,根据汉语地名的标签信息进行相关处理,若汉语地名中存在指定拼音内容,则使用指定内容,若无指定,则对照汉字拼音转换对照库,将汉字转成拼音;其次,若汉语地名中存在分词符号,按原有顺序转换成空格;接着,若存在单引号、括号、连接号等符号,按原有顺序保留在汉语地名中;最后,将汉语地名中的拼音首字母与分词各段的每段首字母由小写字母转换成大写字母,其余部分小写,最终获得汉语地名对应的规范化拼音要素。
举个例子:
汉语地名“淮安市中国工商银行”完成自动分词结果是“淮’安/市/中国/工商/银行”。首先,对分词结果进行根据汉字拼音对照表逐字转换,当遇到分词符号,则转换成空格,当遇到单引号时,将单引号按顺序保留在拼音中;接着,由于词组“银行”的标签信息已指明该词存在多音字“行”的特殊词,其指定拼音内容为“Yinhang”,因此,该词不做拼音转换,直接将该指定拼音内容保留在最后结果中;最后,得到拼音转换结果“Huai’an ShiZhongguo Gongshang Yinhang”。
S500.输出汉语地名的拼音转换结果。

Claims (9)

1.一种汉语地名的拼音拼写规范化方法,其特征在于,包括如下步骤:
S100.读取地名数据库,遍历汉语地名,对各个汉语地名进行分类,一级分类为地名类型包括自然地地名和居民地地名;地名类型下设置二级分类,为汉语地名的分类名称,对各分类名称赋予类型编码,并对相同分类名称下的各汉语地名赋予相应的类型编码;基于一级分类、二级分类和类型编码构建类型编码查找表;
S200.构建不同类型编码相应的关键词专名词典和关键词通名词典,读取汉语地名字符串及其类型编码字符串,根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配关键词,在关键词处添加分词符号;
S300.构建特殊词词典,包括单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典和中国南海及中国邻近国际公域词典;基于特殊词词典遍历汉语地名,在特殊词处添加分词符号,并将汉语地名字符串划分成一个多个字符串,对每个特殊词字符串赋予相应标签,添加相应属性信息;
所述标签的属性信息包括:
判断是否为特殊词,存储形式为布尔值;
特殊词标签值:按照前述特殊词词典的类型赋值,划分特殊词所属词典;
判断是否指定拼音内容,存储形式为布尔值;
拼音内容字符串:指定的特殊词转化拼音,以字符串形式存储;
S400.构建汉字拼音转换对照库,对应汉字拼音转换对照库对汉语地名进行拼音转化,包括:分词符号转化为空格,其他标点符号保留;特殊词基于标签属性进行转化,如果布尔值为True,则获取指定的拼音内容字符串,作为特殊词的拼音;如果布尔值为False,则对应汉字拼音转换对照库对汉语地名进行拼音转化;分词的首字母大写,其余部分小写;
S500.输出汉语地名的拼音转换结果。
2.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述专名词典与通名词典的制定方式包括:遍历同一分类名称下相应的汉语地名,从既定的专名、通名词库中匹配相应的专名、通名,编入词库;并对汉语地名进行统计,获取高频词,对专名词典与通名词典进行补全。
3.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法,其特征在于,根据关键词专名词典和关键词通名词典对汉语地名进行分词的步骤包括:
S201.读取汉语地名字符串,获取汉语地名的类型编码;
S202.调取地名类型编码对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配专名词典中关键词,如果地名中包含专名关键词,跳转S203,否则跳转S206;
S203.遍历汉语地名字符串,匹配通名词典中关键词,如果地名中包含通名关键词,跳转S204,否则跳转S206;
S204.根据字符串长度判断匹配到的通名关键词字数,如果通名关键词字数在两个或以上,则在地名中的通名关键词处添加分词符号;如果通名关键词字数为一个,跳转S205;
S205.如果通名关键词在汉语地名末尾,则在地名中的通名关键词处添加分词符号,否则跳转S206;
S206.结束分词。
4.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,根据汉语地名类型编码字符串所属的一级分类对汉语地名字符串进行分词;
如果地名类型为自然地地名,则遍历单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、多音字字典,查找特殊词;
如果地名类型为居民地类型,则遍历单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典、中国南海及中国邻近国际公域词典,查找特殊词。
5.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,基于单字附加修饰词词典的特殊词分词方式如下:
基于单字附加修饰词词典遍历读取的汉语地名字符串,如果匹配到单字附加修饰词,则依据修饰词将汉语地名字符串划分为多个字符串,对各单字附加修饰词对应的字符串赋予相应标签;
依据标签的前后缀判断是否存在相邻同类型词;如果相邻,则将相邻修饰词进行合并,并依据合并的修饰词进行前后分词,反之将单字附加修饰词与邻近的后缀进行连写;根据前后缀判断结果更新属性信息。
6.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,基于元音词组词典的特殊词分词方式如下:
基于元音词组词典遍历读取的汉语地名字符串,进行元音字判断,如果存在元音字,判断该元音字是否为元音词组词典中的非首位字,如果是非首位字,则在该元音字的字符串第一个字符前添加单引号,更新属性信息。
7.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,基于歧义词词典的特殊词分词方式如下:
构建歧义词词典时,对每队歧义词设定优先权;
基于歧义词词典遍历读取的汉语地名字符串,如果汉语地名中包含A-B形式的歧义词,对具备高优先权的A关键词进行先行配对,若存在A关键词,则对汉语地名中的A关键词贴上特殊词标签,不再进行后续分词操作;之后对汉语地名中未贴上该特殊词标签的剩余字符串进行B关键词搜索,完成分词。
8.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,遍历读取的汉语地名字符串,如果含“儿”字,对“儿”字贴上特殊词标签,标签属性信息为:
是否分词为“False”;
含特殊词性为“True”;
特殊词性为儿化音;
是否指定拼音为“True”;
指定拼音内容根据地名情况判定为“r”或“er”。
9.根据权利要求1或4所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,基于数字词典的特殊词分词方式如下:
根据汉语地名类型编码字符串所属的一级分类对汉语地名字符串进行分词;如果地名类型为居民地类型,则基于数字词典遍历读取的汉语地名字符串;
若存在中文数字,则依据中文数字将汉语地名字符串划分为多个字符串,对各中文数字对应的字符串赋予特殊词标签;
a)读取特殊词标签的后缀字符串,如果后缀字符串中包含地名关键词,则对标签属性信息赋值:是否指定拼音为“True”;指定拼音内容为中文数字对应的阿拉伯数字;否则跳转c);
b)读取特殊词标签的前缀字符串,如果前缀字符串对应为汉字“第”,则在前缀字符串和该特殊词字符串间增加符号“-”;
c)重复步骤a)-c),直至所有特殊词标签处理完毕。
CN201810989125.XA 2018-08-28 2018-08-28 一种汉语地名的拼音拼写规范化方法 Active CN109271625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810989125.XA CN109271625B (zh) 2018-08-28 2018-08-28 一种汉语地名的拼音拼写规范化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810989125.XA CN109271625B (zh) 2018-08-28 2018-08-28 一种汉语地名的拼音拼写规范化方法

Publications (2)

Publication Number Publication Date
CN109271625A CN109271625A (zh) 2019-01-25
CN109271625B true CN109271625B (zh) 2023-07-14

Family

ID=65154527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810989125.XA Active CN109271625B (zh) 2018-08-28 2018-08-28 一种汉语地名的拼音拼写规范化方法

Country Status (1)

Country Link
CN (1) CN109271625B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933800A (zh) * 2019-03-22 2019-06-25 中国农业银行股份有限公司 数据机构体系的创建方法、信息查询方法及装置
CN111190937B (zh) * 2019-12-19 2024-02-23 北京旷视科技有限公司 籍贯信息的查询方法、装置、电子设备及存储介质
CN113190596B (zh) * 2021-04-22 2023-02-10 华中科技大学 一种地名地址混合匹配的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118540A (zh) * 2006-08-02 2008-02-06 苗玉水 汉字汉语拼音与汉语语音码双向可逆转换方法
CN105630770A (zh) * 2015-12-23 2016-06-01 华建宇通科技(北京)有限责任公司 一种基于sc文法的分词标音连写方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118540A (zh) * 2006-08-02 2008-02-06 苗玉水 汉字汉语拼音与汉语语音码双向可逆转换方法
CN105630770A (zh) * 2015-12-23 2016-06-01 华建宇通科技(北京)有限责任公司 一种基于sc文法的分词标音连写方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汉语专有名词拼写规范研究;窦娟;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;20150915(第09期);第24-43页 *

Also Published As

Publication number Publication date
CN109271625A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN100573506C (zh) 一种自然语言表达动态交通信息的时空融合方法
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN109271625B (zh) 一种汉语地名的拼音拼写规范化方法
WO2022134592A1 (zh) 地址信息解析方法、装置、设备及存储介质
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN105224622A (zh) 面向互联网的地名地址提取与标准化方法
CN101950285A (zh) 利用统计学方法对汉字的本国语读音串转换系统及其方法
CN101840406A (zh) 地名搜索装置和系统
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN101782923A (zh) 使用自然语言文档中的地理信息的基于位置的系统
JP5529092B2 (ja) 注記データ翻訳装置、注記データ翻訳方法および注記データ翻訳プログラム
CN102169591A (zh) 一种制图中文本注记分行方法以及绘制方法
CN111625732A (zh) 地址匹配方法及装置
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
Qiu et al. ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
Ng What’s in the name? How the streets and villages in Singapore got their names
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN101853248B (zh) 航空天气报告的解码方法
CN113886512A (zh) 地址要素解析方法、装置和电子设备
JP2013113882A (ja) 注記表記変換装置、注記表記変換方法および注記表記変換プログラム
Williams et al. Corpus Editions of Runic Inscriptions in Supranational Databases
CN101576924A (zh) 一种蒙古文检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant