CN1052960A

CN1052960A - 华语自动分词注音新技术

Info

Publication number: CN1052960A
Application number: CN 89109431
Authority: CN
Inventors: 方晖; 方世增; 周有光
Original assignee: Individual
Current assignee: Individual
Priority date: 1989-12-23
Filing date: 1989-12-23
Publication date: 1991-07-10

Abstract

“华语自动分词注音新技术”是智能化的计算机汉语信息处理技术、现代汉语自动分词技术和自动注音技术的有机结合。使用本技术研制成功的“华语自动分词注音系统”，能够直接对各种符合汉字交换码标准的汉字系统生成的汉字机读文本，进行自动注音，生成规范的、以词为单位的现代汉语注音文章，从而方便获得注音读物。不需人工事先对需要注音的汉字文章的语词作辨音和分词处理，实现现代汉语注音的自动化。

本技术改变注音读物出版旧工艺，改变注音读物的生成方法，减轻出版人员脑力、体力负担，大大缩短注音读物出版周期，促进实现现代汉语注音读物出版的现代化、标准化、规范化。

Description

一、本发明所属技术领域：

智能化的计算机汉语信息处理技术;现代汉语自动分词技术和自动注音技术的有机结合。

二、国内外对现代汉语自动注音研究的现状：

1、中国的汉语注音读物有两大类：一是中国大陆的汉语拼音注音读物，主要是小学低年级教材和课外读物;学龄前儿童注音读物和成人扫盲注音读物;供外国人阅读和学习汉语汉字的注音读物;在中国的外国留学生学习汉语汉字的注音教材。二是中国台湾使用注音字母的注音读物，应用范围同大陆相当。目前注音读物的创作、编辑和出版，仍然以人工注音，铅排印刷为主要技术手段。近年一些注音读物的激光电子排版印刷，同样以人工注音为前提。

2、国内少数人进行的计算机自动注音研究，停留在按字为单位进行注音的阶段，注音准确率低，不按词连写，不符合我国注音读物的规范。国内外尚未发现本发明以外的有效的自动分词注音研究成果。

三、本发明的目的：

使用先进的计算机技术，通过智能化手段，实现快速的、准确度高的现代汉语文本自动分词注音，取代效率低下、错误繁多的传统的人工注音。把现代汉语注音技术推向现代化、标准化和规范化。

使用目前国内外各种汉字系统所生成的汉字机读文章，不用经过人工分词，通过本技术处理后立即自动注音，变为分词注音的、汉字词和拼音词两相对照的注音文章，注音符合国家的“汉语拼音”规范，分词符合国家的“汉语拼音正词法”规范。自动分词注音的准确率达到98%。经过人工少量校正，符合出版要求。

使用计算机技术实现现代汉语文本的自动分词和自动注音，有利于提高我国注音读物的质量，克服过去因人而异的注音混乱现象，实现注音读物的规范化，大大加快注音读物的出版周期。利于人们学习汉语汉字和掌握普通话，促进发展我国民族共同语，提高人们的文化质素。同时有利于外国人学习汉字汉语，促进中外文化交流。

四、本发明的内容：

1、“现代汉语和汉语拼音相对应的分词规则”。

在研究现代汉语词汇的相关关系和《汉语拼音正词法基本规则》的基础上，研究确定了本规则。本规则由：词性相关规则;缀加成分（前加成分和后加成分）处理规则;前后交连结构判定规则;同形异音词处理规则等部分构成。本规则是实现计算机现代汉语自动分词和自动注音技术的可靠基础。

2、多属性注音系统词汇库（汉字词、拼音词、词汇属性、交连结构知识多位一体）和用户临时干预词库。

从“汉语拼音正词法基本规则”出发，对8万条现代汉语常用词和次常用词进行注音和标注词性;从现代汉语自动分词实践中，总结出语词交连结构的正确划分规律，总结出语词前加成分和后加成分的分词连写规则，拼音大写小写规则等，然后根据计算机科学检索的要求，建成多属性的注音词汇库。建造这个词汇库，是正确分词注音的重要依据。用户临时干预词库的作用是提高罕用语词注音的准确性。

3、“计算机华语自动分词注音技术”。

在汉语语词规律研究的基础上，研究确立了本技术。本技术包括：现代汉语语词减字切分法;多属性词库（包括汉字词库和拼音词库）检索法;现代汉语交连结构正确判断法;汉字词、拼音词自动对应注音技术等。在本技术的指导下，研制成功了“华语自动分词注音系统”（又称“华语自动注音卡”。该系统能对现代汉语的计算机机读文本，按照国家的汉语拼音正词法的分词连写要求，按照国家汉语拼音规范（包括大写小写、标调法、轻声和儿化、隔音符号等）进行正确分词和正确注音，分词和注音的正确率达到98%以上。

4、“华语注音结果文本输出排版印刷技术”。

本技术包括注音结果文本的修改和计算机排版方法，注音结果文本在行式打印机上的格式打印输出，以及通过代码转换同先进的计算机激光照排系统相接口，实现注音结果文本的激光照排输出，进行注音读物的高精度胶版印刷。

上述四项内容的结合，构成了“华语自动分词注音新技术”。

五、本发明的优点及效果：

1、把现代汉语文章转换为规范的拼音-汉字两相对照的注音文章，不需人工事先对汉语文章做分词处理、辨音标调处理，真正实现现代汉语文章注音的自动化、智能化;

2、采用本技术对现代汉语机读文本进行自动注音，可以大大提高注音的工作效率，使用普通的微型计算机，自动注音的速度可达每分钟1000个汉字以上，比人工注音高出许多倍;

3、采用本技术获得的注音结果的准确度高，规范性和一致性好。人工注音的最大缺点是一致性和规范性差，不同作者的注音差异性大，读者难以适从。

4、改变注音读物的写作、编辑、排版传统方式，改变注音读物出版的旧工艺，缩短注音读物出版周期，减轻出版人员脑力、体力负担;促进注音读物出版的现代化、标准化、规范化;

5、本发明使注音读物的创作和编辑出版变得非常容易，更方便地向人们提供注音读物，帮助人们更快地掌握文化科学知识，尤其是学好普通话和汉语拼音，促进发展我国民族共同语。有利于外国人学习汉语。

现代汉语文本自动注音前后的对照举例

原汉语文本：

我攀登过峰峦雄伟的泰山，游览过红叶似火的香山，却从没看见过桂林这一带的山。桂林的山真奇啊，一座座拔地而起，各不相连，象老人，象巨象，象骆驼，齐峰罗列，形态万千;桂林的山真秀啊，象翠绿的屏障，象新生的竹笋，色彩明丽，倒映水中;桂林的山真险啊，危峰兀立，怪石嶙峋，好象一不小心就会栽倒下来。

经过自动分词注音后的注音文本：

Claims

“华语自动分词注音系统”具有以下技术特征：

1、待注音的汉语机读文本，汉字与汉字之间不必留空，无须人工事先作分词安排，分词和注音由系统自动完成。
2、形成的注音文本，能够同注音前的原文文本的起行、段落格式保持一致。
3、注音过程的特色是：先整行显示拼音，后整行显示汉字。构成整行拼音和整行汉字快速地两相对照。不是一个词一个词地显示拼音和显示汉字。
4、形成注音文本的汉字词，不管是双音节词或多音节词，都作为一个完整的词串连结在一起，词与词之间留空，而字与字之间不留空。即汉字词作为一个整体同拼音词相对照。
5、形成注音文本的拼音串，它的分词连写法，声母韵母写法，标调法，语词首字母大写法，隔音符号，轻声和儿化等，符合汉语拼音规范和1988年国家颁布的“汉语拼音正词法”规范。
6、具有自动区别多音字的能力，无须人工干预，能够辨别例如“龟裂、乌龟、龟兹”中的“龟”字的不同读音，正确注为：

龟裂：jǖnliè 乌龟：wūguī 龟兹：qiūcí
7、形成的注音文本的拼音字符是半角字符，它是本注音系统特有的，它的宽度是一个汉字宽度的二分之一。不同于国标字符集里的拼音全角符。（见附图中的注音文本中的拼音字符）

请求保护具有上述综合特征的本技术发明权。