CN1052960A - 华语自动分词注音新技术 - Google Patents
华语自动分词注音新技术 Download PDFInfo
- Publication number
- CN1052960A CN1052960A CN 89109431 CN89109431A CN1052960A CN 1052960 A CN1052960 A CN 1052960A CN 89109431 CN89109431 CN 89109431 CN 89109431 A CN89109431 A CN 89109431A CN 1052960 A CN1052960 A CN 1052960A
- Authority
- CN
- China
- Prior art keywords
- phonetic notation
- chinese
- phonetic
- character
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
“华语自动分词注音新技术”是智能化的计算机
汉语信息处理技术、现代汉语自动分词技术和自动注
音技术的有机结合。使用本技术研制成功的“华语自
动分词注音系统”,能够直接对各种符合汉字交换码
标准的汉字系统生成的汉字机读文本,进行自动注
音,生成规范的、以词为单位的现代汉语注音文章,从
而方便获得注音读物。不需人工事先对需要注音的
汉字文章的语词作辨音和分词处理,实现现代汉语注
音的自动化。
本技术改变注音读物出版旧工艺,改变注音读物
的生成方法,减轻出版人员脑力、体力负担,大大缩短
注音读物出版周期,促进实现现代汉语注音读物出版
的现代化、标准化、规范化。
Description
一、本发明所属技术领域:
智能化的计算机汉语信息处理技术;现代汉语自动分词技术和自动注音技术的有机结合。
二、国内外对现代汉语自动注音研究的现状:
1、中国的汉语注音读物有两大类:一是中国大陆的汉语拼音注音读物,主要是小学低年级教材和课外读物;学龄前儿童注音读物和成人扫盲注音读物;供外国人阅读和学习汉语汉字的注音读物;在中国的外国留学生学习汉语汉字的注音教材。二是中国台湾使用注音字母的注音读物,应用范围同大陆相当。目前注音读物的创作、编辑和出版,仍然以人工注音,铅排印刷为主要技术手段。近年一些注音读物的激光电子排版印刷,同样以人工注音为前提。
2、国内少数人进行的计算机自动注音研究,停留在按字为单位进行注音的阶段,注音准确率低,不按词连写,不符合我国注音读物的规范。国内外尚未发现本发明以外的有效的自动分词注音研究成果。
三、本发明的目的:
使用先进的计算机技术,通过智能化手段,实现快速的、准确度高的现代汉语文本自动分词注音,取代效率低下、错误繁多的传统的人工注音。把现代汉语注音技术推向现代化、标准化和规范化。
使用目前国内外各种汉字系统所生成的汉字机读文章,不用经过人工分词,通过本技术处理后立即自动注音,变为分词注音的、汉字词和拼音词两相对照的注音文章,注音符合国家的“汉语拼音”规范,分词符合国家的“汉语拼音正词法”规范。自动分词注音的准确率达到98%。经过人工少量校正,符合出版要求。
使用计算机技术实现现代汉语文本的自动分词和自动注音,有利于提高我国注音读物的质量,克服过去因人而异的注音混乱现象,实现注音读物的规范化,大大加快注音读物的出版周期。利于人们学习汉语汉字和掌握普通话,促进发展我国民族共同语,提高人们的文化质素。同时有利于外国人学习汉字汉语,促进中外文化交流。
四、本发明的内容:
1、“现代汉语和汉语拼音相对应的分词规则”。
在研究现代汉语词汇的相关关系和《汉语拼音正词法基本规则》的基础上,研究确定了本规则。本规则由:词性相关规则;缀加成分(前加成分和后加成分)处理规则;前后交连结构判定规则;同形异音词处理规则等部分构成。本规则是实现计算机现代汉语自动分词和自动注音技术的可靠基础。
2、多属性注音系统词汇库(汉字词、拼音词、词汇属性、交连结构知识多位一体)和用户临时干预词库。
从“汉语拼音正词法基本规则”出发,对8万条现代汉语常用词和次常用词进行注音和标注词性;从现代汉语自动分词实践中,总结出语词交连结构的正确划分规律,总结出语词前加成分和后加成分的分词连写规则,拼音大写小写规则等,然后根据计算机科学检索的要求,建成多属性的注音词汇库。建造这个词汇库,是正确分词注音的重要依据。用户临时干预词库的作用是提高罕用语词注音的准确性。
3、“计算机华语自动分词注音技术”。
在汉语语词规律研究的基础上,研究确立了本技术。本技术包括:现代汉语语词减字切分法;多属性词库(包括汉字词库和拼音词库)检索法;现代汉语交连结构正确判断法;汉字词、拼音词自动对应注音技术等。在本技术的指导下,研制成功了“华语自动分词注音系统”(又称“华语自动注音卡”。该系统能对现代汉语的计算机机读文本,按照国家的汉语拼音正词法的分词连写要求,按照国家汉语拼音规范(包括大写小写、标调法、轻声和儿化、隔音符号等)进行正确分词和正确注音,分词和注音的正确率达到98%以上。
4、“华语注音结果文本输出排版印刷技术”。
本技术包括注音结果文本的修改和计算机排版方法,注音结果文本在行式打印机上的格式打印输出,以及通过代码转换同先进的计算机激光照排系统相接口,实现注音结果文本的激光照排输出,进行注音读物的高精度胶版印刷。
上述四项内容的结合,构成了“华语自动分词注音新技术”。
五、本发明的优点及效果:
1、把现代汉语文章转换为规范的拼音-汉字两相对照的注音文章,不需人工事先对汉语文章做分词处理、辨音标调处理,真正实现现代汉语文章注音的自动化、智能化;
2、采用本技术对现代汉语机读文本进行自动注音,可以大大提高注音的工作效率,使用普通的微型计算机,自动注音的速度可达每分钟1000个汉字以上,比人工注音高出许多倍;
3、采用本技术获得的注音结果的准确度高,规范性和一致性好。人工注音的最大缺点是一致性和规范性差,不同作者的注音差异性大,读者难以适从。
4、改变注音读物的写作、编辑、排版传统方式,改变注音读物出版的旧工艺,缩短注音读物出版周期,减轻出版人员脑力、体力负担;促进注音读物出版的现代化、标准化、规范化;
5、本发明使注音读物的创作和编辑出版变得非常容易,更方便地向人们提供注音读物,帮助人们更快地掌握文化科学知识,尤其是学好普通话和汉语拼音,促进发展我国民族共同语。有利于外国人学习汉语。
现代汉语文本自动注音前后的对照举例
原汉语文本:
我攀登过峰峦雄伟的泰山,游览过红叶似火的香山,却从没看见过桂林这一带的山。桂林的山真奇啊,一座座拔地而起,各不相连,象老人,象巨象,象骆驼,齐峰罗列,形态万千;桂林的山真秀啊,象翠绿的屏障,象新生的竹笋,色彩明丽,倒映水中;桂林的山真险啊,危峰兀立,怪石嶙峋,好象一不小心就会栽倒下来。
经过自动分词注音后的注音文本:
Claims (7)
- “华语自动分词注音系统”具有以下技术特征:1、待注音的汉语机读文本,汉字与汉字之间不必留空,无须人工事先作分词安排,分词和注音由系统自动完成。
- 2、形成的注音文本,能够同注音前的原文文本的起行、段落格式保持一致。
- 3、注音过程的特色是:先整行显示拼音,后整行显示汉字。构成整行拼音和整行汉字快速地两相对照。不是一个词一个词地显示拼音和显示汉字。
- 4、形成注音文本的汉字词,不管是双音节词或多音节词,都作为一个完整的词串连结在一起,词与词之间留空,而字与字之间不留空。即汉字词作为一个整体同拼音词相对照。
- 5、形成注音文本的拼音串,它的分词连写法,声母韵母写法,标调法,语词首字母大写法,隔音符号,轻声和儿化等,符合汉语拼音规范和1988年国家颁布的“汉语拼音正词法”规范。
- 6、具有自动区别多音字的能力,无须人工干预,能够辨别例如“龟裂、乌龟、龟兹”中的“龟”字的不同读音,正确注为:龟裂:jǖnliè 乌龟:wūguī 龟兹:qiūcí
- 7、形成的注音文本的拼音字符是半角字符,它是本注音系统特有的,它的宽度是一个汉字宽度的二分之一。不同于国标字符集里的拼音全角符。(见附图中的注音文本中的拼音字符)请求保护具有上述综合特征的本技术发明权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 89109431 CN1052960A (zh) | 1989-12-23 | 1989-12-23 | 华语自动分词注音新技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 89109431 CN1052960A (zh) | 1989-12-23 | 1989-12-23 | 华语自动分词注音新技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1052960A true CN1052960A (zh) | 1991-07-10 |
Family
ID=4858002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 89109431 Pending CN1052960A (zh) | 1989-12-23 | 1989-12-23 | 华语自动分词注音新技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1052960A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1107276C (zh) * | 1996-01-30 | 2003-04-30 | 华建机器翻译有限公司 | 一种全自动汉语分词系统 |
CN101482867B (zh) * | 2008-01-09 | 2012-07-04 | 北大方正集团有限公司 | 一种自动为汉字添加拼音的方法及装置 |
CN103150300A (zh) * | 2011-12-06 | 2013-06-12 | 北大方正集团有限公司 | 拼音的排版方法和装置 |
CN103365925A (zh) * | 2012-04-09 | 2013-10-23 | 高德软件有限公司 | 获取多音字拼音、基于拼音检索的方法及其相应装置 |
CN105225657A (zh) * | 2015-10-22 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 多音字标注模板生成方法和装置 |
-
1989
- 1989-12-23 CN CN 89109431 patent/CN1052960A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1107276C (zh) * | 1996-01-30 | 2003-04-30 | 华建机器翻译有限公司 | 一种全自动汉语分词系统 |
CN101482867B (zh) * | 2008-01-09 | 2012-07-04 | 北大方正集团有限公司 | 一种自动为汉字添加拼音的方法及装置 |
CN103150300A (zh) * | 2011-12-06 | 2013-06-12 | 北大方正集团有限公司 | 拼音的排版方法和装置 |
CN103365925A (zh) * | 2012-04-09 | 2013-10-23 | 高德软件有限公司 | 获取多音字拼音、基于拼音检索的方法及其相应装置 |
CN105225657A (zh) * | 2015-10-22 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 多音字标注模板生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abu-Rabia | The effect of Arabic vowels on the reading comprehension of second-and sixth-grade native Arab children | |
US6639139B2 (en) | Color-coded melody text and method of teaching | |
Tamaoka | Psycholinguistic nature of the Japanese orthography | |
Daniels | Indic scripts: History, typology, study | |
CN110096715A (zh) | 一种融合发音特征汉语-越南语统计机器翻译方法 | |
CN1052960A (zh) | 华语自动分词注音新技术 | |
Daniels | Scripts of Semitic languages | |
Krishnamurti | Problems of language standardization in India | |
CN209028840U (zh) | 一种拼音和汉字教学游戏装置 | |
CN103777771B (zh) | 易捷速录系列输入方法 | |
Horvat et al. | Retro-Digitization of Croatian Pre-Standard Grammars | |
Chevillard | The Tamil grammatical tradition: a long commute between theory and practice | |
Jing | The Construction of a Multilingual Parallel Corpus for Hnewo Teyy | |
Zafiu | 8.2 Normative Grammars | |
Garabík et al. | A cross linguistic database of children's printed words in three Slavic languages | |
Pandey | Proposal to Encode the Sharada Script in ISO/IEC 10646 | |
CN1542591A (zh) | 汉语拼音仿真输入法 | |
Wilson | Developing a standardized Hawaiian orthography | |
Prager Branner | CHAPTER 6 RIME TABLES | |
Byun et al. | A representation of korean syllable characters defined in hunminjeongeum | |
Iunn et al. | Modeling Taiwanese Southern-Min Tone Sandhi Using Rule-Based Methods | |
Abu‑Rabia | The Role of Short Vowels in Reading Arabic: A Critical | |
Erjavec et al. | jaSlo, a Japanese-Slovene learners’ dictionary: methods for dictionary enhancement | |
Sodhar et al. | Morphology-Assisted Sindhi Text Analysis for Natural Language Processing Applications | |
Bhandary | Understanding the development of early printed dictionaries for Bengali in a multilingual typographic environment. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C01 | Deemed withdrawal of patent application (patent law 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |