CN1052960A - 华语自动分词注音新技术 - Google Patents

华语自动分词注音新技术 Download PDF

Info

Publication number
CN1052960A
CN1052960A CN 89109431 CN89109431A CN1052960A CN 1052960 A CN1052960 A CN 1052960A CN 89109431 CN89109431 CN 89109431 CN 89109431 A CN89109431 A CN 89109431A CN 1052960 A CN1052960 A CN 1052960A
Authority
CN
China
Prior art keywords
phonetic notation
chinese
phonetic
character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 89109431
Other languages
English (en)
Inventor
方晖
方世增
周有光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 89109431 priority Critical patent/CN1052960A/zh
Publication of CN1052960A publication Critical patent/CN1052960A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

“华语自动分词注音新技术”是智能化的计算机 汉语信息处理技术、现代汉语自动分词技术和自动注 音技术的有机结合。使用本技术研制成功的“华语自 动分词注音系统”,能够直接对各种符合汉字交换码 标准的汉字系统生成的汉字机读文本,进行自动注 音,生成规范的、以词为单位的现代汉语注音文章,从 而方便获得注音读物。不需人工事先对需要注音的 汉字文章的语词作辨音和分词处理,实现现代汉语注 音的自动化。
本技术改变注音读物出版旧工艺,改变注音读物 的生成方法,减轻出版人员脑力、体力负担,大大缩短 注音读物出版周期,促进实现现代汉语注音读物出版 的现代化、标准化、规范化。

Description

一、本发明所属技术领域:
智能化的计算机汉语信息处理技术;现代汉语自动分词技术和自动注音技术的有机结合。
二、国内外对现代汉语自动注音研究的现状:
1、中国的汉语注音读物有两大类:一是中国大陆的汉语拼音注音读物,主要是小学低年级教材和课外读物;学龄前儿童注音读物和成人扫盲注音读物;供外国人阅读和学习汉语汉字的注音读物;在中国的外国留学生学习汉语汉字的注音教材。二是中国台湾使用注音字母的注音读物,应用范围同大陆相当。目前注音读物的创作、编辑和出版,仍然以人工注音,铅排印刷为主要技术手段。近年一些注音读物的激光电子排版印刷,同样以人工注音为前提。
2、国内少数人进行的计算机自动注音研究,停留在按字为单位进行注音的阶段,注音准确率低,不按词连写,不符合我国注音读物的规范。国内外尚未发现本发明以外的有效的自动分词注音研究成果。
三、本发明的目的:
使用先进的计算机技术,通过智能化手段,实现快速的、准确度高的现代汉语文本自动分词注音,取代效率低下、错误繁多的传统的人工注音。把现代汉语注音技术推向现代化、标准化和规范化。
使用目前国内外各种汉字系统所生成的汉字机读文章,不用经过人工分词,通过本技术处理后立即自动注音,变为分词注音的、汉字词和拼音词两相对照的注音文章,注音符合国家的“汉语拼音”规范,分词符合国家的“汉语拼音正词法”规范。自动分词注音的准确率达到98%。经过人工少量校正,符合出版要求。
使用计算机技术实现现代汉语文本的自动分词和自动注音,有利于提高我国注音读物的质量,克服过去因人而异的注音混乱现象,实现注音读物的规范化,大大加快注音读物的出版周期。利于人们学习汉语汉字和掌握普通话,促进发展我国民族共同语,提高人们的文化质素。同时有利于外国人学习汉字汉语,促进中外文化交流。
四、本发明的内容:
1、“现代汉语和汉语拼音相对应的分词规则”。
在研究现代汉语词汇的相关关系和《汉语拼音正词法基本规则》的基础上,研究确定了本规则。本规则由:词性相关规则;缀加成分(前加成分和后加成分)处理规则;前后交连结构判定规则;同形异音词处理规则等部分构成。本规则是实现计算机现代汉语自动分词和自动注音技术的可靠基础。
2、多属性注音系统词汇库(汉字词、拼音词、词汇属性、交连结构知识多位一体)和用户临时干预词库。
从“汉语拼音正词法基本规则”出发,对8万条现代汉语常用词和次常用词进行注音和标注词性;从现代汉语自动分词实践中,总结出语词交连结构的正确划分规律,总结出语词前加成分和后加成分的分词连写规则,拼音大写小写规则等,然后根据计算机科学检索的要求,建成多属性的注音词汇库。建造这个词汇库,是正确分词注音的重要依据。用户临时干预词库的作用是提高罕用语词注音的准确性。
3、“计算机华语自动分词注音技术”。
在汉语语词规律研究的基础上,研究确立了本技术。本技术包括:现代汉语语词减字切分法;多属性词库(包括汉字词库和拼音词库)检索法;现代汉语交连结构正确判断法;汉字词、拼音词自动对应注音技术等。在本技术的指导下,研制成功了“华语自动分词注音系统”(又称“华语自动注音卡”。该系统能对现代汉语的计算机机读文本,按照国家的汉语拼音正词法的分词连写要求,按照国家汉语拼音规范(包括大写小写、标调法、轻声和儿化、隔音符号等)进行正确分词和正确注音,分词和注音的正确率达到98%以上。
4、“华语注音结果文本输出排版印刷技术”。
本技术包括注音结果文本的修改和计算机排版方法,注音结果文本在行式打印机上的格式打印输出,以及通过代码转换同先进的计算机激光照排系统相接口,实现注音结果文本的激光照排输出,进行注音读物的高精度胶版印刷。
上述四项内容的结合,构成了“华语自动分词注音新技术”。
五、本发明的优点及效果:
1、把现代汉语文章转换为规范的拼音-汉字两相对照的注音文章,不需人工事先对汉语文章做分词处理、辨音标调处理,真正实现现代汉语文章注音的自动化、智能化;
2、采用本技术对现代汉语机读文本进行自动注音,可以大大提高注音的工作效率,使用普通的微型计算机,自动注音的速度可达每分钟1000个汉字以上,比人工注音高出许多倍;
3、采用本技术获得的注音结果的准确度高,规范性和一致性好。人工注音的最大缺点是一致性和规范性差,不同作者的注音差异性大,读者难以适从。
4、改变注音读物的写作、编辑、排版传统方式,改变注音读物出版的旧工艺,缩短注音读物出版周期,减轻出版人员脑力、体力负担;促进注音读物出版的现代化、标准化、规范化;
5、本发明使注音读物的创作和编辑出版变得非常容易,更方便地向人们提供注音读物,帮助人们更快地掌握文化科学知识,尤其是学好普通话和汉语拼音,促进发展我国民族共同语。有利于外国人学习汉语。
现代汉语文本自动注音前后的对照举例
原汉语文本:
我攀登过峰峦雄伟的泰山,游览过红叶似火的香山,却从没看见过桂林这一带的山。桂林的山真奇啊,一座座拔地而起,各不相连,象老人,象巨象,象骆驼,齐峰罗列,形态万千;桂林的山真秀啊,象翠绿的屏障,象新生的竹笋,色彩明丽,倒映水中;桂林的山真险啊,危峰兀立,怪石嶙峋,好象一不小心就会栽倒下来。
经过自动分词注音后的注音文本:
Figure 891094318_IMG1

Claims (7)

  1. “华语自动分词注音系统”具有以下技术特征:
    1、待注音的汉语机读文本,汉字与汉字之间不必留空,无须人工事先作分词安排,分词和注音由系统自动完成。
  2. 2、形成的注音文本,能够同注音前的原文文本的起行、段落格式保持一致。
  3. 3、注音过程的特色是:先整行显示拼音,后整行显示汉字。构成整行拼音和整行汉字快速地两相对照。不是一个词一个词地显示拼音和显示汉字。
  4. 4、形成注音文本的汉字词,不管是双音节词或多音节词,都作为一个完整的词串连结在一起,词与词之间留空,而字与字之间不留空。即汉字词作为一个整体同拼音词相对照。
  5. 5、形成注音文本的拼音串,它的分词连写法,声母韵母写法,标调法,语词首字母大写法,隔音符号,轻声和儿化等,符合汉语拼音规范和1988年国家颁布的“汉语拼音正词法”规范。
  6. 6、具有自动区别多音字的能力,无须人工干预,能够辨别例如“龟裂、乌龟、龟兹”中的“龟”字的不同读音,正确注为:
    龟裂:jǖnliè  乌龟:wūguī  龟兹:qiūcí
  7. 7、形成的注音文本的拼音字符是半角字符,它是本注音系统特有的,它的宽度是一个汉字宽度的二分之一。不同于国标字符集里的拼音全角符。(见附图中的注音文本中的拼音字符)
    请求保护具有上述综合特征的本技术发明权。
CN 89109431 1989-12-23 1989-12-23 华语自动分词注音新技术 Pending CN1052960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 89109431 CN1052960A (zh) 1989-12-23 1989-12-23 华语自动分词注音新技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 89109431 CN1052960A (zh) 1989-12-23 1989-12-23 华语自动分词注音新技术

Publications (1)

Publication Number Publication Date
CN1052960A true CN1052960A (zh) 1991-07-10

Family

ID=4858002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 89109431 Pending CN1052960A (zh) 1989-12-23 1989-12-23 华语自动分词注音新技术

Country Status (1)

Country Link
CN (1) CN1052960A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1107276C (zh) * 1996-01-30 2003-04-30 华建机器翻译有限公司 一种全自动汉语分词系统
CN101482867B (zh) * 2008-01-09 2012-07-04 北大方正集团有限公司 一种自动为汉字添加拼音的方法及装置
CN103150300A (zh) * 2011-12-06 2013-06-12 北大方正集团有限公司 拼音的排版方法和装置
CN103365925A (zh) * 2012-04-09 2013-10-23 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1107276C (zh) * 1996-01-30 2003-04-30 华建机器翻译有限公司 一种全自动汉语分词系统
CN101482867B (zh) * 2008-01-09 2012-07-04 北大方正集团有限公司 一种自动为汉字添加拼音的方法及装置
CN103150300A (zh) * 2011-12-06 2013-06-12 北大方正集团有限公司 拼音的排版方法和装置
CN103365925A (zh) * 2012-04-09 2013-10-23 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置

Similar Documents

Publication Publication Date Title
Abu-Rabia The effect of Arabic vowels on the reading comprehension of second-and sixth-grade native Arab children
US6639139B2 (en) Color-coded melody text and method of teaching
Tamaoka Psycholinguistic nature of the Japanese orthography
Daniels Indic scripts: History, typology, study
CN110096715A (zh) 一种融合发音特征汉语-越南语统计机器翻译方法
CN1052960A (zh) 华语自动分词注音新技术
Daniels Scripts of Semitic languages
Krishnamurti Problems of language standardization in India
CN209028840U (zh) 一种拼音和汉字教学游戏装置
CN103777771B (zh) 易捷速录系列输入方法
Horvat et al. Retro-Digitization of Croatian Pre-Standard Grammars
Chevillard The Tamil grammatical tradition: a long commute between theory and practice
Jing The Construction of a Multilingual Parallel Corpus for Hnewo Teyy
Zafiu 8.2 Normative Grammars
Garabík et al. A cross linguistic database of children's printed words in three Slavic languages
Pandey Proposal to Encode the Sharada Script in ISO/IEC 10646
CN1542591A (zh) 汉语拼音仿真输入法
Wilson Developing a standardized Hawaiian orthography
Prager Branner CHAPTER 6 RIME TABLES
Byun et al. A representation of korean syllable characters defined in hunminjeongeum
Iunn et al. Modeling Taiwanese Southern-Min Tone Sandhi Using Rule-Based Methods
Abu‑Rabia The Role of Short Vowels in Reading Arabic: A Critical
Erjavec et al. jaSlo, a Japanese-Slovene learners’ dictionary: methods for dictionary enhancement
Sodhar et al. Morphology-Assisted Sindhi Text Analysis for Natural Language Processing Applications
Bhandary Understanding the development of early printed dictionaries for Bengali in a multilingual typographic environment.

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication