CN1105979C - 汉语多音字的自动分析及处理的方法 - Google Patents

汉语多音字的自动分析及处理的方法 Download PDF

Info

Publication number
CN1105979C
CN1105979C CN97116046A CN97116046A CN1105979C CN 1105979 C CN1105979 C CN 1105979C CN 97116046 A CN97116046 A CN 97116046A CN 97116046 A CN97116046 A CN 97116046A CN 1105979 C CN1105979 C CN 1105979C
Authority
CN
China
Prior art keywords
phrases
word
words
chinese
storer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97116046A
Other languages
English (en)
Other versions
CN1208901A (zh
Inventor
张景嵩
钱力强
杨徽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN97116046A priority Critical patent/CN1105979C/zh
Publication of CN1208901A publication Critical patent/CN1208901A/zh
Application granted granted Critical
Publication of CN1105979C publication Critical patent/CN1105979C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

汉语多音字的自动分析及处理方法是由中央处理单元依存储器中存储的汉语词库,对输入的汉语句子的文字串进行语词划分,再根据汉语多音字词库,依序检查划分出的每个语词,并在该多音字词库中以被标为“单字词”的语词为中心,在该句子的上下文中搜寻该“单字词”前面的一字,标为“前字”,如果没有,则寻找句子中该“单字词”后面的一字,标为“后字”,再将该单字词与“前字”或“后字”合成一“临时语词”,并在该多音字词库中搜寻该语词的多音字读音实现的。

Description

汉语多音字的自动分析 及处理的方法
本发明涉及一种汉语多音字的自动分析及处理的方法,特别是一种利用计算机的中央处理单元对汉语(即一般所称的中文)中多音现象进行识别、分析及处理的方法。
在汉语的文字中,有许多文字的发音不局限于一种读音,这些具有多种读音的文字,根据其与其前后文关系的不同,不仅读音不同,其文字的意义亦将随之改变,故这些文字以某一读音发音时,是代表某一意思,若以另外一读音发音时,就变成另一个意思。这种同一个字体,欲分别具有几个不同读音,且分别代表几种不同意思的汉字,即本发明中所谓的“多音字”。
现以“行”字为例,当以“xíng”为读音时,代表“行走”的意思;若以“háng”为读音时,代表“商行”或“行业”的意思;又若以“hàng”为读音时,则是指树木排列成队的样子,或口语中所谓“树行子”的语调,另外,在文言文中读“hàng”,还代表刚强的神态,如:论语中所言“子路,行行如也”。因此,“行”即汉语中所谓的“多音字”。
由于,在汉语的文字中,一文字具有多种读音的多音现象是中国语文的特色,故自古至今,在中国社会中,多音字始终非常普遍地被应用于一般文章、歌曲及口语中,而有其不可缺少的意义及重要性,而在以汉语为全世界最大语系的中国族群中,如何将汉语应用于计算机等自动化机器中,已逐渐成为未来信息科技发展中倍受重视的领域,因此,考虑这一情况,未来在计算机、电子字典及电子记事簿等许多自动机器设备的发展中,如何使其具备足以针对汉语的语言现象自动进行识别、分析及处理的能力,即成为一相当重要的课题。
本发明的目的是提供一种汉语多音字的自动分析及处理的方法,具体涉及一种针对汉语语言中的多音现象进行自动识别、分析及处理的方法,通过本发明的方法能使计算机等自动化机器识别汉语文字中的多音字,并确定多音字在上下文中的正确读音及意义。
为达到上述目的本发明所提供的汉语多音字的自动分析及处理的方法是以数字形式将汉语语词存储在计算机的存储器中,以建立一汉语词库,然后,中央处理单元依据该汉语词库对输入计算机中的汉语文字串(以下简称句子)进行语词划分;将划分后的第一个语词作为“当前语词”;对该“当前语词”进行判断,如果某个词语不是“单字词”,再根据所建立的一汉语多音字词库,检查由句子中所划分出的该词语,即在该多音字词库中搜寻该语词,并将所搜寻到的多音字读音,标记至该语词上;如果“当前语词”标记为“单字词”,则以被标记为“单字词”的语词为中心,在该句子的上下文中搜寻该“单字词”前面的一个字,标记为“前字”,如果没有搜寻到,则寻找该“单字词”后面的一个字,标记为“后字”并将该“单字词”与“前字”或“后字”合成一个“临时语词”,接着在该多音字词库中搜寻该语词,再将搜寻到的多音字的读音,标记至该语词上;重复检查,直至依序完成句子中所划分出的每一语词的检查为止。
本发明的方法是藉助于计算机的高速分析及处理能力,可使其在有关语音的人工智慧、电脑语音识别及汉语的计算机语音合成等领域,对所有可能的汉语发音作精密确切的识别、分析及处理,以即时辨识出汉语文句中各文字的正确读音及意义。
图1所示为本发明的系统结构示意图;
图2所示为本发明的汉语多音字的自动分析及处理方法的详细流程示意图。
现结合附图对本发明的汉语多音字的自动分析及处理方法进行详细说明。
参照图1,本发明所说方法主要通过计算机的中央处理单元1,存储器2,以及存储器2中建立的一汉语词库3及一汉语多音字词库4所构成的系统来完成的。
参照图2,本发明所述的汉语多音字的自动分析及处理方法包含如下步骤:
首先,以数字形式将汉语语词存储在计算机的存储器2中,以建立一汉语词库3(例如表一所示的汉语词库),中央处理单元1将依据存储器2中所存储的汉语词库3,对输入计算机中的汉语文字串(以下简称句子)进行语词划分(如图2所示10、11),如所输入的例句为:“人参娃娃参加比赛”,经语词划分后得到“人参”、“娃娃”、“参加”及“比赛”等语词,并将这些语词存储至计算机的存储器2中;
         表一
    数字码     汉语语词
     …      …
     …     !!人才外流
     …     人声嘈杂
     …     人之常情
     …      …
     …     人口
     …     人情
     …     人参
     …      …
     …     !!娃娃
     …     娃子
     …      …
     …     !!参差不齐
     …      …
     …     参观
     …     参加
     …     参见
然后使中央处理单元1自存储器2中,读取该句子经语词划分后存储在存储器内的第一个语词,并以其作为“当前语词”(如图2所示12);
对该“当前语词”进行判断,如果“当前语词”是一标记为“单字词”(即该语词只有一个字)的语词,则计算机的中央处理单元1执行下一步骤(如图示13),否则,执行对该“当前语词”的搜寻(如图示13、17);
随后中央处理单元1以该“单字词”为中心,由所输入的句子中搜寻位于当前“单字词”前面的一个汉字,如果存在,即将该汉字标记为“前字”,保存在存储器中,否则,中央处理单元1将再由所输入的句子中搜寻位于该“单字词”后面的一个汉字,如果存在,即将该汉字标记为“后字”,保存在存储器2中(如图示14、15),否则,执行对下一个语词的标记(如图示20);
接着中央处理单元1将存储在存储器中的该“前字”或“后字”,依其在原句子中的顺序,与当前“单字词”组合成为一个“临时语词”,并将该“临时语词”视为“当前语词”,自所建立的一汉语多音字词库中搜寻该“临时语词”中多音字的读音,如果搜寻到,即将所搜寻到的该多音字的读音,存储到存储器2中(如图中16、17、18、19),例如以“行”及“切”二字为例,可由表二、三说明该汉语多音字词库的结构;
                 表二
    行     读音   列举组词之前(后)字
作前字读音     háng   列,业,
作后字读音     háng   横,竖,
作前字读音 xíng 走,路,为
作后字读音 xíng 操,品,
作前字读音     hàng   行
作后字读音     hàng   行
                     表三
    切   读音    列举组词之前(后)字
作前字读音   qìe 切、合、记、忌、身、实、肤、齿、要、题、勿、不
作后字读音   qìe 一、切、急、迫、密、深、确、亲、贴、心、真、殷、痛、热、悲、凄、轻、恳…
作前字读音   qié 开、除、磋、割、口、面、片、线、削…
  …
根据所建立的该汉语多音字词库,依序检查由句子中所划分出的每一个语词,如果某个语词不是“单字词”,即在多音字词库(如表四所示)中搜寻该语词,并将自该破音字词库中搜寻到的该语词中多音字的读音,予以记录;
                              表四
数字码                    汉语多音字词库
  …     …     …
  …     人     rén
  …     参 作前字读音     cān 加、与、…
  … 作前字读音     cēn 差、错、…
  … 作后字读音     shên 人、洋、旗、海、…
  …     …     …
  …     娃 作前字读音     wá 娃、…
  …     娃 作后字读音     wa(轻声) 娃、…
  …     …     …
  …     加     jiā
  …     …     …
然后中央处理单元1自计算机存储器2中,读取该句子经语词划分后存储在该存储器2内的下一个语词作为“当前语词”,如果已依序完成句子中所划分出的每一个语词的检查,即进行下一步骤,否则,返回进行对该“当前语词”是否为“单字词”的判断(如图中21、13);如此,所述例句中各语词的多音现象,即可经本发明的自动分析及处理,依序得到表五所示的结果。
                       表五
  单字词?   当前语词?     多音字读音
    否     人参     参:shēn
    否     娃娃     娃:wá、娃:wa
    否     参加     参:cān
    否     比赛     无
随后中央处理单元1结束对输入计算机中的句子进行多音字的分析及处理(如图示22)。
本发明是以汉语语词库和汉语多音字词库为依据,利用计算机的中央处理单元针对汉语中多音现象进行识别、分析及处理的方法,该方法确实是一种可有效辨识汉语中的多音现象的方法,而传统语言处理器中不作任何多音现象分析,仅随机地选取这些多音字中的任一可能的读音,进行发音处理,致使这些多音字均具两个以上的读音,故这种传统语言处理器针对多音字的发音所应用的随机选取方法,将使多音字的发音正确率很难高于50%。然而,应用本发明的方法,其确定多音字的发音正确率则可轻易达到90%以上。
以上所述,仅是本发明的一较佳实施例,本发明的权利保护范围,并不局限于此,凡本领域技术人员依据本发明披露的内容,可显而易见的进行改进及等效变化,均应属于本发明的保护范围。

Claims (1)

1.一种汉语多音字的自动分析及处理的方法,该方法包含如下步骤:
(1)中央处理单元依据存储器中存储的汉语词库,对输入的汉语文字串进行语词划分,并将划分结果存入存储器中;
(2)从存储器中,读取经划分后的第一个语词作为“当前语词”;
(3)对该“当前语词”进行判断,如果“当前语词”是“单字词”的语词,则执行下述第四步骤,如果“当前语词”不是“单字词”的语词,则执行下述第六步骤;
(4)以该“单字词”为中心,由所输入的句子中搜寻位于该“单字词”前面的一个汉字,如果存在,则将该汉字标记为“前字”,并存入存储器中,如果不存在所述的前面的一个汉字,则由所输入的句子中搜寻位于该“单字词”后面的一个汉字,如果存在,则将该汉字标记为“后字”,保存在存储器中,如果不存在所述的后面的一个汉字,则执行下述第七步骤;
(5)将存储在存储器中的该“前字”或“后字”依其在原句子中的顺序与该“单字词”组合成一“临时语词”,并将该“临时语词”视为“当前语词”;
(6)从存储器中预先所存储的汉语多音字词库中搜寻该“当前语词”中多音字的读音,如果搜寻到,则将所搜寻到的多音字的读音存储到存储器中;如果未搜寻到,则直接进入下一步骤;
(7)从存储器中读取该句子经语词划分后存储在存储器中的下一个语词作为“当前语词”,如果已依序完成句子中所划分出的每一个语词的检查,即进行下述第八步骤,否则返回第三步骤;
(8)结束对输入的句子进行多音字的分析及处理。
CN97116046A 1997-08-15 1997-08-15 汉语多音字的自动分析及处理的方法 Expired - Fee Related CN1105979C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97116046A CN1105979C (zh) 1997-08-15 1997-08-15 汉语多音字的自动分析及处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97116046A CN1105979C (zh) 1997-08-15 1997-08-15 汉语多音字的自动分析及处理的方法

Publications (2)

Publication Number Publication Date
CN1208901A CN1208901A (zh) 1999-02-24
CN1105979C true CN1105979C (zh) 2003-04-16

Family

ID=5173637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97116046A Expired - Fee Related CN1105979C (zh) 1997-08-15 1997-08-15 汉语多音字的自动分析及处理的方法

Country Status (1)

Country Link
CN (1) CN1105979C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100371987C (zh) * 2004-05-13 2008-02-27 深圳市移动核软件有限公司 使汉字自动发音的方法及使手机朗读短消息的方法
CN101324884B (zh) * 2008-07-29 2010-06-02 无敌科技(西安)有限公司 一种多音字发音方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101033977B (zh) * 2007-04-18 2010-09-22 江苏华科导航科技有限公司 导航仪的语音导航方法
CN102567296B (zh) * 2011-01-04 2016-03-30 中国移动通信有限公司 一种汉字信息的处理方法及汉字信息的处理装置
CN104599670B (zh) * 2015-01-30 2017-12-26 泰顺县福田园艺玩具厂 点读笔的语音识别方法
CN110245071B (zh) * 2019-05-07 2023-03-14 北京金山安全软件有限公司 一种输入法的测试方法、装置、电子设备及存储介质
CN112309385A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
上海师范大学学报(自然科学自版)04期 1996-01-01 潘以锋;计算机在汉字自动注音中的应用 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100371987C (zh) * 2004-05-13 2008-02-27 深圳市移动核软件有限公司 使汉字自动发音的方法及使手机朗读短消息的方法
CN101324884B (zh) * 2008-07-29 2010-06-02 无敌科技(西安)有限公司 一种多音字发音方法

Also Published As

Publication number Publication date
CN1208901A (zh) 1999-02-24

Similar Documents

Publication Publication Date Title
Black et al. Statistically-driven computer grammars of English: The IBM/Lancaster approach
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
US6782505B1 (en) Method and system for generating structured data from semi-structured data sources
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
US5642520A (en) Method and apparatus for recognizing topic structure of language data
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
CN110866089A (zh) 基于同义多语境分析的机器人知识库构建系统及方法
CN111104803A (zh) 语义理解处理方法、装置、设备及可读存储介质
Ali et al. Genetic approach for Arabic part of speech tagging
CN115017268B (zh) 一种基于树结构的启发式日志抽取方法及系统
Al-Kabi et al. Statistical classifier of the holy Quran verses (Fatiha and Yaseen chapters)
CN1105979C (zh) 汉语多音字的自动分析及处理的方法
EP0524694B1 (en) A method of inflecting words and a data processing unit for performing such method
Blake et al. Shortening the OED: Experience with a grammar-defined database
Oostdijk et al. Clause patterns in Modern British English: A corpus-based (quantitative) study
CN113190692A (zh) 一种知识图谱的自适应检索方法、系统及装置
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
CN101499056A (zh) 倒排参考句型语言分析方法
Sailhamer A database approach to the analysis of Hebrew narrative
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
JP7044245B2 (ja) 対話システム補強装置及びコンピュータプログラム
Duran Non-standard forms of Swahili in west-central Kenya
CN110955768A (zh) 一种基于句法分析的问答系统答案生成方法
CN1154066C (zh) 英文自然句自动识别及免查单词的自动处理方法
CN117672182B (zh) 一种基于人工智能的声音克隆方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030416

Termination date: 20100815