CN1105979C

CN1105979C - 汉语多音字的自动分析及处理的方法

Info

Publication number: CN1105979C
Application number: CN97116046A
Authority: CN
Inventors: 张景嵩; 钱力强; 杨徽
Original assignee: Inventec Corp
Current assignee: Inventec Corp
Priority date: 1997-08-15
Filing date: 1997-08-15
Publication date: 2003-04-16
Anticipated expiration: 2017-08-15
Also published as: CN1208901A

Abstract

汉语多音字的自动分析及处理方法是由中央处理单元依存储器中存储的汉语词库，对输入的汉语句子的文字串进行语词划分，再根据汉语多音字词库，依序检查划分出的每个语词，并在该多音字词库中以被标为“单字词”的语词为中心，在该句子的上下文中搜寻该“单字词”前面的一字，标为“前字”，如果没有，则寻找句子中该“单字词”后面的一字，标为“后字”，再将该单字词与“前字”或“后字”合成一“临时语词”，并在该多音字词库中搜寻该语词的多音字读音实现的。

Description

汉语多音字的自动分析及处理的方法

本发明涉及一种汉语多音字的自动分析及处理的方法，特别是一种利用计算机的中央处理单元对汉语(即一般所称的中文)中多音现象进行识别、分析及处理的方法。

在汉语的文字中，有许多文字的发音不局限于一种读音，这些具有多种读音的文字，根据其与其前后文关系的不同，不仅读音不同，其文字的意义亦将随之改变，故这些文字以某一读音发音时，是代表某一意思，若以另外一读音发音时，就变成另一个意思。这种同一个字体，欲分别具有几个不同读音，且分别代表几种不同意思的汉字，即本发明中所谓的“多音字”。

现以“行”字为例，当以“xíng”为读音时，代表“行走”的意思；若以“háng”为读音时，代表“商行”或“行业”的意思；又若以“hàng”为读音时，则是指树木排列成队的样子，或口语中所谓“树行子”的语调，另外，在文言文中读“hàng”，还代表刚强的神态，如：论语中所言“子路，行行如也”。因此，“行”即汉语中所谓的“多音字”。

由于，在汉语的文字中，一文字具有多种读音的多音现象是中国语文的特色，故自古至今，在中国社会中，多音字始终非常普遍地被应用于一般文章、歌曲及口语中，而有其不可缺少的意义及重要性，而在以汉语为全世界最大语系的中国族群中，如何将汉语应用于计算机等自动化机器中，已逐渐成为未来信息科技发展中倍受重视的领域，因此，考虑这一情况，未来在计算机、电子字典及电子记事簿等许多自动机器设备的发展中，如何使其具备足以针对汉语的语言现象自动进行识别、分析及处理的能力，即成为一相当重要的课题。

本发明的目的是提供一种汉语多音字的自动分析及处理的方法，具体涉及一种针对汉语语言中的多音现象进行自动识别、分析及处理的方法，通过本发明的方法能使计算机等自动化机器识别汉语文字中的多音字，并确定多音字在上下文中的正确读音及意义。

为达到上述目的本发明所提供的汉语多音字的自动分析及处理的方法是以数字形式将汉语语词存储在计算机的存储器中，以建立一汉语词库，然后，中央处理单元依据该汉语词库对输入计算机中的汉语文字串(以下简称句子)进行语词划分；将划分后的第一个语词作为“当前语词”；对该“当前语词”进行判断，如果某个词语不是“单字词”，再根据所建立的一汉语多音字词库，检查由句子中所划分出的该词语，即在该多音字词库中搜寻该语词，并将所搜寻到的多音字读音，标记至该语词上；如果“当前语词”标记为“单字词”，则以被标记为“单字词”的语词为中心，在该句子的上下文中搜寻该“单字词”前面的一个字，标记为“前字”，如果没有搜寻到，则寻找该“单字词”后面的一个字，标记为“后字”并将该“单字词”与“前字”或“后字”合成一个“临时语词”，接着在该多音字词库中搜寻该语词，再将搜寻到的多音字的读音，标记至该语词上；重复检查，直至依序完成句子中所划分出的每一语词的检查为止。

本发明的方法是藉助于计算机的高速分析及处理能力，可使其在有关语音的人工智慧、电脑语音识别及汉语的计算机语音合成等领域，对所有可能的汉语发音作精密确切的识别、分析及处理，以即时辨识出汉语文句中各文字的正确读音及意义。

图1所示为本发明的系统结构示意图；

图2所示为本发明的汉语多音字的自动分析及处理方法的详细流程示意图。

现结合附图对本发明的汉语多音字的自动分析及处理方法进行详细说明。

参照图1，本发明所说方法主要通过计算机的中央处理单元1，存储器2，以及存储器2中建立的一汉语词库3及一汉语多音字词库4所构成的系统来完成的。

参照图2，本发明所述的汉语多音字的自动分析及处理方法包含如下步骤：

首先，以数字形式将汉语语词存储在计算机的存储器2中，以建立一汉语词库3(例如表一所示的汉语词库)，中央处理单元1将依据存储器2中所存储的汉语词库3，对输入计算机中的汉语文字串(以下简称句子)进行语词划分(如图2所示10、11)，如所输入的例句为：“人参娃娃参加比赛”，经语词划分后得到“人参”、“娃娃”、“参加”及“比赛”等语词，并将这些语词存储至计算机的存储器2中；

表一

数字码	汉语语词
数字码	汉语语词	…	…
…	！！人才外流	…	…
…	！！人才外流	…	人声嘈杂
…	人之常情	…	人声嘈杂
…	人之常情	…	…
…	人口	…	…
…	人口	…	人情
…	人参	…	人情
…	人参	…	…
…	！！娃娃	…	…
…	！！娃娃	…	娃子
…	…	…	娃子
…	…	…	！！参差不齐
…	…	…	！！参差不齐
…	…	…	参观
…	参加	…	参观
…	参加	…	参见

然后使中央处理单元1自存储器2中，读取该句子经语词划分后存储在存储器内的第一个语词，并以其作为“当前语词”(如图2所示12)；

对该“当前语词”进行判断，如果“当前语词”是一标记为“单字词”(即该语词只有一个字)的语词，则计算机的中央处理单元1执行下一步骤(如图示13)，否则，执行对该“当前语词”的搜寻(如图示13、17)；

随后中央处理单元1以该“单字词”为中心，由所输入的句子中搜寻位于当前“单字词”前面的一个汉字，如果存在，即将该汉字标记为“前字”，保存在存储器中，否则，中央处理单元1将再由所输入的句子中搜寻位于该“单字词”后面的一个汉字，如果存在，即将该汉字标记为“后字”，保存在存储器2中(如图示14、15)，否则，执行对下一个语词的标记(如图示20)；

接着中央处理单元1将存储在存储器中的该“前字”或“后字”，依其在原句子中的顺序，与当前“单字词”组合成为一个“临时语词”，并将该“临时语词”视为“当前语词”，自所建立的一汉语多音字词库中搜寻该“临时语词”中多音字的读音，如果搜寻到，即将所搜寻到的该多音字的读音，存储到存储器2中(如图中16、17、18、19)，例如以“行”及“切”二字为例，可由表二、三说明该汉语多音字词库的结构；

表二

行	读音	列举组词之前(后)字
行	读音	列举组词之前(后)字	作前字读音	háng	列，业，
作后字读音	háng	横，竖，	作前字读音	háng	列，业，
作后字读音	háng	横，竖，	作前字读音	xíng	走，路，为
作后字读音	xíng	操，品，	作前字读音	xíng	走，路，为
作后字读音	xíng	操，品，	作前字读音	hàng	行
作后字读音	hàng	行	作前字读音	hàng	行

表三

切	读音	列举组词之前(后)字
切	读音	列举组词之前(后)字	作前字读音	qìe	切、合、记、忌、身、实、肤、齿、要、题、勿、不
作后字读音	qìe	一、切、急、迫、密、深、确、亲、贴、心、真、殷、痛、热、悲、凄、轻、恳…	作前字读音	qìe	切、合、记、忌、身、实、肤、齿、要、题、勿、不
作后字读音	qìe	一、切、急、迫、密、深、确、亲、贴、心、真、殷、痛、热、悲、凄、轻、恳…	作前字读音	qié	开、除、磋、割、口、面、片、线、削…
…	…	…	作前字读音	qié	开、除、磋、割、口、面、片、线、削…

根据所建立的该汉语多音字词库，依序检查由句子中所划分出的每一个语词，如果某个语词不是“单字词”，即在多音字词库(如表四所示)中搜寻该语词，并将自该破音字词库中搜寻到的该语词中多音字的读音，予以记录；

表四

数字码	汉语多音字词库
数字码	汉语多音字词库				…	…	…	…	…
…	人		rén		…	…	…	…	…
…	人		rén		…	参	作前字读音	cān	加、与、…
…		作前字读音	cēn	差、错、…	…	参	作前字读音	cān	加、与、…
…		作前字读音	cēn	差、错、…	…		作后字读音	shên	人、洋、旗、海、…
…	…	…	…	…	…		作后字读音	shên	人、洋、旗、海、…
…	…	…	…	…	…	娃	作前字读音	wá	娃、…
…	娃	作后字读音	wa(轻声)	娃、…	…	娃	作前字读音	wá	娃、…
…	娃	作后字读音	wa(轻声)	娃、…	…	…	…	…	…
…	加		jiā		…	…	…	…	…
…	加		jiā		…	…	…	…	…

然后中央处理单元1自计算机存储器2中，读取该句子经语词划分后存储在该存储器2内的下一个语词作为“当前语词”，如果已依序完成句子中所划分出的每一个语词的检查，即进行下一步骤，否则，返回进行对该“当前语词”是否为“单字词”的判断(如图中21、13)；如此，所述例句中各语词的多音现象，即可经本发明的自动分析及处理，依序得到表五所示的结果。

表五

单字词？	当前语词？	多音字读音
单字词？	当前语词？	多音字读音	否	人参	参：shēn
否	娃娃	娃：wá、娃：wa	否	人参	参：shēn
否	娃娃	娃：wá、娃：wa	否	参加	参：cān
否	比赛	无	否	参加	参：cān

随后中央处理单元1结束对输入计算机中的句子进行多音字的分析及处理(如图示22)。

本发明是以汉语语词库和汉语多音字词库为依据，利用计算机的中央处理单元针对汉语中多音现象进行识别、分析及处理的方法，该方法确实是一种可有效辨识汉语中的多音现象的方法，而传统语言处理器中不作任何多音现象分析，仅随机地选取这些多音字中的任一可能的读音，进行发音处理，致使这些多音字均具两个以上的读音，故这种传统语言处理器针对多音字的发音所应用的随机选取方法，将使多音字的发音正确率很难高于50％。然而，应用本发明的方法，其确定多音字的发音正确率则可轻易达到90％以上。

以上所述，仅是本发明的一较佳实施例，本发明的权利保护范围，并不局限于此，凡本领域技术人员依据本发明披露的内容，可显而易见的进行改进及等效变化，均应属于本发明的保护范围。

Claims

1.一种汉语多音字的自动分析及处理的方法，该方法包含如下步骤：

(1)中央处理单元依据存储器中存储的汉语词库，对输入的汉语文字串进行语词划分，并将划分结果存入存储器中；

(2)从存储器中，读取经划分后的第一个语词作为“当前语词”；

(3)对该“当前语词”进行判断，如果“当前语词”是“单字词”的语词，则执行下述第四步骤，如果“当前语词”不是“单字词”的语词，则执行下述第六步骤；

(4)以该“单字词”为中心，由所输入的句子中搜寻位于该“单字词”前面的一个汉字，如果存在，则将该汉字标记为“前字”，并存入存储器中，如果不存在所述的前面的一个汉字，则由所输入的句子中搜寻位于该“单字词”后面的一个汉字，如果存在，则将该汉字标记为“后字”，保存在存储器中，如果不存在所述的后面的一个汉字，则执行下述第七步骤；

(5)将存储在存储器中的该“前字”或“后字”依其在原句子中的顺序与该“单字词”组合成一“临时语词”，并将该“临时语词”视为“当前语词”；

(6)从存储器中预先所存储的汉语多音字词库中搜寻该“当前语词”中多音字的读音，如果搜寻到，则将所搜寻到的多音字的读音存储到存储器中；如果未搜寻到，则直接进入下一步骤；

(7)从存储器中读取该句子经语词划分后存储在存储器中的下一个语词作为“当前语词”，如果已依序完成句子中所划分出的每一个语词的检查，即进行下述第八步骤，否则返回第三步骤；

(8)结束对输入的句子进行多音字的分析及处理。