一种多音字发音方法
技术领域
本发明涉及一种多音字发音方法,尤其是提高电子装置的多音字发音正确性的方法。
背景技术
先前技术的多音字发音方法,如台湾专利公告编号338813,当中所述对多音字自动分析及处理的方法,其处理流程如下,参见图1:
首先,建立汉词语库,该汉词语库以数字形式将汉语词语储存在计算机内存中,计算机中央处理单元根据内存中所储存的下列汉词语库:
数字 |
汉语词语 |
… |
… |
… |
!!人才外流 |
… |
人声嘈杂 |
… |
人之常情 |
… |
… |
… |
人口 |
… |
人情 |
… |
人参 |
… |
… |
… |
!!娃娃 |
… |
娃子 |
… |
… |
… |
!!参差不齐 |
… |
… |
… |
参观 |
… |
参加 |
,对输入计算机中的汉语文字字符串(以下简称句子)进行词语划分,如所输入的例句为:「人参娃娃参加比赛。」,经词语划分后得到「人参」、「娃娃」、「参加」及「比赛」等词语,并将这些词语储存至计算机内存中;
通过识别、分析及处理方法,中央处理单元从计算机内存中,读取该句子经词语划分后储存在内存内的第一个词语,并以其作为“当前词语”;
如果“当前词语”是一个标记为“单字词”(即该词语只有一个字)的词语,计算机中央处理单元执行下一步,否则,计算机执行步骤(6);
中央处理单元以该“单字词”为中心,从所输入的句子中搜寻位于当前“单字词”前面的一个汉字,如果存在,即将该汉字标记为“前字”,保存在内存中,否则,中央处理单元将再由所输入的句子中搜寻位于“当前词语”后面一个汉字,如果存在,即将该汉字标记为“后字”,保存在内存中,否则,计算机执行步骤(7);
中央处理单元将储存在内存中的“前字”或“后字”,根据其在原句子中的顺序,与当前“单字词”,组合成为新的“临时词语”,并将新的“临时词语”视为“当前词语”,从所建立的汉语多音字词库中搜寻“临时词语”中多音字的读音,如果搜寻到,即将所搜寻到的多音字的读音,储存至内存中;以“分”及“切”二字为例,列表说明该汉语多音字词库的结构如下:
分 |
读音 |
列举组词的前(后)字 |
作前字读音 |
fen |
析、开、裂、割、离、散、化、界、别、数、解、叉、辨、手、配、岐、明… |
作后字读音 |
fen |
微、高、二、克、际… |
作前字读音 |
fen` |
内、外、量、子、际、儿… |
作后字读音 |
fen` |
名、职、其、处、过、身、安、成、养、天、充、本、情、部、福、辈、盐、水、等… |
… |
… |
… |
切 |
读音 |
列举组词的前(后)字 |
作前字读音 |
qie` |
切、合、记、忌、身、体、责、结、实、肤、齿、中、近、要、当、题、勿、不、盼、望、脉… |
作后字读音 |
qie` |
一、切、急、迫、密、深、确、亲、贴、不、 |
|
|
心、恳、殷、真、痛、热、操、激、关、凄、适、悲、凄、轻、恳… |
作前字读音 |
qie |
开、变、除、磋、点、割、口、面、片、线、削… |
… |
… |
… |
根据建立的汉语多音字词库,依序检查由句子中所划分出的每一个词语,如果某个词语不是“单字词”,即在下列多音字词库中搜寻该词语:
,并将从该多音字词库中搜寻到的词语中多音字的读音,予以记录;
中央处理单元从计算机内存中,读取该句子经词语划分后储存在该内存内的下一个词语作为“当前词语”,如果已依序完成句子中所划分出的每一个词语的检查,即进行下一步骤,否则,返回步骤(3),继续进行;如此,前述例句中各词语的破音现像,即可经自动分析及处理,依序得到下表所示结果:
单字词 |
当前词语 |
多音字读音 |
否 |
人参 |
参:sen |
否 |
娃娃 |
娃:wa′、娃:wa. |
否 |
参加 |
参:can |
否 |
比赛 |
无 |
中央处理单元结束对输入计算机中的句子进行多音字的分析及处理。
然而,上述先前技术的方法,如遇到同时多音字前后字都具有意义时,例如:水分(fen)子时,依据流程图所示,“分”字具有前字“水”字,标为“当前词语”成为“水分(fen`)”,并可在汉语破音词库中搜寻到,而在进入下一个字“子”时,“子”字具有前字“分”,也可标为“当前词语”成为“分(fen)子”,但是前面具有“水分(fen`)”一词,又碰上“分(fen)子”一词,那么应该是采用哪一个词作为这词“水分(fen)子”的正确发音,即成为一个问题。
为满足上述所提出,当碰上多音字前后两字都具有意义时,该如何做取舍,以达到正确多音字发音的需求。本发明人基于多年从事研究与诸多实务经验,经多方研究设计与专题探讨,于本发明提出一种多音字发音方法以作为前述期望的实现方式与依据。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提出一种电子装置的多音字发音方法,尤其是先将多音字前后字与多音字组合,以进行破音词的比对,并以校正档对多音字进行冲突比对,以达到提高多音字发音正确的目的。
本发明的技术解决方案是:本发明是一种多音字发音方法,适用于具有储存单元、词库、处理单元的电子装置,且词库具有词汇并储存于储存单元,其特殊之处在于:该方法包含下列步骤:
1)提供破音词库及校正档,破音词库储存破音词及多音字,校正档储存词条,而词库、破音词库及校正档储存在储存单元内,而储存单元与处理单元相连接;
2)接收具有文字的词句;
3)通过处理单元比对词句中每一个文字是否具有多音字;
4)当词句具有多音字时,则将词句与破音词库进行比对,以判断词句与破音词是否相匹配;
5)当词句与破音词相匹配时,则与校正档进行冲突比对,冲突比对比对词句是否与校正档的词条相匹配;
6)若词句与词条相匹配,则进行发音动作;若词句与词条不匹配,则根据多音字在词库中选用词汇进行发音动作。
上述步骤3)中词句中每一个文字若无多音字,则进行发音动作。
上述步骤4)中词句若没有与破音词相匹配,则根据相匹配的破音词进行发音动作。
上述步骤4)包含有步骤4.1):当词句与破音词库进行比对时,将多音字分别与前三个字或后三个字或前后三个字组成,比对是否与破音词相匹配。
上述步骤4.1)中,当多音字分别与前三个字或后三个字或前后三个字组成,与破音词相匹配时,进行发音动作。
上述步骤4.1)后还包含步骤4.2):当多音字分别与前三个字或后三个字或前后三个字组成,比对与破音词不相匹配时,将多音字分别与前二个字或后二个字或前后二个字组成,比对是否与破音词相匹配。
上述步骤4.2)中,当多音字分别与前二个字或后二个字或前后二个字组成,与破音词相匹配时,进行发音动作。
上述步骤4.2)后还包含步骤4.3):当多音字分别与前二个字或后二个字或前后二个字组成,与破音词不相匹配时,将多音字分别与前一个字或后一个字或前后一个字组成与破音词比对,并进行步骤5)。
上述词汇的选用取决于词汇使用的频率。
上述电子装置更具有音效单元,用来进行发音动作。
根据本发明的一种电子装置的多音字发音方法,其主要通过将多音字的前后扫描范围由大到小,减少多音字的歧读;对歧读的发音通过校正档二次校正或者词频的选定,大大提高多音字在文字转化为读音中的正确性。
附图说明
图1为先前技术汉语多音字的自动分析及处理方法;
图2为本发明的多音字发音方法较佳实施流程图。
具体实施方式
在汉语文字中,有许多文字的发音不局限于一种读音,这些具有多种读音的文字,根据其前后关系的不同,同一个字用在不同地方会有不同读音或念法的字,就像在“请教一下”中的“教”是读四声,在“视听教学”中,“教”又读成一声,这是相同念法而读音不同;又如“给”这个字,在“给你一巴掌”中念成三声geiˇ,在“需求供给”中也是三声,却念成jiˇ。
为提高多音字发音的正确性,在计算机的处理单元中根据储存单元中储存的汉语的破音词库对输入的中文句子的文字符串进行扫描。当识别到多音字时,以此多音字前(后)三个汉字匹配储存的汉语的词库,当匹配到依照词库中收录的词发音;若无,依次减少匹配前(后)的二个或一个汉字匹配。如果前后一个汉字都可与此多音字组词匹配到时,再从储存单元中的校正文件进行校正选取合适的正确的读音。若在校正档中未收录此词条,可根据汉语的词库中词汇的使用频率,选取使用频率较高的词汇的读音,提高发音准确的概率。
如:一个水分子由一个氢原子和两个氧原子组成。
“分”是多音字,“水分(shuiˇfen`)”,“分子(fen ziˇ)”,有冲突,“水分子”要采分(fen)。计算机的处理单元中,根据储存单元中储存的汉语的破音词库,对输入的中文句子的文字符串“一个水分子由一个氢原子和两个氧原子组成。”进行扫描。当识别到“分”是多音字时,匹配前三个字“一个水分”及后三个字“分子由一”在汉语的词库中并未收录,匹配前二个字“个水分”及后二个字“分子由”在汉语的词库中也未收录,而在匹配前后一个字在汉语的词库中有收录,如同“水分(shuiˇfen`)”一词以及“分子(fen ziˇ)”一词,但是两个词会发生冲突,因此进行冲突比对,进而查询校正档有无收录与“分”字有关的词条,当在校正档中搜寻到“水分子(shuiˇfen ziˇ)”一词时,即将此冲突进行校正,将发音校正为词条中的正确发音“分”(fen)音。
又如:我们的聚会计划,
“会”是多音字,但破音词库中有“聚会(ju`hui`)”一词以及“会计(kuai`ji`)”一词,发生了冲突。然而计算机的处理单元中,根据储存单元中储存的汉语的破音词库,对输入的中文句子的文字符串“我们的聚会计划”进行扫描。识别到“会”是多音字,匹配前三个字“们的聚会”及后三个字“会计划,”在汉语的词库中未收录,匹配前二个字“的聚会”及后二个字“会计划”在汉语的词库中也未收录,匹配前后一个字在汉语的词库中收录,“聚会(ju`hui`)”一词与“会计(kuai`ji`)”一词有冲突,但在查询校正档时并未收录“聚会计”一词,然而根据汉语的词库的词频,“聚会(ju`hui`)”一词使用频率较“会计(kuai`ji`)”一词的使用频率高一些,所以此处采用“聚会(ju`hui`)”的发音。
参见图2,本发明具体实施例的步骤如下:
101)接收词句;
102)从处理单元进行比对;
103)词句中是否具有多音字,若否,则进行步骤112;若是则进行步骤104;
104)多音字分别与前三个字或后三个字或前后三个字组成,比对是否与该破音词相匹配;若是,则进行步骤111;若否,则进行步骤105;
105)多音字分别与前二个字或后二个字或前后二个字组成,比对是否与该破音词相匹配;若是,则进行步骤111;若否,则进行步骤106;
106)多音字分别与前一个字或后一个字或前后一个字组成与该破音词比对;
107)是否与若干个破音词相匹配;若否,则进行步骤111;若是,则进行步骤108;
108)冲突比对;
109)是否与校正档的词条相匹配;若是,则进行步骤111;若否,则进行步骤110;
110)依据词库中词汇使用频频选择常用词汇确认发音,并进入步骤112;
111)确认发音;
112)发音。