CN101324884B - 一种多音字发音方法 - Google Patents

一种多音字发音方法 Download PDF

Info

Publication number
CN101324884B
CN101324884B CN2008101504950A CN200810150495A CN101324884B CN 101324884 B CN101324884 B CN 101324884B CN 2008101504950 A CN2008101504950 A CN 2008101504950A CN 200810150495 A CN200810150495 A CN 200810150495A CN 101324884 B CN101324884 B CN 101324884B
Authority
CN
China
Prior art keywords
words
polyphone
word
distorsion
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101504950A
Other languages
English (en)
Other versions
CN101324884A (zh
Inventor
陈淮琰
蒋阳安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Besta Xian Co Ltd
Original Assignee
Inventec Besta Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Xian Co Ltd filed Critical Inventec Besta Xian Co Ltd
Priority to CN2008101504950A priority Critical patent/CN101324884B/zh
Publication of CN101324884A publication Critical patent/CN101324884A/zh
Application granted granted Critical
Publication of CN101324884B publication Critical patent/CN101324884B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种电子装置的多音字发音方法,包括下列步骤:接收词句;通过处理单元比对词句中每一个文字是否具有多音字;当词句具有多音字时,与破音词库进行比对;比对词句与若干个破音词是否相匹配;当词句与若干个破音词相匹配时,则与校正档进行冲突比对,是否与校正档的词条相匹配;若词句与词条相匹配,则进行发音动作;若词句与词条不匹配,则根据多音字在词库中选用的词汇进行发音动作。本发明可大大提高多音字在文字转化为读音中的正确性。

Description

一种多音字发音方法
技术领域
本发明涉及一种多音字发音方法,尤其是提高电子装置的多音字发音正确性的方法。
背景技术
先前技术的多音字发音方法,如台湾专利公告编号338813,当中所述对多音字自动分析及处理的方法,其处理流程如下,参见图1:
首先,建立汉词语库,该汉词语库以数字形式将汉语词语储存在计算机内存中,计算机中央处理单元根据内存中所储存的下列汉词语库:
  数字   汉语词语
  …   …
  …   !!人才外流
  …   人声嘈杂
  …   人之常情
  …   …
  …   人口
  …   人情
  …   人参
  …   …
  …   !!娃娃
  …   娃子
  …   …
  …   !!参差不齐
  …   …
  …   参观
  …   参加
  数字   汉语词语
  …   参见
,对输入计算机中的汉语文字字符串(以下简称句子)进行词语划分,如所输入的例句为:「人参娃娃参加比赛。」,经词语划分后得到「人参」、「娃娃」、「参加」及「比赛」等词语,并将这些词语储存至计算机内存中;
通过识别、分析及处理方法,中央处理单元从计算机内存中,读取该句子经词语划分后储存在内存内的第一个词语,并以其作为“当前词语”;
如果“当前词语”是一个标记为“单字词”(即该词语只有一个字)的词语,计算机中央处理单元执行下一步,否则,计算机执行步骤(6);
中央处理单元以该“单字词”为中心,从所输入的句子中搜寻位于当前“单字词”前面的一个汉字,如果存在,即将该汉字标记为“前字”,保存在内存中,否则,中央处理单元将再由所输入的句子中搜寻位于“当前词语”后面一个汉字,如果存在,即将该汉字标记为“后字”,保存在内存中,否则,计算机执行步骤(7);
中央处理单元将储存在内存中的“前字”或“后字”,根据其在原句子中的顺序,与当前“单字词”,组合成为新的“临时词语”,并将新的“临时词语”视为“当前词语”,从所建立的汉语多音字词库中搜寻“临时词语”中多音字的读音,如果搜寻到,即将所搜寻到的多音字的读音,储存至内存中;以“分”及“切”二字为例,列表说明该汉语多音字词库的结构如下:
  分   读音   列举组词的前(后)字
作前字读音 fen   析、开、裂、割、离、散、化、界、别、数、解、叉、辨、手、配、岐、明…
  作后字读音   fen   微、高、二、克、际…
  作前字读音   fen`   内、外、量、子、际、儿…
  作后字读音   fen`   名、职、其、处、过、身、安、成、养、天、充、本、情、部、福、辈、盐、水、等…
  …   …   …
  切   读音   列举组词的前(后)字
作前字读音 qie`   切、合、记、忌、身、体、责、结、实、肤、齿、中、近、要、当、题、勿、不、盼、望、脉…
  作后字读音   qie`   一、切、急、迫、密、深、确、亲、贴、不、
  心、恳、殷、真、痛、热、操、激、关、凄、适、悲、凄、轻、恳…
  作前字读音 qie   开、变、除、磋、点、割、口、面、片、线、削…
  …   …   …
根据建立的汉语多音字词库,依序检查由句子中所划分出的每一个词语,如果某个词语不是“单字词”,即在下列多音字词库中搜寻该词语:
Figure G2008101504950D00031
,并将从该多音字词库中搜寻到的词语中多音字的读音,予以记录;
中央处理单元从计算机内存中,读取该句子经词语划分后储存在该内存内的下一个词语作为“当前词语”,如果已依序完成句子中所划分出的每一个词语的检查,即进行下一步骤,否则,返回步骤(3),继续进行;如此,前述例句中各词语的破音现像,即可经自动分析及处理,依序得到下表所示结果:
  单字词   当前词语   多音字读音
  否   人参   参:sen
  否   娃娃   娃:wa′、娃:wa.
  否   参加   参:can
  否   比赛   无
中央处理单元结束对输入计算机中的句子进行多音字的分析及处理。
然而,上述先前技术的方法,如遇到同时多音字前后字都具有意义时,例如:水分(fen)子时,依据流程图所示,“分”字具有前字“水”字,标为“当前词语”成为“水分(fen`)”,并可在汉语破音词库中搜寻到,而在进入下一个字“子”时,“子”字具有前字“分”,也可标为“当前词语”成为“分(fen)子”,但是前面具有“水分(fen`)”一词,又碰上“分(fen)子”一词,那么应该是采用哪一个词作为这词“水分(fen)子”的正确发音,即成为一个问题。
为满足上述所提出,当碰上多音字前后两字都具有意义时,该如何做取舍,以达到正确多音字发音的需求。本发明人基于多年从事研究与诸多实务经验,经多方研究设计与专题探讨,于本发明提出一种多音字发音方法以作为前述期望的实现方式与依据。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提出一种电子装置的多音字发音方法,尤其是先将多音字前后字与多音字组合,以进行破音词的比对,并以校正档对多音字进行冲突比对,以达到提高多音字发音正确的目的。
本发明的技术解决方案是:本发明是一种多音字发音方法,适用于具有储存单元、词库、处理单元的电子装置,且词库具有词汇并储存于储存单元,其特殊之处在于:该方法包含下列步骤:
1)提供破音词库及校正档,破音词库储存破音词及多音字,校正档储存词条,而词库、破音词库及校正档储存在储存单元内,而储存单元与处理单元相连接;
2)接收具有文字的词句;
3)通过处理单元比对词句中每一个文字是否具有多音字;
4)当词句具有多音字时,则将词句与破音词库进行比对,以判断词句与破音词是否相匹配;
5)当词句与破音词相匹配时,则与校正档进行冲突比对,冲突比对比对词句是否与校正档的词条相匹配;
6)若词句与词条相匹配,则进行发音动作;若词句与词条不匹配,则根据多音字在词库中选用词汇进行发音动作。
上述步骤3)中词句中每一个文字若无多音字,则进行发音动作。
上述步骤4)中词句若没有与破音词相匹配,则根据相匹配的破音词进行发音动作。
上述步骤4)包含有步骤4.1):当词句与破音词库进行比对时,将多音字分别与前三个字或后三个字或前后三个字组成,比对是否与破音词相匹配。
上述步骤4.1)中,当多音字分别与前三个字或后三个字或前后三个字组成,与破音词相匹配时,进行发音动作。
上述步骤4.1)后还包含步骤4.2):当多音字分别与前三个字或后三个字或前后三个字组成,比对与破音词不相匹配时,将多音字分别与前二个字或后二个字或前后二个字组成,比对是否与破音词相匹配。
上述步骤4.2)中,当多音字分别与前二个字或后二个字或前后二个字组成,与破音词相匹配时,进行发音动作。
上述步骤4.2)后还包含步骤4.3):当多音字分别与前二个字或后二个字或前后二个字组成,与破音词不相匹配时,将多音字分别与前一个字或后一个字或前后一个字组成与破音词比对,并进行步骤5)。
上述词汇的选用取决于词汇使用的频率。
上述电子装置更具有音效单元,用来进行发音动作。
根据本发明的一种电子装置的多音字发音方法,其主要通过将多音字的前后扫描范围由大到小,减少多音字的歧读;对歧读的发音通过校正档二次校正或者词频的选定,大大提高多音字在文字转化为读音中的正确性。
附图说明
图1为先前技术汉语多音字的自动分析及处理方法;
图2为本发明的多音字发音方法较佳实施流程图。
具体实施方式
在汉语文字中,有许多文字的发音不局限于一种读音,这些具有多种读音的文字,根据其前后关系的不同,同一个字用在不同地方会有不同读音或念法的字,就像在“请教一下”中的“教”是读四声,在“视听教学”中,“教”又读成一声,这是相同念法而读音不同;又如“给”这个字,在“给你一巴掌”中念成三声geiˇ,在“需求供给”中也是三声,却念成jiˇ。
为提高多音字发音的正确性,在计算机的处理单元中根据储存单元中储存的汉语的破音词库对输入的中文句子的文字符串进行扫描。当识别到多音字时,以此多音字前(后)三个汉字匹配储存的汉语的词库,当匹配到依照词库中收录的词发音;若无,依次减少匹配前(后)的二个或一个汉字匹配。如果前后一个汉字都可与此多音字组词匹配到时,再从储存单元中的校正文件进行校正选取合适的正确的读音。若在校正档中未收录此词条,可根据汉语的词库中词汇的使用频率,选取使用频率较高的词汇的读音,提高发音准确的概率。
如:一个水分子由一个氢原子和两个氧原子组成。
“分”是多音字,“水分(shuiˇfen`)”,“分子(fen ziˇ)”,有冲突,“水分子”要采分(fen)。计算机的处理单元中,根据储存单元中储存的汉语的破音词库,对输入的中文句子的文字符串“一个水分子由一个氢原子和两个氧原子组成。”进行扫描。当识别到“分”是多音字时,匹配前三个字“一个水分”及后三个字“分子由一”在汉语的词库中并未收录,匹配前二个字“个水分”及后二个字“分子由”在汉语的词库中也未收录,而在匹配前后一个字在汉语的词库中有收录,如同“水分(shuiˇfen`)”一词以及“分子(fen ziˇ)”一词,但是两个词会发生冲突,因此进行冲突比对,进而查询校正档有无收录与“分”字有关的词条,当在校正档中搜寻到“水分子(shuiˇfen ziˇ)”一词时,即将此冲突进行校正,将发音校正为词条中的正确发音“分”(fen)音。
又如:我们的聚会计划,
“会”是多音字,但破音词库中有“聚会(ju`hui`)”一词以及“会计(kuai`ji`)”一词,发生了冲突。然而计算机的处理单元中,根据储存单元中储存的汉语的破音词库,对输入的中文句子的文字符串“我们的聚会计划”进行扫描。识别到“会”是多音字,匹配前三个字“们的聚会”及后三个字“会计划,”在汉语的词库中未收录,匹配前二个字“的聚会”及后二个字“会计划”在汉语的词库中也未收录,匹配前后一个字在汉语的词库中收录,“聚会(ju`hui`)”一词与“会计(kuai`ji`)”一词有冲突,但在查询校正档时并未收录“聚会计”一词,然而根据汉语的词库的词频,“聚会(ju`hui`)”一词使用频率较“会计(kuai`ji`)”一词的使用频率高一些,所以此处采用“聚会(ju`hui`)”的发音。
参见图2,本发明具体实施例的步骤如下:
101)接收词句;
102)从处理单元进行比对;
103)词句中是否具有多音字,若否,则进行步骤112;若是则进行步骤104;
104)多音字分别与前三个字或后三个字或前后三个字组成,比对是否与该破音词相匹配;若是,则进行步骤111;若否,则进行步骤105;
105)多音字分别与前二个字或后二个字或前后二个字组成,比对是否与该破音词相匹配;若是,则进行步骤111;若否,则进行步骤106;
106)多音字分别与前一个字或后一个字或前后一个字组成与该破音词比对;
107)是否与若干个破音词相匹配;若否,则进行步骤111;若是,则进行步骤108;
108)冲突比对;
109)是否与校正档的词条相匹配;若是,则进行步骤111;若否,则进行步骤110;
110)依据词库中词汇使用频频选择常用词汇确认发音,并进入步骤112;
111)确认发音;
112)发音。

Claims (3)

1.一种多音字发音方法,适用于具有储存单元、词库、处理单元的电子装置,且词库具有词汇并储存于储存单元,其特征在于:该方法包含下列步骤:
1)提供破音词库及校正档,破音词库储存破音词及多音字,校正档储存词条,而词库、破音词库及校正档储存在储存单元内,而储存单元与处理单元相连接;
2)接收具有文字的词句;
3)通过处理单元比对词句中是否具有多音字;
4)当词句具有多音字时,则将词句与破音词库进行比对,以判断词句与破音词是否相匹配,其具体实现方式是:
4.1)当词句与破音词库进行比对时,将多音字分别与前三个字或后三个字组合,比对是否与破音词相匹配,若相匹配,进行发音动作;若不匹配,则进行步骤4.2);
4.2)将多音字分别与前二个字或后二个字组合,比对是否与破音词相匹配,若相匹配,进行发音动作;若不匹配,则进行步骤4.3);
4.3)将多音字分别与前一个字或后一个字组合,比对是否与破音词相匹配,若匹配,则进行步骤5);若不匹配,进行发音动作;
5)将多音字同前后一个字组合成的三字词与校正档进行冲突比对,判断该三字词是否与校正档的词条相匹配,若相匹配,则进行发音动作;若不匹配,则根据步骤4.3)组合的两个词在词库中的使用频率选择使用频率较高的进行发音动作。
2.根据权利要求1所述的多音字发音方法,其特征在于:所述步骤3)中词句中若无多音字,则进行发音动作。
3.根据权利要求1所述的多音字发音方法,其特征在于:所述电子装置更具有音效单元,用来进行发音动作。
CN2008101504950A 2008-07-29 2008-07-29 一种多音字发音方法 Expired - Fee Related CN101324884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101504950A CN101324884B (zh) 2008-07-29 2008-07-29 一种多音字发音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101504950A CN101324884B (zh) 2008-07-29 2008-07-29 一种多音字发音方法

Publications (2)

Publication Number Publication Date
CN101324884A CN101324884A (zh) 2008-12-17
CN101324884B true CN101324884B (zh) 2010-06-02

Family

ID=40188427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101504950A Expired - Fee Related CN101324884B (zh) 2008-07-29 2008-07-29 一种多音字发音方法

Country Status (1)

Country Link
CN (1) CN101324884B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365925B (zh) * 2012-04-09 2016-12-14 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
CN104599670B (zh) * 2015-01-30 2017-12-26 泰顺县福田园艺玩具厂 点读笔的语音识别方法
CN106710585B (zh) * 2016-12-22 2019-11-08 云知声(上海)智能科技有限公司 语音交互过程中的多音字播报方法及系统
CN111968619A (zh) * 2020-08-26 2020-11-20 四川长虹电器股份有限公司 控制语音合成发音的方法及装置
CN117975937A (zh) * 2024-01-18 2024-05-03 中移雄安信息通信科技有限公司 多音字语音处理方法及装置、可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1105979C (zh) * 1997-08-15 2003-04-16 英业达股份有限公司 汉语多音字的自动分析及处理的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1105979C (zh) * 1997-08-15 2003-04-16 英业达股份有限公司 汉语多音字的自动分析及处理的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘景勇等.汉语TTS 系统中多音字问题的一种有效解决方案.微型电脑应用21 4.2005,21(4),52-55.
刘景勇等.汉语TTS 系统中多音字问题的一种有效解决方案.微型电脑应用21 4.2005,21(4),52-55. *
田浩等.统计与规则相结合的多音字自动注音方法研究与实现.第八届全国人机语音通讯学术会议论文集.2005,508-511. *

Also Published As

Publication number Publication date
CN101324884A (zh) 2008-12-17

Similar Documents

Publication Publication Date Title
Gonzales Philippine Englishes
CN101324884B (zh) 一种多音字发音方法
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN101826325B (zh) 对中英文语音信号进行识别的方法和装置
CN111951779B (zh) 语音合成的前端处理方法及相关设备
JP2017157207A (ja) 人工知能に基づく検索結果放送方法及び装置
CN109331470B (zh) 基于语音识别的抢答游戏处理方法、装置、设备及介质
CN109949799B (zh) 一种语义解析方法及系统
US11907665B2 (en) Method and system for processing user inputs using natural language processing
Jarosz et al. Input frequency and the acquisition of syllable structure in Polish
US20220358297A1 (en) Method for human-machine dialogue, computing device and computer-readable storage medium
CN111986656A (zh) 教学视频自动字幕处理方法与系统
CN104679735A (zh) 语用机器翻译方法
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN115497455A (zh) 一种英语口语考试语音智能评测方法、系统及装置
CN102970618A (zh) 基于音节识别的视频点播方法
CN117828057A (zh) 知识问答方法、装置、设备和存储介质
Hori et al. Deriving disambiguous queries in a spoken interactive ODQA system
CN1105979C (zh) 汉语多音字的自动分析及处理的方法
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN111814433A (zh) 一种维吾尔语实体识别的方法、装置和电子设备
CN107368473B (zh) 一种语音交互的实现方法
CN117612553B (zh) 一种现代语音采录、分析及展示系统
CN116245096B (zh) 一种基于局部词表的藏文分词评测集构建方法
US12079259B2 (en) Data processing method and device and electronic apparatus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: Village Technology Limited

Assignor: Wudi Science and Technology Co., Ltd. (Xian)

Contract record no.: 2011310000129

Denomination of invention: Method of polyphone pronunciation

Granted publication date: 20100602

License type: Exclusive License

Open date: 20081217

Record date: 20110808

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100602

Termination date: 20130729