CN101261831B - 一种音标分解与合成方法 - Google Patents

一种音标分解与合成方法 Download PDF

Info

Publication number
CN101261831B
CN101261831B CN2007100876449A CN200710087644A CN101261831B CN 101261831 B CN101261831 B CN 101261831B CN 2007100876449 A CN2007100876449 A CN 2007100876449A CN 200710087644 A CN200710087644 A CN 200710087644A CN 101261831 B CN101261831 B CN 101261831B
Authority
CN
China
Prior art keywords
steps
phonetic symbol
cutting unit
symbol code
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100876449A
Other languages
English (en)
Other versions
CN101261831A (zh
Inventor
赵妍
刘扬山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SUNPLUS-EHUE TECHNOLOGY CO., LTD.
Sunplus Technology Co Ltd
Original Assignee
BEIJING BEIYANG ELECTRONIC TECHNOLOGY Co Ltd
Sunplus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BEIYANG ELECTRONIC TECHNOLOGY Co Ltd, Sunplus Technology Co Ltd filed Critical BEIJING BEIYANG ELECTRONIC TECHNOLOGY Co Ltd
Priority to CN2007100876449A priority Critical patent/CN101261831B/zh
Publication of CN101261831A publication Critical patent/CN101261831A/zh
Application granted granted Critical
Publication of CN101261831B publication Critical patent/CN101261831B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种音标分解与合成方法,首先利用切分标记对语音的音标进行分解,形成切分单元;然后将切分单元转换成语音发音单元;再将所述语音发音单元对应的音素波形进行串接,实现语音合成,其中对语音的音标进行分解是利用切分标记对非周期性波形特征辅音进行切分处理。采用本发明,能够通过分析语音各音素对应的波形特征,将音标予以分类分解,减少通常语音合成产生的较为明显的拼接痕迹,使合成语音的效果最大程度接近真人发音。

Description

一种音标分解与合成方法
技术领域
本发明涉及计算机语音处理技术领域,尤其涉及音标分解与合成技术。
背景技术
语言是人类彼此沟通的桥梁,是获得讯息的最为便捷的方式。因此,学习人类彼此各具特色的语言、实现快捷有效的人、机互动,都是语音领域的重要研究课题。
近几年来,各式各样的电子词典产品引领着语言学习的风潮。各个厂商为了提高产品的竞争力,在语音的品质、自然度上下了相当的功夫,竞相宣传真人发音、海量词汇的功能。目前,市场上各类电子词典的“真人发音”功能,主要通过固定词汇的整词压缩和语音波形的拼接合成两种方式实现。对于前者,无疑,尽管在内存成本相对降低的今天,十余万的海量词汇所付出的成本代价也不可小视;而目前应用较多的语音波形拼接合成的方式,通常作法是依照语音学的元音/辅音对音标进行分析、分解进而进行波形的拼接合成。
公开日为2003年4月2日,申请号为CN01130994.6的中国专利公开了一种英语音标分解与合成的方法。该方法为一种分解英语的K.K音标并依音调加以分类的方法:可将已知音标分解、对应形成数段基本发音单元、再进行波形串接实现语音合成。该技术方案具有降低原始语音数据量并保持原始语音音调的优点。但是,该技术方案同时存在以下缺点:
1)该方法单纯依照语音学上的元音、辅音分解音标,导致后期波形拼接合成时常常出现因波形频率不一致、过渡音缺失而出现的音调不协调,声音自然度下降甚至前后声音不一致的现象;
2)该方法设置了大量规则来分解合成音标,而这些规则是英语K.K.音标所特有,不适用于其它音标或语言;
3)该方法涉及的计算方法相对复杂,计算代价较大。
发明内容
本发明提出一种音标分解和合成方法,能够通过分析语音各音素对应的波形特征,将音标予以分类分解,解决了通常语音合成产生的较为明显的拼接痕迹,使合成语音的效果最大程度接近真人发音。
为达到上述目的,本发明采取以下技术方案:
一种音标分解与合成方法,包括以下步骤:
A、利用切分标记对语音的音标进行分解,形成切分单元;
B、将所述切分单元转换成语音发音单元;
C、将所述语音发音单元对应的音素波形进行串接,实现语音合成,
步骤A中所述对语音的音标进行分解是利用切分标记对非周期性波形特征辅音进行切分处理。
步骤A进一步包括以下步骤:
A1、将语音音标符号转换成文本音标代码,形成文本音标代码序列;
A2、所述文本音标代码序列中,在所述非周期性波形特征辅音前加入所述切分标记,形成所述切分单元。
步骤A1还包括以下步骤:
A11、如果辅音/p/、/t/、/k/、/tr/前接辅音/s/并且后接元音或/j/,则作为/b/、/d/、/g/、/dr/处理。
步骤A2还包括以下步骤:
A21、所述文本音标代码序列中,在第一个文本音标代码前和在最后一个文本音标代码后加入切分标记。
步骤A2还包括以下步骤:
A22、如果文本音标代码/l/、/m/、/n/或/r/的前一个文本音标代码是所述非周期性波形特征辅音,则在文本音标代码/l/、/m/、/n/或/r/前加入切分标记。
步骤A2还包括以下步骤:
A23、将连续双辅音/br/、/gr/、/bl/、/gl/、/bj/、/dj/、/gj/、/gw/和/dw/,以及尾部的/ps/、/ts/、/ks/和/dz/作为单辅音处理。
步骤A还包括以下步骤:
A3、对每个所述切分单元进行重音分类。
步骤A3进一步包括以下步骤:
A31、判断所述切分单元中元音个数是否大于1,如果是,转至步骤A33,如果否,转至步骤A32;
A32、对所述切分单元进行单音节重音处理,并转至步骤A34;
A33、对所述切分单元进行多音节重音处理,并转至步骤A34;
A34、对所述切分单元进行音调进阶处理,并转至步骤A35;
A35、判断所述切分单元是否为所述文本音标代码序列的最后切分单元,如果是,则结束,如果否,则选取下一个切分单元,并转至步骤A31。
步骤A32进一步包括以下步骤:
A321、判断所述切分单元中元音的个数是否为1,如果是,则转至步骤A323,如果否,则转至步骤A322;
A322、对所述切分单元标记单纯辅音序号,并结束;
A323、判断所述切分单元是否为所述文本音标代码序列中唯一含有元音的切分单元,如果是,则转至步骤A329,如果否,则转至步骤A324;
A324、判断所述切分单元是否包含了重音标记,如果是,则转至步骤A328,如果否,则转至步骤A325;
A325、判断所述切分单元中的音节是否为所述文本音标代码序列中非尾部音节,如果是,则转至步骤A326,如果否则转至步骤A327;
A326、对所述切分单元标记非尾部非/次重音序号,并结束;
A327、对所述切分单元标记尾部非/次重音序号,并结束;
A328、判断所述切分单元是否为所述文本音标代码序列中非尾部音节,如果是,则转至步骤A3210,如果否,则转至步骤A329;
A329、对所述切分单元标记尾部重音/单音节序号,并结束;
A3210、对所述切分单元标记非尾部重音序号,并结束。
步骤A33进一步包括以下步骤:
A331、判断所述切分单元中的音节是否包含重音标记,如果是,则转至步骤A335,如果否,则转至步骤A332;
A332、判断所述音节是否为所述文本音标代码序列中非尾部音节,如果是,则转至步骤A333,如果否,则转至步骤A334;
A333、对所述切分单元标记非尾部非/次重音序号,并转至步骤A338;
A334、对所述切分单元标记尾部非/次重音序号,并结束;
A335、判断所述音节是否为文本音标代码序列中非尾部音节,如果是,则转至步骤A336,如果否,则转至步骤A337;
A336、对所述切分单元标记非尾部重音序号,并转至步骤A338;
A337、对所述切分单元标记尾部重音/单音节序号,并结束;
A338、判断所述音节是否为所述切分单元的最后音节,如果是,则结束,如果否,则选取下一个音节,并转至步骤A331。
步骤A34进一步包括以下步骤:
A341、判断所述文本音标代码序列中所述切分单元的数量是否大于1,如果是,则转至步骤A342,如果否,则结束;
A342、判断所述切分单元是否为所述文本音标代码序列中第一个切分单元,如果是,则转至步骤A343,如果否,则转至步骤A344;
A343、对所述切分单元加入后接音标记,并选取下一个切分单元,转至步骤A342;
A344、判断所述切分单元是否为所述文本音标代码序列中最后一个切分单元,如果是,则转至步骤A345,如果否,则转至步骤A346;
A345、对所述切分单元加入前接音标记,并结束;
A346、对所述切分单元分别加入前接音标记和后接音标记,并选取下一个切分单元,转至步骤A342。
步骤B进一步包括以下步骤:
所述切分单元的重音序号、所述切分单元的前接音标记和/或后接音标记与所述文本音标代码组成所述语音发音单元。
还包括以下步骤:
将所述文本音标代码转换成语音音标代码。
步骤C进一步包括以下步骤:
C1、根据所述语音发音单元搜索与其匹配的音素波形;
C2、将所述音素波形进行串接,实现语音合成。
采用了本发明的技术方案,可以依照语音合成的本质——波形合成,从语音波形特性的角度出发进行文本规则的分析、实现语音的拼接合成。因此可以很好的提高语音合成的质量及其自然度,合成效果在最大程度上接近真人发音;且因为遵从语音波形特性,因此不受语言和音标类型的限制;同时计算方法相对简单,占用资源相对较少,适合在嵌入式系统中使用。
附图说明
图1是本发明中音标分解与合成流程图;
图2是音节拆分流程图;
图3是预处理流程图;
图4是切分位置处理流程图;
图5是单词government对应的语音波形图;
图6是重音处理流程图;
图7是单音节切分单元重音处理流程图;
图8为多音节切分单元重音处理流程图;
图9为音调进阶处理流程图。
具体实施方式
下面结合附图,通过具体实施方式对本发明的技术方案作进一步描述。
具体实施方式1以英语语音为例进行说明。图1为音标分解与合成流程图。如图1所示,音标分解与合成流程包括以下步骤:
步骤1为音节拆分:将语音音标符号转换为文本音标代码,依照波形特性进行分解,形成切分单元;
步骤2为音节命名:依照分解后的切分单元,按照规则命名切分单元形成语音发音单元;
步骤3为语音合成:将语音发音单元对应的音素波形串接进行语音合成。
如图2所示,步骤1音节拆分进一步包括三个步骤:
步骤11为预处理:将已知语音音标符号转换为文本音标代码,形成文本音标代码序列,并逐一分析文本音标代码,进行相应的替换;
步骤12为切分位置处理:分析替换后的文本音标代码序列,在相应文本音标代码位置加入切分标记,形成切分单元;
步骤13为重音处理:将切分单元予以音调的分类处理。
本具体实施方式进行分解与合成的对象为文本音标代码序列,因此不限于单个单词,也可以是词组或是单句。
当然由于目前计算机还无法正确显示某些语种的语音音标符号,所以需要将语音音标符号转换成计算机可以正确显示的文本音标代码,但是这一步骤并非必需,如果以后语音音标符号可以被计算机正确识别,则不需要将语音音标符号转换成文本音标代码,以下叙述的各个步骤都可以采取语音音标符号进行,而不是文本音标代码。
为便于计算机识别与操作,需要将语音音素对应的音标符号转换为文本对应的音标代码及语音命名应用的音标代码。列举转换见表1:第一列为本例的英语K.K.音标符号;第二列为本例的文本音标代码;第三列为本例的语音音标代码。
表1
Figure S07187644920070319D000071
Figure S07187644920070319D000081
其中,步骤11预处理是将已知语音音标符号转换为文本音标代码,形成文本音标代码序列,并逐一分析文本音标代码,进行相应的替换,如图3所示,具体包括三个步骤:
步骤111为音标转换:依据表1的对应关系,首先将英语K.K音标符号转换为对应的文本音标代码,形成文本音标代码序列;
步骤112为浊化替换处理:分析文本音标代码序列,若辅音/p/、/t/、/k/、/tr/前接辅音/s/且后接元音或/j/,则对应浊化作为/b/、/d/、/g/、/dr/来处理。
其中,步骤12切分位置处理是分析替换后的文本音标代码序列,在文本音标代码序列的相应位置加入切分标记,形成切分单元。
首先,根据语音音标各音素波形的非周期性与周期性特征将应用文本音标对应的代码分为两大类集合:
第一类集合:非周期性波形特征辅音,包含文本音标代码有:
/s/、/1/、/8/、/t1/、/p/、/t/、/k/、/f/、/z/、/v/、/h/、/b/、/d/、/g/、/dr/、/tr/、/d5/、/w/、/9/、/5/,共计20个;
第二类集合:周期性波形特征元音及辅音,包含文本音标代码有:
/i/、/I/、/E/、/x/、/^/、/2/、/3/、/a:/、/c/、/u/、/U/、/e/、/o/、/aI/、/cI/、/aU/、/6/及/m/、/n/、/7/、/r/、/l/、/j/,共计23个。
步骤12切分位置处理的具体流程如图4所示,包括以下步骤:
步骤121:判断该文本音标代码是否为文本音标代码序列中第一个文本音标代码,若是,则转至步骤125;若否,则转至步骤122;
步骤122:判断该文本音标代码是否属于第一类集合,若是,则转至步骤125;若否,则转至步骤123;
步骤123:判断该文本音标代码是否是l、m、n、r中的任一一个,若是,则转至步骤124;若否,则转至步骤126;
步骤124:判断该文本音标代码前一个文本音标代码是否属于第一类集合,若是,则转至步骤125;若否,则转至步骤126;
步骤125:在该文本音标代码前加切分标记,但是如果该文本音标代码和其前一个文本音标代码构成双辅音/br/、/gr/、/bl/、/gl/、/bj/、/dj/、/gj/、/gw/、/dw/,则将该文本音标代码前的切分标记去除,并转至步骤126;
步骤126:判断该文本音标代码是否为文本音标代码序列的最后一个文本音标代码,若是,则转至步骤127,但是如果该文本音标代码和其前一个文本音标代码构成双辅音/ps/、/ts/、/ks/、/dz/,则将该文本音标代码前的切分标记去除;若否,则转至步骤121,选择下一个文本音标代码进行分析;
步骤127:在该文本音标代码后加切分标记,结束文本音标代码序列的分析。
在步骤12切分位置处理中,可以看出是将连续双辅音/br/、/gr/、/bl/、/gl/、/bj/、/dj/、/gj/、/gw/、/dw/及尾部/ps/、/ts/、/ks/、/dz/作为不可分割的单辅音来处理,在该双辅音间不加切分标记。
例如:单词government对应文本音标代码为/’g^v2nm6nt/,处理后分解为/’g^/+/v2nm6n/+/t/。其中辅音/g/、/v/和/t/属于第一类集合的音标,其余属于第二类集合的音标,我们只对第一类集合的音标进行切分处理。单词government对应的语音波形如图5所示。图中可明显看出,本发明切分方法保证了周期性波形/nm/的完整性,因此在进行单词合成时不会产生拼接痕迹且效果更加自然。
其中,所述步骤13重音处理是对已形成的切分单元进行音调分类处理。首先,根据英语音调特性,对音调进行了五类区分,分别为:序号0代表单纯辅音;序号1代表非尾部非/次重音;序号2代表非尾部重音;序号3代表尾部非/次重音;序号4代表尾部重音/单音节。所述步骤13重音处理具体流程如图6所示:
步骤131:判断该切分单元中元音(包括单元音和双元音)个数是否大于1,即是否为多音节切分单元。若是,则转至步骤133;若否,则转至步骤132;
步骤132:进入单音节重音处理步骤,并转至步骤134;
步骤133:进入多音节重音处理步骤,并转至步骤134;
步骤134:音调进阶处理,并转至步骤135;
步骤135:判断该切分单元是否为所述文本音标代码序列的最后切分单元,如果是,则结束,如果否,则选取下一个切分单元,并转至步骤131。
由于在步骤11预处理中,将已知语音音标符号转换为文本音标代码的过程中,文本音标代码依然保留已知语音音标符号中的重音标记信息,所以在步骤13中,分析的切分单元为包含重音标记的切分单元。
步骤132所述的单音节是指切分单元中不包含元音或只包含一个元音的音节,其重音处理过程检测切分单元的音节,根据音节分析的结果对切分单元进行音调分类处理,详细流程如图7所示。步骤132单音节重音处理包含以下步骤:
步骤1321:判断该切分单元中元音个数是否等于1,若是,则转至步骤1323;若否,则转至步骤1322;
步骤1322:对该切分单元标记序号0,并结束;
步骤1323:判断该切分单元是否为文本音标代码序列中唯一一个含有元音的切分单元,若是,则转至步骤1329,若否,则转至步骤1324;
步骤1324:判断该切分单元是否包含重音标记,若是,则转至步骤1328,若否,则转至步骤1325;
步骤1325:判断该切分单元中的音节是否为文本音标代码序列中非尾部音节。若是,则转至步骤1326,若否,则转至步骤1327;
步骤1326:对该切分单元标记序号1,并结束;
步骤1327:对该切分单元标记序号3,并结束;
步骤1328:判断该切分单元是否为音标序列中非尾部音节,若是,则转至步骤13210,若否,则转至步骤1329;
步骤1329:对该切分单元标记序号4,并结束;
步骤13210:对该切分单元标记序号2,并结束。
步骤133中所述多音节是指切分单元中包含一个以上元音(包括单元音和双元音)的音节,其重音处理过程是逐一检测切分单元的音节,根据音节分析的结果对切分单元进行音调分类处理,详细流程如图8所示。步骤133多音节重音处理包含以下步骤:
步骤1331:判断切分单元中音节是否包含重音标记,若是,则转至步骤1335,若否,则转至步骤1332;
步骤1332:判断该音节是否为文本音标代码序列中非尾部音节,若是,则转至步骤1333,若否,则转至步骤1334;
步骤1333:对该切分单元标记序号1,并转至步骤1338;
步骤1334:对该切分单元标记序号3,并结束;
步骤1335:判断该音节是否为文本音标代码序列中非尾部音节,若是,则转至步骤1336,若否,则转至步骤1337;
步骤1336:对该切分单元标记序号2,并转至步骤1338;
步骤1337:对该切分单元标记序号4,并结束;
步骤1338:判断该音节是否为所取切分单元中最后音节,若是,则结束,若否,则选取下一音节,并转至步骤1331。
步骤134音调进阶处理是对文本音标代码序列中第一个切分单元加后接音标记,最后一个切分单元加前接音标记,以及文本音标代码序列中间位置的切分单元进行前、后接音标记,以使各切分单元的位置音调更加准确,合成效果更加自然,详细流程如图9所示。步骤134音调进阶处理包含以下步骤:
步骤1341:判断音标序列中切分单元数量是否大于1,若是,转至步骤1342,若否,则结束;
步骤1342:判断所选切分单元是否为文本音标代码序列中第一个切分单元,若是,则转至步骤1343,若否,则转至步骤1344;
步骤1343:对该切分单元加后接音标记,并选取下一个切分单元,转至步骤1342;
步骤1344:判断该切分单元是否为文本音标代码序列中最后一个切分单元。若是,则转至步骤1345,若否,则转至步骤1346;
步骤1345:对该切分单元加入前接音标记,并结束;
步骤1346:对该切分单元分别加入前接音标记和后接音标记,并选取下一个切分单元,转至步骤1342。
例如:用字母F表示前接音标记,字母B表示后接音标记。单词almucantar对应文本音标为/,xlmju′kxnt2/,音调处理后为/xlmju11B//kxn2FB//t23F/;单词bee对应文本音标为/bi/,音调处理后为/bi4/;单词snufflingly对应文本音标为/′sn^flI71I/,音调处理后为/s0B//n^2FB//f0FB//1I71i13F/。
步骤2音节命名是依照步骤1中分解后的切分单元,按照规则命名形成语音发音单元。
命名的规则为:将步骤1获得的切分单元中的文本音标代码依照表1替换为语音音标代码,重音序号、前接音标记/后接音标记信息不变,即语音音标代码、重音序号、前接音标记/后接音标记(或只有前接音标记、只有后接音标记)信息三类信息组成语音发音单元。
当然之所以将文本音标代码替换成语音音标代码,是因为目前计算机对文本音标代码的大小写无法区分,比如U和u,如果计算机可以区分,则命名规则中,可以省略将文本音标代码替换成语音音标代码这一步骤,而直接把文本音标代码加上重音序号、前接音标记/后接音标记(或只有前接音标记、只有后接音标记)信息三类信息组成语音发音单元,甚至于不作一次替换,语音音标符号直接加上重音序号、前接音标记/后接音标记(或只有前接音标记、只有后接音标记)信息三类信息组成语音发音单元。
例如:切分单元/s0B/,对应的语音发音单元为s_0_B;
切分单元/n^2FB/,对应的语音发音单元为n^_2_F_B;
切分单元/f0FB/,对应的语音发音单元为f_0_F_B;
切分单元/1I71i13F/,对应的语音发音单元为1ii71i_13_F。
步骤3语音合成是以步骤2中形成的语音发音单元为搜索单元,根据语音发音单元搜索与其匹配的语音音素波形,这些音素波形是从原始录制的真人语音波形数据中切分所得,并以语音发音单元作为语音数据库的索引,然后将音素波形进行串接,实现语音合成。
具体实施方式2以汉语语音为例进行说明。对汉语合成词汇和短句的语音的音标分解和合成的流程与具体实施方式1中的对英语语音音标的分解和合成流程基本一致,不同之处在于:
用于在文本音标代码序列的相应位置加入切分标记的依据不同。根据音素波形特征可以将汉语语音的音标代码分为两大类集合:
第一类集合,非周期性波形特征辅音,包含拼音有:
/b/、/p/、/f/、/d/、/t/、/g/、/k/、/h/、/j/、/q/、/x/、/zh/、/ch/、/sh/、/z/、/c/、/s/,共计17个;
第二类集合,包括周期性波形特征辅音和周期性波形特征元音,其中周期性波形特征辅音包含拼音有:
/m/、/n/、/ng/、/r/、/l/、/y/、/w/,共计7个。
我们也只对第一类集合的音标进行切分处理。
重音处理中音调区分不同。汉语语音的音调分成五类,包括阴平、阳平、上声、去声和轻声。
此例中,我们暂且用1、2、3、4和0分别对应汉语中的阴平、阳平、上声、去声和轻声。且依然用字母F表示前接音标记,字母B表示后接音标记。
如“语音技术”四个汉字,对应的音标代码及音调为:/yu3yin1ji4shu4/。
对应音节拆分步骤,依次包含:进行切分标记后对应切分单元为:/yu3yin1/、/ji4/、/shu4/;进行重音及音调处理后对应为:/yuyin31B/、/ji4FB/、/shu4F/。
对应音节命名步骤,包含:将对应切分单元形成语音发音单元,并依次命名为:yuyin_31_B、ji_4_F_B、shu_4_F。
对应语音合成步骤,则为根据需求列表,匹配以上发音单元合成新的词汇或短句。
具体实施方式3以日语语音为例进行说明。对日语合成单词、短语或短句的语音的音标分解和合成的流程与具体实施方式1中的对英语语音音标的分解和合成流程基本一致,不同之处在于:
用于在文本音标代码序列的相应位置加入切分标记的依据不同。根据音素波形特征可以将日语语音的音标代码分为两大类集合:
第一类集合,头部发音为非周期性波形特征的平假名,包含有:
か(ka)行、さ(sa)行、た(ta)行、ほ(ha)行及其对应的浊音、半浊音和拗音行,共计72个;
第二类集合,头部发音为周期性波形特征的平假名,包含有:
な(na)行、ま(ma)行、や(ya)行、ら(ra)行、れ(wa)行、与该四行对应的拗音、ん(N)、つ(q)及其元音行あ(a)行,共计41个。
当然,以上是以日语的平假名为音标代码进行的举例。如果以罗马字(即上述平假名后括号内的罗马字)作为日语的音标代码,则和英语音标代码更为类似,分为以下两大类集合:
第一类集合,非周期性波形特征辅音,包含有:
/k/、/s/、/t/、/c/、/h/、/g/、/z/、/d/、/b/、/p/,共计10个;
第二类集合:周期性波形特征元音及辅音,包含音标代码有:
/a/、/i/、/u/、/e/、/o/、/m/、/n/、/y/、/r/、/w/、/N/,共计11个。
不论何种音标代码,我们同样也只对第一类集合的音标进行切分处理。
重音处理中音调区分和英语类似,可分为5类,非尾部重音、尾部重音/单音节、非尾部非重音、尾部非重音以及轻音。
此例中,我们以平假名作为日语音标代码,并沿袭英语的标注方式:1、2、3、4和0分别对应日语中的非尾部非重音、非尾部重音、尾部非重音、尾部重音/单音节以及轻音;并用字母F表示前接音标记,字母B表示后接音标记。
如单词“中国(ちゅうごく)”,对应的音标代码及音调为:(ちゅうごく)①。
对应音节拆分步骤,依次包含:进行切分标记后对应切分单元为:(ちゆう)、(ご)、(く);进行重音及音调处理后对应为:(ちゆう2B)、(ご1FB)、(く3F)。
对应音节命名步骤,包含:将对应切分单元形成语音发音单元,并依次命名为:ちゆう_2_B、ご_1_F_B、く_3_F。
对应语音合成步骤,则为根据需求列表,匹配以上发音单元合成新的单词、词汇或短句。
以上汉语、日语的具体实施方式可以说明本发明技术方案的通用性效果:从语音波形特性的角度出发进行文本规则的分析、实现语音的拼接合成。因此不会受到语言或音标类型的限制,都可以很好的提高语音合成的质量及其自然度。且整个实现过程中,未进行很复杂的规则运算,因此也减少了本发明技术方案应用时的计算代价。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (14)

1.一种音标分解与合成方法,包括以下步骤:
A、利用切分标记对语音的音标进行分解,形成切分单元;
B、将所述切分单元转换成语音发音单元;
C、将所述语音发音单元对应的音素波形进行串接,实现语音合成,
其特征在于,步骤A中所述对语音的音标进行分解是利用切分标记对非周期性波形特征辅音进行切分处理。
2.根据权利要求1所述的音标分解与合成方法,其特征在于,步骤A进一步包括以下步骤:
A1、将语音音标符号转换成文本音标代码,形成文本音标代码序列;
A2、所述文本音标代码序列中,在所述非周期性波形特征辅音前加入所述切分标记,形成所述切分单元。
3.根据权利要求2所述的音标分解与合成方法,其特征在于,步骤A1还包括以下步骤:
A11、如果辅音/p/、/t/、/k/、/tr/前接辅音/s/并且后接元音或/j/,则作为/b/、/d/、/g/、/dr/处理。
4.根据权利要求2所述的音标分解与合成方法,其特征在于,步骤A2还包括以下步骤:
A21、所述文本音标代码序列中,在第一个文本音标代码前和在最后一个文本音标代码后加入切分标记。
5.根据权利要求2或4所述的音标分解与合成方法,其特征在于,步骤A2还包括以下步骤:
A22、如果文本音标代码/l/、/m/、/n/或/r/的前一个文本音标代码是所述非周期性波形特征辅音,则在文本音标代码/l/、/m/、/n/或/r/前加入切分标记。
6.根据权利要求2所述的音标分解与合成方法,其特征在于,步骤A2还包括以下步骤:
A23、将连续双辅音/br/、/gr/、/bl/、/gl/、/bj/、/dj/、/gj/、/gw/和/dw/,以及尾部的/ps/、/ts/、/ks/和/dz/作为单辅音处理。
7.根据权利要求2所述的音标分解与合成方法,其特征在于,步骤A还包括以下步骤:
A3、对每个所述切分单元进行重音分类。
8.根据权利要求7所述的音标分解与合成方法,其特征在于,步骤A3进一步包括以下步骤:
A31、判断所述切分单元中元音个数是否大于1,如果是,转至步骤A33,如果否,转至步骤A32;
A32、对所述切分单元进行单音节重音处理,并转至步骤A34;
A33、对所述切分单元进行多音节重音处理,并转至步骤A34;
A34、对所述切分单元进行音调进阶处理,并转至步骤A35;
A35、判断所述切分单元是否为所述文本音标代码序列的最后切分单元,如果是,则结束,如果否,则选取下一个切分单元,并转至步骤A31。
9.根据权利要求8所述的音标分解与合成方法,其特征在于,步骤A32进一步包括以下步骤:
A321、判断所述切分单元中元音的个数是否为1,如果是,则转至步骤A323,如果否,则转至步骤A322;
A322、对所述切分单元标记单纯辅音序号,并结束;
A323、判断所述切分单元是否为所述文本音标代码序列中唯一含有元音的切分单元,如果是,则转至步骤A329,如果否,则转至步骤A324;
A324、判断所述切分单元是否包含了重音标记,如果是,则转至步骤A328,如果否,则转至步骤A325;
A325、判断所述切分单元中的音节是否为所述文本音标代码序列中非尾部音节,如果是,则转至步骤A326,如果否则转至步骤A327;
A326、对所述切分单元标记非尾部非/次重音序号,并结束;
A327、对所述切分单元标记尾部非/次重音序号,并结束;
A328、判断所述切分单元是否为所述文本音标代码序列中非尾部音节,如果是,则转至步骤A3210,如果否,则转至步骤A329;
A329、对所述切分单元标记尾部重音/单音节序号,并结束;
A3210、对所述切分单元标记非尾部重音序号,并结束。
10.根据权利要求8所述的音标分解与合成方法,其特征在于,步骤A33进一步包括以下步骤:
A331、判断所述切分单元中的音节是否包含重音标记,如果是,则转至步骤A335,如果否,则转至步骤A332;
A332、判断所述音节是否为所述文本音标代码序列中非尾部音节,如果是,则转至步骤A333,如果否,则转至步骤A334;
A333、对所述切分单元标记非尾部非/次重音序号,并转至步骤A338;
A334、对所述切分单元标记尾部非/次重音序号,并结束;
A335、判断所述音节是否为文本音标代码序列中非尾部音节,如果是,则转至步骤A336,如果否,则转至步骤A337;
A336、对所述切分单元标记非尾部重音序号,并转至步骤A338;
A337、对所述切分单元标记尾部重音/单音节序号,并结束;
A338、判断所述音节是否为所述切分单元的最后音节,如果是,则结束,如果否,则选取下一个音节,并转至步骤A331。
11.根据权利要求9或10所述的音标分解与合成方法,其特征在于,步骤A34进一步包括以下步骤:
A341、判断所述文本音标代码序列中所述切分单元的数量是否大于1,如果是,则转至步骤A342,如果否,则结束;
A342、判断所述切分单元是否为所述文本音标代码序列中第一个切分单元,如果是,则转至步骤A343,如果否,则转至步骤A344;
A343、对所述切分单元加入后接音标记,并选取下一个切分单元,转至步骤A342;
A344、判断所述切分单元是否为所述文本音标代码序列中最后一个切分单元,如果是,则转至步骤A345,如果否,则转至步骤A346;
A345、对所述切分单元加入前接音标记,并结束;
A346、对所述切分单元分别加入前接音标记和后接音标记,并选取下一个切分单元,转至步骤A342。
12.根据权利要求11所述的音标分解与合成方法,其特征在于,步骤B进一步包括以下步骤:
切分单元的前接音标记和后接引标记中的至少一个与切分单元的重音序号和文本音标代码序列组成所述语音发音单元。
13.根据权利要求12所述的音标分解与合成方法,其特征在于还包括以下步骤:
将所述文本音标代码转换成语音音标代码。
14.根据权利要求1所述的音标分解与合成方法,其特征在于,步骤C进一步包括以下步骤:
C1、根据所述语音发音单元搜索与其匹配的音素波形;
C2、将所述音素波形进行串接,实现语音合成。
CN2007100876449A 2007-03-05 2007-03-05 一种音标分解与合成方法 Expired - Fee Related CN101261831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100876449A CN101261831B (zh) 2007-03-05 2007-03-05 一种音标分解与合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100876449A CN101261831B (zh) 2007-03-05 2007-03-05 一种音标分解与合成方法

Publications (2)

Publication Number Publication Date
CN101261831A CN101261831A (zh) 2008-09-10
CN101261831B true CN101261831B (zh) 2011-11-16

Family

ID=39962244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100876449A Expired - Fee Related CN101261831B (zh) 2007-03-05 2007-03-05 一种音标分解与合成方法

Country Status (1)

Country Link
CN (1) CN101261831B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339605B (zh) * 2010-07-22 2015-07-15 上海果壳电子有限公司 基于先验清浊知识的基频提取方法及系统
CN104239579B (zh) * 2014-10-11 2017-05-31 北京千钰千寻科技有限公司 构建多语言音标数据库的方法、多语言注音的方法及装置
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
CN111564153B (zh) * 2020-04-02 2021-10-01 湖南声广科技有限公司 广播电台智能主播音乐节目系统
CN111583901B (zh) * 2020-04-02 2023-07-11 湖南声广科技有限公司 一种广播电台智能天气预报系统及天气预报语音切分方法
CN111599341B (zh) * 2020-05-13 2023-06-20 北京百度网讯科技有限公司 用于生成语音的方法和装置
CN112786002B (zh) * 2020-12-28 2022-12-06 科大讯飞股份有限公司 一种语音合成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175052A (zh) * 1996-07-25 1998-03-04 松下电器产业株式会社 语音合成方法和设备
CN1407482A (zh) * 2001-08-29 2003-04-02 无敌科技股份有限公司 英语音标分解与合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175052A (zh) * 1996-07-25 1998-03-04 松下电器产业株式会社 语音合成方法和设备
CN1407482A (zh) * 2001-08-29 2003-04-02 无敌科技股份有限公司 英语音标分解与合成方法

Also Published As

Publication number Publication date
CN101261831A (zh) 2008-09-10

Similar Documents

Publication Publication Date Title
CN101261831B (zh) 一种音标分解与合成方法
El-Imam Phonetization of Arabic: rules and algorithms
CN101118541B (zh) 汉语语音码汉语语音识别方法
Anand Kumar et al. A sequence labeling approach to morphological analyzer for tamil language
He et al. Multilingual byte2speech models for scalable low-resource speech synthesis
Manohar et al. Mlphon: A multifunctional grapheme-phoneme conversion tool using finite state transducers
Schmidt et al. A swiss german dictionary: Variation in speech and writing
Lőrincz et al. RoLEX: The development of an extended Romanian lexical dataset and its evaluation at predicting concurrent lexical information
Czap et al. Phonetic aspects of Chinese Shaanxi Xi'an dialect
Auran et al. The Aix-MARSEC project: an evolutive database of spoken British English
Singh et al. Text-to-Speech Synthesis system for Punjabi language
Wasala et al. Sinhala grapheme-to-phoneme conversion and rules for schwa epenthesis
Sar et al. Applying linguistic G2P knowledge on a statistical grapheme-to-phoneme conversion in Khmer
Panda et al. A Context-based Numeral Reading Technique for Text to Speech Systems.
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
Pandey et al. A generative model of a pronunciation lexicon for hindi
Nair et al. Indian text to speech systems: A short survey
Wang et al. Rule-based korean grapheme to phoneme conversion using sound patterns
Wells et al. The CSTR entry to the Blizzard Challenge 2021
Dika et al. The principles of designing of algorithm for speech synthesis from texts written in Albanian language
Rahate et al. An experimental technique on text normalization and its role in speech synthesis
CN100517190C (zh) 特定拉丁字母表调汉字拼音的汉字输入方法
Shashirekha et al. Rule based Kannada Agama Sandhi splitter
Tri et al. Vietnamese Speech Synthesis with End-to-End Model and Text Normalization
Skiredj et al. Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING SUNPLUS EHUE TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BEIJING BEIYANG ELECTRONIC TECHNOLOGY CO., LTD.

Effective date: 20140402

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140402

Address after: Science and Industry Park, Taiwan, Hsinchu, China, No. 19

Patentee after: Lingyang Science and Technology Co., Ltd.

Patentee after: BEIJING SUNPLUS-EHUE TECHNOLOGY CO., LTD.

Address before: Science and Industry Park, Taiwan, Hsinchu, China, No. 19

Patentee before: Lingyang Science and Technology Co., Ltd.

Patentee before: Beijing Beiyang Electronic Technology Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111116

Termination date: 20170305

CF01 Termination of patent right due to non-payment of annual fee