CN108109610B

CN108109610B - 一种模拟发声方法及模拟发声系统

Info

Publication number: CN108109610B
Application number: CN201711079101.2A
Authority: CN
Inventors: 孟猛
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2021-06-18
Anticipated expiration: 2037-11-06
Also published as: CN108109610A

Abstract

本发明公开了一种模拟发声方法及模拟发声系统，属于语音合成技术领域；方法包括获取一待发声文本；将待发声文本中的文字分别转化成对应的基本音子，以形成包括依序排列的多个基本音子的音子序列；于音子序列中区分出隶属于中文音标的基本音子以及隶属于英文音标的基本音子；根据对应关系将音子序列中隶属于中文音标的基本音子转换成对应的隶属于英文音标的基本音子，以形成一仅包括隶属于英文音标的基本音子的待发声序列；将待发声序列送入语音合成引擎中，以合成对应于待发声文本的一段语音并输出。上述技术方案的有益效果是：采用一个语音合成引擎实现中英文混合语音的模拟发声，降低模拟发声处理的复杂度，保证模拟发声的准确性。

Description

一种模拟发声方法及模拟发声系统

技术领域

本发明涉及语音合成技术领域，尤其涉及一种模拟发声方法及模拟发声系统。

背景技术

随着计算机技术的飞速发展以及语音识别技术的日渐成熟，语音合成技术也得到了巨大的发展和进步。语音合成技术能够广泛应用到人们的日常生活中，出现了很多例如有声小说、有声新闻、天气播报以及字典朗读等的语音合成并模拟发声的应用，给人们的日常生活带来了很多便利和娱乐乐趣。

现有的语音合成技术在可懂度和区分度上都能够满足日常应用的需求，但是目前的语音合成技术通常只针对一种语音进行，例如仅针对中文或者仅针对英文。少部分同时支持中英文双语的语音合成引擎通常的做法是：对两个音色相近的中文/英文说话人，或者同一个中英文发音都很流利的说话人进行语音采样，并分别建立中文/英文语音合成模型，在语音合成的时候针对中文/英文分别套用两套语音合成模型分别进行语音合成，最后再将中文/英文的合成结果进行组合并得到最终的语音合成结果。

但是现有技术中，对于面向英美用户的英文语音合成引擎(Text To Speech，TTS)，一般很难找到音色合适又能流利说中文的英语母语的说话人，也较难找到音色与英文母语的说话人音色近似的中文说话人。因此，专用的英文语音合成引擎对于模拟中文发音的语音合成通常无能为力。

发明内容

根据现有技术中存在的上述问题，现提供一种模拟发声方法及模拟发声系统的技术方案，旨在采用一个语音合成引擎就能较好地实现中英文混合语音的模拟发声处理，降低了模拟发声处理的复杂度，并且保证模拟发声的准确性。

上述技术方案具体包括：

一种模拟发声方法，其中，设置一基于英文音标的语音合成引擎，并预先建立英文音标与中文音标之间的对应关系，还包括：

步骤S1，获取一待发声文本；

步骤S2，将所述待发声文本中的文字分别转化成对应的基本音子，以形成包括依序排列的多个所述基本音子的音子序列；

步骤S3，于所述音子序列中区分出隶属于中文音标的所述基本音子以及隶属于英文音标的所述基本音子；

步骤S4，根据所述对应关系将所述音子序列中隶属于中文音标的所述基本音子转换成对应的隶属于英文音标的所述基本音子，以形成一仅包括隶属于英文音标的所述基本音子的待发声序列；

步骤S5，将所述待发声序列送入所述语音合成引擎中，以合成对应于所述待发声文本的一段语音并输出。

优选的，该模拟发声方法，其中，所述步骤S4中具体包括：

步骤S41，判断隶属于中文音标的所述基本音子的类别：

若所述基本音子为隶属于中文韵母的第一基本音子，则转向步骤S42；

若所述基本音子为隶属于中文声母的第二基本音子，则转向步骤S43；

步骤S42，采用对应的英文音标替代所述第一基本音子，随后转向步骤S44；

步骤S43，判断所述第二基本音子是否符合预设的匹配策略：

若是，则对英文音标进行处理，并将经过处理的英文音标替代所述第二基本音子，随后转向步骤S44；

若否，则采用对应的英文音标替代所述第二基本音子，随后转向步骤S44；

步骤S44，将包括在所述音子序列中的所有隶属于中文音标的所述基本音子转换成对应的英文音标后，形成仅包括隶属于英文音标的所述基本音子的所述待发声序列，随后转向所述步骤S5。

优选的，该模拟发声方法，其中，所述步骤S43中，所述预设的匹配策略包括当所述第二基本音子属于中文声母的送气音类型时，采用在对应于所述第二基本音子的英文音标后增加清辅音的方式替代所述第二基本音子。

优选的，该模拟发声方法，其中，所述步骤S43中，所述预设的匹配策略包括当所述第二基本音子为中文韵母中的ü时，采用在英文音标j后增加英文音标u的方式替代所述第二基本音子。

优选的，该模拟发声方法，其中，所述步骤S43中，所述预设的匹配策略包括当所述第二基本音子满足一预设的条件时，采用预定的英文音标替代所述第二基本音子；

所述预设的条件包括：

所述第二基本音子属于中文声母中的声母音子集合{j,zh}；或者

所述第二基本音子属于中文声母中的声母音子集合{q,ch}；或者

所述第二基本音子属于中文声母中的声母音子集合{x,sh}。

优选的，该模拟发声方法，其中，在执行所述步骤S42之前，首先执行下述步骤：

步骤S421，判断所述第一基本音子是否为一预定的中文韵母：

若否，则继续执行所述步骤S42；

步骤S422，判断所述第一基本音子之前的所述基本音子是否属于一预设的中文声母集合：

若否，则继续执行所述步骤S42；

步骤S423，采用一预设的浊音英文音标替代所述第一基本音子，随后转向所述步骤S44。

优选的，该模拟发声方法，其中，所述步骤S421中，预定的所述中文韵母为i。

优选的，该模拟发声方法，其中，所述步骤S423中，预设的所述中文声母集合为{z,c,s}或者{zh,ch,sh}。

一种模拟发声系统，其中，采用上述的模拟发声方法。

上述技术方案的有益效果是：采用一个语音合成引擎就能较好地实现中英文混合语音的模拟发声处理，降低了模拟发声处理的复杂度，并且保证模拟发声的准确性。

附图说明

图1是本发明的较佳的实施例中，一种模拟发声方法的总体流程示意图；

图2是现有技术中，中文音标中的声母发音部分示意图；

图3是现有技术中，中文音标中的韵母发音部分示意图；

图4是现有技术中，英文音标的国际音标分类示意图；

图5是本发明的较佳的实施例中，将隶属于中文音标的基本音子转换为隶属于英文音标的基本音子的流程示意图；

图6是本发明的较佳的实施例中，对某种隶属于中文韵母的第一基本音子进行转换的流程示意图；

图7是本发明的较佳的实施例中，关于汉语拼音中的声母j、q、x和zh、ch、sh之间互补性的示意图；

图8是本发明的一个较佳的实施例中，采用英文音子替代中文音子的映射关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

基于现有技术中存在的上述问题，现提供一种模拟发声方法的技术方案，该模拟发声方法主要针对同时具有中文文本和英文文本的中英文混合文本进行模拟发声操作，具体在于采用英文的基本音子来替代掉混合文本中相应的中文的基本音子，从而形成一个仅包括英文基本音子的音子序列，再对这个音子序列进行模拟发声，则能够仅依靠包括英文音标的语音合成引擎实现中英文混合语音的模拟发声操作。当然，本技术方案同样适用于仅包括中文的文本的模拟发声操作(将所有中文音标替换成对应的英文音标)，或者适用于仅包括英文的文本的模拟发声操作(直接采用仅包括英文的语音合成引擎进行模拟发声操作)，即本技术方案在解决中英文混合语音的模拟发声问题的同时，依然能够适用于仅包括中文或者仅包括英文的文本的模拟发声。

则本发明的较佳的实施例中，上述模拟发声方法中，首先设置一基于英文音标的语音合成引擎，并预先建立英文音标与中文音标之间的对应关系。

上述方法的具体步骤如图1所示，包括：

步骤S1，获取一待发声文本；

步骤S2，将待发声文本中的文字分别转化成对应的基本音子，以形成包括依序排列的多个基本音子的音子序列；

步骤S3，于音子序列中区分出隶属于中文音标的基本音子以及隶属于英文音标的基本音子；

步骤S4，根据对应关系将音子序列中隶属于中文音标的基本音子转换成对应的隶属于英文音标的基本音子，以形成一仅包括隶属于英文音标的基本音子的待发声序列；

步骤S5，将待发声序列送入语音合成引擎中，以合成对应于待发声文本的一段语音并输出。

具体地，本实施例中，上述仅包括英文音标的语音合成引擎可以为现有技术中的各类专门的英文TTS引擎，该英文TTS引擎中包括了全部的英文国际音标，该英文TTS引擎可以由例如微软的Speech API或者IBM的viaVoice等现有的TTS引擎实现，在此不再赘述。

本实施例中，为了便于描述，采用上述模拟发声方法对既包括中文文本也包括英文文本的混合文本进行模拟发声操作，但是上述待发声文本同样可以为纯中文文本或者纯英文文本。对于纯中文文本而言，可以解析得到中文音标，并将所有的中文音标转换成对应的英文音标；对于纯英文文本而言，直接采用纯英文的TTS引擎进行模拟发声即可。

本实施例中，首先获取一待发声文本，并将该待发声文本中的每个文字分别转化成具体发音时所对应的基本音子，并且将这些基本音子依次排列以形成一个音子序列。具体地，上述基本音子以在待发声文本中对应的文字的排列方式进行排列以形成上述音子序列。上述音子序列中，中文文字被按照如图2-3中所示的中文发音部分示意图表被转化成对应的隶属于中文音标的基本音子，相应地英文文字被按照如图4中所示([]内为国际音标)的英文发音部分示意图表被转化成对应的隶属于英文音标的基本音子。

随后，本实施例中，针对上述音子序列中的基本音子，将其区分为隶属于中文音标的基本音子以及隶属于英文音标的基本音子。当然，对于纯中文的待发声文本而言，上述音子序列中仅包括隶属于中文音标的基本音子。相应地，对于纯英文的待发声文本而言，上述音子序列中仅包括隶属于英文音标的基本音子。

本实施例中，由于采用的是纯英文的TTS引擎，因此对于音子序列中隶属于英文音标的基本音子可以不需要进行处理。而对于音子序列中隶属于中文音标的基本音子，需要按照一定的规则将其一一转换成对应的英文音标。具体地，汉字的拼音去掉声调的影响大概存在400多类，一一被划分到声母和韵母的分类当中可以得到21个声母(如图2所示，[]内为国际音标)和36个韵母(如图3所示，[]内为国际音标)。其中，

声母包括：b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s。汉语拼音中声母的IPA(International Phonetic Alphabet，国际音标)图表如图2中所示。

韵母包括：a、ai、an、ang、ao、e、ei、en、eng、er、i、ia、ian、iang、iao、ie、in、ing、iong、iou、o、ong、ou、u、ua、uai、uan、uang、uei、uen、ueng、uo、ü、üan、üe、ün。汉语拼音中韵母的IPA图表如图3中所示。

相应地，对于英文来说，其基本音标有48个，英文的IPA图表如图4中所示，在对英文文本进行语音识别和你合成的过程中，通常会使用图4中的某个子集，并且一般的做法是省略掉一些复合音标，或者合并某些基本音子。

则本实施例中，可以采用英文的基本音标来替代掉发音相同或相近的中文的音子，从而将上述音子序列转化成一仅包括隶属于英文音标的基本音子的待发声序列。

最后，本实施例中，再采用上述预先设置的仅包括英文音标的语音合成引擎对上述待发声序列进行模拟发声处理，从而合成一段发音相同或相近于待发声文本中文本内容的语音并输出。

本发明中提供一种采用仅包括英文音标的英文语音合成引擎就能够处理可能包括中文文本和/或英文文本的待发声的混合文本的模拟发声操作，使得能够采用面向英美用户的专门的英文语音合成引擎模拟出中文说话的语音发声。由于采用的是英文语音合成引擎，最终模拟出来的语音具有类似于外国人读汉语的语音语调，并非中文语音引擎合成的字正腔圆的语音语调，因此在语音合成之余具有一定的娱乐性。并且，采用一定的规则用英文音子来替代中文音子(下文中会详述)，使得最终合成出来的句子的汉语部分具有较强的可懂度和自然度，又具有很好的实用性，能够较好地替代现有技术中的混合语音模拟发声方法。

本发明的较佳的实施例中，如图5所示，上述步骤S4具体包括：

步骤S41，判断隶属于中文音标的基本音子的类别：

若基本音子为隶属于中文韵母的第一基本音子，则转向步骤S42；

若基本音子为隶属于中文声母的第二基本音子，则转向步骤S43；

步骤S42，采用对应的英文音标替代第一基本音子，随后转向步骤S44；

步骤S43，判断第二基本音子是否符合预设的匹配策略：

若是，则对英文音标进行处理，并将经过处理的英文音标替代第二基本音子，随后转向步骤S44；

若否，则采用对应的英文音标替代第二基本音子，随后转向步骤S44；

步骤S44，将包括在音子序列中的所有隶属于中文音标的基本音子转换成对应的英文音标后，形成仅包括隶属于英文音标的基本音子的待发声序列，随后转向步骤S5。

虽然英文的基本音标较中文的基本音标更多，但是一些中文的基本音标的发音比较特殊，其在英文的音标中并不存在相同或相近发音的对应音标。具体地，英文中的音子基本可以完全覆盖汉语中的韵母，或者可以用十分近似的音进行替换，但是汉语拼音中的某些特殊的声母，在英文音标中找不到相应的单个音标来代替，即这些特殊的中文声母无法采用单个英文音标来替代。在这种情况下，需要将英文音标做一些处理，再将经过处理的英文音标来替代上述隶属于中文声母的第二基本音子。上述处理例如将两个或多个英文音标进行组合，或者指定特殊的一些英文音标来进行替代等，在下文中会详述。

因此，本实施例中，在上述步骤S4中，首先需要于音子序列中区分出隶属于中文韵母的基本音子(计为第一基本音子)以及隶属于中文声母的基本音子(计为第二基本音子)，并且对于第一基本音子和第二基本音子做区别处理。

具体地：

如上文中所述，汉语拼音中的韵母基本都可以被读音相同或相近的音标所替代，因此本实施例中，对于上述第一基本音子，可以直接采用对应的英文音标替代。

而对于隶属于声母的第二基本音子，需要进一步区分该第二基本音子是否隶属于特殊的声母，即该第二基本音子是否满足预设的匹配策略：

若满足，则表示该第二基本音子隶属于特殊的声母，需要采用对应的经过处理的英文音标来进行替代；

若不满足，则表示该第二基本音子隶属于普通的声母，此时只需要直接采用对应的英文音标替代即可，类似上文中对第一基本音子的处理方式。

进一步地，本发明的较佳的实施例中，上述预设的匹配策略可以包括下文中所述的一种或几种：

1)第二基本音子属于中文声母的送气音类型；

2)第二基本音子为中文韵母中的ü；

3)第二基本音子满足一预设的条件。

具体地：

上述第1)种情况下，例如第二基本音子为汉语拼音中的p，此时对英文音标的处理方式是在相应的英文音标后附加清辅音h来模拟第二基本音子的发音，即采用[p]+[h]的方式替换掉汉语拼音中的p。又例如，第二基本音子为汉语拼音中的t，此时对英文音标的处理方式同样是在相应的英文音标后附加清辅音h来模拟第二基本音子的发音，即采用[t]+[h]的方式替换掉汉语拼音中的t。

上述第2)种情况下，即第二基本音子为ü，此时可以采用圆唇音来替代，例如采用英文音标[j]+[u]的方式来替代第二基本音子ü。上述第二基本音子ü可以存在于例如üan、üe以及ün等情况中。

上述第3)种情况下，所谓预设的条件可以为下文中的至少一种：

①第二基本音子属于中文声母中的声母音子集合{j,zh}；

②第二基本音子属于中文声母中的声母音子集合{q,ch}；

③第二基本音子属于中文声母中的声母音子集合{x,sh}。

具体地，上述三种情况中的声母音子集合，其中两个声母之间的发音非常相近，并且这两个声母后面接的韵母又具有很强的互补性(其互补性如图7中所示)，因此在进行语音合成时可以采用同一个预定的英文音标来进行替代。

例如：

对于声母j和zh，可以统一采用英文的[d₃]来映射。

对于声母q和ch，可以统一采用英文的[t_∫]+[h]来映射。

对于声母x和sh，可以统一采用英文的[∫]来映射。

本发明的最优的实施例中，上述几种预设的匹配策略可以同时采用，对于上述匹配策略没有覆盖到的第二基本音子，可以采用发音相近的英文音标替代，这样可以提升模拟发声的准确度和可懂度。

本发明的较佳的实施例中，上述预设的匹配策略可以采用上文中所述的一种或几种，对于匹配策略没有覆盖到的第二基本音子，可以采用发音相近的对应的英文音标替代，或者采用其他预先设定好的英文音标替代，这样虽然可懂度和准确度有所降低，但是规则库也相应减小，依然可以作为一个可用的模拟发声方法应用在相应的模拟发声系统中。

本发明的较佳的实施例中，在执行上述步骤S42之前，首先执行如图6所示的下述步骤：

步骤S421，判断第一基本音子是否为一预定的中文韵母：

若否，则继续执行步骤S42；

步骤S422，判断第一基本音子之前的基本音子是否属于一预设的中文声母集合：

若否，则继续执行步骤S42；

步骤S423，采用一预设的浊音英文音标替代第一基本音子，随后转向步骤S44。

进一步地，上述预设的所述中文声母集合为{z,c,s}或者{zh,ch,sh}。

具体地，本实施例中，上述步骤S42中，并非所有的中文韵母都能够找到发音相同或相近的英文音标。对于跟在声母z、c、s和zh、ch、sh后面的韵母i来说，其发音比较特殊，在英文音标中既没有近似音，也难以用组合音来模拟。则本发明技术方案中可以采用通过实验挑选的两个不容易引起歧义的浊音英文音子来分别替代声母z/c/s后的i以及声母zh/ch/sh后的i。

例如，通过实验找到两个不容易引起歧义的浊音英文音子分别为[u]和[r]，其中以[u]来替代声母z/c/s后面的韵母i，以及用[r]来替代声母zh/ch/sh后面的韵母i。

则上述步骤中，在采用对应的英文音标替换第一基本音子之前，首先需要判断该第一基本音子是否为韵母i：

若第一基本音子不为韵母i，则直接采用对应的英文音标替换第一基本音子；

若第一基本音子为韵母i，则需要执行下一步判断，即判断该第一基本音子之前的基本音子是否属于预定的中文声母集合中，即是否属于{z,c,s}或者{zh,ch,sh}：

若第一基本音子之前的基本音子不属于上述预定的中文声母集合中，则直接采用对应的英文音标替代第一基本音子即可；

若第一基本音子之前的基本音子属于上述预定的中文声母集合中，例如为z或者zh，则需要采用特殊的浊音英文音子来进行替代，具体替代方式如上文中所述。

本发明的一个较佳的实施例中，同时应用上述所有预设的匹配策略以及针对韵母i的特殊处理，形成一个分别对应不同的中文声母/韵母的英文音标替代方案，该替代方案具体如图8所示。采用该替代方案能够较好地采用英文音子替代中文音子，从而利用一个全英文的专门英文语音合成引擎就能够实现中英文混合语音的模拟发声处理。当然，本发明技术方案同样适用于全中文/全英文的语音合成处理过程。

本发明的其他实施例中，可以选择性应用上述预设的匹配策略以及对于韵母i的特殊处理，同样可以形成一个专门英文语音合成引擎，并采用该语音合成引擎实现对中英文混合语音的模拟发声处理。

本发明技术方案中的模拟发声方法的适用领域非常广泛，例如：

应用在英文的语音合成系统中，首先通过中文注音词典将待发声文本中的中文字符转换成拼音序列，进而分解成声母/韵母，然后通过图2-3中所示的声母/韵母发音示意图，将不同的声母/韵母分别映射得到对应的IPA序列中。再通过如图8中所示的映射示意图将IPA序列映射到英文TTS引擎所使用的IPA上。最后将英文音子合成为语音并执行模拟发声处理。

又例如：

应用在英文的歌曲合成系统中，首先通过中文注音词典将待发声文本中的中文字符转换成拼音序列，进而分解成声母/韵母，然后通过图2-3中所示的声母/韵母发音示意图，将不同的声母/韵母分别映射得到对应的IPA序列中。再通过如图8中所示的映射示意图将IPA序列映射到英文TTS引擎所使用的IPA上。最后将英文音子送入歌曲合成系统中，以进行模拟发声处理，实现用英语口音唱中文歌的效果。

本发明的较佳的实施例中，还提供一种模拟发声系统，其中采用上文中所述的模拟发声方法。该模拟发声系统同样应用广泛，例如可以应用到英文的语音合成系统中，也可以应用到英文的歌曲合成系统中等，在此不再赘述。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种模拟发声方法，其特征在于，设置一基于英文音标的语音合成引擎，并预先建立英文音标与中文音标之间的对应关系，还包括：

步骤S1，获取一待发声文本；

2.如权利要求1所述的模拟发声方法，其特征在于，所述步骤S4中具体包括：

步骤S41，判断隶属于中文音标的所述基本音子的类别：

步骤S43，判断所述第二基本音子是否符合预设的匹配策略：

3.如权利要求2所述的模拟发声方法，其特征在于，所述步骤S43中，所述预设的匹配策略包括当所述第二基本音子属于中文声母的送气音子类型时，采用在对应于所述第二基本音子的英文音标后增加清辅音的方式替代所述第二基本音子。

4.如权利要求2所述的模拟发声方法，其特征在于，所述步骤S43中，所述预设的匹配策略包括当所述第二基本音子为中文韵母中的ü时，采用在英文音标j后增加英文音标u的方式替代所述第二基本音子。

5.如权利要求2所述的模拟发声方法，其特征在于，所述步骤S43中，所述预设的匹配策略包括当所述第二基本音子满足一预设的条件时，采用预定的英文音标替代所述第二基本音子；

所述预设的条件包括：

所述第二基本音子属于中文声母中的声母音子集合{x,sh}。

6.如权利要求2所述的模拟发声方法，其特征在于，在执行所述步骤S42之前，首先执行下述步骤：

步骤S421，判断所述第一基本音子是否为一预定的中文韵母：

若否，则继续执行所述步骤S42；

7.如权利要求6所述的模拟发声方法，其特征在于，所述步骤S421中，预定的所述中文韵母为i。

8.如权利要求6所述的模拟发声方法，其特征在于，所述步骤S423中，预设的所述中文声母集合为{z,c,s}或者{zh,ch,sh}。

9.一种模拟发声系统，其特征在于，采用如权利要求1-8中任一项所述的模拟发声方法。