CN102568471A

CN102568471A - 语音合成方法、装置和系统

Info

Publication number: CN102568471A
Application number: CN2011104250322A
Authority: CN
Inventors: 胡郁; 胡国平; 何婷婷; 凌震华; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2012-07-11

Abstract

本发明的实施例提供了一种分布式语音合成方法、装置和系统。所述方法，包括：获取终端与服务器之间的网络传输条件；以及在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。该方法可以同时提供优质的合成音质和可控的响应时间，减少系统性能受网络传输条件的影响。

Description

语音合成方法、装置和系统

技术领域

本发明一般地涉及语音合成领域，特别地涉及一种基于本地终端和远端服务器的分布式语音合成方法和系统，以及关联的终端和服务器。

背景技术

实现人机之间人性化，智能化的有效交互，构建高效自然的人机交流环境，已经成为当前信息技术应用和发展的迫切需求。作为语音技术中十分实用的一项重要技术，语音合成技术将文字信息转化为自然的语音信号，实现任意文本的实时转换，改变了传统通过录音回放实现机器开口说话的繁琐操作，而且节省了系统存储空间，在信息交互日益增多的当今特别是在信息内容需要经常变动的动态查询应用方面发挥了越来越重要的作用。

计算机技术和数字信号处理技术的发展促进了语音合成技术的发展和实际应用。在Zhi-Wei Shuang，Yu Hu，Zhen-Hua Ling和Ren-HuaWang的论文“A miniature Chinese TTS system based on tailored corpus，”inProc.of ICSLP，pp.2389-2392，2002；以及Zhen-Hua Ling，Yu Hu，Zhi-WeiShuang和Ren-Hua Wang的论文“Compression of speech database byfeature separation and pattern clustering using STRAIGHT，”in Proc.ofInterspeech，pp.766-769，2004中，公开了嵌入式系统上采用基于语音单元拼接方法实现的系统。在此，通过引用并入其全部内容。

基于波形拼接的合成方法以大幅度提高的合成语音的音质、音色和自然度受到了越来越多的重视。基于波形拼接的合成系统首先用一个音库存放取自真实语音的语音单元波形，具体的语音单元可以按实际需要选择为帧、音素、音节、词、短语等，随后在合成时由合成算法指导挑选合适的语音片断单元拼接生成连续的语音信号。基于波形拼接的合成系统的合成效果主要受音库规模及语音单元覆盖面的影响。在高速运算和大存储量得到更好解决的当今，服务器通常具有超大规模音库，使得语音合成系统可以通过直接挑选语音单元拼接直接合成连续语音，在保持原始语音的音质的同时较大的改善了合成语音不连续的现象。

然而，服务器端基于波形拼接的语音合成在提高合成音质的同时，也导致了语音信号传输数据量的急剧增大。在目前日益普及的互联网应用环境下，将远程服务器端合成的语音信号通过网络传输的方式存在较大的不便，容易受到网络传输条件的制约进而影响合成系统的性能。

网络传输的快慢及稳定度直接影响了合成系统的响应时间。在网络信号较好时数据可以较快传输，因而用户可以很快得到系统反馈；反之则需要较长时间的等待，特别是在网络不通畅时系统甚至没有响应。这给用户带来糟糕的应用体验。此外，语音信号传输也导致网络数据使用量急剧增大，给用户带来经济上的损失。

因此，需要一种减少网络数据传输量的改进的语音合成方法和系统。

发明内容

为了实现上述目的，本发明的实施例提出了一种新的基于本地终端及远端服务器的双平台的分布式语音合成系统和方法。

该系统在网络连接不畅或不稳定时自动选择本地端的语音合成基准系统进行本地化合成，以避免用户的过度等待；反之则转入服务器端，依托服务器端的超大规模音库实现更高自然度的语音合成。

特别地，本发明还提出，在运行过程中终端持续接收服务器端传送的语音单元，不断扩大本地端音库规模，提高本地端合成系统的本地化合成性能。

特别地，不同于传统的基于音质优化的合成算法，本发明还提出服务器端合成系统可以基于多目标优化的准则，通过平衡合成音质和系统响应时间，实现远程合成系统的响应时间可控。具体地，可以在服务器端合成时，在多目标优化函数指导下挑选可以同时满足数据传输时间要求及合成音质要求的语音单元实现文本到语音的有效转换。

根据本发明的一个方面，提供了一种在终端处根据文本生成语音的方法，包括：获取终端与服务器之间的网络传输条件；以及在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。

根据本发明的另一方面，提供了一种在服务器处根据文本生成语音的方法，包括：根据网络传输条件，基于服务器音库确定文本对应的语音单元序列，实现基于语音合成音质和系统响应速度的多目标优化；以及向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

根据本发明的又一方面，提供了一种终端处的根据文本生成语音的装置，包括：网络传输条件获取模块，获取终端与服务器之间的网络传输条件；以及语音合成模块，在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。

根据本发明的又一方面，提供了一种根据文本生成语音的装置，包括：语音合成模块，根据网络传输条件，基于服务器音库确定文本对应的语音单元序列；以及通信模块，向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

附图说明

通过结合附图参考下面对本发明的实施方式的详细描述，本发明的上述以及其他特征将更加明显。在附图中，

图1示意性地示出了根据本发明的实施例的分布式语音合成系统的框图。

图2示出了根据本发明实施例的根据文本生成语音的方法在终端处的操作的流程图。

图3示出了一个语音合成的示例实现的流程图。

图4示出了根据本发明的实施例的在执行服务器远端合成时在终端本地的操作的流程图。

图5示出了根据本发明的实施例的在执行服务器远端合成时在服务器端的操作的流程图。

图6示意性地示出了根据本发明的实施例的在服务器端执行的多目标合成的一个示例的流程图。

图7示意性地示出了根据本发明的实施例的在服务器端执行的多目标合成的另一个示例的流程图。

图8示出了根据本发明的一个实施例的在终端处的根据文本生成语音的装置。

图9示出了根据本发明的一个实施例的在服务器端的根据文本生成语音的装置。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

在下文中，将参考附图通过实施方式对本发明的分布式语音合成系统和方法进行详细的描述。应当理解，给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

图1示出了根据本发明的实施例的简化分布式语音合成系统100。该系统100包括终端10、网络20和服务器30。

终端10适合于根据文本向用户输出对应的语音信号。终端10具有本地音库(也称为终端音库)，可以执行本地合成。终端10还具有联网功能，其在网络传输条件满足条件时，可以请求服务器进行远端语音合成。终端10可以是移动电话、平板计算机、联网功能的个人数字助理(PDA)、多媒体音乐播放器等等。

服务器30包括大规模的音库(也称为服务器音库)，可以实现高品质的语音合成。通常，服务器音库远大于终端音库，支持比终端本地合成更佳音质的语音合成。

应该理解，基于波形拼接的语音合成的合成效果主要受音库规模和语音单元覆盖面的影响。语音单元可以分为各种级别，从低到高可以分为帧、音素、音节、词、短语等。通常，对于同一个语音片段，由单个高层语音单元形成的语音音质较高，而由多个低层语音单元拼接成的语音则音质较差。

在高速运算和大存储量的支持下，本地终端10上的存储容量和计算能力日益增强。然而其在初始化阶段由于包括的音库规模较小，语音合成的质量往往一般。而服务器由于预置了超大规模音库，使得语音合成系统可以通过直接挑选大的语音单元，通过拼接直接合成连续语音，避免拼接后对语音信号持续调整优化的后处理程序，在保持原始语音的音质的同时较大改善合成语音不连续的现象。

于是，通过终端本地合成可以获得快速的系统响应；而通过服务器远端合成可以获得更佳的音质，但是在网络传输条件差时，需要较长时间的等待，特别是在网络不通畅时系统甚至没有响应。本发明的系统100折衷考虑了合成音质和系统时延两个方面。

在本实施例中，终端10配置为：获取终端与服务器之间的网络传输条件；以及在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。服务器30配置为基于终端10的请求进行语音合成，以及向终端10传输结果。

优选地，为了节省网络传输数据量，从而缩短系统响应时间，服务器30不向终端10传输语音形式的合成结果，而是向终端10传输待拼接在一起形成文本对应的输出语音的语音单元序列对应的索引序列以及终端音库缺少的语音单元。具体地，在一个优选实施例中，服务器30配置为：根据网络传输条件，基于服务器音库确定文本对应的语音单元序列；以及向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。终端20进一步配置为从服务器接收文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引；基于所述索引序列，检索本地音库已有的语音单元；以及基于检索到的本地音库已有的语音单元和接收的终端音库缺少的语音单元，拼接文本对应的语音单元序列，以形成文本对应的连续语音。

终端10可以通过网络20连接到服务器30。网络20可以是适于连接终端10和服务器30的任何网络，包括有线或者无线通信网络。例如，网络20可以是互联网、公共电话网络、蜂窝通信网络、第三代无线通信网络等等。

尽管在图1中仅示出一个终端，但是应该理解，根据本发明的分布式合成系统可以具有多个终端。

下面介绍根据本发明的分布式语音合成系统100的操作。

图2示意性地示出了根据本发明实施例的根据文本生成语音的方法在终端处的操作200的流程图。

方法200开始于步骤S210，在步骤S210中，获取终端与服务器之间的当前网络传输条件。终端10可以主动发送测试信号，监测其响应来获取当前的网络传输条件。

终端10可以通过主动发送测试信号以及监测服务器对该测试信号的响应来获取当前的网络传输条件，如网络传输速率等。终端10还可以跟踪当前网络信号，监测网络的通断、丢包，延时等传输稳定度情况，获取当前网络传输条件。

备选地，终端10可以从另一设备接收当前网络传输条件。例如，服务器或者另一网络监测设备(例如网关)可以向终端10发送指示当前网络传输条件的消息。

在步骤S220中，判断当前网络传输条件是否满足服务器远端合成所需的传输条件。当判断结果为满足时，前进到步骤S230，执行服务器远端合成；否则前进到步骤S240，执行终端本地合成。

在一个简单实现中，可以判断当前网络传输速率是否大于预定阈值，如果大于则选择服务器远端合成，否则选择终端本地合成。备选地，可以判断当前丢包率、错误率等是否大于预定阈值，如果大于则选择终端本地合成，否则选择服务器远端合成。

在一个优选实现中，还可以根据待生成语音的文本估计服务器合成结果将对应的数据量，判断在当前网络传输条件下能否在系统允许的时限内返回该数据量。若网络20不通或估计的服务器30的合成结果所需的传输时间(例如，合成结果中的至少一个终端音库缺少的语音单元所需的传输时间)大于系统允许的最大时限，则选择终端本地合成，否则可以选择服务器远端合成。

通常，语音合成算法主要考虑合成音质的最优化，获取高清晰高自然度的连续语音信号。在进行语音合成时，首先将文字序列转换成基本的音韵单元序列，随后从语料库(即音库)中挑选对应于每个音韵单元的语音实现波形拼接目标函数的最优化。

下面参考图3，其示出了一个语音合成的示例实现300的流程图。

在步骤S310中，对文本进行分词，将原始的没有词语标识符的文本切分成具有明确分词的文本词串。这可以是使用常用的前后向最大分词算法，将原句“有一支股票涨了百分之二十三点一五”，执行分词操作得到“有/一/支/股票/涨/了/百分之/二/十/三/点/一/五”的词串。应该理解，可以使用其他分词算法替代前后向最大分词算法。

在步骤S320中，根据系统预先设置的字音字典将分词序列转换成音素、音节等语音库支持的基本语音单元序列串。

在步骤S330中，针对步骤S320中的每个基本语音单元，从语音库中挑选最优实例，使得拼接后的语音信号满足清晰、自然以及连续的要求。然后，将这些挑选的最优实现组成文本对应的语音单元序列。可选地，可以对所得的语音单元序列进行后处理，以便进行优化。

特别的，后处理优化后的语音单元序列还可以更新至服务器音库，以扩充音库规模。

在执行终端本地合成时，可以采用图3所示的方法从本地音库中挑选满足目标函数最大化的语音单元序列。

在执行服务器远端合成时，终端将请求服务器执行语音合成。

下面参考图4-图6说明执行服务器远端合成的具体实现。

图4示意性地示出了根据本发明的实施例的在执行服务器远端合成时在终端本地的操作400的流程图。

如果所示，在步骤410中，终端将文本发送给服务器。应该理解，该步骤并不是必需的。当终端待输出语音的文本是来自服务器或者网络上的其他设备时，终端不需要发送文本。

在步骤420中，从服务器接收服务器确定的文本对应的语音单元序列对应的索引序列，以及该序列中包含的终端音库缺少的语音单元及其索引。

在步骤S430中，基于接收的索引序列，检索本地音库已有的语音单元。终端可以简单地通过比较接收的索引序列和终端音库缺少的语音单元序列确定本地音库已有的语音单元，然后根据索引从本地音库中检索这些语音单元。

然后，在步骤S440中，可以基于检索到的本地音库已有的语音单元和接收的终端音库缺少的语音单元，按照索引序列确定的顺序进行拼接，以形成文本对应的连续语音信号。应该理解，在拼接之后，可以应用各种后处理技术对所得的语音信号进行优化处理，例如提高流畅度等等。

可选地，方法400还包括步骤S450。在步骤S450中，根据从服务器接收的语音单元及其索引，更新本地终端音库，以及相应地更新终端音库的索引表。

在高速运算和大存储量的支持下，本地终端10上的存储容量和计算能力日益增强。然而在终端10初始使用时，为了避免系统安装特别是大规模音库下载的不便，可以仅配置满足基本合成功能的小规模音库，例如仅包括覆盖面全的低层语音单元集合。这样的小规模音库可以节省终端上的空间，以及减少安装时间。通过在使用过程中，不断地将从服务器接收的语音单元加入本地终端音库，可以扩大本地终端音库的规模，实现本地语音合成性能的持续优化。

图5示意性地示出了根据本发明的实施例的在执行服务器远端合成时在服务器端的操作500的流程图。

如图所示，在步骤S510中，根据网络传输条件，基于服务器音库确定文本对应的语音单元序列。

服务器通常具有超大规模的音库。服务器还保存终端音库的索引表的副本，以知晓终端音库中包含哪些语音单元。其中在服务器音库和终端音库二者中，同一语音单元的索引保持一致。并且服务器保存的终端音库的索引表副本与终端本地的索引表保持同步。

服务器端的语音合成系统可以根据多目标优化准则，从服务器语音库中挑选满足目标函数最优的语音单元序列。在服务器端的语音合成考虑的多目标不仅包括传统的语音合成所考虑的语音合成音质，而且还包括系统响应速度。具体地，考虑的目标不仅包括语音合成的音质效果，如清晰度、自然度以及流畅度等等，而且包括确保合成结果需要向终端传输的数据量不大于当前网络传输条件的允许的最大数据量。合成结果需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。通常索引的数据量远小于语音形式的语音单元的数据量，在与后者相比时甚至可以忽略不计。当网络传输条件差时，可以更多地选择终端音库具有的语音单元来合成文本对应的语音，以减少需要传输的数据量。

在步骤S520中，向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

图6示意性地示出了根据本发明的一个实施例的服务器端语音合成系统的操作示例600的流程图。

如图所示，在步骤S610中，基于服务器音库确定文本对应的多个候选语音单元序列。可以主要考虑语音合成的音质效果，如清晰度，自然度及流畅度等，从服务器端音库中选择多条最优的(或优于阈值的)语音单元序列实现对给定文本的语音合成。这例如可以采用如图3所示的语音合成算法来实现。

在步骤S620中，针对每个候选语音单元序列，检测其包含的终端音库缺少的语音单元，并统计对应的需要传输的数据量。其中需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。通常索引的数据量远小于语音形式的语音单元的数据量，在与后者相比时甚至可以忽略不计。

下面给出一个计算候选序列需要传输的数据量的示例方法：首选，根据终端音库索引表副本，确定所考察的候选语音单元序列中包含的终端音库中没有的语音单元的子集。然后，统计该子集所对应的各个语音波形单元的数据量的总和，作为需要传输的数据量。

在步骤S630中，从所述多个候选中选择对应的需要传输的数据量适合当前网络传输条件的一个候选作为文本对应的语音单元序列。例如，可以根据下式来估计在当前网络传输条件下传输特定的候选序列需要的时间：

然后，判断该估计时间是否小于(即满足)系统允许的最大时延。

然后，在步骤S640中，向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

图7示意性地示出了根据本发明的另一个实施例的服务器端语音合成系统的操作示例700的流程图。

在步骤S710中，基于服务器音库确定文本对应的一个候选语音单元序列。可以主要考虑语音合成的音质效果，如清晰度，自然度及流畅度等，从服务器端音库中选择最优的语音单元序列实现对给定文本的语音合成。这例如可以采用如图3所示的语音合成算法来实现。

在步骤S720中，检测所述候选序列中包含的终端音库缺少的语音单元，并统计对应的需要传输的数据量。如上所述，需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。通常索引与语音单元相比，其数据量可以忽略不计。

在步骤S730中，判断需要传输的数据量是否大于在当前网络传输条件下允许传输的最大数据量。

例如，可以根据下式来估计在当前网络传输条件下允许传输的最大数据量：

允许传输的最大数据量＝系统允许的时延×所占带宽×当前网络传输速率。

当步骤S730中的判断结果为大于时，前进到步骤S740。在步骤S740中，用终端音库包含的语音单元替换候选序列中的终端音库缺少的语音单元，形成新的候选序列。可以一次替换候选语音单元序列中的一个或多个语音单元。例如，可以根据实际需要传输的数据量和允许传输的数据量差值确定当前候选语音单元序列中需要替换的语音单元个数，然后从本地音库中挑选当前语音单元序列中各语音单元的替换单元，选择其中满足音质得分下降最少的单元进行替换。然后，回到步骤S730。

下面示出一个替换示例。如果候选序列中语音单元“股票”在终端音库中不存在，但是终端音库中存在更小的语音单元“股”和“票”，则可以用语音单元“股”和“票”来替换后选序列中的语音单元“股票”，形成新的候选序列。

当步骤S730中的判断结果是不大于时，前进到步骤S750，将当前的候选序列确定为文本对应的语音单元序列，方法700结束。

图8示出了根据本发明的一个实施例的根据文本生成语音的装置800。装置800可以是图1所示的终端10或者其一部分。如图所示，装置800包括网络传输条件获取模块810，获取终端与服务器之间的网络传输条件。装置800还包括语音合成模块820，其在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。

语音合成模块820包括语音单元挑选模块。当网络传输条件不满足服务器远端合成所需的传输条件时，语音合成模块820执行的终端本地合成可以具体执行如下：由语音单元挑选模块从终端音库中挑选语音单元以构成文本对应的语音单元序列。优选地，语音合成模块820还可以包括后处理模块，对文本对应的语音单元序列进行优化处理，以获得更佳音质的连续语音。此处的语音单元挑选模块与现有技术的终端中的语音合成模块的功能类似，在此不再赘述。

优选地，语音合成模块820还包括：通信模块，从服务器接收文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引；检索模块，基于所述索引序列，检索本地音库已有的语音单元；拼接模块，基于检索到的本地音库已有的语音单元和接收的终端音库缺少的语音单元，拼接文本对应的语音单元序列，以形成文本对应的连续语音。当在网络传输条件满足服务器远端合成所需的传输条件时，语音合成模块820执行的服务器远端合成可以通过上述通信模块、检索模块和拼接模块执行诸如图4所示的方法来完成。

优选地，装置800还包括存储设备，用于存储本地音库及其索引。

优选地，装置800还包括更新模块830，根据从服务器接收的语音单元及其索引，更新终端音库。

装置800还可提供存储模块，存储本地终端音库及其索引表。所述音库中的每个语音单元具有各自唯一的索引。语音合成模块可以通过索引来访问音库中的语音单元。

图9示出了根据本发明的一个实施例的根据文本生成语音的装置900。装置900可以是图1所示的服务器30或者其一部分。如图所示，装置900包括语音合成模块910，配置为：根据网络传输条件，基于服务器音库确定文本对应的语音单元序列。在文本对应的语音单元序列时可以基于多目标优化的准则来确定，其中考虑的目标不仅包括传统的语音合成所考虑的语音合成音质，而且还包括系统响应速度。具体地，可以在多目标优化函数指导下挑选可以同时满足数据传输时间要求及合成音质要求的最优的(或者优于阈值)的语音单元序列。装置900还包括通信模块920，配置为：向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

装置900还可包括存储模块930，存储大规模音库，以及终端音库的索引表副本等。

根据一个优选实施例，语音合成模块910配置为：基于服务器音库确定文本对应的语音单元序列的多个候选；以及从所述多个候选中选择需要向终端传输的数据量适合当前网络传输条件的一个候选作为文本对应的语音单元序列，其中每个候选需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。

根据另一个优选实施例，语音合成模块910配置为：基于服务器音库确定文本对应的语音单元序列的候选；以及在所述候选需要向终端传输的数据量大于在当前网络传输条件下允许传输的最大数据量时，用终端音库包含的语音单元替换所述候选语音单元序列中的语音单元，其中所述候选需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。

为清晰起见，在图8和9中并未示出各个模块所包含的子模块。然而，应当理解，装置800和900的操作与参考图2-7描述的方法相一致。由此，上文针对图2-7描述的操作和特征同样适用于装置800和900及其中包含的模块和子模块，在此不再赘述。

应该理解，尽管在上文详细描述中提及了系统的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

本发明的根据文本生成语音的装置可以利用各种方式来实现。例如，在某些实施方式中，可以利用软件和/或固件模块来实现。此外，也可以利用硬件来实现。例如，终端和/或服务器上的语音合成模块可以实现为集成电路(IC)芯片或专用集成电路(ASIC)。终端上的语音生成模块也可以实现为片上系统(SOC)。现在已知或者将来开发的其他方式也是可行的，本发明的范围在此方面不受限制。

上文已经结合具体实施方式阐释了本发明的精神和原理。

根据本发明的实施例，提供了一种基于客户端及服务器端双平台的分布式语音合成系统。该系统通过网络监测器监测的网络状态，确定选择客户端本地化合成或服务器端远程合成。

根据本发明的实施例还提供了一种可利用本地端音库独立实现合成任务本地化的基线系统，在网络不通畅等极端情况下，满足用户基本对语音合成的基本要求以避免用户过度等待。

根据本发明的实施例，还提供了一种本地合成系统的持续优化方案。具体地，本地端系统初始预先设置一满足基本合成要求的小规模语音库，在后续运行中通过不断接收服务器端传送的语音单元，扩大本地音库规模，实现本地化合成系统性能的提升

根据本发明的实施例，还提供了一种基于多目标优化的服务器端合成系统，实现了合成语音音质和系统响应速度的平衡。该系统在网络状态优良情况下接收客户端发送的合成文本，并从服务器端音库中挑选合适的语音单元序列实现文本到语音的转换。

根据本发明的实施例，还提供了一种多目标优化的合成算法，该算法首先通过传统基于音质最优的合成算法生成候选项，随后参考网络传输状态确定速度优化目标。

虽然上文已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种在终端中执行的根据文本生成语音的方法，包括：

获取终端与服务器之间的网络传输条件，以及

在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。

2.根据权利要求1所述的方法，其中所述执行服务器远端合成包括：

从服务器接收文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引，

基于所述索引序列，检索本地音库已有的语音单元，以及

基于检索到的本地音库已有的语音单元和接收的终端音库缺少的语音单元，拼接文本对应的语音单元序列，以形成文本对应的连续语音。

3.根据权利要求2所述的方法，还包括：

根据从服务器接收的语音单元及其索引，更新本地音库。

4.一种在服务器上执行的根据文本生成语音的方法，包括：

根据网络传输条件，基于服务器音库，确定文本对应的语音单元序列，实现基于语音合成音质和系统响应速度的多目标优化，以及

向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

5.根据权利要求4所述的方法，其中所述基于语音合成音质和系统响应速度的多目标优化包括：

基于服务器音库确定文本对应的语音单元序列的多个候选，

从所述多个候选中选择需要向终端传输的数据量适合当前网络传输条件的一个候选作为文本对应的语音单元序列，

其中每个候选需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。

6.根据权利要求4所述的方法，其中所述基于语音合成音质和系统响应速度的多目标优化包括：

基于服务器音库确定文本对应的语音单元序列的语音合成音质最优的候选，

在所述候选需要向终端传输的数据量大于在当前网络传输条件下允许传输的最大数据量时，用终端音库包含的语音单元替换所述候选语音单元序列中的语音单元，

其中所述候选需要向终端传输的数据量取决于该候选的索引序列、终端音库缺少的语音单元及其索引对应的数据量。

7.一种终端处的根据文本生成语音的装置，包括：

网络传输条件获取模块，获取终端与服务器之间的网络传输条件，

语音合成模块，在网络传输条件满足服务器远端合成所需的传输条件时，执行服务器远端合成，否则执行终端本地合成。

8.根据权利要求8所述的装置，其中语音合成模块包括：

语音单元挑选模块，从终端音库挑选语音单元以构成文本对应的语音单元序列，

通信模块，从服务器接收文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引，

检索模块，基于所述索引序列，检索本地音库已有的语音单元，

拼接模块，基于检索到的本地音库已有的语音单元和接收的终端音库缺少的语音单元，拼接文本对应的语音单元序列，以形成文本对应的连续语音。

9.根据权利要求9所述的装置，还包括：

音库更新模块，根据从服务器接收的语音单元及其索引，更新终端音库。

10.一种服务器端的根据文本生成语音的装置，包括：

语音合成模块，根据网络传输条件，基于服务器音库确定文本对应的语音单元序列，实现基于语音合成音质和系统响应速度的多目标优化；

通信模块，向终端传输所确定的文本对应的语音单元序列的索引序列以及终端音库缺少的语音单元及其索引。

11.根据权利要求11所述的装置，其中所述语音合成模块配置为：

基于服务器音库确定文本对应的语音单元序列的多个候选，

12.根据权利要求11所述的装置，其中所述语音合成模块配置为：

基于服务器音库确定文本对应的语音单元序列的候选，

13.一种分布式语音合成系统，包括至少一个根据权利要求7-9中任一项所述的装置和根据权利要求10-12中任一项所述的装置。