CN105355194A

CN105355194A - 语音合成方法和装置

Info

Publication number: CN105355194A
Application number: CN201510690575.5A
Authority: CN
Inventors: 李秀林; 唐海员; 李维高; 白洁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-22
Filing date: 2015-10-22
Publication date: 2016-02-24

Abstract

本发明提出一种语音合成方法和装置，该语音合成方法包括：向服务器发送数据文件查询请求；接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；将所述声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；下载并保存所述用户选择的音色对应的声学模型；通过保存的声学模型进行语音合成。本发明可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

Description

语音合成方法和装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法和装置。

背景技术

语音合成，又称文语转换(TexttoSpeech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。

现有的语音合成系统中，输入文本通过文本预处理、分词等一系列处理后，进入韵律层级预测模块，然后利用声学模型，生成目标声学参数序列，并最终合成语音。在参数合成系统中，语音生成是通过声码器来实现的，由于这种语音生成方式，不需要利用原始声音片段进行拼接，可以做到比较小的尺寸，所以在嵌入式设备上得到了广泛应用。

近几年，神经网络技术快速发展，被应用到了越来越多的领域，其中包括语音识别、语音合成等。其中，长短期记忆(Long-ShortTermMemory；以下简称：LSTM)技术被成功地应用到了语音合成的声学建模当中，但是，基于LSTM的声学模型，在合成系统中用于声学参数预测时，其计算量，相比基于隐马尔可夫模型(HiddenMarkovModel；以下简称：HMM)的方案，也有比较明显的增长。

众所周知，嵌入式设备的计算能力差异很大。不但不同平台、不同厂家的设备之间差异很大，即便是同一个厂家，不同时期的产品，也有很大差异，而这些产品可能同时在不同的用户手中使用。

但是，对于现有的离线合成系统，其声学模型往往是固定的，不能自动针对不同的终端进行处理或者优化，从而导致相同的合成系统在不同终端上的运行效果差异很大，造成低端机上的语音合成不流畅，或者无法为高端机提供更好的语音合成服务。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音合成方法。该方法可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

本发明的第二个目的在于提出一种语音合成装置。

为了实现上述目的，本发明第一方面实施例的语音合成方法，包括：向服务器发送数据文件查询请求，所述数据文件查询请求携带终端设备的计算能力数据；接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；将所述声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；下载并保存所述用户选择的音色对应的声学模型；通过保存的声学模型进行语音合成。

本发明实施例的语音合成方法中，向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表显示给使用上述终端设备的用户，下载并保存上述用户选择的音色对应的声学模型，进而通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

为了实现上述目的，本发明第二方面实施例的语音合成方法，包括：接收终端设备发送的数据文件查询请求，所述数据文件查询请求携带所述终端设备的计算能力数据；根据所述终端设备的计算能力数据确定适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少两个音色对应的声学模型；将所述声学模型列表发送给所述终端设备，以供所述终端设备下载并保存使用所述终端设备的用户从所述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。

本发明实施例的语音合成方法中，接收终端设备发送的数据文件查询请求之后，根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

为了实现上述目的，本发明第三方面实施例的语音合成装置，包括：发送模块，用于向服务器发送数据文件查询请求，所述数据文件查询请求携带终端设备的计算能力数据；接收模块，用于接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；显示模块，用于将所述接收模块接收的声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；下载模块，用于下载所述用户选择的音色对应的声学模型；保存模块，用于保存所述下载模块下载的声学模型；语音合成模块，用于通过所述保存模块保存的声学模型进行语音合成。

本发明实施例的语音合成装置中，发送模块向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收模块接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后显示模块将上述声学模型列表显示给使用上述终端设备的用户，下载模块和保存模块下载并保存上述用户选择的音色对应的声学模型，进而通过保存模块保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

为了实现上述目的，本发明第四方面实施例的语音合成装置，包括：接收模块，用于接收终端设备发送的数据文件查询请求，所述数据文件查询请求携带所述终端设备的计算能力数据；确定模块，用于根据所述终端设备的计算能力数据确定适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少两个音色对应的声学模型；发送模块，用于将所述确定模块确定的声学模型列表发送给所述终端设备，以供所述终端设备下载并保存使用所述终端设备的用户从所述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。

本发明实施例的语音合成装置中，接收模块接收终端设备发送的数据文件查询请求之后，确定模块根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后发送模块将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明语音合成方法一个实施例的流程图；

图2为本发明语音合成方法另一个实施例的流程图；

图3为本发明语音合成方法再一个实施例的流程图；

图4为本发明语音合成方法再一个实施例的流程图；

图5为本发明语音合成方法中生成声学模型一个实施例的示意图；

图6为本发明语音合成装置一个实施例的结构示意图；

图7为本发明语音合成装置另一个实施例的结构示意图；

图8为本发明语音合成装置再一个实施例的结构示意图；

图9为本发明语音合成装置再一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明语音合成方法一个实施例的流程图，如图1所示，上述语音合成方法可以包括：

步骤101，向服务器发送数据文件查询请求，上述数据文件查询请求携带终端设备的计算能力数据。

步骤102，接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少两个音色对应的声学模型。

步骤103，将上述声学模型列表显示给使用上述终端设备的用户，以供上述用户从上述声学模型列表中选择音色对应的声学模型。

步骤104，下载并保存上述用户选择的音色对应的声学模型。

步骤105，通过保存的声学模型进行语音合成。

本实施例中，终端设备向服务器查询可用的声学模型，同时提供自己的计算能力数据(可以是产品型号，也可以是量化的计算能力值，或者核心硬件数据等)；服务器根据终端设备提供的计算能力数据，返回适合当前终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型；然后，终端设备根据用户的选择，下载并保存用户选择的音色对应的声学模型。

终端设备在下载并保存声学模型之后，就可以提供语音合成服务了。终端设备中的语音合成系统，在加载下载得到的声学模型的时候，会根据声学模型中的信息，判断出声学模型的类型，自动加载到语音合成系统中，并通过对应的处理流程，预测出声学参数序列，供声码器合成出语音。

其中，上述终端设备可以为手机或电脑等具有语音合成功能的终端设备，本实施例对上述终端设备的形态不作限定。

图2为本发明语音合成方法另一个实施例的流程图，如图2所示，步骤101之前，还可以包括：

步骤201，当上述用户首次使用上述终端设备上安装的应用的语音合成功能时，向上述用户提示是否下载声学模型。

步骤202，接收上述用户确定下载声学模型的指示，然后执行步骤101。

举例来说，某个应用(Application；以下简称：App)集成了语音合成的软件开发包，用户安装这个App在该用户使用的终端设备(例如：iphone4)上之后，当上述用户首次使用这个App的语音合成功能时，App会提示用户是否下载声学模型。接收到上述用户确定下载声学模型的指示之后，App向服务器发送数据文件查询请求，上述数据文件查询请求中携带上述终端设备的计算能力数据(可以是上述终端设备的产品型号，例如：iphone4)。服务器得知上述终端设备为iphone4时，会根据服务器中的声学模型及所需计算能力的数据库，了解到这个终端设备适合比较节约计算资源的HMM模型。然后，服务器把可用的多个音色所对应的HMM模型生成声学模型列表，将上述声学模型列表返回给终端设备，上述声学模型列表中可以包括温柔女声1、爽朗女声2和/或磁性男声1等声学模型。终端设备收到上述声学模型列表后，将上述声学模型列表显示给用户，以供上述用户从上述声学模型列表中选择自己感兴趣的音色对应的声学模型，然后终端设备下载并保存上述用户选择的音色对应的声学模型，从而iphone4这个终端设备获得了计算复杂度低的HMM模型，进而可以通过保存的声学模型进行语音合成。

类似地，iphone6由于计算能力比较强，获得的可能就是LSTM模型，具有更好地声音建模效果。

上述语音合成方法中，终端设备向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表显示给使用上述终端设备的用户，下载并保存上述用户选择的音色对应的声学模型，进而通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

图3为本发明语音合成方法再一个实施例的流程图，如图3所示，上述语音合成方法可以包括：

步骤301，接收终端设备发送的数据文件查询请求，上述数据文件查询请求携带上述终端设备的计算能力数据。

其中，上述终端设备的计算能力数据可以是产品型号，也可以是量化的计算能力值，或者核心硬件数据等。

步骤302，根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少两个音色对应的声学模型。

具体地，服务器接收到终端设备提供的计算能力数据之后，会根据服务器中的声学模型及所需计算能力的数据库，确定适合当前终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型。

步骤303，将上述声学模型列表发送给上述终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。

图4为本发明语音合成方法再一个实施例的流程图，如图4所示，步骤301之前，还可以包括：

步骤401，利用语音数据和上述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。

本实施例中，利用语音数据和上述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。上述至少两种具有不同复杂度的声学模型中可以包括基于HMM的声学模型和/或基于LSTM的声学模型。对于不同的模型，所利用的声学特征参数或者上下文特征，可以有所不同。

图5为本发明语音合成方法中生成声学模型一个实施例的示意图，如图5所示，利用同样的一套数据(包含语音数据和上述语音数据对应的文本标注数据)，可以训练出至少两种具有不同复杂度的声学模型。图5中展示了一种HMM模型和两种LSTM模型。每一种模型当中，一般都包括时长模型、基频模型和谱模型，用于体现说话人的节奏、抑扬顿挫和音色等信息。对于HMM模型，可以通过控制叶子节点的数量，来生成不同复杂度的模型；对于LSTM等神经网络模型，可以通过控制每层节点的数量，来控制模型的复杂度。

上述语音合成方法中，服务器接收终端设备发送的数据文件查询请求之后，根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

图6为本发明语音合成装置一个实施例的结构示意图，本实施例中的语音合成装置可以作为终端设备，或者终端设备的一部分，实现本发明图1和图2所示实施例的流程。其中，上述终端设备可以为手机或电脑等具有语音合成功能的终端设备，本实施例对上述终端设备的形态不作限定。

如图6所示，上述语音合成装置可以包括：发送模块61、接收模块62、显示模块63、下载模块64、保存模块65和语音合成模块66；

其中，发送模块61，用于向服务器发送数据文件查询请求，上述数据文件查询请求携带终端设备的计算能力数据；

接收模块62，用于接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型；

显示模块63，用于将接收模块62接收的声学模型列表显示给使用上述终端设备的用户，以供上述用户从上述声学模型列表中选择音色对应的声学模型；

下载模块64，用于下载上述用户选择的音色对应的声学模型；

保存模块65，用于保存下载模块64下载的声学模型；

语音合成模块66，用于通过保存模块65保存的声学模型进行语音合成。

本实施例中，发送模块61向服务器查询可用的声学模型，同时提供自己的计算能力数据(可以是产品型号，也可以是量化的计算能力值，或者核心硬件数据等)；服务器根据终端设备提供的计算能力数据，返回适合当前终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型；然后，下载模块64根据用户的选择，下载用户选择的音色对应的声学模型，并由保存模块65保存下载模块64下载的声学模型。

在下载并保存声学模型之后，语音合成模块66就可以提供语音合成服务了。语音合成模块66在加载下载得到的声学模型的时候，会根据声学模型中的信息，判断出声学模型的类型，自动加载到语音合成系统中，并通过对应的处理流程，预测出声学参数序列，供声码器合成出语音。

图7为本发明语音合成装置另一个实施例的结构示意图，与图6所示的语音合成装置相比，不同之处在于，图7所示的语音合成装置还可以包括：提示模块67；

提示模块67，用于在发送模块61向服务器发送数据文件查询请求之前，当上述用户首次使用上述终端设备上安装的应用的语音合成功能时，向上述用户提示是否下载声学模型；这时，发送模块61，具体用于在接收模块62接收到上述用户确定下载声学模型的指示之后，执行向服务器发送数据文件查询请求的步骤。

举例来说，某个App集成了语音合成的软件开发包，用户安装这个App在该用户使用的终端设备(例如：iphone4)上之后，当上述用户首次使用这个App的语音合成功能时，提示模块67会提示用户是否下载声学模型。接收模块62接收到上述用户确定下载声学模型的指示之后，发送模块61向服务器发送数据文件查询请求，上述数据文件查询请求中携带上述终端设备的计算能力数据(可以是上述终端设备的产品型号，例如：iphone4)。服务器得知上述终端设备为iphone4时，会根据服务器中的声学模型及所需计算能力的数据库，了解到这个终端设备适合比较节约计算资源的HMM模型。然后，服务器把可用的多个音色所对应的HMM模型生成声学模型列表，将上述声学模型列表返回给终端设备，上述声学模型列表中可以包括温柔女声1、爽朗女声2和/或磁性男声1等声学模型。接收模块62收到上述声学模型列表后，显示模块63将上述声学模型列表显示给用户，以供上述用户从上述声学模型列表中选择自己感兴趣的音色对应的声学模型，然后下载模块64和保存模块65下载并保存上述用户选择的音色对应的声学模型，从而iphone4这个终端设备获得了计算复杂度低的HMM模型，进而语音合成模块66可以通过保存的声学模型进行语音合成。

上述语音合成装置中，发送模块61向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收模块62接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后显示模块63将上述声学模型列表显示给使用上述终端设备的用户，下载模块64和保存模块65下载并保存上述用户选择的音色对应的声学模型，进而语音合成模块66通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

图8为本发明语音合成装置再一个实施例的结构示意图，本实施例中的语音合成装置可以作为服务器，或者服务器的一部分实现本发明图3和图4所示实施例的流程。如图8所示，上述语音合成装置可以包括：接收模块81、确定模块82和发送模块83；

其中，接收模块81，用于接收终端设备发送的数据文件查询请求，上述数据文件查询请求携带上述终端设备的计算能力数据；其中，上述终端设备的计算能力数据可以是产品型号，也可以是量化的计算能力值，或者核心硬件数据等。其中，上述终端设备可以为手机或电脑等具有语音合成功能的终端设备，本实施例对上述终端设备的形态不作限定。

确定模块82，用于根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少两个音色对应的声学模型；具体地，接收模块81接收到终端设备提供的计算能力数据之后，确定模块82会根据服务器中的声学模型及所需计算能力的数据库，确定适合当前终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型。

发送模块83，用于将确定模块82确定的声学模型列表发送给上述终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。

图9为本发明语音合成装置再一个实施例的结构示意图，与图8所示的语音合成装置相比，不同之处在于，图9所示的语音合成装置中还可以包括：获得模块84；

获得模块84，用于在接收模块81接收终端设备发送的数据文件查询请求之前，利用语音数据和上述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。

本实施例中，获得模块84利用语音数据和上述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。上述至少两种具有不同复杂度的声学模型中可以包括基于HMM的声学模型和/或基于LSTM的声学模型。对于不同的模型，所利用的声学特征参数或者上下文特征，可以有所不同。

如图5所示，利用同样的一套数据(包含语音数据和上述语音数据对应的文本标注数据)，可以训练出至少两种具有不同复杂度的声学模型。图5中展示了一种HMM模型和两种LSTM模型。每一种模型当中，一般都包括时长模型、基频模型和谱模型，用于体现说话人的节奏、抑扬顿挫和音色等信息。对于HMM模型，可以通过控制叶子节点的数量，来生成不同复杂度的模型；对于LSTM等神经网络模型，可以通过控制每层节点的数量，来控制模型的复杂度。

上述语音合成装置中，接收模块81接收终端设备发送的数据文件查询请求之后，确定模块82根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后发送模块83将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGateArray；以下简称：PGA)，现场可编程门阵列(FieldProgrammableGateArray；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音合成方法，其特征在于，包括：

向服务器发送数据文件查询请求，所述数据文件查询请求携带终端设备的计算能力数据；

接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；

将所述声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；

下载并保存所述用户选择的音色对应的声学模型；

通过保存的声学模型进行语音合成。

2.根据权利要求1所述的方法，其特征在于，所述向服务器发送数据文件查询请求之前，还包括：

当所述用户首次使用所述终端设备上安装的应用的语音合成功能时，向所述用户提示是否下载声学模型；

接收到所述用户确定下载声学模型的指示之后，执行所述向服务器发送数据文件查询请求的步骤。

3.一种语音合成方法，其特征在于，包括：

接收终端设备发送的数据文件查询请求，所述数据文件查询请求携带所述终端设备的计算能力数据；

根据所述终端设备的计算能力数据确定适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少两个音色对应的声学模型；

将所述声学模型列表发送给所述终端设备，以供所述终端设备下载并保存使用所述终端设备的用户从所述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。

4.根据权利要求3所述的方法，其特征在于，所述接收终端设备发送的数据文件查询请求之前，还包括：

利用语音数据和所述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。

5.一种语音合成装置，其特征在于，包括：

发送模块，用于向服务器发送数据文件查询请求，所述数据文件查询请求携带终端设备的计算能力数据；

接收模块，用于接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；

显示模块，用于将所述接收模块接收的声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；

下载模块，用于下载所述用户选择的音色对应的声学模型；

保存模块，用于保存所述下载模块下载的声学模型；

语音合成模块，用于通过所述保存模块保存的声学模型进行语音合成。

6.根据权利要求5所述的装置，其特征在于，还包括：提示模块；

所述提示模块，用于在所述发送模块向服务器发送数据文件查询请求之前，当所述用户首次使用所述终端设备上安装的应用的语音合成功能时，向所述用户提示是否下载声学模型；

所述发送模块，具体用于在所述接收模块接收到所述用户确定下载声学模型的指示之后，执行所述向服务器发送数据文件查询请求的步骤。

7.一种语音合成装置，其特征在于，包括：

接收模块，用于接收终端设备发送的数据文件查询请求，所述数据文件查询请求携带所述终端设备的计算能力数据；

确定模块，用于根据所述终端设备的计算能力数据确定适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少两个音色对应的声学模型；

发送模块，用于将所述确定模块确定的声学模型列表发送给所述终端设备，以供所述终端设备下载并保存使用所述终端设备的用户从所述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。

8.根据权利要求7所述的装置，其特征在于，还包括：获得模块；

所述获得模块，用于在所述接收模块接收终端设备发送的数据文件查询请求之前，利用语音数据和所述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。