CN110853616A

CN110853616A - 一种基于神经网络的语音合成方法、系统与存储介质

Info

Publication number: CN110853616A
Application number: CN201911008324.9A
Authority: CN
Inventors: 柳慧芬; 季业勤; 曹丹风
Original assignee: Wuhan Water Elephant Electronic Technology Co Ltd
Current assignee: Wuhan Water Elephant Electronic Technology Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-28

Abstract

本发明公开了一种基于神经网络的语音合成方法，包括：利用样本库生成预训练神经网络模型和特定人语音合成模型。对特定人语音文本数据进行语音和文本分析，提取语音文本分类集合中的关键语音文本内容，并与集合标签对应。根据集合标签与关键语音文本内容生成第一匹配规则，根据特定人与特定人语音合成模型生成第二匹配规则。根据用户指令，调用第一匹配规则与第二匹配规则，输出合成语音。本发明对语音文本进行训练，能针对特定人，不仅在数据量上需求少，而且还能根据用户需求定制化使用。并且，本发明对于每一个特定人语音文本数据，都会生成对应的特定人语音合成模型，当用户输入指令中含有特定人信息时，直接调用相应模型，使语音合成效果更佳。

Description

一种基于神经网络的语音合成方法、系统与存储介质

技术领域

本发明涉及的是语音合成技术领域,特别涉及一种基于神经网络的语音合成方法、系统与存储介质。

背景技术

语音合成，也称文本转语音(Text To Speech,TTS)。语音合成是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成相当于给计算机安装上类似于人类的“嘴巴”，在“能听会说”的智能计算机系统中扮演着至关重要的角色。

传统的语音合成系统通常包括前端和后端两个模块，前端对文本进行分析，提取后端所需要的语言学信息，如分词、韵律等。后端模块根据前端分析结果，通过一定方法生成语音波形。而后端模块一般分为基于统计参数建模的语音合成以及基于单元挑选和波形拼接的语音合成。

传统的语音合成系统，由于需要参数建模，需要大量样本数据，不仅获取成本高，而且样本获取不易。并且，传统的语音合成系统，需要提取后端语言学信息，对于一些低质量语音，如非专业录音获取，具有情绪多变、空间多变的语音，语音合成难度较大，合成效果也不理想。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于神经网络的语音合成方法与语音合成系统。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

一种基于神经网络的语音合成方法，包括：

利用样本库中的基础语音文本数据集，生成预训练神经网络模型；

利用样本库中的特定人语音文本数据集，将特定人语音文本数据输入预训练神经网络模型，生成特定人语音合成模型；

对特定人语音文本数据进行语音分析，得到语音文本分类集合与对应集合标签；

对语音文本分类集合进行文本分析，提取语音文本分类集合中的关键语音文本内容，并与所述集合标签对应；

根据集合标签与关键语音文本内容生成第一匹配规则，根据特定人与特定人语音合成模型生成第二匹配规则；

输入用户指令，所述用户指令至少包括特定人名称、集合标签和待语音合成文本；

根据用户指令中的集合标签，调用第一匹配规则，选取对应的关键语音文本内容，根据用户指令中的特定人名称，调用第一匹配规则，选取对应的特定人语音合成模型；将待语音合成文本和对应的关键语音文本内容输入特定人名称对应的语音合成模型，输出合成语音。

相应的，另一方面，本发明还公开了一种基于神经网络的语音合成系统，包括：

样本库模块，用于存储基础数据集和特定人数据集，基础数据集和特定人数据集至少包括文本数据和语音数据；

数据处理模块，接收样本库模块特定人数据集，生成集合标签对应的关键语音文本内容；

神经网络模块，接收样本库模块中基础数据集和特定人数据集，分别生成预训练神经网络模型和特定人语音合成模型；

输入模块，用于接收用户指令，并将用户指令发送给匹配规则模块；

匹配规则模块，根据数据处理模块和神经网络模块的处理结果，生成对应匹配规则；还用于接收用户指令，输出合成语音。

本发明实施例提供的上述技术方案的有益效果至少包括：本发明提出了一种基于神经网络的语音合成方法，利用单人语音文本数据，构建文本到语音映射的预训练神经网络模型。利用特定人语音文本数据，输入到预训练神经网络模型，得到与特定人对应的语音合成模型。对特定人语音文本数据进行语音分析，得到特定人语音文本分类集合与集合标签；对特定人语音文本分类集合进行文本分析，提取特定人语音文本分类集合中关键语音文本内容，并与所述集合标签对应。预先构建集合标签与关键语音文本内容的第一匹配规则和特定人与对应神经网络模型的第二匹配规则。根据用户输入信息，调用第一匹配规则和第二匹配规则，对特定人语音进行合成。本发明对语音文本进行在训练，仅针对特定人，在数据量上需求少，不仅数据获取成本低，而且还可以根据用户需求定制化使用。并且，本发明对于每一个特定人语音文本数据，都会生成对应的特定人语音合成模型，当用户输入指令中含有特定人信息时，直接调用相应的语音合成模型，使语音合成模型更加匹配用户数据，合成效果更佳。另一方面，本发明还能对特定人低质量语音文本数据进行预分类，赋予对应的集合标签，用户在输入待合成文本时，选择对应集合标签，使合成语音更加准确。本发明在得到特定人合成模型时，可以输入低质量语音文本数据进行训练，得到的合成模型对于处理低质量待识别文本，稳定性更好，效果更佳。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例一中，一种基于神经网络的语音合成方法的流程图；

图2为本发明实施例一中，生成预训练神经网络模型流程图；

图3为本发明实施例二中，一种基于神经网络的语音合成系统结构图；

图4为本发明实施例二中，数据处理模块结构图。

图5为本发明实施例二中，神经网络模块结构图。

图6为本发明实施例二中，匹配规则模块结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的语音合成需要声码器解码和对数据库数据量需求大的问题，本发明实施例提供一种基于神经网络的语音合成方法和系统。

实施例一

如图1，本发明还公开了一种基于神经网络的语音合成方法，包括：

S100，利用样本库中的基础语音文本数据集，，生成预训练神经网络模型；

具体的，神经网络模块获取样本库中的基础数据集，所述基础数据集为单人的文本数据和语音数据，基础数据集优选单人、中量、优质的文本数据和语音数据，选取单人、优质的语音文本数据，可以使训练出的预训练神经网络模型可以反映文本到语音的映射，而选取中量级，相较于现有技术采取的大量级，不仅还能节约成本，而且数据获取也容易。所述的基础数据集可以预先存储到样本库模块，也可以根据需求临时导入到样本库模块，本发明对基础数据集的生成方式不做限制。

具体的，如图2，神经网络模块获取样本库模块中的语音文本数据，生成预训练神经网络模型具体过程为：

S101，获取样本库中若干组单人语音文本数据，以任意一组文本数据作为神经网络模型输入，语音数据作为神经网络模型对应的输出，得到初始神经网络模型。

例如，获取样本库中600组A的语音文本数据，将600组中的任意一组比如第三组文本数据3作为神经网络模型输入，和文本数据3对应的语音数据3作为神经网络模型对应的输出，神经网络模型通过第三组文本数据3和语音数据3，自我学习并调整神经网络模型参数值组，得到初始神经网络模型；

S102，将样本库中另一组文本数据作为输入，带入S101中初始神经网络模型，计算得到语音数据。

例如，将另一组如第二组文本数据2作为初始神经网络模型的输入，初始神经网络模型根据之前学习的参数数组，输出学习后的语音数据2’；

S103，将计算得到的语音数据与样本库中文本数据对应的语音数据进行比较，得到语音数据输出误差；

例如，将通过初始神经网络模型学习后输出的语音数据2’与样本库中预先存储文本2对应的语音2数据进行比较，得到语音数据误差t。

S104，将语音数据输出误差与预设误差进行比较，若得到的语音数据输出误差不满足预设输出误差，则将当前处理的这组文本语音数据带入神经网络模型，重复执行步骤S101-S104；若满足预设误差，则重复执行步骤S102-S104。

具体的，在步骤S104中，将得到的语音数据输出误差t与预设输出误差T进行比较，若t值不满足T的要求，则说明步骤S101得到的初始神经网络模型参数值不合适，需要重新计算函数参数初值，将第二组文本数据2作为输入，将文本数据2对应的语音数据2作为对应输出带入神经网路模型中，重新确定初始神经网络模型。然后再取另一组的数据，比如第五组，将文本数据5带入重新确定初始神经网络模型，计算得到语音数据5’，将语音数据5’和样本库中存储的文本5对应的语音5进行比较，得到语音数据输出误差，然后重复步骤S104。

若在步骤S104中，得到的语音数据输出误差t满足预设输出误差T，则说明步骤S101中得到的初始神经网络模型满足当前这组数据，需要继续判断该初始神经网络模型是否满足其余组数据，因此需要重复执行步骤S102-S104。

S105，当存在初始神经网络模型使得样本库中各组数据在执行步骤S104时都满足预设误差时，则将该初始神经网络模型确定为预训练神经网络模型。通过该预训练神经网络模型，可以合成这个单人的声音了，文本转语音的映射已经有了基础。

S200，利用样本库中的特定人语音文本数据集，将特定人语音文本数据输入预训练神经网络模型，生成特定人神经网络模型。

具体的，特定人数据集为若干组特定人文本数据和语音数据。特定人数据集优选少量、低质的文本数据和语音数据，这里的低质量，指非专业录音获取的音频，具有情绪多变、空间多变，但仍具有良好的听觉信噪比的的特点。这里的特定人指的是一个具体的人，例如，当特定人为张三、李四时，特定人数据集就为张三、李四对应的文本数据和语音数据。所述的基础数据集和特定人数据集，可以预先存储到样本库模块，也可以根据需求临时导入到样本库模块。神经网络模块还会接收样本库中特定人的语音文本数据，输入到预训练神经网络模型，确定特定人语音合成模型。样本库中预先存储若干组特定人语音文本数据，特定人数据集优选少量、低质的文本数据和语音数据。当输入每一组到预训练神经网络模型时，分别生成对应的语音合成模型，例如，当样本库中有特定人1～特定人100共一百组语音文本数据，神经网络模块将这100组数据中的文本数据和语音数据分别作为预训练神经网络模型的输入和对应输出，利用S101～S105方法，分别构建一百组符合特定人1～特定人100的特定人1语音合成模型-特定人100语音合成模型。

S300，对特定人语音文本数据进行语音分析，得到语音文本分类集合与对应集合标签；

具体的，所述语音分析，得到特定人语音文本分类集合与集合标签过程为：

S301，语音分析子模块对特定人语音文本数据中的语音数据进行分析，得到特定人的语音中音频能量、频谱、噪声信息，根据音频能量、频谱、噪声信息，形成语速、语调等与情绪、空间相关的参数A。

S302，语音分析子模块识别特定人的数据集中音频文字，以准确率统计出音频内容清晰度参数B。

S303，将所述的参数A和参数B进行拼接，使用欧几里得距离算法进行相似度计算，并对最相似的参数音频分为一类，并设置阈值，控制分类总类数。

S304，将分类结果进行校验，并赋予唯一标签。

在一些实施例中，基于特定人语音数据中人的情绪可以分为4类，分别为喜怒哀乐；基于语音数据中空间可以分为3类，分别为远中近。因此，基于情绪和空间的特定人语音数据可以分为12类，分别为远笑、远怒、远哀、远乐、中笑、中怒、中哀、中乐、近笑、近怒、近哀、近乐、因此，可以赋予这12类每一个唯一标签，一共12个集合标签，每种标签对应一种特定人语音数据分类。

S400，对语音文本分类集合进行文本分析，提取语音文本分类集合中的关键语音文本内容，并与所述集合标签对应。具体的过程为：

S401，识别特定人语音文本分类集合中的词汇短语，得到词汇短语频率分布矩阵。

S402，根据词汇短语频率分布矩阵，通过算法得到区别度最高的词汇短语作为关键语音文本。

S403，将语音文本分类集合对应的集合标签与关键语音文本进行对应。

S500，根据集合标签与关键语音文本内容生成第一匹配规则，根据特定人与特定人语音合成模型生成第二匹配规则；

由S403步骤可知，集合标签与关键语音文本内容为一一对应关系，通过集合标签，可以对应的找到关键语音文本，因此可以设置集合标签与关键语音文本内容的第一匹配规则；

由S200步骤可知，每一个特定人都会对应一个特定人语音合成模型，可以通过特定人找到对应的语音合成模型，因此可以设置特定人与语音合成模型的第二匹配规则；

S600，输入用户指令，所述用户指令至少包括特定人、集合标签和待语音合成文本；

在一些实施例中，用户输入指令可以为至少包括特定人1、集合标签近笑、待语音合成文本A。用户输入指令可以由用户自定义输入，当用户有定制化需求时，可以自定义输入用户指令；用户输入指令也可以由系统自动输入，当用户不方便操作时，系统按照预设顺序自动输入用户指令，达到自动化目的。

S700，根据用户指令中的集合标签，调用第一匹配规则，选取对应的关键语音文本内容，根据用户指令中的特定人名称，调用第一匹配规则，选取对应的特定人语音合成模型；将待语音合成文本和对应的关键语音文本内容输入特定人名称对应的语音合成模型，输出合成语音。

在一些实施例中，当用户输入指令为至少包括特定人1、集合标签近笑、待语音合成文本A时，匹配规则模块根据集合标签近笑，调用第一匹配规则，匹配集合标签近笑对应的关键语音文本；匹配规则模块根据特定人1，匹配特定人1对应的特定人1语音合成模型。将待合成的文本A与集合标签近笑匹配的关键语音文本，输入到特定人1对应的特定人1语音合成模型，对待合成文本进行语音合成。

在一些优选实施例中，还会对合成语音输出前进行修正，具体修正过程为：

S800，先将合成的音频裁除标签对应的语音文本内容；然后对语音进行降噪等声学处理，使合成声音平稳、干净、自然。

本发明提出了一种基于神经网络的语音合成方法，，利用单人语音文本数据，构建文本到语音映射的预训练神经网络模型。利用特定人语音文本数据，输入到预训练神经网络模型，得到与特定人对应的语音合成模型。对特定人语音文本数据进行语音分析，得到特定人语音文本分类集合与集合标签；对特定人语音文本分类集合进行文本分析，提取特定人语音文本分类集合中关键语音文本内容，并与所述集合标签对应。预先构建集合标签与关键语音文本内容的第一匹配规则和特定人与对应神经网络模型的第二匹配规则。根据用户输入信息，调用第一匹配规则和第二匹配规则，对特定人语音进行合成。本发明对语音文本进行在训练，仅针对特定人，在数据量上需求少，不仅数据获取成本低，而且还可以根据用户需求定制化使用。并且，本发明对于每一个特定人语音文本数据，都会生成对应的特定人语音合成模型，当用户输入指令中含有特定人信息时，直接调用相应的语音合成模型，使语音合成模型更加匹配用户数据，合成效果更佳。另一方面，本发明还能对特定人低质量语音文本数据进行预分类，赋予对应的集合标签，用户在输入待合成文本时，选择对应集合标签，使合成语音更加准确。本发明在得到特定人合成模型时，可以输入低质量语音文本数据进行训练，得到的合成模型对于处理低质量待识别文本，稳定性更好，效果更佳。

实施例二

如图所示，本发明实施例提供一种基于神经网络的语音合成系统，如图3，包括：样本库模块1、数据处理模块2、神经网络模块3、信息输入模块4、匹配规则模块5，其中：

样本库模块1，用于存储若干组对应数据，每组数据至少包括文本数据和语音数据。具体的，样本库模块1包括基础数据集和特定人数据集。所述基础数据集为单人的文本数据和语音数据，基础数据集优选单人、中量、优质的文本数据和语音数据。特定人数据集为若干组特定人文本数据和语音数据。特定人数据集优选少量、低质的文本数据和语音数据，这里的低质量，指非专业录音获取的音频，具有情绪多变、空间多变，但仍具有良好的听觉信噪比的的特点。这里的特定人指的是一个具体的人，例如，当特定人为张三、李四时，特定人数据集就为张三、李四对应的文本数据和语音数据。所述的基础数据集和特定人数据集，可以预先存储到样本库模块1，也可以根据需求临时导入到样本库模块1。

数据处理模块2，接收样本库模块1中文本数据和语音数据，生成对应标签的语音文本集合；具体的，如图4，数据处理模块2包括语音分析子模块21和文本分析子模块22，语音分析子模块21根据特定人语音数据，得到该特定人基于情绪、空间的语音分类集合与集合标签。具体的，语音分析子模块21提取特定人语音数据中的音频能量、频谱、噪声等信息，形成语速、语调等与情绪、空间相关的参数A；根据特定人语音数据中音频文字，以准确率统计出音频内容清晰度参数B。根据参数A和参数B计算相似度，得到语音分类集，并根据样本库特定人文本数据和语音数据对分类进行校检，每种分类赋予唯一标签。将特定人语音数据对应的文本数据与语音分类集结合，形成该特定人语音文本分类集合，并与集合标签对应。

文本分析子模块22，接收语音分析子模块21传输的特定人语音文本分类集合，提取每类中关键语音文本内容，并与所述集合标签对应。具体的，文本分析子模块22，识别特定人语音文本分类集合中的文本内容，并根据文本内容的词汇短语，得到词汇短语频率分布矩阵；根据词汇短语频率分布矩阵，通过算法得到区别度最高的词汇短语作为关键语音文本内容，并将关键语音文本内容与特定人语音文本分类集合相对应。

神经网络模块3，接收样本库模块1中文本数据和语音数据，生成对应的神经网络模型；具体的，如图5，神经网络模块3包含预训练神经网络子模块31和特定人语音合成子模块32。在一些实施例中，预训练神经网络子模块31将基础语音文本数据作为输入，生成预训练神经网络模型；基础语音文本数据优选单人、中量级、优质的语音文本数据，具体过程为：

S101：获取样本库中若干组单人语音文本数据，以任意一组文本数据作为神经网络模型输入，语音数据作为神经网络模型对应的输出，得到初始神经网络模型。

S102：将样本库中另一组文本数据作为输入，带入S101中初始神经网络模型，计算得到语音数据。

S103：将计算得到的语音数据与样本库中文本对应的语音数据进行比较，得到语音数据输

S104；若得到的语音数据输出误差不满足预设输出误差，则将当前处理的这组文本语音数据带入神经网络模型，重复执行步骤S101-S104；若满足预设误差，则重复执行步骤S102-S104。

若在步骤S104中，得到的语音数据输出误差t满足预设输出误差T，则说明步骤S101中得到的初始神经网络模型满足当前这组数据，需要继续判断该初始神经网络模型是否满足其余组数据，因此需要重复执行步骤S102～S104。

S105,当存在初始神经网络模型使得样本库中各组数据在执行步骤S104时都满足预设误差时，则将该初始神经网络模型确定为预训练神经网络模型。通过该预训练神经网络模型，可以合成这个单人的声音了，文本转语音的映射已经有了基础。

特定人语音合成子模块32接收样本库中特定人的语音文本数据，输入到预训练神经网络模型，生成特定人语音合成模型。样本库中预先存储若干组特定人语音文本数据，特定人数据集优选少量、低质的文本数据和语音数据。当输入每一组到预训练神经网络模型时，分别生成对应的语音合成模型，例如，当样本库中有特定人1～特定人100共一百组语音文本数据，神经网络模块3将这100组数据中的文本数据和语音数据分别作为预训练神经网络模型的输入和对应输出，利用S101-S105方法，分别构建符合特定人1～特定人100的特定人1语音合成模型～特定人100语音合成模型。

信息输入模块4，用于接收用户输入的指令，并将用户输入指令传输给匹配规则生成模块。具体的，用户输入指令至少包括特定人、集合标签、待合成文本。

匹配规则模块5，根据数据处理模块2和神经网络模块3的处理结果，生成对应匹配规则；还用于接收用户指令，输出合成语音。具体的，如图6，匹配规则模块5包括匹配规则生成模块51和匹配规则执行模块52。

匹配规则生成子模块51，根据集合标签和对应的关键语音文本内容，生成第一匹配规则；根据特定人与特定人语音合成模型，生成第二匹配规则；

匹配规则执行子模块52，接收用户输入指令，根据用户指令中的集合标签匹配对应的关键语音文本内容，根据用户指令中的特定人信息匹配特定人语音合成模型，将待合成的文本信息和关键语音文本内容输入到特定人语音合成模型，输出特定人合成语音。

具体的，匹配规则模块5接收到用户输入特定人2、集合标签远笑、待语音合成文本A时，匹配规则执行子模块调用第一匹配规则，匹配集合标签远笑对应的关键语音文本内容；匹配规则执行子模块调用第二匹配规则，匹配特定人2对应的特定人2语音合成模型，将待语音合成文本A和远笑对应的关键语音文本内容一起输入到特定人2语音合成模型，得到合成语音。

在一些优选实施例中，所述系统还包括；合成语音修正模块，合成语音修正模块对输出的特定人合成语音裁除标签对应的语音文本内容和降噪等声学处理，对输出的合成语音进行修正。

本系统数据处理模块2能将低质量语音文本数据进行处理，对于低质量语音文本数据，通过语音分析子模块21和文本分析子模块22，赋予集合标签和相对应关键文本内容，用户通过输入指令选取集合标签能匹配对应的关键文本内容，对于低质量的待语音合成文本，能准确找到对应关键语音文本内容，解决了现有对低质量文本难以语音合成的问题。并且，神经网络模块3会根据每一个特定人语音文本数据生成对应的特定人语音合成模型，不仅在语音文本数据需求上较少，而且每个特定人模型针对相对应的特定人，合成效果更佳。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种基于神经网络的语音合成方法，其特征在于，包括：

根据集合标签与关键语音文本内容生成第一匹配规则，根据特定人名称与特定人语音合成模型生成第二匹配规则；

根据用户指令中的集合标签，调用第一匹配规则，选取对应的关键语音文本内容，根据用户指令中的特定人名称，调用第二匹配规则，选取对应的特定人语音合成模型；

将待语音合成文本和对应的关键语音文本内容同时输入对应的特定人语音合成模型，输出合成语音。

2.如权利要求1所述的方法，其特征在于，利用样本库中的基础语音文本数据，生成预训练神经网络模型，方法包括：

S101，样本库中的基础语音数据集预存有若干组单人语音文本数据，以任意一组文本数据作为神经网络模型的输入，语音数据作为神经网络模型对应的输出，得到初始神经网络模型；

S102，将基础语音数据集中另一组单人文本数据作为输入，带入S101中的初始神经网络模型，计算得到语音数据；

S103，将计算得到的语音数据与样本库中预存的文本数据对应的语音数据进行比较，得到语音数据输出误差；

S104，语音数据输出误差与预设误差进行比较，得到预训练神经网络模型。

3.如权利要求2所述的方法，其特征在于，语音数据输出误差与预设误差进行比较，得到预训练神经网络模型，方法包括：

将语音数据输出误差与预设误差进行比较，若得到的语音数据输出误差不满足预设输出误差，则将当前处理的这组文本语音数据带入神经网络模型，重复执行步骤S101-S104；若满足预设误差，则重复执行步骤S102-S104；

当存在初始神经网络模型使得样本库中各组数据在执行步骤S104时都满足预设误差时，则将该初始神经网络模型确定为预训练神经网络模型。

4.如权利要求1所述的方法，其特征在于，对特定人语音文本数据进行语音分析，得到语音文本分类集合与对应集合标签，包括：

对特定人语音文本数据集进行分析，得到语音中与情绪、空间相关的参数A；

识别特定人的语音文本数据集，以语音准确率统计出音频内容清晰度参数B；

将所述的参数A和参数B进行拼接，使用相似度计算，并对最相似的参数音频分为一类，并设置阈值，设置分类；

将分类结果进行校验，并赋予唯一集合标签。

5.如权利要求4所述的方法，其特征在于，对语音数据集进行分析，得到语音中与情绪、空间相关的参数A，包括：

分析特定人语音文本数据集中的语音信息，得到语音信息中至少音频能量、频谱、噪声信息，通过音频能量、频谱、噪声信息，形成与情绪、空间相关的参数A。

6.如权利要求1所述的方法，其特征在于，对语音文本分类集合进行文本分析，提取语音文本分类集合中关键语音文本内容，并与所述集合标签对应，包括：

识别语音文本分类集合中的词汇短语，得到词汇短语频率分布矩阵；

根据词汇短语频率分布矩阵，通过算法得到区别度最高的词汇短语作为关键语音文本；

将语音文本分类集合对应的集合标签与关键语音文本进行对应。

7.如权利要求1所述的方法，其特征在于，对输出的合成语音，还能进行语音修正，语音修正过程包括：

对输出合成语音裁除集合标签对应的语音文本内容；

对输出的合成语音进行降噪等声学处理。

8.一种基于神经网络的语音合成系统，其特征在于，包括：样本库模块、数据处理模块、神经网络模块、输入模块、匹配规则模块，其中：

信息输入模块，用于接收用户指令，并将用户指令发送给匹配规则模块；

9.如权利要求8所述的系统，其特征在于，数据处理模块包括语音分析子模块和文本分析子模块，其中：

语音分析子模块，根据特定人语音数据，得到该特定人基于情绪、空间的语音分类集合与集合标签，将特定人语音数据对应的文本数据与语音分类集结合，形成该特定人语音文本分类集合，并与集合标签对应；

文本分析子模块，接收语音分析子模块传输的特定人语音文本分类集合，提取语音文本分类集合中关键语音文本内容，并与所述集合标签对应。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以使所述一个或者多个处理器执行如权利要求1至7中任一项所述的基于神经网络的语音合成方法关联分析步骤。