CN113053352A

CN113053352A - 基于大数据平台的语音合成方法、装置、设备及存储介质

Info

Publication number: CN113053352A
Application number: CN202110256320.3A
Authority: CN
Inventors: 周继国
Original assignee: Shenzhen Softbank Sichuang Technology Co ltd
Current assignee: Shenzhen Softbank Sichuang Technology Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-29

Abstract

本发明涉及大数据及语音数据处理技术领域，提供了一种基于大数据平台的语音合成方法、装置、终端设备以及计算机可读存储介质，该基于大数据平台的语音合成方法包括：通过获取待合成的语音信息，并将所述语音信息输入至预设的语音数据匹配模型，其中，所述语音数据匹配模型为基于大数据平台进行机器学习训练得到；接收所述语音数据匹配模型基于所述语音信息确定的待合成的目标语音数据；根据预设语音合成指令将所述目标语音数据合成为语音序列。本发明能够提高了对语音进行合成的处理效率。

Description

基于大数据平台的语音合成方法、装置、设备及存储介质

技术领域

本发明涉及大数据及语音数据处理技术领域，尤其涉及一种基于大数据平台的语音合成方法、装置、终端设备以及计算机可读存储介质。

背景技术

伴随着计算机技术和信息数字化处理技术的发展，针对语音信息的分析处理也得到了的十分广泛的应用。

然而，现有的语音分析处理技术，诸如语音合成技术以及语音识别技术等，在构建用于语音合成的音库时，仍然主要是依赖人工进行操作，如此，不经需要安排专业的录音人员在专业的录制环境下进行语音数据的录入，还需要后期工作人员来手工的对语音的韵律和音段等进行标注，整个音库构建的工作量大且周期长。

综上，现有语音分析处理技术中，对于语音合成的音库的构建工作量大、周期长，导致语音合成的效率低下。

发明内容

本发明实施例提供一种基于大数据平台的语音合成方法、装置、终端设备以及计算机可读存储介质，旨在实现基于机器学习来进行电机的故障识别判断，达成简化计算操作和提高判断准确性的目的，提升电机故障判断的效率。

为实现上述技术目的，本发明实施例提供一种基于大数据平台的语音合成方法，所述基于大数据平台的语音合成方法包括：

获取待合成的语音信息，并将所述语音信息输入至预设的语音数据匹配模型，其中，所述语音数据匹配模型为基于大数据平台进行机器学习训练得到；

接收所述语音数据匹配模型基于所述语音信息确定的待合成的目标语音数据；

根据预设语音合成指令将所述目标语音数据合成为语音序列。

进一步地，上述方案中，所述基于大数据平台的语音合成方法，还包括：

基于大数据平台进行机器学习训练得到所述语音数据匹配模型。

进一步地，上述方案中，所述基于大数据平台进行机器学习训练得到所述语音数据匹配模型的步骤，包括：

从所述大数据平台获取原始语音数据；

针对所述原始语音数据进行预处理操作以生成语音数据样本；

利用所述语音数据样本针对初始的机器学习模型进行训练直至所述机器学习模型收敛；

将收敛的所述机器学习模型确定为语音数据匹配模型。

进一步地，上述方案中，所述预处理操作包括：语音文本处理和合成语音检索，所述针对所述原始语音数据进行预处理操作以生成语音数据样本的步骤，包括：

识别所述原始语音数据得到原始语音文本，并针对所述原始语音文本进行语音文本处理得到优化语音文本；

按照所述优化语音文本的文字内容进行合成语音检索以得到拟合成语音数据；

整合所述原始语音数据、所述优化语音文本和所述拟合成语音数据生成语音数据样本。

进一步地，在所述获取待合成的语音信息的步骤之前，所述方法还包括：

根据环境声音音量对所述环境中包含所述语音信息的声音进行降噪处理；

所述获取待合成的语音信息的步骤包括：

从经过降噪处理后的所述声音中，提取所述语音信息。

进一步地，上述方案中，所述根据预设语音合成指令将所述目标语音数据合成为语音序列的步骤，包括：

提取预设语音合成指令，并检测所述预设语音合成指令中携带的顺序合成需求以及音色合成需求；

确定所述语音信息的待合成文字内容，并基于所述顺序合成需求，按照所述待合成文字内容的文字顺序组合所述目标语音数据以形成初始语音序列；

基于所述音色合成需求，在所述初始语音序列中添加所述输出音色以形成最终语音序列。

进一步地，上述方案中，在所述获取待合成的语音信息的步骤之后，所述方法还包括：

对所述语音信息进行声纹识别处理以提取声纹特征，并基于提取的所述声纹特征确定输出音色。

此外，为实现上述技术目的，本发明实施例还提供一种基于大数据平台的语音合成装置，所述基于大数据平台的语音合成装置包括：

模型输入模块，用于获取待合成的语音信息，并将所述语音信息输入至预设的语音数据匹配模型，其中，所述语音数据匹配模型为基于大数据平台进行机器学习训练得到；

接收模块，用于接收所述语音数据匹配模型基于所述语音信息确定的待合成的目标语音数据；

语音合成模块，用于根据预设语音合成指令将所述目标语音数据合成为语音序列。

此外，为实现上述技术目的，本发明实施例提供一种终端设备，所述终端设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于大数据平台的语音合成方法。

此外，为实现上述技术目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于大数据平台的语音合成方法。

本发明实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现本发明实施例提供的基于大数据平台的语音合成方法。

本发明实施例具有以下有益技术效果：

本发明实施例提供的一种基于大数据平台的语音合成方法、装置、终端设备以及计算机可读存储介质，通过获取待合成的语音信息，并将所述语音信息输入至预设的语音数据匹配模型，其中，所述语音数据匹配模型为基于大数据平台进行机器学习训练得到；接收所述语音数据匹配模型基于所述语音信息确定的待合成的目标语音数据；根据预设语音合成指令将所述目标语音数据合成为语音序列。

与相关技术中基于人工构建音库来进行语音合成的方式相比，本发明实施例预先基于大数据平台进行机器学习训练得到能够直接进行语音数据适配的语音数据匹配模型，然后将获取得到的待合成的语音信息输入到该语音数据匹配模型当中，从而由该语音数据匹配模块基于该语音信息确定待合成的目标语音数据，最后，接收该目标语音数据并根据预设语音合成指令来将该目标语音数据合成为语音序列。

本发明实现了不受场景、语境等因素的限制来进行语音的合成处理，提高了对语音进行合成的处理效率。此外，本发明还能够基于在预设语音合成指令中封装用户定制化和个性化的语音合成需求，从而实现基于用户的定制化和个性化需求来进行语音合成，提升了语音处理的性能。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2是本发明实施例提供的基于大数据平台的语音合成方法的一流程示意图；

图3是本发明实施例提供的基于大数据平台的语音合成方法的另一流程示意图；

图4是本发明实施例提供的基于大数据平台的语音合成装置的模块示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过获取待合成的语音信息，并将所述语音信息输入至预设的语音数据匹配模型，其中，所述语音数据匹配模型为基于大数据平台进行机器学习训练得到；接收所述语音数据匹配模型基于所述语音信息确定的待合成的目标语音数据；根据预设语音合成指令将所述目标语音数据合成为语音序列。

由于现有的现有的语音分析处理技术，诸如语音合成技术以及语音识别技术等，在构建用于语音合成的音库时，仍然主要是依赖人工进行操作，如此，不经需要安排专业的录音人员在专业的录制环境下进行语音数据的录入，还需要后期工作人员来手工的对语音的韵律和音段等进行标注，整个音库构建的工作量大且周期长。综上，现有语音分析处理技术中，对于语音合成的音库的构建工作量大、周期长，导致语音合成的效率低下。

本发明提供一种解决方案，可以实现不受场景、语境等因素的限制来进行语音的合成处理，提高了对语音进行合成的处理效率。此外，本发明提供的解决方案还能够基于在预设语音合成指令中封装用户定制化和个性化的语音合成需求，从而实现基于用户的定制化和个性化需求来进行语音合成，提升了语音处理的性能。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端设备可以是各种网络终端设备，例如终端服务器，PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面3)播放器、数字广播接收器、穿戴式设备(比如智能手环、智能手表等)、导航装置、便携计算机等可移动式终端设备、或不可移动的终端设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音处理程序。

在图1所示的终端设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音处理程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的语音处理程序，并执行以下操作：

从所述大数据平台获取原始语音数据；

将收敛的所述机器学习模型确定为语音数据匹配模型。

进一步地，所述预处理操作包括：语音文本处理和合成语音检索，处理器1001还可以用于调用存储器1005中存储的语音处理程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的语音处理程序，并在执行获取待合成的语音信息之前，还执行以下操作：

处理器1001还可以用于调用存储器1005中存储的语音处理程序，并执行以下操作：

从经过降噪处理后的所述声音中，提取所述语音信息。

进一步地，处理器1001还可以用于调用存储器1005中存储的语音处理程序，并在执行获取待合成的语音信息之后，还执行以下操作：

基于上述硬件结构，提出本发明基于大数据平台的语音合成方法的各实施例。

请参照图2，图2为本发明基于大数据平台的语音合成方法第一实施例的流程示意图，在本发明基于大数据平台的语音合成方法的第一实施例中，本发明基于大数据平台的语音合成方法包括：

步骤S10，获取待合成的语音信息，并将所述语音信息输入至预设的语音数据匹配模型，其中，所述语音数据匹配模型为基于大数据平台进行机器学习训练得到；

需要说明的是，在本实施例中，终端设备可以为智能手机、平板电脑等设备。在用户需要进行语音录入时，终端设备可以基于用户触发的语音转换模式指令启用语音转化模式；当然，终端设备也可以在某些场景下自动启用语音转化模式，比如在终端设备在进入录音状态时，自动启动用语音转化模式。

在终端设备启用语音转换模式后，通过安装在终端设备上的麦克风接收外界环境中的声音，并基于语音识别筛选出麦克风所接收声音中的语音信息，从而将筛选出的语音信息进行录入作为待合成的语音信息，然后，终端设备将该待合成的语音信息输入到预先基于大数据平台进行机器学习训练得到的语音数据匹配模型当中。

具体地，例如，在外界环境嘈杂的情况下，终端设备上的麦克风接收到的声音中除了包含当前需要筛选出的语音信息(即用户说话的语音)，还将包含很多不需要的噪声杂音，如车鸣声、喧闹声或机器运转声等干扰声音，终端设备对接收到的外界环境中的环境声音进行筛选从而获取到语音信息，在终端设备获取到语音信息之后，对语音信息进行预处理，如文字识别处理以及音质识别处理等，从而将进行预处理之后得到的语音信息输入到预先已经训练好、能够准确匹配得到需要进行语音合成的目标语音数据的语音数据匹配模型当中。

步骤S20，接收所述语音数据匹配模型基于所述语音信息确定的待合成的目标语音数据；

终端设备在将获取得到的语音信息输入到预先基于大数据平台进行机器学习训练得到的语音数据匹配模型当中之后，该语音数据匹配模型即基于该语音信息进行模型训练计算从而输出基于该语音信息所匹配确定的待合成的目标语音数据，终端设备即接收该目标语音数据。

需要说明的是，在本实施例中，语音数据匹配模型在基于语音信息进行模型训练计算从而确定的待合成的目标语音数据时，该语音数据匹配模型在接收到终端设备所输入的该语音信息之后，先基于语音文字识别提取出该语音信息的文本语句信息并对该文本语句信息进行分词处理，从而得到该语音信息的各文字内容，基于各文字内容从预先建立的用于存储语音数据的预设语音数据库中，查找与当前用户所输入文本语句信息的各文字内容相对应的目标语音数据。

步骤S30，根据预设语音合成指令将所述目标语音数据合成为语音序列。

需要说明的是，在本实施例中，预设语音合成指令具体可以是终端设备的用户基于该终端设备可视化输出的用户图像界面进行个性化定制生成的。

终端设备在接收得到语音数据匹配模型基于待合成的语音信息确定的目标语音数据之后，进一步获取用户所触发的语音合成指令，并检测该语音合成指令中所携带的用户对当前所输入文本语句信息进行语音合成的合成需求，例如需要对所输入文本语句信息进行语句润饰，和/或需要对合成语音的输出音色进行润饰等，基于检测到的用户对当前所输入文本语句信息进行语音合成的合成需求，将查到的用户所输入文本语句信息的各文字内容相对应的目标语音数据进行组合，从而形成可通过语音方式进行输出的语音序列。

应用本发明上述实施例，通过在终端设备启用语音转换模式后，通过安装在终端设备上的麦克风接收外界环境中的声音，并基于语音识别筛选出麦克风所接收声音中的语音信息，从而将筛选出的语音信息进行录入作为待合成的语音信息，然后，终端设备将该待合成的语音信息输入到预先基于大数据平台进行机器学习训练得到的语音数据匹配模型当中；终端设备在将获取得到的语音信息输入到预先基于大数据平台进行机器学习训练得到的语音数据匹配模型当中之后，该语音数据匹配模型即基于该语音信息进行模型训练计算从而输出基于该语音信息所匹配确定的待合成的目标语音数据，终端设备即接收该目标语音数据；终端设备在接收得到语音数据匹配模型基于待合成的语音信息确定的目标语音数据之后，进一步获取用户所触发的语音合成指令，并检测该语音合成指令中所携带的用户对当前所输入文本语句信息进行语音合成的合成需求，例如需要对所输入文本语句信息进行语句润饰，和/或需要对合成语音的输出音色进行润饰等，基于检测到的用户对当前所输入文本语句信息进行语音合成的合成需求，将查到的用户所输入文本语句信息的各文字内容相对应的目标语音数据进行组合，从而形成可通过语音方式进行输出的语音序列。

进一步地，基于上述本发明基于大数据平台的语音合成方法的第一实施例，提出本发明基于大数据平台的语音合成方法的第二实施例，在本实施例中，本发明基于大数据平台的语音合成方法，还可以包括：

步骤S40，基于大数据平台进行机器学习训练得到所述语音数据匹配模型；

终端设备在获取语音信息并将该语音信息输入到语音数据匹配模型之前，基于从大数据平台获取原始语音数据来构建用于进行机器学习模型训练的语音数据样本，然后利用该语音数据样本进行机器学习模型训练以得到能够准确基于语音信息确定出需要进行语音合成处理的目标语音数据的语音数据匹配模型。

需要说明的是，在本实施例中，语音数据匹配模型可以是任意类型成熟的机器学习模型，例如，该语音数据匹配模型具体可以是卷积神经网络模型或者深度置信网络模型等等。应当理解的是，基于实际应用的不同设计需要，在其它可行的实施方式当中，该语音数据匹配模型当然也可以是其它不同的机器学习模型，本发明基于大数据平台的语音合成方法并不针对该语音数据匹配模型的具体类型进行限定。

进一步地，请参照如图3所示的流程，在一种可行的实施例中，上述步骤S40，可以包括：

步骤S41，从所述大数据平台获取原始语音数据；

终端设备在基于机器学习训练语音数据匹配模型时，首先基于接入互联网的大数据平台中获取用于进行模型训练的原始语音数据。

需要说明的是，在本实施例中，大数据平台基于预置的语音数据采集设备从大量的外接环境声音当中采集语音数据，然后将该语音数据存储在预设的数据库当中作为原始语音数据供终端设备进行提取。此外，该语音数据采集设备在从外界环境声音当中采集语音数据之前，该语音数据采集设备还预先针对该外界环境声音进行降噪处理。具体地，例如，大数据平台基于预置的语音数据采集设备基于麦克风从接收到的外界环境声音中筛选语音信息作为所采集到的语音数据，并且，该语音数据采集设备通过先自动检测外界环境中的声音音量是否超过预设的音量值，其中该预设音量值可以根据用户需要进行灵活设置，若检测到当前外界环境中的音量值超过了预设音量值，则确定设备需要对麦克风当前所接收到的声音进行降噪筛选，才能得到需要的语音信息，便随即采用降噪算法等方式对麦克风当前所接收到的声音进行降噪过滤处理，然后再从经过降噪过滤处理之后的声音当中筛选语音信息作为语音数据。

进一步地，在另一种可行的实施例中，若大数据平台基于预置的语音数据采集设备在检测到当前外界环境中的声音的音量值未超过预设音量值，则该设备确定当前无需对麦克风所接收到的声音进行降噪筛选，而直接可以从当前所接收到的声音中筛选语音信息作为需要的语音数据进行录入存储。

再进一步地，在又一种可行的实施例中，在上述步骤S10之前，本发明基于大数据平台的语音合成方法，还可以包括：

步骤A，根据环境声音音量对所述环境中包含所述语音信息的声音进行降噪处理；

上述步骤S10中，“获取待合成的语音信息”的步骤，可以包括：

步骤S11，从经过降噪处理后的所述声音中，提取所述语音信息。

终端设备在从外界环境声音当中获取语音信息，并将该语音信息输入到语音数据匹配模型当中进行语音合成处理时，也可以预先针对该外接环境声音进行降噪处理，即，终端设备在检测到当前外界环境中的音量值超过了预设音量值，并通过采用降噪算法等方式对麦克风当前所接收到的声音进行降噪过滤处理之后，基于现有的语音信号特征提取技术从经过降噪过滤处理之后的声音中，提取出相对清晰的语音信息。

步骤S42，针对所述原始语音数据进行预处理操作以生成语音数据样本；

终端设备在从大数据平台中提取得到原始语音数据之后，立即针对该原始语音数据进行预处理操作，从而将经过预处理操作之后的语音数据作为用于进行机器学习训练的语音数据样本。

进一步地，在一种可行的实施例中，预处理操作包括：语音文本处理和合成语音检索，上述步骤S42，可以包括：

步骤S421，识别所述原始语音数据得到原始语音文本，并针对所述原始语音文本进行语音文本处理得到优化语音文本；

终端设备在从大数据平台当中获取得到原始语音数据之后，先针对该原始语音数据进行语音识别得到该原始语音数据的原始语音文本，然后，终端设备基于进一步针对该原始语音文本进行语音文本处理从而得到该原始语音数据的优化语音文本。

需要说明的是，在本实施例中，终端设备可以采用任意成熟的语音识别技术来识别从大数据平台中获取得到的原始语音数据以得到原始语音文本。

具体地，例如，终端设备在从大数据平台中获取得到原始语音数据1之后，基于成熟的语音识别技术，针对该原始语音数据1进行语音识别从而得到该原始语音数据1的原始语音文本：“晚上吃饭”，进一步地，该终端设备基于预先由用户或者工作人员所设定的对原始语音文本进行语句润饰的需求，针对该原始语音文本：“晚上吃饭”进行语音文本处理，以将该原始语音文本：“晚上吃饭”进行润饰后得到文本：“晚上一起去吃个饭”，并将该文本：“晚上一起去吃个饭”作为该原始语音数据1的优化语音文本。

进一步地，在本实施例中，终端设备可以通过建立语音文本文字内容与语句之间的关联关系列表用于针对原始语音文本进行语音文本处理。即，终端设备可预先通过建立文字内容和语句之间的对应关系列表，并将该对应关系列表保存在相应的存储器中，基于建立文字内容和语句之间的对应关系列表可以对原始语音文本中的某些文字进行润饰，从而在获取得到原始语音数据时，终端设备即可快速的针对该原始语音数据的原始语音文本进行语音文本处理得到优化语音文本。

需要说明的是，在本实施例中，文字内容和语句之间的对应关系列表应是常用的文字和语句的对应关系，比如文字内容为“晚上吃饭”，则从所述对应关系列表中查找与“晚上吃饭”内容部分匹配的语句，比如查找到的对应的语句为“晚上一起去吃个饭”等。

步骤S422，按照所述优化语音文本的文字内容进行合成语音检索以得到拟合成语音数据；

终端设备在针对原始语音数据的原始语音文本进行语音文本处理得到优化语音文本之后，终端设备进一步针对该优化语音文本进行分词以得到该优化语音文本的文字内容，进而，终端设备按照该文本内容进行合成语音检索以从预先建立的预设语音数据库中，索引查找与当前文字内容相对应的拟合成语音数据。

需要说明的是，在本实施例中，预设语音数据库为终端设备预先内置或者外接、用于存储语音数据的数据库，在该预设语音数据库中，终端设备依据文字内容与语音数据之间的对应关系对语音数据进行保存，例如，终端设备在该预设语音数据库中，关联保存文字内容：“您好”和与当前文字内容：“您好”所对应的语音波段；或者，终端设备也可以在该预设语音数据库中，仅保存文字内容，而与保存的文字内容相对应的语音波段数据则从其他数据库中进行下载。

步骤S423，整合所述原始语音数据、所述优化语音文本和所述拟合成语音数据生成语音数据样本。

终端设备在进一步通过基于优化语音文本进行合成语音检索从而得到拟合成语音数据之后，随即将该原始语音数据、该原数据语音的优化语音文本以及该拟合成语音数据一起整合形成一条用于进行机器学习训练的语音数据样本。

具体地，例如，终端设备将原始语音文本为：“晚上吃饭”的原始语音数据1、该原始语音数据1的优化语音文本：“晚上一起去吃个饭”，以及基于该优化语音文本：“晚上一起去吃个饭”进行合成语音检索得到的拟合成语音数据1，一起封装成为一条用于进行进行机器学习训练的语音数据样本。

步骤S43，利用所述语音数据样本针对初始的机器学习模型进行训练直至所述机器学习模型收敛；

步骤S44，将收敛的所述机器学习模型确定为语音数据匹配模型。

需要说明的是，在本实施例中，初始的机器学习模型可以为任意成熟的机器学习模型。

终端设备在基于从大数据平台中获取的原始语音数据生成语音数据样本之后，即利用该语音数据样本针对初始的机器学习模型进行训练，以令该机器学习模型学习如何基于原始语音数据进行语音文本处理和合成语音检索来得到合成语音数据的过程，并且，终端设备在针对该机器学习模型进行训练到该机器学习模型已经收敛之后，即将该收敛的机器学习模型作为能够基于终端设备采集到的待合成语音信息进行准确适配，以得到待合成的目标语音数据的语音数据匹配模型。

需要说明的是，在本实施例中，终端设备可以采用任意成熟的模型训练方式以利用语音数据样本针对初始的机器学习模型进行训练，应当理解的是，基于实际应用的不同设计需要，在不同可行的实施方式当中，终端设备当然可以采用任意不同的模型训练方式，本发明基于大数据平台的语音合成方法并不针对利用语音数据样本针对初始的机器学习模型进行训练的具体方式进行限定。

在本实施例中，终端设备在基于机器学习训练语音数据匹配模型时，首先基于接入互联网的大数据平台中获取用于进行模型训练的原始语音数据；终端设备在从大数据平台中提取得到原始语音数据之后，立即针对该原始语音数据进行预处理操作，从而将经过预处理操作之后的语音数据作为用于进行机器学习训练的语音数据样本；终端设备在基于从大数据平台中获取的原始语音数据生成语音数据样本之后，即利用该语音数据样本针对初始的机器学习模型进行训练，以令该机器学习模型学习如何基于原始语音数据进行语音文本处理和合成语音检索来得到合成语音数据的过程，并且，终端设备在针对该机器学习模型进行训练到该机器学习模型已经收敛之后，即将该收敛的机器学习模型作为能够基于终端设备采集到的待合成语音信息进行准确适配，以得到待合成的目标语音数据的语音数据匹配模型。

如此，本发明实施例通过预先基于大数据平台进行机器学习训练得到能够直接进行语音数据适配的语音数据匹配模型，然后将获取得到的待合成的语音信息输入到该语音数据匹配模型当中，从而由该语音数据匹配模块基于该语音信息确定待合成的目标语音数据，最后，接收该目标语音数据并根据预设语音合成指令来将该目标语音数据合成为语音序列。

进一步地，基于上述本发明基于大数据平台的语音合成方法的第一实施例和第二实施例，提出本发明基于大数据平台的语音合成方法的第三实施例，在本实施例中，在上述步骤S10，获取待合成的语音信息的步骤之后，本发明基于大数据平台的语音合成方法，还可以包括：

步骤B，对所述语音信息进行声纹识别处理以提取声纹特征，并基于提取的所述声纹特征确定输出音色。

终端设备在从外界环境声音当中筛选提取出待合成的语音信息之后，进一步基于声纹识别等技术，从该语音信息中提取发出当前终端设备上的麦克风所接收到语音信息的发音人(即用户)的声纹特征，从而依据当前提取出的声纹特征，在预先建立的用于存储对合成语音序列进行语音输出时的不同输出音色的音色数据库中，确定输出音色。

进一步地，在一种可行的实施例中，终端通过检测该预先建立的存储不同输出音色的音色数据库中，是否保存有基于与当前终端设备上的麦克风，所接收到语音信息的发音人声纹特征的相同声纹特征，所建立的输出音色，并在检测到未保存有该输出音色时，随即基于当前发音人的声纹特征在该音色数据库中建立新的输出音色，并标注当前输出音色的发音人信息，若检测到当前音色数据库中已经保存了基于该相同声纹特征建立的输出音色时，便放弃在当前音色数据库中建立新的输出音色。

上述步骤S30，根据预设语音合成指令将所述目标语音数据合成为语音序列，可以包括：

步骤S31，提取预设语音合成指令，并检测所述预设语音合成指令中携带的顺序合成需求以及音色合成需求；

终端设备在基于语音数据匹配模型适配得到待合成的目标语音数据之后，进一步地提取用户基于该终端设备可视化输出的用户图像界面进行个性化定制生成的自定义操作生成的预设语音合成指令，然后检测该语音合成指令中所携带的用户对当前所输入待合成语音信息进行语音合成的合成需求，例如，用户需要对该待合成语音信息的语音文本进行语句润饰的需求，和/或用户需要对合成语音的输出音色进行润饰的需求。

步骤S32，确定所述语音信息的待合成文字内容，并基于所述顺序合成需求，按照所述待合成文字内容的文字顺序组合所述目标语音数据以形成初始语音序列；

终端设备根据用户所触发语音合成指令中所携带的对所输入文本语句信息进行语句润饰的需求，按照所接收到待合成的语音信息的语音文本：“晚上吃饭”中各文字内容(即“晚”、“上”、“吃”和“饭”)的文字顺序，或者按照该“晚上吃饭”所匹配到的标准语句“晚上一起去吃个饭”的文字内容：“晚”、“上”、“一”、“起”、“去”、“吃”、“个”和“饭”)的文字顺序，将基于语音数据匹配模型输出的目标语音数据进行组合，从而形成初始的语音序列。

步骤S33，基于所述音色合成需求，在所述初始语音序列中添加所述输出音色以形成最终语音序列。

终端设备基于根据用户所触发语音合成指令中所携带的对合成语音的输出音色进行润饰的需求，从预先建立的用于存储对合成语音序列进行语音输出时的不同输出音色的音色数据库中查找目标输出音色，并将该目标输出音色的声纹特征添加至当前已经合成的初始语音序列中，以形成最终进行语音输出的最终语音序列。

在另一种可行的实施例中，若终端设备检测到用户所触发语音合成指令中，并未携带的对合成语音的输出音色进行润饰的需求时，则无需在当前已经合成的初始语音序列中添加输出音色的声纹特征，即直接按照“机器语音”对语音序列进行语音输出。

在本实施例中，通过终端设备在从外界环境声音当中筛选提取出待合成的语音信息之后，进一步基于声纹识别等技术，从该语音信息中提取发出当前终端设备上的麦克风所接收到语音信息的发音人(即用户)的声纹特征，从而依据当前提取出的声纹特征，在预先建立的用于存储对合成语音序列进行语音输出时的不同输出音色的音色数据库中，确定输出音色。

以及，通过终端设备在基于语音数据匹配模型适配得到待合成的目标语音数据之后，进一步地提取用户基于该终端设备可视化输出的用户图像界面进行个性化定制生成的自定义操作生成的预设语音合成指令，然后检测该语音合成指令中所携带的用户对当前所输入待合成语音信息进行语音合成的合成需求；终端设备根据用户所触发语音合成指令中所携带的对所输入文本语句信息进行语句润饰的需求，按照所接收到待合成的语音信息的语音文本的文字顺序，将基于语音数据匹配模型输出的目标语音数据进行组合，从而形成初始的语音序列；终端设备基于根据用户所触发语音合成指令中所携带的对合成语音的输出音色进行润饰的需求，从预先建立的用于存储对合成语音序列进行语音输出时的不同输出音色的音色数据库中查找目标输出音色，并将该目标输出音色的声纹特征添加至当前已经合成的初始语音序列中，以形成最终进行语音输出的最终语音序列。

此外，请参照图4，本发明实施例还提出一种基于大数据平台的语音合成装置，本发明基于大数据平台的语音合成装置包括：

优选地，本发明基于大数据平台的语音合成装置，还包括：

模型训练模块，用于基于大数据平台进行机器学习训练得到所述语音数据匹配模型。

优选地，模型训练模块，包括：

获取单元，用于从所述大数据平台获取原始语音数据；

预处理单元，用于针对所述原始语音数据进行预处理操作以生成语音数据样本；

训练单元，用于利用所述语音数据样本针对初始的机器学习模型进行训练直至所述机器学习模型收敛；

确定单元，用于将收敛的所述机器学习模型确定为语音数据匹配模型。

优选地，所述预处理操作包括：语音文本处理和合成语音检索，预处理单元，包括：

第一处理单元，用于识别所述原始语音数据得到原始语音文本，并针对所述原始语音文本进行语音文本处理得到优化语音文本；

第二处理单元，用于按照所述优化语音文本的文字内容进行合成语音检索以得到拟合成语音数据；

生成单元，用于整合所述原始语音数据、所述优化语音文本和所述拟合成语音数据生成语音数据样本。

优选地，本发明基于大数据平台的语音合成装置，还包括：

降噪模块，用于根据环境声音音量对所述环境中包含所述语音信息的声音进行降噪处理；

所述模型输入模块，还用于从经过降噪处理后的所述声音中，提取所述语音信息。

优选地，语音合成模块，包括：

需求检测单元，用于提取预设语音合成指令，并检测所述预设语音合成指令中携带的顺序合成需求以及音色合成需求；

第一合成单元，用于确定所述语音信息的待合成文字内容，并基于所述顺序合成需求，按照所述待合成文字内容的文字顺序组合所述目标语音数据以形成初始语音序列；

第二合成单元，用于基于所述音色合成需求，在所述初始语音序列中添加所述输出音色以形成最终语音序列。

优选地，本发明基于大数据平台的语音合成装置，还包括：

音色确定模块，用于对所述语音信息进行声纹识别处理以提取声纹特征，并基于提取的所述声纹特征确定输出音色。

本实施例提出的基于大数据平台的语音合成装置的各个功能模块在运行时，实现如上所述的基于大数据平台的语音合成方法的步骤，在此不再赘述。

本发明实施例还提供一种终端设备，所述终端设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的多分类模型的应用方法。

本发明实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本发明实施例提供的多分类模型的应用方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于大数据平台的语音合成方法，其特征在于，所述基于大数据平台的语音合成方法包括：

2.根据权利要求1所述的基于大数据平台的语音合成方法，其特征在于，所述基于大数据平台的语音合成方法，还包括：

3.根据权利要求2所述的基于大数据平台的语音合成方法，其特征在于，所述基于大数据平台进行机器学习训练得到所述语音数据匹配模型的步骤，包括：

从所述大数据平台获取原始语音数据；

将收敛的所述机器学习模型确定为语音数据匹配模型。

4.根据权利要求3所述的基于大数据平台的语音合成方法，其特征在于，所述预处理操作包括：语音文本处理和合成语音检索，所述针对所述原始语音数据进行预处理操作以生成语音数据样本的步骤，包括：

5.根据权利要求1所述的基于大数据平台的语音合成方法，其特征在于，在所述获取待合成的语音信息的步骤之前，所述方法还包括：

所述获取待合成的语音信息的步骤包括：

从经过降噪处理后的所述声音中，提取所述语音信息。

6.根据权利要求1所述的基于大数据平台的语音合成方法，其特征在于，所述根据预设语音合成指令将所述目标语音数据合成为语音序列的步骤，包括：

7.根据权利要求1至6任一项所述的基于大数据平台的语音合成方法，其特征在于，在所述获取待合成的语音信息的步骤之后，所述方法还包括：

8.一种基于大数据平台的语音合成装置，其特征在于，所述基于大数据平台的语音合成装置包括：

9.一种终端设备，其特征在于，所述终端设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7所述的基于大数据平台的语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可执行指令，用于被处理器执行时，实现权利要求1至7所述的基于大数据平台的语音合成方法。