CN111739507A

CN111739507A - 一种基于ai的语音合成方法、系统、装置和存储介质

Info

Publication number: CN111739507A
Application number: CN202010376240.7A
Authority: CN
Inventors: 李新福
Original assignee: Guangdong Kangyun Technology Co ltd
Current assignee: Guangdong Kangyun Technology Co ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-10-02

Abstract

本发明公开了一种基于AI的语音合成方法、系统、装置和存储介质，其中方法包括以下步骤：获取文字信息；结合文字信息和预设的人声参数生成具有特定声纹的语音信息；播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。本发明通过结合文字信息和人声参数生成具有特定声纹的语音信息，能够应用于广播节目中，提高了工作效率和质量；另外，根据语音信息驱动AI虚拟仿真人的口型，从而使AI虚拟仿真人更加逼真，可广泛应用于语音合成技术领域。

Description

一种基于AI的语音合成方法、系统、装置和存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种基于AI的语音合成方法、系统、装置和存储介质。

背景技术

在传统广播节目大都需要通过播音员或主持人运用有声语言来传递信息，类似于读白的这种简单工作繁琐，但工作量大，目前仍需通过人工来完成，大大地降低了工作效率。且人工读白会出现的读错字、漏字、吞字等失误，降低了质量。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于AI的语音合成方法、系统、装置和存储介质，采用文字合成读白，无需人工录读白，提高了效率，降低了成本。

本发明所采用的第一技术方案是：

一种基于AI的语音合成方法，包括以下步骤：

获取文字信息；

结合文字信息和预设的人声参数生成具有特定声纹的语音信息；

播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。

进一步，所述获取文字信息这一步骤，具体为：

获取语音输入信息，采用预设的转换模型将语音输入信息转换为文字信息。

进一步，所述人声参数包括声纹参数、语气参数和语速参数，所述结合文字信息和预设的人声参数生成具有特定声纹的语音信息这一步骤，具体为：

获取声纹选择信息；

根据声纹选择信息从预设的语音库中获取对应的声纹参数、语气参数和语速参数；

结合文字信息、声纹参数、语气参数和语速参数生成具有特定声纹和语气的语音信息。

进一步，所述播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面这一步骤，具体为：

获取仿真人选择信息；

根据仿真人选择信息从预设的AI虚拟仿真人库中获取并渲染对应的AI虚拟仿真人模型；

进一步，还包括字幕生成步骤，具体为：

结合文字信息和预设的字幕生成器生成字幕信息。

进一步，包括驱动AI虚拟仿真人肢体动作的步骤，具体为：

获取语音播放中的停顿信息，根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的肢体动作。

进一步，包括驱动AI虚拟仿真人面部表情的步骤，具体为：

获取语音播放中的停顿信息，根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的面部表情。

本发明所采用的第二技术方案是：

一种基于AI的语音合成系统，包括：

文字获取模块，用于获取文字信息；

语音合成模块，用于结合文字信息和预设的人声参数生成具有特定声纹的语音信息；

虚拟驱动模块，用于播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。

进一步，所述文字获取模块用于获取语音输入信息，采用预设的转换模型将语音输入信息转换为文字信息。

本发明所采用的第三技术方案是：

一种基于AI的语音合成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的第四技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过结合文字信息和人声参数生成具有特定声纹的语音信息，能够应用于广播节目中，提高了工作效率和质量；另外，根据语音信息驱动AI虚拟仿真人的口型，从而使AI虚拟仿真人更加逼真。

附图说明

图1是实施例中一种基于AI的语音合成方法的步骤流程图；

图2是实施例中将文字信息转换为语音信息的一种实施方式的示意图；

图3是实施例中一种基于AI的语音合成系统的结构框图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

如图1所示，本实施例提供了一种基于AI的语音合成方法，包括以下步骤：

S1、获取文字信息；

S2、结合文字信息和预设的人声参数生成具有特定声纹的语音信息；

S3、播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。

在本实施例中，先获取文字信息，所述文字信息包括一切文字文稿，如新闻稿、法律条文、诗词歌赋等。将获得的文字信息与预设的人声参数生成具有特定声纹的语音信息，所述人声参数可以为预先选定的参数，也可以为默认的参数，所述人声参数包括声音的不同波长、频率、强度、节奏等特征，比如可以选择某个主持人的人声参数、某个他演员的人声参数或某个领导人的人声参数等。这些人声参数通过从某个主播的历史语音数据中提取获得，将提取到的人声参数对应地存储在数据库中，当需要调用某个主播的人声参数时，直接调用即可。所述语音信息为可以播放声音的音频信息。其中，将文字信息变换为音频信息可采用现有的技术，参照图2，为现有的文字转换语音系统之一，只需将文字输入系统后，自动生成对应的音频信息；而在本实施例中，还根据之前存储的人身参数对音频信号做进一步的处理，从而使语音信息更加接近现有的主播的声音，满足节目广播的要求。在播放语音信息时，采用预设的驱动引擎驱动预设的AI虚拟仿真人的口型、面部表情或肢体动作等，所述驱动引擎可采用虚幻引擎来实现，所述AI虚拟仿真人为虚拟形象模型，具体可以建立对应主播的虚拟形象，比如“何x”或“董x”的虚拟形象模型，其中建立虚拟形象模型的技术可采用现有的技术。在本实施例中，根据播放的语音信息驱动AI虚拟仿真人的口型，使AI虚拟仿真人的口型跟随不同的读音呈现不同的画面，从而使AI虚拟仿真人的形象更加逼真。

在上述实施例中，采用了人工智能将文字信息替换为语音信息，无需人工进行读白；因此工作人员可将简单但繁琐的读白或其他工作采用自动合成的方式来实现，极大地提高了工作效率，也可避免人为读错字、漏字、吞字等失误，提高了质量。

其中，在获取文字信息时，如果直接输入的是文稿数据，则可直接对文字信息进行语音合成处理，如果直接输入的是语音，则需要执行以下步骤S11：

S11、获取语音输入信息，采用预设的转换模型将语音输入信息转换为文字信息。

所述语音输入信息为一段普通的语音信号，比如通过录音笔录制的语音或者微信传输的语音。其中，将语音转换为文字的方式具体采用现有的技术来实现即可。

进一步作为可选的实施方式，所述人声参数包括声纹参数、语气参数和语速参数，所述步骤S2具体包括步骤S21～S23：

S21、获取声纹选择信息；

S22、根据声纹选择信息从预设的语音库中获取对应的声纹参数、语气参数和语速参数；

S23、结合文字信息、声纹参数、语气参数和语速参数生成具有特定声纹和语气的语音信息。

用户先输入声纹选择信息，比如具体选择男主播的声纹还是女主播的声纹，在本实施例中，具体可以选择哪个主播对应的声纹信息，当选择了某位主播后，对应地从数据库中调取该主播的声纹参数、语气参数和语速参数，再结合文字信息生成一段具有特定声纹和语气的语音信息。通过结合声纹参数、语气参数和语速参数可使合成的语音更加逼近真人的声音，从而使合成声音更加逼真。

其中，所述步骤S3具体包括步骤S31～S33：

S31、获取仿真人选择信息；

S32、根据仿真人选择信息从预设的AI虚拟仿真人库中获取并渲染对应的AI虚拟仿真人模型；

S33、播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。

AI虚拟仿真人库存有多个虚拟形象模型，用户通过输入选择信息，调取对应的模型数据。运行模型数据将AI虚拟仿真人渲染在平面上，当语音播放时，同步驱动AI虚拟仿真人的动态画面，从而使AI虚拟仿真人更加逼真。

进一步作为可选的实施方式，还包括字幕生成步骤，具体为：

结合文字信息和预设的字幕生成器生成字幕信息。

进一步作为可选的实施方式，包括驱动AI虚拟仿真人肢体动作的步骤，具体为：

进一步作为可选的实施方式，包括驱动AI虚拟仿真人面部表情的步骤，具体为：

所述停顿信息与文字信息中对应句号的位置对应，当AI虚拟仿真人读完一句话时，可切换一个肢体动作或者面部表情，从而使AI虚拟仿真人更加逼真。

如图3所示，本实施例还提供了一种基于AI的语音合成系统，包括：

文字获取模块，用于获取文字信息；

进一步作为可选的实施方式，所述文字获取模块用于获取语音输入信息，采用预设的转换模型将语音输入信息转换为文字信息。

本实施例的一种基于AI的语音合成系统，可执行本发明方法实施例所提供的一种基于AI的语音合成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种基于AI的语音合成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种基于AI的语音合成装置，可执行本发明方法实施例所提供的一种基于AI的语音合成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本实施例的一种存储介质，可执行本发明方法实施例所提供的一种基于AI的语音合成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种基于AI的语音合成方法，其特征在于，包括以下步骤：

获取文字信息；

2.根据权利要求1所述的一种基于AI的语音合成方法，其特征在于，所述获取文字信息这一步骤，具体为：

3.根据权利要求1所述的一种基于AI的语音合成方法，其特征在于，所述人声参数包括声纹参数、语气参数和语速参数，所述结合文字信息和预设的人声参数生成具有特定声纹的语音信息这一步骤，具体为：

获取声纹选择信息；

4.根据权利要求3所述的一种基于AI的语音合成方法，其特征在于，所述播放语音信息，以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面这一步骤，具体为：

获取仿真人选择信息；

5.根据权利要求1所述的一种基于AI的语音合成方法，其特征在于，还包括字幕生成步骤，具体为：

结合文字信息和预设的字幕生成器生成字幕信息。

6.根据权利要求1所述的一种基于AI的语音合成方法，其特征在于，包括驱动AI虚拟仿真人肢体动作的步骤，具体为：

7.根据权利要求1所述的一种基于AI的语音合成方法，其特征在于，包括驱动AI虚拟仿真人面部表情的步骤，具体为：

8.一种基于AI的语音合成系统，其特征在于，包括：

文字获取模块，用于获取文字信息；

9.一种基于AI的语音合成装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述的一种基于AI的语音合成方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。