CN109584858A

CN109584858A - 一种基于ai人工智能的虚拟配音方法及其装置

Info

Publication number: CN109584858A
Application number: CN201910014104.0A
Authority: CN
Inventors: 贺子彬; 胡文彬; 杜庆焜; 蒋晓光
Original assignee: Wuhan Xishan Yichuang Culture Co Ltd
Current assignee: Wuhan Xishan Yichuang Culture Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-04-05

Abstract

本发明涉及一种基于AI人工智能的虚拟配音方法，包括：S1、初始化虚拟配音程序；S2、加载预设信息，并输入应用需求；S3、根据预设信息和应用需求创建对应的神经网络；S4、调用新创建的神经网络生成初始音频文件；S5、通过情绪模拟合成虚拟配音；S6、上传至服务器。一种基于AI人工智能的虚拟配音装置，包括：初始化模块、加载模块、神经网络创建模块、初始音频生成模块、虚拟配音合成模块以及上传模块。本发明只需要输入文字和相关的人物音素，就可以按场景需求生成相应的对白，在此基础上还可以在对白中加入情绪、语气等，实现与真人相同的配音效果，有效减少了运营成本，提高了开发运营效率。

Description

一种基于AI人工智能的虚拟配音方法及其装置

技术领域

本发明涉及一种基于AI人工智能的虚拟配音方法，属于计算机人工智能、神经网络和深度学习技术领域。

背景技术

目前在游戏开发领域，玩家对游戏质量的要求越来越高，单纯以字幕串联游戏剧情的推动形式已大大不能满足现有玩家的需求；塑造更好的游戏体验需要以更多的感官传递代替传统的字幕推动。

从另一方面看真人配音虽然在游戏场景的营造上提供了完美的效果，但因此也需要根据项目的规模配备一定数量的文案策划，同时需要联络一定数量的配音演员；在实际执行过程中也会因流程的配合产生额外的时间成本；以上都会对游戏开发工作带来更高的成本和更大的风险。

发明内容

针对现有技术的不足，本发明提供了一种基于AI人工智能的虚拟配音方法，包括以下步骤：

S1、初始化虚拟配音程序；

S2、加载预设信息，并输入应用需求；

S3、根据预设信息和应用需求创建对应的神经网络；

S4、调用新创建的神经网络生成初始音频文件；

S5、调用初始音频文件，并进行情绪模拟进而合成虚拟配音；

S6、上传至服务器。

进一步，所述预设信息包括但不限于音源库以及语料库。

进一步，所述音源库和语料库是通过预先收集的音源、语料数据集合形成的初始资源库。

进一步，所述应用需求包括但不限于应用场景以及情绪模式。

进一步，所述初始音频文件是通过调用音源库和语料库中的数据合成，仅用于对白表述的初级音频。

进一步，所述情绪模拟是通过调用初级音频，并在其基础上结合应用场景的需求，将原有的对白添加语气、重音、表述节奏以及情绪变化。

进一步，语气、重音、表述节奏以及情绪变化调整具体可以通过预先设定的情绪模式进行同步添加。

一种基于AI人工智能的虚拟配音装置，包括以下模块：

初始化模块，用于初始化虚拟配音程序；

加载模块，用于加载预设信息，并输入应用需求；

神经网络创建模块，用于根据预设信息和应用需求创建对应的神经网络；

初始音频生成模块，用于调用新创建的神经网络生成初始音频文件；

虚拟配音合成模块，用于调用初始音频文件，并进行情绪模拟进而合成虚拟配音；以及

上传模块，用于上传至服务器。

一种计算机可读存储介质，其上存储有计算机指令，其特征在于该指令被处理器执行时实现所述的方法的步骤。

本发明的有益效果为：只需要输入文字和相关的人物音素，就可以按场景需求生成相应的对白，在此基础上还可以在对白中加入情绪、语气等，实现与真人相同的配音效果，有效减少了运营成本，提高了开发运营效率。

附图说明

图1所示为根据本发明的总体流程图；

图2所示为根据本发明的装置连接图。

具体实施方式

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

需要说明的是，如无特殊声明，在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个的所列项目的任意的组合。

应当理解，本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

接下来结合附图对本发明的具体实施例作进一步说明：

参照图1所示为根据本发明的总体流程图，具体包括以下步骤：

S1、初始化虚拟配音程序；

S2、加载预设信息，并输入应用需求；这一步中提及的预设信息包括但不限于音源库以及语料库，实际预设信息的需求根据项目开发的要求进行预先填加，但音源库以及语料库应当是生成虚拟配音的必要数据库；而所谓的音源库和语料库是指通过预先收集的音源、语料等原始数据形成的数据集合，在实际使用过程中，数据库并非一尘不变，可根据进度的要求或游戏更新改版的变化不断增减修补，时刻适应于当前的配音需求；

S3、根据预设信息和应用需求创建对应的神经网络；这一步中提及的应用需求包括但不限于应用场景以及情绪模式；应用场景的预设根据项目实际开发过程确定，例：某仙侠类网游可能存在新人入门、迎宾、游玩、仇敌相遇、帮派决战等各种场景，某一具体场景下的情绪和环境要求也有所不同，在能预设的范围内，尽可能添加多的场景模式，便于后续开发工作的进行；情绪模式同上，有应用场景的大环境下，对白的情绪表达也应该有所不同，或紧张、或舒缓、或放松、或倾诉，以上不同的情绪模式需要有一个确定的情绪调整标准，并在此标准上进一步升华情绪表达；

S4、调用新创建的神经网络生成初始音频文件；这一步中提及的初始音频文件是通过调用音源库和语料库中的数据合成，仅用于对白表述的初级音频；例如，某一场景下主人与宾客的寒暄，创建出的初级音频能在文字表达逻辑合理的前提下以标准的语言进行对白，但不会添加任何情绪、重音、节奏变化等；这种初级音频仅用于后续修改使用，不能直接使用在游戏场景内；

S5、调用初始音频文件，并进行情绪模拟进而合成虚拟配音；这一步中提及的情绪模拟是通过调用初级音频，并在其基础上结合应用场景的需求，将原有的对白添加语气、重音、表述节奏以及情绪变化；语气、重音、表述节奏以及情绪变化调整具体可以通过预先设定的情绪模式进行同步添加；添加不同的情绪模式可以一键调整上述变化，这一定程度上提高工作效率；

S6、上传至服务器。

参照图2所示为根据本发明的装置连接图，具体包括以下模块：

初始化模块，与加载模块连接实现交互，用于初始化虚拟配音程序；

加载模块，与神经网络创建模块连接实现交互，用于加载预设信息，并输入应用需求；

神经网络创建模块，与初始音频生成模块连接实现交互，用于根据预设信息和应用需求创建对应的神经网络；

初始音频生成模块，与虚拟配音合成模块连接实现交互，用于调用新创建的神经网络生成初始音频文件；

虚拟配音合成模块，与上传模块连接实现交互，用于调用初始音频文件，并进行情绪模拟进而合成虚拟配音；以及

上传模块，用于上传至服务器。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种基于AI人工智能的虚拟配音方法，其特征在于，包括以下步骤：

S1、初始化虚拟配音程序；

S2、加载预设信息，并输入应用需求；

S3、根据预设信息和应用需求创建对应的神经网络；

S4、调用新创建的神经网络生成初始音频文件；

S6、上传至服务器。

2.根据权利要求1所述的基于AI人工智能的虚拟配音方法，其特征在于，所述预设信息包括但不限于音源库以及语料库。

3.根据权利要求2所述的基于AI人工智能的虚拟配音方法，其特征在于，所述音源库和语料库是通过预先收集的音源、语料数据集合形成的初始资源库。

4.根据权利要求1所述的基于AI人工智能的虚拟配音方法，其特征在于，所述应用需求包括但不限于应用场景以及情绪模式。

5.根据权利要求1所述的基于AI人工智能的虚拟配音方法，其特征在于，所述初始音频文件是通过调用音源库和语料库中的数据合成，仅用于对白表述的初级音频。

6.根据权利要求1所述的基于AI人工智能的虚拟配音方法，其特征在于，所述情绪模拟是通过调用初级音频，并在其基础上结合应用场景的需求，将原有的对白添加语气、重音、表述节奏以及情绪变化。

7.根据权利要求6所述的基于AI人工智能的虚拟配音方法，其特征在于，语气、重音、表述节奏以及情绪变化调整具体可以通过预先设定的情绪模式进行同步添加。

8.一种基于AI人工智能的虚拟配音装置，其特征在于，包括以下模块：

初始化模块，用于初始化虚拟配音程序；

加载模块，用于加载预设信息，并输入应用需求；

虚拟配音合成模块，用于调用初始音频文件，并进行情绪模拟进而合成虚拟配音；以及上传模块，用于上传至服务器。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于该指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。