CN109584858A - 一种基于ai人工智能的虚拟配音方法及其装置 - Google Patents

一种基于ai人工智能的虚拟配音方法及其装置 Download PDF

Info

Publication number
CN109584858A
CN109584858A CN201910014104.0A CN201910014104A CN109584858A CN 109584858 A CN109584858 A CN 109584858A CN 201910014104 A CN201910014104 A CN 201910014104A CN 109584858 A CN109584858 A CN 109584858A
Authority
CN
China
Prior art keywords
virtual
artificial intelligence
module
neural network
presupposed information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910014104.0A
Other languages
English (en)
Inventor
贺子彬
胡文彬
杜庆焜
蒋晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Xishan Yichuang Culture Co Ltd
Original Assignee
Wuhan Xishan Yichuang Culture Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Xishan Yichuang Culture Co Ltd filed Critical Wuhan Xishan Yichuang Culture Co Ltd
Priority to CN201910014104.0A priority Critical patent/CN109584858A/zh
Publication of CN109584858A publication Critical patent/CN109584858A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于AI人工智能的虚拟配音方法,包括:S1、初始化虚拟配音程序;S2、加载预设信息,并输入应用需求;S3、根据预设信息和应用需求创建对应的神经网络;S4、调用新创建的神经网络生成初始音频文件;S5、通过情绪模拟合成虚拟配音;S6、上传至服务器。一种基于AI人工智能的虚拟配音装置,包括:初始化模块、加载模块、神经网络创建模块、初始音频生成模块、虚拟配音合成模块以及上传模块。本发明只需要输入文字和相关的人物音素,就可以按场景需求生成相应的对白,在此基础上还可以在对白中加入情绪、语气等,实现与真人相同的配音效果,有效减少了运营成本,提高了开发运营效率。

Description

一种基于AI人工智能的虚拟配音方法及其装置
技术领域
本发明涉及一种基于AI人工智能的虚拟配音方法,属于计算机人工智能、神经网络和深度学习技术领域。
背景技术
目前在游戏开发领域,玩家对游戏质量的要求越来越高,单纯以字幕串联游戏剧情的推动形式已大大不能满足现有玩家的需求;塑造更好的游戏体验需要以更多的感官传递代替传统的字幕推动。
从另一方面看真人配音虽然在游戏场景的营造上提供了完美的效果,但因此也需要根据项目的规模配备一定数量的文案策划,同时需要联络一定数量的配音演员;在实际执行过程中也会因流程的配合产生额外的时间成本;以上都会对游戏开发工作带来更高的成本和更大的风险。
发明内容
针对现有技术的不足,本发明提供了一种基于AI人工智能的虚拟配音方法,包括以下步骤:
S1、初始化虚拟配音程序;
S2、加载预设信息,并输入应用需求;
S3、根据预设信息和应用需求创建对应的神经网络;
S4、调用新创建的神经网络生成初始音频文件;
S5、调用初始音频文件,并进行情绪模拟进而合成虚拟配音;
S6、上传至服务器。
进一步,所述预设信息包括但不限于音源库以及语料库。
进一步,所述音源库和语料库是通过预先收集的音源、语料数据集合形成的初始资源库。
进一步,所述应用需求包括但不限于应用场景以及情绪模式。
进一步,所述初始音频文件是通过调用音源库和语料库中的数据合成,仅用于对白表述的初级音频。
进一步,所述情绪模拟是通过调用初级音频,并在其基础上结合应用场景的需求,将原有的对白添加语气、重音、表述节奏以及情绪变化。
进一步,语气、重音、表述节奏以及情绪变化调整具体可以通过预先设定的情绪模式进行同步添加。
一种基于AI人工智能的虚拟配音装置,包括以下模块:
初始化模块,用于初始化虚拟配音程序;
加载模块,用于加载预设信息,并输入应用需求;
神经网络创建模块,用于根据预设信息和应用需求创建对应的神经网络;
初始音频生成模块,用于调用新创建的神经网络生成初始音频文件;
虚拟配音合成模块,用于调用初始音频文件,并进行情绪模拟进而合成虚拟配音;以及
上传模块,用于上传至服务器。
一种计算机可读存储介质,其上存储有计算机指令,其特征在于该指令被处理器执行时实现所述的方法的步骤。
本发明的有益效果为:只需要输入文字和相关的人物音素,就可以按场景需求生成相应的对白,在此基础上还可以在对白中加入情绪、语气等,实现与真人相同的配音效果,有效减少了运营成本,提高了开发运营效率。
附图说明
图1所示为根据本发明的总体流程图;
图2所示为根据本发明的装置连接图。
具体实施方式
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
需要说明的是,如无特殊声明,在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个的所列项目的任意的组合。
应当理解,本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
接下来结合附图对本发明的具体实施例作进一步说明:
参照图1所示为根据本发明的总体流程图,具体包括以下步骤:
S1、初始化虚拟配音程序;
S2、加载预设信息,并输入应用需求;这一步中提及的预设信息包括但不限于音源库以及语料库,实际预设信息的需求根据项目开发的要求进行预先填加,但音源库以及语料库应当是生成虚拟配音的必要数据库;而所谓的音源库和语料库是指通过预先收集的音源、语料等原始数据形成的数据集合,在实际使用过程中,数据库并非一尘不变,可根据进度的要求或游戏更新改版的变化不断增减修补,时刻适应于当前的配音需求;
S3、根据预设信息和应用需求创建对应的神经网络;这一步中提及的应用需求包括但不限于应用场景以及情绪模式;应用场景的预设根据项目实际开发过程确定,例:某仙侠类网游可能存在新人入门、迎宾、游玩、仇敌相遇、帮派决战等各种场景,某一具体场景下的情绪和环境要求也有所不同,在能预设的范围内,尽可能添加多的场景模式,便于后续开发工作的进行;情绪模式同上,有应用场景的大环境下,对白的情绪表达也应该有所不同,或紧张、或舒缓、或放松、或倾诉,以上不同的情绪模式需要有一个确定的情绪调整标准,并在此标准上进一步升华情绪表达;
S4、调用新创建的神经网络生成初始音频文件;这一步中提及的初始音频文件是通过调用音源库和语料库中的数据合成,仅用于对白表述的初级音频;例如,某一场景下主人与宾客的寒暄,创建出的初级音频能在文字表达逻辑合理的前提下以标准的语言进行对白,但不会添加任何情绪、重音、节奏变化等;这种初级音频仅用于后续修改使用,不能直接使用在游戏场景内;
S5、调用初始音频文件,并进行情绪模拟进而合成虚拟配音;这一步中提及的情绪模拟是通过调用初级音频,并在其基础上结合应用场景的需求,将原有的对白添加语气、重音、表述节奏以及情绪变化;语气、重音、表述节奏以及情绪变化调整具体可以通过预先设定的情绪模式进行同步添加;添加不同的情绪模式可以一键调整上述变化,这一定程度上提高工作效率;
S6、上传至服务器。
参照图2所示为根据本发明的装置连接图,具体包括以下模块:
初始化模块,与加载模块连接实现交互,用于初始化虚拟配音程序;
加载模块,与神经网络创建模块连接实现交互,用于加载预设信息,并输入应用需求;
神经网络创建模块,与初始音频生成模块连接实现交互,用于根据预设信息和应用需求创建对应的神经网络;
初始音频生成模块,与虚拟配音合成模块连接实现交互,用于调用新创建的神经网络生成初始音频文件;
虚拟配音合成模块,与上传模块连接实现交互,用于调用初始音频文件,并进行情绪模拟进而合成虚拟配音;以及
上传模块,用于上传至服务器。
一种计算机可读存储介质,其上存储有计算机指令,其特征在于该指令被处理器执行时实现所述的方法的步骤。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (9)

1.一种基于AI人工智能的虚拟配音方法,其特征在于,包括以下步骤:
S1、初始化虚拟配音程序;
S2、加载预设信息,并输入应用需求;
S3、根据预设信息和应用需求创建对应的神经网络;
S4、调用新创建的神经网络生成初始音频文件;
S5、调用初始音频文件,并进行情绪模拟进而合成虚拟配音;
S6、上传至服务器。
2.根据权利要求1所述的基于AI人工智能的虚拟配音方法,其特征在于,所述预设信息包括但不限于音源库以及语料库。
3.根据权利要求2所述的基于AI人工智能的虚拟配音方法,其特征在于,所述音源库和语料库是通过预先收集的音源、语料数据集合形成的初始资源库。
4.根据权利要求1所述的基于AI人工智能的虚拟配音方法,其特征在于,所述应用需求包括但不限于应用场景以及情绪模式。
5.根据权利要求1所述的基于AI人工智能的虚拟配音方法,其特征在于,所述初始音频文件是通过调用音源库和语料库中的数据合成,仅用于对白表述的初级音频。
6.根据权利要求1所述的基于AI人工智能的虚拟配音方法,其特征在于,所述情绪模拟是通过调用初级音频,并在其基础上结合应用场景的需求,将原有的对白添加语气、重音、表述节奏以及情绪变化。
7.根据权利要求6所述的基于AI人工智能的虚拟配音方法,其特征在于,语气、重音、表述节奏以及情绪变化调整具体可以通过预先设定的情绪模式进行同步添加。
8.一种基于AI人工智能的虚拟配音装置,其特征在于,包括以下模块:
初始化模块,用于初始化虚拟配音程序;
加载模块,用于加载预设信息,并输入应用需求;
神经网络创建模块,用于根据预设信息和应用需求创建对应的神经网络;
初始音频生成模块,用于调用新创建的神经网络生成初始音频文件;
虚拟配音合成模块,用于调用初始音频文件,并进行情绪模拟进而合成虚拟配音;以及上传模块,用于上传至服务器。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于该指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN201910014104.0A 2019-01-08 2019-01-08 一种基于ai人工智能的虚拟配音方法及其装置 Pending CN109584858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910014104.0A CN109584858A (zh) 2019-01-08 2019-01-08 一种基于ai人工智能的虚拟配音方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910014104.0A CN109584858A (zh) 2019-01-08 2019-01-08 一种基于ai人工智能的虚拟配音方法及其装置

Publications (1)

Publication Number Publication Date
CN109584858A true CN109584858A (zh) 2019-04-05

Family

ID=65916135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910014104.0A Pending CN109584858A (zh) 2019-01-08 2019-01-08 一种基于ai人工智能的虚拟配音方法及其装置

Country Status (1)

Country Link
CN (1) CN109584858A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653265A (zh) * 2020-04-26 2020-09-11 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111681677A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频物体音效构建方法、系统、装置及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608724A (zh) * 2014-11-06 2016-05-25 上海莱凯数码科技有限公司 数码动画音效制作的方法
US20160283465A1 (en) * 2013-10-01 2016-09-29 Aldebaran Robotics Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN107480122A (zh) * 2017-06-26 2017-12-15 迈吉客科技(北京)有限公司 一种人工智能交互方法及人工智能交互装置
CN108462895A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 音效处理方法、装置和机器可读介质
CN108630190A (zh) * 2018-05-18 2018-10-09 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
CN108810561A (zh) * 2018-06-21 2018-11-13 珠海金山网络游戏科技有限公司 一种基于人工智能的三维偶像直播方法及装置
CN108831436A (zh) * 2018-06-12 2018-11-16 深圳市合言信息科技有限公司 一种模拟说话者情绪优化翻译后文本语音合成的方法
CN109119063A (zh) * 2018-08-31 2019-01-01 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283465A1 (en) * 2013-10-01 2016-09-29 Aldebaran Robotics Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method
CN105608724A (zh) * 2014-11-06 2016-05-25 上海莱凯数码科技有限公司 数码动画音效制作的方法
CN108462895A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 音效处理方法、装置和机器可读介质
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN107480122A (zh) * 2017-06-26 2017-12-15 迈吉客科技(北京)有限公司 一种人工智能交互方法及人工智能交互装置
CN108630190A (zh) * 2018-05-18 2018-10-09 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
CN108831436A (zh) * 2018-06-12 2018-11-16 深圳市合言信息科技有限公司 一种模拟说话者情绪优化翻译后文本语音合成的方法
CN108810561A (zh) * 2018-06-21 2018-11-13 珠海金山网络游戏科技有限公司 一种基于人工智能的三维偶像直播方法及装置
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
CN109119063A (zh) * 2018-08-31 2019-01-01 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653265A (zh) * 2020-04-26 2020-09-11 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111653265B (zh) * 2020-04-26 2023-08-18 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111681677A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频物体音效构建方法、系统、装置及可读存储介质
CN111681677B (zh) * 2020-06-09 2023-08-04 杭州星合尚世影视传媒有限公司 视频物体音效构建方法、系统、装置及可读存储介质

Similar Documents

Publication Publication Date Title
JP6786751B2 (ja) 音声接続合成の処理方法及び装置、コンピュータ設備及びコンピュータプログラム
CN106062867A (zh) 语音字体说话者以及韵律插值
CN109785820A (zh) 一种处理方法、装置及设备
CN105190699A (zh) 基于面部运动数据的卡拉ok化身动画
CN111163323A (zh) 在线视频创作系统及方法
CN108810561A (zh) 一种基于人工智能的三维偶像直播方法及装置
CN109801349A (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
CN109584858A (zh) 一种基于ai人工智能的虚拟配音方法及其装置
CN114866807A (zh) 虚拟形象视频生成方法、装置、电子设备及可读存储介质
CN108961396A (zh) 三维场景的生成方法、装置及终端设备
CN106845935A (zh) 一种工程项目流程模板化的方法和系统
CN105205844A (zh) 互动式电子动画书的制作方法、装置及移动终端
CN108549654B (zh) 一种基于图像处理的大数据分析方法
Houix et al. Innovative tools for sound sketching combining vocalizations and gestures
KR101845535B1 (ko) 3d 아바타 기반 화자 변경형 스토리텔링 시스템
CN114170648A (zh) 视频生成方法、装置、电子设备及存储介质
CN106981099A (zh) 用于操作三维动画角色的方法和装置
CN114237540A (zh) 一种智慧课堂在线教学互动方法、装置、存储介质及终端
CN106067184A (zh) 一种三维模型处理方法及装置
CN109859537A (zh) 一种织锦教学系统及方法、信息数据处理终端
CN114723398A (zh) 舞台创意编排方法、舞台创意编排装置和电子设备
CN115187108A (zh) 基于虚拟舞台的分布式彩排方法及系统
CN109472434A (zh) 组装顺序生成装置、存储介质和组装顺序生成方法
CN113963674A (zh) 作品生成的方法、装置、电子设备及存储介质
CN110930481A (zh) 一种口型控制参数的预测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405

RJ01 Rejection of invention patent application after publication