CN111739507A - 一种基于ai的语音合成方法、系统、装置和存储介质 - Google Patents
一种基于ai的语音合成方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN111739507A CN111739507A CN202010376240.7A CN202010376240A CN111739507A CN 111739507 A CN111739507 A CN 111739507A CN 202010376240 A CN202010376240 A CN 202010376240A CN 111739507 A CN111739507 A CN 111739507A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- preset
- acquiring
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 20
- 238000009877 rendering Methods 0.000 claims abstract description 18
- 230000008921 facial expression Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009747 swallowing Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000009999 singeing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于AI的语音合成方法、系统、装置和存储介质,其中方法包括以下步骤:获取文字信息;结合文字信息和预设的人声参数生成具有特定声纹的语音信息;播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。本发明通过结合文字信息和人声参数生成具有特定声纹的语音信息,能够应用于广播节目中,提高了工作效率和质量;另外,根据语音信息驱动AI虚拟仿真人的口型,从而使AI虚拟仿真人更加逼真,可广泛应用于语音合成技术领域。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种基于AI的语音合成方法、系统、装置和存储介质。
背景技术
在传统广播节目大都需要通过播音员或主持人运用有声语言来传递信息,类似于读白的这种简单工作繁琐,但工作量大,目前仍需通过人工来完成,大大地降低了工作效率。且人工读白会出现的读错字、漏字、吞字等失误,降低了质量。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于AI的语音合成方法、系统、装置和存储介质,采用文字合成读白,无需人工录读白,提高了效率,降低了成本。
本发明所采用的第一技术方案是:
一种基于AI的语音合成方法,包括以下步骤:
获取文字信息;
结合文字信息和预设的人声参数生成具有特定声纹的语音信息;
播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
进一步,所述获取文字信息这一步骤,具体为:
获取语音输入信息,采用预设的转换模型将语音输入信息转换为文字信息。
进一步,所述人声参数包括声纹参数、语气参数和语速参数,所述结合文字信息和预设的人声参数生成具有特定声纹的语音信息这一步骤,具体为:
获取声纹选择信息;
根据声纹选择信息从预设的语音库中获取对应的声纹参数、语气参数和语速参数;
结合文字信息、声纹参数、语气参数和语速参数生成具有特定声纹和语气的语音信息。
进一步,所述播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面这一步骤,具体为:
获取仿真人选择信息;
根据仿真人选择信息从预设的AI虚拟仿真人库中获取并渲染对应的AI虚拟仿真人模型;
播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
进一步,还包括字幕生成步骤,具体为:
结合文字信息和预设的字幕生成器生成字幕信息。
进一步,包括驱动AI虚拟仿真人肢体动作的步骤,具体为:
获取语音播放中的停顿信息,根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的肢体动作。
进一步,包括驱动AI虚拟仿真人面部表情的步骤,具体为:
获取语音播放中的停顿信息,根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的面部表情。
本发明所采用的第二技术方案是:
一种基于AI的语音合成系统,包括:
文字获取模块,用于获取文字信息;
语音合成模块,用于结合文字信息和预设的人声参数生成具有特定声纹的语音信息;
虚拟驱动模块,用于播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
进一步,所述文字获取模块用于获取语音输入信息,采用预设的转换模型将语音输入信息转换为文字信息。
本发明所采用的第三技术方案是:
一种基于AI的语音合成装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的第四技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过结合文字信息和人声参数生成具有特定声纹的语音信息,能够应用于广播节目中,提高了工作效率和质量;另外,根据语音信息驱动AI虚拟仿真人的口型,从而使AI虚拟仿真人更加逼真。
附图说明
图1是实施例中一种基于AI的语音合成方法的步骤流程图;
图2是实施例中将文字信息转换为语音信息的一种实施方式的示意图;
图3是实施例中一种基于AI的语音合成系统的结构框图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
如图1所示,本实施例提供了一种基于AI的语音合成方法,包括以下步骤:
S1、获取文字信息;
S2、结合文字信息和预设的人声参数生成具有特定声纹的语音信息;
S3、播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
在本实施例中,先获取文字信息,所述文字信息包括一切文字文稿,如新闻稿、法律条文、诗词歌赋等。将获得的文字信息与预设的人声参数生成具有特定声纹的语音信息,所述人声参数可以为预先选定的参数,也可以为默认的参数,所述人声参数包括声音的不同波长、频率、强度、节奏等特征,比如可以选择某个主持人的人声参数、某个他演员的人声参数或某个领导人的人声参数等。这些人声参数通过从某个主播的历史语音数据中提取获得,将提取到的人声参数对应地存储在数据库中,当需要调用某个主播的人声参数时,直接调用即可。所述语音信息为可以播放声音的音频信息。其中,将文字信息变换为音频信息可采用现有的技术,参照图2,为现有的文字转换语音系统之一,只需将文字输入系统后,自动生成对应的音频信息;而在本实施例中,还根据之前存储的人身参数对音频信号做进一步的处理,从而使语音信息更加接近现有的主播的声音,满足节目广播的要求。在播放语音信息时,采用预设的驱动引擎驱动预设的AI虚拟仿真人的口型、面部表情或肢体动作等,所述驱动引擎可采用虚幻引擎来实现,所述AI虚拟仿真人为虚拟形象模型,具体可以建立对应主播的虚拟形象,比如“何x”或“董x”的虚拟形象模型,其中建立虚拟形象模型的技术可采用现有的技术。在本实施例中,根据播放的语音信息驱动AI虚拟仿真人的口型,使AI虚拟仿真人的口型跟随不同的读音呈现不同的画面,从而使AI虚拟仿真人的形象更加逼真。
在上述实施例中,采用了人工智能将文字信息替换为语音信息,无需人工进行读白;因此工作人员可将简单但繁琐的读白或其他工作采用自动合成的方式来实现,极大地提高了工作效率,也可避免人为读错字、漏字、吞字等失误,提高了质量。
其中,在获取文字信息时,如果直接输入的是文稿数据,则可直接对文字信息进行语音合成处理,如果直接输入的是语音,则需要执行以下步骤S11:
S11、获取语音输入信息,采用预设的转换模型将语音输入信息转换为文字信息。
所述语音输入信息为一段普通的语音信号,比如通过录音笔录制的语音或者微信传输的语音。其中,将语音转换为文字的方式具体采用现有的技术来实现即可。
进一步作为可选的实施方式,所述人声参数包括声纹参数、语气参数和语速参数,所述步骤S2具体包括步骤S21~S23:
S21、获取声纹选择信息;
S22、根据声纹选择信息从预设的语音库中获取对应的声纹参数、语气参数和语速参数;
S23、结合文字信息、声纹参数、语气参数和语速参数生成具有特定声纹和语气的语音信息。
用户先输入声纹选择信息,比如具体选择男主播的声纹还是女主播的声纹,在本实施例中,具体可以选择哪个主播对应的声纹信息,当选择了某位主播后,对应地从数据库中调取该主播的声纹参数、语气参数和语速参数,再结合文字信息生成一段具有特定声纹和语气的语音信息。通过结合声纹参数、语气参数和语速参数可使合成的语音更加逼近真人的声音,从而使合成声音更加逼真。
其中,所述步骤S3具体包括步骤S31~S33:
S31、获取仿真人选择信息;
S32、根据仿真人选择信息从预设的AI虚拟仿真人库中获取并渲染对应的AI虚拟仿真人模型;
S33、播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
AI虚拟仿真人库存有多个虚拟形象模型,用户通过输入选择信息,调取对应的模型数据。运行模型数据将AI虚拟仿真人渲染在平面上,当语音播放时,同步驱动AI虚拟仿真人的动态画面,从而使AI虚拟仿真人更加逼真。
进一步作为可选的实施方式,还包括字幕生成步骤,具体为:
结合文字信息和预设的字幕生成器生成字幕信息。
进一步作为可选的实施方式,包括驱动AI虚拟仿真人肢体动作的步骤,具体为:
获取语音播放中的停顿信息,根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的肢体动作。
进一步作为可选的实施方式,包括驱动AI虚拟仿真人面部表情的步骤,具体为:
获取语音播放中的停顿信息,根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的面部表情。
所述停顿信息与文字信息中对应句号的位置对应,当AI虚拟仿真人读完一句话时,可切换一个肢体动作或者面部表情,从而使AI虚拟仿真人更加逼真。
如图3所示,本实施例还提供了一种基于AI的语音合成系统,包括:
文字获取模块,用于获取文字信息;
语音合成模块,用于结合文字信息和预设的人声参数生成具有特定声纹的语音信息;
虚拟驱动模块,用于播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
进一步作为可选的实施方式,所述文字获取模块用于获取语音输入信息,采用预设的转换模型将语音输入信息转换为文字信息。
本实施例的一种基于AI的语音合成系统,可执行本发明方法实施例所提供的一种基于AI的语音合成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供了一种基于AI的语音合成装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种基于AI的语音合成装置,可执行本发明方法实施例所提供的一种基于AI的语音合成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本实施例的一种存储介质,可执行本发明方法实施例所提供的一种基于AI的语音合成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (10)
1.一种基于AI的语音合成方法,其特征在于,包括以下步骤:
获取文字信息;
结合文字信息和预设的人声参数生成具有特定声纹的语音信息;
播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
2.根据权利要求1所述的一种基于AI的语音合成方法,其特征在于,所述获取文字信息这一步骤,具体为:
获取语音输入信息,采用预设的转换模型将语音输入信息转换为文字信息。
3.根据权利要求1所述的一种基于AI的语音合成方法,其特征在于,所述人声参数包括声纹参数、语气参数和语速参数,所述结合文字信息和预设的人声参数生成具有特定声纹的语音信息这一步骤,具体为:
获取声纹选择信息;
根据声纹选择信息从预设的语音库中获取对应的声纹参数、语气参数和语速参数;
结合文字信息、声纹参数、语气参数和语速参数生成具有特定声纹和语气的语音信息。
4.根据权利要求3所述的一种基于AI的语音合成方法,其特征在于,所述播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面这一步骤,具体为:
获取仿真人选择信息;
根据仿真人选择信息从预设的AI虚拟仿真人库中获取并渲染对应的AI虚拟仿真人模型;
播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
5.根据权利要求1所述的一种基于AI的语音合成方法,其特征在于,还包括字幕生成步骤,具体为:
结合文字信息和预设的字幕生成器生成字幕信息。
6.根据权利要求1所述的一种基于AI的语音合成方法,其特征在于,包括驱动AI虚拟仿真人肢体动作的步骤,具体为:
获取语音播放中的停顿信息,根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的肢体动作。
7.根据权利要求1所述的一种基于AI的语音合成方法,其特征在于,包括驱动AI虚拟仿真人面部表情的步骤,具体为:
获取语音播放中的停顿信息,根据停顿信息从预设姿态数据库中获得对应的数据渲染AI虚拟仿真人的面部表情。
8.一种基于AI的语音合成系统,其特征在于,包括:
文字获取模块,用于获取文字信息;
语音合成模块,用于结合文字信息和预设的人声参数生成具有特定声纹的语音信息;
虚拟驱动模块,用于播放语音信息,以及结合语音信息和预设的驱动引擎同步渲染AI虚拟仿真人的动态画面。
9.一种基于AI的语音合成装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述的一种基于AI的语音合成方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010376240.7A CN111739507A (zh) | 2020-05-07 | 2020-05-07 | 一种基于ai的语音合成方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010376240.7A CN111739507A (zh) | 2020-05-07 | 2020-05-07 | 一种基于ai的语音合成方法、系统、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111739507A true CN111739507A (zh) | 2020-10-02 |
Family
ID=72646981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010376240.7A Pending CN111739507A (zh) | 2020-05-07 | 2020-05-07 | 一种基于ai的语音合成方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739507A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112367134A (zh) * | 2020-11-09 | 2021-02-12 | 湖南芒果听见科技有限公司 | 一种基于云平台的应急广播系统及其运行方法 |
CN113112988A (zh) * | 2021-03-30 | 2021-07-13 | 上海红阵信息科技有限公司 | 一种基于ai处理的语音合成处理系统及方法 |
CN113259778A (zh) * | 2021-04-22 | 2021-08-13 | 清华珠三角研究院 | 将虚拟人物用于视频自动生产的方法、系统和存储介质 |
CN114519997A (zh) * | 2022-02-17 | 2022-05-20 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于个性化语音进行视频合成的处理方法及装置 |
WO2023207472A1 (zh) * | 2022-04-28 | 2023-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN107340859A (zh) * | 2017-06-14 | 2017-11-10 | 北京光年无限科技有限公司 | 多模态虚拟机器人的多模态交互方法和系统 |
CN107564510A (zh) * | 2017-08-23 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 一种语音虚拟角色管理方法、装置、服务器和存储介质 |
CN110428824A (zh) * | 2018-04-28 | 2019-11-08 | 深圳市冠旭电子股份有限公司 | 一种智能音箱的交互方法、装置及智能音箱 |
CN110853614A (zh) * | 2018-08-03 | 2020-02-28 | Tcl集团股份有限公司 | 虚拟对象口型驱动方法、装置及终端设备 |
CN110941954A (zh) * | 2019-12-04 | 2020-03-31 | 深圳追一科技有限公司 | 文本播报方法、装置、电子设备及存储介质 |
-
2020
- 2020-05-07 CN CN202010376240.7A patent/CN111739507A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN107340859A (zh) * | 2017-06-14 | 2017-11-10 | 北京光年无限科技有限公司 | 多模态虚拟机器人的多模态交互方法和系统 |
CN107564510A (zh) * | 2017-08-23 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 一种语音虚拟角色管理方法、装置、服务器和存储介质 |
CN110428824A (zh) * | 2018-04-28 | 2019-11-08 | 深圳市冠旭电子股份有限公司 | 一种智能音箱的交互方法、装置及智能音箱 |
CN110853614A (zh) * | 2018-08-03 | 2020-02-28 | Tcl集团股份有限公司 | 虚拟对象口型驱动方法、装置及终端设备 |
CN110941954A (zh) * | 2019-12-04 | 2020-03-31 | 深圳追一科技有限公司 | 文本播报方法、装置、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112367134A (zh) * | 2020-11-09 | 2021-02-12 | 湖南芒果听见科技有限公司 | 一种基于云平台的应急广播系统及其运行方法 |
CN113112988A (zh) * | 2021-03-30 | 2021-07-13 | 上海红阵信息科技有限公司 | 一种基于ai处理的语音合成处理系统及方法 |
CN113259778A (zh) * | 2021-04-22 | 2021-08-13 | 清华珠三角研究院 | 将虚拟人物用于视频自动生产的方法、系统和存储介质 |
CN114519997A (zh) * | 2022-02-17 | 2022-05-20 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于个性化语音进行视频合成的处理方法及装置 |
WO2023207472A1 (zh) * | 2022-04-28 | 2023-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739507A (zh) | 一种基于ai的语音合成方法、系统、装置和存储介质 | |
US11145100B2 (en) | Method and system for implementing three-dimensional facial modeling and visual speech synthesis | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
WO2022116977A1 (zh) | 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品 | |
US8988436B2 (en) | Training system and methods for dynamically injecting expression information into an animated facial mesh | |
CN107274464A (zh) | 一种实时交互3d动画的方法、装置和系统 | |
CN107274466A (zh) | 一种实时全身动作捕捉的方法、装置和系统 | |
GB2601162A (en) | Methods and systems for video translation | |
US7630897B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
CN111724457A (zh) | 基于ue4的真实感虚拟人多模态交互实现方法 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
CN111383642B (zh) | 基于神经网络的语音应答方法、存储介质以终端设备 | |
US7117155B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
JP4599606B2 (ja) | 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム | |
CN112328085A (zh) | 虚拟角色的控制方法、装置、存储介质与电子设备 | |
US11461948B2 (en) | System and method for voice driven lip syncing and head reenactment | |
CN113259778A (zh) | 将虚拟人物用于视频自动生产的方法、系统和存储介质 | |
CN111696182A (zh) | 一种虚拟主播生成系统、方法和存储介质 | |
US7392190B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
Leandro Parreira Duarte et al. | Coarticulation and speech synchronization in MPEG-4 based facial animation | |
Beskow et al. | Expressive Robot Performance Based on Facial Motion Capture. | |
Oyarzun et al. | High-realistic and flexible virtual presenters | |
KR20230095327A (ko) | 아바타 선택을 위한 사용자 인터랙션 방법 및 장치 | |
CN117456064A (zh) | 基于照片和短音频快速生成智能陪伴人的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |
|
RJ01 | Rejection of invention patent application after publication |