CN115442543B - 虚拟形象说话视频的合成方法、装置、设备及存储介质 - Google Patents
虚拟形象说话视频的合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115442543B CN115442543B CN202210907387.3A CN202210907387A CN115442543B CN 115442543 B CN115442543 B CN 115442543B CN 202210907387 A CN202210907387 A CN 202210907387A CN 115442543 B CN115442543 B CN 115442543B
- Authority
- CN
- China
- Prior art keywords
- video
- avatar
- speaking
- text
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 52
- 230000001360 synchronised effect Effects 0.000 claims abstract description 88
- 230000000007 visual effect Effects 0.000 claims abstract description 64
- 230000015572 biosynthetic process Effects 0.000 claims description 57
- 238000003786 synthesis reaction Methods 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012797 qualification Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 239000000463 material Substances 0.000 abstract description 28
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
- H04N2005/2726—Means for inserting a foreground image in a background image, i.e. inlay, outlay for simulating a person's appearance, e.g. hair style, glasses, clothes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种虚拟形象说话视频的合成方法、装置、设备及存储介质,用于在虚拟形象素材量少的情况下,提高视频合成精度。所述虚拟形象说话视频的合成方法包括:通过预先训练的虚拟形象语音生成模型对目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;通过预先训练的人物说话视频生成模型对目标文本音频和原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频;通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;基于鉴别结果确定目标虚拟形象说话视频。此外,本发明还涉及区块链技术,目标虚拟形象说话视频可存储于区块链节点中。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种虚拟形象说话视频的合成方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,虚拟形象的视频合成技术也随之发展,虚拟形象是指预设的人物形象,可以是现实中真实存在的人物形象,也可以是现实中不存在的人物形象。虚拟形象的视频合成技术能够应用于电影制作、机器对话的形象载体等。
虚拟形象的视频合成包括对虚拟形象的说话表情、口型以及动作等各方面的模拟合成,而在说话表情和口型方面,现有技术通常是需要大量的音频、视频、文本以及图像样本进行人工智能模型的训练,才能保证视频合成的精度和效率,这种方式在虚拟形象素材量少的情况下,存在合成精度低的技术问题。
发明内容
本发明提供了一种虚拟形象说话视频的合成方法、装置、设备及存储介质,用于在虚拟形象素材量少的情况下,提高视频合成精度。
本发明第一方面提供了一种虚拟形象说话视频的合成方法,包括:
接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对所述目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,所述人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频。
可选的,在本发明第一方面的第一种实现方式中,所述接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本,包括:
与待合成虚拟形象问答过程中,接收虚拟形象说话视频合成请求,所述虚拟形象说话视频合成请求包括提问语音;
对所述提问语音进行语音识别,得到提问文本信息,并将所述提问文本信息与预置问答库中的每个问题文本进行余弦相似度计算,得到每个问题文本对应的余弦相似度,所述预置问答库包括多个问题文本和每个问题文本对应的答案文本;
将余弦相似度最高的问题文本确定为目标问题文本,并将所述目标问题文本对应的答案文本确定为目标答案文本。
可选的,在本发明第一方面的第二种实现方式中,在所述接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本之前,所述的虚拟形象说话视频的合成方法还包括:
获取所述待合成虚拟形象的虚拟形象音频样本和所述虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,所述文本语音生成模型包括读取器和神经网络声码器;
对所述虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过所述读取器对所述虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;
通过所述神经网络声码器对所述文本声码特征信息进行音频生成,得到目标样本音频;
根据所述音频声码特征信息与所述文本声码特征信息之间的第一损失值和所述目标样本音频与所述虚拟形象音频样本之间的第二损失值,对所述文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型。
可选的,在本发明第一方面的第三种实现方式中,在所述接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本之前,所述的虚拟形象说话视频的合成方法还包括:
获取说话人脸视频样本,并初始化生成网络对抗网络模型,所述生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;
从所述说话人脸视频样本中提取随机参考帧和样本音频,并通过所述未训练的生成器对所述随机参考帧和所述样本音频进行说话视频生成,得到初始说话视频;
通过未训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频和所述说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;
基于所述第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;
通过预先训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过所述第二判别结果对所述未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;
基于所述预先训练的口型同步鉴别器和视觉质量鉴别器和所述预先训练的生成器,生成人物说话视频生成模型。
可选的,在本发明第一方面的第四种实现方式中,所述人物说话视频生成模型中的生成器包括身份编码器、音频编码器和人脸解码器,所述获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,包括:
获取所述待合成虚拟形象的原始图像;
通过所述身份编码器对所述原始图像进行编码,得到图像编码信息,并通过所述音频编码器对所述目标文本音频进行编码,得到音频编码信息;
通过所述人脸解码器对所述图像编码信息和所述音频编码信息进行人脸信息连接和生成,得到多帧人脸说话图像,并通过所述多帧人脸说话图像生成说话人脸视频,得到初始虚拟形象说话视频。
可选的,在本发明第一方面的第五种实现方式中,所述通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果,包括:
通过预先训练的人物说话视频生成模型中的口型同步鉴别器和视觉质量鉴别器对所述初始虚拟形象说话视频中的每帧虚拟形象说话图像进行口型同步性判别和视觉质量鉴别,得到鉴别结果,所述鉴别结果用于指示每帧虚拟形象说话图像的口型同步概率和图像质量等级。
可选的,在本发明第一方面的第六种实现方式中,所述基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频,包括:
分别判断所述鉴别结果中各帧虚拟形象说话图像的口型同步概率是否大于预置口型同步概率,得到口型同步概率大于预置口型同步概率的第一图像帧数,并分别判断所述鉴别结果中各帧虚拟形象说话图像的图像质量等级是否大于预置图像质量等级,得到图像质量等级大于预置图像质量等级的第二图像帧数;
若所述第一图像帧数和所述第二图像帧数满足预置合格条件,则将所述初始虚拟形象说话视频确定为目标虚拟形象说话视频。
本发明第二方面提供了一种虚拟形象说话视频的合成装置,包括:
语音接收模块,用于接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
文本生成模块,用于通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对所述目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
视频生成模块,用于获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,所述人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
结果鉴别模块,用于通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
视频确定模块,用于基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频。
可选的,在本发明第二方面的第一种实现方式中,所述语音接收模块具体用于:
与待合成虚拟形象问答过程中,接收虚拟形象说话视频合成请求,所述虚拟形象说话视频合成请求包括提问语音;
对所述提问语音进行语音识别,得到提问文本信息,并将所述提问文本信息与预置问答库中的每个问题文本进行余弦相似度计算,得到每个问题文本对应的余弦相似度,所述预置问答库包括多个问题文本和每个问题文本对应的答案文本;
将余弦相似度最高的问题文本确定为目标问题文本,并将所述目标问题文本对应的答案文本确定为目标答案文本。
可选的,在本发明第二方面的第二种实现方式中,所述的虚拟形象说话视频的合成装置还包括:
第一模型训练模块,用于获取所述待合成虚拟形象的虚拟形象音频样本和所述虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,所述文本语音生成模型包括读取器和神经网络声码器;对所述虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过所述读取器对所述虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;通过所述神经网络声码器对所述文本声码特征信息进行音频生成,得到目标样本音频;根据所述音频声码特征信息与所述文本声码特征信息之间的第一损失值和所述目标样本音频与所述虚拟形象音频样本之间的第二损失值,对所述文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型。
可选的,在本发明第二方面的第三种实现方式中,所述的虚拟形象说话视频的合成装置还包括:
第二模型训练模块,用于获取说话人脸视频样本,并初始化生成网络对抗网络模型,所述生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;从所述说话人脸视频样本中提取随机参考帧和样本音频,并通过所述未训练的生成器对所述随机参考帧和所述样本音频进行说话视频生成,得到初始说话视频;通过未训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频和所述说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;基于所述第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;通过预先训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过所述第二判别结果对所述未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;基于所述预先训练的口型同步鉴别器和视觉质量鉴别器和所述预先训练的生成器,生成人物说话视频生成模型。
可选的,在本发明第二方面的第四种实现方式中,所述人物说话视频生成模型中的生成器包括身份编码器、音频编码器和人脸解码器,所述视频生成模块具体用于:
获取所述待合成虚拟形象的原始图像;
通过所述身份编码器对所述原始图像进行编码,得到图像编码信息,并通过所述音频编码器对所述目标文本音频进行编码,得到音频编码信息;
通过所述人脸解码器对所述图像编码信息和所述音频编码信息进行人脸信息连接和生成,得到多帧人脸说话图像,并通过所述多帧人脸说话图像生成说话人脸视频,得到初始虚拟形象说话视频。
可选的,在本发明第二方面的第五种实现方式中,所述结果鉴别模块具体用于:
通过预先训练的人物说话视频生成模型中的口型同步鉴别器和视觉质量鉴别器对所述初始虚拟形象说话视频中的每帧虚拟形象说话图像进行口型同步性判别和视觉质量鉴别,得到鉴别结果,所述鉴别结果用于指示每帧虚拟形象说话图像的口型同步概率和图像质量等级。
可选的,在本发明第二方面的第六种实现方式中,所述视频确定模块具体用于:
分别判断所述鉴别结果中各帧虚拟形象说话图像的口型同步概率是否大于预置口型同步概率,得到口型同步概率大于预置口型同步概率的第一图像帧数,并分别判断所述鉴别结果中各帧虚拟形象说话图像的图像质量等级是否大于预置图像质量等级,得到图像质量等级大于预置图像质量等级的第二图像帧数;
若所述第一图像帧数和所述第二图像帧数满足预置合格条件,则将所述初始虚拟形象说话视频确定为目标虚拟形象说话视频。
本发明第三方面提供了一种虚拟形象说话视频的合成设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述虚拟形象说话视频的合成设备执行上述的虚拟形象说话视频的合成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的虚拟形象说话视频的合成方法。
本发明提供的技术方案中,接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对所述目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,所述人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频。本发明实施例中,在与待合成虚拟形象问答过程中,通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器进行文本语音生成,能够在虚拟形象音频素材量少的情况下,高精度地克隆虚拟形象的音色并生成特定的文本语音,再通过预先训练的人物说话视频生成模型中的生成器对少量的虚拟形象的原始图像进行说话人脸视频生成,能够在虚拟形象图像素材少的情况下,生成虚拟形象的动态说话视频,并且基于口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行鉴别,能够保证虚拟形象的说话视频口型同步性高且质量优,从而实现在虚拟形象素材量少的情况下,保证视频合成精度。
附图说明
图1为本发明实施例中虚拟形象说话视频的合成方法的一个实施例示意图;
图2为本发明实施例中虚拟形象说话视频的合成方法的另一个实施例示意图;
图3为本发明实施例中虚拟形象说话视频的合成装置的一个实施例示意图;
图4为本发明实施例中虚拟形象说话视频的合成装置的另一个实施例示意图;
图5为本发明实施例中虚拟形象说话视频的合成设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种虚拟形象说话视频的合成方法、装置、设备及存储介质,用于在虚拟形象素材量少的情况下,提高视频合成精度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可以理解的是,本发明的执行主体可以为虚拟形象说话视频的合成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中虚拟形象说话视频的合成方法的一个实施例包括:
101、接收虚拟形象说话视频合成请求,并通过虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
需要说明的是,作为机器对话形象载体的待合成虚拟形象,可以是客服虚拟形象、先人虚拟形象、名人虚拟形象等机器对话场景中的预设人物形象,不同机器对话场景对应不同的预置问答库,作为示例而非限定的是,本发明可应用于金融领域的家族信托,为家族知识库和答案书创建专属的答案库,并通过少量的先人形象素材生成形象的先人解答视频,使得枯燥的知识库和答案书更形象和生动。在用户与待合成虚拟形象问答过程中,服务器接收虚拟形象说话视频合成请求,并通过预置问答库对虚拟形象说话视频合成请求中的用户提问信息进行答案匹配,得到目标答案文本,使得与虚拟形象的互动性提高。
可以理解的是,预置问答库中包括多个问题文本和每个问题文本对应的答案文本,在一种实施方式中,预先对预置问答库中的每个问题文本进行向量化处理,得到每个问题文本对应的问题向量,当服务器接收到虚拟形象说话视频合成请求时,对虚拟形象说话视频合成请求中的提问信息进行相同维度的向量化处理,得到提问向量,并对提问向量与每个问题文本对应的问题向量进行相似度计算,得到每个问题文本对应的文本相似度,最后,服务器将文本相似度最高的问题文本确定为目标问题文本,并将目标问题文本对应的答案文本确定为目标答案文本。本实施方式能够通过答案文本匹配的效率,从而提高视频合成的效率。
102、通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
需要说明的是,为了在虚拟形象素材量较少的情况下高精度地合成视频,采用包含读取器和神经网络声码器的文本语音生成(text to speech,TTS)模型进行待合成虚拟形象的音色克隆和语音生成,由于读取器和神经网络声码器能够对文本或音素进行声码特征提取,使得无需通过大量的虚拟形象语音或文本素材即能够进行模型训练,生成待合成虚拟形象专属的虚拟形象语音生成模型,虚拟形象语音生成模型用于以待合成虚拟形象的音色说出目标答案文本的文字,从而达到待合成虚拟形象的音色克隆和语音生成的目的,并且满足虚拟形象素材量少的情况下,高精度地合成说话视频。
在一种实施方式中,虚拟形象语音生成模型中的读取器包括带注意力(attention)机制的编码器和解码器,其中,编码器为双向循环神经网络(bidirectionalrecurrent neural network,BRNN),解码器为循环神经网络(recurrent neural network,RNN),而神经网络声码器则为层次化循环神经网络(sample recurrent neural network,SampleRNN)的条件式扩展,在本实施方式中,服务器通过读取器中的编码器和解码器对目标答案文本进行待合成虚拟形象的声码器特征提取,得到目标文本声码特征信息,再通过神经网络声码器对目标文本声码特征信息进行音频生成,得到目标文本音频。本实施方式能够基于声码器声学特征进行文本语音生成,使得在虚拟形象素材量少的情况下,能够高精度地合成语音,从而提高说话视频合成的精度。
103、获取待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对目标文本音频和原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
需要说明的是,待合成虚拟形象的原始图像包括至少一张待合成虚拟形象的脸部图像,在通常情况下(原始图像的图像质量符合预置图像质量要求),仅通过单张待合成虚拟形象的脸部图像,即可通过预先训练的人物说话视频生成模型生成待合成虚拟形象的说话视频,使得服务器能够在虚拟形象素材量少的情况下,依然能够高精度地合成说话视频。在一种实施方式中,人物说话视频生成模型为对抗生成网络(generative adversarialnetwork,GAN)模型,包括生成器(Generator)和鉴别器(Discriminator),模型的训练过程处于一种生成器与鉴别器的博弈对抗状态中,其中,生成器用于对模型输入的图像和音频进行说话视频生成,鉴别器用于鉴别输入的是生成器生成的视频还是真实视频(未经生成器处理的视频),在一种实施方式中,若通过预先训练的人物说话视频生成模型中的生成器生成的每个说话视频,鉴别器的鉴别结果均为真实说话视频,则说明生成器的生成结果接近于真实结果,人物说话视频生成模型能够取得高精度的视频生成结果,模型训练完成。
在一种实施方式中,预先训练的人物说话视频生成模型中的生成器可以为任意能够通过图像和音频生成说话视频的模型,如包括卷积层的模型、包括反卷积层的模型、或包括全连接层的模型等神经网络模型,具体此处不做限制。
在一种实施方式中,为了提高待合成虚拟形象的说话视频中目标文本音频与视频帧口型动画的吻合度,以及说话视频的质量,人物说话视频生成模型设置有两个鉴别器,包括口型同步鉴别器和视觉质量鉴别器,用于对生成器生成的说话视频进行口型同步性鉴别和视频质量鉴别,使得最后生成的虚拟形象说话视频同时具备音画同步精度和视频质量。
104、通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
可以理解的是,通过预先训练的人物说话视频生成模型中的生成器对目标文本音频和原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频之后,服务器将初始虚拟形象说话视频输入口型同步鉴别器和视觉质量鉴别器,并通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步性和视频质量的真实视频分类,得到鉴别结果,鉴别结果用于指示初始虚拟形象说话视频是否为真实视频,其中,鉴别结果包括口型同步鉴别结果和视觉质量鉴别结果,口型同步鉴别结果用于指示初始虚拟形象说话视频在口型同步程度方面是否为真实视频,视觉质量鉴别结果用于指示初始虚拟形象说话视频在视频质量方面是否为真实视频。本实施方式能够通过口型同步鉴别器和视觉质量鉴别器提高生成器的生成精度和质量。
在一种实施方式中,口型同步鉴别器和视觉质量鉴别器可以为任意的判别器结构,如卷积网络结构,或全连接网络结构等神经网络结构,口型同步鉴别器和视觉质量鉴别器可以与生成器分离,也可以与生成结合,具体此处不做限定。
105、基于鉴别结果确定初始虚拟形象说话视频对应的目标虚拟形象说话视频。
需要说明的是,通过预先训练的人物说话视频生成模型中口型同步鉴别器和视觉质量鉴别器进行鉴别之后的初始虚拟形象说话视频通常为接近真实视频的输出结果,因此,若鉴别结果指示初始虚拟形象说话视频为真实视频,则服务器将初始虚拟形象说话视频确定为目标虚拟形象说话视频即可,而在一种实施方式中,若鉴别结果指示初始虚拟形象说话视频不为真实视频,则服务器对待合成虚拟形象的原始图像进行图像质量的预处理,得到目标图像,并重复步骤103-步骤104,以通过预先训练的人物说话视频生成模型中的生成器对目标文本音频和目标图像进行说话人脸视频生成,得到初始虚拟形象说话视频,并基于初始虚拟形象说话视频确定目标虚拟形象说话视频。本实施方式能够通过提升原始图像质量的方式提高视频合成的精度,使得保证在虚拟形象素材量少的情况下,视频合成精度。
进一步地,服务器将目标虚拟形象说话视频存储于区块链数据库中,具体此处不做限定。
本发明实施例中,在与待合成虚拟形象问答过程中,通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器进行文本语音生成,能够在虚拟形象音频素材量少的情况下,高精度地克隆虚拟形象的音色并生成特定的文本语音,再通过预先训练的人物说话视频生成模型中的生成器对少量的虚拟形象的原始图像进行说话人脸视频生成,能够在虚拟形象图像素材少的情况下,生成虚拟形象的动态说话视频,并且基于口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行鉴别,能够保证虚拟形象的说话视频口型同步性高且质量优,从而实现在虚拟形象素材量少的情况下,保证视频合成精度。
请参阅图2,本发明实施例中虚拟形象说话视频的合成方法的另一个实施例包括:
201、接收虚拟形象说话视频合成请求,并通过虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
具体的,步骤201包括:与待合成虚拟形象问答过程中,接收虚拟形象说话视频合成请求,虚拟形象说话视频合成请求包括提问语音;对提问语音进行语音识别,得到提问文本信息,并将提问文本信息与预置问答库中的每个问题文本进行余弦相似度计算,得到每个问题文本对应的余弦相似度,预置问答库包括多个问题文本和每个问题文本对应的答案文本;将余弦相似度最高的问题文本确定为目标问题文本,并将目标问题文本对应的答案文本确定为目标答案文本。
本实施方式中,为了提高用户提问,机器应答的效率,服务器在用户与待合成虚拟形象问答过程中,接收携带提问语音的虚拟形象说话视频合成请求,并对提问语音进行语音识别,得到提问文本信息,再通过预置的余弦相似度算法计算提问文本信息与预置问答库中每个问题文本之间的余弦相似度,得到每个问题文本对应的余弦相似度,最后将余弦相似度最高的目标问题文本对应的答案文本确定为目标答案文本。本实施方式能够通过余弦相似度快速地搜索提问答案,从而提高视频合成的效率。
进一步的,步骤201之前包括:获取待合成虚拟形象的虚拟形象音频样本和虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,文本语音生成模型包括读取器和神经网络声码器;对虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过读取器对虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;通过神经网络声码器对文本声码特征信息进行音频生成,得到目标样本音频;根据音频声码特征信息与文本声码特征信息之间的第一损失值和目标样本音频与虚拟形象音频样本之间的第二损失值,对文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型。
本实施方式中,为了实现在虚拟形象的音频素材量少的情况下对虚拟形象的音色进行克隆,在虚拟形象语音生成模型的训练过程中,服务器首先对虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过读取器对虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息,其中,音频声码特征信息和文本声码特征信息为基于相同神经网络声码器的特征信息,如梅尔谱图的生成对抗网络(Melgenerative adversarial network,MelGAN)声码器、world全链路声码器,在一种实施方式中,服务器对虚拟形象音频样本进行world全链路声码器特征提取,得到音频声码特征信息,并通过读取器对虚拟形象音频样本对应的文本信息进行world全链路声码器特征提取,得到文本声码特征信息。相比于传统的声码器仅仅将声学特征(如梅尔谱图)转换为声音波形,world全链路声码器更注重声学特征的提取过程,更关注整个声码特征提取链路的运作,计算复杂度更低,且无需大量的训练样本进行训练,即插即用,使得在虚拟形象的音频素材量少的情况下,依然能够保持高精度和高性能的视频合成。
本实施方式中,在虚拟形象语音生成模型的训练过程中,得到音频声码特征信息和文本声码特征信息之后,服务器将文本声码特征信息输入神经网络声码器中进行音频生成,输出目标样本音频,再计算通过标准声码器生成音频声码特征信息与通过文本语音生成模型中的读取器生成的文本声码器特征信息之间的平均绝对误差,得到第一损失值,并计算原始的虚拟形象音频样本与通过文本语音生成模型生成的目标样本音频之间的平均绝对误差,得到第二损失值,采用梯度下降算法,对文本语音生成模型的权重值进行多轮迭代更新,以最小化第一损失值和第二损失值,当第一损失值和第二损失值均小于预置损失值阈值时,生成虚拟形象语音生成模型。本实施方式能够实现在虚拟形象的音频素材量少的情况下,高精度地生成虚拟形象的语音,从而提高虚拟形象视频合成的准确度。
进一步的,步骤201之前,还包括:获取说话人脸视频样本,并初始化生成网络对抗网络模型,生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;从说话人脸视频样本中提取随机参考帧和样本音频,并通过未训练的生成器对随机参考帧和样本音频进行说话视频生成,得到初始说话视频;通过未训练的口型同步鉴别器和视觉质量鉴别器对初始说话视频和说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;基于第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;通过预先训练的口型同步鉴别器和视觉质量鉴别器对初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过第二判别结果对未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;基于预先训练的口型同步鉴别器和视觉质量鉴别器和预先训练的生成器,生成人物说话视频生成模型。
本实施方式中,人物说话视频生成模型的训练过程是生成器与口型同步鉴别器和视觉质量鉴别器进行联合训练的过程,服务器首先获取说话人脸视频样本,再从说话人脸视频样本中随机提取一帧图像作为随机参考帧,并提取说话人脸视频样本中的音频作为样本音频,在生成器未经训练或未训练完成的情况下,通过生成器对随机参考帧和样本音频进行说话视频生成,得到初始说话视频,接着,在口型同步鉴别器和视觉质量鉴别器为经训练或未训练完成的情况下,通过口型同步鉴别器和视觉质量鉴别器对初始说话视频和说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果,第一判别结果用于指示预置目标损失函数值是否小于预置损失函数阈值,其中,预置目标损失函数值包括视觉质量损失值和口型同步损失值,若第一判别结果指示预置目标损失函数值大于预置损失函数阈值,则服务器对未训练或未训练完成的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,直至第一判别结果指示预置目标损失函数值小于预置损失函数阈值,得到预先训练的或训练完成的口型同步鉴别器和视觉质量鉴别器。本实施方式能够在生成器未经训练或未训练完成的情况下,预先训练口型同步鉴别器和视觉质量鉴别器,再通过训练完成的口型同步鉴别器和视觉质量鉴别器对生成器进行反向训练,以达到高精度联合训练的效果,从而提高视频合成的效率。
本实施方式中,获得预先训练或训练完成的口型同步鉴别器和视觉质量鉴别器之后,服务器再通过预先训练或训练完成的口型同步鉴别器和视觉质量鉴别器对初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,第二判别结果用于指示初始说话视频与说话人脸视频样本之间的损失值是否小于预置结果损失阈值,若第二判别结果指示初始说话视频与说话人脸视频样本之间的损失值大于预置结果损失阈值,则服务器对未训练完成的生成器进行权重值的迭代更新,并重复从说话人脸视频样本中提取随机参考帧和样本音频,并通过未训练完成的生成器对随机参考帧和样本音频进行说话视频生成,得到初始说话视频,以及通过预先训练的口型同步鉴别器和视觉质量鉴别器对初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果的步骤,直至第二判别结果用于指示初始说话视频与说话人脸视频样本之间的损失值小于预置结果损失阈值,得到预先训练或训练完成的生成器。最后,服务器结合预先训练的口型同步鉴别器和视觉质量鉴别器和预先训练的生成器,得到人物说话视频生成模型。本实施方式能够基于预先训练的鉴别器对生成器进行反向训练,使得视频生成的精度提高。
202、通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
该步骤202的执行过程与步骤102的执行过程相似,具体此处不再赘述。
203、获取待合成虚拟形象的原始图像,人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器,人物说话视频生成模型中的生成器包括身份编码器、音频编码器和人脸解码器;
本实施方式中,为了提高人物说话视频生成模型中生成器的精度,通过在生成器中设置身份编码器、音频编码器和人脸解码器进行虚拟形象的说话视频生成,其中,身份编码器包括多个深度卷积网络,音频编码器包括二维卷积堆栈,人脸解码器包括二维卷积堆栈和上采样反卷积网络。
204、通过身份编码器对原始图像进行编码,得到图像编码信息,并通过音频编码器对目标文本音频进行编码,得到音频编码信息;
本实施方式中,服务器通过身份编码器中的多个深度卷积网络对原始图像进行图像编码,得到图像编码信息,再通过音频编码器中的二维卷积堆栈对目标文本音频进行音频编码,得到音频编码信息,其中,图像编码信息用于指示原始图像的图像特征,音频编码信息用于指示目标文本音频的音频特征,具体此处不做限定。本实施方式能够通过神经网络的卷积结构快速地提取图像和音频信息,从而提高视频合成的效率。
205、通过人脸解码器对图像编码信息和音频编码信息进行人脸信息连接和生成,得到多帧人脸说话图像,并通过多帧人脸说话图像生成说话人脸视频,得到初始虚拟形象说话视频;
本实施方式中,人脸解码器用于对图像编码信息和音频编码信息进行解码和人脸信息连接与生成,具体的,服务器通过人脸解码器中的二维卷积堆栈和上采样反卷积网络对图像编码信息和音频编码信息进行人脸关联解码以及人脸信息的连接与生成,得到多帧人脸说话图像,最后,服务器将多帧人脸说话图像合成为视频,得到初始虚拟形象说话视频。本实施方式能够基于人脸解码器高效地对人脸信息进行解码并生成不同音频特征对应的人脸说话图像,从而高效地合成视频。
206、通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
具体的,步骤206包括:通过预先训练的人物说话视频生成模型中的口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频中的每帧虚拟形象说话图像进行口型同步性判别和视觉质量鉴别,得到鉴别结果,鉴别结果用于指示每帧虚拟形象说话图像的口型同步概率和图像质量等级。
本实施方式中,服务器基于预先训练的人物说话视频生成模型中的口型同步鉴别器和视觉质量鉴别器,能够对预先训练的人物说话视频生成模型中生成器生成的初始虚拟形象说话视频进行逐帧的口型同步性判别和视觉质量鉴别,得到鉴别结果,鉴别结果用于指示每帧虚拟形象说话图像的口型同步概率和图像质量等级,例如,其中初始虚拟形象说话视频中的其中一帧虚拟形象说话图像的口型同步概率为51%,图像质量等级为1,具体此处不做限定。
207、基于鉴别结果确定初始虚拟形象说话视频对应的目标虚拟形象说话视频。
具体的,步骤207包括:分别判断鉴别结果中各帧虚拟形象说话图像的口型同步概率是否大于预置口型同步概率,得到口型同步概率大于预置口型同步概率的第一图像帧数,并分别判断鉴别结果中各帧虚拟形象说话图像的图像质量等级是否大于预置图像质量等级,得到图像质量等级大于预置图像质量等级的第二图像帧数;若第一图像帧数和第二图像帧数满足预置合格条件,则将初始虚拟形象说话视频确定为目标虚拟形象说话视频。
本实施方式中,为了通过鉴别结果判断初始虚拟形象说话视频是否符合预期,服务器分别判断鉴别结果中各帧虚拟形象说话图像的口型同步概率是否大于预置口型同步概率,并分别判断鉴别结果中各帧虚拟形象说话图像的图像质量等级是否大于预置图像质量等级,得到口型同步概率大于预置口型同步概率的第一图像帧数,和图像质量等级大于预置图像质量等级的第二图像帧数,再判断第一图像帧数和第二图像帧数是否满足预置合格条件,若第一图像帧数和第二图像帧数满足预置合格条件,则说明初始虚拟形象说话视频符合预期,服务器将初始虚拟形象说话视频确定为目标虚拟形象说话视频,若第一图像帧数和第二图像帧数不满足预置合格条件,则服务器对原始图像进行图像精度提高,并通过提高图像精度之后的原始图像重复进行虚拟形象的说话视频生成,直至第一图像帧数和第二图像帧数满足预置合格条件。例如,预置合格条件指示第一图像帧数占总图像帧数的比例大于预置第一比例阈值,且第二图像帧数占总图像帧数的比例大于预置第二比例阈值时,判定第一图像帧数和第二图像帧数满足预置合格条件,否则第一图像帧数和第二图像帧数不满足预置合格条件,或者,预置合格条件指示第一图像帧数在预置第一帧数范围内,且第二图像帧数在预置第二帧数范围内时,判定第一图像帧数和第二图像帧数满足预置合格条件,否则第一图像帧数和第二图像帧数不满足预置合格条件,具体此处不做限定。
本发明实施例中,在与待合成虚拟形象问答过程中,通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器进行文本语音生成,能够在虚拟形象音频素材量少的情况下,高精度地克隆虚拟形象的音色并生成特定的文本语音,再通过预先训练的人物说话视频生成模型中的生成器中的身份编码器、音频编码器和人脸解码器对少量的虚拟形象的原始图像进行说话人脸视频生成,能够在虚拟形象图像素材少的情况下,生成虚拟形象的动态说话视频,并且基于口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行鉴别,能够保证虚拟形象的说话视频口型同步性高且质量优,从而实现在虚拟形象素材量少的情况下,保证视频合成精度。
上面对本发明实施例中虚拟形象说话视频的合成方法进行了描述,下面对本发明实施例中虚拟形象说话视频的合成装置进行描述,请参阅图3,本发明实施例中虚拟形象说话视频的合成装置一个实施例包括:
语音接收模块301,用于接收虚拟形象说话视频合成请求,并通过虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
文本生成模块302,用于通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
视频生成模块303,用于获取待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对目标文本音频和原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
结果鉴别模块304,用于通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
视频确定模块305,用于基于鉴别结果确定初始虚拟形象说话视频对应的目标虚拟形象说话视频。
进一步地,将目标虚拟形象说话视频存储于区块链数据库中,具体此处不做限定。
本发明实施例中,在与待合成虚拟形象问答过程中,通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器进行文本语音生成,能够在虚拟形象音频素材量少的情况下,高精度地克隆虚拟形象的音色并生成特定的文本语音,再通过预先训练的人物说话视频生成模型中的生成器对少量的虚拟形象的原始图像进行说话人脸视频生成,能够在虚拟形象图像素材少的情况下,生成虚拟形象的动态说话视频,并且基于口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行鉴别,能够保证虚拟形象的说话视频口型同步性高且质量优,从而实现在虚拟形象素材量少的情况下,保证视频合成精度。
请参阅图4,本发明实施例中虚拟形象说话视频的合成装置的另一个实施例包括:
语音接收模块301,用于接收虚拟形象说话视频合成请求,并通过虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
文本生成模块302,用于通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
视频生成模块303,用于获取待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对目标文本音频和原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
结果鉴别模块304,用于通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
视频确定模块305,用于基于鉴别结果确定初始虚拟形象说话视频对应的目标虚拟形象说话视频。
可选的,语音接收模块301具体用于:
与待合成虚拟形象问答过程中,接收虚拟形象说话视频合成请求,虚拟形象说话视频合成请求包括提问语音;
对提问语音进行语音识别,得到提问文本信息,并将提问文本信息与预置问答库中的每个问题文本进行余弦相似度计算,得到每个问题文本对应的余弦相似度,预置问答库包括多个问题文本和每个问题文本对应的答案文本;
将余弦相似度最高的问题文本确定为目标问题文本,并将目标问题文本对应的答案文本确定为目标答案文本。
可选的,虚拟形象说话视频的合成装置还包括:
第一模型训练模块306,用于获取待合成虚拟形象的虚拟形象音频样本和虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,文本语音生成模型包括读取器和神经网络声码器;对虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过读取器对虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;通过神经网络声码器对文本声码特征信息进行音频生成,得到目标样本音频;根据音频声码特征信息与文本声码特征信息之间的第一损失值和目标样本音频与虚拟形象音频样本之间的第二损失值,对文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型。
可选的,虚拟形象说话视频的合成装置还包括:
第二模型训练模块307,用于获取说话人脸视频样本,并初始化生成网络对抗网络模型,生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;从说话人脸视频样本中提取随机参考帧和样本音频,并通过未训练的生成器对随机参考帧和样本音频进行说话视频生成,得到初始说话视频;通过未训练的口型同步鉴别器和视觉质量鉴别器对初始说话视频和说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;基于第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;通过预先训练的口型同步鉴别器和视觉质量鉴别器对初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过第二判别结果对未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;基于预先训练的口型同步鉴别器和视觉质量鉴别器和预先训练的生成器,生成人物说话视频生成模型。
可选的,人物说话视频生成模型中的生成器包括身份编码器、音频编码器和人脸解码器,视频生成模块303具体用于:
获取待合成虚拟形象的原始图像;
通过身份编码器对原始图像进行编码,得到图像编码信息,并通过音频编码器对目标文本音频进行编码,得到音频编码信息;
通过人脸解码器对图像编码信息和音频编码信息进行人脸信息连接和生成,得到多帧人脸说话图像,并通过多帧人脸说话图像生成说话人脸视频,得到初始虚拟形象说话视频。
可选的,结果鉴别模块304具体用于:
通过预先训练的人物说话视频生成模型中的口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频中的每帧虚拟形象说话图像进行口型同步性判别和视觉质量鉴别,得到鉴别结果,鉴别结果用于指示每帧虚拟形象说话图像的口型同步概率和图像质量等级。
可选的,视频确定模块305具体用于:
分别判断鉴别结果中各帧虚拟形象说话图像的口型同步概率是否大于预置口型同步概率,得到口型同步概率大于预置口型同步概率的第一图像帧数,并分别判断鉴别结果中各帧虚拟形象说话图像的图像质量等级是否大于预置图像质量等级,得到图像质量等级大于预置图像质量等级的第二图像帧数;
若第一图像帧数和第二图像帧数满足预置合格条件,则将初始虚拟形象说话视频确定为目标虚拟形象说话视频。
本发明实施例中,在与待合成虚拟形象问答过程中,通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器进行文本语音生成,能够在虚拟形象音频素材量少的情况下,高精度地克隆虚拟形象的音色并生成特定的文本语音,再通过预先训练的人物说话视频生成模型中的生成器中的身份编码器、音频编码器和人脸解码器对少量的虚拟形象的原始图像进行说话人脸视频生成,能够在虚拟形象图像素材少的情况下,生成虚拟形象的动态说话视频,并且基于口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行鉴别,能够保证虚拟形象的说话视频口型同步性高且质量优,从而实现在虚拟形象素材量少的情况下,保证视频合成精度。
上面图3和图4从模块化功能实体的角度对本发明实施例中的虚拟形象说话视频的合成装置进行详细描述,下面从硬件处理的角度对本发明实施例中虚拟形象说话视频的合成设备进行详细描述。
图5是本发明实施例提供的一种虚拟形象说话视频的合成设备的结构示意图,该虚拟形象说话视频的合成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对虚拟形象说话视频的合成设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在虚拟形象说话视频的合成设备500上执行存储介质530中的一系列计算机程序操作。
虚拟形象说话视频的合成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的虚拟形象说话视频的合成设备结构并不构成对虚拟形象说话视频的合成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读计算机程序,计算机可读计算机程序被处理器执行时,使得处理器执行上述各实施例中的所述虚拟形象说话视频的合成方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行所述虚拟形象说话视频的合成方法的步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种虚拟形象说话视频的合成方法,其特征在于,所述虚拟形象说话视频的合成方法包括:
获取待合成虚拟形象的虚拟形象音频样本和所述虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,所述文本语音生成模型包括读取器和神经网络声码器;
对所述虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过所述读取器对所述虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;
通过所述神经网络声码器对所述文本声码特征信息进行音频生成,得到目标样本音频;
根据所述音频声码特征信息与所述文本声码特征信息之间的第一损失值和所述目标样本音频与所述虚拟形象音频样本之间的第二损失值,对所述文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型;
获取说话人脸视频样本,并初始化生成网络对抗网络模型,所述生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;
从所述说话人脸视频样本中提取随机参考帧和样本音频,并通过所述未训练的生成器对所述随机参考帧和所述样本音频进行说话视频生成,得到初始说话视频;
通过未训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频和所述说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;
基于所述第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;
通过预先训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过所述第二判别结果对所述未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;
基于所述预先训练的口型同步鉴别器和视觉质量鉴别器和所述预先训练的生成器,生成人物说话视频生成模型;
接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对所述目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,所述人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频。
2.根据权利要求1所述的虚拟形象说话视频的合成方法,其特征在于,所述接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本,包括:
与待合成虚拟形象问答过程中,接收虚拟形象说话视频合成请求,所述虚拟形象说话视频合成请求包括提问语音;
对所述提问语音进行语音识别,得到提问文本信息,并将所述提问文本信息与预置问答库中的每个问题文本进行余弦相似度计算,得到每个问题文本对应的余弦相似度,所述预置问答库包括多个问题文本和每个问题文本对应的答案文本;
将余弦相似度最高的问题文本确定为目标问题文本,并将所述目标问题文本对应的答案文本确定为目标答案文本。
3.根据权利要求1所述的虚拟形象说话视频的合成方法,其特征在于,所述人物说话视频生成模型中的生成器包括身份编码器、音频编码器和人脸解码器,所述获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,包括:
获取所述待合成虚拟形象的原始图像;
通过所述身份编码器对所述原始图像进行编码,得到图像编码信息,并通过所述音频编码器对所述目标文本音频进行编码,得到音频编码信息;
通过所述人脸解码器对所述图像编码信息和所述音频编码信息进行人脸信息连接和生成,得到多帧人脸说话图像,并通过所述多帧人脸说话图像生成说话人脸视频,得到初始虚拟形象说话视频。
4.根据权利要求1所述的虚拟形象说话视频的合成方法,其特征在于,所述通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果,包括:
通过预先训练的人物说话视频生成模型中的口型同步鉴别器和视觉质量鉴别器对所述初始虚拟形象说话视频中的每帧虚拟形象说话图像进行口型同步性判别和视觉质量鉴别,得到鉴别结果,所述鉴别结果用于指示每帧虚拟形象说话图像的口型同步概率和图像质量等级。
5.根据权利要求4所述的虚拟形象说话视频的合成方法,其特征在于,所述基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频,包括:
分别判断所述鉴别结果中各帧虚拟形象说话图像的口型同步概率是否大于预置口型同步概率,得到口型同步概率大于预置口型同步概率的第一图像帧数,并分别判断所述鉴别结果中各帧虚拟形象说话图像的图像质量等级是否大于预置图像质量等级,得到图像质量等级大于预置图像质量等级的第二图像帧数;
若所述第一图像帧数和所述第二图像帧数满足预置合格条件,则将所述初始虚拟形象说话视频确定为目标虚拟形象说话视频。
6.一种虚拟形象说话视频的合成装置,其特征在于,所述虚拟形象说话视频的合成装置包括:
第一模型训练模块,用于获取待合成虚拟形象的虚拟形象音频样本和所述虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,所述文本语音生成模型包括读取器和神经网络声码器;对所述虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过所述读取器对所述虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;通过所述神经网络声码器对所述文本声码特征信息进行音频生成,得到目标样本音频;根据所述音频声码特征信息与所述文本声码特征信息之间的第一损失值和所述目标样本音频与所述虚拟形象音频样本之间的第二损失值,对所述文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型;
第二模型训练模块,用于获取说话人脸视频样本,并初始化生成网络对抗网络模型,所述生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;从所述说话人脸视频样本中提取随机参考帧和样本音频,并通过所述未训练的生成器对所述随机参考帧和所述样本音频进行说话视频生成,得到初始说话视频;通过未训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频和所述说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;基于所述第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;通过预先训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过所述第二判别结果对所述未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;基于所述预先训练的口型同步鉴别器和视觉质量鉴别器和所述预先训练的生成器,生成人物说话视频生成模型;
语音接收模块,用于接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;
文本生成模块,用于通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对所述目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;
视频生成模块,用于获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,所述人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;
结果鉴别模块,用于通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;
视频确定模块,用于基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频。
7.一种虚拟形象说话视频的合成设备,其特征在于,所述虚拟形象说话视频的合成设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述虚拟形象说话视频的合成设备执行如权利要求1-5中任意一项所述的虚拟形象说话视频的合成方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述虚拟形象说话视频的合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210907387.3A CN115442543B (zh) | 2022-07-29 | 2022-07-29 | 虚拟形象说话视频的合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210907387.3A CN115442543B (zh) | 2022-07-29 | 2022-07-29 | 虚拟形象说话视频的合成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115442543A CN115442543A (zh) | 2022-12-06 |
CN115442543B true CN115442543B (zh) | 2024-06-28 |
Family
ID=84242372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210907387.3A Active CN115442543B (zh) | 2022-07-29 | 2022-07-29 | 虚拟形象说话视频的合成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115442543B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074577B (zh) * | 2022-12-23 | 2023-09-26 | 北京生数科技有限公司 | 视频处理方法、相关装置及存储介质 |
CN115661005B (zh) * | 2022-12-26 | 2023-05-12 | 成都索贝数码科技股份有限公司 | 一种定制数字人的生成方法及设备 |
CN116320222B (zh) * | 2023-03-24 | 2024-01-30 | 北京生数科技有限公司 | 音频处理方法、装置及存储介质 |
CN116112762A (zh) * | 2023-04-17 | 2023-05-12 | 武汉理工大学三亚科教创新园 | 一种基于元学习的补充数据下的说话视频生成方法 |
CN116664731B (zh) * | 2023-06-21 | 2024-03-29 | 华院计算技术(上海)股份有限公司 | 人脸动画生成方法及装置、计算机可读存储介质、终端 |
CN116665695B (zh) * | 2023-07-28 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687258A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置和计算机存储介质 |
CN113362801A (zh) * | 2021-06-10 | 2021-09-07 | 携程旅游信息技术(上海)有限公司 | 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192161B (zh) * | 2021-04-22 | 2022-10-18 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
-
2022
- 2022-07-29 CN CN202210907387.3A patent/CN115442543B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687258A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置和计算机存储介质 |
CN113362801A (zh) * | 2021-06-10 | 2021-09-07 | 携程旅游信息技术(上海)有限公司 | 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115442543A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115442543B (zh) | 虚拟形象说话视频的合成方法、装置、设备及存储介质 | |
CN115116109B (zh) | 虚拟人物说话视频的合成方法、装置、设备及存储介质 | |
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
CN111914076B (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN112100337B (zh) | 交互对话中的情绪识别方法及装置 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN114330312A (zh) | 标题文本处理方法、装置、存储介质和程序 | |
CN112466316A (zh) | 一种基于生成对抗网络的零样本语音转换系统 | |
CN111275784A (zh) | 生成图像的方法和装置 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN114222179B (zh) | 虚拟形象视频合成方法及设备 | |
CN113178200B (zh) | 语音转换方法、装置、服务器及存储介质 | |
CN116363563A (zh) | 基于图像和文本的视频生成方法和装置 | |
CN115690276A (zh) | 虚拟形象的视频生成方法、装置、计算机设备和存储介质 | |
CN116895273B (zh) | 合成音频的输出方法及装置、存储介质、电子装置 | |
CN113314104B (zh) | 交互对象驱动和音素处理方法、装置、设备以及存储介质 | |
CN117152308B (zh) | 一种虚拟人动作表情优化方法与系统 | |
CN117234369B (zh) | 数字人交互方法及系统、计算机可读存储介质、数字人设备 | |
CN112580669A (zh) | 一种对语音信息的训练方法及装置 | |
CN117440114A (zh) | 一种虚拟形象视频生成方法、装置、设备及介质 | |
CN116668611A (zh) | 一种虚拟数字人唇形同步方法及系统 | |
CN116310004A (zh) | 虚拟人授课动画生成方法、装置、计算机设备和存储介质 | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 | |
CN115278297B (zh) | 基于驱动视频的数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |