CN114513678A - 面部信息的生成方法及装置 - Google Patents
面部信息的生成方法及装置 Download PDFInfo
- Publication number
- CN114513678A CN114513678A CN202011281673.0A CN202011281673A CN114513678A CN 114513678 A CN114513678 A CN 114513678A CN 202011281673 A CN202011281673 A CN 202011281673A CN 114513678 A CN114513678 A CN 114513678A
- Authority
- CN
- China
- Prior art keywords
- action
- audio information
- sequence
- mouth
- broadcasting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 258
- 230000009471 action Effects 0.000 claims abstract description 177
- 230000008569 process Effects 0.000 claims abstract description 141
- 230000001815 facial effect Effects 0.000 claims abstract description 133
- 230000002996 emotional effect Effects 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 88
- 238000003062 neural network model Methods 0.000 claims abstract description 42
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 36
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 36
- 230000008451 emotion Effects 0.000 claims description 104
- 230000033001 locomotion Effects 0.000 claims description 74
- 230000015654 memory Effects 0.000 claims description 34
- 230000008859 change Effects 0.000 claims description 21
- 230000002452 interceptive effect Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000005012 migration Effects 0.000 description 11
- 238000013508 migration Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 230000004397 blinking Effects 0.000 description 4
- 238000005034 decoration Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种面部信息的生成方法及装置。其中,该方法包括:获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列;将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数。本发明解决了现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
Description
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种面部信息的生成方法及装置。
背景技术
在直播的虚拟主播场景中,如何根据语音播报,通过深度学习的方法为虚拟主播生成准确且生动自然的面部动作,是提升虚拟主播表现力的关键问题。虚拟主播的面部动作可以拆解为两个部分,一方面是嘴型动作,需要跟随虚拟主播在播报商品介绍中发不同的音节时做出和声音匹配的嘴型,例如,发‘啊’的音时嘴部双唇放松、下颌张大,而发‘唔’的音时需要嘴部双唇收缩;另一方面是面部表情,需要根据虚拟主播的播报内容做出合适的面部表情动作,例如在说出“推荐”、“特别好”等短语时面部需要做出高兴的表情,而对于“困扰”、“惨不忍睹”等短语时则需要做出悲伤的表情,通过面部的表情变化能够让虚拟主播的播报更加自然生动。然而现有的语音驱动面部动作的方法,针对嘴型动作的生成,往往通过声音直接预测面部动作,缺少其他辅助信息(如人脸关键点、音素标注)的补充约束,导致生成的嘴型动作不够精准;另外,针对面部表情的生成,往往在一个完整的声音片段中只能做出同一类型的表情动作,而难以根据播报文本中的不同情感关键词做出动态变化的表情动作。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种面部信息的生成方法及装置,以至少解决现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种面部信息的生成方法,包括:获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
可选的,基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
可选的,所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
可选的,获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
可选的,在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:获取所述播报文本;采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
可选的,所述方法还包括:解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
可选的,将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
根据本发明实施例的另一方面,还提供了一种面部信息的生成方法,包括:在交互界面上显示播报音频信息的虚拟主播,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;在交互界面上展示所述虚拟主播在播报过程中的面部动作,其中,所述面部动作由所述虚拟主播嘴部的动作序列与情绪状态标签结合而生成,所述情绪状态标签为基于所述播报文本生成的情绪动作参数;其中,所述嘴部的动作序列为通过于神经网络模型对所述音频信息进行处理而预测得到。
根据本发明实施例的另一方面,还提供了一种面部信息的生成装置,包括:获取模块,用于获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;预测模块,用于基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;生成模块,用于将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
可选的,预测模块包括:预测单元,用于采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;拼接单元,用于对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;预测单元,还用于采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
可选的,所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,预测单元包括:提取单元,用于提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;生成单元,用于采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
可选的,获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
可选的,所述装置还包括:获取模块,还用于获取所述播报文本;合成模块,用于采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
可选的,所述装置还包括:解析模块,用于解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;生成模块,用于对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
可选的,所述生成模块包括:获取单元,用于将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取单元,还用于获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;结合单元,用于将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
可选的,根据本发明实施例的另一方面,还提供了面部信息的生成装置,包括:播报模块,用于在交互界面上显示播报音频信息的虚拟主播,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;虚拟模块,用于在交互界面上展示所述虚拟主播在播报过程中的面部动作,其中,所述面部动作由所述虚拟主播嘴部的动作序列与情绪状态标签结合而生成,所述情绪状态标签为基于所述播报文本生成的情绪动作参数;其中,所述嘴部的动作序列为通过于神经网络模型对所述音频信息进行处理而预测得到。
可选的,根据本发明实施例的另一方面,还提供了一种面部信息的生成方法,包括:获取音频信息,其中,所述音频信息对应于播报文本;基于所述音频信息,计算所述虚拟对象嘴部的动作序列;将所述虚拟对象的情绪状态数据结合至所述动作序列中,生成所述虚拟对象的面部动作,其中,所述情绪状态数据对应于所述播报文本。
可选的,基于所述音频信息,计算所述虚拟对象嘴部的动作序列,包括:基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟对象嘴部的动作序列。
可选的,基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟对象嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟对象在播报过程中脸部的关键部位的坐标和音素标签;对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟对象嘴部在播报过程中的动作序列。
根据本发明实施例的另一方面,还提供了一种包括指令的计算机程序产品,当所述指令在计算机上运行时,使得所述计算机执行一种面部信息的生成方法。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种面部信息的生成方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行一种面部信息的生成方法。
在本发明实施例中,通过获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列;将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数,达到了基于虚拟主播播报过程中输出的音频信息准确确定虚拟主播播报过程中的面部动作的目的,从而实现了提升虚拟主播语音播报过程中驱动面部动作的准确性的技术效果,解决了现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例一的一种面部信息的生成方法的流程图;
图3是根据本发明实施例二的一种面部信息的生成方法的流程图;
图4是根据本发明实施例三的一种面部信息的生成装置的结构框图;
图5是根据本发明实施例四的一种面部信息的生成装置的结构框图;
图6是根据本发明实施例五的一种面部信息的生成方法应用场景的示意图;
图7是根据本发明实施例五的一种面部信息的生成方法的示意图;
图8是根据本发明实施例六的一种面部信息的生成方法的流程图;
图9是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种面部信息的生成方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
根据本发明实施例,提供了一种面部信息的生成方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的面部信息的生成方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现面部信息的生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的面部信息的生成方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的面部信息的生成方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的面部信息的生成方法。图2是根据本发明实施例一的面部信息的生成方法的流程图。
步骤S102,获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频。
为了将音频信息变为面部动作信息,需要首先获取虚拟主播播报过程中输出的音频信息,该音频信息来源于虚拟主播在播报时候的声音采集装置所采集到的音频信号,并通过将播报文本进行语音合成而生成,上述音频信号包括连续的多帧音频。
可选的,在获取虚拟主播播报过程中输出的音频信息之前,该方法还包括:获取播报文本;采用语音合成工具处理将播报文本进行合成生成虚拟主播播报的音频信息。
在上述方案中,为了得到虚拟主播的音频信息,首先需要获得播报文本并将该文本进行分析和处理,例如,根据直播商家撰写的播报文本,首先通过语音合成模块(text tospeech)生成播报音频,同时对播报文本进行解析,定位其中的情感词并确定情绪状态标签,然后将播报音频输入到面部嘴型生成模块,生成无表情的嘴型动作,接下来将情绪状态标签结合无表情的嘴型动作输入到表情风格迁移模块中,最终生成带有指定表情变化的面部动作。
步骤S104,基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列。
通过神经网络模型对音频信息进行处理,可以快速的预测出虚拟主播嘴部的动作序列,根据神经网络模型的构建,将音频信息进行特征向量转化,并将转化后的特征向输入到神经网络模型中,该神经网络模型可以针对不同的音频信息进行嘴部动作序列的预测和映射,大大提高了整体嘴部动作演示的效率。
可选的,基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列,包括:采用序列模型对音频信息进行处理,预测得到虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对脸部的关键部位的坐标、音素标签和音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到虚拟主播嘴部在播报过程中的动作序列。
在本发明实施例的实施过程中,为了将获取的音频信号变成嘴部动作序列的信息,可以对于输入的播报音频,首先提取音频的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征,然后分别输入到人脸关键点预测模型以及音素识别模型。具体地,人脸关键点预测模型以及音素识别模型均采用基于transformer(一种基于编码器和解码器结构的模型)的序列模型作为骨干网络,输入为音频帧的特征序列,然后对应每一帧的音频特征分别预测人脸的关键点位置坐标以及音素标签。最后将上述预测得到的人脸关键点位置、音素标签以及最初的音频特征进行拼接,输入到嘴型动作预测模型,该模型同样采用序列模型作为骨干网络,最终对应每一帧音频输出该帧的面部嘴型动作参数。
可选的,序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对音频信息进行处理,预测得到虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取音频信息的梅尔频率倒谱系数特征,其中,梅尔频率倒谱系数特征为信息中每帧音频的特征序列;采用人脸关键点预测模型和音素识别模型处理每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
具体的,针对序列模型的训练,本发明实施例可以采用多任务学习(multi-tasklearning)的策略,损失函数分为两部分,一是内容损失约束,最小化每一帧预测的动作参数和真实参数的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
二是运动损失约束,即建模相邻两帧的动作参数变化,最小化相邻两帧的动作差值和真实值对应两帧动作差值的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
可选的,获取虚拟主播的嘴部在播报过程中的动作序列的过程中,虚拟主播脸部其他部位的动作序列为空。
具体的,为了仅仅获得虚拟主播在播报过程中的嘴部动作,需要根据虚拟播报员的脸部特征将除了嘴部特征以外的特征屏蔽,借此将所有的特征值集中在虚拟播报员的嘴部,并通过音频的传输和分析来获取虚拟播报员的嘴部动作序列。
例如,当虚拟主播的嘴部动作为“真好”的时候,其脸部动作可能包括眨眼睛、瞥嘴角等动作,然而本发明实施例为了获得更精准的嘴部动作序列,可以将其脸部动作眨眼睛、瞥嘴角等与嘴部动作无关的脸部动作进行屏蔽,以单独获得精准的嘴部动作,进而形成最终的输出结果。
步骤S106,将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数。
综上,在本发明实施例一中,通过获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列;将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数,达到了基于虚拟主播播报过程中输出的音频信息准确确定虚拟主播播报过程中的面部动作的目的,从而实现了提升虚拟主播语音播报过程中驱动面部动作的准确性的技术效果,解决了现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
可选的,该方法还包括:解析播报文本,获取播报文本中用于表征情绪特征的情绪关键词;对情绪关键词标注标签信息,生成情绪状态标签,其中,标签信息包括:情绪关键词的播报时间戳、情绪特征。
具体的,在本发明实施例进行解析播报文本的时候,获取播报文本的情绪关键词并将其生成情绪状态标签,便于后续通过音频信息和面部特征生成嘴部动作序列之用。其中,情绪关键词可以是用于激发嘴部特殊动作的触发词,例如情绪关键词可以是“真好”“好糟糕”“为什么呢?”等带有主观情绪的词语或语句,这样在虚拟主播的音频信息中出现上述情绪关键词之后,会根据情绪关键词生成情绪标签,并通过音频信息和面部特征生成嘴部动作序列。
可选的,将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,包括:将情绪状态标签按照播报时间戳与动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与情绪状态标签关联的情绪特征的内容;将不同时间点下的情绪特征的内容与动作序列进行结合,生成虚拟主播播报过程中的面部动作,其中,面部动作用于表征虚拟主播播报过程中的情绪变化。
具体的,在表情风格迁移模块中,首先对播报文本进行解析,利用构建好的情感词表定位其中的情感词并确定情绪状态标签,然后将生成的情绪状态标签和上述嘴型动作生成模块生成的面部嘴型动作参数进行拼接,输入到风格迁移模型中,该模型同样采用序列模型作为骨干网络,最终输出带有表情面部动作参数。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例二
在上述实施例一的运行环境下,本申请提供了如图3所示的面部信息的生成方法。图3是根据本发明实施例二的一种面部信息的生成方法的流程图,包括:
步骤S202,在交互界面上显示播报音频信息的虚拟主播,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;在交互界面上展示虚拟主播在播报过程中的面部动作。
具体的,为了通过虚拟主播的音频播报来进行面部动作的合成,首先需要在交互界面上对虚拟主播进行显示,并同时获取虚拟主播的音频信号。
步骤S204,在交互界面上展示虚拟主播在播报过程中的面部动作,其中,面部动作由虚拟主播嘴部的动作序列与情绪状态标签结合而生成,情绪状态标签为基于播报文本生成的情绪动作参数;其中,嘴部的动作序列为通过于神经网络模型对音频信息进行处理而预测得到。
具体的,在获取了虚拟主播音频之后,需要通过音频来分析得到虚拟主播的面部动作序列,因此面部动作可以由虚拟主播嘴部的动作序列与情绪状态标签结合而生成,情绪状态标签为基于播报文本生成的情绪动作参数;其中,嘴部的动作序列为通过于神经网络模型对音频信息进行处理而预测得到。
另外,需要说明的是,生成虚拟主播在播报过程中的面部动作的技术手段与上述实施例一中公开的生成虚拟主播在播报过程中的面部动作的技术手段相同,在本实施例二中不作赘述。
通过上述步骤S202-步骤S204,可以实现交互界面上准确的展示虚拟主播在播报过程中的面部动作,解决现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例三
图4是根据本发明实施例三的一种面部信息的生成装置的结构框图,如图4所示,该装置包括:获取模块30、预测模块32和生成模块34。
获取模块30,用于获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频。
具体的,本发明实施例为了将音频信息变为面部动作信息,需要首先获取虚拟主播播报过程中输出的音频信息,该音频信息来源于虚拟主播在播报时候的声音采集装置所采集到的音频信号,并通过将播报文本进行语音合成而生成,上述音频信号是一种连续的多帧音频。
可选的,该装置还包括:获取模块,还用于获取播报文本;合成模块,用于采用语音合成工具处理将播报文本进行合成生成虚拟主播播报的音频信息。
具体的,为了得到虚拟主播的音频信息,首先需要获得播报文本并将该文本进行分析和处理,例如根据直播商家撰写的播报文本,首先通过语音合成模块(text tospeech)生成播报音频,同时对播报文本进行解析,定位其中的情感词并确定情绪状态标签,然后将播报音频输入到面部嘴型生成模块,生成无表情的嘴型动作,接下来将情绪状态标签结合无表情的嘴型动作输入到表情风格迁移模块中,最终生成带有指定表情变化的面部动作。
预测模块32,用于基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列。
可选的,预测模块包括:预测单元,用于采用序列模型对音频信息进行处理,预测得到虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;拼接单元,用于对关键部位的坐标、音素标签和音频信息进行拼接处理,生成拼接结果;预测单元,还用于采用嘴型动作预测模型对拼接结果进行处理,预测得到虚拟主播嘴部在播报过程中的动作序列。
具体的,在本发明实施例的实施过程中,为了将获取的音频信号变成嘴部动作序列信息,可以对于输入的播报音频,首先提取音频的梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)特征,然后分别输入到人脸关键点预测模型以及音素识别模型。具体地,人脸关键点预测模型以及音素识别模型均采用序列模型作为骨干网络,输入为音频帧的特征序列,然后对应每一帧的音频特征分别预测人脸的关键点位置坐标以及音素标签。最后将上述预测得到的人脸关键点位置、音素标签以及最初的音频特征进行拼接,输入到嘴型动作预测模型,该模型同样采用序列模型作为骨干网络,最终对应每一帧音频输出该帧的面部嘴型动作参数。
可选的,序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对音频信息进行处理,预测得到虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取音频信息的梅尔频率倒谱系数特征,其中,梅尔频率倒谱系数特征为信息中每帧音频的特征序列;采用人脸关键点预测模型和音素识别模型处理每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
具体的,针对序列模型的训练,本发明实施例可以采用多任务学习(multi-tasklearning)的策略,损失函数分为两部分,一是内容损失约束,对于长度为T的输入序列,每一帧输出的动作参数维数为D,最小化每一帧生成的动作参数和真实参数的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
二是运动损失约束,即建模相邻两帧的动作参数变化,最小化相邻两帧的动作差值和真实值对应两帧动作差值的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
可选的,获取虚拟主播的嘴部在播报过程中的动作序列的过程中,虚拟主播脸部其他部位的动作序列为空。
为了仅仅获得虚拟主播在播报过程中的嘴部动作,需要根据虚拟播报员的脸部特征将除了嘴部特征以外的特征屏蔽,借此将所有的特征值集中在虚拟播报员的嘴部,并通过音频的传输和分析来获取虚拟播报员的嘴部动作序列。
生成模块34,用于将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数。
综上,在本发明实施例二中,通过获取模块30获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;预测模块32基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列;生成模块34将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数,达到了基于虚拟主播播报过程中输出的音频信息准确确定虚拟主播播报过程中的面部动作的目的,从而实现了提升虚拟主播语音播报过程中驱动面部动作的准确性的技术效果,解决了现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
可选的,该装置还包括:解析模块,用于解析播报文本,获取播报文本中用于表征情绪特征的情绪关键词;生成模块,用于对情绪关键词标注标签信息,生成情绪状态标签,其中,标签信息包括:情绪关键词的播报时间戳、情绪特征。
具体的,在本发明实施例进行解析播报文本的时候,获取播报文本的情绪关键词并将其生成情绪状态标签,便于后续通过音频信息和面部特征生成嘴部动作序列之用。
可选的,生成模块包括:获取单元,用于将情绪状态标签按照播报时间戳与动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取单元,还用于获取不同时间点下与情绪状态标签关联的情绪特征的内容;结合单元,用于将不同时间点下的情绪特征的内容与动作序列进行结合,生成虚拟主播播报过程中的面部动作,其中,面部动作用于表征虚拟主播播报过程中的情绪变化。
具体的,在表情风格迁移模块中,首先对播报文本进行解析,利用构建好的情感词表定位其中的情感词并确定情绪状态标签,然后将生成的情绪状态标签和上述嘴型动作生成模块生成的面部嘴型动作参数进行拼接,输入到风格迁移模型中,该模型同样采用序列模型作为骨干网络,最终输出带有表情面部动作参数。
此处需要说明的是,上述获取模块30、预测模块32和生成模块34对应于实施例1中的步骤S102至步骤S106,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例四
图5是根据本发明实施例四的一种面部信息的生成装置的结构框图,包括:播报模块40和虚拟模块42。
播报模块40,用于在交互界面上显示播报音频信息的虚拟主播,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;在交互界面上展示虚拟主播在播报过程中的面部动作。
具体的,为了通过虚拟主播的音频播报来进行面部动作的合成,首先需要在交互界面上对虚拟主播进行显示,并同时获取虚拟主播的音频信号。
虚拟模块42,用于在交互界面上展示虚拟主播在播报过程中的面部动作,其中,面部动作由虚拟主播嘴部的动作序列与情绪状态标签结合而生成,情绪状态标签为基于播报文本生成的情绪动作参数;其中,嘴部的动作序列为通过于神经网络模型对音频信息进行处理而预测得到。
具体的,在获取了虚拟主播音频之后,需要通过音频来分析得到虚拟主播的面部动作序列,因此面部动作可以由虚拟主播嘴部的动作序列与情绪状态标签结合而生成,情绪状态标签为基于播报文本生成的情绪动作参数;其中,嘴部的动作序列为通过于神经网络模型对音频信息进行处理而预测得到。
另外,需要说明的是,生成虚拟主播在播报过程中的面部动作的技术手段与上述实施例三中公开的生成虚拟主播在播报过程中的面部动作的技术手段相同,在本实施例四中不作赘述。
通过上述播报模块40和虚拟模块42,可以实现交互界面上准确的展示虚拟主播在播报过程中的面部动作,解决现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
此处需要说明的是,上述播报模块40和虚拟模块42对应于实施例二中的步骤S202至步骤S204,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例五
本发明实施例在应用场景中使用的时候,其如图6所示。具体的,根据直播商家撰写的播报文本,首先通过语音合成模块(text to speech)生成播报音频,同时对播报文本进行解析,定位其中的情感词并确定情绪状态标签,然后将播报音频输入到面部嘴型生成模块,生成无表情的嘴型动作,接下来将情绪状态标签结合无表情的嘴型动作输入到表情风格迁移模块中,最终生成带有指定表情变化的面部动作。
图7是根据本发明实施例的另一种面部信息的生成方法的示意图。在嘴型动作生成模块中,对于输入的播报音频,首先提取音频的梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)特征,然后分别输入到人脸关键点预测模型以及音素识别模型。具体地,人脸关键点预测模型以及音素识别模型均采用序列模型作为骨干网络,输入为音频帧的特征序列,然后对应每一帧的音频特征分别预测人脸的关键点位置坐标以及音素标签。最后将上述预测得到的人脸关键点位置、音素标签以及最初的音频特征进行拼接,输入到嘴型动作预测模型,该模型同样采用序列模型作为骨干网络,最终对应每一帧音频输出该帧的面部嘴型动作参数。
在表情风格迁移模块中,首先对播报文本进行解析,利用构建好的情感词表定位其中的情感词并确定情绪状态标签,然后将生成的情绪状态标签和上述嘴型动作生成模块生成的面部嘴型动作参数进行拼接,输入到风格迁移模型中,该模型同样采用序列模型作为骨干网络,最终输出带有表情面部动作参数。
针对模型训练,采用多任务学习(multi-task learning)的策略,损失函数分为两部分,一是内容损失约束,对于长度为T的输入序列,每一帧输出的动作参数维数为D,最小化每一帧生成的动作参数和真实参数的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
二是运动损失约束,即建模相邻两帧的动作参数变化,最小化相邻两帧的动作差值和真实值对应两帧动作差值的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
通过上述方案,可以解决现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
实施例六
在上述实施例一的运行环境下,本申请提供了如图8所示的面部信息的生成方法。图8是根据本发明实施例六的一种面部信息的生成方法的流程图,包括:
步骤S801,获取音频信息,其中,音频信息对应于播报文本。
为了将音频信息变为面部动作信息,需要首先获取虚拟主播播报过程中输出的音频信息,该音频信息来源于虚拟主播在播报时候的声音采集装置所采集到的音频信号,并通过将播报文本进行语音合成而生成,上述音频信号包括连续的多帧音频。
步骤S802,基于音频信息,计算虚拟对象嘴部的动作序列。
上述的虚拟对象可以为虚拟主播。
步骤S803,将虚拟对象的情绪状态数据结合至动作序列中,生成虚拟对象的面部动作,其中,情绪状态数据对应于播报文本。
上述的情绪状态数据可以为基于播报文本生成的情绪动作参数。
通过步骤S801-步骤S803,达到了基于虚拟对象播报过程中输出的音频信息准确确定虚拟对象播报过程中的面部动作的目的,从而实现了提升虚拟对象语音播报过程中驱动面部动作的准确性的技术效果,解决了现有技术中根据虚拟对象的语音播报驱动面部动作的准确性较低的技术问题。
可选的,基于音频信息,计算虚拟对象嘴部的动作序列,包括:基于神经网络模型对音频信息进行处理,预测得到虚拟对象嘴部的动作序列。
通过神经网络模型对音频信息进行处理,可以快速的预测出虚拟对象嘴部的动作序列,根据神经网络模型的构建,将音频信息进行特征向量转化,并将转化后的特征向输入到神经网络模型中,该神经网络模型可以针对不同的音频信息进行嘴部动作序列的预测和映射,大大提高了整体嘴部动作演示的效率。
可选的,基于神经网络模型对音频信息进行处理,预测得到虚拟对象嘴部的动作序列,包括:采用序列模型对音频信息进行处理,预测得到虚拟对象在播报过程中脸部的关键部位的坐标和音素标签;对脸部的关键部位的坐标、音素标签和音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到虚拟对象嘴部在播报过程中的动作序列。
在本发明实施例的实施过程中,为了将获取的音频信号变成嘴部动作序列的信息,可以对于输入的播报音频,首先提取音频的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征,然后分别输入到人脸关键点预测模型以及音素识别模型。具体地,人脸关键点预测模型以及音素识别模型均采用基于transformer(一种基于编码器和解码器结构的模型)的序列模型作为骨干网络,输入为音频帧的特征序列,然后对应每一帧的音频特征分别预测人脸的关键点位置坐标以及音素标签。最后将上述预测得到的人脸关键点位置、音素标签以及最初的音频特征进行拼接,输入到嘴型动作预测模型,该模型同样采用序列模型作为骨干网络,最终对应每一帧音频输出该帧的面部嘴型动作参数。
可选的,序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对音频信息进行处理,预测得到虚拟对象在播报过程中脸部的关键部位的坐标和音素标签,包括:提取音频信息的梅尔频率倒谱系数特征,其中,梅尔频率倒谱系数特征为信息中每帧音频的特征序列;采用人脸关键点预测模型和音素识别模型处理每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
具体的,针对序列模型的训练,本发明实施例可以采用多任务学习(multi-tasklearning)的策略,损失函数分为两部分,一是内容损失约束,最小化每一帧预测的动作参数和真实参数的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
二是运动损失约束,即建模相邻两帧的动作参数变化,最小化相邻两帧的动作差值和真实值对应两帧动作差值的距离,计算公式如下:
其中,T为输入序列的长度,D为每一帧输出的动作参数维数,p为模型预测的动作参数,g为真实参数。
可选的,获取虚拟对象的嘴部在播报过程中的动作序列的过程中,虚拟对象脸部其他部位的动作序列为空。
具体的,为了仅仅获得虚拟对象在播报过程中的嘴部动作,需要根据虚拟播报员的脸部特征将除了嘴部特征以外的特征屏蔽,借此将所有的特征值集中在虚拟播报员的嘴部,并通过音频的传输和分析来获取虚拟播报员的嘴部动作序列。
例如,当虚拟对象的嘴部动作为“真好”的时候,其脸部动作可能包括眨眼睛、瞥嘴角等动作,然而本发明实施例为了获得更精准的嘴部动作序列,可以将其脸部动作眨眼睛、瞥嘴角等与嘴部动作无关的脸部动作进行屏蔽,以单独获得精准的嘴部动作,进而形成最终的输出结果。
可选的,该方法还包括:解析播报文本,获取播报文本中用于表征情绪特征的情绪关键词;对情绪关键词标注标签信息,生成情绪状态标签,其中,标签信息包括:情绪关键词的播报时间戳、情绪特征。
具体的,在本发明实施例进行解析播报文本的时候,获取播报文本的情绪关键词并将其生成情绪状态标签,便于后续通过音频信息和面部特征生成嘴部动作序列之用。其中,情绪关键词可以是用于激发嘴部特殊动作的触发词,例如情绪关键词可以是“真好”“好糟糕”“为什么呢?”等带有主观情绪的词语或语句,这样在虚拟对象的音频信息中出现上述情绪关键词之后,会根据情绪关键词生成情绪标签,并通过音频信息和面部特征生成嘴部动作序列。
可选的,将情绪状态标签结合至动作序列中,生成虚拟对象播报过程中的面部动作,包括:将情绪状态标签按照播报时间戳与动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与情绪状态标签关联的情绪特征的内容;将不同时间点下的情绪特征的内容与动作序列进行结合,生成虚拟对象播报过程中的面部动作,其中,面部动作用于表征虚拟对象播报过程中的情绪变化。
具体的,在表情风格迁移模块中,首先对播报文本进行解析,利用构建好的情感词表定位其中的情感词并确定情绪状态标签,然后将生成的情绪状态标签和上述嘴型动作生成模块生成的面部嘴型动作参数进行拼接,输入到风格迁移模型中,该模型同样采用序列模型作为骨干网络,最终输出带有表情面部动作参数。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例七
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
上述计算机终端还可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对所述关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
上述计算机终端还可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
上述计算机终端还可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
上述计算机终端还可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:获取所述播报文本;采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
上述计算机终端还可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:所述方法还包括:解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
上述计算机终端还可以执行应用程序的面部信息的生成方法中以下步骤的程序代码:将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
可选地,图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示,该计算机终端可以包括:一个或多个(图9中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的面部信息的生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的面部信息的生成方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对所述关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:获取所述播报文本;采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:所述方法还包括:解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
采用本发明实施例,提供了一种面部信息的生成方法的方案。通过获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数,达到了基于虚拟主播播报过程中输出的音频信息准确确定虚拟主播播报过程中的面部动作的目的,从而实现了提升虚拟主播语音播报过程中驱动面部动作的准确性的技术效果,解决了现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例八
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的面部信息的生成方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
存储介质还被设置为存储用于执行以下步骤的程序代码:基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对所述关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
存储介质还被设置为存储用于执行以下步骤的程序代码:所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
存储介质还被设置为存储用于执行以下步骤的程序代码:获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
存储介质还被设置为存储用于执行以下步骤的程序代码:在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:获取所述播报文本;采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
存储介质还被设置为存储用于执行以下步骤的程序代码:所述方法还包括:解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
存储介质还被设置为存储用于执行以下步骤的程序代码:将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种面部信息的生成方法,其特征在于,包括:
获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;
基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;
将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
2.根据权利要求1所述的方法,其特征在于,基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:
采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;
对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;
采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
3.根据权利要求2所述的方法,其特征在于,所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:
提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;
采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
4.根据权利要求2所述的方法,其特征在于,获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:
获取所述播报文本;
采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;
对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
7.根据权利要求6所述的方法,其特征在于,将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:
将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;
获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;
将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
8.一种面部信息的生成方法,其特征在于,包括:
在交互界面上显示播报音频信息的虚拟主播,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;
在所述交互界面上展示所述虚拟主播在播报过程中的面部动作,其中,所述面部动作由所述虚拟主播嘴部的动作序列与情绪状态标签结合而生成,所述情绪状态标签为基于所述播报文本生成的情绪动作参数;
其中,所述嘴部的动作序列为通过于神经网络模型对所述音频信息进行处理而预测得到。
9.一种面部信息的生成装置,其特征在于,包括:
获取模块,用于获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;
预测模块,用于基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;
生成模块,用于将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
10.一种面部信息的生成装置,其特征在于,包括:
播报模块,用于在交互界面上显示播报音频信息的虚拟主播,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;
虚拟模块,用于在交互界面上展示所述虚拟主播在播报过程中的面部动作,其中,所述面部动作由所述虚拟主播嘴部的动作序列与情绪状态标签结合而生成,所述情绪状态标签为基于所述播报文本生成的情绪动作参数;
其中,所述嘴部的动作序列为通过于神经网络模型对所述音频信息进行处理而预测得到。
11.一种面部信息的生成方法,其特征在于,包括:
获取音频信息,其中,所述音频信息对应于播报文本;
基于所述音频信息,计算虚拟对象嘴部的动作序列;
将所述虚拟对象的情绪状态数据结合至所述动作序列中,生成所述虚拟对象的面部动作,其中,所述情绪状态数据对应于所述播报文本。
12.根据权利要求11所述的方法,其特征在于,基于所述音频信息,计算所述虚拟对象嘴部的动作序列,包括:
基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟对象嘴部的动作序列。
13.根据权利要求12所述的方法,其特征在于,基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟对象嘴部的动作序列,包括:
采用序列模型对所述音频信息进行处理,预测得到所述虚拟对象在播报过程中脸部的关键部位的坐标和音素标签;
对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;
采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟对象嘴部在播报过程中的动作序列。
14.一种包括指令的计算机程序产品,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至7中任意一项所述的方法,或者,权利要求8所述的方法,或者,权利要求11至13中任意一项所述的方法。
15.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行权利要求1至7中任意一项所述的方法,或者,权利要求8所述的方法,或者,权利要求11至13中任意一项所述的方法。
16.一种电子设备,其特征在于,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至7中任意一项所述的方法,或者,权利要求8所述的方法,或者,权利要求11至13中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011281673.0A CN114513678A (zh) | 2020-11-16 | 2020-11-16 | 面部信息的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011281673.0A CN114513678A (zh) | 2020-11-16 | 2020-11-16 | 面部信息的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114513678A true CN114513678A (zh) | 2022-05-17 |
Family
ID=81547256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011281673.0A Pending CN114513678A (zh) | 2020-11-16 | 2020-11-16 | 面部信息的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114513678A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115209180A (zh) * | 2022-06-02 | 2022-10-18 | 阿里巴巴(中国)有限公司 | 视频生成方法以及装置 |
CN115375809A (zh) * | 2022-10-25 | 2022-11-22 | 科大讯飞股份有限公司 | 虚拟形象的生成方法、装置、设备及存储介质 |
CN116095357A (zh) * | 2023-04-07 | 2023-05-09 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
CN116843798A (zh) * | 2023-07-03 | 2023-10-03 | 支付宝(杭州)信息技术有限公司 | 动画生成方法、模型训练方法及装置 |
-
2020
- 2020-11-16 CN CN202011281673.0A patent/CN114513678A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115209180A (zh) * | 2022-06-02 | 2022-10-18 | 阿里巴巴(中国)有限公司 | 视频生成方法以及装置 |
CN115375809A (zh) * | 2022-10-25 | 2022-11-22 | 科大讯飞股份有限公司 | 虚拟形象的生成方法、装置、设备及存储介质 |
CN116095357A (zh) * | 2023-04-07 | 2023-05-09 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
CN116843798A (zh) * | 2023-07-03 | 2023-10-03 | 支付宝(杭州)信息技术有限公司 | 动画生成方法、模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647636B (zh) | 交互方法、装置、终端设备及存储介质 | |
CN114513678A (zh) | 面部信息的生成方法及装置 | |
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
US11158102B2 (en) | Method and apparatus for processing information | |
CN107464554B (zh) | 语音合成模型生成方法和装置 | |
CN110534092B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN110136691B (zh) | 一种语音合成模型训练方法、装置、电子设备及存储介质 | |
CN104777911B (zh) | 一种基于全息技术的智能交互方法 | |
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
CN110880198A (zh) | 动画生成方法和装置 | |
CN110602516A (zh) | 基于视频直播的信息交互方法、装置及电子设备 | |
CN111541938B (zh) | 视频生成方法、装置及电子设备 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
US20240070397A1 (en) | Human-computer interaction method, apparatus and system, electronic device and computer medium | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN115691544A (zh) | 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备 | |
CN114495927A (zh) | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN113111812A (zh) | 一种嘴部动作驱动模型训练方法及组件 | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
CN110610697B (zh) | 一种语音识别方法及装置 | |
CN116737883A (zh) | 人机交互方法、装置、设备及存储介质 | |
CN117078816A (zh) | 一种虚拟形象的生成方法、装置、终端设备和存储介质 | |
CN111968624A (zh) | 数据构建方法、装置、电子设备及存储介质 | |
CN116939288A (zh) | 视频生成方法及其装置、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230905 Address after: Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd. Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK Applicant before: ALIBABA GROUP HOLDING Ltd. |
|
TA01 | Transfer of patent application right |