CN113689532B - 基于语音数据重建虚拟角色的方法及装置 - Google Patents
基于语音数据重建虚拟角色的方法及装置 Download PDFInfo
- Publication number
- CN113689532B CN113689532B CN202110898307.8A CN202110898307A CN113689532B CN 113689532 B CN113689532 B CN 113689532B CN 202110898307 A CN202110898307 A CN 202110898307A CN 113689532 B CN113689532 B CN 113689532B
- Authority
- CN
- China
- Prior art keywords
- key point
- point data
- dimensional
- identity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000009877 rendering Methods 0.000 claims abstract description 19
- 238000012937 correction Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例提供了一种基于语音数据重建虚拟角色的方法及装置,其中,该方法包括:获取与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色。通过本申请,解决了现有技术中用户与数字人语义交互方式较为单一的问题。
Description
技术领域
本申请涉及语音交互技术领域,特别是涉及一种基于语音数据重建虚拟角色的方法及装置。
背景技术
随着数字人应用场景的不断增多,以语音作为交互接口的方式越来越成熟。目前,数字人与用户之间的交互反馈为:用户发出问句语音,数字人针对问句语音进行回答,即数字人与用户之间的交互反馈仅仅是实现用户与数字人之间的一问一答,其交互反馈方式比较单一。
发明内容
本申请实施例的目的在于提供一种基于语音数据重建虚拟角色的方法及装置,以实现基于语音数据重建发出对应语音的虚拟角色的过程。具体技术方案如下:
在本申请实施例的第一方面,首先提供了一种基于语音数据重建虚拟角色的方法,包括:获取与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色。
在本申请实施例的第二方面,还提供了一种基于语音数据重建虚拟角色的方法,包括:实时获取直播视频数据中与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色。
在本申请实施例的第三方面,还提供了一种基于语音数据重建虚拟角色的装置,包括:第一获取模块,用于获取与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;第一修正模块,用于通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;第一渲染模块,用于对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色。
在本申请实施例的第四方面,还提供了一种基于语音数据重建虚拟角色的装置,包括:第二获取模块,用于实时获取直播视频数据中与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;第二修正模块,用于通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;第二渲染模块,用于对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色。
在本申请实施的第五方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法步骤。
在本申请实施的第六方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法步骤。
通过申请实施例,在获取到第一对象发出的语音数据之后,基于该语音数据对应的第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据,对该第二关键点数据进行渲染得到与发出语音数据的口型对应的第一虚拟角色,从而实现了基于语音数据重建发出对应语音的虚拟角色,解决了现有技术中用户与数字人语义交互方式较为单一的问题,丰富了数字人与用户交互的方式,同时也提升了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请实施例中基于语音数据重建虚拟角色的方法流程图之一;
图2为本申请实施例中基于语音数据重建虚拟角色的方法流程图之二;
图3为本申请实施例中基于语音数据重建虚拟角色的方法流程图之三;
图4为本申请实施例中基于语音数据重建虚拟角色的方法流程图之四;
图5为本申请实施例中基于语音数据重建虚拟角色的装置结构示意图之一;
图6为本申请实施例中基于语音数据重建虚拟角色的装置结构示意图之二;
图7为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
如图1所示,本申请实施例提供了一种基于语音数据重建虚拟角色的方法,该方法的步骤包括:
步骤102,获取与第一对象对应的语音数据,并基于语音数据确定第一对象的第一关键点数据;其中,第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
在本申请实施例中,该第一对象可以是人、动物或其他能够发出语音的对象。此外,通常情况下面部的关键点有68个,主要描述脸轮廓、眼、口、鼻、眉毛的位置。而对于口型区域的关键点,通常情况下有19个,当然,上述仅仅是举例说明,如果是为了模拟更加逼真的口型区域则可以增加关键点,如果可以模糊一点模拟也可以小于19个关键点。
此外,本申请实施例中的第一关键点数据可以是二维数据也可以是三维数据。在一个示例中,以第一对象为人为例,该获取第一对象对应的语音数据可以是基于一个训练好的模型得到,如模型M。首先,获取训练该模型M的训练样本,该训练样本可以通过拍摄大量说话的语音视频,从该视频中提取语音数据和分解成帧的图片数据,其中,该语音数据和图片数据的获取可以通过开源软件完成,如FFMPEG。然后,通过检测模型对每帧图片的人脸关键点进行提取,从而得到二维的人脸关键数据。如果该第一关键数据为二维数据,则可以基于该语音数据和对应的二维的人脸关键点数据对模型M进行训练,训练好的模型M的输入为语音数据,输出为二维的人脸关键点数据。如果第一关键点数据为三维数据,则进一步可以利用开源数据集300-W-LP训练一个把二维人脸关键点转换为三维人脸关键点,以该语音数据和对应的三维的人脸关键数据对模型M进行训练,训练好的模型M输入为语音数据,输出为三维的人脸关键点数据。
步骤104,通过第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
需要说明的是,直接对通过初始化参数确定的关键点数据进行渲染是可以得到初始化虚拟角色的,即该虚拟角色是原始角色,而不是当前所需要的虚拟角色,因此,需要通过第一关键点数据对初始化参数进行修正得到第二关键点数据。
步骤106,对第二关键点数据行渲染得到与发出语音数据的口型对应的第一虚拟角色。
其中,如果第一对象发出的语音为“吃饭了吗”,基于该“吃饭了吗”对应的语音数据,则可以重建一个第一虚拟角色以发出“吃饭了吗”的语音,如果第一对象发出的语音为“咩咩咩”,基于该“咩咩咩”对应的语音数据,则可以重建一个第一虚拟角色以发出“咩咩咩”的语音。
通过上述步骤102至步骤106,在获取到第一对象发出的语音数据之后,基于该语音数据对应的第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据,对该第二关键点数据进行渲染得到与发出语音数据的口型对应的第一虚拟角色,从而实现了基于语音数据重建发出对应语音的虚拟角色,解决了现有技术中用户与数字人语义交互方式较为单一的问题,丰富了数字人与用户交互的方式,同时也提升了用户体验。
在本申请实施例的可选实施方式中,如图2所示,对于上述步骤104中涉及到的通过第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据的方式,进一步可以包括:
步骤11,对第一关键点数据进行解析得到口型区域对应的第一表情特征;
步骤12,对初始化参数进行解析得到口型区域对应的第二表情特征;
步骤13,基于第一表情特征和第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据。
通过上述步骤11至步骤13可知,可以基于口型区域对应的第一表情特征与口型区域对应的第二表情特征之间的差异进行修正,其中,该差异可以是指第一表情特征与第二表情特征在口型区域的位置差异进行修正,修正后的初始化参数中的表情特征与第一表情特征一致。在一个示例中,该初始化参数可以是三维形变模型(3D Morphable Model,3DMM)中的参数,如:身份参数、表情参数、相机外参;即可以基于该3DMM重建一个虚拟角色(即待重建虚拟角色)。因此,如果该第一对象以用户A为例,获取用户A说出“我要去跑步了”对应的语音数据,进而可以确定与“我要去跑步了”对应的关键点数据(第一关键点数据),则可以对该第一关键数据进行解析得到说“我要去跑步了”过程中,口型区域对应的第一表情特征,如果口型区域关于表情特征的关键点数据为19个,则对3DMM中的表情参数中的口型区域关于表情特征中的19个关键点数据进行修正,得到口型区域参数修正后的3DMM,可以基于修正后的3DMM得到该第二关键点数据。
基于此,对于本申请实施例步骤106中涉及到的对第二关键点数据行渲染得到与发出语音数据的口型对应的第一虚拟角色的方式,如果以3DMM为例,则是基于3DMM重建的虚拟人物进行渲染得到该第一虚拟角色。其中,该第一虚拟角色的头部形状使用face_shape=s_mean+id_core*id_feature+exp_core*exp_feature的形式构建人脸形状,其中,上述表达式中的*表示内积。id_core为身份基底,id_feature为身份特征,exp_core为表情基底,exp_feature为表情特征;s_mean为平均脸形状。可以对每个时间点做虚拟角色的重建,可以得到发出语音数据过程中一系列时序的表情特征。
在本申请实施例的可选实施方式中,在第一表情特征为基于语音数据得到的二维数据的情况下,对于上述步骤13中涉及到的基于第一表情特征和第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据的方式,进一步可以包括:
步骤21,将三维的第二表情特征转换为二维的第二表情特征;
步骤22,基于二维的第一表情特征和二维的第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;
步骤23,将二维的第二关键点数据转换为三维的第二关键点数据。
对于该步骤21至步骤23,以3DMM为例,可以将3DMM通过初始化参数(身份参数,表情参数和相机外参)重建一个初始化虚拟化角色,然后将该虚拟角色投影到2维平面,从而可以得到二维的人脸关键点(即由三维的第二表情特征转换为二维的第二表情特征),而二维的第一表情特征可以基于上述训练好的模型M得到,即将语音数据输入到训练好的模型M中得到二维的关键点数据,从二维的第二关键点数据中解析出二维的第一表情特征,进而可以基于二维的第一表情特征和二维的第二表情特征之间的差异,对3DMM中的初始化参数进行修正,得到二维的第二关键点数据,然后将二维的第二关键点数据转换为三维的第二关键点数据。
在本申请实施例的可选实施方式中,在第一表情特征为基于语音数据得到的三维数据的情况下,对于上述步骤13中涉及到的基于第一表情特征和第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据的方式,进一步可以包括:基于三维的第一表情特征和三维的第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到三维的第二关键点数据。
对于第一表情特征为基于语音数据得到的三维数据的情况,三维的第一表情特征可以基于上述训练好的模型M得到,即将语音数据输入到训练好的模型M中得到三维的关键点数据。然后,以3DMM为例,可以将3DMM通过初始化参数(身份参数,表情参数和相机外参)重建一个初始化虚拟化角色,得到三维的第二关键点数据,而进而可以基于三维的第一表情特征和三维的第二表情特征之间的差异,对3DMM中的初始化参数进行修正,得到三维的第二关键点数据。
在本申请实施例的另一个可选实施方式中,如图3所示,对于上述步骤104中涉及到的通过第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据的方式,进一步可以包括:
步骤31,对第一关键点数据进行解析得到第一对象的第一身份特征;
步骤32,对初始化参数进行解析得到待重建虚拟角色的第二身份特征;
步骤33,基于第一身份特征和第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据。
对于该步骤31至步骤33,与上述步骤11至步骤13是类似的;不同的是,在步骤31至步骤33中是就基于身份特征之间的差异进行修正,而上述步骤11至步骤13是基于口型区域对应的表情特征进行修正。而基于身份特征之间的差异进行修正后,可以得到另一个身份的虚拟角色,也就是说,在本申请中可以基于身份特征的修正,对虚拟角色的身份进行替换。当然,该步骤31至步骤33中的修正,在一个示例中,也可以是初始化参数为3DMM中的参数为例,即可以对3DMM中的身份特征进行修正。
以上述face_shape=s_mean+id_core*id_feature+exp_core*exp_feature为例,当需要显示其他人物的相同说话表情时,只需要将face_shape表达式中id_feature替换为指定的人物特征即可获得新人物身份的face_shape。这样就可以恢复出在“说”相同语音的新人物形象,然后对每帧更换过身份的face_shape进行渲染。
在本申请实施例的可选实施方式中,在第一身份特征为基于语音数据得到的二维数据的情况下,对于上述步骤33中涉及到的基于第一身份特征和第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据的方式,进一步可以包括:
步骤41,将三维的第二身份特征转换为二维的第二身份特征;
步骤42,基于二维的第一身份特征和二维的第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;
步骤43,将二维的第二关键点数据转换为三维的第二关键点数据。
对于该步骤41至步骤43,以3DMM为例,可以将3DMM通过初始化参数(身份参数,表情参数和相机外参)重建一个初始化虚拟化角色,然后将该虚拟角色投影到2维平面,从而可以得到二维的人脸关键点(即由三维的第二身份特征转换为二维的第二身份特征),而二维的第一身份特征可以基于上述训练好的模型M得到,即将语音数据输入到训练好的模型M中得到二维的关键点数据,从二维的关键点数据中解析出二维的第一身份特征,进而可以基于二维的第一身份特征和二维的第二身份特征之间的差异,对3DMM中的初始化参数进行修正,得到二维的第二关键点数据,然后将二维的第二关键点数据转换为三维的第二关键点数据。
在本申请实施例的可选实施方式中,在第一身份特征为基于语音数据得到的三维数据的情况下,对于上述步骤33中涉及到的基于第一身份特征和第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据的方式,进一步可以包括:基于三维的第一身份特征和三维的第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到三维的第二关键点数据。
对于第一身份特征为基于语音数据得到的三维数据的情况,三维的第一身份特征可以基于上述训练好的模型M得到,即将语音数据输入到训练好的模型M中得到三维的关键点数据,进而从三维的关键点数据中解析出三维的第一身份特征。进一步,以3DMM为例,可以将3DMM通过初始化参数(身份参数,表情参数和相机外参)重建一个初始化虚拟化角色,得到三维的第二关键点数据,进而从第二关键点数据中解析出三维的第二身份特征,而进而可以基于三维的第一身份特征和三维的第二身份特征之间的差异,对3DMM中的初始化参数进行修正,得到三维的第二关键点数据。
在本申请实施例中还提供了一种基于语音数据重建虚拟角色的方法,该方法以视频直播为应用场景,如图4所示,该方法的步骤包括:
步骤402,实时获取直播视频数据中与第一对象对应的语音数据,并基于语音数据确定第一对象的第一关键点数据;其中,第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
步骤404,通过第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
步骤406,对第二关键点数据行渲染得到与发出语音数据的口型对应的第一虚拟角色。
通过上述步骤402至步骤406,可以获取实时视频直播中直播对象的语音数据,基于此,可以重建出一个可以发出对应语音数据的虚拟角色,即以游戏直播为例,在游戏主播进行直播过程,可以在直播画面中重建出一个与游戏主播实时同步发出语音数据的虚拟角色,则可以在游戏直播过程中,游戏主播可以不出境,而是替换成一个虚拟角色发出对应的语音。其中,该虚拟角色可以是一个卡通人物,或者是明星偶像,丰富了视频过程中视频画面的效果,同时也提升了视频直播的直播效果,让观看直播的用户体验更好。
此外,上述以视频直播为应用场景的基于语音数据重建虚拟角色的方法还可以包括图2至图3中的方法步骤,所起到的作用也是类似的,在此不再赘述。
在本申请实施例中还提供与图1对应的装置,本申请实施例提供一种基于语音数据重建虚拟角色的装置,如图5所示,该装置包括:
第一获取模块52,用于获取与第一对象对应的语音数据,并基于语音数据确定第一对象的第一关键点数据;其中,第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
第一修正模块54,用于通过第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
第一渲染模块56,用于对第二关键点数据行渲染得到与发出语音数据的口型对应的第一虚拟角色。
通过本申请实施例的装置,在获取到第一对象发出的语音数据之后,基于该语音数据对应的第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据,对该第二关键点数据进行渲染得到与发出语音数据的口型对应的第一虚拟角色,从而实现了基于语音数据重建发出对应语音的虚拟角色,解决了现有技术中用户与数字人语义交互方式较为单一的问题,丰富了数字人与用户交互的方式,同时也提升了用户体验。
可选地,本申请实施例中的第一修正模块54进一步可以包括:第一解析单元,用于对第一关键点数据进行解析得到口型区域对应的第一表情特征;第二解析单元,用于对初始化参数进行解析得到口型区域对应的第二表情特征;第一修正单元,用于基于第一表情特征和第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据。
可选地,本申请实施例中的第一修正模块54进一步可以包括:第三解析单元,用于对第一关键点数据进行解析得到第一对象的第一身份特征;第四解析单元,用于对初始化参数进行解析得到待重建虚拟角色的第二身份特征;第二修正单元,用于基于第一身份特征和第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据。
可选地,在第一表情特征为基于语音数据得到的二维数据的情况下,本申请实施例中的第一修正单元进一步可以包括:第一转换子单元,用于将三维的第二表情特征转换为二维的第二表情特征;第一修正子单元,用于基于二维的第一表情特征和二维的第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;第二转换子单元,用于将二维的第二关键点数据转换为三维的第二关键点数据。
可选地,在第一表情特征为基于语音数据得到的三维数据的情况下,本申请实施例中的第一修正单元进一步可以包括:第二修正子单元,用于基于三维的第一表情特征和三维的第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到三维的第二关键点数据。
可选地,在第一身份特征为基于语音数据得到的二维数据的情况下,本申请实施例中的第二修正单元进一步可以包括:第三转换子单元,用于将三维的第二身份特征转换为二维的第二身份特征;第三修正子单元,用于基于二维的第一身份特征和二维的第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;第四转换子单元,用于将二维的第二关键点数据转换为三维的第二关键点数据。
可选地,在第一身份特征为基于语音数据得到的三维数据的情况下,本申请实施例中的第二修正单元进一步可以包括:第四修正子单元,用于基于三维的第一身份特征和三维的第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到三维的第二关键点数据。
在本申请实施例中还提供与图4对应的装置,即本申请实施例提供了一种基于语音数据重建虚拟角色的装置,如图6所示,该装置包括:
第二获取模块62,用于实时获取直播视频数据中与第一对象对应的语音数据,并基于语音数据确定第一对象的第一关键点数据;其中,第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
第二修正模块64,用于通过第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
第二渲染模块66,用于对第二关键点数据行渲染得到与发出语音数据的口型对应的第一虚拟角色。
通过本申请实施例的装置,可以获取实时视频直播中直播对象的语音数据,基于此,可以重建出一个可以发出对应语音数据的虚拟角色,即以游戏直播为例,在游戏主播进行直播过程,可以在直播画面中重建出一个与游戏主播实时同步发出语音数据的虚拟角色,则可以在游戏直播过程中,游戏主播可以不出境,而是替换成一个虚拟角色发出对应的语音。其中,该虚拟角色可以是一个卡通人物,或者是明星偶像,丰富了视频过程中视频画面的效果,同时也提升了视频直播的直播效果,让观看直播的用户体验更好。
此外,上述以视频直播为应用场景的基于语音数据重建虚拟角色的方法还可以包括图4中的其他模块或单元,所起到的作用也是类似的,在此不再赘述。
本申请实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如图1至3中的方法步骤,或实现如图4中的方法步骤,且所起到的作用也是类似的,在此不再赘述。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于语音数据重建虚拟角色的方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于语音数据重建虚拟角色的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (10)
1.一种基于语音数据重建虚拟角色的方法,其特征在于,包括:
获取与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色;
其中,所述通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据包括:对所述第一关键点数据进行解析得到第一对象的第一身份特征;对所述初始化参数进行解析得到待重建虚拟角色的第二身份特征;基于所述第一身份特征和所述第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据;
其中,在第一身份特征为基于语音数据得到的二维数据的情况下,基于所述第一身份特征和所述第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据包括:将三维的第二身份特征转换为二维的第二身份特征;基于二维的第一身份特征和二维的第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;将二维的第二关键点数据转换为三维的第二关键点数据。
2.根据权利要求1所述的方法,其特征在于,所述通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据包括:
对所述第一关键点数据进行解析得到口型区域对应的第一表情特征;
对所述初始化参数进行解析得到口型区域对应的第二表情特征;
基于所述第一表情特征和所述第二表情特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据。
3.根据权利要求2所述的方法,其特征在于,在所述第一表情特征为基于语音数据得到的二维数据的情况下,所述基于所述第一表情特征和所述第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据包括:
将三维的第二表情特征转换为二维的第二表情特征;
基于二维的第一表情特征和二维的第二表情特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;
将二维的第二关键点数据转换为三维的第二关键点数据。
4.根据权利要求2所述的方法,其特征在于,在所述第一表情特征为基于语音数据得到的三维数据的情况下,所述基于所述第一表情特征和所述第二表情特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据包括:
基于三维的第一表情特征和三维的第二表情特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到三维的第二关键点数据。
5.根据权利要求1所述的方法,其特征在于,在第一身份特征为基于语音数据得到的三维数据的情况下,基于所述第一身份特征和所述第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据包括:
基于三维的第一身份特征和三维的第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到三维的第二关键点数据。
6.一种基于语音数据重建虚拟角色的方法,其特征在于,包括:
实时获取直播视频数据中与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色;
其中,所述通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据包括:对所述第一关键点数据进行解析得到第一对象的第一身份特征;对所述初始化参数进行解析得到待重建虚拟角色的第二身份特征;基于所述第一身份特征和所述第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据;
其中,在第一身份特征为基于语音数据得到的二维数据的情况下,基于所述第一身份特征和所述第二身份特征之间的差异,对待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据包括:将三维的第二身份特征转换为二维的第二身份特征;基于二维的第一身份特征和二维的第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;将二维的第二关键点数据转换为三维的第二关键点数据。
7.一种基于语音数据重建虚拟角色的装置,其特征在于,包括:
第一获取模块,用于获取与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
第一修正模块,用于通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
第一渲染模块,用于对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色;
其中,所述第一修正模块包括:第三解析单元,用于对所述第一关键点数据进行解析得到第一对象的第一身份特征;第四解析单元,用于对所述初始化参数进行解析得到待重建虚拟角色的第二身份特征;第二修正单元,用于基于所述第一身份特征和所述第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据;
在第一身份特征为基于语音数据得到的二维数据的情况下,所述第二修正单元包括:第三转换子单元,用于将三维的第二身份特征转换为二维的第二身份特征;第三修正子单元,用于基于二维的第一身份特征和二维的第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;第四转换子单元,用于将二维的第二关键点数据转换为三维的第二关键点数据。
8.一种基于语音数据重建虚拟角色的装置,其特征在于,包括:
第二获取模块,用于实时获取直播视频数据中与第一对象对应的语音数据,并基于所述语音数据确定所述第一对象的第一关键点数据;其中,所述第一关键点数据包括第一对象发出语音数据时的口型关键点数据;
第二修正模块,用于通过所述第一关键点数据对待重建虚拟角色的初始化参数进行修正,得到第二关键点数据;
第二渲染模块,用于对所述第二关键点数据行渲染得到与发出所述语音数据的口型对应的第一虚拟角色;
其中,所述第二修正模块包括:第五解析单元,用于对所述第一关键点数据进行解析得到第一对象的第一身份特征;第六解析单元,用于对所述初始化参数进行解析得到待重建虚拟角色的第二身份特征;第三修正单元,用于基于所述第一身份特征和所述第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到所述第二关键点数据;
在第一身份特征为基于语音数据得到的二维数据的情况下,所述第三修正单元包括:第五转换子单元,用于将三维的第二身份特征转换为二维的第二身份特征;第五修正子单元,用于基于二维的第一身份特征和二维的第二身份特征之间的差异,对所述待重建虚拟角色的初始化参数进行修正,得到二维的第二关键点数据;第六转换子单元,用于将二维的第二关键点数据转换为三维的第二关键点数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤,或实现权利要求6所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法步骤,或实现权利要求6所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110898307.8A CN113689532B (zh) | 2021-08-05 | 2021-08-05 | 基于语音数据重建虚拟角色的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110898307.8A CN113689532B (zh) | 2021-08-05 | 2021-08-05 | 基于语音数据重建虚拟角色的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113689532A CN113689532A (zh) | 2021-11-23 |
CN113689532B true CN113689532B (zh) | 2023-07-18 |
Family
ID=78578988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110898307.8A Active CN113689532B (zh) | 2021-08-05 | 2021-08-05 | 基于语音数据重建虚拟角色的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689532B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117884A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
CN105957129A (zh) * | 2016-04-27 | 2016-09-21 | 上海河马动画设计股份有限公司 | 一种基于语音驱动及图像识别的影视动画制作方法 |
CN110533750A (zh) * | 2019-07-10 | 2019-12-03 | 浙江工业大学 | 一种将音频转换为带有自定义3d角色的手语动画的方法 |
JP2020071851A (ja) * | 2018-10-31 | 2020-05-07 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | アバタによる生放送方法及び装置 |
WO2020216025A1 (zh) * | 2019-04-26 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 虚拟角色的面部显示方法、装置、计算机设备及可读存储介质 |
CN112131988A (zh) * | 2020-09-14 | 2020-12-25 | 北京百度网讯科技有限公司 | 确定虚拟人物唇形的方法、装置、设备和计算机存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218842B (zh) * | 2013-03-12 | 2015-11-25 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN106485774B (zh) * | 2016-12-30 | 2019-11-15 | 当家移动绿色互联网技术集团有限公司 | 基于语音实时驱动人物模型的表情和姿态的方法 |
CN108538308B (zh) * | 2018-01-09 | 2020-09-29 | 网易(杭州)网络有限公司 | 基于语音的口型和/或表情模拟方法及装置 |
CN111489424A (zh) * | 2020-04-10 | 2020-08-04 | 网易(杭州)网络有限公司 | 虚拟角色表情生成方法、控制方法、装置和终端设备 |
CN111986297A (zh) * | 2020-08-10 | 2020-11-24 | 山东金东数字创意股份有限公司 | 基于语音控制的虚拟角色面部表情实时驱动系统和方法 |
-
2021
- 2021-08-05 CN CN202110898307.8A patent/CN113689532B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117884A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
CN105957129A (zh) * | 2016-04-27 | 2016-09-21 | 上海河马动画设计股份有限公司 | 一种基于语音驱动及图像识别的影视动画制作方法 |
JP2020071851A (ja) * | 2018-10-31 | 2020-05-07 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | アバタによる生放送方法及び装置 |
WO2020216025A1 (zh) * | 2019-04-26 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 虚拟角色的面部显示方法、装置、计算机设备及可读存储介质 |
CN110533750A (zh) * | 2019-07-10 | 2019-12-03 | 浙江工业大学 | 一种将音频转换为带有自定义3d角色的手语动画的方法 |
CN112131988A (zh) * | 2020-09-14 | 2020-12-25 | 北京百度网讯科技有限公司 | 确定虚拟人物唇形的方法、装置、设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113689532A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11670015B2 (en) | Method and apparatus for generating video | |
CN111080759B (zh) | 一种分镜效果的实现方法、装置及相关产品 | |
US20220392224A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN110418095B (zh) | 虚拟场景的处理方法、装置、电子设备及存储介质 | |
WO2023011221A1 (zh) | 混合变形值的输出方法及存储介质、电子装置 | |
WO2023050650A1 (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN113077537B (zh) | 一种视频生成方法、存储介质及设备 | |
US10970909B2 (en) | Method and apparatus for eye movement synthesis | |
CN111985281B (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN111050023A (zh) | 视频检测方法、装置、终端设备及存储介质 | |
WO2024000867A1 (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN108491808B (zh) | 用于获取信息的方法及装置 | |
CN113067953A (zh) | 客户服务方法、系统、装置、服务器及存储介质 | |
CN112669422B (zh) | 仿真3d数字人生成方法、装置、电子设备及存储介质 | |
CN113299312A (zh) | 一种图像生成方法、装置、设备以及存储介质 | |
CN113948105A (zh) | 基于语音的图像生成方法、装置、设备及介质 | |
CN113269013B (zh) | 对象行为分析方法、信息显示方法及电子设备 | |
CN112364144A (zh) | 交互方法、装置、设备和计算机可读介质 | |
CN111325212A (zh) | 模型训练方法、装置、电子设备和计算机可读存储介质 | |
CN113689532B (zh) | 基于语音数据重建虚拟角色的方法及装置 | |
CN117152308A (zh) | 一种虚拟人动作表情优化方法与系统 | |
CN113886639A (zh) | 数字人视频生成方法、装置、电子设备及存储介质 | |
CN115499613A (zh) | 视频通话方法、装置、电子设备及存储介质 | |
CN113747086A (zh) | 数字人视频生成方法、装置、电子设备及存储介质 | |
CN111415397A (zh) | 一种人脸重构、直播方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |