CN112767520A - 数字人生成方法、装置、电子设备及存储介质 - Google Patents
数字人生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112767520A CN112767520A CN202110018557.8A CN202110018557A CN112767520A CN 112767520 A CN112767520 A CN 112767520A CN 202110018557 A CN202110018557 A CN 202110018557A CN 112767520 A CN112767520 A CN 112767520A
- Authority
- CN
- China
- Prior art keywords
- digital
- information
- digital person
- person
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 230000009471 action Effects 0.000 claims abstract description 115
- 230000008921 facial expression Effects 0.000 claims description 84
- 230000001815 facial effect Effects 0.000 claims description 52
- 230000000877 morphologic effect Effects 0.000 claims description 22
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 19
- 230000003993 interaction Effects 0.000 abstract description 14
- 238000004891 communication Methods 0.000 abstract description 11
- 230000008859 change Effects 0.000 description 30
- 230000033001 locomotion Effects 0.000 description 26
- 238000012545 processing Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000008451 emotion Effects 0.000 description 9
- 210000001508 eye Anatomy 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002837 heart atrium Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004418 eye rotation Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例公开了一种数字人生成方法、装置、电子设备及存储介质,该方法包括获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度;获取与呈现角度和动作状态对应的数字人图像;输出数字人图像。通过该方法的实施,可以获取到控制参数和方位参数,基于控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,获取并输出与呈现角度对应的数字人图像,使得模拟出用户能够实时与3D数字人处于面对面交流的环境,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验。
Description
技术领域
本申请涉及人机交互技术领域,更具体地,涉及一种数字人生成方法、装置、电子设备及存储介质。
背景技术
近些年来,随着信息技术的不断发展和应用,为满足用户需求,数字人呈现场景也日益增多。传统的数字人呈现方法一般是通过固定几个动作,针对不同场景向用户呈现对应状态下的数字人。而为了提升用户体验,现阶段出现了一种通过数字人呈现的方法,该种方法通常是通过神经网络的训练,控制数字人能够呈现更加多样化的动作,从而保证呈现效果更好。虽然该种方法相较于传统的数字人呈现方法,显示效果更加逼真,但是由于在现有技术中该通过数字人呈现的方法中,数字人呈现画面通常会固定呈现角度,呈现画面的呈现效果不逼真。
发明内容
鉴于上述问题,本申请提出了一种数字人生成方法、装置、电子设备及存储介质,以解决以上问题之一。
第一方面,本申请实施例提供了一种数字人生成方法,该数字人生成方法包括:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度;获取与呈现角度和动作状态对应的数字人图像;以及输出数字人图像。
可选地,获取与呈现角度和动作状态对应的数字人图像,包括:获取3D数字人的当前呈现角度;以及根据当前呈现角度和呈现角度调整数字人图像中3D数字人所呈现的方位,得到与呈现角度对应的数字人图像。
可选地,在获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息的步骤之前,数字人生成方法还包括:获取多张包括目标模特的样本图像;根据多张样本图像获取目标模特的形态信息;以及获取原始3D数字人以及原始3D数字人的建模信息,并根据形态信息和建模信息,生成3D数字人。
可选地,形态信息包括面部信息;获取原始3D数字人以及原始3D数字人的建模信息,并根据形态信息和建模信息,生成3D数字人,包括:获取原始3D数字人以及建模信息,建模信息包括原始3D数字人的原始面部关键点;以及根据面部信息获取目标模特的目标面部关键点,将原始面部关键点与目标面部关键点对应,生成3D数字人。
可选地,数字人生成方法还包括:根据面部信息定义目标模特的面部表情;以及将面部表情与目标面部关键点关联,以使3D数字人的面部关键点与面部表情对应。
可选地,获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息,包括:获取用于描述目标物位置的第一空间位置信息和用于描述参照物位置的第二空间位置信息,参照物用于为目标物提供参照坐标;根据第一空间位置信息获取3D数字人的目标坐标参数;根据第二空间位置信息获取参照物的参照坐标参数;以及将目标坐标参数与参照坐标参数进行比对,确定目标物与参照物之间的距离和相对角度,得到包括距离和相对角度的方位参数。
可选地,控制参数包括输入信息;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,包括:获取与输入信息对应的语义信息;根据语义信息得到与语义信息对应的3D数字人的面部表情参数;根据面部表情参数控制3D数字人的面部表情,以控制3D数字人的动作状态。
可选地,控制参数包括输入信息;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,包括:获取与输入信息对应的发音信息;根据发音信息得到与发音信息对应的3D数字人的嘴型参数;根据嘴型参数控制3D数字人的嘴型,以控制3D数字人的动作状态。
可选地,控制参数包括输入信息;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,包括:获取与输入信息对应的语义信息;基于语义信息获取反馈信息,并获取反馈信息的语义类别;根据语义类别得到与语义类别对应的数字人的躯干动作参数;根据躯干动作参数控制3D数字人的躯干动作,以控制3D数字人的动作状态。
可选地,3D数字人为多个;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,包括:根据控制参数控制多个3D数字人的动作状态;以及根据方位信息确定3D数字人的呈现角度。
可选地,控制参数为多个,每个控制参数与3D数字人对应;根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,包括:获取每个3D数字人对应的身份信息;以及若根据身份信息确定3D数字人符合预设身份,则通过控制参数控制对应的3D数字人的动作状态。
可选地,在输出数字人图像之后,数字人生成方法还包括:获取多张数字人图像以及输出各张数字人图像的时序;根据时序,将多张数字人图像合成数字人视频;为数字人视频配置对应的音频信息;以及同步播放数字人视频和音频信息。
第二方面,本申请实施例提供了一种数字人生成装置,该数字人生成装置包括:信息获取模块、控制模块、数字人图像获取模块和数字人图像输出模块。其中:信息获取模块用于获取控制参数和方位参数,所述方位参数包括目标物相对于参考位置的相对位置信息。控制模块用于根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度。数字人图像获取模块用于获取与所述呈现角度和所述动作状态对应的数字人图像。数字人图像输出模块用于输出所述数字人图像。
可选地,控制模块包括当前呈现角度获取单元和数字人图像获取单元。各功能单元详细说明如下:当前呈现角度获取单元用于获取所述3D数字人的当前呈现角度。数字人图像获取单元用于根据所述当前呈现角度和所述呈现角度调整所述数字人图像中所述3D数字人所呈现的方位,得到与所述呈现角度对应的数字人图像。
可选地,本实施例提供的数字人生成装置还包括样本图像获取模块、形态信息获取模块和3D数字人生成模块。其中:样本图像获取模块用于获取多张包括目标模特的样本图像。形态信息获取模块用于根据多张所述样本图像获取所述目标模特的形态信息。3D数字人生成模块用于获取原始3D数字人以及所述原始3D数字人的建模信息,并根据所述形态信息和所述建模信息,生成所述3D数字人。
可选地,3D数字人生成模块包括原始面部关键点获取单元和对应单元。各功能单元详细说明如下:原始面部关键点获取单元用于获取原始3D数字人以及建模信息,建模信息包括原始3D数字人的原始面部关键点。对应单元用于根据面部信息获取目标模特的目标面部关键点,将原始面部关键点与目标面部关键点对应,生成3D数字人。
可选地,本实施例提供的数字人生成装置还包括面部表情获取模块和面部关键点与面部表情对应模块。其中:面部表情获取模块用于根据面部信息定义目标模特的面部表情。面部关键点与面部表情对应模块用于将面部表情与目标面部关键点关联,以使3D数字人的面部关键点与面部表情对应。
可选地,信息获取模块包括参照坐标获取单元、目标坐标参数获取单元、参照坐标参数获取单元和方位参数获取单元。各功能单元详细说明如下:参照坐标获取单元用于获取用于描述目标物位置的第一空间位置信息和用于描述参照物位置的第二空间位置信息,参照物用于为目标物提供参照坐标。目标坐标参数获取单元用于根据第一空间位置信息获取目标物的目标坐标参数。参照坐标参数获取单元用于根据第二空间位置信息获取参照物的参照坐标参数。方位参数获取单元用于将目标坐标参数与参照坐标参数进行比对,确定目标物与参照物之间的距离和相对角度,得到包括距离和相对角度的方位参数。
可选地,控制参数包括输入信息;控制模块包括语义信息获取单元、面部表情参数获取单元和第一动作状态控制单元。各功能单元详细说明如下:语义信息获取单元用于获取与输入信息对应的语义信息。面部表情参数获取单元用于根据语义信息得到与语义信息对应的3D数字人的面部表情参数。第一动作状态控制单元用于根据面部表情参数控制3D数字人的面部表情,以控制3D数字人的动作状态。
可选地,控制参数包括输入信息;控制模块包括发音信息获取单元、嘴型参数获取单元和第二动作状态控制单元。各功能单元详细说明如下:发音信息获取单元用于获取与输入信息对应的发音信息。嘴型参数获取单元用于根据发音信息得到与发音信息对应的3D数字人的嘴型参数。第二动作状态控制单元根据嘴型参数控制3D数字人的嘴型,以控制3D数字人的动作状态。
可选地,控制参数包括输入信息;控制模块包括语义信息获取单元、语义类别获取单元、躯干动作参数获取单元和第三动作状态控制单元。各功能单元详细说明如下:语义信息获取单元用于获取与输入信息对应的语义信息。语义类别获取单元用于基于语义信息获取反馈信息,并获取反馈信息的语义类别。躯干动作参数获取单元用于根据语义类别得到与语义类别对应的数字人的躯干动作参数。第三动作状态控制单元用于根据躯干动作参数控制3D数字人的躯干动作,以控制3D数字人的动作状态。
可选地,3D数字人为多个;控制模块包括第四动作状态控制单元和呈现角度确定单元。各功能单元详细说明如下:第四动作状态控制单元用于根据控制参数控制多个3D数字人的动作状态。呈现角度确定单元用于根据方位信息确定3D数字人的呈现角度。
可选地,控制参数为多个,每个控制参数与3D数字人对应;控制模块包括身份信息获取单元和第五动作状态控制单元。各功能单元详细说明如下:身份信息获取单元用于获取每个3D数字人对应的身份信息。第五动作状态控制单元用于若根据身份信息确定3D数字人符合预设身份,则通过控制参数控制对应的3D数字人的动作状态。
可选地,本实施例提供的数字人生成装置还包括时序获取模块、数字人视频合成模块、音频信息配置模块和同步播放模块。其中:时序获取模块用于获取多张数字人图像以及输出各张数字人图像的时序。数字人视频合成模块用于根据时序,将多张数字人图像合成数字人视频。音频信息配置模块用于为数字人视频配置对应的音频信息。同步播放模块用于同步播放数字人视频和音频信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器;一个或多个程序,其中一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行第一方面提供的数字人生成方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行第一方面提供的数字人生成方法的步骤。
相对于现有技术,本申请实施例提供的数字人生成方法、装置、电子设备及存储介质可以获取到控制参数和方位参数,基于控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,获取并输出与呈现角度对应的数字人图像,使得模拟出用户能够实时与3D数字人处于面对面交流的环境,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种数字人生成方法的应用环境示意图。
图2示出了本申请实施例提供的一种数字人生成方法的流程示意图。
图3示出了图2所示的方法中生成3D数字人的流程示意图。
图4示出了图2所示的方法中生成3D数字人的又一流程示意图。
图5示出了图4所示的方法中面部关键点对应的流程示意图。
图6示出了图2所示的方法中获取方位参数的流程示意图。
图7示出了图2所示的方法中获取数字人图像的流程示意图。
图8示出了图2所示的方法中控制面部表情的流程示意图。
图9示出了图2所示的方法中控制嘴型的流程示意图。
图10示出了图2所示的方法中控制躯干动作的流程示意图。
图11示出了图2所示的方法中控制多个3D数字人的流程示意图。
图12示出了图2所示的方法中基于身份信息控制3D数字人的流程示意图。
图13示出了本申请实施例提供的一种数字人生成方法的又一流程示意图。
图14示出了本申请实施例提出的一种数字人生成装置的功能模块框图。
图15示出了本申请实施例提出的一种电子设备的功能模块框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,现有技术中的数字人呈现方式一般是通过训练神经网络,构建输出数字人图像的模型。为提高数字人呈现画面的逼真程度,通常会为数字人设计各种动作,该各种动作与向用户反馈和传导的语音进行配合,使得用户的观感更佳。虽然将动作与语音配合的方式能够显著地提高数字人呈现画面的逼真程度,但是,该种方式仅将语音与动作进行配合,没有建立用户的姿态与数字人之间的联系,当该种方式在实际应用时,若用户在相对屏幕(用于播放数字人画面的屏幕)较偏区域时,该屏幕中的数字人通常还是处于固定地正视于屏幕正前方,而人类在相互交流时,一般是处于相互对视状态,此时数字人的目光投射方向显然与人类的一般行为不相符,因此,现有技术中的数字人呈现方式未深入考虑用户的行为,进而导致数字人呈现画面的逼真程度较低。
为了能够解决上述描述的问题,本申请发明人投入研发,致力于研究如何在用户与数字人进行交互时,更多地考虑用户的行为,使数字人可以始终处于面视用户的状态。基于此,发明人提出了本申请实施例的数字人生成方法、装置、电子设备及存储介质,应用于人机交互场景,使得在用户与数字人交互时,能够使数字人与用户处于实时对视状态,提升了呈现画面的逼真效果,优化了人机交互体验。
为了更好理解本申请实施例提供的一种数字人生成方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的数字人生成方法可以应用于如图1所示的交互系统100。交互系统100包括智能终端101以及服务端102,服务端102与智能终端101通信连接。其中,服务端102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。另外,服务器可以是云端服务器,还可以是传统机房服务器,在此不作具体限定。
在一些实施例中,智能终端101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于智能终端101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像、视频输入模块输入视频等,还可以是基于智能终端101上安装有的手势识别模块,使得用户可以实现手势输入等交互方式。
其中,智能终端101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP、微信小程序等)与服务端102进行通信,具体的,服务端102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务端102注册一个用户帐号,并基于该用户帐号与服务端102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音信息、图像信息或视频信息等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务端102,使得服务端102可以接收该信息并进行处理及存储,服务端102还可以接收该信息并根据该信息返回一个对应的输出信息至智能终端101。
在一些实施方式中,客户端应用程序可以用于向用户提供客户服务,与用户进行客服沟通,客户端应用程序可以基于数字人与用户进行交互。具体的,客户端应用程序可以接收用户输入的信息,并基于数字人对该信息作出应答。其中,数字人是基于可视化图形的软件程序,该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。数字人可以是模拟真人式的数字人,例如根据用户自身或其他人的形态建立的形似真人的数字人,也可以是动漫效果式的数字人,例如动物形态或卡通人物形态的数字人。
在一些实施方式中,智能终端101在获取与用户输入的信息对应的回复信息后,可以在智能终端101的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的数字人图像。在一些示例中,在播放数字人图像的同时,可以通过智能终端101的扬声器或与其连接的其他音频输出设备播放与数字人图像对应的音频,还可以在智能终端101的显示屏上显示与该回复信息对应的文字或图形,实现在图像、语音、文字等多个方面上与用户的多态交互。
在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于智能终端101上,使得智能终端101无需依赖与服务端102建立通信即可实现与用户的交互,此时交互系统100可以只包括智能终端101。
上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的数字人生成方法、装置、电子设备及存储介质进行详细说明。
请参阅图2,本申请实施例提供了一种数字人生成方法,该数字人生成方法可以应用于上述交互系统100,也可以应用于上述交互系统100中的智能终端101,还可以应用于上述交互系统100中的服务端102。具体地,该数字人生成方法可以包括以下步骤S11至步骤S14。
步骤S11:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息。
在本实施例中,控制参数可以包括用于获得3D数字人动作反馈的参数。例如,控制参数可以是用户输入的信息,也可以是基于用户输入的信息生成的3D数字人参数,此处对控制参数的形成不做具体限制。例如,3D数字人参数可以包括用于控制3D数字人嘴型的参数、用于控制3D数字人动作的参数、用户控制3D数字人眼睛的参数等。
具体而言,当控制参数为3D数字人参数时可以通过直接的方式获取3D数字人参数,也可以通过间接的方式获取3D数字人参数。当通过间接的方式获取3D数字人参数时,可以先获取用户输入的信息,基于该信息确定用户意图,根据用户意图生成3D数字人参数;其中,用户输入的信息可以是语音、文字、图像中的至少一者。
在一些示例中,若用户输入的信息为语音,可以对该语音进行语音识别处理,得到与该语音对应的文本,采用意图识别模型对文本进行识别,获得用户意图,基于用户意图确定向用户反馈的反馈信息,并根据反馈信息生成3D数字人参数。例如,对该语音识别得到文本“请播报五个小时后北京的天气”,对该段文本进行意图识别,获得用户意图,进而确定向用户反馈的反馈信息“15时20分北京天气为大雨”,并根据该反馈信息生成用于控制3D数字人的3D数字人参数。需要注意的是,若通过智能终端101获取语音,智能终端101上可以设置有采集声音的麦克风,智能终端101也可以接收其他设备发送的信息以获得语音,此处对获取语音的方式不做具体限制。
在一些示例中,若用户输入的信息为文字,可以采用意图识别模型对该文字进行识别,获得用户意图,基于用户意图确定向用户反馈的反馈信息,并根据反馈信息生成控制参数。例如,若该文字为“西安属于中国的哪个省份?”,对该段文字进行意图识别,获得用户意图,进而确定向用户反馈的反馈信息“陕西省”,并根据该反馈信息生成用于控制3D数字人的3D数字人参数。需要注意的是,若通过智能终端101获取文字,智能终端101上可以设置有采集用于键入文字的键盘,智能终端101也可以接收其他设备发送的信息以获得文字,此处对获取文字的方式不做具体限制。
在一些示例中,若用户输入的信息为图像,可以对该图像进行图像识别处理,得到该图像所表征的用户意图,基于用户意图确定向用户反馈的反馈信息,并根据反馈信息生成控制参数。例如,若图像中包含“OK手势”,对该图像进行图像识别处理,获得用户意图“确定”,进而确定向用户反馈的反馈信息,并根据该反馈信息生成用于控制3D数字人的控制参数。需要注意的是,若通过智能终端101获取图像,智能终端101上可以设置有采集图像的图像采集装置,智能终端101也可以接收其他设备发送的信息以获得图像,此处对获取图像的方式不做具体限制。
在本实施例中,可以采用意图识别模型对用户输入的信息进行意图识别,意图识别模型可以采用RNN(Recurrent Neural Network,循环神经网络)模型、CNN(Convolutional Neural Networks,卷积神经网络)模型、VAE(Variational Autoencoder,变分自编码器)模型、BERT(Bidirectional Encoder Representations fromTransformers,变压器的双向编码器表示)、支持向量机(Support Vector Machine,SVM)等机器学习模型,在此不做限定。例如,意图识别模型还可以是采用上述机器学习模型的变体或组合等。另外,意图识别模型可以部署于智能终端101,也可以部署于服务端102,此处对意图识别模型的部署载体不做具体限制,具体以本实施例中获取用户意图的实际场景确定。
在本实施例中,方位参数可以包括目标物相对于参考位置的相对位置信息。其中,目标物可以包括用于与3D数字人进行交互的物体。例如,目标物可以包括与3D数字人进行交互的用户、机器人等。参考位置可以是为了获知方位参数预先设定的位置。例如,参考位置可以是用于采集目标物图像的摄像头,也可以是用于呈现3D数字人的智能终端101的边框,此处对参考位置的设置不做具体限制。另外,相对位置信息可以包括用于表征目标物与参考位置之间的位置关系的信息。例如,相对位置信息可以包括目标物与参考位置支架的距离、相对角度等。
在本实施例中,可以通过测量的方式获取方位参数,也可以通过用户输入的信息获取方位参数。当通过测量的方式获取方位参数时,可以获取目标物的所在位置,根据目标物的所在位置和参考位置得到相对位置信息。其中,获取目标物的所在位置的方法可以包括红外测距、音波测距、图像测距等,此处对获取目标物的所在位置的方法不做具体限制。当通过用户输入的信息获取方位参数时,可以通过对用户输入的信息进行识别,得到包括相对位置信息的用户意图,进而得到方位参数。需要注意的是,在一些示例中,可以预先设置通过用户输入的信息获取到的方位参数的优先级,大于通过测量的方式获取到的方位参数的优先级,也就是说,若通过用户输入的信息获取到的相对位置信息为A,通过测量的方式获取到的相对位置信息为B,则以A作为方位参数。因此,通过设置优先级,能够优先考虑用户的意图,使得本实施例的数字人生成方法适用于一些特殊场景(例如,当用于呈现3D数字人的智能终端101为会场大屏时,与3D数字人交互的用户想让3D数字人朝向会场中的某处位置,而不是想让3D数字人朝向自己),进而拓宽了该数字人生成方法的应用场景,更加符合用户控制3D数字人的需求。
步骤S12:根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度。
在本实施例中,动作状态可以包括3D数字人行为的状态。例如,动作状态可以包括3D数字人点头、眼球转动、吸鼻、露齿、行走、双臂摆动等。需要注意的是,控制参数可以是基于时序的连续性参数,从而控制3D数字人的动作做规定动作。例如,控制参数可以包括在时刻t1控制3D数字人头部上扬15度,在时刻t2控制3D数字人头部左右摆动,在时刻t3控制3D数字人微笑等。
在本实施例中,3D数字人的呈现角度可以包括3D数字人的眼球、面部等在呈现3D数字人的载体的呈现角度。例如,当根据方位参数确定3D数字人的面部朝向与目标物的面部朝向,偏离3D数字人的面部与目标物的面部形成的轴线方向15度,则确定并调整3D数字人当前的呈现角度,使3D数字人的面部朝向处于该轴线方向。
步骤S13:获取与呈现角度和动作状态对应的数字人图像。
在本实施例中,可以通过调整3D数字人的角度,获取到数字人图像,也可以通过调整获取3D数字人的角度,获取到数字人图像,还可以是调整3D数字人的角度以及调整获取3D数字人的角度结合,获取到数字人图像。
当通过调整3D数字人的角度,获取到数字人图像时,可以调整3D数字人转动,以使3D数字人的角度符合呈现角度,进而获取到与呈现角度对应的数字人图像。例如,当3D数字人的正面相较于预期的呈现角度偏差15度,控制3D数字人转动15度,以使3D数字人的正面相与预期的呈现角度相符,进而获取到与该呈现角度对应的数字人图像。此时,用于获取数字人图像的采集模块采集图像的方向可以保持不变,只需要对3D数字人的角度进行调整,该种调整3D数字人的角度的方式尤其适用于3D数字人为预先构建的数字人模型,且该数字人模型中的3D数字人各个方位构建较为完整的场景,而无需消耗大量的算力对图像进行处理。
当通过调整获取3D数字人的角度,获取到数字人图像时,可以调整用于采集数字人图像的采集模块采集图像的方向,以使3D数字人的角度符合呈现角度,进而获取到与呈现角度对应的数字人图像。例如,当3D数字人的正面相较于预期的呈现角度偏差15度,控制该采集模块采集图像的方向偏转15度,以使3D数字人的正面相与预期的呈现角度相符,进而获取到与该呈现角度对应的数字人图像。此时,3D数字人的角度可以保持不变,只需要调整该采集模块采集图像的方向,该种调整采集模块采集图像的方向的方式尤其适用于能够实时计算出3D数字人各个角度的数字人图像、处理能力较强的场景,有效减少前期构建数字人模型的时间。
当调整3D数字人的角度以及调整获取3D数字人的角度结合,获取到数字人图像时,可以调整用于采集数字人图像的采集模块采集图像的方向的同时,调整3D数字人转动,以使3D数字人的角度符合呈现角度,进而获取到与呈现角度对应的数字人图像。例如,当3D数字人的正面相较于预期的呈现角度偏差15度,控制3D数字人转动7.5度,控制该采集模块采集图像的方向偏转7.5度,以使3D数字人的正面相与预期的呈现角度相符,进而获取到与该呈现角度对应的数字人图像。此时,可以同时对该采集模块采集图像的方向和3D数字人的角度进行调整。该种同时对该采集模块采集图像的方向和3D数字人的角度进行调整的方式可以兼容调整3D数字人的角度的方式和调整采集模块采集图像的方向的效果,使得数字人图像中的3D数字人的呈现角度更加符合预期,使得3D数字人的动作变化更加逼真,提高了人机交互体验。
需要注意的是,数字人图像可以被理解为在某一角度拍摄3D数字人所得到的图像,该数字人图像中的3D数字人的呈现角度应当与方位参数对应,3D数字人的动作状态与控制参数对应。
步骤S14:输出数字人图像。
在本实施例中,可以将该数字人图像输出至用于呈现数字人图像的设备,使得该设备呈现该数字人图像。例如,该设备可以为会场大屏幕、投影仪、智能手机等智能终端101。在一些示例中,当用户面对智能终端101时,智能终端101可以获取到用户的朝向,并呈现出与用户朝向对应的3D数字人画面,模拟出用户与3D数字人面对面交流的环境。
在本实施例中,通过上述步骤S11至步骤S14的实施,可以获取到控制参数和方位参数,基于控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,获取并输出与呈现角度对应的数字人图像,使得模拟出用户实时与3D数字人处于面对面交流的环境,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验。
为了能够对3D数字人进行控制,可以先构建3D数字人,为此,本申请实施例还提供一种数字人生成方法,如图3所示,该数字人生成方法可以包括以下步骤S21至步骤S27。在本实施例中提供的数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
步骤S21:获取多张包括目标模特的样本图像。
在本实施例中,目标模特可以包括与3D数字人相关的模特。例如,当3D数字人为某播音主持人C时,目标模特可以是该播音主持人C,还可以是与该播音主持人C面容、骨架、身材相仿的人物,还可以是与该播音主持人C面容、骨架、身材相仿的假人(例如人物蜡像)。
在本实施例中,样本图像可以包括多张目标模特的不同角度的图像。具体地,样本图像可以是在各个角度下,目标模特各种动作、发音、表情等情况下的图像。
在一些示例中,可以将用于采集目标模特的图像的摄像装置环球形布置于目标模特周边,其中,相对于目标模特的同一方位,可以设置不同焦距大小的摄像装置。当目标模特发出声音、变化动作、变化面部表情等时,可以采用各个摄像装置同时采集包括目标模特的图像,从而得到样本图像。
步骤S22:根据多张样本图像获取目标模特的形态信息。
在本实施例中,形态信息可以包括目标模特的躯体变化情况相关的信息。例如,形态信息可以是嘴角下垂、眼球右偏、头部上扬、右手抬起等。
在一些示例中,可以通过目标检测算法从样本图像中获取到目标模特的各个部位,再基于多张连续性的样本图像中的相同部位的变化状态确定该部位的形态信息,从而得到目标模特各个部位的形态信息。例如,目标检测算法可以是滑动窗口目标检测、twostage目标检测算法、one stage目标检测算法等算法。
步骤S23:获取原始3D数字人以及原始3D数字人的建模信息,并根据形态信息和建模信息,生成3D数字人。
在本实施例中,原始3D数字人可以包括已经构建好的3D数字人的模型。例如,该原始3D数字人可以是某一地域的平均人脸模型,也可以是工业动漫中的3D动画模型,此处对原始3D数字人的类型不做具体限制。另外,建模信息可以包括用于构建原始3D数字人的参数信息,通过该建模信息可以还原该原始3D数字人,使该原始3D数字人能够被呈现。
在本实施例中,可以将目标模特的形态信息与建模信息相结合,使得目标模特的形态特征添加至原始3D数字人,从而得到包括目标模特的形态信息的3D数字人。
在本实施例中,通过上述步骤S21至步骤S23的实施,可以将目标模特的形态信息与建模信息相结合,使得生成的3D数字人具有与目标模特相同的形态特征,该生成的3D数字人尤其适用于播音主持、慰藉逝者、私人订制客服等场景,构建出用户与目标模特面对面沟通的环境,大大提升了人机交互的体验。
为了能够得到与目标模特更加接近的3D数字人,可以将目标模特的面部信息与原始3D数字人的面部信息对应。形态信息可以包括面部信息;如图4所示,上述步骤S23可以包括以下步骤S231至步骤S232。
步骤S231:获取原始3D数字人以及建模信息,建模信息包括原始3D数字人的原始面部关键点。
在本实施例中,原始3D数字人的原始面部关键点可以包括用于辨识、定位和控制原始3D数字人面部各个部位的位置。例如,原始面部关键点可以是原始3D数字人的左眼角位置、右眼角位置、嘴角位置、面部轮廓位置、眉毛位置、鼻翼位置等。需要注意的是,建模信息中原始面部关键点在原始3D数字人的面部越密集,最终构建的3D数字人越准确。
步骤S232:根据面部信息获取目标模特的目标面部关键点,将原始面部关键点与目标面部关键点对应,生成3D数字人。
在本实施例中,目标面部关键点可以包括用于辨识和定位目标模特面部各个部位的位置。例如,目标面部关键点可以是目标模特的左眼角位置、右眼角位置、嘴角位置、面部轮廓位置、眉毛位置、鼻翼位置等。需要注意的是,目标面部关键点在目标模特的面部越密集,最终构建的3D数字人越准确。
在本实施例中,可以将原始3D数字人的面部中各个部位的原始面部关键点与目标模特相同部位的目标面部关键点一一对应。例如,原始面部关键点包括原始3D数字人脸部轮廓的各个位置,目标面部关键点包括目标模特脸部轮廓的各个位置,将处于原始3D数字人脸部上庭的各个位置分别与处于目标模特脸部上庭的各个位置一一对应,将处于原始3D数字人脸部中庭的各个位置分别与处于目标模特脸部中庭的各个位置一一对应,将处于原始3D数字人脸部下庭的各个位置分别与处于目标模特脸部下庭的各个位置一一对应,原始3D数字人脸部的其他原始面部关键点与目标模特脸部的其他目标面部关键点一一对应的方式同理,此处不再赘述。
在一些示例中,可以将处于动态的目标面部关键点与原始面部关键点对应。具体地,可以获取目标模特的目标面部关键点,对连续性样本图像中目标模特的面部进行标记,并按照连续性样本图像的时序将目标模特面部的同一目标关键点进行关联,从而获得目标模特面部的各个目标面部关键点的动态变化轨迹;将各个目标面部关键点的动态变化轨迹与原始3D数字人面部的原始面部关键点对应,从而获得原始3D数字人面部的原始面部关键点的动态变化轨迹,计算同一时刻下,原始面部关键点的动态变化轨迹的幅度与目标面部关键点的动态变化轨迹之间的幅度差值,在该幅度差值大于预设幅度阈值,则确定需要对原始3D数字人的原始面部关键点进行修正。
示例地,可以获取目标模特的目标面部关键点,对连续性样本图像中目标模特的面部进行标记,并按照连续性样本图像的时序将目标模特面部的同一目标关键点进行关联,从而获得目标模特面部的各个目标面部关键点的动态变化轨迹,并将各个目标面部关键点的动态变化轨迹与原始3D数字人面部的原始面部关键点对应,从而获得原始3D数字人面部的原始面部关键点的动态变化轨迹,基于该原始面部关键点的动态变化轨迹获取到原始3D数字人在各时刻的面部变化幅度,基于该目标面部关键点的动态变化轨迹获取到目标模特在各个时刻的面部变化幅度,比较原始3D数字人在各时刻的面部变化幅度和目标模特在各个时刻的面部变化幅度,若在同一时刻下原始3D数字人的面部变化幅度与目标模特的面部变化幅度之差大于预设幅度阈值,则确定需要对原始3D数字人的原始面部关键点进行修正;若在同一时刻下原始3D数字人的面部变化幅度与目标模特的面部变化幅度之差小于或等于预设幅度阈值,则确定当前3D数字人的面部构建符合预期。
在本实施例中,通过上述步骤S231至步骤S232的实施,可以将目标模特的面部信息与原始3D数字人的面部信息对应,从而得到与目标模特更加接近的3D数字人,从而使得构建得到的3D数字人面部的表情和姿态与目标模特相匹配,提升后续驱动3D数字人的驱动效果,使得用户与3D数字人的交互更加自然。
为了能够减少在后续驱动3D数字人面部表情所使用的算力,可以预先定义目标模特的面部表情,如图5所示,上述步骤S23还可以包括以下步骤S233至步骤S234。
步骤S233:根据面部信息定义目标模特的面部表情。
在本实施例中,可以基于目标模特的面部信息对目标模特的情绪表达进行分类,得到情绪分类结果,并将情绪分类结果与面部表情关联,从而定义目标模特的面部表情。例如,若基于面部信息确定目标模特当前的嘴角处于下拉状态、眉毛处于紧缩状态,则可以将目标模特当前的面部特征确定为面部表情“生气”;若基于面部信息确定目标模特当前的嘴角处于上扬状态、眉毛处于舒展状态,则可以将目标模特当前的面部特征确定为面部表情“开心”。
步骤S234:将面部表情与目标面部关键点关联,以使3D数字人的面部关键点与面部表情对应。
在本实施例中,当目标模特做出面部表情时,目标模特的目标面部关键点的位置也会发生相应变化。当后续在驱动3D数字人做出某面部表情时,可以直接驱动与该面部表情相关的面部关键点发生变化,从而使3D数字人做出该面部表情。
在一些示例中,面部表情与目标面部关键点可以是动态关联。由于面部表情为动态过程,可以获取目标模特做出某一面部表情的起始时刻和末尾时刻,并获取在起始时刻和末尾时刻区间内的目标面部关键点的动态变化过程,并将处于动态变化的目标面部关键点与3D数字人的面部关键点对应。由此,在后续控制3D数字人的面部表情时,可以动态地控制3D数字人的面部关键点,使得3D数字人动态地做出相应的面部表情,从而能够呈现出3D数字人做出的面部表情处于连续性变化状态,不会突兀地呈现固定的面部表情。
在本实施例中,通过上述步骤S233至步骤S234的实施,可以预先定义目标模特的面部表情,能够减少在后续驱动3D数字人面部表情所使用的算力,并且,可以将面部表情与目标面部关键点动态关联,呈现出3D数字人做出的面部表情处于连续性变化状态,不会突兀地呈现固定的面部表情,使3D数字人做出的面部表情更加符合目标模特的习惯。
步骤S24:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息。
为了能够精准地获取到方位参数,可以预先设置参照物。如图6所示,上述步骤S24可以包括以下步骤S241至步骤S244。
步骤S241:获取用于描述目标物位置的第一空间位置信息和用于描述参照物位置的第二空间位置信息,参照物用于为目标物提供参照坐标。
在本实施例中,目标物位置可以是与3D数字人进行交互的用户、机器人等目标物所处的位置。参照物位置可以是为了获知方位参数预先设定的位置。
在一些示例中,第一空间位置信息可以包括用于表征目标物位置的信息。例如,可以将不同角度采集目标物的图像作为第一空间位置信息,也可以将红外线探测而生成的模拟信号作为第一空间位置信息,还可以是基于音波反馈生成的声音信号作为第一空间位置信息,此处对第一空间位置信息的获取和表现形式不做具体限制。
在一些示例中,第二空间信息可以包括用于表征参照物位置的信息。为了减少计算方位参数的计算量,可以预先存储第二空间位置信息,在计算第二空间位置信息时可以直接提取。另外,第二空间位置信息的表现形式也可以是图像、数字信号等,此处对第二空间位置信息的表现形式不做具体限制。
步骤S242:根据第一空间位置信息获取目标物的目标坐标参数。
在本实施例中,对于不同表现形式的第一空间位置信息,获取目标物的目标坐标参数的方式也不相同。例如,当第一空间位置信息为不同角度采集目标物的图像时,可以获取拍摄装置拍摄该图像时的拍摄参数以及该图像中的目标物信息,再基于不同图像的拍摄参数和目标物信息确定目标物的目标坐标参数。其中,拍摄装置可以包括用于拍摄目标物以形成图像的装置。拍摄参数可以包括拍摄装置拍摄目标物时所使用的参数。例如,该拍摄参数可以包括拍摄装置的拍摄角度、焦距、光圈等。目标物信息可以包括该图像中目标物的呈现信息。例如,目标物信息可以是目标物在图像中的呈现角度、目标物在图像中的占比、目标物与地面接触的位置等。
例如,当第一空间位置信息为红外探测器生成的模拟信号时,可以获取多个红外探测器生成的模拟信号,并基于该模拟信号获取从该红外探测器中接收红外线的位置和该模拟信号,得到参照物相对于不同的该红外探测器中接收红外线的位置的相对距离,基于该相对距离得到目标物的目标坐标参数。需要注意的是,上述示例仅描述了基于图像以及红外探测器生成的模拟信号得到目标坐标参数的实施方式,获取目标坐标参数的方式具体可以依据本实施例提供的数字人生成方法的实施场景做具体调整,上述示例不应当作为限制本实施例提供的数字人生成方法中生成目标坐标参数的证据。
在一些示例中,目标坐标参数可以包括三维坐标参数。该三维坐标参数可以是目标物的头部、眼部、嘴部等部位的三维坐标参数。
步骤S243:根据第二空间位置信息获取参照物的参照坐标参数。
在本实施例中,可以基于对于不同表现形式的第二空间位置信息,获取参照物的参照坐标参数的方式也不相同。在一些示例中,通过第一空间位置信息获取目标物的目标坐标参数可以与通过第二空间位置信息获取参照物的参照目标坐标参数的方式相同,也可以不相同,具体应当以第二空间位置信息的表现形式确定。
预先存储第二空间位置信息,在计算第二空间位置信息时可以直接提取。另外,第二空间位置信息的表现形式也可以是图像、数字信号等,此处对第二空间位置信息的表现形式不做具体限制。
步骤S244:将目标坐标参数与参照坐标参数进行比对,确定目标物与参照物之间的距离和相对角度,得到包括距离和相对角度的方位参数。
在本实施例中,目标坐标参数和参照坐标参数可以置于同一坐标系中,进而可以将目标坐标参数与参照坐标参数进行比对,进而可以计算出目标物与参照物之间的距离和相对角度,得到包括距离和相对角度的方位参数。
在本实施例中,通过上述步骤S241至步骤S244的实施,可以预先设置参照物,进而得到包括距离和相对角度的方位参数,能够实时基于该方位参数对检测,并基于该方位参数控制3D数字人的呈现角度。
步骤S25:根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度。
步骤S26:获取与呈现角度和动作状态对应的数字人图像。
为了能够使3D数字人的呈现角度符合预期,可以基于3D数字人的当前的呈现角度对3D数字人进行控制。如图7所示,上述步骤S26可以包括以下步骤S261至步骤S262。
步骤S261:获取3D数字人的当前呈现角度。
在本实施例中,当前呈现角度可以为3D数字人当前的呈现角度。例如,默认预设3D数字人朝向正面为0度,若此时3D数字人的当前呈现角度偏离该正面15度,则可以将该3D数字人的当前呈现角度确定为15度。
步骤S262:根据当前呈现角度和呈现角度调整数字人图像中3D数字人所呈现的方位,得到与呈现角度对应的数字人图像。
在本实施例中,可以计算出当前呈现角度和呈现角度之间的差值,基于该差值调整数字人图像中3D数字人所呈现的方位,进而得到与呈现角度对应的数字人图像。
需要注意的是,调整数字人图像中3D数字人所呈现的方位的方式可以是多样的。例如,当呈现角度与当前呈现角度之间的差值为7.5度时,可以调整3D数字人转动7.5度,以使3D数字人的角度符合呈现角度,进而获取到与呈现角度对应的数字人图像;当呈现角度与当前呈现角度之间的差值为7.5度时,可以调整用于采集数字人图像的采集模块采集图像的方向偏移7.5度,以使3D数字人的角度符合呈现角度,进而获取到与呈现角度对应的数字人;当呈现角度与当前呈现角度之间的差值为7.5度时,可以调整用于采集数字人图像的采集模块采集图像的方向偏移3.5度的同时,调整3D数字人转动4度,以使3D数字人的角度符合呈现角度,进而获取到与呈现角度对应的数字人图像。
在本实施例中,通过上述步骤S251至步骤S252的实施,可以基于3D数字人的当前的呈现角度对3D数字人进行控制,以使3D数字人的呈现角度符合预期。
步骤S27:输出数字人图像。
本申请实施例还提供一种数字人生成方法,该数字人生成方法可以包括以下步骤S31至步骤S34。在本实施例中提供的数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
步骤S31:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息。
步骤S32:根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度。
为了能够使3D数字人的呈现效果符合用户预期,可以基于语义信息对3D数字人的动作状态进行控制;控制参数包括输入信息,如图8所示,上述步骤S32可以包括以下步骤S321至步骤S323。
步骤S321:获取与输入信息对应的语义信息。
在本实施例中,可以基于输入信息的类型,对输入信息采取相应的处理方式,获取到目标物的意图,进而得到对应的语义信息。例如,当用户输入的信息为语音时,可以对该语音进行语音识别处理,得到与该语音对应的文本,采用意图识别模型对文本进行识别,获得用户意图,进而获取到与该用户意图对应的语义信息;当用户输入的信息为文字时,可以采用意图识别模型对该文字进行识别,获得用户意图,进而获取到与该用户意图对应的语义信息;当用户输入的信息为图像时,可以对该图像进行图像识别处理,得到该图像所表征的用户意图,进而获取到与该用户意图对应的语义信息。需要注意的是,输入信息可以包括语音、文字、图像中多个,此时可以使用与语音、文字、图像相对应的方式分别对输入信息进行处理,得到用户意图,进而获取到与该用户意图对应的语义信息。
步骤S322:根据语义信息得到与语义信息对应的3D数字人的面部表情参数。
在本实施例中,可以基于该语义信息获取用于向用户反馈的反馈信息,根据该反馈信息确定数字人呈现该反馈信息对应的面部表情,根据该面部表情获取3D数字人的面部表情参数。
在一些示例中,可以预先构建训练好的反馈模型,将语义信息输入至该反馈模型,获得向用户反馈的反馈信息。其中,该反馈模型可以用于话术反馈,也可以用于动作反馈,此处对该反馈模型输出的反馈信息的类型不做具体限制,具体应当以本实施例提供的数字人生成方法的实际应用场景做调整,当该反馈模型用于话术反馈,可以基于实际应用场景调整(例如,教学、陪护等)用于训练的样本,进而对反馈模型进行训练。
在一些示例中,可以对数字人呈现表达反馈信息的情绪进行分类,得到情绪类别,根据该情绪类别得到对应的面部表情。其中,情绪类别可以预先定义,例如,情绪类别可以是高兴、兴奋、生气、低落等。情绪类别与面部表情之间的关系可以预先设定,当情绪类别为高兴时,可以得到与“高兴”对应的面部表情。
在一些示例中,可以获取当3D数字人做出该面部表情时3D数字人的各个面部关键点的状态,基于该状态得到各个面部关键点的位置,获取到3D数字人的面部表情参数。需要注意的是,该面部表情参数可以包括在有效区间内的3D数字人做出面部表情时面部关键点的位置。其中,有效区间为3D数字人做出该面部表情的起始时刻和末尾时刻形成的区间。也就是说,面部表情参数可以具备时间属性,该面部表情参数可以随时间变化。
步骤S323:根据面部表情参数控制3D数字人的面部表情,以控制3D数字人的动作状态。
在本实施例中,可以基于面部表情参数获取到3D数字人的面部关键点的位置,根据该面部关键点的位置控制3D数字人的面部表情。
在本实施例中,通过上述步骤S321至步骤S323的实施,可以基于语义信息对3D数字人的面部表情进行控制,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验。
步骤S33:获取与呈现角度和动作状态对应的数字人图像。
步骤S34:输出数字人图像。
本申请实施例还提供一种数字人生成方法,该数字人生成方法可以包括以下步骤S41至步骤S44。在本实施例中提供的数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
步骤S41:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息。
步骤S42:根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度。
为了能够使3D数字人的呈现效果符合用户预期,可以基于发音信息对3D数字人的动作状态进行控制;控制参数可以包括输入信息,如图9所示,上述步骤S42可以包括以下步骤S421至步骤S423。
步骤S421:获取与输入信息对应的发音信息。
在本实施例中,可以基于输入信息的类型,对输入信息采取相应的处理方式,获取到目标物的意图,进而得到对应的语义信息,基于该语义信息获取用于向用户反馈的反馈信息,并基于该反馈信息得到对应的发音信息。例如,当用户输入的信息为语音时,可以对该语音进行语音识别处理,得到与该语音对应的文本,采用意图识别模型对文本进行识别,获得用户意图,进而获取到与该用户意图对应的语义信息,基于该语义信息获取用于向用户反馈的反馈信息,并获取到与该反馈信息对应的发音信息;当用户输入的信息为文字时,可以采用意图识别模型对该文字进行识别,获得用户意图,进而获取到与该用户意图对应的语义信息,基于该语义信息获取用于向用户反馈的反馈信息,并获取到与该反馈信息对应的发音信息;当用户输入的信息为图像时,可以对该图像进行图像识别处理,得到该图像所表征的用户意图,进而获取到与该用户意图对应的语义信息,基于该语义信息获取用于向用户反馈的反馈信息,并获取到与该反馈信息对应的发音信息。其中,反馈信息可以是通过语音播报的方式呈现,该发音信息包括播报该反馈信息所产生的声音。例如,反馈信息为“中国有五十六个民族”,发音信息可以为播放“中国有五十六个民族”所产生的声音。
步骤S422:根据发音信息得到与发音信息对应的3D数字人的嘴型参数。
在本实施例中,可以获取3D数字人在发出与发音信息对应的声音时3D数字人的嘴部关键点的变化情况,从而得到用于表征嘴部关键点的变化情况的嘴型参数。其中,嘴部关键点可以包括用于辨识、定位和控制3D数字人嘴部各个部分的位置。例如,嘴部关键点可以包括左嘴角、右嘴角、颏唇沟、鼻底等。
步骤S423:根据嘴型参数控制3D数字人的嘴型,以控制3D数字人的动作状态。
在本实施例中,可以基于嘴部关键点的位置控制3D数字人的嘴型变化。需要注意的是,由于嘴型参数可以具备时间属性,可以将各个时间节点控制3D数字人的嘴型变化,从而能够准确地呈现3D数字人的嘴型的变化过程。
在本实施例中,通过上述步骤S421至步骤S423的实施,可以基于嘴型参数对3D数字人的嘴型进行控制,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验。
步骤S43:获取与呈现角度和动作状态对应的数字人图像。
步骤S44:输出数字人图像。
本申请实施例还提供一种数字人生成方法,该数字人生成方法可以包括以下步骤S51至步骤S54。在本实施例中提供的数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
步骤S51:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息。
步骤S52:根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度。
为了能够使3D数字人的呈现效果符合用户预期,可以基于发音信息对3D数字人的动作状态进行控制;控制参数可以包括语义类别,如图10所示,上述步骤S52可以包括以下步骤S521至步骤S524。
步骤S521:获取与输入信息对应的语义信息。
在本实施例中,可以基于输入信息的类型,对输入信息采取相应的处理方式,获取到目标物的意图,进而得到对应的语义信息。例如,当用户输入的信息为语音时,可以对该语音进行语音识别处理,得到与该语音对应的文本,采用意图识别模型对文本进行识别,获得用户意图,进而获取到与该用户意图对应的语义信息;当用户输入的信息为文字时,可以采用意图识别模型对该文字进行识别,获得用户意图,进而获取到与该用户意图对应的语义信息;当用户输入的信息为图像时,可以对该图像进行图像识别处理,得到该图像所表征的用户意图,进而获取到与该用户意图对应的语义信息。需要注意的是,输入信息可以包括语音、文字、图像中多个,此时可以使用与语音、文字、图像相对应的方式分别对输入信息进行处理,得到用户意图,进而获取到与该用户意图对应的语义信息。
步骤S522:基于语义信息获取反馈信息,并获取反馈信息的语义类别。
在本实施例中,可以预先构建训练好的反馈模型,将语义信息输入至该反馈模型,获得向用户反馈的反馈信息。
在本实施例中,语义类别可以包括用于对反馈信息进行语义分类的结果。例如,针对同一种语义,可以具有多种不同的表述方式,可以将不同表述方式且语义相同的反馈信息划分为同一语义类别。
步骤S523:根据语义类别得到与语义类别对应的数字人的躯干动作参数。
在本实施例中,躯干动作参数用于控制3D数字人的躯干动作,也就是说,该躯干动作参数与3D数字人的躯干对应。例如,语义类别的数量可以为多种,对多种语义类别分别设置相应的躯干动作参数。需要注意的是,在本实施例中,多个语义类别可以对应一个躯干动作参数。
步骤S524:根据躯干动作参数控制3D数字人的躯干动作,以控制3D数字人的动作状态。
在本实施例中,可以基于躯干关键点的位置控制3D数字人的躯干动作变化。其中,躯干关键点可以包括用于辨识、定位和控制3D数字人躯干各个部分的位置。例如,躯干关键点可以包括脚尖、膝关节、手关节等。需要注意的是,由于躯干动作参数可以具备时间属性,可以使各个时间节点控制3D数字人的躯干动作变化,从而能够准确地呈现3D数字人的躯干动作的变化情况过程。
在本实施例中,通过上述步骤S521至步骤S524的实施,可以基于躯干动作参数对3D数字人的躯干进行控制,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验。
步骤S53:获取与呈现角度和动作状态对应的数字人图像。
步骤S54:输出数字人图像。
本申请实施例还提供一种数字人生成方法,该数字人生成方法可以包括以下步骤S61至步骤S64。在本实施例中提供的数字人生成方法中,可以包括与上述实施例相同或相似的步骤,对于相同或相似步骤的执行,可参考前文介绍,本说明书不再一一赘述。
步骤S61:获取控制参数和方位参数,方位参数包括目标物相对于参考位置的相对位置信息。
步骤S62:根据控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度。
为了能够使3D数字人的呈现效果符合用户预期,可以基于发音信息对3D数字人的动作状态进行控制;3D数字人可以为多个,如图11所示,上述步骤S62可以包括以下步骤S621至步骤S622。
步骤S621:根据控制参数控制多个3D数字人的动作状态。
在本实施例中,当用于呈现3D数字人的智能终端101中可以呈现多个3D数字人时,可以通过控制参数同时控制多个3D数字人的动作状态。关于根据控制参数控制各个3D数字人的动作状态的方法,可以参见上述实施例中步骤S321至步骤S323、步骤S421至步骤S423以及步骤S521至步骤S524的描述,此处不再赘述。
步骤S622:根据方位信息确定3D数字人的呈现角度。
在本实施例中,关于确定3D数字人的呈现角度的方式可以按照上述实施例的步骤S12中的描述,此处不再赘述。
在本实施例中,通过上述步骤S621至步骤S622的实施,可以同时控制多个3D数字人的动作状态,使得本实施例提供的数字人生成方法尤其适用于工业动画、游戏人物控制等领域,进而拓宽了该数字人生成方法的应用场景,更加符合用户控制3D数字人的需求。
为了能够分别对3D数字人单独地进行控制,控制参数可以为多个,每个控制参数与3D数字人对应;如图12所示,上述步骤S62还可以包括以下步骤S623至步骤S624。
步骤S623:获取每个3D数字人对应的身份信息。
在本实施例中,可以预先为每个3D数字人配置对应的身份信息,在本实施例提供的数字人生成方法使用时可以获取到每个3D数字人对应的身份信息。
在一些示例中,对于一个3D数字人,可以配置多个身份信息。由此,可以通过多个控制参数控制该一个3D数字人。对于多个3D数字人,也可以配置同一身份信息。由此,可以通过一个控制参数控制多个3D数字人。此处对配置3D数字人的身份信息的方法不做具体限制。
步骤S624:若根据身份信息确定3D数字人符合预设身份,则通过控制参数控制对应的3D数字人的动作状态。
在本实施例中,可以基于控制参数获取想要控制的3D数字人,并获取该想要控制的3D数字人的身份信息,若3D数字人的身份信息与该想要控制的3D数字人的身份信息相符,则确定3D数字人符合预设身份,进而通过该控制参数控制符合预设身份的3D数字人。
在一些示例中,由于用于构建3D数字人的目标模特可以是不相同的,因此,构建得到的3D数字人在形态上存在较大差异,因此,可以与3D数字人形态相关的面部关键点、嘴部关键点、躯干关键点等对3D数字人的身份进行确认。
在本实施例中,通过上述步骤S623至步骤S624的实施,可以通过确认3D数字人的身份对各个3D数字人进行单独地控制。
步骤S63:获取与呈现角度和动作状态对应的数字人图像。
步骤S64:输出数字人图像。
为了能够观较清楚地理会到3D数字人所反馈的内容,可以为数字人视频配置对应的音频;如图13所示,本实施例提供的数字人生成方法还可以包括以下步骤S65至步骤S68。
步骤S65:获取多张数字人图像以及输出各张数字人图像的时序。
步骤S66:根据时序,将多张数字人图像合成数字人视频。
在本实施例中,可以按照该时序,将多张数字人图像依次排序,进而合成数字人视频。
步骤S67:为数字人视频配置对应的音频信息。
在本实施例中,该音频信息可以是基于用户的输入信息向用户反馈的语音,也可以是自行为3D数字人配置的语音,此处对音频信息的来源不做具体限制。另外,音频信息的时长可以与数字人视频的时长相同。
步骤S68:同步播放数字人视频和音频信息。
在本实施例中,通过上述步骤S65至步骤S68的实施,可以使用于呈现3D数字人的智能终端101播放数字人视频和音频信息。
通过本实施例提供的数字人生成方法的实施,可以获取到控制参数和方位参数,基于控制参数控制3D数字人的动作状态,根据方位参数确定3D数字人的呈现角度,获取并输出与呈现角度对应的数字人图像,使得模拟出用户实时与3D数字人处于面对面交流的环境,可以将目标模特的形态信息与建模信息相结合,使得生成的3D数字人具有与目标模特相同的形态特征,该生成的3D数字人尤其适用于播音主持、慰藉逝者、私人订制客服等场景,基于语义信息对3D数字人的面部表情进行控制,也可以基于嘴型参数对3D数字人的嘴型进行控制,还可以基于躯干动作参数对3D数字人的躯干进行控制,提升了呈现3D数字人画面的逼真效果,优化了人机交互体验;并且可以同时控制多个3D数字人的动作状态,使得本实施例提供的数字人生成方法尤其适用于工业动画、游戏人物控制等领域,进而拓宽了该数字人生成方法的应用场景,更加符合用户控制3D数字人的需求。
请参阅图14,本申请实施例还提供一种数字人生成装置,该数字人生成装置包括信息获取模块41、控制模块42、数字人图像获取模块43和数字人图像输出模块44。各功能模块详细说明如下:信息获取模块41用于获取控制参数和方位参数,所述方位参数包括目标物相对于参考位置的相对位置信息。控制模块42用于根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度。数字人图像获取模块43用于获取与所述呈现角度和所述动作状态对应的数字人图像。数字人图像输出模块44用于输出所述数字人图像。
进一步地,作为本实施例的一种实施方式,控制模块42可以包括当前呈现角度获取单元和数字人图像获取单元。各功能单元详细说明如下:当前呈现角度获取单元用于获取所述3D数字人的当前呈现角度。数字人图像获取单元用于根据所述当前呈现角度和所述呈现角度调整所述数字人图像中所述3D数字人所呈现的方位,得到与所述呈现角度对应的数字人图像。
进一步地,作为本实施例的一种实施方式,本实施例提供的数字人生成装置还可以包括样本图像获取模块、形态信息获取模块和3D数字人生成模块。各功能模块详细说明如下:样本图像获取模块用于获取多张包括目标模特的样本图像。形态信息获取模块用于根据多张所述样本图像获取所述目标模特的形态信息。3D数字人生成模块用于获取原始3D数字人以及所述原始3D数字人的建模信息,并根据所述形态信息和所述建模信息,生成所述3D数字人。
进一步地,作为本实施例的一种实施方式,3D数字人生成模块可以包括原始面部关键点获取单元和对应单元。各功能单元详细说明如下:原始面部关键点获取单元用于获取原始3D数字人以及建模信息,建模信息包括原始3D数字人的原始面部关键点。对应单元用于根据面部信息获取目标模特的目标面部关键点,将原始面部关键点与目标面部关键点对应,生成3D数字人。
进一步地,作为本实施例的一种实施方式,本实施例提供的数字人生成装置还可以包括面部表情获取模块和面部关键点与面部表情对应模块。各功能模块详细说明如下:面部表情获取模块用于根据面部信息定义目标模特的面部表情。面部关键点与面部表情对应模块用于将面部表情与目标面部关键点关联,以使3D数字人的面部关键点与面部表情对应。
进一步地,作为本实施例的一种实施方式,信息获取模块41可以包括参照坐标获取单元、目标坐标参数获取单元、参照坐标参数获取单元和方位参数获取单元。各功能单元详细说明如下:参照坐标获取单元用于获取用于描述目标物位置的第一空间位置信息和用于描述参照物位置的第二空间位置信息,参照物用于为目标物提供参照坐标。目标坐标参数获取单元用于根据第一空间位置信息获取目标物的目标坐标参数。参照坐标参数获取单元用于根据第二空间位置信息获取参照物的参照坐标参数。方位参数获取单元用于将目标坐标参数与参照坐标参数进行比对,确定目标物与参照物之间的距离和相对角度,得到包括距离和相对角度的方位参数。
进一步地,作为本实施例的一种实施方式,控制参数包括输入信息;控制模块42可以包括语义信息获取单元、面部表情参数获取单元和第一动作状态控制单元。各功能单元详细说明如下:语义信息获取单元用于获取与输入信息对应的语义信息。面部表情参数获取单元用于根据语义信息得到与语义信息对应的3D数字人的面部表情参数。第一动作状态控制单元用于根据面部表情参数控制3D数字人的面部表情,以控制3D数字人的动作状态。
进一步地,作为本实施例的一种实施方式,控制参数包括输入信息;控制模块42可以包括发音信息获取单元、嘴型参数获取单元和第二动作状态控制单元。各功能单元详细说明如下:发音信息获取单元用于获取与输入信息对应的发音信息。嘴型参数获取单元用于根据发音信息得到与发音信息对应的3D数字人的嘴型参数。第二动作状态控制单元根据嘴型参数控制3D数字人的嘴型,以控制3D数字人的动作状态。
进一步地,作为本实施例的一种实施方式,控制参数包括输入信息;控制模块42可以包括语义信息获取单元、语义类别获取单元、躯干动作参数获取单元和第三动作状态控制单元。各功能单元详细说明如下:语义信息获取单元用于获取与输入信息对应的语义信息。语义类别获取单元用于基于语义信息获取反馈信息,并获取反馈信息的语义类别。躯干动作参数获取单元用于根据语义类别得到与语义类别对应的数字人的躯干动作参数。第三动作状态控制单元用于根据躯干动作参数控制3D数字人的躯干动作,以控制3D数字人的动作状态。
进一步地,作为本实施例的一种实施方式,3D数字人为多个;控制模块42可以包括第四动作状态控制单元和呈现角度确定单元。各功能单元详细说明如下:第四动作状态控制单元用于根据控制参数控制多个3D数字人的动作状态。呈现角度确定单元用于根据方位信息确定3D数字人的呈现角度。
进一步地,作为本实施例的一种实施方式,控制参数为多个,每个控制参数与3D数字人对应;控制模块42可以包括身份信息获取单元和第五动作状态控制单元。各功能单元详细说明如下:身份信息获取单元用于获取每个3D数字人对应的身份信息。第五动作状态控制单元用于若根据身份信息确定3D数字人符合预设身份,则通过控制参数控制对应的3D数字人的动作状态。
进一步地,作为本实施例的一种实施方式,本实施例提供的数字人生成装置还可以包括时序获取模块、数字人视频合成模块、音频信息配置模块和同步播放模块。各功能模块详细说明如下:时序获取模块用于获取多张数字人图像以及输出各张数字人图像的时序。数字人视频合成模块用于根据时序,将多张数字人图像合成数字人视频。音频信息配置模块用于为数字人视频配置对应的音频信息。同步播放模块用于同步播放数字人视频和音频信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置中各个模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图15,其示出了本申请实施例提供的一种电子设备,该电子设备包括处理器810、通信模块820、存储器830和总线。总线可以是ISA总线、PCI总线、EISA总线或CAN总线等。总线可以分为地址总线、数据总线、控制总线等。其中:
存储器830,用于存放程序。具体地,存储器830可用于存储软件程序以及各种数据。存储器830可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作至少一个功能所需的程序程序可以包括程序代码,程序代码包括计算机操作指令。除了存放程序之外,存储器830还可以暂存通信模块820需要发送的消息等。存储器830可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个固态硬盘(Solid State Disk,简称SSD)。
处理器810用于执行存储器830存放的程序。程序被处理器执行时实现上述各实施例的数字人生成方法的步骤。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例的数字人生成方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、SSD、带电可擦可编程只读存储器(Electrically Erasable Programmable readonly memory,简称EEPROM)或快闪存储器(Flash Memory,简称Flash)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (15)
1.一种数字人生成方法,其特征在于,包括:
获取控制参数和方位参数,所述方位参数包括目标物相对于参考位置的相对位置信息;
根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度;
获取与所述呈现角度和所述动作状态对应的数字人图像;以及
输出所述数字人图像。
2.根据权利要求1所述的数字人生成方法,其特征在于,所述获取与所述呈现角度和所述动作状态对应的数字人图像,包括:
获取所述3D数字人的当前呈现角度;以及
根据所述当前呈现角度和所述呈现角度调整所述数字人图像中所述3D数字人所呈现的方位,得到与所述呈现角度对应的数字人图像。
3.根据权利要求1所述的数字人生成方法,其特征在于,在所述获取控制参数和方位参数,所述方位参数包括目标物相对于参考位置的相对位置信息的步骤之前,所述数字人生成方法还包括:
获取多张包括目标模特的样本图像;
根据多张所述样本图像获取所述目标模特的形态信息;以及
获取原始3D数字人以及所述原始3D数字人的建模信息,并根据所述形态信息和所述建模信息,生成所述3D数字人。
4.根据权利要求3所述的数字人生成方法,其特征在于,所述形态信息包括面部信息;所述获取原始3D数字人以及所述原始3D数字人的建模信息,并根据所述形态信息和所述建模信息,生成所述3D数字人,包括:
获取所述原始3D数字人以及所述建模信息,所述建模信息包括所述原始3D数字人的原始面部关键点;以及
根据所述面部信息获取所述目标模特的目标面部关键点,将所述原始面部关键点与所述目标面部关键点对应,生成所述3D数字人。
5.根据权利要求4所述的数字人生成方法,其特征在于,所述数字人生成方法还包括:
根据所述面部信息定义所述目标模特的面部表情;以及
将所述面部表情与所述目标面部关键点关联,以使所述3D数字人的面部关键点与所述面部表情对应。
6.根据权利要求1所述的数字人生成方法,其特征在于,所述获取控制参数和方位参数,所述方位参数包括目标物相对于参考位置的相对位置信息,包括:
获取用于描述所述目标物位置的第一空间位置信息和用于描述参照物位置的第二空间位置信息,所述参照物用于为所述目标物提供参照坐标;
根据所述第一空间位置信息获取所述目标物的目标坐标参数;
根据所述第二空间位置信息获取所述参照物的参照坐标参数;以及
将所述目标坐标参数与所述参照坐标参数进行比对,确定所述目标物与所述参照物之间的距离和相对角度,得到包括所述距离和所述相对角度的所述方位参数。
7.根据权利要求1所述的数字人生成方法,其特征在于,所述控制参数包括输入信息;所述根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度,包括:
获取与所述输入信息对应的语义信息;
根据所述语义信息得到与所述语义信息对应的所述3D数字人的面部表情参数;
根据所述面部表情参数控制所述3D数字人的面部表情,以控制所述3D数字人的所述动作状态。
8.根据权利要求1所述的数字人生成方法,其特征在于,所述控制参数包括输入信息;所述根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度,包括:
获取与所述输入信息对应的发音信息;
根据所述发音信息得到与所述发音信息对应的所述3D数字人的嘴型参数;
根据所述嘴型参数控制所述3D数字人的嘴型,以控制所述3D数字人的所述动作状态。
9.根据权利要求1所述的数字人生成方法,其特征在于,所述控制参数包括输入信息;所述根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度,包括:
获取与所述输入信息对应的语义信息;
基于所述语义信息获取反馈信息,并获取所述反馈信息的语义类别;
根据所述语义类别得到与所述语义类别对应的所述数字人的躯干动作参数;
根据所述躯干动作参数控制所述3D数字人的躯干动作,以控制所述3D数字人的所述动作状态。
10.根据权利要求1所述的数字人生成方法,其特征在于,所述3D数字人为多个;所述根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度,包括:
根据所述控制参数控制多个所述3D数字人的所述动作状态;以及
根据所述方位信息确定所述3D数字人的所述呈现角度。
11.根据权利要求10所述的数字人生成方法,其特征在于,所述控制参数为多个,每个所述控制参数与所述3D数字人对应;所述根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度,包括:
获取每个所述3D数字人对应的身份信息;以及
若根据所述身份信息确定所述3D数字人符合预设身份,则通过所述控制参数控制对应的所述3D数字人的所述动作状态。
12.根据权利要求1至11中任一项所述的数字人生成方法,其特征在于,在所述输出所述数字人图像之后,所述数字人生成方法还包括:
获取多张所述数字人图像以及输出各张所述数字人图像的时序;
根据所述时序,将多张所述数字人图像合成数字人视频;
为所述数字人视频配置对应的音频信息;以及
同步播放所述数字人视频和所述音频信息。
13.一种数字人生成装置,其特征在于,包括:
信息获取模块,用于获取控制参数和方位参数,所述方位参数包括目标物相对于参考位置的相对位置信息;
控制模块,用于根据所述控制参数控制3D数字人的动作状态,根据所述方位参数确定所述3D数字人的呈现角度;
数字人图像获取模块,用于获取与所述呈现角度和所述动作状态对应的数字人图像;以及
数字人图像输出模块,用于输出所述数字人图像。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-12中任一项所述的数字人生成方法。
15.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-12中任一项所述的数字人生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018557.8A CN112767520A (zh) | 2021-01-07 | 2021-01-07 | 数字人生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110018557.8A CN112767520A (zh) | 2021-01-07 | 2021-01-07 | 数字人生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112767520A true CN112767520A (zh) | 2021-05-07 |
Family
ID=75700676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110018557.8A Pending CN112767520A (zh) | 2021-01-07 | 2021-01-07 | 数字人生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767520A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077722A (zh) * | 2023-09-07 | 2023-11-17 | 北京中科江南信息技术股份有限公司 | Ai数智人的构建方法及装置 |
CN118426593A (zh) * | 2024-07-04 | 2024-08-02 | 深圳市联合信息技术有限公司 | 一种基于虚拟数字人交互方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107765856A (zh) * | 2017-10-26 | 2018-03-06 | 北京光年无限科技有限公司 | 基于多模态交互的虚拟人视觉处理方法及系统 |
CN109598749A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种三维人脸模型的参数配置方法、装置、设备及介质 |
CN110688911A (zh) * | 2019-09-05 | 2020-01-14 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN111638784A (zh) * | 2020-05-26 | 2020-09-08 | 浙江商汤科技开发有限公司 | 人脸表情互动方法、互动装置以及计算机存储介质 |
-
2021
- 2021-01-07 CN CN202110018557.8A patent/CN112767520A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107765856A (zh) * | 2017-10-26 | 2018-03-06 | 北京光年无限科技有限公司 | 基于多模态交互的虚拟人视觉处理方法及系统 |
CN109598749A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种三维人脸模型的参数配置方法、装置、设备及介质 |
CN110688911A (zh) * | 2019-09-05 | 2020-01-14 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN111638784A (zh) * | 2020-05-26 | 2020-09-08 | 浙江商汤科技开发有限公司 | 人脸表情互动方法、互动装置以及计算机存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077722A (zh) * | 2023-09-07 | 2023-11-17 | 北京中科江南信息技术股份有限公司 | Ai数智人的构建方法及装置 |
CN118426593A (zh) * | 2024-07-04 | 2024-08-02 | 深圳市联合信息技术有限公司 | 一种基于虚拟数字人交互方法及系统 |
CN118426593B (zh) * | 2024-07-04 | 2024-08-30 | 深圳市联合信息技术有限公司 | 一种基于虚拟数字人交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12112417B2 (en) | Artificial intelligence-based animation character drive method and related apparatus | |
KR102503413B1 (ko) | 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체 | |
CN112379812B (zh) | 仿真3d数字人交互方法、装置、电子设备及存储介质 | |
US11494612B2 (en) | Systems and methods for domain adaptation in neural networks using domain classifier | |
US20230325663A1 (en) | Systems and methods for domain adaptation in neural networks | |
US20240338552A1 (en) | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization | |
CN111432267B (zh) | 视频调整方法、装置、电子设备及存储介质 | |
CN108958610A (zh) | 基于人脸的特效生成方法、装置和电子设备 | |
TWI255141B (en) | Method and system for real-time interactive video | |
CN112669422B (zh) | 仿真3d数字人生成方法、装置、电子设备及存储介质 | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
CN110737335B (zh) | 机器人的交互方法、装置、电子设备及存储介质 | |
CN110794964A (zh) | 虚拟机器人的交互方法、装置、电子设备及存储介质 | |
CN111009028A (zh) | 虚拟脸部模型的表情拟真系统及方法 | |
CN114779922A (zh) | 教学设备的控制方法、控制设备、教学系统和存储介质 | |
CN112767520A (zh) | 数字人生成方法、装置、电子设备及存储介质 | |
KR20200092207A (ko) | 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법 | |
CN109986553B (zh) | 一种主动交互的机器人、系统、方法及存储装置 | |
CN114339393A (zh) | 直播画面的显示处理方法、服务器、设备、系统及介质 | |
CN116841391A (zh) | 数字人的交互控制方法、装置、电子设备和存储介质 | |
CN115484411A (zh) | 拍摄参数的调整方法、装置、电子设备和可读存储介质 | |
CN110730378A (zh) | 一种信息处理方法及系统 | |
WO2023116145A1 (zh) | 表情模型确定方法、装置、设备及计算机可读存储介质 | |
CN118227013A (zh) | 数字人眼睛注视方向的跟随调整方法及装置、计算机可读存储介质、终端 | |
Le et al. | Face Processing and Applications to Distance Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |