CN117557698A - 数字人肢体动画生成方法、装置、存储介质及计算机设备 - Google Patents
数字人肢体动画生成方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN117557698A CN117557698A CN202410038658.5A CN202410038658A CN117557698A CN 117557698 A CN117557698 A CN 117557698A CN 202410038658 A CN202410038658 A CN 202410038658A CN 117557698 A CN117557698 A CN 117557698A
- Authority
- CN
- China
- Prior art keywords
- animation
- action
- text
- standby
- digital human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000009471 action Effects 0.000 claims abstract description 212
- 230000033001 locomotion Effects 0.000 claims description 77
- 238000002156 mixing Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 16
- 239000000463 material Substances 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 95
- 239000000203 mixture Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 244000062645 predators Species 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000005155 neural progenitor cell Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请提供的数字人肢体动画生成方法、装置、存储介质及计算机设备,当获取到制作数字人肢体动画的原始文本后,可以将该原始文本转换为语音信息,并获取与语音信息对应的字幕信息后,本申请可以获取存储有与原始文本相关的多个动作关键字的预设语料库,该预设语料库中的每一动作关键词对应多个动作动画,而本申请的字幕信息中既包含有文本内容,又包含有时间码,因此,本申请使用字幕信息与预设语料库中的动作关键字进行匹配后,可以同时确定动作动画及对应的触发时段,这样既能够较好的匹配动画资源,生成符合语义且效果自然的数字人肢体动画,又可以显著提升数字人肢体动画的生成效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数字人肢体动画生成方法、装置、存储介质及计算机设备。
背景技术
目前,虚拟数字人在多个领域得到广泛的应用,其应用场景包括但不限于数字人演讲视频、数字人科普类视频、数字人语音播报动画制作等。
现有的虚拟数字人动画常常采用动画师K帧或者动捕设备采集的方式进行制作。这两种制作方式都需要专业人士的参与,进而使得现有的虚拟数字人动画制作成本较高、效率较低,无法满足数字人低成本肢体动画生成需求。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中虚拟数字人动画制作成本较高、效率较低,无法满足数字人低成本肢体动画生成需求的技术缺陷。
本申请提供了一种数字人肢体动画生成方法,所述方法包括:
获取制作数字人肢体动画的原始文本,将所述原始文本转换为语音信息后,获取与所述语音信息对应的字幕信息,所述字幕信息包含文本内容及时间码;
确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,并将所述第一文本对应的时间码作为所述动作动画的触发时段;其中,所述预设语料库中存储有与所述原始文本相关的多个动作关键字,且每一动作关键字对应多个动作动画;
确定所述文本内容中除所述第一文本外的第二文本,及所述第二文本对应的待机动画,并将所述第二文本对应的时间码作为所述待机动画的触发时段;
根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画。
可选地,所述语音信息包括语音内容和语音时长;
所述获取与所述语音信息对应的字幕信息,包括:
将所述语音内容按时序划分为多个文本内容,并将所述语音时长划分为与各个文本内容对应的时间码;
根据各个文本内容及对应的时间码,确定与所述语音信息对应的字幕信息。
可选地,所述确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,包括:
获取预设语料库;
将所述文本内容与所述预设语料库中的动作关键字进行相似度匹配,并根据相似度匹配结果确定所述文本内容中与所述预设语料库的动作关键字匹配的第一文本;
确定所述预设语料库中与所述第一文本匹配的动作关键字对应的多个动作动画,并从多个动作动画中随机选择一个动作动画作为所述第一文本对应的动作动画。
可选地,所述预设语料库的获取过程,包括:
确定与所述原始文本相关的多个动作关键字,以及确定每一动作关键字对应的多个动作动画;
根据多个动作关键字及每一动作关键字对应的多个动作动画,建立预设语料库。
可选地,所述确定每一动作关键字对应的多个动作动画,包括:
获取与所述原始文本的文本类型相关的动画素材;
根据动作语义标签对所述动画素材中的动作动画进行分类标记后,得到不同动作类别的动作动画集合;
将各个动作关键字分别与各个动作动画集合的动作类别进行匹配后,根据匹配结果确定与每一动作关键字对应的动作动画集合。
可选地,所述根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画,包括:
根据所述动作动画和所述待机动画的触发时段,确定数字人切换动画时的多个切换时刻;
基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,并根据混合结果生成数字人肢体动画。
可选地,所述基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,包括:
根据各个切换时刻的动作动画、待机动画,以及预设的混合时间,对虚幻引擎中按整型值混合姿势节点的活跃子索引、混合姿势和混合时间进行配置;
在每一切换时刻,利用配置好的按整型值混合姿势节点对该切换时刻的动作动画和待机动画进行混合。
本申请还提供了一种数字人肢体动画生成装置,包括:
信息获取模块,用于获取制作数字人肢体动画的原始文本,将所述原始文本转换为语音信息后,获取与所述语音信息对应的字幕信息,所述字幕信息包含文本内容及时间码;
动作动画确定模块,用于确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,并将所述第一文本对应的时间码作为所述动作动画的触发时段;其中,所述预设语料库中存储有与所述原始文本相关的多个动作关键字,且每一动作关键字对应多个动作动画;
待机动画确定模块,用于确定所述文本内容中除所述第一文本外的第二文本,及所述第二文本对应的待机动画,并将所述第二文本对应的时间码作为所述待机动画的触发时段;
肢体动画生成模块,用于根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画。
本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述数字人肢体动画生成方法的步骤。
本申请还提供了一种计算机设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述数字人肢体动画生成方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供的数字人肢体动画生成方法、装置、存储介质及计算机设备,当获取到制作数字人肢体动画的原始文本后,可以将该原始文本转换为语音信息,并获取与语音信息对应的字幕信息后,本申请可以获取存储有与原始文本相关的多个动作关键字的预设语料库,该预设语料库中的每一动作关键词对应多个动作动画,而本申请的字幕信息中既包含有文本内容,又包含有时间码,因此,本申请将文本内容与预设语料库中的各个动作关键字进行匹配后,不仅可以得到文本内容中与预设语料库的动作关键字匹配的第一文本及第一文本的动作动画,还可以根据时间码来确定动作动画的触发时段;接着,本申请还可以确定文本内容中除第一文本外的第二文本及第二文本对应的待机动画,并将第二文本对应的时间码作为待机动画的触发时段,这样便可以根据动作动画和待机动画的触发时段,将动作动画与待机动画进行混合,得到数字人肢体动画。该过程无需动画师或动捕人员参与,且无需依赖实体动作数据,进而在极大程度上降低了人工成本,并且,本申请使用字幕信息与预设语料库中的动作关键字进行匹配后,可以同时确定动作动画及对应的触发时段,这样既能够较好的匹配动画资源,生成符合语义且效果自然的数字人肢体动画,又可以显著提升数字人肢体动画的生成效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种数字人肢体动画生成方法的流程示意图;
图2为本申请实施例提供的将语音信息转为字幕信息的示例图;
图3为本申请实施例提供的使用按整型值混合姿势节点进行动画混合时的配置过程示意图;
图4为本申请实施例提供的一种数字人肢体动画生成装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在一个实施例中,如图1所示,图1为本申请实施例提供的一种数字人肢体动画生成方法的流程示意图;本申请提供了一种数字人肢体动画生成方法,该方法可以包括:
S110:获取制作数字人肢体动画的原始文本,将原始文本转换为语音信息后,获取与语音信息对应的字幕信息。
本步骤中,在生成数字人肢体动画时,可以先获取制作数字人肢体动画的原始文本,并将该原始文本转换为语音信息后,获取与语音信息对应的字幕信息,并且,本申请的字幕信息包含文本内容及时间码,这样便可以通过字幕信息来确定数字人肢体动画。
其中,本申请获取的原始文本可以是虚拟数字人演讲时预先拟定的演讲文本,也可以是虚拟数字人科普时预先拟定的科普文本,还可以是虚拟数字人语音播报时预先拟定的播报文本,具体的文本内容可视实际应用场景进行设置,在此不做限制。
当本申请获取到原始文本后,可以通过现有技术中的语音转换方法或语音合成方法等将该原始文本转换为语音信息,具体使用何种方法进行转换,可视实际情况进行设置,在此不做限制。另外需要说明的是,本申请得到的语音信息可以用来与生成的数字人肢体动画进行同步播放,以提高虚拟数字人的智能化程度和自动化程度,并提高用户体验。因此,通过预设的语音识别方法对本申请的语音信息进行识别后,可以得到该语音信息中包含的文本内容以及文本内容出现的时间点,通过对文本内容以及文本内容出现的时间点进行相应的处理后,即可得到本申请的字幕信息。
可以理解的是,虚拟数字人演讲或科普类视频通常是根据拟定好的演讲内容进行制作,该制作过程包括文本生成语音、肢体动画、表情动画等内容。在肢体动画方面,由于单独的演讲文本无法在恰当时刻触发特定动画混合,而语音实时转文字进行动画匹配又会存在延时,导致语音内容跟肢体动画不协调。基于此,本申请采用语音分析工具,分析出演讲语音的字幕信息,该字幕信息不仅包含了演讲内容,而且还包含了文本词语出现的时间点,因此,利用该字幕信息可以较好的匹配动画资源。
S120:确定文本内容中与预设语料库中的动作关键字匹配的第一文本,以及第一文本对应的动作动画,并将第一文本对应的时间码作为动作动画的触发时段。
本步骤中,通过S110获取与语音信息对应的字幕信息后,由于该字幕信息中包含有文本内容和时间码。因此,本申请可以将该文本内容与预设语料库中的动作关键字进行匹配,以确定文本内容中与预设语料库中的动作关键字匹配的第一文本,以及第一文本对应的动作动画,并将第一文本对应的时间码作为动作动画的触发时段。
具体来说,由于演讲类动画或科普类动画不同于舞蹈动画,其肢体动作多样性相对较低、重复性较高,并且大多数动作具有明显的语义。因此,本申请可以预先建立语料关键字资源库,并将其作为预设语料库,该预设语料库覆盖常用的演讲动作关键字,或常用的科普类动作关键字等,具体的动作关键字的类型可根据原始文本的文本类型进行确定。并且,本申请还可以为每一动作关键字配置相应的动作动画,如“招手”这一动作关键字对应的动作动画、“点赞”这一动作关键字对应的动作动画、“感谢”这一动作关键字对应的动作动画等。这样当文本内容匹配到预设语料库中的动作关键字时,便可以直接确定与该动作关键字对应的动作动画。
进一步地,本申请在为预设语料库中的每一动作关键字配置对应的动作动画时,该动作动画可以是由专业的建模人员通过三维建模和动画软件,或者通过三维建模渲染和动画制作,或者通过三维图形图像软件等专业的建模软件进行手工设计和制作得到,该类动作动画一般用于卡通形象或拟人形象;也可以通过相机阵列进行扫描重建得到,该类动作动画一般用于写实真人形象的还原;还可以通过预先收集大量NPC的动画片段数据,并根据动画片段数据中的动作语义标签进行分类后得到。具体的动作动画的制作过程,可视实际情况进行设置,在此不做限制。
并且,本申请还可以为每一动作关键字匹配多个动作动画,这样既可以提升数字人肢体动作的多样性和趣味性,又可以提高虚拟数字人的智能化程度和自动化程度。
另外,当本申请确定文本内容中与预设语料库中的动作关键字匹配的第一文本以及第一文本对应的动作动画后,由于本申请的字幕信息既包含有文本内容,又包含有时间码,因此,本申请可以将第一文本对应的时间码作为动作动画的触发时段。例如,当第一文本出现在语音信息中的第五分第五秒,并持续至第五分第十秒时,本申请则可以根据该第一文本的时间码来确定动作动画的触发时段为第五分第五秒至第五分第十秒。以此类推,本申请便可以根据每个第一文本对应的时间码来确定多个动作动画的触发时段。
S130:确定文本内容中除第一文本外的第二文本,及第二文本对应的待机动画,并将第二文本对应的时间码作为待机动画的触发时段。
本步骤中,通过S120确定文本内容中与预设语料库中的动作关键字匹配的第一文本,以及第一文本对应的动作动画后,由于一段文本内容中不可能仅包含动作关键字,因此,本申请可以提取文本内容中除第一文本外的第二文本,并确定与第二文本对应的待机动画后,将第二文本对应的时间码作为待机动画的触发时段。
可以理解的是,虚拟数字人演讲视频的整个时间线为文本转为语音后的语音时长,该过程需要同步生成相同时间长度的数字人肢体动画。但由于虚拟数字人演讲的最终目的是输出演讲内容,并非虚拟数字人本身,因此,若在整个语音时长内,将数字人肢体动画设置为动作状态下的动画,可能会影响用户的观感。本申请考虑到上述情况后,将文本内容中除第一文本外的第二文本对应的肢体动画设置为待机动画,这样在没有匹配到动作关键字的时间段播放的是待机动画,而在动作动画播放完毕后同样播放的是待机动画。该待机动画可以按照动作动画的虚拟形象进行制作,以保持数字人的形象一致性。待机动画的肢体姿势可以是站立、坐在桌前,或者是其他静止状态下的肢体姿势,具体可以根据动作动画的肢体姿势以及具体的应用场景进行设置,在此不做限制。
进一步地,本申请中待机动画的触发时段也是根据第二文本的时间码进行确定的,具体的确定过程参见动作动画的触发时段的确定过程,在此不做赘述。
S140:根据动作动画和待机动画的触发时段,将动作动画与待机动画进行混合,得到数字人肢体动画。
本步骤中,通过S120和S130分别得到数字人的动作动画和待机动画后,本申请可以根据动作动画和待机动画的触发时段来将动作动画与待机动画进行混合,进而得到数字人肢体动画。
具体地,由于本申请的动作动画和待机动画均是通过字幕信息匹配后得到的,因此,本申请可以根据字幕信息中的时间码来确定动作动画和待机动画的触发时段,这样在将动作动画与待机动画进行混合时,便可以按照各自的触发时段在语音时长内相应的时间点进行混合,且混合后的数字人肢体动画还能够与语音信息保持同步,进而有效提升虚拟数字人的智能化程度和自动化程度。
上述实施例中,当获取到制作数字人肢体动画的原始文本后,可以将该原始文本转换为语音信息,并获取与语音信息对应的字幕信息后,本申请可以获取存储有与原始文本相关的多个动作关键字的预设语料库,该预设语料库中的每一动作关键词对应多个动作动画,而本申请的字幕信息中既包含有文本内容,又包含有时间码,因此,本申请将文本内容与预设语料库中的各个动作关键字进行匹配后,不仅可以得到文本内容中与预设语料库的动作关键字匹配的第一文本及第一文本的动作动画,还可以根据时间码来确定动作动画的触发时段;接着,本申请还可以确定文本内容中除第一文本外的第二文本及第二文本对应的待机动画,并将第二文本对应的时间码作为待机动画的触发时段,这样便可以根据动作动画和待机动画的触发时段,将动作动画与待机动画进行混合,得到数字人肢体动画。该过程无需动画师或动捕人员参与,且无需依赖实体动作数据,进而在极大程度上降低了人工成本,并且,本申请使用字幕信息与预设语料库中的动作关键字进行匹配后,可以同时确定动作动画及对应的触发时段,这样既能够较好的匹配动画资源,生成符合语义且效果自然的数字人肢体动画,又可以显著提升数字人肢体动画的生成效率。
在一个实施例中,语音信息可以包括语音内容和语音时长。
S110中获取与语音信息对应的字幕信息,可以包括:
S111:将所述语音内容按时序划分为多个文本内容,并将所述语音时长划分为与各个文本内容对应的时间码。
S112:根据各个文本内容及对应的时间码,确定与所述语音信息对应的字幕信息。
本实施例中,当获取到原始文本对应的语音信息后,本申请可以将语音信息中的语音内容按照时序划分为多个文本内容,这样每个文本内容都具有相应的序号,该序号表示对应的文本内容在语音时长内出现的顺序。另外,本申请还可以根据各个文本内容来将语音时长划分为多个时长片段,以此来得到各个文本内容对应的时间码,并根据各个文本内容及对应的时间码来形成相应的字幕信息。
示意性地,如图2所示,图2为本申请实施例提供的将语音信息转为字幕信息的示例图;图2中,将语音信息转换为字幕信息后,该字幕信息中包含有不同序号下的文本内容以及时间代码,该时间代码即为本申请的时间码,通过该字幕信息可以清楚的知道每一段文本内容出现的顺序以及出现的时间点,这样在利用字幕信息来匹配相应的动作动画和待机动画后,便可以较好的匹配动画资源。
在一个实施例中,S120中确定文本内容中与预设语料库中的动作关键字匹配的第一文本,以及第一文本对应的动作动画,可以包括:
S121:获取预设语料库。
S122:将所述文本内容与所述预设语料库中的动作关键字进行相似度匹配,并根据相似度匹配结果确定所述文本内容中与所述预设语料库的动作关键字匹配的第一文本。
S123:确定所述预设语料库中与所述第一文本匹配的动作关键字对应的多个动作动画,并从多个动作动画中随机选择一个动作动画作为所述第一文本对应的动作动画。
本实施例中,在确定文本内容中与预设语料库中的动作关键字匹配的第一文本以及第一文本对应的动作动画时,可以先获取预设语料库,由于该预设语料库中存储有与原始文本相关的多个动作关键字,以及与每一动作关键字对应的多个动作动画。因此,本申请可以将文本内容与预设语料库中的动作关键字进行相似度匹配,以便确定文本内容中所包含的与预设语料库中的动作关键字匹配的第一文本,接着,本申请可以从预设语料库中确定与该第一文本匹配的动作关键字对应的多个动作动画,并从多个动作动画中随机选择一个动作动画作为第一文本对应的动作动画,这样既可以提升数字人肢体动作的多样性和趣味性,又可以提高虚拟数字人的智能化程度和自动化程度。
在一个实施例中,S120或S121中预设语料库的获取过程,可以包括:
S1211:确定与所述原始文本相关的多个动作关键字,以及确定每一动作关键字对应的多个动作动画。
S1212:根据多个动作关键字及每一动作关键字对应的多个动作动画,建立预设语料库。
本实施例中,由于原始文本是根据数字人的应用场景预先拟定的文本,该文本可以是虚拟数字人演讲时预先拟定的演讲文本,也可以是虚拟数字人科普时预先拟定的科普文本,还可以是虚拟数字人语音播报时预先拟定的播报文本。因此,本申请在获取预设语料库时,可以先确定与原始文本相关的多个动作关键字,例如,可以根据演讲文本确定与之相关的动作关键字及对应的多个动作动画,也可以根据科普文本确定与之相关的动作关键字及对应的多个动作动画,还可以根据播报文本确定与之相关的动作关键字及对应的多个动作动画。
当得到每一动作关键字及对应的多个动作动画后,本申请便可以根据各个动作关键字及对应的动作动画来构建预设语料库,并通过预设语料库来与文本内容进行匹配,以得到第一文本及对应动作动画。
进一步地,本申请的预设语料库可以预先存储有与不同类型的原始文本相关的动作关键字,并按照原始文本的类型将动作关键字进行分区存储,这样无论数字人应用于何种场景,都可以通过本申请构建的预设语料库来进行动作关键字匹配,从而进一步提升数字人肢体动画的生成效率,并减少数据存储空间。
在一个实施例中,S1211中确定每一动作关键字对应的多个动作动画,可以包括:
S2111:获取与所述原始文本的文本类型相关的动画素材。
S2112:根据动作语义标签对所述动画素材中的动作动画进行分类标记后,得到不同动作类别的动作动画集合。
S2113:将各个动作关键字分别与各个动作动画集合的动作类别进行匹配后,根据匹配结果确定与每一动作关键字对应的动作动画集合。
本实施例中,在确定每一动作关键字对应的多个动作动画时,可以先获取与原始文本的文本类型相关的动画素材,如本申请可以收集大量NPC的动画片段数据作为动画素材,并根据动作语义标签来对该动画素材中的动作动画进行分类标记,以此来得到不同动作类别的动作动画集合,如招手类动作动画集合、点赞类动作动画集合,洗手类动作动画集合、感谢类动作动画集合等,具体的动作类别可视数字人的应用场景以及选取的动画素材进行确定,在此不做限制。
当本申请得到不同动作类别的动作动画集合后,可以将预先获取的各个动作关键字分别与各个动作动画集合对应的动作类别进行匹配,当确定与各个动作关键字对应的动作类别后,即可确定与各个动作关键字对应的动作动画集合,本申请可以建立各个动作关键字与对应的动作动画集合中的各个动作动画之间一对多的映射关系,这样当同一动作关键字匹配到相类似的动作动画时,便可以随机选择其中一个动作动画作为对应的第一文本的动作动画,进而可以提升数字人肢体动画的动作多样性。
在一个实施例中,S140中根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画,可以包括:
S141:根据所述动作动画和所述待机动画的触发时段,确定数字人切换动画时的多个切换时刻。
S142:基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,并根据混合结果生成数字人肢体动画。
本实施例中,在将动作动画与待机动画进行混合时,本申请可以先根据动作动画和待机动画的触发时段来确定数字人切换动画时的多个切换时刻,接着,本申请可以使用虚幻引擎的混合节点来对各个切换时刻的动作动画和待机动画进行混合,以便得到数字人肢体动画。
可以理解的是,虚幻引擎的混合节点(Blend Node)可以将多个动画混合起来。每个混合节点可以获取多个姿势和一个阿尔法或权重值,这个值用来计算每个姿势在最终输出中的权重。一些混合节点可能更为复杂,且需要更多输入数据。其中,虚幻引擎的混合节点可以分为按布尔值混合姿势节点(Blend Poses by bool)、按整数值混合姿势节点(Blend Poses by Int)、按列举混合姿势节点(Blend Poses by Enum)以及按骨骼分层混合节点(Layered blend per bone),本申请可以根据实际的应用场景选择其中一种混合节点来对本申请中各个切换时刻的动作动画和待机动画进行混合,接着再结合各个触发时段的待机动画和动作动画,即可得到本申请的数字人肢体动画。
举例来说,当本申请原始文本对应的语音时长为五分钟,其中,各个动作动画的触发时段为第一分十五秒至第一分二十秒、第二分二十秒至第二分三十秒、第三分五秒至第三分十五秒、第四分八秒至第四分十七秒,其余时段均为待机动画对应的触发时段,而待机动画与动作动画的切换时刻则包括切换前和切换后的时刻,如第一分十五秒、第一分二十秒、第二分二十秒、第二分三十秒、第三分五秒、第三分十五秒、第四分八秒、第四分十七秒。当本申请确定数字人切换动画时的切换时刻后,本申请可以基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,以保证各个切换时刻的动作动画与待机动画的灵活过渡。
在一个实施例中,S142中基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,可以包括:
S1421:根据各个切换时刻的动作动画、待机动画,以及预设的混合时间,对虚幻引擎中按整型值混合姿势节点的活跃子索引、混合姿势和混合时间进行配置。
S1422:在每一切换时刻,利用配置好的按整型值混合姿势节点对该切换时刻的动作动画和待机动画进行混合。
本实施例中,当本申请使用虚幻引擎的混合节点来对本申请各个切换时刻的动作动画和待机动画进行混合时,本申请可以选用按整型值混合姿势节点进行动画混合。
示意性地,如图3所示,图3为本申请实施例提供的使用按整型值混合姿势节点进行动画混合时的配置过程示意图;由图3可知,按整型值混合姿势节点的配置参数包括但不限于活跃子索引(Active Child Index)、混合姿势(Blend Pose X)和混合时间(BlendTime X),其中,活跃子索引中的输入整数值是与混合姿势相关联的,例如,当输入整数值设为0时,将使用与"混合姿势0(Blend Pose 0)"相连的姿势;当输入整数值设为1时,将使用与"混合姿势1(Blend Pose 0)"相连的姿势。每个姿势都有一个浮点值“混合时间(BlendTime)”,用来控制混入这个姿势所需的时间。本申请可以在每个切换时刻设置一个按整型值混合姿势节点,并根据各个切换时刻的动作动画、待机动画,以及预设的混合时间,对各个按整型值混合姿势节点的活跃子索引、混合姿势和混合时间进行配置,这样在每一切换时刻,即可利用配置好的按整型值混合姿势节点对该切换时刻的动作动画和待机动画进行混合,以便进行不同动画的播放。另外,本申请中切换动画时的混合时间可以设置为0.3秒或0.4秒等,具体可视实际情况进行设置,设置混合时间后,可以让动作平滑过渡,进而得到效果更加自然的数字人肢体动画。
下面对本申请实施例提供的数字人肢体动画生成装置进行描述,下文描述的数字人肢体动画生成装置与上文描述的数字人肢体动画生成方法可相互对应参照。
在一个实施例中,如图4所示,图4为本申请实施例提供的一种数字人肢体动画生成装置的结构示意图;本申请还提供了一种数字人肢体动画生成装置,包括信息获取模块210、动作动画确定模块220、待机动画确定模块230、肢体动画生成模块240,具体包括如下:
信息获取模块210,用于获取制作数字人肢体动画的原始文本,将所述原始文本转换为语音信息后,获取与所述语音信息对应的字幕信息,所述字幕信息包含文本内容及时间码。
动作动画确定模块220,用于确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,并将所述第一文本对应的时间码作为所述动作动画的触发时段;其中,所述预设语料库中存储有与所述原始文本相关的多个动作关键字,且每一动作关键字对应多个动作动画。
待机动画确定模块230,用于确定所述文本内容中除所述第一文本外的第二文本,及所述第二文本对应的待机动画,并将所述第二文本对应的时间码作为所述待机动画的触发时段。
肢体动画生成模块240,用于根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画。
上述实施例中,当获取到制作数字人肢体动画的原始文本后,可以将该原始文本转换为语音信息,并获取与语音信息对应的字幕信息后,本申请可以获取存储有与原始文本相关的多个动作关键字的预设语料库,该预设语料库中的每一动作关键词对应多个动作动画,而本申请的字幕信息中既包含有文本内容,又包含有时间码,因此,本申请将文本内容与预设语料库中的各个动作关键字进行匹配后,不仅可以得到文本内容中与预设语料库的动作关键字匹配的第一文本及第一文本的动作动画,还可以根据时间码来确定动作动画的触发时段;接着,本申请还可以确定文本内容中除第一文本外的第二文本及第二文本对应的待机动画,并将第二文本对应的时间码作为待机动画的触发时段,这样便可以根据动作动画和待机动画的触发时段,将动作动画与待机动画进行混合,得到数字人肢体动画。该过程无需动画师或动捕人员参与,且无需依赖实体动作数据,进而在极大程度上降低了人工成本,并且,本申请使用字幕信息与预设语料库中的动作关键字进行匹配后,可以同时确定动作动画及对应的触发时段,这样既能够较好的匹配动画资源,生成符合语义且效果自然的数字人肢体动画,又可以显著提升数字人肢体动画的生成效率。
在一个实施例中,本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述数字人肢体动画生成方法的步骤。
在一个实施例中,本申请还提供了一种计算机设备,包括:一个或多个处理器,以及存储器。
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述数字人肢体动画生成方法的步骤。
示意性地,如图5所示,图5为本申请实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图5,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的数字人肢体动画生成方法。
计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作系统,例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数字人肢体动画生成方法,其特征在于,所述方法包括:
获取制作数字人肢体动画的原始文本,将所述原始文本转换为语音信息后,获取与所述语音信息对应的字幕信息,所述字幕信息包含文本内容及时间码;
确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,并将所述第一文本对应的时间码作为所述动作动画的触发时段;其中,所述预设语料库中存储有与所述原始文本相关的多个动作关键字,且每一动作关键字对应多个动作动画;
确定所述文本内容中除所述第一文本外的第二文本,及所述第二文本对应的待机动画,并将所述第二文本对应的时间码作为所述待机动画的触发时段;
根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画。
2.根据权利要求1所述的数字人肢体动画生成方法,其特征在于,所述语音信息包括语音内容和语音时长;
所述获取与所述语音信息对应的字幕信息,包括:
将所述语音内容按时序划分为多个文本内容,并将所述语音时长划分为与各个文本内容对应的时间码;
根据各个文本内容及对应的时间码,确定与所述语音信息对应的字幕信息。
3.根据权利要求1所述的数字人肢体动画生成方法,其特征在于,所述确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,包括:
获取预设语料库;
将所述文本内容与所述预设语料库中的动作关键字进行相似度匹配,并根据相似度匹配结果确定所述文本内容中与所述预设语料库的动作关键字匹配的第一文本;
确定所述预设语料库中与所述第一文本匹配的动作关键字对应的多个动作动画,并从多个动作动画中随机选择一个动作动画作为所述第一文本对应的动作动画。
4.根据权利要求1或3所述的数字人肢体动画生成方法,其特征在于,所述预设语料库的获取过程,包括:
确定与所述原始文本相关的多个动作关键字,以及确定每一动作关键字对应的多个动作动画;
根据多个动作关键字及每一动作关键字对应的多个动作动画,建立预设语料库。
5.根据权利要求4所述的数字人肢体动画生成方法,其特征在于,所述确定每一动作关键字对应的多个动作动画,包括:
获取与所述原始文本的文本类型相关的动画素材;
根据动作语义标签对所述动画素材中的动作动画进行分类标记后,得到不同动作类别的动作动画集合;
将各个动作关键字分别与各个动作动画集合的动作类别进行匹配后,根据匹配结果确定与每一动作关键字对应的动作动画集合。
6.根据权利要求1所述的数字人肢体动画生成方法,其特征在于,所述根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画,包括:
根据所述动作动画和所述待机动画的触发时段,确定数字人切换动画时的多个切换时刻;
基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,并根据混合结果生成数字人肢体动画。
7.根据权利要求6所述的数字人肢体动画生成方法,其特征在于,所述基于虚幻引擎的混合节点对各个切换时刻的动作动画和待机动画进行混合,包括:
根据各个切换时刻的动作动画、待机动画,以及预设的混合时间,对虚幻引擎中按整型值混合姿势节点的活跃子索引、混合姿势和混合时间进行配置;
在每一切换时刻,利用配置好的按整型值混合姿势节点对该切换时刻的动作动画和待机动画进行混合。
8.一种数字人肢体动画生成装置,其特征在于,包括:
信息获取模块,用于获取制作数字人肢体动画的原始文本,将所述原始文本转换为语音信息后,获取与所述语音信息对应的字幕信息,所述字幕信息包含文本内容及时间码;
动作动画确定模块,用于确定所述文本内容中与预设语料库中的动作关键字匹配的第一文本,以及所述第一文本对应的动作动画,并将所述第一文本对应的时间码作为所述动作动画的触发时段;其中,所述预设语料库中存储有与所述原始文本相关的多个动作关键字,且每一动作关键字对应多个动作动画;
待机动画确定模块,用于确定所述文本内容中除所述第一文本外的第二文本,及所述第二文本对应的待机动画,并将所述第二文本对应的时间码作为所述待机动画的触发时段;
肢体动画生成模块,用于根据所述动作动画和所述待机动画的触发时段,将所述动作动画与所述待机动画进行混合,得到数字人肢体动画。
9.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述数字人肢体动画生成方法的步骤。
10.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如权利要求1至7中任一项所述数字人肢体动画生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410038658.5A CN117557698B (zh) | 2024-01-11 | 2024-01-11 | 数字人肢体动画生成方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410038658.5A CN117557698B (zh) | 2024-01-11 | 2024-01-11 | 数字人肢体动画生成方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557698A true CN117557698A (zh) | 2024-02-13 |
CN117557698B CN117557698B (zh) | 2024-04-26 |
Family
ID=89815053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410038658.5A Active CN117557698B (zh) | 2024-01-11 | 2024-01-11 | 数字人肢体动画生成方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557698B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005129971A (ja) * | 2002-01-28 | 2005-05-19 | Telecommunication Advancement Organization Of Japan | 半自動型字幕番組制作システム |
JP2018014091A (ja) * | 2017-06-20 | 2018-01-25 | Gatebox株式会社 | 画像表示装置、話題選択方法、話題選択プログラム |
JP2019139170A (ja) * | 2018-02-14 | 2019-08-22 | Gatebox株式会社 | 画像表示装置、画像表示方法および画像表示プログラム |
CN113538641A (zh) * | 2021-07-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法及装置、存储介质、电子设备 |
CN114401438A (zh) * | 2021-12-31 | 2022-04-26 | 魔珐(上海)信息科技有限公司 | 虚拟数字人的视频生成方法及装置、存储介质、终端 |
CN114419208A (zh) * | 2021-12-23 | 2022-04-29 | 拟仁智能科技(杭州)有限公司 | 基于文本自动生成虚拟人动画的方法 |
WO2023197861A1 (zh) * | 2022-04-15 | 2023-10-19 | 北京字跳网络技术有限公司 | 游戏数据处理方法、装置、介质及电子设备 |
-
2024
- 2024-01-11 CN CN202410038658.5A patent/CN117557698B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005129971A (ja) * | 2002-01-28 | 2005-05-19 | Telecommunication Advancement Organization Of Japan | 半自動型字幕番組制作システム |
JP2018014091A (ja) * | 2017-06-20 | 2018-01-25 | Gatebox株式会社 | 画像表示装置、話題選択方法、話題選択プログラム |
JP2019139170A (ja) * | 2018-02-14 | 2019-08-22 | Gatebox株式会社 | 画像表示装置、画像表示方法および画像表示プログラム |
CN113538641A (zh) * | 2021-07-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法及装置、存储介质、电子设备 |
CN114419208A (zh) * | 2021-12-23 | 2022-04-29 | 拟仁智能科技(杭州)有限公司 | 基于文本自动生成虚拟人动画的方法 |
CN114401438A (zh) * | 2021-12-31 | 2022-04-26 | 魔珐(上海)信息科技有限公司 | 虚拟数字人的视频生成方法及装置、存储介质、终端 |
WO2023197861A1 (zh) * | 2022-04-15 | 2023-10-19 | 北京字跳网络技术有限公司 | 游戏数据处理方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117557698B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215927B (zh) | 人脸视频的合成方法、装置、设备及介质 | |
CN109729426B (zh) | 一种视频封面图像的生成方法及装置 | |
TWI752502B (zh) | 一種分鏡效果的實現方法、電子設備及電腦可讀儲存介質 | |
CN113051420B (zh) | 一种基于文本生成视频机器人视觉人机交互方法及系统 | |
CN113015005B (zh) | 一种视频剪辑方法、装置、设备及计算机可读存储介质 | |
CN111445561A (zh) | 虚拟对象的处理方法、装置、设备及存储介质 | |
CN112596694B (zh) | 一种房源信息的处理方法和装置 | |
CN108846886A (zh) | 一种ar表情的生成方法、客户端、终端和存储介质 | |
CN114363712A (zh) | 基于模板化编辑的ai数字人视频生成方法、装置及设备 | |
US20210077063A1 (en) | Generating a simulated image of a baby | |
Kaneko et al. | Sign language animation using TVML | |
CN115331265A (zh) | 姿态检测模型的训练方法和数字人的驱动方法、装置 | |
KR20230098068A (ko) | 동영상 처리 방법, 장치, 전자 기기 및 컴퓨터 저장 매체 | |
CN117557698B (zh) | 数字人肢体动画生成方法、装置、存储介质及计算机设备 | |
CN117061785A (zh) | 信息播报视频的生成方法、装置、设备及存储介质 | |
Peckham | Landscape in film | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
CN117177025A (zh) | 视频生成方法、装置、设备和存储介质 | |
Nahrstedt et al. | Computational Model of Human Creativity in Dance Choreography. | |
Martínez-Cano | Volumetric filmmaking, new mediums and formats for digital audiovisual storytelling | |
KR20100102515A (ko) | 디지털 액터의 감성을 자동으로 표현하는 방법 및 시스템 | |
CN116016837A (zh) | 一种沉浸式虚拟网络会议方法和装置 | |
Vande Berg | The critical sense: Three decades of critical media studies in the wake of Samuel L. Becker's “rhetorical studies for the contemporary world” | |
CN111986301B (zh) | 直播中数据处理的方法及装置、电子设备、存储介质 | |
CN118250509A (zh) | 数字人直播系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |