CN116402922A - 数字人的动作控制方法、装置、电子设备和存储介质 - Google Patents

数字人的动作控制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116402922A
CN116402922A CN202310241607.8A CN202310241607A CN116402922A CN 116402922 A CN116402922 A CN 116402922A CN 202310241607 A CN202310241607 A CN 202310241607A CN 116402922 A CN116402922 A CN 116402922A
Authority
CN
China
Prior art keywords
target
parameter
digital person
action
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310241607.8A
Other languages
English (en)
Inventor
黄伟坤
陈军宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Black Mirror Technology Co ltd
Original Assignee
Xiamen Black Mirror Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Black Mirror Technology Co ltd filed Critical Xiamen Black Mirror Technology Co ltd
Priority to CN202310241607.8A priority Critical patent/CN116402922A/zh
Publication of CN116402922A publication Critical patent/CN116402922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种数字人的动作控制方法、装置、电子设备和存储介质,该方法包括:获取用于触发数字人进行交互的动作触发数据,根据动作触发数据确定驱动数字人的第一参数序列;若第一参数序列中存在第一目标参数,根据第一目标参数确定数字人中需要运动的目标骨骼关键点,其中,第一目标参数与人机交互界面中指定组件的位置相关;根据指定组件的位置和目标骨骼关键点的运动范围确定第二目标参数,并在第一参数序列中将第一目标参数替换为第二目标参数,得到第二参数序列;根据第二参数序列驱动数字人,以使数字人执行与动作触发数据对应的交互动作,从而更加准确的对数字人的动作进行控制。

Description

数字人的动作控制方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种数字人的动作控制方法、装置、电子设备和存储介质。
背景技术
数字人,是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着信息技术的发展,数字人的应用越来越广泛。
在数字人与用户进行交互时,数字人通常需要执行一些交互动作。现有技术中,一般通过动作文件驱动数字人执行相应的交互动作,该动作文件包括驱动数字人运动的每一帧数据。动作文件一般基于真人执行动作的视频数据生成。在需要使数字人执行与人机交互界面上一些组件相关的动作时,例如,使数字人指向人机交互界面的某个包含交互信息的组件,以便于用户快速理解相应的交互内容,由于这些组件的位置无法通过真人执行的动作确定,造成基于动作文件的驱动方案无法使数字人执行准确的动作。
因此,如何更加准确的对数字人的动作进行控制,是目前有待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例提出了一种数字人的动作控制方法、装置、电子设备和存储介质,用以更加准确的对数字人的动作进行控制。
第一方面,提供一种数字人的动作控制方法,所述方法包括:获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
第二方面,提供一种数字人的动作控制装置,所述装置包括:第一确定模块,用于获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;第二确定模块,用于若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;第三确定模块,用于根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;驱动模块,用于根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人的动作控制方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数字人的动作控制方法。
通过应用以上技术方案,获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作,在需要使数字人执行与交互信息相关的动作时,根据相应组件的位置和待驱动的目标骨骼关键点进行驱动参数的优化,从而更加准确的对数字人的动作进行控制。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种数字人的动作控制方法的流程示意图;
图2示出了本发明另一实施例提出的一种数字人的动作控制方法的流程示意图;
图3示出了本发明实施例中检测异常片段的流程示意图;
图4示出了本发明又一实施例提出的一种数字人的动作控制方法的流程示意图;
图5示出了本发明实施例提出的一种数字人的动作控制装置的结构示意图;
图6示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
下面结合图1-图4来描述根据本申请示例性实施方式的数字人的动作控制方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请实施例提供一种数字人的动作控制方法,如图1所示,该方法包括以下步骤:
步骤S101,获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列。
本实施例中,预先建立数字人,并将数字人以静态或动态方式呈现在交互设备的人机交互界面中,交互设备上还设置有麦克风阵列和摄像头,通过摄像头可采集与交互对象(如用户)对应的图像或视频,麦克风阵列可采集外界的音频和将数字人发出的语音传输到外界。根据所应用的不同场景,设置数字人按相应的方式进行互动,例如,当应用于零售场景时,数字人可以充当一个导购的角色,通过预先存储各种商品的相关信息,来为不同的用户推荐相应的商品。当应用于展厅场景时,数字人可以充当一个展示员的角色,通过预先存储各种展览品的相关信息,向前来参观的不同人员展示相应展览品。
可通过交互设备上的麦克风阵列、或摄像头、或触控屏幕、或外部键盘获取动作触发数据,动作触发数据可以是用户的图像或视频、或是一段语音或音乐、或是一段文本等,动作触发数据可触发数字人产生相应的动作,与该动作对应的驱动参数形成第一参数序列。例如,当用户靠近互动设备时,动作触发数据为用户的图像,数字人需要做出微笑和鞠躬的动作;当用户发出语音进行提问时,数字人输出与相应答案对应的动作,如说话、手部动作等;当检测到一段音乐时,数字人可输出与音乐节奏对应的舞蹈动作;当检测到表征互动指令的文本时,数字人可输出与互动指令对应的动作。
步骤S102,若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关。
第一参数序列中,对于一些比较固定的动作,如鞠躬、敬礼、走路等,相应的驱动参数可基于真人执行动作的视频数据生成,这些固定动作与人机交互界面中的组件的位置没有密切的关联,因此这些驱动参数可直接作为最终的驱动参数。而对于一些与人机交互界面中指定组件的位置相关的动作,由于无法预先确定指定组件的位置,相应的第一目标参数并不能使数字人进行准确的动作,为了使数字人更加准确的进行动作,需要对第一目标参数进一步处理。
数字人的骨骼关键点主要分布在数字人的身体和肢体的各个骨骼关节部位,通常这些骨骼关键点在图像坐标的位移,可驱动数字人的相应身体部位产生相应的运动效果。在确定第一参数序列后,判断第一参数序列中是否存在第一目标参数,若存在,则根据第一目标参数确定数字人中需要运动的目标骨骼关键点。例如,在数字人回答用户提出的问题时,指定组件可以为包括文本答案的文本框,数字人在回答问题的同时用手部指向该文本框的位置,以使用户快速理解相应的答案;在数字人向用户介绍某个产品时,指定组件可以为该产品的图片或介绍视频,数字人在介绍产品的同时,用手部指向该图片或介绍视频的位置,便于用户更加直观的了解产品。
步骤S103,根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列。
本实施例中,目标骨骼关键点可表征数字人上相应的运动部位,如手臂、头部等,目标骨骼关键点存在一定的运动范围,根据指定组件的位置和运动范围可确定第二目标参数,该第二目标参数可驱动数字人执行与指定组件的位置相关的动作。第二目标参数可准确的使数字人执行相应的动作,在第一参数序列中将第一目标参数替换为第二目标参数,得到第二参数序列。其中,可按时序将第一目标参数替换为第二目标参数。
步骤S104,根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
本实施例中,按时序将第二参数序列中各驱动参数赋予数字人上相应的骨骼关键点,使数字人执行与动作触发数据对应的交互动作。
通过应用以上技术方案,获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作,在需要使数字人执行与交互信息相关的动作时,根据相应组件的位置和待驱动的目标骨骼关键点进行驱动参数的优化,从而更加准确的对数字人的动作进行控制。
本申请实施例还提出了一种数字人的动作控制方法,如图2所示,该方法包括以下步骤:
步骤S201,获取用于触发数字人进行交互的动作触发数据,将所述动作触发数据输入预设动作生成模型。
本实施例中,可通过交互设备上的麦克风阵列、或摄像头、或触控屏幕、或外部键盘获取动作触发数据,动作触发数据可以是用户的图像或视频、或是一段语音或音乐、或是一段文本等。预先训练出预设动作生成模型,预设动作生成模型可以为机器学习模型,也可为深度学习模型,其预先采用相应的训练数据集中的数据样本进行训练,所述数据样本包括训练样本和相应的监督标签。在获取动作触发数据后,将动作触发数据输入预设动作生成模型。
在本申请一些实施例中,在将所述动作触发数据输入预设动作生成模型之前,所述方法还包括:
将预设动作触发数据输入多个已收敛的动作生成模型,根据各所述动作生成模型输出的结果得到多个第三参数序列;
基于各所述第三参数序列分别驱动多个预设数字人,得到多个数字人动画;
将各所述数字人动画展示在所述人机交互界面,根据多个用户对各所述数字人动画的评价数据确定最佳动作生成模型;
根据所述最佳动作生成模型确定所述预设动作生成模型。
本实施例中,预先训练出多个已收敛的动作生成模型,每个动作生成模型对应一个预设数字人,将预设动作触发数据输入各动作生成模型,根据各动作生成模型输出的结果得到多个用于驱动预设数字人的第三参数序列,然后基于各第三参数序列分别驱动多个预设数字人,得到多个数字人动画,再将各数字人动画展示在人机交互界面,提示用户对各数字人动画的质量进行评价,根据多个用户的评价数据从各动作生成模型中确定最佳动作生成模型,最后根据最佳动作生成模型确定预设动作生成模型。由于评价数据为用户的主观评价数据,从而可得到更加优质的最佳动作生成模型,进而提高了预设动作生成模型的准确性。
可选的,在将各数字人动画展示在人机交互界面之后,在人机交互界面生成评价界面,该评价界面可以为评分界面和/或可输入评价文本的界面,以便于收集各用户的评价数据。
在本申请一些实施例中,评价数据包括主观评分和评价文本,所述根据多个用户对各所述数字人动画的评价数据确定最佳动作生成模型,包括:将所述主观评分作为第一得分;将所述评价文本输入预设评分模型,根据预设评分模型的输出得到第二得分;按预设权重数据对所述第一得分和所述第二得分进行加权求和,得到第三得分;基于第三得分确定所述最佳动作生成模型,从而可更加准确的确定最佳动作生成模型。
可选的,各数字人动画在同一布局的不同窗口中并排显示,从而便于用户比较不同的数字人动画的质量。
在本申请一些实施例中,所述根据所述最佳动作生成模型确定所述预设动作生成模型,包括:
将与所述最佳动作生成模型对应的预设动作触发数据和第三参数序列加入所述最佳动作生成模型的训练数据集;
基于所述训练数据集中的数据样本重新对所述最佳动作生成模型进行训练,将训练至收敛状态后的动作生成模型作为所述预设动作生成模型。
本实施例中,在确定最佳动作生成模型后,将与最佳动作生成模型对应的预设动作触发数据和第三参数序列加入最佳动作生成模型的训练数据集,然后基于该训练数据集中的数据样本重新将最佳动作生成模型训练至收敛状态,得到预设动作生成模型。由于训练数据集中加入了基于用户评价数据确定的数据样本,可进一步提升预设动作生成模型的推理能力,进而可得到更加准确的第一参数序列。
步骤S202,根据所述预设动作生成模型输出的结果确定第一参数序列。
在输入动作触发数据后,预设动作生成模型输出相应的驱动参数,得到第一参数序列。
举例来说,若用户发出播放指定音乐的指令,预设动作生成模型提取指定音乐中的音频特征序列,根据音频特征序列生成使数字人执行相应舞蹈动作的第一参数序列;若用户展示一段舞蹈视频,预设动作生成模型提取舞蹈视频中的图像帧,并检测各图像帧中与舞蹈动作对于的骨骼关键点的位置,得到第一参数序列;若用户输入一段包括互动指令的文本,预设动作生成模型提取相应的文本语义特征,根据文本语义特征生成第一参数序列。
通过将动作触发数据输入预设动作生成模型,使预设动作生成模型对动作触发数据进行深层次语义信息的提取,根据深层次语义信息得到相应的骨骼关键点的位置信息,从而提高了第一参数序列的准确性。
步骤S203,若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关。
第一参数序列中,对于一些比较固定的动作,如鞠躬、敬礼、走路等,相应的驱动参数可基于真人执行动作的视频数据生成,这些固定动作与人机交互界面中的组件的位置没有密切的关联,因此这些驱动参数可直接作为最终的驱动参数。而对于一些与人机交互界面中指定组件的位置相关的动作,由于无法预先确定指定组件的位置,相应的第一目标参数并不能使数字人进行准确的动作,为了使数字人更加准确的进行动作,需要对第一目标参数进一步处理。
数字人的骨骼关键点主要分布在数字人的身体和肢体的各个骨骼关节部位,通常这些骨骼关键点在图像坐标的位移,可驱动数字人的相应身体部位产生相应的运动效果。在确定第一参数序列后,判断第一参数序列中是否存在第一目标参数,若存在,则根据第一目标参数确定数字人中需要运动的目标骨骼关键点。
步骤S204,根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列。
本实施例中,目标骨骼关键点可表征数字人上相应的运动部位,如手臂、头部等,目标骨骼关键点存在一定的运动范围,根据指定组件的位置和运动范围可确定第二目标参数,该第二目标参数可驱动数字人执行与指定组件的位置相关的动作。第二目标参数可准确的使数字人执行相应的动作,在第一参数序列中将第一目标参数替换为第二目标参数,得到第二参数序列。其中,可按时序将第一目标参数替换为第二目标参数。
在本申请一些实施例中,在得到第二参数序列之后,如图3所示,所述方法还包括:
步骤S31,根据与所述第二参数序列对应的各动画帧确定各驱动参数帧。
本实施例中,由于第二参数序列中可能存在描述不准确的参数,导致数字人的动作出现不流畅或静止等动作异常现象,因此在得到第二参数序列之后,进行相应的异常检测,得到异常片段,并对这些异常片段进行修正。第二参数序列对应多个动画帧,每个动画帧对应的一组驱动参数为一个驱动参数帧。
步骤S32,连续获取各所述驱动参数帧中每两个相邻帧之间的相似度。
可通过每两个相邻帧之间的相似度进行异常检测,连续获取各驱动参数帧中每两个相邻帧之间的相似度,具体的,可先获取每两个相邻帧的动作特征向量,该动作特征向量表征了骨骼关键点的位置信息,根据两个相应的动作特征向量之间的距离确定相似度。其中,可采用包括余弦相似度、向量间点积、欧氏距离、皮尔逊相关系数、杰卡德系数等任一种算法计算两个相应的动作特征向量之间的距离。
步骤S33,若当前两个相邻帧之间的相似度小于预设阈值,将所述当前两个相邻帧作为两个目标帧,并确定包括两个所述目标帧的异常片段。
可以理解的是,相似度表征两个相邻帧之间动作变化时的相似度,相似度越高,表示两个相邻帧之间的动作变化越流畅自然,相似度越低,则表示两个相邻帧之间的动作变化越不平滑。因此,可预设一个预设阈值,将相似度与该预设阈值进行比较,若相似度小于预设阈值,可确认当前两个相邻帧之间存在不平滑的异常现象,由此可将当前的两个相邻帧标记为异常片段,若存在多对连续的相邻帧为异常片段,可将各对连续的相邻帧合并为一个异常片段。
步骤S34,根据所述异常片段中的帧数量对所述异常片段进行修正。
在确定异常片段后,确定异常片段的帧数量,根据帧数量对异常片段进行修正,通过对第二参数序列进行异常检测,并对检测到的异常片段进行修正,进一步提高了数字人动作的流畅性。
在本申请一些实施例中,所述根据所述异常片段的帧数量对所述异常片段进行修正,包括:
若所述帧数量不小于预设数量,从预设素材库中获取与所述异常片段匹配的第一目标片段,基于所述第一目标片段替换所述异常片段;
若所述帧数量小于所述预设数量,将分别与所述异常片段前后相邻的两个帧作为参考帧,基于预设插值算法对两个所述参考帧进行插值处理,得到第二目标片段,基于所述第二目标片段替换所述异常片段。
若帧数量不小于预设数量,说明异常片段中帧的数量较多,可采用对整个异常片段进行替换的方式对异常片段进行修正。从预设素材库中调用替换异常片段的素材,该预设素材库保存有多个不同动作对应的动作帧,每个动作帧为一个素材。可先确定异常片段与预设素材库中各个素材集合之间的向量相似度,然后根据向量相似度对各素材集合进行排序,选取其中相似度最高的素材集合组成第一目标片段,然后基于第一目标片段替换异常片段。需要说明的是,在计算向量相似度时,可逐帧计算相应的向量相似度,然后进行累加得到总体向量相似度,再根据总体向量相似度排序确定相似度最高的素材集合,得到第一目标片段。
若帧数量小于预设数量,说明异常片段中帧的数量较少,先将分别与异常片段前后相邻的两个帧作为参考帧,再基于预设插值算法对两个所述参考帧进行插值处理,得到用于进行替换的第二目标片段,然后基于第二目标片段替换异常片段。其中,预设插值算法可以为线性插值算法,也可以为球形插值算法,本领域技术人员可灵活选用。
通过异常片段的帧数量的不同,采用相应的方式对异常片段进行修正,从而使数字人的动作更加流畅自然。
步骤S205,根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
本实施例中,按时序将第二参数序列中各驱动参数赋予数字人上相应的骨骼关键点,使数字人执行与动作触发数据对应的交互动作。
通过应用以上技术方案,获取用于触发数字人进行交互的动作触发数据,将所述动作触发数据输入预设动作生成模型;根据所述预设动作生成模型输出的结果确定所述第一参数序列;若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作,在需要使数字人执行与交互信息相关的动作时,根据相应组件的位置和待驱动的目标骨骼关键点进行驱动参数的优化,从而更加准确的对数字人的动作进行控制。
本申请实施例还提出了一种数字人的动作控制方法,如图4所示,包括以下步骤:
步骤S401,获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列。
可通过交互设备上的麦克风阵列、或摄像头、或触控屏幕、或外部键盘获取动作触发数据,动作触发数据可以是用户的图像或视频、或是一段语音或音乐、或是一段文本等,动作触发数据可触发数字人产生相应的动作,与该动作对应的驱动参数形成第一参数序列。
步骤S402,若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关。
数字人的骨骼关键点主要分布在数字人的身体和肢体的各个骨骼关节部位,通常这些骨骼关键点在图像坐标的位移,可驱动数字人的相应身体部位产生相应的运动效果。在确定第一参数序列后,判断第一参数序列中是否存在第一目标参数,若存在,则根据第一目标参数确定数字人中需要运动的目标骨骼关键点。
步骤S403,根据目标骨骼关键点的运动范围确定所述目标骨骼关键点的至少两个极限姿势。
本实施例中,目标骨骼关键点存在一定的运动范围,每种运动范围多种极限姿势,因此,数字人执行的与指定组件的位置对应的目标动作均可由不同的极限姿势融合而成。例如,将眼球转向最左的姿势和最右的姿势这两个姿势以各50%的比例进行融合,可得到眼球朝前的姿势。当眼球转向最左的姿势所占的比例超过眼球转向最右的姿势所占的比例时,数字人的眼球是看向左边的。根据运动范围确定目标骨骼关键点的至少两个极限姿势,例如,若目标骨骼关键点与眼球相对应,眼球在上下左右四个方向上存在相应的运动范围,可将眼球转向最左边和转向最右边时的位置作为两个极限姿势。
步骤S404,根据所述指定组件的位置和所述目标骨骼关键点的当前位置确定融合系数。
本实施例中,根据指定组件的位置和目标骨骼关键点的当前位置可确定目标骨骼关键点的运动趋势,根据相应的运动趋势确定融合系数,该融合系数表征了各所述极限姿势的融合比例。
步骤S405,基于所述融合系数对与各所述极限姿势进行融合处理,得到第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列。
在得到融合系数后,基于融合系数对与各极限姿势进行融合处理,得到第二目标参数,该得到第二目标参数使目标骨骼关键点的目标位置与指定组件的位置匹配,例如,目标骨骼关键点为手部时,手部在目标位置下可准确指向指定组件的位置。
第二目标参数可准确的使数字人执行相应的动作,在第一参数序列中将第一目标参数替换为第二目标参数,得到第二参数序列。其中,可按时序将第一目标参数替换为第二目标参数。
步骤S406,根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
本实施例中,按时序将第二参数序列中各驱动参数赋予数字人上相应的骨骼关键点,使数字人执行与动作触发数据对应的交互动作。
通过应用以上技术方案,获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;根据目标骨骼关键点的运动范围确定所述目标骨骼关键点的至少两个极限姿势;根据所述指定组件的位置和所述目标骨骼关键点的当前位置确定融合系数;基于所述融合系数对与各所述极限姿势进行融合处理,得到第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作,在需要使数字人执行与交互信息相关的动作时,根据相应组件的位置和待驱动的目标骨骼关键点进行驱动参数的优化,从而更加准确的对数字人的动作进行控制。
本申请实施例还提出了一种数字人的动作控制装置,如图5所示,所述装置包括:第一确定模块501,用于获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;第二确定模块502,用于若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;第三确定模块503,用于根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;驱动模块504,用于根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
在具体应用场景中,第一确定模块501,具体用于:将所述动作触发数据输入预设动作生成模型;根据所述预设动作生成模型输出的结果确定所述第一参数序列。
在具体应用场景中,所述装置还包括评价模块,用于:将预设动作触发数据输入多个已收敛的动作生成模型,根据各所述动作生成模型输出的结果得到多个第三参数序列;基于各所述第三参数序列分别驱动多个预设数字人,得到多个数字人动画;将各所述数字人动画展示在所述人机交互界面,根据多个用户对各所述数字人动画的评价数据确定最佳动作生成模型;根据所述最佳动作生成模型确定所述预设动作生成模型。
在具体应用场景中,所述评价模块,具体用于:将与所述最佳动作生成模型对应的预设动作触发数据和第三参数序列加入所述最佳动作生成模型的训练数据集;基于所述训练数据集中的数据样本重新对所述最佳动作生成模型进行训练,将训练至收敛状态后的动作生成模型作为所述预设动作生成模型。
在具体应用场景中,所述装置还包括异常检测模块,用于:根据与所述第二参数序列对应的各动画帧确定各驱动参数帧;连续获取各所述驱动参数帧中每两个相邻帧之间的相似度;若当前两个相邻帧之间的相似度小于预设阈值,将所述当前两个相邻帧作为两个目标帧,并确定包括两个所述目标帧的异常片段;根据所述异常片段中的帧数量对所述异常片段进行修正。
在具体应用场景中,所述异常检测模块,还用于:若所述帧数量不小于预设数量,从预设素材库中获取与所述异常片段匹配的第一目标片段,基于所述第一目标片段替换所述异常片段;若所述帧数量小于所述预设数量,将分别与所述异常片段前后相邻的两个帧作为参考帧,基于预设插值算法对两个所述参考帧进行插值处理,得到第二目标片段,基于所述第二目标片段替换所述异常片段。
在具体应用场景中,第三确定模块503,具体用于:根据所述运动范围确定所述目标骨骼关键点的至少两个极限姿势;根据所述指定组件的位置和所述目标骨骼关键点的当前位置确定融合系数;基于所述融合系数对与各所述极限姿势进行融合处理,得到所述第二目标参数。
通过应用以上技术方案,数字人的动作控制装置包括:第一确定模块,用于获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;第二确定模块,用于若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;第三确定模块,用于根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;驱动模块,用于根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作,在需要使数字人执行与交互信息相关的动作时,根据相应组件的位置和待驱动的目标骨骼关键点进行驱动参数的优化,从而更加准确的对数字人的动作进行控制。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存储处理器的可执行指令;
处理器601,被配置为经由执行所述可执行指令来执行:
获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数字人的动作控制方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的数字人的动作控制方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数字人的动作控制方法,其特征在于,所述方法包括:
获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;
若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;
根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;
根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
2.如权利要求1所述的方法,其特征在于,所述根据所述动作触发数据确定驱动所述数字人的第一参数序列,包括:
将所述动作触发数据输入预设动作生成模型;
根据所述预设动作生成模型输出的结果确定所述第一参数序列。
3.如权利要求2所述的方法,其特征在于,在将所述动作触发数据输入预设动作生成模型之前,所述方法还包括:
将预设动作触发数据输入多个已收敛的动作生成模型,根据各所述动作生成模型输出的结果得到多个第三参数序列;
基于各所述第三参数序列分别驱动多个预设数字人,得到多个数字人动画;
将各所述数字人动画展示在所述人机交互界面,根据多个用户对各所述数字人动画的评价数据确定最佳动作生成模型;
根据所述最佳动作生成模型确定所述预设动作生成模型。
4.如权利要求3所述的方法,其特征在于,所述根据所述最佳动作生成模型确定所述预设动作生成模型,包括:
将与所述最佳动作生成模型对应的预设动作触发数据和第三参数序列加入所述最佳动作生成模型的训练数据集;
基于所述训练数据集中的数据样本重新对所述最佳动作生成模型进行训练,将训练至收敛状态后的动作生成模型作为所述预设动作生成模型。
5.如权利要求1所述的方法,其特征在于,在得到第二参数序列之后,所述方法还包括:
根据与所述第二参数序列对应的各动画帧确定各驱动参数帧;
连续获取各所述驱动参数帧中每两个相邻帧之间的相似度;
若当前两个相邻帧之间的相似度小于预设阈值,将所述当前两个相邻帧作为两个目标帧,并确定包括两个所述目标帧的异常片段;
根据所述异常片段中的帧数量对所述异常片段进行修正。
6.如权利要求5所述的方法,其特征在于,所述根据所述异常片段的帧数量对所述异常片段进行修正,包括:
若所述帧数量不小于预设数量,从预设素材库中获取与所述异常片段匹配的第一目标片段,基于所述第一目标片段替换所述异常片段;
若所述帧数量小于所述预设数量,将分别与所述异常片段前后相邻的两个帧作为参考帧,基于预设插值算法对两个所述参考帧进行插值处理,得到第二目标片段,基于所述第二目标片段替换所述异常片段。
7.如权利要求1所述的方法,其特征在于,所述根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,包括:
根据所述运动范围确定所述目标骨骼关键点的至少两个极限姿势;
根据所述指定组件的位置和所述目标骨骼关键点的当前位置确定融合系数;
基于所述融合系数对与各所述极限姿势进行融合处理,得到所述第二目标参数。
8.一种数字人的动作控制装置,其特征在于,所述装置包括:
第一确定模块,用于获取用于触发数字人进行交互的动作触发数据,根据所述动作触发数据确定驱动所述数字人的第一参数序列;
第二确定模块,用于若所述第一参数序列中存在第一目标参数,根据所述第一目标参数确定所述数字人中需要运动的目标骨骼关键点,其中,所述第一目标参数与人机交互界面中指定组件的位置相关;
第三确定模块,用于根据所述指定组件的位置和所述目标骨骼关键点的运动范围确定第二目标参数,并在所述第一参数序列中将所述第一目标参数替换为所述第二目标参数,得到第二参数序列;
驱动模块,用于根据所述第二参数序列驱动所述数字人,以使所述数字人执行与所述动作触发数据对应的交互动作。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的数字人的动作控制方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的数字人的动作控制方法。
CN202310241607.8A 2023-03-14 2023-03-14 数字人的动作控制方法、装置、电子设备和存储介质 Pending CN116402922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310241607.8A CN116402922A (zh) 2023-03-14 2023-03-14 数字人的动作控制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310241607.8A CN116402922A (zh) 2023-03-14 2023-03-14 数字人的动作控制方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116402922A true CN116402922A (zh) 2023-07-07

Family

ID=87016948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310241607.8A Pending CN116402922A (zh) 2023-03-14 2023-03-14 数字人的动作控制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116402922A (zh)

Similar Documents

Publication Publication Date Title
Petrovich et al. TEMOS: Generating diverse human motions from textual descriptions
Ferreira et al. Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio
Trejo et al. Recognition of yoga poses through an interactive system with kinect device
CN111488824A (zh) 运动提示方法、装置、电子设备和存储介质
CN111860362A (zh) 生成人脸图像校正模型及校正人脸图像的方法和装置
CN110737339A (zh) 基于深度学习的视觉—触觉交互模型构建方法
WO2021183309A1 (en) Real time styling of motion for virtual environments
US20210216349A1 (en) Machine interaction
CN113190109A (zh) 头戴式显示设备的输入控制方法、装置及头戴式显示设备
Brock et al. Developing a lightweight rock-paper-scissors framework for human-robot collaborative gaming
Varona et al. Toward natural interaction through visual recognition of body gestures in real-time
CN116186326A (zh) 视频推荐方法、模型训练方法、电子设备及存储介质
US11615140B2 (en) Method and apparatus for detecting temporal action of video, electronic device and storage medium
Li et al. Audio2gestures: Generating diverse gestures from audio
CN113869377A (zh) 训练方法、装置及电子设备
CN111311000B (zh) 用户消费行为预测模型训练方法、装置、设备及存储介质
Mousas et al. Efficient hand-over motion reconstruction
CN116402922A (zh) 数字人的动作控制方法、装置、电子设备和存储介质
CN110347323A (zh) 基于手部姿势来转录增强现实键盘输入
CN115546897A (zh) 手语识别方法、装置、电子设备及可读存储介质
CN115645929A (zh) 游戏外挂行为的检测方法、装置及电子设备
Zholshiyeva et al. Human-machine interactions based on hand gesture recognition using deep learning methods.
Zhao et al. Generating diverse gestures from speech using memory networks as dynamic dictionaries
CN116528759A (zh) 信息处理装置、信息处理方法和程序
Chen et al. Movement Evaluation Algorithm‐Based Form Tracking Technology and Optimal Control of Limbs for Dancers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination