CN116189279A - 一种确定虚拟人手部动作的方法、装置及存储介质 - Google Patents

一种确定虚拟人手部动作的方法、装置及存储介质 Download PDF

Info

Publication number
CN116189279A
CN116189279A CN202211585994.9A CN202211585994A CN116189279A CN 116189279 A CN116189279 A CN 116189279A CN 202211585994 A CN202211585994 A CN 202211585994A CN 116189279 A CN116189279 A CN 116189279A
Authority
CN
China
Prior art keywords
semantic
motion vector
determining
hand motion
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211585994.9A
Other languages
English (en)
Inventor
张雪源
顾文元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanmeng Human Intelligence International Co ltd
Shanghai Yuanmeng Intelligent Technology Co ltd
Original Assignee
Yuanmeng Human Intelligence International Co ltd
Shanghai Yuanmeng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanmeng Human Intelligence International Co ltd, Shanghai Yuanmeng Intelligent Technology Co ltd filed Critical Yuanmeng Human Intelligence International Co ltd
Priority to CN202211585994.9A priority Critical patent/CN116189279A/zh
Publication of CN116189279A publication Critical patent/CN116189279A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种确定虚拟人手部动作的方法、一种确定虚拟人手部动作的装置以及一种计算机可读存储介质。上述确定虚拟人手部动作的方法包括以下步骤:获取虚拟人的播报文本;对播报文本进行语义解析,以确定其语义分类标签;以及根据语义分类标签,确定对应的语义手势的手部运动矢量。通过执行这些步骤,该方法能够确定与语义高度匹配的手部动作,使得手部动作和语义具有更高的关联度和契合度,并避免使用户产生不自然的感受,从而提高虚拟人动作的自然性以及准确性。

Description

一种确定虚拟人手部动作的方法、装置及存储介质
技术领域
本发明涉及虚拟人动作技术领域,尤其涉及一种确定虚拟人手部动作的方法、一种确定虚拟人手部动作的装置,以及对应的计算机可读存储介质。
背景技术
随着技术的革新,形象各异的虚拟数字人越来越多地走向前台。其中,能够进行交互的服务型虚拟人,作为虚拟导览、虚拟主播、虚拟讲解员、虚拟教师、虚拟员工等形象,越来越多地出现在了日常生活中。虚拟人的表现是否自然和智能,大大地影响着与其交互的体验。尤其是虚拟人的动作系统,即虚拟人的举手投足,是决定虚拟人表现力的重要方面。如果虚拟人的动作能够像真人一样自然,并且与其所讲话内容匹配,则会大大增加虚拟人的自然程度。
目前虚拟人的动作系统通常采用的是动画回放方法,即首先通过动捕、动画师手工制作等方式创建包含海量预设动画的动作库,在合成时再通过调取某一预设动画进行回放,将其渲染为视频并以实时播放或者推流的方法展现出来。该方法虽然逻辑上较为简单,但是实际使用时,由于是动作库内动画的回放,存在动作机械、重复性高,并且语义与动作难以完全匹配等问题,给用户的感觉是呆板、不自然,很容易失去与虚拟人交互的意愿。此外,为了涵盖更多的动作,需要构建大规模的动作库,存在人工成本高、制作周期长,维护和更新困难等问题。
为了克服现有技术存在的上述缺陷,本领域亟需一种确定虚拟人的手部动作的技术,用于确定与语义高度匹配的手部动作,使得手部动作和语义具有更高的关联度和契合度,并避免使用户产生不自然的感受,从而提高虚拟人动作的自然性以及准确性。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。
为了克服现有技术存在的上述缺陷,本发明提供了一种确定虚拟人的手部动作方法、一种确定虚拟人的手部动作系统,以及一种对应的计算机可读存储介质,能够确定与语义高度匹配的手部动作,使得手部动作和语义具有更高的关联度和契合度,并避免使用户产生不自然的感受,从而提高虚拟人动作的自然性以及准确性。
具体来说,根据本发明的第一方面提供的上述确定虚拟人的手部动作方法包括以下步骤:获取所述虚拟人的播报文本;对所述播报文本进行语义解析,以确定其语义分类标签;以及根据所述语义分类标签,确定对应的语义手势的手部运动矢量。
进一步地,在本发明的一些实施例中,所述对所述播报文本进行语义解析,以确定其语义分类标签的步骤包括:对所述播报文本进行基于单一语义的短语分割,以获得至少一个包含单一语义的短语;以及经由预先训练的文本分类模型分别处理各所述短语,以获得对应的至少一个语义分类标签。
进一步地,在本发明的一些实施例中,在经由所述文本分类模型分别处理各所述短语之前,所述方法还包括以下步骤:基于预先设置的关键词,对各所述短语进行关键词匹配;以及响应于任一所述短语与任一所述关键词匹配成功,根据匹配成功的关键词确定对应的符号手势的手部运动矢量。
进一步地,在本发明的一些实施例中,每一所述语义分类标签对应涉及所述虚拟人的左手和/或右手的多个语义手势,所述根据所述语义分类标签,确定对应的语义手势的手部运动矢量的步骤包括:根据所述语义分类标签,从对应的多个语义手势中随机选取一者,并确定其手部运动矢量。
进一步地,在本发明的一些实施例中,所述根据所述语义分类标签,从对应的多个语义手势中随机选取一者的步骤包括:获取所述语义分类标签对应的多个语义手势被选取的历史记录;根据所述历史记录,从所述语义分类标签对应的多个语义手势中随机选取一个不重复的语义手势;以及记录本次选取的语义手势。
进一步地,在本发明的一些实施例中,每一所述语义手势对应一个基准运动矢量,所述根据所述语义分类标签,确定对应的语义手势的手部运动矢量的步骤包括:所述根据所述语义分类标签,确定对应的语义手势的基准运动矢量;以及向所述基准运动矢量的起点坐标和/或终点坐标添加一个随机值,以确定多样化处理的手部运动矢量。
进一步地,在本发明的一些实施例中,所述基准运动矢量包括以坐标系原点为起点或终点的第一基准运动矢量,以及不以所述坐标系原点为起点或终点的第二基准运动矢量,所述向所述基准运动矢量的起点坐标和/或终点坐标添加一个随机值,以确定多样化处理的手部运动矢量的步骤包括:判断所述基准运动矢量的起点坐标和/或终点坐标是否为坐标系原点;以及向不为所述坐标系原点的起点坐标和/或终点坐标添加所述随机值,以确定所述多样化处理的手部运动矢量。
进一步地,在本发明的一些实施例中,在确定所述手部运动矢量之后,所述方法还包括以下步骤:根据所述手部运动矢量,确定其对应的基准手部运动轨迹,其中,所述基准手部运动轨迹至少包含起点坐标、终点坐标及轨迹弧度的特征;以及向所述轨迹弧度添加一个随机值,以确定多样化处理的手部运动轨迹。
进一步地,在本发明的一些实施例中,在确定所述手部运动矢量之后,所述方法还包括以下步骤:获取所述虚拟人的性格参数和/或情绪参数;以及根据所述性格参数和/或所述情绪参数,确定所述虚拟人的手部的移动速度。
进一步地,在本发明的一些实施例中,在确定所述手部运动矢量之后,所述方法还包括以下步骤:根据所述手部运动矢量,合成所述虚拟人的手部动作的动画。
此外,根据本发明的第二方面提供的确定虚拟人手部动作的装置包括:存储器;以及处理器,其中,所述处理器连接所述存储器,比被配置用于实施上述确定虚拟人手部动作的方法。
此外,根据本发明的第三方面提供的计算机可读存储介质,其上存储有计算机指令,上述计算机指令被处理器执行时,实施确定虚拟人手部动作的方法。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了根据本发明的一些实施例提供的确定虚拟人手部动作的装置的架构图。
图2示出了根据本发明的一些实施例提供的确定虚拟人手部动作方法的流程图。
图3示出了根据本发明的一些实施例提供的确定虚拟人手部动作方法的流程图。
图4示出了根据本发明的一些实施例提供的建立虚拟人手部动作的坐标系的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用,其并不代表其所叙述的装置需以特定方位来制造或运作,因此不应理解为对本发明的限制。
能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。
如上所述,目前虚拟人的动作系统通常采用的是动画回放方法,即首先通过动捕、动画师手工制作等方式创建包含海量预设动画的动作库,在合成时再通过调取某一预设动画进行回放,将其渲染为视频并以实时播放或者推流的方法展现出来。该方法虽然逻辑上较为简单,但是实际使用时,由于是动作库内动画的回放,存在动作机械、重复性高,并且语义与动作难以完全匹配等问题,给用户的感觉是呆板、不自然,很容易失去与虚拟人交互的意愿。此外,为了涵盖更多的动作,需要构建大规模的动作库,存在人工成本高、制作周期长,维护和更新困难等问题。
为了克服现有技术存在的上述缺陷,本发明提供了一种确定虚拟人的手部动作的方法、一种确定虚拟人的手部动作的装置,以及一种对应的计算机可读存储介质,能够确定与语义高度匹配的手部动作,使得手部动作和语义具有更高的关联度和契合度,并避免使用户产生不自然的感受,从而提高虚拟人动作的自然性以及准确性。
在一些非限制性的实施例中,本发明的第一方面提供的上述确定虚拟人的手部动作的方法可以经由本发明的第二方面提供的上述确定虚拟人的手部动作的装置来实施。具体来说,该装置中可以配置有存储器及处理器。该存储器包括但不限于本发明的第三方面提供的上述计算机可读存储介质,其上存储有计算机指令。该处理器连接存储器,并被配置用于执行该存储器上存储的计算机指令,以实施本发明的第一方面提供的确定虚拟人的手部动作的方法。
首先请参考图1,图1示出了根据本发明的一些实施例提供的确定虚拟人的手部动作的装置的架构图。
如图1所示,本发明的第二方面提供的确定虚拟人的手部动作的装置可以包括通信模块105、存储器以及处理器102。上述存储器可以包括内部通信总线101、处理器(processor)102、只读存储器(ROM)103、随机存取存储器(RAM)104、通信端口105、以及硬盘107。内部通信总线101可以实现确定虚拟人的手部动作的装置组件间的数据通信。处理器102可以进行判断和发出提示。在一些实施例中,处理器102可以由一个或多个处理器组成。通信端口105可以实现确定虚拟人的手部动作的装置与外部的输入/输出设备之间进行数据传输与通信。在一些实施例中,确定虚拟人的手部动作的装置可以通过通信端口105从网络发送和接收信息及数据。在一些实施例中,确定虚拟人的手部动作的装置可以通过输入/输出端106以有线的形式与外部的输入/输出设备之间进行数据传输与通信。确定虚拟人的手部动作的装置还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘107,只读存储(ROM)103和随机存取存储器(RAM)104,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器102所执行的可能的程序指令。处理器102执行这些指令以实现方法的主要部分。处理器102处理的结果通过通信端口105传给外部的输出设备,在输出设备的用户界面上显示。
以下将结合一些确定虚拟人手部动作的方法的实施例来描述上述确定虚拟人手部动作的装置的工作原理。本领域的技术人员可以理解,这些方法的实施例只是本发明提供的一些非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施的具体方案,而非用于限制该确定虚拟人手部动作的装置的全部功能或全部工作方式。同样地,该确定虚拟人手部动作的装置也只是本发明提供的一种非限制性的实施方式,不对这些确定虚拟人手部动作的方法中各步骤的执行主体构成限制。
请结合参考图2以及图3。图2示出了根据本发明的一些实施例提供的确定虚拟人手部动作方法的流程图。图3示出了根据本发明的一些实施例提供的确定虚拟人手部动作方法的流程图。
如图2所示,在确定虚拟人手部动作的过程中,本发明可以首先获取虚拟人的播报文本,再对该播报文本进行语义解析,以确定其语义分类标签。之后,本发明法可以根据语义解析确定的语义分类标签,确定对应的语义手势的手部运动矢量。
进一步地,如图3所示,在对播报文本进行语义解析的过程中,本发明可以先对上述播报文本进行基于单一语义的短语分割,以获得至少一个包含单一语义的短语,再基于各包含单一语义的短语进行语义解析。
具体来说,在本发明的一些实施例中,本发明可以首先收集虚拟人的语料,并将其存入数据库中作为虚拟人的语料库。之后,本发明可以将该虚拟人的语料作为对应的标注,将虚拟人的语料与语义分类标签进行标注对应,并存入数据库中。该数据库的存储形式可以为由语料为主键,其对应的语义标签为相对应的键,将这两者作为一条数据库的记录存入数据库中。之后,本发明可以将上述由语料确定语义标签作为一个多分类问题进行建模,通过集成学习将各类多分类模型作为子决策树集成到上述集成学习模型中,以对上述多分类问题进行训练,在将上述训练后的集成学习模型作为预训练的文本分类模型保存。如此,在预训练完上述文本分类模型后,本发明即可通过语音转换模块获取虚拟人的播报文本,再使用Bert模型、SegNet模型和/或U-Net模型对该播报文本进行语义分割,以获得至少一个包含单一语义的短语。
在经由语义分割模型获得至少一个包含单一语义的短语之后,本发明可以优选的基于预先设置的关键词,对上述各短语进行关键词匹配。响应于任一短语与任一预先设置的关键词匹配成功,本发明即可根据匹配成功的关键词,确定对应的符号手势的手部运动矢量。
具体来说,上述符号手势为赋予了特定含义的手势,通常有明确的语义含义,也通常与文本中特定关键字强相关。例如,打招呼手势通常对应关键字“大家好”、“很高兴认识大家”。又例如,比爱心手势通常对应关键字“比心”、“比爱心”等。又例如,加油手势通常对应关键字“要加油”、“一起加油”等。因此,本发明可以基于“大家好”、“很高兴认识大家”、“比心”、“爱心”、“加油”等预先设置的关键词,预先建立符号手势与语义对应的数据库表,并通过该符号手势与语义的对应数据库表进行关键词匹配,以直接确定虚拟人对应的符号手势的手部运动矢量,并进行符号手势的动画合成。如此,通过优先使用符号手势进行动画合成,本发明更利于用户理解手势,具有更高的表达效率,并且可以避免语义解析的预测过程,因而能够显著提高该方法的准确性以及高效性。
此外,相对于上述符号手势,语义手势是跟随说话人所要表达的语义内容,手部自然律动配合语义所做出的手势。例如,表达“开始了一段旅程”、“开启了新的篇章”等语义时,自然人通常伴随双手打开的动作,用肢体配合表达“开始”的语义。又例如,表达“产量显著降低”、“错误率大大减少”等语义时,自然人通常伴随手部下移的动作,以配合表达“减少”的语义。因此,在一些实施例中,对于未与任一关键词匹配成功的单语义短语,本发明可以将其输入到预训练的文本分类模型,基于该文本分类模型分别处理各单语义短语,以分别获得其对应的语义分类标签。在此,该文本分类模型可以基于贝叶斯分类、基于传统Fisher方法的线性判别分析和/或传统多元分析模型等传统统计模型来实现。
进一步地,在一些实施例中,为了克服动作重复的缺陷,本发明的每一语义分类标签可以优选地对应虚拟人的左手和/或右手的多个语义手势。本发明可以根据语义解析获得语义分类标签,从其对应的多个语义手势中随机选取一者,并以此来确定虚拟人的手部运动矢量。
具体请参考图4以及表1。图4示出了根据本发明的一些实施例提供的建立虚拟人手部动作的坐标系的示意图。表1示出了每一语义标签与多个手部运动矢量的对应关系。
如图4所示,在建立虚拟人的手部动作坐标系时,本发明可以基于自然人的服务礼仪姿态,以虚拟人手部自然放置在腹前的位置作为原点(0,0,0)建立三维坐标系,并将其各手部动作在改坐标系中以三维坐标的形式作记录,以获得表1所示的语义标签与手部运动矢量的对应关系表。
表1手势与语义标签对应表
Figure BDA0003991682090000081
Figure BDA0003991682090000091
在表1所示的实施例中,一条语义标签可以对应多个手部运动的平均矢量。在根据语义解析获得语义分类标签确定虚拟人的手部运动矢量的过程中,本发明可以优选地获取上述语义分类标签对应的多个语义手势被选取的历史记录,并根据该历史记录从所述语义分类标签对应的多个语义手势中随机选取一个不重复的语义手势,以作为本次选择的手部运动矢量。此外,本发明还可以记录本次选取的语义手势的手部运动矢量,以作为后续选择手部运动矢量的历史记录。
具体来说,在确定虚拟人的第一句话语中包含的“离开”的语义标签对应的手部运动矢量时,本发明可以基于空白的历史记录,随机选择该语义标签所对应的任意一个手部动作对应的手部运动矢量,例如(0,0,0)→(1,0,0),并将其作为一条记录录入数据库中的动作记录表。之后,在第二次确定语义标签对应的手部运动矢量时,本发明可以基于当前的动作记录表,避免使用已经重复使用过的手部运动矢量(0,0,0)→(1,0,0),而优先使用相同语义标签下未使用过的其他手部运动矢量,例如(-1,0,0)→(1,0,0)。进一步地,该动作记录表的清空频率可以根据虚拟人的动态需求来设置,从而提供不与任何历史记录重复、不与之前N次重复、不与上一次重复等多种不同动态变化效果。
如此,通过为每一语义分类标签配置多个语义手势,并进行去重复筛选,本发明可以在保证语义匹配度的前提下提供更多动态和变化的动作效果,从而避免虚拟人出现动作机械、重复的情况,以提高虚拟人的自然性和观赏性。
更进一步地,在一些实施例中,为了在保证语义匹配度的前提下进一步提供更多动态和变化效果,本发明还可以在表1所示的各语义手势的基准运动矢量基础上,向其起点坐标和/或终点坐标添加一个随机值,以进一步确定多样化处理的手部运动矢量。
具体来说,上述基准运动矢量可以包括(0,0,0)→(1,0,0)、(0,1,0)→(0,0,0)等以坐标系原点为起点或终点的第一基准运动矢量,以及(0,1,-1)→(0,1,1)、(0,1,1)→(0,1,-1)等不以上述坐标系原点为起点或终点的第二基准运动矢量。在确定语义分类标签对应的手部运动矢量的过程中,本发明可以首先判断选中的基准运动矢量的起点坐标和/或终点坐标是否为坐标系原点。若选中的基准运动矢量的起点坐标或终点坐标为坐标系原点,即语义手势是否从摆在腹部前的原点位置出发,或是否回到摆在腹部前的原点位置结束,本发明可以不对涉及该原点位置的起点及终点做偏移,以优先使得虚拟人的表现更加自然。
反之,若选中的基准运动矢量的起点坐标或终点坐标不为坐标系原点,本发明可以在该基准运动矢量非原点的起止点坐标的基础上,添加一个随机值,以使得每次运动的起点和终点的位置都略有不同。在此,该随机值可以为服从高斯分布~N(0,0.15)的随机值。具体来说,在添加随机值时,本发明可以分别改变该基准运动矢量的起止点位置,即对该基准运动矢量的起点坐标及终点坐标分别添加一个变化量(△x,△y,△z),其中,该△x、△y、△z均为服从高斯分布~N(0,0.15)的随机值。此外,为避免运动矢量的总体方向发生较大偏移,各变化量△x、△y、△z的取值区间可以优选为[-0.2,0.2]。
更进一步地,在本发明的一些实施例中,在确定上述手部运动矢量之后,本发明还可以根据该手部运动矢量,确定其对应的基准手部运动轨迹。在此,该基准手部运动轨迹可以至少包含起点坐标、终点坐标及轨迹弧度的特征。在此,当该弧度大于0或小于0时,该运动轨迹为朝向对应方向的弧线,且该弧线的弯曲程度随弧度绝对值的增大而增大。反之,当弧度为0时,即该运动轨迹为直线。在确定语义标签对应的语义手势的运动轨迹时,本发明还可以优选地向该轨迹弧度参数添加一个随机值,以确定多样化处理的手部运动轨迹。
此外,在本发明的一些实施例中,在确定上述手部运动矢量之后,本发明还可以优选地获取上述虚拟人的性格参数和/或情绪参数。在此,该性格参数可以在构建虚拟人时由构建者提前设置,而该情绪参数可以根据虚拟人当前或预设时间阈值内的语音交互内容实时生成。在获取虚拟人的性格参数和/或情绪参数之后,本发明还可以根据上述性格参数和/或上述情绪参数,确定上述虚拟人的手部的移动速度。例如,针对性格为开朗、活泼,或者情绪为激动、快乐的虚拟人,本发明可以适当加快虚拟人的手部的移动速度。又例如,针对性格为温柔、端庄,或者情绪为平稳、忧伤的虚拟人,本发明可以适当减慢虚拟人的手部的移动速度。如此,本发明可以进一步提供多样化处理的语义动作,以提升虚拟人动作的动态感和自然感。
此外,在本发明的一些实施例,上述虚拟人手掌姿态可以始终保持五指并拢、手掌伸直的姿态,以符合服务型虚拟人手势引导的服务礼仪,也可让用户清晰可见手势动作,从而提升用户体验。
进一步地,如图3所示,在本发明的一些实施例中,在确定虚拟人的符号手势和/或语义手势的手部运动矢量之后,本发明还可以通过IK(Inverse Kinematics)等模块,根据上述手部运动矢量分别计算虚拟人小臂、肘部和大臂的运动轨迹,并对按文本顺序融合各符号手势及各语义手势的动画,从而合成虚拟人完整的手部动作动画。具体来说,该IK模块可以通过前向和后向迭代运动的方法,沿着一条线到下一个关节找到一个关节的新位置,从而在位置空间而不是方向空间中解决逆向反向运动的问题。
综上,本发明提供了一种确定虚拟人的手部动作的方法、一种确定虚拟人的手部动作的装置,以及一种对应的计算机可读存储介质,能够确定与语义高度匹配的手部动作,使得手部动作和语义具有更高的关联度和契合度,并避免使用户产生不自然的感受,从而提高虚拟人动作的自然性以及准确性。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (12)

1.一种确定虚拟人手部动作的方法,其特征在于,包括以下步骤:
获取所述虚拟人的播报文本;
对所述播报文本进行语义解析,以确定其语义分类标签;以及
根据所述语义分类标签,确定对应的语义手势的手部运动矢量。
2.如权利要求1所述的方法,其特征在于,所述对所述播报文本进行语义解析,以确定其语义分类标签的步骤包括:
对所述播报文本进行基于单一语义的短语分割,以获得至少一个包含单一语义的短语;以及
经由预先训练的文本分类模型分别处理各所述短语,以获得对应的至少一个语义分类标签。
3.如权利要求2所述的方法,其特征在于,在经由所述文本分类模型分别处理各所述短语之前,所述方法还包括以下步骤:
基于预先设置的关键词,对各所述短语进行关键词匹配;以及
响应于任一所述短语与任一所述关键词匹配成功,根据匹配成功的关键词确定对应的符号手势的手部运动矢量。
4.如权利要求1所述的方法,其特征在于,每一所述语义分类标签对应涉及所述虚拟人的左手和/或右手的多个语义手势,所述根据所述语义分类标签,确定对应的语义手势的手部运动矢量的步骤包括:
根据所述语义分类标签,从对应的多个语义手势中随机选取一者,并确定其手部运动矢量。
5.如权利要求4所述的方法,其特征在于,所述根据所述语义分类标签,从对应的多个语义手势中随机选取一者的步骤包括:
获取所述语义分类标签对应的多个语义手势被选取的历史记录;
根据所述历史记录,从所述语义分类标签对应的多个语义手势中随机选取一个不重复的语义手势;以及
记录本次选取的语义手势。
6.如权利要求1所述的方法,其特征在于,每一所述语义手势对应一个基准运动矢量,所述根据所述语义分类标签,确定对应的语义手势的手部运动矢量的步骤包括:
所述根据所述语义分类标签,确定对应的语义手势的基准运动矢量;以及
向所述基准运动矢量的起点坐标和/或终点坐标添加一个随机值,以确定多样化处理的手部运动矢量。
7.如权利要求6所述的方法,其特征在于,所述基准运动矢量包括以坐标系原点为起点或终点的第一基准运动矢量,以及不以所述坐标系原点为起点或终点的第二基准运动矢量,所述向所述基准运动矢量的起点坐标和/或终点坐标添加一个随机值,以确定多样化处理的手部运动矢量的步骤包括:
判断所述基准运动矢量的起点坐标和/或终点坐标是否为坐标系原点;以及
向不为所述坐标系原点的起点坐标和/或终点坐标添加所述随机值,以确定所述多样化处理的手部运动矢量。
8.如权利要求1所述的方法,其特征在于,在确定所述手部运动矢量之后,所述方法还包括以下步骤:
根据所述手部运动矢量,确定其对应的基准手部运动轨迹,其中,所述基准手部运动轨迹至少包含起点坐标、终点坐标及轨迹弧度的特征;以及
向所述轨迹弧度添加一个随机值,以确定多样化处理的手部运动轨迹。
9.如权利要求1所述的方法,其特征在于,在确定所述手部运动矢量之后,所述方法还包括以下步骤:
获取所述虚拟人的性格参数和/或情绪参数;以及
根据所述性格参数和/或所述情绪参数,确定所述虚拟人的手部的移动速度。
10.如权利要求1~9中任一项所述的方法,其特征在于,在确定所述手部运动矢量之后,所述方法还包括以下步骤:
根据所述手部运动矢量,合成所述虚拟人的手部动作的动画。
11.一种确定虚拟人手部动作的方法,其特征在于,包括:
存储器;以及
处理器,其中,所述处理器连接所述存储器,比被配置用于实施如权利要求1~10中任一项所述的确定虚拟人手部动作的方法。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实施如权利要求1~10中任一项所述的确定虚拟人手部动作的方法。
CN202211585994.9A 2022-12-09 2022-12-09 一种确定虚拟人手部动作的方法、装置及存储介质 Pending CN116189279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211585994.9A CN116189279A (zh) 2022-12-09 2022-12-09 一种确定虚拟人手部动作的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211585994.9A CN116189279A (zh) 2022-12-09 2022-12-09 一种确定虚拟人手部动作的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116189279A true CN116189279A (zh) 2023-05-30

Family

ID=86439236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211585994.9A Pending CN116189279A (zh) 2022-12-09 2022-12-09 一种确定虚拟人手部动作的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116189279A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719421A (zh) * 2023-08-10 2023-09-08 果不其然无障碍科技(苏州)有限公司 一种手语气象播报方法、系统、装置和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719421A (zh) * 2023-08-10 2023-09-08 果不其然无障碍科技(苏州)有限公司 一种手语气象播报方法、系统、装置和介质
CN116719421B (zh) * 2023-08-10 2023-12-19 果不其然无障碍科技(苏州)有限公司 一种手语气象播报方法、系统、装置和介质

Similar Documents

Publication Publication Date Title
WO2020024582A1 (zh) 语音合成方法及相关设备
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
Ofli et al. Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis
Levine et al. Real-time prosody-driven synthesis of body language
US10223636B2 (en) Artificial intelligence script tool
CN107516533A (zh) 一种会话信息处理方法、装置、电子设备
Nyatsanga et al. A Comprehensive Review of Data‐Driven Co‐Speech Gesture Generation
US9911218B2 (en) Systems and methods for speech animation using visemes with phonetic boundary context
Kennaway Experience with and requirements for a gesture description language for synthetic animation
GB2517212A (en) A Computer Generated Emulation of a subject
CN105096935A (zh) 一种语音输入方法、装置和系统
CN114419205B (zh) 虚拟数字人的驱动方法及位姿获取模型的训练方法
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
Cambre et al. Methods and tools for prototyping voice interfaces
CN114173188B (zh) 视频生成方法、电子设备、存储介质和数字人服务器
CN110019962A (zh) 一种视频文案信息的生成方法及装置
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116189279A (zh) 一种确定虚拟人手部动作的方法、装置及存储介质
CN108614872A (zh) 课程内容展示方法及装置
Ju et al. Expressive facial gestures from motion capture data
He et al. LLMs Meet Multimodal Generation and Editing: A Survey
Gibet et al. Signing avatars-multimodal challenges for text-to-sign generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination