CN112329593A - 一种基于风格化的手势生成方法及生成系统 - Google Patents
一种基于风格化的手势生成方法及生成系统 Download PDFInfo
- Publication number
- CN112329593A CN112329593A CN202011200335.XA CN202011200335A CN112329593A CN 112329593 A CN112329593 A CN 112329593A CN 202011200335 A CN202011200335 A CN 202011200335A CN 112329593 A CN112329593 A CN 112329593A
- Authority
- CN
- China
- Prior art keywords
- gesture
- speaker
- speech
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于风格化的手势生成方法及生成系统,其中方法包括:以演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势为训练样本,训练形成一手势生成模型;通过手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;输入语音文本;通过手势生成模型将所述语音文本生成为语音音频,然后将关联说话人的讲话节奏特征和手势姿态动作风格特征与生成的语音音频进行特征融合后,生成符合说话人的姿态动作风格和讲话风格的手势姿态。本发明相比传统的手势生成方法,不需要在语言和手势动作间建立映射关系,更加省时省力,而且基于风格化生成的手势姿态符合说话人的姿态动作风格和讲话风格,更加自然、逼真。
Description
技术领域
本发明涉及人机交互技术领域,具体涉及一种基于风格化的手势生成方法和生成系统。
背景技术
人机交互、人机互动是一门研究系统和用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。近些年,随着人机交互技术的不断发展,人机交互的形式不再局限于语言和文字的人机交互,许多学者开始研究通过手势等人体姿态进行人机交互,以增强人机交互的互动体验。但由于缺乏对人类手势的理解,让机器实时生成类人的手势直接与人进行交流十分困难。现有的方式是,在语言和手势之间建立映射关系,以在机器输出某个语言时,自动匹配出该句语言对应的手势姿态并展示给用户。比如当向机器说声“你好”,机器根据设定程序输出交互答复词“你好”,并同时匹配出“你好”对应的手势姿态展示给用户。上述现有的手势生成方法需要在不同的语言和手势之间建立大量的映射关系,费时费力,而且匹配出的手势姿态缺乏说话者的姿态动作风格,输出的交互音频缺乏说话者独有的讲话节奏,导致人机交互过程过于“僵硬”、不自然。
发明内容
本发明的目的在于提供一种基于风格化的手势生成方法及生成系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种基于风格化的手势生成方法,包括:
步骤S1,以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
步骤S2,通过所述手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;
步骤S3,输入语音文本;
步骤S4,通过所述手势生成模型将所述语音文本生成为语音音频,然后将步骤S2获取的关联所述说话人的所述讲话节奏特征和所述手势姿态动作风格特征与生成的所述语音音频进行特征融合后,生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
作为本发明的一种优选方案,所述步骤S1中,训练所述手势生成模型的方法包括如下步骤:
步骤L1,获取演讲视频数据集,并将所述演讲视频数据集划分为样本集和测试集;
步骤L2,提取或识别所述样本集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L3,以各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本,通过神经网络训练形成一手势生成初始模型;
步骤L4,提取或识别所述测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L5,将所述步骤L4提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中,所述手势生成初始模型生成手势姿态;
步骤L6,将所述手势生成初始模型生成的手势姿态与所述步骤L4提取或识别的关联所述演讲者的原始手势姿态进行姿态比对,并根据比对结果调整所述神经网络训练所述手势生成模型的网络参数;
步骤L7,根据调整后的所述网络参数,对所述手势生成初始模型进行更新训练,最终训练形成所述手势生成模型。
作为本发明的一种优选方案,所述步骤L6中,比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差。
作为本发明的一种优选方案,所述步骤S4中,所述手势生成模型生成符合所述说话人姿态动作风格和讲话风格的手势姿态的方法包括:
所述手势生成模型通过一编码器从所述说话人的音频信息中提取所述说话人的讲话节奏特征;
所述手势生成模型基于所述说话人的身份信息,生成所述说话人的手势姿态动作风格特征;
所述手势生成模型基于所述说话人的所述说话语音文本生成语音音频;
所述手势生成模型将提取的所述讲话节奏特征融合到所生成的所述语音音频中,然后将将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合,最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
本发明还提供了一种基于风格化的手势生成系统,可实现所述的手势生成方法,所述手势生成系统包括:
手势生成模型训练模块,用于以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
说话人音频信息和身份信息获取模块,用于获取说话人的音频信息和身份信息;
语音文本输入模块,用于输入所述说话人的说话语音文本;
手势姿态生成模块,连接所述语音文本输入模块、所述说话人音频信息和身份信息获取模块以及所述手势生成模型训练模块,用于以所述说话人的音频信息、身份信息以及所述说话语音文本为说话人的三模态输入到所述手势生成模型中,所述手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态。
作为本发明的一种优选方案,所述手势生成模型训练模块中包括:
样本获取单元,用于获取演讲视频数据集作为训练和测试所述手势生成模型的样本数据;
样本划分单元,连接所述样本获取单元,用于将所述演讲视频数据集划分为样本集和测试集;
演讲信息提取及识别单元,连接所述样本划分单元,用于提取或识别的所述演讲视频数据集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态;
模型训练单元,连接所述演讲信息提取及识别单元,用于以提取或识别到的各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本,通过一神经网络训练形成一手势生成初始模型;
模型性能测试单元,分别连接所述演讲信息提取及识别单元和所述模型训练单元,用于将提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中,并将所述手势生成初始模型生成的手势姿态与识别到的关联所述演讲者的原始手势姿态进行姿态比对,输出模型测试结果;
网络参数调整单元,连接所述模型性能测试单元,用于根据所述模型测试结果调整所述神经网络训练所述手势生成模型的网络参数;
所述模型训练单元,连接所述网络参数调整单元,用于根据调整后的所述网络参数,对所述手势生成初始模型进行更新训练,最终训练形成所述手势生成模型。
作为本发明的一种优选方案,比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差作为手势姿态比对结果。
作为本发明的一种优选方案,所述手势姿态生成模块中包括:
讲话节奏特征提取单元,用于通过所述手势生成模型从所述说话人的音频信息中提取所述说话人的讲话节奏特征;
手势姿态动作风格特征生成单元,用于通过所述手势生成模型基于所述说话人的身份信息,生成所述说话人的手势姿态动作风格特征;
语音音频生成单元,用于通过所述手势生成模型基于输入的所述说话人的所述说话语音文本生成语音音频;
手势姿态生成单元,连接所述讲话节奏特征提取单元、所述手势姿态动作风格特征生成单元和所述语音音频生成单元,用于通过所述手势生成模型将提取的所述讲话节奏特征融合到所述生成的所述语音音频中,并将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合,最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
本发明基于演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势这四个模态特征为训练样本,训练形成手势生成模型,然后通过该手势生成模型将输入的语音文本生成为符合说话人的姿态动作风格和讲话风格的手势姿态,相比传统的手势生成方法,不需要在语言和手势动作间建立映射关系,更加省时省力,而且基于风格化生成的手势姿态更加自然、逼真。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的基于风格化的手势生成方法的步骤图;
图2是训练所述手势生成模型的方法原理图;
图3是训练所述手势生成模型的神经网络的网络架构图;
图4是本发明一实施例所述的基于风格化的手势生成系统的结构示意图;
图5是所述手势生成系统中的所述手势生成模型训练模块的内部结构示意图;
图6是所述手势生成系统中的所述手势姿态生成模块的内部结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明提供的基于风格化的手势生成方法,包括:
步骤S1,以演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势为训练样本,训练形成一手势生成模型;
步骤S2,通过手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;
步骤S3,输入语音文本;
步骤S4,通过手势生成模型将所述语音文本生成为语音音频,然后将步骤S2获取的关联说话人的讲话节奏特征和手势姿态动作风格特征与生成的语音音频进行特征融合后,生成符合说话人的姿态动作风格和讲话风格的手势姿态。
步骤S1中,训练手势生成模型的方法如图2和图3所示,包括如下步骤:
步骤L1,获取演讲视频数据集,并将演讲视频数据集划分为样本集和测试集;
步骤L2,提取或识别样本集中各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态;
步骤L3,以各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态为训练样本,通过一神经网络(神经网络的网络架构如图3所示)训练形成手势生成初始模型;
步骤L4,提取或识别测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态;
步骤L5,将步骤L4提取或识别的演讲者的身份信息、演讲音频信息和演讲语音文本输入到手势生成初始模型中,手势生成初始模型生成手势姿态;
步骤L6,将手势生成初始模型生成的手势姿态与步骤L4中提取或识别的关联演讲者的原始手势姿态进行姿态比对,并根据比对结果调整神经网络训练手势生成模型的网络参数;比对手势姿态的方法优选为计算模型生成的手势姿态和原始手势姿态间的身体关节位置的误差。
步骤L7,根据调整后的网络参数,对手势生成初始模型进行更新训练,最终训练形成手势生成模型。
步骤S4中,手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态的方法包括:
手势生成模型通过一编码器从说话人的音频信息中提取说话人的讲话节奏特征;
手势生成模型基于说话人的身份信息,生成说话人的手势姿态动作风格特征;
手势生成模型基于说话人的说话语音文本生成语音音频;
手势生成模型将提取的讲话节奏特征融合到所生成的语音音频中,然后将已融合了讲话节奏特征的语音音频与生成的关联说话人的手势姿态动作风格进行进一步的特征融合,最终生成符合说话人的姿态动作风格和讲话风格的手势姿态。
本发明还提供了一种基于风格化的手势生成系统,可实现上述的手势生成方法,如图4 所示,该手势生成系统包括:
手势生成模型训练模块,用于以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,并通过一神经网络训练形成一手势生成模型;
说话人音频信息和身份信息获取模块,用于获取说话人的音频信息和身份信息;
语音文本输入模块,用于输入说话人的说话语音文本;
手势姿态生成模块,连接语音文本输入模块、说话人音频信息和身份信息获取模块以及手势生成模型训练模块,用于以说话人的音频信息、身份信息以及说话语音文本为说话人的三模态输入到手势生成模型中,手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态。
具体地,如图5所示,手势生成模型训练模块中包括:
样本获取单元,用于获取演讲视频数据集作为训练和测试手势生成模型的样本数据;
样本划分单元,连接样本获取单元,用于将演讲视频数据集划分为样本集和测试集;
演讲信息提取及识别单元,连接样本划分单元,用于提取或识别的演讲视频数据集中各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态;
模型训练单元,连接演讲信息提取及识别单元,用于以提取或识别到的各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态特征为训练样本,通过一神经网络训练形成一手势生成初始模型;
模型性能测试单元,分别连接演讲信息提取及识别单元和模型训练单元,用于将提取或识别的演讲者的身份信息、演讲音频信息和演讲语音文本输入到手势生成初始模型中,并将手势生成初始模型生成的手势姿态与识别到的关联演讲者的原始手势姿态进行姿态比对,输出模型测试结果;
网络参数调整单元,连接模型性能测试单元,用于根据模型测试结果调整神经网络训练手势生成模型的网络参数;
模型训练单元,连接网络参数调整单元,用于根据调整后的网络参数,对手势生成初始模型进行更新训练,最终训练形成手势生成模型。
如图6所示,手势姿态生成模块中包括:
讲话节奏特征提取单元,用于通过手势生成模型从说话人的音频信息中提取说话人的讲话节奏特征;
手势姿态动作风格特征生成单元,用于通过手势生成模型基于说话人的身份信息,生成说话人的手势姿态动作风格特征;
语音音频生成单元,用于通过手势生成模型基于输入的说话人的说话语音文本生成语音音频;
手势姿态生成单元,连接讲话节奏特征提取单元、所述手势姿态动作风格特征生成单元和语音音频生成单元,用于通过手势生成模型将提取的讲话节奏特征融合到生成的语音音频中,并将已融合了讲话节奏特征的语音音频与生成的关联说话人的手势姿态动作风格特征进行进一步的特征融合,最终生成符合说话人的姿态动作风格和讲话风格的手势姿态。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (8)
1.一种基于风格化的手势生成方法,其特征在于,包括:
步骤S1,以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
步骤S2,通过所述手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;
步骤S3,输入语音文本;
步骤S4,通过所述手势生成模型将所述语音文本生成为语音音频,然后将步骤S2获取的关联所述说话人的所述讲话节奏特征和所述手势姿态动作风格特征与生成的所述语音音频进行特征融合后,生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
2.根据权利要求1所述的基于风格化的手势生成方法,其特征在于,所述步骤S1中,训练所述手势生成模型的方法包括如下步骤:
步骤L1,获取演讲视频数据集,并将所述演讲视频数据集划分为样本集和测试集;
步骤L2,提取或识别所述样本集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L3,以各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本,通过神经网络训练形成一手势生成初始模型;
步骤L4,提取或识别所述测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L5,将所述步骤L4提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中,所述手势生成初始模型生成手势姿态;
步骤L6,将所述手势生成初始模型生成的手势姿态与所述步骤L4提取或识别的关联所述演讲者的原始手势姿态进行姿态比对,并根据比对结果调整所述神经网络训练所述手势生成模型的网络参数;
步骤L7,根据调整后的所述网络参数,对所述手势生成初始模型进行更新训练,最终训练形成所述手势生成模型。
3.根据权利要求2所述的基于风格化的手势生成方法,其特征在于,所述步骤L6中,比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差。
4.根据权利要求2所述的基于风格化的手势生成方法,其特征在于,所述步骤S4中,所述手势生成模型生成符合所述说话人姿态动作风格和讲话风格的手势姿态的方法包括:
所述手势生成模型通过一编码器从所述说话人的音频信息中提取所述说话人的讲话节奏特征;
所述手势生成模型基于所述说话人的身份信息,生成所述说话人的手势姿态动作风格特征;
所述手势生成模型基于所述说话人的所述说话语音文本生成语音音频;
所述手势生成模型将提取的所述讲话节奏特征融合到所生成的所述语音音频中,然后将将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合,最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
5.一种基于风格化的手势生成系统,可实现如权利要求1-4任意一项所述的手势生成方法,其特征在于,包括:
手势生成模型训练模块,用于以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
说话人音频信息和身份信息获取模块,用于获取说话人的音频信息和身份信息;
语音文本输入模块,用于输入所述说话人的说话语音文本;
手势姿态生成模块,连接所述语音文本输入模块、所述说话人音频信息和身份信息获取模块以及所述手势生成模型训练模块,用于以所述说话人的音频信息、身份信息以及所述说话语音文本为说话人的三模态输入到所述手势生成模型中,所述手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态。
6.根据权利要求5所述的基于风格化的手势生成系统,其特征在于,所述手势生成模型训练模块中包括:
样本获取单元,用于获取演讲视频数据集作为训练和测试所述手势生成模型的样本数据;
样本划分单元,连接所述样本获取单元,用于将所述演讲视频数据集划分为样本集和测试集;
演讲信息提取及识别单元,连接所述样本划分单元,用于提取或识别的所述演讲视频数据集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态;
模型训练单元,连接所述演讲信息提取及识别单元,用于以提取或识别到的各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本,通过一神经网络训练形成一手势生成初始模型;
模型性能测试单元,分别连接所述演讲信息提取及识别单元和所述模型训练单元,用于将提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中,并将所述手势生成初始模型生成的手势姿态与识别到的关联所述演讲者的原始手势姿态进行姿态比对,输出模型测试结果;
网络参数调整单元,连接所述模型性能测试单元,用于根据所述模型测试结果调整所述神经网络训练所述手势生成模型的网络参数;
所述模型训练单元,连接所述网络参数调整单元,用于根据调整后的所述网络参数,对所述手势生成初始模型进行更新训练,最终训练形成所述手势生成模型。
7.根据权利要求6所述的基于风格化的手势生成方法,其特征在于,比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差作为手势姿态比对结果。
8.根据权利要求5所述的基于风格化的手势生成方法,其特征在于,所述手势姿态生成模块中包括:
讲话节奏特征提取单元,用于通过所述手势生成模型从所述说话人的音频信息中提取所述说话人的讲话节奏特征;
手势姿态动作风格特征生成单元,用于通过所述手势生成模型基于所述说话人的身份信息,生成所述说话人的手势姿态动作风格特征;
语音音频生成单元,用于通过所述手势生成模型基于输入的所述说话人的所述说话语音文本生成语音音频;
手势姿态生成单元,连接所述讲话节奏特征提取单元、所述手势姿态动作风格特征生成单元和所述语音音频生成单元,用于通过所述手势生成模型将提取的所述讲话节奏特征融合到所述生成的所述语音音频中,并将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合,最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200335.XA CN112329593A (zh) | 2020-11-03 | 2020-11-03 | 一种基于风格化的手势生成方法及生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200335.XA CN112329593A (zh) | 2020-11-03 | 2020-11-03 | 一种基于风格化的手势生成方法及生成系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329593A true CN112329593A (zh) | 2021-02-05 |
Family
ID=74324051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011200335.XA Pending CN112329593A (zh) | 2020-11-03 | 2020-11-03 | 一种基于风格化的手势生成方法及生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329593A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299132A (zh) * | 2021-06-08 | 2021-08-24 | 上海松鼠课堂人工智能科技有限公司 | 基于虚拟现实场景的学生演讲技能训练方法及系统 |
CN114187544A (zh) * | 2021-11-30 | 2022-03-15 | 厦门大学 | 大学英语演讲多模态自动评分方法 |
CN116796196A (zh) * | 2023-08-18 | 2023-09-22 | 武汉纺织大学 | 基于多模态联合嵌入的共语姿势生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921284A (zh) * | 2018-06-15 | 2018-11-30 | 山东大学 | 基于深度学习的人际交互肢体语言自动生成方法及系统 |
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
-
2020
- 2020-11-03 CN CN202011200335.XA patent/CN112329593A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921284A (zh) * | 2018-06-15 | 2018-11-30 | 山东大学 | 基于深度学习的人际交互肢体语言自动生成方法及系统 |
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
YOUNGWOO YOON等: ""Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity"", 《ARXIV:2009.02119V1》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299132A (zh) * | 2021-06-08 | 2021-08-24 | 上海松鼠课堂人工智能科技有限公司 | 基于虚拟现实场景的学生演讲技能训练方法及系统 |
CN114187544A (zh) * | 2021-11-30 | 2022-03-15 | 厦门大学 | 大学英语演讲多模态自动评分方法 |
CN116796196A (zh) * | 2023-08-18 | 2023-09-22 | 武汉纺织大学 | 基于多模态联合嵌入的共语姿势生成方法 |
CN116796196B (zh) * | 2023-08-18 | 2023-11-21 | 武汉纺织大学 | 基于多模态联合嵌入的共语姿势生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230316643A1 (en) | Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal | |
CN110647636B (zh) | 交互方法、装置、终端设备及存储介质 | |
CN112329593A (zh) | 一种基于风格化的手势生成方法及生成系统 | |
CN108000526B (zh) | 用于智能机器人的对话交互方法及系统 | |
CN105843381B (zh) | 用于实现多模态交互的数据处理方法及多模态交互系统 | |
CN107797663A (zh) | 基于虚拟人的多模态交互处理方法及系统 | |
CN107765852A (zh) | 基于虚拟人的多模态交互处理方法及系统 | |
CN109117952B (zh) | 一种基于深度学习的机器人情感认知的方法 | |
US20240070397A1 (en) | Human-computer interaction method, apparatus and system, electronic device and computer medium | |
CN110085229A (zh) | 智能虚拟外教信息交互方法及装置 | |
TW201937344A (zh) | 智慧型機器人及人機交互方法 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN107808191A (zh) | 虚拟人多模态交互的输出方法和系统 | |
CN113835522A (zh) | 手语视频生成、翻译、客服方法、设备和可读介质 | |
CN105912530A (zh) | 面向智能机器人的信息处理方法及系统 | |
CN111383642B (zh) | 基于神经网络的语音应答方法、存储介质以终端设备 | |
CN105609098A (zh) | 一种基于互联网的在线学习系统 | |
CN115330911A (zh) | 一种利用音频驱动拟态表情的方法与系统 | |
CN116797695A (zh) | 一种数字人与虚拟白板的交互方法、系统及存储介质 | |
CN106875947B (zh) | 用于智能机器人的语音输出方法和装置 | |
CN111939558A (zh) | 一种实时语音驱动虚拟人物动作的方法和系统 | |
CN113837907A (zh) | 一种英语教学人机互动系统及其方法 | |
CN109272983A (zh) | 用于亲子教育的双语切换装置 | |
CN116959119A (zh) | 一种基于大语言模型的手语数字人驱动方法及系统 | |
CN117032453A (zh) | 一种实现互识功能的虚拟现实交互系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |
|
RJ01 | Rejection of invention patent application after publication |