CN112329593A

CN112329593A - 一种基于风格化的手势生成方法及生成系统

Info

Publication number: CN112329593A
Application number: CN202011200335.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-05

Abstract

本发明公开了一种基于风格化的手势生成方法及生成系统，其中方法包括：以演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势为训练样本，训练形成一手势生成模型；通过手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征；输入语音文本；通过手势生成模型将所述语音文本生成为语音音频，然后将关联说话人的讲话节奏特征和手势姿态动作风格特征与生成的语音音频进行特征融合后，生成符合说话人的姿态动作风格和讲话风格的手势姿态。本发明相比传统的手势生成方法，不需要在语言和手势动作间建立映射关系，更加省时省力，而且基于风格化生成的手势姿态符合说话人的姿态动作风格和讲话风格，更加自然、逼真。

Description

一种基于风格化的手势生成方法及生成系统

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于风格化的手势生成方法和生成系统。

背景技术

人机交互、人机互动是一门研究系统和用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。近些年，随着人机交互技术的不断发展，人机交互的形式不再局限于语言和文字的人机交互，许多学者开始研究通过手势等人体姿态进行人机交互，以增强人机交互的互动体验。但由于缺乏对人类手势的理解，让机器实时生成类人的手势直接与人进行交流十分困难。现有的方式是，在语言和手势之间建立映射关系，以在机器输出某个语言时，自动匹配出该句语言对应的手势姿态并展示给用户。比如当向机器说声“你好”，机器根据设定程序输出交互答复词“你好”，并同时匹配出“你好”对应的手势姿态展示给用户。上述现有的手势生成方法需要在不同的语言和手势之间建立大量的映射关系，费时费力，而且匹配出的手势姿态缺乏说话者的姿态动作风格，输出的交互音频缺乏说话者独有的讲话节奏，导致人机交互过程过于“僵硬”、不自然。

发明内容

本发明的目的在于提供一种基于风格化的手势生成方法及生成系统，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种基于风格化的手势生成方法，包括：

步骤S1，以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本，训练形成一手势生成模型；

步骤S2，通过所述手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征；

步骤S3，输入语音文本；

步骤S4，通过所述手势生成模型将所述语音文本生成为语音音频，然后将步骤S2获取的关联所述说话人的所述讲话节奏特征和所述手势姿态动作风格特征与生成的所述语音音频进行特征融合后，生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。

作为本发明的一种优选方案，所述步骤S1中，训练所述手势生成模型的方法包括如下步骤：

步骤L1，获取演讲视频数据集，并将所述演讲视频数据集划分为样本集和测试集；

步骤L2，提取或识别所述样本集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态；

步骤L3，以各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本，通过神经网络训练形成一手势生成初始模型；

步骤L4，提取或识别所述测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态；

步骤L5，将所述步骤L4提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中，所述手势生成初始模型生成手势姿态；

步骤L6，将所述手势生成初始模型生成的手势姿态与所述步骤L4提取或识别的关联所述演讲者的原始手势姿态进行姿态比对，并根据比对结果调整所述神经网络训练所述手势生成模型的网络参数；

步骤L7，根据调整后的所述网络参数，对所述手势生成初始模型进行更新训练，最终训练形成所述手势生成模型。

作为本发明的一种优选方案，所述步骤L6中，比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差。

作为本发明的一种优选方案，所述步骤S4中，所述手势生成模型生成符合所述说话人姿态动作风格和讲话风格的手势姿态的方法包括：

所述手势生成模型通过一编码器从所述说话人的音频信息中提取所述说话人的讲话节奏特征；

所述手势生成模型基于所述说话人的身份信息，生成所述说话人的手势姿态动作风格特征；

所述手势生成模型基于所述说话人的所述说话语音文本生成语音音频；

所述手势生成模型将提取的所述讲话节奏特征融合到所生成的所述语音音频中，然后将将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合，最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。

本发明还提供了一种基于风格化的手势生成系统，可实现所述的手势生成方法，所述手势生成系统包括：

手势生成模型训练模块，用于以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本，训练形成一手势生成模型；

说话人音频信息和身份信息获取模块，用于获取说话人的音频信息和身份信息；

语音文本输入模块，用于输入所述说话人的说话语音文本；

手势姿态生成模块，连接所述语音文本输入模块、所述说话人音频信息和身份信息获取模块以及所述手势生成模型训练模块，用于以所述说话人的音频信息、身份信息以及所述说话语音文本为说话人的三模态输入到所述手势生成模型中，所述手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态。

作为本发明的一种优选方案，所述手势生成模型训练模块中包括：

样本获取单元，用于获取演讲视频数据集作为训练和测试所述手势生成模型的样本数据；

样本划分单元，连接所述样本获取单元，用于将所述演讲视频数据集划分为样本集和测试集；

演讲信息提取及识别单元，连接所述样本划分单元，用于提取或识别的所述演讲视频数据集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态；

模型训练单元，连接所述演讲信息提取及识别单元，用于以提取或识别到的各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本，通过一神经网络训练形成一手势生成初始模型；

模型性能测试单元，分别连接所述演讲信息提取及识别单元和所述模型训练单元，用于将提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中，并将所述手势生成初始模型生成的手势姿态与识别到的关联所述演讲者的原始手势姿态进行姿态比对，输出模型测试结果；

网络参数调整单元，连接所述模型性能测试单元，用于根据所述模型测试结果调整所述神经网络训练所述手势生成模型的网络参数；

所述模型训练单元，连接所述网络参数调整单元，用于根据调整后的所述网络参数，对所述手势生成初始模型进行更新训练，最终训练形成所述手势生成模型。

作为本发明的一种优选方案，比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差作为手势姿态比对结果。

作为本发明的一种优选方案，所述手势姿态生成模块中包括：

讲话节奏特征提取单元，用于通过所述手势生成模型从所述说话人的音频信息中提取所述说话人的讲话节奏特征；

手势姿态动作风格特征生成单元，用于通过所述手势生成模型基于所述说话人的身份信息，生成所述说话人的手势姿态动作风格特征；

语音音频生成单元，用于通过所述手势生成模型基于输入的所述说话人的所述说话语音文本生成语音音频；

手势姿态生成单元，连接所述讲话节奏特征提取单元、所述手势姿态动作风格特征生成单元和所述语音音频生成单元，用于通过所述手势生成模型将提取的所述讲话节奏特征融合到所述生成的所述语音音频中，并将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合，最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。

本发明基于演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势这四个模态特征为训练样本，训练形成手势生成模型，然后通过该手势生成模型将输入的语音文本生成为符合说话人的姿态动作风格和讲话风格的手势姿态，相比传统的手势生成方法，不需要在语言和手势动作间建立映射关系，更加省时省力，而且基于风格化生成的手势姿态更加自然、逼真。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例所述的基于风格化的手势生成方法的步骤图；

图2是训练所述手势生成模型的方法原理图；

图3是训练所述手势生成模型的神经网络的网络架构图；

图4是本发明一实施例所述的基于风格化的手势生成系统的结构示意图；

图5是所述手势生成系统中的所述手势生成模型训练模块的内部结构示意图；

图6是所述手势生成系统中的所述手势姿态生成模块的内部结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明提供的基于风格化的手势生成方法，包括：

步骤S1，以演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势为训练样本，训练形成一手势生成模型；

步骤S2，通过手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征；

步骤S3，输入语音文本；

步骤S4，通过手势生成模型将所述语音文本生成为语音音频，然后将步骤S2获取的关联说话人的讲话节奏特征和手势姿态动作风格特征与生成的语音音频进行特征融合后，生成符合说话人的姿态动作风格和讲话风格的手势姿态。

步骤S1中，训练手势生成模型的方法如图2和图3所示，包括如下步骤：

步骤L1，获取演讲视频数据集，并将演讲视频数据集划分为样本集和测试集；

步骤L2，提取或识别样本集中各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态；

步骤L3，以各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态为训练样本，通过一神经网络(神经网络的网络架构如图3所示)训练形成手势生成初始模型；

步骤L4，提取或识别测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态；

步骤L5，将步骤L4提取或识别的演讲者的身份信息、演讲音频信息和演讲语音文本输入到手势生成初始模型中，手势生成初始模型生成手势姿态；

步骤L6，将手势生成初始模型生成的手势姿态与步骤L4中提取或识别的关联演讲者的原始手势姿态进行姿态比对，并根据比对结果调整神经网络训练手势生成模型的网络参数；比对手势姿态的方法优选为计算模型生成的手势姿态和原始手势姿态间的身体关节位置的误差。

步骤L7，根据调整后的网络参数，对手势生成初始模型进行更新训练，最终训练形成手势生成模型。

步骤S4中，手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态的方法包括：

手势生成模型通过一编码器从说话人的音频信息中提取说话人的讲话节奏特征；

手势生成模型基于说话人的身份信息，生成说话人的手势姿态动作风格特征；

手势生成模型基于说话人的说话语音文本生成语音音频；

手势生成模型将提取的讲话节奏特征融合到所生成的语音音频中，然后将已融合了讲话节奏特征的语音音频与生成的关联说话人的手势姿态动作风格进行进一步的特征融合，最终生成符合说话人的姿态动作风格和讲话风格的手势姿态。

本发明还提供了一种基于风格化的手势生成系统，可实现上述的手势生成方法，如图4 所示，该手势生成系统包括：

手势生成模型训练模块，用于以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本，并通过一神经网络训练形成一手势生成模型；

语音文本输入模块，用于输入说话人的说话语音文本；

手势姿态生成模块，连接语音文本输入模块、说话人音频信息和身份信息获取模块以及手势生成模型训练模块，用于以说话人的音频信息、身份信息以及说话语音文本为说话人的三模态输入到手势生成模型中，手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态。

具体地，如图5所示，手势生成模型训练模块中包括：

样本获取单元，用于获取演讲视频数据集作为训练和测试手势生成模型的样本数据；

样本划分单元，连接样本获取单元，用于将演讲视频数据集划分为样本集和测试集；

演讲信息提取及识别单元，连接样本划分单元，用于提取或识别的演讲视频数据集中各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态；

模型训练单元，连接演讲信息提取及识别单元，用于以提取或识别到的各演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的手势姿态特征为训练样本，通过一神经网络训练形成一手势生成初始模型；

模型性能测试单元，分别连接演讲信息提取及识别单元和模型训练单元，用于将提取或识别的演讲者的身份信息、演讲音频信息和演讲语音文本输入到手势生成初始模型中，并将手势生成初始模型生成的手势姿态与识别到的关联演讲者的原始手势姿态进行姿态比对，输出模型测试结果；

网络参数调整单元，连接模型性能测试单元，用于根据模型测试结果调整神经网络训练手势生成模型的网络参数；

模型训练单元，连接网络参数调整单元，用于根据调整后的网络参数，对手势生成初始模型进行更新训练，最终训练形成手势生成模型。

如图6所示，手势姿态生成模块中包括：

讲话节奏特征提取单元，用于通过手势生成模型从说话人的音频信息中提取说话人的讲话节奏特征；

手势姿态动作风格特征生成单元，用于通过手势生成模型基于说话人的身份信息，生成说话人的手势姿态动作风格特征；

语音音频生成单元，用于通过手势生成模型基于输入的说话人的说话语音文本生成语音音频；

手势姿态生成单元，连接讲话节奏特征提取单元、所述手势姿态动作风格特征生成单元和语音音频生成单元，用于通过手势生成模型将提取的讲话节奏特征融合到生成的语音音频中，并将已融合了讲话节奏特征的语音音频与生成的关联说话人的手势姿态动作风格特征进行进一步的特征融合，最终生成符合说话人的姿态动作风格和讲话风格的手势姿态。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种基于风格化的手势生成方法，其特征在于，包括：

步骤S3，输入语音文本；

2.根据权利要求1所述的基于风格化的手势生成方法，其特征在于，所述步骤S1中，训练所述手势生成模型的方法包括如下步骤：

3.根据权利要求2所述的基于风格化的手势生成方法，其特征在于，所述步骤L6中，比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差。

4.根据权利要求2所述的基于风格化的手势生成方法，其特征在于，所述步骤S4中，所述手势生成模型生成符合所述说话人姿态动作风格和讲话风格的手势姿态的方法包括：

5.一种基于风格化的手势生成系统，可实现如权利要求1-4任意一项所述的手势生成方法，其特征在于，包括：

语音文本输入模块，用于输入所述说话人的说话语音文本；

6.根据权利要求5所述的基于风格化的手势生成系统，其特征在于，所述手势生成模型训练模块中包括：

7.根据权利要求6所述的基于风格化的手势生成方法，其特征在于，比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差作为手势姿态比对结果。

8.根据权利要求5所述的基于风格化的手势生成方法，其特征在于，所述手势姿态生成模块中包括：