CN112328076B

CN112328076B - 一种语音驱动人物手势的方法和系统

Info

Publication number: CN112328076B
Application number: CN202011219858.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-10-29
Anticipated expiration: 2040-11-06
Also published as: CN112328076A

Abstract

本发明公开了一种语音驱动人物手势的方法和系统，包括如下内容：提取语音信号中的文本特征和音频特征；将文本特征和音频特征输入至自回归模型，以通过自回归模型预测获取本期关节角度旋转序列，以及将本期关节角度旋转序列反馈至自回归模型，以用于下期关节角度旋转序列预测；通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出。本发明能够同时产生两种手势，且通过设置自回归模型的预测结构，能够获得连续的手势，因此，能够实现逼真的效果，且便于用户感知虚拟人物的情感，可以广泛应用于虚拟代理和类人机器人。

Description

一种语音驱动人物手势的方法和系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种语音驱动人物手势的方法和系统。

背景技术

现实世界中，人们在讲话过程时，会伴随着手势，手势反映了说话人的情感状态，在信息传递中起着关键作用。因此，虚拟代理或动画中的虚拟人物在说话的过程中，也需要伴随着手势，以实现逼真的效果，且便于用户感知虚拟人物的情感。

但是，现有技术中的语音手势生成系统使用单一模态表示语音，即：音频或文本。因此，这些语音手势生成系统只能产生与音频相关的节拍手势或与文本相关的手势，例如，说“高”时举起一只手，而不能适当地同时产生两种手势，更不能产生连续的手势。

发明内容

本发明的目的在于提供一种语音驱动人物手势的方法和系统，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种语音驱动人物手势的方法，其改进之处在于，包括如下内容：

提取语音信号中的文本特征和音频特征；

将文本特征和音频特征输入至自回归模型，以通过自回归模型预测获取本期关节角度旋转序列，以及将本期关节角度旋转序列反馈至自回归模型，以用于下期关节角度旋转序列预测；

通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出。

本发明还提供了一种语音驱动人物手势的系统，其改进之处在于，包括：

特征模块，用于提取语音信号中的文本特征和音频特征；

预测模块，用于将文本特征和音频特征输入至自回归模型，以通过自回归模型预测获取本期关节角度旋转序列，以及将本期关节角度旋转序列反馈至自回归模型，以用于下期关节角度旋转序列预测；

合成模块，用于通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出。

本发明通过文本特征和音频特征两个模态来表征语音信号，能够同时产生两种手势，且通过设置自回归模型的预测结构，能够获得连续的手势，因此，能够实现逼真的效果，且便于用户感知虚拟人物的情感，可以广泛应用于虚拟代理和类人机器人。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供语音驱动人物手势的方法的步骤图；

图2是本发明一实施例提供语音驱动人物手势的系统的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明一实施例提供的语音驱动人物手势的方法，如图1所示，包括如下内容：

提取语音信号中的文本特征和音频特征；

通过以上方案，由于通过文本特征和音频特征两个模态来表征语音信号，能够同时产生两种手势，且通过设置自回归模型的预测结构，能够获得连续的手势，因此，能够实现逼真的效果，且便于用户感知虚拟人物的情感，可以广泛应用于虚拟代理和类人机器人。

在一个实施例中，提取语音信号中的文本特征和音频特征，包括以下内容：

通过前馈神经网络提取语音信号中的文本特征和音频特征，并对文本特征和音频特征进行联合编码，以降维，进而便于后续数据处理。

在一个实施例中，提取语音信号中的文本特征和音频特征步骤之前，包括以下内容：

通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号，以提供更多的参考语音信号，进而能够准确预测当前帧。

在一个实施例中，语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度。

基于同样的发明构思，本发明实施例还提供一种语音驱动人物手势的系统，如图2所示，包括：

特征模块，用于提取语音信号中的文本特征和音频特征；

在一个实施例中，特征模块，包括：

提取模块，用于通过前馈神经网络提取语音信号中的文本特征和音频特征；

编码模块，用于对文本特征和音频特征进行联合编码。

通过以上方案，能够降维，便于后续数据处理。

在一个实施例中，语音驱动人物手势的系统，还包括：

窗口模块，用于通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号。

通过以上方案，能够获取更多的参考语音信号，进而能够准确预测当前帧。

在一个实施例中，语音驱动人物手势的系统，还包括：

编辑模块，用于在语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种语音驱动人物手势的方法，其特征在于，包括如下内容：

通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号,并提取语音信号中的文本特征和音频特征，其中，所述语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度；

通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出；

所述提取语音信号中的文本特征和音频特征，包括以下内容：

通过前馈神经网络提取语音信号中的文本特征和音频特征，并对文本特征和音频特征进行联合编码。

2.一种语音驱动人物手势的系统，其特征在于，包括：

窗口模块，用于通过滑动窗口获取语音信号，滑动窗口跨度为0.5s的过去语音和1s的未来语音信号；

特征模块，用于提取语音信号中的文本特征和音频特征，其中，所述语音信号中预设空白信号，以通过空白信号平衡预测手势的时间跨度；

合成模块，用于通过本期关节角度旋转序列生成手势，并将手势和语音信号合成输出；

所述特征模块，包括：

编码模块，用于对文本特征和音频特征进行联合编码。