CN112328076B - 一种语音驱动人物手势的方法和系统 - Google Patents

一种语音驱动人物手势的方法和系统 Download PDF

Info

Publication number
CN112328076B
CN112328076B CN202011219858.9A CN202011219858A CN112328076B CN 112328076 B CN112328076 B CN 112328076B CN 202011219858 A CN202011219858 A CN 202011219858A CN 112328076 B CN112328076 B CN 112328076B
Authority
CN
China
Prior art keywords
voice
joint angle
angle rotation
rotation sequence
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011219858.9A
Other languages
English (en)
Other versions
CN112328076A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Shenzhi Technology Co ltd
Original Assignee
Beijing Zhongke Shenzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Shenzhi Technology Co ltd filed Critical Beijing Zhongke Shenzhi Technology Co ltd
Priority to CN202011219858.9A priority Critical patent/CN112328076B/zh
Publication of CN112328076A publication Critical patent/CN112328076A/zh
Application granted granted Critical
Publication of CN112328076B publication Critical patent/CN112328076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音驱动人物手势的方法和系统,包括如下内容:提取语音信号中的文本特征和音频特征;将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。本发明能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。

Description

一种语音驱动人物手势的方法和系统
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种语音驱动人物手势的方法和系统。
背景技术
现实世界中,人们在讲话过程时,会伴随着手势,手势反映了说话人的情感状态,在信息传递中起着关键作用。因此,虚拟代理或动画中的虚拟人物在说话的过程中,也需要伴随着手势,以实现逼真的效果,且便于用户感知虚拟人物的情感。
但是,现有技术中的语音手势生成系统使用单一模态表示语音,即:音频或文本。因此,这些语音手势生成系统只能产生与音频相关的节拍手势或与文本相关的手势,例如,说“高”时举起一只手,而不能适当地同时产生两种手势,更不能产生连续的手势。
发明内容
本发明的目的在于提供一种语音驱动人物手势的方法和系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种语音驱动人物手势的方法,其改进之处在于,包括如下内容:
提取语音信号中的文本特征和音频特征;
将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
本发明还提供了一种语音驱动人物手势的系统,其改进之处在于,包括:
特征模块,用于提取语音信号中的文本特征和音频特征;
预测模块,用于将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
合成模块,用于通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
本发明通过文本特征和音频特征两个模态来表征语音信号,能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供语音驱动人物手势的方法的步骤图;
图2是本发明一实施例提供语音驱动人物手势的系统的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明一实施例提供的语音驱动人物手势的方法,如图1所示,包括如下内容:
提取语音信号中的文本特征和音频特征;
将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
通过以上方案,由于通过文本特征和音频特征两个模态来表征语音信号,能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
在一个实施例中,提取语音信号中的文本特征和音频特征,包括以下内容:
通过前馈神经网络提取语音信号中的文本特征和音频特征,并对文本特征和音频特征进行联合编码,以降维,进而便于后续数据处理。
在一个实施例中,提取语音信号中的文本特征和音频特征步骤之前,包括以下内容:
通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号,以提供更多的参考语音信号,进而能够准确预测当前帧。
在一个实施例中,语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度。
基于同样的发明构思,本发明实施例还提供一种语音驱动人物手势的系统,如图2所示,包括:
特征模块,用于提取语音信号中的文本特征和音频特征;
预测模块,用于将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
合成模块,用于通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出。
通过以上方案,由于通过文本特征和音频特征两个模态来表征语音信号,能够同时产生两种手势,且通过设置自回归模型的预测结构,能够获得连续的手势,因此,能够实现逼真的效果,且便于用户感知虚拟人物的情感,可以广泛应用于虚拟代理和类人机器人。
在一个实施例中,特征模块,包括:
提取模块,用于通过前馈神经网络提取语音信号中的文本特征和音频特征;
编码模块,用于对文本特征和音频特征进行联合编码。
通过以上方案,能够降维,便于后续数据处理。
在一个实施例中,语音驱动人物手势的系统,还包括:
窗口模块,用于通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号。
通过以上方案,能够获取更多的参考语音信号,进而能够准确预测当前帧。
在一个实施例中,语音驱动人物手势的系统,还包括:
编辑模块,用于在语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (2)

1.一种语音驱动人物手势的方法,其特征在于,包括如下内容:
通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号,并提取语音信号中的文本特征和音频特征,其中,所述语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度;
将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出;
所述提取语音信号中的文本特征和音频特征,包括以下内容:
通过前馈神经网络提取语音信号中的文本特征和音频特征,并对文本特征和音频特征进行联合编码。
2.一种语音驱动人物手势的系统,其特征在于,包括:
窗口模块,用于通过滑动窗口获取语音信号,滑动窗口跨度为0.5s的过去语音和1s的未来语音信号;
特征模块,用于提取语音信号中的文本特征和音频特征,其中,所述语音信号中预设空白信号,以通过空白信号平衡预测手势的时间跨度;
预测模块,用于将文本特征和音频特征输入至自回归模型,以通过自回归模型预测获取本期关节角度旋转序列,以及将本期关节角度旋转序列反馈至自回归模型,以用于下期关节角度旋转序列预测;
合成模块,用于通过本期关节角度旋转序列生成手势,并将手势和语音信号合成输出;
所述特征模块,包括:
提取模块,用于通过前馈神经网络提取语音信号中的文本特征和音频特征;
编码模块,用于对文本特征和音频特征进行联合编码。
CN202011219858.9A 2020-11-06 2020-11-06 一种语音驱动人物手势的方法和系统 Active CN112328076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011219858.9A CN112328076B (zh) 2020-11-06 2020-11-06 一种语音驱动人物手势的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011219858.9A CN112328076B (zh) 2020-11-06 2020-11-06 一种语音驱动人物手势的方法和系统

Publications (2)

Publication Number Publication Date
CN112328076A CN112328076A (zh) 2021-02-05
CN112328076B true CN112328076B (zh) 2021-10-29

Family

ID=74315376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011219858.9A Active CN112328076B (zh) 2020-11-06 2020-11-06 一种语音驱动人物手势的方法和系统

Country Status (1)

Country Link
CN (1) CN112328076B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168686B (zh) * 2023-04-23 2023-07-11 碳丝路文化传播(成都)有限公司 数字人动态拟真方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103890695A (zh) * 2011-08-11 2014-06-25 视力移动技术有限公司 基于手势的接口系统和方法
CN104732590A (zh) * 2015-03-09 2015-06-24 北京工业大学 一种手语动画的合成方法
CN107798964A (zh) * 2017-11-24 2018-03-13 郑军 一种实时识别手势的手语智能交互设备及其交互方法
CN108985157A (zh) * 2018-06-07 2018-12-11 北京邮电大学 一种手势识别方法和装置
CN110691550A (zh) * 2017-02-01 2020-01-14 塞雷比安公司 对感知体验进行测量的系统和方法
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN111292743A (zh) * 2020-01-22 2020-06-16 北京松果电子有限公司 语音交互方法及装置、电子设备
CN111316203A (zh) * 2018-07-10 2020-06-19 微软技术许可有限责任公司 自动生成形象的动作
CN111369967A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020140718A1 (en) * 2001-03-29 2002-10-03 Philips Electronics North America Corporation Method of providing sign language animation to a monitor and process therefor
ES2308596T3 (es) * 2004-12-15 2008-12-01 Koninklijke Philips Electronics N.V. Sincronizacion de audio con video retardado.
US20120306741A1 (en) * 2011-06-06 2012-12-06 Gupta Kalyan M System and Method for Enhancing Locative Response Abilities of Autonomous and Semi-Autonomous Agents
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN103218842B (zh) * 2013-03-12 2015-11-25 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN103561277B (zh) * 2013-05-09 2017-05-03 陕西思智通教育科技有限公司 一种用于网络教学的传输方法和系统
US9696813B2 (en) * 2015-05-27 2017-07-04 Hsien-Hsiang Chiu Gesture interface robot
US10249091B2 (en) * 2015-10-09 2019-04-02 Warner Bros. Entertainment Inc. Production and packaging of entertainment data for virtual reality
CN108335346A (zh) * 2018-03-01 2018-07-27 黄淮学院 一种互动动画生成系统
US11416732B2 (en) * 2018-12-05 2022-08-16 Disney Enterprises, Inc. Simulated human-like affect-driven behavior by a virtual agent

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103890695A (zh) * 2011-08-11 2014-06-25 视力移动技术有限公司 基于手势的接口系统和方法
CN104732590A (zh) * 2015-03-09 2015-06-24 北京工业大学 一种手语动画的合成方法
CN110691550A (zh) * 2017-02-01 2020-01-14 塞雷比安公司 对感知体验进行测量的系统和方法
CN107798964A (zh) * 2017-11-24 2018-03-13 郑军 一种实时识别手势的手语智能交互设备及其交互方法
CN108985157A (zh) * 2018-06-07 2018-12-11 北京邮电大学 一种手势识别方法和装置
CN111316203A (zh) * 2018-07-10 2020-06-19 微软技术许可有限责任公司 自动生成形象的动作
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN111292743A (zh) * 2020-01-22 2020-06-16 北京松果电子有限公司 语音交互方法及装置、电子设备
CN111369967A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备

Also Published As

Publication number Publication date
CN112328076A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
CN103218842B (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
WO2022052481A1 (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
US20200279553A1 (en) Linguistic style matching agent
US8131551B1 (en) System and method of providing conversational visual prosody for talking heads
US9431027B2 (en) Synchronized gesture and speech production for humanoid robots using random numbers
US7353177B2 (en) System and method of providing conversational visual prosody for talking heads
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
EP1269465B1 (en) Character animation
US20080259085A1 (en) Method for Animating an Image Using Speech Data
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
CN103543979A (zh) 一种输出语音的方法、语音交互的方法及电子设备
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
WO2023216765A1 (zh) 多模态交互方法以及装置
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
CN112002301A (zh) 一种基于文本的自动化视频生成方法
CN112328076B (zh) 一种语音驱动人物手势的方法和系统
CN106875947B (zh) 用于智能机器人的语音输出方法和装置
JP2008125815A (ja) 会話ロボットシステム
Nagy et al. A framework for integrating gesture generation models into interactive conversational agents
JP2003522978A (ja) 手話を音声へ変換する方法及び装置
JP2008107673A (ja) 会話ロボット
JPH06162167A (ja) 合成画像表示システム
KR20190111642A (ko) 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100000 room 311a, floor 3, building 4, courtyard 4, middle Yongchang Road, Beijing Economic and Technological Development Zone, Beijing

Patentee after: Beijing Zhongke Shenzhi Technology Co., Ltd

Address before: 100000 303 platinum international building, block C, fortune World Building, No. 1, Hangfeng Road, Fengtai District, Beijing

Patentee before: Beijing Zhongke Shenzhi Technology Co., Ltd

CP02 Change in the address of a patent holder