CN108921284B - 基于深度学习的人际交互肢体语言自动生成方法及系统 - Google Patents

基于深度学习的人际交互肢体语言自动生成方法及系统 Download PDF

Info

Publication number
CN108921284B
CN108921284B CN201810623961.6A CN201810623961A CN108921284B CN 108921284 B CN108921284 B CN 108921284B CN 201810623961 A CN201810623961 A CN 201810623961A CN 108921284 B CN108921284 B CN 108921284B
Authority
CN
China
Prior art keywords
limb
neural network
audio
training
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810623961.6A
Other languages
English (en)
Other versions
CN108921284A (zh
Inventor
甘甜
马志鑫
宋雪萌
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201810623961.6A priority Critical patent/CN108921284B/zh
Publication of CN108921284A publication Critical patent/CN108921284A/zh
Priority to PCT/CN2018/122942 priority patent/WO2019237708A1/zh
Application granted granted Critical
Publication of CN108921284B publication Critical patent/CN108921284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于深度学习的人际交互肢体语言自动生成方法及系统,包括:步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的的一一对应关系;步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;步骤(3):从待推荐肢体动作的音频中提取音频测试特征;步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征。

Description

基于深度学习的人际交互肢体语言自动生成方法及系统
技术领域
本发明涉及人工智能技术领域,特别是涉及基于深度学习的人际交互肢体语言自动生成方法及系统。
背景技术
演讲是给观众传递信息的最有效方式之一。除了演讲者的演说内容外,在其演讲过程中演讲者的肢体语言对信息传达也十分重要。通常,不同的演讲者在演讲过程中的表达方式有很大不同。其中,手势作为一种视觉感知,与演说一同表达演讲者的思想。在演讲过程中,手势不仅帮助演讲者丰富其语言内容的画面感,帮助传达情绪,有时还能传达言语无法表达的信息(例如,好的站姿和肢体动作能表现一个人的精神面貌与气质,这是语言所无法传达的)。所以,好的肢体语言能帮助演讲者更好的诠释主题。通常,提高演讲水平最有效方法之一是通过专家的反馈和建议来练习,但雇用专家是昂贵的,因此大部分情况下不太实际。
随着大数据和人工智能技术的兴起,人们对多媒体数据的处理能力飞速增长。在演讲领域,人们对演讲的深度分析的需求越来越大,但始终没能得到很好的解决。在此之前,人们进行了很多诸如演讲打分,语音行为分析等一系列研究。但这些研究结果一方面需要人工标注,只能在小批量数据上进行。另一方面,没有给出具体的建议,无论是分数还是一系列的统计信息,都不能直观的给用户明了的建议。
发明内容
为了解决现有技术的不足,本发明提供了基于深度学习的人际交互肢体语言自动生成方法及系统;
本发明第一方面,提供了基于深度学习的人际交互肢体语言自动生成方法;
基于深度学习的人际交互肢体语言自动生成方法,包括:
步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的的一一对应关系;
步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;
步骤(3):从待推荐肢体动作的音频中提取音频测试特征;
步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征。
作为本发明的进一步改进,所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;是指:
将演讲视频的音频信号均匀划分为长度为
Figure BDA0001698692590000021
秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征,通过音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频训练特征。
作为本发明的进一步改进,所述从演讲视频中提取每一帧图像内人物的肢体训练特征;是指:
将演讲视频的视频信号以帧为单位划分为若干帧图像,对每一帧图像使用肢体语言识别系统OpenPose检测出图像中人物各关节点坐标位置,对各关节点坐标位置进行归一化后,得到每一帧图像的人物关节与关节坐标位置关系矩阵;根据每一帧图像的人物关节与关节坐标位置关系矩阵计算关节夹角的角度,根据关节夹角的角度将当前帧图像映射到预先设定活动状态中最接近的一个状态作为肢体训练特征。
所述关节夹角是指:在头部位置预先设定一个点为头部节点,在颈部位置预先设定一个点为颈部节点,在右肩关节位置预先设定一个点为右肩关节点,在左肩关节位置预先设定一个点为左肩关节点,在右胳膊肘位置预先设定一个点为右肘关节点,在左胳膊肘位置预先设定一个点为左肘关节点,在右手位置预先设定一个点为右手关节点,在左手位置预先设定一个点为左手关节点;
第一个夹角是指:头部节点与颈部节点连线和颈部节点与右肩关节点连线之间的夹角αH
第二个夹角是指:颈部节点与右肩关节点连线和右肩关节点与右肘关节点连线之间的身体内侧夹角αRS
第三个夹角是指:右肩关节点与右肘关节点连线和右肘关节点与右手关节点连线之间的身体内侧夹角αRE
第四个夹角是指:颈部节点与左肩关节点连线和左肩关节点与左肘关节点连线之间的身体内侧夹角αLS
第五个夹角是指:左肩关节点与左肘关节点连线和左肘关节点与左手关节点连线之间的身体内侧夹角αLE
预先设定活动状态,包括:第一个夹角设置m个状态,第二个夹角设置n个状态,第三个夹角设置o个状态,第四个夹角设置p个状态,第五个夹角设置q个状态;根据各个夹角的状态的组合,将人物姿态划分为m*n*o*p*q个状态。
例如:第一个夹角设置三个状态:
αH∈[60°,90°,120°];
例如:第二个夹角设置四个状态:
αRS∈[60°,112.5°,157.5°,210°];
例如:第三个夹角设置五个状态:
αRE∈[90°,135°,180°,225°,270°];
例如:第四个夹角设置四个状态:
αLS∈[60°,112.5°,157.5°,210°];
例如:第五个夹角设置五个状态:
αLE∈[90°,135°,180°,225°,270°]。
这里将人物状态划分为1200种状态。
所述肢体包括上肢和头部。
作为本发明的进一步改进,所述双层循环神经网络模型包括两个嵌套组合循环神经网络:第一循环神经网络和第二循环神经网络;第二循环神经网络在第一循环神经网络内部;第一循环神经网络包括第一编码器和第一解码器;第二循环神经网络包括第二编码器和第二解码器;第一编码器、第二编码器、第二解码器和第一解码器依次串联;第一编码器的输入值为音频训练特征,第一编码器的输出值输入到第二编码器中,第二编码器的输出值输入到第二解码器中,第二解码器的输出值输入到第一解码器中,第一解码器的输出值为肢体训练特征;
作为本发明的进一步改进,所述步骤(2)中,将将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型,步骤为:
步骤(201):根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频训练特征;将每个声音行为对应的音频训练特征输入到第一编码器中,第一编码器输出每个音频训练特征的隐藏层状态;
第一编码器输出每个音频训练特征的隐藏层状态:
Figure BDA0001698692590000031
其中,xi,u代表第i个声音行为的第u个语音区间,hi,u指对xi,u编码所得的隐藏层状态,特别的,记最终的隐藏层状态
Figure BDA0001698692590000041
为hi
Figure BDA0001698692590000042
是第一编码器;Ni为第i个声音行为所具有的语音区间个数。
步骤(202):对于第一编码器输出的每个音频训练特征的隐藏层状态,采用第二编码器进行编码,得到第二编码器的编码结果:
Figure BDA0001698692590000043
其中
Figure BDA0001698692590000044
表示每个声音行为的隐藏层状态,l0=0,dh为隐藏层状态的向量空间的维度。第二编码器的最终编码结果
Figure BDA0001698692590000045
记为c。
步骤(203):将每个声音行为对应的肢体训练特征集合视为肢体动作行为;将第二编码器每次输出的隐藏层状态作为与声音行为对应的肢体动作行为的隐藏层状态;
步骤(203)第二解码器解码输出隐表达oi的条件概率P(oi|fi-1,c)表示为:
Figure BDA0001698692590000046
其中fi-1为第二解码器的最后一个隐藏层状态输出,当i=1时,fi-1设置为0,o1…oi-1为之前所有第二解码器解码得到的肢体动作行为的隐表达,c为所有声音行为的隐藏层状态。
步骤(204):将每一帧图像的肢体训练特征视为肢体动作单元,在得到每个肢体动作行为的隐表达之后,构建肢体动作行为与肢体动作行为包含的每一帧图像的关系,并通过第一解码器将肢体动作单元的隐表达解码为每个语音区间对应的帧的肢体动作特征的预测,选取概率最大的肢体动作作为预测的肢体动作;
步骤(204)预测的概率P(fi,j|gi,j,oi)计算如下,
Figure BDA0001698692590000047
其中fi,j表示xi,j所对应的预测值,gi,j表示xi,j所对应的真实值,oi为解码出的肢体动作行为的隐表达;
步骤(205):利用损失函数计算预测的肢体动作特征与肢体训练特征之间的损失值,如果损失值在设定范围内,则表示双层循环神经网络模型训练合格,进入步骤(3);否则表示双层循环神经网络模型训练不合格,调整双层循环神经网络模型的参数后,返回步骤(201)继续训练,直至损失值在设定范围内,结束。
调整双层循环神经网络模型的参数,例如:GRU函数中的Wz,Wr,Wh,Uz,Ur,Uh,以及bz,br,bh
作为本发明的进一步改进,所述步骤(3)中,从待推荐肢体动作的音频中提取音频测试特征,步骤为:
对待测试音频信号划分为长度为
Figure BDA0001698692590000051
秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征;将待测试音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频测试特征。
作为本发明的进一步改进,所述步骤(4)中,根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频测试特征;将每个声音行为对应的音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征,对肢体测试特征进行展示。
本发明的第二方面,提供了基于深度学习的人际交互肢体语言自动生成系统;
基于深度学习的人际交互肢体语言自动生成系统,包括:
存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明能够利用数据分析方法以及人工智能技术为演讲者提供更为准确的肢体动作指导,使其能够与演讲内容深度结合,更好的表达交流内容,提高人际沟通的效率。
2、相比现有技术给出评分和各种统计信息的方式,本发明能给出更直观的建议。
3、设计了一个分层网络结构。一方面,网络结构中的单元层通过对声音行为和肢体动作内部连续的语音区间同时进行编码,保证了动作流的连续性。另一方面,网络结构中的序列层对不同的声音行为所产生的肢体动为以及不同肢体动作之间的概率转移关系进行建模,保证了肢体动作的完整性和丰富性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的流程图;
图2(a)和图2(b)为肢体动作提取效果图;
图3为模型流程图;
图4为编码器部分示意图;
图5为解码器部分示意图;
图6为声音行为检测示意图;
图7(a)~图7(d)为关节角度示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明第一个实施例,提供了基于深度学习的人际交互肢体语言自动生成方法;
如图1所示,基于深度学习的人际交互肢体语言自动生成方法,包括:
步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的的一一对应关系;
作为本发明的进一步改进,所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;是指:
将演讲视频的音频信号均匀划分为长度为
Figure BDA0001698692590000061
秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征,通过音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频训练特征。
作为本发明的进一步改进,所述从演讲视频中提取每一帧图像内人物的肢体训练特征;是指:
将演讲视频的视频信号以帧为单位划分为若干帧图像,对每一帧图像使用肢体语言识别系统OpenPose检测出图像中人物各关节点坐标位置,对各关节点坐标位置进行归一化后,得到每一帧图像的人物关节与关节坐标位置关系矩阵;根据每一帧图像的人物关节与关节坐标位置关系矩阵计算关节夹角的角度,根据关节夹角的角度将当前帧图像映射到预先设定活动状态中最接近的一个状态作为肢体训练特征。
所述关节夹角是指:在头部位置预先设定一个点为头部节点,在颈部位置预先设定一个点为颈部节点,在右肩关节位置预先设定一个点为右肩关节点,在左肩关节位置预先设定一个点为左肩关节点,在右胳膊肘位置预先设定一个点为右肘关节点,在左胳膊肘位置预先设定一个点为左肘关节点,在右手位置预先设定一个点为右手关节点,在左手位置预先设定一个点为左手关节点;
第一个夹角是指:头部节点与颈部节点连线和颈部节点与右肩关节点连线之间的夹角αH
第二个夹角是指:颈部节点与右肩关节点连线和右肩关节点与右肘关节点连线之间的身体内侧夹角αRS
第三个夹角是指:右肩关节点与右肘关节点连线和右肘关节点与右手关节点连线之间的身体内侧夹角αRE
第四个夹角是指:颈部节点与左肩关节点连线和左肩关节点与左肘关节点连线之间的身体内侧夹角αLS
第五个夹角是指:左肩关节点与左肘关节点连线和左肘关节点与左手关节点连线之间的身体内侧夹角αLE
预先设定活动状态,包括:第一个夹角设置m个状态,第二个夹角设置n个状态,第三个夹角设置o个状态,第四个夹角设置p个状态,第五个夹角设置q个状态;根据各个夹角的状态的组合,将人物姿态划分为m*n*o*p*q个状态。
如图7(a)~图7(d)所示。例如:第一个夹角设置三个状态:
αH∈[60°,90°,120°];
例如:第二个夹角设置四个状态:
αRS∈[60°,112.5°,157.5°,210°];
例如:第三个夹角设置五个状态:
αRE∈[90°,135°,180°,225°,270°];
例如:第四个夹角设置四个状态:
αLS∈[60°,112.5°,157.5°,210°];
例如:第五个夹角设置五个状态:
αLE∈[90°,135°,180°,225°,270°]。
这里将人物状态划分为1200种状态。
所述肢体包括上肢和头部。
步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;
作为本发明的进一步改进,所述双层循环神经网络模型包括两个嵌套组合循环神经网络:第一循环神经网络和第二循环神经网络;第二循环神经网络在第一循环神经网络内部;第一循环神经网络包括第一编码器和第一解码器;第二循环神经网络包括第二编码器和第二解码器;第一编码器、第二编码器、第二解码器和第一解码器依次串联;第一编码器的输入值为音频训练特征,第一编码器的输出值输入到第二编码器中,第二编码器的输出值输入到第二解码器中,第二解码器的输出值输入到第一解码器中,第一解码器的输出值为肢体训练特征;
作为本发明的进一步改进,所述步骤(2)中,将将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型,步骤为:
步骤(201):根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频训练特征;将每个声音行为对应的音频训练特征输入到第一编码器中,第一编码器输出每个音频训练特征的隐藏层状态;
第一编码器输出每个音频训练特征的隐藏层状态:
Figure BDA0001698692590000081
其中,xi,u代表第i个声音行为的第u个语音区间,hi,u指对xi,u编码所得的隐藏层状态,特别的,记最终的隐藏层状态
Figure BDA0001698692590000082
为hi
Figure BDA0001698692590000083
是第一编码器;Ni为第i个声音行为所具有的语音区间个数。
步骤(202):对于第一编码器输出的每个音频训练特征的隐藏层状态,采用第二编码器进行编码,得到第二编码器的编码结果:
Figure BDA0001698692590000084
其中
Figure BDA0001698692590000085
表示每个声音行为的隐藏层状态,l0=0,dh为隐藏层状态的向量空间的维度。第二编码器的最终编码结果
Figure BDA0001698692590000091
记为c。
步骤(203):将每个声音行为对应的肢体训练特征集合视为肢体动作行为;将第二编码器每次输出的隐藏层状态作为与声音行为对应的肢体动作行为的隐藏层状态,第二解码器解码输出隐表达oi的条件概率P(oi|fi-1,c)表示为:
Figure BDA0001698692590000092
其中fi-1为第二解码器的最后一个隐藏层状态输出,当i=1时,fi-1设置为0,o1…oi-1为之前所有第二解码器解码得到的肢体动作行为的隐表达,c为所有声音行为的隐藏层状态。
步骤(204):将每一帧图像的肢体训练特征视为肢体动作单元,在得到每个肢体动作行为的隐表达之后,构建肢体动作行为与肢体动作行为包含的每一帧图像的关系,并通过第一解码器将肢体动作单元的隐表达解码为每个语音区间对应的帧的肢体动作特征的预测,选取概率最大的肢体动作作为预测的肢体动作;
预测的概率P(fi,j|gi,j,oi)计算如下,
Figure BDA0001698692590000093
其中fi,j表示xi,j所对应的预测值,gi,j表示xi,j所对应的真实值,oi为解码出的肢体动作行为的隐表达;步骤(205):利用损失函数计算预测的肢体动作特征与肢体训练特征之间的损失值,如果损失值在设定范围内,则表示双层循环神经网络模型训练合格,进入步骤(3);否则表示双层循环神经网络模型训练不合格,调整双层循环神经网络模型的参数后,返回步骤(201)继续训练,直至损失值在设定范围内结束。
调整双层循环神经网络模型的参数,例如:GRU函数中的Wz,Wr,Wh,Uz,Ur,Uh,以及bz,br,bh
步骤(3):从待推荐肢体动作的音频中提取音频测试特征;
作为本发明的进一步改进,所述步骤(3)中,从待推荐肢体动作的音频中提取音频测试特征,步骤为:
对待测试音频信号划分为长度为
Figure BDA0001698692590000094
秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征或声音频率特征;将待测试音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频测试特征;
步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征。
根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频测试特征;将每个声音行为对应的音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征,对肢体测试特征进行展示。
本发明的第二个实施例,提供了基于深度学习的人际交互肢体语言自动生成系统;
基于深度学习的人际交互肢体语言自动生成系统,包括:
存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
本发明的第三个实施例,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
本发明提出了一个双层循环编码器-解码器网络来编码语音和手势序列之间的关系以及手势层次结构。最后,当给定语音输入时,用学习出来的网络模型将生成适当的手势,并进行可视化以获得更有效的肢体语言推荐。
本发明一方面构建了大规模的数据库,且不需要人工标注,能在大量的数据中学习到更为准确的概率模型。另一方面,提出了用于分析语音和肢体语言之间关系的分层模型,能更好的模拟人在演讲时的状态。最后,我们将由音频生成的肢体动作可视化,直接展示给用户生成的结果。
在语言交流中,语言被认为是离散单元的有序组织,肢体语言也是如此。我们首先将模型的输入和输出,即音频和肢体动作离散化。通过对语音本身以及各种特征离散化为等长的单元作为语音的语音区间,对视频则将每一帧的肢体特征(见图2(a)和图2(b))作为一个动作语音区间。语音和视频的语音区间在时间轴上是一一对应的。在语义层面,我们将声音(动作)语音区间聚合为完整的声音(肢体动作),并分析完整的动作之间的概率转移关系。我们通过构建双层循环神经网络,对语音和动作在分别底层和语义层面分析建模,并建立输入和输出之间的映射关系,整个流程如图3所示。一方面我们保证了整个肢体动作的流畅性,另一方面我们确保了手势和手势之间根据输入音频的合理变换。
1.基于语言结构模型的双层循环编码-解码网络包括:单元层面的编码、解码器,以及序列层面的编码、解码器。
我们定义x为视频中提取的语音特征集合,y为视频中检测到的肢体的特征集合。
第一编码器:
为了将数量不同的语音区间分组并统一为等长的声音行为的表示,例如某一个声音行为包含5个语音区间,而另一段较长的声音行为由10个语音区间组成,我们要对这些语音区间进行编码,使用统一长度的表示方法。具体的,我们使用第一编码器进行编码:
Figure BDA0001698692590000111
其中xi,u代表第i个声音行为的第u个语音区间,Ni为第i个声音行为所具有的语音区间个数。hi,u指对xi,u编码所得的隐藏状态,
Figure BDA0001698692590000112
是编码函数.。对于GRU函数,具体的,有:
zt=σg(Wzxt+Uzht-1+bz),
rt=σg(Wrxt+Urht-1+br),
Figure BDA0001698692590000113
Figure BDA0001698692590000114
其中σg为sigmoid函数,σh为tanh函数。且有
Figure BDA0001698692590000115
以及
Figure BDA0001698692590000116
我们使用矩阵W来编码输入x,并以ht作为输出的隐藏层状态。
最终,我们取每个声音行为输出的最后一个隐藏层状态作为整个声音行为的表示。此隐藏层状态包含了之前所有输入的信息,可以作为整个声音行为的所有语音区间的语义编码。
第二编码器:
当我们使用离散化的基本音频特征单元将不等长的声音行为表达为等长的特征表示qi之后,我们得到了语义层面上的声音行为(如升高音调,语速加快等)的特征表示序列。对于这个序列,我们要建立不同的声音行为在大量数据下的概率转移关系。于是我们建立了第二层循环神经网络模型,用于对声音行为序列编码并得到整个序列的特定表示,
Figure BDA0001698692590000117
其中
Figure BDA0001698692590000118
表示每个声音行为的隐层表达,特殊的,l0=0,dh为隐表达的向量空间的维度。整个编码过程如图4所示。
第二解码器:
当我们得到包含整个声音序列的编码信息的中间表示之后,便要建立声音行为和肢体语言的生成关系。对于整个声音序列的中间隐藏层状态c,我们按照与声音行为的时间区间相同的时间划分方式,将输出y分组,表示为与声音行为相对应的肢体动作行为,构建与第二编码器对应的解码器,并使解码器每次的输出隐藏层状态作为与此声音行为对应的肢体动作行为的隐表达,其概率表示为:
Figure BDA0001698692590000121
其中fi-1为前一个第一解码器的最后一个隐藏层状态输出,特别的,当i=1时,fi-1设置为GO_ID=0,oi为之前所有解码得到的肢体动作行为的隐表达,c为所有语音行为的中间隐变量。根据这一概率公式,我们便可以使用第二解码器解码出我们想要得到的肢体动作行为的隐表达。
第一解码器:
类似的,得到每个肢体动作行为的隐表达之后,我们便可以构建肢体动作行为与其包含的每一帧的生成关系,并通过单元层解码将肢体动作单元的隐表达解码为每个语音区间对应的帧,具体对应的概率计算如下,
Figure BDA0001698692590000122
其中fi,j,gi,j分别表示xi,j所对应的预测值和真实值,oi为输入的肢体动作行为的隐表达,整个解码过程如图5所示。
2.模型训练
我们使用交叉熵来作为网络训练的损失函数,并通过梯度下降和反向传播来更新四个GRU函数,包括
Figure BDA0001698692590000123
内的参数。其损失函数定义如下:
Figure BDA0001698692590000124
其中Nf为语音(肢体动作)语音区间的个数。
如图6所示,阴影的边界将声音序列划分为若干个声音行为。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.基于深度学习的人际交互肢体语言自动生成方法,其特征是,包括:
步骤(1):从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;同时,从演讲视频中提取每一帧图像内人物的肢体训练特征,建立音频训练特征与肢体训练特征之间的一一对应关系;
步骤(2):构建双层循环神经网络模型;将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型;
步骤(3):从待推荐肢体动作的音频中提取音频测试特征;
步骤(4):将音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征;
所述步骤(2)中,将音频训练特征作为双层循环神经网络模型的输入值,将肢体训练特征作为双层循环神经网络模型的输出值,对已构建的双层循环神经网络模型进行训练,得到训练好的双层循环神经网络模型,步骤为:
步骤(201):根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频训练特征;将每个声音行为对应的音频训练特征输入到第一编码器中,第一编码器输出每个音频训练特征的隐藏层状态;
步骤(203):将每个声音行为对应的肢体训练特征集合视为肢体动作行为;将第二编码器每次输出的隐藏层状态作为与声音行为对应的肢体动作行为的隐藏层状态;
步骤(204):将每一帧图像的肢体训练特征视为肢体动作单元,在得到每个肢体动作行为的隐表达之后,构建肢体动作行为与肢体动作行为包含的每一帧图像的关系,并通过第一解码器将肢体动作单元的隐表达解码为每个语音区间对应的帧的肢体动作特征的预测,选取概率最大的肢体动作作为预测的肢体动作;
步骤(205):利用损失函数计算预测的肢体动作特征与肢体训练特征之间的损失值,如果损失值在设定范围内,则表示双层循环神经网络模型训练合格,进入步骤(3);否则表示双层循环神经网络模型训练不合格,调整双层循环神经网络模型的参数后,返回步骤(201)继续训练,直至损失值在设定范围内,结束。
2.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述从演讲视频中提取每一帧图像所对应时间范围内人物的音频训练特征;是指:
将演讲视频的音频信号均匀划分为长度为
Figure FDA0002612359400000021
秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征,通过音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频训练特征。
3.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述从演讲视频中提取每一帧图像内人物的肢体训练特征;是指:
将演讲视频的视频信号以帧为单位划分为若干帧图像,对每一帧图像使用肢体语言识别系统OpenPose检测出图像中人物各关节点坐标位置,对各关节点坐标位置进行归一化后,得到每一帧图像的人物关节与关节坐标位置关系矩阵;根据每一帧图像的人物关节与关节坐标位置关系矩阵计算关节夹角的角度,根据关节夹角的角度将当前帧图像映射到预先设定活动状态中最接近的一个状态作为肢体训练特征。
4.如权利要求3所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述关节夹角是指:在头部位置预先设定一个点为头部节点,在颈部位置预先设定一个点为颈部节点,在右肩关节位置预先设定一个点为右肩关节点,在左肩关节位置预先设定一个点为左肩关节点,在右胳膊肘位置预先设定一个点为右肘关节点,在左胳膊肘位置预先设定一个点为左肘关节点,在右手位置预先设定一个点为右手关节点,在左手位置预先设定一个点为左手关节点;
第一个夹角是指:头部节点与颈部节点连线和颈部节点与右肩关节点连线之间的夹角αH
第二个夹角是指:颈部节点与右肩关节点连线和右肩关节点与右肘关节点连线之间的身体内侧夹角αRS
第三个夹角是指:右肩关节点与右肘关节点连线和右肘关节点与右手关节点连线之间的身体内侧夹角αRE
第四个夹角是指:颈部节点与左肩关节点连线和左肩关节点与左肘关节点连线之间的身体内侧夹角αLS
第五个夹角是指:左肩关节点与左肘关节点连线和左肘关节点与左手关节点连线之间的身体内侧夹角αLE
预先设定活动状态,包括:第一个夹角设置m个状态,第二个夹角设置n个状态,第三个夹角设置o个状态,第四个夹角设置p个状态,第五个夹角设置q个状态;根据各个夹角的状态的组合,将人物姿态划分为m*n*o*p*q个状态。
5.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述双层循环神经网络模型包括两个嵌套组合循环神经网络:第一循环神经网络和第二循环神经网络;第二循环神经网络在第一循环神经网络内部;第一循环神经网络包括第一编码器和第一解码器;第二循环神经网络包括第二编码器和第二解码器;第一编码器、第二编码器、第二解码器和第一解码器依次串联;第一编码器的输入值为音频训练特征,第一编码器的输出值输入到第二编码器中,第二编码器的输出值输入到第二解码器中,第二解码器的输出值输入到第一解码器中,第一解码器的输出值为肢体训练特征。
6.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述步骤(3)中,从待推荐肢体动作的音频中提取音频测试特征,步骤为:
对待测试音频信号划分为长度为
Figure FDA0002612359400000031
秒的语音区间,其中framerate为每秒的帧数;对每个语音区间提取声音强度特征;将待测试音频信号转为文本,对文本进行分类得到感情类别特征;将声音强度特征和感情类别特征进行特征融合作为音频测试特征。
7.如权利要求1所述的基于深度学习的人际交互肢体语言自动生成方法,其特征是,
所述步骤(4)中,根据声音强度将音频信号划分为若干个声音行为,划分过程中将声音强度超过设定阈值的连续音频信号视为一个声音行为,将声音强度未超过设定阈值的连续音频信号视为一个声音行为,每个声音行为包括若干个语音区间,每个语音区间都有对应的音频测试特征;将每个声音行为对应的音频测试特征输入到训练好的双层循环神经网络模型中,输出推荐的肢体测试特征,对肢体测试特征进行展示。
8.基于深度学习的人际交互肢体语言自动生成系统,其特征是,包括:
存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一方法所述的步骤。
9.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一方法所述的步骤。
CN201810623961.6A 2018-06-15 2018-06-15 基于深度学习的人际交互肢体语言自动生成方法及系统 Active CN108921284B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810623961.6A CN108921284B (zh) 2018-06-15 2018-06-15 基于深度学习的人际交互肢体语言自动生成方法及系统
PCT/CN2018/122942 WO2019237708A1 (zh) 2018-06-15 2018-12-22 基于深度学习的人际交互肢体语言自动生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810623961.6A CN108921284B (zh) 2018-06-15 2018-06-15 基于深度学习的人际交互肢体语言自动生成方法及系统

Publications (2)

Publication Number Publication Date
CN108921284A CN108921284A (zh) 2018-11-30
CN108921284B true CN108921284B (zh) 2020-11-17

Family

ID=64421760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810623961.6A Active CN108921284B (zh) 2018-06-15 2018-06-15 基于深度学习的人际交互肢体语言自动生成方法及系统

Country Status (2)

Country Link
CN (1) CN108921284B (zh)
WO (1) WO2019237708A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921284B (zh) * 2018-06-15 2020-11-17 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统
CN109858457A (zh) * 2019-02-18 2019-06-07 齐鲁工业大学 基于OpenPose的作弊动作辅助识别方法及系统
CN110135697A (zh) * 2019-04-15 2019-08-16 平安科技(深圳)有限公司 情感训练方法、装置、计算机设备和存储介质
CN110634491B (zh) * 2019-10-23 2022-02-01 大连东软信息学院 语音信号中针对通用语音任务的串联特征提取系统及方法
CN111080752B (zh) * 2019-12-13 2023-08-22 北京达佳互联信息技术有限公司 基于音频的动作序列生成方法、装置以及电子设备
CN111711868B (zh) * 2020-06-24 2021-07-20 中国科学院自动化研究所 基于视听多模态的舞蹈生成方法、系统、装置
CN112232127A (zh) * 2020-09-14 2021-01-15 辽宁对外经贸学院 一种智能演讲训练系统及方法
CN114492545B (zh) * 2020-10-27 2024-10-15 南京中芯声学技术研究院 一种声光融合数据交互方法
CN112329593A (zh) * 2020-11-03 2021-02-05 北京中科深智科技有限公司 一种基于风格化的手势生成方法及生成系统
CN112720527B (zh) * 2020-12-25 2024-04-09 航天科工深圳(集团)有限公司 音乐舞蹈自编程机器人
CN112735472B (zh) * 2020-12-25 2024-04-09 航天科工深圳(集团)有限公司 音视频旋律动作自生成方法及装置
CN113312966B (zh) * 2021-04-21 2023-08-08 广东工业大学 一种基于第一人称视角的动作识别方法及装置
CN114187544B (zh) * 2021-11-30 2024-08-09 厦门大学 大学英语演讲多模态自动评分方法
EP4252643A1 (en) * 2022-03-29 2023-10-04 Emotion Comparator Systems Sweden AB A system and method for interpretation of human interpersonal interaction
CN115966016B (zh) * 2022-12-19 2024-07-05 天翼爱音乐文化科技有限公司 一种跳跃状态识别方法、系统、电子设备及存储介质
CN116168686B (zh) * 2023-04-23 2023-07-11 碳丝路文化传播(成都)有限公司 数字人动态拟真方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182772B (zh) * 2014-08-19 2017-10-24 大连理工大学 一种基于深度学习的手势识别方法
CN104484656A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形模型库构建方法
WO2017019555A1 (en) * 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
CN105957531B (zh) * 2016-04-25 2019-12-31 上海交通大学 基于云平台的演讲内容提取方法及装置
CN106991372B (zh) * 2017-03-02 2020-08-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法
CN108921284B (zh) * 2018-06-15 2020-11-17 山东大学 基于深度学习的人际交互肢体语言自动生成方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"An Adaptive Semisupervised Feature Analysis for Video Semantic Recognition";Minnan Luo et al.;《IEEE TRANSACTIONS ON CYBERNETICS》;20180228;第48卷(第2期);第648-660页 *
"SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning";Long Chen et al.;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第6298-6306页 *
"基于深度学习的Web信息抽取研究与实现";赵朗;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171215;第I140-16页 *

Also Published As

Publication number Publication date
WO2019237708A1 (zh) 2019-12-19
CN108921284A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108921284B (zh) 基于深度学习的人际交互肢体语言自动生成方法及系统
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
US11226673B2 (en) Affective interaction systems, devices, and methods based on affective computing user interface
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN110148318B (zh) 一种数字助教系统、信息交互方法和信息处理方法
CN106997243B (zh) 基于智能机器人的演讲场景监控方法及装置
Zeng et al. Bimodal HCI-related affect recognition
CN107766447A (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN115641543B (zh) 一种多模态抑郁情绪识别方法及装置
CN101187990A (zh) 一种会话机器人系统
CN115329779A (zh) 一种多人对话情感识别方法
CN113779310A (zh) 一种基于层级表征网络的视频理解文本生成方法
Gladys et al. Survey on multimodal approaches to emotion recognition
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
CN117635785B (zh) 一种护工数字人生成方法及系统
Hemamou et al. Multimodal hierarchical attention neural network: Looking for candidates behaviour which impact recruiter's decision
Rastgoo et al. A survey on recent advances in Sign Language Production
CN111949773A (zh) 一种阅读设备、服务器以及数据处理的方法
Li et al. Computational modeling
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质
Saito Enhancement effects of frequency: An explanation from the perspective of Discriminative Learning
Liu et al. Deep learning scoring model in the evaluation of oral English teaching
Lieskovska et al. Speech emotion recognition overview and experimental results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant