CN115311731A - 一种手语数字人的表情生成方法和装置 - Google Patents

一种手语数字人的表情生成方法和装置 Download PDF

Info

Publication number
CN115311731A
CN115311731A CN202211235204.4A CN202211235204A CN115311731A CN 115311731 A CN115311731 A CN 115311731A CN 202211235204 A CN202211235204 A CN 202211235204A CN 115311731 A CN115311731 A CN 115311731A
Authority
CN
China
Prior art keywords
mixed deformation
expression
sequence
sign language
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211235204.4A
Other languages
English (en)
Other versions
CN115311731B (zh
Inventor
刘逸颖
李萌坚
李融
陈忠豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211235204.4A priority Critical patent/CN115311731B/zh
Publication of CN115311731A publication Critical patent/CN115311731A/zh
Application granted granted Critical
Publication of CN115311731B publication Critical patent/CN115311731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种手语数字人的表情生成方法和装置,包括以下步骤:步骤S1:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;步骤S2:获取手语语句的词目序列和手语语句的情感属性;步骤S3:估计所述音素序列中每个音素的持续时长;步骤S4:得到平滑后的口型混合变形权重序列;步骤S5:生成情感混合变形权重序列;步骤S6:得到混合变形权重;步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画。本发明将口型及情感的表情合成应用到手语数字人当中,使得手语数字人更加生动形象,并大大提升手语数字人在听障人群中的可理解性,具有高稳定性、算法复杂度低的优点,能够进行实时运行。

Description

一种手语数字人的表情生成方法和装置
技术领域
本发明涉及一种人工智能技术领域,尤其涉及一种手语数字人的表情生成方法和装置。
背景技术
听障人士是社会的重要组成人群,手语是他们进行交流的工具。随着人工智能技术的发展以及“元宇宙”概念的提出,手语数字人技术也成为研究热点,它能够帮助听障人士的生活变得更加便利。手语作为一种视觉语言,依靠肢体动作和面部表情来传达信息。这其中,面部表情对于听障人士理解信息是非常重要的,但现有的解决方案往往没有做到自然的呈现效果,导致数字人的可理解度不高。因此如何产生更加生动的表情以及口型对于提升手语数字人交互能力是至关重要的。
目前市面上已有不少的手语数字人解决方案,如中国工商银行股份有限公司申请的发明专利“基于手语识别与合成的信息交互方法和装置”(CN202110519861.0)用以提升聋哑人与3D数字人的交互,但是它们仅考虑手势运动,而面部表情呆板不自然,降低了手语的可理解性和认知度,无法提供一个友好的用户体验。百度、华为等企业的手语数字人虽然也考虑了口型的生成,但未与情感结合,因此表情呈现上较生硬。
为此,我们提出一种手语数字人的表情生成方法和装置以解决上述技术问题。
发明内容
本发明为了解决上述技术问题,提供一种手语数字人的表情生成方法和装置。
本发明采用的技术方案如下:
一种手语数字人的表情生成方法,包括以下步骤:
步骤S1:构建手语数字人的面部混合变形,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重,并将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;
步骤S2:获取手语语句的词目序列和手语语句的情感属性;
步骤S3:将所述词目序列中的每个词目转换为音素序列,并利用音素时长预测器估计所述音素序列中每个音素的持续时长;
步骤S4:根据表情数据库将所述音素序列映射为口型混合变形权重,并根据每个音素的持续时长获取口型混合变形权重序列,利用卷积平滑对所述口型混合变形权重序列进行处理,得到平滑后的口型混合变形权重序列;
步骤S5:从所述表情数据库中获取所述情感属性对应的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列;
步骤S6:将所述口型混合变形权重序列与所述情感混合变形权重序列进行融合,得到混合变形权重;
步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画。
进一步地,所述步骤S1具体包括以下子步骤:
步骤S11:通过动画师手工建模或采集网格形变迁移算法自动生成手语数字人的面部混合变形;
步骤S12:通过设置混合变形权重控制面部形变,生成不同的口型和情感的人脸,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重;
步骤S13:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库。
进一步地,所述步骤S2中手语语句的情感属性通过文本情感分析技术获取。
进一步地,所述步骤S3具体包括以下子步骤:
步骤S31:通过录制语音并记录文本,使用语音-文本对齐工具进行音素级语音文本对齐,获得语音文本中每个音素的持续时间作为训练数据;
步骤S32:利用所述训练数据训练深度神经网络,并将深度神经网络的输出值作为预测值,利用训练数据为真实值,计算与预测值在对数阈上的均方误差,直至总损失函数不再下降且所述均方误差低于预设阈值,停止训练,获得训练好的深度神经网络;
步骤S33:将所述词目序列中的每个词目转换为音素序列,所述训练好的深度神经网络作为音素时长预测器估计所述音素序列中每个音素的持续时长。
进一步地,所述步骤S4具体包括以下子步骤:
步骤S41:将所述音素序列中每个音素的持续时长与帧率相乘,并对结果进行取整,得到每个音素的持续帧数;
步骤S42:将所述音素序列中的每个音素从所述表情数据库中映射得到对应的口型混合变形权重;
步骤S43:根据每个音素的持续帧数,将每个音素对应的口型混合变形权重进行重复扩展对应帧数,得到口型混合变形权重序列;
步骤S44:在时序上对所述口型混合变形权重序列进行卷积平滑处理,得到平滑后的口型混合变形权重序列。
进一步地,所述步骤S44所述卷积平滑处理为:通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。
进一步地,所述步骤S5具体包含开始、到达峰值和结束三个阶段,开始阶段为从中性表情到情感表情的过程,结束为从情感表情到中性表情的过程,通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列。
进一步地,所述步骤S6具体为:
当所述情感混合变形权重序列中的嘴张开表情基混合变形权重为0时,则融合处理的方式为将所述口型混合变形权重序列与所述情感混合变形权重序列直接相加,并将大于1的值设置为1,得到混合变形权重;
反之,则融合处理的方式为以下公式:
Figure DEST_PATH_IMAGE001
式中,
Figure 977291DEST_PATH_IMAGE002
为口型混合变形权重,
Figure 100002_DEST_PATH_IMAGE003
将与嘴巴不相关的表情基的权重赋值为0,
Figure 284645DEST_PATH_IMAGE004
为情感混合变形权重,
Figure 100002_DEST_PATH_IMAGE005
将与嘴巴相关的表情基的权重赋值为0,
Figure 690481DEST_PATH_IMAGE006
为融合后的混合变形权重。
进一步地,所述步骤S7具体为:通过所述混合变形权重,对表情基进行线性加权,获得手语数字人每一帧的面部模型,生成手语表情动画。
本发明还提供一种手语数字人的表情生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述任一项所述的一种手语数字人的表情生成方法。
本发明的有益效果是:
1、本发明将口型及情感的表情合成应用到手语数字人当中,使得手语数字人更加生动形象,并大大提升了手语数字人在听障人群中的可理解性。
2、本发明训练了一个音素时长预测器用于预测词或者语句的每个发音的持续时长,使得口型的合成更加自然,符合说话韵律。此外,使用卷积平滑处理帧间的过渡,也很好的解决协同发音的问题。
3、本发明提出的方法具有高稳定性、算法复杂度低的优点,能够进行实时运行。
附图说明
图1为本发明一种手语数字人的表情生成方法的流程示意图;
图2为本发明实施例的口型及情绪的表情示意图;
图3为本发明实施例的情绪的表情动画的三阶段示意图;
图4为本发明一种手语数字人的表情生成装置的结构示意图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,一种手语数字人的表情生成方法,包括以下步骤:
步骤S1:构建手语数字人的面部混合变形,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重,并将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;
步骤S11:通过动画师手工建模或采集网格形变迁移算法自动生成手语数字人的面部混合变形;
步骤S12:通过设置混合变形权重控制面部形变,生成不同的口型和情感的人脸,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重;
步骤S13:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库。
步骤S2:获取手语语句的词目序列和手语语句的情感属性;
手语语句的情感属性通过文本情感分析技术获取。
步骤S3:将所述词目序列中的每个词目转换为音素序列,并利用音素时长预测器估计所述音素序列中每个音素的持续时长;
步骤S31:通过录制语音并记录文本,使用语音-文本对齐工具进行音素级语音文本对齐,获得语音文本中每个音素的持续时间作为训练数据;
步骤S32:利用所述训练数据训练深度神经网络,并将深度神经网络的输出值作为预测值,利用训练数据为真实值,计算与预测值在对数阈上的均方误差,直至总损失函数不再下降且所述均方误差低于预设阈值,停止训练,获得训练好的深度神经网络;
步骤S33:将所述词目序列中的每个词目转换为音素序列,所述训练好的深度神经网络作为音素时长预测器估计所述音素序列中每个音素的持续时长。
步骤S4:根据表情数据库将所述音素序列映射为口型混合变形权重,并根据每个音素的持续时长获取口型混合变形权重序列,利用卷积平滑对所述口型混合变形权重序列进行处理,得到平滑后的口型混合变形权重序列;
步骤S41:将所述音素序列中每个音素的持续时长与帧率相乘,并对结果进行取整,得到每个音素的持续帧数;
步骤S42:将所述音素序列中的每个音素从所述表情数据库中映射得到对应的口型混合变形权重;
步骤S43:根据每个音素的持续帧数,将每个音素对应的口型混合变形权重进行重复扩展对应帧数,得到口型混合变形权重序列;
步骤S44:在时序上对所述口型混合变形权重序列进行卷积平滑处理,得到平滑后的口型混合变形权重序列;
所述卷积平滑处理为:通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。
步骤S5:从所述表情数据库中获取所述情感属性对应的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列;
具体包含开始、到达峰值和结束三个阶段,开始阶段为从中性表情到情感表情的过程,结束为从情感表情到中性表情的过程,通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列。
步骤S6:将所述口型混合变形权重序列与所述情感混合变形权重序列进行融合,得到混合变形权重;
当所述情感混合变形权重序列中的嘴张开表情基混合变形权重为0时,则融合处理的方式为将所述口型混合变形权重序列与所述情感混合变形权重序列直接相加,并将大于1的值设置为1,得到混合变形权重;
反之,则融合处理的方式为以下公式:
Figure 100002_DEST_PATH_IMAGE007
式中,
Figure 210324DEST_PATH_IMAGE008
为口型混合变形权重,
Figure DEST_PATH_IMAGE009
将与嘴巴不相关的表情基的权重赋值为0,
Figure 57319DEST_PATH_IMAGE010
为情感混合变形权重,
Figure DEST_PATH_IMAGE011
将与嘴巴相关的表情基的权重赋值为0,
Figure 4415DEST_PATH_IMAGE012
为融合后的混合变形权重。
步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画;
通过所述混合变形权重,对表情基进行线性加权,获得手语数字人每一帧的面部模型,生成手语表情动画。
实施例:一种手语数字人的表情生成方法,包括以下步骤:
步骤S1:构建手语数字人的面部混合变形,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重,并将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;
步骤S11:通过动画师手工建模或采集网格形变迁移算法自动生成手语数字人的面部混合变形;
混合变形是3D动画中常用的一种表情驱动方式,它包含了一组表情基,这种表情基通常基于面部动作编码系统的(FACS)定义。在本实施例中,数字人的人脸混合变形由美术师通过Maya软件手工建模完成,由于ARKit的混合变形模型在业界有着广泛的应用,因此本实施例选择使用苹果ARKit定义的52个表情基。可选地,还可以使用算法如(Example-Based Facial Rigging)自动化的生成数字人的混合变形。
步骤S12:通过设置混合变形权重控制面部形变,生成不同的口型和情感的人脸,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重;
通过对混合变形的表情基线性加权可以合成新的表情,公式如下:
Figure 333766DEST_PATH_IMAGE013
其中,
Figure 385464DEST_PATH_IMAGE014
为中性表情,
Figure 116660DEST_PATH_IMAGE015
Figure 172341DEST_PATH_IMAGE016
)不同的面部动作,n为表情基的数量,
Figure 520145DEST_PATH_IMAGE017
为第i个表情基的混合变形权重,F为合成的新的表情。
本实施例针对中文将音素划分为14个分组,一个音素组的音素都对应了相同或相近的口型。通过使用了面部动作捕捉技术,在演员表演相应口型的情况下,获取了52个表情基的混合变形权重,通过混合变形权重加权得到相应口型的表情关键帧。同样的,同理获得了6个基本表情关键帧,包括:高兴、悲伤、恐惧、愤怒、吃惊和厌恶。如图2所示为本实施例的14个音素组和6个基本表情,其中;(1)为音素a,ia,ang,iang,ai对应的表情;(2)为音素o,ou,ong,iong对应的表情;(3)为音素d,t,l对应的表情;(4)为音素g,k,h对应的表情;(5)为音素b,p,m对应的表情;(6)为音素e,ei,en,eng,ie对应的表情;(7)为音素zh,ch,sh,r对应的表情;(8)为音素u,w,v,un,ui,对应的表情;(9)为音素n,in,ing对应的表情;(10)为音素z,c,s,i,j,q,x,y对应的表情;(11)为音素f对应的表情;(12)为音素er对应的表情;(13)为音素an,ian对应的表情;(14)为音素ao,iao对应的表情;(15)为高兴对应的表情;(16)为悲伤对应的表情;(17)为恐惧对应的表情;(18)为愤怒对应的表情;(19)为吃惊对应的表情;(20)为厌恶对应的表情。
可选地,可以将音素进行更细致的划分,以达到更高的精度需求。同时,针对不同的语言,由于发音的差异,涵盖的音素不同,需要的口型的数量也不同,例如,对于英文可以将音素划分为21个分组。可选地,根据需求,可以生成更多的表情,如基于上述6个基本表情的组合得到的复合表情:如惊喜(高兴+吃惊)、悲愤(悲伤+愤怒)。可选地,口型和表情的关键帧也可由美工对52个表情基混合变形权重进行手动的调整得到。
步骤S13:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库。
步骤S2:获取手语语句的词目序列和手语语句的情感属性;
手语语句的情感属性通过文本情感分析技术获取,手语数字人能够使数字人根据语境的不同,获得不同的情感表达。
手语语句与正常的说话的语序存在差异,手语的词目为手语语句划分的最小单元。手语数字人首先需要将输入的语句翻译为听障人士能够理解的语句,进而进行手语动作和面部表情的生成,这可以通过NLP技术实现。词目的持续时长是为了将面部动作和肢体动作进行同步。本实施例中,通过读取手语动作库中词目对应的肢体动作的持续时长作为词目的持续时长。
步骤S3:将所述词目序列中的每个词目转换为音素序列,并利用音素时长预测器估计所述音素序列中每个音素的持续时长;
步骤S31:通过录制语音并记录文本,使用语音-文本对齐工具进行音素级语音文本对齐,获得语音文本中每个音素的持续时间作为训练数据;
步骤S32:利用所述训练数据训练深度神经网络,并将深度神经网络的输出值作为预测值,利用训练数据为真实值,计算与预测值在对数阈上的均方误差,直至总损失函数不再下降且所述均方误差低于预设阈值,停止训练,获得训练好的深度神经网络;
本实施例中,音素时长预测器由1个Embedding层,2个的ReLU激活的一维卷积层和1个全连接层组成,Embedding层对输入的序列化后的音素序列进行编码,每个卷积层之后是归一化层和dropout层,全连接层来将隐藏状态投影到输出序列中。可选地,还可以使用Transformer、LSTM等网络结构来构建音素时长预测器。
音素时长预测器的训练数据利用了开源语音-文本对齐系统Montreal ForcedAligner (MFA)生成。虽然唇语是不发声的,但其口型的韵律和说话时大致相同的。因此,本发明通过输入文本及对应的语音,来获得音素级的持续时间序列。进一步地,通过将音素时长乘以一个尺度系数,可以很轻松的控制口型的运动速度。
为了使网络的训练更加稳定,音素时长预测器输出的是时间的对数域的值,并计算了对数域上预测值与真实值的均方误差。
步骤S33:将所述词目序列中的每个词目转换为音素序列,所述训练好的深度神经网络作为音素时长预测器估计所述音素序列中每个音素的持续时长;
输入长度为k的音素序列P=[p1,p2,..,pk],输出预测的时长序列D=[d1,d2,…,dk];在预测过程中,可以根据需求对时长序列乘以一个系数,以达到加速或放慢的效果。
步骤S4:根据表情数据库将所述音素序列映射为口型混合变形权重,并根据每个音素的持续时长获取口型混合变形权重序列,利用卷积平滑对所述口型混合变形权重序列进行处理,得到平滑后的口型混合变形权重序列;
步骤S41:将所述音素序列中每个音素的持续时长与帧率相乘,并对结果进行取整,得到每个音素的持续帧数
Figure 820939DEST_PATH_IMAGE018
步骤S42:将所述音素序列中的每个音素p从所述表情数据库中映射得到对应的口型混合变形权重;
Figure 406641DEST_PATH_IMAGE019
其中,
Figure 39748DEST_PATH_IMAGE020
,为通道数n的口型混合变形权重。
步骤S43:根据每个音素的持续帧数
Figure 343690DEST_PATH_IMAGE021
,将每个音素对应的口型混合变形权重进行重复扩展对应帧数,得到大小为m×n的口型混合变形权重序列,其中
Figure 681130DEST_PATH_IMAGE022
,为预测的音素序列的帧数之和;
步骤S44:在时序上对所述口型混合变形权重序列进行卷积平滑处理,得到平滑后的口型混合变形权重序列;
所述卷积平滑处理为:通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。
卷积平滑处理通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算实现。本实施例中,当动画帧率为30fps时,使用的卷积核为k=[0.2,0.25,0.05,0,0.05,0.25,0.2]。
步骤S5:从所述表情数据库中获取所述情感属性对应的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列;
参见图3,具体包含开始、到达峰值和结束三个阶段,开始阶段为从中性表情到情感表情的过程,结束为从情感表情到中性表情的过程,通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列。
本实施例根据经验,将开始阶段和结束阶段的时长设为0.5s,也即,表情从中性到特定情感的变化过程和从特定情感到中性表情的过程分别持续了0.5s,采用了线性插值的方式,对S1所述的情感混合变形权重进行线性插值,生成获得变化过程中每一帧的情感混合变形权重。
步骤S6:将所述口型混合变形权重序列与所述情感混合变形权重序列进行融合,得到混合变形权重;
当所述情感混合变形权重序列中的嘴张开表情基混合变形权重为0时,则融合处理的方式为将所述口型混合变形权重序列与所述情感混合变形权重序列直接相加,并将大于1的值设置为1,得到混合变形权重;
反之,则融合处理的方式为以下公式:
Figure 419542DEST_PATH_IMAGE007
式中,
Figure 817025DEST_PATH_IMAGE008
为口型混合变形权重,
Figure 608263DEST_PATH_IMAGE009
将与嘴巴不相关的表情基的权重赋值为0,
Figure 749395DEST_PATH_IMAGE010
为情感混合变形权重,
Figure 716214DEST_PATH_IMAGE011
将与嘴巴相关的表情基的权重赋值为0,
Figure 51642DEST_PATH_IMAGE012
为融合后的混合变形权重。
步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画;
通过所述混合变形权重,对表情基进行线性加权,获得手语数字人每一帧的面部模型,生成手语表情动画。
与前述一种手语数字人的表情生成方法的实施例相对应,本发明还提供了一种手语数字人的表情生成装置的实施例。
参见图4,本发明实施例提供的一种手语数字人的表情生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种手语数字人的表情生成方法。
本发明一种手语数字人的表情生成装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种手语数字人的表情生成装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种手语数字人的表情生成方法,其特征在于,包括以下步骤:
步骤S1:构建手语数字人的面部混合变形,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重,并将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;
步骤S2:获取手语语句的词目序列和手语语句的情感属性;
步骤S3:将所述词目序列中的每个词目转换为音素序列,并利用音素时长预测器估计所述音素序列中每个音素的持续时长;
步骤S4:根据表情数据库将所述音素序列映射为口型混合变形权重,并根据每个音素的持续时长获取口型混合变形权重序列,利用卷积平滑对所述口型混合变形权重序列进行处理,得到平滑后的口型混合变形权重序列;
步骤S5:从所述表情数据库中获取所述情感属性对应的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列;
步骤S6:将所述口型混合变形权重序列与所述情感混合变形权重序列进行融合,得到混合变形权重;
步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画。
2.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S11:通过动画师手工建模或采集网格形变迁移算法自动生成手语数字人的面部混合变形;
步骤S12:通过设置混合变形权重控制面部形变,生成不同的口型和情感的人脸,获取口型对应的口型混合变形权重和情感对应的情感混合变形权重;
步骤S13:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库。
3.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S2中手语语句的情感属性通过文本情感分析技术获取。
4.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S3具体包括以下子步骤:
步骤S31:通过录制语音并记录文本,使用语音-文本对齐工具进行音素级语音文本对齐,获得语音文本中每个音素的持续时间作为训练数据;
步骤S32:利用所述训练数据训练深度神经网络,并将深度神经网络的输出值作为预测值,利用训练数据为真实值,计算与预测值在对数阈上的均方误差,直至总损失函数不再下降且所述均方误差低于预设阈值,停止训练,获得训练好的深度神经网络;
步骤S33:将所述词目序列中的每个词目转换为音素序列,所述训练好的深度神经网络作为音素时长预测器估计所述音素序列中每个音素的持续时长。
5.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S4具体包括以下子步骤:
步骤S41:将所述音素序列中每个音素的持续时长与帧率相乘,并对结果进行取整,得到每个音素的持续帧数;
步骤S42:将所述音素序列中的每个音素从所述表情数据库中映射得到对应的口型混合变形权重;
步骤S43:根据每个音素的持续帧数,将每个音素对应的口型混合变形权重进行重复扩展对应帧数,得到口型混合变形权重序列;
步骤S44:在时序上对所述口型混合变形权重序列进行卷积平滑处理,得到平滑后的口型混合变形权重序列。
6.如权利要求5所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S44所述卷积平滑处理为:通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。
7.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S5具体包含开始、到达峰值和结束三个阶段,开始阶段为从中性表情到情感表情的过程,结束为从情感表情到中性表情的过程,通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重,并将对应的情感混合变形权重在时间维度上进行序列化,生成情感混合变形权重序列。
8.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S6具体为:
当所述情感混合变形权重序列中的嘴张开表情基混合变形权重为0时,则融合处理的方式为将所述口型混合变形权重序列与所述情感混合变形权重序列直接相加,并将大于1的值设置为1,得到混合变形权重;
反之,则融合处理的方式为以下公式:
Figure 135403DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
为口型混合变形权重,
Figure 646019DEST_PATH_IMAGE004
将与嘴巴不相关的表情基的权重赋值为0,
Figure DEST_PATH_IMAGE005
为情感混合变形权重,
Figure 51854DEST_PATH_IMAGE006
将与嘴巴相关的表情基的权重赋值为0,
Figure DEST_PATH_IMAGE007
为融合后的混合变形权重。
9.如权利要求1所述的一种手语数字人的表情生成方法,其特征在于,所述步骤S7具体为:通过所述混合变形权重,对表情基进行线性加权,获得手语数字人每一帧的面部模型,生成手语表情动画。
10.一种手语数字人的表情生成装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-9中任一项所述的一种手语数字人的表情生成方法。
CN202211235204.4A 2022-10-10 2022-10-10 一种手语数字人的表情生成方法和装置 Active CN115311731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211235204.4A CN115311731B (zh) 2022-10-10 2022-10-10 一种手语数字人的表情生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211235204.4A CN115311731B (zh) 2022-10-10 2022-10-10 一种手语数字人的表情生成方法和装置

Publications (2)

Publication Number Publication Date
CN115311731A true CN115311731A (zh) 2022-11-08
CN115311731B CN115311731B (zh) 2023-01-31

Family

ID=83868198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211235204.4A Active CN115311731B (zh) 2022-10-10 2022-10-10 一种手语数字人的表情生成方法和装置

Country Status (1)

Country Link
CN (1) CN115311731B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037255A (zh) * 2023-08-22 2023-11-10 北京中科深智科技有限公司 基于有向图的3d表情合成方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732590A (zh) * 2015-03-09 2015-06-24 北京工业大学 一种手语动画的合成方法
CN109116981A (zh) * 2018-07-03 2019-01-01 北京理工大学 一种被动触觉反馈的混合现实交互系统
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
WO2020150688A1 (en) * 2019-01-18 2020-07-23 Snap Inc. Text and audio-based real-time face reenactment
CN112581569A (zh) * 2020-12-11 2021-03-30 中国科学院软件研究所 自适应情感表达的说话人面部动画生成方法及电子装置
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN113538636A (zh) * 2021-09-15 2021-10-22 中国传媒大学 一种虚拟对象的控制方法、装置、电子设备及介质
CN113538641A (zh) * 2021-07-14 2021-10-22 北京沃东天骏信息技术有限公司 动画生成方法及装置、存储介质、电子设备
CN113592985A (zh) * 2021-08-06 2021-11-02 宿迁硅基智能科技有限公司 混合变形值的输出方法及装置、存储介质、电子装置
CN113609255A (zh) * 2021-08-04 2021-11-05 元梦人文智能国际有限公司 一种面部动画的生成方法、系统及存储介质
CN113838169A (zh) * 2021-07-07 2021-12-24 西北工业大学 一种基于文本驱动的虚拟人微表情表达方法
CN113838174A (zh) * 2021-11-25 2021-12-24 之江实验室 一种音频驱动人脸动画生成方法、装置、设备与介质
CN114566189A (zh) * 2022-04-28 2022-05-31 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
US20220180584A1 (en) * 2020-12-09 2022-06-09 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for generating animation, electronic device, and computer readable medium
CN114842825A (zh) * 2022-04-20 2022-08-02 杭州倒映有声科技有限公司 情感迁移语音合成方法及系统
CN114898019A (zh) * 2022-02-08 2022-08-12 武汉路特斯汽车有限公司 一种动画融合方法和装置
CN114972592A (zh) * 2022-06-22 2022-08-30 成都潜在人工智能科技有限公司 歌唱嘴型与面部动画生成方法、装置及电子设备
CN115147521A (zh) * 2022-06-17 2022-10-04 北京中科视维文化科技有限公司 一种基于人工智能语义分析的角色表情动画的生成方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732590A (zh) * 2015-03-09 2015-06-24 北京工业大学 一种手语动画的合成方法
CN109116981A (zh) * 2018-07-03 2019-01-01 北京理工大学 一种被动触觉反馈的混合现实交互系统
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
WO2020150688A1 (en) * 2019-01-18 2020-07-23 Snap Inc. Text and audio-based real-time face reenactment
US20220180584A1 (en) * 2020-12-09 2022-06-09 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for generating animation, electronic device, and computer readable medium
CN112581569A (zh) * 2020-12-11 2021-03-30 中国科学院软件研究所 自适应情感表达的说话人面部动画生成方法及电子装置
CN113838169A (zh) * 2021-07-07 2021-12-24 西北工业大学 一种基于文本驱动的虚拟人微表情表达方法
CN113538641A (zh) * 2021-07-14 2021-10-22 北京沃东天骏信息技术有限公司 动画生成方法及装置、存储介质、电子设备
CN113609255A (zh) * 2021-08-04 2021-11-05 元梦人文智能国际有限公司 一种面部动画的生成方法、系统及存储介质
CN113592985A (zh) * 2021-08-06 2021-11-02 宿迁硅基智能科技有限公司 混合变形值的输出方法及装置、存储介质、电子装置
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN113538636A (zh) * 2021-09-15 2021-10-22 中国传媒大学 一种虚拟对象的控制方法、装置、电子设备及介质
CN113838174A (zh) * 2021-11-25 2021-12-24 之江实验室 一种音频驱动人脸动画生成方法、装置、设备与介质
CN114898019A (zh) * 2022-02-08 2022-08-12 武汉路特斯汽车有限公司 一种动画融合方法和装置
CN114842825A (zh) * 2022-04-20 2022-08-02 杭州倒映有声科技有限公司 情感迁移语音合成方法及系统
CN114566189A (zh) * 2022-04-28 2022-05-31 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
CN115147521A (zh) * 2022-06-17 2022-10-04 北京中科视维文化科技有限公司 一种基于人工智能语义分析的角色表情动画的生成方法
CN114972592A (zh) * 2022-06-22 2022-08-30 成都潜在人工智能科技有限公司 歌唱嘴型与面部动画生成方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JU HEE HAN ET AL: "Generate Individually Optimized Blendshapes", 《2021 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING (BIGCOMP)》 *
范鑫鑫: "语音驱动的口型动画同步算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037255A (zh) * 2023-08-22 2023-11-10 北京中科深智科技有限公司 基于有向图的3d表情合成方法

Also Published As

Publication number Publication date
CN115311731B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
Cao et al. Expressive speech-driven facial animation
Chiu et al. How to train your avatar: A data driven approach to gesture generation
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
CN113538641A (zh) 动画生成方法及装置、存储介质、电子设备
Waters et al. An automatic lip-synchronization algorithm for synthetic faces
CN112002301A (zh) 一种基于文本的自动化视频生成方法
Wang et al. Assembling an expressive facial animation system
Čereković et al. Multimodal behavior realization for embodied conversational agents
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
Tao et al. Emotional Chinese talking head system
CN115311731B (zh) 一种手语数字人的表情生成方法和装置
JP3755503B2 (ja) アニメーション制作システム
Kshirsagar et al. Multimodal animation system based on the MPEG-4 standard
Huang et al. Visual speech emotion conversion using deep learning for 3D talking head
Kim et al. 3D Lip‐Synch Generation with Data‐Faithful Machine Learning
Barve et al. Synchronized Speech and Video Synthesis
Yang et al. Emotional head motion predicting from prosodic and linguistic features
Yang et al. A multimodal approach of generating 3D human-like talking agent
Chu et al. CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation
Chen et al. Text to avatar in multimodal human computer interface
Morishima et al. Facial expression synthesis based on natural voice for virtual face-to-face communication with machine
Chae et al. Text-driven speech animation with emotion control
Wang et al. A real-time Cantonese text-to-audiovisual speech synthesizer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant