CN117152308A - 一种虚拟人动作表情优化方法与系统 - Google Patents

一种虚拟人动作表情优化方法与系统 Download PDF

Info

Publication number
CN117152308A
CN117152308A CN202311144759.2A CN202311144759A CN117152308A CN 117152308 A CN117152308 A CN 117152308A CN 202311144759 A CN202311144759 A CN 202311144759A CN 117152308 A CN117152308 A CN 117152308A
Authority
CN
China
Prior art keywords
specific
facial expression
feature
limb action
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311144759.2A
Other languages
English (en)
Other versions
CN117152308B (zh
Inventor
夏鲁阳
耿广悦
耿广星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Eight Point Eight Intelligent Technology Co ltd
Original Assignee
Nanjing 88 Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing 88 Digital Technology Co ltd filed Critical Nanjing 88 Digital Technology Co ltd
Priority to CN202311144759.2A priority Critical patent/CN117152308B/zh
Publication of CN117152308A publication Critical patent/CN117152308A/zh
Application granted granted Critical
Publication of CN117152308B publication Critical patent/CN117152308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种虚拟人动作表情优化方法与系统,所述方法包括:获取若干包含特定动作声音的真实用户视频数据并划分训练与测试数据;预先训练好多个特征提取模型;将训练数据输入多个特征提取模型,获得若干特定面部表情特征、特定肢体动作特征、特定声音特征;分别对特定面部表情特征、特定肢体动作特征、特定声音特征进行线性拟合获得特征拟合曲线;将测试数据输入多个特征提取模型,结合特征拟合曲线获得特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列;根据特定面部表情特征序列、特定肢体动作特征序列、特定音色特征序列生成特定面部表情、特定肢体动作、特定声音。本申请能够优化生成的虚拟人肢体动作、表情、声音。

Description

一种虚拟人动作表情优化方法与系统
技术领域
本申请涉及虚拟人交互技术领域,具体是涉及一种虚拟人动作表情优化方法与系统。
背景技术
虚拟人技术已在多个领域广泛应用,包括虚拟现实、人机交互、游戏等。虚拟人在动作和表情方面的逼真程度以及语言交流能力一直是虚拟人交互领域的重点。为了提升与虚拟人交互的用户体验,需要保证虚拟人交互过程中肢体动作、表情的逼真性与流畅性。同时,面对交互用户的多种交互声音的设定要求,需要提供可以自由切换不同声音音色、音调等方式以提升虚拟人情感表达。
针对现有虚拟人交互技术,一方面,生成的虚拟人动作声音并不能保证一定的流畅性和完整的情感表达;另一方面,虚拟人在交互过程中动作声音以及语音表达往往存在较为割裂的输出,影响用户的体验。
发明内容
为了解决生成的虚拟人的肢体动作、表情不够流畅以及动作、表情、声音较为割裂的问题,提供一种虚拟人动作表情优化方法与系统。
第一方面,本申请提供一种虚拟人动作表情优化方法,包括:
获取若干包含特定动作声音的真实用户的视频数据并进行预处理,将处理后数据划分为训练数据和测试数据;
预先训练好多个特征提取模型;所述多个特征提取模型包括面部表情特征提取模型、肢体动作特征提取模型以及声音特征提取模型;
将训练数据输入多个特征提取模型进行对应特征提取,获得若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征;
分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合,对应获得多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线;
将测试数据输入多个特征提取模型,结合多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线获得符合相应特征拟合曲线的多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列;
根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
通过采用上述技术方案,利用训练好的特征提取模块训练数据中的若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征,将同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合生成对应的特征拟合曲线,结合对应特征拟合曲线剔除测试数据中提取到的不准确的特征序列,从而使生成特定面部表情、特定肢体动作、特定声音更加的流畅、准确。
可选的,所述方法还包括:
根据获得的符合相应特征拟合曲线的多种特定面部表情序列、多种特定肢体动作序列、多种特定声音序列,随机选择一种特定面部表情特征序列、一种特定肢体动作特征序列、一种特定声音特征序列;分别计算选择的特定面部表情序列、选择的特定肢体动作序列、选择的特定声音序列与真实特征序列之间的相似度,对应获得第一相似度值、第二相似度值、第三相似度值;
分别将第一相似度、第二相似度、第三相似度与预设阈值进行大小比较,若大于预设阈值,则保留对应的特定面部表情序列、特定肢体动作序列、特定声音序列;若小于对应预设阈值,则采用优化器对对应特征提取模型的损失函数进行优化,使用具有优化后的特征提取模型对测试数据重新进行特征提取;
所述的真实特征序列为测试数据中真实用户的特定面部表情序列、特定肢体动作序列与特定声音序列;所述多个特征提取模型中每个特征提取模型均包含有损失函数。
通过采用上述技术方案,计算特定面部表情序列、特定肢体动作序列、特定声音序列与真实特征序列之间的相似度并与预设阈值进行比较,由此判定当前生成的动作是否满足动作流畅度的要求,生成的表情、声音是否准确传达了预期的情感。若未满足要求,则使用优化器优化特征提取模型中的损失函数,利用优化后的特征提取模型对测试数据重新进行特征提取,从而保证生成的特定面部表情序列、特定肢体动作序列、特定声音序列满足要求。
可选的,所述方法还包括:
将根据用户交互需求选择的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列进行数据关联,具体包括:按照用户交互需求自特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列中选择对应的特征序列进行时间同步或者空间对齐。
通过采用上述技术方案,将不同的特征序列进行时间同步或者空间同步,从而满足虚拟人在动作、表情以及声音的一致性要求。
可选的,所述按照用户交互需求具体为:获取用户语音或者文字指令,对用户语音或文字指令进行关键词识别;根据识别的关键词选择与关键词对应关联的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列。
通过采用上述技术方案,识别指令中的关键词并关联特定的特征序列,使得虚拟人可以根据用户指令生成对应的特征序列,做出对应的表情、动作或发出对应的声音。
可选的,所述方法还包括:
分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合前,先对属于同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行数据处理;具体数据处理包括:分别将同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征与对应预设特征范围进行比较,筛选并保留处于预设特征范围内的同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征。
通过采用上述技术方案,在进行特征拟合前,对于数据进行进一步的处理,保证拟合曲线拟合的准确性。
第二方面,本申请提供一种虚拟人动作表情优化系统,包括:
训练与测试数据获取模块,用于获取若干包含特定动作声音的真实用户的视频数据并进行预处理,将处理后数据划分为训练数据和测试数据;
特定特征获取模块:用于预先训练好多个特征提取模型,所述多个特征提取模型包括面部表情特征提取模型、肢体动作特征提取模型以及声音特征提取模型;将训练数据输入多个特征提取模型进行对应特征提取,获得若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征;
特征拟合曲线获取模块,用于分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合,对应获得多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线;
特定特征序列获取模块,用于将测试数据输入多个特征提取模型,结合多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线获得符合相应特征拟合曲线的多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列;
虚拟人动作声音生成模块,用于根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
第三方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的方法。
第四方面,本申请还提供一种计算机设备,存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如上述方法的步骤。
综上所述,本申请包括以下至少一种有益技术效果:
1、利用深度学习,通过预先训练好的特征提取模块对训练数据进行特征提取,基于提取的训练数据的特征进行特征曲线拟合,根据特征曲线拟合过滤掉测试数据中不符合特征曲线的特征序列,保证获得的特征序列的准确性,进而生成流畅度好、准确度高的动作声音;2、对所要生成的肢体动作、表情以及声音分别设置特征提取模型,并选取包含特定动作、特定表情以及特定声音的视频数据作为训练数据,从而直接获取特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列,满足与用户交互过程中虚拟人生成肢体动作、表情以及声音的多种要求。
附图说明
图1为具体实施例中所述一种虚拟人动作表情优化方法的流程图;
图2为具体实施例中所述一种虚拟人动作表情优化系统的结构示意图。
具体实施方式
下面结合附图对提供的一种虚拟人动作表情优化方法与系统作进一步的说明。
如图1所示,本申请实施例公开一种虚拟人动作表情优化方法,包括:
S1、获取若干包含特定动作声音的真实用户的视频数据并进行预处理,将处理后数据划分为训练数据和测试数据。
具体的,选取若干包含特定动作声音的真实用户的视频数据。所述特定动作声音具体包括三大类:属于肢体动作的:挥手、叉腰、下蹲、张开双臂、歪头、侧踢等;属于面部表情的:微笑、哭泣、大笑、皱眉、眨眼等;属于声音的:声调、音色、声速等。
对获取的真实用户的视频数据进行预处理。所述预处理包括抽帧、增强、去噪、平衡、标注分类等。按照6:4的比例对处理后的图像音频数据划分为训练数据集与测试数据集。本实施例中选取的单个视频仅包含一种特定面部表情或特定肢体动作或特定音色。
S2、预先训练好多个特征提取模型
构建多个深度学习模型;如采用卷积神经网络对面部表情、声音进行特征提取与识别,利用长短期记忆网络(LSTM)或变换器(Transformer)对肢体动作进行特征提取与姿态识别。
针对构建的多个深度学习模型进行模型训练,获得多个训练好的多个特征提取模型。多个特征提取模型包括面部表情特征提取模型、肢体动作特征提取模型以及声音特征提取模型。
S3、将训练数据输入多个特征提取模型进行对应特征提取,获得若干特定面部表情特征、特定肢体动作特征、特定声音特征。
由于训练数据本身是若干特定肢体动作、若干特定面部表情、若干特定声音等不同特定动作声音的数据,故采用多个特征提取模型对训练数据进行特征提取,最终获得若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征。
例如:根据面部表情特征提取模型提取到微笑表情特征X、哭泣表情特征Y等。根据肢体动作特征提取模型提取到挥手动作特征Z、下蹲动作特征E、歪头动作特征F。根据声音特征提取模型提取到音色特征H、音调特征G。
S4、分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合。
具体的,将同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行聚类。
如:微笑表情特征集{X1,X2,…Xn};挥手动作特征集{Z1,Z2,…Zn};音色特征集{H1,H2,…Hn}。
对获取的特定面部表情特征数据集、特定肢体动作特征数据集以及特定声音特征数据集进行数据处理;所述具体数据处理为:分别将同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征与对应预设特征范围进行比较,筛选并保留处于预设特征范围内的同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征。
如:本实施例中X为微笑表情系数,将{X1,X2,…Xn}中每一个特征数据与预设的特征范围(XA,XB)。若XA<X2<XB,则保留该特征X2
分别对数据处理后的同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合,获得多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线。
如:挥手动作特征集{Z1,Z2,…Zn}拟合的挥手动作特征拟合曲线:
其中,本实施例中Z为肘关节角度。具体的,挥手动作特征可为各骨骼关节的位置坐标、关节角度或者上述特征组合等。
S5、将测试数据输入多个特征提取模型,结合拟合曲线获得多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列。
具体的,将测试数据输入多个特征提取模型,提取到多种特定面部表情特征集、多种特定肢体动作特征集、多种特定声音特征集;例如:提取到挥手动作特征集、下蹲动作特征集、微笑表情特征集、大哭表情特征集等。
根据S4中获得的多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线对测试数据提取的特征集进行筛选,保留符合相应拟合曲线的特定面部表情特征、特定肢体动作特征、特定声音特征;最终获取筛选后的多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列。
如:剔除本实施例中将测试数据中不符合挥手动作特征拟合曲线的挥手动作特征,最终的挥手动作特征序列中每个特征均符合挥手动作特征拟合曲线,由此避免出现不正常的肘关节角度使得生成的挥手动作不流畅。
S6、计算第一相似度值、第二相似度值、第三相似度值,分别比较相似度是否大于预设阈值。
具体的,针对获得多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列,随机选择一种特定面部表情特征序列、一种特定肢体动作特征序列、一种特定声音特征序列;分别计算选择的特定面部表情特征序列、选择的特定肢体动作特征序列、选择的特定声音特征序列与真实特征序列之间的相似度,对应获得第一相似度值、第二相似度值、第三相似度值。其中,所述的真实特征序列为测试数据中真实用户的特定动作特征序列、声音特征序列。常见的相似度的计算采用欧式距离、汉明距离、余弦距离、余弦相似度。分别比较第一相似度D1、第二相似度D2、第三相似度D3与预设阈值D大小。若小于对应预设阈值,则转至S7;若大于预设阈值,则保留对应的特定面部表情、特定肢体动作、特定声音,转至S8。
如:D1>D,则保留对应的特定面部表情特征序列;D2>D,则保留对应的特定肢体动作特征序列;D3>D,则保留对应的特定声音特征序列。
S7、采用优化器对特征提取模型的损失函数进行优化。
采用优化器对对应特征提取模型的损失函数进行优化,使用具有优化后的特征提取模型对测试数据重新进行特征提取。具体的,多个特征提取模型均包含有损失函数。
如:D1<D,则采用优化器对面部表情特征提取模型的损失函数进行优化,利用优化后面部表情特征提取模型对测试数据重新进行特定面部表情特征提取,即重复S5至S6,最终获得相似度满足预设阈值的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列。
S8、虚拟人根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
虚拟人根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
如:用户下达挥手的指令,虚拟人获取该指令并选择挥手动作的特征序列,将获取挥手动作的特征序列映射至虚拟人,由此生成相应挥手动作。
此外,本申请实施例公开的虚拟人动作表情优化方法,还包括:
在生成特定面部表情、特定肢体动作、特定声音之前,将虚拟人根据用户交互需求选择的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列进行数据关联。同时,将特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列与特定的关键词进行关联。
具体的:按照用户交互需求自特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列中选择对应的特征序列进行时间同步或者空间对齐。其中,按照用户交互需求具体为:获取用户语音或者文字指令,对文字指令进行关键词识别;根据识别的关键词选择与关键词对应关联的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列。
如:用户通过文字指令下达:“小I,能否用派蒙的声音为我阅读游戏规则”或者“小I,要和你说再见了,对我挥挥手吧”;接受到指令后对该指令信息进行解析,获得关键词“派蒙的声音、阅读规则”;搜索与该关键词关联的特征序列,并同时将“派蒙的声音”关联的音色特征序列与“阅读规则”关联的嘴部动作特征序列进行时间同步;由此,最终虚拟人用“派蒙”的音色为用户阅读游戏规则的动作。
本申请实施例还公开一种虚拟人动作表情优化系统,包括:
训练与测试数据获取模块101,用于获取若干包含特定动作声音的真实用户的视频数据并进行预处理,将处理后数据划分为训练数据和测试数据;
特定特征获取模块102:用于预先训练好多个特征提取模型,所述多个特征提取模型包括面部表情特征提取模型、肢体动作特征提取模型以及声音特征提取模型;将训练数据输入多个特征提取模型进行对应特征提取,获得若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征;
特征拟合曲线获取模块103,用于分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合,对应获得多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线;
特定特征序列获取模块104,用于将测试数据输入多个特征提取模型,结合多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线获得符合相应特征拟合曲线的多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列;
虚拟人动作声音生成模块105,用于根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
使用上述虚拟人动作表情优化系统,可获得虚拟人生成动作流畅且动作声音不割裂的表达,提高了用户与虚拟人交互的体验。
本申请实施例还公开一种计算机设备。
具体来说,该计算机设备包括存储器和处理器,存储器上存储有能够被处理器加载并执行上述用于虚拟人的动作表情优化的计算机程序。
本申请实施例还公开一种计算机可读存储介质。
具体来说,该计算机可读存储介质,其存储有能够被处理器加载并执行如上述用于虚拟人的动作表情优化的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (8)

1.一种虚拟人动作表情优化方法,其特征在于,包括:
获取若干包含特定动作声音的真实用户的视频数据并进行预处理,将处理后数据划分为训练数据和测试数据;
预先训练好多个特征提取模型;所述多个特征提取模型包括面部表情特征提取模型、肢体动作特征提取模型以及声音特征提取模型;
将训练数据输入多个特征提取模型进行对应特征提取,获得若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征;
分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合,对应获得多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线;
将测试数据输入多个特征提取模型,结合多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线获得符合相应特征拟合曲线的多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列;
根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
2.根据权利要求1所述的虚拟人动作表情优化方法,其特征在于, 还包括:
根据获得的符合相应特征拟合曲线的多种特定面部表情序列、多种特定肢体动作序列、多种特定声音序列,随机选择一种特定面部表情特征序列、一种特定肢体动作特征序列、一种特定声音特征序列;分别计算选择的特定面部表情序列、选择的特定肢体动作序列、选择的特定声音序列与真实特征序列之间的相似度,对应获得第一相似度值、第二相似度值、第三相似度值;
分别将第一相似度、第二相似度、第三相似度与预设阈值进行大小比较,若大于预设阈值,则保留对应的特定面部表情序列、特定肢体动作序列、特定声音序列;若小于对应预设阈值,则采用优化器对对应特征提取模型的损失函数进行优化,使用具有优化后的特征提取模型对测试数据重新进行特征提取;
所述的真实特征序列为测试数据中真实用户的特定面部表情序列、特定肢体动作序列与特定声音序列;所述多个特征提取模型中每个特征提取模型均包含有损失函数。
3.根据权利要求1所述的虚拟人动作表情优化方法,其特征在于,还包括:
将根据用户交互需求选择的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列进行数据关联,具体包括:按照用户交互需求自特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列中选择相应的特征序列进行时间同步或者空间对齐。
4.根据权利要求3所述的虚拟人动作表情优化方法,其特征在于,所述按照用户交互需求具体为:获取用户语音或者文字指令,对用户语音或文字指令进行关键词识别;根据识别的关键词选择与关键词对应关联的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列。
5.根据权利要求1所述的虚拟人动作表情优化方法,其特征在于,还包括:
分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合前,先对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行数据处理;
具体数据处理包括:分别将同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征与对应预设特征范围进行比较,筛选并保留处于预设特征范围内的同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征。
6.一种虚拟人动作表情优化系统,其特征在于,包括:
训练与测试数据获取模块,用于获取若干包含特定动作声音的真实用户的视频数据并进行预处理,将处理后数据划分为训练数据和测试数据;
特定特征获取模块:用于预先训练好多个特征提取模型,所述多个特征提取模型包括面部表情特征提取模型、肢体动作特征提取模型以及声音特征提取模型;将训练数据输入多个特征提取模型进行对应特征提取,获得若干特定面部表情特征、若干特定肢体动作特征、若干特定声音特征;
特征拟合曲线获取模块,用于分别对同种特定面部表情特征、同种特定肢体动作特征、同种特定声音特征进行线性拟合,对应获得多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线;
特定特征序列获取模块,用于将测试数据输入多个特征提取模型,结合多种特定面部表情特征拟合曲线、多种特定肢体动作特征拟合曲线、多种特定声音特征拟合曲线获得符合相应特征拟合曲线的多种特定面部表情特征序列、多种特定肢体动作特征序列、多种特定声音特征序列;
虚拟人动作声音生成模块,用于根据用户交互需求选择相应的特定面部表情特征序列、特定肢体动作特征序列、特定声音特征序列生成特定面部表情、特定肢体动作、特定声音。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的方法。
8.一种计算机设备,其特征在于,存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。
CN202311144759.2A 2023-09-05 2023-09-05 一种虚拟人动作表情优化方法与系统 Active CN117152308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311144759.2A CN117152308B (zh) 2023-09-05 2023-09-05 一种虚拟人动作表情优化方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311144759.2A CN117152308B (zh) 2023-09-05 2023-09-05 一种虚拟人动作表情优化方法与系统

Publications (2)

Publication Number Publication Date
CN117152308A true CN117152308A (zh) 2023-12-01
CN117152308B CN117152308B (zh) 2024-03-22

Family

ID=88886592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311144759.2A Active CN117152308B (zh) 2023-09-05 2023-09-05 一种虚拟人动作表情优化方法与系统

Country Status (1)

Country Link
CN (1) CN117152308B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809002A (zh) * 2024-02-29 2024-04-02 成都理工大学 一种基于人脸表情识别与动作捕捉的虚拟现实同步方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN107765852A (zh) * 2017-10-11 2018-03-06 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN107968961A (zh) * 2017-12-05 2018-04-27 吕庆祥 基于情感曲线剪辑视频的方法及装置
CN111832512A (zh) * 2020-07-21 2020-10-27 虎博网络技术(上海)有限公司 表情检测方法和装置
US20210209851A1 (en) * 2019-05-15 2021-07-08 Beijing Sensetime Technology Development Co., Ltd. Face model creation
CN113689880A (zh) * 2020-05-18 2021-11-23 北京搜狗科技发展有限公司 实时驱动虚拟人的方法、装置、电子设备及介质
CN114170585A (zh) * 2021-11-16 2022-03-11 广西中科曙光云计算有限公司 危险驾驶行为的识别方法、装置、电子设备及存储介质
CN115994713A (zh) * 2023-03-22 2023-04-21 中国人民解放军火箭军工程大学 一种基于多源数据的操作训练效果评估方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN107765852A (zh) * 2017-10-11 2018-03-06 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN107968961A (zh) * 2017-12-05 2018-04-27 吕庆祥 基于情感曲线剪辑视频的方法及装置
US20210209851A1 (en) * 2019-05-15 2021-07-08 Beijing Sensetime Technology Development Co., Ltd. Face model creation
CN113689880A (zh) * 2020-05-18 2021-11-23 北京搜狗科技发展有限公司 实时驱动虚拟人的方法、装置、电子设备及介质
CN111832512A (zh) * 2020-07-21 2020-10-27 虎博网络技术(上海)有限公司 表情检测方法和装置
CN114170585A (zh) * 2021-11-16 2022-03-11 广西中科曙光云计算有限公司 危险驾驶行为的识别方法、装置、电子设备及存储介质
CN115994713A (zh) * 2023-03-22 2023-04-21 中国人民解放军火箭军工程大学 一种基于多源数据的操作训练效果评估方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809002A (zh) * 2024-02-29 2024-04-02 成都理工大学 一种基于人脸表情识别与动作捕捉的虚拟现实同步方法
CN117809002B (zh) * 2024-02-29 2024-05-14 成都理工大学 一种基于人脸表情识别与动作捕捉的虚拟现实同步方法

Also Published As

Publication number Publication date
CN117152308B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN110457994B (zh) 人脸图像生成方法及装置、存储介质、计算机设备
Cao et al. Expressive speech-driven facial animation
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
US20220172710A1 (en) Interactive systems and methods
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN113380271B (zh) 情绪识别方法、系统、设备及介质
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN115356953B (zh) 虚拟机器人决策方法、系统和电子设备
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN116704085B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN113923521B (zh) 一种视频的脚本化方法
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
CN117216234A (zh) 基于人工智能的话术改写方法、装置、设备及存储介质
US11521594B2 (en) Automated pipeline selection for synthesis of audio assets
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
CN112580669A (zh) 一种对语音信息的训练方法及装置
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN111462762A (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN115690276A (zh) 虚拟形象的视频生成方法、装置、计算机设备和存储介质
CN115171673A (zh) 一种基于角色画像的交流辅助方法、装置及存储介质
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240129

Address after: L3645, 3rd Floor, Chuangye Building, No. 1009 Tianyuan East Road, Nanjing, Jiangsu Province, 211100 (Jiangning High tech Zone)

Applicant after: Jiangsu Eight Point Eight Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: Building 4, 2nd Floor, No. 18 Jialing Jiangdong Street, Jianye District, Nanjing City, Jiangsu Province, 210019

Applicant before: Nanjing 8.8 Digital Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant