CN111045582B

CN111045582B - 一种个性化虚拟人像活化互动系统及方法

Info

Publication number: CN111045582B
Application number: CN201911193278.4A
Authority: CN
Inventors: 黄元忠; 卢庆华; 宋卫
Original assignee: Shenzhen Muyu Technology Co ltd
Current assignee: Shenzhen Muyu Technology Co ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-05-23
Anticipated expiration: 2039-11-28
Also published as: CN111045582A

Abstract

本发明实施例公开了一种个性化虚拟人像活化互动系统及方法，包括：虚拟人像建模模块，用于根据用户选择或上传的照片构建出该照片中所含的人物的虚拟人像模型；识别模块，用于对用户当前的语音和面部表情进行识别，并提取出用户当前的语音信息和头面部状态信息；语音合成模块，根据所述用户当前的语音信息和头面部状态信息，合成出虚拟人像用于应答互动的语音；智能活化模块，基于所述用于应答用户的语音驱动所述虚拟人像构建模块构建的虚拟人像模型对用户进行应答互动。由上，本申请可应用于智能化交互中，有利于丰富智能交互体验。

Description

一种个性化虚拟人像活化互动系统及方法

技术领域

本发明实施例涉及人机交互，互动系统领域，特别涉及一种个性化虚拟人像活化互动系统及方法。

背景技术

目前，传统的人机交互系统一般是，以智能语音为主要交互方式的系统设计，交互过程中用户通过语音方式向计算机传达指令或提出问题，计算机也用语音以及多媒体图像显示的方式反馈用户。现有技术的缺点是，用户不能改变设计好的交互方式，很少能够通过选择想听的声音，来更换计算机的声音，更缺少真实的交流感，往往用户面对的是一个机器人外形或者显示器。因此，会有用户在交互媒介和交互方式上希望追求更佳个性化、更佳拟人化的交互体验。

因此，目前亟需一种个性化虚拟人像活化互动系统及方法，满足人机交互过程中用户对于个性化、拟人化的强烈需求，以改善大众用户对于人机交互的刻板影响，促进人机交互系统得到更广泛的使用。

发明内容

有鉴于此，本申请提供一种个性化虚拟人像活化互动系统及方法，以使得用户可以根据自己的需要选择或自定义构虚拟模特，从而改善人机交互的套路式交互流程，丰富交互方式，从而提高用户对于人机交互过程中的体验。

本申请提供一种个性化虚拟人像活化互动系统，包括：

虚拟人像自动建模模块，用于根据用户选择或上传的照片构建出该照片中所含的人物的虚拟人像模型；

识别模块，用于对用户当前的语音和面部表情进行识别，并提取出用户当前的语音信息和头面部状态信息；

语音合成模块，用于根据所述用户当前的语音信息和头面部状态信息，合成出虚拟人像用于应答互动的语音；

智能活化模块，用于合成基于所述虚拟人像模型的视频影像，并驱动所述视频影像中的虚拟人像模型表达所述语音合成模块合成的所述用于应答用户的语音，以对用户进行应答互动。

由上，可以根据用户自己选择创建虚拟人物形象，进一步的提供与用户地互动，从而可以提升交互过程中的用户体验，丰富交互方式的种类，推动人机交互技术的应用。

优选地，所述系统，还包括：可视化交互模块，其用于：提供用于上传或选择照片的选项，以及提供用于为虚拟人像选择声音模型的选项。

由上，可以为虚拟人像选择声音模型，有利于满足用户的不同的多样化地需求。

优选地，声音模型合成模块，用于通过人工智能技术建模以生成不同类型的声音模型。

由上，声音模型合成模块提前预生成不同类型的声音模型，有利于提供给用户选择，有利于满足用户的不同的多样化地需求。

优选地，所述声音模型的声音素材来自真实授课教师的讲话或者网络素材；

其中，不同类型的声音模型包含由不同的语音、语调和语气构成的完整语句。

优选地，所述虚拟人像自动建模模块对照片中的人物进行三维人脸轮廓和纹理重建，将照片中人脸面部信息转化为三维模型；并保留照片中人脸的面部细节信息和纹理颜色信息；

其中，所构建的虚拟人像模型保留的照片中人脸面部信息中的特征，至少包括以下其一：

额头，眼睛，鼻子，嘴巴，下巴，脸颊，胡须，眉毛，睫毛，眼球颜色，唇色，眼影，肤色以及面部局部皱纹。

优选地，所述智能活化模块用于驱动虚拟人像模型完成的应答互动，至少包括以下其一：根据语音内容按照发音口型说话、点头、摇头、头部自然晃动、眨眼、皱眉、面部肌肉自然变化。

所述虚拟人像模型的表情变化，至少包括以下其一：微笑，高兴，悲伤，忧郁，生气。

由上，智能活化模块可驱动虚拟人像模型完成的多种应答互动包括但不限于上述的举例。

优选地，所述智能活化模块驱动所述虚拟人像模型可同时完成两个或2个以上的非冲突动作。

本申请还提供一种个性化虚拟人像活化互动方法，基于上述的系统，包括：

A、根据用户选择或上传的照片构建出该照片所含的人物的虚拟人像模型；

B、对用户当前的语音识别和面部表情进行识别，并提取出用户当前的语音信息和头面部状态信息；

C、根据所述用户当前的语音信息和头面部状态信息，合成出虚拟人物用于应答互动的语音；

D、基于所述用于应答用户的语音驱动虚拟人像模型对用户进行应答互动。

优选地，所述步骤A还包括：

A、根据用户选择的声音模型将其应用于所述虚拟人像模型。

综上所述，本申请提供一种个性化虚拟人像活化互动系统及方法，以使得用户可以根据自己的个性化需求定制虚拟人物模型以及选择声音，从而改善人机交互的套路式交互流程，丰富交互方式，从而提高用户对于人机交互过程中的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的提供的一种个性化虚拟人像活化互动系统的结构示意图；

图2为本发明实施例的提供的一种个性化虚拟人像活化互动方法的流程示意图.

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的区间。

实施例一

本申请提供一种个性化虚拟人像活化互动系统，包括：

可视化交互模块101，其用于：提供用于上传或选择照片的选项，以及提供用于为虚拟人像选择声音模型的选项，用户可以选择其中的一个作为之后与之交互的虚拟人像。其中，所述照片为单张真人照片或者可为多人照片；其中，当所述照片为多人照片时，需确定虚拟建模人像为照片中的具体人物。用户也可以自己上传人物照片。同时，用户可以从若干声音样本中选择自己喜欢的声音模型，该声音为之后虚拟交互过程中的声音。其中，本申请还包括：声音模型合成模块106，用于通过人工智能技术建模预先提前生成不同类型的声音模型。其中，所述声音模型的声音素材来自真实授课教师的讲话或者网络素材；其中，不同类型的声音模型包含由不同的语音、语调和语气构成的完整语句。

虚拟人像自动建模模块102，该模块将用户选择或上传的人物照片进行三维构建，最大化的保留照片中的轮廓信息和纹理颜色。该建模方案使用的是即时建模技术，所需时间在3秒内，速度快，精度高。其中，所构建的虚拟人像模型保留的照片中人脸面部信息中特征，至少包括以下其一：额头，眼睛，鼻子，嘴巴，下巴，脸颊，胡须，眉毛，睫毛，眼球颜色，唇色，眼影，肤色以及面部局部皱纹。

识别模块103，用于交互过程中用户的语音识别和面部表情识别，提取用户语音信息和面部状态信息；捕捉用户的语音和面部特征。其中，用户语料信息识别主要通过语义识别技术完成，用户表情识别主要通过计算机视觉技术完成。

语音合成模块104，根据识别模块103采集到的用户当前状态和语音内容，合成出应答的语音。该技术主要采用智能语音问答系统中的相关技术，用于回答交互过程中用户的问题，实时合成，实时播放。

智能活化模块105，合成出可动的基于虚拟人像三维模型的视频影像，并能说出合成的语音，同步发音口型。在交互过程中，合成的虚拟人像于用户互动交流，回答用户的问题，同时可以自然的头部摆动，以及做出不同的表情。其中，所述智能活化模块用于驱动虚拟人像模型完成的应答互动，至少包括以下其一：根据语音内容按照发音口型说话、点头、摇头、头部自然晃动、眨眼、皱眉、面部肌肉自然变化。

其中，智能活化模块对虚拟人物模型地头部姿态的驱动控制由欧拉角参数{α_yaw,β_pitch,γ_roll}三维坐标偏向角度控制，则目标头部姿态旋转矩阵为：

对于人像模型L_mk(x,y,z)中任意一点P(x,y,z),P(x,y,z)∈L_mk(x,y,z),其新位置为：

其中，dx,dy,dz为三维平移方向向量，R(α,β,γ)表示目标头部姿态在三维空间坐标下的旋转矩阵。

其中，所述虚拟人像模型的表情变化，至少包括以下其一：微笑，高兴，悲伤，忧郁，生气。表情切换过度算法设计如下：

其中，E_v(x,y,z)是目标表情的特征点，v代表具体的表情类别，μ为系数，D_v表示当前脸部轮廓和目标表情的相关系数，e表示自然对数，具体为：

其中，S_v表示相关表情设计面部特征点的数量。

其中，本申请还包括：声音模型合成模块106，用于通过人工智能技术建模预先提前生成不同类型的声音模型。其中，所述声音模型的声音素材来自真实授课教师的讲话或者网络素材；其中，不同类型的声音模型包含由不同的语音、语调和语气构成的完整语句。

实施二

基于实施例一中的系统，本申请还提供一种个性化虚拟人像活化互动方法，包括步骤：

S201，根据用户选择或上传的照片构建出该照片所含的人物的虚拟人像模型。

S202，对用户当前的语音识别和面部表情进行识别，并提取出用户当前的语音信息和头面部状态信息；其中，用户语料信息识别主要通过语义识别技术完成，用户表情识别主要通过计算机视觉技术完成。

S203，根据所述用户当前的语音信息和头面部状态信息，合成出虚拟人物用于应答互动的语音；

S204，合成基于所述虚拟人像模型的视频影像，并驱动所述视频影像中的虚拟人像模型表达所述语音合成模块合成的所述用于应答用户的语音，以对用户进行应答互动。

其中，所述S101还包括：根据用户选择的声音模型将其应用于所述虚拟人像模型。

其中，所述智能活化模块用于驱动虚拟人像模型完成的应答互动，至少包括以下其一：根据语音内容按照发音口型说话、点头、摇头、头部自然晃动、眨眼、皱眉、面部肌肉自然变化。

其中，dx,dy,dz为三维平移方向向量。

其中，E_v(x,y,z)是目标表情的特征点，v代表具体的表情类别，μ为系数，D_v表示当前脸部轮廓和目标表情的相关系数，具体为：

其中，S_v表示相关表情设计面部特征点的数量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个性化虚拟人像活化互动系统，其特征在于，包括：

智能活化模块，用于合成基于所述虚拟人像模型的视频影像，并驱动所述视频影像中的虚拟人像模型表达所述语音合成模块合成的所述用于应答用户的语音，以对用户进行应答互动；

所述智能活化模块用于驱动虚拟人像模型完成的应答互动，至少包括以下其一：根据语音内容按照发音口型说话、点头、摇头、头部自然晃动、眨眼、皱眉、面部肌肉自然变化；

其中，所述虚拟人像模型的表情变化，至少包括以下其一：微笑，高兴，悲伤，忧郁，生气；

所述智能活化模块对虚拟人物模型地头部姿态的驱动控制由欧拉角参数{α_yaw,β_pitch,γ_roll}三维坐标偏向角度控制，则目标头部姿态旋转矩阵为：

对于人像模型Lmk(x,y,z)中任意一点P(x,y,z),P(x,y,z)∈Lmk(x,y,z),其新位置为：

其中，dx,dy,dz为三维平移方向向量，R(α,β,γ)表示目标头部姿态在三维空间坐标下的旋转矩阵；

其中，所述虚拟人像模型的表情变化，至少包括以下其一：微笑，高兴，悲伤，忧郁，生气；表情切换过度算法设计如下：

其中，S_v表示相关表情设计面部特征点的数量。

2.根据权利要求1所述的系统，其特征在于，还包括：可视化交互模块，其用于：提供用于上传或选择照片的选项，以及提供用于为虚拟人像选择声音模型的选项。

3.根据权利要求2所述的系统，其特征在于，还包括：

声音模型合成模块，用于通过人工智能技术建模以生成不同类型的声音模型。

4.根据权利要求3所述的系统，其特征在于，所述声音模型的声音素材来自真实授课教师的讲话或者网络素材；

5.根据权利要求1所述的系统，其特征在于，所述照片为单张真人照片或者可为多人照片；其中，当所述照片为多人照片时，需确定虚拟建模人像为照片中的具体人物。

6.根据权利要求1所述的系统，其特征在于，所述虚拟人像自动建模模块对照片中的人物进行三维人脸轮廓和纹理重建，将照片中人脸面部信息转化为三维模型；并保留照片中人脸的面部细节信息和纹理颜色信息；

其中，所构建的虚拟人像模型保留的照片中人脸面部信息中特征，至少包括以下其一：

7.根据权利要求1所述的系统，其特征在于，所述智能活化模块驱动所述虚拟人像模型可同时完成两个或2个以上的非冲突动作。

8.一种个性化虚拟人像活化互动方法，基于权利要求1-7任一项所述的系统，其特征在于，包括：

D、基于所述用于应答用户的语音驱动虚拟人像模型对用户进行应答互动；

其中，所述驱动虚拟人像模型对用户进行应答互动，至少包括以下其一：根据语音内容按照发音口型说话、点头、摇头、头部自然晃动、眨眼、皱眉、面部肌肉自然变化；

其中，S_v表示相关表情设计面部特征点的数量。

9.根据权利要求8所述的方法，其特征在于，所述步骤A还包括：

A、根据用户选择的声音模型将其应用于所述虚拟人像模型。