CN114998977B

CN114998977B - 一种虚拟直播形象训练系统及方法

Info

Publication number: CN114998977B
Application number: CN202210895681.7A
Authority: CN
Inventors: 王丽玲
Original assignee: Guangdong Xuanrun Digital Information Technology Co ltd
Current assignee: Guangdong Xuanrun Digital Information Technology Co ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-21
Anticipated expiration: 2042-07-28
Also published as: CN114998977A

Abstract

本发明公开了一种虚拟直播形象训练系统及方法，涉及网络直播技术领域，包括：特征采集模块，特征采集模块用于提取目标脸部特征点以及目标声音信息；模型匹配模块，模型匹配模块用于根据脸部特征点与虚拟直播形象脸部控制点进行特征点以及音色匹配；模型训练模块，模型训练模块用于构建目标与虚拟形象之间的控制映射逻辑；交互模块，交互模块用于进行虚拟形象控制。本发明的优点在于：通过模型训练模块对真人目标进行标准训练表情的脸部特征点采集，并对虚拟直播形象进行对应表情调节，根据调节数据进行目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，使虚拟直播形象的面部表情可以根据真人目标的脸部表情进行更加准确的变化。

Description

一种虚拟直播形象训练系统及方法

技术领域

本发明涉及网络直播技术领域，具体是涉及一种虚拟直播形象训练系统及方法。

背景技术

虚拟主播是以原创的虚拟人格设定、形象在视频网站、社交平台上进行活动。形象多以MMD或Unity的3D模型或Live2D制作的2D模型出现，并以真人控制的一种新兴的直播形式。

现有的用于虚拟直播形象的控制为光学动作捕捉系统捕捉真人动作和表情，将动作数据同步到虚拟角色上，然而由于虚拟直播形象与真人之间面部五官之间比例通常存在着较大差异，因此直接捕捉真人的面部表情进行虚拟直播形象表情映射往往会存在表情失真，进而导致虚拟直播形象难以表现出最佳的直播效果，基与此，本发明提出一种虚拟直播形象训练系统及方法。

发明内容

为解决上述技术问题，提供一种虚拟直播形象训练系统及方法，本技术方案解决了上述的由于虚拟直播形象与真人之间面部五官之间比例通常存在着较大差异，因此直接捕捉真人的面部表情进行虚拟直播形象表情映射往往会存在表情失真，进而导致虚拟直播形象难以表现出最佳的直播效果的问题。

为达到以上目的，本发明采用的技术方案为：

一种虚拟直播形象训练系统，包括：

特征采集模块，所述特征采集模块用于响应输入，获取目标图像视频，并根据目标图像视频提取目标脸部特征点以及目标声音信息；

模型匹配模块，所述模型匹配模块用于根据特征采集模块提取的脸部特征点与虚拟直播形象脸部控制点进行匹配，同时根据目标声音信息匹配虚拟形象音色获取音色匹配调整数据；

模型训练模块，所述模型训练模块用于根据目标表情风格特征对虚拟直播形象进行训练，构建目标与虚拟形象之间的控制映射逻辑；

交互模块，所述交互模块用于采集目标的表情特征以及姿态特征，并根据模型训练模块构建的控制映射逻辑进行虚拟形象控制；

其中，所述模型训练模块包括：

特征点映射单元，所述特征点映射单元用于构建目标脸部特征点与虚拟直播形象的面部控制点之间的初始映射逻辑，并进行映射逻辑的更新；

训练反馈单元，所述训练反馈单元用于进行收集训练过程中的虚拟形象的调节数据；

映射重建单元，所述映射重建单元用于根据训练反馈单元收集到的虚拟形象的调节数据进行对应目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，并将调整后的映射逻辑反馈至特征点映射单元进行更新；

所述交互模块包括：

表情采集单元，所述表情采集单元用于采集直播时目标的面部特征点的位移变化，并通过映射逻辑控制虚拟直播形象的面部控制点进行对应的位移变化，使虚拟直播形象表情随目标的面部表情进行变化；

语音采集单元，所述语音采集单元用于采集直播时目标的语音数据，并通过目标音色匹配数据进行转化为直播音色；

遮挡匹配单元，所述遮挡匹配单元用于当目标的脸部特征点出现部分被遮挡时通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制。

优选的，所述特征采集模块包括：

图像采集单元，所述图像采集单元用于接收用户输入的目标图像视频，所述目标图像视频为实时采集图像视频或预先拍摄的图像视频；

特征点提取单元，所述特征点提取单元用于对目标图像视频进行分隔抽帧，获取若干包含目标真实面部的图像，并对目标真实面部进行分隔识别，获取目标的脸部特征点；

声音采集单元，所述声音采集单元用于从目标图像视频中抽取目标语音音频，并对目标语音音频进行音色分析，获取目标音色数据。

优选的，所述脸部特征点包括眼部边缘特征点、上唇边缘特征点、下唇边缘特征点、眉部边缘特征点和脸颊网格化特征点

优选的，所述模型匹配模块包括：

模型获取单元，所述模型获取单元用于获取虚拟直播形象，并对所述虚拟直播形象进行面部控制点提取；

特征点匹配单元，所述特征点匹配单元用于将目标脸部特征点与虚拟直播形象的面部控制点进行对应拟合；

音色匹配单元，所述音色匹配单元用于将目标音色数据与虚拟直播形象的直播音色进行拟合，获取目标音色匹配数据。

进一步的，提出一种虚拟直播形象训练方法，适用于上述的虚拟直播形象训练系统，其特征在于：包括如下步骤：

特征点采集，通过直接输入或者实时采集获取目标图像视频，并对目标图像视频进行进行分隔抽帧，获取若干包含目标真实面部的图像，对所述目标真实面部进行分隔识别，获取目标脸部特征点；

声音采集，从目标图像视频中抽取目标语音音频，并对目标语音音频进行音色分析，获取目标音色数据；

模型获取，获取虚拟直播形象模型，同时对所述虚拟直播形象进行面部控制点提取；

控制匹配，将提取的目标脸部特征点与面部控制点进行对应拟合；

音色匹配，将目标音色数据与虚拟直播形象的直播音色进行拟合，获取目标音色匹配数据；

初始映射逻辑构建，构建目标脸部特征点与虚拟直播形象的面部控制点之间的初始映射逻辑；

控制训练，通过表情采集单元采集目标做出的标准训练表情，并通过映射逻辑生成虚拟直播形象的面部表情，并对虚拟直播形象的面部表情进行调整，使其更加贴合目标脸部表情，同时更新目标脸部特征点与虚拟直播形象的面部控制点之间的映射逻辑；

直播，通过交互模块采集目标的脸部表情和语音，并根据目标脸部特征点与虚拟直播形象的面部控制点之间最终映射逻辑和目标音色匹配数据控制虚拟直播形象进行直播。

可选的，所述目标脸部特征点包括若干个脸部控制点和若干个脸部随动点，所述脸部控制点至少与两个所述脸部随动点存在联动关系，所述脸部控制点与虚拟直播形象的面部控制点之间一一对应。

可选的，所述直播过程中，若目标的面部特征点出现部分被遮挡时，则通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制。

可选的，所述目标的面部特征点出现部分被遮挡时，通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制的具体步骤包括：

判断被遮挡的脸部特征点是否为脸部控制点，若为是，则通过与脸部控制点存在联动关系的脸部随动点的位移变化，进行被遮挡的所述脸部控制点的位置拟合，并通过拟合的脸部控制点的位置进行控制虚拟直播形象进行直播，若为否，则通过脸部控制点继续控制虚拟直播形象进行直播。

与现有技术相比，本发明的有益效果在于：

本发明通过对真人目标进行标准训练表情的脸部特征点采集，并对虚拟直播形象进行对应表情调节，根据调节数据进行目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，使虚拟直播形象的面部表情可以根据真人目标的脸部表情进行更加准确的表情变化，有效的保证了虚拟直播形象进行直播时的直播效果；

本发明通过对真人目标的脸部增加脸部随动点进而实现当真人目标脸部被部分遮挡时的脸部控制点位置拟合，进而保证了在直播过程中虚拟直播形象的稳定性。

附图说明

图1为本发明提出的训练系统的模块图；

图2为本发明的目标脸部特征点分布示意图；

图3为本发明的训练方法流程图；

图4为本发明中的真人目标脸部遮挡时的特征点拟合图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

参照图1所示，一种虚拟直播形象训练系统，包括：

特征采集模块，特征采集模块用于响应输入，获取目标图像视频，并根据目标图像视频提取目标脸部特征点以及目标声音信息，特征采集模块包括：

图像采集单元，图像采集单元用于接收用户输入的目标图像视频，目标图像视频为实时采集图像视频或预先拍摄的图像视频；

特征点提取单元，特征点提取单元用于对目标图像视频进行分隔抽帧，获取若干包含目标真实面部的图像，并对目标真实面部进行分隔识别，获取目标的脸部特征点；

声音采集单元，声音采集单元用于从目标图像视频中抽取目标语音音频，并对目标语音音频进行音色分析，获取目标音色数据。

模型匹配模块，模型匹配模块用于根据特征采集模块提取的脸部特征点与虚拟直播形象脸部控制点进行匹配，同时根据目标声音信息匹配虚拟形象音色获取音色匹配调整数据，模型匹配模块包括：

模型获取单元，模型获取单元用于获取虚拟直播形象，并对虚拟直播形象进行面部控制点提取；

特征点匹配单元，特征点匹配单元用于将目标脸部特征点与虚拟直播形象的面部控制点进行对应拟合；

音色匹配单元，音色匹配单元用于将目标音色数据与虚拟直播形象的直播音色进行拟合，获取目标音色匹配数据。

模型训练模块，模型训练模块用于根据目标表情风格特征对虚拟直播形象进行训练，构建目标与虚拟形象之间的控制映射逻辑，模型训练模块包括：

特征点映射单元，特征点映射单元用于构建目标脸部特征点与虚拟直播形象的面部控制点之间的初始映射逻辑，并进行映射逻辑的更新；

训练反馈单元，训练反馈单元用于进行收集训练过程中的虚拟形象的调节数据；

映射重建单元，映射重建单元用于根据训练反馈单元收集到的虚拟形象的调节数据进行对应目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，并将调整后的映射逻辑反馈至特征点映射单元进行更新。

交互模块，交互模块用于采集目标的表情特征以及姿态特征，并根据模型训练模块构建的控制映射逻辑进行虚拟形象控制，交互模块包括：

表情采集单元，表情采集单元用于采集直播时目标的面部特征点的位移变化，并通过映射逻辑控制虚拟直播形象的面部控制点进行对应的位移变化，使虚拟直播形象表情随目标的面部表情进行变化；

语音采集单元，语音采集单元用于采集直播时目标的语音数据，并通过目标音色匹配数据进行转化为直播音色；

遮挡匹配单元，遮挡匹配单元用于当目标的脸部特征点出现部分被遮挡时通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制。

本发明通过模型训练模块对真人目标进行标准训练表情的脸部特征点采集，并对虚拟直播形象进行对应表情调节，根据调节数据进行目标脸部特征点与虚拟直播形象的面部控制点的映射逻辑调整，使虚拟直播形象的面部表情可以根据真人目标的脸部表情进行更加准确的变化。

脸部特征点包括眼部边缘特征点、上唇边缘特征点、下唇边缘特征点、眉部边缘特征点和脸颊网格化特征点，虚拟直播形象的表情特征变化主要通过眼、眉以及口的变化进行展示，通过采集真人目标的眼部边缘特征点、上唇边缘特征点、下唇边缘特征点和眉部边缘特征点可实现对虚拟直播形象表情的对应控制。

进一步的，提出一种虚拟直播形象训练方法，适用于如权利要求1-6任一项的虚拟直播形象训练系统，其特征在于：包括如下步骤：

特征点采集，通过直接输入或者实时采集获取目标图像视频，并对目标图像视频进行进行分隔抽帧，获取若干包含目标真实面部的图像，对目标真实面部进行分隔识别，获取目标脸部特征点；

模型获取，获取虚拟直播形象模型，同时对虚拟直播形象进行面部控制点提取，目标脸部特征点包括若干个脸部控制点和若干个脸部随动点，脸部控制点至少与两个脸部随动点存在联动关系，脸部控制点与虚拟直播形象的面部控制点之间一一对应；

控制训练，通过表情采集单元采集目标做出的标准训练表情，并通过映射逻辑生成虚拟直播形象的面部表情，并对虚拟直播形象的面部表情进行调整，使其更加贴合目标脸部表情，同时更新目标脸部特征点与虚拟直播形象的面部控制点之间的映射逻辑，标准训练表情包括微笑、张嘴、闭左眼、闭右眼、闭双眼、半闭双眼等，通过对这些标准训练表情下的真人目标面部特征点采集，并调整虚拟虚拟直播形象做出对应表情，可根据真人目标五官比例与虚拟直播形象五官比例进行更加精准的脸部特征点与面部控制点之间的映射逻辑构建，实现虚拟直播形象的精准化控制；

直播，通过交互模块采集目标的脸部表情和语音，并根据目标脸部特征点与虚拟直播形象的面部控制点之间最终映射逻辑和目标音色匹配数据控制虚拟直播形象进行直播，若目标的面部特征点出现部分被遮挡时若为是，则通过与脸部控制点存在联动关系的脸部随动点的位移变化，进行被遮挡的所述脸部控制点的位置拟合，并通过拟合的脸部控制点的位置进行控制虚拟直播形象进行直播，若为否，则通过脸部控制点继续控制虚拟直播形象进行直播。

本方案中，通过增加对真人目标的脸部随动点特征捕捉，在目标的面部特征点出现部分被遮挡时，通过未被遮挡的联动点进行拟合预测脸部控制点的位置，能够在真人目标脸部出现遮挡时对其面部表情进行预测，进而保证了在进行直播时虚拟直播形象可以稳定的保持与真人目标的表情一致，极大的提高了直播时的稳定性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种虚拟直播形象训练系统，其特征在于，包括：

模型匹配模块，所述模型匹配模块用于根据特征采集模块提取的脸部特征点与虚拟直播形象脸部控制点进行匹配，同时根据目标声音信息匹配虚拟形象音色并获取音色匹配调整数据；

其中，所述模型训练模块包括：

所述交互模块包括：

2.根据权利要求1所述一种虚拟直播形象训练系统，其特征在于，所述特征采集模块包括：

3.根据权利要求2所述一种虚拟直播形象训练系统，其特征在于，所述脸部特征点包括眼部边缘特征点、上唇边缘特征点、下唇边缘特征点、眉部边缘特征点和脸颊网格化特征点。

4.根据权利要求1所述一种虚拟直播形象训练系统，其特征在于，所述模型匹配模块包括：

5.一种虚拟直播形象训练方法，适用于如权利要求1-4任一项所述的虚拟直播形象训练系统，其特征在于，包括如下步骤：

特征点采集，通过直接输入或者实时采集获取目标图像视频，并对目标图像视频进行分隔抽帧，获取若干包含目标真实面部的图像，对所述目标真实面部进行分隔识别，获取目标脸部特征点；

直播，通过交互模块采集目标的脸部表情和语音，并根据目标脸部特征点与虚拟直播形象的面部控制点之间的映射逻辑和目标音色匹配数据控制虚拟直播形象进行直播。

6.根据权利要求5所述一种虚拟直播形象训练方法，其特征在于，所述目标脸部特征点包括若干个脸部控制点和若干个脸部随动点，所述脸部控制点至少与两个所述脸部随动点存在联动关系，所述脸部控制点与虚拟直播形象的面部控制点之间一一对应。

7.根据权利要求6所述一种虚拟直播形象训练方法，其特征在于，所述直播过程中，若目标的面部特征点出现部分被遮挡时，通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制。

8.根据权利要求7所述一种虚拟直播形象训练方法，其特征在于：所述目标的面部特征点出现部分被遮挡时，则通过其余特征点的位移变化，进行预测拟合被遮挡部分的特征点位移变化，对虚拟直播形象进行拟合控制的具体步骤包括：