CN111986297A

CN111986297A - 基于语音控制的虚拟角色面部表情实时驱动系统和方法

Info

Publication number: CN111986297A
Application number: CN202010797609.1A
Authority: CN
Inventors: 周安斌; 汤祯科; 宋健健; 尚绪峰
Original assignee: Shandong Jindong Digital Creative Co ltd
Current assignee: Shandong Jindong Digital Creative Co ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-24

Abstract

基于语音控制的虚拟角色面部表情实时驱动系统和方法，涉及图像处理技术领域，包括：图像采集模块、运动分析模块、虚拟角色驱动模块、语音融合模块和交互模块，图像采集模块采集模特的图像信息，得到视频数据，运动分析模块对视频数据进行分析得到关键点数据，虚拟角色驱动模块将关键点数据与虚拟角色数据进行映射和录制得到动作同步数据，通过语音融合模块输入语音标签并与同步数据融合得到同步虚拟表情数据，交互模块通过采集用户发出的声音并与同步虚拟表情数据进行分析比对将对应的同步虚拟表情数据输出，解决了目前的虚拟技术进行互动时虚拟人物的表情表现得不自然，不能通过语音来与虚拟人物来进行交互，用户体验感不好的问题。

Description

基于语音控制的虚拟角色面部表情实时驱动系统和方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于语音控制的虚拟角色面部表情实时驱动系统和方法。

背景技术

随着互联网技术和多媒体技术的发展，人们对于电子产品的依赖性也越来越强，目前出现了很多例如豢养虚拟宠物或与虚拟人物互动的应用，通过与虚拟宠物或与虚拟人物进行互动能得到一些语音或动作方面的反馈，但是由于目前的虚拟技术大多是通过三维建模后进行后期处理得到的，在进行互动时虚拟人物的表情表现得不自然，用户进行互动时体验感不好，同时，目前的交互方式多为通过预设的人机交互界面来进行交互，不能通过语音来与虚拟人物来进行交互，减少了互动时体验的乐趣。

发明内容

本发明实施例提供了基于语音控制的虚拟角色面部表情实时驱动系统和方法，通过设置图像采集模块采集模特的图像信息，得到视频数据，同时运动分析模块对采集的视频数据进行分析提取视频数据中的关键点并对关键点进行标记，得到关键点数据，虚拟角色驱动模块将关键点数据与虚拟角色数据进行映射并进行动作录制，得到动作同步数据，用户通过语音融合模块输入语音标签并与同步数据融合得到同步虚拟表情数据并进行存储，交互模块通过采集用户发出的声音并与同步虚拟表情数据进行分析比对将对应的同步虚拟表情数据输出，解决了目前的虚拟技术大多是通过三维建模后进行后期处理得到的，在进行互动时虚拟人物的表情表现得不自然，用户进行互动时体验感不好，同时，目前的交互方式多为通过预设的人机交互界面来进行交互，不能通过语音来与虚拟人物来进行交互，减少了互动体验乐趣的问题。

基于语音控制的虚拟角色面部表情实时驱动系统，包括：图像采集模块、运动分析模块、虚拟角色驱动模块、语音融合模块和交互模块；

图像采集模块，用于采集模特的视频数据，将采集到的视频数据发送到所述运动分析模块；

其中，图像采集模块包括采集器和预处理单元，所述采集器用于采集模特的视频数据，将采集得到的视频数据发送到所述预处理单元，所述预处理单元用于对视频数据处理为预设的标准格式，将处理完成的视频数据发送到所述运动分析模块；

运动分析模块，用于接收所述图像采集模块发送的视频数据，对视频数据进行分析得到视频数据中关键点数据，将关键点数据发送到所述虚拟角色驱动模块；

其中，所述运动分析模块包括关键点检测单元和关键点标记单元，所述关键点检测单元用于检测视频数据，得到视频数据中的关键点，将关键点发送到所述关键点标记单元，所述关键点标记单元用于对关键点进行标记，得到关键点数据，将关键点数据发送到所述虚拟角色驱动模块；

虚拟角色驱动模块，用于接收所述运动分析模块发送的关键点数据，对关键点数据进行处理得到动作同步数据，将动作同步数据发送到所述语音融合模块；

其中，所述虚拟角色驱动模块包括虚拟角色数据库、映射单元、动作录制单元和数据输出单元，所述虚拟角色数据库用于存储虚拟角色数据，所述映射单元用于将关键点数据与虚拟角色数据进行映射，得到映射数据，将映射数据发送到动作录制单元，所述动作录制单元用于接收所述映射单元发送的映射数据，并根据映射数据录制动作同步数据，将动作同步数据发送到所述数据输出单元，所述数据输出单元用于将动作同步数据发送到语音融合模块；

语音融合模块，用于接收所述虚拟角色驱动模块发送的动作同步数据，将用户的语音标签与动作同步数据融合得到同步虚拟表情数据，将同步虚拟表情数据进行存储；

其中，所述语音融合模块包括数据输入单元、语音标签输入单元、语音标签融合单元和动作存储单元，所述数据输入单元用于接收所述虚拟角色驱动模块发送的动作同步数据，所述语音标签输入单元用于用户输入语音标签，所述语音标签融合单元用于将动作同步数据与语音标签进行映射得到同步虚拟表情数据，所述动作存储单元用于存储同步虚拟表情数据；

交互模块，用于采集用户的语音信息并进行分析的得到语音数据，还用于访问所述语音融合模块中保存的同步虚拟表情数据，调取对应的同步虚拟表情数据并输出；

其中，所述交互模块包括语音采集单元、语音分析单元、对比单元、调取单元、输出单元和显示单元，所述语音采集单元用于采集用户发出的声音，得到声音数据，将声音数据发送到所述语音分析单元，所述语音分析单元对声音数据进行分析处理得到声音数据的特征，发送到所述对比单元，所述对比单元用于访问所述语音融合模块中保存的同步虚拟表情数据与所述语音分析单元进行分析处理得到声音数据的特征进行比对，得到比对结果，将比对结果发送到调取单元，调取单元访问所述语音融合模块中保存的同步虚拟表情数据，输出单元将同步虚拟表情数据输出到所述显示单元，所述显示单元用于显示同步虚拟表情数据。

进一步的，所述语音标签输入的语音标签包括语音标签的声音波形特征。

进一步的，预设的标准格式为MP4格式，分辨率为1920*1080，码率为1200kbps。

进一步的，语音分析单元对声音数据进行分析处理得到声音数据的特征为声音数据的声音波形特征。

第二方面，本发明实施例提供基于语音控制的虚拟角色面部表情实时驱动方法，包括以下步骤：

S1，图像信息采集及分析，采集器采集模特的视频数据，将采集得到的视频数据发送到预处理单元，预处理单元对视频数据处理为预设的标准格式，将处理完成的视频数据发送到关键点检测单元，关键点检测单元检测视频数据，得到视频数据中的关键点，将关键点发送到关键点标记单元，关键点标记单元对关键点进行标记，得到关键点数据，将关键点数据发送到映射单元；

S2，虚拟角色映射，虚拟角色数据库存储虚拟角色数据，映射单元将关键点数据与虚拟角色数据进行映射，得到映射数据，将映射数据发送到动作录制单元，动作录制单元接收映射单元发送的映射数据，并根据映射数据录制动作同步数据，将动作同步数据发送到数据输出单元，数据输出单元将动作同步数据发送到数据输入单元；

S3，语音融合，数据输入单元接收数据输出单元发送的同步数据，用户通过语音标签输入单元输入语音标签，语音标签融合单元将同步数据与语音标签进行映射得到同步虚拟表情数据，动作存储单元存储同步虚拟表情数据；

S4，交互，语音采集单元采集用户发出的声音，得到声音数据，将声音数据发送到语音分析单元，语音分析单元对声音数据进行分析处理得到声音数据的特征，发送到对比单元，对比单元访问动作存储单元中保存的同步虚拟表情数据与语音分析单元进行分析处理得到声音数据的特征进行比对，得到比对结果，将比对结果发送到调取单元，调取单元访问动作存储单元中保存的同步虚拟表情数据，输出单元将同步虚拟表情数据输出到显示单元，显示单元显示同步虚拟表情数据。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明通过通过设置图像采集模块采集模特的图像信息，得到视频数据，同时运动分析模块对采集的视频数据进行分析提取视频数据中的关键点并对关键点进行标记，得到关键点数据，虚拟角色驱动模块将关键点数据与虚拟角色数据进行映射并进行动作录制，得到动作同步数据，用户通过语音融合模块输入语音标签并与同步数据融合得到同步虚拟表情数据并进行存储，交互模块通过采集用户发出的声音并与同步虚拟表情数据进行分析比对将对应的同步虚拟表情数据输出，解决了目前的虚拟技术大多是通过三维建模后进行后期处理得到的，在进行互动时虚拟人物的表情表现得不自然，用户进行互动时体验感不好，同时，目前的交互方式多为通过预设的人机交互界面来进行交互，不能通过语音来与虚拟人物来进行交互，减少了互动体验乐趣的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例公开的基于语音控制的虚拟角色面部表情实时驱动系统结构示意图；

图2为本发明实施例公开的基于语音控制的虚拟角色面部表情实时驱动方法流程图。

附图标记：

100-图像采集模块；101-采集器；102-预处理单元；200-运动分析模块；201-关键点检测单元；202-关键点标记单元；300-虚拟角色驱动模块；301-虚拟角色数据库；302-映射单元；303-动作录制单元；304-数据输出单元；400-语音融合模块；401-数据输入单元；402-语音标签输入单元；403-语音标签融合单元；404-动作存储单元；500-交互模块；501-语音采集单元；502-语音分析单元；503-对比单元；504-调取单元；505-输出单元；506-显示单元。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

如图1所示，本发明实施例提供基于语音控制的虚拟角色面部表情实时驱动系统，包括：图像采集模块100、运动分析模块200、虚拟角色驱动模块300、语音融合模块400和交互模块500；

图像采集模块100，用于采集模特的视频数据，将采集到的视频数据发送到所述运动分析模块200，图像采集模块100包括采集器101和预处理单元102，所述采集器101用于采集模特的视频数据，将采集得到的视频数据发送到所述预处理单元102，所述预处理单元102用于对视频数据处理为预设的标准格式，预设的标准格式为MP4格式，分辨率为1920*1080，码率为1200kbps，将处理完成的视频数据发送到所述运动分析模块200；

具体的，采集器101采集模特一个表情的视频数据，将采集到的数据发送到预处理单元102根据预设的格式对采集的视频数据进行预处理，将视频数据处理为MP4格式，分辨率为1920*1080，码率为1200kbps，将处理完成的视频数据发送到所述运动分析模块200。

运动分析模块200，用于接收所述图像采集模块100发送的视频数据，对视频数据进行分析得到视频数据中关键点数据，将关键点数据发送到所述虚拟角色驱动模块300，所述运动分析模块200包括关键点检测单元201和关键点标记单元202，所述关键点检测单元201用于检测视频数据，得到视频数据中的关键点，将关键点发送到所述关键点标记单元202，所述关键点标记单元202用于对关键点进行标记，得到关键点数据，将关键点数据发送到所述虚拟角色驱动模块300；

具体的，关键点检测单元201对接收的视频数据进分析提取，获取模特头部区域的关键点，例如，标准格式的视频数据中提取到模特头部眉毛区域关键点集合、提取眼睛区域的关键点集合，提取鼻子部分关键点集合，提取嘴巴部分关键点集合，提取脸部肌肉关键点集合，关键点标记单元202将眉毛区域关键点集合、眼睛区域的关键点集合，鼻子部分关键点集合，嘴巴部分关键点集合，脸部肌肉关键点集合分别进行标记，例如将嘴巴部分关键点分别标记为1a、1b、1c、1d和1e，将标记完成得到的关键点数据发送到所述虚拟角色驱动模块300。

虚拟角色驱动模块300，用于接收所述运动分析模块200发送的关键点数据，对关键点数据进行处理得到动作同步数据，将动作同步数据发送到所述语音融合模块400，所述虚拟角色驱动模块300包括虚拟角色数据库301、映射单元302、动作录制单元303和数据输出单元304，所述虚拟角色数据库301用于存储虚拟角色数据，所述映射单元302用于将关键点数据与虚拟角色数据进行映射，得到映射数据，将映射数据发送到动作录制单元303，所述动作录制单元303用于接收所述映射单元302发送的映射数据，并根据映射数据录制动作同步数据，将动作同步数据发送到所述数据输出单元304，所述数据输出单元304用于将动作同步数据发送到语音融合模块400；

具体的，虚拟角色数据库301存储有各种虚拟角色数据，其中虚拟角色数据的头部设置有五官以及脸部肌肉的关键点数据，映射单元302将虚拟角色数据头部设置的关键点数据与关键点标记单元202发送的关键点数据进行映射，得到映射数据，动作录制单元303通过映射数据驱动虚拟角色数据得到与模特相同的表情，并进行录制得到动作同步数据，数据输出单元304将动作同步数据发送到语音融合模块400。

语音融合模块400，用于接收所述虚拟角色驱动模块300发送的动作同步数据，将用户的语音标签与动作同步数据融合得到同步虚拟表情数据，将同步虚拟表情数据进行存储，所述语音融合模块400包括数据输入单元401、语音标签输入单元402、语音标签融合单元403和动作存储单元404，所述数据输入单元401用于接收所述虚拟角色驱动模块300发送的动作同步数据，所述语音标签输入单元402用于用户输入语音标签，所述语音标签输入的语音标签包括语音标签的声音波形特征，所述语音标签融合单元403用于将动作同步数据与语音标签进行映射得到同步虚拟表情数据，所述动作存储单元404用于存储同步虚拟表情数据；

具体的，数据输入单元401接收所述数据输出单元304发送的动作同步数据，用户通过语音标签输入单元402输入语音标签，语音标签融合单元403将动作同步数据与语音标签进行映射得到同步虚拟表情数据，例如，输入的标签为“你好”，将语音标签“你好”与动作同步数据中微笑的动作进行映射，得到同步虚拟表情数据，动作存储单元404存储同步虚拟表情数据。

交互模块500，用于采集用户的语音信息并进行分析的得到语音数据，还用于访问所述语音融合模块400中保存的同步虚拟表情数据，调取对应的同步虚拟表情数据并输出，所述交互模块500包括语音采集单元501、语音分析单元502、对比单元503、调取单元504、输出单元505和显示单元506，所述语音采集单元501用于采集用户发出的声音，得到声音数据，将声音数据发送到所述语音分析单元502，所述语音分析单元502对声音数据进行分析处理得到声音数据的特征，语音分析单元502对声音数据进行分析处理得到声音数据的特征为声音数据的声音波形特征，发送到所述对比单元503，所述对比单元503用于访问所述语音融合模块400中保存的同步虚拟表情数据与所述语音分析单元502进行分析处理得到声音数据的特征进行比对，得到比对结果，将比对结果发送到调取单元504，调取单元504访问所述语音融合模块400中保存的同步虚拟表情数据，输出单元505将同步虚拟表情数据输出到所述显示单元506，所述显示单元506用于显示同步虚拟表情数据；

具体的，语音采集单元501采集用户发出的声音，将采集的声音发送到语音分析单元502进行分析，例如，用户发出的声音为“你好”，语音分析单元502对用户发出的声音进行分析，得到“你好”声音数据的声音波形特征，将声音数据的声音波形特征与动作存储单元404存储同步虚拟表情数据的语音标签的声音波形特征进行比对，在波形一致时确定为同一关键词，将比对结果输出到调取单元504，调取单元504根据比对结果读取动作存储单元404中存储的对应的同步虚拟表情数据，通过输出单元505发送到显示单元506进行显示。

本发明通过设置图像采集模块100采集模特的图像信息，得到视频数据，同时运动分析模块200对采集的视频数据进行分析提取视频数据中的关键点并对关键点进行标记，得到关键点数据，虚拟角色驱动模块300将关键点数据与虚拟角色数据进行映射并进行动作录制，得到动作同步数据，用户通过语音融合模块400输入语音标签并与同步数据融合得到同步虚拟表情数据并进行存储，交互模块500通过采集用户发出的声音并与同步虚拟表情数据进行分析比对将对应的同步虚拟表情数据输出，解决了目前的虚拟技术大多是通过三维建模后进行后期处理得到的，在进行互动时虚拟人物的表情表现得不自然，用户进行互动时体验感不好，同时，目前的交互方式多为通过预设的人机交互界面来进行交互，不能通过语音来与虚拟人物来进行交互，减少了互动体验乐趣的问题。

实施例二

本发明实施例还公开了基于语音控制的虚拟角色面部表情实时驱动方法，如图2，包括以下步骤：

S1，图像信息采集及分析，采集器101采集模特的视频数据，将采集得到的视频数据发送到预处理单元102，预处理单元102对视频数据处理为预设的标准格式，将处理完成的视频数据发送到关键点检测单元201，关键点检测单元201检测视频数据，得到视频数据中的关键点，将关键点发送到关键点标记单元202，关键点标记单元202对关键点进行标记，得到关键点数据，将关键点数据发送到映射单元302；

具体的，采集器101采集模特一个表情的视频数据，将采集到的数据发送到预处理单元102根据预设的格式对采集的视频数据进行预处理，将视频数据处理为预设的标准格式，将处理完成的视频数据发送到关键点检测单元201，关键点检测单元201对接收的视频数据进分析提取，获取模特头部区域的关键点，例如，标准格式的视频数据中提取到模特头部眉毛区域关键点集合、提取眼睛区域的关键点集合，提取鼻子部分关键点集合，提取嘴巴部分关键点集合，提取脸部肌肉关键点集合，关键点标记单元202将眉毛区域关键点集合、眼睛区域的关键点集合，鼻子部分关键点集合，嘴巴部分关键点集合，脸部肌肉关键点集合分别进行标记，例如将嘴巴部分关键点分别标记为1a、1b、1c、1d和1e，将标记完成得到的关键点数据发送到所述虚拟角色驱动模块300。

S2，虚拟角色映射，虚拟角色数据库301存储虚拟角色数据，映射单元302将关键点数据与虚拟角色数据进行映射，得到映射数据，将映射数据发送到动作录制单元303，动作录制单元303接收映射单元302发送的映射数据，并根据映射数据录制动作同步数据，将动作同步数据发送到数据输出单元304，数据输出单元304将动作同步数据发送到数据输入单元401；

S3，语音融合，数据输入单元401接收数据输出单元304发送的同步数据，用户通过语音标签输入单元402输入语音标签，语音标签融合单元403将同步数据与语音标签进行映射得到同步虚拟表情数据，动作存储单元404存储同步虚拟表情数据；

S4，交互，语音采集单元501采集用户发出的声音，得到声音数据，将声音数据发送到语音分析单元502，语音分析单元502对声音数据进行分析处理得到声音数据的特征，发送到对比单元503，对比单元503访问动作存储单元404中保存的同步虚拟表情数据与语音分析单元502进行分析处理得到声音数据的特征进行比对，得到比对结果，将比对结果发送到调取单元504，调取单元504访问动作存储单元404中保存的同步虚拟表情数据，输出单元505将同步虚拟表情数据输出到显示单元506，显示单元506显示同步虚拟表情数据。

本实施例公开的基于语音控制的虚拟角色面部表情实时驱动方法，通过设置图像采集模块100采集模特的图像信息，得到视频数据，同时运动分析模块200对采集的视频数据进行分析提取视频数据中的关键点并对关键点进行标记，得到关键点数据，虚拟角色驱动模块300将关键点数据与虚拟角色数据进行映射并进行动作录制，得到动作同步数据，用户通过语音融合模块400输入语音标签并与同步数据融合得到同步虚拟表情数据并进行存储，交互模块500通过采集用户发出的声音并与同步虚拟表情数据进行分析比对将对应的同步虚拟表情数据输出，解决了目前的虚拟技术大多是通过三维建模后进行后期处理得到的，在进行互动时虚拟人物的表情表现得不自然，用户进行互动时体验感不好，同时，目前的交互方式多为通过预设的人机交互界面来进行交互，不能通过语音来与虚拟人物来进行交互，减少了互动体验乐趣的问题。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.基于语音控制的虚拟角色面部表情实时驱动系统，其特征在于，包括：图像采集模块、运动分析模块、虚拟角色驱动模块、语音融合模块和交互模块；

2.如权利要求1所述的基于语音控制的虚拟角色面部表情实时驱动系统，其特征在于，所述语音标签输入的语音标签包括语音标签的声音波形特征。

3.如权利要求1所述的基于语音控制的虚拟角色面部表情实时驱动系统，其特征在于，预设的标准格式为MP4格式，分辨率为1920*1080，码率为1200kbps。

4.如权利要求1所述的基于语音控制的虚拟角色面部表情实时驱动系统，其特征在于，语音分析单元对声音数据进行分析处理得到声音数据的特征为声音数据的声音波形特征。

5.基于语音控制的虚拟角色面部表情实时驱动方法，应用于如权利要求1-4任一项所述的基于语音控制的虚拟角色面部表情实时驱动系统，其特征在于，包括以下步骤：