CN117079501A

CN117079501A - 虚拟人自调节教学云平台、系统、方法及相关设备

Info

Publication number: CN117079501A
Application number: CN202310983655.4A
Authority: CN
Inventors: 晏姗姗; 吴燕静; 孙正林
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-17

Abstract

本发明涉及人工智能教学技术领域，提供一种虚拟人自调节教学云平台、系统、方法及相关设备，教学云平台包括：初始方案授课模块，用于获取第一版本的虚拟人讲课视频片段序列发送至学生端按序播放；学习情况分析模块，用于根据学生的回答情况获取已授讲课视频片段的知识掌握度等级，以及分析学生听课的表情动作特征获取听课注意力等级；语音语义情绪处理模块，用于获得符合情绪信息的虚拟人语音风格；教学方案调整模块，用于获取新版本的虚拟人讲课视频片段序列并通过虚拟人动画生成模块融入虚拟人语音风格，替换原虚拟人讲课视频片段序列并在学生端接续播放。本发明可使虚拟人在授课中实现教学方案及时有效地自调节能力以提高教学效果。

Description

虚拟人自调节教学云平台、系统、方法及相关设备

技术领域

本发明涉及人工智能教学技术领域，具体涉及一种虚拟人自调节教学云平台、系统、方法及相关设备。

背景技术

虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等，以下简称为虚拟人。目前，虚拟人技术已经开始在智能教育领域作为虚拟老师出现，用来满足广大学生对高质量教育资源的需求。

目前，虚拟人多应用于新闻播报等互动性不强、内容固定的场景。在教育场景下，对虚拟人互动能力和实时调节能力的要求却很高，故现有技术存在以下问题有待解决或提升：

(1)在虚拟人教学课程生成方面：现有技术一般通过预制视频的录播课、实时驱动的直播课两种方式实现虚拟人教学课程。录播课无法随时与学生互动且无法根据学生学习情况及时调整教学方案，而直播课往往因虚拟人表情动作驱动实时性的局限，导致直播流时有卡顿出现。

(2)在虚拟人讲课内容、形象风格调整方面：首先，教学过程中当学生对课程内容掌握度不高时，现有技术未提出虚拟人对课程内容讲解详细度自动调节的方法，以及时加强学生对课程知识的理解；其次，现有技术一般由用户自行选择虚拟人形象、语言风格，或仅根据听课专注度来调整虚拟人的表情动作。而非在教学中根据学生学习情况对虚拟人的表情动作、语言风格进行自动调节。

(3)在虚拟人自调节教学系统设计方面：现有技术设计的教学系统并未在教学过程中实时关注学生的注意力、知识掌握度、情绪状态等综合的学习情况，并据此对虚拟人的讲课内容、表情动作、语言风格、情绪状态、互动活动进行多维度的自动调节，以改善学生的听课状态以及学习效果。

发明内容

本发明提供一种虚拟人自调节教学云平台、系统、方法及相关设备，以解决现有的虚拟人教育场景下互动能力和实时调节能力不强的问题，使得虚拟人在授课中实现对教学方案及时有效地自调节能力，改善学生学习状态，提高对知识的掌握程度。

第一方面，本发明提供一种虚拟人自调节教学云平台，包括：

初始方案授课模块，用于从大纲课程库获取第一版本的虚拟人讲课视频片段序列发送至学生端进行按序播放；

学习情况分析模块，用于根据学生的回答情况获取已授讲课视频片段的知识掌握度等级，以及分析学生听课的表情动作特征获取听课注意力等级；

语音语义情绪处理模块，用于根据学生在互动环境下回答的语音信息，识别所述语音信息所携带的情绪信息，获得符合所述情绪信息的虚拟人语音风格；

教学方案调整模块，用于根据所述知识掌握度等级，从所述大纲课程库中选择第二版本的虚拟人讲课视频片段序列，所述第二版本的虚拟人讲课视频片段序列与所述第一版本的虚拟人讲课视频片段序列的讲解详细度不同，以及，

将所述虚拟人语音风格和所述第二版本的虚拟人讲课视频片段序列输入虚拟人动画生成模块生成虚拟人讲课动画视频，替换所述第一版本的虚拟人讲课视频片段序列在所述学生端接续播放，并在授课环节中根据所述听课注意力等级确定是否暂停授课并穿插娱乐互动活动。

根据本发明提供的一种虚拟人自调节教学云平台，还包括：虚拟人课程内容生成模块，具体包括：

课程切片单元，用于将每门课程按照切片颗粒度进行切片，获得多个讲课片段，所述切片颗粒度根据所述课程的教学大纲进行设置；

多版本生成单元，用于将多个所述讲课片段根据不同程度的讲解详细度，生成多个不同版本的讲课片段；

音视频融合单元，用于将所述讲课片段输入所述语音语义情绪处理模块，合成虚拟老师语音，并将所述虚拟老师语音输入所述虚拟人动画生成模块，生成音视频融合的虚拟人讲课视频片段；

结构化入库单元，用于将相同版本的多个所述虚拟人讲课视频片段按照所述切片颗粒度以集合方式进行排序，生成虚拟人讲课视频片段序列，作为所述课程的教学视频存入所述大纲课程库。

根据本发明提供的一种虚拟人自调节教学云平台，所述语音语义情绪处理模块包括：语音问答交互子模块，具体包括：

问题提出单元，用于根据已授讲课视频片段从知识点问答库中提取问题并以语音形式发送至所述学生端；

语音识别单元，用于根据学生回答的语音信息，得到回答文本；

语义理解结果获取单元，用于将所述回答文本输入预训练好的自然语言处理模块模型，得到语义理解结果；

反馈文本获取单元，用于根据所述语义理解结果从所述知识点问答库中选取对应的虚拟人反馈文本；

虚拟人反馈语音生成单元，用于将所述虚拟人反馈文本与相对应的语音风格进行合成，生成虚拟人反馈语音。

根据本发明提供的一种虚拟人自调节教学云平台，所述语音语义情绪处理模块还包括：情绪识别反馈子模块，具体包括：

声学情绪标签获取单元，用于对所述语音信息中的情绪特征值进行提取，得到声学情绪标签；

语义情绪标签获取单元，用于对回答文本中的情绪特征词进行提取，通过匹配预设的情绪特征词库，得到语义情绪标签；

反馈情绪标签获取单元，用于将所述声学情绪标签和所述语义情绪标签输入情绪反馈技能模型，得到目标情绪标签，并通过匹配预设的情绪映射关系库，得到虚拟人反馈情绪标签；

虚拟人语音风格获取单元，用于将所述虚拟人反馈情绪标签输入预训练好的情绪-语音风格映射模型，得到符合所述目标情绪标签的语音特征参数，调整所述语音特征参数，以作为所述虚拟人语音风格。

根据本发明提供的一种虚拟人自调节教学云平台，所述虚拟人动画生成模块包括：语音驱动虚拟人动画子模块，具体包括：

第一预测单元，用于将虚拟人的待播报语音输入预训练好的唇形表情驱动模型，得到虚拟人的唇形表情特征数据；

第二预测单元，用于将所述唇形表情特征数据输入预训练好的人脸图像预测模型，得到多帧第一虚拟人图像；

第一虚拟人动画生成单元，用于将每一帧所述第一虚拟人图像结合所述待播报语音的语音时间戳，生成虚拟人音视频动画。

根据本发明提供的一种虚拟人自调节教学云平台，所述虚拟人动画生成模块包括：情绪驱动虚拟人动画子模块，具体包括：

情绪状态分析单元，用于对所述目标情绪标签进行分析，得到对应的情绪状态和情绪强度；

表情特征获取单元，用于将所述情绪状态和所述情绪强度输入预设的情绪-表情映射模型，得到连贯的微表情特征数据；

第二虚拟人动画生成单元，用于将人脸图像预测模型输出的多帧第二虚拟人图像，与语音交互过程中需等待学生回答的等待时长进行结合，生成虚拟人等待动画，其中，多帧所述第二虚拟人图像是将所述微表情特征数据输入预训练好的人脸图像预测模型得到的。

根据本发明提供的一种虚拟人自调节教学云平台，所述学习情况分析模块包括：第一判定子模块和第二判定子模块；

所述第一判定子模块用于，分别对多个维度设定不同时长的检测窗口期进行特征点提取，计算所述检测窗口期内特征点的变化幅度，若所述变化幅度超出预定幅度阈值，则将所述变化幅度作为所述维度的注意力评分值，对每个维度的重要程度设定不同的权重，综合多个维度的所述注意力评分值，归一化处理生成最终的注意力评分值，映射为注意力等级；

所述第二判定子模块用于，提取随堂问答环节每个问题对应的回答文本中的知识点关键词，以所述知识点关键词命中标准答案关键词的比率作为所述问题的得分值，将所有问题的得分值取平均值以作为本轮随堂问答环节的掌握度评分值，并映射为掌握度等级。

第二方面，本发明还提供一种虚拟人自调节教学系统，包括：如上述任一种所述的虚拟人自调节教学云平台和学生端，所述虚拟人自调节教学云平台与所述学生端通信连接，所述学生端按序播放虚拟人讲课视频片段序列，根据所述虚拟人自调节教学云平台下发的播控指令切换教学环节，以及在听课过程中采集学生的音频文件和视频文件上传至所述虚拟人自调节教学云平台。

第三方面，本发明还提供一种基于上述任一种所述的虚拟人自调节教学云平台的虚拟人自调节教学方法，包括：

教学开始，从大纲课程库获取第一版本的虚拟人讲课视频片段序列发送至学生端进行按序播放；

分析学生听课的表情动作特征获取听课注意力等级，当所述注意力等级达到预设等级阈值且预设时间内未进行语音交互则触发随堂问答环节；

待当前虚拟人讲课视频片段播放结束后进入所述随堂问答环节，虚拟人主动发起语音提问，根据学生在互动环境下回答的语音信息，识别所述语音信息所携带的情绪信息，获得符合所述情绪信息的虚拟人语音风格；

分析学生在所述随堂问答环节的回答情况，获取已授讲课视频片段的知识掌握度等级；

根据所述知识掌握度等级，从所述大纲课程库中选择第二版本的虚拟人讲课视频片段序列，所述第二版本的虚拟人讲课视频片段序列与所述第一版本的虚拟人讲课视频片段序列的讲解详细度不同，以及，

将所述虚拟人语音风格和所述第二版本的虚拟人讲课视频片段序列输入虚拟人动画生成模块生成虚拟人讲课动画视频，替换所述第一版本的虚拟人讲课视频片段序列在所述学生端接续播放，并在授课环节中根据所述听课注意力等级确定是否暂停授课并穿插娱乐互动活动；

虚拟人讲课视频片段序列播放完成，教学结束。

第四方面，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时完成如上述所述的虚拟人自调节教学方法。

本发明提供的一种虚拟人自调节教学云平台、系统、方法及相关设备，能够使虚拟人在授课过程像真人老师一样，实时关注学生的听课状态，注意力不足时主动发起语音问答交互，根据问答情况评估学生的知识掌握程度、情绪状态。并根据以上学习情况的分析结果，对虚拟人讲课内容、语音风格、表情动作、互动活动等多个维度教学方式进行有针对性地自动调节，并用新方案继续授课。该方法及系统可使虚拟人在授课中实现教学方案及时有效地自调节能力以提高教学效果，改善学生学习状态，提高对知识的掌握程度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种虚拟人自调节教学系统的结构示意图；

图2是本发明实施例提供的虚拟人课程内容生成流程示意图；

图3是本发明实施例提供的虚拟人自调节教学云平台的语音语义情绪处理模块的逻辑框图；

图4是本发明实施例提供的虚拟人自调节教学云平台的虚拟人动画生成模块的语音驱动虚拟人动画的逻辑框图；

图5是本发明实施例提供的虚拟人自调节教学云平台的虚拟人动画生成模块的情绪驱动虚拟人动画的逻辑框图；

图6是本发明实施例提供的虚拟人自调节教学云平台的教学方案调整模块的逻辑框图；

图7是本发明实施例提供的一种虚拟人自调节教学方法的流程示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下表是本发明中相关技术用语的中文表述、英文表述和英文简写：

中文表述	完整的英文表述	英文缩略语
			虚拟数字人	Virtual Digital Human
自然语言处理	Natural Language Processing	NLP
			自动语音识别	Automatic Speech Recognition	ASR
语音合成	Text To Speech	TTS
			生成对抗网络	Generative Adversarial Networks	GAN

在元宇宙概念火热的当下，虚拟数字人被认为是元宇宙不可缺少的一部分，目前虚拟数字人市场仍处于前期培育阶段，该领域具有广阔的发展空间，较高的商业价值。

虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等。

从技术层面来看，虚拟数字人可以分为真人驱动型和计算驱动型。在计算驱动型中，虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动，在渲染后实现最终效果。

计算驱动型虚拟人是近年来多模态技术和深度学习发展的技术集大成者，本发明正是基于此类虚拟人设计的教育场景化方案，提出一种虚拟人自调节教学系统及方法。

图1为本发明实施例提供的一种虚拟人自调节教学系统的结构示意图，参照图1所示，本发明提供一种虚拟人自调节教学系统，包括：

虚拟人自调节教学云平台11和学生端12，虚拟人自调节教学云平台11与学生端12通信连接，学生端12按序播放虚拟人讲课视频片段序列，根据虚拟人自调节教学云平台11下发的播控指令切换教学环节，以及在听课过程中采集学生的音频文件和视频文件上传至虚拟人自调节教学云平台11。

具体地，本系统从架构上分为虚拟人自调节教学云平台11和学生端12。虚拟人自调节教学云平台11应用在云端(服务端)，用于教学内容数据的存储、计算和管理，共享软硬件资源以及网络业务应用，且可以让客户端随时随地通过浏览器、云端软件或web服务，进行存取执行存储于云端的软件和数据。学生端包括但不限于教学机、学生机和智能终端(包括智能手机、平板电脑、笔记本电脑和PC机等)。学生端12主要是按序播放虚拟人讲课视频片段，学生端12包括：视频播放控制模块121，用于根据平台下发的播控指令切换教学环节；图像采集模块122，用于讲课过程中对学生录像上传虚拟人自调节教学云平台11；语音采集模块123，用于语音交互中采集学生语音上传虚拟人自调节教学云平台11进行语音语义识别反馈处理。

虚拟人自调节教学云平台11包括：

初始方案授课模块111，用于从大纲课程库获取第一版本的虚拟人讲课视频片段序列发送至学生端进行按序播放；

学习情况分析模块112，用于根据学生的回答情况获取已授讲课视频片段的知识掌握度等级，以及分析学生听课的表情动作特征获取听课注意力等级；

语音语义情绪处理模块113，用于根据学生在互动环境下回答的语音信息，识别语音信息所携带的情绪信息，获得符合情绪信息的虚拟人语音风格；

教学方案调整模块114，用于根据知识掌握度等级，从大纲课程库中选择第二版本的虚拟人讲课视频片段序列，第二版本的虚拟人讲课视频片段序列与第一版本的虚拟人讲课视频片段序列的讲解详细度不同，以及，

将虚拟人语音风格和第二版本的虚拟人讲课视频片段序列输入虚拟人动画生成模块115生成虚拟人讲课动画视频，以替换第一版本的虚拟人讲课视频片段序列在学生端进行按序播放，并在授课环节中根据听课注意力等级确定是否暂停授课并穿插娱乐互动活动。

具体地，本系统的核心在于虚拟人自调节教学云平台11，平台架构包括：虚拟人课程内容生成模块110、初始方案授课模块111、学习情况分析模块112、语音语义情绪处理模块113、教学方案调整模块114、虚拟人动画生成模块115。

以下对虚拟人自调节教学云平台11的各功能模块分别进行详细阐述：

本实施例中，虚拟人课程内容生成模块110包括：

课程切片单元，用于将每门课程按照切片颗粒度进行切片，获得多个讲课片段，切片颗粒度根据课程的教学大纲进行设置；

多版本生成单元，用于将多个讲课片段根据不同程度的讲解详细度，生成多个不同版本的讲课片段；

音视频融合单元，用于将讲课片段输入语音语义情绪处理模块，合成虚拟老师语音，并将虚拟老师语音输入虚拟人动画生成模块，生成音视频融合的虚拟人讲课视频片段；

结构化入库单元，用于将相同版本的多个虚拟人讲课视频片段按照切片颗粒度以集合方式进行排序，生成虚拟人讲课视频片段序列，作为课程的教学视频存入大纲课程库。

具体地，虚拟人课程内容生成模块110主要实现虚拟人讲课视频的预制，并结构化入库。其生成方法如图2所示，具体步骤如下：

(i)将课程A根据切片颗粒度划分为章节c₁…c_n，章节c_i划分讲课片段p₁…p_m，其切片颗粒度根据课程的教学大纲进行设置，切片颗粒度过大会影响调整的及时性，过小会影响教学的连贯性，故切片颗粒度需考虑真人老师的教学节奏，同时还需考虑教学内容调整的及时性；

(ii)考虑到学生学习能力不同，根据讲解详细程度不同，每讲课片段预制为多个不同版本的讲课片段，讲课片段p_j根据内容讲解详细程度生成d₁…d_r个版本，详细程度从1到r依次递增；

(iii)每门课程均照此切片，生成最小单位为A_c_i_p_j_d_k的讲课片段，将最小单位的讲课片段文本输入语音语义情绪处理模块113，合成虚拟老师语音，将虚拟老师语音输入虚拟人动画生成模块115，合成音视频融合的虚拟人讲课视频片段。

(iv)讲解同一版本为d的有序视频片段集合c(d)为章节的教学视频，有序的章节教学视频集合为某课程的教学视频A(d)，将所有教学视频结构化入库：

c(d)＝{p₁(d)，p₂(d)，…，p_m(d)}

A(d)＝{c₁(d)，c₂(d)，…，c_n(d)}

初始方案教学一般从大纲课程库获取第一版本(即初始版本)的虚拟人讲课视频片段序列，初始版本的讲课视频是指：讲解详细度为中等程度的章节教学视频即c(d_median)，中等程度median是为所有详细度等级的中值向下取整，如下式所示：

c(d_median)＝{p₁(d_median)，p₂(d_median)，…，p_m(d_median)}

其中，

需要指出的是，讲解详细程度版本d_k预设其对应的虚拟人语速、语气、表情、动作，若k等级较高则虚拟人语速适当缓慢，添加表现耐心的表情和动作。虚拟人的讲课内容、语速语气、表情动作为一个教学方案整体。

因此，通过将课程内容按教学大纲及真实教学节奏切片化生成虚拟人讲课视频片段序列，且预制多种讲解详细度版本。教学过程中可在片段间随时插入互动、也可及时更换版本实现内容调整，解决了录播课无法随时互动和调整内容的问题。本发明采用大量的播报内容预制生成，少量的互动及调整实时驱动生成，解决了直播课因大量内容实时驱动导致的卡顿问题。

本实施例中，语音语义情绪处理模块113包括：语音问答交互子模块，具体包括：

问题提出单元，用于根据已授讲课视频片段从知识点问答库中提取问题并以语音形式发送至学生端；

语义理解结果获取单元，用于将回答文本输入预训练好的自然语言处理模块模型，得到语义理解结果；

反馈文本获取单元，用于根据语义理解结果从知识点问答库中选取对应的虚拟人反馈文本；

虚拟人反馈语音生成单元，用于将虚拟人反馈文本与相对应的语音风格进行合成，生成虚拟人反馈语音。

具体地，语音问答交互子模块为随堂语音问答流程服务，虚拟人主动提问的问题根据已授讲课视频片段涉及的知识点从知识点问答库中提取并合成语音。学生回答语音通过语音识别(ASR)得到回答文本，通过训练好的自然语言处理模块(NLP)模型得到语义理解结果，根据语义理解结果从课程问答技能选取虚拟人的最佳反馈文本，将最佳反馈文本与语音风格特征值共同输入语音合成模块(TTS)生成虚拟人反馈语音。如图3所示，其NLP模型训练方法为：对大量课程知识点进行数据清洗后生成课程知识图谱作为课程语料库，使用课程语料库对模型进行离线训练，得到训练好的自然语言处理模块。

本实施例中，语音语义情绪处理模块113还包括：情绪识别反馈子模块，具体包括：

声学情绪标签获取单元，用于对语音信息中的情绪特征值进行提取，得到声学情绪标签；

反馈情绪标签获取单元，用于将声学情绪标签和语义情绪标签输入情绪反馈技能模型，得到目标情绪标签，并通过匹配预设的情绪映射关系库，得到虚拟人反馈情绪标签；

虚拟人语音风格获取单元，用于将虚拟人反馈情绪标签输入预训练好的情绪-语音风格映射模型，得到符合目标情绪标签的语音特征参数，调整语音特征参数，以作为虚拟人语音风格。

具体地，情绪识别反馈子模块为虚拟人语言风格调整功能服务，通过识别学生语音携带的情绪信息，选择虚拟人合理的反馈情绪，并根据反馈情绪确定虚拟人的语音风格。语音风格与文本通过TTS合成情绪化的语音。如图3所示，情绪识别反馈的主要流程如下：

(a)ASR对语音信息中的声学特征(包括但不限于频率、波形、波幅等)进行情绪特征值提取，匹配声学情绪特征库，得到声学情绪标签；

(b)NLP对文本进行语义识别得到语义信息，进行文本情绪特征词提取，匹配文本情绪特征词库，得到语义情绪标签；

(c)声学情绪标签、语义情绪标签输入情绪反馈技能，综合分析得出目标情绪标签，通过匹配预设的情绪映射关系库，确定虚拟人的反馈情绪标签；

(d)反馈情绪标签通过情绪-语音风格映射模型确定符合该情绪状态的一组语音特征参数。人的情绪会体现在说话的语速快慢、音量高低、音调和声道上，从声学角度分析就有时长、幅度、基频和频谱等语音特征参数，故调整语音特征参数就可获得符合某种情绪的语音风格。

本实施例提出一种情绪-语音风格映射模型构建和训练方法，构建方法：首先，录制者酝酿情绪后富含感情的朗读录音，评判者主观判断朗读录音的情绪状态，判断正确的音频存入情绪语料库；其次，对情绪语料库进行语音特征分析，建立语音特征参数与情绪标签间的映射关系网络即为映射模型。训练方法：情绪标签样本输入映射关系网络G，输出一组符合该情绪的语音特征参数。该组语音特征参数合成语音输入判别网络D，分析该语音携带的情绪，判别其是否符合情绪标签样本。G的目标是生成尽量符合情绪样本的语音去欺骗D，D的目标是将语音携带的情绪与真实情绪状态区分开来并将结果反馈给G，如此，G和D构成了一个动态博弈过程即生成对抗网络(GAN)，实现了对情绪-语音风格映射模型的训练。

因此，通过分析学生语音中的情绪并为其匹配虚拟人反馈情绪，由情绪-语音风格映射模型确定符合情绪的一组语音特征参数，进而将虚拟人语音调整为符合反馈情绪的语音风格。

本实施例中，语音语义情绪处理模块113还包括语音合成子模块，用于为虚拟人课程内容生成模块110服务，将讲课片段的文本内容与版本对应的虚拟人语音风格结合，生成相应的虚拟人讲课语音数据。

本实施例中，虚拟人动画生成模块115包括：语音驱动虚拟人动画子模块，具体包括：

第二预测单元，用于将唇形表情特征数据输入预训练好的人脸图像预测模型，得到多帧第一虚拟人图像；

第一虚拟人动画生成单元，用于将每一帧第一虚拟人图像结合待播报语音的语音时间戳，生成虚拟人音视频动画。

具体地，如图4所示，待播报语音(通过语音语义情绪处理模块113得到的虚拟人讲课语音数据)输入唇形表情驱动模型，预测虚拟人的唇形表情特征数据；人脸图像预测模型根据唇形表情特征数据，选出最符合真实人脸的虚拟人图像；得到的每一帧虚拟人图像结合待播报语音的语音时间戳，生成虚拟人音视频动画。预制讲课视频场景中，通过上述方法得到关于虚拟人面部表情动作的音视频动画后，不同版本的讲课片段根据讲解详细度版本对应的肢体动作可进行人为预设置，合成为音视频融合的虚拟人讲课视频片段。

本实施例中，虚拟人动画生成模块115包括：情绪驱动虚拟人动画子模块，具体包括：

情绪状态分析单元，用于对目标情绪标签进行分析，得到对应的情绪状态和情绪强度；

表情特征获取单元，用于将情绪状态和情绪强度输入预设的情绪-表情映射模型，得到连贯的微表情特征数据；

第二虚拟人动画生成单元，用于将人脸图像预测模型输出的多帧第二虚拟人图像，与语音交互过程中需等待学生回答的等待时长进行结合，生成虚拟人等待动画，其中，多帧第二虚拟人图像是将微表情特征数据输入预训练好的人脸图像预测模型得到的。

具体地，语音交互过程中虚拟人需等待学生回答，在等待时间内，为使虚拟人表情更灵动、更流畅、更拟人，提出一种非语音驱动而是情绪状态驱动生成虚拟人连贯表情动作的方法。如图5所示，首先，分析输入的目标情绪标签，获得其表征的情绪状态以及强度；其次，通过情绪-表情映射模型，由情绪状态匹配大表情域，再由情绪强度确定微表情域，并从中获取连贯的微表情特征数据；再次，利用人脸图像预测模型获得每帧虚拟人图像；最后，每帧虚拟人图像结合等待时长合成连贯的虚拟人等待动画。

其中，情绪-表情映射模型的情绪-表情映射关系为：根据人的基本情绪快乐、悲伤、愤怒、恐惧、中性五种状态，将虚拟人表情特征数据库划分为五个大表情域；每个大表情域内部再根据情绪强烈程度不同划分为不同的微表情域；每个微表情域包含与情绪相符的一系列连贯的表情特征数据(包含但不限于眉部、眼部、唇部)；由此构建出情绪-表情的映射模型。

因此，通过预先构建的情绪-表情映射模型实现以情绪而非语音来驱动虚拟人做出连贯微表情的方法，使虚拟人在等待学生回答问题的静待时间内表情更灵动、更流畅、更拟人。

本实施例中，学习情况分析模块112包括：第一判定子模块和第二判定子模块；

第一判定子模块用于，分别对多个维度设定不同时长的检测窗口期进行特征点提取，计算检测窗口期内特征点的变化幅度，若变化幅度超出预定幅度阈值，则将变化幅度作为维度的注意力评分值，对每个维度的重要程度设定不同的权重，综合多个维度的注意力评分值，归一化处理生成最终的注意力评分值，映射为注意力等级。

具体地，虚拟人讲课过程中(非互动环境)，通过学生端12的图像采集模块122(摄像头)对学生听课过程进行录像。分别对多个维度(如睁眼状态、头部转动、肢体摆动等)设定不同时长的检测窗口期进行特征点数据提取，计算检测窗口期内特征点的变化幅度，若变化幅度超出幅度阈值则认为该维度异常。异常维度特征点的变化幅度即为该维度所体现的注意力评分。每个维度体现注意力是否集中的程度不同，如头部转动幅度变化较大说明学生左顾右盼，注意力不集中；而睁眼状态变化大说明学生困倦，此时注意力很弱。故每个维度根据重要程度的不同设定不同的权重，综合多个维度的注意力评分值确定最终的注意力分值，设学生u的注意力评分值为s₁(u)，其计算式如下式所示：

其中，v_i为i维度的注意力评分，ρ_i为i维度的权重，学生u的注意力评分为s₁，将s₁归一化到[0，1)区间内，得到学生u注意力最终评分。

后续将注意力评分值映射为注意力等级：高：[0，0.4)；中：[0.4，0.8)；低：[0.8，1)。

因此，通过实时采集学生听课录像，划分多维度设定检测窗口期进行特征点分析，采用多维度加权综合评分，实现听课注意力定量评分机制，以评估虚拟人教学中学生动态认知水平。

第二判定子模块用于，提取随堂问答环节每个问题对应的回答文本中的知识点关键词，以知识点关键词命中标准答案关键词的比率作为问题的得分值，与将所有问题的得分值取平均值以作为本轮随堂问答环节的掌握度评分值，并映射为掌握度等级。

具体地，若学生注意力等级低于预设等级阈值，虚拟人发起主动提问，问题根据本节课已授片段涉及知识点从问答库中提取。采集学生的回答语音通过语音语义分析得到回答语义，提取回答文本中的知识点关键词。设学生u本次随堂问答的评分为s₂(u)，其计算式如下式所示：

其中，设此次随堂问答环节的问题个数为k，每个问题的标准答案所包含的关键词个数为m_k，学生答案命中标准答案关键词的得1分，否则为0分，命中标准答案关键词的个数即为α的值。若第k-1个问题得标准答案包含m_k-₁个关键词，命中标准答案关键词的比率(即本题正确率)作为回答该问题的得分值为所有问题得分的平均值即为本轮随堂问答环节的掌握度评分值。

掌握度评分值的取值范围为[0，1]，后续将掌握度评分值映射为掌握度等级：低：[0，0.4)；中：[0.4，0.8)；高：[0.8，1]。

因此，虚拟人主动发起语音问答，通过语义解析提取回答文本的知识点关键词，以命中标准答案关键词的比率作为本题正确率，多题的综合正确率为最终掌握度评分值。实现知识掌握度定量评分机制，以评估虚拟人教学中学生动态认知水平。

本实施例中，教学方案调整模块114的具有以下功能：

虚拟老师的教学方案是由课程讲解详细度版本、娱乐互动活动、虚拟人语言风格、表情动作等多个维度构成的一个整体。教学方案调整是对多维度组合调整。根据上述得到的听课注意力等级、知识掌握度等级，以及虚拟人反馈情绪标签这三个参数，对虚拟人后续的教学方案进行合理调整，后续按新方案进行教学。

(1)调整课程讲解详细度及其对应的表情动作：

课程讲解详细度版本调整由知识掌握度等级确定。设当前讲解的第一版本为d_i，调整后的第二版本为d′，z为前一次评估得到的掌握度等级，z′为本次评估得到的掌握度等级，l为调整步长。掌握度等级从低到高映射为[0，1，2]，掌握度等级较前一次的变化幅度确定调整步长l，调整后的版本号i+l需符合约束，即在版本号的全部取值范围[1，r]内(详解见虚拟人课程内容生成模块110)。例如，前一次掌握度等级为高(z＝2)，本次掌握度等级为低(z′＝0)，表明该学生难以理解当前的课程内容，应将讲解详细程度提高两个档位(l＝2)，即当前版本为d₂，则调整后的版本为d₄。若掌握度较上次有提升则表明学生对课程的理解力较好，可降低版本以节省时间到更难理解的内容。当前讲解版本d′确定后，从大纲课程库中获取新版本的虚拟人讲课视频片段序列，从调整点开始替换原虚拟人讲课视频片段序列。即新版本序列c(d′)＝{p₁(d′)，p₂(d′)，…，p_m(d′)}，若当前讲到p₂片段，则调整后的讲课视频片段序列为{p₃(d′)，p₄(d′)，…，p_m(d′)}。新版本d′预设了与讲解详细度对应的虚拟人表情、动作特征数据，例如，详细度高的版本将预设一些表现耐心的表情和动作。

(2)调整虚拟人语言风格：

语音语义情绪处理模块113所得反馈情绪标签，用于调整虚拟人讲课的虚拟人语音风格。将反馈情绪标签输入情绪-语音风格映射模型，输出符合该情绪的一组语音特征参数，调整后的新版本的讲课视频片段序列的每片段文本内容与该语音特征参数输入TTS合成虚拟人语音风格(即具有特定语音风格的讲课语音)。将每片段的虚拟人语音风格同讲解版本d^′预设的虚拟人表情动作特征数据共同输入虚拟人动画生成模块115，生成虚拟人讲课动画视频。例如，学生难以理解知识导致掌握度降低，且回答不上问题导致情绪低落，虚拟人的反馈情绪标签为耐心、安抚，则讲课详细程度将提高，后续讲课中虚拟老师将语速变慢、音调平缓，配合该版本预设的表现耐心的表情和动作，详细讲解知识同时缓和学生的低落情绪。

(3)调整娱乐互动活动：

注意力等级主要用于判定虚拟老师是否需要暂停讲课穿插娱乐互动活动，以调节学习积极性，提高注意力，例如穿插讲笑话、带领学生做眼保健操等。

如图6所示，注意力等级、掌握度等级、反馈情绪标签三方面共同决定教学方案的调整，调整方案举例如下表所示(反馈情绪标签在课程讲解详细度发生改变时调整后续讲课的语言风格，以下不再列入)：

综上，本发明实施例提供的一种虚拟人自调节教学系统，能够实时评估听课注意力，根据注意力等级穿插娱乐互动活动，或主动发起随堂语音问答评估学生知识点掌握程度，据此调整虚拟人讲课的不同详细度版本，同时调整与版本相符的表情动作，新版本虚拟人讲课视频片段序列替换原序列继续教学，通过识别学生情绪并匹配虚拟人反馈情绪，在新版本虚拟人讲课视频片段序列中调整虚拟人的讲课语音风格。使虚拟人像真人老师一样，对虚拟人讲课内容、语音风格、表情动作、互动活动等多个维度教学方式进行有针对性地自动调节，并用新方案继续授课。该方法及系统可使虚拟人在授课中实现教学方案及时有效地自调节能力以提高教学效果，改善学生学习状态，提高对知识的掌握程度。

图7是本发明实施例提供的一种虚拟人自调节教学方法的流程示意图；参照图7所示，本发明实施例提供一种虚拟人自调节教学方法，包括：

步骤S100：教学开始，从大纲课程库获取第一版本的虚拟人讲课视频片段序列发送至学生端进行按序播放；

步骤S110：分析学生听课的表情动作特征获取听课注意力等级，当注意力等级达到预设等级阈值且预设时间内未进行语音交互则触发随堂问答环节；

步骤S120：待当前虚拟人讲课视频片段播放结束后进入随堂问答环节，虚拟人主动发起语音提问，根据学生在互动环境下回答的语音信息，识别语音信息所携带的情绪信息，获得符合情绪信息的虚拟人语音风格；

步骤S130：分析学生在随堂问答环节的回答情况，获取已授讲课视频片段的知识掌握度等级；

步骤S140：根据知识掌握度等级，从大纲课程库中选择第二版本的虚拟人讲课视频片段序列，第二版本的虚拟人讲课视频片段序列与第一版本的虚拟人讲课视频片段序列的讲解详细度不同，以及，

将虚拟人语音风格和第二版本的虚拟人讲课视频片段序列输入虚拟人动画生成模块生成虚拟人讲课动画视频，以替换第一版本的虚拟人讲课视频片段序列在学生端进行按序播放，并在授课环节中根据听课注意力等级确定是否暂停授课并穿插娱乐互动活动；

步骤S150：虚拟人讲课视频片段序列播放完成，教学结束。

具体地，本方法设计的教学过程包含五个流程：初始方案授课、听课注意力评估、随堂语音问答、知识掌握度评估、教学方案调整，具体步骤如下：

(1)初始方案教学：从大纲课程库获取初始版本的虚拟人讲课视频片段序列。教学开始，学生端顺序播放虚拟人讲课视频片段序列，虚拟人开始声情并茂地讲解课程内容；

(2)听课注意力评估：讲课过程中对学生的听课过程进行录像，通过分析学生听课的表情动作特征评估其听课注意力等级，若等级达到预设等级阈值且预设时间内未进行过语音交互则触发随堂问答环节；

(3)随堂语音问答：待当前正在播放的虚拟人讲课视频片段结束，进入随堂问答环节。虚拟人主动发起语音提问，问题通过已讲的知识点从问答库中提取。采集学生的回答音频，通过语音语义情绪处理获得虚拟老师反馈语音、反馈情绪标签，进而由虚拟人动画生成模块生成虚拟人反馈动画；

(4)知识掌握度评估：根据上述随堂问答结果，评估学生对已讲知识的掌握度等级；

(5)教学方案调整：根据学生听课注意力等级、知识掌握度等级、情绪状态，共同确定虚拟老师后续教学方案的调整。调整后的虚拟人讲课视频片段序列将从调整点开始替换原序列，按调整后的视频继续播放。教学流程从步骤(2)开始循环，直到本节课程视频播放结束。

综上，本发明实施例提供的一种虚拟人自调节教学方法，能够实时评估听课注意力，根据注意力等级穿插娱乐互动活动，或主动发起随堂语音问答评估学生知识点掌握程度，据此调整虚拟人讲课的不同详细度版本，同时调整与版本相符的表情动作，新版本虚拟人讲课视频片段序列替换原序列继续教学，通过识别学生情绪并匹配虚拟人反馈情绪，在新版本虚拟人讲课视频片段序列中调整虚拟人的讲课语音风格。使虚拟人像真人老师一样，对虚拟人讲课内容、语音风格、表情动作、互动活动等多个维度教学方式进行有针对性地自动调节，并用新方案继续授课。该方法及系统可使虚拟人在授课中实现教学方案及时有效地自调节能力以提高教学效果，改善学生学习状态，提高对知识的掌握程度。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)710、通信接口(Communication Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的计算机程序，以执行如上述实施例所提供的虚拟人自调节教学方法，该方法包括：

分析学生听课的表情动作特征获取听课注意力等级，当注意力等级达到预设等级阈值且预设时间内未进行语音交互则触发随堂问答环节；

待当前虚拟人讲课视频片段播放结束后进入随堂问答环节，虚拟人主动发起语音提问，根据学生在互动环境下回答的语音信息，识别语音信息所携带的情绪信息，获得符合情绪信息的虚拟人语音风格；

分析学生在随堂问答环节的回答情况，获取已授讲课视频片段的知识掌握度等级；

根据知识掌握度等级，从大纲课程库中选择第二版本的虚拟人讲课视频片段序列，第二版本的虚拟人讲课视频片段序列与第一版本的虚拟人讲课视频片段序列的讲解详细度不同，以及，

虚拟人讲课视频片段序列播放完成，教学结束。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行如上述实施例所提供的虚拟人自调节教学方法，该方法包括：

虚拟人讲课视频片段序列播放完成，教学结束。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行如上述实施例所提供的虚拟人自调节教学方法，该方法包括：

虚拟人讲课视频片段序列播放完成，教学结束。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟人自调节教学云平台，其特征在于，包括：

2.根据权利要求1所述的虚拟人自调节教学云平台，其特征在于，还包括：虚拟人课程内容生成模块，具体包括：

3.根据权利要求1所述的虚拟人自调节教学云平台，其特征在于，所述语音语义情绪处理模块包括：语音问答交互子模块，具体包括：

4.根据权利要求1所述的虚拟人自调节教学云平台，其特征在于，所述语音语义情绪处理模块还包括：情绪识别反馈子模块，具体包括：

5.根据权利要求1所述的虚拟人自调节教学云平台，其特征在于，所述虚拟人动画生成模块包括：语音驱动虚拟人动画子模块，具体包括：

6.根据权利要求4所述的虚拟人自调节教学云平台，其特征在于，所述虚拟人动画生成模块包括：情绪驱动虚拟人动画子模块，具体包括：

7.根据权利要求1所述的虚拟人自调节教学云平台，其特征在于，所述学习情况分析模块包括：第一判定子模块和第二判定子模块；

8.一种虚拟人自调节教学系统，其特征在于，包括：如权利要求1-7任一项所述的虚拟人自调节教学云平台和学生端，所述虚拟人自调节教学云平台与所述学生端通信连接，所述学生端按序播放虚拟人讲课视频片段序列，根据所述虚拟人自调节教学云平台下发的播控指令切换教学环节，以及在听课过程中采集学生的音频文件和视频文件上传至所述虚拟人自调节教学云平台。

9.一种基于权利要求1-7任一项所述的虚拟人自调节教学云平台的虚拟人自调节教学方法，其特征在于，包括：

虚拟人讲课视频片段序列播放完成，教学结束。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时完成如权利要求9所述的虚拟人自调节教学方法。