CN116431036A

CN116431036A - 一种基于元宇宙的虚拟在线教学系统

Info

Publication number: CN116431036A
Application number: CN202310448982.XA
Authority: CN
Inventors: 陈森; 张佩; 张峰
Original assignee: Shanghai Shuoyi Technology Co ltd
Current assignee: Shanghai Shuoyi Technology Co ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-14

Abstract

本发明公开了一种基于元宇宙的虚拟在线教学系统，涉及AI和VR技术领域，该发明包括眼动追踪模块、表情识别模块、3D建模模块以及校准反馈模块。眼动追踪模块通过对某人眼神的追踪，记录其眼神状态及他人对此人眼神的注视情况；表情识别模块可分析学生上课的专注情况，便于师生及时地交互；3D建模模块通过半身建模创建人物形象并在线捕获人物肢体动作信息，从而增强课堂沉浸感及师生交互效果；校准反馈模块是通过对元宇宙课堂的多项指标打分评判，从而反馈优化课堂质量并提升师生在课堂内沟通的信任度。本发明实施例从认知心理学及人工智能出发，最大程度还原线下课堂，助力在线教育的发展进程及升级更新。

Description

一种基于元宇宙的虚拟在线教学系统

技术领域

本发明涉及人工智能技术和虚拟现实技术领域，具体为基于元宇宙的虚拟在线教学系统。

背景技术

元宇宙(Metaverse)，是人类运用数字技术所构建的，由现实世界映射或超越现实世界，可与现实世界交互的虚拟世界，具备新型社会体系的数字生活空间，其主要是集成了一大批现有技术，包括5G、云计算、人工智能、虚拟现实、区块链、数字货币、物联网、人机交互等。其中，虚拟现实技术是一种运用计算机仿真系统创建多源信息融合的交互式三维动态实景以及动作仿真的技术，可以给使用者提供沉浸性、多感知性、交互性的互动体验。现如今，随着在线教育的兴起，现有的二维音视频技术越来越无法满足沉浸式课堂的需求。如何增强在线教育的课堂体验感，目前是在线教育升级及更新亟需解决的问题。

随着线上教育的兴起，如何增强在线课堂的临场感是在线教育的一大挑战，当下关于的虚拟在线教学系统研究及相关专利甚少。关于虚拟会议在线协同方面，在中国专利公开-CN 112987915A中公开了一种基于AST的应用于VR(Virtual Reality，虚拟现实)会议协同白板编辑任务的方法，可以实现在VR场景下多人协同白板编辑。然而，其功能就虚拟现实的沉浸感而言，显然是不够全面与细致的。

本发明将公开一种基于元宇宙的虚拟在线教学系统，其主要面向教育领域的线上教学场景，拥有现有二维音视频技术所缺的沉浸式在线教学体验，从人的认知心理出发并结合人工智能技术，通过对线下课堂最大程度地模拟还原，从而提升虚拟在线教学的课堂质量，降低课堂延迟，这将会为教师与学生带来不一样的教学及学习体验，本发明也将助力在线教育的发展进程及升级更新。

发明内容

在线上教学领域，虚拟在线教学暂无应用，且现如今的二维音视频技术的课题体验沉浸感较差，针对上述问题，本发明旨在面向在线教育领域，提供一种基于元宇宙的虚拟在线教学系统，助力在线教育的发展进程及升级更新。

为了解决上述问题，本申请将提供以下技术方案：

本发明公开的基于元宇宙的虚拟在线教学系统，包括眼动追踪模块、表情识别模块、3D建模模块、校准反馈模块。

进一步地，所述眼动追踪模块是由相机拍摄人脸，定位眼部区域，在视频帧图像上进行，通过对学生眼神的追踪，记录某个学生本人的眼神状态及他人对此学生眼神的注视情况；

进一步地，所述眼动追踪模块的流程如下：

1、所述眼动追踪模块，采用视频采集设备配合算法获取老师及学生的眼动图像；

2、利用视频图像，定位眼部区域，获得老师及学生的左右眼图像；

3、计算视角方向及角度距离误差。以单位方向矢量的形式在球坐标系中输出预测老师及学生的凝视方向；

4、结合预测的凝视方向与三维凝视原点位置O(数据预处理时确定)，得到老师和学生的凝视光线；

5、计算老师和学生的凝视点；

6、计算面部相对坐标，用于老师和学生面部重建的眼部位置完善。

进一步地，所述表情识别模块是由相机拍摄眼部视频，在图像点云上通过算法进行面部表情识别，通过表情分析学生的上课专注情况，便于老师与学生及时地交互；

进一步地，所述表情识别模块的流程如下：

1、利用深度相机设备采集图像点云流，将每一帧的点云信息进行特征提取，捕获一段时期内老师及学生的面部表情的一般特征和这一时刻的特定特征；

2、利用粗到细的级联网络提取粗特征，并将相似特征聚类为粗略的类别；

3、利用缓存的前n帧特征，进行平均，减少噪音干扰，归一化后进一步用于获得细粒度的平滑预测；

4、判定表情类别，这些类别将被用于面部重建时的矫正，情感判断。

进一步地，所述3D建模模块是在相机视野范围内，获取相机坐标系下的障碍物点的坐标并得到学生及老师的半身立体模型的建构，通过半身建模创建人物形象，在线捕获人物肢体动作信息，从而增强课堂沉浸感及师生交互效果；

进一步地，所述3D建模模块的流程如下：

1，根据采集设备，获取图像的横纵坐标[X,Y]及深度信息Z。得到相机坐标系下的坐标集合P＝[X,y,Z]；

2，得到相机坐标系下的点云数据后，利用关系式求解得到像素坐标系P_uv；

进一步地，所述校准反馈模块是通过对元宇宙课堂的画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判，从而反馈优化课堂质量并提升师生在课堂内沟通的信任度；

进一步地，所述校准反馈模块的流程如下：

1、根据画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判；

2、根据评判分数对各子模块进行反馈调参，从而优化系统。

附图说明

图1为本发明一种基于元宇宙的虚拟在线教学系统的系统架构图。

具体实施方式

下面通过具体实施方式进一步说明：

具体地，参照图1所示，本发明实施例中基于元宇宙的虚拟在线教学系统的系统模块包括眼动追踪模块、表情识别模块、3D建模模块、校准反馈模块。

眼动追踪模块是由相机拍摄人脸，定位眼部区域，在视频帧图像上进行，通过对学生眼神的追踪，记录某个学生本人的眼神状态及他人对此学生眼神的注视情况；

表情识别模块是由相机拍摄眼部视频，在图像点云上通过算法进行面部表情识别，通过表情分析学生的上课专注情况，便于老师与学生及时地交互；

3D建模模块是在相机视野范围内，获取相机坐标系下的障碍物点的坐标并得到学生及老师的半身立体模型的建构，通过半身建模创建人物形象，在线捕获人物肢体动作信息，从而增强课堂沉浸感及师生交互效果；

校准反馈模块是通过对元宇宙课堂的画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判，从而反馈优化课堂质量并提升师生在课堂内沟通的信任度。

所述眼动追踪模块，是为了获取师生的眼动图像或数据，通过对学生眼神的追踪，记录某个学生本人的眼神状态及他人对此学生眼神的注视情况：

具体的，本发明实施例的眼动追踪模块主要包括以下步骤：

S101、所述眼动追踪模块，采用视频采集设备配合EyeNet(一种Video-based eye-tracking)算法获取眼动图像；

在一个可选的实施例中，在本实施例中，所述步骤S101中的具体操作包括以下步骤：

S101-1、EyeNet角度损失函数的公式如下所示：

其中的一个批次包含N个长度为T的序列。

假设瞳孔大小可以估计，我们将其表示为

并定义损失/>

由P来给定。

S102、利用视频图像，定位课堂中的师生的眼部区域，并获得左右眼图像；

在一个可选的实施例中，在本实施例中，所述步骤S102中的具体操作包括以下步骤：

S102-1、视线跟踪方案，寻找眼睛感兴趣区域ROI，采用经典的阈值技术处理灰度图像。利用所有小于阈值的点(x_i,y_i)(i＝1,…,n)在二值化图像粗定位瞳孔中心位置。

根据粗定的瞳孔中心，把以它为中心的60×60pixel的矩形区域设置为感兴趣区域ROI(region of interest)，这样就缩小图像处理的范围，仅对感兴趣区域进行操作，提高了图像处理效率。

S103、计算视角方向及角度距离误差，以单位方向矢量的形式在球坐标系中输出预测课堂师生的的凝视方向，从而使得老师更好地把握学生的眼神动态，判断学生是否专注于学习；

S104、结合预测的凝视方向与三维凝视原点位置o(数据预处理时确定)，得到6个自由度的师生的凝视光线；

S105、将凝视光线与屏幕平面相交，利用屏幕平面的变换矩阵，计算师生的凝视点(PoG)；

S106、并计算面部相对坐标，用于师生的面部重建的眼部位置完善。

所述表情识别模块，是为了及时捕捉师生的脸部动态图像变化，通过表情分析学生的上课专注情况，便于老师与学生及时地交互：

具体的，本发明实施例的表情识别模块主要包括以下步骤：

S201、利用深度相机设备采集图像点云流，将每一帧的点云信息进行特征提取；捕获一段时期内师生的面部表情的一般特征和这一时刻的特定特征；

在一个可选的实施例中，在本实施例中，所述步骤S201中的具体操作包括以下步骤：

S201-1利用深度相机设备采集图像点云流，将每一帧的点云信息进行特征提取，捕获一段时期内面部表情的一般特征和这一时刻的特定特征，继而捕捉学生的眼神及表情变化，方便老师及时捕捉学生的眼神聚集在哪里，是否认真听课；

S201-2、利用粗到细的级联网络(CFC)提取粗特征，并将相似特征使用K-means算法聚类为粗略的类别；K-means算法，也称为K-平均或者K-均值，是一种使用广泛的最基础的聚类算法。假设输入样本为T＝X₁,X₂,…,X_m；则算法步骤为(使用欧几里得距离公式)：主要步骤为：1)选择初始化的k个类别中心a₁,a₂,…a_k，每个簇的样本数量为N₁,N₂,…,N_k；2)对于每个样本X_i，将其标记位距离类别中心a_j最近的类别j；3)更新每个类别的中心点a_j为隶属该类别的所有样本的均值；4)重复上面两步操作，直到达到设定的迭代次数、最小平方误差MSE、簇中心点变化率等中止条件；具体地，使用平方误差作为目标函数(使用欧几里得距离)，公式为：

要获取最优解，也就是目标函数需要尽可能的小，对J函数求偏导数，可以得到簇中心点a更新的公式为：

S201-2、老师可通过对学生的表情判断是否需要提醒学生专注听课；

S202、利用粗到细的级联网络提取粗特征，并将相似特征聚类为粗略的类别；

S203、利用缓存的前n帧特征，进行平均，减少噪音干扰，归一化后进一步用于获得细粒度的平滑预测；利用缓存的前n帧特征，进行平均，减少噪音干扰。归一化后进一步用于获得细粒度的平滑预测，数学上，给定n个相邻的帧图像，I₀,I₁,...I_i-1,I_i,I_i+1,...I_n-1在1和窗口大小(w)下，我们首先利用网络独立地从每幅图像中提取特征。在此之后，将获得n个图像特征，命名为f₀,...f_i,...f_n-1。然后，我们提出的SP模块将通过以下方式更新每个帧特征：

其中f′_i表示更新的特征。更新后的特征由两部分组成：唯一的当前帧特征和给定窗口大小中的通用特征。我们发现这将提高模型输出的平滑度以及性能。

S204、判定表情类别，这些类别将被用于面部重建时的矫正，可帮助情感判断。

所述3D建模模块，是为了通过半身建模创建人物形象，在线捕获人物肢体动作信息，从而增强课堂沉浸感及师生交互效果；

具体的，本发明实施例的3D建模模块主要包括以下步骤：

S301、根据采集设备，获取图像的横纵坐标[x,y]及深度信息z。得到相机坐标系下的坐标集合P＝[X Y Z]；

S302、得到相机坐标系下的点云数据后，利用关系式求解得到像素坐标系P_uv；

S303、得到师生立体形象，展现具有现实立体感的人物形象，并可通过肢体变化及时变化形态；通过对相机的基础设置，获取对齐的图像帧和相机内参，可获取三维坐标，主要公式为：

通过求解整理为：

X＝Z(u-c_x)/f_x

Y＝Z(v-c_y)/f_y

Z＝d

所述校准反馈模块，是为了通过对元宇宙课堂的画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判，从而反馈优化课堂质量并提升师生在课堂内沟通的信任度；具体的，本发明实施例的校准反馈模块主要包括以下步骤：

S401、根据画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判；

S402、根据评判分数对各子模块进行反馈调参，从而优化系统，达到一个虚拟逼真的课堂效果。

Claims

1.基于元宇宙的虚拟在线教学系统，其特征在于眼动追踪模块、表情识别模块、3D建模模块、校准反馈模块，眼动追踪模块，是由相机拍摄人脸并定位眼部区域，在视频帧图像上进行，通过对学生眼神的追踪，记录某个学生本人的眼神状态及他人对此学生眼神的注视情况，表情识别模块，是由相机拍摄眼部视频，在图像点云上通过算法进行面部表情识别，通过表情分析学生的上课专注情况，便于老师与学生及时地交互，3D建模模块，是在相机视野范围内，获取相机坐标系下的障碍物点的坐标并得到学生及老师的半身立体模型的建构，通过半身建模创建人物形象，在线捕获人物肢体动作信息，从而增强课堂沉浸感及师生交互效果，校准反馈模块是通过对元宇宙课堂的画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判，从而反馈优化课堂质量并提升师生在课堂内沟通的信任度。

2.根据权利要求1所述的眼动追踪模块，其特征在于通过对学生眼神的追踪，记录某个学生本人的眼神状态及他人对此学生眼神的注视情况。

3.根据权利要求1所述的表情识别模块，其特征在于通过表情分析学生的上课专注情况，便于老师与学生及时地交互。

4.根据权利要求1所述的3D建模模块，其特征在于获取相机坐标系下的障碍物点的坐标并得到学生及老师的半身立体模型的建构，通过半身建模创建人物形象，在线捕获人物肢体动作信息，从而增强课堂沉浸感及师生交互效果。

5.根据权利要求1所述的校准反馈模块，其特征在于通过对元宇宙课堂的画面流畅度、网络顺畅度及听觉与视觉是否和谐一致等多方面进行打分评判，从而反馈优化课堂质量并提升师生在课堂内沟通的信任度。