CN113253838A

CN113253838A - 基于ar的视频教学方法、电子设备

Info

Publication number: CN113253838A
Application number: CN202110354116.5A
Authority: CN
Inventors: 王岩; 杨森; 蔡红; 安�晟
Original assignee: Zuoyebang Education Technology Beijing Co Ltd
Current assignee: Zuoyebang Education Technology Beijing Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-08-13

Abstract

本发明属于在线教育技术领域，提供一种基于AR的视频教学方法、电子设备，该方法包括：响应于开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。本发明涉及的基于AR的视频教学方法、电子设备，能够为用户提供方便快捷的操作方式以调出虚拟对象，通过虚拟对象辅助教学工作，增加互动乐趣，提高教学效果。

Description

基于AR的视频教学方法、电子设备

技术领域

本发明涉及在线教育领域，具体而言，涉及一种基于AR的视频教学方法、电子设备。

背景技术

近年来，由于传统教学模式已经越来越不能满足学生对于多媒体、信息化、便于回放等现代教学方式的需求，随着互联网技术，特别是移动互联网技术的快速发展和普及，各种各样的基于互联网的教学平台或教学系统不断涌现，蓬勃发展。随着移动终端技术的快速发展，线上培训已经逐渐替代了线下培训模式。

在涉及大量专业知识的教学视频中，讲师一般会配合以PPT或者WORD等文件为主的教学文件来展示结构化的知识脉络，配以语音形式讲解课程内容。在一对多的教学场景下，教师和学生之间的互动受到限制，基本都是教师在教师终端上进行讲解，学生在学生终端上进行观看学习。使得在线教学课堂的趣味性较低，也可能会存在学生的课堂参与感较低的问题。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种基于AR的视频教学方法、电子设备，在教学中可以方便快捷地调出虚拟对象，通过虚拟对象辅助教学工作，增加互动乐趣，提高教学效果。

为解决上述技术问题，本发明的一方面提出一种基于AR的视频教学方法，该方法包括：响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。

在本发明的一种示例性实施例中，所述方法还包括：获取所述目标虚拟对象的显示位置；基于所述显示位置，将所述目标虚拟对象绘制在所述实时视频中。

在本发明的一种示例性实施例中，基于所述目标虚拟对象，获取所述目标虚拟对象的显示位置，包括：当所述目标虚拟对象的显示位置与用户做出所述预定义特征动作的动作发生区域相关时，获取用户做出所述预定义特征动作的动作发生区域；根据所述动作发生区域，确定所述目标虚拟对象的显示位置；和/或，当所述目标虚拟对象的显示位置与参考物的位置相关时，获取所述参考物的位置信息；根据所述参考物的位置信息，确定所述目标虚拟对象的显示位置。

在本发明的一种示例性实施例中，还包括：在所述目标虚拟对象被绘制在所述实时视频中进行展示时，获取所述用户针对所述目标虚拟对象的操作指令；在基于所述用户的实时视频形成的所述教学视频中，展示所述目标虚拟对象基于所述操作指令的被操作过程和/或被操作效果。

在本发明的一种示例性实施例中，获取所述用户的操作指令包括：在所述目标虚拟对象在所述实时视频中进行展示时，通过对用户的实时视频进行动作识别处理，获取所述用户针对所述目标虚拟对象的操作动作；基于所述目标虚拟对象和所述操作动作，获取与所述操作动作对应的针对所述目标虚拟对象的操作指令。

在本发明的一种示例性实施例中，所述目标虚拟对象为教学辅助物品；所述操作动作包括：缩放、移动位置、转换展示角度、释放、移除。

在本发明的一种示例性实施例中，包括下述情况中的一种或多种：所述目标虚拟对象为虚拟书写工具，随所述虚拟书写工具的移动，在所述教学视频中展示所述虚拟书写工具的移动轨迹作为书写痕迹；所述目标虚拟对象为虚拟擦除工具，随所述虚拟擦除工具的移动，在所述教学视频中清除所述虚拟擦除工具的移动路径上的书写痕迹；所述目标虚拟对象为虚拟实验用具，根据用户对所述虚拟实验用具的操作动作，在所述教学视频中展示所述虚拟实验用具预定义的被操作过程和/或被操作效果。

在本发明的一种示例性实施例中，所述对用户的实时视频进行处理以判断用户是否做出预定义特征动作，包括：将所述实时视频输入动作识别模型中进行动作识别，判断识别出的用户动作是否属于预定义特征动作集中的动作，所述动作识别模型通过深度学习模型实现。

在本发明的一种示例性实施例中，开启所述AR交互功能之前，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与开启所述AR交互功能相对应的第一特征动作；开启AR交互功能之后，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与关闭所述AR交互功能相对应的第二特征动作。

本发明第二方面提出一种基于AR的视频教学装置，该装置包括：识别模块，用于响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；虚拟对象获取模块，用于在判断用户做出所述预定义特征动作时，获取与所述预定义特征动作相对应的目标虚拟对象；展示模块，用于将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。

本发明第三方面提出一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一所述的视频教学方法。

本发明第四方面还提出一种计算机可读介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现如上述任一所述的视频教学方法。

本发明第五方面还提出一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令当被处理器执行时，实现上述任一项所述的视频教学方法。

根据本发明的基于AR的视频教学方法、装置、电子设备及计算机可读介质，响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。本发明的基于AR的视频教学方法，能够为用户提供方便快捷的操作方式调出虚拟对象，通过虚拟对象辅助教学工作，增加互动乐趣，提高教学效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种视频教学系统的系统框图。

图2是根据一示例性实施例示出的一种基于AR的视频教学方法的流程图。

图3是根据另一示例性实施例示出的一种基于AR的视频教学方法的流程图。

图4是根据另一示例性实施例示出的一种基于AR的视频教学方法的流程图。

图5是根据另一示例性实施例示出的一种基于AR的视频教学方法的效果示意图。

图6是根据一示例性实施例示出的一种基于AR的视频教学装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变，并不限于流程图的示例顺序。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本发明提出一种基于AR的视频教学方法及装置，能够增加学生和教师在学习中的互动性，促进学生掌握学习知识，辅助教师进行教学内容的展示。下面借助于具体的实施例，对本发明的内容进行详细说明。

AR(Augmented Reality，增强现实，简称AR)技术是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。

图1是根据一示例性实施例示出的视频教学系统框图。该系统可以用来实施本发明实施例提供的基于AR的视频教学方法。

如图1所示，系统架构10可以包括学生终端101、102、103，网络104和教师终端105。网络104用以在学生终端101、102、103和教师终端105之间提供通信链路的介质。网络104可以包括各种通信连接类型，例如可以是有线或无线通信链路，网络104可以包括光纤、电缆等等。

学生可以使用学生终端101、102、103通过网络104与教师终端105交互，以接收或发送消息等。学生终端101、102、103和教师终端105上可以安装有各种通讯客户端应用，例如视频学习类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

学生终端101、102、103和教师终端105均可以是具有显示屏并且支持视频教学的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

教师终端105可以获取教师教学相关的视频数据，并对视频数据进行处理，然后将视频展示学生终端101、102、103。

教师终端105可例如响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，教师终端105可例如获取与所述预定义特征动作相对应的目标虚拟对象；教师终端105可例如将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。

在其他应用场景中，系统架构10可包括教师使用的教师终端105、学生终端101、102、103和远端服务器。远端服务器可以是一个实体的服务器，还可例如由多个实体服务器组成。教师用户通过教师终端105进行视频教学，教师终端105可以获取实时的教师教学视频，然后教师终端105将视频数据传输至远端服务器中，远端服务器实时识别教师用户的手势、肢体动作等，在满足条件时，生成虚拟对象并展示在教师教学视频中，虚拟对象可为卡通形象，也可为虚拟的教具或实验用具，或者虚拟人物动物形象等等。远端服务器可将虚拟对象和教师用户的视频结合在一起，并生成最终的教学视频。远端服务器还可将该教学视频发送至学生终端101、102、103和教师终端105中，学生用户可观看到虚拟对象，更好的理解授课的内容，教师用户可以观看视频的合成效果。教师用户可通过虚拟对象的辅助，更好地设计教学过程，更加直观的表达课程内容同时吸引学生注意力。

更进一步的，可在教师终端105或远端服务器中，可提供动作识别模型。动作识别模型可通过下属方式生成：确定多个预设动作；基于所述多个预设动作生成/获取多个动作图像样本集合；再通过所述多个动作图像样本集合对深度学习模型进行训练以生成上述动作识别模型。

更进一步的，在教师终端105或远端服务器中，还可通过三维模型技术生成多个虚拟对象；并将该多个虚拟对象和多个预定义特征动作关联。当识别到用户做出某个预定义特征动作时，教师终端105或远端服务器的后台从多个虚拟对象中调用与该预定义特征动作对应的虚拟对象作为目标虚拟对象，并将目标虚拟对象显示在用户视频中。需要说明的是，本发明实施例所提供的基于AR的视频教学方法可以全部或部分地由教师终端105执行；也可以全部或部分地由远端服务器执行；也可以部分由教师终端105执行，部分由远端服务器执行。本发明实施例所提供的基于AR的视频教学方法还可以部分地由学生终端执行。本发明实施例对此不做限定。

相应地，实现本发明基于AR的视频教学方法的AR视频教学装置可以部分或全部设置于教师终端105中，也可以部分或全部设置于远端服务器，也可以部分设置于学生终端。

教师终端105还可以是服务器。

基于上述的系统或终端，下面描述本发明的基于AR的视频教学方法。在下文中，主要通过在线直播课这个应用场景来对本发明的技术内容进行详细说明，可以理解的是，本发明的技术内容还可应用在其他的场景中，比如直播环节、导购环节、其他人机交互环节等等，本发明不做限定。

另外，本发明也可以作为一种教学视频合成方法，基于视频中的教师动作在用户提供的一般教学视频中加入AR效果。

需要说明的是，下文中用户的“实时视频”仅用于表示该些视频可通过动作识别获取视频中人物的动作，并不用于限定所述视频是实时录制的视频。

图2是根据一示例性实施例示出的一种基于AR的视频教学方法的流程图。该视频教学方法20至少包括步骤S202、S204和S206。如图2所示，在S202中，响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作。

示例性地，在S202中，所述对用户的实时视频进行处理以判断用户是否做出预定义特征动作。在一些实施例中，步骤S202可以包括：响应于用户开启AR交互功能的指令，获取所述用户的实时视频；将所述实时视频输入动作识别模型中进行动作识别，判断识别出的用户动作是否属于预定义特征动作集中的动作，所述动作识别模型可以通过深度学习模型实现。

用户开启AR交互功能指令可例如，基于用户的语音或者鼠标、键盘的输入操作而获取；还可以例如实时采集用户动作并进行动作识别，在用户的动作满足预设条件时开启。在一个实施例中，教师用户可在视频授课的时候，可以通过打响指，后台识别出打响指的声音来自动开启AR交互功能。在另一个实施例中，为了不影响教师授课的连贯性，教师终端(或者远端服务器)可实时对教师用户的动作进行识别，在教师展示某些特定动作的时候，自动开启AR交互功能。

在S204中，如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象。在AR交互功能开启的情况下，获取用户的实时视频以进行动作识别。

示例性地，可将所述实时视频输入动作识别模型中，生成动作识别标签。所述动作识别模型可以通过深度学习模型实现。更具体的，可例如，由所述实时视频中提取多个连续的视频图像；将所述多个视频图像输入所述动作识别模型中；所述动作识别模型基于所述多个视频图像进行图像识别以输出动作识别标签，每个动作识别标签都可以和一个预定义特征动作相对应，在输出动作识别标签之后，即可通过预先存储的动作识别标签和预定义特征动作之间的关联关系，确定用户做出了哪个预定义特征动作。将实时视频输入动作识别模型之后，模型计算之后如果并没有输出动作识别标签，此时可认为，用户没有做出预定义特征动作。

在一些实施例中，为了更加准确的识别用户的动作或者手势，并均衡计算量，可提取视频中的多个视频图像进行图像识别，例如，可按照0.05秒为间隔，提取连续的10个视频图像输入动作识别模型中进行识别。更具体的，可按照每个视频图像的时间戳的顺序，依次将视频图像输入动作识别模型中进行识别。

在一些实施例中，开启所述AR交互功能之前，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与开启所述AR交互功能相对应的第一特征动作；开启AR交互功能之后，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与关闭所述AR交互功能相对应的第二特征动作。第一特征动作和第二特征动作一般不同于上述调用虚拟对象的预定义特征动作。

在一个实施例中，在用户开启AR交互功能的指令之前，以第一周期提取所述用户的实时视频以进行动作识别，判断用户是否做出开启AR交互功能指令对应的第一特征动作；在用户开启AR交互功能的指令之后，以第二周期提取所述用户的实时视频以进行动作识别，其中，第一周期大于第二周期。此时，可以将第一特征动作的持续时间定义的长些，至少大于所述第一周期。

更具体的，可在教师用户通过视频进行教学的过程中，采用较低的采样频率采集实时视频图像进行动作识别，以判断用户是否通过做出第一特征动作发出开启AR交互功能的指令。例如，可间隔0.1秒在视频图像中提取一个视频图像输入动作识别模型中进行识别。在开启AR交互功能之后，为了更加精确的对教师用户的动作进行动作识别，可采用更高的采样频率提取用户的实时视频图形，例如，可每间隔0.05秒从视频图像中提取一个实时视频图像输入到动作识别模型中进行识别。其中，与开启AR交互功能对应的第一特征动作要求至少持续0.1。

另外，在开启AR交互功能之后，还可基于关闭指令，退出所述AR交互功能。退出所述AR交互功能之后，可继续间隔0.1秒在视频图像中提取一个视频图像输入动作识别模型中进行识别，判断用户是否通过做出第一特征动作发出开启AR交互功能的指令。

在一个实施例中，开启所述AR交互功能之前，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与开启所述AR交互功能相对应的第一特征动作；开启AR交互功能的预定义的第一特征动作可为两手握拳并抵靠在一起，在对实时视频的识别中，当识别到教师用户做出上述动作(两手握拳并抵靠在一起)时，后台生成AR开启指令并执行，AR交互功能开启，开始执行步骤S202，监控用户是否做出调用虚拟对象的预定义特征动作。在开启AR交互功能之前，后台只监控用户是否做出与开启AR交互功能对应的第一特征动作。

在一个实施例中，开启AR交互功能之后，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与关闭所述AR交互功能相对应的第二特征动作。关闭AR交互功能的第二特征动作可预定义为双手均五指张开且左右手手指挨在一起。关闭AR交互功能的第二特征动作也可以预定义为与开启AR交互功能同样的动作，如两手握拳并抵靠在一起。在识别到教师用户做出上述动作时，后台生成AR关闭指令并执行，退出所述AR交互功能，即不再监控用户是否做出调用虚拟对象的预定义特征动作。值得一提的是，动作识别模型可设置在远端服务器中，也可设置在教师用户终端上。

在S206中，将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。可例如，预先通过三维模型技术生成多个虚拟对象；将所述多个虚拟对象和多个动作识别标签关联。基于上述关联关系，执行步骤S204时可根据动作识别模型输出的动作识别标签确定其对应的目标虚拟对象。执行步骤S206时将对应的目标虚拟对象显示在用户的实时视频中，形成教学视频。

可预先设计多个虚拟对象，并将虚拟对象和用户的动作(动作识别标签)一一对应，虚拟对象还可根据需要设置不同的参数和属性。开启AR交互功能后，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出预定义特征动作，则从多个虚拟对象中获取与上述预定义特征动作相对应的目标虚拟对象；将该目标虚拟对象绘制在用户的实时视频中，形成教学视频。

在一些实施例中，在虚拟对象为卡通形象时，可根据用户的表情确定卡通形象的标签，还可根据用户的手势动作确定卡通形象位置和动作等等。

在一些实施例中，上述虚拟对象还可支持教师用户的自定义功能，教师用户可设置虚拟对象及其出现位置。具体地，例如用户可以设置或选择的虚拟对象的自身属性，例如当虚拟对象是卡通对象时，教师用户可自定义卡通形象的颜色、服装、配饰等等。其中，调用虚拟对象的预定义特征动作亦可支持教师用户的自定义。教师用户可以对调用虚拟对象的特征动作进行自定义，还可以对关闭/开启AR交互功能的第一、第二特征动作进行自定义。这样，更便于教师进行课堂设计。

在一些实施例，可以预先采集教师用户上课时做出的无意识的习惯性的小动作，在用户进行特征动作自定义时，自动避开或建议用户避开这些小动作，避免教师无意识地调用虚拟对象，扰乱课堂设计。

在另一些实施例，步骤S202之前(例如在基于本发明的设备初次使用时)，本实施例提供的基于AR的视频教学方法还可包括：采集教师用户上课时做出的无意识的习惯性的小动作并进行动作识别，自动对调用虚拟对象的预定义特征动作进行调整或提出调整建议，方便教师进行课堂设计。

在一个实施例中，步骤S206包括：获取所述目标虚拟对象的显示位置；基于所述显示位置，将所述虚拟对象绘制在所述实时视频中。示例性地，当所述目标虚拟对象的显示位置与用户做出所述预定义特征动作的动作发生区域相关时，获取用户做出所述预定义特征动作的动作发生区域；根据所述动作发生区域，确定所述目标虚拟对象的显示位置。示例性地，当所述目标虚拟对象的显示位置与参考物的位置相关时，获取所述参考物的位置信息；根据所述参考物的位置信息，确定所述目标虚拟对象的显示位置。

根据目标虚拟对象的不同，其显示位置可不同。有些目标虚拟对象例如虚拟黑板、虚拟黑板擦、虚拟粉笔、虚拟课桌可能会设置在视频页面中的特定区域。例如，虚拟黑板的显示位置可预先设定为：位于用户的后面，大致在视频的中央位置。有些目标虚拟对象的显示位置可能设置在动作发生区域或其附近，例如，教师做出划圆动作，在划圆处出现圆形或出现球性物体；又例如，教师双手叉腰，在教师旁边出现奥特曼卡通形象。有些目标虚拟对象的显示位置可能设置在某个参照物的附近，例如，虚拟黑板擦的显示可位置为：黑板的下边缘处，或者虚拟课桌上的某一位置。又例如，教师敲击虚拟课桌，在虚拟课桌的一角出现内装多个虚拟书写工具的虚拟笔盒。

虚拟对象的显示位置可在设置虚拟对象或者在设置虚拟对象与预定义特征动作的关联关系时一并设置。在一些实施例中，可将虚拟对象的显示位置作为虚拟对象的一个属性(如虚拟对象的显示属性)设置，并可进行预定义或自定义。

当目标虚拟对象的显示位置预先设置为在视频页面中的特定区域时，获取目标虚拟对象的显示位置，一般只要获取相关参考点位置即可。例如如果设定虚拟黑板的显示位置为，用户(教师)的后面，视频的中央位置。确定虚拟黑板的显示位置需要的信息一般需要：目标虚拟对象是虚拟黑板，用户(教师)的位置，与整个教学视频的显示区域相关的信息。确定虚拟黑板的显示位置需要的信息时，当确定目标虚拟对象是虚拟黑板，并从其显示属性确定显示位置为“位于用户的后面，大致在视频的中央位置”时，获取用户的位置，与整个教学视频的显示区域相关的信息(用于确定视频的中央位置)。

如果目标虚拟对象的显示位置是动作发生区域或其附近，则需要获取用户做出预定义特征动作的动作发生区域。在一个实施例中，在虚拟对象需要显示在动作发生区域时，可在动作识别时同时输出动作发生区域，进而确定目标虚拟对象的显示位置。例如预定义特征动作为教师用户敲击虚拟桌面，在虚拟桌面的敲击处出现虚拟黑板擦，在这种情况下，敲击虚拟桌面的敲击位置为动作发生区域，黑板擦则可显示在敲击位置周围的区域。

如果目标虚拟对象的显示位置与某个参考物的位置相关时，确定目标虚拟对象的显示位置时，先获取该参考物的位置信息，再根据该参考物的位置信息，确定所述目标虚拟对象的显示位置。该参考物可以是用户，也可以是视频中的某一物体，还可以是已出现在教学视频中的另一虚拟对象，也可以是视频画面的中间点等等。

根据本发明的基于AR的视频教学方法，响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频的方式，能够为用户提供方便快捷的操作方式以调出虚拟对象，通过虚拟对象辅助教学工作，增加互动乐趣，提高教学效果。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据另一示例性实施例示出的一种基于AR的视频教学方法的部分流程图。图3所示的流程30是对“建立所述动作识别模型”的详细描述。

如图3所示，在S302中，确定多个预设动作。可预先确定多个便于实现的动作，可例如为双手叉腰站立，双手比划形状，五指伸开等等。多个预设动作至少包含全部的预定义特征动作和用于开启和关闭AR交互功能的第一特征动作和第二特征动作。

在S304中，基于所述多个预设动作生成多个动作图像样本集合，其中，每个动作图像样本集合对应一个动作识别标签。选取不同的用户执行上述操作以生成多个动作图像样本。可拍摄不同的身高，体重，性别的用户的动作图像样本，还可拍摄不同的用户距离采集端不同距离时的动作图像样本，还可拍摄用户全身或者是半身的动作图像样本等等，通过以上的方式增加了样本的多样性，也能保证后续进行图像识别时的准确性。

在S306中，通过所述多个动作图像样本集合对深度学习模型进行训练以生成所述动作识别模型。深度学习是一类模式分析方法的统称，可通过如下三种网络模型中的一种或多种的结合进行训练以生成本发明中的动作识别模型：

(1)基于卷积运算的神经网络系统，即卷积神经网络(CNN)；

(2)基于多层神经元的自编码神经网络；

(3)以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

由于所有的视频数据均会输入到动作识别模型中进行识别，在一些实施例中，可考虑到识别的准确率和性能，教师用户开启和关闭AR交互功能的手势或动作可以是在整个视频教学过程中持续识别的，为了节约模型计算时间和计算资源，其他的动作(例如，除开启AR交互功能之外的其他动作)在未开启AR交互功能时不会进行识别。在未开启AR交互功能时，在有些情况下即使动作识别模型识别到了其他动作，也与本发明实施方案无关，可直接将识别结果丢弃或按其他方案进行处理。只有在开启了AR交互功能之后才输出该动作对应的动作标签，以确定目标虚拟对象并输出，即，虚拟对象是在开启了AR交互功能之后才输出。

在一个实施例中，在所述目标虚拟对象被绘制在所述实时视频中进行展示时，获取所述用户针对所述目标虚拟对象的操作指令；在基于用户的实时视频形成的教学视频中，展示上述虚拟对象基于所述操作指令的被操作过程和/或被操作效果。操作指令可为语音操作指令，也可为鼠标键盘等操作指令，本实施例不做限定。教学视频中可同时展示多个虚拟对象，当用户对某个虚拟对象进行点选或对其操作时，确定该虚拟对象为本文此处或下述中的目标虚拟对象。

其中，获取所述用户的操作指令包括：在某个目标虚拟对象在所述实时视频中进行展示时，通过对用户的实时视频进行动作识别处理，获取所述用户针对所述目标虚拟对象的操作动作；基于所述目标虚拟对象和所述操作动作，获取与所述操作动作对应的针对所述目标虚拟对象的操作指令。图4是根据另一示例性实施例示出的一种基于AR的视频教学方法的部分流程图。图4所示的流程40是对图2所示的流程AR交互功能的补充描述。

如图4所示，本实施例的基于AR的视频教学方法，除图2所示的流程外，还包括步骤S402、S404、S406。在步骤S402中，在目标虚拟对象被绘制在实时视频中进行展示时，通过对用户的实时视频进行动作识别处理，获取所述用户针对所述目标虚拟对象的操作动作。

在步骤S404中，根据所述目标虚拟对象和所述操作动作，获取与所述操作动作对应的针对所述目标虚拟对象的操作指令。

所述目标虚拟对象可以为教学辅助物品；所述操作动作可以包括：缩放、移动位置、转换展示角度、释放、移除。根据实际情况和需要，操作动作还可以包括其他动作。

在步骤S406中，在基于所述用户的实时视频形成的所述教学视频中，展示所述目标虚拟对象基于所述操作指令的被操作过程和/或被操作效果。

示例性地，所述目标虚拟对象可以为虚拟书写工具，随所述虚拟书写工具的移动，在所述教学视频中展示所述虚拟书写工具的移动轨迹作为书写痕迹。在一个实施例中，所述目标虚拟对象可为虚拟粉笔，可通过用户的操作指令，将虚拟粉笔进行移动操作，根据虚拟粉笔移动的轨迹在教学视频图像上显示为书写笔迹或书写痕迹。

示例性地，所述目标虚拟对象可以为虚拟擦除工具，随所述虚拟擦除工具的移动，在所述教学视频中清除所述虚拟擦除工具的移动路径上的书写痕迹。例如，所述目标虚拟对象可为虚拟黑板擦；虚拟黑板擦操作动作可包括：缩放、移动位置、释放、移除等。例如，可通过用户的操作指令，将虚拟黑板擦进行移动操作。随着虚拟黑板擦的移动，将黑板擦移动的轨迹上的图像进行清除操作。还可例如，根据用户的放大缩小指令(可以通过某个特征动作调用)，调整所述黑板擦的大小以配合所述用户的移动操作。

示例性地，所述目标虚拟对象可以为虚拟实验用具，根据用户对虚拟实验用具的操作动作，在教学视频中展示该虚拟实验用具预定义的被操作过程和/或被操作效果。例如，虚拟实验用具为虚拟弹簧，虚拟弹簧可被进行的操作除缩放、移动位置、转换展示角度、释放、移除之外，还可包括被压缩或被拉长，如果获取到用户对虚拟弹簧进则行了拉伸操作，在教学视频中展示虚拟实验弹簧被拉伸的过程及被拉长产生的联动操作效果。

如图5所示，在一个实施例中，还包括：在某个虚拟对象在所述实时视频中进行展示时，获取用户针对该虚拟对象的操作指令；将基于操作指令对该虚拟对象进行的操作过程和/或效果展示在教学视频中。在一个实施例中，虚拟对象为教学辅助物品，可例如在教师用户双手成拖举物体时，生成虚拟天体形象，默认可设置将该天体形象展示在视频图像的上方。如果教师用户感觉显示位置在左边，不便讲解，想将虚拟天体移动到右侧，教师用户可通过做出向右拖拉虚拟天体的动作，后台通过动作识别，生成虚拟对象移动指令。进而在教学视频图像中，将虚拟天体形象向右移动并展示在右侧。另外，在一些实施例中，还可根据教师的手势或者鼠标键盘等操作生成旋转指令，进而旋转该虚拟天体以进行多个角度的展示。

在一个实施例中，还包括：在所述虚拟对象在教学视频中进行展示时，除识别预定义特征动作外，还获取所述用户的动作轨迹；所述虚拟对象的显示与述用户的动作轨迹相关。例如，跟随所述用户的动作轨迹进行展示。在一个实施例中，虚拟对象可为虚拟太阳形象。当教师用户双手比划划出一个圆形时，会出现一个虚拟太阳的形象，则这个虚拟太阳的形象就直接跟随用户双手划圆的轨迹显示出来，虚拟太阳展示在用户双手划圆的地方。还可例如，教师用户在虚拟太阳的位置握拳则生成虚拟太阳的选定指令，教师用户此时再移动拳头时，虚拟太阳就会随着手移动的轨迹进行移动。还可在教师用户松开拳头，后台生成释放虚拟太阳的指令，虚拟太阳停止移动，虚拟太阳停留在视频画面的当前位置等等。

本领域技术人员可以理解实现上述实施例的全部或部分步骤可被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为实现本发明上述方法的装置实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图6是根据另一示例性实施例示出的一种基于AR的视频教学装置的框图。如图6所示，AR视频教学装置60包括：识别模块602，虚拟对象获取模块604，展示模块606。

识别模块602用于响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作。

虚拟对象获取模块604用于在判断用户做出所述预定义特征动作时，获取与所述预定义特征动作相对应的目标虚拟对象；

展示模块606用于将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。展示模块606还用于获取所述目标虚拟对象的显示位置；基于所述显示位置，将所述虚拟对象绘制在所述实时视频中。

根据本发明的基于AR的视频教学装置，响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频的方式，能够为用户提供方便快捷的操作方式以调出虚拟对象，通过虚拟对象辅助教学工作，增加互动乐趣，提高教学效果。本发明还提供另一种基于AR的视频教学系统，该视频教学系统包括学生终端101、102、103，网络104和教师终端105。网络104中设置有远端服务器。学生终端101、102、103响应于开启AR交互功能的指令，将开启AR交互功能的指令上传给远端服务器。远端服务器中设置有上述的识别模块602、虚拟对象获取模块604和展示模块606。远端服务器响应该指令进行预定义特征动作识别以及目标虚拟对象调用，生成包括目标虚拟对象的教学视频并发送给学生终端101、102、103。学生终端101、102、103展示包含虚拟对象的教学视频。

在另一实施例中，与前一实施例的不同之处在于，教师终端105设置有上述的识别模块602、虚拟对象获取模块604和展示模块606，教师终端105将教学视频发送给远端服务器，学生终端101、102、103从远端服务器获取包含虚拟对象的教学视频。

在另一实施例中，与前一实施例的不同之处在于，教师终端105设置有上述的识别模块602，远端服务器设置有虚拟对象获取模块604和展示模块606，教师终端105将实时视频和与实时视频时间对应的预定义特征动作发送给远端服务器，远端服务器生成教学视频。

如上，识别模块602、虚拟对象获取模块604和展示模块606的模块设置存在多种可能，例如还可以某个功能模块或其部分功能设置在教师终端，其他功能模块或部分的功能设置在学生终端，本发明对此不做限定，均应包括在本发明的保护范围内。图7是根据一示例性实施例示出的一种电子设备的框图。

如图7所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图7显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

本发明还提出一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令当被处理器执行时，实现上述任一项所述的视频教学方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图8所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：响应于用户开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于AR的视频教学方法，其特征在于，包括：

响应于开启AR交互功能的指令，对用户的实时视频进行动作识别处理，以判断用户是否做出预定义特征动作；

如果用户做出所述预定义特征动作，获取与所述预定义特征动作相对应的目标虚拟对象；

将所述目标虚拟对象绘制在所述用户的实时视频中，形成教学视频。

2.如权利要求1所述的视频教学方法，其特征在于，还包括：

获取所述目标虚拟对象的显示位置；

基于所述显示位置，将所述目标虚拟对象绘制在所述实时视频中。

3.如权利要求2所述的视频教学方法，其特征在于，基于所述目标虚拟对象，获取所述目标虚拟对象的显示位置，包括：

当所述目标虚拟对象的显示位置与用户做出所述预定义特征动作的动作发生区域相关时，获取用户做出所述预定义特征动作的动作发生区域；根据所述动作发生区域，确定所述目标虚拟对象的显示位置；和/或，

当所述目标虚拟对象的显示位置与参考物的位置相关时，获取所述参考物的位置信息；根据所述参考物的位置信息，确定所述目标虚拟对象的显示位置。

4.如权利要求1所述的视频教学方法，其特征在于，还包括：

在目标虚拟对象被绘制在所述实时视频中进行展示时，获取所述用户针对所述目标虚拟对象的操作指令；

在基于所述用户的实时视频形成的所述教学视频中，展示所述目标虚拟对象基于所述操作指令的被操作过程和/或被操作效果。

5.如权利要求4所述的视频教学方法，其特征在于，获取所述用户的针对所述目标虚拟对象的操作指令包括：

在目标虚拟对象被绘制在所述实时视频中进行展示时，通过对用户的实时视频进行动作识别处理，获取所述用户针对所述目标虚拟对象的操作动作；

基于所述目标虚拟对象和所述操作动作，获取与所述操作动作对应的针对所述目标虚拟对象的操作指令。

6.如权利要求5所述的视频教学方法，其特征在于，所述目标虚拟对象为教学辅助物品；所述操作动作包括：缩放、移动位置、转换展示角度、释放、移除。

7.如权利要求6所述的视频教学方法，其特征在于，包括下述情况中的一种或多种：

所述目标虚拟对象为虚拟书写工具，随所述虚拟书写工具的移动，在所述教学视频中展示所述虚拟书写工具的移动轨迹作为书写痕迹；

所述目标虚拟对象为虚拟擦除工具，随所述虚拟擦除工具的移动，在所述教学视频中清除所述虚拟擦除工具的移动路径上的书写痕迹；

所述目标虚拟对象为虚拟实验用具，根据用户对所述虚拟实验用具的操作动作，在所述教学视频中展示所述虚拟实验用具预定义的被操作过程和/或被操作效果。

8.如权利要求1所述的视频教学方法，其特征在于，所述对用户的实时视频进行处理以判断用户是否做出预定义特征动作，包括：

将所述实时视频输入动作识别模型中进行动作识别，并判断识别出的用户动作是否属于预定义特征动作集中的动作，所述动作识别模型通过深度学习模型实现。

9.如权利要求1所述的视频教学方法，其特征在于，开启所述AR交互功能之前，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与开启所述AR交互功能相对应的第一特征动作；

开启AR交互功能之后，所述视频教学方法还包括：对用户的实时视频进行动作识别处理，以判断用户是否做出与关闭所述AR交互功能相对应的第二特征动作。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的视频教学方法。