CN116805458A

CN116805458A - 辅助教学方法、装置、设备及存储介质

Info

Publication number: CN116805458A
Application number: CN202310580316.1A
Authority: CN
Inventors: 张膂; 张海洋; 冉勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-09-26

Abstract

本公开提供了一种辅助教学方法、装置、设备及存储介质，涉及计算机技术领域，尤其涉及辅助教学、智慧教学等领域。具体实现方案为：响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息；确定虚拟对象的驱动信息；根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；将辅助教学视频发送至学习端，以在学习端展示辅助教学视频。使得学生可以根据自己的喜好改变虚拟对象的外形，并通过虚拟对象展示的辅助教学视频进行学习，提高了学生学习的兴趣，进一步提升了学生学习的效率和质量。

Description

辅助教学方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及辅助教学、智慧教学等技术领域，具体涉及一种辅助教学方法、装置、设备及存储介质。

背景技术

目前，随着移动互联网时代的大步迈进，以计算机技术和网络技术的广泛应用为特征的信息时代的到来，对传统教育体制改革带来了巨大的活力，未来教学具有创造性、多样性、开放性和个性化的特点，落后的教学手段与封闭的管理模式、教学模式再也不能适应未来教育的需求，因此，智能化的辅助教学系统建设已经成为发展趋势。

发明内容

本公开提供了一种辅助教学方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种辅助教学方法，包括：响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息；确定虚拟对象的驱动信息；根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；将辅助教学视频发送至学习端，以在学习端展示辅助教学视频。

根据本公开的另一方面，提供了一种辅助教学方法，包括：响应于学习用户的外形选择指令，将外形选择指令发送至服务器，以使服务器确定与外形选择指令相对应的虚拟对象的外形信息；接收并展示由服务器发送的辅助教学视频，辅助教学视频为服务器根据虚拟对象的外形信息和虚拟对象的驱动信息合成的虚拟对象的辅助教学视频。

根据本公开的另一方面，提供了一种辅助教学方法，包括：获取教学用户的教学视频；将教学视频发送至服务器，以使服务器解析教学视频中教师的原始行为信息，并由服务器根据原始行为信息，确定虚拟对象的驱动信息，进一步由服务器根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；辅助教学视频为由服务器发送至学习端的、并展示在学习端的辅助教学视频；虚拟对象的外形信息为服务器根据接收到的由学习端发送的外形选择指令确定的外形信息。

根据本公开的另一方面，提供了一种辅助教学装置，包括：第一确定单元，用于响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息；第二确定单元，用于确定虚拟对象的驱动信息；合成单元，用于根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；第一发送单元，用于将辅助教学视频发送至学习端，以在学习端展示辅助教学视频。

根据本公开的另一方面，提供了一种辅助教学装置，包括：第二发送单元，用于响应于学习用户的外形选择指令，将外形选择指令发送至服务器，以使服务器确定与外形选择指令相对应的虚拟对象的外形信息；展示单元，用于接收并展示由服务器发送的辅助教学视频，辅助教学视频为服务器根据虚拟对象的外形信息和虚拟对象的驱动信息合成的虚拟对象的辅助教学视频。

根据本公开的另一方面，提供了一种辅助教学装置，包括：第一获取单元，用于获取教学用户的教学视频；第三发送单元，用于将教学视频发送至服务器，以使服务器解析教学视频中教师的原始行为信息，并由服务器根据原始行为信息，确定虚拟对象的驱动信息，进一步由服务器根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；辅助教学视频为由服务器发送至学习端的、并展示在学习端的辅助教学视频；虚拟对象的外形信息为服务器根据接收到的由学习端发送的外形选择指令确定的外形信息。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与该至少一个处理器通信连接的存储器；其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

本公开实施例提供的辅助教学方法、装置、设备及存储介质。通过响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息；确定虚拟对象的驱动信息；根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；将辅助教学视频发送至学习端，以在学习端展示辅助教学视频。使得学生可以根据自己的喜好改变虚拟对象的外形，并通过虚拟对象展示的辅助教学视频进行学习，提高了学生学习的兴趣，进一步提升了学生学习的效率和质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为应用本公开实施例的辅助教学方法的系统的结构示意图；

图2为根据本公开一实施例提供的辅助教学方法的示意图；

图3为根据本公开一实施例提供的虚拟对象的外形图；

图4为根据本公开另一实施例提供的辅助教学方法的示意图；

图5为根据本公开又一实施例提供的辅助教学方法的示意图；

图6a为根据本公开一实施例提供的辅助教学系统框架图；

图6b为根据本公开一实施例提供的辅助教学系统的交互框架图；

图6c为根据本公开一实施例提供的虚拟对象的驱动框架图；

图6d为根据本公开一实施例提供的虚拟对象的驱动过程图；

图7为根据本公开一实施例提供的辅助教学方法在授课场景下的流程示意图；

图8为根据本公开一实施例提供的辅助教学方法在OCR识别场景下的流程示意图；

图9为根据本公开一实施例提供的辅助教学方法在语音问询场景下的流程示意图；

图10为根据本公开一实施例提供的辅助教学装置的示意图；

图11为根据本公开另一实施例提供的辅助教学装置的示意图；

图12为根据本公开又一实施例提供的辅助教学装置的示意图；

图13是用来实现本公开实施例的辅助教学方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供一种辅助教学方法、装置、电子设备及存储介质。具体地，本公开实施例的辅助教学方法可以由电子设备执行，其中，该电子设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、智能语音交互设备、智能家电、穿戴式智能设备、飞行器、智能车载终端等设备，终端还可以包括客户端，该客户端可以是音频客户端、视频客户端、浏览器客户端、即时通信客户端或小程序等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

首先对本公开实施例涉及的名词进行解释。

虚拟数字人：简称数字人，是指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力、交互能力等)人机结合的综合产物。

虚拟数字人可按人格象征和图形维度划分，亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。语音生成模块和动画生成模块可分别基于文本生成对应的人物语音以及与之相匹配的人物动画；音视频合成显示模块将语音和动画合成视频，再显示给用户。交互模块使数字人具备交互功能，即通过语音语义识别等智能技术识别用户的意图，并根据用户当前意图决定数字人后续的语音和动作，驱动人物开启下一轮交互。虚拟数字人是基于CG(Computer Graphics，计算机图形)技术与人工智能技术打造出的数字化虚拟人物。就交互能力而言，数字人包括交互型与非交互型两类，其中交互型数字人在真人驱动或智能系统驱动下，具备类人动作及感知能力，可实现与真实世界的交互。就应用场景区分，数字人又可被划分为身份型与服务型两类，前者囊括虚拟化身及虚拟IP(Intellectual Property，知识产权)/偶像，是真实世界人物向虚拟世界“进阶”的产物，“人设”属性较为明显，而后者主要为企业端或个人端用户提供办公、陪伴等拟人化服务，实现部分人力资源的替代。虚拟数字人的生成主要分为建模、驱动、渲染三大环节，通过驱动和渲染展现出的虚拟人物，达到和真人交互的目的，后台驱动对话的可以是机器人，也可以是真人对话驱动，本公开实施例中的虚拟数字人为可以由真人驱动方式的人机交互方式。

虚拟数字人的特点有以下几点。

(1)三维人物：信息的传输需要载体，也就是通过建模技术完成的虚拟人物，把三维人物形象作为载体可以融入语音、文字、动作、情绪等信息传输给数字人，数字人展示动作、表情、以及语言表达等等。

(2)语言：表示数字人所表达的内容，以怎么样的声音说话，用的是英语汉语还是方言。

(3)形象表情动作：一个数字人不只是单纯与人沟通还不够，还可以做出不同的表情动作。

(4)情绪：情绪可以附加在语言和表情动作里，让信息传输的带宽更大。

(5)环境模型：数字人展示的环境背景，例如是在大厅，或者在房间，在户外等。然后数字人的周围有些什么，这都可以衬托出不同的氛围。

相关技术中的辅助教学系统多是通过视频教程或者在线直播的方式。对视频教程而言，辅助教学系统会提供一些解题的视频教程供学生观看。但是，该观看方式枯燥，学生的学习兴趣不高，导致学习质量和学习效率低下。

学生在观看视频教程之后，无法与教师互动，教师也无法得到很好的反馈，学生遇到不会习题或者听不懂的内容，很难从教学系统获得解答。

并且，当教师直播讲课时，学生面对不喜欢的教师讲课时，枯燥无味使得注意力不集中学习质量下降，遇到不喜欢的授课风格的教师，学习兴趣都会受到影响，从而导致学习效率和质量下降。另外，教师也无法获取学生的学习状态。

为了解决上述问题中的至少一个，本公开实施例提供一种辅助教学方法、装置、设备及存储介质。通过响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的确定虚拟对象的外形信息；确定虚拟对象的驱动信息；根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；将辅助教学视频发送至学习端，以在学习端展示辅助教学视频。使得学生可以根据自己的喜好改变虚拟对象的外形，并通过虚拟对象展示的辅助教学视频进行学习，提高了学生学习的兴趣，进一步提升了学生学习的效率和质量。

以下将结合附图对本公开实施例进行具体说明。

图1为应用本公开实施例的辅助教学方法的系统的结构示意图。请参照图1，该系统包括学习端110、服务器120和教学端130；教学端130和学习端110均为终端，学习端110和服务器120之间通过网络连接，比如，通过有线或无线网络连接等。教学端130和服务器120之间通过网络连接，比如，通过有线或无线网络连接等。学生可以作为学习用户使用学习端110进行学习，教师可以作为教师用户使用教学端120进行教学。

其中，学习端110和教学端130可以用于显示图形用户界面，通过图形用户界面与用户进行交互，例如通过终端下载安装相应的客户端并运行，例如通过调用相应的小程序并运行。学习端110的操作用户可以为学习用户，教学端130的操作用户可以为教学用户。学习端110能够响应于学习用户的外形选择指令，将外形选择指令发送至服务器120，服务器120接收外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息；确定虚拟对象的驱动信息；根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；将辅助教学视频发送至学习端110。学习端110还能够展示该辅助教学视频。教学端130能够获取教学用户的教学视频；将教学视频发送至服务器130，并通过服务器130向学习端110提供服务。

需要说明的是，应用程序可以为安装在台式机上的应用程序、也可以为安装在移动终端的应用程序，还可以为嵌入到应用程序中的小程序等。

需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施例在此方面不受任何限制。相反，本公开的实施例可以应用于适用的任何场景。

以下进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

图2为根据本公开一实施例提供的辅助教学方法的示意图；图3为根据本公开一实施例提供的虚拟对象的外形图；请参照图2和图3，本公开实施例提供一种辅助教学方法200，用于服务器中，该方法包括以下步骤S201至步骤S204。

步骤S201，响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息。

步骤S202，确定虚拟对象的驱动信息。

步骤S203，根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频。

步骤S204，将辅助教学视频发送至学习端，以在学习端展示辅助教学视频。

虚拟对象可以为虚拟数字人，或者，虚拟对象还可以为其他动物形象或卡通形象等。为了便于说明，以下以虚拟对象为虚拟数字人(数字人)为例进行说明。学习用户可以为学生用户，即学生。

学习端可以设置有外形选择控件，外形选择控件可以包括系统提供的多种可选的外形，学习用户可以通过操作外形选择控件触发外形选择指令，从而选择其中一种自己喜爱的外形。学习端可以将外形选择指令发送至服务器中。

步骤S201中，服务器接收到外形选择指令后，可以根据该外形选择指令确定出虚拟对象的外形信息。外形信息为虚拟对象的外观形象，外观形象根据人物图形资源的维度，可以为2D(二维)或3D(三维)形象，从外形上又可分为卡通、拟人、写实、超写实等风格。例如，虚拟对象的外观形象可以为人、动物、卡通形象等，人的形象还可以分为男人、女人、老人、小孩等形象。

步骤S202还可以确定虚拟对象的驱动信息。驱动信息可以包括表情、动作、语言等的至少一种信息。这些驱动信息可以分别用于形成虚拟对象的表情、动作和语言，从而驱动虚拟对象实现相应行为。驱动信息的种类可以为智能驱动型或真人驱动型，真人驱动型可以依靠教师真人的行为(例如教师的表情、动作等)作为驱动信息，来驱动数字人，或者智能型驱动可以使用预先训练的AI(Artificial Intelligence，人工智能)人物模型生成驱动信息，来驱动数字人。或者，驱动信息还可以是系统预先设置好的行为驱动信息。

步骤S203可以根据外形信息和驱动信息来合成虚拟对象的辅助教学视频。可以理解，辅助教学视频的主要演示者为虚拟对象，即由虚拟数字人展示的教学视频。辅助教学视频可以为授课视频、讲解视频、答疑视频等各种不同类型。

在生成辅助教学视频后，服务器可以将辅助教学视频发送至学习端，学习端可以展示辅助教学视频，从而对学习用户进行教学辅助。

本实施例中，在遇到不喜欢的授课风格的教师时，学习用户可以自主选择进行辅助教学的虚拟对象的外形，从而可以使得学生在观看辅助教学视频时，视频中的演示者外形为自身喜爱或感兴趣的外观形象，提高了学生学习的兴趣和注意力，提升了学生学习的效率和质量。

在一些实施例中，步骤S201中的响应于接收到由学习端发送的外形选择指令，确定与外形选择指令相对应的虚拟对象的外形信息，包括：响应于接收到由学习端发送的对外形影像信息的上传指令，将外形影像信息确定为虚拟对象的外形信息；或者，响应于接收到由学习端发送的对多个预设外形信息中的第一预设外形信息的选择指令，将第一预设外形信息确定为虚拟对象的外形信息。

可以理解，学习用户可以自行上传外形影像信息或者采用系统内置的第一预设外形信息。例如，学习端提供的外形选择控件可以包括预设外形控件以及外形上传控件。

外形上传控件可以允许学习用户上传本地的外形图像或视频作为外形影像信息，例如将自己喜欢的人物的图像上传。在上传的外形影像信息为视频时可以将视频中的对象(真实人物或者卡通人物)的形象作为虚拟对象的外形信息。

预设外形控件可以包括多个系统内置的预设外形信息。用户可以选择自己喜欢的其中一个预设外形信息，即第一预设外形信息。预设外形信息对应的虚拟对象的外形的性别可以为男人、女人等，针对每一特定性别又可以提供多种形象，例如长发、短发、老人、青年、儿童等供选择。用户可以任意选择其中一种，如图3所示。

当学习用户选择自行上传外形影像信息时，学习端可以将外形影像信息的上传指令作为外形选择指令，发送至服务器。服务器可以将该外形影像信息确定为虚拟对象的外形信息，例如将外形影像信息中的面部或整体形象作为虚拟对象的外形。

当学习用户选择第一预设外形信息时，学习端可以将第一预设外形信息的选择指令作为外形选择指令，发送至服务器。服务器可以将第一预设外形信息确定为虚拟对象的外形信息，即使用系统内置的虚拟对象的外形。

通过系统内置的第一预设外形信息以及学生自行上传外形影像信息，可以增多虚拟对象的外形的可选种类，使得学生可以更好地选择自己喜爱或感兴趣的虚拟对象的外形。

在一些实施例，步骤S202中的确定虚拟对象的驱动信息，可以包括：获取教学视频；解析教学视频中教师的原始行为信息；以及根据原始行为信息，确定虚拟对象的驱动信息。

其中，教学视频可以为教师的授课视频。在一些实施例中，获取教学视频，可以包括：接收由教学端发送的教学视频，教学视频包括直播视频或者录播视频。

可以理解，教学用户可以为教师用户，即教师。教学视频可以为教学用户通过教学端上传的录播的教学视频，录播的教学视频可以设置播放时间，从而在该时间自动播放。或者，教学视频可以为教学用户通过教学端进行的在线直播授课的教学视频，此时，教学视频可以为实时视频流。直播视频和录播视频可以满足多种授课场景，使用更加方便。

在另一些实施例中，获取教学视频，可以包括：获取预先存储于服务器中的教学视频。本实施例中，教学视频可以为标准课程讲解等云数据资源。即服务器可以提供教学视频供学习用户学习，由于线上教师授课比较昂贵，通过服务器存储教学视频，可以降低学生学习的成本，缓解家庭经济压力。

教学视频中可以具有教师的相关影像，获取教学视频后，服务器可以解析教学视频中教师的初始行为信息。初始行为信息可以包括教师的动作、表情、语言等信息中的至少一种。并根据教师的初始行为信息，确定虚拟对象的驱动信息，例如采用真人驱动，将教师的初始行为信息作为虚拟对象的驱动信息，进而驱动虚拟对象的行为。

本实施例通过将教师的原始行为信息作为虚拟对象的驱动信息，形成虚拟对象在教授课程的直观感受，提高学生对教学视频的兴趣，有助于学习效率和质量的提升。

在一些实施例中，步骤S203中的根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频，可以包括：根据虚拟对象的外形信息和虚拟对象的驱动信息，生成虚拟对象；利用虚拟对象替换教学视频中的教师，以合成辅助教学视频。

本实施例中，在合成虚拟对象的辅助教学视频时，利用外形信息和驱动信息可以合成虚拟对象的动画视频，然后可以将教学视频中的教师替换为虚拟对象，在视觉上形成虚拟对象在教授课程的直观感受，提高学生对教学视频的兴趣，有助于学习效率和质量的提升。

在一些实施例中，虚拟对象的驱动信息包括第一语音信息，根据原始行为信息，确定虚拟对象的驱动信息，可以包括：响应于接收到由学习端发送的声音选择指令，确定与声音选择指令对应的目标声音；根据原始行为信息中的初始语音信息及目标声音，合成第一语音信息。

第一语音信息可以为虚拟对象所要说出的话语。该第一语音信息可以为初始行为信息中的初始语音信息，即在解析教学视频时可以得到初始语音信息。

另外，学习端还可以设置有声音选择控件，声音选择控件可以提供多种可选择的音色，例如男声、女声、儿童声等，风格也可以有多种，例如低沉、可爱、甜美等。

学习用户可以自行选择声音，学习端可以根据学习用户的选择将对应的声音选择指令发送给服务器，服务器可以根据声音选择指令，确定与该声音选择指令对应的目标声音(音色)，然后将目标声音和初始语音信息进行合成，得到第一语音信息，第一语音信息的内容与初始语音信息相同，但是音色为目标声音。该合成过程可以依靠语音合成模型实现。

通过学习用户自主选择声音，可以使得虚拟对象的声音为学生喜欢或者感兴趣的，有助于进一步提高学习效率和质量。

在一些实施例中，虚拟对象的驱动信息包括第一表情信息和第一动作信息；根据原始行为信息，确定虚拟对象的驱动信息，还可以包括：将原始行为信息中的原始动作信息确定为第一动作信息；将原始行为信息中的原始表情信息确定为第一表情信息。

可以理解，驱动信息还可以包括第一表情信息和第一动作信息，第一表情信息用于控制虚拟对象的表情，第一动作信息用于控制虚拟对象的动作。

在解析教学视频时可以得到初始行为信息中的初始表情信息和初始动作信息，并分别作为第一表情信息和第一动作信息，进而实现虚拟对象表情和动作的驱动，使得虚拟对象更贴合教师的表情和动作，有助于提高辅助教学视频的生动性。

可以理解，当虚拟对象的外形为用户上传的外形影像信息生成的，虚拟对象可以为2D形象，在驱动时，可以利用该外形影像信息，识别面部和四肢，从而实现表情和四肢驱动，或者利用照片换脸技术将面部合成到内置二维虚拟对象中。当虚拟对象的外形为第一预设外形信息生成的时，虚拟对象可以为3D形象，可以直接驱动虚拟对象来实现表情和动作。

在一些实施例中，步骤S202中的确定虚拟对象的驱动信息，可以包括：接收由学习端发送的待处理任务；将待处理任务输入AI教学模型，得到待处理任务的处理结果；根据处理结果，确定虚拟对象的驱动信息。

其中，待处理任务可以为学生不会的习题、存在疑问的问题或者待批改的作业等等。

学习用户可以通过学习端提出待处理任务，学习端可以将该待处理任务发送至服务器。

服务器可以设置有智慧教学大脑，其可以包括有训练好的AI教学模型。通过AI教学模型可以对待处理任务进行处理，得到处理结果，处理结果可以是对习题的解答方法、对问题的答复或者对作业的批改结果等。

另外，服务器可以根据处理结果，确定虚拟对象的驱动信息，从而实现虚拟对象与学习用户的互动，实现对学生的辅助教学，有助于提高学生的学习质量，且相比于请在线请教教师，可以降低学习成本。

可以理解，本实施例中，辅助教学视频可以为依靠外形信息和驱动信息形成的虚拟对象的行为动画，该行为动画可以有背景，例如系统的预设背景或者用户自行选择的背景，行为动画也可以不设置背景。

辅助教学视频能够用于教授处理结果，例如将处理结果以图像的形式展示给学习用户，或者以语音的形式讲授处理结果。

在一些实施例中，虚拟对象的驱动信息包括第二语音信息，处理结果为文本信息；根据处理结果，确定虚拟对象的驱动信息，可以包括：响应于接收到由学习端发送的声音选择指令，确定与声音选择指令对应的目标声音；根据处理结果和目标声音，合成第二语音信息。

第二语音信息可以为虚拟对象所要说出的与处理结果相关的话语。由AI模型输出的处理结果可以为文本信息。

学习用户可以自行选择声音，学习端可以根据学习用户的选择将对应的声音选择指令发送给服务器，服务器可以根据声音选择指令，确定与该声音选择指令对应的目标声音(音色)，然后将目标声音和处理结果进行合成，得到第二语音信息，第二语音信息的内容与处理结果相同，但是音色为目标声音。该合成过程可以依靠语音合成模型实现。

在一些实施例中，驱动信息包括第二表情信息和第二动作信息；步骤S202中的确定虚拟对象的驱动信息，还可以包括：将预设动作信息确定为第二动作信息；将预设表情信息确定为第二表情信息。

可以理解，驱动信息还可以包括第二表情信息和第二动作信息，第二表情信息用于控制虚拟对象的表情，第二动作信息用于控制虚拟对象的动作。

第二表情信息和第二动作信息可以分别为系统设定预设表情信息和预设动作信息，当然预设表情信息和预设动作信息也可以是由人物模型根据处理结果生成的与处理结果对应的表情和动作。人物模型为训练好的能够根据话语内容生成对应的表情和动作的模型。

通过第二表情信息和第二动作信息实现虚拟对象表情和动作的驱动，使得虚拟对象更贴合于教师的表情和动作，有助于提高辅助教学视频的生动性。

在一些实施例中，待处理任务包括待处理习题图像；将待处理任务输入AI教学模型，得到待处理任务的处理结果，包括：对待处理习题图像进行识别处理，得到待处理习题；将待处理习题输入AI教学模型，得到待处理习题的处理结果。

学习端还可以通过OCR(Optical Character Recognition，光学字符识别)扫描(摄像设备拍摄或者用户拍照上传的方式)获取待处理习题图像。待处理习题图像可以包括学习用户不会的需要帮助解答的待处理习题。学习端可以将待处理习题发送给服务器。

服务器接收到待处理习题后，可以通过图像识别处理等方式可以从待处理习题图像中获取待处理习题。然后可以将该待处理习题输入到AI教学模型，得到待处理习题的处理结果，即待处理习题的解题方法。

本实施例中，虚拟对象可以将待处理习题的解题方法教授给学习用户，实现虚拟对象和学习用户的交互，有助于提高学习用户的学习兴趣。

在一些实施例中，待处理任务包括问询语音；将待处理任务输入AI教学模型，得到待处理任务的处理结果，可以包括：对问询语音进行语音转文本处理，得到问询语音对应的待解答问题；将待解答问题输入AI教学模型，得到待解答问题的处理结果。

学习端还可以通过麦克风或话筒等获取学习用户的问询语音。该问询语音为学生提出的问题对应的语音。学习端可以将问询语音发送给服务器。

服务器接收到问询语音后，可以利用文本语音模型将问询语音转化为文本，从而得到待解答问题。在该过程中，还可以将转化后的文本进行解析，使得待解答问题为AI教学模型可以识别的文本排列方式。

然后可以将待解答问题输入到AI教学模型，得到待解答问题的处理结果，即待解答问题的答复内容。

本实施例中，虚拟对象可以将待解答问题的答复内容教授给学习用户，实现虚拟对象和学习用户的交互，有助于提高学习用户的学习兴趣。

另外，在该语音交互过程中，学习端还可以实时监测学习用户的语音消息，并将语音消息转发给服务器，使得服务器在接收到该语音消息时，停止当前的辅助教学视频，并根据语音信息生成新的辅助教学视频。即支持打断功能，学生可以实时打断并提问，提高交互能力。

在一些实施例中，方法200还可以包括：响应于接收到由学习端发送的背景选择指令，确定与背景选择指令对应的目标背景；步骤S203中根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频，包括：根据虚拟对象的外形信息和虚拟对象的驱动信息，生成虚拟对象；根据虚拟对象以及目标背景，合成辅助教学视频。

学习端还可以设置有背景选择控件，背景选择控件可以包括多种背景，例如室内、室外、蓝天、森林等等。

学习端可以获取学习用户的背景选择指令，该背景选择指令可以表明学习用户选择的背景选择控件中的目标背景。学习端可以将背景选择指令发送至服务器。

服务器接收到背景选择指令后，可以确定背景选择指令对应的目标背景。然后可以根据虚拟对象的外形信息和驱动信息，生成虚拟对象的动画。然后可以将该虚拟对象的动画合成到目标背景中，从而生成辅助教学视频。

本实施例的辅助教学视频，学习用户可以自行选择背景，有助于进一步提升学生学习兴趣。

在一些实施例中，方法200还可以包括：接收由学习端发送的学习状态监测信息；根据学习状态监测信息，生成学习状态监测报告；将学习状态监测报告发送至教学端。

学习端可以通过摄像设备获取学生的有效学习时间生成学习状态监测信息，例如，根据学生的学习视频，确定出视频中学生处于学习状态的时间，即有效学习时间。

在一些实施例中，学习状态监测信息还可以包括学习用户的待处理任务，服务器可以综合有效学习时间和待处理任务等生成学习状态监测报告，然后可以将学习状态监测报告发送给教学端，以使教学端可以得到教学视频的正向反馈，有助于教师了解学生的学习状态，并调整教学课程。

当然，虚拟对象还可以在发现学生分心时进行提醒，例如语音提醒等。

图4为根据本公开另一实施例提供的辅助教学方法的示意图；请参照图4，本公开实施例提供一种辅助教学方法400，用于学习端，包括以下步骤S401至步骤S402。

步骤S401，响应于学习用户的外形选择指令，将外形选择指令发送至服务器，以使服务器确定与外形选择指令相对应的虚拟对象的外形信息。

步骤S402，接收并展示由服务器发送的辅助教学视频，辅助教学视频为服务器根据虚拟对象的外形信息和虚拟对象的驱动信息合成的虚拟对象的辅助教学视频。

学习端可以设置有外形选择控件，学习用户可以通过操作外形选择控件触发外形选择指令，学习端可以将外形选择指令发送至服务器中。

服务器接收到外形选择指令后，可以根据该外形选择指令确定出虚拟对象的外形信息。

服务器还可以确定虚拟对象的驱动信息。根据外形信息和驱动信息来合成虚拟对象的辅助教学视频。

本实施例中，学习用户可以自主选择进行辅助教学的虚拟对象的外形，从而可以使得学生在观看辅助教学视频时，视频中的演示者外形为自身喜爱或感兴趣的外观形象，提高了学生学习的兴趣，提升了学生学习的效率和质量。

在一些实施例中，步骤S401中响应于学习用户的外形选择指令，将外形选择指令发送至服务器，以使服务器确定与外形选择指令相对应的虚拟对象的外形信息，可以包括：响应于学习用户对外形影像信息的上传指令，将上传指令发送至服务器，以使服务器将外形影像信息确定为虚拟对象的外形信息；或者，响应于学习用户对多个预设外形信息中的第一预设外形信息的选择指令，将选择指令发送至服务器，以使服务器将第一预设外形信息确定为虚拟对象的外形信息。

学习用户可以自行上传外形影像信息或者采用系统内置的第一预设外形信息。

在一些实施例中，方法400还可以包括：获取学习用户的待处理任务，并将待处理任务发送至服务器，以使服务器将待处理任务输入AI教学模型，得到待处理任务的处理结果，并由服务器根据处理结果，确定虚拟对象的驱动信息。

服务器可以通过AI教学模型可以对待处理任务进行处理，得到处理结果。另外，服务器可以根据处理结果，确定虚拟对象的驱动信息，从而实现虚拟对象与学习用户的互动，实现对学生的辅助教学，有助于提高学生的学习质量，且相比于请在线请教教师，可以降低学习成本。

在一些实施例中，获取学习用户的待处理任务，并将待处理任务发送至服务器，可以包括：获取学习用户的待处理习题图像，并将待处理习题图像发送至服务器，以使服务器对待处理习题图像进行识别处理，得到待处理习题，并由服务器将待处理习题输入AI教学模型，得到待处理习题的处理结果。

在另一些实施例中，获取学习用户的待处理任务，并将待处理任务发送至服务器，可以包括：获取学习用户的问询语音，并将问询语音发送至服务器，以使服务器对问询语音进行语音转文本处理，得到问询语音对应的待解答问题，并由服务器将待解答问题输入AI教学模型，得到待解答问题的处理结果。

本实施例中，可以实现虚拟对象和学习用户的交互，有助于提高学习用户的学习兴趣。

在一些实施例中，方法400还可以包括：获取学习用户的学习状态监测信息；将学习状态监测信息发送至服务器，以使服务器根据学习状态监测信息，生成学习状态监测报告，并由服务器将学习状态监测报告发送至教学端。

图5为根据本公开又一实施例提供的辅助教学方法的示意图；请参照图5，本公开实施例提供一种辅助教学方法500，用于教学端，包括以下步骤S501至步骤S502。

步骤S501，获取教学用户的教学视频。

步骤S502，将教学视频发送至服务器，以使服务器解析教学视频中教师的原始行为信息，并由服务器根据原始行为信息，确定虚拟对象的驱动信息，进一步由服务器根据虚拟对象的外形信息和虚拟对象的驱动信息，合成虚拟对象的辅助教学视频；辅助教学视频为由服务器发送至学习端的、并展示在学习端的辅助教学视频；虚拟对象的外形信息为服务器根据接收到的由学习端发送的外形选择指令确定的外形信息。

教学视频可以为教学用户通过教学端上传的录播的教学视频，录播的教学视频可以设置播放时间，从而在该时间自动播放。或者，教学视频可以为教学用户通过教学端进行的在线直播授课的教学视频，此时，教学视频可以为实时视频流。

通过将教师的原始行为信息作为虚拟对象的驱动信息，形成虚拟对象在教授课程的直观感受，提高学生对教学视频的兴趣，有助于学习效率和质量的提升。

在一些实施例中，方法500还可以包括：接收由服务器发送的学习状态监测报告，学习状态监测报告为服务器根据接收到的由学习端发送的学习状态监测信息，生成的学习状态监测报告。

为了实现上述方法，本公开实施例还提供一种辅助教学系统，能用于实现上述各个实施例的辅助教学方法，辅助教学系统包括服务器、学习端和教学端，服务器、学习端和教学端的实现方法参考上述各个实施例。以下通过系统架构、交互方案、数字人实现以及智能展示终端等方面介绍辅助教学方法的实现。

1、系统架构

辅助教学系统架构可以包括数字人展示终端、数字人中控平台(中控应用层)、数字人平台、AI模型平台(AI模型层)、基础云平台(云平台)。

图6a为根据本公开一实施例提供的辅助教学系统框架图；请参照图6a，辅助教学系统架构可以包括应用层610、中控应用层620、AI模型层及云平台650。

应用层610可以包括数字人展示终端(学习端)611的应用以及教学辅助驱动平台(教学端)611的应用。应用层610可以实现与学生用户和教师用户的交互。

中控应用层620包括语音合成模型621、智慧教学大脑622、图形渲染模型623、任务驱动模型624和视频驱动合成模型625。

语音合成模型621可以将数字人的语音内容和用户所选择的声音进行合成，从而形成数字人说出的话语。

智慧教学大脑622由AI模型层中的智慧教学大脑AI模型层630支持，能够利用AI实现批改作业、解答问题、讲解习题等功能。

图形渲染模型623可以实现数字人的外观形象，例如，颜色、形状等的渲染功能。

任务驱动模型624是指一些非实时任务和定时任务的驱动，例如教师录好教学视频后可以上传并设置播放时间，可以定时播放教学视频。

视频驱动合成模型625可以形成数字人的动作视频，或将数字人的动作视频添加到原有教学视频中。

AI模型层主要是对中控应用层620各个模型功能的实现提供支持。AI模型层包括智慧教学大脑AI模型层630和数字人AI模型层640。

智慧教学大脑AI模型层630包括：学习报告(学习状态监测报告)631以及智慧教学大脑(智慧教学AI模型，即AI教学模型)632。

数字人AI模型层640包括：语音语言模型641、图形渲染模型642、语音合成模型643、文本语音模型644、UE(User Experience，用户体验)驱动模型645、视频驱动合成模型646。

语音语言模型641可以用于选择数字人说话的语言类别，例如中文、英文或者日文等等。

图形渲染模型642可以实现数字人的外观形象，例如，颜色、形状等的渲染。

语音合成模型643可以将数字人的语音内容和用户所选择的声音进行合成，从而形成数字人说出的话语。

文本语音模型644可以用于进行文本和语音之间的转换，以实现数字人对文本内容的讲述。

UE驱动模型645可以用于选择渲染方式，例如是在服务器渲染，还是在终端渲染。

视频驱动合成模型646可以形成数字人的动作视频(动画)，并将数字人的动作视频添加到原有教学视频中。

云平台650为可以提供教学端、学习端和服务器的相互通信的基础云平台。

另外，中控应用层620、AI模型层和云平台650均可以设置在服务器。

2、交互方案

数字人驱动过程中，可以利用真人驱动方式驱动数字人，来达到辅助学习用户通过教师模拟教学表达方式，通过数字人教学方式，达到互动教学的目的。

图6b为根据本公开一实施例提供的辅助教学系统的交互框架图；请参照图6b，数字人中控平台680可以通过辅助教学平台(应用)670获取教学端661上传的教学视频中教师的初始语音信息，并生成第一语音信息，以通过语音驱动681实现数字人的语音驱动教学671。数字人中控平台680还可以通过辅助教学平台670得到教师的第一行为信息和第一表情信息。用户(学生用户)663可以通过终端(学习端)662选择数字人的外形信息，数字人中控平台可以根据用户663的选择实现数字人的外形信息、第一表情信息和第一行为信息作为数字人形象驱动682。并通过语音驱动681和形象驱动682合成任务形象驱动(辅助教学视频)683，然后可以将任务形象驱动683发送至终端662展示。

另外，终端662还可以获取用户663的学习状态监测信息(专注状态)，并通过服务器将专注状态反馈672发送给教学端661。

同时，数字人中控平台680的功能实现主要依靠智慧教学大脑630a和数字人AI模型640a，智慧教学大脑630a包括学习报告631a和智慧教学AI模型632a。

数字人AI模型640a包括语音语言模型641a、图形渲染模型642a、语音合成模型643a、文本语音模型644a、UE驱动模型645a、视频驱动合成模型646a，这些模块的功能分别与图6a中的语音语言模型641、图形渲染模型642、语音合成模型643、文本语音模型644、UE驱动模型645、视频驱动合成模型(视频驱动模型)646的功能一一对应，具体可以参考上述实施例的说明。

3、数字人实现方式

图6c为根据本公开一实施例提供的虚拟对象的驱动框架图；图6d为根据本公开一实施例提供的虚拟对象的驱动过程图；请参照图6c和图6d，虚拟数字人系统(数字人驱动框架)640b一般情况下包括语音语言模型641b、图像渲染模型642b、语音合成模型643b、文本语音模型644b、UE(User Experience，用户体验)驱动模型645b、视频驱动合成模型(视频驱动模型)646b。这些模块的功能分别与图6a中的语音语言模型641、图形渲染模型642、语音合成模型643、文本语音模型644、UE驱动模型645、视频驱动合成模型646的功能一一对应，具体可以参考上述实施例的说明。

人物外观形象根据人物图形资源的维度，可分为2D(二维)和3D(三维)两大类，从外形上又可分为卡通、拟人、写实、超写实等风格。利用语音合成和动画生成(视频驱动合成)可分别基于文本生成对应的数字人的人物语音以及与之相匹配的数字人的人物动画；视频驱动合成还能够将语音和动画合成视频，再显示给用户。

数字人还可以包括交互模块，交互模块可以使数字人具备交互功能，即通过语音语义识别等智能技术识别用户的意图，并根据用户当前意图决定数字人后续的语音和动作，驱动人物开启下一轮交互。

数字人分为交互型数字人和非交互型数字人。交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。本实施例采用交互型数字人。如图6d，驱动型数字人可通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出行为，然后驱动人物模型生成相应的语音与动作来使数字人跟学生用户互动。其中，输入信息可以包括文字输入和指令输入，文字输入可以包括语音转文本生成的文本、AI教学模型的输出文本等。指令输入可以包括学生用户的外形选择指令或者教师用户的行为解析后生成的行为(表情、动作)指令等等。用户(学生用户)663a可以通过终端(学习端)662a选择数字人的外形信息，数字人中控平台可以根据用户663a的选择实现数字人的外形信息、第一表情信息和第一行为信息作为数字人形象驱动682a。并通过教师的真人语音驱动681a和形象驱动682a合成任务形象驱动(辅助教学视频)683a，然后可以将任务形象驱动683a发送至终端662a展示。

其中人物模型可以是预先通过AI技术训练得到，可通过文本驱动生成语音和对应动画，例如TTS(Text To Speech)人物模型。真人驱动型数字人则是通过真人来驱动数字人，主要原理是真人根据视频监控系统传来的教学用户视频，与教学用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。

4、智能展示终端

如图3所示，智能展示终端(学习端)收到数字人中控平台的驱动指令，通过这个虚拟出来的数字人，可以代替教学用户展示教学用户表达的说话、表情、动作辅助表达。

可以理解，目前有很多教学系统是通过视频教程或者在线直播的方式。学生通过观看视频，容易分心，无法与教师互动，教师或家长也无法得到很好的反馈；线上教师授课比较昂贵，一般的家庭也很难承担经济压力。本实施例通过大模型技术驱动数字人与学生互动仿真学习，既可以实时解答学生的作业难题，也可以解决学生的随时提问的需求，通过本实施例的方案进行辅助学习，大大的提高学生学习主动性，同时也减少家庭的经济压力。同时还提供数字人不仅可以换脸学生喜欢的人脸，同时可以换脸卡通数字人进行授课讲解，也可选择多种喜欢的音色进行语音播放。数字人还可以随时监控学生的学习状况进行必要的授课调整和分心提醒，同时也会生成一份学习状态监测报告。另外，本实施例还支持拍照解题，数字人模拟授课的方式进行讲解。

本实施例提供的辅助教学系统是一套全新的教学方式，可以实现远程直播教学、AI智能辅助学习、AI辅助授课、专注力监控等等功能。通过与现有教学系统相结实现全新教学方式，从而通过全新技术手段实现全新的教学模式，该技术本质上解决的是视频教学无法互动的问题、学生自主学习无人辅导的问题、学习专注力无法集中问题，在线教师辅导昂贵的问题等等，实现学生无人陪伴的情况通过AI智能教学大脑下辅助学习，上传卡通形象或者其他人脸等自主定义教师形象，选择自己喜欢的教师教学形象，同时也可以选择喜欢的音色进行语音播放，通过科学技术手段引导学生对学习产生兴趣。教师也可通过该系统的直播形式教学，系统可以自动合成辅助教学视频辅助教学。该系统可以基于相关教学系统之内作为模块嵌入到原有的教学管理系统当中，也可作为独立应用系统对外提供服务。

以下对辅助教学方法涉及的辅助教学场景进行说明：

1、远程直播教学场景

(1)能够通过教学大模型驱动数字人仿真授课(例如：卡通人物，2D人像、照片换脸)，带给学生全新上课体验。

(2)同时可以实现教师真人直播授课，即可以不选择使用虚拟对象进行授课。

(3)教师真人驱动虚拟教师(数字人)授课，通过教师的行为驱动数字人授课。

图7为根据本公开一实施例提供的辅助教学方法在授课场景下的流程示意图；请参照图7，步骤S701，学习端的学生用户可以上传卡通图片或视频(外形影像信息)。步骤S702，数字人系统可以利用上传的外形影像信息生成卡通形象(虚拟对象的外形)。步骤S703，教学端可以通过教学视频实现真人驱动，数字人中控平台的语音合成模型可以将教师的语音信息与学生选择的目标声音进行声音合成。步骤S704，数字人系统将合成的声音结合教师的行为合成卡通形象视频。步骤S705，数字人系统将卡通形象视频发送至学习端，以实现智能辅助教学。

当然，声音合成时，除了利用教师的真人驱动，在其他场景下，例如AI智能辅助学习场景，智慧教学大脑根据步骤S706利用AI教学模型生成对话内容，语音合成模型通过步骤S707将目标声音和对话内容合成。另外，智慧教学大脑根据步骤S708生成学习报告，并将学习报告发送至教学端，以形成正向反馈。

2、AI智能辅助学习场景

(1)AI智能辅助学习，通过OCR识别或者提示问答(语音问询)，通过智慧教学大脑答疑解惑。

(2)授课形式可以通过文字、仿真(模拟真人(2D形象)讲解、虚拟人物(3D形象)讲解)的形式讲解课程内容。

图8为根据本公开一实施例提供的辅助教学方法在OCR识别场景下的流程示意图；请参照图8，步骤S801，学习端可以通过OCR扫描上传不会解的习题(待处理习题图像)。步骤S802，数字人中控平台可以通过OCR识别模型识别习题，数字人系统可以将习题解析生成问询query(查询语句，本实施例可以指待处理习题)。步骤S803，将问询query输入AI教学模型。步骤S804，可以利用数字人中控平台的智慧教学大脑中的AI教学模型对问询query(待处理习题)进行解答，得到对话内容(处理结果)。步骤S805，可以通过数字人中控平台的语音合成模型将对话内容和用户选择的目标声音进行声音合成。步骤S806，数字人系统可以进一步根据用户选择的卡通形象合成卡通形象视频(辅助教学视频)。步骤S807，可以将卡通形象视频发送至学习端，以实现智能辅助教学。

图9为根据本公开一实施例提供的辅助教学方法在语音问询场景下的流程示意图；请参照图9，步骤S901，学习端可以通过用户问询(语音问询)提出待解答问题，数字人中控平台可以语音转换文本模型对用户问询进行语音转化，生成待解答问题。步骤S902，数字人系统可以将待解答问题解析生成问询query(查询语句)，本实施例可以指待解答问题。步骤S903，将问询query输入AI教学模型。步骤S904，可以利用数字人中控平台的智慧教学大脑中的AI教学模型对问询query(待解答问题)进行解答，得到对话内容(处理结果)。步骤S905，可以通过数字人中控平台的语音合成模型将对话内容和用户选择的目标声音进行声音合成。步骤S906，数字人系统可以进一步根据用户选择的卡通形象合成卡通形象视频(辅助教学视频)。步骤S907，可以将卡通形象视频发送至学习端，以实现智能辅助教学。另外，智慧教学大脑能够生成学习报告。

3、AI辅助授课系统

(1)课程回顾，通过录制在线视频，并合成对应的辅助教学视频，使得辅助教学视频中的AI虚拟教师(虚拟对象)能够辅助讲解课程回顾，知识难点。

(2)虚拟教师(虚拟对象)可以进行标准课程(预存的课程教学视频)讲解，学习用户与虚拟教师互动，且在虚拟教师演讲过程中可以随时监听学生的问询语音，并在接收到问询语音时停止演讲，支持与虚拟教师实时互动。

4、专注力监控

智能监控学生专注力(学习状态监测信息)，形成正向反馈，动态调整教学内容；AI教学模型收集相关信息后形成反馈报告(学生状态监测报告)。

继续参照图7，学习端可以通过摄像设备获取学生的有效学习时间生成学习状态监测信息，学习状态监测信息还可以包括学生用户的待处理任务，数字人中控平台的智慧教学大脑可以综合有效学习时间和待处理任务等生成学习报告(学习状态监测报告)，然后可以将学习报告发送给教学端，以形成正向反馈。

本实施例可以利用AI智慧教学大脑，在教师不在现场的情况下自主辅助学生学习；本系统AI辅助解题场景下，学生遇到不会的情况下系统通过OCR扫描习题，AI识别后帮助学生智能解题，解题的呈现方式是多元化和个性化的，包括数字人互动仿真讲解。本系统在直播教学场景下，允许学生自主上传人物形象，系统自动生成虚拟教师，达到教学内容不变，声音和表情个性化的使用方式；本系统可以针对学生的专注力进行监控和学习状况，通过教学大模型形成学习报告，反馈给教师和家长，通过学习报告形成正向反馈机制；本系统是通过虚拟教师的技术手段，来达到全新的教学体验。

图10为根据本公开一实施例提供的辅助教学装置的示意图；请参照图10，本公开实施例提供一种辅助教学装置1000，包括以下单元。

第一确定单元1001，用于响应于接收到由学习端发送的外形选择指令，确定与所述外形选择指令相对应的虚拟对象的外形信息。

第二确定单元1002，用于确定所述虚拟对象的驱动信息。

合成单元1003，用于根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频。

第一发送单元1004，用于将所述辅助教学视频发送至学习端，以在所述学习端展示所述辅助教学视频。

在一些实施例中，第一确定单元1001还用于：

响应于接收到由所述学习端发送的对外形影像信息的上传指令，将所述外形影像信息确定为所述虚拟对象的外形信息；

或者，响应于接收到由所述学习端发送的对多个预设外形信息中的第一预设外形信息的选择指令，将所述第一预设外形信息确定为所述虚拟对象的外形信息。

在一些实施例中，第二确定单元1002还用于：

获取教学视频；

解析所述教学视频中教师的原始行为信息；

根据所述原始行为信息，确定所述虚拟对象的驱动信息。

在一些实施例中，合成单元1003还用于：

根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，生成所述虚拟对象；

利用所述虚拟对象替换所述教学视频中的教师，以合成所述辅助教学视频。

在一些实施例中，所述虚拟对象的驱动信息包括第一语音信息，第二确定单元1002还用于：

响应于接收到由所述学习端发送的声音选择指令，确定与所述声音选择指令对应的目标声音；

根据所述原始行为信息中的初始语音信息及所述目标声音，合成所述第一语音信息。

在一些实施例中，所述虚拟对象的驱动信息包括第一表情信息和第一动作信息；

第二确定单元1002还用于：

将所述原始行为信息中的原始动作信息确定为所述第一动作信息；

将所述原始行为信息中的原始表情信息确定为所述第一表情信息。

在一些实施例中，第二确定单元1002还用于：

接收由教学端发送的所述教学视频，所述教学视频包括直播视频或者录播视频；或者，获取预先存储于服务器中的教学视频；

在一些实施例中，第二确定单元1002还用于：

接收由所述学习端发送的待处理任务；

将所述待处理任务输入AI教学模型，得到所述待处理任务的处理结果；

根据所述处理结果，确定所述虚拟对象的驱动信息。

在一些实施例中，所述虚拟对象的驱动信息包括第二语音信息，所述处理结果为文本信息；

第二确定单元1002还用于：

根据所述处理结果和所述目标声音，合成所述第二语音信息。

在一些实施例中，所述驱动信息包括第二表情信息和第二动作信息；第二确定单元1002还用于：

将预设动作信息确定为所述第二动作信息；

将预设表情信息确定为所述第二表情信息。

在一些实施例中，所述待处理任务包括待处理习题图像；第二确定单元1002还用于：

对所述待处理习题图像进行识别处理，得到待处理习题；

将所述待处理习题输入所述AI教学模型，得到所述待处理习题的所述处理结果。

在一些实施例中，所述待处理任务包括问询语音；第二确定单元1002还用于：

对所述问询语音进行语音转文本处理，得到所述问询语音对应的待解答问题；

将所述待解答问题输入所述AI教学模型，得到所述待解答问题的所述处理结果。

在一些实施例中，第二确定单元1002还用于：

响应于接收到由所述学习端发送的背景选择指令，确定与所述背景选择指令对应的目标背景；

根据所述虚拟对象以及所述目标背景，合成所述辅助教学视频。

在一些实施例中，装置1000还包括：

第一报告单元，用于接收由所述学习端发送的学习状态监测信息；根据所述学习状态监测信息，生成学习状态监测报告；将所述学习状态监测报告发送至教学端。

图11为根据本公开另一实施例提供的辅助教学装置的示意图；请参照图11，本公开实施例提供一种辅助教学装置1100，包括以下单元。

第二发送单元1101，用于响应于学习用户的外形选择指令，将所述外形选择指令发送至服务器，以使所述服务器确定与所述外形选择指令相对应的虚拟对象的外形信息。

展示单元1102，用于接收并展示由所述服务器发送的辅助教学视频，所述辅助教学视频为所述服务器根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息合成的所述虚拟对象的辅助教学视频。

在一些实施例中，第二发送单元1101还用于：

响应于所述学习用户对外形影像信息的上传指令，将所述上传指令发送至所述服务器，以使所述服务器将所述外形影像信息确定为所述虚拟对象的外形信息；

或者，响应于所述学习用户对多个预设外形信息中的第一预设外形信息的选择指令，将所述选择指令发送至所述服务器，以使所述服务器将所述第一预设外形信息确定为所述虚拟对象的外形信息。

在一些实施例中，装置1100还包括：

任务获取单元，用于获取所述学习用户的待处理任务，并将所述待处理任务发送至所述服务器，以使所述服务器将所述待处理任务输入AI教学模型，得到所述待处理任务的处理结果，并由服务器根据所述处理结果，确定所述虚拟对象的驱动信息。

在一些实施例中，任务获取单元还用于：

获取所述学习用户的待处理习题图像，并将所述待处理习题图像发送至所述服务器，以使所述服务器对所述待处理习题图像进行识别处理，得到待处理习题，并由服务器将所述待处理习题输入所述AI教学模型，得到所述待处理习题的所述处理结果；

或者，

获取所述学习用户的问询语音，并将所述问询语音发送至所述服务器，以使所述服务器对所述问询语音进行语音转文本处理，得到所述问询语音对应的待解答问题，并由服务器将所述待解答问题输入所述AI教学模型，得到所述待解答问题的所述处理结果。

在一些实施例中，装置1100还包括：

第二报告单元，用于获取所述学习用户的学习状态监测信息；将所述学习状态监测信息发送至所述服务器，以使所述服务器根据所述学习状态监测信息，生成学习状态监测报告，并由服务器将所述学习状态监测报告发送至教学端。

图12为根据本公开又一实施例提供的辅助教学装置的示意图；请参照图12，本公开实施例提供一种辅助教学装置1200，包括以下单元。

第一获取单元1201，用于获取教学用户的教学视频。

第三发送单元1202，用于将所述教学视频发送至服务器，以使所述服务器解析所述教学视频中教师的原始行为信息，并由所述服务器根据所述原始行为信息，确定虚拟对象的驱动信息，进一步由所述服务器根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频；所述辅助教学视频为由所述服务器发送至学习端的、并展示在所述学习端的辅助教学视频；所述虚拟对象的外形信息为所述服务器根据接收到的由学习端发送的外形选择指令确定的外形信息。

在一些实施例中，装置1200还包括：

第三报告单元，用于接收由所述服务器发送的学习状态监测报告，所述学习状态监测报告为所述服务器根据接收到的由学习端发送的学习状态监测信息，生成的学习状态监测报告。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开实施例还提供一种电子设备，包括：至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项实施例的方法。

本公开实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述任一项实施例的方法。

本公开实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述任一项实施例的方法。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如辅助教学方法。例如，在一些实施例中，辅助教学方法被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的辅助教学方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行辅助教学方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种辅助教学方法，包括：

响应于接收到由学习端发送的外形选择指令，确定与所述外形选择指令相对应的虚拟对象的外形信息；

确定所述虚拟对象的驱动信息；

根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频；

将所述辅助教学视频发送至学习端，以在所述学习端展示所述辅助教学视频。

2.根据权利要求1所述的方法，其中，响应于接收到由学习端发送的外形选择指令，确定与所述外形选择指令相对应的虚拟对象的外形信息，包括：

3.根据权利要求1所述的方法，其中，确定所述虚拟对象的驱动信息，包括：

获取教学视频；

解析所述教学视频中教师的原始行为信息；

根据所述原始行为信息，确定所述虚拟对象的驱动信息。

4.根据权利要求3所述的方法，其中，根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频，包括：

5.根据权利要求4所述的方法，其中，所述虚拟对象的驱动信息包括第一语音信息，根据所述原始行为信息，确定所述虚拟对象的驱动信息，包括：

6.根据权利要求3-5中任一项所述的方法，其中，所述虚拟对象的驱动信息包括第一表情信息和第一动作信息；

根据所述原始行为信息，确定所述虚拟对象的驱动信息，还包括：

7.根据权利要求3-6中任一项所述的方法，其中，获取教学视频，包括：

接收由教学端发送的所述教学视频，所述教学视频包括直播视频或者录播视频；

或者，

获取预先存储于服务器中的教学视频。

8.根据权利要求1-7中任一项所述的方法，其中，确定所述虚拟对象的驱动信息，包括：

接收由所述学习端发送的待处理任务；

根据所述处理结果，确定所述虚拟对象的驱动信息。

9.根据权利要求8所述的方法，其中，所述虚拟对象的驱动信息包括第二语音信息，所述处理结果为文本信息；

根据所述处理结果，确定所述虚拟对象的驱动信息，包括：

10.根据权利要求8或9所述的方法，其中，所述驱动信息包括第二表情信息和第二动作信息；确定所述虚拟对象的驱动信息，还包括：

将预设动作信息确定为所述第二动作信息；

将预设表情信息确定为所述第二表情信息。

11.根据权利要求8-10中任一项所述的方法，其中，所述待处理任务包括待处理习题图像；将所述待处理任务输入AI教学模型，得到所述待处理任务的处理结果，包括：

对所述待处理习题图像进行识别处理，得到待处理习题；

12.根据权利要求8-10中任一项所述的方法，其中，所述待处理任务包括问询语音；将所述待处理任务输入AI教学模型，得到所述待处理任务的处理结果，包括：

13.根据权利要求8-12中任一项所述的方法，还包括：

根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频，包括：

14.根据权利要求1-13中任一项所述的方法，还包括：

接收由所述学习端发送的学习状态监测信息；

根据所述学习状态监测信息，生成学习状态监测报告；

将所述学习状态监测报告发送至教学端。

15.一种辅助教学方法，包括：

响应于学习用户的外形选择指令，将所述外形选择指令发送至服务器，以使所述服务器确定与所述外形选择指令相对应的虚拟对象的外形信息；

接收并展示由所述服务器发送的辅助教学视频，所述辅助教学视频为所述服务器根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息合成的所述虚拟对象的辅助教学视频。

16.根据权利要求15所述的方法，响应于学习用户的外形选择指令，将所述外形选择指令发送至服务器，以使所述服务器确定与所述外形选择指令相对应的虚拟对象的外形信息，包括：

17.根据权利要求15所述的方法，还包括：

获取所述学习用户的待处理任务，并将所述待处理任务发送至所述服务器，以使所述服务器将所述待处理任务输入AI教学模型，得到所述待处理任务的处理结果，并由所述服务器根据所述处理结果，确定所述虚拟对象的驱动信息。

18.根据权利要求17所述的方法，其中，获取所述学习用户的待处理任务，并将所述待处理任务发送至所述服务器，包括：

获取所述学习用户的待处理习题图像，并将所述待处理习题图像发送至所述服务器，以使所述服务器对所述待处理习题图像进行识别处理，得到待处理习题，并由所述服务器将所述待处理习题输入所述AI教学模型，得到所述待处理习题的所述处理结果；

或者，

获取所述学习用户的问询语音，并将所述问询语音发送至所述服务器，以使所述服务器对所述问询语音进行语音转文本处理，得到所述问询语音对应的待解答问题，并由所述服务器将所述待解答问题输入所述AI教学模型，得到所述待解答问题的所述处理结果。

19.根据权利要求15所述的方法，还包括：

获取所述学习用户的学习状态监测信息；

将所述学习状态监测信息发送至所述服务器，以使所述服务器根据所述学习状态监测信息，生成学习状态监测报告，并由所述服务器将所述学习状态监测报告发送至教学端。

20.一种辅助教学方法，包括：

获取教学用户的教学视频；

将所述教学视频发送至服务器，以使所述服务器解析所述教学视频中教师的原始行为信息，并由所述服务器根据所述原始行为信息，确定虚拟对象的驱动信息，进一步由所述服务器根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频；所述辅助教学视频为由所述服务器发送至学习端的、并展示在所述学习端的辅助教学视频；所述虚拟对象的外形信息为所述服务器根据接收到的由学习端发送的外形选择指令确定的外形信息。

21.根据权利要求20所述的方法，还包括：

接收由所述服务器发送的学习状态监测报告，所述学习状态监测报告为所述服务器根据接收到的由学习端发送的学习状态监测信息，生成的学习状态监测报告。

22.一种辅助教学装置，包括：

第一确定单元，用于响应于接收到由学习端发送的外形选择指令，确定与所述外形选择指令相对应的虚拟对象的外形信息；

第二确定单元，用于确定所述虚拟对象的驱动信息；

合成单元，用于根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频；

第一发送单元，用于将所述辅助教学视频发送至学习端，以在所述学习端展示所述辅助教学视频。

23.一种辅助教学装置，包括：

第二发送单元，用于响应于学习用户的外形选择指令，将所述外形选择指令发送至服务器，以使所述服务器确定与所述外形选择指令相对应的虚拟对象的外形信息；

展示单元，用于接收并展示由所述服务器发送的辅助教学视频，所述辅助教学视频为所述服务器根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息合成的所述虚拟对象的辅助教学视频。

24.一种辅助教学装置，包括：

第一获取单元，用于获取教学用户的教学视频；

第三发送单元，用于将所述教学视频发送至服务器，以使所述服务器解析所述教学视频中教师的原始行为信息，并由所述服务器根据所述原始行为信息，确定虚拟对象的驱动信息，进一步由所述服务器根据所述虚拟对象的外形信息和所述虚拟对象的驱动信息，合成所述虚拟对象的辅助教学视频；所述辅助教学视频为由所述服务器发送至学习端的、并展示在所述学习端的辅助教学视频；所述虚拟对象的外形信息为所述服务器根据接收到的由学习端发送的外形选择指令确定的外形信息。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-21中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-21中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-21中任一项所述的方法。