CN110488975A

CN110488975A - 一种基于人工智能的数据处理方法及相关装置

Info

Publication number: CN110488975A
Application number: CN201910766245.8A
Authority: CN
Inventors: 赵东林; 李烈槐
Original assignee: Shenzhen Bozhi Technology Co Ltd
Current assignee: Shenzhen Bozhi Technology Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-22
Anticipated expiration: 2039-08-19
Also published as: CN110488975B

Abstract

本发明提供一种基于数据处理方法及相关装置，应用于人工智能领域。该方法包括：预置问答库并对问答过程进行视频录制；在录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并进行三维运动解析系统APAS建模，得到录制者的第一虚拟三维人物模型，第一信息包括语音信息、第一动作信息和影像信息；通过云台全方位系统PTZ对录制者进行视觉导向自动追踪，采集第二信息，第二信息包括表情信息、第二动作信息和环境信息；将第二信息匹配到第一虚拟三维任务模型中，得到第二虚拟三维人物模型。这样，可以使虚拟三维人物反馈的动作、语音和表情更加真实，更加贴近用户日常交互的对象，提高了交互的效率和代入感，实现了人机超级交互。

Description

一种基于人工智能的数据处理方法及相关装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于人工智能的数据处理方法及相关装置。

背景技术

随着人工智能技术的发展，线上交流平台越来越受人们欢迎，用户可以在线上交流平台观看真人视频，也可以进行在线交互，完成智能交流和智能问答等操作。一般情况下，智能交流中是采用虚拟人物与人类进行沟通交流，目前的虚拟交流基本能实现语音的问答，但是肢体动作很僵硬，真实性欠佳。

现有的虚拟交流方案，一种是通过红外传感器、麦克、摄像头等设备检测外部环境的信息，然后将采集的信息通过PC软件控制平台分析后，通过串口向单片机发送指令，驱动电机运动从而产生机器人的面部表情和身体语言，这种方式使得用户与虚拟人物的交互非常的机械性、不灵活。一种是获取用户提问信息并进行意图识别，根据用户意图生成相应于该提问信息的应答结果，其产生的反馈信息是提前预置固定的问答数据以及交互的信息，这种方式中预置的信息是固定的，不能根据用户的需求进行进化和改变。

在实际应用中，用户可能很喜欢和自己某个老师、公众人物、影视剧人物或动漫人物等进行交流。因此，在线上交流平台中，如果交互的对象能够贴近其喜欢的真人或者更加贴近真实的人的一切动作和语言、表情、行为习惯，那样不仅可以提高用户的交互兴趣，还可以使用用户无感的切入交流平台/交流系统中进行学习、培训、游戏等。

但是目前公开的发明方案和产品，虚拟的交互人物都只是对于用户的提问进行解答时，对用户语义进行分析，采集训练用户的提问方式和回答方式，输出对应的动作、语音和表情，其反馈的虚拟人物的动作、语音和表情只是前期单纯的采集、打标，后续进行识别用户的提问语意和表情后，机械的进行匹配，其真实度和匹配性不好，让用户没有代入感，交互感差。当用户在学习的过程中想自定义交互对象的行为习惯、教学习惯、交流习惯时，没有一种好的动作、语音和表情交互方法，使得交互的虚拟人物更加接近用户指定的人物形象。

故，有必要提供一种智能的数据处理方案，以解决现有技术所存在的问题。

发明内容

本发明实施例提供一种基于人工智能的数据处理方法及相关装置，以解决现有虚拟交流方案真实度和匹配性不好的技术问题。

第一方面，本发明提供一种基于人工智能的数据处理方法，包括：预置问答库并对所述问答库中问题的问答过程进行录制者真人视频录制；在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

在一种可选的实施方式中，采用所述问答的内容、第一信息和第二信息对所述第二虚拟三维人物模型进行CNN卷积算法训练，得到训练后的第二虚拟三维人物模型，所述训练后的第二虚拟三维人物模型与所述录制者具有相同的语言特征和行为特征。

在一种可选的实施方式中，预置问答库，具体包括：对所述问答库通过语音语义分析进行智能设置，并按照主题的不同维度进行分类并设置目录，所述目录用于识别问题是否在所述问答库内。

在一种可选的实施方式中，获取用户提问的问题，并识别所述问题是否在所述问答库的目录中，若是，则调取当前观看录制者的第二虚拟三维人物模型，并将所述录制者的数据与所述第二虚拟三维人物模型的数据进行训练合成；若否，调取其他录制者的虚拟三维人物模型的表情数据和动作数据，并与当前观看录制者的第二虚拟三维人物模型进行训练合成。

在一种可选的实施方式中，对所述目录的文本进行类别顺序标注并设置为总索引，所述文本对应相应的目录，所述第一信息和所述第二信息分别对应设置有相应的文本。

在一种可选的实施方式中，采集其他录制者的虚拟三维人物模型对所述问答库中不同问题的问与答的数据信息，并采用所述数据信息训练所述第二虚拟三维人物模型；

每一录制者的视频录制对应设置相应代号的第二虚拟三维人物模型，并将所述个人信息与所述第二虚拟三维人物模型的信息关联对应。

在一种可选的实施方式中，对所述第一信息和第二信息进行编码，得到所述第二虚拟三维人物模型的语音数据库、表情数据库、身体动作数据库、影像数据库、以及时间管理数据库；其中，所述语音数据库中的语言的声调特征包括如下维度：低音区、中音区、中高音区、高音区、感叹音区、特殊音区；所述表情数据包括如下维度：喜、怒、哀、乐、惊、恐和悲，其中每个维度再分为多个层级；所述身体动作数据库的肢体语言的动作特征包括如下维度：手部、手臂部、肩部、颈部、头部、腰部、背部、腿部、腹部和脚部，其中每个维度建立多个动作特征。

第二方面，本发明提供一种基于人工智能的数据处理装置，包括：预置模块，用于预置问答库；录制模块，用于对所述问答库中问题的问答过程进行录制者真人视频录制；采集模块，用于在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；匹配模块，用于将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

第三方面，本发明提供一种服务器，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面的任一方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面的任一方法。

相对现有技术的数据处理方法及装置，本发明的基于人工智能的数据处理方法及装置首先预置问答库并对该问答库中问题的问答过程进行录制者真人视频录制，在录制过程中，通过光学视频摄像系统的三维运动解析采集语音信息、动作信息和影像信息，并进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，然后通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集表情信息、动作信息和环境信息，并将上述信息匹配到所述第一虚拟三维任务模型中，得到与录制者本人更接近的虚拟人物形象。应用本发明提供的方案，可以使虚拟三维人物反馈的动作、语音和表情更加真实，更加贴近用户日常交互的对象，提高了交互的效率和代入感，实现了人机超级交互。

附图说明

图1为本发明的基于人工智能的数据处理方法的流程图；

图2为本发明的基于人工智能的数据处理方法的流程图；

图3为本发明的基于人工智能的数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于人工智能的数据处理方法及装置可预置问答库并对所述问答库中问题的问答过程进行录制者真人视频录制，在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄，通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息，将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型，可以使虚拟三维人物反馈的动作、语音和表情更加真实，更加贴近用户日常交互的对象，提高了交互的效率和代入感，实现了人机超级交互。

实施例一

请参阅图1，图1是本发明提供的基于人工智能的数据处理方法的流程示意图。本发明提供的数据处理方法，具体可包括如下步骤：

步骤S101、预置问答库并对所述问答库中问题的问答过程进行录制者真人视频录制。

本实施例中的问答库，可以根据特定的主题进行问题生成，进而设置问答库，问答库可以进行供机器人等智能系统用来智能问答，其中智能问答是通过语义分析进行的智能设定。需说明的是，本实施例中的问答库是按照主题的不同维度进行分类设置目录条，如果问答的问题不在这个主题目录内，系统可以拒绝回答。进一步地，系统对目录条的文本进行一定类别的顺序标注作为总索引，以后步骤都和文本的总索引标注对应，即语言、动作、表情都对应相应的文本，其文本又对应相应的目录。也就是说，对所述问答库通过语音语义分析进行智能设置，并按照主题的不同维度进行分类并设置目录，所述目录用于识别问题是否在所述问答库内。此外，还可以对所述目录的文本进行类别顺序标注并设置为总索引，所述文本对应相应的目录，所述第一信息和所述第二信息分别对应设置有相应的文本。

本实施例的视频录制可提前进行人工的问题回答过程的视频录制，根据问答库主题目录，进行人为的视频录制，进而在系统中建立问答的三维模型。一种实现方式是，可以设置场景背景为绿色或蓝色的环境中对录制者进行录制，便于系统对其背景的处理，这样，后期可以对该视频录制进行编辑，将录制视频植入任意场景作为后期背景的输出，增加用户的代入感。

进一步的，系统每录制一个录制者的视频，系统自动生成相应代号的虚拟人物形象，并将该真人录制的个人信息和虚拟人物的信息对应起来，其个人信息包括名字、身高、体重、性别和年龄等。

在人类的普通沟通中，文字和语音的沟通效果占比30％左右，而表情和动作的沟通占60％左右。为了更高效地进行虚拟交流，完成步骤S101的内容录制之后，则对该录制内容进行内容分解和特征提取，具体可以包括：录制视频进行系统建模过程中，采用两个系统(三维运动解析系统和三维运动解析系统)同步进行分析，录制内容包括录制者真人对上述步骤中确定的主题目录的所有问题进行解答，解答过程包括录制者解答时的肢体语言、动作、语音、表情等等内容。其中，这两个系统分别采集和分析录制者的不同信息，具体通过下述步骤S102和步骤S103来实现。

步骤S102、在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄。

在录制过程中，采用APAS三维运动解析系统(Ariel Performance AnalysisSystem)对录制的视频进行对应的虚拟的人物的三维建模，通过光学视频摄像系统的三维运动解析，对录制者的视频进行非接触测量，能够采集精确的量化数据，最后获得录制者的视频在APAS系统的三维模型和三维运动模型。该APAS系统主要由图像剪辑、数字化、三维合成、三维坐标等模块组成。

除了脸部表情之外，可以采集分析得到语音文件，身体动作文件，影像文件，均以时间顺序进行排列，并将上述模块、采集分析得到的文件与录制者的个人信息匹配存储。这样，录制者真人的各个方面精确的匹配在了系统的一个虚拟人物的对应维度数据中，根据录制者真人的个人信息，如身高、体重、性别、年龄等可以在系统自动生成一个虚拟的人物，即第一虚拟三维人物模型。特别的，此时虚拟人物的面貌图像不一定是录制人本身的面貌图像，只是系统任意设定的一个与此录制者真人个人信息相关人物形象。

其中虚拟人物的模型建立方法包括对录制者真人进行APAS三维运动解析系统建模、形体扫描的三维建模，也可以是管理者使用三维动画等软件进行录制者真人的建模等，建模方法可以多种方式。本实施例以使用APAS三维运动解析系统建模，并将录制真人的语音、身体动作、影像可以精确的匹配到虚拟的人物身上。

步骤S103、通过三维运动解析系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息。

本实施例对录制者真人的解答过程中采用PTZ(即Pan/Tilt/Zoom，代表云台全方位移动及镜头变倍、变焦控制)对录制者在录制过程中参数进行精确采集，录制者在录制过程中会发生不定向的移动，PTZ云台全方位系统对被锁定的运动目标(即录制者的脸部表情、某个部位的动作、环境图像等)进行视觉导向的自动跟踪，以确保跟踪目标持续出现在镜头焦点中央，实现录制视频的时候的表情、任意部位的动作的数字建模和数据的准确采集。相同的，系统自动将采集的表情、动作、环境等数据与录制者的个人信息匹配存储。

步骤S104、将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

为了使得虚拟人物拥有与录制者真人相同的语言特征和行为特征，可以将步骤S103中采集的表情信息、动作信息和环境信息匹配到第一虚拟三维人物模型上，得到第二虚拟三维人物模型。经过匹配操作，虚拟人物开始有了相应的表情和动作，可以准确的在系统建立一个虚拟人物，使得该虚拟人物最大限度的拥有与录制者真人相同的语言特征和行为特征。

进一步地，还可以将虚拟三维人物模型的各个文件进行分解、编码建立数据库，其编码方式按照被录制者在系统中录制个人信息时系统自动生成的代码等，分别得到虚拟人物模型也是录制者真人的语音数据库、表情数据库、身体动作数据库、影像数据库、以及时间管理数据库。也就是对所述第一信息和第二信息进行编码，得到所述第二虚拟三维人物模型的语音数据库、表情数据库、身体动作数据库、影像数据库、以及时间管理数据库。

进一步地，还可以对上述语音数据库、表情数据库、身体动作数据库、影像数据库、时间管理数据库中的某些数据进行进一步的特征提取。例如，可以对其中语音数据库中的语言的声调特征提取为55个维度，分别为低音区11个，中音11个，中高音11个，高音11个，感叹音5个，特殊音6个；可以对其中表情数据提取为15个维度，分别为喜、怒、哀、乐、惊、恐、悲等7个维度，每个维度再分三个层级，总共21个维度；可以对身体动作数据库的肢体语言的动作特征提取为300个维度，其中采集数据的部位分为手部、手臂部、肩部、颈部、头部、腰部、背部、腿部、腹部、脚部十个点，每个点建立5-20个动作特征。

具体的，对上述并建立的细分特征数据即语言声调库、语言情绪库、语言动作特征库等进行数据的综合分析，其中综合提取三者数据库中的元素形成表情特征的366个组合特征，标记为各种细分表情，如大笑、微笑、露呲笑、闭口笑、生气、愤怒、惊愕等等。

需说明的是，以上各个数据库的维度和相应的数据类别的划分是本实施例的一种实现方式，在具体实现中对各维度不做具体限定，可以在本实施例的数值基础上上下浮动30％。

除上述步骤以外，本实施例还可以包括：

步骤S105、采用所述问答的内容、第一信息和第二信息对所述第二虚拟三维人物模型进行CNN卷积算法训练，得到训练后的第二虚拟三维人物模型，所述训练后的第二虚拟三维人物模型与所述录制者具有相同的语言特征和行为特征。

一种实现方式中，可以根据上述建立的录制者真人和其对应的三维模型数据后，系统建立对应的虚拟人物三维模型的AI模型，利用录制者真人对上述问答库中的问题的解答过程中采集的上述各个特征值，按照其目录类别对系统建立的虚拟人物AI模型进行训练。例如，将三维虚拟人动作、表情、语音和环境按照问答的文本的标记顺序进行合成、微调，得到包含某个三维虚拟机器人的整套视频，用此与真人录制的视频中各个维度的数据进行对比，建立各个维度的数据偏差档案，使得虚拟人物模型能根据对录制者真人的新问题的解答过程中的表情、动作、语言直接的关系做一个预判断，并反馈符合录制者本身应该有动作、语言、表情，在训练的过程中，对其反馈不准确的部分，录制者本人可以对系统进行人为的干预，将偏差校正，使得虚拟人物能不断的升华进步，更加贴近真人录制者。利用CNN卷积算法，让三维视频以真人视频为目标进行自我进化，具体为先将每秒的图片分解为30-60帧，每帧进行CNN卷积计算，逐渐逼近真人视频。

上述三维模型训练，还包括对N个录制者真人建立的虚拟对象进行AI模型训练，具体为上述不同的问答库或者相同问答库中不同维度的问题与答案，采取N个不同的真人进行录制时，则系统中将会建立N个不同的虚拟人物与之一一对应，因此，系统中每个虚拟人物AI模型都有自己的一套行为、表情、语言和环境数据体系。而对于每个虚拟人物AI模型的数据模型来讲，其他N-1个人物模型的各个维度的数据库都是其训练的数据库，因此，本实施例所述的三维模型训练还包括不同虚拟人物AI模型之间的对问答库的不同问题的问与答的数据训练。也就是说，可以采集其他录制者的虚拟三维人物模型对所述问答库中不同问题的问与答的数据信息，并采用所述数据信息训练所述第二虚拟三维人物模型；每一录制者的视频录制对应设置相应代号的第二虚拟三维人物模型，并将所述个人信息与所述第二虚拟三维人物模型的信息关联对应。

除上述步骤以外，本实施例还可以包括：

步骤S106、对训练后的第二虚拟三维人物模型进行合成处理并输出。

对第二虚拟三维人物模型进行训练后，还可以对其进行合成处理。具体的，将上述内容录制中，所有N个真人录制者的视频进行上传存档，用户在使用此交互系统学习时，首先是观看某录制者真人的视频图像或者课程、讲解视频等，在观看的过程中，用户一旦提问，系统识别用户在提问时，进行语义分析的同时暂停视频界面，正在讲课的录制者真人将自动消失在界面，取而代之的是该录制者真人对应的虚拟人物模型，虚拟人物AI模型对用户提出的问题进行问答。

获取用户提问的问题，并识别所述问题是否在所述问答库的目录中，若是，则调取当前观看录制者的第二虚拟三维人物模型，并将所述录制者的数据与所述第二虚拟三维人物模型的数据进行训练合成；若否，调取其他录制者的虚拟三维人物模型的表情数据和动作数据，并与当前观看录制者的第二虚拟三维人物模型进行训练合成。具体实现方式可以如下所示：

根据学生提出的问题，调取回答该问题的录制者真人的虚拟三维人物AI模型的相关数据，与用户当前观看录制者真人的虚拟三维人物AI模型的相关数据进行训练合成。合成过程中包括，系统采用上述步骤的内容分解其他虚拟人物AI模型的各个子系统数据库，利用PTZ云台全方位控制其参数的准确性和精度。通过构造全景图像的方法尽可能地将其他虚拟人物的摄像机的照射范围进行覆盖，利用最优匹配图像搜索方法，可以快速地寻找到最优匹配子图像；然后利用SURF算法(Speeded Up Robust Features)可以实时地对实时视频图像进行透视变换；最后利用最优匹配子图像的三维配准信息快速、准确地将实时视频图像投影到本虚拟人物的三维模型AI模型中。

若用户提问的问题不在问答库的目录中，此时AI模型可以根据语义理解进行文本生成，同时调取其他虚拟人物模型的表情、动作语音数据库，与进行回答的虚拟人物AI模型进行合成并演示。

通过上述步骤的优化方法，就得到了一种具有更加真实的贴近现实人物对象的动作、语音和表情的交互机器人，用于问答教学中，具有逼真的效果。

由上可知，本发明首先预置问答库并对该问答库中问题的问答过程进行录制者真人视频录制，在录制过程中，通过光学视频摄像系统的三维运动解析采集语音信息、动作信息和影像信息，并进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，然后通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集表情信息、动作信息和环境信息，并将上述信息匹配到所述第一虚拟三维任务模型中，得到与录制者本人更接近的虚拟人物形象。应用本发明提供的方案，可以使虚拟三维人物反馈的动作、语音和表情更加真实，更加贴近用户日常交互的对象，提高了交互的效率和代入感，实现了人机超级交互。

实施例二

为了更好地理解本发明实施例，下面提供一个具体应用场景对本实施例进行说明，请参阅图2，图2是本实施例提供的基于人工智能的数据处理方法的流程示意图，本实施例的实现方案可以包括如下：

步骤S201，设置问答库。

以唐代诗人《望庐山瀑布》为例进行详细说明：

日照香炉生紫烟，

遥看瀑布挂前川。

飞流直下三千尺，

疑似银河落九天。

通过一定的问题生成系统可以生成问题库，通过按照知识、理解、应用、分析、评价、创造六个层面来提问，系统可以生成以下等问题，我们以背景为例，列举以下问题，当然以下问题只是其中一部分，其他方面这里不在一一列举。

问答库可以包括如下内容：

{A101、庐山在哪里？

A201、答：美丽的庐山是我国的优美的避暑胜地，位于江西省的九江市，每年都有成千上万的游客到此地游玩。

A102、庐山瀑布是位于的庐山哪个地方？

A202、答：庐山瀑布是位于庐山的香炉峰上。

A103、庐山的占地面积是多少？海报最高是多少？

A203、庐山的山体面积大约282平方公里，它的最高峰为汉阳峰，海拔1474米。}

进一步的，系统设置目录主题《望庐山瀑布》，子目录为背景，其内容分别标记问答题的文本为：A101，A102、A103，…，A199等。

对应的答案分别标记为文本：A201，A202、A203，…，A299等。

步骤S202、录制问答过程。

对任意一个老师M，录制一个望庐山瀑布，她用普通摄像机录制一个视频课(用摄像技术)，形成了一个视频课程，该视频包括M老师对上述三个问题的问与答的过程，该过程包括M老师的语音、动作(如肩部、头部、颈部、背部、腰部、腹部、臀部、腿部、脚部、臂部、手部)、环境(办公室、家里、露天等)、表情(微笑、露呲笑等)。

步骤S203、对录制内容进行内容分解和特征提取。

根据上述步骤S201的内容录制，对M老师录制的视频文件用APAS系统进行动作解析，各个维度的数据获取、建档，建档过程包括录入M老师的包括性别、名字、年龄、身高、体重等个人信息。系统对其音调进行识别，包含一组音调信息{V1}，语音文本信息{X1}，动作组合信息{肩部-A1，头部-A2、…、腰部-An},环境信息{I1}等等维度的信息，系统将M老师的个人信息分别与上述维度信息进行匹配存储。

进一步的，系统采用PTZ云台全方位系统对M老师的录制视频中的人物进行表情、局部动作、人物环境等参数进一步的追踪，获得M老师的表情信息{露呲笑S1、微笑S2}，环境信息{办公室}。

进一步的，对上述分解的M老师的特征信息，分别建立语音、动作、表情数据库，并加入相应的特征参数，并通过APAS系统对提取的M老师的信息进行三维模型，建立与M老师相匹配的虚拟人物形象的同时，建立虚拟人物AI模型。

步骤S204、对三维模型进行训练。

进一步的，对M老师的建立虚拟人物AI模型，在上述3个问答之外，再调取系统其他L老师、H老师甚至J家长、Y家长等等人物录制的问答库带标记的其他问题维度的视频数据，如H老师录制的视频内容：

{A505，紫烟，为何是紫色？

A605早晨，在太阳光照射下，触使原本白色烟雾，变成“紫烟”}

将上述内容对M老师的虚拟人物AI模型进行训练，使得M老师的虚拟人物能根据新问题来配置动作、语言、表情，特别的，在M老师的虚拟人物AI模型进行训练之后，管理者对于M老师虚拟人物进行使用过程时，对新问题：

{A1001、烟，山上为何会冒烟，难道是着火了吗？}

若M老师回答{A1101不是，是香炉峰上的烟雾缭绕}时表现的表情、动作、语言等不好，此时管理者可以进行人工干预，调整模型，使得M老师对应的虚拟人物能不断的升华进步，更加接近H老师对应的虚拟人物模型回答{A1101不是，是香炉峰上的烟雾缭绕}时的表现的表情、动作、语言。

步骤S205、对三维模型进行合成处理与输出。

学生在使用此产品时，首先是进行看M老师的视频课，看的过程中，一旦提问，此时正在讲课的M老师就自动消失，并替换有虚拟M老师的机器人模型，虚拟M老师进行问答，根据学生提出的问题，调取M老师的虚拟三维模型，并将具有动作，语音、表情的进行播放。

进一步的，如果问到的问题没有在虚拟问答库中，此时AI可以根据语义理解进行文本生成，同时调取表情、动作语音数据库，进行回答的虚拟机器人的合成并演示。M老师对应的虚拟人物AI模型会根据不断的新问题添加进行进化。同时在进化过程中，M老师对应的虚拟人物AI模型的各种数据库也会进行自动更新。

进一步的，当我们的库里的虚拟人个数具有一定的数量后，我们就可以实现对别人的课进行改造，比如别人的微课中的人可以获取这个人的视频信息，进行匹配即可。该系统的两个子系统，一是自己的录制老师，二是别人已经录制好的课的改造。

实施例三

本发明还提供了一种基于人工智能的数据处理装置，请参阅图3，图3是本发明实施例提供的基于人工智能的数据处理装置的结构示意图。

一种基于人工智能的数据处理装置30，包括：预置模块100，用于预置问答库；录制模块200，用于对所述问答库中问题的问答过程进行录制者真人视频录制；采集模块300，用于在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；匹配模块400，用于将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型；训练模块500，用于采用所述问答的内容、第一信息和第二信息对所述第二虚拟三维人物模型进行CNN卷积算法训练，得到训练后的第二虚拟三维人物模型，所述训练后的第二虚拟三维人物模型与所述录制者具有相同的语言特征和行为特征。

采用所述问答的内容、第一信息和第二信息对所述第二虚拟三维人物模型进行CNN卷积算法训练，得到训练后的第二虚拟三维人物模型，所述训练后的第二虚拟三维人物模型与所述录制者具有相同的语言特征和行为特征。

一种实现方式中，所述预置问答库，具体包括：对所述问答库通过语音语义分析进行智能设置，并按照主题的不同维度进行分类并设置目录，所述目录用于识别问题是否在所述问答库内。

一种实现方式中，获取用户提问的问题，并识别所述问题是否在所述问答库的目录中，若是，则调取当前观看录制者的第二虚拟三维人物模型，并将所述录制者的数据与所述第二虚拟三维人物模型的数据进行训练合成；若否，调取其他录制者的虚拟三维人物模型的表情数据和动作数据，并与当前观看录制者的第二虚拟三维人物模型进行训练合成。

一种实现方式中，对所述目录的文本进行类别顺序标注并设置为总索引，所述文本对应相应的目录，所述第一信息和所述第二信息分别对应设置有相应的文本。

一种实现方式中，采集其他录制者的虚拟三维人物模型对所述问答库中不同问题的问与答的数据信息，并采用所述数据信息训练所述第二虚拟三维人物模型；每一录制者的视频录制对应设置相应代号的第二虚拟三维人物模型，并将所述个人信息与所述第二虚拟三维人物模型的信息关联对应。

一种实现方式中，对所述第一信息和第二信息进行编码，得到所述第二虚拟三维人物模型的语音数据库、表情数据库、身体动作数据库、影像数据库、以及时间管理数据库；其中，所述语音数据库中的语言的声调特征包括如下维度：低音区、中音区、中高音区、高音区、感叹音区、特殊音区；所述表情数据包括如下维度：喜、怒、哀、乐、惊、恐和悲，其中每个维度再分为多个层级；所述身体动作数据库的肢体语言的动作特征包括如下维度：手部、手臂部、肩部、颈部、头部、腰部、背部、腿部、腹部和脚部，其中每个维度建立多个动作特征。

本实施例提供的基于人工智能的数据处理装置，其具体实施可参见上述方法实施例，此处不再赘述。

实施例四

本发明还提供了一种服务器，包括处理器、输入设备、输出设备和存储器，处理器、输入设备、输出设备和存储器相互连接，其中，存储器用于存储计算机程序，计算机程序包括程序指令，处理器被配置用于调用程序指令，执行如下步骤：预置问答库并对所述问答库中问题的问答过程进行录制者真人视频录制；在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

实施例五

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行如下步骤：预置问答库并对所述问答库中问题的问答过程进行录制者真人视频录制；在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种基于人工智能的数据处理方法，其特征在于，包括：

预置问答库并对所述问答库中问题的问答过程进行录制者真人视频录制；

在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；

通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；

将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述预置问答库，具体包括：

对所述问答库通过语音语义分析进行智能设置，并按照主题的不同维度进行分类并设置目录，所述目录用于识别问题是否在所述问答库内。

4.根据权利要求3所述的方法，其特征在于，还包括：

获取用户提问的问题，并识别所述问题是否在所述问答库的目录中，若是，则调取当前观看录制者的第二虚拟三维人物模型，并将所述录制者的数据与所述第二虚拟三维人物模型的数据进行训练合成；

若否，调取其他录制者的虚拟三维人物模型的表情数据和动作数据，并与当前观看录制者的第二虚拟三维人物模型进行训练合成。

5.根据权利要求1或2所述的方法，其特征在于，还包括：

对所述目录的文本进行类别顺序标注并设置为总索引，所述文本对应相应的目录，所述第一信息和所述第二信息分别对应设置有相应的文本。

6.根据权利要求1或2所述的方法，其特征在于，还包括：

采集其他录制者的虚拟三维人物模型对所述问答库中不同问题的问与答的数据信息，并采用所述数据信息训练所述第二虚拟三维人物模型；

7.根据权利要求1或2所述的方法，其特征在于，还包括：

对所述第一信息和第二信息进行编码，得到所述第二虚拟三维人物模型的语音数据库、表情数据库、身体动作数据库、影像数据库、以及时间管理数据库；

其中，所述语音数据库中的语言的声调特征包括如下维度：低音区、中音区、中高音区、高音区、感叹音区、特殊音区；所述表情数据包括如下维度：喜、怒、哀、乐、惊、恐和悲，其中每个维度再分为多个层级；所述身体动作数据库的肢体语言的动作特征包括如下维度：手部、手臂部、肩部、颈部、头部、腰部、背部、腿部、腹部和脚部，其中每个维度建立多个动作特征。

8.一种基于人工智能的数据处理装置，其特征在于，包括：

预置模块，用于预置问答库；

录制模块，用于对所述问答库中问题的问答过程进行录制者真人视频录制；

采集模块，用于在所述录制过程中，通过光学视频摄像系统的三维运动解析采集第一信息，并根据所述第一信息和个人信息进行三维运动解析系统APAS建模，得到所述录制者的第一虚拟三维人物模型，所述第一信息包括语音信息、第一动作信息和影像信息，所述个人信息包括身高、体重、性别和年龄；通过云台全方位系统PTZ对所述录制者进行视觉导向自动追踪，采集第二信息，所述第二信息包括表情信息、第二动作信息和环境信息；

匹配模块，用于将所述第二信息匹配到所述第一虚拟三维任务模型中，得到第二虚拟三维人物模型。

9.一种服务器，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7中的任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7中的任一项所述的方法。