CN112215133B

CN112215133B - 基于人工智能的学员态度识别方法、装置、计算机设备

Info

Publication number: CN112215133B
Application number: CN202011077807.7A
Authority: CN
Inventors: 欧光礼
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2023-09-08
Anticipated expiration: 2040-10-10
Also published as: CN112215133A

Abstract

本发明公开了基于人工智能的学员态度识别方法、装置、计算机设备。实时接收来自多个客户端的客户视频信息并截取得到客户图像信息及客户音频信息，从包含单个活体的客户图像中获取特征图像集合并从不包含单个活体的客户图像中获取对应的行为特征，根据图像特征量化模型获取每一客户在多个类型图像特征的类型特征量化信息并获取客户音频信息的音频判断结果，根据态度识别规则获取每一客户视频信息的态度类型信息并实施反馈至讲师终端。本发明基于智能决策技术，属于人工智能领域，可基于客户端采集的客户视频信息准确、实时地对每一学员的学习态度进行精确识别，使讲师在授课时能够全面、快速掌握每一学员的学习态度，能够大幅提高授课质量。

Description

基于人工智能的学员态度识别方法、装置、计算机设备

技术领域

本发明涉及人工智能技术领域，属于智慧城市中对线上视频听课的学员进行实时态度识别的应用场景，尤其涉及一种基于人工智能的学员态度识别方法、装置、计算机设备。

背景技术

随着互联网技术的发展，远程视频培训成为一种新的学习方式被广泛使用，讲师可使用终端设备与学员的客户端之间建立远程视频连接，讲师的授课内容则可通过远程视频连接传输至学员的终端以供学员进行学习。传统线下授课过程中，讲师可现场查看各学员的听课态度，并根据听课态度随时调整授课内容，而线上授课过程中受学员数量的限制，无法将每名学员的视频信息发送至讲师的终端设备并同时进行显示，则讲师在授课过程中无法全面实时掌握学员的听课态度，讲师仅能专注于即有的授课内容而无法根据学员的听课态度做出相应调整，导致授课质量受到影响。因此，现有的技术方法在进行线上授课过程中存在讲师无法全面实时掌握学员的听课态度的问题。

发明内容

本发明实施例提供了一种基于人工智能的学员态度识别方法、装置、计算机设备及存储介质，旨在解决技术方法在进行线上授课过程中所存在的讲师无法全面实时掌握学员的听课态度的问题。

第一方面，本发明实施例提供了一种基于人工智能的学员态度识别方法，其包括：

实时接收来自多台所述客户端的客户视频信息，根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息，所述客户图像信息中每一客户图像均包含对应的活体检测信息；

根据预置的图像获取模型从活体检测信息为包含单个活体的所述客户图像中获取对应的特征图像集合；

根据预置的行为特征分类模型获取活体检测信息为不包含单个活体的所述客户图像对应的行为特征；

根据预置的图像特征量化模型从所述特征图像集中获取每一客户在多个类型图像特征对应的类型特征量化信息；

根据预置的音频判断规则判断每一所述客户音频信息中是否包含交谈语音，得到每一所述客户音频信息的音频判断结果；

根据预存的态度识别规则及每一所述客户视频信息的所述行为特征、所述类型特征量化信息及所述音频判断结果获取每一所述客户视频信息的态度类型信息；

将每一所述客户视频信息的态度类型信息实时反馈至所述讲师终端。

第二方面，本发明实施例提供了一种基于人工智能的学员态度识别装置，其包括：

客户视频信息截取单元，用于实时接收来自多台所述客户端的客户视频信息，根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息，所述客户图像信息中每一客户图像均包含对应的活体检测信息；

特征图像集合获取单元，用于根据预置的图像获取模型从活体检测信息为包含单个活体的所述客户图像中获取对应的特征图像集合；

行为特征获取单元，用于根据预置的行为特征分类模型获取活体检测信息为不包含单个活体的所述客户图像对应的行为特征；

类型特征量化信息获取单元，用于根据预置的图像特征量化模型从所述特征图像集中获取每一客户在多个类型图像特征对应的类型特征量化信息；

音频判断结果获取单元，用于根据预置的音频判断规则判断每一所述客户音频信息中是否包含交谈语音，得到每一所述客户音频信息的音频判断结果；

态度类型信息获取单元，用于根据预存的态度识别规则及每一所述客户视频信息的所述行为特征、所述类型特征量化信息及所述音频判断结果获取每一所述客户视频信息的态度类型信息；

态度类型信息实时反馈单元，用于将每一所述客户视频信息的态度类型信息实时反馈至所述讲师终端。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于人工智能的学员态度识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的学员态度识别方法。

本发明实施例提供了一种基于人工智能的学员态度识别方法、装置、计算机设备及存储介质。实时接收来自多个客户端的客户视频信息并截取得到客户图像信息及客户音频信息，从包含单个活体的客户图像中获取特征图像集合并从不包含单个活体的客户图像中获取对应的行为特征，根据图像特征量化模型获取每一客户在多个类型图像特征的类型特征量化信息并获取客户音频信息的音频判断结果，根据态度识别规则获取每一客户视频信息的态度类型信息并实施反馈至讲师终端。通过上述方法，可基于客户端采集的客户视频信息准确、实时地对每一学员的学习态度进行精确识别，使讲师在授课时能够全面、快速掌握每一学员的学习态度，能够大幅提高授课质量。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于人工智能的学员态度识别方法的流程示意图；

图2为本发明实施例提供的基于人工智能的学员态度识别方法的应用场景示意图；

图3为本发明实施例提供的基于人工智能的学员态度识别方法的效果示意图；

图4为本发明实施例提供的基于人工智能的学员态度识别方法的子流程示意图；

图5为本发明实施例提供的基于人工智能的学员态度识别方法的另一子流程示意图；

图6为本发明实施例提供的基于人工智能的学员态度识别方法的另一子流程示意图；

图7为本发明实施例提供的基于人工智能的学员态度识别方法的另一子流程示意图；

图8为本发明实施例提供的基于人工智能的学员态度识别方法的另一子流程示意图；

图9为本发明实施例提供的基于人工智能的学员态度识别方法的另一流程示意图；

图10为本发明实施例提供的基于人工智能的学员态度识别装置的示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1及图2，图1是本发明实施例提供的基于人工智能的学员态度识别方法的流程示意图，图2为本发明实施例提供的基于人工智能的学员态度识别方法的应用场景示意图；该基于人工智能的学员态度识别方法应用于管理服务器10中，该方法通过安装于管理服务器10中的应用软件进行执行，管理服务器10与一台讲师终端20及多台客户端30通过网络连接实现数据信息的传输，管理服务器10即是用于执行基于人工智能的学员态度识别方法以实时获取远程视频学习的学员态度的服务器端，管理服务器可以是企业服务器，讲师终端20即是与管理服务器10进行网络连接以发送授课视频信息至管理服务器10的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等，客户端30即是与管理服务器10进行网络连接以接收来自管理服务器10的授课视频信息并反馈客户视频信息至管理服务器10的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示，该方法包括步骤S110～S170。

S110、实时接收来自多台所述客户端的客户视频信息，根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息，所述客户图像信息中每一客户图像均包含对应的活体检测信息。

实时接收来自多台所述客户端的客户视频信息，根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息。客户端与讲师终端均与管理服务器建立网络连接，来自讲师终端的授课视频信息经管理服务器传输至每一客户端，同时，每一客户端的客户视频信息均传输至管理服务器，则管理服务器可实时接收来自每一客户端的客户视频信息，其中截取规则即是用于从客户视频信息中截取得到客户图像信息及客户音频信息的规则信息，从每一客户的客户视频信息中攫取到的客户图像信息中包含至少一张客户图像，每一客户图像均包含对应的活体检测信息，活体检测信息即是对客户图像进行检测后得到该图像中否包含单个活体的检测信息，每一客户的客户音频信息中包含该段视频信息中所对应的语音信息。具体的，截取规则包括截取时段、图像截取时间点及活体检测规则。

在一实施例中，如图4所示，步骤S110包括子步骤S111、S112、S113和S114。

S111、根据所述截取时段截取所述客户视频信息对应的一段视频信息作为目标视频信息。

具体的，管理服务器从每一客户端实时获取对应的客户视频信息并保存于其存储介质中，则管理服务器可基于截取时段，从存储介质中获取当前时间至过去某一时间之间的一客户课视频信息进行处理，例如，截取时段为当前时间的15秒之前至当前时间，可获取一个客户在15秒之前至当前时间的一段客户视频信息作为目标视频信息进行处理。

S112、获取目标视频信息中的语音信息作为客户音频信息。

目标视频信息中包含一段语音信息及对应的图像画面，获取目标视频信息中所包含的语音信息作为客户音频信息。

S113、根据所述图像截取时间点从所述目标视频信息中获取对应的客户图像得到客户图像信息。

图像截取时间点即为对目标视频信息中的图像画面进行截取的时间点信息，图像截取时间点中包含多个时间点，每一时间点可从目标视频信息中对应截取得到一张客户图像，某一客户对应的所有客户图像组合成为该客户的客户图像信息。

例如，图像截取时间点为目标视频信息结束时间之前的1s、3s、6s、9s和12s，则以目标视频信息的结束时间为“0s”，分别获取目标视频信息中“-1s”、“-3s”、“-6s”、“-9s”及“-12s”五个时间点各自对应的五张客户图像作为客户图像信息。

S114、根据所述活体检测规则对每一所述客户图像中是否包含单个活体进行检测的得到每一客户图像的活体检测信息。

根据所述活体检测规则对每一所述客户图像中是否包含单个活体进行检测的得到每一客户图像的活体检测信。具体的，活体检测规则中包含人像轮廓信息，人像轮廓信息可以是人像的外部轮廓对应的轮廓区域，可获取某一客户的客户图像信息中的每一张客户图像，并判断客户图像中的客户轮廓是否与人像轮廓信息相匹配，也即是判断客户轮廓与人像轮廓信息中的轮廓区域的重合度是否大于预设的重合度阈值，若大于，则表明该客户图像中客户轮廓与人像轮廓信息相匹配，该客户图像中包含单个活体；若不大于，则表明该客户图像中客户轮廓与人像轮廓信息不相匹配，该客户图像中不包含单个活体。可根据活体检测规则获取一个客户的客户图像信息中每一客户图像的活体检测信息。

S120、根据预置的图像获取模型从活体检测信息为包含单个活体的所述客户图像中获取对应的特征图像集合。

每一客户的客户图像信息中均包含该客户的多张图像，为对客户(学员)的听课态度进行精确分析，可根据图像获取模型从客户图像中截取得到体现客户面部特征的特征图像及体现客户整体状态特征的特征图像，具体的，获取客户图像信息中活体检测信息为包含单个活体的客户图像进行裁剪处理，活体检测信息为不包含单个活体的客户图像则不进行裁剪处理，其中，所述图像获取模型中包括图像裁剪规则、梯度计算公式以及面部特征截取模板、人像特征截取模板。图像裁剪规则即是用于对客户图像进行裁剪以分别获取该客户图像对应的面部图像及人像图像的规则信息，梯度计算公式即是用于计算图像中任一像素点梯度值的计算公式，根据面部特征截取模板可从面部图像中获取对应的特征图像，根据人像特征截取模板可从人像图像中获取对应的特征图像。其中，面部特征的特征图像至少包括眼神特征图像及表情特征图像；整体人像特征的特征图像可以是客户的状态特征图像，从每一客户图像中分别获取对应的多张特征图像，即可组合得到包含多个客户的特征图像的特征图像集合。

在一实施例中，如图5所示，步骤S120包括子步骤S121、S122、S123、S124和S125。

S121、根据所述图像裁剪规则对活体检测信息为包含单个活体的所述客户图像中进行裁剪以得到面部图像及人像图像。

其中，图像裁剪规则中包括局部裁剪规则及整体裁剪规则，局部裁剪规则用于对客户图像进行局部裁剪以获取面部图像，整体裁剪规则用于对客户图像进行整体裁剪以获取状态特征图像。具体的，以局部裁剪规则为例进行说明，其中，局部裁剪规则包括：截取顶点定位公式、高度截取比例及宽度截取比例，由于客户图像中客户的面部在该图像中的大体范围较为固定，则可通过顶点定位公式对客户面部图像的左上角进行定位，通过高度截取比例及宽度截取比例即可计算得到面部图像的截取高度及截取宽度。

例如，对面部图像进行截取的步骤可包括：步骤a-步骤c。

a、根据所述截取顶点定位公式及所述客户图像的图像解析度计算所述客户图像的截取顶点。

图像解析度即为图像每一行及每一列对应包含的像素点的数量，截取顶点定位公式包含顶点横坐标计算公式及顶点纵坐标计算公式，通过上述计算公式结合图像解析度即可计算得到客户图像的截取顶点。

例如，客户图像的图像解析度(Fw×Fh)均为1280×720，顶点横坐标计算公式为Dw＝0.4×Fw＝512，顶点纵坐标计算公式Dh＝0.15×720＝108，则截取顶点在客户图像中的坐标值为(512,108)。

b.将所述高度截取比例及所述宽度截取比例分别与所述图像解析度相乘以得到所述客户图像的截取高度及截取宽度；

将高度截取比例与图像解析度中的列像素点数量进行相乘，得到截取高度，将宽度截取比例与图像解析度中的行像素点数量进行相乘，得到截取宽度。

例如，高度截取比例为0.4，计算得到截取高度为0.4*720＝288，宽度截取比例为0.2，计算得到截取宽度为0.2*1280＝256。

c.根据所述截取顶点、截取高度及截取宽度对所述客户图像进行截取以得到面部图像；

以截取顶点作为面部图像的基准点，通过截取顶点、截取高度及截取宽度即可确定面部图像的其他顶点，根据截取顶点及其他顶点对客户图像进行截取，即可得到对应的面部图像，所得到的面部图像为一个长方形图像。

S122、根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点。

人的眼部瞳孔的几何中心点并不一定与虹膜的中心点重合，为使所得到的特征图像更加准确，可通过梯度计算公式对面部图像中进行计算以获取对应的虹膜中心像素点，由于面部图像中包含左眼和右眼，则对应得到两个虹膜中心像素点。面部图像中虹膜中心像素点的灰度值最大，其他像素点的灰度值与虹膜中心像素点的距离成反比，可根据这一原理计算面部图像中每一像素点的梯度值，并根据计算结果获取对应的虹膜中心像素点。

在一实施例中，如图6所示，步骤S122包括子步骤S1221、S1222和S1223。

S1221、根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值。

根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值。可将面部图像进行对称切分得到左眼部分及右眼部分，则可通过梯度计算公式分别计算左眼部分或右眼部分对应的图像中每一像素点的梯度值，梯度计算公式可对一个像素点在多个不同方向的梯度值进行计算。

图3为本发明实施例提供的基于人工智能的学员态度识别方法的效果示意图，例如，如图3所示，若计算与某一像素点与相邻2格像素点之间的梯度值，则可对应计算得到该像素点在16个方向的梯度值，其中，该像素点在某一方向的梯度值可表示为：d1(x,y)＝I(x,y)-I(x+2,y)，其中，x，y为该像素点的坐标值，I(x,y)为图像坐标值(x,y)这一像素点的灰度值。

S1222、统计每一所述像素点中梯度值大于零的数量以得到每一所述像素点的正向梯度数。

对每一像素点的梯度值大于零的数量进行统计，即可得到每一像素点的正向梯度数。具体的，对计算得到的每一像素点的梯度值是否大于零进行判断，若某一像素点在一个方向的梯度值大于零，则表明图像中像素点的灰度值沿该梯度方向下降。

S1223、分别获取所述面部图像中左眼部分及右眼部分中正向梯度数最大的像素点，作为所述左眼部分及右眼部分的虹膜中心像素点。

将正向梯度数最大的所述像素点确定为所述左眼部分或右眼部分对应的图像的虹膜中心像素点。分别计算得到左眼部分图像中每一像素点的正向梯度数，及右眼部分图像中每一像素点的正向梯度数，将每一图像中正向梯度数最大的像素点确定为该图像的虹膜中心像素点，由于虹膜中心像素点的灰度值最大，因此虹膜中心像素点在任一方向的梯度值均大于零，而图像中非虹膜中心的其他像素点包含至少一个不大于零的梯度值，即可获取图像中正向梯度数最大的像素点作为该图像的虹膜中心像素点，获取虹膜中心像素点的坐标值，由于输入的面部图像包括左眼部分及右眼部分，因此对应得到左眼部分的虹膜中心像素点及右眼部分的虹膜中心像素点。

S123、以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整。

以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整；具体的，可根据虹膜中心像素点获取两个虹膜中心的虹膜间距，面部特征截取模板及人像特征截取模板中均包含目标虹膜间距，根据虹膜间距与目标虹膜间距之间的比值对面部特征截取模板及人像特征截取模板进行放大或缩小调整。

例如，所得到的虹膜间距为88个像素点(88px)，目标虹膜间距为80px，则虹膜间距与目标虹膜间距之间的比值为1.1，则将面部特征截取模板及人像特征截取模板分别对应放大调整1.1倍。

S124、以所述虹膜中心像素点为基准位置将调整后的所述面部特征截取模板覆盖于所述面部图像上进行裁剪得到面部图像的特征图像；S125、以所述虹膜中心像素点为基准位置将调整后的所述人像特征截取模板覆盖于所述人像图像上进行裁剪得到人像图像的特征图像。

面部特征截取模板中包括第一模板基准点及第二模板基准点，具体的，以虹膜中心像素点在面部图像中的坐标位置作为基准位置，将调整后的面部特征截取模板对应覆盖于面部图像上，也即是将调整后的面部特征截取模板中的第一模板基准点及第二模板基准点对应覆盖面部图像中虹膜中心像素点的坐标位置，以实现将面部特征截取模板对应覆盖于面部图像上，即可裁剪得到面部图像的特征图像。其中，面部特征截取模板包括眼神截取区域及表情截取区域，通过截取区域对面部图像进行截取即可得到与每一截取区域对应的特征图像。

例如，表情截取区域中，左右两侧的截取边界线即为两个虹膜中心像素点向外侧推移33个像素对应的垂线，上方的截取边界线为两个虹膜中心像素的连接线往下11个像素，下方的截取边界线为两个虹膜中心像素点的连接线往下66个像素，则根据所确定的截取边界线截取得到表情目标图像，表情目标图像中每一像素点均对应一个RGB颜色，获取表情目标图像中RGB颜色处于预设的表情RGB区间内的像素点进行组合得到表情特征图像，其中，表情RGB区间即为脸颊颜色所对应的一个RGB颜色区间。

由于人像图像与面部图像的像素比例相等，也即是虹膜间距在人像图像与面部图像中均相等，因此可采用同样方法将调整后的人像特征截取模板对应覆盖于人像图像上进行裁剪。

S130、根据预置的行为特征分类模型获取活体检测信息为不包含单个活体的所述客户图像对应的行为特征。

根据预置的行为特征分类模型获取活体检测信息为不包含单个活体的所述客户图像对应的行为特征。具体的，行为特征分类模型包括卷积层及全连接层，行为特征分类模型用于对活体检测信息为不包含单个活体的客户图像进行分类以获取对应的行为特征，客户图像对应的行为特征的类型可以是趴桌子、玩手机、站立等，卷积层即可用于对客户图像中包含的像素点进行卷积操作，卷积层中包含多个卷积核，根据卷积层可对客户图像进行卷积操作得到对应的图像特征向量，图像特征向量即为用于对客户图像的特征进行量化表示的多维向量；将图像特征向量输入全连接层进行计算，即可得到对应的行为特征。

具体的，全连接层中包含多个输入节点、一个或多个中间层及多个输出节点，每一中间层中均包含多个特征单元，每一特征单元均通过输入公式与输入节点或其他特征单元相连接，每一特征单元还通过输出公式与输出节点相连接，其中，输入公式或输出公式可表示为：y＝a×X+b；其中，a及b为公式中的参数值，y为计算值，x为输入值；输出节点的输出值的计算公式可表示为：其中，aj为全连接层中最后一个中间层的第j个特征单元的加权值，hj为全连接层中最后一个中间层的第j个特征单元的计算值，N为全连接层中最后一个中间层所包含的特征单元的数量。每一输入节点均对应图像特征向量中一个维度的向量值，将每一维度的向量值作为输入节点的输入值输入全连接层，通过其中的输入公式、输出公式及输出值的计算公式即可计算得到每一输出节点对应的输出值，输出节点的数量与行为特征的类型相匹配，输出值即为客户图像与相应行为特征之间的匹配度，获取匹配度最高的一个输出节点对应的行为特征类型作为客户图像的行为特征。

S140、根据预置的图像特征量化模型从所述特征图像集中获取每一客户在多个类型图像特征对应的类型特征量化信息。

特征图像集中每一类图像特征(眼神特征、表情特征、状态特征等)均包含多张特征图像，可通过差异信息提取公式对一个客户的一类图像特征所包含的多张特征图像进行计算，以提取该类图像特征的差异信息并转换为类型特征向量信息，其中，图像特征量化模型包括差异信息提取公式、特征计算公式及虚数转换规则。差异信息提取公式即为对一个客户的一类图像特征的差异信息进行提取的计算公式，特征计算公式即为基于差异信息获取每一类图像特征的特征信息的计算公式，虚数转换规则为对特征提取公式计算得到的虚数进行转换的规则，将特征提取公式计算得到的结果进行转换即可得到对应的类型特征量化信息，类型特征量化信息是对一类图像特征的特征采用数值方式进行量化的信息，计算机无法对图像所包含像素点的特征进行直接计算，因此可通过多个类型特征量化信息对客户图像信息的特征进行量化表示。此外，若特征图像集中某一客户的一类图像特征的特征图像数量为零或一，则不获取该客户的该类图像特征的类型特征量化信息。

在一实施例中，如图7所示，步骤S140包括子步骤S141、S142和S143。

S141、根据所述差异信息提取公式对一个客户的所述类型图像特征所包含的多张特征图像进行计算，得到所述类图像特征的差异信息。

根据所述差异信息提取公式对一个所述类型图像特征所包含的多张特征图像进行计算，得到所述类图像特征的差异信息。则所得到的类型图像特征的差异信息中包含该类型图像特征信息对应的多张特征图像之间的差异，差异信息可表示为与特征图像尺寸对应的一张图像。

例如，特征图像集中某一客户的表情特征对应包含四张表情特征图像，差异信息提取公式可以是C_t1＝3×F₁-F₂-F₃-F₄，其中，C_t1可表示为表情特征的差异信息，F₁为四张表情特征图像中截取时间最晚的一张表情特征图像，F₂、F₃及F₄为四张标签特征图像中的其它三张表情特征图像。

S142、将所述差异信息所包含的像素点输入所述特征提取公式以计算得到所述像素点的计算值。

将所述差异信息所包含的像素点输入所述特征提取公式以计算得到所述像素点的计算值。获取差异信息对应图像的中心点坐标值，将差异信息中所包含的像素点作为像素集合输入特征提取公式，即可计算得到像素集合中每一像素点对应的计算值，所得的计算值为一个包含实部及虚部的虚数。具体的，特征提取公式可表示为:其中，(x₀,y₀)为差异信息对应图像的中心点坐标值，α、β及u₀为公式中的参数值，具体的，α为特征提取公式的滤波有效宽度，β为特征提取公式的滤波有效长度，u₀决定了公式中调制项的频率；j是虚数((x，y)为包含每一像素点的像素集合，G(x,y)为对像素集合所包含的像素点进行计算所得的计算值，G(x,y)中包含每一像素点的计算值。

S143、根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。

根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。根据虚数转换规则对所计算得到的虚数进行转换，也即是将该虚数的极性进行量化得到一个2位二进制数，具体的，当计算值中的实部和虚部均为正时，特征值为11；当实部为正虚部为负时，特征值为10；当实部为负虚部为正时，特征值为01；当实部和虚部均为负时，特征值为00。根据上述规则对每一像素点的计算值进行转换即可得到每一像素点的特征值，也即是得到一个类型图像特征所对应的类型特征量化信息。

根据上述方法将特征图像集中每一客户在多个类型图像特征所包含的特征图像分别进行提取，即可得到每一客户在多个类型图像特征对应的类型特征量化信息。

S150、根据预置的音频判断规则判断每一所述客户音频信息中是否包含交谈语音，得到每一所述客户音频信息的音频判断结果。

根据预置的音频判断规则判断每一所述客户音频信息中是否包含交谈语音，得到与每一客户音频信息对应的音频判断结果。音频判断规则即为对客户音频信息中是否包含交谈语音进行判断的规则，其中，音频判断规则包括去燥规则及声音强度阈值。去燥规则即是用于对客户音频信息中的背景噪声进行去除的具体规则，去除背景噪声后得到去燥音频信息，判断去燥音频信息中的声音强度是否大于声音强度阈值即可得到客户音频信息中是否包含交谈语音的音频判断结果。

在一实施例中，如图8所示，步骤S150包括子步骤S151及S152。

S151、根据所述去燥规则对每一所述客户音频信息进行去燥处理得到去燥音频信息。

具体的，由于人类说话时发出声音的频率处于一个固定频率区间，可基于去燥规则中所设置的噪音频率范围(如将频率小于300Hz及大于3500Hz的声纹信号确定为噪音)，获取每一客户音频信息中处于上述噪音频率范围内的声纹信号，并将处于噪音频率范围内的声纹信号从相应客户音频信息中删除，实现去燥处理的目的。

S152、判断每一所述去燥音频信息中的最大声音强度是否大于声音强度阈值，以得到每一所述客户音频信息的音频判断结果。

获取每一去燥音频信息中声音强度最大的声音强度值，判断该声音强度值是否大于声音强度阈值，若大于，则表明去燥音频信息中包含客户的交谈语音，得到该去燥音频信息对应的客户音频信息中包含交谈语音的音频判断结果；若不大于，则表明去燥音频信息中不包含客户的交谈语音，得到该去燥音频信息对应的客户音频信息中不包含交谈语音的音频判断结果。

S160、根据预存的态度识别规则及每一所述客户视频信息的所述行为特征、所述类型特征量化信息及所述音频判断结果获取每一所述客户视频信息的态度类型信息。

根据预存的态度识别规则及每一所述客户视频信息的行为特征、类型特征量化信息及音频判断结果获取每一所述客户视频信息的态度类型信息。态度识别规则即是用于对一段客户视频信息的行为特征、类型特征量化信息及音频判断结果进行综合评价以得到具体态度类型信息的规则。其中，态度识别规则包括态度评分计算公式及多个分类区间，态度评分计算公式即是基于行为特征、类型特征量化信息及音频判断结果计算得到相应态度评分的计算公式，获取多个分类区间中与计算得到的态度评分相对应的一个分类区间的态度类型，作为相应的一端客户视频信息的态度类型信息。

具体的态度评分计算公式还包括标准特征量化信息，标准特征量化信息中包含每一类型特征量化信息对应的标准特征信息，可根据与每一类型特征量化信息对应的标准特征信息获取与每一类型特征量化信息对应的类型评分，类型特征量化信息中包含多个特征值，与该类型特征量化信息相对应的标准特征信息中也包含多个标准特征值，可计算某类型特征量化信息中特征值与相应标准特征信息中标准特征值之间的重合度，将该重合度作为与该类型特征量化信息对应的类型评分。

例如，态度评分计算公式可表示为：其中，a_s、b_s、c_s及d_s均为公式中的加权值，P_a0、P_b0及P_c0为对应的三个标准特征信息，P_a、P_b及P_c类型特征量化信息，P_d为与行为特征及音频判断结果对应的数量值，若音频判断结果为客户音频信息中包含交谈语音，则P_d为行为特征的数量+1；若音频判断结果为客户音频信息中不包含交谈语音，则P_d为行为特征的数量。

分类区间可以对应消极、积极、平静三个态度类型以及与三个态度类型分别对应的三个评分区间，获取计算得到的态度评分所属的一个评分区间对应的态度类型，作为与该态度评分对应的态度类型信息。

S170、将每一所述客户视频信息的态度类型信息实时反馈至所述讲师终端。

将每一所述客户视频信息的态度类型信息实时反馈至所述讲师终端。由于管理服务器对来自客户端的客户视频信息进行实时接收，对每一段客户视频信息进行实时分析均可得到对应的一个态度类型信息，则可将每一客户视频信息对应的态度类型信息实时反馈至讲师终端，以使讲师可通过态度类型信息实现掌握每一客户(学员)的听课态度，讲师可根据所有客户的听课态度对应调整授课内容，以确保授课的质量。

在一实施例中，如图9所示，步骤S170之后还包括步骤S180。

S180、根据每一所述客户视频信息的态度类型信息发送相应提醒消息至相应所述客户端。

根据每一所述客户视频信息的态度类型信息发送相应提醒消息至相应所述客户端。具体的，若某一客户视频信息的态度类型信息为消极，则可发送注意认真听课的提醒消息至该客户视频信息对应的客户端。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含实时获取线上视频学习的学员态度的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的基于人工智能的学员态度识别方法中，实时接收来自多个客户端的客户视频信息并截取得到客户图像信息及客户音频信息，从包含单个活体的客户图像中获取特征图像集合并从不包含单个活体的客户图像中获取对应的行为特征，根据图像特征量化模型获取每一客户在多个类型图像特征的类型特征量化信息并获取客户音频信息的音频判断结果，根据态度识别规则获取每一客户视频信息的态度类型信息并实施反馈至讲师终端。通过上述方法，可基于客户端采集的客户视频信息准确、实时地对每一学员的学习态度进行精确识别，使讲师在授课时能够全面、快速掌握每一学员的学习态度，能够大幅提高授课质量。

本发明实施例还提供一种基于人工智能的学员态度识别装置，该基于人工智能的学员态度识别装置用于执行前述基于人工智能的学员态度识别方法的任一实施例。具体地，请参阅图10，图10是本发明实施例提供的基于人工智能的学员态度识别装置的示意性框图。该基于人工智能的学员态度识别装置可以配置于管理服务器10中。

如图10所示，基于人工智能的学员态度识别装置100包括客户视频信息截取单元110、特征图像集合获取单元120、行为特征获取单元130、类型特征量化信息获取单元140、音频判断结果获取单元150、态度类型信息获取单元160和态度类型信息实时反馈单元170。

客户视频信息截取单元110，用于实时接收来自多台所述客户端的客户视频信息，根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息，所述客户图像信息中每一客户图像均包含对应的活体检测信息。

在一实施例中，所述客户视频信息截取单元110包括子单元：目标视频信息获取单元、客户音频信息获取单元、目标视频信息截取单元及活体检测信息获取单元。

目标视频信息获取单元，用于根据所述截取时段截取所述客户视频信息对应的一段视频信息作为目标视频信息；客户音频信息获取单元，用于获取目标视频信息中的语音信息作为客户音频信息；目标视频信息截取单元，用于根据所述图像截取时间点从所述目标视频信息中获取对应的客户图像得到客户图像信息；活体检测信息获取单元，用于根据所述活体检测规则对每一所述客户图像中是否包含单个活体进行检测的得到每一客户图像的活体检测信息。

特征图像集合获取单元120，用于根据预置的图像获取模型从活体检测信息为包含单个活体的所述客户图像中获取对应的特征图像集合。

在一实施例中，所述特征图像集合获取单元120包括子单元：图像裁剪单元、像素点计算单元、截取模板调整单元、面部特征图像截取单元及人像特征图像截取单元。

图像裁剪单元，用于根据所述图像裁剪规则对活体检测信息为包含单个活体的所述客户图像中进行裁剪以得到面部图像及人像图像。像素点计算单元，用于根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点；截取模板调整单元，用于以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整；面部特征图像截取单元，用于以所述虹膜中心像素点为基准位置将调整后的所述面部特征截取模板覆盖于所述面部图像上进行裁剪得到面部图像的特征图像；人像特征图像截取单元，用于以所述虹膜中心像素点为基准位置将调整后的所述人像特征截取模板覆盖于所述人像图像上进行裁剪得到人像图像的特征图像。

在一实施例中，所述像素点计算单元包括子单元：梯度值计算单元、正向梯度数统计单元及虹膜中心像素点获取单元。

梯度值计算单元，用于根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值；正向梯度数统计单元，用于统计每一所述像素点中梯度值大于零的数量以得到每一所述像素点的正向梯度数；虹膜中心像素点获取单元，用于分别获取所述面部图像中左眼部分及右眼部分中正向梯度数最大的像素点，作为所述左眼部分及右眼部分的虹膜中心像素点。

行为特征获取单元130，用于根据预置的行为特征分类模型获取活体检测信息为不包含单个活体的所述客户图像对应的行为特征。

类型特征量化信息获取单元140，用于根据预置的图像特征量化模型从所述特征图像集中获取每一客户在多个类型图像特征对应的类型特征量化信息。

在一实施例中，所述类型特征量化信息获取单元140包括子单元：差异信息获取单元、特征计算单元及转换单元。

差异信息获取单元，用于根据所述差异信息提取公式对一个客户的所述类型图像特征所包含的多张特征图像进行计算，得到所述类图像特征的差异信息；特征计算单元，用于将所述差异信息所包含的像素点输入所述特征提取公式以计算得到所述像素点的计算值；转换单元，用于根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。

音频判断结果获取单元150，用于根据预置的音频判断规则判断每一所述客户音频信息中是否包含交谈语音，得到每一所述客户音频信息的音频判断结果。

在一实施例中，所述音频判断结果获取单元150包括子单元：去燥处理单元及声音强度判断单元。

去燥处理单元，用于根据所述去燥规则对每一所述客户音频信息进行去燥处理得到去燥音频信息；声音强度判断单元，用于判断每一所述去燥音频信息中的最大声音强度是否大于声音强度阈值，以得到每一所述客户音频信息的音频判断结果。

态度类型信息获取单元160，用于根据预存的态度识别规则及每一所述客户视频信息的所述行为特征、所述类型特征量化信息及所述音频判断结果获取每一所述客户视频信息的态度类型信息。

态度类型信息实时反馈单元170，用于将每一所述客户视频信息的态度类型信息实时反馈至所述讲师终端。

在一实施例中，所述基于人工智能的学员态度识别装置100还包括子单元：提醒消息发送单元。

提醒消息发送单元，用于根据每一所述客户视频信息的态度类型信息发送相应提醒消息至相应所述客户端。

在本发明实施例所提供的基于人工智能的学员态度识别装置应用上述基于人工智能的学员态度识别方法，实时接收来自多个客户端的客户视频信息并截取得到客户图像信息及客户音频信息，从包含单个活体的客户图像中获取特征图像集合并从不包含单个活体的客户图像中获取对应的行为特征，根据图像特征量化模型获取每一客户在多个类型图像特征的类型特征量化信息并获取客户音频信息的音频判断结果，根据态度识别规则获取每一客户视频信息的态度类型信息并实施反馈至讲师终端。通过上述方法，可基于客户端采集的客户视频信息准确、实时地对每一学员的学习态度进行精确识别，使讲师在授课时能够全面、快速掌握每一学员的学习态度，能够大幅提高授课质量。

上述基于人工智能的学员态度识别装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于人工智能的学员态度识别方法以实时获取线上视频学习学员的态度的管理服务器10。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于人工智能的学员态度识别方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于人工智能的学员态度识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于人工智能的学员态度识别方法中对应的功能。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于人工智能的学员态度识别方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的学员态度识别方法，应用于管理服务器中，所述管理服务器与一台讲师终端及多台客户端通过网络连接实现数据信息的传输，其特征在于，所述方法包括：

2.根据权利要求1所述的基于人工智能的学员态度识别方法，其特征在于，所述截取规则包括截取时段、图像截取时间点及活体检测规则，所述根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息，包括：

根据所述截取时段截取所述客户视频信息对应的一段视频信息作为目标视频信息；

获取目标视频信息中的语音信息作为客户音频信息；

根据所述图像截取时间点从所述目标视频信息中获取对应的客户图像得到客户图像信息；

根据所述活体检测规则对每一所述客户图像中是否包含单个活体进行检测的得到每一客户图像的活体检测信息。

3.根据权利要求1所述的基于人工智能的学员态度识别方法，其特征在于，所述图像获取模型中包括图像裁剪规则、梯度计算公式以及面部特征截取模板、人像特征截取模板，所述根据预置的图像获取模型从活体检测信息为包含单个活体的所述客户图像中获取对应的特征图像集合，包括：

根据所述图像裁剪规则对活体检测信息为包含单个活体的所述客户图像中进行裁剪以得到面部图像及人像图像；

根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点；

以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整；

以所述虹膜中心像素点为基准位置将调整后的所述面部特征截取模板覆盖于所述面部图像上进行裁剪得到面部图像的特征图像；

以所述虹膜中心像素点为基准位置将调整后的所述人像特征截取模板覆盖于所述人像图像上进行裁剪得到人像图像的特征图像。

4.根据权利要求3所述的基于人工智能的学员态度识别方法，其特征在于，所述根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点，包括：

根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值；

统计每一所述像素点中梯度值大于零的数量以得到每一所述像素点的正向梯度数；

分别获取所述面部图像中左眼部分及右眼部分中正向梯度数最大的像素点，作为所述左眼部分及右眼部分的虹膜中心像素点。

5.根据权利要求1所述的基于人工智能的学员态度识别方法，其特征在于，所述图像特征量化模型包括差异信息提取公式、特征计算公式及虚数转换规则，所述根据预置的图像特征量化模型从所述特征图像集中获取每一客户在多个类型图像特征对应的类型特征量化信息，包括：

根据所述差异信息提取公式对一个客户的所述类型图像特征所包含的多张特征图像进行计算，得到所述类型图像特征的差异信息；

将所述差异信息所包含的像素点输入所述特征计算公式以计算得到所述像素点的计算值；

根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。

6.根据权利要求1所述的基于人工智能的学员态度识别方法，其特征在于，所述音频判断规则包括去燥规则及声音强度阈值，所述根据预置的音频判断规则判断每一所述客户音频信息中是否包含交谈语音，得到每一所述客户音频信息的音频判断结果，包括：

根据所述去燥规则对每一所述客户音频信息进行去燥处理得到去燥音频信息；

判断每一所述去燥音频信息中的最大声音强度是否大于声音强度阈值，以得到每一所述客户音频信息的音频判断结果。

7.根据权利要求1所述的基于人工智能的学员态度识别方法，其特征在于，还包括：

根据每一所述客户视频信息的态度类型信息发送相应提醒消息至相应所述客户端。

8.一种基于人工智能的学员态度识别装置，其特征在于，包括：

客户视频信息截取单元，用于实时接收来自多台客户端的客户视频信息，根据预置的截取规则从每一所述客户视频信息中截取得到客户图像信息及客户音频信息，所述客户图像信息中每一客户图像均包含对应的活体检测信息；

态度类型信息实时反馈单元，用于将每一所述客户视频信息的态度类型信息实时反馈至讲师终端。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于人工智能的学员态度识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于人工智能的学员态度识别方法。