CN112232166B

CN112232166B - 基于人工智能的讲师动态评价方法、装置、计算机设备

Info

Publication number: CN112232166B
Application number: CN202011078896.7A
Authority: CN
Inventors: 欧光礼
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2023-12-01
Anticipated expiration: 2040-10-10
Also published as: CN112232166A

Abstract

本发明公开了基于人工智能的讲师动态评价方法、装置、计算机设备。方法包括：实时接收来自讲师终端的授课视频信息并截取得到授课图像信息及授课音频信息，根据图像获取模型从授课图像信息中获取得到特征图像集合，根据图像特征量化模型获取特征图像集中每一类型图像特征的类型量化信息，根据音频特征量化模型获取授课饮品信息的音频量化信息，根据综合评分规则获取类型特征量化信息及音频特征量化信息对应的综合评价分数并实时反馈至讲师终端。本发明基于智能决策技术，属于人工智能领域，可基于授课图像信息及授课音频信息对讲师进行全方位的综合评分得到综合评价分数并实时反馈，可实现对远程视频培训的讲师进行准确及实时的动态评价。

Description

基于人工智能的讲师动态评价方法、装置、计算机设备

技术领域

本发明涉及人工智能技术领域，属于智慧城市中对线上视频授课的讲师进行实时动态评价的应用场景，尤其涉及一种基于人工智能的讲师动态评价方法、装置、计算机设备。

背景技术

随着互联网技术的发展，线上远程视频培训成为一种新的学习方式被广泛使用，讲师可使用终端设备与学员的客户端之间建立远程视频连接，讲师的授课内容则可通过远程视频连接传输至学员的终端以供学员进行学习。可基于授课内容对讲师的授课质量或授课状态进行评价，传统的评价方式均是采用人工调研及学员反馈的方式对讲师进行评价，但这一评价过程缺乏客观依据及统一的评价标准，难以对讲师的授课状态进行准确评价；且传统评价方式均是在课程结束之后进行人工评价，而无法在远程视频培训课程中对当前讲师的实时授课状态进行动态评价。因此，现有的评价方法存在无法对远程视频培训的讲师进行准确及实时动态评价的问题。

发明内容

本发明实施例提供了一种基于人工智能的讲师动态评价方法、装置、计算机设备及存储介质，旨在解决现有评价方法无法对远程视频培训的讲师进行准确及实时动态评价的问题。

第一方面，本发明实施例提供了一种基于人工智能的讲师动态评价方法，其包括：

实时接收来自所述讲师终端的授课视频信息，根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息；

根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合，所述特征图像集合中包括多个类型图像特征对应的特征图像；

根据预置的图像特征量化模型从所述特征图像集中获取每一类型图像特征的类型特征量化信息；

根据预置的音频特征量化模型从所述授课音频信息中获取得到对应的音频特征量化信息；

根据预存的综合评分规则获取与所述类型特征量化信息及所述音频特征量化信息对应的综合评价分数；

将与所述授课视频信息对应的综合评价分数实时反馈至所述讲师终端。

第二方面，本发明实施例提供了一种基于人工智能的讲师动态评价装置，其包括：

授课视频信息截取单元，用于实时接收来自所述讲师终端的授课视频信息，根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息；

特征图像集合获取单元，用于根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合，所述特征图像集合中包括多个类型图像特征对应的特征图像；

类型特征量化信息获取单元，用于根据预置的图像特征量化模型从所述特征图像集中获取每一类型图像特征的类型特征量化信息；

音频特征量化信息获取单元，用于根据预置的音频特征量化模型从所述授课音频信息中获取得到对应的音频特征量化信息；

综合评价分数获取单元，用于根据预存的综合评分规则获取与所述类型特征量化信息及所述音频特征量化信息对应的综合评价分数；

综合评价分数实时反馈单元，用于将与所述授课视频信息对应的综合评价分数实时反馈至所述讲师终端。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于人工智能的讲师动态评价方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的讲师动态评价方法。

本发明实施例提供了一种基于人工智能的讲师动态评价方法、装置、计算机设备及存储介质。实时接收来自讲师终端的授课视频信息并截取得到授课图像信息及授课音频信息，根据图像获取模型从授课图像信息中获取得到特征图像集合，根据图像特征量化模型获取特征图像集中每一类型图像特征的类型量化信息，根据音频特征量化模型获取授课饮品信息的音频量化信息，根据综合评分规则获取类型特征量化信息及音频特征量化信息对应的综合评价分数并实时反馈至讲师终端。通过上述方法，可基于授课图像信息及授课音频信息对讲师进行全方位的综合评分得到综合评价分数并实时反馈，可实现对远程视频培训的讲师进行准确及实时的动态评价。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于人工智能的讲师动态评价方法的流程示意图；

图2为本发明实施例提供的基于人工智能的讲师动态评价方法的应用场景示意图；

图3为本发明实施例提供的基于人工智能的讲师动态评价方法的效果示意图；

图4为本发明实施例提供的基于人工智能的讲师动态评价方法的子流程示意图；

图5为本发明实施例提供的基于人工智能的讲师动态评价方法的另一流程示意图；

图6为本发明实施例提供的基于人工智能的讲师动态评价方法的另一子流程示意图；

图7为本发明实施例提供的基于人工智能的讲师动态评价方法的另一子流程示意图；

图8为本发明实施例提供的基于人工智能的讲师动态评价方法的另一子流程示意图；

图9为本发明实施例提供的基于人工智能的讲师动态评价方法的另一子流程示意图；

图10为本发明实施例提供的基于人工智能的讲师动态评价装置的示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1及图2，图1是本发明实施例提供的基于人工智能的讲师动态评价方法的流程示意图，图2为本发明实施例提供的基于人工智能的讲师动态评价方法的应用场景示意图；该基于人工智能的讲师动态评价方法应用于管理服务器10中，该方法通过安装于管理服务器10中的应用软件进行执行，管理服务器10与一台讲师终端20及至少一台客户端30通过网络连接实现数据信息的传输，管理服务器10即是用于执行基于人工智能的讲师动态评价方法以对远程视频培训的讲师进行准确及实时动态评价的服务器端，管理服务器可以是企业服务器，讲师终端20即是与管理服务器10进行网络连接以发送授课视频信息至管理服务器10的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等，客户端30即是与管理服务器10进行网络连接以接收来自管理服务器10的授课视频信息的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等。图2中仅仅示意出管理服务器10与一台客户端30进行信息传输，在实际应用中，该管理服务器10也可同时与多台客户端30建立通信连接以实现数据信息的传输。如图1所示，该方法包括步骤S110～S160。

S110、实时接收来自所述讲师终端的授课视频信息，根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息。

实时接收来自所述讲师终端的授课视频信息，根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息。客户端与讲师终端均与管理服务器建立网络连接，来自讲师终端的授课视频信息经管理服务器传输至每一客户端，则管理服务器可实时接收来自讲师终端的授课视频信息，其中截取规则即是用于从授课视频信息中截取得到授课图像信息及授课音频信息的规则信息，从授课视频信息中获取到的授课图像信息中包含至少一张授课图像，授课音频信息中包含与一段授课内容对应的语音信息。具体的，截取规则包括音频起始判断规则及图像截取时间点。

在一实施例中，如图4所示，步骤S110包括子步骤S111、S112、S113和S114。

S111、根据所述音频起始判断规则获取所述授课视频信息中连续的两个音频起始点。

具体的，管理服务器从讲师终端实时获取授课视频信息并保存于其存储介质中，则管理服务器可基于当前时间，从存储介质中获取当前时间至过去某一时间之间的一段授课视频信息进行处理，例如，可获取1分钟之前至当前时间的一段授课视频信息进行处理。其中，音频起始判断规则可基于授课视频信息的声音强度判断得到其中的音频起始点，音频起始判断规则包括声音强度阈值及间隔时间。可获取一段授课视频信息(如1分钟之前至当前时间的一段授课视频信息)中声音强度的平均值，声音强度的平均值采用分贝(dB)表示，根据声音强度的平均值及声音强度阈值，获取该段授课视频信息中声音强度小于声音强度阈值的声音片段，判断声音片段的长度是否不小于间隔时间，若不小于间隔时间，则将该声音片段确定为音频起始点。

例如，某一段授课视频信息中声音强度的平均值为70dB，声音强度阈值为60％，则获取该段授课视频信息中声音强度小于42dB(70dB×60％)的声音片段，间隔时间为0.3秒，间隔时间可以是讲话时两句话之间间隔的时间，判断所得到的声音片段是否不小于0.3秒，若间隔时间不小于0.3秒，则将声音片段确定为音频起始点。

S112、根据所述连续的两个音频起始点截取所述授课视频信息对应的一段视频信息作为目标视频信息；S113、获取目标视频信息中的语音信息作为授课音频信息。

音频起始点可作为前一段语音信息的终点及后一段语音信息的起点，则可从授课视频信息中截取连续两个音频起始点之间的一短视频信息作为目标视频信息，目标视频信息中包含一段语音信息及对应的图像画面，获取目标视频信息中所包含的语音信息作为授课音频信息。

S114、根据所述图像截取时间点从所述目标视频信息中获取对应的授课图像得到授课图像信息。

图像截取时间点即为对目标视频信息中的图像画面进行截取的时间点信息，图像截取时间点中包含多个时间点，每一时间点可从目标视频信息中对应截取得到一张授课图像，所有授课图像组合成为授课图像信息。

例如，图像截取时间点为目标视频信息结束时间之前的1s、2s、3s和4s，则以目标视频信息的结束时间为“0s”，分别获取目标视频信息中“-1s”、“-2s”、“-3s”及“-4s”四个时间点各自对应的四张授课图像作为授课图像信息。

在一实施例中，如图5所示，步骤S110之后还包括步骤S110a。

S110a、根据预置的活体检测规则对所述授课图像信息中是否包含单个活体进行检测。若所述授课图像信息中包含单个活体，执行所述根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合的步骤，也即是执行步骤S120。

根据预置的活体检测规则对所述授课图像信息中是否包含单个活体进行检测。具体的，活体检测规则中包含人像轮廓信息，人像轮廓信息可以是人像的外部轮廓对应的轮廓区域，可获取授课图像信息中的每一张授课图像，并判断授课图像中的讲师轮廓是否与人像轮廓信息相匹配，也即是判断讲师轮廓与人像轮廓信息中的轮廓区域的重合度是否大于预设的重合度阈值，若大于，则表明该授课图像中讲师轮廓与人像轮廓信息相匹配；若不大于，则表明该授课图像中讲师轮廓与人像轮廓信息不相匹配。若每一张授课图像中讲师轮廓均与人像轮廓信息相匹配，则检测得到授课图像信息中包含单个活体；若存在一张授课图像中讲师轮廓不与人像轮廓信息相匹配，则检测得到授课图像信息中不包含单个活体。

S120、根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合，所述特征图像集合中包括多个类型图像特征对应的特征图像。

授课图像信息中的每一授课图像均至少包含讲师的半身像，为对授课图像进行精确分析，可根据图像获取模型从授课图像中截取得到反映讲师面部特征的特征图像及反映讲师整体人像特征的特征图像，其中，所述图像获取模型中包括图像裁剪规则、梯度计算公式以及面部特征截取模板、人像特征截取模板。图像裁剪规则即是用于对授课图像进行裁剪以分别获取该授课图像对应的面部图像及人像图像的规则信息，梯度计算公式即是用于计算图像中任一像素点梯度值的计算公式，根据面部特征截取模板可从面部图像中获取对应的特征图像，根据人像特征截取模板可从人像图像中获取对应的特征图像。其中，面部特征的特征图像至少包括唇形特征图像、眼神特征图像及表情特征图像；整体人像特征的特征图像至少包括手势特征图像及姿态特征图像，从每一授课图像中分别获取得到多种类型的特征图像组成该授课图像信息的一个特征图像集合。

在一实施例中，如图6所示，步骤S120包括子步骤S121、S122、S123、S124和S125。

S121、根据所述图像裁剪规则对所述授课图像信息中的一张授课图像进行裁剪以得到面部图像及人像图像。

其中，图像裁剪规则中包括局部裁剪规则及整体裁剪规则，局部裁剪规则用于对授课图像进行局部裁剪以获取面部图像，整体裁剪规则用于对授课图像进行整体裁剪以获取人像图像。具体的，以局部裁剪规则为例进行说明，其中，局部裁剪规则包括：截取顶点定位公式、高度截取比例及宽度截取比例，由于授课图像中讲师面部在该图像中的位置较为固定，则可通过顶点定位公式对讲师面部图像的左上角进行定位，通过高度截取比例及宽度截取比例即可计算得到面部图像的截取高度及截取宽度。

在一实施例中，步骤对面部图像进行截取的步骤包括：根据所述截取顶点定位公式及所述授课图像的图像解析度计算所述授课图像的截取顶点；将所述高度截取比例及所述宽度截取比例分别与所述图像解析度相乘以得到所述授课图像的截取高度及截取宽度；根据所述截取顶点、截取高度及截取宽度对所述授课图像进行截取以得到面部图像。

图像解析度即为图像每一行及每一列对应包含的像素点的数量，截取顶点定位公式包含顶点横坐标计算公式及顶点纵坐标计算公式，通过上述计算公式结合图像解析度即可计算得到授课图像的截取顶点。

例如，授课图像的图像解析度(Fw×Fh)均为1280×720，顶点横坐标计算公式为Dw＝0.4×1280＝512，顶点纵坐标计算公式Dh＝0.15×720＝108，则截取顶点在授课图像中的坐标值为(512,108)。

将高度截取比例与图像解析度中的列像素点数量进行相乘，得到截取高度，将宽度截取比例与图像解析度中的行像素点数量进行相乘，得到截取宽度。

例如，高度截取比例为0.4，计算得到截取高度为0.4*720＝288，宽度截取比例为0.2，计算得到截取宽度为0.2*1280＝256。

以截取顶点作为面部图像的基准点，通过截取顶点、截取高度及截取宽度即可确定面部图像的其他顶点，根据截取顶点及其他顶点对授课图像进行截取，即可得到对应的面部图像，所得到的面部图像为一个长方形图像。

S122、根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点。

人的眼部瞳孔的几何中心点并不一定与虹膜的中心点重合，为使所得到的特征图像更加准确，可通过梯度计算公式对面部图像中进行计算以获取对应的虹膜中心像素点，由于面部图像中包含左眼和右眼，面部图像中左眼部分区域与右眼部分区域以面部图像的中线进行分割，则可以对应得到两个虹膜中心像素点。面部图像中虹膜中心像素点的灰度值最大，其他像素点的灰度值与虹膜中心像素点的距离成反比，可根据这一原理计算面部图像中每一像素点的梯度值，并根据计算结果获取对应的虹膜中心像素点。

在一实施例中，如图7所示，步骤S122包括子步骤S1221、S1222及S1223。

S1221、根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值。

根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值。可将面部图像进行对称切分得到左眼部分及右眼部分，则可通过梯度计算公式分别计算左眼部分或右眼部分对应的图像中每一像素点的梯度值，梯度计算公式可对一个像素点在多个不同方向的梯度值进行计算。

图3为本发明实施例提供的基于人工智能的讲师动态评价方法的效果示意图，例如，如图3所示，若计算与某一像素点与相邻2格像素点之间的梯度值，则可对应计算得到该像素点在16个方向的梯度值，其中，该像素点在某一方向的梯度值可表示为：d₁(x,y)＝I(x,y)-I(x+2,y)，其中，x，y为该像素点的坐标值，I(x,y)为图像坐标值(x,y)这一像素点的灰度值。

S1222、统计每一所述像素点中梯度值大于零的数量以得到每一所述像素点的正向梯度数。

对每一像素点的梯度值大于零的数量进行统计，即可得到每一像素点的正向梯度数。具体的，对计算得到的每一像素点的梯度值是否大于零进行判断，若某一像素点在一个方向的梯度值大于零，则表明图像中像素点的灰度值沿该梯度方向下降。

S1223、分别获取所述面部图像中左眼部分及右眼部分中正向梯度数最大的像素点，作为所述左眼部分及右眼部分的虹膜中心像素点。

将正向梯度数最大的所述像素点确定为所述左眼部分或右眼部分对应的图像的虹膜中心像素点。分别计算得到左眼部分图像中每一像素点的正向梯度数，及右眼部分图像中每一像素点的正向梯度数，将每一图像中正向梯度数最大的像素点确定为该图像的虹膜中心像素点，由于虹膜中心像素点的灰度值最大，因此虹膜中心像素点在任一方向的梯度值均大于零，而图像中非虹膜中心的其他像素点包含至少一个不大于零的梯度值，即可获取图像中正向梯度数最大的像素点作为该图像的虹膜中心像素点，获取虹膜中心像素点的坐标值，由于输入的面部图像包括左眼部分及右眼部分，因此对应得到左眼部分的虹膜中心像素点及右眼部分的虹膜中心像素点。

S123、以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整。

以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整；具体的，可根据虹膜中心像素点获取两个虹膜中心的虹膜间距，面部特征截取模板及人像特征截取模板中均包含目标虹膜间距，根据虹膜间距与目标虹膜间距之间的比值对面部特征截取模板及人像特征截取模板进行放大或缩小调整。

例如，所得到的虹膜间距为96个像素点(96px)，目标虹膜间距为80px，则虹膜间距与目标虹膜间距之间的比值为1.2，则将面部特征截取模板及人像特征截取模板分别对应放大调整1.2倍。

S124、以所述虹膜中心像素点为基准位置将调整后的所述面部特征截取模板覆盖于所述面部图像上进行裁剪得到面部图像的特征图像；S125、以所述虹膜中心像素点为基准位置将调整后的所述人像特征截取模板覆盖于所述人像图像上进行裁剪得到人像图像的特征图像。

面部特征截取模板中包括第一模板基准点及第二模板基准点，具体的，以虹膜中心像素点在面部图像中的坐标位置作为基准位置，将调整后的面部特征截取模板对应覆盖于面部图像上，也即是将调整后的面部特征截取模板中的第一模板基准点及第二模板基准点对应覆盖面部图像中虹膜中心像素点的坐标位置，以实现将面部特征截取模板对应覆盖于面部图像上，即可裁剪得到面部图像的特征图像。其中，面部特征截取模板包括唇形截取区域、眼神截取区域及表情截取区域，通过截取区域对面部图像进行截取即可得到与每一截取区域对应的特征图像。

例如，唇形截取区域中，左右两侧的截取边界线即为两个虹膜中心像素点在垂直方向上的延长线，上方的截取边界线为两个虹膜中心像素的连接线往下72个像素，下方的截取边界线为两个虹膜中心像素点的连接线往下120个像素，则根据所确定的截取边界线截取得到唇形目标图像，唇形目标图像中每一像素点均对应一个RGB颜色，获取唇形目标图像中RGB颜色处于预设的唇形RGB区间内的像素点进行组合得到唇形特征图像，唇形特征图像中最左侧的一个像素点及最右侧的一个像素点可作为唇形特征图像中的嘴角位置，其中，唇形RGB区间即为嘴唇颜色所对应的一个RGB颜色区间。

由于人像图像与面部图像的像素比例相等(从同一授课图像中得到一张人像图像及一张面部图像)，也即是虹膜间距在人像图像与面部图像中均相等，因此可采用同样方法将调整后的人像特征截取模板对应覆盖于人像图像上进行裁剪。

S130、根据预置的图像特征量化模型从所述特征图像集中获取每一类型图像特征的类型特征量化信息。

特征图像集中每一类图像特征(唇形特征、眼神特征、表情特征、手势特征及姿态特征等)均包含多张特征图像，可通过差异信息提取公式对一类图像特征所包含的多张特征图像进行计算，以提取该类图像特征的差异信息并转换为类型特征向量信息，其中，图像特征量化模型包括差异信息提取公式、特征计算公式及虚数转换规则。差异信息提取公式即为对某一类图像特征的差异信息进行提取的计算公式，特征计算公式即为基于差异信息获取每一类图像特征的特征信息的计算公式，虚数转换规则为对特征提取公式计算得到的虚数进行转换的规则，将特征提取公式计算得到的结果进行转换即可得到对应的类型特征量化信息，类型特征量化信息是对一类图像特征的特征采用数值方式进行量化的信息，计算机无法对图像所包含像素点的特征进行直接计算，因此可通过多个类型特征量化信息对授课图像信息的特征进行量化表示，基于授课图像信息的特征及授课音频信息的特征即可对讲师的授课质量进行全面准确的评价。

在一实施例中，如图8所示，步骤S130包括子步骤S131、S132和S133。

S131、根据所述差异信息提取公式对一个所述类型图像特征所包含的多张特征图像进行计算，得到所述类图像特征的差异信息。

根据所述差异信息提取公式对一个所述类型图像特征所包含的多张特征图像进行计算，得到所述类图像特征的差异信息。则所得到的类型图像特征的差异信息中包含该类型图像特征信息对应的多张特征图像之间的差异，差异信息可表示为与特征图像尺寸对应的一张图像。

例如，差异信息提取公式可以是C_t1＝3×F₁-F₂-F₃-F₄，其中，C_t1可表示为唇形特征的差异信息，F₁为“-1s”截取的授课图像信息对应的唇形特征图像，F₂为“-2s”截取的授课图像信息对应的唇形特征图像，F3为“-3s”截取的授课图像信息对应的唇形特征图像，F4为“-4s”截取的授课图像信息对应的唇形特征图像。

S132、将所述差异信息所包含的像素点输入所述特征提取公式以计算得到所述像素点的计算值。

将所述差异信息所包含的像素点输入所述特征提取公式以计算得到所述像素点的计算值。获取差异信息对应图像的中心点坐标值，将差异信息中所包含的像素点作为像素集合输入特征提取公式，即可计算得到像素集合中每一像素点对应的计算值，所得的计算值为一个包含实部及虚部的虚数。具体的，特征提取公式可表示为:其中，(x₀,y₀)为差异信息对应图像的中心点坐标值，α、β及u₀为公式中的参数值，具体的，α为特征提取公式的滤波有效宽度，β为特征提取公式的滤波有效长度，u₀决定了公式中调制项的频率；j是虚数((x，y)为包含每一像素点的像素集合，G(x,y)为对像素集合所包含的像素点进行计算所得的计算值，G(x,y)中包含每一像素点的计算值。

S133、根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。

根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。根据虚数转换规则对所计算得到的虚数进行转换，也即是将该虚数的极性进行量化得到一个2位二进制数，具体的，当计算值中的实部和虚部均为正时，特征值为11；当实部为正虚部为负时，特征值为10；当实部为负虚部为正时，特征值为01；当实部和虚部均为负时，特征值为00。根据上述规则对每一像素点的计算值进行转换即可得到每一像素点的特征值，也即是得到一个类型图像特征所对应的类型特征量化信息。

根据上述方法将特征图像集中每一类型图像特征所包含的特征图像进行提取，即可得到每一类型图像特征的类型特征量化信息。

S140、根据预置的音频特征量化模型从所述授课音频信息中获取得到对应的音频特征量化信息。

根据预置的音频特征量化模型从所述授课音频信息中获取得到对应的音频特征量化信息。音频特征量化模型即为对授课音频信息的特征进行提取的模型，所得到的音频特征量化信息即可对授课音频信息采用数值形式进行量化表示。具体的，音频特征量化模型中包括声学模型、特征词典及语句模板库。所得到的音频特征量化信息中包括语速特征信息及语调特征信息，语速特征信息用于对授课音频信息中的语速特征进行量化表示，语调特征信息用于对授课音频信息中的语调特征进行量化表示。

在一实施例中，如图9所示，步骤S140包括子步骤S141、S142、S143和S144。

S141、根据所述声学模型对所述授课音频信息进行切分以得到所述授课音频信息中所包含的多个音素。

具体的，授课音频信息均是由多个字符发音的音素而组成，一个字符的音素包括该字符发音的频率和音色。声学模型中包含所有字符发音的音素，通过将授课音频信息中包含的音素与声学模型中所有的音素进行匹配，即可对语音信息中单个字符的音素进行切分，通过切分最终得到语音信息中所包含的多个音素。

S142、根据所述特征词典对所述音素进行匹配以将所述音素转换为拼音信息。

根据所述特征词典对所述音素进行匹配以将所述音素转换为拼音信息。特征词典中包含所有字符拼音对应的音素信息，通过将所得到的音素与字符拼音对应的音素信息进行匹配，即可将单个字符的音素转换为特征词典中与该音素相匹配的字符拼音，以实现将授课音频信息中所包含的所有音素转换为拼音信息，每一音素所对应的拼音信息中均包含拼音字母及声调。

例如，转换得到的拼音信息可表示为“rú，hé，wǎn，chéng，xué，xí，rèn，wū”。

S143、根据所述拼音信息中所包含字符拼音的数量及所述授课音频信息的时长计算得到语速特征信息。

具体的，将字符拼音的数量除以授课音频信息的时长即可得到语速特征信息，语速特征信息可采用一个数值进行表示，数值越大则表明讲师授课的语速越快，数值越小则表明讲师授课的语速越慢。

例如，拼音信息中包含8个拼音字符，授课音频信息的时长为6秒，则计算得到对应的语速特征信息为8/6＝1.333。

S144、从所述语句模板库中获取与所述拼音信息匹配度最高的一个语句作为标准语句，计算所述拼音信息与所述标准语句的标准拼音信息之间的重合度得到语调特征信息。

语句模板库中包含多个语句，每一语句均包含与之对应的标准拼音信息，可根据语句模板库中每一语句的标准拼音信息获取与所得到的拼音信息之间重合度最高的一个语句作为标准语句，将拼音信息与该标准语句对应的重合度作为该拼音信息的语调特征信息。

例如，根据转换得到的拼音信息“rú，hé，wǎn，chéng，xué，xí，rèn，wū”获取语句模板库中对应的标准语句为“如何完成学习任务”。该拼音信息与标准语句的标准拼音信息之间的重合度为6/8＝75％。

S150、根据预存的综合评分规则获取与所述类型特征量化信息及所述音频特征量化信息对应的综合评价分数。

综合评分规则即是用于对类型特征量化信息及音频特征量化信息进行综合评分得到综合评价分数的具体规则。其中，综合评分规则包括标准特征量化信息及评分计算公式，标准特征量化信息中包含每一类型特征量化信息对应的标准特征信息，可根据与每一类型特征量化信息对应的标准特征信息获取与每一类型特征量化信息对应的类型评分，根据评分计算公式、音频特征量化信息及多个类型评分进行综合计算得到综合评价分数。

具体的，类型特征量化信息中包含多个特征值，与该类型特征量化信息相对应的标准特征信息中也包含多个标准特征值，可计算某类型特征量化信息中特征值与相应标准特征信息中标准特征值之间的重合度，将该重合度作为与该类型特征量化信息对应的类型评分。

例如，评分计算公式可表示为：其中，a_s、b_s、c_s、d_s、e_s、f_s及g_s均为公式中的加权值，P₀为标准语速参数，P_a、P_b、P_c、P_d及P_e均为类型特征量化信息，P_x为音频特征量化信息中的语速特征信息、P_y为其中的语调特征信息，S为所计算得到的综合评价分数。

S160、将与所述授课视频信息对应的综合评价分数实时反馈至所述讲师终端。

由于管理服务器对来自讲师终端的授课视频信息进行实时接收，对每一段授课视频信息进行实时分析均可得到对应的一个综合评价分数，则可将综合评价分数实时反馈至讲师终端，以实现对正在授课的讲师更准确的进行实时动态评价。使用讲师终端的讲师获取到综合评价分数，可根据综合评价分数进行及时调整，以确保讲师可进行高质量授课。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对线上视频授课的讲师进行实时动态评价的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的基于人工智能的讲师动态评价方法中，实时接收来自讲师终端的授课视频信息并截取得到授课图像信息及授课音频信息，根据图像获取模型从授课图像信息中获取得到特征图像集合，根据图像特征量化模型获取特征图像集中每一类型图像特征的类型量化信息，根据音频特征量化模型获取授课饮品信息的音频量化信息，根据综合评分规则获取类型特征量化信息及音频特征量化信息对应的综合评价分数并实时反馈至讲师终端。通过上述方法，可基于授课图像信息及授课音频信息对讲师进行全方位的综合评分得到综合评价分数并实时反馈，可实现对远程视频培训的讲师进行准确及实时的动态评价。

本发明实施例还提供一种基于人工智能的讲师动态评价装置，该基于人工智能的讲师动态评价装置用于执行前述基于人工智能的讲师动态评价方法的任一实施例。具体地，请参阅图10，图10是本发明实施例提供的基于人工智能的讲师动态评价装置的示意性框图。该基于人工智能的讲师动态评价装置可以配置于管理服务器10中。

如图10所示，基于人工智能的讲师动态评价装置100包括授课视频信息截取单元110、特征图像集合获取单元120、类型特征量化信息获取单元130、音频特征量化信息获取单元140、综合评价分数获取单元150和综合评价分数实时反馈单元160。

授课视频信息截取单元110，用于实时接收来自所述讲师终端的授课视频信息，根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息。

在一实施例中，所述授课视频信息截取单元110包括子单元：音频起始点获取单元、目标视频信息获取单元、授课音频信息获取单元及授课图像信息获取单元。

音频起始点获取单元，用于根据所述音频起始判断规则获取所述授课视频信息中连续的两个音频起始点；目标视频信息获取单元，用于根据所述连续的两个音频起始点截取所述授课视频信息对应的一段视频信息作为目标视频信息；授课音频信息获取单元，用于获取目标视频信息中的语音信息作为授课音频信息；授课图像信息获取单元，用于根据所述图像截取时间点从所述目标视频信息中获取对应的授课图像得到授课图像信息。

在一实施例中，所述授课视频信息截取单元110还包括子单元：活体检测单元。

活体检测单元，用于根据预置的活体检测规则对所述授课图像信息中是否包含单个活体进行检测。若所述授课图像信息中包含单个活体，执行所述根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合的步骤，也即是执行特征图像集合获取单元120所对应的步骤。

特征图像集合获取单元120，用于根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合，所述特征图像集合中包括多个类型图像特征对应的特征图像。

在一实施例中，所述特征图像集合获取单元120包括子单元：图像裁剪单元、像素点计算单元、截取模板调整单元、面部特征图像裁剪单元及人像特征图像裁剪单元。

图像裁剪单元，用于根据所述图像裁剪规则对所述授课图像信息中的一张授课图像进行裁剪以得到面部图像及人像图像；像素点计算单元，用于根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点；截取模板调整单元，用于以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整；面部特征图像裁剪单元，用于以所述虹膜中心像素点为基准位置将调整后的所述面部特征截取模板覆盖于所述面部图像上进行裁剪得到面部图像的特征图像；人像特征图像裁剪单元，用于以所述虹膜中心像素点为基准位置将调整后的所述人像特征截取模板覆盖于所述人像图像上进行裁剪得到人像图像的特征图像。

在一实施例中，所述像素点计算单元包括子单元：梯度值计算单元、梯度值统计单元及虹膜中心像素点确定单元。

梯度值计算单元，用于根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值；梯度值统计单元，用于统计每一所述像素点中梯度值大于零的数量以得到每一所述像素点的正向梯度数；虹膜中心像素点确定单元，用于分别获取所述面部图像中左眼部分及右眼部分中正向梯度数最大的像素点，作为所述左眼部分及右眼部分的虹膜中心像素点。

类型特征量化信息获取单元130，用于根据预置的图像特征量化模型从所述特征图像集中获取每一类型图像特征的类型特征量化信息。

在一实施例中，所述类型特征量化信息获取单元130包括子单元：差异信息获取单元、像素点计算值获取单元及计算值转换单元。

差异信息获取单元，用于根据所述差异信息提取公式对一个所述类型图像特征所包含的多张特征图像进行计算，得到所述类图像特征的差异信息；像素点计算值获取单元，用于将所述差异信息所包含的像素点输入所述特征提取公式以计算得到所述像素点的计算值；计算值转换单元，用于根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息。

音频特征量化信息获取单元140，用于根据预置的音频特征量化模型从所述授课音频信息中获取得到对应的音频特征量化信息。

在一实施例中，所述音频特征量化信息获取单元140包括子单元：音素切分单元、音素转换单元、语速特征信息获取单元及语调特征信息获取单元。

音素切分单元，用于根据所述声学模型对所述授课音频信息进行切分以得到所述授课音频信息中所包含的多个音素；音素转换单元，用于根据所述特征词典对所述音素进行匹配以将所述音素转换为拼音信息；语速特征信息获取单元，用于根据所述拼音信息中所包含字符拼音的数量及所述授课音频信息的时长计算得到语速特征信息；语调特征信息获取单元，用于从所述语句模板库中获取与所述拼音信息匹配度最高的一个语句作为标准语句，计算所述拼音信息与所述标准语句的标准拼音信息之间的重合度得到语调特征信息。

综合评价分数获取单元150，用于根据预存的综合评分规则获取与所述类型特征量化信息及所述音频特征量化信息对应的综合评价分数。

综合评价分数实时反馈单元160，用于将与所述授课视频信息对应的综合评价分数实时反馈至所述讲师终端。

在本发明实施例所提供的基于人工智能的讲师动态评价装置应用上述基于人工智能的讲师动态评价方法，实时接收来自讲师终端的授课视频信息并截取得到授课图像信息及授课音频信息，根据图像获取模型从授课图像信息中获取得到特征图像集合，根据图像特征量化模型获取特征图像集中每一类型图像特征的类型量化信息，根据音频特征量化模型获取授课饮品信息的音频量化信息，根据综合评分规则获取类型特征量化信息及音频特征量化信息对应的综合评价分数并实时反馈至讲师终端。通过上述方法，可基于授课图像信息及授课音频信息对讲师进行全方位的综合评分得到综合评价分数并实时反馈，可实现对远程视频培训的讲师进行准确及实时的动态评价。

上述基于人工智能的讲师动态评价装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于人工智能的讲师动态评价方法以对线上视频授课的讲师进行实时动态评价的管理服务器10。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于人工智能的讲师动态评价方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于人工智能的讲师动态评价方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于人工智能的讲师动态评价方法中对应的功能。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于人工智能的讲师动态评价方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的讲师动态评价方法，应用于管理服务器中，所述管理服务器与一台讲师终端及至少一台客户端通过网络连接实现数据信息的传输，其特征在于，所述方法包括：

将与所述授课视频信息对应的综合评价分数实时反馈至所述讲师终端；

所述根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息之后，还包括：

根据预置的活体检测规则对所述授课图像信息中是否包含单个活体进行检测；

若所述授课图像信息中包含单个活体，执行所述根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合的步骤；

所述图像特征量化模型包括差异信息提取公式、特征计算公式及虚数转换规则，所述根据预置的图像特征量化模型从所述特征图像集中获取每一类型图像特征的类型特征量化信息，包括：

根据所述差异信息提取公式对一个所述类型图像特征所包含的多张特征图像进行计算，得到所述类型图像特征的差异信息；

将所述差异信息所包含的像素点输入所述特征计算公式以计算得到所述像素点的计算值；

根据所述虚数转换规则对所述像素点的计算值进行转换得到包含每一所述像素点的特征值的类型特征量化信息；

所述音频特征量化模型中包括声学模型、特征词典及语句模板库，所述根据预置的音频特征量化模型从所述授课音频信息中获取得到对应的音频特征量化信息，包括：

根据所述声学模型对所述授课音频信息进行切分以得到所述授课音频信息中所包含的多个音素；

根据所述特征词典对所述音素进行匹配以将所述音素转换为拼音信息；

根据所述拼音信息中所包含字符拼音的数量及所述授课音频信息的时长计算得到语速特征信息；

从所述语句模板库中获取与所述拼音信息匹配度最高的一个语句作为标准语句，计算所述拼音信息与所述标准语句的标准拼音信息之间的重合度得到语调特征信息。

2.根据权利要求1所述的基于人工智能的讲师动态评价方法，其特征在于，所述截取规则包括音频起始判断规则及图像截取时间点，所述根据预置的截取规则从所述授课视频信息中截取得到授课图像信息及授课音频信息，包括：

根据所述音频起始判断规则获取所述授课视频信息中连续的两个音频起始点；

根据所述连续的两个音频起始点截取所述授课视频信息对应的一段视频信息作为目标视频信息；

获取目标视频信息中的语音信息作为授课音频信息；

根据所述图像截取时间点从所述目标视频信息中获取对应的授课图像得到授课图像信息。

3.根据权利要求1所述的基于人工智能的讲师动态评价方法，其特征在于，所述图像获取模型包括图像裁剪规则、梯度计算公式以及面部特征截取模板、人像特征截取模板，所述根据预置的图像获取模型从所述授课图像信息中获取得到特征图像集合，包括：

根据所述图像裁剪规则对所述授课图像信息中的一张授课图像进行裁剪以得到面部图像及人像图像；

根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点；

以两个所述虹膜中心像素点之间的间距为基准对所述面部特征截取模板及所述人像特征截取模板进行对应调整；

以所述虹膜中心像素点为基准位置将调整后的所述面部特征截取模板覆盖于所述面部图像上进行裁剪得到面部图像的特征图像；

以所述虹膜中心像素点为基准位置将调整后的所述人像特征截取模板覆盖于所述人像图像上进行裁剪得到人像图像的特征图像。

4.根据权利要求3所述的基于人工智能的讲师动态评价方法，其特征在于，所述根据所述梯度计算公式对所述面部图像中的像素点进行计算以获取对应的虹膜中心像素点，包括：

根据所述梯度计算公式计算所述面部图像中左眼部分及右眼部分中每一像素点的梯度值；

统计每一所述像素点中梯度值大于零的数量以得到每一所述像素点的正向梯度数；

分别获取所述面部图像中左眼部分及右眼部分中正向梯度数最大的像素点，作为所述左眼部分及右眼部分的虹膜中心像素点。

5.一种基于人工智能的讲师动态评价装置，所述装置用于执行如权利要求1-4任一项所述基于人工智能的讲师动态评价方法，其特征在于，包括：

6.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于人工智能的讲师动态评价方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的基于人工智能的讲师动态评价方法。