CN110418204B

CN110418204B - 基于微表情的视频推荐方法、装置、设备和存储介质

Info

Publication number: CN110418204B
Application number: CN201910650341.6A
Authority: CN
Inventors: 程检萍; 陈恺
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2022-11-04
Anticipated expiration: 2039-07-18
Also published as: CN110418204A

Abstract

本申请涉及一种基于微表情的视频推送方法、装置、计算机设备和存储介质。所述方法包括：接收终端发送的人脸图像及当前播放视频标识，人脸图像是与当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与当前播放视频中插入的第一问题相对应；基于微表情识别模型对人脸图像进行处理得到微表情指标，微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标；当微表情指标大于第一预设值，则获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；根据第一问题从初始视频中选取目标视频，并将目标视频推送至终端。采用本方法能够简化操作。

Description

基于微表情的视频推荐方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于微表情的视频推荐方法、装置、设备和存储介质。

背景技术

随着互联网技术的发展，各种网络视频为用户的学习和娱乐都提供了极大的方便，用户可以随时从网上获取自己需要的视频。

然而，目前的互联网中视频的推荐方式大多是基于用户的行为产生的，例如选择、收藏等，然后这种推荐方式需要用户进行复杂的操作，且在操作完成后才可以进行视频推荐，导致了操作的复杂性。

发明内容

基于此，有必要针对上述技术第一问题，提供一种能够简化操作的基于微表情的视频推荐方法、装置、设备和存储介质。

一种基于微表情的视频推荐方法，包括：

接收终端发送的人脸图像以及当前播放视频标识，所述人脸图像是与所述当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与所述当前播放视频中插入的第一问题相对应；

基于微表情识别模型对所述人脸图像进行处理得到微表情指标，所述微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标；

当所述微表情指标大于第一预设值时，则获取与所述当前播放视频标识对应的视频类别；

获取与所述视频类别对应的初始视频，并从所述当前播放视频标识对应的当前播放视频中提取与所述人脸图像对应的所述第一问题；

根据所述第一问题从所述初始视频中选取目标视频，并将所述目标视频推送至所述终端。

在其中一个实施例中，所述方法还包括：

当所述微表情指标小于等于第一阈值且小于第二阈值时，则获取与所述当前播放视频标识对应的视频类别；

获取与所述视频类别对应的初始视频，并从所述当前播放视频标识对应的当前播放视频中提取与所述人脸图像对应的第一问题；

从所述初始视频中选取与所述第一问题对应的目标视频，并减少所述目标视频的推送。

在其中一个实施例中，所述视频类别的识别方式包括：

将视频转化为预设类型的初始特征图，并从所述视频中提取音频特征；

对每一所述预设类型的所述初始特征图进行采样得到采样特征图；

对所述采样特征图进行卷积计算，得到每一所述预设类型中的每一所述采样特征图对应的视频类别的第一概率分数；

获取每一所述采样特征图对应的第一权重，根据所述第一概率分数以及对应的所述第一权重计算，得到每一所述预设类型对应的视频类别的第二概率分数；

将所述音频特征输入至预设的分类器得到所述音频特征对应的不同视频分类的第三概率分数；

根据所述第二概率分数以及第三概率分数计算得到所述视频对应的视频类别的第四概率分数；

选取所述第四概率分数最大的视频类别作为所述视频的视频类别。

在其中一个实施例中，所述方法还包括：

接收所述终端发送的当前播放视频标识对应的当前播放视频的播放次数；

判断所述播放次数是否大于第二预设值；

当所述播放次数大于第二预设值时，则获取播放次数大于预设值的当前播放视频对应的片段，从所述当前播放视频中提取与所述片段对应的第二问题；

从所述初始视频中提取与所述第二问题对应的待推送视频，并将所述待推送视频推送至所述终端。

在其中一个实施例中，所述基于微表情识别模型对所述人脸图像进行处理得到微表情指标，包括：

识别所述人脸图像中的人脸，并得到所述人脸对应的各类用户微表情的可能性；

将可能性进行归一化；

获取所述各类用户微表情的预设指标；

将归一化后的所述可能性与对应的预设指标的乘积作为微表情指标。

一种基于微表情的视频推荐装置，所述装置包括：

接收模块，用于接收终端发送的人脸图像以及当前播放视频标识，所述人脸图像是与所述当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与所述当前播放视频中插入的第一问题相对应；

图像处理模块，用于基于微表情识别模型对所述人脸图像进行处理得到微表情指标，所述微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标；

第一类别识别模块，用于当所述微表情指标大于第一预设值时，则获取与所述当前播放视频标识对应的视频类别；

第一问题采集模块，用于获取与所述视频类别对应的初始视频，并从所述当前播放视频标识对应的当前播放视频中提取与所述人脸图像对应的所述第一问题；

第一推送模块，用于根据所述第一问题从所述初始视频中选取目标视频，并将所述目标视频推送至所述终端。

在其中一个实施例中，所述装置还包括：

第二类别识别模块，用于当所述微表情指标小于等于第一阈值且小于第二阈值时，则获取与所述当前播放视频标识对应的视频类别；

第二问题采集模块，用于获取与所述视频类别对应的初始视频，并从所述当前播放视频标识对应的当前播放视频中提取与所述人脸图像对应的第一问题；

第二推送模块，用于从所述初始视频中选取与所述第一问题对应的目标视频，并减少所述目标视频的推送。

在其中一个实施例中，所述装置还包括：

提取模块，用于将视频转化为预设类型的初始特征图，并从所述视频中提取音频特征；

采样模块，用于对每一所述预设类型的所述初始特征图进行采样得到采样特征图；

第一概率分数计算模块，用于对所述采样特征图进行卷积计算，得到每一所述预设类型中的每一所述采样特征图对应的视频类别的第一概率分数；

第二概率分数计算模块，用于获取每一所述采样特征图对应的第一权重，根据所述第一概率分数以及对应的所述权重计算得到每一所述预设类型对应的视频类别的第二概率分数；

第三概率分数计算模块，用于将所述音频特征输入至预设的分类器得到所述音频特征对应的不同视频分类的第三概率分数；

第四概率分数计算模块，用于根据所述第二概率分数以及第三概率分数计算得到所述视频对应的视频类别的第四概率分数；

输出模块，用于选取所述第四概率分数最大的视频类别作为所述视频的视频类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述基于微表情的视频推荐方法、装置、计算机设备和存储介质，由于当前播放视频中预先插入了第一问题，且人脸图像是在用户看到第一问题后所采集的，因此人脸图像对应的微表情指标是可以作为用户是否掌握当前播放视频中的知识点的参考指标的，从而通过获取终端发送的人脸图像，并根据微表情识别模型对人脸图像进行处理得到微表情指标，该微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标，根据该微表情指标来确定用户是否掌握当前播放视频中的知识点，从而在用户未掌握时，给用户推送目标视频，不需要用户进行大量的手动操作，简化操作复杂性。

附图说明

图1为一个实施例中基于微表情的视频推荐方法的应用场景图；

图2为一个实施例中基于微表情的视频推荐方法的流程示意图；

图3为一个实施例中的视频类别的识别方式的流程图；

图4为一个实施例中基于微表情的视频推荐装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于微表情的视频推荐方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端101可以进行视频学习，学习视频中插入了多个第一问题，终端可以在终端显示第一问题时采集用户学习视频时的人脸图像，将所采集的人脸图像和当前播放视频标识发送给服务器104。服务器104在接收到终端所采集的人脸图像后，可以基于微表情识别模型对人脸图像进行处理得到微表情指标，以根据微表情指标用于作为用户是否掌握当前播放视频中的知识点的参考指标，其中为了更方便地确定用户的疑惑点，服务器104从当前播放视频标识对应的当前播放视频中采集与人脸图像采集时间对应的第一问题，并判微表情指标是否大于第一预设值，即用户对该第一问题是否存在疑惑，如果存在的话，则识别当前播放视频的视频类别，并得到与视频类别对应的初始视频，从而可以从该初始视频中提取到与第一问题对应的目标视频，并将该目标视频推送至终端102进行播放，以便于用户及时解决掉第一问题，不需要用户进行大量的手动操作，简化操作复杂性。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于微表情的视频推荐方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：接收终端发送的人脸图像以及当前播放视频标识，人脸图像是与当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与当前播放视频中插入的第一问题相对应。

具体地，终端可以设置有人脸图像采集设备，例如摄像头等，终端通过摄像头采集人脸图像，并将该人脸图像发送给服务器。其中摄像头在采集人脸图像的过程中，可以首先判断观看当前播放视频的时间是否大于预设值，如果大于，则才会进行采集，该预设值可以设置为5分钟等，这样可以避免频繁采集，例如用户观看一个视频只有1秒，则没有必要采集人脸图像，因此此时用户可能并没有接收到任何有效的知识点。

其中，服务器可以在终端播放当前播放视频时，检测终端是否显示了当前插入的第一问题，若显示了，则向终端发送人脸图像采集指令，以便于终端采集人脸图像，这样由于当前播放视频中预先插入了第一问题，且人脸图像是在用户看到第一问题后所采集的，因此对人脸图像处理可以得到作为用户是否掌握当前播放视频中的知识点的参考指标的微表情指标。

S204：基于微表情识别模型对人脸图像进行处理得到微表情指标，微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标。

服务器在接收到人脸图像后，可以对该人脸图像进行识别得到用户微表情，具体可以包括三个主要步骤：首先进行人脸检测，在检测到人脸之后可以将人脸从背景中分割出来，并可以进行尺寸、灰度等归一化处理。第二，在特征提取过程汇总可以分为静态人脸图像提取和动态人脸图像提取。第三，按照预先设定的分类方法，对特征提取的结果进行分类，即可以得到用户对应的微表情。用户微表情包括多种基本表情包括：高兴、悲伤、惊讶、恐惧、厌恶、愤怒、疑惑等等，每种微表情均对应较为典型的人脸表情，通过该些基本表情进行量化可以得到对应的情绪指标，通过情绪指标来量化得到用户对当前学习视频的掌握程度。

具体地，服务器可以将所识别的人脸与上述多种微表情进行匹配得到用户是每一种微表情的可能性，然后根据所得到的可能性以及各种微表情对应的预设指标得到微表情指标。其中预设指标是预先设定的，例如高兴的指标最低，疑惑的指标最高等，从而根据微表情指标即可以判断用户对当前学习视频的掌握程度视频。此处假设存在6种基本微表情，且每种基本微表情的指标分别设定为A、B、C、D、E和F，将所得到的用户微表情与该6种基本微表情进行匹配得到该六种微表情对应的可能性为a、b、c、d、e和f，则此时微表情指标＝a*A+b*B+c*C+d*D+e*E+f*F。

具体地，第一预设值是用于衡量用户是否未掌握了当前播放视频中的知识点的值，该第一预设值可以是用户根据历史经验预先设定的。当微表情指标大于第一预设值时，则表示用户视频未掌握了当前播放视频中的知识点，因此终端需要通过判断所得到的微表情指标是否大于第一预设值。

S206：当微表情指标大于第一预设值时，则获取与当前播放视频标识对应的视频类别。

具体地，当微表情指标大于第一预设值时，表示用户视频未掌握了当前播放视频中的知识点，因此服务器需要为终端推送相关视频，为了提高推送的准确性，服务器需要首先得到当前播放视频标识对应的当前播放视频的视频类别，其中该视频类别的识别可以是在视频录制完成后首次上传至服务器时进行并存储的，这样可以防止一个视频多次进行视频类别识别，导致不必要的系统开销。视频识别可以表示视频所属的类型，例如当是舞蹈学习视频的时候，该视频类别可以是舞蹈的类型。

S208：获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题。

具体地，在获取到视频类别后，则可以从服务器中查询与该视频类别对应的初始视频，例如当视频类别为拉丁舞时，则可以获取到与拉丁舞相关的初始视频。

具体地，服务器可以预先在视频中设置多个学习问题，并获取到所接收的人脸图像所对应的问题，例如可以获取到人脸图像的采集时间，与问题的设置时间，即学习问题在视频中显示的时间段，获取问题设置时间与采集时间间隔最短的问题作为所接收的人脸图像对应的第一问题。其中问题的设置时间的获取可以是服务器从视频配置文件中读取的，例如视频录制完成上传至服务器时，服务器将视频按照时间顺序进行分段，并在每一分段对应的位置处添加相应的学习问题，服务器记录该学习问题在视频中显示的时间段并存储。当服务器需要获取到第一问题时，则从视频配置文件中读取该些时间段，并计算该些时间段与人脸图像的采集时间之间的差值，获取差值最小的一个问题的设置时间，并查询该设置时间对应的第一问题即可。

S210：根据第一问题从初始视频中选取目标视频，并将目标视频推送至终端。

具体地，服务器可以首先提取问题的关键字，然后根据问题的关键字与初始视频的名称进行匹配，如果匹配成功，则将该匹配成功的初始视频作为与问题对应的目标视频，并推送给终端，以便于终端在学习完当前播放视频之后，可以继续学习目标视频，以解决当前问题。

上述基于微表情的视频推荐方法，由于当前播放视频中预先插入了第一问题，且人脸图像是在用户看到第一问题后所采集的，因此人脸图像对应的微表情指标是可以作为用户是否掌握当前播放视频中的知识点的参考指标的，从而通过获取终端发送的人脸图像，并根据微表情识别模型对人脸图像进行处理得到微表情指标，该微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标，根据该微表情指标来确定用户是否掌握当前播放视频中的知识点，从而在用户未掌握时，给用户推送目标视频，不需要用户进行大量的手动操作，简化操作复杂性。

在其中一个实施例中，上述基于微表情的视频推送方法还可以包括：当微表情指标小于等于第一阈值且小于第二阈值时，则获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；从初始视频中选取与第一问题对应的目标视频，并减少目标视频的推送。

具体地，第二预设值小于第一预设值，且第二预设值是作为用户是否掌握当前播放视频中的知识点的参考值，该第二预设值可以是用于根据历史经验预先设定的，当微表情指标小于第二预设值时，则表示用户掌握当前播放视频中的知识点。这样服务器可以获取到人脸图像所对应的第一问题，然后获取到第一问题所对应的视频，从而可以减少该类别的视频的推送。

其中对于获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中采集与人脸图像对应的第一问题；从初始视频中选取与第一问题对应的目标视频步骤的具体限定可以参见上文，在此不再赘述。

上述基于微表情的学习视频推送方法是应用于各种学习视频的推送领域，属于人工智能领域，且推送视频的类别的选择与用户观看当前播放视频的微表情以及当前播放视频中的问题相关，这样不仅根据用户特征微表情，还根据当前所播放的视频中的问题进行推送可以提高推送的质量，且由于微表情不需要用户进行手动输入等，可以降低操作复杂度。

在其中一个实施例中，上述基于微表情的视频推送方法还可以包括：接收终端发送的当前播放视频标识对应的当前播放视频的播放次数；判断播放次数是否大于第二预设值；当播放次数大于第二预设值时，则获取播放次数大于预设值的当前播放视频对应的片段，从当前播放视频中提取与所述片段对应的第二问题；从初始视频中提取与第二问题对应的待推送视频，并将待推送视频推送至终端。

具体地，在其中一种场景下，用户在学习的时候，如果当前播放视频中的问题不清楚，用户可能会重复播放视频中的某一部分，从而终端可以采集用户播放当前播放视频的播放次数，并将所采集的播放次数发送给服务器，服务器判断播放次数是否大于第二预设值，当播放次数大于第二预设值时，则可以从当前播放视频中提取第二问题，并从初始视频中提取与第二问题对应的待推送视频，并将待推送视频推送至终端。其中从初始视频中提取与第二问题对应的待推送视频的方式也可以是通过关键字匹配的方式，在此不再赘述。

其中从当前播放视频中提取第二问题可以是从视频配置文件中获取当前播放视频中的所有学习问题，然后根据用户重复播放的时间段获取到与播放次数对应的第二问题，这样使得推送具有针对性。

上述实施例中，通过判断用户播放视频的播放次数是否大于预设值来确定用户是否掌握了当前知识点，且在用户未掌握当前知识点的时候，推送对应的待推送视频，以帮助用户掌握对应的知识点。

在其中一个实施例中，基于微表情识别模型对人脸图像进行处理得到微表情指标，可以包括：识别人脸图像中的人脸，并得到人脸对应的各类用户微表情的可能性；将可能性进行归一化；获取各类用户微表情的预设指标；将归一化后的可能性与对应的预设指标的乘积作为微表情指标。

具体地，服务器可以将所识别的人脸与上述多种微表情进行匹配得到用户是每一种微表情的可能性，然后进行归一化，根据归一化后的可能性以及各种微表情对应的预设指标得到微表情指标。其中微表情对应的预设指标是预先设定的，例如高兴的预设指标最低，疑惑的预设指标最高等，从而根据微表情指标即可以判断用户对当前学习视频的掌握程度视频。此处假设存在6种基本微表情，且每种基本微表情的预设指标分别设定为A、B、C、D、E和F，将所得到的用户微表情与该6种基本微表情进行匹配得到该六种微表情对应的可能性为a、b、c、d、e和f，对该可能性进行归一化，例如a1＝a/(a+b+c+d+e+f)，b1＝b/(a+b+c+d+e+f)，c1＝c/(a+b+c+d+e+f)，d1＝d/(a+b+c+d+e+f)，e1＝e/(a+b+c+d+e+f)，f1＝f/(a+b+c+d+e+f)，则此时情绪分值＝a1*A+b1*B+c1*C+d1*D+e1*E+f1*F。

上述实施例中，通过对所识别的用户微表情与多种预设微表情进行匹配得到用户是每一种微表情的可能性，并根据多种预设微表情的预设指标得到了微表情指标，从而可以对用户是否掌握当前播放视频中的知识点进行准确的衡量。

在其中一个实施例中，参见图3，图3为一个实施例中的视频类别的识别方式的流程图，该视频类别的识别方式可以包括：

S302：将视频转化为预设类型的初始特征图，并从视频中提取音频特征。

具体地，预设类型可以包括6类，外加一类音频特征，一共是7类特征，6类预设类型包括RGB特征图、MV特征图、残差特征图、RGB difference特征图、光流特征图以及wrapped特征图。服务器将待识别视频的每一帧均转化为该6类特征图，并提取整个待识别视频的音频特征。

S304：对每一预设类型的初始特征图进行采样得到采样特征图。

具体地，服务器首先将每一类型的初始特征图按照时序进行分段处理，然后服务器随机地从每一分段进行采样得到采样特征图。例如，服务器首先将每一类型的初始特征图按照时序进行分段处理，例如假设待识别视频的长度为10s，则可以将该段待识别视频均分为5段，每一段为2s，从而每一类型的初始特征图按照时序也被划分为5段，然后服务器随机地从每一分段进行采样得到采样特征图，这样每一类型的初始特征图均采样得到5张采样特征图。

S306：对采样特征图进行卷积计算，得到每一预设类型中的每一采样特征图对应的视频类别的第一概率分数。

具体地，本实施例中采用resnet50和renet101来计算得到每一张采样特征图对应的第一概率分数，例如RGB特征图和光流特征图通过resnet101来计算，其他特征图通过resnet50来计算，其他实施例中也可以是其他的分配方式，在此不做具体的限定。例如，假设预先视频类别存在100个，则通过resnet可以计算得到该采样特征图为这100个分类的每一类的第一概率分数，该第一概率分数是一个向量，向量的每一项表示了采样特征图这100个视频分类对应的概率分数。

S308：获取每一采样特征图对应的第一权重，根据第一概率分数以及对应的第一权重计算得到每一预设类型对应的视频类别的第二概率分数。

具体地，由于每一类型中采样了5张图片，这5张图片通过上述步骤S306的计算分别得到一个第一概率分数，服务器可以根据该第一概率分数计算得到第二概率分数，具体可以分为两种方式，一种是预设了各个图片的权重，另一种是通过模型训练计算得到了各个图片的权重。

其中预设了各个图片的权重的方式可以是用户预先按照顺序预设了各个采样特征图的权重，即按照1、1.1、1.2、1.1、1的权重比例来计算得到第二概率分数，即1*第一张图的第一概率分数+1.1*第二张图的第一概率分数+1.2*第三张图的第一概率分数+1.1*第四张图的第一概率分数+1*第五张图的第一概率分数＝第二概率分数。

另外一种是通过模型训练计算得到了各个图片的权重，即在模型训练的时候，例如，服务器获取到已经分类的历史视频以及对应的类型，然后将该历史视频转化为预设类型的初始特征图，并从历史视频中提取音频特征，然后对转化后的历史视频进行预处理，例如水平翻转、裁剪、擦除等。服务器将每一类型的初始特征图进行采样得到采样特征图，并对采样特征图进行resnet计算得到每个类型中的每一张采样特征图对应的不同视频类别的第一概率分数，然后根据历史视频对应的视频类别得到第二概率分数，将第二概率分数作为Y值，第一概率分数作为X值，计算得到X值的权重即a、b、c、d、e，Y＝a*第一张图的第一概率分数+b*第二张图的第一概率分数+c*第三张图的第一概率分数+d*第四张图的第一概率分数+e*第五张图的第一概率分数＝第二概率分数。其中第二概率分数是根据历史视频对应的识别类别得到的，具体地，服务器可以将历史视频对应的识别类别的第二概率分数表示向量中的那一项表示为1，其他的表示为0，然后通过多张采样特征图来计算得到a、b、c、d、e，为了下文描述方便，这里称将第一概率分数转换为第二概率分数的模型为第一模型。

S310：将音频特征输入至预设的分类器得到音频特征对应的不同视频分类的第三概率分数。

具体地，服务器将音频特征转化为MFCC特征向量，并将MFCC特征向量输入至softmax分类器得到音频特征对应的第三概率分数。

S312：根据第二概率分数以及第三概率分数计算得到视频对应的视频类别的第四概率分数。

S314：选取第四概率分数最大的视频类别作为视频的视频类别。

具体地，服务器可以根据训练得到的各个类型的初始特征图对应的权重，以及上述所计算得到的第二概率分数计算得到待识别视频对应的不同视频分类的第四概率分数。服务器在计算得到第四概率分数后，即得到了待识别视频为视频类别中每一类的概率后，选取最大的一个概率对应的视频类别类作为待识别视频的类别。

其中通过第二概率分数以及第三概率分数计算得到第四概率分数时，可以引入第二权重，该第二权重用于表征各个预设类型的权重，该权重可以是在服务器训练得到第一模型后继续训练得到的，例如服务器根据第一模型将第一概率分数转化为第二概率分数，然后根据历史视频对应的类型得到第四概率分数，将第四概率分数作为Y值，第二概率分数和第三概率分数作为X值进行训练得到每一个预设类型对应的权重，例如上述存在7种预设类型，则Y＝f*第一预设类型对应的第二概率分数+g*第二预设类型对应的第二概率分数+h*第三预设类型对应的第二概率分数+i*第四预设类型对应的第二概率分数+j*第五预设类型对应的第二概率分数+k*第六预设类型对应的第二概率分数+l*音频类型对应的第三概率分数＝第四概率分数，通过多次训练得到f、g、h、i、j、k、l，即为上述的第二权重。

上述实施例中，将多个不同模型分类算法进行组合是的最后视频分类更为准确。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种视频推荐装置，包括：接收模块100、图像处理模块200、第一类别识别模块300、第一问题采集模块400和第一推送模块500，其中：

接收模块100，用于接收终端发送的人脸图像以及当前播放视频标识，人脸图像是与当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与当前播放视频中插入的第一问题相对应。

图像处理模块200，用于基于微表情识别模型对人脸图像进行处理得到微表情指标，微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标。

第一类别识别模块300，用于当微表情指标大于第一预设值时，则获取与当前播放视频标识对应的视频类别。

第一问题采集模块400，用于获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题。

第一推送模块500，用于根据第一问题从初始视频中选取目标视频，并将目标视频推送至终端。

在其中一个实施例中，上述视频推荐装置还可以包括：

第二类别识别模块，用于当微表情指标小于等于第一阈值且小于第二阈值时，则获取与当前播放视频标识对应的视频类别；

第二问题采集模块，用于获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；

第二推送模块，用于从初始视频中选取与第一问题对应的目标视频，并减少目标视频的推送。

在其中一个实施例中，装置还包括：

提取模块，用于将视频转化为预设类型的初始特征图，并从视频中提取音频特征。

采样模块，用于对每一预设类型的初始特征图进行采样得到采样特征图。

第一概率分数计算模块，用于对采样特征图进行卷积计算，得到每一预设类型中的每一采样特征图对应的视频类别的第一概率分数。

第二概率分数计算模块，用于获取每一采样特征图对应的第一权重，根据第一概率分数以及对应的第一权重计算得到每一预设类型对应的视频类别的第二概率分数。

第三概率分数计算模块，用于将音频特征输入至预设的分类器得到音频特征对应的不同视频分类的第三概率分数。

第四概率分数计算模块，用于根据第二概率分数以及第三概率分数计算得到视频对应的视频类别的第四概率分数。

输出模块，用于选取第四概率分数最大的视频类别作为视频的视频类别。

在其中一个实施例中，上述视频推荐装置还可以包括：

播放次数接收模块，用于接收终端发送的当前播放视频标识对应的当前播放视频的播放次数。

第二判断模块，用于判断播放次数是否大于第二预设值。

第三问题采集模块，用于当播放次数大于第二预设值时，则获取播放次数大于预设值的当前播放视频对应的片段，从当前播放视频中提取与片段对应的第二问题。

第三推送模块，用于从初始视频中提取与第二问题对应的待推送视频，并将待推送视频推送至终端。

在其中一个实施例中，图像处理模块100可以包括：

可能性获取单元，用于识别人脸图像中的人脸，并得到人脸对应的各类用户微表情的可能性。

归一化单元，用于将可能性进行归一化。

微表情指标获取单元，用于将归一化后的可能性与对应的预设指标的乘积作为微表情指标。

关于视频推荐装置的具体限定可以参见上文中对于视频推荐方法的限定，在此不再赘述。上述视频推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频类别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频推荐方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收终端发送的人脸图像以及当前播放视频标识，人脸图像是与当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与当前播放视频中插入的第一问题相对应；基于微表情识别模型对人脸图像进行处理得到微表情指标，微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标；当微表情指标大于第一预设值时，则获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；根据第一问题从初始视频中选取目标视频，并将目标视频推送至终端。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当微表情指标小于等于第一阈值且小于第二阈值时，则获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；从初始视频中选取与第一问题对应的目标视频，并减少目标视频的推送。

在一个实施例中，处理器执行计算机程序时所涉及的视频类别的识别方式可以包括：将视频转化为预设类型的初始特征图，并从视频中提取音频特征；对每一预设类型的初始特征图进行采样得到采样特征图；对采样特征图进行卷积计算，得到每一预设类型中的每一采样特征图对应的视频类别的第一概率分数；获取每一采样特征图对应的第一权重，根据第一概率分数以及对应的第一权重计算得到每一预设类型对应的视频类别的第二概率分数；将音频特征输入至预设的分类器得到音频特征对应的不同视频分类的第三概率分数；根据第二概率分数以及第三概率分数计算得到视频对应的视频类别的第四概率分数；选取第四概率分数最大的视频类别作为视频的视频类别。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收终端发送的当前播放视频标识对应的当前播放视频的播放次数；判断播放次数是否大于第二预设值；当播放次数大于第二预设值时，则获取播放次数大于预设值的当前播放视频对应的片段，从当前播放视频中提取与片段对应的第二问题；从初始视频中提取与第二问题对应的待推送视频，并将待推送视频推送至终端。

在一个实施例中，处理器执行计算机程序时所实现的识别图像中的用户微表情，可以包括：识别人脸图像中的人脸，并得到人脸对应的各类用户微表情的可能性；将可能性进行归一化；获取各类用户微表情的预设指标；将归一化后的可能性与对应的预设指标的乘积作为微表情指标。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收终端发送的人脸图像以及当前播放视频标识，人脸图像是与当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与当前播放视频中插入的第一问题相对应；基于微表情识别模型对人脸图像进行处理得到微表情指标，微表情指标是作为用户是否掌握当前播放视频中的知识点的参考指标；当微表情指标大于第一预设值时，则获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；根据第一问题从初始视频中选取目标视频，并将目标视频推送至终端。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当微表情指标小于等于第一阈值且小于第二阈值时，则获取与当前播放视频标识对应的视频类别；获取与视频类别对应的初始视频，并从当前播放视频标识对应的当前播放视频中提取与人脸图像对应的第一问题；从初始视频中选取与第一问题对应的目标视频，并减少目标视频的推送。

在一个实施例中，计算机程序被处理器执行时所涉及的视频类别的识别方式可以包括：将视频转化为预设类型的初始特征图，并从视频中提取音频特征；对每一预设类型的初始特征图进行采样得到采样特征图；对采样特征图进行卷积计算，得到每一预设类型中的每一采样特征图对应的视频类别的第一概率分数；获取每一采样特征图对应的第一权重，根据第一概率分数以及对应的第一权重计算得到每一预设类型对应的视频类别的第二概率分数；将音频特征输入至预设的分类器得到音频特征对应的不同视频分类的第三概率分数；根据第二概率分数以及第三概率分数计算得到视频对应的视频类别的第四概率分数；选取第四概率分数最大的视频类别作为视频的视频类别。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：接收终端发送的当前播放视频标识对应的当前播放视频的播放次数；判断播放次数是否大于第二预设值；当播放次数大于第二预设值时，则获取播放次数大于预设值的当前播放视频对应的片段，从当前播放视频中提取与片段对应的第二问题；从初始视频中提取与第二问题对应的待推送视频，并将待推送视频推送至终端。

在一个实施例中，计算机程序被处理器执行时所实现的识别图像中的用户微表情，可以包括：识别人脸图像中的人脸，并得到人脸对应的各类用户微表情的可能性；将可能性进行归一化；获取各类用户微表情的预设指标；将归一化后的可能性与对应的预设指标的乘积作为微表情指标。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于微表情的视频推荐方法，所述方法包括：

接收终端发送的人脸图像以及当前播放视频标识，所述人脸图像是与所述当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与所述当前播放视频中插入的第一问题相对应，所述第一问题是预先插入的；

获取与所述视频类别对应的初始视频，并从所述当前播放视频标识对应的当前播放视频中提取与所述人脸图像对应的所述第一问题，包括：获取到人脸图像的采集时间，获取问题设置时间与采集时间间隔最短的问题作为所接收的人脸图像对应的第一问题；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述微表情指标小于等于第一预设值，判断所述微表情指标是否小于第二预设值，当所述微表情指标小于第二预设值时，则获取与所述当前播放视频标识对应的视频类别，其中所述第二预设值小于所述第一预设值；

3.根据权利要求1所述的方法，其特征在于，所述视频类别的识别方式包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括：

判断所述播放次数是否大于阈值；

当所述播放次数大于阈值时，则获取播放次数大于阈值的当前播放视频对应的片段，从所述当前播放视频中提取与所述片段对应的第二问题；

5.根据权利要求1至3任意一项所述的方法，其特征在于，所述基于微表情识别模型对所述人脸图像进行处理得到微表情指标，包括：

将可能性进行归一化；

获取所述各类用户微表情的预设指标；

6.一种基于微表情的视频推荐装置，其特征在于，所述装置包括：

接收模块，用于接收终端发送的人脸图像以及当前播放视频标识，所述人脸图像是与所述当前播放视频标识对应的当前播放视频播放过程中所采集到的、且与所述当前播放视频中插入的第一问题相对应，所述第一问题是预先插入的；

第一问题采集模块，用于获取与所述视频类别对应的初始视频，并从所述当前播放视频标识对应的当前播放视频中提取与所述人脸图像对应的所述第一问题，包括：获取到人脸图像的采集时间，获取问题设置时间与采集时间间隔最短的问题作为所接收的人脸图像对应的第一问题；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二类别识别模块，用于当所述微表情指标小于第二预设值时，则获取与所述当前播放视频标识对应的视频类别，其中所述第二预设值小于所述第一预设值；

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二概率分数计算模块，用于获取每一所述采样特征图对应的第一权重，根据所述第一概率分数以及对应的所述第一权重计算得到每一所述预设类型对应的视频类别的第二概率分数；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。