CN110390033A

CN110390033A - 图像分类模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN110390033A
Application number: CN201910678440.5A
Authority: CN
Inventors: 周智昊; 熊欢; 彭江军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-29
Anticipated expiration: 2039-07-25
Also published as: CN110390033B

Abstract

本发明提供了一种图像分类模型的训练方法、装置、电子设备及存储介质；其中，方法包括：获取视频客户端的不同用户群进行视频播放的视频集；基于视频的点击数据，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集；获取各视频子集中视频的封面图像，并确定封面图像所属的类别；以标注类别的封面图像作为样本图像，通过图像分类模型基于样本图像的图像特征预测相应的图像类别；根据预测的图像类别与标注的类别的差异，更新图像分类模型的模型参数。如此，能够提高模型分类的准确性及分类效率。

Description

图像分类模型的训练方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术(CV，Computer Vision)领域，尤其涉及一种图像分类模型的训练方法、装置、电子设备及存储介质。

背景技术

计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统，而计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别等技术。

相关技术中，通过训练图像分类模型对视频的封面图像进行分类，进而可应用训练得到的图像分类模型对封面图像的分类结果对用户进行视频推荐等。

相关技术中对于图像分类模型的训练，需要大量人工标注的训练样本，耗费大量的人力，模型的训练效率低，且人工标注的图像与评分人主观感受相关性过大，如此构造的训练样本使得图像分类模型的准确性较低。

发明内容

本发明实施例提供一种图像分类模型的训练方法、装置、电子设备及存储介质，能够提高模型分类的准确性及分类效率。

本发明实施例提供一种图像分类模型的训练方法，包括：

获取视频客户端的不同用户群进行视频播放的视频集；

基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；

获取各所述视频子集中视频的封面图像，并标注所述封面图像所属的类别；

以标注所述类别的封面图像作为样本图像，通过所述图像分类模型基于所述样本图像的图像特征预测相应的图像类别；

根据预测的所述图像类别与标注的所述类别的差异，更新所述图像分类模型的模型参数。

本发明实施例还提供了一种图像分类模型的训练装置，包括：

获取单元，用于获取视频客户端的不同用户群进行视频播放的视频集；

分类单元，用于基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；

处理单元，用于获取各所述视频子集中视频的封面图像，并标注所述封面图像所属的类别；

预测单元，以标注所述类别的封面图像作为样本图像，通过所述图像分类模型基于所述样本图像的图像特征预测相应的图像类别；

更新单元，根据预测的所述图像类别与标注的所述类别的差异，更新所述图像分类模型的模型参数。

上述方案中，所述分类单元，还用于基于视频的点击量，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；不同的所述视频子集对应不同的点击量范围。

上述方案中，所述分类单元，还用于依据视频标签，分别对各所述用户群的视频集进行视频筛选，得到各所述视频集中对应所述视频标签的视频；

基于视频的点击数据，分别对各所述视频集中对应所述视频标签的视频进行分类，得到各所述用户群对应的多个视频子集。

上述方案中，所述分类单元，还用于依据种子图像，分别对各所述用户群的视频集进行视频筛选，得到各所述视频集中封面图像与所述种子图像的相似度达到相似度阈值的视频；

基于视频的点击数据，分别对各所述视频集中筛选得到的视频进行分类，得到各所述用户群对应的多个视频子集。

上述方案中，所述预测单元，还用于通过所述图像分类模型，对所述样本图像进行图像特征提取，得到所述样本图像的图像特征；

通过所述图像分类模型，对所述样本图像关联的非图像信息进行特征提取，得到所述样本图像的非图像特征；

基于所述样本图像的图像特征及非图像特征，预测得到对应所述样本图像的图像类别。

上述方案中，所述预测单元，还用于获取所述非图像信息包括的属性信息对应的属性特征；

将所述图像特征、所述非图像特征及所述属性特征进行拼接，得到所述样本图像对应的类别特征；

基于所述类别特征预测得到对应所述样本图像的图像类别。

上述方案中，所述更新单元，还用于根据预测的所述图像类别与标注的所述类别的差异，确定所述图像分类模型的损失函数的值；

当所述损失函数的值达到预设阈值时，基于所述图像分类模型的损失函数确定相应的误差信号；

将所述误差信号在所述图像分类模型中反向传播，并在传播的过程中更新所述图像分类模型的各个层的模型参数。

上述方案中，所述装置还包括推荐单元；

所述获取单元，还用于获取待推荐视频的封面图像；

所述预测单元，还用于通过所述图像分类模型，预测所述待推荐视频的封面图像所属的目标图像类别；

所述推荐单元，用于基于所述目标图像类别，将所述待推荐视频推送至所述目标图像类别关联的用户的视频客户端。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像分类模型的训练方法。

本发明实施例还提供了一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的图像分类模型的训练方法。

应用本发明实施例具有以下有益效果：

基于视频的点击数据，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集，获取各视频子集中视频的封面图像，并标注封面图像所属的类别，如此，通过对视频的分类，实现基于分类结果对视频的封面图像的自动标注，进而可将标注类别的封面图像作为样本图像进行图像分类模型的训练，大大降低了人工进行图像标注的成本，提高了模型训练的效率，同时，由于对视频的分类结合了用户的点击数据，使得训练得到的模型的输出结果更符合用户的兴趣倾向，提高了模型分类的准确性。

附图说明

图1为本发明实施例提供的用户兴趣画像的一个示意图；

图2为相关技术提供的对人脸图像进行颜值标注的数据分布示意图；

图3为本发明实施例提供的图像分类模型的训练系统100的一个可选的架构示意图；

图4为本发明实施例提供的服务器的硬件结构示意图；

图5为本发明实施例提供的图像分类模型的训练方法的流程示意图；

图6为本发明实施例提供的特定用户群及视频标签下的视频群落示意图；

图7为本发明实施例提供的图像分类模型的训练方法的流程示意图；

图8为本发明实施例提供的图像分类模型的结构示意图；

图9为本发明实施例提供的图像分类模型确定视频封面图像所属颜值分类的示意图；

图10为本发明实施例提供的图像分类模型的训练方法流程示意图；

图11为本发明实施例提供的图像分类模型的训练装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)用户画像，包括用户兴趣画像及用户基础画像；其中，

用户兴趣画像，指真实用户的虚拟代表，是建立在一系列属性数据之上的目标用户模型，本文中指根据用户的历史行为数据抽象出的对应用户的层次化的兴趣模型，用于指示用户的兴趣分类，如图1所示为本发明实施例提供的用户兴趣画像的一个示意图；

用户基础画像，根据用户的真实性别，年龄，收入情况，常驻登录地等用户基础信息抽象出的标签化的用户的信息全貌。

2)点击率，指网站页面上某一内容被点击的次数与被显示次数之比，本文中指视频在视频客户端中被点击的次数与曝光次数的比值，也即视频的点击量与视频客户端显示该视频的次数的比值。

3)封面图像，本文中指视频在视频客户端中呈现的第一面所对应的图像，通常携带相应视频的关键信息，在实际应用中，可人工选择视频中的某一关键帧或默认选择视频的首个关键帧作为视频的封面图像。

4)种子图像，能够表征图像分类意图的图像，携带对应图像分类的类别特征，通过对种子图像的图像特征，如颜色特征，纹理特征，形状特征等的分析、比对，搜索并获取与种子图像相似的图像作为同一类图像。

发明人在研究过程中发现，在一些实施例中，对于图像分类模型的训练，需要大量人工标注的训练样本，以图像分类模型对包含人脸的封面图像进行用户颜值的分类为例，相关技术中采用的训练样本数据集中包括5500张标注过颜值分的人脸图像，图2是相关技术提供的对人脸图像进行颜值标注的数据分布示意图，参见图2，在实际实施时，采用人工标注的方式获得训练样本，往往会遇到人脸遮挡、侧脸，包含美颜特效等问题，并且原始标注的图像和评分人主观感觉相关性过大，只有一个评分时，容易出现分类偏差，需要多人的重复标注用来提高准确性。

在一些实施例中，对于图像分类模型的训练，并不考虑封面图像本身的图像特征，完全依赖于视频的点击数据，如依据点击率，也即根据用户的兴趣偏好信息对视频的封面图像进行分类，然而，依赖点击数据构造的训练样本往往受到视频标题、标签等信息的影响，使得训练得到的模型的分类准确性降低，且采用此种方式训练得到的模型，由于并不考虑封面图像本身的图像特征，使得在模型应用过程中模型的修正成为难题。

基于此，提出本发明实施例的图像分类模型的训练系统、装置及方法，接下来分别进行说明。

图3是本发明实施例提供的图像分类模型的训练系统100的一个可选的架构示意图，参见图3，为实现支撑一个示例性应用，终端(包括终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端(如终端400-1)，用于获取视频客户端的不同用户群进行视频播放的视频集，基于视频的点击数据，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集；获取各视频子集中视频的封面图像，并标注封面图像所属的类别；

终端(如终端400-1)还用于发送图像分类模型的训练请求给服务器200，图像分类模型的训练请求中携带作为样本图像的标注类别的封面图像；

服务器200，用于以标注类别的封面图像作为样本图像，通过图像分类模型基于样本图像的图像特征预测相应的图像类别；根据预测的图像类别与标注的类别的差异，更新图像分类模型的模型参数。

这里，在实际应用中，服务器200既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；终端可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

在一些实施例中，终端(如终端400-2)，用于发送视频的封面图像的分类请求给服务器200，该分类请求中携带视频的封面图像；

服务器200，用于解析分类请求得到封面图像后，将解析得到的封面图像输入至训练得到的图像分类模型，通过图像分类模型得到相应的分类结果，并返回分类结果给终端。

下面对实施本发明实施例实施图像分类模型的训练方法的电子设备进行说明。在一些实施例中，电子设备可以为智能手机、平板电脑、笔记本电脑等各种类型的终端，还可以为服务器。本发明实施例以电子设备为服务器为例，对服务器的硬件结构做详细说明。

图4为本发明实施例提供的服务器的硬件结构示意图，可以理解，图4仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图4示出的部分结构或全部结构。参见图4，本发明实施例提供的服务器包括：至少一个处理器201、存储器202和至少一个网络接口204。服务器中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统205。

在实际应用中，服务器还可以包括用户接口203，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等；需要说明的是，在实际应用中，用户接口本身是可选的。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器202用于存储各种类型的数据以支持服务器的操作。这些数据的示例包括：用于在服务器上操作的任何可执行指令，如可执行指令，实现本发明实施例的方法的程序可以包含在可执行指令中。

本发明实施例揭示的图像分类模型的训练方法可以由处理器201实现。处理器201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，图像分类模型的训练方法的各步骤可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器201可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器201可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器202，处理器201读取存储器202中的信息，结合其硬件完成本发明实施例提供的图像分类模型的训练方法的步骤。

基于上述对本发明实施例的图像分类模型的训练系统及电子设备的说明，接下来对本发明实施例提供的图像分类模型的训练方法进行说明，图5为本发明实施例提供的图像分类模型的训练方法的流程示意图，在一些实施例中，该图像分类模型的训练方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，如通过图3中的服务器200实施，结合图3及图5，本发明实施例提供的图像分类模型的训练方法包括：

步骤501：服务器获取视频客户端的不同用户群进行视频播放的视频集。

在实际实施时，服务器对视频客户端的多个用户进行分群，具体地，可采用如下方式实现用户分群：服务器获取视频客户端的用户对应的用户画像；基于用户画像对视频客户端的用户进行分群，得到视频客户端的多个用户群。

这里，在一些实施例中，用户画像可以包括以下至少之一：用户兴趣画像、用户基础画像。

以用户画像包括用户兴趣画像及用户基础画像为例，在实际实施时，预先设定相应的分群规则，根据分群规则将视频客户端的多个用户划分为多个用户群；这里，具体地分群规则可依据实际分群需要进行设定，如将视频客户端的15-45岁之间的喜欢科比的男性用户划分至同一个用户群，相应的，可根据该用户群中的用户标识，获取该用户群中用户观看过的视频所构成的视频集。

步骤502：基于视频的点击数据，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集。

在实际实施时，视频的点击数据可以为视频对应的点击量和/或点击率。

以点击数据为视频对应的点击量为例，在一些实施例中，基于视频的点击量，可通过如下方式对各用户群的视频集进行视频分类：基于视频的点击量，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集；其中，不同的视频子集对应不同的点击量范围；例如，对于一个用户群对应的视频集来说，将点击量一万以内的视频划分为一个视频子集，将点击量一万至两万的视频划分为一个视频子集，将点击量超过两万的视频划分为一个视频子集；如此，可根据视频的点击量大小评估该视频对于相应用户群的受欢迎程度。

以点击数据为视频对应的点击率为例，基于视频的点击率，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集；不同的视频子集对应不同的点击率范围；在实际实施时，视频子集的数量可依据实际需要进行设定，例如，对于一个用户群对应的视频集来说，将点击率0.1以内的视频划分为一个视频子集，将点击率为0.1至0.3之间的视频划分为一个视频子集，将点击率超过0.3的视频划分为一个视频子集；如此，可依据视频点击率的高低判断相应的用户群对该视频的感兴趣程度。

这里，在实际实施时，视频客户端对应的后台服务器中存在未曝光或曝光量少的视频，为例确保点击率的准确性，可将未曝光及曝光量低于设定阈值的视频曝光至目标用户群，并获取相应的点击量或点击率。

在实际应用中，在依据点击数据对视频集进行分类之前，可先依据设定的视频标签或种子图像对视频集进行分类，然后再依据点击数据对标签或种子图像的分类结果进行再分类。

在一些实施例中，可通过如下方式对各用户群的视频集进行视频分类：依据视频标签，分别对各用户群的视频集进行视频筛选，得到各视频集中对应视频标签的视频；基于视频的点击数据，分别对各视频集中对应视频标签的视频进行分类，得到各用户群对应的多个视频子集。在实际实施时，当用户群及视频标签确定后，视频集可天然的形成视频群落，进而可依据视频标签对相应的群落进行归类，图6为本发明实施例提供的特定用户群及视频标签下的视频群落示意图，参见图6，其中，图中的横轴及纵轴均为视频的任意一维特征，编号1所示为人工标签对应的群落，编号2为机器标签对应的群落。

在一些实施例中，可通过如下方式对各用户群的视频集进行视频分类：依据种子图像，分别对各用户群的视频集进行视频筛选，得到各视频集中封面图像与种子图像的相似度达到相似度阈值的视频；基于视频的点击数据，分别对各视频集中筛选得到的视频进行分类，得到各用户群对应的多个视频子集。

步骤503：获取各视频子集中视频的封面图像，并标注封面图像所属的类别。

这里，在实际实施时，服务器可通过如下方式获取各视频子集中视频的封面图像：发送携带视频标识的封面图像获取请求给互联网数据中心(IDC，Internet Data Center)，并接收IDC返回的封面图像。

在实际实施时，服务器标注封面图像所属的类别为该封面图像所属的视频子集所对应的类别；以依据点击率将用户群的视频集划分成两个视频子集，分别对应的类别为感兴趣与不感兴趣为例，服务器标注封面图像的类别为对应用户群A的感兴趣的分类。如此，通过对视频的分类，实现基于分类结果对视频的封面图像的自动标注，进而可将标注类别的封面图像作为样本图像进行图像分类模型的训练，大大降低了人工进行图像标注的成本，提高了模型训练的效率，同时，由于对视频的分类结合了用户的点击数据，使得训练得到的模型的输出结果更符合用户的兴趣倾向，提高了模型分类的准确性。

在一些实施例中，对于服务器对封面图像自动实施的类别标注，可能存在某些封面图像的标注不准确的情况，因此，在实际实施时，可抽取每个视频子集中部分(如10％)视频的封面图像的标注结果进行人工矫正，即进行人工重新标注，如此，采用结合了服务器自动标注的封面图像及人工标注的封面图像作为训练样本，可提高图像分类模型的分类准确性。

步骤504：以标注类别的封面图像作为样本图像，通过图像分类模型基于样本图像的图像特征预测相应的图像类别。

在一些实施例中，可仅依据封面图像的图像特征对封面图像进行分类，具体地，对样本图像进行图像特征提取，得到样本图像的图像特征，根据样本图像的图像特征预测相应的图像类别。在实际实施时，为了提高图像分类模型的训练速度，可采用用于进行图像分类的预训练模型，如MobileNetV2，对预训练模型进行模型微调(fine-tune)，如采用notop的MobileNetV2增加池化层及全连接层，进而对输入的封面图像进行特征提取，得到用于对封面图像进行分类的特征向量，然后依据提取得到的特征向量得到相应的图像类别并输出，在实际实施时，输出的是该封面图像对应各个图像类别的概率，确定概率最高的图像类别为该封面图像对应的类别。

在一些实施例中，在对封面图像进行特征提取前，对封面图像进行预处理，如对封面图像进行大小调整，如将封面图像调整图像大小为286×286，然后将封面图像的像素值进行归一化处理，如归一化至-1到1之间，在实际实施时，亦可根据实际需要进行其它图像预处理，如随机剪裁、上下翻转等，本发明实施例不做限定。

在一些实施例中，可结合封面图像的图像特征及非图像特征对封面图像进行分类，具体地，服务器通过图像分类模型，对样本图像进行图像特征提取，得到样本图像的图像特征；通过图像分类模型，对样本图像关联的非图像信息进行特征提取，得到样本图像的非图像特征；基于样本图像的图像特征及非图像特征，预测得到对应样本图像的图像类别。

这里，在实际实施时，非图像信息可以包括文本信息及属性信息，相应的，服务器可通过如下方式对样本图像关联的非图像信息进行特征提取：获取文本信息所对应的向量，得到相应的文本向量，并对属性信息进行标准化处理，得到相应的属性向量，将文本向量及属性向量输入至文本分类模型，如Bi-LSTM模型，输出对应样本图像的非图像特征。在实际应用中，文本信息可以包括：视频的标题、视频标签、视频的上传者信息等；属性信息可以包括：视频的时间戳、视频被点击时相应用户的状态信息，如用户位置信息、网络接入方式等。

在一些实施例中，服务器可通过如下方式预测得到对应样本图像的图像类别：获取非图像信息包括的属性信息对应的属性特征；将图像特征、非图像特征及属性特征进行拼接，得到样本图像对应的类别特征；基于类别特征预测得到对应样本图像的图像类别。

步骤505：根据预测的图像类别与标注的类别的差异，更新图像分类模型的模型参数。

在一些实施例中，图像分类模型的损失函数可以为交叉熵函数，相应的，服务器可通过如下方式更新图像分类模型的模型参数：

根据预测的图像类别与标注的类别的差异，确定图像分类模型的损失函数的值；当损失函数的值达到预设阈值时，基于图像分类模型的损失函数确定相应的误差信号；将误差信号在图像分类模型中反向传播，并在传播的过程中更新图像分类模型的各个层的模型参数。

这里对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

以神经网络模型为图像分类模型为例，服务器基于交叉熵函数确定误差信号，误差信号从图像分类模型的输出层反向传播，逐层反向传播误差信号，在误差信号到达每一层时，结合传导的误差信号来求解梯度(也就是损失函数对该层参数的偏导数)，将该层的参数更新对应的梯度值。

接下来对图像分类模型的应用场景进行说明。

在一些实施例中，图像分类模型可应用于视频推荐，服务器获取待推荐视频的封面图像，通过训练得到的图像分类模型，预测待推荐视频的封面图像所属的目标图像类别，并基于目标图像类别，将待推荐视频推送至目标图像类别关联的用户的视频客户端。

在一些实施例中，图像分类模型可应用于对包含人脸的视频封面图像进行颜值评分，如，依据颜值高低分为好、中、差，服务器将包含人脸的视频封面图像输入至训练得到的图像分类模型，输出封面图像属于类别为好、中、差的概率，对于同一类别来说，概率值越大表明相应的颜值越高，在实际实施时，确定概率值达到概率阈值的类别为该封面图像对应的类别，例如，确定封面图像属于类别为好的概率值为0.6，确定该封面图像的类别为好，而属于类别为好的封面图像中，概率值越大相应的评分越高。

在一些实施例中，图像分类模型还可用于封面图像或视频的聚类，将封面图像基于图像分类模型得到的类别特征输入至向量引擎，进行相应类别的图像的挖掘及聚类，如输入至Facebook开源的Faiss，进而聚类得到与该封面图像相似的图像。

应用本发明上述实施例，获取视频客户端的不同用户群进行视频播放的视频集，即将用户播放过的视频依据不同的用户群体进行视频集的划分，也即，将视频与视频客户端的不同用户群进行关联；基于视频的点击数据，分别对各用户群的视频集进行视频分类，得到各用户群对应的多个视频子集，也即，将每个用户群对应的视频集进一步依据视频的点击数据进行划分，如此，使得分类得到的视频子集携带了用户的兴趣倾向信息；获取各视频子集中视频的封面图像，并标注封面图像所属的类别，如此，通过对视频的分类，实现基于分类结果对视频的封面图像的自动标注，进而可将标注类别的封面图像作为样本图像进行图像分类模型的训练，大大降低了人工进行图像标注的成本，提高了模型训练的效率，同时，由于对视频的分类结合了用户的点击数据，使得训练得到的模型的输出结果更符合用户的兴趣倾向，提高了模型分类的准确性。

接下来以图像分类模型用于对包含人脸的视频封面图像进行颜值分类为例，对本发明实施例的图像分类模型的训练方法进行说明。图7为本发明实施例提供的图像分类模型的训练方法的流程示意图，在一些实施例中，该图像分类模型的训练方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，如通过图3中的服务器200实施，结合图3及图7，本发明实施例提供的图像分类模型的训练方法包括：

步骤701：服务器基于用户画像对视频客户端的多个用户进行用户分群。

这里，在一些实施例中，服务器分别获取视频客户端的各个用户的用户兴趣画像及用户基础画像，结合用户兴趣画像及用户基础画像，依据预设的分群规则视频客户端的多个用户进行用户分群，得到视频客户端的多个用户群；例如服务器将视频客户端的15-45岁之间的男性用户划分至同一个用户群。

步骤702：获取不同用户群中用户历史视频播放的视频集。

在实际应用中，服务器基于视频的历史播放记录，获取各个用户群中用户观看多的视频构成的视频集。

步骤703：基于设定的视频标签，分别对各用户群的视频集进行视频筛选，得到各视频集中对应视频标签的视频。

在实际实施时，可预先设定一个或多个视频标签，通过设定的视频标签对视频集进行视频筛选及再分类，如设定视频标签为“美女”，依据该视频标签对各用户群的视频集进行视频筛选。

步骤704：基于视频的点击率，分别对各视频集中对应视频标签的视频进行分类，得到各用户群对应的多个视频子集。

这里，在实际应用中，不同的视频子集对应不同的点击率范围，例如，将点击率达到0.2的视频划分至同一类，将点击率低于0.2的视频划分至同一类。

步骤705：获取各用户群的视频子集中视频的封面图像，并标注封面图像所属的类别。

在实际实施时，服务器基于视频的视频标识从IDC获取视频的封面图像，并标注该封面图像的类别为该封面图像所属视频子集对应的类别，如感兴趣类别，该类别关联视频子集对应的用户群。

步骤706：以标注类别的封面图像作为样本图像，获取样本图像关联的文本信息及属性信息。

这里，样本图像关联的文本信息可以包括：相应的视频的标题、视频标签、视频的上传者信息等；样本图像关联的属性信息可以包括：视频的时间戳、视频被点击时相应用户的状态信息，如用户位置信息、网络接入方式等。

步骤707：将样本图像、样本图像关联的文本信息及属性信息输入至图像分类模型，预测对应样本图像的图像类别。

在一些实施例中，图像分类模型的结构如图8所示，参见图8，图像分类模型包括图像特征提取模块(编号81所示)、非图像特征提取模块(编号82所示)、全连接层及输出层(softmax层)，其中，图像特征提取模块包括：预处理单元811、第一特征提取单元812；非图像特征提取模块包括：向量转换单元821、标准化单元822及第二特征提取单元823；在实际应用中，向量转换单元可采用ELMO预训练模型、BERT[5]预训练模型或Word2Vec预训练模型等实现；第二特征提取单元可采用Bi-LSTM模型实现。

在实际应用中，样本图像输入至图像分类模型后，经预处理单元进行图像预处理，如图像大小调整、像素值归一化等，然后，将第一特征提取单元812对样本图像进行图像特征提取，得到样本图像的图像特征，即第一特征提取单元中全连接层输出的特征向量；在实际实施时，第一特征提取单元812可通过对notop的MobileNetV2进行模型微调实现。

在实际应用中，样本图像关联的文本信息经向量转换单元转换为相应的文本向量，样本图像关联的属性信息经标准化单元进行标准化处理，得到相应的属性特征向量，得到的文本向量及属性向量输入至第二特征提取单元，通过第二特征提取单元输出相应的非图像特征向量。

得到的样本图像的图像特征向量、非图像特征向量及属性特征向量，经图像分类模型的全连接层进行拼接，得到样本图像的类别特征，该类别特征经输出层(softmax层)，输出样本图像对应的各个图像类别的概率，进而确定封面图像所属的图像类别；图9为本发明实施例提供的图像分类模型确定视频封面图像所属颜值分类的示意图，参见图9，可知颜值分类为好的封面图像及颜值分类为中的封面图像。

步骤708：根据预测的图像类别与标注的类别的差异，更新图像分类模型的模型参数。

这里，在实际实施时，图像分类模型的损失函数采用交叉熵函数，具体地，服务器可通过如下方式更新图像分类模型的模型参数：

应用本发明上述实施例，具备以下有益技术效果：

1)，将用户播放过的视频依据不同的用户群体进行视频集的划分，也即，将视频与视频客户端的不同用户群进行关联，如此，使得图像分类模型的分类结果与不同用户群进行关联，便于依据分类结果对不同的用户进行视频推荐；

2)，将每个用户群对应的视频集进一步依据视频的点击数据进行划分，如此，使得分类得到的视频子集携带了用户的兴趣倾向信息；

3)，获取各视频子集中视频的封面图像，并标注封面图像所属的类别，如此，通过对视频的分类，实现基于分类结果对视频的封面图像的自动标注，进而可将标注类别的封面图像作为样本图像进行图像分类模型的训练，大大降低了人工进行图像标注的成本，提高了模型训练的效率，同时，由于对视频的分类结合了用户的点击数据，使得训练得到的模型的输出结果更符合用户的兴趣倾向，提高了模型分类的准确性。

继续对本发明实施例的图像分类模型的训练方法进行说明。图10为本发明实施例提供的图像分类模型的训练方法流程示意图，在一些实施例中，该图像分类模型的训练方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，参见图10，本发明实施例提供的图像分类模型的训练方法包括：

1、用户行为收集

1.1，获取视频客户端用户的视频浏览及播放历史信息，如视频的曝光、视频的观看(停留)时长、视频点击、视频观看完成度(排除进度条拖动)等信息。

1.2，获取视频客户端用户的用户兴趣画像，包括用户关注的明星，最近在追的剧，最近感兴趣的分类，最近关注超过平均值的分类等。

1.3，获取视频客户端用户的用户基础画像，包括用户的真实性别，年龄，收入情况，常驻登录地等信息。

在实际实施时，还可获取视频客户端用户的用户当前状态信息，如用户当前位置，接入网络方式，访问场景等。

2、用户分群

在实际实施时，可结合用户通过终端上报的日志、用户画像(包括用户兴趣画像及用户基础画像)及预先设定的分群规则，对视频客户端的用户进行分群。

3、数据范围圈定

对用户进行分群后得到多个用户群，分别获取各个用户群中用户历史点击/浏览的视频的封面图像，然后依据视频标签或者种子图片向量，对视频的封面图像进行筛选。

4、按点击率分类

依据视频的点击率，对3中筛选得到的封面图像进行分段，不同的点击率范围对应不同的分段，例如，除以Top1％均值，然后乘以分段比例，如二分类则乘以0.5，以该值作为分段中值，即进行归一化处理。

在实际实施时，为了尽可能确保目标点击率的准确性，需要对未曝光或曝光少的视频进行冷启动加权，即将未曝光或曝光少的视频曝光给目标用户群，以便累积点击率情况。

5、抽样人工标注

以4中按点击率分为两段，分别为感兴趣(点击率高)和不感兴趣(点击率低)为例，为了提高模型分类的准确性，可分别从感兴趣的分段及不感兴趣的分段中抽取部分封面图像(如10％)进行人工标注，以实现人工矫正。

6、图像采集与模型微调

6.1，对于按点击率分类得到的封面图像的分类，可从IDC处下载并依据分类情况存储到不同的文件夹。

6.2，预训练模型微调(fine-tune)

这里，在实际实施时，为了降低训练成本和数据量，可以直接采用预训练模型MobileNetV2进行微调，使用notop的预训练模型并增加1或2个全连接层，利用分类得到的视频的封面图像作为训练样本，迭代并验证模型的分类准确性；需要说明的是，在实际应用中所采用的预训练模型并不限于MobileNet V2，其它的可用于图像分类的预训练模型皆可。

6.3，视频关联信息与封面图像联合训练

在实际应用中，用户点击视频进行播放，除了会参考视频的封面图像以外，还会参考视频标题、视频标签、播放时长等信息，因此，为了更好的辅助分类模型的训练，参见图8，可将视频标题、视频标签等视频关联的文本信息，以及用户的状态信息、播放时长等属性信息作为训练样本的一部分，与样本图像联合训练，例如，将文本信息通过ELMo(Embeddingsfrom Language Model s)进行编码，再接一个双向LSTM(Bi-LSTM)，对文本信息及属性信息进行训练；需要说明的是，对文本信息进行向量转换的模型并不限于ELMo，如采用BERT[5]、Word2Vec亦可，本发明实施例不做限定。

7、特征向量导入向量引擎

对于上述训练得到的图像分类模型，可将全连接层输出的特征向量输入至向量引擎，如Facebook开源的Faiss，以挖掘与封面图像近似的图像，如对于训练样本中人工标注的封面图像，可通过向量引擎在最初构建的训练样本中搜索与之相似的封面图像，以对训练样本进行提纯，迭代进行训练，进而提高分类模型的分类精度。

8、图像分类模型的应用

8.1，用于对视频的封面图像进行评分，例如对包含人脸的视频封面图像进行颜值评分，可以较好的按用户喜好划分出颜值的分段；还可以构建喜欢某个分类的用户，偏爱的封面分值；在对视频进行排序或进行视频推荐时，该评分可以作为一种图片特征供参考或直接加权。

8.2，视频封面图像的特征向量提取

将封面图像及其相关信息输入至训练得到的图像分类模型，经全连接层输出对应的特征向量，然后将该特征向量输入至向量引擎，进行相应类别的图像的挖掘及聚类，如此，能够按领域(domain)构建较精确的Embedding向量，可用于特定领域下(如教程类，意图类)某个分类的聚类挖掘。

应用本发明上述实施例，可节省人工标注成本，降低对人工图片标注的依赖程度，在有较大流量的系统中，可自动的挖掘和提取目标群体偏爱的图片/视频，并且提高模型分类的准确性。

继续对本发明实施例提供的图像分类模型的训练装置行说明。图11为本发明实施例提供的图像分类模型的训练装置的组成结构示意图，参见图11，本发明实施例提供的图像分类模型的训练装置110包括：

获取单元111，用于获取视频客户端的不同用户群进行视频播放的视频集；

分类单元112，用于基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；

处理单元113，用于获取各所述视频子集中视频的封面图像，并标注所述封面图像所属的类别；

预测单元114，以标注所述类别的封面图像作为样本图像，通过所述图像分类模型基于所述样本图像的图像特征预测相应的图像类别；

更新单元115，根据预测的所述图像类别与标注的所述类别的差异，更新所述图像分类模型的模型参数。

在一些实施例中，所述获取单元，还用于获取所述视频客户端的用户对应的用户画像；

所述分类单元，还用于基于所述用户画像对所述视频客户端的用户进行分群，得到所述视频客户端的多个用户群。

在一些实施例中，所述分类单元，还用于基于视频的点击率，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；不同的所述视频子集对应不同的点击率范围。

在一些实施例中，所述分类单元，还用于基于视频的点击量，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；不同的所述视频子集对应不同的点击量范围。

在一些实施例中，所述分类单元，还用于依据视频标签，分别对各所述用户群的视频集进行视频筛选，得到各所述视频集中对应所述视频标签的视频；

在一些实施例中，所述分类单元，还用于依据种子图像，分别对各所述用户群的视频集进行视频筛选，得到各所述视频集中封面图像与所述种子图像的相似度达到相似度阈值的视频；

在一些实施例中，所述预测单元，还用于通过所述图像分类模型，对所述样本图像进行图像特征提取，得到所述样本图像的图像特征；

在一些实施例中，所述预测单元，还用于获取所述非图像信息包括的属性信息对应的属性特征；

基于所述类别特征预测得到对应所述样本图像的图像类别。

在一些实施例中，所述更新单元，还用于根据预测的所述图像类别与标注的所述类别的差异，确定所述图像分类模型的损失函数的值；

在一些实施例中，所述装置还包括推荐单元；

所述获取单元，还用于获取待推荐视频的封面图像；

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现本发明实施例提供的上述图像分类模型的训练方法。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的图像分类模型的训练方法。

实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

获取视频客户端的不同用户群进行视频播放的视频集；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述视频客户端的用户对应的用户画像；

基于所述用户画像对所述视频客户端的用户进行分群，得到所述视频客户端的多个用户群。

3.如权利要求1所述的方法，其特征在于，所述基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集，包括：

基于视频的点击率，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；不同的所述视频子集对应不同的点击率范围。

4.如权利要求1所述的方法，其特征在于，所述基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集，包括：

基于视频的点击量，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；不同的所述视频子集对应不同的点击量范围。

5.如权利要求1所述的方法，其特征在于，所述基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集，包括：

依据视频标签，分别对各所述用户群的视频集进行视频筛选，得到各所述视频集中对应所述视频标签的视频；

6.如权利要求1所述的方法，其特征在于，所述基于视频的点击数据，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集，包括：

依据种子图像，分别对各所述用户群的视频集进行视频筛选，得到各所述视频集中封面图像与所述种子图像的相似度达到相似度阈值的视频；

7.如权利要求1所述的方法，其特征在于，所述通过所述图像分类模型基于所述样本图像的图像特征预测相应的图像类别，包括：

通过所述图像分类模型，对所述样本图像进行图像特征提取，得到所述样本图像的图像特征；

8.如权利要求7所述的方法，其特征在于，所述基于所述样本图像的图像特征及非图像特征，预测得到对应所述样本图像的图像类别，包括：

获取所述非图像信息包括的属性信息对应的属性特征；

基于所述类别特征预测得到对应所述样本图像的图像类别。

9.如权利要求1所述的方法，其特征在于，所述根据预测的所述图像类别与标注的所述类别的差异，更新所述图像分类模型的模型参数，包括：

根据预测的所述图像类别与标注的所述类别的差异，确定所述图像分类模型的损失函数的值；

10.如权利要求1所述的方法，其特征在于，所述更新所述图像分类模型的模型参数之后，还包括：

获取待推荐视频的封面图像；

通过所述图像分类模型，预测所述待推荐视频的封面图像所属的目标图像类别；

基于所述目标图像类别，将所述待推荐视频推送至所述目标图像类别关联的用户的视频客户端。

11.一种图像分类模型的训练装置，其特征在于，所述装置包括：

12.如权利要求11所述的装置，其特征在于，

所述获取单元，还用于获取所述视频客户端的用户对应的用户画像；

13.如权利要求11所述的装置，其特征在于，

所述分类单元，还用于基于视频的点击率，分别对各所述用户群的视频集进行视频分类，得到各所述用户群对应的多个视频子集；不同的所述视频子集对应不同的点击率范围。

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10中任一项所述的图像分类模型的训练方法。

15.一种存储介质，其特征在于，所述存储介质存储有可执行指令，用于引起处理器执行时，实现权利要求1至10中任一项所述的图像分类模型的训练方法。