CN111339952B

CN111339952B - 基于人工智能的图像分类方法、装置及电子设备

Info

Publication number: CN111339952B
Application number: CN202010122825.6A
Authority: CN
Inventors: 沈伟; 康斌
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2024-04-02
Anticipated expiration: 2040-02-27
Also published as: CN111339952A

Abstract

本发明提供了一种基于人工智能的图像分类方法、装置、电子设备及计算机可读存储介质；方法包括：从视频集中确定与图像分类模型的目标分类标签对应的正则化视频；对正则化视频进行镜头切分处理，得到至少一个视频流；通过图像分类模型，对视频流中的图像进行前馈处理，得到特征向量；根据视频流中设定数量的图像对应的特征向量，建立连续性约束；根据连续性约束在图像分类模型中进行反向传播，并在反向传播的过程中，更新图像分类模型的权重参数；根据更新后的图像分类模型，确定待分类图像中所包括内容的分类结果。通过本发明，能够提升模型正则化效果，有效避免模型过拟合，提升图像分类的精度。

Description

基于人工智能的图像分类方法、装置及电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的图像分类方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。计算机视觉技术(CV，Computer Vision)是人工智能的一个重要分支，具体指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

图像分类是计算机视觉技术的一个重要应用，图像分类的目标可以是人脸、猫、狗或特定的其他对象。在相关技术提供的方案中，通常是通过图像分类模型来实现图像分类，在模型训练的阶段，通常会设置直接约束模型参数的正则化项，从而限制模型的表达能力，避免模型在训练阶段中出现过拟合的情况。但是，随着模型规模的扩大和参数的增加，通过传统的正则化项进行正则化的效果差，导致进行图像分类的精度低。

发明内容

本发明实施例提供一种基于人工智能的图像分类方法、装置、电子设备及计算机可读存储介质，能够提升对模型的正则化效果，并提升根据训练后的模型进行图像分类的精度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的图像分类方法，包括：

从视频集中确定与图像分类模型的目标分类标签对应的正则化视频；

对所述正则化视频进行镜头切分处理，得到至少一个视频流；

通过所述图像分类模型，对所述视频流中的图像进行前馈处理，得到特征向量；

根据所述视频流中设定数量的图像对应的特征向量，建立连续性约束；所述连续性约束用于约束所述设定数量的图像对应的特征向量之间的连续关系；

根据所述连续性约束在所述图像分类模型中进行反向传播，并在反向传播的过程中，更新所述图像分类模型的权重参数；

根据更新后的所述图像分类模型，确定待分类图像中所包括内容的分类结果。

本发明实施例提供一种基于人工智能的图像分类装置，包括：

视频确定模块，用于从视频集中确定与图像分类模型的目标分类标签对应的正则化视频；

镜头切分模块，用于对所述正则化视频进行镜头切分处理，得到至少一个视频流；

前馈处理模块，用于通过所述图像分类模型，对所述视频流中的图像进行前馈处理，得到特征向量；

约束建立模块，用于根据所述视频流中设定数量的图像对应的特征向量，建立连续性约束；所述连续性约束用于约束所述设定数量的图像对应的特征向量之间的连续关系；

更新模块，用于根据所述连续性约束在所述图像分类模型中进行反向传播，并在反向传播的过程中，更新所述图像分类模型的权重参数；

分类模块，用于根据更新后的所述图像分类模型，确定待分类图像中所包括内容的分类结果。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的图像分类方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的图像分类方法。

本发明实施例具有以下有益效果：

通过确定正则化视频，对正则化视频中的视频流进行前馈处理得到特征向量，并根据特征向量建立连续性约束，从而约束视频流中的图像对应的特征向量连续变化，能够提升模型输出的平滑性，减少模型过拟合现象的发生，从而当设备在各种场景中使用更新后的图像分类模型进行图像分类时，能够实现图像分类的精度的显著提升。

附图说明

图1是本发明实施例提供的图像分类系统的一个可选的架构示意图；

图2是本发明实施例提供的服务器的一个可选的架构示意图；

图3是本发明实施例提供的基于人工智能的图像分类装置的一个可选的架构示意图；

图4A是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图；

图4B是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图；

图4C是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图；

图4D是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图；

图5是本发明实施例提供的根据更新后的图像分类模型进行图像分类的一个可选的流程示意图；

图6是本发明实施例提供的训练图像分类模型的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)正则化：广泛应用于机器学习和深度学习中的技术，通过正则化，可以改善过拟合的状况，降低结构风险，提高模型的泛化能力，其中，通常是通过构建正则化项来实现正则化。

2)镜头：视频通常由一个以上的镜头构成，每一个镜头对应一段视频流，在每一个镜头内，视频内容通常是连续变化的。

3)前馈处理：也称前向传播，指将输入参数输入至模型后，通过模型的逐层处理，直至得到最后一个层的输出参数的过程。例如在神经网络模型中，前馈处理是指从输入层开始逐层向前传播，经过隐藏层最终到达输出层的过程。

4)反向传播：指在得到模型的输出参数后，计算模型中每一层的权重参数对输出参数的影响，并基于梯度下降的原理，更新模型中各个层的权重参数的过程。

5)连续性约束：用于约束特征向量之间的连续关系，使得特征向量的变化更为平滑。

6)目标分类标签：指与图像分类模型的分类目标对应的分类标签，例如分类目标为识别出人脸图像，则目标分类标签为人脸对应的标签。

图像分类通常是通过图像分类模型来实现的，在模型训练的阶段，通常会会图像分类模型进行正则化，从而加强图像分类模型的训练效果，以提高图像分类的精度。在相关技术提供的方案中，通常是建立直接对图像分类模型的权重参数进行约束的正则化项，来进行正则化。例如，在L2正则化中，是在模图像分类型的目标函数中添加一项模型权重参数的二范数项，并在图像分类模型的训练阶段，约束二范数项的值不要过大，从而避免模型过拟合。该正则化项的先验假设为：只要权重参数处在一个正常的较小的范围内，图像分类模型就不会过拟合。该先验假设在模型较小时，往往会有比较好的效果，因为正则化项直接限制了图像分类模型的表达能力，然而，随着计算机处理能力的增强，图像分类模型的规模也越来越大，现今某些图像分类模型的网络层数能达到几十层甚至几百层，每层最多又有成千上万个权重参数，因此，通过传统的正则化方式进行模型正则化的效果较差，不利于提升图像分类模型的精确率和召回率。

下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以是服务器，例如部署在云端的服务器，根据用户提交的待分类图像，向用户提供远程的图像分类功能，即确定待分类图像中所包括内容的分类结果；也可以是终端设备，例如人脸识别设备，通过图像分类得到的分类结果，判断图像中是否包括人脸；甚至可以是手持终端等设备。

电子设备通过运行本发明实施例提供的图像分类的方案，可以提升对模型的正则化效果和根据训练后的模型进行图像分类的精度，即提高电子设备自身的图像分类性能，适用于图像分类的多个应用场景。例如，在人脸识别的场景中，通过图像分类模型提升电子设备进行人脸识别的精度，降低误判率；又如在车辆识别场景中，电子设备可更准确地识别出监控图像中的车辆，实现精准地目标识别。

参见图1，图1是本发明实施例提供的图像分类系统100的一个可选的架构示意图，为实现支撑一个图像分类应用，终端设备400(示例性示出了终端设备400-1和终端设备400-2)通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端设备400可在本地执行本发明实施例提供的基于人工智能的图像分类方法，根据更新后的图像分类模型，对获取到的待分类图像进行分类，得到待分类图像中所包括内容的分类结果。例如，在人脸识别场景中，终端设备400通过分类结果确定待分类图像中是否包括人脸，并执行与分类结果对应的操作，例如在待分类图像包括人脸时，终端设备400执行解锁进入桌面的操作；在车辆识别场景中，终端设备400可对某路口的监控图像进行图像分类，根据得到的分类结果，进一步分析该路口的车辆拥堵情况。值得说明的是，对于训练图像分类模型所需的视频集，终端设备400可从本地获取，也可通过网络300向服务器200发送请求，从而从数据库500中获取网络视频集。

除此之外，服务器200也可以执行本发明实施例提供的基于人工智能的图像分类方法，具体从终端设备400和/或数据库500中获取视频集，从而进行对图像分类模型的训练。服务器200可以接收终端设备400发送的待分类图像，根据更新后的图像分类模型，确定待分类图像中所包括内容的分类结果，并将分类结果发送至终端设备400。

终端设备400可以在图形界面410(示例性示出了图形界面410-1和图形界面410-2)中显示图像分类过程中的各种结果，例如待分类图像中所包括内容的分类结果等，在图1中仅以分类结果为包括人脸为例。

下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为人脸识别设备、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端设备，也可以实施为服务器。

下面，以电子设备为服务器为例进行说明。参见图2，图2是本发明实施例提供的服务器200(例如，可以是图1所示的服务器200)的架构示意图，图2所示的服务器200包括：至少一个处理器210、存储器240和至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解，总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统230。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器240可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器240可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器240包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器240旨在包括任意适合类型的存储器。

在一些实施例中，存储器240能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统241，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块242，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本发明实施例提供的基于人工智能的图像分类装置可以采用软件方式实现，图2示出了存储在存储器240中的基于人工智能的图像分类装置243，其可以是程序和插件等形式的软件，包括以下软件模块：视频确定模块2431、镜头划分模块2432、前馈处理模块2433、约束建立模块2434、更新模块2435及分类模块2436，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的基于人工智能的图像分类装置可以采用硬件方式实现，作为示例，本发明实施例提供的基于人工智能的图像分类装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的图像分类方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrate d Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

本发明实施例提供的基于人工智能的图像分类方法可以由上述的服务器执行，也可以由终端设备(例如，可以是图1所示的终端设备400-1和终端设备400-2)执行，或者由服务器和终端设备共同执行。

下面将结合上文记载的电子设备的示例性应用和结构，说明电子设备中通过嵌入的基于人工智能的图像分类装置，而实现基于人工智能的图像分类方法的过程。

参见图3和图4A，图3是本发明实施例提供的基于人工智能的图像分类装置243的架构示意图，示出了通过一系列模块更新图像分类模型的流程，图4A是本发明实施例提供的基于人工智能的图像分类方法的流程示意图，将结合图3对图4A示出的步骤进行说明。

在步骤101中，从视频集中确定与图像分类模型的目标分类标签对应的正则化视频。

作为示例，参见图3，在视频确定模块2431中，获取包括多个视频的视频集，其中，可以通过访问网络获取外部的视频集，例如获取某个视频网站的视频集，也可以获取本地存储的视频集。对于获取到的视频集，从其中确定出与图像分类模型的目标分类标签对应的视频，为了便于区分，将目标分类标签对应的视频命名为正则化视频。目标分类标签与图像分类模型的分类目标相关，例如图像分类模型的分类目标是识别出人脸，则目标分类标签是与人脸对应的标签。值得说明的是，本发明实施例对图像分类模型的类型不做限定，例如图像分类模型可以是感知向量机模型或随机森林模型，也可以是深度学习模型，例如卷积神经网络模型等。

在一些实施例中，可以通过这样的方式来实现上述的从视频集中确定与图像分类模型的目标分类标签对应的正则化视频：当视频集中的视频具有标签时，将视频集中具有图像分类模型的目标分类标签的视频，确定为正则化视频；当视频集中的视频未具有标签时，通过图像分类模型对视频集的每个视频中的图像进行预测处理，得到图像对应目标分类标签的预测概率；将每个视频中预测概率超过筛选概率阈值的图像确定为相关图像，并确定每个视频中相关图像的比例；将视频集中相关图像的比例超过比例阈值的视频，确定为正则化视频。

根据获取的视频集中的视频是否具有标签，执行不同的筛选正则化视频的操作。具体地，在视频集中的视频具有标签时，将视频集中具有图像分类模型的目标分类标签的视频，确定为正则化视频。以人脸识别的场景举例，图像分类模型中有包括人脸的标签和不包括人脸的标签，则将视频集中具有包括人脸的标签的视频，确定为正则化视频。通过标签筛选的方式，能够较为快速地得到正则化视频。

对于另一种情况，即视频集中的视频不具有标签时，通过图像分类模型对视频集的每个视频中的各帧图像进行预测处理，得到图像对应目标分类标签的预测概率。当某个图像对应目标分类标签的预测概率超过筛选概率阈值时，将该图像确定为相关图像。然后，将视频集中相关图像的比例超过比例阈值的视频，确定为正则化视频，相关图像的比例是指视频中的相关图像的帧数/视频中的图像总帧数。同样以人脸识别的场景举例说明，通过图像分类模型对图像进行预测处理后，得到图像对应包括人脸的标签的预测概率，例如该预测概率为60％，则表示该图像有60％的概率包括人脸。通过筛选概率阈值确定出相关图像后，将相关图像的比例超过比例阈值的视频，确定为正则化视频，比例阈值如70％，可根据实际应用场景进行设定。当然，图像分类模型的目标分类标签也可能存在多个，即对应多分类的场景，对于该情况，可对每个目标分类标签设置一个筛选概率阈值。

值得说明的是，筛选概率阈值通常设定得比图像分类时的概率阈值更小，比如包括人脸的标签对应的数值为1，不包括人脸的标签对应的数值为0，在进行图像分类时，将概率阈值设置为50％，即当某图像对应包括人脸的标签的预测概率超过50％时，即确定该图像包括人脸。此时，可以将筛选概率阈值设置为10％，即当某图像对应包括人脸的标签的预测概率超过10％时，即确定该图像为相关图像，这样设定的目的是提升得到的正则化视频的数量和多样性，以在后续训练过程中提升图像分类模型的泛化能力。

在步骤102中，对正则化视频进行镜头切分处理，得到至少一个视频流。

作为示例，参见图3，在镜头切分模块2432中，由于视频通常由至少一个镜头构成，故对正则化视频进行镜头切分处理，得到至少一个镜头，每一个镜头对应一个视频流。例如经镜头切分处理后，得到图3所示的视频流1、视频流2、……视频流M，这里的M为大于2的整数。

在步骤103中，通过图像分类模型，对视频流中的图像进行前馈处理，得到特征向量。

作为示例，参见图3，在前馈处理模块2433中，对于每个正则化视频中的视频流，通过图像分类模型对视频流中的图像进行前馈处理，即从输入层开始逐层向前传播，得到图像对应的特征向量。

在步骤104中，根据视频流中设定数量的图像对应的特征向量，建立连续性约束；连续性约束用于约束设定数量的图像对应的特征向量之间的连续关系。

作为示例，参见图3，在约束建立模块2434中，由于在一个视频流内，其视频内容通常是连续变化的，故根据视频流中设定数量的图像对应的特征向量，建立连续性约束，该连续性约束用于约束设定数量的图像对应的特征向量之间的连续关系，即尽量使特征向量平滑变化，从而避免过拟合现象的发生。其中，设定数量可为至少三帧。

在步骤105中，根据连续性约束在图像分类模型中进行反向传播，并在反向传播的过程中，更新图像分类模型的权重参数。

作为示例，参见图3，在更新模块2435中，根据得到的连续性约束，沿前馈处理相反的方向在图像分类模型中进行传播，并在传播过程中，沿梯度下降方向更新图像分类模型的权重参数，以使得连续性约束的值尽量小。这里，可设定更新图像分类模型的停止条件，当满足停止条件时，确定图像分类模型更新完成，例如达到设定的迭代次数，或相邻迭代轮的连续性约束之间的差异小于设定的停止阈值等。

在步骤106中，根据更新后的图像分类模型，确定待分类图像中所包括内容的分类结果。

作为示例，参见图3，在分类模块2436中，在完成对图像分类模型的更新后，根据图像分类模型进行图像分类的准确率和召回率提升，可将图像分类模型用于对待分类图像的分类处理，得到待分类图像中所包括内容的分类结果，具体可应用于图像分类的不同场景。例如在人脸识别的场景中，通过图像分类模型识别待分类图像中是否包括人脸，从而执行对应的操作，例如在待分类图像包括人脸时，执行打开门禁或者解锁进入移动终端的桌面的操作。又例如，在车辆识别的场景中，通过图像分类模型识别某路口的监控图像中是否包括车辆，从而记录该路口的车辆通行情况，便于相关人员分析该路口不同时段的拥塞状况。

通过发明实施例对于图4A的上述示例性实施可知，本发明实施例通过镜头划分的方式，确定出包括连续内容的视频流，并根据视频流对应的特征向量建立连续性约束，从而更新图像分类模型，提升了对图像分类模型的正则化效果，使图像分类模型输出的特征向量更加平滑，也提升了训练后的图像分类模型的准确率和召回率。

在一些实施例中，参见图4B，图4B是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图，图4A示出的步骤102可以通过步骤201至步骤203实现，将结合各步骤进行说明。

在步骤201中，遍历正则化视频中的各帧图像，并确定遍历到的图像与下一帧图像之间的相似度。

作为示例，参见图3，在镜头切分模块2432中，可以根据图像之间的相似度，来进行镜头切分，具体地，对于视频集中的每个正则化视频，遍历正则化视频中的各帧图像，例如从正则化视频的视频起点开始进行遍历，并确定遍历到的图像与下一帧图像之间的相似度。

在一些实施例中，可以通过这样的方式来实现上述的确定遍历到的图像与下一帧图像之间的相似度：执行以下任意一种处理，以得到遍历到的图像与下一帧图像之间的相似度：确定遍历到的图像的第一灰度直方图，确定下一帧图像的第二灰度直方图，并将第一灰度直方图与第二灰度直方图之间的相似度，确定为遍历到的图像与下一帧图像之间的相似度；对遍历到的图像进行感知哈希处理得到第一哈希值，对下一帧图像进行感知哈希处理得到第二哈希值，并将第一哈希值与第二哈希值之间的相似度，确定为遍历到的图像与下一帧图像之间的相似度。

本发明实施例提供了两种确定图像相似度的方式，但应获知的是，除了示出的两种方式外，其他的计算图像相似度的方式也可应用于本发明实施例中。在第一种方式中，确定遍历到的图像的第一灰度直方图，同时确定下一帧图像的第二灰度直方图，其中，灰度直方图可以理解为灰度级的函数，它表示图像中具有某种灰度级的像素的个数，反映了图像中某种灰度出现的频率。然后，确定第一灰度直方图与第二灰度直方图之间的相似度，例如通过巴氏系数算法计算两个灰度直方图之间的相似度，并将两个灰度直方图之间的相似度，确定为遍历到的图像与下一帧图像之间的相似度。

在第二种方式中，通过感知哈希算法(pHash，Perceptual Hash algorithm)对遍历到的图像进行感知哈希处理得到第一哈希值，对下一帧图像进行同样的感知哈希处理得到第二哈希值。然后，计算第一哈希值与第二哈希值之间的相似度，例如计算第一哈希值与第二哈希值之间的汉明距离，汉明距离越小，则代表第一哈希值与第二哈希值之间的相似度越大。将计算出的第一哈希值与第二哈希值之间的相似度，确定为遍历到的图像与下一帧图像之间的相似度。根据实际应用场景，可应用上文两种方式中的任意一种，得到遍历到的图像与下一帧图像之间的相似度。

在步骤202中，当相似度超过相似度阈值时，将下一帧图像添加至遍历到的图像所在的视频流。

这里，通过设定相似度阈值，判断两个图像是否具有连续内容，相似度阈值为80％。具体地，当相似度超过设定的相似度阈值时，将下一帧图像添加至遍历到的图像所在的视频流，并继续进行遍历。

在步骤203中，当相似度未超过相似度阈值时，将下一帧图像添加至新的视频流。

当相似度未超过相似度阈值时，证明遍历到的图像的内容与下一帧图像的内容差异较大，故将下一帧图像添加至新的视频流，并继续进行遍历。

此外，在得到正则化视频中的视频流之后，可对异常的视频流进行过滤，例如当某视频流包括的图像帧数过少，如仅包括一帧或两帧图像时，后续无法根据该视频流建立连续性约束，则可删除该视频流，以避免处理资源的浪费。

在图4B中，图4A示出的步骤103可更新为步骤204，在步骤204中，通过图像分类模型，对视频流中的图像进行前馈处理，得到图像分类模型中的设定网络层输出的特征向量。

在图像分类模型为神经网络模型的情况下，确定将视频流中的图像输入至图像分类模型后，图像分类模型中的设定网络层输出的特征向量。这里的设定网络层可为一层或至少两层。

在一些实施例中，可以通过这样的方式来实现上述的通过图像分类模型，对视频流中的图像进行前馈处理，得到图像分类模型中的设定网络层输出的特征向量：通过图像分类模型的设定网络层，对待处理对象进行特征提取处理，得到至少两个二维特征图；对二维特征图进行平均处理得到图平均值，并将各图平均值组合为设定网络层输出的特征向量；其中，待处理对象为视频流中的图像或设定网络层的上一个网络层输出的特征。

当设定网络层包括图像分类模型的全连接层时，由于全连接层的输出即为向量形式，故可直接获取特征向量。但是，当设定网络层包括图像分类模型的中间层(中间层通常为全连接层之前的网络层)时，由于中间层的输出并不是向量形式，故无法直接获取。对于该种情况，对中间层的输出进行进一步处理，具体地，通过中间层对待处理对象进行特征提取处理，得到由至少两个二维特征图叠加在一起构成的特征，其中，当中间层是输入层时，待处理对象为视频流中的图像；当中间层为输入层与全连接层中间的层时，待处理对象为中间层的上一个网络层输出的特征。对得到的每个二维特征图进行平均处理得到图平均值，并将中间层对应的所有图平均值，组合为中间层输出的特征向量，便于后续建立连续性约束。通过上述方式，提升了获取特征向量的适用性，适用于不同类型的设定网络层。

在图4B中，图4A示出的步骤104可以通过步骤205至步骤206实现，将结合各步骤进行说明。

在步骤205中，当设定网络层仅包括一个网络层时，对设定网络层输出的、且与视频流中设定数量的图像对应的特征向量进行拟合处理，得到连续性约束；其中，拟合处理的方式包括线性拟合及非线性拟合。

在本发明实施例中，设定网络层可以仅包括一个网络层，此时，对于每一个视频流，对设定网络层输出的、且与视频流中设定数量的图像对应的特征向量进行拟合处理，得到连续性约束。这里，拟合处理的方式包括线性拟合及非线性拟合，线性拟合即为直线拟合，非线性拟合即为曲线拟合，可根据实际应用场景确定拟合的具体方式。

在步骤206中，当设定网络层包括至少两个网络层时，对各网络层输出的、且与视频流中设定数量的图像对应的特征向量分别进行拟合处理，得到各网络层对应的子连续性约束，并对各子连续性约束进行求和处理，得到连续性约束。

设定网络层也可以仅包括至少两个网络层，此时，对于设定网络层包括的每个网络层，对该网络层输出的、且与视频流中设定数量的图像对应的特征向量进行拟合处理，得到该网络层对应的子连续性约束。然后，对设定网络层对应的所有子连续性约束进行求和处理，得到连续性约束。使用这种方式得到的连续性约束是多尺度的连续性约束，是根据至少两个网络层的输出共同建立的，有利于加强对图像分类模型的优化效果。

通过发明实施例对于图4B的上述示例性实施可知，本发明实施例通过计算相邻帧图像之间的相似度，从而判断是否将相邻帧图像划分至同一个视频流，提升了镜头划分的准确性；通过获取设定网络层输出的特征向量，从而构建单尺度或多尺度的连续性约束，提升模型训练的灵活性和对于设定网络层的针对性。

在一些实施例中，参见图4C，图4C是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图，图4A示出的步骤103可以通过步骤301至步骤302实现，将结合各步骤进行说明。

在步骤301中，对视频流进行抽帧处理，得到至少三个正则化图像。

由于在视频流中，一秒钟一般会有几十帧图像，因此，采用抽帧处理的方式，从视频流中均匀抽取少量帧的图像，抽帧频率可根据实际应用场景进行设定，如在视频流中的每一秒中抽取三帧。将抽帧处理得到的图像命名为正则化图像，通常来说，建立连续性约束需要至少三个正则化图像。抽帧处理的一个作用在于减少需要处理的数据量，另一个作用在于避免根据包括相同内容的图像建立连续性约束，对于一个视频流来说，通过抽帧处理，能够使得到的正则化图像在内容相近的基础上，存在一定内容变化。

在步骤302中，通过图像分类模型，对正则化图像进行前馈处理，得到特征向量。

这里，通过图像分类模型对得到的每个正则化图像进行前馈处理，得到正则化图像对应的特征向量。

在图4C中，图4A示出的步骤104可更新为步骤303，在步骤303中，对至少三个正则化图像中设定数量的、且相邻的正则化图像对应的特征向量进行拟合处理，得到连续性约束；其中，拟合处理的方式包括线性拟合及非线性拟合。

这里的相邻是指抽帧处理之后得到的相邻关系，例如某视频流中包括图像1、图像2、……图像10，抽帧处理后，图像1、图像5及图像10成为了正则化图像，则图像1、图像5及图像10为三个相邻的正则化图像。对于相邻的正则化图像，其图像内容的相近程度越高，内容变化较为平滑，故将至少三个正则化图像中设定数量的、且相邻的正则化图像对应的特征向量进行拟合处理，得到连续性约束，同样地，拟合处理的方式包括线性拟合及非线性拟合。

在一些实施例中，可以通过这样的方式来实现上述的对至少三个正则化图像中设定数量的、且相邻的正则化图像对应的特征向量进行拟合处理，得到连续性约束：执行以下任意一种处理以得到连续性约束：依次确定相邻的K个正则化图像，并对K个正则化图像对应的特征向量进行拟合处理，得到连续性约束；依次确定相邻的N个正则化图像，对N个正则化图像中相邻的K个正则化图像对应的特征向量进行拟合处理，得到子连续性约束，并对至少两个子连续性约束进行求和处理，得到N个正则化图像对应的连续性约束；其中，K为大于2的整数，N为大于K的整数。

举例来说，上文的设定数量可为K，K为大于2的整数。在建立连续性约束时，一种方式是依次确定相邻的K个正则化图像，并对K个正则化图像对应的特征向量进行拟合处理，得到连续性约束。举例来说，若K＝3，对某视频流进行抽帧处理得到的正则化图像包括图像1、图像5及图像10，则可直接对这三个图像对应的特征向量进行拟合处理，得到连续性约束。

另一种方式是，依次确定相邻的N个正则化图像，其中，N大于K。然后，对N个正则化图像中相邻的K个正则化图像对应的特征向量进行拟合处理，得到子连续性约束，并对得到的所有子连续性约束进行求和处理，得到N个正则化图像对应的连续性约束。举例来说，若K＝3，N＝4，对某视频流进行抽帧处理得到的正则化图像包括图像1、图像5、图像10及图像15，则可对图像1、图像5及图像10对应的特征向量进行拟合处理，得到第一个子连续性约束；对图像5、图像10及图像15对应的特征向量进行拟合处理，得到第二个子连续性约束。将两个子连续性约束进行求和处理，得到4个正则化图像对应的连续性约束。根据实际应用场景，可应用两种方式的任意一种建立连续性约束，提升建立连续性约束的灵活性。

通过发明实施例对于图4C的上述示例性实施可知，本发明实施例通过抽帧处理得到正则化图像，并根据相邻的正则化图像建立连续性约束，由于相邻正则化图像在内容变化上较为平滑，故可提升建立的连续性约束的准确性。

在一些实施例中，参见图4D，图4D是本发明实施例提供的基于人工智能的图像分类方法的一个可选的流程示意图，基于图4A，在步骤101之后，还可以在步骤401中，获取包括样本图像及样本标签的训练集。

在根据连续性约束训练图像分类模型之前，可以根据训练集对图像分类模型进行预训练，以使预训练后的图像分类模型的权重参数处于一个合理范围内，再通过连续性约束对权重参数进行精调。在预训练的阶段，首先获取训练集，训练集包括样本图像及已标注的样本标签。为了便于理解，以人脸识别的场景进行举例说明，则训练集中存在包括人脸的样本图像及对应的包括人脸的标签，还存在不包括人脸的样本图像及对应的不包括人脸的标签，其中，包括人脸的标签对应的数值可为1，不包括人脸的标签对应的数值可为0。

在步骤402中，通过图像分类模型，对样本图像进行预测处理，得到样本图像对应的预测标签。

这里，通过图像分类模型，对样本图像进行预测处理，得到对应包括人脸的标签的预测概率。当对应包括人脸的标签的预测概率超过设定的概率阈值，如50％时，确定样本图像的预测标签为包括人脸的标签。当然，除了阈值比对的方式，还可确定样本图像对应每一个分类标签的预测概率，将数值最大的预测概率对应的分类标签，确定为样本图像的预测标签。

在步骤403中，根据样本图像对应的样本标签和预测标签，确定图像分类模型的损失值。

这里，根据图像分类模型的损失函数，对样本图像对应的样本标签和预测标签进行处理，得到损失值，该损失值用于表示样本标签与预测标签之间的差异，其中，损失函数可为交叉熵损失函数。

在步骤404中，根据损失值在图像分类模型中进行反向传播，并在反向传播的过程中，更新图像分类模型的权重参数。

根据得到的损失值，在图像分类模型中进行反向传播，并在反向传播的过程中，更新图像分类模型的权重参数，直到满足设定的预训练停止条件为止。预训练停止条件如设定的预训练迭代次数或设定的准确率阈值。

在一些实施例中，可以通过这样的方式来实现上述的根据连续性约束在图像分类模型中进行反向传播：对损失值及连续性约束进行融合处理，得到融合约束；根据融合约束在图像分类模型中进行反向传播。

在本发明实施例中，可以根据先进行预训练，再进行精调的顺序来实现权重参数的更新，在精调阶段，可以仅根据视频集构建连续性约束，从而进行更新，也可以根据视频集和训练集，共同进行更新。对于后一种情况，将训练集中的样本图像及视频流中的图像共同输入至图像分类模型，并对得到的损失值及连续性约束进行融合处理，得到融合约束，融合约束即相当于模型的目标函数。值得说明的是，这里的图像分类模型是经过预训练后得到的模型，此外，融合处理可以是求和处理，也可以是其他如加权求和的方式。然后，根据融合约束在图像分类模型中进行反向传播，并在反向传播的过程中，沿梯度下降方向更新图像分类模型各个层的权重参数。通过上述方式，可根据训练集及视频集同时训练图像分类模型，提升模型训练的效果。

通过发明实施例对于图4D的上述示例性实施可知，本发明实施例通过训练集对图像分类模型进行预训练，使图像分类模型的权重参数处于一个合理的范围内，降低了精调阶段的训练难度，提升了训练效果。

参见图5，图5是本发明实施例提供的根据更新后的图像分类模型进行图像分类的一个可选的流程示意图，结合图1，以电子设备部署在云端的情况，示出了通过一系列步骤实现图像分类的过程，将结合图5示出的步骤进行说明。

在步骤501中，终端设备将待分类图像发送至服务器。

这里，待分类图像可以是终端设备实时拍摄的图像，可以是位于终端设备的本地存储的图像，也可以是终端设备获取的网络图像。例如，终端设备是门禁设备，实时或间隔地将拍摄的门口图像发送至服务器，以使服务器识别门口图像中是否包括人脸；又如，终端设备是路口监控设备，实时或间隔地将拍摄的路口图像发送至服务器，以使服务器识别路口图像中的车辆。

在步骤502中，服务器通过更新后的图像分类模型，对待分类图像进行预测处理，得到与图像分类模型的分类标签对应的预测概率。

例如，服务器通过步骤101～步骤105得到更新后的图像分类模型，并根据更新后的图像分类模型对收到的待分类图像进行预测处理，得到与图像分类模型的分类标签对应的预测概率。通常来说，图像分类场景可包括二分类场景和多分类场景，在二分类场景中，图像分类模型仅包括两个分类标签，如包括人脸的标签和不包括人脸的标签；在多分类场景中，图像分类模型包括多个分类标签，如包括人脸的标签、包括猫的标签及包括狗的标签等。

在步骤503中，服务器从至少两个预测概率中确定数值最大的预测概率。

预测概率越大，表示待分类图像中所包括内容属于对应的分类标签的可能性越大。在步骤502中得到与每个分类标签对应的预测概率的基础上，服务器确定数值最大的预测概率。

在步骤504中，服务器根据数值最大的预测概率对应的分类标签，确定待分类图像中所包括内容的分类结果。

这里，服务器将数值最大的预测概率对应的分类标签所表示的分类结果，确定为待分类图像中所包括内容的分类结果。举例来说，服务器对待分类图像进行预测处理后，得到对应包括人脸的标签的预测概率为70％，对应不包括人脸的标签的预测概率为30％，则确定待分类图像中所包括内容的分类结果是包括人脸。

在步骤505中，服务器将分类结果发送至终端设备。

这里，服务器可以将分类结果与待分类图像建立映射关系，并保存在数据库中，也可以将分类结果发送至终端设备，以便终端设备根据分类结果执行后续操作。举例来说，在终端设备是门禁设备时，若终端设备接收到的分类结果是门口图像中包括人脸，则执行开启门禁的操作。又如，在终端设备是路口监控设备时，若终端设备接收到的分类结果是路口图像中包括车辆，则在本地日志中保存该分类结果，以待相关人员根据本地日志进行分析，或者直接通过特定的分析算法，对不同时段的路口图像的分类结果进行分析，得到不同时段的车辆通行频率及车辆拥塞状况等。

通过发明实施例对于图5的上述示例性实施可知，本发明实施例通过图像分类模型进行图像分类，提升了得到的分类结果的准确性，适用于图像分类的各种应用场景。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例提供了如图6所示的训练图像分类模型的示意图，图6示出的特征提取网络即对应上文的图像分类模型，该特征提取网络可以是一个基于卷积神经网络的分类器，例如一个识别猫和狗的分类器，又例如一个识别人脸的分类器。为了便于理解，以人脸识别的场景，说明对图像分类模型的训练过程。

1)从视频集中确定正则化视频。

在该步骤中，获取外部视频集，若外部视频集中的视频具有标签，则直接将标签与图像分类模型的目标分类标签一致的视频，确定为正则化视频。在人脸识别场景中，目标分类标签为包括人脸的标签。

若外部视频集中的视频不具有标签，则可通过预训练后的图像分类模型，对视频中的图像进行预测处理，得到图像对应目标分类标签的预测概率。将预测概率超过筛选概率阈值的图像确定为相关图像，并将相关图像所占的比例超过比例阈值的视频，确定为正则化视频，其中，筛选概率阈值和比例阈值可根据实际应用场景进行设定，如比例阈值可设定为70％，在包括人脸的标签对应的数值为1，不包括人脸的标签对应的数值为0的情况下，筛选概率阈值可设定为10％。

2)对正则化视频进行镜头切分和抽帧处理，以建立连续性约束。在模型的目标函数里添加连续性约束，在预训练好的图像分类模型的基础上继续进行模型训练。

只有对于包括连续内容的图像来说，约束其对应特征空间的连续性才有意义。因此，在得到正则化视频后，计算正则化视频中相邻帧图像之间的相似度，若相似度超过相似度阈值，则将相邻帧图像归入一个镜头。根据该方式，将正则化视频切分为多个镜头，如图6所示的镜头1、镜头2、……镜头M，其中的每一个镜头对应一段连续的视频内容，即对应一个视频流，该视频流中不存在画面内容突变的情况，另外，M为大于2的整数。对于得到的视频流来说，通常一秒钟内存在几十帧图像，故对视频流进行抽帧处理，从每秒钟的视频流中均匀抽取少量帧的图像，如图6中所示的图像61、图像62及图像63，其中，图像61、图像62及图像63对应上文的正则化图像，抽帧处理可以为等间距抽帧。

将抽帧处理得到的图像输入至特征提取网络，即图像分类模型中，得到图像分类模型输出的与图像61对应的特征向量f₁、与图像62对应的特征向量f₂及与图像63对应的特征向量f₃。这里，对特征向量施加连续性约束，例如可通过线性拟合或非线性拟合的方式来得到连续性约束。举例来说，在线性拟合中，可假设3个特征向量线性相关，即其中一个特征向量可以用其他两个特征向量的平均值来表示。若特征向量满足该连续性假设，即有f₂＝(f₁+f₃)/2，则连续性约束可以表示为L_r＝||(f₁+f₃)/2－f₂||_n，其中，n＝1时表示1范数，n＝2时表示2范数。当然，也可以采用非线性拟合的方式来得到连续性约束，例如在抽帧处理得到t个连续的图像后，对于t个连续图像对应的特征向量中每一个维度，采用多项式拟合的方式来进行拟合，从而得到连续性约束，其中，t为大于2的整数。在得到连续性约束后，将连续性约束添加至目标函数，通过最小化目标函数，从而尽量让包括连续内容的图像对应的特征向量连续变化，如此，提升模型输出的平滑性，减少模型过拟合现象的发生，提高模型的准确率和召回率。

值得说明的是，以上仅为计算连续性约束的一个示例性说明，根据实际应用场景的不同，可采用其他方式计算连续性约束。例如，可以通过抽帧处理得到4个图像，并按抽帧顺序依次抽取3个图像来构建连续性约束，即通过4个图像中的前3个图像构建一个子连续性约束，通过后3个图像构建另一个子连续性约束，然后将两个子连续性约束进行求和，得到最终的连续性约束。

另外，在上述建立连续性约束的例子中，使用的是图像分类模型最终输出的特征向量，以卷积神经网络为例，采用的是最后一个网络层(即全连接层)的响应值来建立连续性约束，响应值即为网络层的输出结果。但实际上，可以根据图像分类模型中任意网络层的响应值，来建立连续性约束，在使用多个网络层的响应值的情况下，可构建多尺度连续性约束，即是将各网络层对应的子连续性约束进行求和，得到最终的连续性约束。值得说明的是，对于卷积神经网络的中间层，其输出是多个二维特征图叠加在一起的形式，若要提取特征向量，则可对每一个二维特征图计算其整图的平均值，并将各平均值组合为特征向量，该特征向量的长度等同于二维特征图的个数。

3)训练一定轮数后，重复步骤1)至步骤2)。其中，对于步骤1)，使用新训练好的图像分类模型来对视频集进行预测处理，以从中确定出正则化视频。

4)重复步骤1)至步骤3)R次后，完成图像分类模型的训练，其中，R为大于0的整数，可根据实际应用场景进行设定。

下面继续说明本发明实施例提供的基于人工智能的图像分类装置243实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的基于人工智能的图像分类装置243中的软件模块可以包括：视频确定模块2431，用于从视频集中确定与图像分类模型的目标分类标签对应的正则化视频；镜头切分模块2432，用于对正则化视频进行镜头切分处理，得到至少一个视频流；前馈处理模块2433，用于通过图像分类模型，对视频流中的图像进行前馈处理，得到特征向量；约束建立模块2434，用于根据视频流中设定数量的图像对应的特征向量，建立连续性约束；连续性约束用于约束设定数量的图像对应的特征向量之间的连续关系；更新模块2435，用于根据连续性约束在图像分类模型中进行反向传播，并在反向传播的过程中，更新图像分类模型的权重参数；分类模块2436，用于根据更新后的图像分类模型，确定待分类图像中所包括内容的分类结果。

在一些实施例中，视频确定模块2431，还用于：当视频集中的视频具有标签时，将视频集中具有图像分类模型的目标分类标签的视频，确定为正则化视频；当视频集中的视频未具有标签时，通过图像分类模型对视频集的每个视频中的图像进行预测处理，得到图像对应目标分类标签的预测概率；将每个视频中预测概率超过筛选概率阈值的图像确定为相关图像，并确定每个视频中相关图像的比例；将视频集中相关图像的比例超过比例阈值的视频，确定为正则化视频。

在一些实施例中，镜头切分模块2432，还用于：遍历正则化视频中的各帧图像，并确定遍历到的图像与下一帧图像之间的相似度；当相似度超过相似度阈值时，将下一帧图像添加至遍历到的图像所在的视频流；当相似度未超过相似度阈值时，将下一帧图像添加至新的视频流。

在一些实施例中，镜头切分模块2432，还用于：执行以下任意一种处理，以得到遍历到的图像与下一帧图像之间的相似度：确定遍历到的图像的第一灰度直方图，确定下一帧图像的第二灰度直方图，并将第一灰度直方图与第二灰度直方图之间的相似度，确定为遍历到的图像与下一帧图像之间的相似度；对遍历到的图像进行感知哈希处理得到第一哈希值，对下一帧图像进行感知哈希处理得到第二哈希值，并将第一哈希值与第二哈希值之间的相似度，确定为遍历到的图像与下一帧图像之间的相似度。

在一些实施例中，前馈处理模块2433，还用于：对视频流进行抽帧处理，得到至少三个正则化图像；通过图像分类模型，对正则化图像进行前馈处理，得到特征向量；

约束建立模块2434，还用于：对至少三个正则化图像中设定数量的、且相邻的正则化图像对应的特征向量进行拟合处理，得到连续性约束；其中，拟合处理的方式包括线性拟合及非线性拟合。

在一些实施例中，约束建立模块2434，还用于：执行以下任意一种处理以得到连续性约束：依次确定相邻的K个正则化图像，并对K个正则化图像对应的特征向量进行拟合处理，得到连续性约束；依次确定相邻的N个正则化图像，对N个正则化图像中相邻的K个正则化图像对应的特征向量进行拟合处理，得到子连续性约束，并对至少两个子连续性约束进行求和处理，得到N个正则化图像对应的连续性约束；其中，K为大于2的整数，N为大于K的整数。

在一些实施例中，前馈处理模块2433，还用于：通过图像分类模型，对视频流中的图像进行前馈处理，得到图像分类模型中的设定网络层输出的特征向量；

约束建立模块2434，还用于：当设定网络层仅包括一个网络层时，对设定网络层输出的、且与视频流中设定数量的图像对应的特征向量进行拟合处理，得到连续性约束；当设定网络层包括至少两个网络层时，对各网络层输出的、且与视频流中设定数量的图像对应的特征向量分别进行拟合处理，得到各网络层对应的子连续性约束，并对各子连续性约束进行求和处理，得到连续性约束；其中，拟合处理的方式包括线性拟合及非线性拟合。

在一些实施例中，前馈处理模块2433，还用于：通过图像分类模型的设定网络层，对待处理对象进行特征提取处理，得到至少两个二维特征图；对二维特征图进行平均处理得到图平均值，并将各图平均值组合为设定网络层输出的特征向量；其中，待处理对象为视频流中的图像或设定网络层的上一个网络层输出的特征。

在一些实施例中，基于人工智能的图像分类模型训练装置243还包括：训练集获取模块，用于获取包括样本图像及样本标签的训练集；标签预测模块，用于通过图像分类模型，对样本图像进行预测处理，得到样本图像对应的预测标签；损失确定模块，用于根据样本图像对应的样本标签和预测标签，确定图像分类模型的损失值；损失传播模块，用于根据损失值在图像分类模型中进行反向传播，并在反向传播的过程中，更新图像分类模型的权重参数。

在一些实施例中，更新模块2435，还用于：对损失值及连续性约束进行融合处理，得到融合约束；根据融合约束在图像分类模型中进行反向传播。

在一些实施例中，分类模块2436，还用于：通过更新后的图像分类模型对待分类图像进行预测处理，得到与图像分类模型的分类标签对应的预测概率；从至少两个预测概率中确定数值最大的预测概率；根据数值最大的预测概率对应的分类标签，确定待分类图像中所包括内容的分类结果。

本发明实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的图像分类方法，例如，如图4A、图4B、图4C或图4D示出的基于人工智能的图像分类方法。值得说明的是，计算机包括终端设备和服务器在内的各种计算设备。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本发明实施例能够实现以下技术效果：

1)通过约束包括连续内容的图像对应的特征向量连续变化，提升了模型输出的平滑性，减少了模型过拟合情况的发生，提升了图像分类模型的准确率和召回率，可应用于图像分类的各个应用场景。

2)建立连续性约束的方式多样，例如可根据线性拟合或非线性拟合的方式来建立连续性约束，可根据模型中设定网络层输出的特征向量来建立连续性约束，提升了模型训练的灵活性，可根据实际应用场景确定具体的训练方案。

3)从视频集中，确定与图像分类模型的分类任务(分类目标)相关的正则化视频，提升了模型的输入参数的有效性；同时，由于视频集的获取途径多样，例如视频集可为网络视频集，故作为样本的视频的丰富程度较高，利于提升模型的泛化能力。

4)通过对正则化视频进行镜头划分，保证同一镜头内的画面内容都是连续的，不存在画面突变的情况，提升了后续建立的连续性约束的准确性。

5)在通过视频集对模型进行精调之前，可通过训练集对模型进行预训练，以将模型的权重参数调整到一个合理的范围内，提升进行权重参数精调的效果；在精调阶段，也可同时根据视频集和训练集，对模型进行训练，加强训练效果。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的图像分类方法，其特征在于，包括：

2.根据权利要求1所述的图像分类方法，其特征在于，所述从视频集中确定与图像分类模型的目标分类标签对应的正则化视频，包括：

当所述视频集中的视频具有标签时，将所述视频集中具有所述图像分类模型的目标分类标签的视频，确定为正则化视频；

当所述视频集中的视频未具有标签时，通过所述图像分类模型对所述视频集的每个视频中的图像进行预测处理，得到所述图像对应所述目标分类标签的预测概率；

将每个视频中预测概率超过筛选概率阈值的图像确定为相关图像，并确定每个视频中相关图像的比例；

将所述视频集中相关图像的比例超过比例阈值的视频，确定为正则化视频。

3.根据权利要求1所述的图像分类方法，其特征在于，所述对所述正则化视频进行镜头切分处理，得到至少一个视频流，包括：

遍历所述正则化视频中的各帧图像，并确定遍历到的图像与下一帧图像之间的相似度；

当所述相似度超过相似度阈值时，将所述下一帧图像添加至所述遍历到的图像所在的视频流；

当所述相似度未超过所述相似度阈值时，将所述下一帧图像添加至新的视频流。

4.根据权利要求3所述的图像分类方法，其特征在于，所述确定遍历到的图像与下一帧图像之间的相似度，包括：

执行以下任意一种处理，以得到所述遍历到的图像与所述下一帧图像之间的相似度：

确定所述遍历到的图像的第一灰度直方图，确定所述下一帧图像的第二灰度直方图，并

将所述第一灰度直方图与所述第二灰度直方图之间的相似度，确定为所述遍历到的图像与所述下一帧图像之间的相似度；

对所述遍历到的图像进行感知哈希处理得到第一哈希值，对所述下一帧图像进行感知哈希处理得到第二哈希值，并

将所述第一哈希值与所述第二哈希值之间的相似度，确定为所述遍历到的图像与所述下一帧图像之间的相似度。

5.根据权利要求1所述的图像分类方法，其特征在于，

所述通过所述图像分类模型，对所述视频流中的图像进行前馈处理，得到特征向量，包括：

对所述视频流进行抽帧处理，得到至少三个正则化图像；

通过所述图像分类模型，对所述正则化图像进行前馈处理，得到特征向量；

所述根据所述视频流中设定数量的图像对应的特征向量，建立连续性约束，包括：

对所述至少三个正则化图像中设定数量的、且相邻的正则化图像对应的特征向量进行拟合处理，得到连续性约束；

其中，所述拟合处理的方式包括线性拟合及非线性拟合。

6.根据权利要求5所述的图像分类方法，其特征在于，所述对所述至少三个正则化图像中设定数量的、且相邻的正则化图像对应的特征向量进行拟合处理，得到连续性约束，包括：

执行以下任意一种处理以得到连续性约束：

依次确定相邻的K个正则化图像，并对所述K个正则化图像对应的特征向量进行拟合处理，得到连续性约束；

依次确定相邻的N个正则化图像，对所述N个正则化图像中相邻的K个正则化图像对应的特征向量进行拟合处理，得到子连续性约束，并

对至少两个所述子连续性约束进行求和处理，得到所述N个正则化图像对应的连续性约束；

其中，K为大于2的整数，N为大于K的整数。

7.根据权利要求1所述的图像分类方法，其特征在于，

通过所述图像分类模型，对所述视频流中的图像进行前馈处理，得到所述图像分类模型中的设定网络层输出的特征向量；

当所述设定网络层仅包括一个网络层时，对所述设定网络层输出的、且与所述视频流中设定数量的图像对应的特征向量进行拟合处理，得到连续性约束；

当所述设定网络层包括至少两个网络层时，对各所述网络层输出的、且与所述视频流中设定数量的图像对应的特征向量分别进行拟合处理，得到各所述网络层对应的子连续性约束，并

对各所述子连续性约束进行求和处理，得到连续性约束；

其中，所述拟合处理的方式包括线性拟合及非线性拟合。

8.根据权利要求7所述的图像分类方法，其特征在于，所述通过所述图像分类模型，对所述视频流中的图像进行前馈处理，得到所述图像分类模型中的设定网络层输出的特征向量，包括：

通过所述图像分类模型的设定网络层，对待处理对象进行特征提取处理，得到至少两个二维特征图；

对所述二维特征图进行平均处理得到图平均值，并将各所述图平均值组合为所述设定网络层输出的特征向量；

其中，所述待处理对象为所述视频流中的图像或所述设定网络层的上一个网络层输出的特征。

9.根据权利要求1所述的图像分类方法，其特征在于，所述通过所述图像分类模型，对所述视频流中的图像进行前馈处理，得到特征向量之前，还包括：

获取包括样本图像及样本标签的训练集；

通过所述图像分类模型，对所述样本图像进行预测处理，得到所述样本图像对应的预测标签；

根据所述样本图像对应的样本标签和预测标签，确定所述图像分类模型的损失值；

根据所述损失值在所述图像分类模型中进行反向传播，并在反向传播的过程中，更新所述图像分类模型的权重参数。

10.根据权利要求9所述的图像分类方法，其特征在于，所述根据所述连续性约束在所述图像分类模型中进行反向传播，包括：

对所述损失值及所述连续性约束进行融合处理，得到融合约束；

根据所述融合约束在所述图像分类模型中进行反向传播。

11.根据权利要求1至10任一项所述的图像分类方法，其特征在于，所述根据更新后的所述图像分类模型，确定待分类图像中所包括内容的分类结果，包括：

通过更新后的所述图像分类模型对待分类图像进行预测处理，得到与所述图像分类模型的分类标签对应的预测概率；

从至少两个预测概率中确定数值最大的预测概率；

根据所述数值最大的预测概率对应的分类标签，确定所述待分类图像中所包括内容的分类结果。

12.一种基于人工智能的图像分类装置，其特征在于，包括：

13.根据权利要求12所述的图像分类装置，其特征在于，所述分类模块，还用于：

从至少两个预测概率中确定数值最大的预测概率；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的基于人工智能的图像分类方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项所述的基于人工智能的图像分类方法。