CN114139656A

CN114139656A - 一种基于深度卷积分析的图片归类方法及播控平台

Info

Publication number: CN114139656A
Application number: CN202210097554.2A
Authority: CN
Inventors: 文俊; 吴雷
Original assignee: Chengdu Orange Media Technology Co ltd
Current assignee: Chengdu Orange Media Technology Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-03-04
Anticipated expiration: 2042-01-27
Also published as: CN114139656B

Abstract

本发明公开了一种基于深度卷积分析的图片归类方法及播控平台，属于图片分类技术领域，包括步骤：S1，收集图片后对图片类型进行规范化处理；S2，对图片进行缩放处理；S3，将图片转换为包含RGB三个通道值的像素信息矩阵；S4，基于卷积神经网络形成预训练模型，形成归类模型；S5，利用图片和标签对归类模型进行训练调优；S6，上传图片到最终归类模型进行分类预测。本发明解决了目前图片类型归类存在的人工缺陷、人力和时间成本两方面的问题，在实施例中提出的方法不仅相比于传统的机器学习方法各方面更优，而且相比于其他深度学习模型，也有着训练代价小、训练速度快、效果更优的特点。

Description

一种基于深度卷积分析的图片归类方法及播控平台

技术领域

本发明涉及图片分类技术领域，更为具体的，涉及基于深度卷积分析的图片归类方法及播控平台。

背景技术

随着近些年电影的产量提升，对于播控平台来说，能自动有效获取大量影片的信息可大大减少人力和时间成本，也对做影片推荐提供了基础条件，进而吸引更多用户以及提高点播率。

但是，目前的影片类型的归类方式，存在如下问题：

（1）对于待上架影片的相关信息处理，往往需要大量的人力和时间，产生了人力成本。

（2）编辑人员的认知对于影片类型的判断会出现太多个人主观色彩，从而导致影片的类型判断错误，对于后期使用该影片类型来进行影片推荐，就可能造成推荐错误的情况。

现有技术中有提供关于解决上述问题的方案，例如公开号为CN105260398A的专利申请等，但是利用传统的图矩阵的数学变换来提取图片的特征，模型过于简单，不实用当下海量数据的处理需求，以及基于支持向量机构建分类模型，在处理多分类问题时存在边界更难划分的问题。还有的解决方案利用卷积模型处理海报特征，在一定程度上效果更好，但是直接利用VGG16模型，我们知道，图片内容分类（物体识别）与主题聚类（场景使用）显然是不同的业务场景，而原VGG16本质是一个分类模型，它是做图片中的物体识别的，本质是内容识别的模型，却被本领域普通人员直接用来处理主题分类，物体是一个有形的现实对象，而主题是一个抽象的概念，直接利用显然不合适，无法客观给出影片的类型。在现有方案中，还有人利用机器学习无监督方法k-means算法来聚类实现归类目的，但是存在缺点是对训练样本依赖性大，很容易出现聚类错误，而且训练代价大。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度卷积分析的图片归类方法及播控平台，具有训练代价小、训练速度快、效果更优的特点，不仅更客观给出图片的类型标签，而且能高效快速的完成大量图片的处理。

本发明的目的是通过以下方案实现的：

一种基于深度卷积分析的图片归类方法，包括步骤：

S1，收集图片后对图片类型进行规范化处理；

S2，对规范化处理后的图片进行缩放处理；

S3，将缩放处理后的图片转换为包含RGB三个通道值的像素信息矩阵；

S4，基于卷积神经网络形成预训练模型，固定好预训练模型前第一设定数量层模型的参数保持不变，将最后第二设定数量层替换为双通道多分类模型架构，形成归类模型；

S5，基于形成的归类模型，将所述包含RGB三个通道值的像素信息矩阵输入，并结合标签权重匹配合并计算进行训练过程，利用图片和标签对归类模型进行训练调优，将最终归类模型保存；

S6，上传图片到最终归类模型进行分类预测，利用双通道多分类模型架构结合标签权重匹配合并计算得到图片类型标签。

进一步地，在步骤S4中，所述第一设定数量为13，所述第二设定数量为3。

进一步地，在步骤S5中，包括如下步骤：

S51，包含RGB三个通道值的像素信息矩阵经过两层2D卷积，且卷积后进行正规化和relu函数激活处理操作处理，再进行最大值池化处理；

S52，依次重复进行多次步骤S51；

S53，将经过步骤S52处理后得到的矩阵进行压平处理，然后进行第一概率性丢弃处理；

S54，将进行第一概率性丢弃后的矩阵，输入到一个全连接层dense，再分别进行第二概率性丢弃处理；

S56，将进行第二概率性丢弃的矩阵，输入到两个softmax概率分布最大化多分类全连接层，然后利用小批量随机梯度下降算法，结合双标签权重匹配合并计算损失值，经过多次训练直到模型收敛，得到最终的模型参数。

进一步地，在步骤S56中，所述双标签权重匹配的规则具体为：将第一标签为主类型，第二标签设为副类型，分别取两个通道各自最大概率所对应的标签，然后分别与真实标签对比，若相同则值取1，若不相同则值取0，然后将对应值再分别乘以对应主类型和副类型的权重，将乘以权重得到的对应数据相加之和作为双通道分类器的预测值y，然后将1-y的差值作为损失函数的损失值，然后进行多批次的训练微调。

进一步地，在步骤S1中，所述收集图片包括播控平台影片库中现有的上架影片的海报图片及相关信息，并搜集网络上大量的影片海报及相关信息；所规范化处理包括对影片类型进行规范化处理，其中只保留2个影片类型，并统计获取影片类型表。

进一步地，在步骤S2中，所述缩放处理包括将图片统一缩放至224*224，保持像素一致，并排除一些画面过于模糊的图片。

进一步地，在步骤S3中，缩放至统一规格后的图片的像素宽度为W为224，像素高度为H为224，将图片转换为W*H个包含RGB三个通道值的像素信息矩阵，表示为（W, H, 3）。

进一步地，所述预训练模型包括VGG16模型。

进一步地，第一设定数量为13，第二设定数量为3。

一种播控平台，包括处理器和可读存储介质，在可读存储介质中存储有程序，当程序被处理器加载时执行如上任一项所述方法。

本发明的有益效果包括：

本发明解决了目前图片类型归类存在的人工缺陷、人力和时间成本两方面的问题，在实施例中提出的方法不仅相比于传统的机器学习方法各方面（提取图片表征、训练、速度、效果等）更优，而且相比于其他深度学习模型，也有着训练代价小、训练速度快、效果更优的特点。

通过本发明实施例的方法，可以实现自动根据图片的分析，生成图片的风格类型标签，不仅更客观给出图片风格的类型标签，而且能高效快速的完成大量图片的处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为将影片海报图片进行统一缩放的示意图；

图2为图片转换RGB矩阵过程示意图；

图3为双通道多分类模型结构示意图；

图4为本发明实施例的方法步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

下面根据附图1~图4，对本发明的技术构思、解决的技术问题、工作原理、工作过程和有益效果作进一步详细、充分地说明。

本发明实施提供一种基于深度卷积分析的图片归类方法及播控平台，旨在解决背景技术中的问题，具体而言，本发明的技术方案包括如下步骤：

步骤一、整理播控平台影片库中现有的上架影片的海报图片及相关信息，并搜集网络上大量的影片海报及相关信息，并对影片类型进行规范化处理，可选的处理规则包括如下方式：只保留2个影片类型。统计获取影片类型表。

步骤二、将所有影片海报图片统一缩放至224*224，这里缩放的目的和作用具有如下两点：（1）因为原始预训练模型的训练语料的图片像素为224*224，像素宽度和高度一致，更利于VGG16模型进行卷积操作，（2）在多轮卷积过程中，能更好的提取到图片中的重要表征信息。保持像素一致，并排除一些画面过于模糊的海报图片，如图1所示。

步骤三、图片是由像素点构成的，统一规格后的图片，像素宽度为W（224），像素高度为H（224），将图片转换为W*H个包含RGB三个通道值的像素信息矩阵，规格为（W, H, 3），图片转换RGB矩阵过程展示如图2所示。

步骤四、使用大型卷积神经网络VGG16预训练模型，固定好前13层模型的参数保持不变，将最后三层舍弃，替换成一个双通道多分类模型架构（因为通常影片的类型都是两个及两个以上，训练的时候数据集也是一张海报对应两个类型标签，所以需要将两个类型标签同时识别出来，且保证不能相互干扰，显然一个多分类器结构明显不符合业务要求，而采用双通道多分类器就能满足相互不干扰），采用图片+双标签模式来进行重构后的模型进行训练微调，将最终训练模型保存，双通道多分类模型结构如图3所示。

步骤五、训练过程：将图片统一规格后转换成RGB像素值矩阵，经过2层2D卷积（卷积后需要进行正规化和relu函数激活处理）操作，然后进行最大值池化，依次共进行5次（2次2层和3次3层）2D卷积类似操作，将矩阵压平并进行0.5概率性丢弃，并进入到一个全连接层dense，再分别进行0.4和0.5概率性丢弃，最终进入到2个softmax多分类全连接层，利用小批量随机梯度下降算法计算损失（双标签权重匹配合并计算，规则：标签1为主类型，标签2为副类型，权重都为0.55和0.45，合并后为1，作为一个损失值）进行多批次的训练。其中，双通道多分类模型是基于电影类型一般有主副两个及以上的类型标签的实际业务场景，且训练数据也是一张海报对应主副两个标签，并且要保证两个标签不相互影响干扰，显然一般的单通道的多分类器是不符合业务场景，所以满足这个场景，设计了双通道多分类器结构，来保证模型训练和预测过程。

步骤六、预测过程：上传一张影片海报图片，将图片统一规格转换成RGB像素值矩阵，规格为模型所需要的固定值W、H，通过训练所得的模型对图片RGB像素值矩阵进行分类预测，双通道分类将分别得到两个影片类型标签。

本发明实施例采用了规则式统计方法处理了影片类型及类型表；利用图像处理技术处理了图像规格，利用计算机视觉图像处理的大型预训练模型为基础构架，并在此之上构建了双通道多分类结构，完成分类模型的构建；利用大量影片海报图片数据对模型进行了训练、微调并保存模型参数；通过上传影片的海报图片，模型即可对其处理，预测出影片概率最大的2个类型标签。

本发明实施例的优点在于通过影片类型规范化简单有效的处理并完成了对影片数据信息的规整预处理，在满足了业务场景的同时也满足了模型输入的数据结构；利用预训练模型的优势加上以业务为导向的模型构建，充分有效的对影片海报的表征进行了分析处理提取；以业务场景为导向构建了双通道多分类模型，并经过快速且小代价（训练数据不需要很多）的训练及评测，得到一个效果优良的模型，能快速且精准的预测出影片的主副两个类型标签。该模型的结构清晰明确易理解，不仅在满足实际业务要求之上，同时模型的构建、训练、测试快速且代价小，节省了大量时间、人力等资源的消耗，而且模型的对影片的类型预测分类的精确度也很高。

本发明实施例的技术效果数据验证：

步骤七、模型效果统计：将影片海报图片数据分类训练集、验证集和测试集，比例为6:2:2，经过多次训练，训练集得到的平均准确率为99.32%，验证集得到的平均准确率为98.44%，测试集得到的平均准确率为97.86%，可见该模型方法，在通过影片海报图片预测类型得到了很好的效果，也证明了模型方法的有效性。

实施例1：如图4所示，一种基于深度卷积分析的图片归类方法，包括步骤：

S1，收集图片后对图片类型进行规范化处理；

S2，对规范化处理后的图片进行缩放处理；

实施例2：在实施例1的基础上，在步骤S4中，所述第一设定数量为13，所述第二设定数量为3。

实施例3：在实施例1的基础上，在步骤S5中，包括如下步骤：

S51，包含RGB三个通道值的像素信息矩阵经过两层2D卷积，且卷积后进行正规化和relu函数激活处理操作处理，再进行最大值池化处理；这样就可以提取到图片中所包含的整体信息，比如，一棵树的轮廓；

S52，依次重复进行多次步骤S51；

S53，将经过步骤S52处理后得到的矩阵进行压平处理，然后进行第一概率性丢弃，这样做的目的是将高维抽象矩阵转换到低维具体数值，以求更好的概率量化；

S54，将进行第一概率性丢弃后的矩阵，输入到一个全连接层dense，再分别进行第二概率性丢弃，这样做的目的使得顶层的模型的参数以风格类型业务为导向进行训练微调；

S56，将进行第二概率性丢弃的矩阵，输入到两个softmax概率分布最大化多分类全连接层，这样的设计处理就能达到通过影片海报预测双风格类型标签的实际场景要求，并且两个标签的预测是独立互不干扰的，然后利用小批量随机梯度下降算法，结合双标签权重匹配合并计算损失值，经过多次训练直到模型收敛到一个较好的效果，得到最终的模型参数。

实施例4：在实施例1的基础上，在步骤S56中，所述双标签权重匹配的规则具体为：将第一标签为主类型，第二标签设为副类型，分别取两个通道各自最大概率所对应的标签，然后分别与真实标签对比，若相同则值取1，若不相同则值取0，然后将对应值再分别乘以对应主类型和副类型的权重，将乘以权重得到的对应数据相加之和作为双通道分类器的预测值y，然后将1-y的差值（值域为0 ~ 1）作为损失函数的损失值，然后进行多批次的训练微调。

实施例5：在实施例1~4的基础上，在步骤S1中，所述收集图片包括播控平台影片库中现有的上架影片的海报图片及相关信息，并搜集网络上大量的影片海报及相关信息；所规范化处理包括对影片类型进行规范化处理，其中只保留2个影片类型，并统计获取影片类型表。

实施例6：在实施例1~4的基础上，在步骤S2中，所述缩放处理包括将图片统一缩放至224*224，保持像素一致，并排除一些画面过于模糊的图片。

实施例7：在实施例6的基础上，在步骤S3中，缩放至统一规格后的图片的像素宽度为W为224，像素高度为H为224，将图片转换为W*H个包含RGB三个通道值的像素信息矩阵，表示为（W, H, 3）。

实施例8：在实施例1~4的基础上，所述预训练模型包括VGG16模型。

实施例9：在实施例1~4的基础上，第一设定数量为13，第二设定数量为3。

实施例10：一种播控平台，包括处理器和可读存储介质，在可读存储介质中存储有程序，当程序被处理器加载时执行如实施例1~4中任一项所述方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于深度卷积分析的图片归类方法，其特征在于，包括步骤：

S1，收集图片后对图片类型进行规范化处理；

S2，对规范化处理后的图片进行缩放处理；

2.根据权利要求1所述的基于深度卷积分析的图片归类方法，其特征在于，在步骤S4中，所述第一设定数量为13，所述第二设定数量为3。

3.根据权利要求1所述的基于深度卷积分析的图片归类方法，其特征在于，在步骤S5中，包括如下步骤：

S52，依次重复进行多次步骤S51；

4.根据权利要求3所述的基于深度卷积分析的图片归类方法，其特征在于，在步骤S56中，所述双标签权重匹配的规则具体为：将第一标签为主类型，第二标签设为副类型，分别取两个通道各自最大概率所对应的标签，然后分别与真实标签对比，若相同则值取1，若不相同则值取0，然后将对应值再分别乘以对应主类型和副类型的权重，将乘以权重得到的对应数据相加之和作为双通道分类器的预测值y，然后将1-y的差值作为损失函数的损失值，然后进行多批次的训练微调。

5.根据权利要求1~4任一项所述的基于深度卷积分析的图片归类方法，其特征在于，在步骤S1中，所述收集图片包括播控平台影片库中现有的上架影片的海报图片及相关信息，并搜集网络上大量的影片海报及相关信息；所规范化处理包括对影片类型进行规范化处理，其中只保留2个影片类型，并统计获取影片类型表。

6.根据权利要求1~4任一项所述的基于深度卷积分析的图片归类方法，其特征在于，在步骤S2中，所述缩放处理包括将图片统一缩放至224*224，保持像素一致，并排除一些画面过于模糊的图片。

7.根据权利要求6所述的基于深度卷积分析的图片归类方法，其特征在于，在步骤S3中，缩放至统一规格后的图片的像素宽度为W为224，像素高度为H为224，将图片转换为W*H个包含RGB三个通道值的像素信息矩阵，表示为（W, H, 3）。

8.根据权利要求1~4任一所述的基于深度卷积分析的图片归类方法，其特征在于，所述预训练模型包括VGG16模型。

9.一种播控平台，其特征在于，包括处理器和可读存储介质，在可读存储介质中存储有程序，当程序被处理器加载时执行如权利要求1~4中任一项所述方法。