CN109657726A - 一种图片多标签分类方法 - Google Patents
一种图片多标签分类方法 Download PDFInfo
- Publication number
- CN109657726A CN109657726A CN201811586685.7A CN201811586685A CN109657726A CN 109657726 A CN109657726 A CN 109657726A CN 201811586685 A CN201811586685 A CN 201811586685A CN 109657726 A CN109657726 A CN 109657726A
- Authority
- CN
- China
- Prior art keywords
- picture
- tag
- series
- conv3
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图片多标签分类方法,其特征在于,包括步骤1、收集图片样本;步骤2、数据的预处理;步骤3、根据训练样本规模,定制的深度网络结构;步骤4、以预测各类标签的平均损失为目标,训练至收敛;步骤5、训练完成,预测待测图片的标签属性。达到在大批量样本训练的情况下,预测效果优于机器学习;在工程应用中,针对不同样本规模,定制适配的深度网络结构,构造合适的网络结构训练至收敛,已得到可靠的多标签分类模型,取得平均96%的高准确率;多标签分类在多分类基础上再进一层,可以预测图片的一组标签属性,能更完美地迎合图片筛选,素材分类归档等任务。
Description
技术领域
本发明涉及计算机的图像深度学习领域,特别是涉及一种图片多标签分类方法。
背景技术
1张图片包含多元信息,图片分类技术只允许1张图片对应1个预测目标,如手写数字识别,1张手写数字图片仅对应1个0-9的数字识别结果,不能预测出字体风格,书写美观度等多重属性,往往不能满足应用的需求。因此,需要一种图片分类方法,能允许1个输入样本对应1组目标输出,即1张图片预测1组与之相关的标签属性,这样可以更方便地进行图片筛选,素材分类归档等任务。在工程应用中,能获取到的图片样本规模因项目而异,时多时少,针对不同样本规模,需要构造不同复杂程度的网络结构进行训练,才能得到可靠预测效果,否则无法达到应用门槛。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种图片多标签分类方法。
为解决上述技术问题,本发明提供一种图片多标签分类方法,其特征在于,包括如下步骤:
步骤1、收集图片样本,所述图片样本规模至少在100k张;整理每张图对应的1组标签属性,所述1组标签属性至少包含2个标签属性,所述不同标签属性之间互相独立,不存在范围重叠或包含关系;
步骤2、数据的预处理,将每张图片尺寸更改为224×224×3;
步骤3、根据训练样本规模,定制的深度网络结构,所述深度网络结构由keras定制,网络输出类别数即标签类别数;所述深度网络结构包括至少5个卷积层:卷积层由至少32个卷积核串联构成,全连接层包含256个节点,dropout随机丢弃节点设为0.5,并行soft-max(parallel-soft-max)用于分别预测各类标签属性,各soft-max层并联连接;
步骤4、以预测各类标签的平均损失为目标,训练至收敛;
步骤5、训练完成,预测待测图片的标签属性。
所述步骤3中,当样本数量在100k-1000k张,则构建包含5个卷积层的深度网络,其中包括2个由32个3×3卷积核(conv3-32)串联构成和3个由64个3×3卷积核(conv3-64)串联构成的卷积层。
所述步骤3中,当样本数量在1000k-10000k张,则构建包含7个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的和3个由256个3×3卷积核(conv3-256)串联构成的卷积层。
所述步骤3中,当样本数量在10000k张以上时,则构建包含9个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的、2个由256个3×3卷积核(conv3-256)串联构成的、3个由512个3×3卷积核(conv3-512)串联构成的卷积层和1个512个1×1卷积核(conv1-512)卷积层。
本发明所达到的有益效果:在大批量样本训练的情况下,深度学习分类预测效果优于机器学习(100k样本规模时,机器学习已无法超过90%准确率,随着样本规模继续增加,机器学习预测效果出现瓶颈,无法提升);在工程应用中,能获取到的图片样本规模因项目而异,时多时少,针对不同样本规模,需要构造不同复杂程度的网络结构进行训练,才能得到可靠预测效果,否则无法达到应用门槛;本发明着手3类样本规模(100k张以上,1000k张以上,10000k张以上),定制适配的深度网络结构,构造合适的网络结构训练至收敛,已得到可靠的多标签分类模型,取得平均96%的高准确率(样本规模相对少时,选择100k张以上样本网络结构,此网络层数较少,在当前规模能够收敛,准确率约94%;样本规模适中时,选择1000k张以上样本网络结构,此网络层数适中,在当前规模能够收敛,准确率约96%;样本规模相对多时,选择10000k张以上样本网络结构,此网络结构层数较多,在当前规模能够收敛,准确率约98%);多标签分类在多分类基础上再进一层,可以预测图片的一组标签属性,能更完美地迎合图片筛选,素材分类归档等任务。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中的深度网络结构示意图;
图3为本发明的示例性实施例中的ml_net序贯模型示意图;
图4为本发明的示例性实施例中的训练准确性变化示意图;
图5为本发明的示例性实施例中的训练平均损失变化示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明,完整展示多标签分类流程,其他多标签分类任务,只需更换样本,可以套用本发明的网络结构,得到可靠预测效果:
一种图片多标签分类方法,其特征在于,包括如下步骤:
步骤1、收集足量图片样本,所述图片样本规模至少在100k张,整理每张图对应的1组标签属性,所述1组标签属性至少包含2个标签属性,否则等同于图片分类;例如,1张图对应标签1,标签2,标签3,标签4,则这4个标签属性互相独立,不存在范围重叠或包含关系;
步骤2、数据的预处理,将每张图片尺寸更改为224×224×3;
步骤3、根据训练样本规模,定制适配的深度网络结构,网络输出类别数即标签类别数;所述深度网络结构包括至少5个卷积层:卷积层由至少32个卷积核串联构成,全连接层包含256个节点,dropout随机丢弃节点设为0.5,并行soft-max(parallel-soft-max)用于分别预测各类标签属性,各soft-max层并联连接;
步骤4、以预测各类标签的平均损失为目标,训练至收敛;
步骤5、训练完成,预测待测图片的标签属性。
所述步骤3中,当样本数量在100k-1000k张,则构建包含5个卷积层的深度网络,其中包括2个由32个3×3卷积核(conv3-32)串联构成和3个由64个3×3卷积核(conv3-64)串联构成的卷积层。此网络层数较少,在样本规模相对少的场景能够收敛,准确率约94%。
所述步骤3中,当样本数量在1000k-10000k张,则构建包含7个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的和3个由256个3×3卷积核(conv3-256)串联构成的卷积层。此网络层数适中,在样本规模适中的场景能够收敛,准确率约96%。
所述步骤3中,当样本数量在10000k张以上时,则构建包含9个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的、2个由256个3×3卷积核(conv3-256)串联构成的、3个由512个3×3卷积核(conv3-512)串联构成的卷积层和1个512个1×1卷积核(conv1-512)卷积层。此网络层数较多,在样本规模相对多的场景能够收敛,准确率约98%。
上述适配不同规模样本规模的深度网络结构如表1所示:
表1适配不同样本规模的深度网络结构
如图1所示,由于图片多标签分类胜任的任务繁多,无法一一枚举,这里以人物设计素材库标签分类为例,完成“图中有2名拉丁美洲男性青年”这样的定制检索需求。
步骤11、收集图片样本及对应多标签属性,可通过购买,抓取,人工标注等方式,样本数量至少在100k张,否则训练可能不收敛,或者预测效果不佳,见表2:标签属性分为4类,人种(全部,高加索系,非洲系,亚洲系,拉丁美洲系),年龄(全部,婴儿,儿童,青年,成人,老人),人数(无,1,2,3,4及以上),性别(全部,男,女);
人物图片样本及对应多标签属性如表2所示:
表2人物图片样本及对应多标签属性
人种 | 年龄 | 人数 | 性别 | |
标签1 | 全部 | 全部 | 无 | 全部 |
标签2 | 高加索系 | 婴儿 | 1 | 男 |
标签3 | 非洲系 | 儿童 | 2 | 女 |
标签4 | 亚洲系 | 青年 | 3 | -- |
标签5 | 拉丁美洲系 | 成人 | 4及以上 | -- |
标签6 | -- | 老人 | -- | -- |
步骤12、数据预处理,将每张图片尺寸更改为224×224×3;
步骤13、定制深度网络结构,以keras包定制深度网络结构数为4,即fc_race、fc_age、fc_amount和,fc_gender,相互之间并联连接,代码如下:
from keras.layers import Conv2D,Dense,Dropout,Flatten,Input,MaxPooling2D
from keras.models import Model,Sequential
ml_net=Sequential(name='ml_net')
ml_net.add(Conv2D(32,(3,3),activation='relu',padding='same',input_shape=(224,224,3),name='conv1'))
ml_net.add(Conv2D(32,(3,3),activation='relu',padding='same',name='conv2'))
ml_net.add(MaxPooling2D(pool_size=(2,2),name='pool1'))
ml_net.add(Conv2D(64,(3,3),activation='relu',padding='same',name='conv3'))
ml_net.add(Conv2D(64,(3,3),activation='relu',padding='same',name='conv4'))
ml_net.add(Conv2D(64,(3,3),activation='relu',padding='same',name='conv5'))
ml_net.add(MaxPooling2D(pool_size=(2,2),name='pool2'))
ml_net.add(Flatten(name='flat'))
ml_net.add(Dense(256,activation='relu',name='fc'))
ml_net.add(Dropout(0.5,name='drop'))
img_input=Input(shape=(224,224,3),name='img_input')
img_feature=ml_net(img_input)
output1=Dense(5,activation='softmax',name='fc_race')(img_feature)
output2=Dense(6,activation='softmax',name='fc_age')(img_feature)
output3=Dense(5,activation='softmax',name='fc_amount')(img_feature)
output4=Dense(3,activation='softmax',name='fc_gender')(img_feature)
ml_model=Model(inputs=img_input,outputs=[output1,output2,output3,output4])
整体网络结构见图2,待训练参数为51487859个,其中ml_net序贯模型结构见图3:
步骤14、训练网络结构至收敛,以fc_race,fc_age,fc_amount,fc_gender的平均损失为目标,batch_size=128(每批训练的图片数,所有批次的图片训练完为1个epoch),训练准确性变化见图4,平均损失变化见图5,均已至收敛,不再大幅波动;
步骤15、预测标签属性,训练完成,预测图片的1组标签属性。
本发明主要用于提供一种图片多标签分类方法,在大批量样本训练的情况下,深度学习分类预测效果优于机器学习(100k样本规模时,机器学习已无法超过90%准确率,随着样本规模继续增加,机器学习预测效果出现瓶颈,无法提升);在工程应用中,能获取到的图片样本规模因项目而异,时多时少,针对不同样本规模,需要构造不同复杂程度的网络结构进行训练,才能得到可靠预测效果,否则无法达到应用门槛;本发明着手3类样本规模(100k张以上,1000k张以上,10000k张以上),定制适配的深度网络结构,构造合适的网络结构训练至收敛,已得到可靠的多标签分类模型,取得平均96%的高准确率(样本规模相对少时,选择100k张以上样本网络结构,此网络层数较少,在当前规模能够收敛,准确率约94%;样本规模适中时,选择1000k张以上样本网络结构,此网络层数适中,在当前规模能够收敛,准确率约96%;样本规模相对多时,选择10000k张以上样本网络结构,此网络结构层数较多,在当前规模能够收敛,准确率约98%);多标签分类在多分类基础上再进一层,可以预测图片的一组标签属性,能更完美地迎合图片筛选,素材分类归档等任务。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (4)
1.一种图片多标签分类方法,其特征在于,包括如下步骤:
步骤1、收集图片样本,所述图片样本规模至少在100k张;整理每张图对应的1组标签属性,所述1组标签属性至少包含2个标签属性,所述不同标签属性之间互相独立,不存在范围重叠或包含关系;
步骤2、数据的预处理,将每张图片尺寸更改为224×224×3;
步骤3、根据训练样本规模,定制的深度网络结构,所述深度网络结构由keras定制,网络输出类别数即标签类别数;所述深度网络结构包括至少5个卷积层:卷积层由至少32个卷积核串联构成,全连接层包含256个节点,dropout随机丢弃节点设为0.5,并行soft-max(parallel-soft-max)用于分别预测各类标签属性,各soft-max层并联连接;
步骤4、以预测各类标签的平均损失为目标,训练至收敛;
步骤5、训练完成,预测待测图片的标签属性。
2.如权利要求1所述的一种图片多标签分类方法,其特征在于:所述步骤3中,当样本数量在100k-1000k张,则构建包含5个卷积层的深度网络,其中包括2个由32个3×3卷积核(conv3-32)串联构成和3个由64个3×3卷积核(conv3-64)串联构成的卷积层。
3.如权利要求2所述的一种图片多标签分类方法,其特征在于:所述步骤3中,当样本数量在1000k-10000k张,则构建包含7个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的和3个由256个3×3卷积核(conv3-256)串联构成的卷积层。
4.如权利要求3所述的一种图片多标签分类方法,其特征在于:所述步骤3中,当样本数量在10000k张以上时,则构建包含9个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的、2个由256个3×3卷积核(conv3-256)串联构成的、3个由512个3×3卷积核(conv3-512)串联构成的卷积层和1个512个1×1卷积核(conv1-512)卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586685.7A CN109657726A (zh) | 2018-12-25 | 2018-12-25 | 一种图片多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586685.7A CN109657726A (zh) | 2018-12-25 | 2018-12-25 | 一种图片多标签分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109657726A true CN109657726A (zh) | 2019-04-19 |
Family
ID=66116523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811586685.7A Pending CN109657726A (zh) | 2018-12-25 | 2018-12-25 | 一种图片多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657726A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222709A (zh) * | 2019-04-29 | 2019-09-10 | 上海暖哇科技有限公司 | 一种多标签智能打标方法及系统 |
CN111897985A (zh) * | 2020-06-23 | 2020-11-06 | 西安交通大学 | 图像多标签分类方法、系统、设备及可读存储介质 |
CN116310516B (zh) * | 2023-02-20 | 2023-11-21 | 交通运输部水运科学研究所 | 船舶分类方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403419A (zh) * | 2017-08-04 | 2017-11-28 | 深圳市唯特视科技有限公司 | 一种基于级联卷积神经网络的低剂量x射线图像去噪方法 |
CN107886073A (zh) * | 2017-11-10 | 2018-04-06 | 重庆邮电大学 | 一种基于卷积神经网络的细粒度车辆多属性识别方法 |
CN108647595A (zh) * | 2018-04-26 | 2018-10-12 | 华中科技大学 | 基于多属性深度特征的车辆重识别方法 |
-
2018
- 2018-12-25 CN CN201811586685.7A patent/CN109657726A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403419A (zh) * | 2017-08-04 | 2017-11-28 | 深圳市唯特视科技有限公司 | 一种基于级联卷积神经网络的低剂量x射线图像去噪方法 |
CN107886073A (zh) * | 2017-11-10 | 2018-04-06 | 重庆邮电大学 | 一种基于卷积神经网络的细粒度车辆多属性识别方法 |
CN108647595A (zh) * | 2018-04-26 | 2018-10-12 | 华中科技大学 | 基于多属性深度特征的车辆重识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222709A (zh) * | 2019-04-29 | 2019-09-10 | 上海暖哇科技有限公司 | 一种多标签智能打标方法及系统 |
CN110222709B (zh) * | 2019-04-29 | 2022-01-25 | 上海暖哇科技有限公司 | 一种多标签智能打标方法及系统 |
CN111897985A (zh) * | 2020-06-23 | 2020-11-06 | 西安交通大学 | 图像多标签分类方法、系统、设备及可读存储介质 |
CN111897985B (zh) * | 2020-06-23 | 2021-10-01 | 西安交通大学医学院第一附属医院 | 图像多标签分类方法、系统、设备及可读存储介质 |
CN116310516B (zh) * | 2023-02-20 | 2023-11-21 | 交通运输部水运科学研究所 | 船舶分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685110B (zh) | 图像分类网络的训练方法、图像分类方法及装置、服务器 | |
CN103325061B (zh) | 一种社区发现方法和系统 | |
CN109635171A (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
CN103761254B (zh) | 多领域服务主题匹配推荐方法 | |
CN106326345A (zh) | 一种基于用户行为的社交网络中朋友关系挖掘方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN106934071A (zh) | 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置 | |
US8688603B1 (en) | System and method for identifying and correcting marginal false positives in machine learning models | |
CN108765076B (zh) | 母婴内容推荐方法、装置及可读存储介质 | |
US20110137908A1 (en) | Assigning into one set of categories information that has been assigned to other sets of categories | |
CN103559199B (zh) | 网页信息抽取方法和装置 | |
CN110377727A (zh) | 一种基于多任务学习的多标签文本分类方法和装置 | |
CN108022116B (zh) | 对用户建模的方法、系统及终端设备 | |
CN107784372A (zh) | 目标对象属性的预测方法、装置和系统 | |
CN105045909B (zh) | 从文本中识别商品名称的方法和装置 | |
CN110263257A (zh) | 基于深度学习的多源异构数据混合推荐模型 | |
CN104731958A (zh) | 一种面向用户需求倾向的云制造服务推荐方法 | |
CN110119688A (zh) | 一种利用视觉注意力协同网络的图像情感分类方法 | |
CN112925908A (zh) | 一种基于Attention的图注意力网络的文本分类方法及系统 | |
CN110727813A (zh) | 一种商品图片的自适应热门指数排序方法 | |
CN109657726A (zh) | 一种图片多标签分类方法 | |
CN107423396A (zh) | 一种基于功能隐含关系及聚类的Mashup推荐方法 | |
CN102622609A (zh) | 一种基于支持向量机的三维模型自动分类方法 | |
CN112131389A (zh) | LightGBM集成多个BERT模型用于加速系统评价更新的方法 | |
CN115982379A (zh) | 基于知识图谱的用户画像构建方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190419 |
|
RJ01 | Rejection of invention patent application after publication |