CN109657726A - 一种图片多标签分类方法 - Google Patents

一种图片多标签分类方法 Download PDF

Info

Publication number
CN109657726A
CN109657726A CN201811586685.7A CN201811586685A CN109657726A CN 109657726 A CN109657726 A CN 109657726A CN 201811586685 A CN201811586685 A CN 201811586685A CN 109657726 A CN109657726 A CN 109657726A
Authority
CN
China
Prior art keywords
picture
tag
series
conv3
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811586685.7A
Other languages
English (en)
Inventor
王旻毅
吕晨
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201811586685.7A priority Critical patent/CN109657726A/zh
Publication of CN109657726A publication Critical patent/CN109657726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图片多标签分类方法,其特征在于,包括步骤1、收集图片样本;步骤2、数据的预处理;步骤3、根据训练样本规模,定制的深度网络结构;步骤4、以预测各类标签的平均损失为目标,训练至收敛;步骤5、训练完成,预测待测图片的标签属性。达到在大批量样本训练的情况下,预测效果优于机器学习;在工程应用中,针对不同样本规模,定制适配的深度网络结构,构造合适的网络结构训练至收敛,已得到可靠的多标签分类模型,取得平均96%的高准确率;多标签分类在多分类基础上再进一层,可以预测图片的一组标签属性,能更完美地迎合图片筛选,素材分类归档等任务。

Description

一种图片多标签分类方法
技术领域
本发明涉及计算机的图像深度学习领域,特别是涉及一种图片多标签分类方法。
背景技术
1张图片包含多元信息,图片分类技术只允许1张图片对应1个预测目标,如手写数字识别,1张手写数字图片仅对应1个0-9的数字识别结果,不能预测出字体风格,书写美观度等多重属性,往往不能满足应用的需求。因此,需要一种图片分类方法,能允许1个输入样本对应1组目标输出,即1张图片预测1组与之相关的标签属性,这样可以更方便地进行图片筛选,素材分类归档等任务。在工程应用中,能获取到的图片样本规模因项目而异,时多时少,针对不同样本规模,需要构造不同复杂程度的网络结构进行训练,才能得到可靠预测效果,否则无法达到应用门槛。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种图片多标签分类方法。
为解决上述技术问题,本发明提供一种图片多标签分类方法,其特征在于,包括如下步骤:
步骤1、收集图片样本,所述图片样本规模至少在100k张;整理每张图对应的1组标签属性,所述1组标签属性至少包含2个标签属性,所述不同标签属性之间互相独立,不存在范围重叠或包含关系;
步骤2、数据的预处理,将每张图片尺寸更改为224×224×3;
步骤3、根据训练样本规模,定制的深度网络结构,所述深度网络结构由keras定制,网络输出类别数即标签类别数;所述深度网络结构包括至少5个卷积层:卷积层由至少32个卷积核串联构成,全连接层包含256个节点,dropout随机丢弃节点设为0.5,并行soft-max(parallel-soft-max)用于分别预测各类标签属性,各soft-max层并联连接;
步骤4、以预测各类标签的平均损失为目标,训练至收敛;
步骤5、训练完成,预测待测图片的标签属性。
所述步骤3中,当样本数量在100k-1000k张,则构建包含5个卷积层的深度网络,其中包括2个由32个3×3卷积核(conv3-32)串联构成和3个由64个3×3卷积核(conv3-64)串联构成的卷积层。
所述步骤3中,当样本数量在1000k-10000k张,则构建包含7个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的和3个由256个3×3卷积核(conv3-256)串联构成的卷积层。
所述步骤3中,当样本数量在10000k张以上时,则构建包含9个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的、2个由256个3×3卷积核(conv3-256)串联构成的、3个由512个3×3卷积核(conv3-512)串联构成的卷积层和1个512个1×1卷积核(conv1-512)卷积层。
本发明所达到的有益效果:在大批量样本训练的情况下,深度学习分类预测效果优于机器学习(100k样本规模时,机器学习已无法超过90%准确率,随着样本规模继续增加,机器学习预测效果出现瓶颈,无法提升);在工程应用中,能获取到的图片样本规模因项目而异,时多时少,针对不同样本规模,需要构造不同复杂程度的网络结构进行训练,才能得到可靠预测效果,否则无法达到应用门槛;本发明着手3类样本规模(100k张以上,1000k张以上,10000k张以上),定制适配的深度网络结构,构造合适的网络结构训练至收敛,已得到可靠的多标签分类模型,取得平均96%的高准确率(样本规模相对少时,选择100k张以上样本网络结构,此网络层数较少,在当前规模能够收敛,准确率约94%;样本规模适中时,选择1000k张以上样本网络结构,此网络层数适中,在当前规模能够收敛,准确率约96%;样本规模相对多时,选择10000k张以上样本网络结构,此网络结构层数较多,在当前规模能够收敛,准确率约98%);多标签分类在多分类基础上再进一层,可以预测图片的一组标签属性,能更完美地迎合图片筛选,素材分类归档等任务。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中的深度网络结构示意图;
图3为本发明的示例性实施例中的ml_net序贯模型示意图;
图4为本发明的示例性实施例中的训练准确性变化示意图;
图5为本发明的示例性实施例中的训练平均损失变化示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明,完整展示多标签分类流程,其他多标签分类任务,只需更换样本,可以套用本发明的网络结构,得到可靠预测效果:
一种图片多标签分类方法,其特征在于,包括如下步骤:
步骤1、收集足量图片样本,所述图片样本规模至少在100k张,整理每张图对应的1组标签属性,所述1组标签属性至少包含2个标签属性,否则等同于图片分类;例如,1张图对应标签1,标签2,标签3,标签4,则这4个标签属性互相独立,不存在范围重叠或包含关系;
步骤2、数据的预处理,将每张图片尺寸更改为224×224×3;
步骤3、根据训练样本规模,定制适配的深度网络结构,网络输出类别数即标签类别数;所述深度网络结构包括至少5个卷积层:卷积层由至少32个卷积核串联构成,全连接层包含256个节点,dropout随机丢弃节点设为0.5,并行soft-max(parallel-soft-max)用于分别预测各类标签属性,各soft-max层并联连接;
步骤4、以预测各类标签的平均损失为目标,训练至收敛;
步骤5、训练完成,预测待测图片的标签属性。
所述步骤3中,当样本数量在100k-1000k张,则构建包含5个卷积层的深度网络,其中包括2个由32个3×3卷积核(conv3-32)串联构成和3个由64个3×3卷积核(conv3-64)串联构成的卷积层。此网络层数较少,在样本规模相对少的场景能够收敛,准确率约94%。
所述步骤3中,当样本数量在1000k-10000k张,则构建包含7个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的和3个由256个3×3卷积核(conv3-256)串联构成的卷积层。此网络层数适中,在样本规模适中的场景能够收敛,准确率约96%。
所述步骤3中,当样本数量在10000k张以上时,则构建包含9个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的、2个由256个3×3卷积核(conv3-256)串联构成的、3个由512个3×3卷积核(conv3-512)串联构成的卷积层和1个512个1×1卷积核(conv1-512)卷积层。此网络层数较多,在样本规模相对多的场景能够收敛,准确率约98%。
上述适配不同规模样本规模的深度网络结构如表1所示:
表1适配不同样本规模的深度网络结构
如图1所示,由于图片多标签分类胜任的任务繁多,无法一一枚举,这里以人物设计素材库标签分类为例,完成“图中有2名拉丁美洲男性青年”这样的定制检索需求。
步骤11、收集图片样本及对应多标签属性,可通过购买,抓取,人工标注等方式,样本数量至少在100k张,否则训练可能不收敛,或者预测效果不佳,见表2:标签属性分为4类,人种(全部,高加索系,非洲系,亚洲系,拉丁美洲系),年龄(全部,婴儿,儿童,青年,成人,老人),人数(无,1,2,3,4及以上),性别(全部,男,女);
人物图片样本及对应多标签属性如表2所示:
表2人物图片样本及对应多标签属性
人种 年龄 人数 性别
标签1 全部 全部 全部
标签2 高加索系 婴儿 1
标签3 非洲系 儿童 2
标签4 亚洲系 青年 3 --
标签5 拉丁美洲系 成人 4及以上 --
标签6 -- 老人 -- --
步骤12、数据预处理,将每张图片尺寸更改为224×224×3;
步骤13、定制深度网络结构,以keras包定制深度网络结构数为4,即fc_race、fc_age、fc_amount和,fc_gender,相互之间并联连接,代码如下:
from keras.layers import Conv2D,Dense,Dropout,Flatten,Input,MaxPooling2D
from keras.models import Model,Sequential
ml_net=Sequential(name='ml_net')
ml_net.add(Conv2D(32,(3,3),activation='relu',padding='same',input_shape=(224,224,3),name='conv1'))
ml_net.add(Conv2D(32,(3,3),activation='relu',padding='same',name='conv2'))
ml_net.add(MaxPooling2D(pool_size=(2,2),name='pool1'))
ml_net.add(Conv2D(64,(3,3),activation='relu',padding='same',name='conv3'))
ml_net.add(Conv2D(64,(3,3),activation='relu',padding='same',name='conv4'))
ml_net.add(Conv2D(64,(3,3),activation='relu',padding='same',name='conv5'))
ml_net.add(MaxPooling2D(pool_size=(2,2),name='pool2'))
ml_net.add(Flatten(name='flat'))
ml_net.add(Dense(256,activation='relu',name='fc'))
ml_net.add(Dropout(0.5,name='drop'))
img_input=Input(shape=(224,224,3),name='img_input')
img_feature=ml_net(img_input)
output1=Dense(5,activation='softmax',name='fc_race')(img_feature)
output2=Dense(6,activation='softmax',name='fc_age')(img_feature)
output3=Dense(5,activation='softmax',name='fc_amount')(img_feature)
output4=Dense(3,activation='softmax',name='fc_gender')(img_feature)
ml_model=Model(inputs=img_input,outputs=[output1,output2,output3,output4])
整体网络结构见图2,待训练参数为51487859个,其中ml_net序贯模型结构见图3:
步骤14、训练网络结构至收敛,以fc_race,fc_age,fc_amount,fc_gender的平均损失为目标,batch_size=128(每批训练的图片数,所有批次的图片训练完为1个epoch),训练准确性变化见图4,平均损失变化见图5,均已至收敛,不再大幅波动;
步骤15、预测标签属性,训练完成,预测图片的1组标签属性。
本发明主要用于提供一种图片多标签分类方法,在大批量样本训练的情况下,深度学习分类预测效果优于机器学习(100k样本规模时,机器学习已无法超过90%准确率,随着样本规模继续增加,机器学习预测效果出现瓶颈,无法提升);在工程应用中,能获取到的图片样本规模因项目而异,时多时少,针对不同样本规模,需要构造不同复杂程度的网络结构进行训练,才能得到可靠预测效果,否则无法达到应用门槛;本发明着手3类样本规模(100k张以上,1000k张以上,10000k张以上),定制适配的深度网络结构,构造合适的网络结构训练至收敛,已得到可靠的多标签分类模型,取得平均96%的高准确率(样本规模相对少时,选择100k张以上样本网络结构,此网络层数较少,在当前规模能够收敛,准确率约94%;样本规模适中时,选择1000k张以上样本网络结构,此网络层数适中,在当前规模能够收敛,准确率约96%;样本规模相对多时,选择10000k张以上样本网络结构,此网络结构层数较多,在当前规模能够收敛,准确率约98%);多标签分类在多分类基础上再进一层,可以预测图片的一组标签属性,能更完美地迎合图片筛选,素材分类归档等任务。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (4)

1.一种图片多标签分类方法,其特征在于,包括如下步骤:
步骤1、收集图片样本,所述图片样本规模至少在100k张;整理每张图对应的1组标签属性,所述1组标签属性至少包含2个标签属性,所述不同标签属性之间互相独立,不存在范围重叠或包含关系;
步骤2、数据的预处理,将每张图片尺寸更改为224×224×3;
步骤3、根据训练样本规模,定制的深度网络结构,所述深度网络结构由keras定制,网络输出类别数即标签类别数;所述深度网络结构包括至少5个卷积层:卷积层由至少32个卷积核串联构成,全连接层包含256个节点,dropout随机丢弃节点设为0.5,并行soft-max(parallel-soft-max)用于分别预测各类标签属性,各soft-max层并联连接;
步骤4、以预测各类标签的平均损失为目标,训练至收敛;
步骤5、训练完成,预测待测图片的标签属性。
2.如权利要求1所述的一种图片多标签分类方法,其特征在于:所述步骤3中,当样本数量在100k-1000k张,则构建包含5个卷积层的深度网络,其中包括2个由32个3×3卷积核(conv3-32)串联构成和3个由64个3×3卷积核(conv3-64)串联构成的卷积层。
3.如权利要求2所述的一种图片多标签分类方法,其特征在于:所述步骤3中,当样本数量在1000k-10000k张,则构建包含7个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的和3个由256个3×3卷积核(conv3-256)串联构成的卷积层。
4.如权利要求3所述的一种图片多标签分类方法,其特征在于:所述步骤3中,当样本数量在10000k张以上时,则构建包含9个卷积层的深度网络,其中包括2个由64个3×3卷积核(conv3-64)串联构成、2个由128个3×3卷积核(conv3-128)串联构成的、2个由256个3×3卷积核(conv3-256)串联构成的、3个由512个3×3卷积核(conv3-512)串联构成的卷积层和1个512个1×1卷积核(conv1-512)卷积层。
CN201811586685.7A 2018-12-25 2018-12-25 一种图片多标签分类方法 Pending CN109657726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811586685.7A CN109657726A (zh) 2018-12-25 2018-12-25 一种图片多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811586685.7A CN109657726A (zh) 2018-12-25 2018-12-25 一种图片多标签分类方法

Publications (1)

Publication Number Publication Date
CN109657726A true CN109657726A (zh) 2019-04-19

Family

ID=66116523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811586685.7A Pending CN109657726A (zh) 2018-12-25 2018-12-25 一种图片多标签分类方法

Country Status (1)

Country Link
CN (1) CN109657726A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN111897985A (zh) * 2020-06-23 2020-11-06 西安交通大学 图像多标签分类方法、系统、设备及可读存储介质
CN116310516B (zh) * 2023-02-20 2023-11-21 交通运输部水运科学研究所 船舶分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403419A (zh) * 2017-08-04 2017-11-28 深圳市唯特视科技有限公司 一种基于级联卷积神经网络的低剂量x射线图像去噪方法
CN107886073A (zh) * 2017-11-10 2018-04-06 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN108647595A (zh) * 2018-04-26 2018-10-12 华中科技大学 基于多属性深度特征的车辆重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403419A (zh) * 2017-08-04 2017-11-28 深圳市唯特视科技有限公司 一种基于级联卷积神经网络的低剂量x射线图像去噪方法
CN107886073A (zh) * 2017-11-10 2018-04-06 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN108647595A (zh) * 2018-04-26 2018-10-12 华中科技大学 基于多属性深度特征的车辆重识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222709A (zh) * 2019-04-29 2019-09-10 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN110222709B (zh) * 2019-04-29 2022-01-25 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN111897985A (zh) * 2020-06-23 2020-11-06 西安交通大学 图像多标签分类方法、系统、设备及可读存储介质
CN111897985B (zh) * 2020-06-23 2021-10-01 西安交通大学医学院第一附属医院 图像多标签分类方法、系统、设备及可读存储介质
CN116310516B (zh) * 2023-02-20 2023-11-21 交通运输部水运科学研究所 船舶分类方法及装置

Similar Documents

Publication Publication Date Title
CN109685110B (zh) 图像分类网络的训练方法、图像分类方法及装置、服务器
CN103325061B (zh) 一种社区发现方法和系统
CN109635171A (zh) 一种新闻节目智能标签的融合推理系统和方法
CN103761254B (zh) 多领域服务主题匹配推荐方法
CN106326345A (zh) 一种基于用户行为的社交网络中朋友关系挖掘方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
US8688603B1 (en) System and method for identifying and correcting marginal false positives in machine learning models
CN108765076B (zh) 母婴内容推荐方法、装置及可读存储介质
US20110137908A1 (en) Assigning into one set of categories information that has been assigned to other sets of categories
CN103559199B (zh) 网页信息抽取方法和装置
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN108022116B (zh) 对用户建模的方法、系统及终端设备
CN107784372A (zh) 目标对象属性的预测方法、装置和系统
CN105045909B (zh) 从文本中识别商品名称的方法和装置
CN110263257A (zh) 基于深度学习的多源异构数据混合推荐模型
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN110119688A (zh) 一种利用视觉注意力协同网络的图像情感分类方法
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
CN110727813A (zh) 一种商品图片的自适应热门指数排序方法
CN109657726A (zh) 一种图片多标签分类方法
CN107423396A (zh) 一种基于功能隐含关系及聚类的Mashup推荐方法
CN102622609A (zh) 一种基于支持向量机的三维模型自动分类方法
CN112131389A (zh) LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN115982379A (zh) 基于知识图谱的用户画像构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190419

RJ01 Rejection of invention patent application after publication