CN115205606A - 一种图像的多标签分类的方法、装置及相关产品 - Google Patents

一种图像的多标签分类的方法、装置及相关产品 Download PDF

Info

Publication number
CN115205606A
CN115205606A CN202210980809.XA CN202210980809A CN115205606A CN 115205606 A CN115205606 A CN 115205606A CN 202210980809 A CN202210980809 A CN 202210980809A CN 115205606 A CN115205606 A CN 115205606A
Authority
CN
China
Prior art keywords
label
sample
training
classification model
label classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210980809.XA
Other languages
English (en)
Inventor
纪承
蔡振宇
王龙滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Power Information Technology Co ltd
Original Assignee
Beijing Sohu New Power Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Power Information Technology Co ltd filed Critical Beijing Sohu New Power Information Technology Co ltd
Priority to CN202210980809.XA priority Critical patent/CN115205606A/zh
Publication of CN115205606A publication Critical patent/CN115205606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种图像的多标签分类的方法、装置及相关产品,可应用于人工智能领域。该方法包括:首先获取待分类图像,然后将待分类图像输入至预设的多标签分类模型,得到图像的多标签分类结果。预设的多标签分类模型的训练样本集为训练标签个数少于实际标签总个数的样本组成的第一样本集。即采用样本标签中的部分标签作为训练样本。因此,使用部分标签进行模型训练,可以减少不准确标签参与训练的概率,提高训练样本中样本标签的准确性。如此,利用上述训练样本集训练多标签分类模型,可以减少因标签标注偏差导致模型出现过度拟合问题,提升图像多标签分类的分类准确度。

Description

一种图像的多标签分类的方法、装置及相关产品
技术领域
本申请涉及人工智能领域,尤其涉及一种图像的多标签分类的方法、装置及相关产品。
背景技术
近年来,深度学习模型以端到端、高准确率和高实用性等优点,在标签图像分类领域应用越来越广泛,比如,深度神经网络模型在单标签图像分类领域的应用。然而,在现实场景中往往需要对图形进行多标签分类。其中,一个标签用于表示图片内容的一个属性。
目前,可以采用训练后的多标签分类模型进行图像多标签分类,比如,利用训练后的Xception神经网络模型进行图像多标签分类。然而这种训练后的多标签分类模型往往会因标签的标注偏差出现过度拟合问题。利用这种多标签分类模型对图像进行多标签分类,分类准确度较低。
发明内容
有鉴于此,本申请实施例提供了一种图像的多标签分类的方法、装置及相关产品,旨在减轻多标签分类模型在训练时出现过度拟合问题的程度,提升图像多标签分类的分类准确度。
第一方面,本申请实施例提供了一种图像的多标签分类方法,所述方法包括:
获取待分类图像;
将所述待分类图像输入到预设的多标签分类模型,输出所述待分类图像的至少一个标签,获得所述待分类图像的多标签分类结果;所述一个标签用于表示图像的一个内容属性;
其中,所述预设的多标签分类模型的训练样本集包括第一样本集;所述第一样本集为训练的标签个数少于实际标签总个数的样本的集合。
可选的,所述预设的多标签分类模型通过以下方式训练得到:
获取所述第一样本集和测试集;
针对当前轮次的训练,基于所述第一样本集和第一损失函数训练多标签分类模型,获得预设的多标签分类模型;所述第一损失函数与所述第一样本集中每个样本的样本标签比值相关;所述样本标签比值为样本中训练的标签个数占实际标签总个数的比;
基于所述测试集,确定所述预设的多标签分类模型的分类评估指标;所述分类评估指标用于表示所述预设的多标签分类模型的性能;
响应于所述分类评估指标满足预设条件,完成对所述多标签分类模型的训练。
可选的,所述第一损失函数通过以下方式得到:
确定所述第一样本集中每个样本的样本标签比值;
根据预设的样本标签比值与样本权重的映射关系,确定所述第一样本集中每个样本的样本权重;
利用确定的所述每个样本的样本权重对所述第一样本集中每个样本的第二损失函数进行加权平均处理,得到所述第一损失函数。
可选的,所述第一样本集包括第一样本,所述基于所述第一样本集和第一损失函数训练多标签分类模型,包括:
根据所述第一样本,构建所述第一样本的多标签向量集;所述第一样本的多标签向量集为所述第一样本中每个训练标签对应的多维向量的集合;
将所述第一样本的多标签向量集输入至所述多标签分类模型,网络输出层输出所述第一样本中每个训练标签的预测概率;所述每个训练标签的预测概率用于指示所述训练标签为正类的概率;
基于所述每个训练标签的预测概率和所述第一损失函数,训练所述多标签分类模型。
可选的,所述预设的多标签分类模型的训练样本集还包括第二样本集;所述第二样本集为训练的标签个数等于实际标签总个数的样本的集合;
所述预设的多标签分类模型的训练方式还包括:
针对当前轮次的训练,基于所述第一样本集和所述第二样本集,利用第三损失函数训练多标签分类模型,获得预设的多标签分类模型;所述第三损失函数包括第一损失函数和第四损失函数。
可选的,所述第三损失函数还包括正则权重,所述正则权重用于表述所述第一样本集的损失对最终损失的贡献程度;
所述第三损失函数通过以下方式得到:
将所述正则权重和所述第一损失函数的积与所述第四损失函数相加,获得第三损失函数。
第二方面,本申请实施例还提供一种图像的多标签分类装置,所述装置包括:
获取单元,用于获取待分类图像;
分类单元,用于将所述待分类图像输入至预设的多标签分类模型,输出所述待分类图像的至少一个标签,获得所述待分类图像的多标签分类结果;所述一个标签用于表示图像的一个内容属性;
其中,所述预设的多标签分类模型的训练样本集包括第一样本集;所述第一样本集为训练的标签个数少于实际标签总个数的样本组成的集合。
可选的,所述装置还包括训练单元,用于训练多标签分类模型;所述训练单元包括:
获取模块,用于获取所述第一样本集和测试集;
训练模块,用于针对当前轮次的训练,基于所述第一样本集和第一损失函数训练多标签分类模型,获得预设的多标签分类模型;所述第一损失函数与所述第一样本集中每个样本的样本标签比值相关;所述样本标签比值为样本中训练的标签个数占实际标签总个数的比;
确定模块,用于基于所述测试集,确定所述预设的多标签分类模型的分类评估指标;所述分类评估指标用于表示所述预设的多标签分类模型的性能;
响应模块,用于响应于所述分类评估指标满足预设条件,完成对所述多标签分类模型的训练。
第三方面,本申请实施例还提供了一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面任一项所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使所述计算机执行如第一方面任一项所述的方法。
本申请提供了一种图像的多标签分类的方法、装置及相关产品。在执行所述方法时,首先获取待分类图像。然后将待分类图像输入至预设的多标签分类模型,得到图像的多标签分类结果。预设的多标签分类模型采用由训练标签个数少于实际标签总个数的样本组成的第一样本集作为训练样本集。即采用样本标签中的部分标签作为训练样本。因此,在进行模型训练时,选择部分标签可以减少不准确标签参与训练的概率,从而提高训练样本中样本标签的准确性。如此,利用上述训练样本训练多标签分类模型可以减轻模型出现过度拟合问题的程度,提升图像进行多标签分类的分类准确度。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种图像的多标签分类方法流程图;
图3为本申请实施例提供的一种多标签分类模型的训练方法流程图;
图4为本申请实施例提供的另一种多标签分类模型的训练方法流程图;
图5本申请实施例还提供了一种多标签图像分类的装置结构示意图。
具体实施方式
正如前文所述,现有技术往往采用训练后的多标签分类模型进行图像多标签分类。发明人发现:上述多标签分类模型的训练样本集为全标签样本组成样本集。即利用样本集中所有样本的所有标签对多标签分类模型进行训练。然而,一方面,收集样本集中所有样本的全部标签,难度比较大,且需要花费大量的资源和成本。如此,考虑收集成本,会减少训练样本的规模,导致训练后模型的容错性和鲁棒性较低。另一方面,全标签样本也难以保证样本每个标签的准确性。比如,颜色相近的薰衣草和郁金香可能被混标。存在歧义或错误标注的标签会给样本带来标注偏差,训练后的多标签分类模型往往会存在过度拟合的问题。
因此,本申请提出了利用部分标签样本组成的样本集进行多标签分类模型训练的方式。即利用训练标签个数少于实际标签总个数的样本组成样本集作为训练样本集进行多标签分类模型训练。通过排除样本中不确定或不准确的标签,利用样本中准确性较高的部分标签进行训练,可以减轻模型出现过度拟合问题的程度,提升图像多标签分类的分类准确度。
为了使本领域技术人员更好的理解本申请技术方案,首先,对本申请技术方案的应用场景集合本申请实施例中的附图,进行描述。
参见图1,为本申请实施例提供的一种应用场景示意图。如图1所示,该应用场景包括终端设备110,该终端设备110可以为具有处理功能的任意电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
该终端设备110例如可以对输入的图像120进行处理,具体可以对输入的图像进行识别,并根据识别结果为图像添加多个标签130,该多个标签130可以分别指示图像中的内容的多个属性。其中,该终端设备110例如可以基于多标签分类模型将图像的处理结果确定为向图像添加的多个标签。通过该多个标签的添加,例如可以实现对图像120中对象的检测,确定图像120中的含有哪些标签,对图像进行多标签分类。
该应用场景还包括服务器140。终端设备110可以通过网络与服务器140通信连接,网络可以包括有线或无线通信链路。示例性地,服务器140可以用于训练多标签分类模型,并响应于终端设备110发送的模型获取请求,将训练好的多标签分类模型150发送给终端设备110,便于终端设备110对输入的图像进行识别,确定向图像120添加的多个标签。服务器140还可以用于多模态特征提取和融合180,也可以用于知识图谱构建170。
示例性地,服务器例如可以是提供各种服务的服务器,例如可以为对终端设备110上运行的应用程序提供支持的后台管理服务器。例如,该服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
该应用场景还包括数据库160,该数据库160例如可以维护有海量的图像,该海量的图像中包括具有标签的图像,图像具有的标签可以指示图像内容的一个属性。服务器140例如可以访问该数据库160,并从数据库中海量的图像中随机抽取部分图像,将抽取的图像作为训练样本对多标签分类模型进行训练。
需要说明的是,本申请所提供的多标签分类模型的训练方法可以由服务器140执行。相应地,本申请所提供的多标签分类模型的训练装置可以设置于服务器140中。本申请所提供的预测标签的方法可以由终端设备110执行。相应地,本申请所提供的预测标签的装置可以设置于终端设备110中。
应该理解,图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、服务器和数据库。
对于多标签分类模型,可以应用在多种领域,比如对手机相册图片进行内容识别并自动分类,或作为上游任务为知识图谱构建、多模态特征提取与融合等人工智能下游任务提供数据和特征支撑。
接着,针对本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图2,为本申请实施例提供的一种图像的多标签分类方法流程图。该方法至少包括以下步骤:
S201:获取待分类图像。
终端设备可以通过多种方式获取待分类图像,比如通过图像采集设备进行待分类图像采集或从数据库中抽取待分类图像。例如,可以通过智能手机或相机获取风景照片。
S202:将待分类图像输入至预设的多标签分类模型,输出待分类图像的至少一个标签,获得待分类图像的多标签分类结果。
终端设备将获取的待分类图像输入至预设的多标签分类模型,通过识别输入图像中的属性,并根据预先确定的标签与属性的对应关系,输出待分类图像的至少一个标签。这些输出的标签即为待分类图像的多标签分类结果。
标签用于表述图像的一个内容属性。其中标签与内容属性之间的对应关系为预先确定的。比如,可以通过添加的方式构建标签与内容属性之间的对应关系。具体方式图1已经详细描述,这里不再细说。
在本申请实施例中,预设的多标签分类模型可以通过训练的方式获得,训练样本包括第一样本集。第一样本集为训练的标签个数少于实际标签总个数的样本组成的集合。示例性说明:一个含100张图像样本,每个样本标签总个数为10的样本集,其中20个样本中均有3个标签未被标注或被人工掩盖。即,这20个样本如果作为训练样本进行训练,未标注或被掩盖的标签都不会被识别训练,即参与训练的标签个数小于实际标签总个数。则这20个样本即为第一样本集。在实际应用过程中,选择部分标签可以减少存在歧义或错标标签参与训练的概率。因此,利用第一样本集作为训练样本可以减少样本的标注偏差,提高样本的准确性,从而减轻训练后的多标签分类模型出现过度拟合问题的程度。
在本申请实施例中,所选用的多标签分类模型可以为Xception神经网络模型。Xception神经网络是改进的Inception网络,通过调节3*3卷积分支数与1*1卷积通道数的比例,将通道相关性与空间相关性完全分离。相对于Inception网络,减少了模型参数规模,提升模型训练和推理的性能。在本申请实施例中,多标签分类模型也可选用其他的深度卷积神经网络。
本申请提供了一种图像的多标签分类的方法,首先获取待分类图像。然后将待分类图像输入至预设的多标签分类模型,得到图像的多标签分类结果。预设的多标签分类模型采用由训练标签个数少于实际标签总个数的样本组成的第一样本集作为训练样本。因此,在进行模型训练时,选择部分标签可以减少不确定或不准确标签参与训练的概率,从而提高训练样本中样本标签的准确性。如此,利用上述训练样本训练多标签分类模型可以减轻模型出现过度拟合问题的程度,从而提升图像多标签分类的分类准确度。
关于图2中多标签分类模型的训练,具有多种实现方式。为了更好说明多标签分类模型的训练,下面结合本申请实施例中附图,进行描述。
参见图3,为本申请实施例提供的一种多标签分类模型的训练方法流程图。应用于Xception神经网络模型,该方法至少包括以下几个步骤:
S301:获取第一样本集和测试集。
在本申请实施例中,第一样本集为训练的标签个数少于实际标签总个数的样本组成的集合。测试集则是用于测试训练后的多标签分类模型的效果。
在本申请实施例中,对第一样本集的标签做文本格式处理,将每个样本的文本格式标签转换为0、1数字特征,最终形成多标签向量集。比如第一样本集中图像标签的总类别为1600类,则可以将每个样本的标签都表示为一个1600维的稀疏多热向量,其中1代表该标签被标注,0代表未被标注。
S302:针对当前轮次的训练,基于第一样本集和第一损失函数训练多标签分类模型,获得训练后的多标签分类模型。
在本申请实施例中,多标签分类模型为Xception神经网络模型。具体的,将上述第一样本集以及样本对应的标签向量输入到Xception神经网络,进行卷积处理,网络输出层经过激活函数激活后输出第一样本集中每个训练标签的预测概率。其中,预测概率用于指示训练标签为正类的概率。在本申请实施例中,激活函数可以选择Sigmoid激活函数。利用预测概率结果和真实标签向量计算当前模型损失,使用随机梯度下降算法对损失进行最小优化,从而更新模型参数取值。
在本申请实施例中,引入了第一损失函数Partial Label Loss损失函数。其中,该损失函数与第一样本集中每个样本的样本标签比值相关,其中样本标签比值为样本中训练的标签个数占实际标签总个数的比。
在本申请实施例中,可以通过下述方式获得第一损失函数:确定第一样本集中每个样本的样本标签比值;根据样本标签比值与样本权重的映射关系,确定第一样本集中每个样本的样本权重,利用样本权重对第一样本集中每个样本的第二损失函数进行加权平均处理,获得第一损失函数。
示例性说明:预设样本权重与样本标签比值的映射关系为:
Figure BDA0003800351980000091
其中,py为第一样本集中每个样本的部分标签标签比值,通过计算训练标签个数与实际标签总个数的比值确定。α、β、γ为模型的映射参数,本领域技术人员根据需要可以自行设定。g(py)为该样本的样本权重。
第一损失函数Partial Label Loss损失函数为:
Figure BDA0003800351980000092
其中,C为第一样本集中的样本标签的全集;
Figure BDA0003800351980000093
表示该样本被标注为当前标签;
Figure BDA0003800351980000094
该样本未被标注为当前标签。
在本申请实施例中,第一样本集包括第一样本,根据第一样本的标签,构建所述第一样本的多标签向量集。其中多标签向量集为第一样本中每个训练标签对应的多维向量的集合。
将多标签向量集输入至多标签分类模型,网络输出层会输出第一样本中每个训练标签的预测概率。利用每个训练标签的预测概率和第一损失函数,可以训练所述多标签分类模型。
S303:基于测试集,确定训练后的多标签分类模型的分类评估指标。
在本申请实施例中,将测试集输入到训练后的多标签分类模型,判断训练结果。具体的可以通过分类评估指标来确定多标签分类模型性能提升效果。在本申请实施例中,分类评估指标可以为分类标签的AUC值和F1值。
S304:响应于分类指标满足预设条件,完成对多标签分类模型的训练。
在本申请实施例中,分类指标为分类评估指标。具体为:判断分类评估指标是否达到预设阈值,若是,则完成对多标签分类模型的训练,否则,需要调整模型映射参数,继续训练分类模型,直到满足预设阈值即可。
在本申请实施例中,通过引入第一损失函数Partial Label Loss损失函数,可以确定部分标签样本组成的样本集对整个训练的影响,减轻模型出现过度拟合问题的程度,进一步提升训练后的多标签分类模型的分类准确度。
参见图4,为本申请实施例提供的另一种多标签分类模型的训练方法流程图。应用于Xception神经网络模型,该方法至少包括以下步骤:
S401:获取训练样本集和测试集,其中训练样本集包括第一样本集和第二样本集。
在本申请实施例中,第一样本集为训练的标签个数少于实际标签总个数的样本组成的集合。第二样本集为训练的标签个数等于实际标签总个数的样本的集合。比如,训练样本集为100个,训练的标签个数少于实际标签总个数的样本为20个,则第一样本集为上述20个样本组成的集合。第二样本集则为剩余的80个样本。在本申请实施例中的训练样本既涉及第一样本集,也涉及第二样本集。
S402:针对当前轮次的训练,基于训练样本集和第三损失函数训练多标签分类模型,获得训练后的多标签分类模型。
在当前轮次的训练中,将获得的训练样本集输入至多标签分类模型。进行卷积处理,网络输出层经过激活函数激活后输出目标样本集中每个样本的每个训练标签的预测概率。利用预测概率结果和真实标签向量计算当前模型损失,使用随机梯度下降算法对损失进行最小优化,从而更新模型参数取值。
在本申请实施例中,引入了第三损失函数。其中,第三损失函数包括第一损失函数和第四损失函数。
在本申请实施例中,第三损失函数为正则权重与第一损失函数的乘积与第四损失函数的和。其中正则权重用于表述所述第一样本集的损失对最终损失的贡献程度。第一损失函数与图3所述的第一损失函数相同,这里不再论述。
示例性说明:第三损失函数可表示为:
l=lmulti-sigmoid+ωlpartial-label
其中,第四损失函数为Multi-Sigmoid损失函数,ω为控制第一损失函数对第三损失函数影响作用的正则权重,本领域技术人员根据需要可以自行调整。其中,Multi-Sigmoid损失函数是将多标签分类任务拆分成多个二分类任务,每个二分类任务使用二元交叉熵(Binary Cross Entropy Loss)计算损失。
通过在现有损失函数中引入第一损失函数,用第一损失函数限制现有损失函数,能在一定程度起到正则项的作用。通过减少使用全部标签训练可能引入的标注偏差,减轻模型出现过度拟合问题的程度,从而提升图像多标签分类的准确度。
S403:基于测试集,确定训练后的多标签分类模型的分类评估指标。
S404:响应于所述分类指标满足预设条件,完成对所述多标签分类模型的训练。
上述步骤中S403和S404与图3中S303和S304实现方式相同,这里不再论述。
为了更形象的说明图4所述的多标签分类模型的训练,下面以480P的视频封面图片作为输入样本进行示例性说明:
选取目标样本集规模为1000万张,测试集为100万张。部分标注的样本(标签数少于3)约占样本总数的70%。具体的,标签数为1的样本占27.91%,标签数为2占40.75%。图像的标签类别总数为1600类,包括古装、都市、剧情等。每张图像的标签都表示为一个1600维稀疏多热向量。其中已标注的标签维度赋1,未标注的标签维度赋0。
利用上述目标样本集及对应的标签输入至Xception神经网络模型进行监督学习训练。网络输出层采用Multi-Sigmoid函数作为激活函数。模型输出是一个1600维稀疏向量,各维度的取值范围在0-1之间,其中取值越接近1表示模型预测输入图像属于该标签的概率越大。
本模型采用的损失函数为:
l=lmulti-sigmoid+ωlpartial-label
采用标签的AUC值和F1值作为模型分类评估指标。经小规模预训练进行映射参数搜索后,获得一组理想的参数选择(α=0.1、β=1、γ=-1、ω=0.1)。使用上述模型训练10万步后,标签的AUC值和F1值趋于稳定并能持续小幅提升,20万步后新模型较现有模型相比,AUC值提升0.30%,F1值提升1.53%,参见表1,为本申请实施例提供的部分标签模型AUC值和F1值提升结果表。在本申请实施例中,现有模型为训练后的Xception神经网络模型结合全标签样本训练集训练后获得模型。
Figure BDA0003800351980000121
表1
本申请实施例使用大量部分标注的图像样本进行训练,并在模型中增加PartialLabel Loss损失,对Multi-Sigmoid Loss做正则化改进,提升标签AUC值和F1值,进一步提高了多标签分类的准确度。
本申请实施例还提供了一种多标签图像分类的装置500结构示意图,参见图5。由图5可知,该装置包括:
获取单元501,用于获取待分类图像。
分类单元502,用于将待分类图像输入值预设的多标签分类模型,输出待分类图像的至少一个标签,获得待分类图像的多标签分类结果;一个标签用于表示图像的一个内容属性。
其中,预设的多标签分类模型的训练样本集包括第一样本集;第一样本集为训练的标签个数少于实际标签总个数的样本组成的集合。
可选的,该装置500还包括训练单元,用于训练多标签分类模型。其中,训练单元包括:
获取模块,用于获取第一样本集和测试集。
训练模块,用于针对当前轮次的训练,基于第一样本集和第一损失函数训练多标签分类模型,获得训练后的多标签分类模型;第一损失函数与第一样本集中每个样本的样本标签比值相关;样本标签比值为样本中训练的标签个数占实际标签总个数的比。
确定模块,用于基于测试集,确定训练后的多标签分类模型的分类评估指标,所述分类评估指标用于表示所述多标签分类的准确度。
响应模块,用于响应于分类评估指标满足预设条件,完成对多标签分类模型的训练。
可选的,所述第一损失函数通过以下方式得到:
确定所述第一样本集中每个样本的样本标签比值;
根据预设的样本标签比值与样本权重的映射关系,确定所述第一样本集中每个样本的样本权重;
利用确定的所述样本权重对所述第一样本集中每个样本的第二损失函数进行加权平均处理,得到所述第一损失函数。
可选的,所述第一样本集包括第一样本,所述基于所述第一样本集和第一损失函数训练所述多标签分类模型,包括:
根据所述第一样本,构建所述第一样本的多标签向量集;所述多标签向量集为所述第一样本中每个训练标签对应的多维向量的集合;
将所述多标签向量集输入至所述多标签分类模型,网络输出层输出所述第一样本中每个训练标签的预测概率;所述预测概率用于指示所述训练标签为正类的概率;
基于所述每个训练标签的预测概率和所述第一损失函数,训练所述多标签分类模型。
可选的,所述预设的多标签分类模型的训练样本集还包括第二样本集;所述第二样本集为训练的标签个数等于实际标签总个数的样本的集合;
所述预设的多标签分类模型的训练方式还包括:
针对当前轮次的训练,基于所述第一样本集和所述第二样本集,利用第三损失函数训练所述多标签分类模型,获得训练后的多标签分类模型;所述第三损失函数包括第一损失函数和第四损失函数。
可选的,所述第三损失函数还包括正则权重,所述正则权重用于表述所述第一样本集的损失对最终损失的贡献程度;
将所述第四损失函数与所述正则权重和所述第一损失函数的积相加,获得第三损失函数。
本申请实施例提供的一种图像的多标签分类装置。其中,获取单元501获取待分类图像。分类单元502将待分类图像输入至预设的多标签分类模型,得到图像的多标签分类结果。预设的多标签分类模型采用由训练标签个数少于实际标签总个数的样本组成的第一样本集为训练样本。即采用样本标签中的部分标签作为训练样本。因此,在进行模型训练时,选择部分标签可以减少不确定或不准确标签参与训练的概率,从而提高训练样本中样本标签的准确性。如此,利用上述训练样本训练多标签分类模型可以减少出现过度拟合问题的程度,从而提升图像多标签分类的分类准确度。
此外,本申请实施例还提供了一种电子设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行图像的多标签分类方法。
所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本申请任一实施例所述的图像的多标签分类方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。

Claims (10)

1.一种图像的多标签分类方法,其特征在于,所述方法包括:
获取待分类图像;
将所述待分类图像输入到预设的多标签分类模型,输出所述待分类图像的至少一个标签,获得所述待分类图像的多标签分类结果;所述一个标签用于表示图像的一个内容属性;
其中,所述预设的多标签分类模型的训练样本集包括第一样本集;所述第一样本集为训练的标签个数少于实际标签总个数的样本的集合。
2.根据权利要求1所述方法,其特征在于,所述预设的多标签分类模型通过以下方式训练得到:
获取所述第一样本集和测试集;
针对当前轮次的训练,基于所述第一样本集和第一损失函数训练多标签分类模型,获得预设的多标签分类模型;所述第一损失函数与所述第一样本集中每个样本的样本标签比值相关;所述样本标签比值为样本中训练的标签个数占实际标签总个数的比;
基于所述测试集,确定所述预设的多标签分类模型的分类评估指标;所述分类评估指标用于表示所述预设的多标签分类模型的性能;
响应于所述分类评估指标满足预设条件,完成对所述多标签分类模型的训练。
3.根据权利要求2所述方法,其特征在于,所述第一损失函数通过以下方式得到:
确定所述第一样本集中每个样本的样本标签比值;
根据预设的样本标签比值与样本权重的映射关系,确定所述第一样本集中每个样本的样本权重;
利用确定的所述每个样本的样本权重对所述第一样本集中每个样本的第二损失函数进行加权平均处理,得到所述第一损失函数。
4.根据权利要求2所述方法,其特征在于,所述第一样本集包括第一样本,所述基于所述第一样本集和第一损失函数训练多标签分类模型,包括:
根据所述第一样本,构建所述第一样本的多标签向量集;所述第一样本的多标签向量集为所述第一样本中每个训练标签对应的多维向量的集合;
将所述第一样本的多标签向量集输入至所述多标签分类模型,网络输出层输出所述第一样本中每个训练标签的预测概率;所述每个训练标签的预测概率用于指示所述训练标签为正类的概率;
基于所述每个训练标签的预测概率和所述第一损失函数,训练所述多标签分类模型。
5.根据权利要求2所述方法,其特征在于,所述预设的多标签分类模型的训练样本集还包括第二样本集;所述第二样本集为训练的标签个数等于实际标签总个数的样本的集合;
所述预设的多标签分类模型的训练方式还包括:
针对当前轮次的训练,基于所述第一样本集和所述第二样本集,利用第三损失函数训练多标签分类模型,获得预设的多标签分类模型;所述第三损失函数包括第一损失函数和第四损失函数。
6.根据权利要求5所述方法,其特征在于,所述第三损失函数还包括正则权重,所述正则权重用于表述所述第一样本集的损失对最终损失的贡献程度;
所述第三损失函数通过以下方式得到:
将所述正则权重和所述第一损失函数的积与所述第四损失函数相加,获得第三损失函数。
7.一种图像的多标签分类的装置,其特征在于,所述装置包括:
获取单元,用于获取待分类图像;
分类单元,用于将所述待分类图像输入至预设的多标签分类模型,输出所述待分类图像的至少一个标签,获得所述待分类图像的多标签分类结果;所述一个标签用于表示图像的一个内容属性;
其中,所述预设的多标签分类模型的训练样本集包括第一样本集;所述第一样本集为训练的标签个数少于实际标签总个数的样本组成的集合。
8.根据权利要求7所述装置,其特征在于,所述装置还包括训练单元,用于训练多标签分类模型;所述训练单元包括:
获取模块,用于获取所述第一样本集和测试集;
训练模块,用于针对当前轮次的训练,基于所述第一样本集和第一损失函数训练多标签分类模型,获得预设的多标签分类模型;所述第一损失函数与所述第一样本集中每个样本的样本标签比值相关;所述样本标签比值为样本中训练的标签个数占实际标签总个数的比;
确定模块,用于基于所述测试集,确定所述预设的多标签分类模型的分类评估指标;所述分类评估指标用于表示所述预设的多标签分类模型的性能;
响应模块,用于响应于所述分类评估指标满足预设条件,完成对所述多标签分类模型的训练。
9.一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-6任一项所述的方法。
CN202210980809.XA 2022-08-16 2022-08-16 一种图像的多标签分类的方法、装置及相关产品 Pending CN115205606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210980809.XA CN115205606A (zh) 2022-08-16 2022-08-16 一种图像的多标签分类的方法、装置及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980809.XA CN115205606A (zh) 2022-08-16 2022-08-16 一种图像的多标签分类的方法、装置及相关产品

Publications (1)

Publication Number Publication Date
CN115205606A true CN115205606A (zh) 2022-10-18

Family

ID=83586286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980809.XA Pending CN115205606A (zh) 2022-08-16 2022-08-16 一种图像的多标签分类的方法、装置及相关产品

Country Status (1)

Country Link
CN (1) CN115205606A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118171208A (zh) * 2024-05-16 2024-06-11 江西广播电视网络传媒有限公司 多模态多标签联级分类方法、系统、存储介质及计算机

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118171208A (zh) * 2024-05-16 2024-06-11 江西广播电视网络传媒有限公司 多模态多标签联级分类方法、系统、存储介质及计算机
CN118171208B (zh) * 2024-05-16 2024-07-26 江西广播电视网络传媒有限公司 多模态多标签联级分类方法、系统、存储介质及计算机

Similar Documents

Publication Publication Date Title
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN109145828B (zh) 用于生成视频类别检测模型的方法和装置
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
CN111950528B (zh) 图表识别模型训练方法以及装置
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN114529765B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN115205606A (zh) 一种图像的多标签分类的方法、装置及相关产品
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN113407837A (zh) 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统
CN117095252A (zh) 目标检测方法
CN116958730A (zh) 图像识别模型的训练方法和装置、存储介质及电子设备
Zhang et al. Wild plant data collection system based on distributed location
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114821188A (zh) 图像处理方法、场景图生成模型的训练方法以及电子设备
CN114627085A (zh) 目标图像的识别方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination