CN117058489B - 多标签识别模型的训练方法、装置、设备及存储介质 - Google Patents

多标签识别模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117058489B
CN117058489B CN202311297998.1A CN202311297998A CN117058489B CN 117058489 B CN117058489 B CN 117058489B CN 202311297998 A CN202311297998 A CN 202311297998A CN 117058489 B CN117058489 B CN 117058489B
Authority
CN
China
Prior art keywords
category
result
categories
label
symbiotic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311297998.1A
Other languages
English (en)
Other versions
CN117058489A (zh
Inventor
高英国
鄢科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311297998.1A priority Critical patent/CN117058489B/zh
Publication of CN117058489A publication Critical patent/CN117058489A/zh
Application granted granted Critical
Publication of CN117058489B publication Critical patent/CN117058489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种多标签识别模型的训练方法、装置、设备及存储介质,属于人工智能技术领域。本方法可应用于云技术、人工智能、智慧交通、辅助驾驶等场景。方法包括:获取多个类别之间的类别共生信息,类别共生信息用于表征多个类别中每两个类别之间的相似程度;通过多标签识别模型对样本图像进行处理,得到预测结果;预测结果包括预测得到的样本图像分别相关于多个类别的可能性,多个类别包括第一类别;根据类别共生信息和预测结果,确定样本图像的伪标签信息;伪标签信息包括样本图像在多个类别上的伪标签;根据伪标签和预测结果,对多标签识别模型的参数进行调整,得到训练后的多标签识别模型。本方法有助于提升训练后的多标签识别模型识别图像的准确度。

Description

多标签识别模型的训练方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种多标签识别模型的训练方法、装置、设备及存储介质。
背景技术
为了减少标注训练图像的人工成本,采用单正例标注法对用于训练多标签识别模型的训练样本进行标注,标注后的训练图像在一个类别上具有正例标签,其他未标注的类别上的默认为负例标签。
相关技术中,在多标签识别模型的训练过程中,对于任意一个训练图像,通过多标签识别模型对训练图像进行处理,确定包括训练图像分别与多个类别相关性的预测结果;根据预测结果和各个类别上的标签,计算多标签识别模型的训练损失,并根据训练损失对多标签识别模型的模型参数进行调整,得到训练后的多标签识别模型。
然而,由于训练样本中可能包括不止一个类别,这些类别中除了有一个类别上标注有正例标签之外,其他类别被默认为负例标签,导致样本图像在多个类别上的标签不确定,影响了训练后的多标签识别模型对训练图像的进行识别的准确性。
发明内容
本申请提供了一种多标签识别模型的训练方法、装置、设备及存储介质。所述技术方案如下所示。
根据本申请实施例的一个方面,提供了一种多标签识别模型的训练方法,所述方法包括以下几个步骤。
获取多个类别之间的类别共生信息,所述类别共生信息用于表征所述多个类别中每两个类别之间的相似程度;
通过多标签识别模型对样本图像进行处理,得到所述样本图像的预测结果;其中,所述样本图像具有第一类别上的正例标签,所述预测结果包括预测得到的所述样本图像分别相关于所述多个类别的可能性,所述多个类别包括所述第一类别;
根据所述类别共生信息和所述预测结果,确定所述样本图像的伪标签信息;其中,所述伪标签信息包括所述样本图像在所述多个类别上的伪标签;
根据所述伪标签和所述预测结果,对所述多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
根据本申请实施例的一个方面,提供了一种多标签识别模型的训练装置,所述装置包括以下几个模块。
信息获取模块,用于获取多个类别之间的类别共生信息,所述类别共生信息用于表征所述多个类别中每两个类别之间的相似程度;
结果生成模块,用于通过多标签识别模型对样本图像进行处理,得到所述样本图像的预测结果;其中,所述样本图像具有第一类别上的正例标签,所述预测结果包括预测得到的所述样本图像分别相关于所述多个类别的可能性,所述多个类别包括所述第一类别;
标签确定模块,用于根据所述类别共生信息和所述预测结果,确定所述样本图像的伪标签信息;其中,所述伪标签信息包括所述样本图像在所述多个类别上的伪标签;
模型训练模块,用于根据所述伪标签和所述预测结果,对所述多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的多标签识别模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的多标签识别模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如上所述的多标签识别模型的训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:在基于单正例多标签学习对多标签识别模型进行训练的情况下,多标签识别模型确定出样本图像的预测结果之后,计算机设备通过预测结果和类别共生信息对样本图像进行伪标注,得到样本图像的伪标签信息,并使用样本图像的伪标签信息和预测结果对多标签识别模型进行训练。一方面,通过联合多标签识别模型输出的预测结果和用于表征不同类别之间的共生关系的类别共生信息,确定样本图像的伪标签信息,不仅能够从多个类别中筛选出样本图像中漏标但是存在的类别(也即从多个类别找到对应于伪负例标签的至少一个类别);而且,确定样本图像的伪标签信息的过程无需依靠外来其他模型或者正则规则,有助于避免对多标签识别模型进行训练的过程中引入不必要的噪音,有助于提升多标签识别模型训练过程的训练效果。
另一方面,本方法能够自动对单正例多标签识别模型的样本图像在多个类别上对样本图像进行标注,生成样本图像的伪标签信息,有助于降低对样本图像进行标注的人工成本。而且,相比于原始的只具有单个正例标签的情况,样本图像的伪标签信息能够更加准确描述样本图像中包括的类别,在对多标签识别模型的参数进行调整的过程中起到更准确的指示作用,有助于解决采用单正例多标签学习训练多标签识别模型时,漏标的正例标签影响训练过程,导致出现多标签识别模型出现退化的情况。
附图说明
图1是本申请一个示例性实施例提供的方案实施环境的示意图;
图2是本申请一个示例性实施例提供的本申请发明构思的示意图;
图3是本申请一个示例性实施例提供的多标签识别模型的训练方法的流程图;
图4是本申请一个示例性实施例提供的类别共生信息生成过程的示意图;
图5是本申请一个示例性实施例提供的伪标签信息确定过程的示意图;
图6是本申请一个示例性实施例提供的参数调整过程的示意图;
图7是本申请一个示例性实施例提供的类别共生信息更新过程的示意图;
图8是本申请另一个示例性实施例提供的多标签识别模型的训练方法的流程图;
图9是本申请一个示例性实施例提供的多标签识别模型的训练装置的框图;
图10是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。
多标签图像识别:是计算机视觉领域下的一个分支。多标签图像识别旨在识别图片出现的所有物体的类别。多标签图像识别在对象属性识别,场景理解和弱监督检测等任务发挥重要的作用。在机器学习技术的发展过程中,通过机器学习模型完成多标签图像识别的方法正在逐步发展。
单正例多标签学习(Single Positive Multi-label Learning,SPML):是指在对多标签识别模型进行训练的过程中,对样本图像中包括的一个类别进行标注,得到在单个类别上具有正例标签的样本图像,并使用标注后的样本图像对多标签识别模型进行训练的方法。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,如计算机视觉领域,通过机器学习模型对图像中包含的物体类别进行识别,从而高效快速确定图像中包括的类别,在自动驾驶、图片搜索等领域得到广泛应用。
图1是本申请一个示例性实施例提供的方案实施环境的示意图。该方案实施环境可以包括:计算机设备10、终端设备20和服务器30。
计算机设备10包括但不限于个人计算机(Personal Computer,PC)、平板电脑、手机、可穿戴设备、智能家电、智能语音交互设备、智能家电、车载终端、飞行器等具有运算和存储能力的电子设备。计算机设备对多标签识别模型进行训练,得到训练后的多标签识别模型。
本申请中,多标签识别模型的训练过程中根据多个类别中每两个类别之间的关联程度确定类别共生信息,在多标签识别模型根据确定样本图像的预测结果之后,根据预测结果和类别共生信息对样本图像进行伪标注,生成样本图像的伪标签信息,并参考样本图像的伪标签信息对多标签识别模型的参数进行调整,得到训练后的多标签识别模型。有关对多标签识别模型进行训练的具体过程请参考下文实施例。
终端设备20可以是诸如个人计算机、平板电脑、手机、可穿戴设备、智能家电、车载终端、虚拟现实设备、增强现实设备等电子设备。终端设备20上运行有目标应用程序的客户端。目标应用程序具有图像识别功能,图像识别功能包括但不限于:动物识别、植物识别、商品识别、物品识别、路况识别、自动驾驶、病灶识别、场景识别、图像标注等,本申请在此不进行限定。例如,目标应用程度为图像识别类应用程序、动态检测类应用程序等。
此外,目标应用程序还可以是新闻类应用程序、购物类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、内容分享类应用程序、虚拟现实应用程序、增强现实类应用程序等。另外,对于不同的应用程序来说,多标签识别模型用于识别的类别种类可以相同,也可以不同,且目标应用程序在相应的功能也会有所不同,这都可以根据实际需求预先进行配置,本申请实施例对此不作限定。
在多标签识别模型的使用阶段,由终端设备20提供待识别图像,终端设备20将待识别图像传输给多标签识别模型,由多标签识别模型对待识别图像进行识别,生成关于待识别图像中包括的类别的预测结果,并将预测结果反馈给终端设备20。
服务器30用于为终端设备20中的目标应用程序的客户端提供后台服务。例如,服务器30可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务内容分发网络、(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。服务器30至少具有数据接收功能和计算功能。
可选地,计算机设备10搭载在服务器30中,或者,计算机设备10是不同于服务器30的其他设备。
在一个示例中,计算机设备10将训练后的多标签识别模型发送给服务器30,终端设备20向服务器30发送待识别图像,服务器30通过运行训练后的多标签识别模型根据待识别图像,确定待识别图像的预测结果。服务器30将预测结果反馈给终端设备20。
在另一个示例中,终端设备20向服务器30发送待识别图像,服务器30将待识别图像发送给计算机设备10,计算机设备10对待识别图像进行处理,得到待识别图像的预测结果。计算机设备10通过服务器30将预测结果转发给终端设备20。
本申请提供的多标签识别模型的训练方法得到的训练后的多标签识别模型的应用场景包括但不限于以下至少之一:1.自动驾驶领域,待识别图像通过车载终端实时拍摄得到,多个类别包括但不限于:机动车、自行车、行人、斑马线、行道线等;2.物品识别领域,待识别图像通过终端设备上传,多个类别包括但不限于:植物、动物、商品等;3.标签标注领域,待识别图像为其他模型在训练过程中需使用的样本图像,多个类别根据该其他模型的训练目标确定。
需要说明的是,上述应用场景仅代表对训练后的多标签识别模型的应用场景进行举例,并不代表对训练后的多标签识别模型的应用场景的限定。
对于多标签识别任务,获取关于训练图像在各个类别上的精确标签需要付出高昂的人工标注成本,如何在减少标注成本和保证多标签识别模型的性能之间达到一个平衡是亟需解决的问题。
针对多标签识别模型的样本图像存在高昂的标注成本的问题,目前相关技术中存在3种对样本定图像进行标注包括以下几个方案。
1)半监督识别方案:该方案对训练样本集中的部分样本图像进行全标注,也即对于这部分样本图像中的每一个样本图像,样本图像中包括的全部类别进行标注;训练样本集中除了上述样本图像之外的其他样本图像不进行标注。
2)弱监督识别方案:该方案对训练样本集中所有的样本图像进行标注,但对样本图像的标注属于粗标注,也即仅对样本图像中包括的部分类别进行标注。
3)带噪学习方案:该方案利用网络上或者其他途径获取的非人工标注的样本图像。
本申请提供的多标签识别模型的训练方法,主要基于SPML进行改进。下面,先对SPML方法进行简要的介绍。
SPML属于弱监督识别方法,SPML对多标签识别模型训练过程使用的每一个样本图像只标注一个类别上的正例标签,样本图像中包括的其他类别不会被标注为正例标签。对于SPML而言每个样本图像中只包括1个类别上的正例样本,因此SPML能够大幅度减少对样本图像进行标注的标注成本。
然而,SPML对多标签识别模式进行训练也存在一些弊端,这种训练方法的主要问题在于:样本图像中漏标的正例标签会导致网络退化。举个例子,假设某个样本图像中包括5个类别,分别为类别1、类别2、类别3、类别4和类别5,其中只有类别1被标注为正例标签,剩余的4个类别上不具有正例标签,在训练过程中剩余的4个类别被认为是负例标签;这导致在多标签识别模型的训练过程中,会以负例标签对应的类别损失计算方式对类别2、类别3、类别4和类别5上的类别损失进行计算,使得多标签识别模型的模型参数容易被污染,造成多标签识别模型识别出类别2、类别3、类别4和类别5的能力减弱,出现多标签识别模型的识别能力退化的问题。在上述例子中,存在于样本图像且未被标注成正例标签的类别,如类别2、类别3、类别4和类别5,这些类别上的标签称为样本图像中的伪负例(False Negative,FN)标签。
从特征抑制的角度来讲,FN会抑制多标签识别模型对实例特征的正确提取,或者错误地拉远多标签识别模型对与FN属于同类别的特征信息进行提取的能力。在多标签识别模型的训练末期,过拟合错误标签信息或者带噪声的标签信息,会导致多标签识别模型出现退化。
为了解决方案这个问题,相关技术中基于loss(损失)正则或伪标签的方式。以伪标签方式为例,相关技术中通过类型识别模型先对样本图像进行处理,预测样本图像在哪些类别上具有正例标签,在哪些类别上具有负例标签,得到样本图像的伪标签,并使用样本图像的伪标签参与多标签识别模型的训练过程。
然而,由于类别识别模型对样本图像进行处理所得到的样本图像的伪标签中存在噪声,这种方法容易在多标签识别模型的训练过程中引入额外的噪声,导致多标签识别模型的性能上限程度偏低,多标签识别模型的训练方法还需要进一步改进。
图2是本申请一个示例性实施例提供的本申请发明构思的示意图。
在本申请提供的多标签识别模型的训练方法中,在多标签识别模型确定出样本图像与多个类别分别相关的可能性(也即得到样本图像的预测结果)之后,计算机设备联合多标签识别模型的网络输出的预测结果和多个类别之间的类别共生信息,对样本图像进行伪标注,得到样本图像的伪标签信息。
通过这种方法有助于筛选确定出对应于伪负例标签的类别,使得在后续调整多标签识别模型的参数过程中,根据样本图像的伪标签信息的指示,对于不同类别采取相对适宜的方法计算类别损失,有助于缓解原始SPML方法中将样本图像中存在但是遗漏标注为正例类别的类别直接按照负例进行处理,引起的多标签识别模型在训练过程中出现退化的问题。
图3是本申请一个示例性实施例提供的多标签识别模型的训练方法的流程图。示例性地,该方法的执行主体可以是图1中的计算机设备10,下面将计算机设备作为执行主体,对多标签识别模型的训练方法进行介绍说明。如图3所示,该方法可以包括如下几个步骤(310~340)。
步骤310,获取多个类别之间的类别共生信息,类别共生信息用于表征多个类别中每两个类别之间的相似程度。
在一些实施例中,多个类别包括对多标签识别模型进行训练的过程中,期望多标签识别模型能识别的类别。可选地,多个类别中包括的类别数量,类别的种类与多标签识别模型的应用场景有关。例如,对于用于进行路况识别的多标签识别模型,多个类别中至少包括以下种类中的两个:机动车、自行车、行人、斑马线、行道线、树木、信号灯、建筑物等。又例如,对于用于进行物品识别的多标签识别模型,多个类别中至少包括以下种类中的至少两个:书本、桌子、椅子、台灯、滑雪手杖、滑雪板等。需要说明的是,类别的种类和类别数量根据实际需要进行设定,本申请在此不进行设定。
在一些实施例中,类别共生信息包括多个类别中每两个类别之间的共生数据,共生数据用于表征其对应的两个类别之间的相似程度。相似程度可以理解成两个类别之间的依赖关系。
可选地,两个类别之间的相似程度与共生数据的数值成正比。对于任意两个类别,若该两个类别之间的共生数据越大,则表示该两个类别之间的相似程度越大,也即该两个类别之间相互依赖,那么在确定样本图像中出现两个类别中的一个类别的情况下,样本图像中存在较大的概率出现两个类别中的另一个类别;若该两个类别之间的共生数据越小,则表示该两个类别之间的相似程度越小,也即该两个类别之间的依赖程度较小,也即该两个类别之间相互疏远。
可选地,两个类别中包括的类别1和类别2;类别1和类别2之间存在以下两种关系:关系1,类别1和类别2是指同一个的类别;关系2,类别1和类别2是多个类别中两个不同的类别。示例性地,对于关系2的情况,类别1和类别2之间的共生数据在数值上可以与类别2和类别1之间的共生数据相同,也可以不同。也就是说,类别1对类别2的依赖程度可以等于类别2对类别1的依赖程度,或者,类别1对类别2的依赖程度不等于类别2对类别1的依赖程度。有关共生数据的计算方法请参考下文实施例。
示例性地,在多个类别是由L个不同的类别组成的情况下,类别共生关系中包括个共生数据,L为大于1的正整数。
为了方便在多标签识别模型的训练过程中对类别共生信息中的共生数据进行查询,计算机设备按照一定的结构对多个类别中每两个类别之间的共生数据进行存储。可选地,计算机设备使用矩阵的形式对类别共生信息中包括的共生数据进行记录,此时类别共生信息称为类别共生矩阵。
假设,多个类别由L个不同的类别组成,L个类别分别为:类别1、类别2、……、类别L,则类别共生信息可以表示为LL列的类别共生矩阵A。类别共生矩阵A的L行分别对应类别1、类别2、……、类别L,类别共生矩阵A的L列分别对应类别1、类别2、……、类别L,类别共生矩阵A中的第i行第j列的元素即为类别i和类别j之间的共生数据,i,j为小于或者等于L的正整数。
在一些实施例中,计算机设备获取多个类别之间的类别共生信息,包括:计算机设备根据多个类别中每两个类别之间的相似程度,计算得到类别共生信息。有关该步骤的具体内容请参考下文实施例。
需要说明的是,步骤320和步骤310之间的执行顺序可以调换,例如先执行步骤320再执行步骤310,又例如同步执行步骤320和步骤330,本申请对步骤320和步骤330之间的执行时序不进行限定。
步骤320,通过多标签识别模型对样本图像进行处理,得到样本图像的预测结果;其中,样本图像具有第一类别上的正例标签,预测结果包括预测得到的样本图像分别相关于多个类别的可能性,多个类别包括第一类别。
在一些实施例中,多标签识别模型是指以识别出多个类别为目标进行训练得到的人工智能模型。也即,多标签识别模型用于识别出待识别图像中包括的至少两个类别。多标签识别模型可以属于机器学习模型,也可以属于深度学习模型。如,多标签识别模型是基于卷积神经网络(Convolutional Neural Networks,CNN)设计的机器学习模型。
可选地,多标签识别模型的输入为待识别图像,多标签识别模型的输出为关于待识别图像的预测结果,预测结果用于表征多个类别中每一个类别在待识别图像中出现的概率。
示例性地,多标签识别模型的结构至少包括特征提取网络和分类器;其中,特征提取网络用于对待识别图像进行特征提取,得到待识别图像的特征信息;类别器用于根据待识别图像的特征信息,输出待识别图像中出现多个类别包括的每一个类别的概率。分类器中可以包括多个分类节点,多个分类节点分别用于预测样本图像中包括不同类别的可能性。
需要说明的是,多标签识别模型的模型结构根据实际需要进行设定,本申请在此不进行限定。为了保证多标签识别模型能够输出具有较高置信度的预测结果,在多标签识别模型投入使用之前,需要对多标签识别模型进行训练,在对多标签识别模型训练过程中,上述待识别图像是指用于对多标签识别模型进行训练的样本图像。
在一些实施例中,样本图像中包括至少两个类别的物体。可选地,样本图像的来源包括但不限于:图像采集设备从真实场景中采集、互联网下载、图片生成模型自动生成、对真实图片进行剪辑修饰得到的处理图像等,本申请对样本图像的来源不进行限定。
出于减轻收集、标注样本图像的工作量的考虑,在本申请提供的多标签识别模型训练方法可以从现有的训练样本集中获取样本图像,训练样本集中包括至少一个样本图像。可选地,训练样本集是针对SPML方法设计的训练样本集,如MS-COCO训练样本集和VOC2007训练样本集。本申请提供的多标签识别模型的训练方法可以直接使用上述训练样本集中的样本图像,无需重新对训练样本集中的样本图像进行人工标注,实现了低成本的样本图像收集和标注。
在一些实施例中,样本图像在多个类别中的至少一个类别上具有正例标签,正例标签用于表征样本图像中存在与该类别有关的图像区域。例如,某个样本图像具有在类别1上的正例标签,说明该样本图像中包括属于类别1的图像。与正例标签对应的是负例标签,若样本图像具有在某个类别上的负例标签,则表示该样本图像中不存在与该类别有关的图像。需要注意的是,在将样本图像输入至多标签识别模型之前,样本图像最少需要具有一个类别上的正例标签。
可选地,样本图像在各个类别上的标签可以通过标签标识表示,正例标签和负例标签分别对应不同的标签标识,计算机设备通过标签标识确定样本图像在哪些类别上具有正例标签,在哪些类别上具有负例标签,或者哪些类别上的标签未标注。
可选地,样本图像仅在多个类别中的1个类别上具有正例标签。例如,样本图像在多个类别中的第一类别上具有正例标签,其中,第一类别可以是多个类别中的任意一个类别。对于多个类别中除了第一类别之外的其他类别上,样本图像在其他类别未被标注标签,或者,默认样本图像在其他类别上具有负例标签。示例性地,假设多个类别由4个不同的类别组成,在某个样本图像具备的原始标签为,其中,标签标识“1”表示类别上的标签为正例标签,标签标识“/>”表示类别上的标签未标注。
可见,本申请对样本图像的标注要求较低,仅使用针对SPML设计的训练样本集,即可进行本申请提供的多标签识别模型的训练方法。
在一些实施例中,样本图像的预测结果包括样本图像分别相关于多个类别的可能性。可选地,样本图像相关于某个类别的可能性用于表征样本图像中存在某个类别的图像区域的概率。示例性地,样本图像相关于某个类别的可能性通过[0,1]区间中的实数表示,样本图像相关与某个类别的可能性由多标签识别模型直接输出。
假设,多标签识别模型用于对L个类别进行识别,则对于任意一个样本图像,该样本图像的预测结果包括L个预测子结果,L个预测子结果与L个类别一一对应,用于分别表示样本图像中包括各个类别的概率,L为正整数。
计算机设备通过多标签识别模型对样本图像进行处理,得到样本图像的预测结果,包括:通过多标签识别模型的特征提取网络对样本图像进行处理,得到样本图像的特征信息;通过多标签识别模型的分类器根据样本图像的特征信息,生成样本图像的预测结果。
可选地,分类器中包括多个分类节点,每一个节点对应一个类别。假设,多个类别由L个不同的类别组成,则分类器至少具有L个分类节点,对于L个分类节点中的第i个分类节点,第i个分类节点用于根据样本图像的特征信息确定样本图像中包括类别i的概率,i为小于或者等于L的正整数。
步骤330,根据类别共生信息和预测结果,确定样本图像的伪标签信息;其中,伪标签信息包括样本图像在多个类别上的伪标签。
在一些实施例中,样本图像的伪标签信息用于标注样本图像中包括的全部类别,该全部类别是指多个类别中的子集。也即,伪标签信息用于在多个类别上对样本图像进行标注。可选地,伪标签信息中包括多个类别上的伪标签。假设多个类别由L个不同的类别组成,则样本图像的伪标签信息中包括样本图像在该L个类别上的伪标签,L为正整数。
对于多个类别中的任意一个类别,该类别上的伪标签用于标注样本图像中是否存在该类别。例如,对于类别“车”,该类别上的伪标签用于表征该样本图像中是否存在与“车”有关的图像区域或者图像轮廓。
可选地,多个类别上的伪标签的种类包括以下至少之一:正例标签、负例标签和伪负例标签;其中,正例标签用于表征样本图像中一定存在该类别,负例标签用于表征样本图像中一定不存在该类别,伪负例标签用于表征样本图像中可能存在该类别。
示例性地,若某个类别上的伪标签为正例标签,则该类别为人工在样本图像中标注的正例标签,也即该类别为步骤320提到的第一类别。例如,第一类别为类别k,某个样本图像具有在类别k上的正例标签,则在样本图像的伪标签信息中,类别k上的伪标签也为正例标签。也就是说,在根据类别共生信息和预测结果对样本图像进行自动标注的过程中,不会对人工标注的至少一个类别上的正例标签造成影响。通过这种方式,使得伪标签信息和人工标注的标签信息在指令标签上保持一致,有助于提升确定出的伪标签信息的准确性,减少由于伪标签信息在模型训练过程中引入的误差。
可选地,样本图像的伪标签信息中包括至少一个正例标签,至少一个负例标签和至少一个伪负例标签。例如,样本图像中包括1个正例标签,至少一个负例标签和至少一个伪负例标签。
示例性地,类别上的伪标签的种类可以通过标签标识区分,不同伪标签的标签标识不同。例如,正例标签通过字符“1”表示,负例标签通过字符“0”表示,伪负例标签通过字符“-1”表示。又例如,正例标签通过字符“1”表示,负例标签通过字符“0”表示,伪负例标签通过[0,1]区间中的实数表示。
在一些实施例中,计算机设备根据类别共生信息和预测结果,确定样本图像的伪标签信息,包括,计算机设备结合类别共生信息和预测结果,分别确定样本图像在各个类别上的伪标签,计算机设备将各个类别上的伪标签进行组合,得到样本图像的伪标签信息。
可选地,对于多个类别中除了第一类别之外的任意一个类别,计算机设备根据类别共生信息,以及预测结果中与该类别有关的数据,确定该类别上的伪标签。有关该过程的具体内容请参考下文实施例。
生成样本图像的伪标签信息旨在从多个类别中识别出原本存在样本图像,但是受到标注成本限制,存在一些被遗漏标注为正例标签的类别,通过将这些类别上的伪标签标注为伪负例标签,能够减少在多标签识别模型能够从样本图像中识别出这些类别的情况下,受到漏标正例标签的限制,导致模型训练过程中认为关于该类别的正确信息为:样本图像中不存在这些类别,引起多标签识别模型的参数进行调整的方向出现错误。
由上述内容可知,出于节省人工标注成本的考虑,多个类别中存在一部分类别,样本图像中是否存在这部分类别没有被人工标注,也即样本图像中是否存在这部分类别是未知的。在本申请提供的多标签识别模型的训练方法,在多标签识别模型的训练过程中,依靠类别共生信息和样本图像的预测结果对样本图像进行了伪标注,得到样本图像的伪标签信息,使得样本图像具有在多个类别上的伪标签。样本图像的伪标签信息决定多标签识别模型的训练损失计算,通过伪标注得到样本图像的伪标签信息,有助于提升对多标签识别模型的参数进行调整的合理性,从而提升多标签识别模型的训练效果。
步骤340,根据伪标签和预测结果,对多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
在一些实施例中,在确定样本图像的伪标签信息和预测结果之后,计算机设备根据伪标签和预测结果,计算机设备模型的训练损失;计算机设备根据训练损失对多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
可选地,多标签识别模型的训练过程包括m个训练轮次,每个训练轮次需要使用多个样本图像。对于每一个样本图像,计算机设备执行上述步骤320和步骤330,得到该样本图像的伪标签信息和预测结果。在步骤340中,计算机设备根据该训练轮次中各个样本图像的伪标签信息和预测结果,计算训练损失,并根据训练损失对多标签识别模型的参数进行调整。需要说明的是,由于样本图像的伪标签需要根据样本图像的预测结果有关,对于某个样本图像,该样本图像在不同的训练轮次中分别对应的预测结果不同,因此同一个样本图像的伪标签信息在不同的训练轮次中也会发生变化,通过这种方式使得样本图像的伪标签跟随多标签识别模型的参数调整发生动态变化,随着多标签识别模型对类别识别能力的提升,使得样本图像的伪标签信息更加准确,有助于提升训练后的多标签识别模型的对类别的识别能力。
示例性地,若训练损失收敛,则计算机设备完成对多标签识别模型的训练;若训练损失未收敛,则计算机设备对多标签识别模型进行新一轮训练。不同的训练轮次中使用的样本图像可以相同,也可以不同。可选地,样本图像的出现概率符合均匀分布,例如,不同训练轮次中使用的样本图像可以从训练样本集中随机抽取,样本图像抽取方法根据实际需要确定,本申请在此不进行限定。
在一个示例中,在对多标签识别模型进行训练的过程中,计算机设备获取多个类别之间的类别共生矩阵,类别共生矩阵中包括多个类别中每两个类别之间的共生数据。计算机设备通过多标签识别模型确定样本图像的预测结果,样本图像的预测结果中包括样本图像与多个类别分别相关的可能性。计算机设备根据类别共生信息和样本图像的预测结果,生成样本图像的伪标签信息;计算机设备根据伪标签信息和预测结果计算训练损失;计算机设备根据训练损失对多标签识别模型的模型参数进行调整。若训练损失不收敛,则计算机设备对参数调整后的多标签识别模型进行下一轮训练。若训练损失收敛,则得到训练后的多标签识别模型。
综上所述,一方面,通过联合多标签识别模型输出的预测结果和用于表征不同类别之间的共生关系的类别共生信息,确定样本图像的伪标签信息,不仅能够从多个类别中筛选出样本图像中漏标但是存在的类别(也即从多个类别找到对应于伪负例标签的至少一个类别);而且,确定样本图像的伪标签信息的过程无需依靠外来其他模型或者正则规则,有助于避免对多标签识别模型进行训练的过程中引入不必要的噪音,有助于提升多标签识别模型训练过程的训练效果。
另一方面,本方法能够自动对单正例多标签识别模型的样本图像在多个类别上对样本图像进行标注,生成样本图像的伪标签信息,有助于降低对样本图像进行标注的人工成本。而且,相比于原始的只具有单个正例标签的情况,样本图像的伪标签信息能够更加准确描述样本图像中包括的类别,在对多标签识别模型的参数进行调整的过程中起到更准确的指示作用,有助于解决采用单正例多标签学习训练多标签识别模型时,漏标的正例标签影响训练过程,导致出现多标签识别模型出现退化的情况。
下面通过几个实施例对类别共生信息的确定方法进行介绍说明。
在一些实施例中,步骤310,获取多个类别之间的类别共生信息,可以包括以下几个子步骤。
子步骤312,计算机设备对于多个类别中的每一个类别,基于类别模板生成至少一个类别提示,类别提示包括修饰词和类别的类别名称。
在一些实施例中,类别模版包括:类别名称和至少一个修饰词;其中,类别名称是指类别的语言描述。可选地,装饰词用于对类别名称进行修饰,修饰词的类型包括但不限于形容词、介词、作为主语的名词等不影响类别名称实质含义的词语。可选地,按照与类别名称之间的位置关系划分,装饰词包括以下至少之一;前缀信息、后缀信息;其中,前缀信息是指放置在类别名称之前的至少一个词语,后缀信息是指放置在类别名称之后的至少一个词语。
可选地,类别名称和至少一个装饰词中的任一个装饰词组合得到一个类别提示。例如,对于某一个类别来说,该类别名称与一个前缀信息组合,得到类别提示。又如,对于某一个类别来说,该类别名称与一个后缀信息组合,得到类别提示。又如,该类别名称和一个前缀信息、一个后缀信息组成,得到类比提示。
以类别“车”为例,装饰词包括:“一张xx的照片”、“一张xx的JEPG图像”、“一张xx的合适照片”、“一张xx的近距离照片”等。计算机设备将装饰词中的“xx”替换为类别名称“车”,即可得到以下类别提示:“一张车的图片”,“一张车的JEPG图像”,“一张车的合适照片”,“一张车的近距离照片”。
类别提示可以使用不同的语言类型表示。例如,类别提示“一张车的图片”,还可以表示为“A photo of a car”。类别提示的语言种类根据实际需要进行设置,本申请在此不进行限定。
可选地,为了减少引入其他误差,不同类别使用同一套模版生成类别提示。例如,类别“车”、类别“树木”、类别“建筑物”对应的类别模版相同。示例性地,对于每一个类别,计算机根据类别模版生成该类别的N个类别提示,N为正整数。
在一些实施例中,类别提示用于获取类别特征,类别提示用于提供与类别有关的语境,以便在生成类别特征的过程中提供更多的参考信息。
子步骤314,计算机设备通过特征提取模型对至少一个类别提示进行处理,确定类别的类别特征;类别特征用于在特征空间中描述类别。
在一些实施例中,类别特征是指类别在特征空间中对应的类别向量,类别特征用于在特征空间包括的不同维度中对类别进行描述。特征空间是指至少一个维度的向量空间。类别向量的维度可以是64、128、256等,本申请在此不进行限定。
特征提取模型是指对类别提示进行特征处理的语言处理模型,可选地,特征提取模型的种类包括但不限于:基于对比文本-图像对的预训练(Contrastive Language ImagePre-training,CLIP)模型中的文本编码器(text encoder),大型语言模型(LargeLanguage Models,LLMs)模型等,当然特征提取模型还可以是其他用于进行语言处理的模型,本申请对特征提取模型的类型不进行限定。
在一些实施例中,计算机设备通过特征提取模型对至少一个类别提示进行处理,确定类别的类别特征,包括:对于至少一个类别提示中第一类别提示,计算机设备通过特征提取模型对第一类别提示进行特征处理得到第一类别提示的初始特征;计算机设备对初始特征进行归一化处理,得到第一类别提示的提示特征;计算机设备根据各个第一类别提示的提示特征,生成类别的类别特征。
示例性地,第一类别特征的提示特征中各个元素的取值区间为[0,1],归一化处理包括但不限于:L1范数归一化、L2范数归一化等。
可选地,计算机设备通过特征提取模型对第一类别提示进行特征处理得到第一类别提示的初始特征,包括:计算机设备将第一类别提示输入特征提取模型,通过特征提取模型获取第一类别提示的初始特征。
为了提升特征提取模型对类别提示进行特征提取的能力,特征提取模型基于注意力(attention)机制进行设计。可选地,特征提取模型中包括至少一个注意力模块,至少一个注意力模块(如互感器(transformers)中编码器模块)之间串行连接。对于任意两个相邻的注意力模块,下级注意力模块将处理得到的第中间向量传输至上级注意力模块,上级模块对该中间向量继续进行处理;以此类推,通过多个注意力模块的处理,得到输出向量。
可选地,注意力模块处理得到的向量中包括初始特征。例如,注意力模块处理得到的向量就是初始特征。又例如,注意力模块处理得到的向量中的一部分为初始特征。示例性地,注意力模块处理得到的向量中包括分类表征(cls token),简称token,计算机设备将该token作为初始特征。token可以位于注意力模块处理得到的向量的首部或者尾部,本申请对初始特征在注意力模块处理得到的向量中的位置不进行限定。
在一些实施例中,注意力模块处理得到的向量是至少一个注意力模块中的最高层注意力模块处理得到的向量,也即特征提取模型的输出向量。例如,初始特征为特征提取模块计算出的最后一个token。
在另一些实施例中,注意力模块处理得到的向量是至少一个注意力模块中任意一个注意力模块处理得到的向量,在这种情况下需要保证该注意力模块处理得到的向量中包括的token具有完整概括类别提示的能力,例如,计算机设备从接近最高注意力模块的其他注意力模块计算得到的中间向量中,确定第一类别提示的初始特征。示例性地,初始特征是指特征提取模块在进行特征提取过程中产生的中间token。
可选地,在确定出初始提特征后,特征提取模型中包括的其他未运行的注意力模块停止运行,通过这种方法有助于减少确定初始特征时消耗的计算开销,提升确定类别特征的速度。
可选地,计算机设备根据各个第一类别提示的提示特征,生成类别的类别特征,包括:计算机设备从各个第一类别提示的提示特征随机选择一个,作为类别的类别特征。
可选地,计算机设备根据各个第一类别提示的提示特征,生成类别的类别特征,包括:计算机设备对各个第一类别提示的提示特征相加,得到类别的类别特征。在一个示例中,类别c的类别特征可以通过下面一个公式进行计算。
其中,表示至少一个类别提示中的第一类别提示,/>表示第一类别提示的提示特征,N表示该类别c具有的类别提示的总量。
可选地,计算机设备根据各个第一类别提示的提示特征,生成类别的类别特征,包括:计算机设备对各个第一类别提示的提示特征进行加权平均得到类别的类别特征。例如,计算机设备计算某个类别的各个第一类别提示的提示特征之间的平均值,得到该类别的类别特征。示例性地,各个第一类别提示是指至少一个第一类别提示,或者至少一个第一类别提示中包括的部分类别提示。
在一个示例中,类别c的类别特征可以通过下面一个公式进行计算。
其中,表示至少一个类别提示中的第一类别提示,/>表示第一类别提示的提示特征,N表示该类别c具有的类别提示的总量。
子步骤316,计算机设备对于多个类别中的任意两个类别,计算两个类别分别对应的类别特征之间的相似性,得到两个类别之间的共生数据。
可选地,在该步骤中确定的共生数据具有双向性,也即,类别i和类别j之间的共生数据,与类别j和类别i之间的共生数据相等。示例性地,假设多个类别由C个不同的类别组成,对于C个类别中的类别i和类别j,计算机设备根据类别i和类别j分别对应的类别特征,确定类别i和类别j之间的共生数据。
例如,计算机设备计算类别i和类别j分别对应的类别特征之间的空间距离,并将该空间距离作为类别i和类别j之间的共生数据。
又例如,计算机设备计算类别i和类别j分别对应的类别特征之间的余弦夹角,将余弦夹角作为类别i和类别j之间的共生数据。在这种情况下,共生数据通过下面一个公式进行计算。
其中,表示类别i的类别特征,/>表示类别i的类别特征,/>表示类别i的类别特征的模,/>表示类别j的类别特征的模,/>表示类别i和类别j之间的共生数据。
又例如,计算机设备计算类别i和类别j分别对应的类别特征之间的皮尔逊(pearson)相关系数,将皮尔逊相关系数作为类别i和类别j之间的共生数据;其中,皮尔逊相关系数是指相关分析时研究两个或两个以上处于同等地位的随机变量的相关关系的统计分析方法。
子步骤318,计算机设备基于多个类别中各个两个类别之间的共生数据,得到类别共生信息。
类别共生信息可以表示为:;其中,/>表示在类别j出现的情况下,类别i出现的可能性,/>表示类别i和类别之间的关联程度,也即/>是类别i和类别j之间共生数据,L表示多个类别中包括的类别数量,其他参数请参考上文是实施例,在此不进行赘述。
在一些实施例中,计算机设备将各个两个类别之间的共生数据按照矩阵形式进行排列,得到类别共生信息。示例性地,类别共生信息通过下面一个公式表示。
其中,A表示矩阵形式表示的类别共生信息,表示类别i和类别j之间的共生数据,/>,/>
可选地,上述子步骤312-318用于对类别共生信息进行初始化。在多标签识别模型的训练初期,通过类别之间的相似性确定类别之间的共生数据,得到类别共生信息,能够引入比较可靠的类别共生信息,有助于提升通过类别共生关系确定出的样本图像的伪标签信息的准确性。
在一些实施例中,类别共生信息在多标签识别模型的训练过程中不是一成不变的,类别共生信息在多标签识别模型的训练过程中会发生变化,也即不同的训练轮次或者不同的训练阶段中使用的类别共生信息不完全相同。例如,计算机设备每隔y个训练轮次,或者y个训练阶段对类别共生信息进行更新。
示例性地,计算机设备对当前训练轮次(或者训练阶段)中使用类别共生信息进行更新,得到更新后的类别共生信息;计算机设备使用该更新后的类别共生信息参与下一个训练轮次(或者训练阶段)。有关类别共生信息的更新过程请参考下文实施例。
图4是本申请一个示例性实施例提供的类别共生信息生成过程的示意图。
如图4所示,在开始对多标签识别模型进行训练之前,计算机设备对类别共生信息进行初始化。计算机设备根据类别模版分别生成多个类别的类别提示410;对于多个类别中的任意一个类别,计算机设备可以生成该类别的N个类别提示。类别提示的形式如411所示。
随后,计算机设备分别确定多个类别分别对应的类别特征,对于每一个类别计算机设备通过特征提取模型420,确定多个类别提示分别对应的提示特征,并根据提示生成该类别的类别特征。在确定出每一个类别的类别特征后,计算机设备计算每两个类别分别对应的类别特征之间的相似性,得到共生数据,并基于各个共生数据,生成类别共生信息430。本实施例中各个步骤的具体内容请参考上文实施例,在此不进行赘述。
通过上述方法确定各个类别之间的关联程度,生成类别共生信息,在多标签识别模型的训练过程中为确定样本图像的伪标签信息提供了可靠的参考信息,有助于实现在多个类别上对样本图像进行自动标注。由于不同类别之间的相似程度是客观的,因此在多标签识别模型的训练过程中,结合类别共生信息生成样本图像的伪标签,有助于准确识别出多个类别中具有伪负例标签的类别,有助于提升多标签识别模型的训练效果。
下面通过几个实施例对伪标签信息的确定方法进行介绍说明。
在一些实施例中,步骤330,根据类别共生信息和预测结果,确定样本图像的伪标签信息,可以包括以下几个子步骤。
子步骤332,对于多个类别中的每一个第二类别,计算机设备根据类别共生信息确定共生数据,共生数据用于表征第一类别和第二类别之间的相似程度,第二类别是多个类别中除第一类别之外的其他类别。
可选地,第二类别不同于第一类别。由于样本图像具有在第一类别上的正例标签,且该正例标签为通过人工标注得到的,具有较高的可信度,因此在确定样本图像的伪标签的过程中,无需根据类别共生信息和预测结果确定第一类别上的伪标签,可以直接默认第一类别上的伪标签为正例标签。也即,样本图像的伪标签信息中包括第一类别上的正例标签。
可选地,对于某个第二类别而言,共生数据用于表征第二类别相似于第一类别的程度,换句话说,共生数据表示第二类别与第一类别之间的依赖关系。共生数据可以表示为[0,1]区间中实数。
示例性地,共生数据的数值越大,说明第二类别对第一类别之间的依赖性越强,那么在已知样本图像中出现第一类别的情况下,样本图像中同时出现第二类别的概率更大,第二类别很可能属于被遗漏标注为正例标签的类别。共生数据的数值越小,说明第二类别对第一类别的依赖性越小,也即第一类别和第二类别之间的关联程度较低,也就是说,即使样本图像中出现第一类别,也不能说明样本图像中大概率出现第二类别。
在一个示例中,类别共生信息通过类别共生矩阵A表示,第一类别为类别i,第二类别为类别j,则类别j的共生数据为,计算机设备根据类别共生信息确定共生数据,包括:计算机设备根据第一类别和第二类别在类别共生矩阵中的位置,将类别共生矩阵中第一类别所在的行,第二类别所在列的元素确定为该第二类别的共生数据。
子步骤334,计算机设备根据共生数据和预测结果中包括的第二类别的预测子结果,确定样本图像在第二类别上的伪标签,第二类别的预测子结果用于表征样本图像相关于第二类别的可能性。
在一些实施例中,第二类别的预测子结果是指由多标签识别模型预测得到的,样本图像中包括第二类别的概率。可选地,第二类别的预测子结果为[0,1]区间中的实数。
第二类别的预测子结果越大,则表示多标签识别模型预测的样本图像中包括第二类别的可能性越大;第二类别的预测子结果越小,则表示多标签识别模型预测的样本图像中包括第二类别的可能性越小。
在一些实施例中,样本图像的预测结果中包括多个类别中每一个类别的预测子结果,多个类别的预测子结果按照一定的顺序排列,得到样本图像的预测结果。示例性地,样本图像的预测结果可以理解成一个结果向量,结果向量中不同位置的元素分别对应一个类别的预测子结果。在计算机设备根据第二类别在结果向量中对应的位置,确定该位置的元素为第二类别的预测子结果。
在第二类别上的伪标签用于标注样本图像中是否存在第二类别。可选地,第二类别上的伪标签的类型包括:负例标签和伪负例标签。若第二类别上的伪标签为负例标签,则在计算训练损失的过程中,认为该样本图像中不存在第二类别,若在第二类别上的标签伪负例标签,则在计算训练损失的过程中,认为该样本图像中有较大概率存在第二类别。
可选地,在本申请提供的多标签识别模型的训练方法中,对应于负例标签的类别和对应于伪负例标签的类别在计算训练损失过程中的使用方法不同。
示例性地,对应于伪负例标签的类别不参与训练损失的计算过程,或者,对应于伪负例标签的类别,使用正例标签对应的类别损失计算方法计算类别产生的类别损失,有关该过程的具体内容请参考下文实施例。
子步骤336,计算机设备基于样本图像在各个第二类别上的伪标签,得到样本图像的伪标签信息。
在一些实施例中,样本图像的伪标签信息中包括其他类别上的伪标签和第一类别上的正例标签。可选地,计算机设备基于样本图像在各个第二类别上的伪标签,得到样本图像的伪标签信息,包括,计算机设备基于各个第二类别上的伪标签和第一类别上的正例标签,组成样本图像上的伪标签信息。
在一些实施例中,在获得各个第二类别上的伪标签之后,计算机设备将各个类别上的伪标签和第一类别上的正例标签进行排列,得到样本图像的伪标签信息。可选地,多个类别上的伪标签在伪标签信息中的排列顺序,与多个类别的预测子结果在预测结果中的排列顺序相同。例如,多个类别的排列顺序为:类别3、类别2、类别1、类别0,则伪标签信息中各个类别上的伪标签的排列顺序为:类比3上的伪标签、类别2上的伪标签、类别1上的伪标签、类别0上的伪标签,预测结果中各个第二类别的预测子结果的排列顺序为:类别3的预测子结果、类别2的预测子结果、类别1的预测子结果、类别0的预测子结果。
图5是本申请一个示例性实施例提供的伪标签信息确定过程的示意图。
如图5所示,计算机设备根据样本图像的预测结果和类别共生关系,对多个类别中除了第一类别之外的其他类别的未知标签进行伪标注,得到样本图片的伪标签信息。
通过类别共生信息和样本图像的预测结果确定各个类别上的伪标签,实现了自动对样本图像在多个类别上进行伪标注。相比于SPML的样本图像中只包括一个类别上的正例标签,该方法使得样本图像在多个类别上的伪标签可知,方便在对模型参数进行调整的过程中,根据各个类别上伪标签,采取适宜的方式确定各个类别上的类别损失,有助于提升对多标签识别模型的参数进行调整的合理性,有助于避免多标签识别模型的识别能力在训练过程中出现退化。
下面通过几个实施例对类别上的伪标签的确定方法进行介绍说明。
在一些实施例中,子步骤334,计算机设备根据共生数据和预测结果中包括的第二类别的预测子结果,确定样本图像在第二类别上的伪标签,可以包括以下几个步骤。
子步骤334-a,计算机设备根据共生数据和第一阈值,确定第一结果;其中,第一结果用于表征第一类别和第二类别之间的相似程度,对第二类别上的伪标签的贡献程度。
在一些实施例中,计算机设备根据共生数据确定第二类别相似于第一类别的程度。示例性地,计算机设备通过比较共生数据和第一阈值的数值关系,确定第一结果。第一结果用于从类别之间的关联程度上对第二类别进行标注。换句话讲,第一结果根据第一类别和第二类别之间的依赖性,指示在样本图像中包括第一类别的情况下,是否还包括第二类别。
可选地,第一阈值为预配置的,也就是说,在训练过程中,第一阈值的数值固定。如第一阈值的数值等于0.85。需要说明的是,第一阈值的数值根据实际需要进行设置,本申请在此不进行限定。
示例性地,第一阈值在多标签识别模型的训练过程中会发生动态变化。例如,在训练开始后的第一个训练轮次中,第一阈值的取值为初始阈值,随着训练轮次的不断增加,第一阈值逐渐增大。例如,第一阈值的数值随着训练轮次的增加呈指示形式递增,直至达到最大第一阈值,最大第一阈值为小于1的正数。
子步骤334-b,计算机设备根据第二类别的预测子结果和第二阈值,确定第二结果,第二结果用于表征样本图像对第二类别的类别伪标签的贡献程度。
可选地,计算机设备通过比较第二类别的预测子结果和第二阈值之间的数值关系,确定第二结果。第二结果用于从样本图像所携带的图像信息的角度,伪标注样本图像中是否包括第二类别。
示例性地,第二阈值为预配置的,也就是说,在训练过程中,第二阈值的数值固定。如第二阈值的数值等于0.80。
示例性地,第二阈值在多标签识别模型的训练过程中会发生动态变化。例如,两个不同训练轮次分别对应的第二阈值不同。随着训练轮次的不断增加,第二阈值逐渐增大。例如,第二阈值的数值随着训练轮次的增加呈指示形式递增。
在一些实施例中,第一结果和第二结果的类型均包括以下至少之一:生效结果和无效结果;计算机设备根据共生数据和第一阈值,确定第一结果,包括:若共生数据大于或者等于第一阈值,则计算机设备确定第一结果为生效结果;若共生数据小于第一阈值,则计算机设备确定第一结果为无效结果;计算机设备根据第二类别的预测子结果和第二阈值,确定第二结果,包括:若第二类别的预测子结果大于或者等于第二阈值,则计算机设备确定第二结果为生效结果;若第二类别的预测子结果小于第二阈值,则计算机设备确定第二结果为无效结果。
在一些实施例中,生效结果用于表征第二类别上的伪标签存在为伪负例标签的可能性,无效结果用于表示第二类别上的伪标签不存在为伪负例标签的可能。可选地,第一结果或者第二结果可以使用1比特字符表示,其中,生效结果通过字符“1”表示,无效结果通过字符“0”表示。
示例性地,第一结果的计算公式如下:第一结果;其中/>表示第二类别i共生数据,/>表示第一阈值;/>函数具有两个结果,分别为0和1,在满足时,/>,在不满足/>时,/>
示例性地,第二结果的计算公式如下:第二结果;其中,/>表示样本图像n在第二类别i的预测子结果,/>表示第二阈值;/>函数具有两个结果,分别为0和1,在满足/>时,/>,在不满足/>时,/>。/>
在一些实施例中,计算机设备通过第一结果和第二结果协同确定第二类别上的伪标签。可选地,计算机设备将第一结果和第二结果相加,得到第三结果;若第三结果大于或者等于第三阈值,则第二类别上的伪标签为伪负例标签,若第三结果小于第三阈值,则第二类别上的伪标签为负例标签。
需要说明的是,子步骤334-a和子步骤334-b的执行先后顺序不固定。如,子步骤334-a优先于子步骤334-b执行;又如,子步骤334-b优先于子步骤334-a执行;又如,子步骤334-a和子步骤334-b同步执行,本申请在此不进行限定。
可选地,在第一结果的确定步骤和第二结果的确定步骤之间存在先后顺序的情况下,计算机设备根据确定的目标结果,判断是否执行确定第一结果和第二结果中除了目标结果之外的另一个结果的步骤,目标结果是指第一结果和第二结果中优先确定出的结果。例如,在目标结果为生效结果的情况下,计算机设备执行确定第一结果和第二结果中除了目标结果之外的另一个结果的步骤;在目标结果为无效结果的情况下,计算机设备执行确定第一结果和第二结果中除了目标结果之外的另一个结果的步骤。
通过比较共生数据与阈值之间的数值关系,以及比较类别的预测子结果与在阈值之间数值关系,能够以较为简单的方法确定出第一结果和第二结果,有助于简化计算机设备在确定类别上的伪标签过程中的执行逻辑。由于样本图像的伪标签信息是在多标签识别模型的训练过程中确定的,因此,使用上述方法有助于缩短获取样本图像的伪标签信息的耗时,缩短多标签识别模型的训练耗时。
子步骤334-c,计算机设备根据标签系数、第一结果和第二结果,确定第二类别的类别伪标签,标签系数用于指示第二类别的预测子结果在多标签识别模型的参数调整过程的参与度。
在一些实施例中,计算机设备将标签系数、第一结果和第二结果的乘积作为标签结果;计算机设备将标签结果对应的伪标签,作为第二类别上的伪标签。可选地,标签结果的取值为标签系数,或,0;若标签结果的取值为标签系数,则表示第二类别上的伪标签为伪负例标签;若标签结果的取值为0,则表示第二类别上的伪标签为负例标签。
标签系数用于指示具有伪负例标签的类别是否参与调整多标签识别模型的参数的过程。可选地,标签系数为固定值,例如标签系数等于-1。
可选地,标签系数动态变化,标签系数的取值区间为[0,1]。标签系数的取值可以与样本图像以及第二类别有关。在这种情况下,对于同一个样本图像,多个类别中的不同类别对应的标签系数不同。示例性地,计算机设备根据第二类别的预测子结果和第二类别的共生数据,确定第二类别的标签系数。有关该步骤的具体内容请参考下文实施例。
标签系数的取值方法与训练损失的计算方法有关。可选地,若伪负例标签对应的类别不参与损失函数的计算过程,则标签系数可以为固定值,也可以是动态变化的;若伪负例标签对应的类别需要参与损失函数的计算过程,则标签系数为动态变化的。
由于训练中的多标签识别模型对于不同类型的识别能力不同,样本图像中包括的各个类别的清晰程度、位置也不同,因此在伪负例标签对应的类别需要参与计算训练损失的情况下,为各个类别设置不同的标签系数,使得各个类别分别对应的类别损失在训练损失中占用的比重不同,有助于提升训练损失的准确度,以便找到对多标签识别模型的参数进行优化的有利路径方向,缩短对多标签识别模型进行训练的训练轮次。
在一些实施例中,计算机设备根据标签系数、第一结果和第二结果,确定第二类别伪标签,包括:若第一结果为生效结果,且,第二结果为生效结果,则计算机设备根据标签系数,确定第二类别的类别伪标签是伪负例标签;若第一结果为无效结果,或者,第二结果为无效结果,则计算机设备确定第二类别的类别伪标签是负例标签。
也就是说,只要第一结果和第二结果中存在一个无效结果,则确定第二类别上的伪标签为负例标签;只有在第一结果和第二结果均为生效结果的情况下,第二类别上的伪标签才为伪负例标签。
通过这种方法,根据共生数据和第二类别的预测子结果对样本图像中是否存在第二类别进行双重判定,有助于提升从样本图像中确定漏标为正例标签的类别时的准确性,减少后调整多标签识别模型参数的过程中,人工遗漏标注的类别对模型参数调整产生的干扰。
在一个示例中,第二类别上的伪标签的计算方式如下:=;其中,/>表示样本图像n在第二类别i上的伪标签,在该公式中标签系数等于-1,/>表示第一结果,/>表示第二结果。
示例性地,样本图像的伪标签信息的计算公式的表示如下。
其中,表示第一类别,样本图像中包含该类别;/>表示多个类别中除了第一类别之外的其他类别,也即第二类别,样本图像中是否包含该类别为未知的(unknown)。其他参数的解释请参考上文介绍。
在一些实施例中,计算机设备根据标签系数、第一结果和第二结果,确定第二类别的类别伪标签,包括:根据样本图像的预测结果中包括的第一类别的预测子结果和第四阈值,确定第四结果,第四结果用于表征多标签识别模型识别第一类类别的能力;计算机设备根据标签系数、第一结果、第二结果和第四结果,确定第二类别上的伪标签。
可选地,第四阈值大于或者等于第二阈值。示例性地,若第一类别的预测子结果大于或者等于第四阈值,则计算机设备确定第四结果为生效结果;若第一类别的预测子结果小于第四阈值,则计算机设备确定第四结果为无效结果。
示例性地,第二类别上的伪标签可以通过以下公式进行计算:,其中,/>表示第一类别/>的预测子结果,/>表示第四阈值,其他参数请参考上文介绍说明。
通过这种方法,在确定第二类别上的伪标签的过程中,还考虑了多标签识别模型对第一类型的识别能力,在第一类型和第二类型具有一定相似性的情况下,第一类型的预测子结果较高说明第二类别的预测结果比较可行,有助于印证第二类别的预测子结果的可信度,提升从多个类别中筛选出伪负例标签的准确度。
标签系数可以是固定值,也可以根据样本图像的不同动态发生变化,下面通过几个实施例对标签系数的确定方法进行介绍说明。
在一些实施例中,多标签识别模型的训练方法还包括:计算机设备根据共生数据与第二类别的预测子结果之间的数值关系,从共生数据和第二类别的预测子结果中分别确定第一系数和第二系数;第一系数的数值大于或者等于第二系数;计算机设备将第二系数和第一系数的比值作为标签系数。
在一些实施例中,计算机设备从共生数据和第二类别的预测值结果中确定第一子系数和第二子系数,并将第一系数作为分母,第二系数作为分子,得到标签系数。
在一个示例中,标签系数的计算公式为:
其中,表示第二类别i的类别数据,/>表示样本图像n对应的第二类别i的预测子结果,/>表示最小值函数,/>表示最大值函数,/>表示第一系数,/>表示第二系数,/>表示确定第二类别上的伪标签过程所使用的标签系数。
在这种情况下,样本图像的伪标签通过下面一个公式进行计算。
有关各个参数的解释请参考上文实施例。若=0则表示类别i上的伪标签为负例标签,若/>=1则表示类别i上的伪标签为正例标签,若/>=/>则表示类别i上的伪标签为伪负例标签。
可选地,计算机设备还可以将第二类别的预测子结果作为该第二类别的标签系数,或者将第二类别和第一类别之间的共生数据作为该第二类别的标签系数。通过这种方法能够减轻确定标签系数过程中的计算量。
可选地,计算机设备将共生数据与第二类别的预测子结果相加,得到第三系数,计算机设备从共生数据与第二类别的预测子结果中随机选择第四系数,计算机设备将第三系数和第四系数之间的比值确定为标签系数。通过这种方法在对应有伪负例标签的类别参与训练损失计算的情况下,能够减少对应有伪负例标签的类别具有的类别损失在训练损失中的比重,有助于减少在训练损失引入的不确定性。
根据共生数据与第二类别的预测子结果设置标签系数,使得不同的类别对应的标签系数不同,通过这种方式,使得类别上的伪标签能够根据该类别在样本图像中出现的可能情况,较为准确地标注样本图像中存在第二类别的概率。
下面通过几个实施例对多标签识别模型的参数调整的过程进行介绍说明。
在一些实施例中,类别上的伪标签的类型包括以下至少之一:类别上的正例标签、类别上的负例标签、类别上的伪负例标签;其中,类别上的正例标签用于表征样本图像与类别相关,类别上的负例标签用于表征样本图像与类别不相关,类别上的伪负例标签用于表征样本图像与类别相关,且类别遗漏标注为正例标签。有关正例标签、负例标签和伪负例标签的具体内容请参考上文实施例。
步骤340,根据伪标签和预测结果,对多标签识别模型的参数进行调整,得到训练后的多标签识别模型,还可以包括以下几个子步骤:
子步骤342,计算机设备根据类别上的伪标签的种类,将多个类别划分为第一类别组和第二类别组;其中,第一类别组包括对应伪负例标签的至少一个类别,第二类别组包括多个类别中除了第一类别组所包括类别之外的其他类别。
在一些实施例中,第一类别组中包括的类别是指有较大概率在样本图像中存在,但是被遗漏标注为正例标签的类别。也即样本图像在第一类别组中包括的类别上具有伪负例标签。在一些实施例中,第二类别组中包括的类别包括:对应有正例标签的第一类别和对应有负例标签的至少一个类别。
可选地,类别上的伪标签对应有标签标识;计算机设备根据样本图像的伪标签信息的标签标识,将多个类别划分成为第一类别组和第二类别组。例如,正例标签的标签标识为“1”,负例标签的标签标识为“0”,则计算机设备将对应标签标识为“1”和“0”的类别划分至第二类别组,将多个类别中除了第二类别组包括的类别之外的其他类别划分至第一类别组。
子步骤344,计算机设备对于第二类别组中包括的每一个第三类别,根据第三类别上的伪标签和预测结果中包括的第三类别的预测子结果,计算第三类别的类别损失。
可选地,第三类别是第二类别组中的任意一个类别。可选地,对应有正例标签的类别和对应有负例标签的类别分别具有不同的类别损失计算方法。
示例性地,多标签识别模型的损失函数为交叉熵。下面以损失函数为交叉熵为例,对类别损失的计算方法进行介绍说明。
对于对应有负例标签的类别,类别损失的计算方法为:;其中,/>表示样本图像/>,/>表示对应有负例标签的类别i,/>表示类别i的预测子结果,/>用于指示若类别i对应有负例标签,则使用计算类别i的类别损失。
对于对应有正例标签的类别,类别损失的计算方法为:;其中,/>表示对应有正例标签的类别i,/>表示类别i的预测子结果,/>用于指示若类别i对应有正例标签,则使用/>计算类别i的类别损失。损失函数也可以是其他函数,本申请在此不进行限定。
子步骤346,计算机设备将各个第三类别的类别损失进行求和计算,得到多标签识别模型的训练损失。
可选地,训练损失可以通过如下公式表示。
表示训练损失,/>表示样本图像n的预测结果,/>表示样本图像n的伪标签,其他参数请参考上文介绍。
子步骤348,计算机设备根据训练损失对多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
图6是本申请一个示例性实施例提供的参数调整过程的示意图。
如图6所示,计算机设备通过多标签识别模型确定样本图像的预测结果,并根据预测结果和类别共生关系,对多个类别中除了第一类别之外的类别标签进行校正、伪标注,得到样本图片的伪标签信息。计算机设备根据预测结果和伪标签信息对多标签识别模型的参数进行调整,有关本实施例的具体内容请参考上文,在此不进行赘述。
由上文损失函数的计算公式,可以对相关技术中造成多标签识别模型的识别能力出现退化的原因进行理解,假设,多标签识别模型预测出样本图像存在某一类别,但是样本图像不具有该类别上的正例标签,若将该类别作为对应有负例标签的类别,使用计算该类别的类别损失可能出现以下一种情况:该类别属于被漏标为正例标签的类别,该类别原本应该使用/>计算类别损失,对比发现生成训练损失的过程中引入了错误的类别损失。
通过上述方法,在计算训练损失的过程中忽略对应有伪负例标签的类别,也即,这些存在不确定性的类别不参与训练损失的计算过程,有助于减少确定训练损失的过程中引入不确定性因素,有助于避免由于标注不准确导致对应有伪负例标签的类别影响训练损失的准确性。
而且,虽然对于一个样本图像只有人工标注的一个类别上的正例标签,但是通过伪标注得到的样本图像的伪标签信息可以确定对应有负例标签的类别。也即伪标注判断样本图像中大概率不包括这些类别,使对应有负例标签的类别具有参与训练损失的计算过程的权重,为多标签识别模型的参数调整提供了更多的限定,有助于找到参数进行优化方向,缩短多标签识别模型的训练耗时。
在计算训练损失的过程中还可以考虑伪负例标签对应的类别。也就是说训练损失中包括多个类别和第一类别分别对应的类别损失,相比于与相关技术对应有伪负例标签的类别具有的类别损失的计算方法不同。
在一些实施例中,多标签识别模型的训练方法还包括:对于第一类别组中包括的每一个第四类别,计算机设备根据第四类别的类别伪标签和预测结果中包括的第三类别的预测子结果,以正例标签对应的类别损失计算方法,计算第四类别的类别损失;计算机设备对训练损失和各个第四类别的类别损失求和,得到更新后的训练损失;计算机设备使用更新后的训练损失参与对多标签识别模型的参数进行调整,得到训练后的多标签识别模型的步骤。
可选地,第四类别是第一类别组中包括的任意一个类别,也就是说,第一类别组中包括的全部类别均参与训练损失的计算。
可选地,第四类别是指第一类别组中,标签系数大于或者等于第五阈值的类别。第五阈值为预设置的。
示例性地,更新后的训练损失通过如下公式计算。
有关该公式中的参数请参考上文实施例,在此不进行赘述。
示例性地,还可以设置对应有伪负例标签的类别和第一类别的类别损失之间具有不同的权重,如更新后的训练损失可以通过如下公式进行计算。
其中,表示对应有伪负例标签的类别i的标签系数,/>为[0,1]区间中的小数。有关该公式中的参数请参考上文实施例,在此不进行赘述。
通过这种方法使得多个类别均参与训练损失的计算过程,有助于确定出多标签识别模型的参数进行优化的方向,有助于缩短对多标签识别模型进行训练的轮次数量。
下面通过几个实施例对类别共生信息的更新方法进行介绍说明。
在一些实施例中,计算机设备根据样本图像的预测结果对类别共生信息进行更新,得到更新后的类别共生信息,更新后的类别共生信息用于参与根据类别共生信息和预测结果,确定样本图像的伪标签的步骤。
可选地,对多标签识别模型进行训练的过程中包括至少一个训练阶段,不同的训练阶段分别用于着重训练多标签识别模型对不同类别的识别能力。示例性地,在第p个训练阶段用于着重训练多标签识别模型对类别p的识别能力,在第p+1个训练阶段用于着重训练多标签识别模型对类别p+1的识别能力。在第p个训练阶段结束之后,计算机设备对第p个训练阶段使用的类别共生信息进行更新,得到第(p+1)个训练阶段中使用的类别共生信息。
可选地,计算机设备根据至少一个样本图像的预测结果,确定对类别共生信息进行更新的方式。有关该步骤的具体内容请参考下一个实施例。
图7是本申请一个示例性实施例提供的类别共生信息更新过程的示意图。
如图7所示,计算机设备根据预测结果中各个类别的概率分布,对待更新的类别共生信息进行更新,得到更新后的类别共生信息。
在对多标签识别模型进行训练的过程中,根据样本图像的预测结果对类别共生信息进行更新,有助于提升类别共生信息中记录各个类别之间的相似程度的准确性。
下面通过几个实施例对类别共生信息的更新过程进行介绍说明。
在一些实施例中,计算机设备根据样本图像的预测结果对类别共生信息进行更新,得到更新后的类别共生信息,包括:对于多个类别中的第五类别和第六类别,计算机设备根据预测结果中包括的第五类别的预测子结果和第六类别的预测子结果,计算第五类别和第六类别之间的共生概率值;共生概率值用于表征样本图像与第五类别和第六类别均相关的概率;计算机设备根据共生概率值和第六类别的预测子结果,计算第五类别的调整数据;计算机设备根据第五类别的调整数据对类别共生信息中第五类别和第六类别之间的共生数据进行调整,得到第五类别和第六类别之间的更新后的共生数据;计算机设备基于多个类别中每两个类别之间的更新后的共生数据,得到更新后的类别共生信息。
第五类别和第六类别是多个类别中的任意两个类别。可选地,第五类别和第六类别为不同的类别,或者第五类别和第六类别为同一类别。
在本示例中,从训练样本集中选择样本图像服从均匀分布,且多个类别之间相互独立。可选地,第五类别的预测子结果是指多个样本图像的预测结果中分别包括的第五类别的预测子结果的平均值,第六类别的预测子结果多个样本图像的预测结果中分别包括的第六类别的预测子结果的平均值。
通过对多个样本图像的预测结果中包括的第五类别的预测子结果进行平均,能够衡量出多标签识别模型对第五类别的识别能力。第五类别的预测子结果称为第五类别的先验概率,第六类别的预测子结果也称为第六类别的先验概率。
示例性地,第五类别的预测子结果可以通过以下公式计算。
其中,、/>表示第五类别的先验概率,/>表示第五类别的预测子结果,x表示样本图像,N表示样本图像的数量。
可选地,计算机设备根据第五类别和第六类别分别对应的预测子结果,计算第五类别和第六类别之间的共生概率值,包括:将第五类别的预测子结果和第六类别的预测子结果之间的乘积确定为共生概率值。示例性地,共生概率值可以通过以下公式进行计算。
其中,表示第五类别,/>表示第六类别,/>表示第五类别的预测子结果,表示第五类别的预测子结果,/>表示第五类别和第六类别之间的共生概率值。
在一些实施例中,计算机设备根据共生概率值和第六类别的预测子结果,计算第五类别的调整数据,包括:计算机设备将共生概率值和第六类别的预测子结果的商作为第五类别的调整数据。
示例性地,第五类别的调整数据以下公式计算。
其中,表示第五类别的调整数据,/>表示第六类别的预测子结果,其他参数请参考上文实施例。
在一些实施例中,计算机设备根据共生概率值和第五类别的预测子结果,计算第六类别的调整数据,包括:计算机设备将共生概率值和第五类别的预测子结果的商作为第六类别的调整数据。第六类别的调整数据与第五类别的调整数据的数值可以相等也可以不相等。示例性地,在第五类别的预测子结果等于第六类别的预测子结果的情况下,第六类别的调整数据与第五类别的调整数据的数值相等;其他情况下,第六类别的调整数据与第五类别的调整数据的数值不相等。
示例性地,第五类别的调整数据通过以下公式计算。
其中,表示第六类别的调整数据,其他参数请参考上文实施例。
在一些实施例中,计算机设备根据第五类别的调整数据对类别共生信息中第五类别和第六类别之间的共生数据进行调整,得到第五类别和第六类别之间的更新后的共生数据,包括:计算机设备使用第一权重对第五类别的调整数据进行加权,得到加权后的第五类别的调整数据;计算机设备使用第二权重对第五类别和第六类别之间的共生数据进行调整,得到加权后的共生数据,计算机设备将加权后的第五类别的调整数据和加权后的共生数据之和,确定为第五类别和第六类别之间的更新后的共生数据。
可选地,第一权重和第二权重之和等于固定值,例如第一权重+第二权重=1,如第一权重等于0.01,第二权重等于0.99。
示例性地,更新后的类别共生信息通过以下公式进行计算。
其中,表示第一权重,/>表示第二权重。/>表示每两个类别之间的调整数据。/>表示更新后的类别共生信息,/>表示待更新的类别共生信息。
在训练过程中,随着多标签识别模型的识别能力不断提升,根据多标签识别模型生成的预测结果中包括的各个类别的预测子结果对分类共生信息进行更新,有助于使得类别共生信息中包括的共生数据更加准确,有助于提升在后续训练阶段中,确定出的样本图像的伪标签信息的准确性。
图8是本申请一个示例性实施例提供的多标签识别模型训练过程的示意图。
该示例的执行主体为计算机设备,该示例中主要包括以下几个步骤。
步骤810,计算机设备获取多个类别之间的类别共生信息。
可选地,在开始对多标签识别模型进行训练时,需要对类别共生信息进行初始化,该过程主要包括以下几个步骤:对于多个类别中的每一个类别,计算机设备基于类别模板生成至少一个类别提示;通过特征提取模型对至少一个类别提示进行处理,确定类别的类别特征;对于多个类别中的任意两个类别,计算两个类别分别对应的类别特征之间的相似性,得到两个类别之间的共生数据;基于多个类别中各个两个类别之间的共生数据,得到类别共生信息。
步骤820,计算机设备通过多标签识别模型对样本图像进行处理,得到样本图像的预测结果。样本图像的预测结果中包括样本图像在多个类别上分别对应的预测子结果。
步骤830,对于多个类别中的每一个第二类别,计算机设备根据类别共生信息确定共生数据。
步骤840,计算机设备根据共生数据和预测结果中包括的第二类别的预测子结果,确定样本图像在第二类别上的伪标签。
该过程可以包括如下几个步骤:根据共生数据和第一阈值,确定第一结果;其中,第一结果用于表征第一类别和第二类别之间的相似程度,对第二类别上的伪标签的贡献程度;根据第二类别的预测子结果和第二阈值,确定第二结果,第二结果用于表征样本图像对第二类别的类别伪标签的贡献程度;根据标签系数、第一结果和第二结果,确定第二类别的类别伪标签,标签系数用于指示第二类别的预测子结果在多标签识别模型的参数调整过程的参与度。
步骤850,计算机设备基于样本图像在各个第二类别上的伪标签,得到样本图像的伪标签信息。可选地,样本图像的伪标签信息中包括正例标签,负例标签和伪负例标签。
步骤860,计算机设备根据伪标签和预测结果,对多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
可选地,在该步骤中可以根据伪标签信息从多个类别中挑选出对应有正例标签的类别和对应有负例标签的类别,参与计算训练损失的过程,通过将对应由伪负例标签的类别剔除,有助于避免在对参数进行调整的过程中引入不确定因素。
步骤870,计算机设备根据样本图像的预测结果对类别共生信息进行更新,得到更新后的类别共生信息。
更新后的类别共生信息用于参与根据类别共生信息和预测结果,确定样本图像的伪标签的步骤。在训练未结束之前,计算机设备重复步骤820-870。
有关上述实施例的具体步骤请参考上文详细实施例,本申请在此不进行赘述。
通过这种方法能够有效地减少多标签分类的标注成本,在仅花费较小标注成本的情况下,达到了与全量标签可比拟的多标签分类性能。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图9示出了本申请一个示例性实施例提供的多标签识别模型的训练装置的框图。该装置900可以包括:信息获取模块910、结果生成模块920、标签确定模块930和模型训练模块940。
信息获取模块910,用于取多个类别之间的类别共生信息,所述类别共生信息用于表征所述多个类别中每两个类别之间的相似程度。
结果生成模块920,用于通过多标签识别模型对样本图像进行处理,得到所述样本图像的预测结果;其中,所述样本图像具有第一类别上的正例标签,所述预测结果包括预测得到的所述样本图像分别相关于所述多个类别的可能性,所述多个类别包括所述第一类别。
标签确定模块930,用于根据所述类别共生信息和所述预测结果,确定所述样本图像的伪标签信息;其中,所述伪标签信息包括所述样本图像在所述多个类别上的伪标签。
模型训练模块940,用于根据所述伪标签和所述预测结果,对所述多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
在一些实施例中,所述标签确定模块930包括:数据计算子模块,用于对于所述多个类别中的每一个第二类别,根据所述类别共生信息确定共生数据,所述共生数据用于表征所述第一类别和所述第二类别之间的相似程度,所述第二类别是所述多个类别中除所述第一类别之外的其他类别;标签确定子模块,用于根据所述共生数据和所述预测结果中包括的所述第二类别的预测子结果,确定所述样本图像在所述第二类别上的伪标签,所述第二类别的预测子结果用于表征所述样本图像相关于所述第二类别的可能性;信息生成子模块,用于基于所述样本图像在各个所述第二类别上的伪标签,得到所述样本图像的伪标签信息。
在一些实施例中,所述标签确定子模块,包括:结果确定单元,用于根据所述共生数据和第一阈值,确定第一结果;其中,所述第一结果用于表征所述第一类别和所述第二类别之间的相似程度,对所述第二类别上的伪标签的贡献程度;根据所述第二类别的预测子结果和第二阈值,确定第二结果,所述第二结果用于表征所述样本图像对所述第二类别的类别伪标签的贡献程度;标签确定单元,用于根据标签系数、所述第一结果和所述第二结果,确定所述第二类别的类别伪标签,所述标签系数用于指示所述第二类别的预测子结果在所述多标签识别模型的参数调整过程的参与度。
在一些实施例中,所述第一结果和所述第二结果的类型均包括以下至少之一:生效结果和无效结果;所述结果确定单元,用于在所述共生数据大于或者等于所述第一阈值的情况下,确定所述第一结果为所述生效结果;在所述共生数据小于所述第一阈值的情况下,确定所述第一结果为所述无效结果;所述结果确定单元,还用于:在所述第二类别的预测子结果大于或者等于所述第二阈值的情况下,确定所述第二结果为所述生效结果;在所述第二类别的预测子结果小于所述第二阈值的情况下,确定所述第二结果为所述无效结果。
在一些实施例中,所述标签确定单元用于:在所述第一结果为生效结果,且,所述第二结果为所述生效结果的情况下,根据所述标签系数,确定所述第二类别的类别伪标签是伪负例标签;在所述第一结果为无效结果,或者,所述第二结果为无效结果的情况下,确定所述第二类别的类别伪标签是负例标签。
在一些实施例中,所述装置900还包括:系数确定模块,用于根据所述共生数据与所述第二类别的预测子结果之间的数值关系,从所述共生数据和所述第二类别的预测子结果中分别确定第一系数和第二系数;所述第一系数的数值大于或者等于所述第二系数;将所述第二系数和所述第一系数的比值作为所述标签系数。
在一些实施例中,所述类别上的伪标签的类型包括以下至少之一:类别上的正例标签、类别上的负例标签、类别上的伪负例标签;其中,所述类别上的正例标签用于表征所述样本图像与所述类别相关,所述类别上的负例标签用于表征所述样本图像与所述类别不相关,所述类别上的伪负例标签用于表征所述样本图像与所述类别相关,且所述类别遗漏标注为正例标签;所述模型训练模块940,用于:根据所述类别上的伪标签的种类,将所述多个类别划分为第一类别组和第二类别组;其中,所述第一类别组包括对应所述伪负例标签的至少一个类别,所述第二类别组包括所述多个类别中除了所述第一类别组所包括类别之外的其他类别;对于所述第二类别组中包括的每一个第三类别,根据所述第三类别上的伪标签和所述预测结果中包括的第三类别的预测子结果,计算所述第三类别的类别损失;将各个所述第三类别的类别损失进行求和计算,得到所述多标签识别模型的训练损失;根据所述训练损失对所述多标签识别模型的参数进行调整,得到所述训练后的多标签识别模型。
在一些实施例中,所述装置900还包括:损失更新模块,用于对于所述第一类别组中包括的每一个第四类别,根据所述第四类别的类别伪标签和所述预测结果中包括的第三类别的预测子结果,以所述正例标签对应的类别损失计算方法,计算所述第四类别的类别损失;对所述训练损失和各个所述第四类别的类别损失求和,得到更新后的训练损失;使用所述更新后的训练损失参与所述对所述多标签识别模型的参数进行调整,得到所述训练后的多标签识别模型的步骤。
在一些实施例中,所述信息获取模块,用于:对于所述多个类别中的每一个类别,基于类别模板生成至少一个类别提示,所述类述提示包括前缀信息和所述类别的类别名称;通过特征提取模型对所述至少一个类别提示进行处理,确定所述类别的类别特征;所述类别特征用于在特征空间中描述所述类别;对于所述多个类别中的任意两个类别,计算所述两个类别分别对应的类别特征之间的相似性,得到所述两个类别之间的共生数据;基于所述多个类别中各个所述两个类别之间的共生数据,得到所述类别共生信息。
在一些实施例中,所述装置900还包括:信息更新模块,用于根据所述样本图像的预测结果对所述类别共生信息进行更新,得到更新后的类别共生信息,所述更新后的类别共生信息用于参与所述根据所述类别共生信息和所述预测结果 ,确定所述样本图像的伪标签的步骤。
在一些实施例中,所述信息更新模块,用于对于所述多个类别中的第五类别和第六类别,根据所述第五类别和所述第六类别分别对应的预测子结果,计算所述第五类别和所述第六类别之间的共生概率值;所述共生概率值用于表征所述样本图像与所述第五类别和所述第六类别均相关的概率;根据所述共生概率值和所述预测结果中包括的第六类别的预测子结果,计算所述第五类别的调整数据;根据所述第五类别的调整数据对所述类别共生信息中所述第五类别和所述第六类别之间的共生数据进行调整,得到所述第五类别和所述第六类别之间的更新后的共生数据;基于所述多个类别中每两个类别之间的更新后的共生数据,得到所述更新后的类别共生信息。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。上述实施例提供的装置的有益效果请参考方法侧实施例的描述,这里也不再赘述。
图10示出了本申请一个示例性实施例提供的计算机设备的结构框图。该计算机设备用于完成多标签识别模型的训练方法。
通常,计算机设备1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、10核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以在集成有GPU(Graphics Processing Unit,图片处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。
在一些实施例中,存储器1002中的非暂态的计算机可读存储介质存储有至少一段程序,至少一段程序由处理器1001加载并执行以实现上述各方法实施例提供的多标签识别模型的训练方法。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述各方法实施例提供的多标签识别模型的训练方法。
该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述各方法实施例提供的多标签识别模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请在收集用户的相关数据(如训练图像,多标签识别模型通过使用过程中接收到的待识别图像)之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集查询信息、查询结果的点击次数,不会记录其来自于哪个用户,而且,处理严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意都是在用户同意并授权的情况下进行采集的,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种多标签识别模型的训练方法,其特征在于,所述方法包括:
获取多个类别之间的类别共生信息,所述类别共生信息用于表征所述多个类别中每两个类别之间的相似程度;
通过多标签识别模型对样本图像进行处理,得到所述样本图像的预测结果;其中,所述样本图像具有第一类别上的正例标签,所述预测结果包括预测得到的所述样本图像分别相关于所述多个类别的可能性,所述多个类别包括所述第一类别;
对于所述多个类别中的每一个第二类别,根据所述类别共生信息确定共生数据,所述共生数据用于表征所述第一类别和所述第二类别之间的相似程度,所述第二类别是所述多个类别中除所述第一类别之外的其他类别;
根据所述共生数据和第一阈值,确定第一结果;其中,所述第一结果用于表征所述第一类别和所述第二类别之间的相似程度,对所述第二类别上的伪标签的贡献程度;
根据所述第二类别的预测子结果和第二阈值,确定第二结果,所述第二结果用于表征所述样本图像对所述第二类别的类别伪标签的贡献程度,所述第二类别的预测子结果用于表征所述样本图像相关于所述第二类别的可能性;
若所述第一结果为生效结果,且,所述第二结果为所述生效结果,则根据标签系数,确定所述第二类别上的类别伪标签是伪负例标签,所述标签系数用于指示所述第二类别的预测子结果在所述多标签识别模型的参数调整过程的参与度,所述标签系数与所述多标签识别模型的训练方法有关;
若所述第一结果为无效结果,或者,所述第二结果为无效结果,则确定所述第二类别上的类别伪标签是负例标签;
基于所述样本图像在各个所述第二类别上的伪标签,得到所述样本图像的伪标签信息,所述伪标签信息包括所述样本图像在所述多个类别上的伪标签;
根据所述伪标签和所述预测结果,对所述多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
2.根据权利要求1所述的方法,其特征在于,所述第一结果和所述第二结果的类型均包括以下至少之一:生效结果和无效结果;
所述根据所述共生数据和第一阈值,确定第一结果,包括:
若所述共生数据大于或者等于所述第一阈值,则确定所述第一结果为所述生效结果;若所述共生数据小于所述第一阈值,则确定所述第一结果为所述无效结果;
所述根据所述第二类别的预测子结果和第二阈值,确定第二结果,包括:
若所述第二类别的预测子结果大于或者等于所述第二阈值,则确定所述第二结果为所述生效结果;若所述第二类别的预测子结果小于所述第二阈值,则确定所述第二结果为所述无效结果。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述共生数据与所述第二类别的预测子结果之间的数值关系,从所述共生数据和所述第二类别的预测子结果中分别确定第一系数和第二系数;所述第一系数的数值大于或者等于所述第二系数;
将所述第二系数和所述第一系数的比值作为所述标签系数。
4.根据权利要求1所述的方法,其特征在于,所述类别上的伪标签的类型包括以下至少之一:类别上的正例标签、类别上的负例标签、类别上的伪负例标签;其中,所述类别上的正例标签用于表征所述样本图像与所述类别相关,所述类别上的负例标签用于表征所述样本图像与所述类别不相关,所述类别上的伪负例标签用于表征所述样本图像与所述类别相关,且所述类别遗漏标注为正例标签;
所述根据所述伪标签和所述预测结果,对所述多标签识别模型的参数进行调整,得到训练后的多标签识别模型,包括:
根据所述类别上的伪标签的种类,将所述多个类别划分为第一类别组和第二类别组;其中,所述第一类别组包括对应所述伪负例标签的至少一个类别,所述第二类别组包括所述多个类别中除了所述第一类别组所包括类别之外的其他类别;
对于所述第二类别组中包括的每一个第三类别,根据所述第三类别上的伪标签和所述预测结果中包括的第三类别的预测子结果,计算所述第三类别的类别损失;
将各个所述第三类别的类别损失进行求和计算,得到所述多标签识别模型的训练损失;
根据所述训练损失对所述多标签识别模型的参数进行调整,得到所述训练后的多标签识别模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对于所述第一类别组中包括的每一个第四类别,根据所述第四类别的类别伪标签和所述预测结果中包括的第三类别的预测子结果,以所述正例标签对应的类别损失计算方法,计算所述第四类别的类别损失;
对所述训练损失和各个所述第四类别的类别损失求和,得到更新后的训练损失;
使用所述更新后的训练损失参与所述对所述多标签识别模型的参数进行调整,得到所述训练后的多标签识别模型的步骤。
6.根据权利要求1所述的方法,其特征在于,所述获取多个类别之间的类别共生信息,包括:
对于所述多个类别中的每一个类别,基于类别模板生成至少一个类别提示,所述类别提示包括修饰词和所述类别的类别名称;
通过特征提取模型对所述至少一个类别提示进行处理,确定所述类别的类别特征;所述类别特征用于在特征空间中描述所述类别;
对于所述多个类别中的任意两个类别,计算所述两个类别分别对应的类别特征之间的相似性,得到所述两个类别之间的共生数据;
基于所述多个类别中各个所述两个类别之间的共生数据,得到所述类别共生信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述样本图像的预测结果对所述类别共生信息进行更新,得到更新后的类别共生信息,所述更新后的类别共生信息用于参与所述根据所述类别共生信息和所述预测结果,确定所述样本图像的伪标签的步骤。
8.根据权利要求7所述的方法,其特征在于,所述根据所述样本图像的预测结果对所述类别共生信息进行更新,得到更新后的类别共生信息,包括:
对于所述多个类别中的第五类别和第六类别,根据所述预测结果中包括的所述第五类别的预测子结果和所述第六类别的预测子结果,计算所述第五类别和所述第六类别之间的共生概率值;所述共生概率值用于表征所述样本图像与所述第五类别和所述第六类别均相关的概率;
根据所述共生概率值和所述第六类别的预测子结果,计算所述第五类别的调整数据;
根据所述第五类别的调整数据对所述类别共生信息中所述第五类别和所述第六类别之间的共生数据进行调整,得到所述第五类别和所述第六类别之间的更新后的共生数据;
基于所述多个类别中每两个类别之间的更新后的共生数据,得到所述更新后的类别共生信息。
9.一种多标签识别模型的训练装置,其特征在于,所述装置包括:
信息获取模块,用于取多个类别之间的类别共生信息,所述类别共生信息用于表征所述多个类别中每两个类别之间的相似程度;
结果生成模块,用于通过多标签识别模型对样本图像进行处理,得到所述样本图像的预测结果;其中,所述样本图像具有第一类别上的正例标签,所述预测结果包括预测得到的所述样本图像分别相关于所述多个类别的可能性,所述多个类别包括所述第一类别;
标签确定模块,用于对于所述多个类别中的每一个第二类别,根据所述类别共生信息确定共生数据,所述共生数据用于表征所述第一类别和所述第二类别之间的相似程度,所述第二类别是所述多个类别中除所述第一类别之外的其他类别;
所述标签确定模块,还用于根据所述共生数据和第一阈值,确定第一结果;其中,所述第一结果用于表征所述第一类别和所述第二类别之间的相似程度,对所述第二类别上的伪标签的贡献程度;
所述标签确定模块,还用于根据所述第二类别的预测子结果和第二阈值,确定第二结果,所述第二结果用于表征所述样本图像对所述第二类别的类别伪标签的贡献程度,所述第二类别的预测子结果用于表征所述样本图像相关于所述第二类别的可能性;
所述标签确定模块,还用于在所述第一结果为生效结果,且,所述第二结果为所述生效结果的情况下,根据标签系数,确定所述第二类别上的类别伪标签是伪负例标签,所述标签系数用于指示所述第二类别的预测子结果在所述多标签识别模型的参数调整过程的参与度,所述标签系数与所述多标签识别模型的训练方法有关;
所述标签确定模块,还用于在所述第一结果为无效结果,或者,所述第二结果为无效结果的情况下,确定所述第二类别上的类别伪标签是负例标签;
所述标签确定模块,还用于基于所述样本图像在各个所述第二类别上的伪标签,得到所述样本图像的伪标签信息,所述伪标签信息包括所述样本图像在所述多个类别上的伪标签;
模型训练模块,用于根据所述伪标签和所述预测结果,对所述多标签识别模型的参数进行调整,得到训练后的多标签识别模型。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的多标签识别模型的训练方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行,以实现如权利要求1至8任一项所述的多标签识别模型的训练方法。
CN202311297998.1A 2023-10-09 2023-10-09 多标签识别模型的训练方法、装置、设备及存储介质 Active CN117058489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311297998.1A CN117058489B (zh) 2023-10-09 2023-10-09 多标签识别模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311297998.1A CN117058489B (zh) 2023-10-09 2023-10-09 多标签识别模型的训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117058489A CN117058489A (zh) 2023-11-14
CN117058489B true CN117058489B (zh) 2023-12-29

Family

ID=88661200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311297998.1A Active CN117058489B (zh) 2023-10-09 2023-10-09 多标签识别模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117058489B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115995A (zh) * 2020-09-11 2020-12-22 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112465071A (zh) * 2020-12-18 2021-03-09 深圳赛安特技术服务有限公司 图像多标签分类方法、装置、电子设备及介质
CN113569615A (zh) * 2021-02-24 2021-10-29 腾讯科技(深圳)有限公司 基于图像处理的目标识别模型的训练方法和装置
CN113627447A (zh) * 2021-10-13 2021-11-09 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113705597A (zh) * 2021-03-05 2021-11-26 腾讯科技(北京)有限公司 一种图像处理方法、装置、计算机设备以及可读存储介质
CN114332503A (zh) * 2021-12-24 2022-04-12 商汤集团有限公司 对象重识别方法及装置、电子设备和存储介质
CN114494787A (zh) * 2022-02-16 2022-05-13 北京地平线信息技术有限公司 图像标签的确定方法、装置、电子设备和存储介质
CN114581732A (zh) * 2022-03-04 2022-06-03 北京百度网讯科技有限公司 一种图像处理及模型训练方法、装置、设备和存储介质
CN114722958A (zh) * 2022-04-22 2022-07-08 商汤集团有限公司 网络训练及目标检测方法、装置、电子设备和存储介质
CN115205573A (zh) * 2022-02-22 2022-10-18 上海商汤智能科技有限公司 图像处理方法、装置及设备
CN115359296A (zh) * 2022-08-23 2022-11-18 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及存储介质
CN115661615A (zh) * 2022-12-13 2023-01-31 浙江莲荷科技有限公司 一种图像识别模型的训练方法、装置及电子设备
CN116385879A (zh) * 2023-04-07 2023-07-04 上海大学 一种半监督海面目标检测方法、系统、设备及存储介质
CN116630714A (zh) * 2023-05-30 2023-08-22 拓元(广州)智慧科技有限公司 多标签识别的类别自适应标签发现与噪声拒绝方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972329B2 (en) * 2018-12-31 2024-04-30 Xerox Corporation Method and system for similarity-based multi-label learning
CN111597887B (zh) * 2020-04-08 2023-02-03 北京大学 一种行人再识别方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115995A (zh) * 2020-09-11 2020-12-22 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112465071A (zh) * 2020-12-18 2021-03-09 深圳赛安特技术服务有限公司 图像多标签分类方法、装置、电子设备及介质
CN113569615A (zh) * 2021-02-24 2021-10-29 腾讯科技(深圳)有限公司 基于图像处理的目标识别模型的训练方法和装置
CN113705597A (zh) * 2021-03-05 2021-11-26 腾讯科技(北京)有限公司 一种图像处理方法、装置、计算机设备以及可读存储介质
CN113627447A (zh) * 2021-10-13 2021-11-09 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114332503A (zh) * 2021-12-24 2022-04-12 商汤集团有限公司 对象重识别方法及装置、电子设备和存储介质
CN114494787A (zh) * 2022-02-16 2022-05-13 北京地平线信息技术有限公司 图像标签的确定方法、装置、电子设备和存储介质
CN115205573A (zh) * 2022-02-22 2022-10-18 上海商汤智能科技有限公司 图像处理方法、装置及设备
CN114581732A (zh) * 2022-03-04 2022-06-03 北京百度网讯科技有限公司 一种图像处理及模型训练方法、装置、设备和存储介质
CN114722958A (zh) * 2022-04-22 2022-07-08 商汤集团有限公司 网络训练及目标检测方法、装置、电子设备和存储介质
CN115359296A (zh) * 2022-08-23 2022-11-18 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及存储介质
CN115661615A (zh) * 2022-12-13 2023-01-31 浙江莲荷科技有限公司 一种图像识别模型的训练方法、装置及电子设备
CN116385879A (zh) * 2023-04-07 2023-07-04 上海大学 一种半监督海面目标检测方法、系统、设备及存储介质
CN116630714A (zh) * 2023-05-30 2023-08-22 拓元(广州)智慧科技有限公司 多标签识别的类别自适应标签发现与噪声拒绝方法及设备

Also Published As

Publication number Publication date
CN117058489A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN110796204A (zh) 视频标签确定方法、装置和服务器
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN112668608B (zh) 一种图像识别方法、装置、电子设备及存储介质
CN114219971A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114461853A (zh) 视频场景分类模型的训练样本生成方法、装置及设备
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN117058489B (zh) 多标签识别模型的训练方法、装置、设备及存储介质
CN116485943A (zh) 图像生成方法、电子设备及存储介质
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质
CN113762324A (zh) 虚拟对象检测方法、装置、设备及计算机可读存储介质
CN116704221B (zh) 图像处理方法、装置、设备和计算机可读存储介质
CN117575894B (zh) 图像生成方法、装置、电子设备和计算机可读存储介质
CN117540221B (zh) 图像处理方法和装置、存储介质及电子设备
CN117011743A (zh) 数据处理方法及相关设备
CN118118748A (zh) 直播过程中回放视频的生成方法及相关装置
CN117056523A (zh) 表征学习方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant