CN115359296A - 图像识别方法、装置、电子设备及存储介质 - Google Patents

图像识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115359296A
CN115359296A CN202211014931.8A CN202211014931A CN115359296A CN 115359296 A CN115359296 A CN 115359296A CN 202211014931 A CN202211014931 A CN 202211014931A CN 115359296 A CN115359296 A CN 115359296A
Authority
CN
China
Prior art keywords
image
sample
determining
category
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211014931.8A
Other languages
English (en)
Inventor
柯博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211014931.8A priority Critical patent/CN115359296A/zh
Publication of CN115359296A publication Critical patent/CN115359296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像识别方法、装置、电子设备以及存储介质,涉及人工智能技术领域。获取待识别图像;通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值;图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别;基于至少两个概率值,确定待识别图像包含的待识别对象的类别;对象识别操作包括以下步骤:对待识别图像进行特征提取,得到待识别图像对应于球面空间的球面特征向量;确定球面特征向量与至少两种分类器的权重的匹配度;基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值。本申请的图像识别方法可以提高多标签识别的准确率。

Description

图像识别方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能领域,具体而言,本申请涉及一种图像识别方法、装置、电子设备及存储介质。
背景技术
近年来,近年来基于深度学习的图像识别技术获得巨大的发展,这些图像识别方法为图像标签业务的落地提供了很大的帮助。生活中的现实图片是由不同的物体构成的,图像识别算法需要识别出图片中的多个标签。因此业务场景中主要关注图像的多标签识别。
目前的多标签识别模型,通常是采用欧几里得特征空间来确定待识别图像中包含每个对象类别的概率,从而确定待识别图像的多标签。但是欧氏距离实际上不容易被度量,导致确定的多标签的准确率较低。
发明内容
本申请实施例的目的旨在提供一种图像识别方法、装置及电子设备,本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种图像识别的方法,该方法包括:
获取待识别图像;
通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值;图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别;
基于至少两个概率值,确定待识别图像包含的待识别对象的类别;
对象识别操作包括以下步骤:
对待识别图像进行特征提取,得到待识别图像对应于球面空间的球面特征向量;
确定球面特征向量与至少两种分类器的权重的匹配度;每一分类器的权重表示对应的预设对象的类别在球面空间中的参考特征向量;
基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值。
在一些可能的实施方式中,训练好的图像识别模型是基于如下方式进行训练得到的:
获取多个样本图像;每一样本图像包含至少两个样本对象,每一样本图像标注有至少一个样本类别标签;
基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,
其中,训练操作包括:
对于每一样本图像,通过初始识别模型的初始特征提取网络获取与样本图像对应的球面空间中的样本特征向量;
确定样本特征向量分别与初始图像识别模型中的至少两种初始分类器的初始权重的匹配度;
基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值;其中,匹配度与对应的预测概率值正相关;
基于各样本图像的至少两个预测概率值和至少一个样本类别标签,确定模型训练损失;
根据模型训练损失对初始识别模型的模型参数进行调整。
在一些可能的实施方式中,多个样本图像中包括至少一个第一图像;每一第一样本图像中包含至少两个样本对象,且第一样本图像的至少一个样本类别标签包括第一样图图像中包含的每一样本对象对应的样本类别标签。
在一些可能的实施方式中,多个样本图像中还包括至少一个第二样本图像或至少一个第三样本图像中的至少一种;
其中,第二样本图像中包含多个样本对象,第二样本图像标注有至少两个样本类别标签,且至少两个样本对象中的至少一个样本对象未标注样本类别标签;
第三样本图像标注有一个样本类别标签。
在一些可能的实施方式中,第三样本图像是通过如下方式获取的:
接收检索关键字,根据检索关键字从预设的图像数据库中查询对应的图像,检索关键字是对应于至少一个对象的检索关键字;
将查询到的图像作为第三样本图像,并基于检索关键字确定第三样本图像的样本类别标签。
在一些可能的实施方式中,对于每一样本图像,基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值,包括:
基于每一匹配度确定样本特征向量与每一类别的分类器的初始权重之间的初始夹角;
对于每一类别,基于预设特征间隔增加初始夹角,得到该类别对应的目标夹角;
根据目标夹角确定该类别的预测概率值。
在一些可能的实施方式中,预设特征间隔包括至少两个候选特征间隔;
基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,包括:
基于各样本图像和每个候选特征间隔,对初始图像识别模型重复执行训练操作,得到每种候选特征间隔对应的训练好的候选识别模型;
基于至少两个候选识别模型,确定训练好的图像识别模型。
在一些可能的实施方式中,基于至少两个候选识别模型,确定训练好的图像识别模型,包括:
获取测试样本集;其中,测试样本集包括多个测试图像,每一测试图像中包含至少两个测试对象,且每一测试图像标注有一个测试标签;
基于测试样本集对至少两个候选识别模型进行测试,得到与至少两个候选识别模型分别对应的概率函数;
基于测试样本集对应的测试标签分布信息和至少两个候选识别模型分别对应的概率函数,从至少两个候选识别模型中确定出图像识别模型。
另一方面,本申请实施例提供了一种图像识别装置,该装置包括:
获取模块,用于获取待识别图像;
识别模块,用于通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值;图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别;
确定模块,用于基于至少两个概率值,确定待识别图像包含的待识别对象的类别;
识别模型在执行对象识别操作时,具体用于:
对待识别图像进行特征提取,得到待识别图像对应于球面空间的球面特征向量;
确定球面特征向量与至少两种分类器的权重的匹配度;每一分类器的权重表示对应的预设对象的类别在球面空间中的参考特征向量;
基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值。
在一些可能的实施方式中,还包括训练模块,用于:
获取多个样本图像;每一样本图像包含至少两个样本对象,每一样本图像标注有至少一个样本类别标签;
基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,
其中,训练操作包括:
对于每一样本图像,通过初始识别模型的初始特征提取网络获取与样本图像对应的球面空间中的样本特征向量;
确定样本特征向量分别与初始图像识别模型中的至少两种初始分类器的初始权重的匹配度;
基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值;其中,匹配度与对应的预测概率值正相关;
基于各样本图像的至少两个预测概率值和至少一个样本类别标签,确定模型训练损失;
根据模型训练损失对初始识别模型的模型参数进行调整。
在一些可能的实施方式中,多个样本图像中还包括至少一个第二样本图像或至少一个第三样本图像中的至少一种;
其中,第二样本图像中包含多个样本对象,第二样本图像标注有至少两个样本类别标签,且至少两个样本对象中的至少一个样本对象未标注样本类别标签;
第三样本图像标注有一个样本类别标签。
在一些可能的实施方式中,第三样本图像是通过如下方式获取的:
接收检索关键字,根据检索关键字从预设的图像数据库中查询对应的图像,检索关键字是对应于至少一个对象的检索关键字;
将查询到的图像作为第三样本图像,并基于检索关键字确定第三样本图像的样本类别标签。
在一些可能的实施方式中,训练模块在对于每一样本图像,基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值时,具体用于:
基于每一匹配度确定样本特征向量与每一类别的分类器的初始权重之间的初始夹角;
对于每一类别,基于预设特征间隔增加初始夹角,得到该类别对应的目标夹角;
根据目标夹角确定该类别的预测概率值。
在一些可能的实施方式中,预设特征间隔包括至少两个候选特征间隔;
训练模块在基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型时,具体用于:
基于各样本图像和每个候选特征间隔,对初始图像识别模型重复执行训练操作,得到每种候选特征间隔对应的训练好的候选识别模型;
基于至少两个候选识别模型,确定训练好的图像识别模型。
在一些可能的实施方式中,训练模块在基于至少两个候选识别模型,确定训练好的图像识别模型时,具体用于:
获取测试样本集;其中,测试样本集包括多个测试图像,每一测试图像中包含至少两个测试对象,且每一测试图像标注有一个测试标签;
基于测试样本集对至少两个候选识别模型进行测试,得到与至少两个候选识别模型分别对应的概率函数;
基于测试样本集对应的测试标签分布信息和至少两个候选识别模型分别对应的概率函数,从至少两个候选识别模型中确定出图像识别模型。
在一些可能的实施方式中,多个样本图像中包括至少一个第一图像;每一第一样本图像中包含至少两个样本对象,且第一样本图像的至少一个样本类别标签包括第一样图图像中包含的每一样本对象对应的样本类别标签。
另一方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
本申请实施例提供的技术方案带来的有益效果如下:
通过确定待识别图像对应于球面空间的球面特征向量,再确定球面特征向量与至少两种分类器的权重的匹配度,分类器的权重为预设对象的类别在球面空间中的参考特征向量,再通过至少两个概率值,确定待识别图像包含的待识别对象的类别,可以提高多标签识别的准确率。
进一步的,用于训练初始识别模型的样本图像中包含第一样本图像,即完全标注图像,可以有效提高训练得到的图像识别模型的预测准确度;若样本图像中还包括可以直接通过检索关键词获取的第一样本图像,不需要借助人工标注,可以有效减少获取样本图像的人工成本,提高样本图像的获取效率。
进一步的,通过引入特征间隔,可以降低第二样本数据,尤其是第三样本数据中的漏标数据的影响,减少了梯度噪声,有利于对初始识别模型进行优化得到图像识别模型。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为一个示例中提供的图像识别方法的应用环境示意图;
图2为本申请实施例提供的一种图像识别方法的流程示意图;
图3为本申请实施例提供的一种模型训练的流程示意图;
图4为一个示例中样本类别标签在球面空间下的示意图;
图5为本申请一个示例中样本图像的获取方案的示意图;
图6(a)-(c)为本申请示例中测试得到的正负样本分布信息和概率函数形态示意图;
图7为本申请一个示例中图像识别系统的结构示意图;
图8为本申请一个示例中图像识别方法的示意图;
图9为本申请部分标注下学术数据集结果;
图10为本申请实施例提供的一种图像识别装置的结构示意图;
图11为本申请实施例所适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“参数A包括A1、A2、A3”的描述,可以实现为参数A包括A1或A2或A3,还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。
近年来基于深度学习的图像识别技术获得巨大的发展,这些图像识别方法为图像标签业务的落地提供了很大的帮助。但是学术前沿的图像分类技术主要关注单个标签的识别。譬如ImageNet(一种可视化数据库)图像识别中,分类器需要从1000类中选出图片中出现的唯一一个类别。实际上,这种单标签的算法并不满足生活场景;生活中的现实图片是由不同的物体构成的,图像识别算法需要识别出图片中的多个标签。因此业务场景中主要关注多标签算法的落地应用。
在图像标签业务中,相比单标签算法,常用的多标签算法需要耗费更多的人力资源进行标注。如图1中,单标签算法的训练集里每张图片只需要标注一次,而多标签算法需要进行多个物体的精细标注,增加了标注的工作量。此外,精细的标注要求加大了标注难度,增加了标签漏标注的可能性,表现为遗漏了细小物体、标注人员对标签理解不统一造成漏识别等。
为了解决多标签全量标注数据较为困难的问题,已有的方法主要研究了以下几种标注设定:
Partial Labels(部分标注标签):在这种标注设定下,每个图片只标注了部分正标签和负标签,其余标签被认为是未知。这种方法随着标注比例的提升,效果上趋近于全量标注;但是为了保证效果,需要大量标注负标签,导致标注成本依然很高。
Single Positive Labels(单标注标签):每个图片只标注一个正标签,剩下的标签都未知。这种模式减少了负标签的标注,大大降低了标注成本;但是基于这种模式,已有的算法效果都不佳,影响了图像标签业务的识别准确率。目前的基准算法把未标注的样本都看作负样本,采用二元交叉熵损失函数(binary cross-entropy,BCE)来进行优化。为了降低模型过拟合风险,在多标签分类中引入标签平滑(Label Smoothing,LS),获得了效果提升;此外还引入了数据集里面平均每张图的标签数量作为先验,作为训练过程中标签输出的约束信息,也获得了2%左右的提升,但是平均标签数量的信息在实际采用单标注标签设定标注的数据集中并不可知,因此该方法并不具备落地的可能性。
传统的多标签算法采用完全标注的方法进行训练数据构建,消耗了较多的标注人力和时间成本。
已有基于单标注标签的算法虽然能够降低数据标注量,但是效果不佳,而且引入数据集平均标签数的先验,降低了实际业务落地的可能性。
本申请的图像识别模型可以基于人工智能(Artificial Intelligence,AI)中的机器学习(Machine Learning,ML)来实现。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像识别技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面通过对几个可选的实施例的描述,对本申请提供的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
本申请实施例提供的图像识别方法,可以由任意的计算机设备执行,可选的,可以由服务器执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
图1为本申请实施例提供的图像识别方法的应用环境示意图。其中,应用环境可以包括服务器101和终端102,其中,终端102发送待识别图像到服务器101,服务器101通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值;服务器101基于至少两个概率值,确定待识别图像包含的待识别对象的类别,并将识别得到的待识别对象的类别发送到终端102。
上述应用场景中,是服务器通过训练好的图像识别模型对待识别图像进行识别,将识别得到的待识别对象的类别发送到终端,在其他应用场景中,可以由终端直接通过训练好的图像识别模型对待识别图像进行识别,
本技术领域技术人员可以理解,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。
在一些可能的实施方式中,提供了一种图像识别方法,可以由控制服务器执行。
图2示出了本申请实施例提供的一种图像识别方法的流程示意图,以执行主体为控制服务器为例,本申请提供的图像识别方法,可以包括如下步骤:
步骤S201,获取待识别图像。
其中,待识别图像中可以包括一个待识别对象,也可以包括至少两个待识别对象,也可以不包括待识别对象。
其中,待识别对象可以是人或物体,例如,待识别图像中的待识别对象可以包括大厦、天空和树木等。
步骤S202,通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值。
其中,图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别。
其中,对象识别操作包括以下步骤:
(1)对待识别图像进行特征提取,得到待识别图像对应于球面空间的球面特征向量。
其中,球面空间是以空间内任意的一个点为球心,定长为半径形成的空间。
具体的,可以通过图像识别网络中的特征提取网络对待识别图像进行特征提取,得到球面特征向量。
(2)确定球面特征向量与至少两种分类器的权重的匹配度。
其中,每一分类器的权重表示对应的预设对象的类别在球面空间中的参考特征向量。
其中,匹配度可以包括余弦相似度,可以确定球面特征向量与至少两种分类器的权重的余弦相似度。
(3)基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值。
其中,每一匹配度可以与包含每一类别的预设对象的概率值正相关。
具体针对匹配度确定概率值的过程将在下文进行进一步详细阐述。
步骤S203,基于至少两个概率值,确定待识别图像包含的待识别对象的类别。
具体的,可以将大于预设阈值的概率值对应的待识别类型的类别作为待识别图像包含的类别。
若待识别图像中包括待识别对象,则确定的待识别图像包含的类别为待识别对象的类别;若待识别图像中不包含待识别对象,则可以确定待识别图像中不包含预设对象的类别。
上述实施例中,通过确定待识别图像对应于球面空间的球面特征向量,再确定球面特征向量与至少两种分类器的权重的匹配度,分类器的权重为预设对象的类别在球面空间中的参考特征向量,再通过至少两个概率值,确定待识别图像包含的待识别对象的类别,可以提高多标签识别的准确率。
以下将结合实施例进一步阐述图像识别模型的训练过程。
在一些可能的实施方式中,训练好的图像识别模型是基于如下方式进行训练得到的:
步骤S301,获取多个样本图像。
其中,每一样本图像包含至少两个样本对象,每一样本图像标注有至少一个样本类别标签。
具体的,图像识别模型可以通过多个样本图像训练得到,每一样本图像包含至少两个样本对象,每一样本图像标注有至少一个样本类别标签,即样本图像中的样本对象可以是一个或多个,可以是所有的样本对象都标注有样本标签,也可以是部分或者一个样本对象标注有样本类别标签,具体针对样本图像将在下文进行进一步说明。
步骤S302,基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型。
其中,训练操作包括:
(1)对于每一样本图像,通过初始识别模型的初始特征提取网络获取与样本图像对应的球面空间中的样本特征向量。
具体的,将样本图像输入到初始特征提取网络,得到对应的样本特征向量。
(2)确定样本特征向量分别与初始图像识别模型中的至少两种初始分类器的初始权重的匹配度。
其中,初始权重可以是每一预设对象的类别在球面空间中的初始参考向量,可以确定样本特征向量分别与初始参考向量的余弦相似度,作为匹配度。
(3)基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值。
其中,匹配度与对应的预测概率值正相关。
具体的,可以基于如下公式来计算预测概率值:
Figure BDA0003812146160000131
其中,pm(W,x)表示样本图像中包含每一类别的预设对象的预测概率值;W表示每一分类器的初始权重;x表示样本特征向量;s表示
Figure BDA0003812146160000132
的缩放尺度,
Figure BDA0003812146160000133
表示样本特征向量分别与初始参考向量的余弦相似度,其中,σ是sigmoid激活函数:
σ(z)=1/(1+e-z) (2)
其中,σ为激活函数;z为
Figure BDA0003812146160000134
如图4所示,图4为一个示例中样本类别标签在球面空间下的示意图。可见“车辆”和“人”两个样本类别标签构成的多标签算法的结果,比如右上角的既有“车辆”,又有“人”的样本图像会在特征空间上聚拢,右下角只有“人”的样本图像,会在球面空间另外一侧聚拢。
(4)基于各样本图像的至少两个预测概率值和至少一个样本类别标签,确定模型训练损失。
具体的,可以采用如下公式进行计算:
Figure BDA0003812146160000135
其中,L表示训练总损失;N表示总的样本类别标签的数量,而y是该样本图像对应存在的一个或者多个样本类别标签,p是该样本图像对应每一个样本对象的类别的预测概率值。
上述损失函数中,把每一个类别都看作一个二分类问题,对于存在的正标签,log(pi)会使得对应的概率接近1,而对于不存在的负标签,log(l-pi))则会让对应类别的输出概率压缩到0;总的来说,算法会让图片中存在的标签输出概率高于不存在的标签,从而达到图像标签识别的效果。
(5)根据模型训练损失对初始识别模型的模型参数进行调整。
其中,初始识别模型的模型参数包括初始特征提取网络的初始参数以及每一分类器的初始权重。
以下将结合实施例对本申请的样本图像进行进一步详细说明。
在一些可能的实施方式中,多个样本图像中包括至少一个第一图像;每一第一样本图像中包含至少两个样本对象,且第一样本图像的至少一个样本类别标签包括第一样图图像中包含的每一样本对象对应的样本类别标签。
其中,第一样本图像也可以称为完全标注样本,即第一样本图图像中的所有样本对象均标注有对应的样本类别标签。
若样本图像均为第一样本图像,则训练得到的图像识别模型的识别准确度较高。
在另一些可能的实施方式中,多个样本图像中还包括至少一个第二样本图像或至少一个第三样本图像中的至少一种。
其中,第二样本图像中包含多个样本对象,第二样本图像标注有至少两个样本类别标签,且至少两个样本对象中的至少一个样本对象未标注样本类别标签。
具体的,第二样本图像也可以称为部分标注图像,即第二样本图像中包括至少两个样本对象,但是并不是所有的样本对象都标注有样本类别标签,有一部分样本对象标注有样本类别标签,有一部分样本对象并未标注有样本类别标签。
第三样本图像标注有一个样本类别标签。
其中,第三样本图像可以称为单标签图像,即第三样本图像中有至少两个样本对象,但第三样本图像只标注了一个样本类别标签。
在一些可能的实施方式中,第三样本图像是通过如下方式获取的:
接收检索关键字,根据检索关键字从预设的图像数据库中查询对应的图像,检索关键字是对应于至少一个对象的检索关键字;
将查询到的图像作为第三样本图像,并基于检索关键字确定第三样本图像的样本类别标签。
具体的,如图5所示,可以在网上使用爬虫抓取检索关键字对应的图片数据,获取到原始的标注数据。在这批原始的标注数据里,每一张图片只有一个对应的标签,即爬取时所使用的检索关键字。若不引入人工标注,则该原始数据集可以作为第三样本图像。
若引入人工标注,即可以接收用户针对第三样本图像输入的校正信息,则可以根据校正信息的程度,生产出全标注或者部分标注的数据集,即得到第二样本图像或第一样本图像。
上述实施例中,用于训练初始识别模型的样本图像中包含第一样本图像,即完全标注图像,可以有效提高训练得到的图像识别模型的预测准确度;若样本图像中还包括可以直接通过检索关键词获取的第一样本图像,不需要借助人工标注,可以有效减少获取样本图像的人工成本,提高样本图像的获取效率。
在一些可能的实施方式中,还可以引入特征间隔来确定预测概率值。
在具体实施过程中,对于每一样本图像,基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值,可以包括:
(1)基于每一匹配度确定样本特征向量与每一类别的分类器的初始权重之间的初始夹角;
(2)对于每一类别,基于预设特征间隔增加初始夹角,得到该类别对应的目标夹角;
(3)根据目标夹角确定该类别的预测概率值。
具体的,确定每一匹配度的反余弦值,即得到样本特征向量与每一类别的分类器的初始权重之间的初始夹角。
具体的,可以通过如下公式计算预测概率值:
Figure BDA0003812146160000161
其中,pm表示样本图像中包含每一类别的预设对象的预测概率值;W表示每一分类器的初始权重;x表示样本特征向量;s表示
Figure BDA0003812146160000162
的缩放尺度,
Figure BDA0003812146160000163
表示样本特征向量分别与初始参考向量的余弦相似度,σ表示sigmoid激活函数;m表示特征间隔。
以下将结合附图对引入间隔的效果进行说明。
具体的,可以采用第一样本图像和第三样本图像作为测试图像进行对比说明。
如图6所示,图6(a)未设置特征间隔的情况下,通过第一样本图像进行测试得到的正负样本分布信息和概率函数形态,图中横坐标为余弦相似度,纵坐标为第一样本图像跟对应类别的分类器权重的余弦相似度的分布概率。
图6(a)是正常的完全标注的数据,因为没有错误的标签,正样本的分数很高,负样本的分数很低,是正常的标签分布。
图6(b)为在未设置特征间隔的情况下,通过第三样本图像进行测试得到的正负样本分布信息和概率函数形态,图中横坐标为余弦相似度,纵坐标为第三样本图像跟对应类别的分类器权重的余弦相似度的分布概率。
由于第三样本图像中只标注有一个样本类别标签,可以看到图6(b)中有大量的漏标数据(false negatives)分布在分数适中的区域,这些样本会造成大量的梯度噪声,影响最终的模型收敛。
图6(c)为在设置了特征间隔的情况下,通过第三样本图像进行测试得到的正负样本分布信息和概率函数形态,图中m为0.1,可见在这个曲线下,漏标数据的分数会被降低,从而减少了梯度噪声,帮助模型进一步优化。
上述附图中只陈述了第三样本图像中的漏标数据的影响,实际上在第二样本集中也存在漏标数据,同样的引入特征间隔可以减少梯度噪声。
上述实施例中,通过引入特征间隔,可以降低第二样本数据,尤其是第三样本数据中的漏标数据的影响,减少了梯度噪声,有利于对初始识别模型进行优化得到图像识别模型。
在一些可能的实施方式中,预设特征间隔包括至少两个候选特征间隔;
基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,包括:
基于各样本图像和每个候选特征间隔,对初始图像识别模型重复执行训练操作,得到每种候选特征间隔对应的训练好的候选识别模型;
基于至少两个候选识别模型,确定训练好的图像识别模型。
在具体实施过程中,可以采用同样的样本图像、不同的候选特征间隔,分别对初始识别模型进行训练,得到不同候选特征间隔对应的不用的图像识别模型,再从不同候选特征间隔对应的不用的图像识别模型中选取图像识别模型。
在一些可能的实施方式中,基于至少两个候选识别模型,确定训练好的图像识别模型,包括:
(1)获取测试样本集;
(2)基于测试样本集对至少两个候选识别模型进行测试,得到与至少两个候选识别模型分别对应的概率函数;
(3)基于测试样本集对应的测试标签分布信息和至少两个候选识别模型分别对应的概率函数,从至少两个候选识别模型中确定出图像识别模型。
其中,测试样本集包括多个测试图像,每一测试图像中包含至少两个测试对象,且每一测试图像标注有一个测试标签,即可以采用第三样本图像作为测试图像对多个候选识别模型进行测试。
具体的,在采用测试图像进行测试时,可以假定已知测试图像的每一测试对象的测试标签,但是实际上测试的时候只采用一个测试标签,则可以得到类似于图6(b)和图6(c)的正负样本分布概率和概率函数形态图,可以根据测试标签分布信息选取合适的概率函数,从而确定对应的图像识别模型以及候选特征间隔,例如,可以选择概率函数中分布有较少的漏标函数,且跟正标签更接近的概率函数。
需要说明的是,上述实施例中阐述的是针对初始识别模型进行训练过程中,引入了特征间隔,在训练好的图像识别模型确定待识别图像中包含每一类别的预设对象的概率值时,也引入了特征间隔。
也就是说,基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值,可以包括:
基于每一匹配度确定球面特征向量与每一类别的分类器的权重之间的第一夹角;
对于每一类别,基于预设特征间隔增加第一夹角,得到该类别对应的第二夹角;
根据第二夹角确定该类别的概率值。
上述过程同样可以根据公式(4)进行计算,在此不再进行赘述。
以下将从本申请的图像识别系统框架的角度,对本申请的图像识别方法进行进一步说明。
如图7所示,在一个示例中,本申请的图像识别系统,可以包括两个部分:训练侧和测试侧。其中,训练侧包括数据采集模块和模型优化模块;测试侧包括模型推理模块。
数据采集模块:用于采集样本图像;样本图像可以包括第一样本图像、第二样本图像和第三样本图像;
模型优化模块:用于基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型;
模型推理模块:用于获取待识别图像,通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值。
为了更清楚的阐述本申请的图像识别方法,以下将结合示例进行进一步说明。
如图8所示,在一个示例中,本申请的图像识别方法,可以包括:
模型训练过程:
获取多个样本图像;
基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,
其中,训练操作包括:
对于每一样本图像,通过特征提取网络提取特征图,并进行池化(pooling)得到样本特征向量;
基于每一匹配度确定样本特征向量与每一类别的分类器的初始权重之间的初始夹角;
对于每一类别,基于预设特征间隔增加初始夹角,得到该类别对应的目标夹角;
根据目标夹角确定该类别的预测概率值;
基于各样本图像的至少两个预测概率值和至少一个样本类别标签,确定模型训练损失(图中所示的LBCE);
根据模型训练损失对初始识别模型的模型参数进行调整;
模型推理过程:
获取待识别图像;
通过训练好的图像识别模型中的特征提取网络,提取待识别图像的特征图,并进行池化得到球面特征向量;
确定球面特征向量与至少两种分类器的权重的匹配度;
基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值;
基于至少两个概率值,确定待识别图像包含的待识别对象的类别。
以下将结合实验数据陈述本申请的有益效果。
实验主要分为学术数据集和业务数据集:
a)学术数据集
表格1完全标注下学术数据集结果
Figure BDA0003812146160000191
表格2单标签标注设定下学术数据集结果
Figure BDA0003812146160000192
在学术数据集上,分别测试了完全标注(第一样本图像)、部分标注(第二样本图像)和单标签标注(第三样本图像)三种设定。完全标注的测试结果见表1,本申请的图像识别方法为图中的HML一栏,相比原始的BCE和标签平滑(Label Smoothing,LS)方法,本申请的图像识别方法在VOC12、COCO、CUB和NUS数据集上效果都有提升。部分标注的实验结果见图9。图9中分别测试了10%到90%的标注数据下,公开学术数据集上的效果。结果表明,在任意比例的标注数据下,本申请的图像识别方法都要比基准算法的效果要好,特别是对于标注比例比较低(10%)的情况,本申请的图像识别方法提升最明显。此外,本次实验还测试了单标签样本设置下的算法结果。可以看出,本申请的图像识别方法在四个数据集上都达到了非常理想的效果。
b)业务数据集
表格3综艺帧标签业务数据集结果
方法 F1
BCE 72.98
HML(Ours) 73.53(+0.55)
针对业务数据集,本次实验对照了基本的BCE方法。从实验结果可以看出,本申请的图像识别方法在F1上有0.55%的提升。说明本申请的图像识别方法能够对业务效果有一定帮助,具有实用价值。
针对业务侧,在标注成本上还有一定收益。此前标注一个300类标签的多标签模型需要5个人力,标注一周进行标注的冷启动;通过本申请的图像识别方法采用单标签标注方式,则可以安排一个人力爬取网络图片,在1天内完成模型的冷启动。可以大大节省人力成本。
上述的图像识别方法,通过确定待识别图像对应于球面空间的球面特征向量,再确定球面特征向量与至少两种分类器的权重的匹配度,分类器的权重为预设对象的类别在球面空间中的参考特征向量,再通过至少两个概率值,确定待识别图像包含的待识别对象的类别,可以提高多标签识别的准确率。
进一步的,用于训练初始识别模型的样本图像中包含第一样本图像,即完全标注图像,可以有效提高训练得到的图像识别模型的预测准确度;若样本图像中还包括可以直接通过检索关键词获取的第一样本图像,不需要借助人工标注,可以有效减少获取样本图像的人工成本,提高样本图像的获取效率。
进一步的,通过引入特征间隔,可以降低第二样本数据,尤其是第三样本数据中的漏标数据的影响,减少了梯度噪声,有利于对初始识别模型进行优化得到图像识别模型。
如图10所示,在一些可能的实施方式中,提供了一种图像识别装置,包括:
获取模块1001,用于获取待识别图像;
识别模块1002,用于通过训练好的图像识别模型的执行对象识别操作,得到待识别图像包含至少两种类别的预设对象的概率值;图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别;
确定模块1003,用于基于至少两个概率值,确定待识别图像包含的待识别对象的类别;
识别模型1002在执行对象识别操作时,具体用于:
对待识别图像进行特征提取,得到待识别图像对应于球面空间的球面特征向量;
确定球面特征向量与至少两种分类器的权重的匹配度;每一分类器的权重表示对应的预设对象的类别在球面空间中的参考特征向量;
基于至少两个匹配度确定待识别图像中包含每一类别的预设对象的概率值。
在一些可能的实施方式中,还包括训练模块,用于:
获取多个样本图像;每一样本图像包含至少两个样本对象,每一样本图像标注有至少一个样本类别标签;
基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,
其中,训练操作包括:
对于每一样本图像,通过初始识别模型的初始特征提取网络获取与样本图像对应的球面空间中的样本特征向量;
确定样本特征向量分别与初始图像识别模型中的至少两种初始分类器的初始权重的匹配度;
基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值;其中,匹配度与对应的预测概率值正相关;
基于各样本图像的至少两个预测概率值和至少一个样本类别标签,确定模型训练损失;
根据模型训练损失对初始识别模型的模型参数进行调整。
在一些可能的实施方式中,多个样本图像中包括至少一个第一图像;每一第一样本图像中包含至少两个样本对象,且第一样本图像的至少一个样本类别标签包括第一样图图像中包含的每一样本对象对应的样本类别标签。
在一些可能的实施方式中,多个样本图像中还包括至少一个第二样本图像或至少一个第三样本图像中的至少一种;
其中,第二样本图像中包含多个样本对象,第二样本图像标注有至少两个样本类别标签,至少两个样本对象中的至少一个样本对象未标注样本类别标签;
第三样本图像标注有一个样本类别标签。
在一些可能的实施方式中,第三样本图像是通过如下方式获取的:
接收检索关键字,根据检索关键字从预设的图像数据库中查询对应的图像,检索关键字是对应于至少一个对象的检索关键字;
将查询到的图像作为第三样本图像,并基于检索关键字确定第三样本图像的样本类别标签。
在一些可能的实施方式中,训练模块在对于每一样本图像,基于所确定的每一匹配度确定样本图像中包含每一类别的预设对象的预测概率值时,具体用于:
基于每一匹配度确定样本特征向量与每一类别的分类器的初始权重之间的初始夹角;
对于每一类别,基于预设特征间隔增加初始夹角,得到该类别对应的目标夹角;
根据目标夹角确定该类别的预测概率值。
在一些可能的实施方式中,预设特征间隔包括至少两个候选特征间隔;
训练模块在基于各样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型时,具体用于:
基于各样本图像和每个候选特征间隔,对初始图像识别模型重复执行训练操作,得到每种候选特征间隔对应的训练好的候选识别模型;
基于至少两个候选识别模型,确定训练好的图像识别模型。
在一些可能的实施方式中,训练模块在基于至少两个候选识别模型,确定训练好的图像识别模型时,具体用于:
获取测试样本集;其中,测试样本集包括多个测试图像,每一测试图像中包含至少两个测试对象,且每一测试图像标注有一个测试标签;
基于测试样本集对至少两个候选识别模型进行测试,得到与至少两个候选识别模型分别对应的概率函数;
基于测试样本集对应的测试标签分布信息和至少两个候选识别模型分别对应的概率函数,从至少两个候选识别模型中确定出图像识别模型。
本申请的图像识别装置,通过确定待识别图像对应于球面空间的球面特征向量,再确定球面特征向量与至少两种分类器的权重的匹配度,分类器的权重为预设对象的类别在球面空间中的参考特征向量,再通过至少两个概率值,确定待识别图像包含的待识别对象的类别,可以提高多标签识别的准确率。
进一步的,用于训练初始识别模型的样本图像中包含第一样本图像,即完全标注图像,可以有效提高训练得到的图像识别模型的预测准确度;若样本图像中还包括可以直接通过检索关键词获取的第一样本图像,不需要借助人工标注,可以有效减少获取样本图像的人工成本,提高样本图像的获取效率。
进一步的,通过引入特征间隔,可以降低第二样本数据,尤其是第三样本数据中的漏标数据的影响,减少了梯度噪声,有利于对初始识别模型进行优化得到图像识别模型。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行存储器中存储的计算机程序时可实现本申请任一可选实施例中的方法。
图11示出了本发明实施例所适用的一种电子设备的结构示意图,如图11所示,该电子设备可以为服务器或者用户终端,该电子设备可以用于实施本发明任一实施例中提供的方法。
如图11中所示,该电子设备1100主要可以包括至少一个处理器1101(图11中示出了一个)、存储器1102、通信模块1103和输入/输出接口1104等组件,可选的,各组件之间可以通过总线1105实现连接通信。需要说明的是,图11中示出的该电子设备1100的结构只是示意性的,并不构成对本申请实施例提供的方法所适用的电子设备的限定。
其中,存储器1102可以用于存储操作系统和应用程序等,应用程序可以包括在被处理器1101调用时实现本发明实施例所示方法的计算机程序,还可以包括用于实现其他功能或服务的程序。存储器1102可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(CompactDisc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
处理器1101通过总线1105与存储器1102连接,通过调用存储器1102中所存储的应用程序实现相应的功能。其中,处理器1101可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application Specific Integrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
电子设备1100可以通过通信模块1103(可以包括但不限于网络接口等组件)连接到网络,以通过网络与其它设备(如用户终端或服务器等)的通信,实现数据的交互,如向其他设备发送数据或从其他设备接收数据。其中,通信模块1103可以包括有线网络接口和/或无线网络接口等,即通信模块可以包括有线通信模块或无线通信模块中的至少一项。
电子设备1100可以通过输入/输出接口1104可以连接所需要的输入/输出设备,如键盘、显示设备等,电子设备110自身可以具有显示设备,还可以通过接口1104外接其他显示设备。可选的,通过该接口1104还可以连接存储装置,如硬盘等,以可以将电子设备1100中的数据存储到存储装置中,或者读取存储装置中的数据,还可以将存储装置中的数据存储到存储器1102中。可以理解的,输入/输出接口1104可以是有线接口,也可以是无线接口。根据实际应用场景的不同,与输入/输出接口1104连接的设备,可以是电子设备1100的组成部分,也可以是在需要时与电子设备1100连接的外接设备。
用于连接各组件的总线1105可以包括一通路,在上述组件之间传送信息。总线1105可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。根据功能的不同,总线1105可以分为地址总线、数据总线、控制总线等。
可选的,对于本发明实施例所提供的方案而言,存储器1102可以用于存储执行本发明方案的计算机程序,并由处理器1101来运行,处理器1101运行该计算机程序时实现本发明实施例提供的方法或装置的动作。
基于与本申请实施例提供的方法相同的原理,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的相应内容。
本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时可实现前述方法实施例的相应内容。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (12)

1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;
通过训练好的图像识别模型的执行对象识别操作,得到所述待识别图像包含至少两种类别的预设对象的概率值;所述图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别;
基于所述至少两个概率值,确定所述待识别图像包含的待识别对象的类别;
所述对象识别操作包括以下步骤:
对所述待识别图像进行特征提取,得到所述待识别图像对应于球面空间的球面特征向量;
确定所述球面特征向量与至少两种分类器的权重的匹配度;每一分类器的权重表示对应的预设对象的类别在所述球面空间中的参考特征向量;
基于所述至少两个匹配度确定所述待识别图像中包含每一类别的预设对象的概率值。
2.根据权利要求1所述的方法,其特征在于,所述训练好的图像识别模型是基于如下方式进行训练得到的:
获取多个样本图像;每一样本图像包含至少两个样本对象,每一样本图像标注有至少一个样本类别标签;
基于各所述样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,
其中,所述训练操作包括:
对于每一样本图像,通过初始识别模型的初始特征提取网络获取与样本图像对应的球面空间中的样本特征向量;
确定所述样本特征向量分别与初始图像识别模型中的至少两种初始分类器的初始权重的匹配度;
基于所确定的每一匹配度确定所述样本图像中包含每一类别的预设对象的预测概率值;其中,所述匹配度与对应的预测概率值正相关;
基于各样本图像的至少两个预测概率值和至少一个样本类别标签,确定模型训练损失;
根据所述模型训练损失对所述初始识别模型的模型参数进行调整。
3.根据权利要求2所述的方法,其特征在于,所述多个样本图像中包括至少一个第一图像;每一第一样本图像的至少一个样本类别标签包括第一样图图像中包含的每一样本对象对应的样本类别标签。
4.根据权利要求3所述的方法,其特征在于,所述多个样本图像中还包括至少一个第二样本图像或至少一个第三样本图像中的至少一种;
其中,所述第二样本图像中包含多个样本对象,所述第二样本图像标注有至少两个样本类别标签,且所述至少两个样本对象中的至少一个样本对象未标注样本类别标签;
所述第三样本图像标注有一个样本类别标签。
5.根据权利要求4所述的方法,其特征在于,所述第三样本图像是通过如下方式获取的:
接收检索关键字,根据检索关键字从预设的图像数据库中查询对应的图像,所述检索关键字是对应于至少一个对象的检索关键字;
将查询到的图像作为第三样本图像,并基于所述检索关键字确定所述第三样本图像的样本类别标签。
6.根据权利要求2所述的方法,其特征在于,对于每一样本图像,所述基于所确定的每一匹配度确定所述样本图像中包含每一类别的预设对象的预测概率值,包括:
基于每一匹配度确定样本特征向量与每一类别的分类器的初始权重之间的初始夹角;
对于每一类别,基于预设特征间隔增加所述初始夹角,得到该类别对应的目标夹角;
根据所述目标夹角确定该类别的预测概率值。
7.根据权利要求6所述的方法,其特征在于,所述预设特征间隔包括至少两个候选特征间隔;
所述基于各所述样本图像对初始图像识别模型重复执行训练操作,直至满足预设条件,得到训练好的图像识别模型,包括:
基于各所述样本图像和每个候选特征间隔,对初始图像识别模型重复执行训练操作,得到每种候选特征间隔对应的训练好的候选识别模型;
基于至少两个候选识别模型,确定训练好的图像识别模型。
8.根据权利要求7所述的方法,其特征在于,所述基于至少两个候选识别模型,确定训练好的图像识别模型,包括:
获取测试样本集;其中,所述测试样本集包括多个测试图像,每一测试图像中包含至少两个测试对象,且每一测试图像标注有一个测试标签;
基于测试样本集对所述至少两个候选识别模型进行测试,得到与至少两个候选识别模型分别对应的概率函数;
基于所述测试样本集对应的测试标签分布信息和所述至少两个候选识别模型分别对应的概率函数,从所述至少两个候选识别模型中确定出所述图像识别模型。
9.一种图像识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别图像;
识别模块,用于通过训练好的图像识别模型的执行对象识别操作,得到所述待识别图像包含至少两种类别的预设对象的概率值;所述图像识别模型包括特征提取网络和至少两个分类器,每一分类器对应一种预设对象的类别;
确定模块,用于基于所述至少两个概率值,确定所述待识别图像包含的待识别对象的类别;
识别模型在执行所述对象识别操作时,具体用于:
对所述待识别图像进行特征提取,得到所述待识别图像对应于球面空间的球面特征向量;
确定所述球面特征向量与至少两种分类器的权重的匹配度;每一分类器的权重表示对应的预设对象的类别在所述球面空间中的参考特征向量;
基于所述至少两个匹配度确定所述待识别图像中包含每一类别的预设对象的概率值。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
CN202211014931.8A 2022-08-23 2022-08-23 图像识别方法、装置、电子设备及存储介质 Pending CN115359296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211014931.8A CN115359296A (zh) 2022-08-23 2022-08-23 图像识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211014931.8A CN115359296A (zh) 2022-08-23 2022-08-23 图像识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115359296A true CN115359296A (zh) 2022-11-18

Family

ID=84002794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211014931.8A Pending CN115359296A (zh) 2022-08-23 2022-08-23 图像识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115359296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058489A (zh) * 2023-10-09 2023-11-14 腾讯科技(深圳)有限公司 多标签识别模型的训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058489A (zh) * 2023-10-09 2023-11-14 腾讯科技(深圳)有限公司 多标签识别模型的训练方法、装置、设备及存储介质
CN117058489B (zh) * 2023-10-09 2023-12-29 腾讯科技(深圳)有限公司 多标签识别模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
CN111554268A (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN110598620B (zh) 基于深度神经网络模型的推荐方法和装置
CN110990631A (zh) 视频筛选方法、装置、电子设备和存储介质
Chen et al. Recursive context routing for object detection
CN110598603A (zh) 人脸识别模型获取方法、装置、设备和介质
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN113392317A (zh) 一种标签配置方法、装置、设备及存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN113822264A (zh) 一种文本识别方法、装置、计算机设备和存储介质
CN114693624A (zh) 一种图像检测方法、装置、设备及可读存储介质
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN115359296A (zh) 图像识别方法、装置、电子设备及存储介质
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN113704534A (zh) 图像处理方法、装置及计算机设备
CN113223037A (zh) 一种面向大规模数据的无监督语义分割方法及系统
CN114974398A (zh) 一种信息处理方法、装置及计算机可读存储介质
Zhou et al. Semantic image segmentation using low-level features and contextual cues
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination