CN115019218A - 图像处理方法和处理器 - Google Patents

图像处理方法和处理器 Download PDF

Info

Publication number
CN115019218A
CN115019218A CN202210941398.3A CN202210941398A CN115019218A CN 115019218 A CN115019218 A CN 115019218A CN 202210941398 A CN202210941398 A CN 202210941398A CN 115019218 A CN115019218 A CN 115019218A
Authority
CN
China
Prior art keywords
image
label
prediction model
different
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210941398.3A
Other languages
English (en)
Other versions
CN115019218B (zh
Inventor
何天宇
沈旭
黄建强
彭京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210941398.3A priority Critical patent/CN115019218B/zh
Publication of CN115019218A publication Critical patent/CN115019218A/zh
Application granted granted Critical
Publication of CN115019218B publication Critical patent/CN115019218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像处理方法和处理器。其中,该方法包括:采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。本发明解决了图像识别的精度低的技术问题。

Description

图像处理方法和处理器
技术领域
本发明涉及计算机领域,具体而言,涉及一种图像处理方法和处理器。
背景技术
目前,半监督多标签学习算法在减少图像标注成本等方面具有重要意义,但是,半监督多标签学习算法中存在标签数据稀少,标签数据之间的组合众多,导致半监督多标签学习算法实现难度大,存在对图像识别精度低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像处理方法和处理器,以至少解决图像识别的精度低的技术问题。
根据本发明实施例的一个方面,提供了一种图像处理方法。该方法可以包括:采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理方法,该方法可以包括:获取图像样本,其中,图像样本的类型相同;采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本;分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型;其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理方法,该方法可以包括:获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系;基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果;输出监测视频中车辆的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理方法,该方法可以包括:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;驱动VR设备或AR设备展示图像的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理方法,该方法可以包括:通过调用第一接口获取监测到的待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;通过调用第二接口输出图像中目标对象的识别结果,其中,第二接口包括第二参数,第二参数的参数值为目标对象的识别结果。
根据本发明实施例的一个方面,提供了一种图像处理装置,该装置可以包括:采集单元,用于采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用单元,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;第一处理单元,用于使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;第一确定单元,用于基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理装置,该装置可以包括:第一获取单元,用于获取图像样本,其中,图像样本的类型相同;标记单元,用于采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本;训练单元,用于分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型;其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理装置,该装置可以包括:第二获取单元,用于获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆;第一调用单元,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;第二处理单元,用于使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系;第二确定单元,用于基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果;第一输出单元,用于输出监测视频中车辆的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理装置,该装置可以包括:展示单元,用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像;第二调用单元,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;第三处理单元,用于使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;第三确定单元,用于基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;驱动单元,用于驱动VR设备或AR设备展示图像的识别结果。
根据本发明实施例的一个方面,还提供了另一种图像处理装置,该装置可以包括:第三获取单元,用于通过调用第一接口获取监测到的待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;第三调用单元,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;第四处理单元,用于使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;第四确定单元,用于基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;第二输出单元,用于通过调用第二接口输出图像中目标对象的识别结果,其中,第二接口包括第二参数,第二参数的参数值为目标对象的识别结果。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的图像处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,在程序运行时执行上述任意一项的图像处理方法。
在本发明实施例中,采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。也就是说,本发明实施例通过在输入中提供相同的图像样本的不同增广视图训练得到图像预测模型,使用图像预测模型对待识别图像进行分类处理,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,通过图像预测模型达到了实现提高图像识别精度的技术效果,解决图像识别的精度低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图;
图2是根据本发明实施例的一种图像处理方法的流程图;
图3是根据本发明实施例的另一种图像处理方法的流程图;
图4(a)是根据本发明实施例的另一种图像处理方法的流程图;
图4(b)是根据本发明实施例的一种图像处理的示意图;
图5是根据本发明实施例的另一种图像处理方法的流程图;
图6是根据本发明实施例的一种图像处理结果的示意图;
图7(a)是根据本发明实施例的另一种图像处理方法的流程图;
图7(b)是根据本发明实施例的一种计算机设备对图像处理的示意图;
图7(c)是根据本发明实施例的一种半监督多标签学习算法的示意图;
图7(d)是根据本发明实施例的一种神经网络模型的示意图;
图7(e)是根据本发明实施例的一种一致性正则算法的示意图;
图8是根据本发明实施例的一种条件一致性正则化结果的示意图;
图9是根据本发明实施例的一种模型训练的示意图;
图10是根据本发明实施例的一种图像处理装置的示意图;
图11是根据本发明实施例的另一种图像处理装置的示意图
图12是根据本发明实施例的另一种图像处理装置的示意图;
图13是根据本发明实施例的另一种图像处理装置的示意图;
图14是根据本发明实施例的另一种图像处理装置的示意图;
图15是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
半监督学习(Semi-SupervisedLearning),可以指半监督单标签学习,是机器学习领域的重点研究方向,可以为通过少量有标签图像样本和大量无标签图像样本来进行学习的方法;
多标签学习(Multi-labelLearning),可以指在机器学习中一个样本属于多个类别的一种学习方法,多标签学习在多媒体内容识别、文本信息识别,图像分类等方面具有广泛的实际应用;
一致性正则(Consistency Regularization),可以为一种应用于半监督学习的算法,一致性正则的相关算法基于此假设添加相关约束来学习无标签图像样本中的知识,比如,一致性正则假设对于一个输入样本,即使有轻微的干扰(比如,添加噪音,翻转等),模型的预测应保持一致。
实施例1
根据本发明实施例,还提供了一种图像处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图。如图1所示,虚拟现实设备104与终端106相连接,终端106与服务器102通过网络进行连接,上述虚拟现实设备104并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端106并不限定于PC、手机、平板电脑等,服务器102可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
可选地,该实施例的虚拟现实设备104包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:获取待识别的图像;将图像输入至图像预测模型中,确定图像的类别,且基于图像的类别确定图像的识别结果,其中,图像预测模型用于预测输入图像的识别结果,且为基于无标签图像样本和有标签图像样本中多个标签之间的关联关系,对子图像预测模型进行训练而得到,关联关系为基于多个标签的标签状态而确定,标签状态用于表示对应的标签是否属于目标类别的结果;输出图像的识别结果,解决了图像识别的精度低的技术问题,达到了提高图像识别精度的目的。
该实施例的终端可以用于执行在虚拟现实(Virtual Reality,简称为VR)设备或增强现实(Augmented Reality,简称为AR)设备的呈现画面上展示图像的识别结果;在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待预测的图像;将图像输入至图像预测模型中,确定图像的类别,且基于图像的类别确定图像的识别结果,其中,图像预测模型用于预测输入图像的识别结果,且为基于无标签图像样本和有标签图像样本中多个标签之间的关联关系,对子图像预测模型进行训练而得到,关联关系为基于多个标签的标签状态而确定,标签状态用于表示对应的标签是否属于目标类别的结果;驱动VR设备或AR设备展示图像的识别结果;并向虚拟现实设备104输出图像的识别结果,虚拟现实设备104在接收到识别结果之后在目标投放位置显示出来。
可选地,该实施例的虚拟现实设备104带有的眼球追踪的头戴式显示器(HeadMount Display,简称为HMD)与眼球追踪模块与上述实施例中的作用相同,也即,HMD头显中的屏幕,用于显示实时的画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动路径。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向。
图1示出的硬件结构框图,不仅可以作为上述AR/VR设备(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,在上述所示的运行环境下,本发明提供了如图2所示的图像处理方法。需要说明的是,该实施例的图像处理方法可以由图1所示实施例的移动终端执行。
图2是根据本发明实施例的一种图像处理方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象。
在本发明上述步骤S202提供的技术方案中,可以通过检测设备获取到待识别图像,其中,待识别图像可以为由检测设备(比如,图像采集设备)采集到的需要对其进行识别的图像,可以包含需要监测的至少一种目标对象,该目标对象可以为待识别图像中的对象,比如,可以为待识别图像中的物品、动物等。
举例而言,在城市监测场景中,图像采集设备可以为交通道路上部署的至少一摄像头,则上述待识别的图像可以为由至少一摄像头对交通道路采集到的道路摄像,该道路摄像可以是监测到的视频,此处不对图像的种类和来源做具体限制。
步骤S204,调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
在本发明上述步骤S204提供的技术方案中,上述待识别图像可以通过图像预测模型进行分类处理,该实施例可以调用预先训练好的图像预测模型,该图像预测模型可以通过对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;其中,图像预测模型可以用于预测输入的待识别图像的识别结果,其中,图像预测模型可以为不同类型的神经网络模型,可以根据实际场景需要,灵活地从不同类型的神经网络模型中进行合理选择,此处不对图像预测模型的种类做具体限制,可以对图像进行识别的模型都应在本发明实施例的保护范围之内。
可选地,图像预测模型可以为分别对相同的图像样本在不同标签状态下的不同增广视图,对子图像预测模型进行训练而得到,其中,标签状态可以用于表示对应的标签是否属于目标类别的结果,比如,可以用“是”,“否”,“未知”三种标签状态来表示图像中的类别是否属于目标类别,需要说明的是,标签状态可以通过字符、图标等形式表示是否属于目标类别的结果,字符可以为文字或数字等形式,此处不对标签状态的形式做具体限制;类别可以是指待识别的图像中包含的对象的属性,比如,一条新闻可以对应新闻分类中的经济,文化等多个类别,一张照片上可以有车辆,行人,动物等物体。
步骤S206,使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系。
在本发明上述步骤S206提供的技术方案中,可以将获取到的待识别图像输入至训练好的图像预测模型中,对待识别图像进行分类处理,以确定待识别图像中包含的任意一个目标对象的不同标签的标签状态以及不同标签之间的关联关系,从而达到对待识别图像进行预测的目的,其中,标签可以用于表征目标对象的类别,比如,可以为类“人”,类“车辆”等,不同标签之间的关联关系可以用于表征有标签的待识别图像样本中每个标签对应的目标对象是否能够同时出现在待识别图像中,比如,可以通过使用一致性正则使图像有标签图像样本中多个标签对应的目标对象能够同时出现在上述待识别的图像。
可选地,上述不同标签之间的关联关系可以基于有标签图像样本中多个标签的标签状态而确定的,其中,有标签图像样本可以为存在真实标签的图像样本,比如,可以为对图像中的标签和标签状态标记好的图像样本。
可选地,标签状态不仅可以为单独的标签状态,还可以为标签状态组,比如,当雨伞、狗、小车和人同时出现在图像中时,这里的标签状态可以为标签状态组“是是否否”,其用于表示类“雨伞”的标签状态为“是”,类“狗”的标签状态为“是”,类“小车”的标签状态为“否”,类“人”的标签状态为“否”或“是否是否”,其用于表示类“雨伞”的标签状态为“是”,类“狗”的标签状态为“否”,类“小车”的标签状态为“是”,类“人”的标签状态为“否”等。
步骤S208,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果。
在本发明上述步骤S208提供的技术方案中,可以基于目标对象的不同标签的标签状态和不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,其中,识别结果可以用于表示目标对象对应的标签是否属于目标类别,可以为“是”或“否”;目标类别可以用于表征图像的种类,比如,可以为动物、植物等,此处不做具体限制。
在图像预测模型测试的过程中,可以对标签状态均为未知状态的标签集进行预测,得到识别结果,该识别结果也即图像预测模型的预测结果。
步骤S210,输出图像中目标对象的识别结果。
在本发明上述步骤S210提供的技术方案中,可以在基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果之后,输出图像中目标对象的识别结果。
在该实施例中,图像预测模型可以根据实际场景的需要,输出图像中目标对象的识别结果,可以是将识别结果发送至对应的显示位置,以进行显示,比如,可以将识别结果输出至显示屏中,通过显示屏显示上述图像中目标对象的最终识别结果。
通过本发明上述步骤S202至步骤S210,采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。也就是说,本发明实施例通过在输入中提供相同的图像样本的不同增广视图训练得到图像预测模型,使用图像预测模型对待识别图像进行分类处理,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,通过图像预测模型达到了实现提高图像识别精度的技术效果,解决图像识别的精度低的技术问题。
下面对该实施例的上述方法进行进一步地介绍。
作为一种可选的实施方式,不同标签之间的关联关系用于表示不同标签的标签状态在待识别图像中是否相同。
在该实施例中,不同标签之间的关联关系可以用于表示不同标签的标签状态在待识别图像中是否相同,比如,一张图像中,标签为类“人”的标签状态被设置为“是”,标签为类“摩托车”的标签状态同样被设置为“是”;标签为类“猫”的标签状态被设置为“否”,其中,类“人”的标签状态与类“摩托车”的标签状态在待识别图像中相同,类“人”的标签状态与类“猫”的标签状态在待识别对象中不同。
举例而言,标签中类“人”和类“车”的标签状态都为“是”,类“猫”的标签状态为“否”,则类“人”和类“车”的标签状态在待识别图像中相同,类“人”和类“猫”的标签状态在待识别图像中不同。
作为一种可选的实施方式,步骤S206,使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,包括:使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签中至少一第一目标标签的标签状态,以及不同标签之间的关联关系;基于关联关系和至少一第一目标标签的标签状态,确定不同标签中至少一第二目标标签的标签状态。
在该实施例中,可以使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签中至少一第一目标标签的标签状态,以及不同标签之间的关联关系,可以基于关联关系和至少一第一目标标签的标签状态,确定不同标签中至少一第二目标标签的标签状态,比如,待识别图像中第一目标标签(类“人”)的标签状态设置为“是”,与第一目标标签关联的第二目标标签(类“摩托车”)的标签状态也设置为“是”,则,当确定类“人”的标签状态设置为“是”时,可以确定类“摩托车”的标签状态也设置为“是”。
作为一种可选的实施方式,图像样本包括无标签图像样本,方法还包括:基于无标签图像样本在至少一第一伪标签状态下的第一弱增广视图和无标签图像样本在至少一第二伪标签状态下的强增广视图,对第一目标预测模型进行训练,得到图像预测模型,其中,第一伪标签状态和第二伪标签状态为基于第一目标预测模型对无标签图像样本进行图像分类处理而得到。
在该实施例中,上述图像样本可以包括无标签图像样本,对无标签图像样本进行强增广处理和弱增广处理,得到第一弱增广视图和强增广视图,通过第一目标预测模型对第一弱增广视图和强增广视图进行预测,得到第一弱增广视图的至少一第一伪标签状态和强增广视图的第二伪标签状态,可以基于得到的第一伪标签状态的第一弱增广视图和第二伪标签状态的强增广视图对第一目标预测模型进行训练,得到图像预测模型,其中,第一伪标签状态和第二伪标签状态可以为预测得到的,不一定为图像样本的真实标签的标签.
举例而言,可以为最新一轮模型对于无标签图像样本进行预测得到的预测结果,伪标签状态可以用于表示对应的伪标签是否属于目标类别的结果,可以为基于第一目标预测模型对无标签图像样本进行图像分类处理而得到的,可以为“是”、“否”或“未知项”;弱增广处理可以为弱增强处理,可以为增加了轻微扰动的图像,比如,可以为随机裁剪,翻转等变换处理;强增广处理可以为强增强处理,比如,可以为对无标签样本图像进行的随机亮度、均衡、锐化、色调分离、曝光等变换处理。
可选地,对于有标签图像样本,由于已知图像样本的标签和标签对应的标签状态,因此,有标签图像样本中的标签可以为真实的标签;对于无标签图像样本,由于并不知道无标签图像样本的真实标签,可以通过第一目标预测模型对无标签图像样本进行预测,得到第一伪标签状态和第二伪标签状态,伪标签状态对应的标签可以为置信度高的标签,可能为真实的标签,也可能为预测错误的标签,可以使用第一伪标签状态和第二伪标签状态对第一目标预测模型进行训练,得到图像预测模型。
可选地,在图像预测模型的训练过程中对无标签图像样本进行预测得到预测标签,在预测标签中随机选择部分高置信标签作为无标签图像样本的第一伪标签状态和第二伪标签状态,其余类的无标签图像样本的标签状态可以标注为未知,基于第一伪标签状态和第二伪标签状态,对第一目标预测模型进行训练,得到图像预测模型。
在本发明实施例中,在输入中额外提供了第一伪标签状态和第二伪标签状态作为条件先验,可以随机将已知的标签状态设置为未知,从而可以使同一张图在不同标签状态数据的情况下,对第一目标预测模型进行训练,进而实现了预先提供多种不同标签状态数据来建模标签之间的关联关系,具备了学习无标签图像样本知识和建模标签关联关系的能力,提高了对图像标签预测准确度。
可选地,对于无标签图像样本的输入图像进行强增强和弱增强两种处理,将得到的强增强图像和弱增强图像分别输入第一目标预测模型,可以创建一个伪标签存储器(Pseudu lable memory)存储最新一轮图像预测模型对于无标签图像样本进行预测后得到的伪标签,可以在伪标签存储器中随机从高置信的伪标签中选取部分标签作为标签状态,其余类标签状态设置为‘未知’,从而得到第二标签状态数据,将强增广图像和弱增广图像和第一伪标签状态和第二伪标签状态放入第一目标预测模型进行训练,得到图像预测模型。
作为一种可选的实施方式,基于无标签图像样本在至少一第一伪标签状态下的第一弱增广视图和无标签图像样本在至少一第二伪标签状态下的强增广视图,对第一目标预测模型进行训练,得到图像预测模型,包括:分类步骤,使用第一目标预测模型对无标签图像样本在第一伪标签状态下的第一弱增广视图进行图像分类处理,识别出第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态,且使用第一目标预测模型对无标签图像样本在第二伪标签状态下的增广视图进行图像分类处理,识别出增广视图中包含的任意一个对象的不同预测标签的第二预测标签状态,其中,第一预测标签状态和第二预测标签状态之间的关联关系用于表示第一预测标签状态和第二预测标签状态在无标签图像样本中是否相同;调整步骤,响应于第一预测标签状态和第二预测标签状态之间的第一损失未小于目标阈值,基于第一损失调整第一目标预测模型的参数,得到第二目标预测模型;确定步骤,将第二目标预测模型确定为第一目标预测模型,且从第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态中选取出第一伪标签状态和第二伪标签状态,且返回分类步骤,直至第一损失小于目标阈值,将第二目标预测模型确定为图像预测模型。
在该实施例中,可以使用第一目标预测模型对无标签图像样本在第一伪标签状态下的第一弱增广视图进行图像分类处理,识别出第一弱增广视图中包含的任意一对象的不同预测标签的第一预测标签状态,使用第一目标预测模型对无标签图像样本在第二伪标签状态下的增广视图进行图像分类处理,识别出增广视图中包含的任意一个对象的不同预测标签的第二预测标签,确定第一预测标签和第二预测标签之间的第一损失,判断第一损失是否小于目标阈值,响应于第一预测标签状态和第二预测标签状态之间的第一损失未小于目标阈值,则可以利用第一损失对第一目标预测模型的参数进行调整,得到第二目标预测模型,其中,第二损失可以为均方误差损失(无监督损失),可以通过LUnsupervised进行表示;目标阈值可以为根据实际需要设定的值。
可选地,将无标签图像样本中的图像经过强增强和弱增强处理得到的强增强图像和弱增强图像第一目标预测模型中,得到预测结果,对预测结果进行处理得到第一损失,基于第一损失对第一目标预测模型进行训练,得到第二目标预测模型,将训练之后的第二目标预测模型确定为第一目标预测模型,可以从第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态中选取出第一伪标签状态和第二伪标签状态,且使用第一目标预测模型对无标签图像样本在第一伪标签状态下的第一弱增广视图和在第二伪标签状态下的强增广视图进行图像分类处理,得到第一预测标签状态和第二预测标签状态。
基于第一预测标签状态和第二预测标签状态确定第一损失,基于第一损失对第一目标预测模型参数进行调整,获取待识别的无标签图像样本,通过调整过参数的第一目标预测模型对获取到的无标签图像样本在第一伪标签状态下的第一弱增广视图进行图像分类处理,识别出第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态且使用第一目标预测模型对无标签图像样本在第二伪标签状态下的增广视图进行图像分类处理,识别出增广视图中包含的任意一个对象的不同预测标签的第二预测标签状态,基于第一预测标签状态和第二预测标签状态确定第一损失,判断第一损失是否小于目标阈值,如果第一损失小于目标阈值,则将第二目标预测模型确定为图像预测模型,如果第一损失不小于目标阈值,则继续使用第一目标预测模型对无标签图像样本进行分类处理,直至第一损失小于目标阈值,将调整之后的第二目标预测模型确定为图像预测模型。
作为一种可选的实施方式,使用第一目标预测模型对有标签图像样本在真实标签状态下的第二弱增广视图进行图像分类处理,识别出第二弱增广视图中包含的任意一个对象的不同真实标签的第三预测标签状态;获取第三预测标签状态与真实标签的真实标签状态之间的第二损失;基于第一损失调整第一目标预测模型的参数,得到第二目标预测模型,包括:基于第一损失和第二损失,调整第一目标预测模型的参数,得到第二目标预测模型。
在该实施例中,对有标签图像样本进行弱增广处理,得到第二弱增广视图,使用第一目标预测模型对第二弱增广视图进行图像分类,识别出第二弱增广视图中包含的任意一个对象的与真实标签不同的第三预测标签状态,确定预测得到的第三预测标签状态与真实标签的真实标签状态之间的第二损失,基于第一损失和第二损失对第一目标预测模型的参数进行调整,得到第二目标预测模型,其中,真实标签可以为预先得知的图像样本的标签;第二损失可以为二元交叉熵损失(监督损失),可以通过LSupervised进行表示,通过第二损失可以避免目标预测模型只对给定的部分标签进行预测的问题。
可选地,对于有标签图像样本,可以通过对输入图像进行弱增强处理,得到第二弱增广视图,比如,可以通过随机裁剪,翻转等变换实现对输入的有标签图像样本的弱增强,得到第二弱增广图像,将第二弱增广图像输入第一目标预测模型中进行预测,随机从真实标签中抽取部分标签作为真实标签的真实标签状态,确定预测得到的第三预测标签状态与真实标签的真实标签状态之间的第二损失对第一目标预测模型的参数进行调整,得到第二目标预测模型,其中,真实标签可以为根据实际情况选取抽取的真实标签状态的数量,比如,可以为所有真实标签数量的25%-100%,此处不对真实标签数量的多少做具体限制。
在本发明上述实施例中,通过在模型训练的过程中引入第一损失和第二损失,基于第一损失和第二损失对子图像预测模型进行训练,得到图像预测模型,也即,本发明实施例综合考虑监督损失和无监督损失对图像预测模型进行训练,从而提高图像预测模型预测的准确性。
作为一种可选的实施方式,基于第一损失和第二损失,调整第一目标预测模型的参数,得到第二目标预测模型,包括:对第一损失和第二损失进行加权求和,得到加权结果,其中,第一损失对应的权重随着第一目标预测模型的训练轮次的增加而增加;基于加权结果调整第一目标预测模型的参数,得到第二目标预测模型。
在该实施例中,可以通过对第一损失和第二损失进行加权处理,基于加权处理的结果调整第一目标预测模型的参数,得到第二目标预测模型,其中,加权处理的结果可以为目标损失(Ltotal),可以为综合考虑监督损失和无监督损失之后得到的损失,可以通过以下公式进行计算:
Ltotal=Lsupervised+λLunsupervised
其中,λ可以用于表示超参数,可以用于控制无标签图像样本对于图像预测模型的影响程度,λ越高,则第一损失对应的权重就越大,第一损失对应的权重越大无标签图像样本对于图像预测模型的影响程度就越大。
在本发明实施例中,为防止前期无标签图像样本因预测精度有限而产生的不利影响,λ可以从0-1随训练轮数递增,从而达到在训练前期图像预测模型主要受有标签图像样本影响,后期无标签图像样本影响逐渐上升,直到和有标签图像样本影响相同的目的,进而使搭建得到的模型更加合适,提高模型预测的准确性。
可选地,决定监督损失和无监督损失之间平衡的加权函数(w(t))对图像预测模型的性能具有重要意义,λ的增量(加权函数)可以通过以下公式进行确定:
Figure 728848DEST_PATH_IMAGE001
其中,T为经验值,可以为根据历史数据获得的,t为此刻的运行时间,此处不对T的获取做具体限制。需要说明的是,上述损失函数的计算方法仅为举例说明,损失函数的计算方法可根据任务需要灵活的从现有的先进方案中进行合理选择,此处不做具体限制。
在该实施例中,通过损失函数的约束使两个预测结果尽可能的保持一致,当两个预测结果尽可能的保持一致时,通过使预测对不同的标签状态保持不变,图像预测模型学会了基于已知的标签状态来推理未知的类,从而学习到标签之间的关系。
作为一种可选的实施方式,第二损失用于表示有标签图像样本中设置为未知标签状态的真实标签对应的第三预测标签状态,与真实标签状态之间的差异。
在该实施例中,可以将有标签图像样本中设置为未知标签状态的标签输入至第一目标预测模型中,得到有标签图像样本的中设置为未知标签状态的真实标签对应的第三预测标签状态,基于真实标签状态和未知标签状态对应的第三预测标签状态确定第二损失,其中,未知标签状态的标签可以为标注为“未知”类的标签,第二损失可以用于表示设置为未知标签状态的真实标签对应的第三预测标签状态,与真实标签状态之间的差异。
可选地,由于有标签图像样本中只是利用了真实标签的一部分且将部分标签的状态进行了隐藏处理,所以,在已知标签状态的基础上计算损失函数是没有意义的,因此,本发明实施例不计算已知标签状态的损失,只计算未知标签状态的损失函数,也即,只计算设置为未知标签状态的真实标签对应的第三预测标签状态,与真实标签状态之间的损失,从而得到第二损失,第二损失可以通过以下公式进行计算:
Figure 114830DEST_PATH_IMAGE002
其中,Si可以用于表示图像样本Xi给定的标签状态;C可以用于表示目标类别的数量;Bi可以用于表示图像样本的批次的多少;yi可以用于表示预测的标签状态。
可选地,将有标签图像样本中的未知标签状态的标签输入至第一目标预测模型中,计算那些被设定为“未知”类的未知标签状态和真实标签状态之间的二元交叉熵损失,并把此命名为监督损失,从而避免目标预测模型只对给定的部分标签进行预测的问题。
作为一种可选的实施方式,第一损失用于表示无标签图像样本中设置为未知标签状态的伪标签对应的第一预测标签状态,与设置为未知标签状态的伪标签对应的第二预测标签状态之间的差异。
在该实施例中,将无标签图像样本中的未知标签状态的伪标签输入至第一目标预测模型中,得到无标签图像样本对应的第一预测标签状态和第二预测标签状态,基于第一预测标签状态和第二预测标签状态之间的差异,确定第一损失。
可选地,可以通过计算无标签图像样本中标签状态类被设定为“未知”的均方误差损失(LUnsupervised),得到无标签图像样本的第一损失,可以通过以下公式对均方误差损失进行计算:
Figure 222463DEST_PATH_IMAGE003
其中,Sj,w可以用于表示未标记的训练样本的一标签状态;Sj,s可以用于表示未标记的训练样本的另一标签状态;Bj可以用于表示图像样本的批次的多少;xj可以用于表示未标记的训练样本。
可选地,可以基于一致性正则的假设,最小化两个预测结果之间的距离(差异程度),从而使通过不同增强方法得到的图像,在不同标签状态下的预测结果保持一致,其中,预测结果之间的距离可以用于表征预测结果之间的差异程度,比如,可以通过均方误差表征预测结果之间的差异程度。
作为一种可选的实施方式,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,包括:基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确目标对象所属的类别,其中,类别至少包括目标对象的动态移动属性或静态属性;将类别确定为识别结果。
在该实施例中,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确目标对象所属的类别,可以将目标对象所属的类别确定为识别结果,其中,类别可以至少包括目标对象的动态移动属性或静态属性,可以是指待识别的图像中包含的对象的属性,比如,一条新闻可以对应新闻分类中的经济,文化等多个类别,一张照片上可以有车辆,行人,动物等物体。
可选地,对图像进行预测,确定图像的类别,基于确定的类别确定图像的识别结果,该识别结果可以为通过图像中各个对象的属性确定的针对整个图像而言的识别结果。
在本发明实施例中,通过在输入中提供相同的图像样本的不同增广视图训练得到图像预测模型,使用图像预测模型对待识别图像进行分类处理,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,通过图像预测模型达到了实现提高图像识别精度的技术效果,解决图像识别的精度低的技术问题。
本发明实施例还提供了另一种图像处理方法,该方法可以应用于对目标预测模型训练的过程中,且该目标预测模型可以为图像预测模型,可以用于对输入图像进行识别。
图3是根据本发明实施例的另一种图像处理方法的流程图,如图3所示,该方法可以包括以下步骤。
步骤S302,获取图像样本,其中,图像样本的类型相同。
步骤S304,采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本。
在该实施例中,对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本,其中,不同标签状态下的图像样本可以为预先设定的标签状态。
可选地,可以随机将有标签图像样本的真实标签中部分标签状态设置为未知,抽取出未被设置为未知的真实标签的标签状态数据,得到标记有标签的图像样本。
步骤S306,分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型,其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
在该实施例中,可以对图像样本进行多种增广处理,得到不同增广视图,可以利用在不同标签状态下的不同增广视图对模型进行训练,得到图像预测模型,其中,图像预测模型可以用于表征图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系。
可选地,可以基于不同标签的标签状态以及不同标签之间的关联关系确定待识别图像中至少一目标对象的识别结果。
可选地,获取有标签图像样本,确定有标签图像样本中多个标签的标签状态,可以基于有标签图像样本中多个标签的标签状态,确定多个标签之间的关联关系,其中,标签状态可以用于表示对应的标签是否属于目标类别的结果,比如,可以通过“是”或“否”表示对应的标签是否属于目标类别的结果。
举例而言,对于有标签的图像,在图像预测模型训练的过程中,可以对图像进行渲染和模糊的增强处理,得到两张增强图像,将两张增强图像输入图像预测模型中,得到两个预测结果,基于预测结果之间的差异程度最小化原则,使不同标签状态获得的预测结果保持一致,从而模拟学习两种不同标签状态之间的关系,达到确定多个标签之间的关联关系的目的。
可选地,可以将获取到的无标签图像样本输入子图像预测模型中,可以基于无标签图像样本和得到的关联关系对子图像预测模型进行训练,得到图像预测模型,其中,图像预测模型可以用于确定输入图像的类别,比如,可以为类“人”、类“动物”等,此处仅为举例说明,不做具体限制,且基于图像的类别确定图像的识别结果。
举例而言,可以对经过不同增强处理的两张无标签图像样本进行预测,第一张图像样本的标签状态中,类“人”的标签状态设置为“是”,类“摩托车”的标签状态设置为“未知”,类“鸟”的标签状态设置为“未知”,类“猫”的标签状态设置为“消极”;第二张的标签状态中,类“摩托车”的标签状态设置为“是”,类“人”的标签状态设置为“未知”,类“鸟”的标签状态设置为“消极”,类“猫”的标签状态设置为“未知”;当两个预测结果尽可能的保持一致时,图像预测模型被鼓励对类‘人’和类‘摩托车’都预测为‘是’,这也意味着在预测中人和摩托车更可能出现在同一张图片上;类似的,图像预测模型也可以学习到猫和摩托车不容易出现在同一张图片上。
可以通过使预测对不同的标签状态保持不变,图像预测模型学会了基于已知的标签状态来推理未知的类,比如,一个已知的高置信的类“摩托车”会导致类“人”也有比较高的置信度,从而学习到标签之间的关系,得到图像预测模型。
通过本发明上述步骤S302至步骤S306,获取图像样本,其中,图像样本的类型相同;采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本;分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型;其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果,从而实现了提高图像识别精度的技术效果,解决了图像识别的精度低的技术问题。
本发明实施例还提供了另一种图像方法,该方法可以应用于交通道路场景中,比如,可以应用于城市监测场景,且该模型可以用于对城市交通道路中检测到的视频进行识别,比如,可以对城市交通道路中检测到的车辆进行识别。此处不对可以识别的对象做具体限制。
图4(a)是根据本发明实施例的另一种图像处理方法的流程图,如图4(a)所示,该方法可以包括以下步骤。
步骤S402,获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆。
在本发明上述步骤S402提供的技术方案中,可以获取交通道路的监测视频,其中,监测视频可以包含为图像采集设备采集到的需要对其进行识别的视频,可以包含行驶交通道路的至少一车辆,比如,可以为一段时间某交通道路上车辆运行状况的视频,图像采集设备可以为部署于交通道路周围的视频,比如,可以为通过路口摄影仪等。
步骤S404,调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
在本发明上述步骤S404提供的技术方案中,对相同的图像样本在不同标签状态下的不同增广视图进行训练生成图像预测模型,可以调用图像预测模型对图像进行预测。
步骤S406,使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系。
步骤S408,基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果。
步骤S410,输出监测视频中车辆的识别结果
可选地,图4(b)是根据本发明实施例的一种图像处理的示意图,如图4(b)所示,可以获取由部署于交通道路上的图像采集设备采集到的检测图像,监测视频输入至图像预测模型中,确定监测视频的类别,且基于监测视频的类别确定车辆的识别结果,可以根据实际情况,将识别结果显示在显示屏中。
通过本发明上述步骤S402至步骤S406,获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系;基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果;输出监测视频中车辆的识别结果,从而实现了提高图像识别精度的技术效果,解决了图像识别的精度低的技术问题。
本发明实施例还提供了另一种图像方法,该方法可以应用于虚拟现实VR设备或增强现实AR设备中,且该模型可以用于对虚拟现实VR设备或增强现实AR设备中待检测的图像进行识别。
图5是根据本发明实施例的另一种图像处理方法的流程图,如图5所示,该方法可以包括以下步骤。
步骤S502,在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像。
步骤S504,调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
步骤S506,使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系。
步骤S508,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;
步骤S510,驱动VR设备或AR设备展示图像的识别结果。
在本发明上述步骤S510提供的技术方案中,获取待检测的图像,并在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待预测的图像,将图像输入至图像预测模型中,确定图像的类别,且基于图像的类别确定图像的识别结果,驱动VR设备或AR设备展示图像的识别结果。
可选地,在本实施例中,上述图像处理方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实设备或增强现实设备的呈现画面上展示视频,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。
需要说明的是,该实施例的上述应用在VR设备或AR设备中的图像处理方法可以包括图5所示实施例的方法,以实现驱动VR设备或AR设备展示图像的识别结果的目的。
可选地,该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件,也可以用于上述处理器与存储器之间的数据传输。
可选地,在虚拟现实设备中,带有眼球追踪的头戴式显示器,该HMD中的屏幕,用于显示展示的视频画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动路径,跟踪系统,用于追踪用户在真实三维空间的位置信息与运动信息,计算处理单元,用于从跟踪系统中获取用户的实时位置与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向等。
在本发明实施例中,虚拟现实设备可以与终端相连接,终端与服务器通过网络进行连接,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端并不限定于PC、手机、平板电脑等,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
图6是根据本发明实施例的一种图像处理结果的示意图,如图6所示,驱动VR设备或AR设备展示图像的识别结果,比如,可以为类“人”的标签状态设置为“是”,类“猫”的标签状态设置为“否”;识别结果可以用于表示对应的标签是否属于目标类别的结果。
本发明实施例在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结;驱动VR设备或AR设备展示图像的识别结果,以通过该图像预测模型实现提高图像识别精度的技术效果,进而解决图像识别的精度低的技术问题。
本发明实施例还提供了另一种图像方法,该方法可以应用于软件服务侧(Software-as-a-Service,简称为SaaS)。
图7(a)是根据本发明实施例的另一种图像处理方法的流程图,如图7(a)所示,该方法可以包括以下步骤。
步骤S702,通过调用第一接口获取检测到的待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像。
在本发明上述步骤S702提供的技术方案中,第一接口可以是服务器与客户端之间进行数据交互的接口,客户端可以将至少一个待识别图像传入第一接口中去,作为第一接口的一个第一参数,实现获取待识别图像的目的。
步骤S704,调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
步骤S706,使用所述图像预测模型对所述待识别图像进行图像分类处理,识别出所述待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系。
步骤S708,基于所述目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,确定所述待识别图像中所述目标对象的识别结果
步骤S710,通过调用第二接口输出图像中目标对象的识别结果,其中,第二接口包括第二参数,第二参数的参数值为目标对象的识别结果。
在本发明上述步骤S710提供的技术方案中,第二接口可以是服务器与客户端之间进行数据交互的接口,服务器可以将识别结果传入第二接口中,作为第二接口的一个参数,实现将识别结果下发至客户端的目的。
图7(b)是根据本发明实施例的一种计算机设备对图像处理的示意图,如图7(b)所示,可以通过调用第一接口获取待识别的图像,计算机设备对图像进行增强处理,得到增强图像,将增强处理的凸显输入至基于无标签图像样本和有标签图像样本中多个标签之间的关联关系,对子图像预测模型进行训练而得到图像预测模型中,图像预测模型对增强图像进行处理,确定图像的类别且基于图像的类别确定图像的识别结果,可以通过调用第二接口输出图像的识别结果。
可选地,平台可以通过调用第二接口输出识别结果,其中,第二接口可以用于将识别结果通过互联网部署及接入待测量系统中,从而输出识别结果。
本发明实施例通过在输入中提供相同的图像样本的不同增广视图训练得到图像预测模型,使用图像预测模型对待识别图像进行分类处理,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,通过图像预测模型达到了实现提高图像识别精度的技术效果,解决图像识别的精度低的技术问题。
实施例2
下面对该实施例的上述方法的优选实施方式进行进一步介绍,具体以一种基于条件一致性正则的半监督多标签学习(Semi-supervised Multi-label Learning)算法进行说明。
半监督多标签学习算法可以指通过少量的有标注数据和大量的无标注数据来进行多标签学习的一种学习方法,在减少标注成本等方面具有重要意义,但是半监督多标签学习算法中存在标签数据稀少,标签组合众多,标签之间存在联系等因素的影响,导致半监督多标签学习算法实现起来任务难度大。
半监督单标签学习算法可以是通过自训练(伪标签法)、一致性正则和多种方法混合使用等方法来实现进行协同训练,从而生成图像预测模型,比如,可以为图像预测模型;虽然,半监督标签学习算法的部分方法可以延展至半监督多标签学习算法,但是,由于半监督多标签算法在建模过程中,无法建模标签之间的关系,从而导致半监督多标签学习算法的预测精度较低,性能较差。
针对半监督多标签学习算法,通常是基于标签传递的解决方法进行直推学习(transductive learning),但该方法无法泛化到图像预测模型未见过的测试样本上,因此,在实际应用中,存在较大的局限性;在此基础上,又提出少量可以泛化到图像预测模型未见过的测试样本中的归纳学习(inductive learning)方法被提出,比如,可以基于协同训练,生成图像预测模型和构造特征空间到标签空间的低秩映射等方法学习无标签图像样本知识,并通过序列图像预测模型,基于图的关系网络来学习标签之间的关系,但上述方法仍无法建模标签之间关系,从而半监督多标签学习算法仍存在算法预测精度较低,对图像识别的精度低的技术问题。
为解决上述问题,本发明实施例提出了一种基于条件一致性正则的半监督多标签学习算法,通过在输入中提供相同训练样本的弱增强和强增强的两种不同视图和两组不同的标签状态,并鼓励半监督多标签学习算法对它们产生相似预测,从而使半监督多标签学习算法具备学习无标签图像样本知识以及建模标签关系的能力,进而提高了任务预测的精准度。
本公开实施例通过将一致性正则算法引入半监督多标签学习算法中来学习无标签图像样本的知识,图7(c)是根据本发明实施例的一种半监督多标签学习算法的示意图,如图7(c)所示,在模型训练的过程中,可设置标签如图7(c)所示,斜条纹方框用于表示不相关标签,黑色方框用于表示相关标签,白色为用于表示未标记标签,可以通过在输入中额外提供三种不同的标签状态,来建模标签之间的关系,其中,斜条纹方框的标签可以用于表示标签状态为“否”的标签,黑色方框的标签可以用于表示标签状态为“是”的标签;白色方框的标签可以用于表示标签状态为“未知”的标签,可以用“是”,“否”,“未知”三种标签状态来表示样本是否属于判断的类别。
图7(d)是根据本发明实施例的一种神经网络模型的示意图,如图7(d)所示,通过构建神经网络模型,利用传统的一致性正则方法学习无标签图像样本知识,可以在输入层中输入(input layer)无标签图像样本和有标签图像样本,可以在隐含层一中对有标签图像样本和无标签图像样本进行处理,隐含层二获取隐含层一的第一损失和第二损失,并对第一损失和第二损失进行计算,得到目标损失,基于目标损失对神经网络模型进行调整,得到目标图像预测模型。
可选地,上述神经网络模型可以包括第一隐含层和第二隐含层,可以对无标签图像样本和有标签图像样本进行增强处理,得到多个增强图像,将增强图像输入隐含层一中完成对图像的预测,在隐含层二中对隐含层一中的损失进行计算,得到目标损失,并基于目标损失对神经网络模型进行调整,得到图像预测模型。
在本发明实施例中,在图像预测模型训练的过程中,可以对图像进行增强处理,得到多张增强图像的同时,通过标签状态构建并学习标签关系,使算法既可以学习到无标签图像样本知识也可以建模标签之间的关系,从而解决了一致性正则算法无法建模标签关系的问题。
可选地,一个样本可能会有多个标签,这里的标签状态不仅可以为单独的标签状态,还可以为标签状态组,比如,当图像样本中同时出现雨伞和狗时,这里的标签可以包括类“雨伞”“狗”,则标签的标签状态可以为标签状态组“是否”或“是是”等,其中,“是否”的标签状态组可以用于表示类“雨伞”的标签状态为“是”,类“狗”的标签状态为“否”;“是是”的标签状态组可以用于表示类“雨伞”的标签状态为“是”,类“狗”的标签状态为“是”。
在该实施例中,在图像预测模型训练的过程中,可以对图像进行增强处理,得到多张增强图像,根据不同的标签对得到的增强图像进行预测,图像预测模型输出预测结果,可以基于预测结果之间的距离最小化,从而使不同标签状态获得的预测结果保持一致,通过这种方法模拟学习两种不同标签状态之间的关系,其中,增强图像(增广图像)可以为增加了轻微扰动的图像,比如,可以为对图像进行增强、旋转等处理得到的图像。
可选地,不同图像的标签状态的掩码是随机生成的,这导致两个增强图像的标签状态也不同,因从,当使用一致性正则算法时,可以使图像预测模型学习两种不同标签状态之间的关系;同时,两个增强视图之间的一致性可以使学习到的图像预测模型在不同的数据增强变换下保持不变。
在该实施例中,基于一致性正则的假设,最小化两个预测结果之间的距离(差异程度),图7(e)是根据本发明实施例的一种一致性正则算法的示意图,如图7(e)所示,可以经过图像预测模型,对通过不同增强方法得到的增强图像一和增强图像二进行预测,得到两个预测结果,可以通过将两个结果进行一致性正则算法处理,从而实现最小化两个预测结果之间的距离。
可选地,通过使不同增强方法得到的图像,不同标签状态下的预测结果保持一致,其中,预测结果之间的距离可以用于表征预测结果之间的差异程度,比如,可以通过均方误差表征预测结果之间的差异程度。
举例而言,在图像预测模型训练的过程中,对于有标签的图像,可以在真实标签中随机抽取部分类作为标签状态,其余类的标签状态可以标注为未知;对于无标签的图像,由于本身就缺少真实标签,可以在训练过程中对无标签图像样本进行预测得到预测标签,在预测标签中随机选择部分高置信标签作为无标签图像样本的标签状态,其余类的无标签图像样本的标签状态可以标注为未知。
举例而言,对于有标签的图像,已在真实标签中随机抽取部分类作为标签状态,其余类的标签状态已标注为未知,在图像预测模型训练的过程中,可以对图像进行渲染和模糊的增强处理,得到两张增强图像,将两张增强图像输入图像预测模型中,得到两个预测结果,基于预测结果之间的距离最小化原则,使不同标签状态获得的预测结果保持一致,从而模拟学习两种不同标签状态之间的关系。
在该实施例中,在图像预测模型测试的过程中,可以对标签状态均为未知状态的标签集进行预测,得到预测结果。
图8是根据本发明实施例的一种条件一致性正则化结果的示意图,如图8所示,对图像进行增强处理,得到经过弱增强处理的图像(a)和经过强增强处理的图像(b),对图像(a)和图像(b)进行预测。在图像(a)的标签状态中,类“人”的标签状态设置为“是”,类“摩托车”的标签状态设置为“未知”,类“鸟”的标签状态设置为“未知”,类“猫”的标签状态设置为“否”;在图像(b)的标签状态中,类“摩托车”的标签状态设置为“是”,类“人”的标签状态设置为“未知”,类“鸟”的标签状态设置为“消极”,类“猫”的标签状态设置为“未知”;可以通过损失函数的约束使两个预测结果尽可能的保持一致,当两个预测结果尽可能的保持一致时,图像预测模型被鼓励对类‘人’和类‘摩托车’都预测为‘是’,这也意味着在预测中人和摩托车更可能出现在同一张图片上。类似的,图像预测模型也可以学习到猫和摩托车不容易出现在同一张图片上。通过使预测对不同的标签状态保持不变,图像预测模型学会了基于已知的标签状态来推理未知的类,比如,一个已知的高置信的类“摩托车”会导致类“人”也有比较高的置信度,从而学习到标签之间的关系。
图9是根据本发明实施例的一种图像预测模型训练的示意图,如图9所示,在图像预测模型训练的过程中,本发明实施例可以利用图像预测模型901采取不同的方法对有标签图像样本和无标签图像样本进行训练。
在该实施例中,对于有标签图像样本,可以通过对输入图像进行弱增强,比如,可以通过随机裁剪,翻转等变换实现对输入图像的弱增强,得到弱增强图像,将弱增强图像和预设的标签状态输入图像预测图像预测模型902中进行预测,随机从真实标签中抽取部分标签作为标签状态,其余设置为‘未知’,利用带有弱增强图像和标签状态的数据对图像预测模型901进行训练,其中,可以根据实际情况选取抽取的标签数量,比如,可以为所有标签数量的25%-100%,此处不对抽取标签数量的多少做具体限制。
可选地,可以通过二元交叉熵损失902(binary cross entropy loss,简称为BCE)计算那些被设定为“未知”类的二元交叉熵损失,并把此命名为监督损失(LSupervised),从而避免图像预测模型只对给定的部分标签进行预测的问题。
在该实施例中,如图9所示,对于无标签图像样本,可以基于一致性正则的假设,对图像预测模型901进行训练。
可选地,对于无标签图像样本可以对输入图像进行强增强和弱增强,比如,可以采取随机亮度,均衡,锐化,色调分离,曝光等的变换方式得到强增强图像,可以通过随机裁剪,翻转等变换方式得到弱增强图像,将得到的强增强图像和弱增强图像分别输入图像预测图像预测模型901,且输入预设的标签状态,基于输入的强增强图像、弱增强图像和标签状态,对得到的两种强增强图像和弱增强图像进行预测,由于无标签图像样本并没有真实标签,可以创建一个伪标签存储器(Pseudu lable memory)903存储最新一轮图像预测模型对于无标签图像样本的预测,可以随机从高置信的伪标签中选取部分标签作为标签状态,其余类标签状态设置为‘未知’,将带有不同视图不同标签状态的样本放入图像预测模型进行训练,可以通过均方误差损失904(mean square error loss,简称为MSE)计算任意标签状态类被设定为“未知”的均方误差损失,并把此命名为无监督损失(LUnsupervised)。
可选地,弱增强图像和强增强图像的未标记样本可能是不同的,当最小化两个图像的预测结果之间的距离时,可以通过鼓励该图像预测模型在两种不同的标签状态下输出相同的分布,从而学习两种标签状态之间的关系。
在该实施例中,在损失函数的使用方面,可以综合考虑监督损失和无监督损失对图像预测模型进行训练,可以通过计算模块905对总损失进行计算,可通过以下公式对总损失进行确定:
Ltotal=Lsupervised+λLunsupervised
其中,λ可以为一个超参数控制着无标签图像样本对于图像预测模型的影响程度,λ越高无标签图像样本对于图像预测模型的影响程度越大。
在本发明实施例中,为防止前期无标签图像样本因预测精度有限而产生的不利影响,λ可以从0-1随训练轮数递增,即在训练前期图像预测模型主要受有标签图像样本影响,后期无标签图像样本影响逐渐上升,直到和有标签图像样本影响相同。
可选地,决定监督损失和无监督损失之间平衡的加权函数(w(t))对图像预测模型的性能具有重要意义,λ的增量(加权函数)可以通过以下公式进行确定:
Figure 883251DEST_PATH_IMAGE004
其中,T为经验值,可以为根据历史数据获得的,此处不对T的获取做具体限制。
可选地,通过利用加权函数,使得损失在开始时主要由被标记的样本所主导,并在训练过程中逐渐达到被标记样本和未被标记样本之间的平衡。
需要说明的是,上述的图像增强方式、图像预测模型901的种类和损失函数的计算方法仅为举例说明,图像增强方式、图像预测模型的种类和损失函数的计算方法可根据任务需要灵活的从现有的先进方案中进行合理选择,此处不做具体限制。
本发明实施例提出了一种基于条件一致性正则的半监督多标签学习算法,该算法在传统一致性正则提供相同数据添加轻微扰动的不同视图的基础上,针对多标签学习进行优化,在输入图像中额外提供了标签状态作为条件先验,从而使算法具备了学习无标签图像样本知识(比如,可以为无标签图像样本的分布)和建模标签关系的能力,从而实现了提高任务预测的精准度的技术效果,解决了任务预测精准度低的技术问题。
需要说明的是,针对半监督多标签学习,可以与数据增广,图像预测模型设计,网络结构,损失函数等方面的改进进行相互兼容,可以灵活的针对不同任务对现有先进方法进行结合,并获得性能提升,本发明实施例基于传统的一致性正则方法学习无标签图像样本知识的同时,通过建模并学习标签关系,从而提升了图像预测模型预测的性能。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的预测交通流量的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
根据本发明实施例,还提供了一种用于实施上述图2所示的图像处理方法的图像处理装置。
图10是根据本发明实施例的一种图像处理装置的示意图。如图10所示,该图像处理装置1000可以包括:采集单元1002、调用单元1004、第一处理单元1006和第一确定单元1008。
采集单元1002,用于采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象。
调用单元1004,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
第一处理单元1006,用于使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系。
第一确定单元1008,用于基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。
此处需要说明的是,上述采集单元1002、调用单元1004、第一处理单元1006和第一确定单元1008对应于实施例1中的步骤S202至步骤S208,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端A中。
根据本发明实施例,还提供了一种用于实施上述图3所示的图像处理方法的图像处理装置。
图11是根据本发明实施例的另一种图像处理装置的示意图,该装置应用于模型训练的过程中,且该模型可以用于对图像进行识别。如图11所示,该图像处理装置1100可以包括:第一获取单元1102、标记单元1104和训练单元1106。
第一获取单元1102,用于获取图像样本,其中,图像样本的类型相同。
标记单元1104,用于采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本。
训练单元1106,用于分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型;其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
此处需要说明的是,上述第一获取单元1102、标记单元1104和训练单元1106对应于实施例1中的步骤S302至步骤S306,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端A中。
根据本发明实施例,还提供了一种用于实施上述图4所示的图像处理方法的图像处理装置,该装置可以应用于交通道路中,比如,可以应用于城市监测场景,且该模型可以用于对城市交通道路中检测到的视频进行识别,比如,可以对城市交通道路中检测到的车辆进行识别。此处不对可以识别的对象做具体限制。
图12是根据本发明实施例的另一种图像处理装置的示意图。如图12所示,该图像处理装置1200可以包括:第二获取单元1202、第一调用单元1204、第二处理单元1206、第二确定单元1208和第一输出单元1210。
第二获取单元1202,用于获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆。
第一调用单元1204,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
第二处理单元1206,用于使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系。
第二确定单元1208,用于基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果。
第一输出单元1210,用于输出监测视频中车辆的识别结果。
此处需要说明的是,上述第二获取单元1202、第一调用单元1204、第二处理单元1206、第二确定单元1208和第一输出单元1210对应于实施例1中的步骤S402至步骤S410,五个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端A中。
根据本发明实施例,还提供了一种用于实施上述图5所示的图像处理方法的图像处理装置,该装置可以应用于虚拟现实VR设备或增强现实AR设备中,且该模型可以用于对虚拟现实VR设备或增强现实AR设备中待检测的图像进行识别。
图13是根据本发明实施例的另一种图像处理装置的示意图。如图13所示,该图像处理装置1300可以包括:展示单元1302、第二调用单元1304、第三处理单元1306、第三确定单元1308和驱动单元1310。
展示单元1302,用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像。
第二调用单元1304,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
第三处理单元1306,用于使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系。
第三确定单元1308,用于基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果。
驱动单元1310,用于驱动VR设备或AR设备展示图像的识别结果。
此处需要说明的是,上述展示单元1302、第二调用单元1304、第三处理单元1306、第三确定单元1308和驱动单元1310对应于实施例1中的步骤S502至步骤S510,五个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端A中。
根据本发明实施例,还提供了一种用于实施上述图6所示的图像处理方法的图像处理装置,该装置可以应用于软件服务侧。
图14是根据本发明实施例的另一种图像处理装置的示意图。如图14所示,该图像处理装置1400可以包括:第三获取单元1402、第三调用单元1404、第四处理单元1406、第四确定单元1408和第二输出单元1410。
第三获取单元1402,用于通过调用第一接口获取监测到的待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像。
第三调用单元1404,用于调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成。
第四处理单元1406,用于使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系。
第四确定单元1408,用于基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果。
第二输出单元1410,用于通过调用第二接口输出图像中目标对象的识别结果,其中,第二接口包括第二参数,第二参数的参数值为目标对象的识别结果。
此处需要说明的是,上述第三获取单元1402、第三调用单元1404、第四处理单元1406、第四确定单元1408和第二输出单元1410对应于实施例1中的步骤S602至步骤S610,五个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端A中。
在该实施例的图像处理装置中,本发明实施例通过在输入中提供相同的图像样本的不同增广视图训练得到图像预测模型,使用图像预测模型对待识别图像进行分类处理,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,通过图像预测模型达到了实现提高图像识别精度的技术效果,解决图像识别的精度低的技术问题。
实施例4
本发明的实施例可以提供一种图像处理处理器,该图像处理处理器可以包括计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的图像处理方法中以下步骤的程序代码:采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。
可选地,图15是根据本发明实施例的一种计算机终端的结构框图。如图15所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器1502、存储器1504、以及传输装置1506。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的图像处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及预测,即实现上述的图像处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。
可选地,上述处理器还可以执行如下步骤的程序代码:不同标签之间的关联关系用于表示不同标签的标签状态在待识别图像中是否相同。
可选地,上述处理器还可以执行如下步骤的程序代码:使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签中至少一第一目标标签的标签状态,以及不同标签之间的关联关系;基于关联关系和至少一第一目标标签的标签状态,确定不同标签中至少一第二目标标签的标签状态。
可选地,上述处理器还可以执行如下步骤的程序代码:基于无标签图像样本在至少一第一伪标签状态下的第一弱增广视图和无标签图像样本在至少一第二伪标签状态下的强增广视图,对第一目标预测模型进行训练,得到图像预测模型,其中,第一伪标签状态和第二伪标签状态为基于第一目标预测模型对无标签图像样本进行图像分类处理而得到。
可选地,上述处理器还可以执行如下步骤的程序代码:分类步骤,使用第一目标预测模型对无标签图像样本在第一伪标签状态下的第一弱增广视图进行图像分类处理,识别出第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态,且使用第一目标预测模型对无标签图像样本在第二伪标签状态下的强增广视图进行图像分类处理,识别出增广视图中包含的任意一个对象的不同预测标签的第二预测标签状态,其中,第一预测标签状态和第二预测标签状态之间的关联关系用于表示第一预测标签状态和第二预测标签状态在无标签图像样本中是否相同;调整步骤,响应于第一预测标签状态和第二预测标签状态之间的第一损失未小于目标阈值,基于第一损失调整第一目标预测模型的参数,得到第二目标预测模型;确定步骤,将第二目标预测模型确定为第一目标预测模型,且从第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态中选取出第一伪标签状态和第二伪标签状态,且返回分类步骤,直至第一损失小于目标阈值,将第二目标预测模型确定为图像预测模型。
可选地,上述处理器还可以执行如下步骤的程序代码:使用第一目标预测模型对有标签图像样本在真实标签状态下的第二弱增广视图进行图像分类处理,识别出第二弱增广视图中包含的任意一个对象的不同真实标签的第三预测标签状态;获取第三预测标签状态与真实标签的真实标签状态之间的第二损失;基于第一损失调整第一目标预测模型的参数,得到第二目标预测模型,包括:基于第一损失和第二损失,调整第一目标预测模型的参数,得到第二目标预测模型。
可选地,上述处理器还可以执行如下步骤的程序代码:对第一损失和第二损失进行加权求和,得到加权结果,其中,第一损失对应的权重随着第一目标预测模型的训练轮次的增加而增加;基于加权结果调整第一目标预测模型的参数,得到第二目标预测模型。
可选地,上述处理器还可以执行如下步骤的程序代码:第二损失用于表示有标签图像样本中设置为未知标签状态的真实标签对应的第三预测标签状态,与真实标签状态之间的差异。
可选地,上述处理器还可以执行如下步骤的程序代码:第一损失用于表示无标签图像样本中设置为未知标签状态的伪标签对应的第一预测标签状态,与设置为未知标签状态的伪标签对应的第二预测标签状态之间的差异。
可选地,上述处理器还可以执行如下步骤的程序代码:基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确目标对象所属的类别,其中,类别至少包括目标对象的动态移动属性或静态属性;将类别确定为识别结果。
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取图像样本,其中,图像样本的类型相同;采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本;分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型;其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系;基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果;输出监测视频中车辆的识别结果。
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;驱动VR设备或AR设备展示图像的识别结果。
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过调用第一接口获取监测到的待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;通过调用第二接口输出图像中目标对象的识别结果,其中,第二接口包括第二参数,第二参数的参数值为目标对象的识别结果。
本发明实施例通过在输入中提供相同的图像样本的不同增广视图训练得到图像预测模型,使用图像预测模型对待识别图像进行分类处理,基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果,通过图像预测模型达到了实现提高图像识别精度的技术效果,解决图像识别的精度低的技术问题。
本领域普通技术人员可以理解,图15示的结构仅为示意,计算机终端A也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图15并不对上述计算机终端A的结构造成限定。例如,计算机终端A还可包括比图15所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图15所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例5
本发明的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例一所提供的图像处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采集监测到的待识别图像,其中,待识别图像中包含了需要监测的至少一种目标对象;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;输出图像中目标对象的识别结果。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:不同标签之间的关联关系用于表示不同标签的标签状态在待识别图像中是否相同。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签中至少一第一目标标签的标签状态,以及不同标签之间的关联关系;基于关联关系和至少一第一目标标签的标签状态,确定不同标签中至少一第二目标标签的标签状态。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于无标签图像样本在至少一第一伪标签状态下的第一弱增广视图和无标签图像样本在至少一第二伪标签状态下的强增广视图,对第一目标预测模型进行训练,得到图像预测模型,其中,第一伪标签状态和第二伪标签状态为基于第一目标预测模型对无标签图像样本进行图像分类处理而得到。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:分类步骤,使用第一目标预测模型对无标签图像样本在第一伪标签状态下的第一弱增广视图进行图像分类处理,识别出第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态,且使用第一目标预测模型对无标签图像样本在第二伪标签状态下的强增广视图进行图像分类处理,识别出增广视图中包含的任意一个对象的不同预测标签的第二预测标签状态,其中,第一预测标签状态和第二预测标签状态之间的关联关系用于表示第一预测标签状态和第二预测标签状态在无标签图像样本中是否相同;调整步骤,响应于第一预测标签状态和第二预测标签状态之间的第一损失未小于目标阈值,基于第一损失调整第一目标预测模型的参数,得到第二目标预测模型;确定步骤,将第二目标预测模型确定为第一目标预测模型,且从第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态中选取出第一伪标签状态和第二伪标签状态,且返回分类步骤,直至第一损失小于目标阈值,将第二目标预测模型确定为图像预测模型。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:使用第一目标预测模型对有标签图像样本在真实标签状态下的第二弱增广视图进行图像分类处理,识别出第二弱增广视图中包含的任意一个对象的不同真实标签的第三预测标签状态;获取第三预测标签状态与真实标签的真实标签状态之间的第二损失;基于第一损失调整第一目标预测模型的参数,得到第二目标预测模型,包括:基于第一损失和第二损失,调整第一目标预测模型的参数,得到第二目标预测模型。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:对第一损失和第二损失进行加权求和,得到加权结果,其中,第一损失对应的权重随着第一目标预测模型的训练轮次的增加而增加;基于加权结果调整第一目标预测模型的参数,得到第二目标预测模型。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:第二损失用于表示有标签图像样本中设置为未知标签状态的真实标签对应的第三预测标签状态,与真实标签状态之间的差异。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:第一损失用于表示无标签图像样本中设置为未知标签状态的伪标签对应的第一预测标签状态,与设置为未知标签状态的伪标签对应的第二预测标签状态之间的差异。
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确目标对象所属的类别,其中,类别至少包括目标对象的动态移动属性或静态属性;将类别确定为识别结果。
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取图像样本,其中,图像样本的类型相同;采用不同的标签分别对图像样本中的对象进行标记,得到处在不同标签状态下的图像样本;分别对图像样本在不同标签状态下的不同增广视图进行训练,得到图像预测模型;其中,图像预测模型表征了图像样本中任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系,不同标签的标签状态以及不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取交通道路的监测视频,其中,监测视频包含了行驶通过交通道路的至少一车辆;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对监测视频进行图像分类处理,识别出监测视频中包含的任意一个车辆的不同标签的标签状态,以及不同标签之间的关联关系;基于车辆的不同标签的标签状态,以及不同标签之间的关联关系,确定监测视频中车辆的识别结果;输出监测视频中车辆的识别结果。
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;驱动VR设备或AR设备展示图像的识别结果。
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:通过调用第一接口获取监测到的待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;调用图像预测模型,其中,图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;使用图像预测模型对待识别图像进行图像分类处理,识别出待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及不同标签之间的关联关系;基于目标对象的不同标签的标签状态,以及不同标签之间的关联关系,确定待识别图像中目标对象的识别结果;通过调用第二接口输出图像中目标对象的识别结果,其中,第二接口包括第二参数,第二参数的参数值为目标对象的识别结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种图像处理方法,其特征在于,包括:
采集监测到的待识别图像,其中,所述待识别图像中包含了需要监测的至少一种目标对象;
调用图像预测模型,其中,所述图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;
使用所述图像预测模型对所述待识别图像进行图像分类处理,识别出所述待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系;
基于所述目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,确定所述待识别图像中所述目标对象的识别结果;
输出所述图像中所述目标对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述不同标签之间的关联关系用于表示所述不同标签的所述标签状态在所述待识别图像中是否相同。
3.根据权利要求1所述的方法,其特征在于,使用所述图像预测模型对所述待识别图像进行图像分类处理,识别出所述待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,包括:
使用所述图像预测模型对所述待识别图像进行图像分类处理,识别出所述待识别图像中包含的任意一个目标对象的不同标签中至少一第一目标标签的标签状态,以及所述不同标签之间的关联关系;
基于所述关联关系和所述至少一第一目标标签的标签状态,确定所述不同标签中至少一第二目标标签的标签状态。
4.根据权利要求1所述的方法,其特征在于,所述图像样本包括无标签图像样本,所述方法还包括:
基于所述无标签图像样本在至少一第一伪标签状态下的第一弱增广视图和所述无标签图像样本在至少一第二伪标签状态下的强增广视图,对第一目标预测模型进行训练,得到所述图像预测模型,其中,所述第一伪标签状态和所述第二伪标签状态为基于所述第一目标预测模型对所述无标签图像样本进行图像分类处理而得到。
5.根据权利要求4所述的方法,其特征在于,基于所述无标签图像样本在至少一第一伪标签状态下的第一弱增广视图和所述无标签图像样本在至少一第二伪标签状态下的强增广视图,对第一目标预测模型进行训练,得到所述图像预测模型,包括:
分类步骤,使用所述第一目标预测模型对所述无标签图像样本在所述第一伪标签状态下的所述第一弱增广视图进行图像分类处理,识别出所述第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态,且使用所述第一目标预测模型对所述无标签图像样本在所述第二伪标签状态下的所述强增广视图进行图像分类处理,识别出所述增广视图中包含的任意一个对象的不同预测标签的第二预测标签状态,其中,所述第一预测标签状态和所述第二预测标签状态之间的关联关系用于表示所述第一预测标签状态和所述第二预测标签状态在所述无标签图像样本中是否相同;
调整步骤,响应于所述第一预测标签状态和所述第二预测标签状态之间的第一损失未小于目标阈值,基于所述第一损失调整所述第一目标预测模型的参数,得到第二目标预测模型;
确定步骤,将所述第二目标预测模型确定为所述第一目标预测模型,且从所述第一弱增广视图中包含的任意一个对象的不同预测标签的第一预测标签状态中选取出所述第一伪标签状态和所述第二伪标签状态,且返回所述分类步骤,直至所述第一损失小于所述目标阈值,将所述第二目标预测模型确定为所述图像预测模型。
6.根据权利要求5所述的方法,其特征在于,
所述方法还包括:使用所述第一目标预测模型对有标签图像样本在真实标签状态下的第二弱增广视图进行图像分类处理,识别出所述第二弱增广视图中包含的任意一个对象的不同真实标签的第三预测标签状态;获取所述第三预测标签状态与所述真实标签的真实标签状态之间的第二损失;
基于所述第一损失调整所述第一目标预测模型的参数,得到第二目标预测模型,包括:基于所述第一损失和所述第二损失,调整所述第一目标预测模型的参数,得到所述第二目标预测模型。
7.根据权利要求6所述的方法,其特征在于,基于所述第一损失和所述第二损失,调整所述第一目标预测模型的参数,得到所述第二目标预测模型,包括:
对所述第一损失和所述第二损失进行加权求和,得到加权结果,其中,所述第一损失对应的权重随着所述第一目标预测模型的训练轮次的增加而增加;
基于所述加权结果调整所述第一目标预测模型的参数,得到所述第二目标预测模型。
8.根据权利要求6所述的方法,其特征在于,所述第二损失用于表示所述有标签图像样本中设置为未知标签状态的真实标签对应的所述第三预测标签状态,与所述真实标签状态之间的差异。
9.根据权利要求5所述的方法,其特征在于,所述第一损失用于表示所述无标签图像样本中设置为未知标签状态的伪标签对应的所述第一预测标签状态,与设置为未知标签状态的伪标签对应的所述第二预测标签状态之间的差异。
10.根据权利要求1至9中任意一项所述的方法,其特征在于,基于所述目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,确定所述待识别图像中所述目标对象的识别结果,包括:
基于所述目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,确所述目标对象所属的类别,其中,所述类别至少包括所述目标对象的动态移动属性或静态属性;
将所述类别确定为所述识别结果。
11.一种图像处理方法,其特征在于,包括:
获取图像样本,其中,所述图像样本的类型相同;
采用不同的标签分别对所述图像样本中的对象进行标记,得到处在不同标签状态下的图像样本;
分别对所述图像样本在所述不同标签状态下的不同增广视图进行训练,得到图像预测模型;
其中,所述图像预测模型表征了所述图像样本中任意一个目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,所述不同标签的标签状态以及所述不同标签之间的关联关系用于确定待识别图像中至少一目标对象的识别结果。
12.一种图像处理方法,其特征在于,包括:
获取交通道路的监测视频,其中,所述监测视频包含了行驶通过所述交通道路的至少一车辆;
调用图像预测模型,其中,所述图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;
使用所述图像预测模型对所述监测视频进行图像分类处理,识别出所述监测视频中包含的任意一个车辆的不同标签的标签状态,以及所述不同标签之间的关联关系;
基于所述车辆的不同标签的标签状态,以及所述不同标签之间的关联关系,确定所述监测视频中所述车辆的识别结果;
输出所述监测视频中所述车辆的识别结果。
13.一种图像处理方法,其特征在于,包括:
在虚拟现实VR设备或增强现实AR设备的呈现画面上展示监测到的待识别图像;
调用图像预测模型,其中,所述图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;
使用所述图像预测模型对所述待识别图像进行图像分类处理,识别出所述待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系;
基于所述目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,确定所述待识别图像中所述目标对象的识别结果;
驱动所述VR设备或所述AR设备展示所述图像的识别结果。
14.一种图像处理方法,其特征在于,包括:
通过调用第一接口获取监测到的待识别图像,其中,所述第一接口包括第一参数,所述第一参数的参数值为所述待识别图像;
调用图像预测模型,其中,所述图像预测模型为分别对相同的图像样本在不同标签状态下的不同增广视图进行训练而生成;
使用所述图像预测模型对所述待识别图像进行图像分类处理,识别出所述待识别图像中包含的任意一个目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系;
基于所述目标对象的不同标签的标签状态,以及所述不同标签之间的关联关系,确定所述待识别图像中所述目标对象的识别结果;
通过调用第二接口输出所述图像中所述目标对象的识别结果,其中,所述第二接口包括第二参数,所述第二参数的参数值为所述目标对象的识别结果。
15.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至14中任意一项所述的方法。
CN202210941398.3A 2022-08-08 2022-08-08 图像处理方法和处理器 Active CN115019218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210941398.3A CN115019218B (zh) 2022-08-08 2022-08-08 图像处理方法和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210941398.3A CN115019218B (zh) 2022-08-08 2022-08-08 图像处理方法和处理器

Publications (2)

Publication Number Publication Date
CN115019218A true CN115019218A (zh) 2022-09-06
CN115019218B CN115019218B (zh) 2022-11-15

Family

ID=83066073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210941398.3A Active CN115019218B (zh) 2022-08-08 2022-08-08 图像处理方法和处理器

Country Status (1)

Country Link
CN (1) CN115019218B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178596A1 (en) * 2013-12-20 2015-06-25 Google Inc. Label Consistency for Image Analysis
CN108416003A (zh) * 2018-02-27 2018-08-17 百度在线网络技术(北京)有限公司 一种图片分类方法和装置、终端、存储介质
CN109766872A (zh) * 2019-01-31 2019-05-17 广州视源电子科技股份有限公司 图像识别方法和装置
CN111582409A (zh) * 2020-06-29 2020-08-25 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111626362A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN112613569A (zh) * 2020-12-29 2021-04-06 北京百度网讯科技有限公司 图像识别方法、图像分类模型的训练方法及装置
CN113033603A (zh) * 2021-02-05 2021-06-25 浙江大学 一种基于元学习的弱监督图像多标签分类方法
CN113761253A (zh) * 2021-05-20 2021-12-07 腾讯科技(深圳)有限公司 视频标签确定方法、装置、设备及存储介质
CN114187487A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 一种大规模点云数据的处理方法、装置、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178596A1 (en) * 2013-12-20 2015-06-25 Google Inc. Label Consistency for Image Analysis
CN108416003A (zh) * 2018-02-27 2018-08-17 百度在线网络技术(北京)有限公司 一种图片分类方法和装置、终端、存储介质
CN109766872A (zh) * 2019-01-31 2019-05-17 广州视源电子科技股份有限公司 图像识别方法和装置
CN111626362A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111582409A (zh) * 2020-06-29 2020-08-25 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN112613569A (zh) * 2020-12-29 2021-04-06 北京百度网讯科技有限公司 图像识别方法、图像分类模型的训练方法及装置
CN113033603A (zh) * 2021-02-05 2021-06-25 浙江大学 一种基于元学习的弱监督图像多标签分类方法
CN113761253A (zh) * 2021-05-20 2021-12-07 腾讯科技(深圳)有限公司 视频标签确定方法、装置、设备及存储介质
CN114187487A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 一种大规模点云数据的处理方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAN XIAO等: "Adaptive Prototypical Networks With Label Words and Joint Representation Learning for Few-Shot Relation Classification", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS ( EARLY ACCESS )》 *
李畅等: "用于红外眼动图像分割的优化方法", 《激光与光电子学进展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117407557B (zh) * 2023-12-13 2024-05-07 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机

Also Published As

Publication number Publication date
CN115019218B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN108229478B (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
US10726304B2 (en) Refining synthetic data with a generative adversarial network using auxiliary inputs
CN112232293B (zh) 图像处理模型训练、图像处理方法及相关设备
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
US10740964B2 (en) Three-dimensional environment modeling based on a multi-camera convolver system
Kondapally et al. Towards a Transitional Weather Scene Recognition Approach for Autonomous Vehicles
US11275970B2 (en) Systems and methods for distributed data analytics
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN111709471B (zh) 对象检测模型的训练方法以及对象检测方法、装置
Brekke et al. Multimodal 3d object detection from simulated pretraining
CN114549369B (zh) 数据修复方法、装置、计算机及可读存储介质
CN115019218B (zh) 图像处理方法和处理器
JP2022164640A (ja) マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法
CN115131634A (zh) 图像识别方法、装置、设备、存储介质及计算机程序产品
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN112750128B (zh) 图像语义分割方法、装置、终端及可读存储介质
CN108596068B (zh) 一种动作识别的方法和装置
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN116977484A (zh) 图像脱敏方法、装置、电子设备及存储介质
CN115393673A (zh) 对象识别模型的训练方法、对象识别的方法、电子设备
CN117874286B (zh) 一种基于SaaS云应用的云基视频分析方法及系统
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
WO2023029704A1 (zh) 数据处理方法、装置和系统
Arezoomandan Dataset Augmentation Pipeline for Improved Long-Range Drone Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant