CN111797790B - 图像处理方法和装置、存储介质和电子设备 - Google Patents

图像处理方法和装置、存储介质和电子设备 Download PDF

Info

Publication number
CN111797790B
CN111797790B CN202010663399.7A CN202010663399A CN111797790B CN 111797790 B CN111797790 B CN 111797790B CN 202010663399 A CN202010663399 A CN 202010663399A CN 111797790 B CN111797790 B CN 111797790B
Authority
CN
China
Prior art keywords
image
sample
intention
mask
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010663399.7A
Other languages
English (en)
Other versions
CN111797790A (zh
Inventor
苏凯
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010663399.7A priority Critical patent/CN111797790B/zh
Publication of CN111797790A publication Critical patent/CN111797790A/zh
Application granted granted Critical
Publication of CN111797790B publication Critical patent/CN111797790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种图像处理方法和装置、存储介质和电子设备,所述方法包括:将待处理图像输入意图判别模型;获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像;其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。通过意图判别模型从空间位置和视觉特征对图像的主意图进行判别,减少了采用单一的特征进行主意图判别带来的误判别的情况,从而提高了主意图判别的准确度。

Description

图像处理方法和装置、存储介质和电子设备
技术领域
本公开涉及图像识别领域,具体地,涉及一种图像处理方法和装置、存储介质和电子设备。
背景技术
计算机技术逐渐发展,针对图像的自动处理技术也逐渐发展。现在通过对图像的处理可以实现对视频中物体的追踪,对图像中物体的识别、关联、推荐等用途。在涉及物体识别的场景下,首先要实现的便是对目标物体的识别。
但是,在一张图像中可能存在多个物体,每个物体的外观特征可能都满足识别的需求,而并非每个物体都满足图像处理的意图需求,这导致了图像中的物体识别可能出现大量的误识别结果,存在需要人力筛选的情形,费时费力且效率较低。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种图像处理方法,包括:将待处理图像输入意图判别模型;获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像;其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
第二方面,本公开提供一种图像处理装置,包括输入模块,用于将待处理图像输入意图判别模型;获取模块,用于获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像;其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面中任一项所述方法的步骤。
第四方面,本公开提供一种电子设备,包括存储装置和处理装置,其中,存储装置上存储有计算机程序;处理装置用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。
通过上述的技术方案,至少可以达到以下的技术效果:
通过意图判别模型,从空间位置和视觉特征对图像的主意图进行判别,减少了采用单一的特征进行主意图判别带来的误判别的情况,从而提高了主意图判别的准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性公开实施例示出的一种图像处理方法的流程图。
图2是根据一示例性公开实施例示出的一种意图判别模型的示意图。
图3是根据一示例性公开实施例示出的一种视频图像帧处理方法的流程图。
图4是根据一示例性公开实施例示出的一种图像处理装置的框图。
图5是根据一示例性公开实施例示出的一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1是根据一示例性公开实施例示出的一种图像处理方法的流程图,如图1所示,所述图像处理方法包括以下步骤:
S11、将待处理图像输入意图判别模型。
其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
在物体识别的过程中,不仅要考虑物体外观上的图像特征,还要考虑到物体所处的位置。例如,在进行物体推荐时,要为用户推荐符合用户意图的物体相关的内容,需要从位置上考虑用户的视觉范围,排除不处于视觉中心的边缘物体对物体识别的影响(值得说明的是,视觉中心不代表画面中心,视觉中心还有可能是位于画面边缘的区域);在进行特定物体追踪时,例如,需要对视频中除主要被拍摄者以外的人(如影视剧中的配角、取证视频中位于非视频中心区域的人物)进行追踪时,需要排除其他物体、人物对这类人物识别的干扰。在现有技术中,通常是识别出多个物体并由用户手动指定其中的一个物体以完成对特定条件的物体的后续处理,这种方法过于依赖人力,不够便捷。
在本公开中,意图判别模型结合了物体的图像特征和空间位置来确定主意图对象的子图像,不仅考虑到物体的视觉特征,还考虑到了物体的位置,可以根据模型的使用过程中对物体位置的需求,训练出可以判定位于不同位置类型的主意图对象的意图判别模型。
在一种可能的实施方式中,通过卷积函数和激活函数将所述空间位置掩码转换为空间位置权重,将所述空间位置权重与所述图像特征信息相乘,得到加权后的图像特征信息,其中,所述空间位置权重的维度比所述空间位置掩码的维度低。
该空间位置信息可以是以空间矩阵的形式存在的空间位置掩码,在空间位置掩码中,存在物体的矩阵位置可以被标记为1,不存在物体的矩阵位置可以被标记为0。在本公开中,可能存在主意图物体的矩阵位置可以被标记为1,其他物体或不存在物体的矩阵位置可以被标记为0。
考虑到空间位置信息和图像特征信息都是维度较高的信息,在图像特征丰富或图像数量较多、图像待处理面积较大的情况下,随着网络的深入,图像特征及空间位置的特征提取难度会复杂,且计算难度也较大,因此,可以通过卷积函数和激活函数将所述空间位置掩码挤压为空间位置权重,其中,所述空间位置权重中的一个维度的特征被压缩为单形式的特征(例如,三通道的特征中,有一个通道中的特征值均被压缩为1)。
例如,原有的空间位置掩码为三维矩阵H*W*C,可以通过卷积Conv和Sigmoid激活函数,将其转换为H*W*1的权重特征,由此可见,通过卷积函数和激活函数的处理,空间位置掩码中的C通道被压缩为1,从而可以将该权重特征与图像特征信息进行叠加,得到加权处理后的图像特征信息。
此时基于空间位置加权后的图像特征相比于原有的图像特征而言,添加了各个物体的空间特征,能让模型在进行意图判别时考虑物体的空间位置信息。
通过由空间位置信息得到的权重特征的处理,图片中位于主意图位置的物体的图像特征被强调,从而意图判别模型可以在既考虑到视觉特征又考虑到位置特征的基础上,对图像中的主意图物体进行判别,从而减少视觉特征上符合意图特征,但空间位置上明显不是主意图的情况发生,提高了意图判别的准确度。
在一种可能的实施方式中,通过意图判别模型的特征提取层提取共享特征,并通过位置处理分支从共享特征中提取空间位置掩码,通过主意图判别分支从共享特征中提取图像特征信息。通过位置处理分支和主意图判别分支共享由意图判别模型的特征提取层提取的共享特征,可以减少各分支从图像中提取特征的程序,提升特征的提取效率。值得说明是,在对主意图判别分支或位置处理分支进行训练时,均可以通过反向传播的方式调整该特征提取层,从而达到高效训练特征提取层的目的,且由于该特征提取层与两分支相连,则调整该特征提取层可以同时提升两分支的精度,提升训练效率。
在一种可能的实施方式中,可以从待处理视频中获取待处理图像,该待处理图像可以是待处理视频的封面帧的图像,也可以是待处理视频中预设时刻的图像帧,还可以是以预设时间间隔从待处理视频中抽取得到的多个图像帧。
在从待处理视频中获取至少一个图像帧后,可以将待处理视频中的至少一个图像帧作为所述待处理图像,将至少一个所述待处理图像输入所述意图判别模型,从而获得待处理视频的至少一个主意图对象的子图像。
S12、获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像。
值得说明的是,该表征所述待处理图像中的主意图对象的子图像,可以是基于待处理图像裁剪后余留主意图对象的部分图像,也可以是在待处理图像的基础上以图像框的形式标注出主意图对象的图像,还可以是在待处理图像的基础上,通过图像旋转、畸变校正、裁剪等操作后,将主意图对象置于中心位置的子图像。本公开对子图像中主意图对象的表现形式不做限定。
在一种可能的实施方式中,意图判别模型还会输出该主意图对象的物体标签,用于表征该主意图对象的物体种类,例如,该物体标签可以包括表征主意图对象是布偶猫、英国长毛猫、萨摩耶犬、阿拉斯加犬等不同物种的标签,从而可以更直观地得到图像的主意图对象的种类。
并且,在从待处理视频中获取了多个待处理图像并得到了多个主意图对象的子图像,并得到了多个主意图对象对应的物体标签后,还可以基于多个物体标签确定该待处理视频的主意图,例如,当从待处理视频中获取了20个待处理图像,并输出了15个物体标签表征物体为“椅子”的主意图结果,以及5个物体标签表征物体为“桌子”的主意图结果后,可以确定数量较多的标签对应的物体为该待处理视频的主意图对象,或者,可以设置一比例阈值,确定在所有标签中占比超过该比例阈值的物体标签对应的物体为该待处理视频的主意图对象。
本公开中的位置处理分支是通过以下方式训练的:
将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
该训练停止条件可以是模型得到的结果误差低于预设误差阈值,或者模型的迭代次数满足预设次数条件,或者样本集中的样本数量满足预设数量条件等,本领域技术人员应知悉,有多种判断模型的训练深度是否足够的标准,因而存在多种可能的停止条件,从而本公开对该训练停止条件不做限制。
在一种可能的实施方式中,可以基于所述样本位置掩码和所述预测位置掩码,通过所述位置损失函数,确定所述第一样本图像中各个物体的掩码损失值;根据各个物体的所述掩码损失值的大小,确定预设数量个较大的目标掩码损失值,并基于所述预设数量个较大的目标掩码损失值在所述位置处理分支中进行反向传播,以调整所述意图判别模型的位置处理分支的参数。
在针对空间位置判别的训练过程中,由于很多误判是由于对非主意图物体,例如边缘物体、小物体的位置信息进行了错误的预测所造成的,因此,可以在训练过程中对生成各个物体的空间位置信息时的损失进行排序,取排序位置靠前的预设数量的空间位置信息进行BP(Back Propagation,反向传播)处理,使模型对非主意图物体的空间位置信息的预测更加准确。
主意图判别分支是通过以下方式训练的:
将已标注主意图对象的第二样本图像输入待训练的意图判别模型,所述第二样本图像中的主意图对象以样本标注框的形式标注;重复执行基于所述第二样本图像中的样本标注框和所述主意图判别分支输出的标注框,通过意图损失函数调整所述主意图判别分支的参数的步骤,直至满足训练停止条件;其中,所述主意图判别分支从所述第二样本图像中提取样本图像特征,并将所述样本图像的样本空间位置掩码转换为样本权重,并将所述样本权重与所述样本图像特征相乘,得到加权后的样本图像特征,并基于所述样本图像特征输出标注框,所述第二样本图像的样本空间位置掩码由所述位置处理分支得到,或者,所述第二样本图像的样本空间位置掩码标注于所述第二样本图像中。
在本公开中,已标注主意图对象的样本图像可以包括标注正确主意图对象的正样本图像和标注错误主意图对象的负样本图像。模型可以通过对正样本和负样本的同时学习,减少误判断的可能性,使模型更趋于精确。
在模型训练过程中,越准确的模型需要越多数量的训练样本,但是标注样本的过程通常需要人工进行,效率不高,且耗费人力及时间。因此,可以进一步对已标注的正样本进行处理,对样本标注框进行移动和/或变形处理,得到至少一个扰动标注框,基于所述扰动标注框的位置信息和所述样本标注框的位置信息,确定所述扰动标注框的置信度,将大于或等于目标置信度的所述扰动标注框标注于所述样本图像中,并作为正样本输入待训练的意图判别模型,将小于所述目标置信度的所述扰动标注框标注于所述样本图像中,并作为负样本输入待训练的意图判别模型。这样,可以通过一个人工标注的样本图像得到多个正样本和负样本,从而扩充样本的数量,减少需要人工进行标注的数量,提升标注效率。
具体而言,可以将物体的标注框的视为平面上的集合,计算样本标注框的样本集合与扰动标注框的扰动集合的IoU(Intersection over Union,交并比),即,用样本集合与扰动集合的交集与样本集合与扰动集合的并集相除。IoU可以从数字上表征两集合的远近关系,可以作为置信度的标准,当IoU高时,可以认为扰动标注框与样本标注框相距不远,扰动标注框中包括了主意图对象,当IoU较低时,可以认为扰动标注框与样本标注框相距较远,扰动标注框中不包括主意图对象。
值得说明的是,还可以对已标注的负样本的样本标注框进行扰动处理,并取IoU较高的扰动标记框为负样本加入训练集中。
在一种可能的实施方式中,还可以将包括所述主意图对象的所述子图像输入检索模型,并获取所述检索模型输出的目标图像和/或视频。所述检索模型用于从数据库中查找与所述主意图对象特征匹配的图像和/或视频。
这样,检索模型可以基于主意图判别模型输出的主意图对象,在数据库中查找特征匹配的图像和/或视频,从而可以实现图片/视频的联想和推荐。
图2是一种意图判别模型的示意图,如图2所示,该意图判别模型具有位置处理分支和意图判别分支,两个分支分别可以从原始图片中提取到空间位置信息(图2中以黑色长方体表示)和图像特征信息(图2中以白色长方体表示),在对空间位置信息进行挤压并获得空间位置权重(图2中以黑色长方形表示)并叠加入图像特征信息之后,意图判别分支可以通过加权后的图像特征信息(图2中以条纹长方体表示)得到主意图对象的子图像。
通过上述的技术方案,至少可以达到以下的技术效果:
通过意图判别模型,从空间位置和视觉特征对图像的主意图进行判别,减少了采用单一的特征进行主意图判别带来的误判别的情况,从而提高了主意图判别的准确度。
图3是根据一示例性公开实施例示出的一种视频图像帧处理方法的流程图,如图3所示,所述视频图像帧处理方法包括以下步骤:
S31、从待处理视频中的抽取至少一个图像帧作为待处理图像。
该待处理图像可以是待处理视频的封面帧的图像,也可以是待处理视频中预设时刻的图像帧,还可以是以预设时间间隔从待处理视频中抽取得到的多个图像帧。
例如,该预设时刻可以为3秒,则待处理视频的第三秒的图像帧即为该待处理图像;该预设时间间隔可以为3秒,则可以以3秒为间隔,在待处理视频中抽取多张图像帧,并将这些图像帧作为待处理图像,分别送入意图判别模型。
S32、将至少一个所述待处理图像输入所述意图判别模型。
其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
在物体识别的过程中,不仅要考虑物体外观上的图像特征,还要考虑到物体所处的位置。例如,在进行物体推荐时,要为用户推荐符合用户意图的物体相关的内容,需要从位置上考虑用户的视觉范围,排除不处于视觉中心的边缘物体对物体识别的影响(值得说明的是,视觉中心不代表画面中心,视觉中心还有可能是位于画面边缘的区域);在进行特定物体追踪时,例如,需要对视频中除主要被拍摄者以外的人(如影视剧中的配角、取证视频中位于非视频中心区域的人物)进行追踪时,需要排除其他物体、人物对这类人物识别的干扰。在现有技术中,通常是识别出多个物体并由用户手动指定其中的一个物体以完成对特定条件的物体的后续处理,这种方法过于依赖人力,不够便捷。
在本公开中,意图判别模型结合了物体的图像特征和空间位置来确定主意图对象的子图像,不仅考虑到物体的视觉特征,还考虑到了物体的位置,可以根据模型的使用过程中对物体位置的需求,训练出可以判定位于不同位置类型的主意图对象的意图判别模型。
在一种可能的实施方式中,通过卷积函数和激活函数将所述空间位置掩码转换为空间位置权重,将所述空间位置权重与所述图像特征信息相乘,得到加权后的图像特征信息,其中,所述空间位置权重的维度比所述空间位置掩码的维度低。
该空间位置信息可以是以空间矩阵的形式存在的空间位置掩码,在空间位置掩码中,存在物体的矩阵位置可以被标记为1,不存在物体的矩阵位置可以被标记为0。在本公开中,可能存在主意图物体的矩阵位置可以被标记为1,其他物体或不存在物体的矩阵位置可以被标记为0。
考虑到空间位置信息和图像特征信息都是维度较高的信息,在图像特征丰富或图像数量较多、图像待处理面积较大的情况下,随着网络的深入,图像特征及空间位置的特征提取难度会复杂,且计算难度也较大,因此,可以通过卷积函数和激活函数将所述空间位置掩码挤压为空间位置权重,其中,所述空间位置权重中的一个维度的特征被压缩为单形式的特征(例如,三通道的特征中,有一个通道中的特征值均被压缩为1)。
例如,原有的空间位置掩码为三维矩阵H*W*C,可以通过卷积Conv和Sigmoid激活函数,将其转换为H*W*1的权重特征,由此可见,通过卷积函数和激活函数的处理,空间位置掩码中的C通道被压缩为1,从而可以将该权重特征与图像特征信息进行叠加,得到加权处理后的图像特征信息。
此时基于空间位置加权后的图像特征相比于原有的图像特征而言,添加了各个物体的空间特征,能让模型在进行意图判别时考虑物体的空间位置信息。
通过由空间位置信息得到的权重特征的处理,图片中位于主意图位置的物体的图像特征被强调,从而意图判别模型可以在既考虑到视觉特征又考虑到位置特征的基础上,对图像中的主意图物体进行判别,从而减少视觉特征上符合意图特征,但空间位置上明显不是主意图的情况发生,提高了意图判别的准确度。
在一种可能的实施方式中,通过意图判别模型的特征提取层提取共享特征,并通过位置处理分支从共享特征中提取空间位置掩码,通过主意图判别分支从共享特征中提取图像特征信息。通过位置处理分支和主意图判别分支共享由意图判别模型的特征提取层提取的共享特征,可以减少各分支从图像中提取特征的程序,提升特征的提取效率。值得说明是,在对主意图判别分支或位置处理分支进行训练时,均可以通过反向传播的方式调整该特征提取层,从而达到高效训练特征提取层的目的,且由于该特征提取层与两分支相连,则调整该特征提取层可以同时提升两分支的精度,提升训练效率。
S33、获取所述意图判别模型输出的至少一个表征所述待处理图像中的主意图对象的子图像。
值得说明的是,该表征所述待处理图像中的主意图对象的子图像,可以是基于待处理图像裁剪后余留主意图对象的部分图像,也可以是在待处理图像的基础上以图像框的形式标注出主意图对象的图像,还可以是在待处理图像的基础上,通过图像旋转、畸变校正、裁剪等操作后,将主意图对象置于中心位置的子图像。本公开对子图像中主意图对象的表现形式不做限定。
在一种可能的实施方式中,意图判别模型还会输出该主意图对象的物体标签,用于表征该主意图对象的物体种类,例如,该物体标签可以包括表征主意图对象是布偶猫、英国长毛猫、萨摩耶犬、阿拉斯加犬等不同物种的标签,从而可以更直观地得到图像的主意图对象的种类。
S34、基于至少一个所述子图像,确定所述待处理视频的主意图对象。
在待处理图像为一张图像时,基于该待处理图像得到的主意图对象的子图像即为待处理视频的主意图对象的子图像,子图像中的物体即为主意图对象。在输出主意图对象的子图像之后,可以将该主意图对象的子图像送入图像识别模型,从而得到该子图像中物体的类别。意图判别模型的意图判别分支也可以用于在输出子图像的物体标签,从而可以基于该物体标签确定主意图对象的种类。
当存在多张待处理图像,并输出了多个子图像时,在模型仅输出表征主意图对象的子图像而不输出主意图对象的物体标签的情况下,可以对比各子图像的图像特征,确定相似的图像特征对应的子图像为同一对象物体,并确定数量占比最多的对象物体为待处理视频的主意图对象,或者,可以设置一比例阈值,确定在所有子图像中占比超过该比例阈值的对象物体为该待处理视频的主意图对象。
在一种可能的实施方式中,意图判别模型还会输出该主意图对象的物体标签,用于表征该主意图对象的物体种类;或者,可以将该子图像送入图像识别模型,得到子图像对应的物体标签。例如,该物体标签可以包括表征主意图对象是布偶猫、英国长毛猫、萨摩耶犬、阿拉斯加犬等不同物种的标签,从而可以更直观地得到图像的主意图对象的种类。
并且,在从待处理视频中获取了多个待处理图像并得到了多个主意图对象的子图像,并得到了多个主意图对象对应的物体标签后,还可以基于多个物体标签确定该待处理视频的主意图,例如,当从待处理视频中获取了20个待处理图像,并输出了15个物体标签表征物体为“椅子”的主意图结果,以及5个物体标签表征物体为“桌子”的主意图结果后,可以确定数量较多的标签对应的物体为该待处理视频的主意图对象,或者,可以设置一比例阈值,确定在所有标签中占比超过该比例阈值的物体标签对应的物体为该待处理视频的主意图对象。
本公开中的位置处理分支是通过以下方式训练的:
将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
该训练停止条件可以是模型得到的结果误差低于预设误差阈值,或者模型的迭代次数满足预设次数条件,或者样本集中的样本数量满足预设数量条件等,本领域技术人员应知悉,有多种判断模型的训练深度是否足够的标准,因而存在多种可能的停止条件,从而本公开对该训练停止条件不做限制。
在一种可能的实施方式中,可以基于所述样本位置掩码和所述预测位置掩码,通过所述位置损失函数,确定所述第一样本图像中各个物体的掩码损失值;根据各个物体的所述掩码损失值的大小,确定预设数量个较大的目标掩码损失值,并基于所述预设数量个较大的目标掩码损失值在所述位置处理分支中进行反向传播,以调整所述意图判别模型的位置处理分支的参数。
在针对空间位置判别的训练过程中,由于很多误判是由于对非主意图物体,例如边缘物体、小物体的位置信息进行了错误的预测所造成的,因此,可以在训练过程中对生成各个物体的空间位置信息时的损失进行排序,取排序位置靠前的预设数量的空间位置信息进行BP(Back Propagation,反向传播)处理,使模型对非主意图物体的空间位置信息的预测更加准确。
主意图判别分支是通过以下方式训练的:
将已标注主意图对象的第二样本图像输入待训练的意图判别模型,所述第二样本图像中的主意图对象以样本标注框的形式标注;重复执行基于所述第二样本图像中的样本标注框和所述主意图判别分支输出的标注框,通过意图损失函数调整所述主意图判别分支的参数的步骤,直至满足训练停止条件;其中,所述主意图判别分支从所述第二样本图像中提取样本图像特征,并将所述样本图像的样本空间位置掩码转换为样本权重,并将所述样本权重与所述样本图像特征相乘,得到加权后的样本图像特征,并基于所述样本图像特征输出标注框,所述第二样本图像的样本空间位置掩码由所述位置处理分支得到,或者,所述第二样本图像的样本空间位置掩码标注于所述第二样本图像中。
在本公开中,已标注主意图对象的样本图像可以包括标注正确主意图对象的正样本图像和标注错误主意图对象的负样本图像。模型可以通过对正样本和负样本的同时学习,减少误判断的可能性,使模型更趋于精确。
在模型训练过程中,越准确的模型需要越多数量的训练样本,但是标注样本的过程通常需要人工进行,效率不高,且耗费人力及时间。因此,可以进一步对已标注的正样本进行处理,对样本标注框进行移动和/或变形处理,得到至少一个扰动标注框,基于所述扰动标注框的位置信息和所述样本标注框的位置信息,确定所述扰动标注框的置信度,将大于或等于目标置信度的所述扰动标注框标注于所述样本图像中,并作为正样本输入待训练的意图判别模型,将小于所述目标置信度的所述扰动标注框标注于所述样本图像中,并作为负样本输入待训练的意图判别模型。这样,可以通过一个人工标注的样本图像得到多个正样本和负样本,从而扩充样本的数量,减少需要人工进行标注的数量,提升标注效率。
具体而言,可以将物体的标注框的视为平面上的集合,计算样本标注框的样本集合与扰动标注框的扰动集合的IoU(Intersection over Union,交并比),即,用样本集合与扰动集合的交集与样本集合与扰动集合的并集相除。IoU可以从数字上表征两集合的远近关系,可以作为置信度的标准,当IoU高时,可以认为扰动标注框与样本标注框相距不远,扰动标注框中包括了主意图对象,当IoU较低时,可以认为扰动标注框与样本标注框相距较远,扰动标注框中不包括主意图对象。
值得说明的是,还可以对已标注的负样本的样本标注框进行扰动处理,并取IoU较高的扰动标记框为负样本加入训练集中。
在一种可能的实施方式中,还可以将包括所述主意图对象的所述子图像输入检索模型,并获取所述检索模型输出的目标图像和/或视频。所述检索模型用于从数据库中查找与所述主意图对象特征匹配的图像和/或视频。
这样,检索模型可以基于主意图判别模型输出的主意图对象,在数据库中查找特征匹配的图像和/或视频,从而可以实现图片/视频的联想和推荐。
图2是一种可能的意图判别模型的示意图,如图2所示,该意图判别模型具有位置处理分支和意图判别分支,两个分支分别可以从原始图片中提取到空间位置信息(图2中以黑色长方体表示)和图像特征信息(图2中以白色长方体表示),在对空间位置信息进行挤压并获得空间位置权重(图2中以黑色长方形表示)并叠加入图像特征信息之后,意图判别分支可以通过加权后的图像特征信息(图2中以条纹长方体表示)得到主意图对象的子图像。
通过上述的技术方案,至少可以达到以下的技术效果:
从视频中抽取图像,并通过意图判别模型从空间位置和视觉特征对图像的主意图进行判别,减少了采用单一的特征进行主意图判别带来的误判别的情况,从而提高了主意图判别的准确度,从而可以自动从视频中提取既符合位置要求和又满足外观特征的主意图对象。
图4是根据一示例性公开实施例示出的一种图像处理装置的框图,如图4所示,所述图像处理装置400包括输入模块410和获取模块420。
其中,输入模块410用于将待处理图像输入意图判别模型。
获取模块420用于获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像。其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
所述主意图判别分支,用于通过卷积函数和激活函数将所述空间位置掩码转换为空间位置权重,所述空间位置权重的维度比所述空间位置掩码的维度低;将所述空间位置权重与所述图像特征信息相乘,得到加权后的图像特征信息。
所述意图判别模型还包括特征提取层,用于从图像中提取共享特征;所述位置处理分支,用于从所述共享特征中提取空间位置掩码;所述主意图判别分支,用于从所述共享特征中提取图像特征信息。
所述装置400还包括第一训练模块,用于将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
所述第一训练模块,还用于基于所述样本位置掩码和所述预测位置掩码,通过所述位置损失函数,确定所述第一样本图像中各个物体的掩码损失值;根据各个物体的所述掩码损失值的大小,确定预设数量个较大的目标掩码损失值,并基于所述预设数量个较大的目标掩码损失值在所述位置处理分支中进行反向传播,以调整所述意图判别模型的位置处理分支的参数。
所述装置还包括第二训练模块,用于将已标注主意图对象的第二样本图像输入待训练的意图判别模型,所述第二样本图像中的主意图对象以样本标注框的形式标注;重复执行基于所述第二样本图像中的样本标注框和所述主意图判别分支输出的标注框,通过意图损失函数调整所述主意图判别分支的参数的步骤,直至满足训练停止条件;其中,所述主意图判别分支从所述第二样本图像中提取样本图像特征,并将所述样本图像的样本空间位置掩码转换为样本权重,并将所述样本权重与所述样本图像特征相乘,得到加权后的样本图像特征,并基于所述样本图像特征输出标注框,所述第二样本图像的样本空间位置掩码由所述位置处理分支得到,或者,所述第二样本图像的样本空间位置掩码标注于所述第二样本图像中。
所述已标注主意图对象的样本图像包括:标注正确主意图对象的正样本图像和标注错误主意图对象的负样本图像;所述第二训练模块,还用于基于标注正确主意图对象的样本图像,对该样本图像的样本标注框进行移动和/或变形处理,得到至少一个扰动标注框;基于所述扰动标注框的位置信息和所述样本标注框的位置信息,确定所述扰动标注框的置信度;将大于或等于目标置信度的所述扰动标注框标注于所述样本图像中,并作为正样本输入待训练的意图判别模型;将小于所述目标置信度的所述扰动标注框标注于所述样本图像中,并作为负样本输入待训练的意图判别模型。
所述装置还包括检索模块,用于将包括所述主意图对象的所述子图像输入检索模型,获取所述检索模型输出的目标图像和/或视频,所述检索模型用于从数据库中查找与所述主意图对象特征匹配的图像和/或视频。
通过上述的技术方案,至少可以达到以下的技术效果:
通过意图判别模型,,通过意图判别模型从空间位置和视觉特征对图像的主意图进行判别,减少了采用单一的特征进行主意图判别带来的误判别的情况,从而提高了主意图判别的准确度。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一获取模块还可以被描述为“获取至少两个网际协议地址的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种图像处理方法,包括将待处理图像输入意图判别模型;获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像;其中,所述意图判别模型包括主意图判别分支和位置处理分支,其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述将所述空间位置信息作为所述图像特征信息的权重特征,添加至所述图像特征信息中,包括:通过卷积函数和激活函数将所述空间位置掩码转换为空间位置权重,所述空间位置权重的维度比所述空间位置掩码的维度低;将所述空间位置权重与所述图像特征信息相乘,得到加权后的图像特征信息。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述意图判别模型还包括特征提取层,用于从图像中提取共享特征;所述位置处理分支,用于从所述共享特征中提取空间位置掩码;所述主意图判别分支,用于从所述共享特征中提取图像特征信息。
根据本公开的一个或多个实施例,示例4提供了示例1的方法,所述位置处理分支是通过以下方式训练的:将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
根据本公开的一个或多个实施例,示例5提供了示例4的方法,所述通过位置损失函数调整所述意图判别模型的位置处理分支的参数,包括:基于所述样本位置掩码和所述预测位置掩码,通过所述位置损失函数,确定所述第一样本图像中各个物体的掩码损失值;根据各个物体的所述掩码损失值的大小,确定预设数量个较大的目标掩码损失值,并基于所述预设数量个较大的目标掩码损失值在所述位置处理分支中进行反向传播,以调整所述意图判别模型的位置处理分支的参数。
根据本公开的一个或多个实施例,示例6提供了示例1的方法,所述主意图判别分支是通过以下方式训练的:将已标注主意图对象的第二样本图像输入待训练的意图判别模型,所述第二样本图像中的主意图对象以样本标注框的形式标注;重复执行基于所述第二样本图像中的样本标注框和所述主意图判别分支输出的标注框,通过意图损失函数调整所述主意图判别分支的参数的步骤,直至满足训练停止条件;其中,所述主意图判别分支从所述第二样本图像中提取样本图像特征,并将所述样本图像的样本空间位置掩码转换为样本权重,并将所述样本权重与所述样本图像特征相乘,得到加权后的样本图像特征,并基于所述样本图像特征输出标注框,所述第二样本图像的样本空间位置掩码由所述位置处理分支得到,或者,所述第二样本图像的样本空间位置掩码标注于所述第二样本图像中。
根据本公开的一个或多个实施例,示例7提供了示例6的方法,所述样本图像包括:标注正确主意图对象的正样本图像和标注错误主意图对象的负样本图像;所述将已标注主意图对象的样本图像输入待训练的意图判别模型,包括:基于标注正确主意图对象的样本图像,对该样本图像的样本标注框进行移动和/或变形处理,得到至少一个扰动标注框;基于所述扰动标注框的位置信息和所述样本标注框的位置信息,确定所述扰动标注框的置信度;将大于或等于目标置信度的所述扰动标注框标注于所述样本图像中,并作为正样本输入待训练的意图判别模型;将小于所述目标置信度的所述扰动标注框标注于所述样本图像中,并作为负样本输入待训练的意图判别模型。
根据本公开的一个或多个实施例,示例8提供了示例1的方法,所述方法还包括:将包括所述主意图对象的所述子图像输入检索模型;获取所述检索模型输出的目标图像和/或视频;其中,所述检索模型用于从数据库中查找与所述主意图对象特征匹配的图像和/或视频。
根据本公开的一个或多个实施例,示例9提供了一种图像处理装置,包括输入模块,用于将待处理图像输入意图判别模型;获取模块,用于获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像。其中,所述意图判别模型包括主意图判别分支和位置处理分支,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置信息掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像。
根据本公开的一个或多个实施例,示例10提供了示例9的装置,所述主意图判别分支用于通过卷积函数和激活函数将所述空间位置掩码转换为空间位置权重,所述空间位置权重的维度比所述空间位置掩码的维度低;将所述空间位置权重与所述图像特征信息相乘,得到加权后的图像特征信息。根据本公开的一个或多个实施例,示例11提供了示例9的装置,所述意图判别模型还包括特征提取层,用于从图像中提取共享特征;所述位置处理分支,用于从所述共享特征中提取空间位置掩码;所述主意图判别分支,用于从所述共享特征中提取图像特征信息。
根据本公开的一个或多个实施例,示例12提供了示例9的装置,还包括第一训练模块,用于将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
根据本公开的一个或多个实施例,示例13提供了示例12的装置,所述第一训练模块用于基于所述样本位置掩码和所述预测位置掩码,通过所述位置损失函数,确定所述第一样本图像中各个物体的掩码损失值;根据各个物体的所述掩码损失值的大小,确定预设数量个较大的目标掩码损失值,并基于所述预设数量个较大的目标掩码损失值在所述位置处理分支中进行反向传播,以调整所述意图判别模型的位置处理分支的参数。
根据本公开的一个或多个实施例,示例14提供了示例9的装置,所述装置还包括第二训练模块,用于将已标注主意图对象的第二样本图像输入待训练的意图判别模型,所述第二样本图像中的主意图对象以样本标注框的形式标注;重复执行基于所述第二样本图像中的样本标注框和所述主意图判别分支输出的标注框,通过意图损失函数调整所述主意图判别分支的参数的步骤,直至满足训练停止条件;其中,所述主意图判别分支从所述第二样本图像中提取样本图像特征,并将所述样本图像的样本空间位置掩码转换为样本权重,并将所述样本权重与所述样本图像特征相乘,得到加权后的样本图像特征,并基于所述样本图像特征输出标注框,所述第二样本图像的样本空间位置掩码由所述位置处理分支得到,或者,所述第二样本图像的样本空间位置掩码标注于所述第二样本图像中。
根据本公开的一个或多个实施例,示例15提供了示例15的装置,所述样本图像包括:标注正确主意图对象的正样本图像和标注错误主意图对象的负样本图像;所述第二训练模块还用于基于标注正确主意图对象的样本图像,对该样本图像的样本标注框进行移动和/或变形处理,得到至少一个扰动标注框;基于所述扰动标注框的位置信息和所述样本标注框的位置信息,确定所述扰动标注框的置信度;将大于或等于目标置信度的所述扰动标注框标注于所述样本图像中,并作为正样本输入待训练的意图判别模型;将小于所述目标置信度的所述扰动标注框标注于所述样本图像中,并作为负样本输入待训练的意图判别模型。
根据本公开的一个或多个实施例,示例16提供了示例9的装置,所述装置还包括检索模块,用于将包括所述主意图对象的所述子图像输入检索模型,获取所述检索模型输出的目标图像和/或视频,所述检索模型用于从数据库中查找与所述主意图对象特征匹配的图像和/或视频。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
将待处理图像输入意图判别模型;
获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像;
其中,所述意图判别模型包括主意图判别分支和位置处理分支,
其中,所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像;
所述位置处理分支是通过以下方式训练的:
将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;
重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;
其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
2.根据权利要求1所述的图像处理方法,其特征在于,所述将所述空间位置信息作为所述图像特征信息的权重特征,添加至所述图像特征信息中,包括:
通过卷积函数和激活函数将所述空间位置掩码转换为空间位置权重,所述空间位置权重的维度比所述空间位置掩码的维度低;
将所述空间位置权重与所述图像特征信息相乘,得到加权后的图像特征信息。
3.根据权利要求1所述的方法,其特征在于,所述意图判别模型还包括特征提取层,用于从图像中提取共享特征;
所述位置处理分支,用于从所述共享特征中提取空间位置掩码;
所述主意图判别分支,用于从所述共享特征中提取图像特征信息。
4.根据权利要求1所述的方法,其特征在于,所述通过位置损失函数调整所述意图判别模型的位置处理分支的参数,包括:
基于所述样本位置掩码和所述预测位置掩码,通过所述位置损失函数,确定所述第一样本图像中各个物体的掩码损失值;
根据各个物体的所述掩码损失值的大小,确定预设数量的目标掩码损失值,并基于所述预设数量的目标掩码损失值在所述位置处理分支中进行反向传播,以调整所述意图判别模型的位置处理分支的参数。
5.根据权利要求1所述的图像处理方法,其特征在于,所述主意图判别分支是通过以下方式训练的:
将已标注主意图对象的第二样本图像输入待训练的意图判别模型,所述第二样本图像中的主意图对象以样本标注框的形式标注;
重复执行基于所述第二样本图像中的样本标注框和所述主意图判别分支输出的标注框,通过意图损失函数调整所述主意图判别分支的参数的步骤,直至满足训练停止条件;
其中,所述主意图判别分支从所述第二样本图像中提取样本图像特征,并将所述样本图像的样本空间位置掩码转换为样本权重,并将所述样本权重与所述样本图像特征相乘,得到加权后的样本图像特征,并基于所述样本图像特征输出标注框,
所述第二样本图像的样本空间位置掩码由所述位置处理分支得到,或者,
所述第二样本图像的样本空间位置掩码标注于所述第二样本图像中。
6.根据权利要求5所述的图像处理方法,其特征在于,所述样本图像包括:标注正确主意图对象的正样本图像和标注错误主意图对象的负样本图像;所述将已标注主意图对象的样本图像输入待训练的意图判别模型,包括:
基于标注正确主意图对象的样本图像,对该样本图像的样本标注框进行移动和/或变形处理,得到至少一个扰动标注框;
基于所述扰动标注框的位置信息和所述样本标注框的位置信息,确定所述扰动标注框的置信度;
将大于或等于目标置信度的所述扰动标注框标注于所述样本图像中,并作为正样本输入待训练的意图判别模型;
将小于所述目标置信度的所述扰动标注框标注于所述样本图像中,并作为负样本输入待训练的意图判别模型。
7.根据权利要求1所述的图像处理方法,其特征在于,所述方法还包括:
将包括所述主意图对象的所述子图像输入检索模型;
获取所述检索模型输出的目标图像和/或视频;
其中,所述检索模型用于从数据库中查找与所述主意图对象特征匹配的图像和/或视频。
8.一种图像处理装置,其特征在于,所述装置包括:
输入模块,用于将待处理图像输入意图判别模型;
获取模块,用于获取所述意图判别模型输出的表征所述待处理图像中的主意图对象的子图像;
其中,所述意图判别模型包括主意图判别分支和位置处理分支,
所述位置处理分支用于从图像中提取空间位置掩码,所述主意图判别分支用于从图像中提取图像特征信息,并将所述空间位置信息掩码作为所述图像特征信息的权重特征,添加至所述图像特征信息中,并基于加权处理后的所述图像特征信息,输出至少包括所述主意图对象的子图像;
所述装置还包括第一训练模块,用于将已标注样本位置掩码的第一样本图像输入待训练的意图判别模型;重复执行基于所述样本位置掩码和所述意图判别模型的所述位置处理分支输出的预测位置掩码,通过位置损失函数调整所述意图判别模型的位置处理分支的参数的步骤,直至满足训练停止条件;其中,所述样本位置掩码和所述预测位置掩码用于表征所述第一样本图像中至少一个物体的空间位置。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202010663399.7A 2020-07-10 2020-07-10 图像处理方法和装置、存储介质和电子设备 Active CN111797790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010663399.7A CN111797790B (zh) 2020-07-10 2020-07-10 图像处理方法和装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010663399.7A CN111797790B (zh) 2020-07-10 2020-07-10 图像处理方法和装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111797790A CN111797790A (zh) 2020-10-20
CN111797790B true CN111797790B (zh) 2021-11-05

Family

ID=72806905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010663399.7A Active CN111797790B (zh) 2020-07-10 2020-07-10 图像处理方法和装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111797790B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467607B (zh) * 2023-03-28 2024-03-01 阿里巴巴(中国)有限公司 信息匹配方法和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
CN106031155B (zh) * 2014-09-26 2018-06-19 深圳市大疆创新科技有限公司 基于统计数据的自动对焦系统和方法
US10262236B2 (en) * 2017-05-02 2019-04-16 General Electric Company Neural network training image generation system
CN108898186B (zh) * 2018-07-03 2020-03-06 北京字节跳动网络技术有限公司 用于提取图像的方法和装置

Also Published As

Publication number Publication date
CN111797790A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN109919244B (zh) 用于生成场景识别模型的方法和装置
CN112364829B (zh) 一种人脸识别方法、装置、设备及存储介质
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
CN109947989B (zh) 用于处理视频的方法和装置
CN109961032B (zh) 用于生成分类模型的方法和装置
CN112766284B (zh) 图像识别方法和装置、存储介质和电子设备
CN110990598B (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN112883966B (zh) 图像字符识别方法、装置、介质及电子设备
CN111563398A (zh) 用于确定目标物的信息的方法和装置
CN112907628A (zh) 视频目标追踪方法、装置、存储介质及电子设备
CN111797790B (zh) 图像处理方法和装置、存储介质和电子设备
CN113610034A (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
CN112949430A (zh) 视频处理方法和装置、存储介质和电子设备
WO2018120575A1 (zh) 网页主图识别方法和装置
CN109740510B (zh) 用于输出信息的方法和装置
CN116629236A (zh) 一种待办事项提取方法、装置、设备及存储介质
CN114612909A (zh) 字符识别方法、装置、可读介质及电子设备
CN114495080A (zh) 字体识别方法、装置、可读介质及电子设备
CN110263743B (zh) 用于识别图像的方法和装置
CN114004229A (zh) 文本识别方法、装置、可读介质及电子设备
CN111353536A (zh) 图像的标注方法、装置、可读介质和电子设备
CN113591513B (zh) 用于处理图像的方法和装置
CN112000218A (zh) 一种对象显示方法及装置
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
CN112766285B (zh) 图像样本生成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant