CN106651973B - 图像结构化方法及装置 - Google Patents

图像结构化方法及装置 Download PDF

Info

Publication number
CN106651973B
CN106651973B CN201610859311.2A CN201610859311A CN106651973B CN 106651973 B CN106651973 B CN 106651973B CN 201610859311 A CN201610859311 A CN 201610859311A CN 106651973 B CN106651973 B CN 106651973B
Authority
CN
China
Prior art keywords
image
pixel
neural network
belongs
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610859311.2A
Other languages
English (en)
Other versions
CN106651973A (zh
Inventor
张弛
夏斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201610859311.2A priority Critical patent/CN106651973B/zh
Publication of CN106651973A publication Critical patent/CN106651973A/zh
Application granted granted Critical
Publication of CN106651973B publication Critical patent/CN106651973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了图像结构化方法和装置。该方法包括:基于第一神经网络提取图像的特征,其中特征用特征张量表示;基于第二神经网络执行如下操作,其中,第二神经网络包括第一层次神经网络和第二层次神经网络:基于第一层次神经网络,根据特征张量检测图像中的像素的归属类型并且计算图像中的像素与其所属的对象的中心点之间的距离,并根据上述距离,确定所述图像中的像素所属的特定对象;基于第二层次神经网络,根据特征张量以及像素的归属类型分析像素的属性;以及根据像素的属性和其所属的特定对象确定特定对象的属性。这避免了在图像结构化的检测对象和确定对象属性这两个环节中都引入额外的误差,显著提高了图像结构化分析的准确性。

Description

图像结构化方法及装置
技术领域
本发明涉及图像处理领域,更具体地涉及一种图像结构化方法和装置。
背景技术
随着通信网络、数据压缩和海量存储技术的发展,越来越多的多媒体信息以计算机可读的形式存在于互联网上。它们不仅包括常见的文字数据,还包括图像、视频等媒体信息。它们一般缺乏语义信息,信息检索系统难以对它们进行有效搜索,只有对媒体数据进行有效结构化,才能帮助人们更快地找到感兴趣内容。
图像结构化是一种图像内容信息提取的智能分析过程,它对图像内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人理解的文本信息。可以理解,上述图像可以是一个或多个独立的图像,还可以是组成视频的帧。
目前,图像结构化,特别是视频结构化,已经应用到很多领域。例如,对行人、车辆的视频结构化是诸多安防应用中不可或缺的一环。
现有技术中,通常把诸如行人、车辆等对象的检测和属性分析分成两个独立的环节来完成。首先,在检测环节中,对每一视频帧,检测出行人和/或车辆。通过边框把它们的位置和大小表示出来。然后,分析边框中行人和/或车辆的属性信息,达到视频结构化的目的。在以上两个环节中,都可能引入额外的误差。尤其是在检测环节中,如果拍摄环境非常拥挤,那么检测所获得的边框并不能很好地表示检测对象的位置。例如在拥挤的人群中,大量的行人相互遮挡,因此边框也相互遮挡。如果使用边框来分析行人的属性,很容易因为被其他人挡住,而丢失信息,或引入错误信息。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种图像结构化方法和装置。
根据本发明一个方面,提供了一种图像结构化方法,包括:
基于第一神经网络提取图像的特征,其中所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等;
基于第二神经网络执行如下操作,其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络:
基于所述第一层次神经网络,根据所述特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象,其中,所述归属类型包括所述所属的对象;以及
基于所述第二层次神经网络,根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性;以及
根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性。
示例性地,所述第一层次神经网络包括第一子神经网络层和第二子神经网络层,所述根据所述特征张量检测所述图像中的像素的归属类型包括:
基于所述第一子神经网络层,根据所述特征张量检测所述图像中的像素所属的对象;以及
基于所述第二子神经网络层,根据所述特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。
示例性地,所述根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性包括:
根据所述特征张量以及所述图像中的像素所属的对象的部位分析所述图像中的像素的属性。
示例性地,所述根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性包括:
对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重;以及
将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
示例性地,基于所述第二神经网络还执行如下操作:
基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离;以及
根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。
示例性地,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
示例性地,所述根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象包括:
根据所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标;以及
对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。
示例性地,所述对象包括感兴趣对象和背景,所述计算所述图像中的像素与其所属的对象的中心点之间的距离包括:
对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
示例性地,所述基于第一神经网络提取图像的特征包括:
基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量;以及
根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。
示例性地,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
示例性地,所述方法还包括:
利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。
根据本发明另一方面,还提供了一种图像结构化装置,包括:
特征提取模块,用于基于第一神经网络提取图像的特征,其中所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等;
像素分析模块,用于基于第二神经网络执行操作,其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络,所述像素分析模块包括:
像素归属分析单元,用于基于所述第一层次神经网络,根据所述特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象,其中,所述归属类型包括所述所属的对象;
像素属性分析单元,用于基于所述第二层次神经网络,根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性;以及
属性确定模块,用于根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性。
示例性地,所述第一层次神经网络包括第一子神经网络层和第二子神经网络层,所述像素归属分析单元包括:
第一子单元,用于基于所述第一子神经网络层,根据所述特征张量检测所述图像中的像素所属的对象;以及
第二子单元,用于基于所述第二子神经网络层,根据所述特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。
示例性地,所述像素属性分析单元根据所述特征张量以及所述图像中的像素所属的对象的部位分析所述图像中的像素的属性。
示例性地,所述属性确定模块包括:
权重确定单元,用于对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重;以及
属性计算单元,用于将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
示例性地,所述像素归属分析单元还包括:
第三子单元,用于基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离;以及
部位确定子单元,用于根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。
示例性地,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
示例性地,所述像素归属分析单元包括:
对象中心点确定子单元,用于根据所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标;以及
聚类子单元,用于对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。
示例性地,所述对象包括感兴趣对象和背景,所述像素归属分析单元对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
示例性地,所述特征提取模块包括:
特征提取单元,用于基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量;以及
尺寸变换单元,用于根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。
示例性地,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
示例性地,所述装置还包括:训练模块,用于利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。
上述方法和装置能够在检测对象的同时,确定对象的属性。从而,避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。特别地,对于拍摄环境非常拥挤、边框不能很好地表示检测对象的位置的情况,避免了使用边框来分析对象属性所引入的错误信息。这提高了图像结构化分析的准确性。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同或相似部件或步骤。
图1示出了用于实现根据本发明实施例的用于图像结构化方法和装置的示例电子设备的示意性框图;
图2示出了根据本发明一个实施例的图像结构化方法的示意性流程图;
图3示出了根据本发明一个实施例的确定图像中的像素所属的特定对象的示意性流程图;
图4示出了根据本发明另一实施例的图像结构化方法的示意性流程图;
图5示出了根据本发明一个实施例的神经网络的示意图;
图6示出了根据本发明一个实施例的确定特定对象的属性的示意性流程图;
图7示出了根据本发明一个实施例的图像结构化装置的示意性框图;
图8示出了根据本发明一个实施例的像素归属分析单元的示意性框图;以及
图9示出了根据本发明一个实施例的图像结构化设备的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参照图1来描述用于实现本发明实施例的图像结构化方法和装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106和输出装置108,这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的计算机功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用来接收用户所输入的指令以及采集数据的装置,并且可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
上述输入装置106和输出装置108主要用于与用户交互。
下面,将参考图2描述根据本发明一个实施例的图像结构化方法200。图像结构化是识别和检测图像中的对象并分析对象的属性的技术。该对象包括任何感兴趣对象,例如视频结构化中,人们通常感兴趣的行人、车辆等。在下面的实施例中,以行人和车辆作是对象的示例进行描述。可以理解,感兴趣对象不仅限于此,例如,还可以包括动物等。
在步骤S220中,基于第一神经网络提取图像的特征。
如前所述,该图像可以是视频帧。例如,对于待结构化的一段视频,可以将视频中的各帧输入到第一神经网络,以提取每帧的特征。该第一神经网络可以是一层或多层的卷积神经网络。卷积神经网络是一种前馈神经网络,由若干卷积单元组成。每个卷积单元可以响应一部分覆盖范围内的周围单元。
卷积神经网络的运算目的是提取所输入的图像的特征。卷积神经网络的不同层次能够提取不同的特征,由此,总层数不同的卷积神经网络能够提取不同的特征。卷积神经网络的第一卷积层可提取一些低级的特征,如图像的边缘、线条和角等特征。第一卷积层之后的卷积层可根据前面的卷积层所提取的低级的特征迭代提取更高级、更复杂的特征。换言之,总层数越多的卷积神经网络提取的特征越复杂。
对于所输入的图像,具有特定层数的卷积神经网络可提取热力图形式的特征。其中,热力图的像素值表示该像素属于特定对象类型的置信度。例如,根据本发明的一个示例,一个热力图中,所表示的颜色越趋近于红色的像素表示该像素属于行人的置信度越高;另一个热力图中,所表示的颜色越趋近于红色的像素表示该像素属于车辆的置信度越高;在又一个热力图中,所表示的颜色越趋近于红色的像素表示该像素属于背景(非行人也非车辆的部分)的置信度越高。热力图是一种较高级的图像特征,利用该特征可以显著提高后续的图像处理和操作的效率。
本领域普通技术人员可以理解,上述热力图、图像的边缘和线条等不同复杂度的特征均是示例。在实际应用中,可以根据需要采用各种图像特征,在本申请中对此不做限制。
第一神经网络可以将所提取的特征用特征张量表示。对于一个图像,例如视频中的一帧,由第一神经网络提取的特征可以用张量表示,在本文中称其为特征张量。不同于一些其他方法中,人为定义图像的特征;如前所述,根据本发明的实施例,特征张量是由诸如卷积神经网络的第一神经网络自动提取的。
特征张量可以是三维的。三维特征张量的三个维度可以分别代表图像的横向,纵向和频道(channel)。横向是图像的长的方向。纵向是图像的宽的方向。在特征是热力图形式的情况下,频道的数值表示特征张量所包含的热力图的个数。特征张量的长和宽分别和所输入的图像的长和宽相等。仍以上述示例为例,像素值表示该像素属于行人的置信度的热力图、像素值表示该像素属于车辆的置信度的热力图和像素值表示该像素属于背景的置信度的热力图可以构成一个频道的个数为3的热力图。假设所输入的图像的大小为200*150,则第一神经网络可以自动提取一个200*150*3的三维特征张量。特征张量的长和宽分别和所输入的图像的长和宽相等能够便于后续处理中实现对像素级别的操作。
根据本发明的一个实施例,步骤S220可以包括以下子步骤。首先,基于第一神经网络,对所输入的图像进行卷积和池化(Pooling),以获得表示所述图像的初始张量。在本申请中,通过神经网络的卷积和池化运算所获得的张量称为初始张量。初始张量的长可能与所述图像的长不等,初始张量的宽可能与所述图像的宽不等。然后,根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。在神经网络的卷积和池化运算之后,可以利用诸如插值和/或剪切等方法使最终获得的特征张量的长和宽与所述图像的长和宽分别相等。基于上述子步骤,可以保证第一神经网络所获得的特征张量的长和宽分别与输入到第一神经网络的图像的长和宽相等,进而能够保证后续图像处理顺利地基于图像的像素进行。
在步骤S240中,基于第二神经网络执行如下第一操作和第二操作,其中,第二神经网络包括第一层次神经网络和第二层次神经网络。第一层次神经网络可用于以图像中的像素为单位对图像中的对象进行识别和检测,例如识别出行人,车辆和背景。也就是说识别出图像中的像素属于哪个对象。第二层次神经网络可用于分析图像中的像素的属性。
在第一操作中,首先,基于上述第一层次神经网络,根据步骤S220所获得的特征张量检测输入到第一神经网络的图像中的像素的归属类型。归属类型可包括像素所属的对象。对象可包括感兴趣对象和背景。在上面的示例中,感兴趣对象包括行人和车辆。将特征张量输入第一层次神经网络,经过第一层次神经网络的计算,可以获得所述图像中的每个像素的归属类型。在一个示例中,像素A、像素B和像素C等是属于行人。像素a、像素b和像素c等是属于车辆。像素1、像素2和像素3等是属于背景。通过上述检测,把整个图像划分为行人,车辆和背景等不同归属类型,每个像素点属于不同的类型。
在第一操作中,对于图像中的像素,还计算该像素与该像素所属的对象的中心点之间的距离。仍以上述示例为例,计算像素A与其所属的行人的中心点之间的距离、像素B与其所属的行人的中心点之间的距离和像素a与其所属的车辆的中心点之间的距离……。
可以理解,在计算像素与该像素所属的对象的中心点之间的距离时,可以仅对于属于感兴趣对象的像素,计算该像素与其所属的感兴趣对象的中心点之间的距离。但是对于属于背景的像素,可以不再计算该像素与其所属的背景的中心点之间的距离。在上述示例中,仅计算属于行人的像素A、像素B和像素C等、属于车辆的像素a、像素b和像素c等与其各自所属的对象的中心点之间的距离。而无需计算属于背景的像素1、像素2和像素3等与其各自所属的背景的中心点之间的距离。由此,能够避免无谓的计算,节约系统资源。
在第一操作中,还可以根据图像中的像素与该像素所属的对象的中心点之间的距离,确定该像素所属的特定对象。根据像素与中心点的对应关系,可以确定像素所属的特定对象。在上述示例中,根据像素A与其所属的行人的中心点之间的距离、像素B与其所属的行人的中心点之间的距离和像素a与其所属的车辆的中心点之间的距离等,可以确定像素A属于行人甲,像素B属于行人乙,像素a属于车辆一……。
图3示出了根据本发明一个实施例的根据图像中的像素与该像素所属的对象的中心点之间的距离,确定该像素所属的特定对象的方法示意图,如图3所示,该方法可以包括步骤S311和步骤S312。在步骤S311中,根据图像中的像素与其所属的对象的中心点之间的距离,计算该对象的中心点的坐标。图像中的每个像素都具有其唯一所属的对象,每个对象有唯一的中心点。换言之,像素与中心点之间存在多对一或者一对一的对应关系。根据像素与其对应的中心点之间的距离,可以计算该对应的中心点的坐标,即确定该对应的中心点的位置。在步骤S312中,对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。第二神经网络的第一层次神经网络在计算图像中的像素与其各自所属的对象的中心点之间的距离过程中,可能存在偏差或误差。所以,根据该距离所确定的对象的中心点的坐标也可能存在偏差或误差。例如,对于一个行人,根据实际上属于该行人的像素与其对应的中心点之间的距离,可能确定了多个中心点。然而,实际中一个对象理应有且仅有一个中心点。步骤S312的存在,可以有效消除方案中的上述偏差或误差,使方案中所确定的对象更准确,进而使图像结构化结果更准确。
根据本发明的一个实施例,图像中的像素的归属类型可以用对应的张量来表示。该张量称为归属张量。归属张量的长和宽也分别与图像的长和宽相等。对于每一个特定归属类型,归属张量中的数值表示图像中的、该数值所对应的像素属于该特定归属类型的置信度。
在第二操作中,基于上述第二层次神经网络,根据步骤S220所获得的特征张量以及第一操作中所检测的像素的归属类型分析图像中的像素的属性。像素的属性可以指示像素所属的对象的属性。对象的属性例如包括行人的性别、年龄、衣着、衣着颜色、头发颜色等,车辆的颜色等。上述示例中,像素A的属性可以指示行人的下身穿着为裙子等。像素的属性与像素所属的对象有密切的相关性,例如属性为指示车辆的颜色的像素只可能是属于车辆的像素,而属性为指示行人的性别的像素只可能是属于行人的像素。具体地,对于上述第一操作中所检测的像素的归属类型为车辆的像素,像素的属性可以指示该像素所属的车辆是红色的。对于上述第一操作中所检测的像素的归属类型为行人的像素,像素的属性可以指示该像素所属的行人的性别、年龄、衣着、衣着颜色以及头发颜色等。
根据本发明的一个实施例,图像中的像素的属性也可以用张量来表示。可以将该张量称为属性张量。属性张量的长和宽也分别与图像的长和宽相等。对于每一个特定属性类型,例如,行人的年龄,属性张量中的数值表示图像中的、该数值所对应的像素的属性。
可以理解,在上述第二层次神经网络中,根据所分析的属性可以包括分类器和/或回归器。例如,对于行人的性别,第二层次神经网络中可以包括分类器。对于行人的年龄,第二层次神经网络中可以包括回归器。
在步骤S260中,根据图像中的像素的属性和该像素所属的特定对象确定该特定对象的属性。对于任一特定对象来说,例如上述示例中的行人甲,根据属于该特定对象的所有像素的属性可以确定该特定对象的属性。
根据本发明的一个实施例,对于特定对象的某特定属性,例如行人甲的年龄,可以针对属于该行人甲的所有像素的关于对象年龄的属性值(例如,表示头发颜色的像素的属性值、表示眼角皱纹的像素的属性值等),计算其平均值,以作为该特定对象的属性。
上述图像结构化方法200中,基于第一神经网络提取的图像的特征,利用第二神经网络同时获得关于对象位置和对象属性的信息,由此,能够在检测对象的同时,确定对象的属性。从而,避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。特别地,对于拍摄环境非常拥挤,边框不能很好地表示检测对象的位置的情况,避免了使用边框来分析对象属性所引入的错误信息。这提高了图像结构化分析的准确性。
图4示出了根据本发明另一实施例的图像结构化方法400的示意性流程图。与图像结构化方法300类似的,图像结构化方法400也涉及第一神经网络和第二神经网络,并且第二神经网络包括第一层次神经网络和第二层次神经网络。但是,图像结构化方法400所涉及的第一层次神经网络包括第一子神经网络层和第二子神经网络层。本领域普通技术人员可以理解,第一子神经网络层和第二子神经网络层仅是为描述方便而为第一层次神经网络中的部分神经网络层所起的名字,其并不意味着这两者仅包含一层神经网络。如图4所示,图像结构化方法400包括步骤S420、步骤S441至步骤S444和步骤S460。其中步骤S420和步骤S460分别与图像结构化方法200中的步骤S220和步骤S260类似,为了简洁,不再赘述。
步骤S441至步骤S444共同对应步骤S240,其均由第二神经网络执行的操作来实现。
具体地,步骤S441和步骤S443共同对应步骤S240中的操作:根据特征张量检测图像中的像素的归属类型。在步骤S441中,基于第二神经网络的第一层次神经网络的第一子神经网络层,根据特征张量检测图像中的像素所属的对象。在步骤S443中,基于第二神经网络的第一层次神经网络的第二子神经网络层,根据特征张量以及图像中的像素所属的对象,确定图像中的像素所属的对象的部位。对于行人对象,其部位例如包括头、上身、下身、鞋子、背包、提包、拉杆箱和雨伞等。对于车辆对象,其部位例如包括车身、车窗和车牌等。也就是说,把行人和车辆等对象进一步细分为不同的部位。在步骤S443中,将图像中的像素划分到不同的部位中。可以理解,只有在步骤S441中被检测为行人的像素,其关于行人各部位的分类才是有意义的。这类像素可能被确定为属于头、上身、下身、鞋子、背包、提包、拉杆箱和雨伞等。对于属于车辆的像素也是类似。上述步骤S441的具体实现方式已经在上述关于步骤S240的描述中进行了详细阐述,为了简洁,不再赘述。步骤S443的实现与步骤S441的实现类似。只是步骤S443所涉及的第二子神经网络层的输入数据除了包括特征张量,还包括表示图像中的像素所属的对象的数据,例如用第一归属张量所表示。由此步骤S443可以获得第二归属张量,其中的数值表示图像中的、该数值所对应的像素属于某对象部位的置信度。
步骤S443的存在使得图像结构化方法400能够提供关于对象的更详细的信息,提高了用户体验。
上述第一子神经网络层和第二子神经网络层中的至少一个可以包括至少一个分类器。由此,能够顺利且准确地检测图像中的像素的归属类型,例如对象或对象的部位。
在步骤S442中,基于第一子神经网络层,计算图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素点所属的特定对象。该步骤的具体实现方式已经在上述关于步骤S240的描述中进行了详细阐述,为了简洁,不再赘述。第一子神经网络层可以包括至少一个回归器,以更准确地根据上述距离确定像素点所述的特定对象。
如图4所示,图像结构化方法400还可以包括步骤S444,其对应于上述图像结构化方法200中步骤S240的第二操作。在步骤S444中,分析图像中的像素的属性不仅根据特征张量,还根据图像中的像素所属的对象的部位。像素的属性与像素所在的对象的部位有密切的相关性。例如行人的上衣的颜色只与属于上身的像素有关,而性别与属于头部的像素关系最密切,但也与属于上身和下身的像素有关。
该步骤S444的具体实现可以由第二神经网络的第二层次神经网络来完成。在该实施例中,将第一神经网络所获得的特征张量和第二神经网络的第一层次神经网络在步骤S443所获得的表示图像中的像素所属的对象的部位的第二归属张量一并输入到第二层次神经网络。由此,利用第二层次神经网络分析图像中的像素的属性。
在步骤S444分析图像中的像素的属性过程中,考虑到像素所属的对象的不同部位对像素属性的影响,可以更准确地分析图像中像素的属性,从而为图像结构化的对象属性分析奠定较好基础。
图5示出了根据本发明一个实施例的图像结构化方法400的步骤S420至步骤S444所涉及的神经网络的示意图。本领域普通技术人员结合上述描述,能够理解该神经网络的结构和实现。
可选地,基于上述第二神经网络还执行如下操作:基于第二神经网络的第二子神经网络层,计算图像中的像素与在步骤S443中所确定的、其所属的对象的部位的中心点之间的距离。该操作与上述步骤S240和步骤S442的操作类似,为了简洁,不再赘述。该操作可以由上述第二子神经网络层来实现。第二子神经网络层可以包括至少一个回归器,以更准确地计算上述距离。
计算了图像中的像素与其所属的对象的部位的中心点之间的距离之后,图像结构化方法还可以包括:根据图像中的像素与其所属的部位中心点之间的该距离,计算部位中心点的坐标并对多个部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。通过聚类方法,对于图像中的像素,可以更准确地获得其所属的部位的信息。该信息能够帮助检测对象,具体地,例如对步骤S441所确定的、像素所属的对象进行校准。该信息还能够提供给用户,以使其获得更多内容,从而提高用户体验。
图6示出了根据本发明一个实施例的图像结构化方法400的步骤S460的示意性流程图。如图6所示,该步骤S460包括步骤S461和步骤S462。
在步骤S461中,对于特定对象内的各个部位,根据待确定的特定对象的属性和各个部位的相关性,分别确定各个部位对应的属性权重。
步骤S460的主要目的在于确定特定对象的某一特定属性,例如行人的性别、年龄、上衣的颜色等。特定对象的特定属性通常与特定对象的各个部位有密切的相关性。例如行人的上衣的颜色一般只与属于上身的像素有关,行人的性别与属于头部的像素相关性最高,但也与属于上身和下身的像素有较低的相关性。可以根据该相关性确定各个部位对应的属性权重。在本发明一个实施例中,对于特定对象的任意部位,该部位的属性权重可以用于属于该部位的所有像素。
在步骤S462中,将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
在步骤S461中确定了针对特定对象的特定属性、各个部位所对应的属性权重。对于属于该特定对象的某一像素来说,例如,前面所述示例中的属于行人甲的像素A,可以按照该像素所属部位对应的属性权重,确定该像素的权重。然后,根据所有像素各自的属性值和权重做加权平均计算,从而获得特定对象的属性。
根据本发明的一个实施例,可以利用神经网络来实现步骤S462。在本文描述中,称该神经网络为权重网络。权重网络的参数可以构成一个矩阵,矩阵的每个元素a_ij表示对象的第i个部位对判断属性j的重要性,即前文所述属性与部位的相关性。换言之,矩阵的每个元素a_ij可以作为对象的第i个部位中的像素对于属性j的权重。对于特定对象(例如行人甲)的任意属性(例如年龄)来说,利用表示对象的各个部位对该属性的权重网络,把同属于该特定对象的所有像素的属性与它们分别所属的部位对应的属性权重做加权平均运算,可以得到整个特定对象的属性信息。
可以理解,对于利用权重网络来计算特定对象的实施例,可以利用上述权重网络的训练过程来实现步骤S461。这样,可以在保证所确定的各个部位对应的属性权重的准确性的同时,避免工程师人为主观确定该属性权重的误差并节约工程师的精力。
通过对对象的不同部位的像素的属性赋予不同的属性权重并根据该属性权重对各个像素的属性进行加权平均,综合考虑了不同部位的像素对于整个对象的属性的影响,从而可以获得对象的更为准确的属性值。
可选地,在图像结构化方法中还可以包括利用训练图像和对应的标注内容训练前述第一神经网络和/或第二神经网络。
如前所述,第一神经网络可以是卷积神经网络。下面以卷积神经网络来描述该第一神经网络的训练过程。首先,接收训练图像。训练图像是其中已经标注了的特征的图像。然后,利用所接收的训练图像训练初始神经网络,以获得上述卷积神经网络。初始神经网络的参数可以进行随机初始化,也可以利用之前已经训练好的网络进行初始化,例如VGG,GoogleLeNet等。对于这些训练好的网络,可以选取其中的某些部分作为本发明的卷积神经网络的一部分,也可以固定其中的一部分参数不参与训练。卷积神经网络中的每个卷积单元的参数可以在训练过程中通过反向传播算法优化得到。
第二神经网络的训练过程与上述第一神经网络的训练过程类似。第二神经网络的训练图像中标注了感兴趣对象、感兴趣对象的中心点、感兴趣对象的各个部位和图像中像素的属性。为了简洁,不再详细描述第二神经网络的训练过程。
利用了训练的方式来获得第一神经网络和/或第二神经网络。这可以获得可靠性和实用性更强的神经网络,由此保证图像结构化的准确性。
根据本发明另一方面,还提供了一种图像结构化装置。图7示出了根据本发明一个实施例的图像结构化装置700的示意性框图。如图7所示,图像结构化装置700包括特征提取模块720、像素分析模块740和属性确定模块760。
特征提取模块720用于基于第一神经网络提取图像的特征。所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等。特征提取模块720可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S220和步骤S420。
可选地,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
可选地,特征提取模块720包括特征提取单元和尺寸变换单元。特征提取单元用于基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量。尺寸变换单元用于根据所述图像的长和宽,相应地改变特征提取单元所获得的初始张量的长和宽,以获得所述特征张量。
像素分析模块740用于基于第二神经网络执行操作。其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络。像素分析模块740包括像素归属分析单元和像素属性分析单元。
像素归属分析单元用于基于所述第一层次神经网络,根据特征提取模块720所提取的特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象。其中,所述归属类型包括所述所属的对象。
可选地,所述对象包括感兴趣对象和背景,所述像素归属分析单元可以仅对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
像素属性分析单元用于基于所述第二层次神经网络,根据特征提取模块720所提取的特征张量以及像素归属分析单元所分析的、图像中的像素的归属类型分析所述图像中的像素的属性。
像素分析模块740可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S240。
属性确定模块760用于根据像素属性分析单元所分析的、图像中的像素的属性和像素归属分析单元确定的、图像中的像素所属的特定对象确定所述特定对象的属性。属性确定模块760可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S260和步骤S460。
上述图像结构化装置700能够在检测对象的同时,确定对象的属性。从而,避免了在检测对象和确定对象属性这两个环节中都引入额外的误差。特别地,对于拍摄环境非常拥挤,边框不能很好地表示检测对象的位置的情况,避免了使用边框来分析对象属性所引入的错误信息。这提高了图像结构化分析的准确性。
图8示出了根据本发明一个实施例的像素归属分析单元的示意性框图。可选地,上述第一层次神经网络包括第一子神经网络层和第二子神经网络层。如图8所示,所述像素归属分析单元可以包括第一子单元741和第二子单元743。
第一子单元741用于基于所述第一子神经网络层,根据特征提取模块720所提取的特征张量检测所述图像中的像素所属的对象。第一子单元741可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S441。
可选地,像素归属分析单元还可以包括对象中心点确定子单元和聚类子单元。对象中心点确定子单元用于根据第一层次神经网络所计算的、所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标。对象中心点确定子单元可以执行根据本发明实施例的上述图像结构化方法中的步骤S311。聚类子单元用于对对象中心点确定子单元所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。聚类子单元可以执行根据本发明实施例的上述图像结构化方法中的步骤S312。
第二子单元743用于基于所述第二子神经网络层,根据特征提取模块720所提取的特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。第二子单元743可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S443。
可选地,上述像素归属分析单元还包括第三子单元,用于基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离。所述像素归属分析单元还可以包括部位确定子单元,用于根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。部位确定子单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
可选地,所述像素属性分析单元分析所述图像中的像素的属性是根据所述特征张量以及所述图像中的像素所属的对象的部位。
可选地,所述属性确定模块760包括权重确定单元和属性计算单元。
权重确定单元用于对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重。权重确定单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S461。
属性计算单元用于将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。属性计算单元可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的步骤S462。
可选地,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
可选地,上述图像结构化装置还包括训练模块,用于利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。训练模块可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现,并且可以执行根据本发明实施例的上述图像结构化方法中的训练步骤。
本领域普通技术人员通过阅读上文关于图像结构化方法的详细描述,能够理解上述图像结构化装置的结构、实现以及优点,因此这里不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
图9示出了根据本发明一个实施例的图像结构化设备900的示意性框图。如图9所示,图像结构化设备900包括输入装置910、存储装置920、处理器930以及输出装置940。
所述输入装置910用于接收用户所输入的操作指令以及采集数据。输入装置910可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。
所述存储装置920存储用于实现根据本发明实施例的图像结构化方法中的相应步骤的程序代码。
所述处理器930用于运行所述存储装置920中存储的程序代码,以执行根据本发明实施例的图像结构化方法的相应步骤,并且用于实现根据本发明实施例的图像结构化装置中的特征提取模块720、像素分析模块740和属性确定模块760。
在一个实施例中,在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行以下步骤:
基于第一神经网络提取图像的特征,其中所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等;
基于第二神经网络执行如下操作,其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络:
基于所述第一层次神经网络,根据所述特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象,其中,所述归属类型包括所述所属的对象;
基于所述第二层次神经网络,根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性;以及
根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性。
示例性地,所述第一层次神经网络包括第一子神经网络层和第二子神经网络层。在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行根据所述特征张量检测所述图像中的像素的归属类型的步骤包括:
基于所述第一子神经网络层,根据所述特征张量检测所述图像中的像素所属的对象;以及
基于所述第二子神经网络层,根据所述特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。
示例性地,在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性的步骤包括:
根据所述特征张量以及所述图像中的像素所属的对象的部位分析所述图像中的像素的属性。
示例性地,在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性的步骤包括:
对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重;以及
将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
示例性地,基于所述第二神经网络还执行如下操作:
基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离;以及
根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。
示例性地,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
示例性地,在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的根据所述图像中的像素与其所属的对象的中心点之间的距离确定所述图像中的像素所属的特定对象的步骤包括:
根据所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标;以及
对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。
示例性地,所述对象包括感兴趣对象和背景,在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的所述计算所述图像中的像素与其所属的对象的中心点之间的距离的步骤包括:
对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
示例性地,在所述程序代码被所述处理器930运行时使所述图像结构化设备900执行的所述基于第一神经网络提取图像的特征的步骤包括:
基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量;以及
根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。
示例性地,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
示例性地,在所述程序代码被所述处理器930运行时还使所述图像结构化设备900执行以下步骤:
利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的图像结构化方法的相应步骤,并且用于实现根据本发明实施例的图像结构化装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令被计算机或处理器运行时,使得所述计算机或处理器执行以下步骤:
基于第一神经网络提取图像的特征,其中所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等;
基于第二神经网络执行如下操作,其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络:
基于所述第一层次神经网络,根据所述特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象,其中,所述归属类型包括所述所属的对象;
基于所述第二层次神经网络,根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性;以及
根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性。
示例性地,所述第一层次神经网络包括第一子神经网络层和第二子神经网络层。在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的根据所述特征张量检测所述图像中的像素的归属类型的步骤包括:
基于所述第一子神经网络层,根据所述特征张量检测所述图像中的像素所属的对象;以及
基于所述第二子神经网络层,根据所述特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。
示例性地,在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性的步骤包括:
根据所述特征张量以及所述图像中的像素所属的对象的部位分析所述图像中的像素的属性。
示例性地,在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性的步骤包括:
对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重;以及
将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
示例性地,基于所述第二神经网络还执行如下操作:
基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离;以及
根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。
示例性地,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
示例性地,在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的所述根据所述图像中的像素与其所属的对象的中心点之间的距离确定所述图像中的像素所属的特定对象的步骤包括:
根据所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标;以及
对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。
示例性地,所述对象包括感兴趣对象和背景。在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的所述计算所述图像中的像素与其所属的对象的中心点之间的距离的步骤包括:
对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
在所述计算机程序指令被所述计算机或处理器运行时使计算机或处理器执行的所述基于第一神经网络提取图像的特征的步骤包括:
基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量;以及
根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。
示例性地,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
示例性地,所述计算机程序指令在被计算机或处理器运行时还使得所述计算机或处理器执行以下步骤:
利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。
根据本发明实施例的图像结构化设备中的各模块可以通过根据本发明实施例的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机或处理器运行时实现。
根据本发明实施例的图像结构化方法及装置、图像结构化设备以及存储介质,避免了在图像结构化的检测对象和确定对象属性这两个环节中都引入额外的误差。特别地,对于拍摄环境非常拥挤,边框不能很好地表示检测对象的位置的情况,避免了使用边框来分析对象属性所引入的错误信息。这提高了图像结构化分析的准确性。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像结构化装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (22)

1.一种图像结构化方法,包括:
基于第一神经网络提取图像的特征,其中所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等;
基于第二神经网络同时执行如下操作,其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络:
基于所述第一层次神经网络,根据所述特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象,其中,所述归属类型包括所述所属的对象;以及
基于所述第二层次神经网络,根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性;以及
根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性。
2.如权利要求1所述的方法,其中,所述第一层次神经网络包括第一子神经网络层和第二子神经网络层,所述根据所述特征张量检测所述图像中的像素的归属类型包括:
基于所述第一子神经网络层,根据所述特征张量检测所述图像中的像素所属的对象;以及
基于所述第二子神经网络层,根据所述特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。
3.如权利要求2所述的方法,其中,所述根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性包括:
根据所述特征张量以及所述图像中的像素所属的对象的部位分析所述图像中的像素的属性。
4.如权利要求2所述的方法,其中,所述根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性包括:
对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重;以及
将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
5.如权利要求2至4中任一项所述的方法,其中,基于所述第二神经网络还执行如下操作:
基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离;以及
根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。
6.如权利要求2至4中任一项所述的方法,其中,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
7.如权利要求1所述的方法,其中,所述根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象包括:
根据所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标;以及
对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。
8.如权利要求1至4任一项所述的方法,其中,所述对象包括感兴趣对象和背景,所述计算所述图像中的像素与其所属的对象的中心点之间的距离包括:
对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
9.如权利要求1至4任一项所述的方法,其中,所述基于第一神经网络提取图像的特征包括:
基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量;以及
根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。
10.如权利要求1至4任一项所述的方法,其中,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
11.如权利要求1至4任一项所述的方法,其中,所述方法还包括:
利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。
12.一种图像结构化装置,包括:
特征提取模块,用于基于第一神经网络提取图像的特征,其中所述特征用特征张量表示,所述特征张量的长和宽分别和所述图像的长和宽相等;
像素分析模块,用于基于第二神经网络执行操作,其中,所述第二神经网络包括第一层次神经网络和第二层次神经网络,所述像素分析模块包括:
像素归属分析单元,用于基于所述第一层次神经网络,根据所述特征张量检测所述图像中的像素的归属类型并且计算所述图像中的像素与其所属的对象的中心点之间的距离,并根据所述图像中的像素与其所属的对象的中心点之间的距离,确定所述图像中的像素所属的特定对象,其中,所述归属类型包括所述所属的对象;
像素属性分析单元,用于基于所述第二层次神经网络,根据所述特征张量以及所述图像中的像素的归属类型分析所述图像中的像素的属性;以及
属性确定模块,用于根据所述图像中的像素的属性和所述图像中的像素所属的特定对象确定所述特定对象的属性;
其中,所述像素归属分析单元和所述像素属性分析单元同时执行操作。
13.如权利要求12所述的装置,其中,所述第一层次神经网络包括第一子神经网络层和第二子神经网络层,所述像素归属分析单元包括:
第一子单元,用于基于所述第一子神经网络层,根据所述特征张量检测所述图像中的像素所属的对象;以及
第二子单元,用于基于所述第二子神经网络层,根据所述特征张量以及所述图像中的像素所属的对象,确定所述图像中的像素所属的对象的部位。
14.如权利要求13所述的装置,其中,所述像素属性分析单元根据所述特征张量以及所述图像中的像素所属的对象的部位分析所述图像中的像素的属性。
15.如权利要求13所述的装置,其中,所述属性确定模块包括:
权重确定单元,用于对于特定对象内的各个部位,根据待确定的所述特定对象的属性和所述各个部位的相关性,分别确定所述各个部位对应的属性权重;以及
属性计算单元,用于将属于该特定对象的像素的属性按照该像素所属的部位对应的属性权重进行加权平均,以计算该特定对象的属性。
16.如权利要求13至15中任一项所述的装置,其中,所述像素归属分析单元还包括:
第三子单元,用于基于所述第二子神经网络层,计算所述图像中的像素与其所属的对象的部位的中心点之间的距离;以及
部位确定子单元,用于根据所述图像中的像素与其所属的对象的部位的中心点之间的距离,计算部位中心点的坐标并对多个所述部位中心点的坐标进行聚类,以根据聚类结果提供附加信息。
17.如权利要求13至15中任一项所述的装置,其中,所述第一子神经网络层、第二子神经网络层和第二层次神经网络中的至少一个包括至少一个分类器和/或至少一个回归器。
18.如权利要求12所述的装置,其中,所述像素归属分析单元包括:
对象中心点确定子单元,用于根据所述图像中的像素与其所属的对象的中心点之间的距离,计算对象中心点的坐标;以及
聚类子单元,用于对所计算的对象中心点的坐标进行聚类,以确定所述图像中的像素所属的特定对象。
19.如权利要求12至15任一项所述的装置,其中,所述对象包括感兴趣对象和背景,所述像素归属分析单元对于所述图像中的像素属于感兴趣对象的情况,计算所述像素与其所属的感兴趣对象的中心点之间的距离。
20.如权利要求12至15任一项所述的装置,其中,所述特征提取模块包括:
特征提取单元,用于基于所述第一神经网络,对所述图像进行卷积和池化,以获得表示所述图像的初始张量;以及
尺寸变换单元,用于根据所述图像的长和宽,相应地改变所述初始张量的长和宽,以获得所述特征张量。
21.如权利要求12至15任一项所述的装置,其中,所述特征是热力图,所述热力图的像素值表示该像素属于特定对象类型的置信度。
22.如权利要求12至15任一项所述的装置,其中,所述装置还包括:训练模块,用于利用训练图像和对应的标注内容训练所述第一神经网络和/或所述第二神经网络。
CN201610859311.2A 2016-09-28 2016-09-28 图像结构化方法及装置 Active CN106651973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610859311.2A CN106651973B (zh) 2016-09-28 2016-09-28 图像结构化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610859311.2A CN106651973B (zh) 2016-09-28 2016-09-28 图像结构化方法及装置

Publications (2)

Publication Number Publication Date
CN106651973A CN106651973A (zh) 2017-05-10
CN106651973B true CN106651973B (zh) 2020-10-02

Family

ID=58853392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610859311.2A Active CN106651973B (zh) 2016-09-28 2016-09-28 图像结构化方法及装置

Country Status (1)

Country Link
CN (1) CN106651973B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875456B (zh) * 2017-05-12 2022-02-18 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
CN108875763A (zh) * 2017-05-17 2018-11-23 北京旷视科技有限公司 目标检测方法和目标检测装置
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质
CN107784282B (zh) * 2017-10-24 2020-04-03 北京旷视科技有限公司 对象属性的识别方法、装置及系统
CN107909580A (zh) * 2017-11-01 2018-04-13 深圳市深网视界科技有限公司 一种行人衣着颜色识别方法、电子设备及存储介质
CN107992819B (zh) * 2017-11-29 2020-07-10 青岛海信网络科技股份有限公司 一种车辆属性结构化特征的确定方法与装置
CN111615702B (zh) * 2018-12-07 2023-10-17 华为云计算技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN111914809B (zh) * 2020-08-19 2024-07-12 腾讯科技(深圳)有限公司 目标对象定位方法、图像处理方法、装置和计算机设备
CN113095211B (zh) * 2021-04-08 2023-08-25 第六镜科技(成都)有限公司 一种图像处理方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992142A (zh) * 2015-06-03 2015-10-21 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN105631415A (zh) * 2015-12-25 2016-06-01 中通服公众信息产业股份有限公司 一种基于卷积神经网络的视频行人识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992142A (zh) * 2015-06-03 2015-10-21 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN105631415A (zh) * 2015-12-25 2016-06-01 中通服公众信息产业股份有限公司 一种基于卷积神经网络的视频行人识别方法

Also Published As

Publication number Publication date
CN106651973A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106651973B (zh) 图像结构化方法及装置
CN106529511B (zh) 图像结构化方法及装置
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN107784282B (zh) 对象属性的识别方法、装置及系统
Verma et al. Wild animal detection using deep convolutional neural network
CN107633204A (zh) 人脸遮挡检测方法、装置及存储介质
Ahmad et al. Convolutional neural network–based person tracking using overhead views
CN112651292A (zh) 基于视频的人体动作识别方法、装置、介质及电子设备
Liciotti et al. People detection and tracking from an RGB-D camera in top-view configuration: review of challenges and applications
CN110991261A (zh) 交互行为识别方法、装置、计算机设备和存储介质
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
Choudhury et al. Improved pedestrian detection using motion segmentation and silhouette orientation
US9697433B1 (en) Pixel-structural reference image feature extraction
Jiang et al. Towards a solid solution of real-time fire and flame detection
JP2023176023A (ja) 分散型データ分析のためのシステムおよび方法
CN113516113A (zh) 一种图像内容识别方法、装置、设备及存储介质
KR20220098312A (ko) 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
US10592687B2 (en) Method and system of enforcing privacy policies for mobile sensory devices
Khan et al. Egocentric visual scene description based on human-object interaction and deep spatial relations among objects
KR20210130953A (ko) 딥러닝 기반 가상 이미지 생성방법 및 시스템
CN108875501B (zh) 人体属性识别方法、装置、系统及存储介质
CN107563257B (zh) 视频理解方法及装置
Palanisamy et al. An efficient hand gesture recognition based on optimal deep embedded hybrid convolutional neural network‐long short term memory network model
Zhang et al. Human action recognition using salient region detection in complex scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant after: MEGVII INC.

Applicant after: Beijing maigewei Technology Co., Ltd.

Address before: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant before: MEGVII INC.

Applicant before: Beijing aperture Science and Technology Ltd.

GR01 Patent grant
GR01 Patent grant