CN112784669A - 对象重新识别的方法 - Google Patents

对象重新识别的方法 Download PDF

Info

Publication number
CN112784669A
CN112784669A CN202011144403.5A CN202011144403A CN112784669A CN 112784669 A CN112784669 A CN 112784669A CN 202011144403 A CN202011144403 A CN 202011144403A CN 112784669 A CN112784669 A CN 112784669A
Authority
CN
China
Prior art keywords
images
vector
input
anatomical features
input vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011144403.5A
Other languages
English (en)
Inventor
马库斯·斯堪斯
克利斯汀·科利安德
马丁·尔永奎斯特
维列·贝特沙尔特
尼克拉·丹尼尔松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Axis AB
Original Assignee
Axis AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Axis AB filed Critical Axis AB
Publication of CN112784669A publication Critical patent/CN112784669A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了对象重新识别的方法,具体公开了一种对象的图像中的对象重新识别的方法。该方法包括:提供用于对象重新识别的多个神经网络(27),其中多个神经网络中的每一个在具有解剖特征的不同组的图像数据上被训练,每个组由参考矢量表示;接收对象(38)的多个图像(4)和表示在多个图像(4)中的全部中被描绘的解剖特征的输入矢量;将输入矢量与参考矢量进行比较,以根据预定义条件确定最相似的参考矢量;并且将多个对象(38)的图像数据输入到由最相似的参考矢量表示的神经网络(#1),以确定多个对象(38)是否具有相同的身份。

Description

对象重新识别的方法
技术领域
本发明涉及借助于神经网络的对象重新识别的领域。
背景技术
对象重新识别技术已被广泛研究并被用于例如识别和跟踪相关数字图像中的对象。
众所周知,人类可以轻松地识别并且关联图像中相同身份的对象,即使当对象变得被不同程度地遮挡或者甚至短时间或长时间地从场景中消失。对象的外观还可以根据视角和随时间而变化。然而,对象的重新识别对于计算机视觉系统来说是具有挑战性的,尤其是在对象变得被遮挡(即不完全可见)或者从场景中完全消失并且稍后在相同的场景中或在另一场景中出现的场景中。
例如,一个挑战是在对象已经离开场景并进入由另一摄像机监视的相同的场景或另一场景时恢复对对象的跟踪。如果跟踪算法不能恢复跟踪,则对象将被识别为新的、不同的对象,这可以干扰用于视频分析的其它算法。
存在使用神经网络以辅助重新识别的建议。然而,需要提供用于重新识别图像和视频中的对象的改进的方法和装置。
发明内容
本发明旨在提供一种借助于神经网络的重新识别的方法。如以上所提到的,使用神经网络进行重新识别带来了可能的缺点。例如,在完整身体结构的图像上被训练的神经网络可能无法重新识别图像帧中的人,在该图像帧中只有身体结构的上身部分是可见的。还已经表明,神经网络难以基于示出对象的不同量的图像(例如在图像中的一些中示出上身的图像和在图像中的一些中示出全身的图像)来成功地执行重新识别。例如,在监视其中人们正在进入场景(显示全身)、坐下(显示上身)以及离开该场景(再次显示全身,但是可能以不同的角度)的场景时,可能就是这样的情况。
因此,发明人已经认识到,对象重新识别存在的一个缺点是难以根据显示对象的不同量的图像来重新识别对象。已经发现例如对于人类对象这是个问题。
本发明的目的是消除或至少减少用于对象(特别是用于人类对象)的目前已知的对象重新识别方法的这个和其它缺点。
根据第一方面,这些和其它目的全部或至少部分地通过对象的图像中的对象重新识别的方法来实现,该方法包括:
·提供用于对象重新识别的多个神经网络,其中该多个神经网络中的每一个在具有解剖特征的不同组的图像数据上被训练,每个组由参考矢量表示,
·接收对象的多个图像以及表示在多个图像中的全部中被描绘的解剖特征的输入矢量,
·将输入矢量与参考矢量进行比较,以根据预定义条件确定最相似的参考矢量,
·将多个对象的图像数据输入到由最相似的参考矢量表示的神经网络,以确定多个对象是否具有相同的身份。相同的身份意味着在多个图像中成像的多个对象实际上是被多次成像的相同的对象。
本发明基于这样的认识,即当输入图像数据包括不同程度可见的对象时,在对象重新识别上被训练的已知的神经网络可能难以很好地执行。换句话说,当输入数据的对象在输入图像数据的图像中被或多或少地遮挡时,重新识别常常失败。发明人已经提出了在参考数据上训练不同的神经网络的解决方案,该参考数据相对于所描绘的对象的量是均匀的。换句话说,不同的神经网络已经在针对对象类型的解剖特征的不同组上被训练。根据要基于其执行重新识别的图像数据,合适的神经网络被选择。具体地,在具有满足预定义条件的一组解剖特征的数据上被训练的神经网络被选择。预定义条件是一种相似性条件,其定义了被比较的矢量所具有的相似性程度。在选择神经网络之前,图像数据的输入矢量被确定。输入矢量表示在图像数据的所有图像中被描绘的解剖特征。将该输入矢量与神经网络的参考矢量进行比较,其中每个参考矢量表示其相应的神经网络的参考数据的解剖特征。通过将该解决方案作为预先步骤添加到将图像数据输入到用于重新识别的神经网络中,重新识别的性能被改善,而不需要例如用于估计未描绘的对象部分的复杂的算法。通过使用用于确定在多个图像中的全部中被描绘的解剖特征的已知算法以及通过参考用于重新识别的已知的神经网络结构来实施本发明的解决方案是相对不复杂的。
该对象是可以通过图像分析来重新识别的类型。这意味着该对象类型的个体或个体组可以基于外观而彼此分离。对象类型的每个个体不需要相对于该对象类型的所有其它个体来说是唯一可识别的。为使本发明的方法有益,在一些个体或个体组之间存在差异就足够了。
对象类型可以是人类。在这样的实施例中,该方法针对人类对象的重新识别。对象类型的其它非限制性示例是车辆、动物、行李对象(诸如手提箱、背包、手提包和其它类型的包)和包裹(包括信件)。该方法可以被扩展为对诸如建筑物和地理标志的更大的对象执行重新识别,只要它们可以通过如以上定义的图像分析来重新识别。
解剖特征在本申请的上下文中指的是对象的不同的独特部分。对于人体,解剖特征包括例如鼻、眼、肘、颈、膝、脚、肩和手。一个部分可以在不同的对象之间具有不同的外观。例如,穿鞋或不穿鞋的脚或者穿着不同样式的鞋的脚,虽然具有不同的外观,但是仍然被认为是相同的解剖特征。对于车辆,解剖特征包括例如窗框、车轮、尾灯、侧镜和天窗。独特部分意味着解剖特征彼此不重叠。例如,人体的手臂包括不同的独特解剖特征,例如肩、上臂、肘、前臂、腕部和手背。解剖特征可以被看作对应于对象上的不同的物理点,其中解剖特征以围绕相应点的对象部分来表示。
输入矢量/参考矢量是指表示解剖特征的输入值/参考值的表示矢量。根据解剖特征被如何确定并且因此被表示(例如由关键点),输入矢量/参考矢量可以具有不同的形式。因此,该表示可以在不同的实现方式之间不同,这是可以由本领域技术人员基于现有知识处理的已知的事实。作为示例,输入矢量/参考矢量可以具有带有数值的一维矢量的形式。输入矢量/参考矢量可以是具有二进制值的矢量,其中矢量中的每个位置表示解剖特征。例如,矢量中的特定位置中的1可以指示相应的解剖特征是被检测到的/可见的,而0可以指示相应的解剖特征是未被检测到的/不可见的。
输入矢量可以是边缘矢量(表示对象的边缘)、轮廓矢量(表示对象的轮廓)或表示人类对象的关键点的关键点矢量。众所周知,关键点常用于对象检测和处理图像数据。通过使用神经网络可以找到对象的关键点。关键点可以表示解剖特征。
对象的边缘或轮廓提供了在图像数据中表示对象的替代方式。如何在给定的图像数据中确定对象的所描绘的边缘或轮廓是众所周知的,例如通过已知的Sobel、Prewitt和Laplacian方法。边缘和轮廓可以通过使用为此目的设计和训练的神经网络来确定。根据边缘或轮廓,解剖特征可以被确定。
预定义条件可以定义将等于输入矢量的参考矢量确定为最相似的参考矢量。换句话说,在本实施例中,最相似的参考矢量是等于输入矢量的参考矢量。然后,与该参考矢量相关联的相应的神经网络应被用于重新识别。在该实施例中,所选择的神经网络在图像上被训练,该图像包括与输入图像数据(即,多个图像中)中的所有图像所包括的解剖特征相同的解剖特征。
预定义条件可以定义从参考矢量中将与输入矢量具有最大重叠的参考矢量确定为最相似的参考矢量。对应于这种参考矢量的神经网络在具有全部表示在多个图像中的解剖特征的图像数据上被训练。该实施例可以形成先前所公开的实施例的第二选择。也就是说,该方法可以首先尝试找到与输入矢量相等的参考矢量,并且在不成功时,选择与训练矢量具有最大重叠的参考矢量。还可以包括其它条件,例如输入矢量需要满足稍后将披露的特定质量条件。
如果存在多于一个满足相似性条件(等于或具有相同的重叠量)的参考矢量,则预定义条件可以包括进一步的选择标准。例如,由输入矢量表示的一些解剖特征可以比其它解剖特征对重新识别具有更大的影响,并且然后表示一个或多个重要的解剖特征的参考矢量在其它参考矢量之前被选择。另一个示例是在满足选择标准的其它标准的参考矢量中选择输入矢量与参考矢量之间的最大匹配子集。
预定义条件可以定义从参考矢量中确定包括最大数量的与输入矢量重叠的由优先级列表定义的解剖特征的参考矢量。换句话说,将输入矢量与参考矢量进行比较,以找到与被包括在优先级列表中的一组解剖特征具有最大重叠的参考矢量。优先级列表被预先定义,并且可以列出已知会增加成功的重新识别的机会的解剖特征。这样的解剖特征可以包括眼、鼻、口、肩等。优先级列表在不同的应用之间可以不同,并且可以与神经网络的配置相关或与对神经网络的性能的反馈相关。例如,如果确定神经网络对包括肩的图像数据的图像执行得特别好,则该解剖特征被添加到优先级列表。因此基于反馈的优先级列表的动态更新可以被实现。
该方法可以进一步包括:
·参考预设的质量条件评估输入矢量,
·当满足预设的质量条件时,执行将输入矢量与输入图像数据进行比较的步骤,并且
·当不满足预设的质量条件时,丢弃多个图像中的至少一个图像,基于多个图像确定新的输入矢量作为输入矢量,并且从评估输入矢量的步骤迭代该方法。
该实施例增加了方法的质量保证。即使使用所建议的方法,其中用于重新识别的适当的神经网络被选择,输入数据的低质量也会降低神经网络的性能。通过确保输入数据具有一定的质量,可以保持最低的性能水平。预设的质量条件可以是例如最小矢量尺寸。
输入矢量相对于预设的质量条件的评估可以包括将输入矢量与解剖特征的预定义列表进行比较的动作,来自该预定义列表的至少一个解剖特征应被表示在输入矢量中。
如果不满足该条件,则该方法可以包括丢弃多个图像中的一个或多个的进一步的动作并基于减少的多个图像迭代该方法。可以基于其内容来选择被丢弃的图像。例如,不包括预定义列表中的解剖特征中的任何一个的图像可以被丢弃。该丢弃步骤可以在评估输入矢量之前执行,以使得该方法更快。
多个图像可以由一个摄像机在多个时间点捕获。多个图像因此形成描绘场景的图像序列。在另一实施例中,多个图像可以由从不同角度覆盖相同的场景的多个摄像机捕获。多个图像因此形成多个图像序列。在又一实施例中,多个图像可以由描绘不同的场景的多个相机捕获,这也产生多个图像序列。
在这些场景中的每一个中执行重新识别都可能是有意思的,然而重新识别的目的和应用可以不同。重新识别可以例如辅助被更普遍地应用于监视单个场景而不是不同的场景的对象跟踪算法。在这样的实施例中,重新识别的目的可以是在人已经被遮挡之后减轻对人的重新跟踪。
在另一种情况下,摄像机从不同的角度监视相同的场景。可以在相同的时间点拍摄多个图像。重新识别的目的可以是连接包括相同的对象但是由不同的摄像机获取的图像。
在具有不同的场景的情况中,每个场景由摄像机监视,可以从不同的摄像机收集多个图像。在这种情况下,重新识别的目的可以是长期跟踪,其中人离开一个场景并且可能在几分钟、几小时或者甚至几天之后出现在另一个场景中。场景可以例如是城市的不同部分,并且重新识别的目的可以是跟踪被通缉的人或车辆。
输入多个图像的图像数据可以包括输入仅表示在多个图像中的全部中被描绘的解剖特征的图像数据。在该实施例中,该方法可以包括在将图像数据输入到所选择的神经网络的步骤之前,基于在多个图像中的全部中被描绘的解剖特征过滤多个图像的图像数据的动作。
作为接收多个图像的步骤的一部分,该方法可以进一步包括:
·由一个或多个摄像机获取该多个图像,
·确定在多个图像中的全部中被描绘的解剖特征,并且
·确定表示所确定的解剖特征的输入矢量。
换句话说,该方法可以包括形成多个图像的初始过程。根据该实施例,多个图像可以由除执行该方法的主要部分(即,输入矢量与参考矢量的比较,以确定神经网络)的处理器之外的另一处理器来准备。或者,该准备可以在同一处理单元内进行。初始过程的结果(是输入矢量和多个图像)可以在要执行后续的方法步骤的处理单元内被发送或被发送到要执行后续的方法步骤的处理单元。
在该方法中接收多个图像的步骤可以包括:
·由一个或多个摄像机捕获图像,并且
·基于预定的帧距离、时间间隙、图像锐度、描绘的对象的姿态、分辨率、区域的纵横比和平面旋转来选择不同的图像以形成多个图像。
换句话说,作为确定适当的神经网络的主要方法的初始步骤,是重新识别的适当的候选者的图像可以被过滤出。过滤的目的可以是选择可能具有相同的对象的图像,和/或可以很好地在其上执行该方法的图像。
根据第二方面,由非暂时性计算机可读记录介质来完全或至少部分地实现以上提到的目的和其它目的,该非暂时性计算机可读记录介质上记录有计算机可读程序代码,该计算机可读程序代码当在具有处理能力的设备上执行时被配置为执行以上公开的方法中的任意一种方法。
根据第二方面,由用于控制视频处理单元以便于对象重新识别的控制器来完全或至少部分地实现以上提到的目的和其它目的。控制器可以访问用于对象重新识别的多个神经网络,其中多个神经网络中的每一个在具有解剖特征的不同组的图像数据上被训练,每个组由参考矢量表示。控制器包括:
·接收器,被配置为接收人类对象的多个图像和表示在多个图像中的全部中被描绘的解剖特征的输入矢量,
·比较部件,适于将输入矢量与参考矢量进行比较,以根据预定义条件确定最相似的参考矢量,
·确定部件,被配置为将多个对象的图像数据输入到由最相似的参考矢量表示的神经网络,以确定多个人类对象是否具有相同的身份,以及
·控制部件,被配置为控制视频处理单元是否将多个对象视为具有相同的身份。
第三方面的图像处理单元通常可以以与第一方面的方法相同的方式来实现,并具有伴随的优点。
根据下面给出的详细描述,本发明的进一步的应用范围将变得显而易见。然而,应理解,虽然指示了本发明的优选实施例,但详细描述和具体示例仅仅是以例示的方式给出的,因为根据本详细描述在本发明的范围内的各种变化和修改对于本领域技术人员来说将变得显而易见。
因此,应理解,本发明不限于所描述的设备的特定部件部分或所描述的方法的步骤,因为这种设备和方法可以变化。还应理解,本文中所用的术语仅出于描述特定实施例的目的,而非旨在限制。必须注意,如在说明书和所附权利要求中所使用的,冠词“一”、“该”和“所述”旨在表示存在元件中的一个或多个,除非上下文另有明确规定。因此,例如,对“一对象”或“所述对象”的引用可以包括若干对象等。此外,词语“包括”不排除其它元件或步骤。
附图说明
现在将通过示例并参考附图更详细地描述本发明,在附图中:
图1图示了示出对象重新识别方法的不同实施例的流程图。
图2提供了方法的总体概述。
图3图示了图像序列。
图4图示了从图3的图像序列中选择的多个图像。
图5图示了从场景的不同角度捕获的一对图像。
图6图示了从不同的图像序列中选择的多个图像。
具体实施方式
首先参考图1和图2公开方法的概述。将参考图1的所选择的步骤,而稍后将公开其它步骤。该方法的目的是基于由一个或多个摄像机捕获的图像来重新识别对象。如前面所讨论的,重新识别的目的可因应用而异。
相应地,该方法包括由至少一个摄像机20捕获图像22的步骤S102。摄像机20监视场景21。在该实施例中,人类形式的对象出现在场景中并且被摄像机20成像。图像22由处理单元23处理,处理单元23可以位于摄像机20中或者作为与摄像机20有线或无线连接的独立单元。处理单元23通过对象检测器24检测S104图像22中的对象。这可以由公知的对象检测算法执行。该算法可以被配置为检测特定类型的对象,例如人类对象。
然后,从图像22中选择多个图像的步骤S105可以被执行。或者,步骤S105可以在检测图像22中的对象的步骤S104之前被执行。稍后将公开选择步骤S105的细节。
基于多个图像,由处理单元23,更精确地说由特征提取器26,来确定解剖特征。解剖特征的确定可以通过执行众所周知的图像分析算法来进行。例如,被称为“OpenPose”的系统(被公开在由Cao等人所著的“OpenPose:使用部分关联域的实时多人2D姿态估计”(OpenPose:Realtime Multi-Person 2D Pose Estimation using Part AffinityFields)中)可以被使用。OpenPose是能够在单个图像上检测身体和手部关键点的实时系统。
根据应用的图像分析技术,所确定的解剖特征可以被不同地表示。表示的示例是通过关键点(例如,以关键点矢量的形式)、通过边缘(例如,以边缘矢量的形式)或通过轮廓(例如,以轮廓矢量的形式)。
接下来,处理单元23分析多个图像和/或所确定的解剖特征的表示,并确定S108表示解剖特征的输入矢量,该解剖特征在多个图像中的全部中被表示。
评估S109输入矢量和丢弃S111一个或多个图像的可选步骤将在后面详细披露。
进入本发明构思的核心,在输入矢量被确定之后,将输入矢量与表示训练数据的参考矢量进行比较S112,神经网络#1、#2、#4、#3、#5的组29已经在该训练数据上被训练。神经网络被提供S110给处理单元23,意味着它们可以由处理单元23使用。它们可以是单独的神经网络的形式,或者是包括在单个神经网络结构27中的神经网络的形式,其中不同的神经网络由神经网络结构中的不同的连接或路径形成。神经网络已经在不同的训练数据(由不同的参考矢量表示)上被训练。参考矢量以能够与输入矢量进行比较的格式被提供。例如,输入矢量和参考矢量两者可以是关键点矢量的形式。或者,输入矢量可以是关键点矢量,而参考矢量可以是对象界标矢量或骨架图像,对于对象界标矢量或骨架图像,可以以直接的方式执行到关键点矢量格式的转换。
比较S112由处理单元23的比较器28执行。比较S112的目的是找到与输入矢量最相似的参考矢量。相似的含义由预定义条件定义。这种条件的示例将在后面详细披露。基于比较的结果,神经网络(在图示的示例中为#1)被选择。因此,在具有与由输入矢量表示的解剖特征最相似的解剖特征的图像数据上被训练的神经网络被选择。来自多个图像的图像数据中的全部或所选择的部分被输入S116到所选择的神经网络(#1)。
由处理单元23接收S118来自所选择的神经网络的结果。在其它实施例中,重新识别的结果可以被发送到诸如单独的控制单元的其它单元。处理单元23可以可替代地形成控制单元或控制器(未图示)的一部分。
然而,在这个示例中,处理单元23从神经网络(#1)接收S118结果。本质上,结果提供关于多个图像的对象是否具有相同的身份的信息。处理单元23使用该信息来控制摄像机20。例如,该信息可以由摄像机20使用,用于在对象已经被遮挡之后继续跟踪该对象。
在一个实施例中,该方法进一步包括为每个检测到的对象确定姿态。例如,可以基于诸如关键点的解剖特征为人类对象确定姿态。所确定的姿态可以被包括在输入矢量中。在这样的实施例中,参考矢量进一步包括与网络已经在其上被训练的图像数据中的对象的姿态相对应的姿态数据。该特征可以进一步辅助选择适合于当前的输入矢量的用于重新识别的神经网络。
处理单元23的功能可以被实施为硬件、软件或其组合。
在硬件实施中,处理单元的部件(例如,对象检测器24、特征提取器26和比较器28)可以对应于专用的和专门设计为提供部件的功能的电路。该电路可以是一个或多个集成电路的形式,诸如一个或多个专用集成电路或者一个或多个现场可编程门阵列。
在软件实施中,该电路可替代地是诸如微处理器的处理器的形式,该处理器与存储在(非暂时性的)计算机可读介质(诸如非易失性存储器)上的计算机代码指令相关联,使处理单元23执行本文中所公开的任何方法(的一部分)。非易失性存储器的示例包括只读存储器、闪存、铁电RAM、磁性计算机存储设备和光盘等。在软件情况下,处理单元23的部件因此可各自对应于存储在计算机可读介质上的当由处理器执行时使处理单元23执行部件的功能的计算机代码指令的一部分。
将理解,还可以具有硬件实施和软件实施的组合,意味着处理单元23中的部件中的一些的功能以硬件实施,而其它部件以软件实施。
更详细地,现在将进一步参考图3和图4披露该方法。图3图示了由监视场景的单个监视摄像机获取的图像序列。图像序列包括数字图像31-36并且按时间顺序组织。该图像序列对事件过程进行成像,在该事件过程中,当卡车37忽略让路时,人38将要穿过道路39上的人行横道,这(不必说)激怒了在继续穿过道路39之前必须突然移动到旁边的人38。当卡车37驾驶路过人38时,从摄像机的角度来看,后者被卡车37遮挡。在遮挡之后,试图跟踪人38的跟踪算法将可能无法继续跟踪人38。相反,在遮挡之后,人38将被检测为具有新身份的新对象。重新识别可以有助于纠正这种缺陷。
根据该方法,从图3中的图像序列中选择S105图4中所图示的多个图像4,即图像31、32和34。这些图像31、32、34可以基于不同的选择标准来选择。例如,描绘一个或多个对象的图像可以被选择。用于选择一组图像中的将形成多个图像的哪些图像的选择标准的其它非限制性示例包括:
·预定的帧距离,例如每第90帧。
·时间间隙,例如每第5秒。
·图像锐度,其可以通过为每个图像确定锐度并选择具有最佳锐度的图像来确定。可以为整个图像或为图像的所选择的区域(例如对象位于或可能位于的地方)确定锐度。
·检测到的对象的姿态,该姿态可以通过查看检测到的对象的关键点、边缘或轮廓来确定。带有具有特定姿态或具有类似姿态的对象的图像可以被选择。
·分辨率,可以为整个图像或所选择的区域确定分辨率。具有最佳分辨率的图像被选择。
·对象区域的纵横比,其中该区域可对应于边界框。纵横比提供关于对象尺寸的信息。不同的纵横比可以适用于不同的应用。
接着,对多个图像4执行对象检测。在这个示例中,检测每个图像31、32、34中的一个对象。该方法的目的是确定这些对象是否具有相同的身份。多个图像中的检测到的对象的一组共同的解剖特征被确定,即在多个图像4中的全部中被描绘的解剖特征。该组共同的解剖特征可以通过确定关键点来确定,并且由输入矢量表示。如以上所披露的,然后将输入矢量与参考矢量进行比较S112,该参考矢量与可以被用于多个图像4中的检测到的对象的重新识别的可用神经网络相关联。
在根据先前的公开已经选择S114合适的神经网络之后,将来自多个图像4的图像数据输入到所选择的神经网络。在一个实施例中,仅表示在多个图像4中的全部中被描绘的解剖特征的图像数据被输入。换句话说,多个图像4的表示未在多个图像4中的全部中被描绘的解剖特征的图像数据不被输入到神经网络。实现图像数据的这种选择的一种方式是将图像31、32、34裁剪成包括所有图像的解剖特征并排除所有其它解剖特征的图像区域41、42、44。裁剪图像41、42、44被输入到所选择的神经网络以进行处理。
通过这种基于解剖特征分析多个图像4并选择在与多个图像4的解剖特征相匹配的图像数据上被训练的神经网络的方法,增加了在多个图像4中将人38重新识别为具有相同的身份的成功机会。
前进到另一个实施例,该方法的进一步的步骤是,在将输入矢量与参考矢量进行比较S112之前,评估S109输入矢量。这是一种输入矢量的质量保证,目的是保持重新识别的成功率的最低水平。该目的是过滤掉多个图像4的可以导致来自神经网络的不良结果的图像。该评估可以包括参考预设的质量条件来评估输入矢量。预设的质量条件可以定义输入矢量需要表示解剖特征的预定义列表中的至少一个解剖特征。预定义列表的内容可以取决于所提供的神经网络,具体地,该神经网络已经在哪个参考数据上被训练。例如,如果可用的神经网络已经在具有解剖特征(是肩、上臂、肘、前臂和手背)的不同组的参考数据上被训练,则输入矢量可能需要表示肘和手的解剖特征中的一个,以使多个图像有资格在重新识别中使用。
如果满足预设的质量条件,则该方法通过将输入矢量与参考矢量进行比较而在步骤S112处继续。如果不满足预设的质量条件,则该方法可以包括从多个图像4中丢弃一个或多个图像的步骤S111。
质量条件的第一示例是输入矢量应在其中具有最小量的解剖特征。
质量条件的第二示例是输入矢量应具有来自预定义列表的预定数量的解剖特征。预定义列表可以与神经网络在其上被训练的解剖特征相关,以避免处理具有神经网络在其上未被充分地训练的解剖特征的多个图像。
质量条件的第三示例是根据输入矢量的解剖特征计算的姿态应满足某个条件。例如,姿态应对应于该解剖特征的相关联的身体部分的正常姿态(在人类对象的情况下)。这种质量条件的目的是降低在输入矢量中的解剖特征针对其已经被不正确地估计/确定的图像上执行该方法的风险。
一个或多个图像的丢弃S111可以包括选择要丢弃哪个或哪些图像。该选择可以基于图像的解剖特征。例如,如果第一图像缺少在多个图像4的所有其它图像中存在的一个或多个解剖特征,则该第一图像可以被丢弃。在图示的示例中,第一图像可以是缺少其余图像31、32描绘的第二只眼睛的解剖特征的图像34。因此图像34可以被丢弃,并且该方法可以从现在仅基于更新后的多个图像4的图像31和32来确定解剖特征的步骤S106再次开始。
应注意,在本文中图示和讨论的图像序列和多个图像是作为简化的示例提供的,并且适于容易地理解本发明构思。实际上,图像序列和多个图像包括更多的图像。通常,在一个或多个图像中检测到一个以上的对象。该方法可以包括为多个图像中的图像选择一个对象以执行该方法。此外,该方法可以适于将多个图像中的一个图像的对象与多个图像中的其它图像的对象进行比较。
图5图示了包括第一图像51和第二图像52的由监视先前所描述的相同的场景的不同摄像机捕获的多个图像5的示例,其中人38将要穿过卡车37正在其上行驶的道路39。在该示例中,该方法可以实现评估在图像51、52中所描绘的对象38是否具有相同的身份的目的。图像51、52可以在相同的时间点被捕获。
图6图示了由监视不同场景的不同摄像机捕获的多个图像6。形成第一图像序列的上面三个图像61、62、63对应于来自图3的图像的选择。形成第二图像序列的下面三个图像64、65、66描绘了两个不同的对象38、68。当然,该方法事先不知道图像的对象是否具有相同的身份,例如如果图像64的对象68与图像63的对象38是相同的人。解决这个问题是该方法的实际目的。
根据该方法,对象38、68在多个图像6中被检测。在本实施例中,多个图像已经根据时间距离从图像序列中被选择,即,在多个图像6的每个图像序列中的图像中的每个之间存在预定的时间间隙。该方法可以包括评估所选择的多个图像6并丢弃针对其没有对象被检测到的图像的进一步的步骤。在该示例中,图像62被丢弃。对象38、68在现在形成多个图像6的其余图像61、63、64、65、66中被检测到。如以上所提到的,该方法可以包括为了重新识别的目的而为图像选择要与其它图像的对象进行比较的对象的进一步的步骤。图像61的对象38可以被选择以与图像64的对象68、图像65的对象38和图像66的对象68进行比较。该方法可以同时在图像61、64、65、66的组上执行,并且如果合适的话可以选择丢弃S111一个或多个图像。或者,该方法可以在图像61、64、65、66的组的图像对上执行。例如,首先在图像对61、64上执行,聚焦在图像61的对象38和图像64的对象68上。这种重新识别将可能导致负面结果,即图像61中的对象38不具有与图像64的对象68相同的身份。接下来,可以将图像61与图像65进行比较,聚焦在两个图像的对象38上。这种重新识别将可能导致正面结果,即图像61中的对象38具有与图像65的对象38相同的身份。或者,图像61可以再次与图像64进行比较,现在改为聚焦在图像64中的对象38上(而不是对象68)。这种重新识别将可能具有正面结果。
换句话说,可以迭代地执行该方法,其中在每次迭代中或在每次迭代之前更新多个图像。根据重新识别的目的,在一次迭代中处理不同数量的图像。不管有多少图像以及重新识别有什么目的,该方法依赖于从在解剖特征的不同组上被训练的多个网络中选择一个神经网络的发明构思,以基于描绘对象的多个图像执行重新识别任务。作为示例,应理解本发明不限于所示的实施例,并且在本发明的范围内可以想到若干修改和变型。
为了进一步帮助理解本发明,下面是所要求保护的方法的概述和具体示例。本发明的目的是减少对象重新识别的现有方法的缺点,即,难以基于示出对象的不同数量的解剖特征的图像来重新识别对象。例如,一些图像描绘全身对象,而其它图像仅描绘上身对象。这个缺点已经被发明人认识到,并且存在于例如人类对象中。发明人提出建立用于对象重新识别的若干个神经网络,其中每个网络在对象类的对象的解剖特征的不同配置上被训练。此外,发明人提出采用在与要分析的图像组中的图像中的全部中被描绘的解剖特征最相似的解剖特征配置上被训练的神经网络。
为了不使示例变得不必要地复杂,我们仅提供两个用于对象重新识别的神经网络。每个神经网络在具有解剖特征的不同组的图像数据上被训练。每组解剖特征由被称为参考矢量的关键点矢量表示。在这个示例中,关键点矢量是一维二进制矢量,其中矢量中的每个位置指示某个解剖特征。矢量位置值1意味着该位置的解剖特征是可见的,而值0意味着该解剖特征是不可见的。这样的关键点矢量的示例可以如下:
[a b c d e f]
矢量位置a-f指示以下解剖特征:
a:眼
b:鼻
c:口
d:肩
e:肘
f:手
例如,图像中的检测到的对象的关键点矢量[111001]意味着眼、鼻、口和手是可见的,而肩和肘是不可见的。
每个神经网络在具有解剖特征的不同组的图像数据上被训练。例如,第一神经网络在具有面部的图像数据上被训练,该具有面部的图像数据包括眼、鼻和口的第一组解剖特征。表示第一组解剖特征的第一参考矢量是[111000]。第二神经网络在具有下臂的图像数据上被训练,该具有下臂的图像数据包括肘和手的第二组解剖特征。表示第二组解剖特征的第二参考矢量是[000011]。
这两个神经网络可以被描述为被训练以基于输入图像数据中的不同的解剖特征来执行对象重新识别的神经网络。第一神经网络特别擅长基于描绘眼、鼻和口的图像执行对象重新识别,而第二神经网络特别擅长基于描绘肘和手的图像执行对象重新识别。
现在到输入矢量。这也是关键点矢量格式。输入矢量将与参考矢量进行比较以便找到最相似的参考矢量,并且因此找到用于对象重新识别的任务的最适当地训练过的神经网络。为了减轻比较,输入矢量的关键点矢量可以以与参考矢量相同的方式构造,即如上面的[a b c d e f]。然而,在不同格式的关键点矢量之间进行比较是本领域的技术人员使用常规方法容易解决的任务。例如,输入矢量可以具有另一尺寸(即,更多的或更少的矢量位置)和/或包括更多的或更少的解剖特征。只要清楚地定义了如何读出哪些解剖特征被检测到并且不是从关键点矢量读出,就可以进行比较。
然而,我们继续讨论低复杂度的示例,并且以与参考矢量的构造相同的关键点矢量[a b c d e f]的形式构造输入矢量。为了确定输入矢量,所接收的多个图像被分析以确定在它们中的每一个中哪些解剖特征被描绘。对于在多个图像中的全部中被表示的解剖特征,输入矢量中的相应矢量位置是1,并且因此指示解剖特征是可见的。对于没有在多个图像中的每个图像中被描绘的解剖特征,相应的输入矢量位置是0,即解剖特征被指示为不可见。假设我们得到输入矢量[011101],这意味着鼻、口、肩和手的解剖特征在多个图像中的每个图像中是可见的。
接下来,将输入矢量与参考矢量中的每一个进行比较,以根据预定义条件确定最相似的参考矢量。换句话说,将[011101]的输入矢量与[111000]和[000011]中的每一个进行比较。预定义条件可以例如是最大数量的重叠的解剖特征。与该预定义条件的比较的结果是第一参考矢量[111000]是与第一神经网络相关联的最相似的矢量。因此,第一神经网络被选择以基于多个图像执行对象重新识别,目的是确定在多个图像中所描绘的多个对象是否具有相同的身份。

Claims (12)

1.一种对象类型的对象的图像中的对象重新识别的方法,所述方法包括:
提供用于对象重新识别的多个神经网络,其中所述多个神经网络中的不同的神经网络已经在针对所述对象类型的解剖特征的不同组上被训练,并且其中每组解剖特征由关键点矢量形式的参考矢量表示,其中关键点表示所述解剖特征,
接收所述对象类型的对象的多个图像,
确定表示所述多个图像中的每一个中的所述对象类型的解剖特征的关键点,
确定表示在所述多个图像中的全部中被确定的解剖特征的输入矢量,其中所述输入矢量是表示所述解剖特征的关键点矢量的形式,
将所述输入矢量与所述参考矢量进行比较,以根据预定义条件确定最相似的参考矢量,并且
将所述多个对象的包括所述多个图像的图像数据中的全部或部分的图像数据输入到由所述最相似的参考矢量表示的所述神经网络(#1),以确定所述多个对象是否具有相同的身份。
2.根据权利要求1所述的方法,其中,所述对象类型是人类。
3.根据权利要求1所述的方法,其中,所述预定义条件定义了将等于所述输入矢量的参考矢量确定为所述最相似的参考矢量。
4.根据权利要求1所述的方法,其中,所述预定义条件定义了从所述参考矢量中将与所述输入矢量具有最大重叠的参考矢量确定为所述最相似的参考矢量。
5.根据权利要求1所述的方法,其中,所述预定义条件定义了从所述参考矢量中确定包括最大数量的与所述输入矢量重叠的由优先级列表定义的解剖特征的参考矢量。
6.根据权利要求1所述的方法,进一步包括:
参考预设的质量条件评估所述输入矢量,
当满足所述预设的质量条件时,执行将所述输入矢量与输入图像数据进行比较的步骤,并且
当不满足所述预设的质量条件时,丢弃所述多个图像中的至少一个图像,基于所述多个图像确定新的输入矢量作为所述输入矢量,并且从评估所述输入矢量的步骤迭代所述方法。
7.根据权利要求6所述的方法,其中,所述评估所述输入矢量包括:将所述输入矢量与解剖特征的预定义列表进行比较,来自所述预定义列表的至少一个解剖特征应被表示在所述输入矢量中。
8.根据权利要求1所述的方法,其中,所述多个图像由一个摄像机在多个时间点捕获、由从不同角度覆盖相同的场景的多个摄像机捕获或由描绘不同的场景的多个摄像机捕获。
9.根据权利要求1所述的方法,其中,所述多个图像的图像数据的所述输入包括:输入仅表示在所述多个图像中的全部中被描绘的所述解剖特征的图像数据。
10.根据权利要求1所述的方法,其中,接收所述多个图像的步骤包括:
由一个或多个摄像机捕获图像,并且
基于预定的帧距离、时间间隙、图像锐度、描绘的对象的姿态、分辨率、区域的纵横比和平面旋转来选择不同的图像以形成所述多个图像。
11.一种非暂时性计算机可读记录介质,所述非暂时性计算机可读记录介质上记录有计算机可读程序代码,所述计算机可读程序代码当在具有处理能力的设备上执行时被配置为执行权利要求1所述的方法。
12.一种用于控制视频处理单元以便于对象重新识别的控制器,所述控制器能够访问用于对象类型的对象的图像中的对象重新识别的多个神经网络,其中,所述多个神经网络中的不同的神经网络已经在针对所述对象类型的解剖特征的不同组上被训练,并且其中每组解剖特征由关键点矢量形式的参考矢量表示,其中关键点表示所述解剖特征,所述控制器包括:
接收器,被配置为接收所述对象类型的对象的多个图像;
确定部件,被配置为确定表示所述多个图像(4)中的每一个中的所述对象类型的解剖特征的关键点,并且被配置为确定表示在所述多个图像中的全部中被确定的解剖特征的输入矢量,其中所述输入矢量是表示所述解剖特征的关键点矢量的形式,
比较部件,适于将所述输入矢量与所述参考矢量进行比较,以根据预定义条件确定最相似的参考矢量,
输入部件,被配置为将所述多个对象的包括所述多个图像的图像数据中的全部或部分的图像数据输入到由所述最相似的参考矢量表示的所述神经网络,以确定所述多个对象是否具有相同的身份,以及
控制部件,被配置为控制所述视频处理单元是否将所述多个对象视为具有相同的身份。
CN202011144403.5A 2019-11-08 2020-10-23 对象重新识别的方法 Pending CN112784669A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19207906.9 2019-11-08
EP19207906.9A EP3819812B1 (en) 2019-11-08 2019-11-08 A method of object re-identification

Publications (1)

Publication Number Publication Date
CN112784669A true CN112784669A (zh) 2021-05-11

Family

ID=68501378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011144403.5A Pending CN112784669A (zh) 2019-11-08 2020-10-23 对象重新识别的方法

Country Status (4)

Country Link
US (1) US20210142149A1 (zh)
EP (1) EP3819812B1 (zh)
JP (1) JP7418315B2 (zh)
CN (1) CN112784669A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230011817A (ko) * 2021-07-14 2023-01-25 한국전자통신연구원 환경 매칭 기반 물체 인식 장치 및 방법
EP4198915A1 (fr) * 2021-12-16 2023-06-21 Bull SAS Procédé de ré-identification d'objet, dispositif et système de ré-identification d'objets mettant en uvre un tel procédé
US20230215519A1 (en) * 2022-01-05 2023-07-06 Merative Us L.P. Indexing of clinical background information for anatomical relevancy
JP7360115B1 (ja) 2022-04-13 2023-10-12 株式会社Ridge-i 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128398A (en) * 1995-01-31 2000-10-03 Miros Inc. System, method and application for the recognition, verification and similarity ranking of facial or other object patterns
US9613258B2 (en) * 2011-02-18 2017-04-04 Iomniscient Pty Ltd Image quality assessment
CN109918975B (zh) * 2017-12-13 2022-10-21 腾讯科技(深圳)有限公司 一种增强现实的处理方法、对象识别的方法及终端
JP2019109709A (ja) 2017-12-18 2019-07-04 株式会社東芝 画像処理装置、画像処理方法およびプログラム
US11429842B2 (en) * 2019-02-24 2022-08-30 Microsoft Technology Licensing, Llc Neural network for skeletons from input images

Also Published As

Publication number Publication date
JP7418315B2 (ja) 2024-01-19
EP3819812B1 (en) 2023-08-16
JP2021089717A (ja) 2021-06-10
EP3819812A1 (en) 2021-05-12
US20210142149A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
CN112784669A (zh) 对象重新识别的方法
US20220375262A1 (en) Object tracking and best shot detection system
Vishwakarma et al. Automatic detection of human fall in video
CN106557723B (zh) 一种带交互式活体检测的人脸身份认证系统及其方法
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
JP5675229B2 (ja) 画像処理装置及び画像処理方法
US7620216B2 (en) Method of tracking a human eye in a video image
CN109784130B (zh) 行人重识别方法及其装置和设备
Shoaib et al. View-invariant fall detection for elderly in real home environment
CN108171138B (zh) 一种生物特征信息获取方法和装置
CN110889334A (zh) 人员闯入识别方法及装置
CN110991348A (zh) 基于光流梯度幅值特征的人脸微表情检测方法
US10872268B2 (en) Information processing device, information processing program, and information processing method
US10521679B2 (en) Human detection device, human detection system, human detection method, and human detection program
JP2007300185A (ja) 画像監視装置
JP2007206898A (ja) 顔認証装置および入退場管理装置
US20220366570A1 (en) Object tracking device and object tracking method
CN112861588B (zh) 一种活体检测的方法、装置
Guan Robust eye detection from facial image based on multi-cue facial information
JP2020052788A (ja) 画像処理装置及びその方法、プログラム
JP5688514B2 (ja) 視線計測システム、方法およびプログラム
CN112580633A (zh) 一种公共交通客流统计装置及方法
US20240112496A1 (en) Image processing apparatus, authentication system, method, and non-transitory computer-readable storage medium
CN111696312B (zh) 乘员观察装置
EP3562394A1 (en) Respiratory signal extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination