CN112417970A - 目标对象识别方法、装置和电子系统 - Google Patents

目标对象识别方法、装置和电子系统 Download PDF

Info

Publication number
CN112417970A
CN112417970A CN202011143453.1A CN202011143453A CN112417970A CN 112417970 A CN112417970 A CN 112417970A CN 202011143453 A CN202011143453 A CN 202011143453A CN 112417970 A CN112417970 A CN 112417970A
Authority
CN
China
Prior art keywords
feature vector
detection frame
detection
target object
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011143453.1A
Other languages
English (en)
Inventor
陈军如
姚皓天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202011143453.1A priority Critical patent/CN112417970A/zh
Publication of CN112417970A publication Critical patent/CN112417970A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种目标对象识别方法、装置和电子系统,涉及图像处理技术领域,该方法包括:获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值;基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框;基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量;融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量;基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。本发明缓解了CNN网络提取到的特征泛化能力较差的问题,提升目标对象的检索准确率。

Description

目标对象识别方法、装置和电子系统
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种目标对象识别方法、装置和电子系统。
背景技术
行人重识别(ReID)技术,可应用于视频结构化,该技术在安防、智能交通等领域应用广泛。目前现有的行人ReID技术,通常采用以下方式进行行人检索:应用检测模型检测行人所在的位置,然后行人检测区域的图片送入CNN网络(即卷积神经网络)提取出待检索行人的特征向量,比对待检索行人的特征向量和检索库中行人图片的特征向量,选择与待检索行人向量相似的其它向量,并按照相似度进行排序,即可获得行人检索结果。
由于同一行人图片存在不同的拍摄角度、光照情况、行驶姿态等,这些不确定因素加大了CNN网络提取图片特征的难度,使得CNN网络提取到的特征缺乏泛化能力,进而影响后续的检索排序结果,检索准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种目标对象识别方法、装置和电子系统,以缓解CNN网络提取到的特征泛化能力较差的问题,提升目标对象的检索准确率。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种目标对象识别方法,该方法应用于电子设备,包括:获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值;基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框;基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量;其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量;融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量;基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值的步骤,包括:对待识别的视频帧序列中的视频帧进行目标对象检测,得到包含有目标对象的检测框;对每个检测框进行图像质量评分和跟踪特征向量提取,得到每个检测框的跟踪特征向量和图像质量分值;基于每个检测框的跟踪特征向量确定同一目标对象的检测框集合。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,对每个检测框进行图像质量评分和跟踪特征向量提取的步骤,包括:将每个检测框分别输入质量评分模型和第一卷积神经网络模型,得到每个检测框的图像质量评分和跟踪特征向量;其中,质量评分模型用于对输入的检测框进行图像质量评分;第一卷积神经网络模型用于对输入的检测框进行跟踪特征向量提取。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框的步骤,包括:基于每个检测框的图像质量分值大小对检测框集合中的检测框排序;基于排序选择第一检测框和第二检测框,其中,第一检测框的图像质量分值和第二检测框的图像质量分值均大于未被选中的检测框的图像质量分值。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,从检测框集合中选择第一检测框和第二检测框的步骤之后,方法还包括:将第一检测框输入第二卷积神经网络模型,得到第一检测框的第一检索特征向量;其中,第二卷积神经网络模型用于对输入的检测框进行检索特征向量提取。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量的步骤,包括:将第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量输入预先训练好的特征升级网络模型,得到第二检测框的第二检索特征向量;其中,特征升级网络模型是基于标注有对象标签的图像样本训练卷积神经网络模型得到的。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,特征升级网络模型的训练过程包括:将标注有对象标签的图像样本集合分别输入第三卷积神经网络模型和第四卷积神经网络模型,得到每个对象标签对应的跟踪特征向量和检索特征向量;其中,第三卷积神经网络模型用于对输入的图像样本进行跟踪特征向量提取,第四卷积神经网络模型用于对输入的图像样本进行检索特征向量提取;基于对象标签选择两个对象的多个图像样本对,其中,每一个图像样本对包含两个不同的对象,对于每一个图像样本对,均执行以下训练操作:将每个图像样本对中的第一图像样本的检索特征向量、跟踪特征向量和第二图像样本的跟踪特征向量均输入预设的卷积神经网络模型,得到输出向量;以第二图像样本的检索特征向量作为标准向量,计算卷积神经网络模型的输出向量与标准向量的损失值;基于损失值调整卷积神经网络模型的参数,继续执行训练操作,直至损失值收敛至预设阈值,将训练好的卷积神经网络模型作为特征升级网络模型。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量的步骤,包括:对第一检索特征向量和第二检索特征向量进行均值融合,得到同一目标对象的最优特征向量。
第二方面,本发明实施例提供一种目标对象识别装置,该装置应用于电子设备,包括:获取模块,用于获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值;检测框选择模块,用于基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框;向量确定模块,用于基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量;其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量;特征融合模块,用于融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量;识别模块,用于基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。
第三方面,本发明实施例提供一种电子系统,包括:图像采集设备、处理设备和存储装置。图像采集设备,用于获取待识别的视频帧序列;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如前述实施例中任一项所述的目标对象识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理设备运行时执行前述实施例中任一项所述的目标对象识别方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种目标对象识别方法、装置和电子系统,首先获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值,并基于每个检测框的图像质量分值从检测框集合中选择第一检测框和第二检测框,以及基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量(第一检索特征向量的维度大于第一跟踪特征向量,第二检索特征向量的维度大于第二跟踪特征向量),再融合第一检索特征向量和第二检索特征向量,得到该目标对象的最优特征向量,进而基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。上述识别方式中,能够基于图像质量分值选择出两个检测框,基于两个检测框的低维度的跟踪特征向量以及其中一个检测框的高维度的检索特征向量确定出另一个检测框的检索特征向量,而无需对两个检测框均直接获取检索特征向量,减少了计算高维度的检索特征向量的过程,且通过两个高维度的检索特征向量融合得到最优特征向量,其更具鲁棒性和表征能力,基于最优特征向量进行识别的结果相较于仅通过一个检索特征向量得到的识别结果更准确。
本发明实施例的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种电子系统的结构示意图;
图2为本发明实施例二提供的一种目标对象识别方法的流程图;
图3为本发明实施例三提供的一种目标对象识别方法的流程图;
图4为本发明实施例四提供的一种目标对象识别方法的流程图;
图5为本发明实施例四提供的网络模型的整体架构示意图;
图6为本发明实施例四提供的一种目标对象识别方法示意图;
图7为本发明实施例四提供的一种特征升级网络模型的训练过程示意图;
图8为本发明实施例五提供的一种目标对象识别装置的结构示意图;
图9为本发明实施例五提供的另一种目标对象识别装置的结构示意图;
图10为本发明实施例六提供的另一种目标对象识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前现有的行人ReID技术在行人检索过程中通过CNN网络提取到的特征缺乏泛化能力,进而影响后续的检索排序结果,检索准确率较低,基于此,本发明实施例提供的一种目标对象识别方法、装置以及系统,可以应用于行人或其它对象的ReID技术中,以提升目标对象的检索准确率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种目标对象识别方法进行详细介绍。
实施例一
首先,参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的一种目标对象识别方法和装置。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
处理设备102可以为服务器、智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行目标对象统计的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以获取待检测图像或视频帧序列,并且将采集到的图像或视频帧序列存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的一种目标对象识别方法,装置和电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例二
参照图2所示的一种目标对象识别方法的流程图,该方法可以应用于上述电子系统,主要包括如下步骤S202至步骤S210:
步骤S202,获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值。
上述视频帧序列可以是从图像采集设备接收到的视频,也可以是从网络或第三方得到的视频。目标对象可以是行人或者人体指定部位(例如人脸),也可以是车辆或车辆指定部位(例如车牌)等,根据实际应用需要,目标对象可以灵活设置,本发明实施例对此不进行限定。
每个目标对象的检测框集合均是该视频帧序列中各个视频帧对应的图像中包含该目标对象的区域的集合,这些区域以检测框的形式表示。以检测框为矩形框为例,该检测框可以用矩形框左上角和右下角的坐标表示。
每个检测框的图像质量分值用于表征该检测框的图像质量的高低,图像质量高,其检测框的图像质量分值高,相反图像质量低,其检测框的图像质量分值低。而图像质量通常由不同的拍摄角度、光照情况、目标对象的姿态等因素决定,每个检测框的图像质量分值可以通过预先训练的质量评分模型确定。
步骤S204,基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框。
其中,上述第一检测框和第二检测框可以是检测框集合中图像质量分值最高的两个检测框,也可以是从检测框集合中图像质量分值大于预先设定的质量阈值的多个检测框中随机选择的两个检测框。
步骤S206,基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量。其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量。
其中,第一检测框的第一检索特征向量可以通过目标检测网络模型得到,而第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量可以通过目标跟踪网络模型得到。上述目标检测网络模型和目标跟踪网络模型可以是预先训练好的神经网络模型。
上述检索特征向量的维度大于跟踪特征向量的维度,一般而言用于跟踪(mot)的特征向量(feature)称为跟踪特征向量,跟踪特征向量可以理解为检索特征向量(searchfeature)的简易版,因为做跟踪(mot)对实时性要求高,获取的跟踪特征向量性能相对较低,这样计算速度会比较快,满足实时性要求。
步骤S208,融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量。
上述融合可以基于实际需要具体选择合适的融合方式,例如,选择特征向量的平均融合或者加权融合等。
步骤S210,基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。
上述识别方法中,能够基于图像质量分值选择出两个检测框,基于两个检测框的低维度的跟踪特征向量以及其中一个检测框的高维度的检索特征向量确定出另一个检测框的检索特征向量,而无需对两个检测框均直接获取检索特征向量,减少了计算高维度的检索特征向量的过程,且通过两个高维度的检索特征向量融合得到最优特征向量,其更具鲁棒性和表征能力,基于最优特征向量进行识别的结果相较于仅通过一个检索特征向量得到的识别结果更准确。
实施例三
在上述实施例二的基础上,本发明实施例还提供了一种目标对象识别方法,为了提升目标对象的识别效率,本实施例的方法对上述步骤S202(即获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值)进行了优化,该步骤具体包括:(1)对待识别的视频帧序列中的视频帧进行目标对象检测,得到包含有目标对象的检测框;(2)对每个检测框进行图像质量评分和跟踪特征向量提取,得到每个检测框的跟踪特征向量和图像质量分值;(3)基于每个检测框的跟踪特征向量确定同一目标对象的检测框集合。通过这种处理方式,可以将同一目标对象的多个检测框组成检测框集合,为后续对该同一目标对象的识别提供准确的数据基础,保障了目标对象识别的准确度。
参见图3所示的目标对象识别方法的流程图,该方法主要包括如下步骤:
步骤S302,对待识别的视频帧序列中的视频帧进行目标对象检测,得到包含有目标对象的检测框。
在进行目标对象检测过程中,可采用深度学习目标的方法定位行人的位置信息,获取行为的位置坐标。以目标对象为行人为例,可采用摄像头或其他视频采集设备获取行人的一段视频,此时包含有行人的视频即为待识别的视频帧序列,视频中的行人即为要进行识别的目标对象。通过行人检测,可以得到每个视频帧中包括的行人所在区域(即检测框)的位置坐标。
步骤S304,将每个检测框分别输入质量评分模型(用于对输入的检测框进行图像质量评分)和第一卷积神经网络模型(用于对输入的检测框进行跟踪特征向量提取),得到每个检测框的图像质量评分和跟踪特征向量。
在对每个检测框进行图像质量评分时,通常的评分依据主要包括图像的完整度、对比度、亮度、清晰度等。当目标对象为行人时,可通过构建质量评分模型的方式获得每个检测框的图像质量分值,所述质量评分模型具体可用行人穿着、皮肤、性别等不同数据训练得到,之后将每个检测框输入到该质量评分模型中,通过模型输出与每个检测框对应的图像质量分值。
步骤S306,基于每个检测框的跟踪特征向量确定同一目标对象的检测框集合。
步骤S308,基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框。
本实施例中,可以基于图像质量分值从同一目标对象的检测框集合选择出两个图像质量分值比较高的检测框分别作为第一检测框和第二检测框。
步骤S310,将第一检测框输入第二卷积神经网络模型,得到第一检测框的第一检索特征向量;其中,第二卷积神经网络模型用于对输入的检测框进行检索特征向量提取。
步骤S312,基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量。其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量。
步骤S314,融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量。
上述融合可以基于实际需要具体选择合适的融合方式,例如,选择特征向量的均值融合或者加权融合等。
步骤S316,基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。
上述识别方法中,采用质量评分模型结合第一卷积神经网络模型的方式对检测框进行图像质量评分和低维度的跟踪特征向量的提取,能够基于图像质量分值从同一目标对象的检测框集合选择出两个图像质量分值比较高的检测框,基于选择出的两个检测框的低维度的跟踪特征向量以及其中一个检测框的高维度的检索特征向量确定出另一个检测框的检索特征向量,通过两个高维度的检索特征向量融合得到最优特征向量,其更具鲁棒性和表征能力,基于最优特征向量进行识别的结果相较于仅通过一个检索特征向量得到的识别结果更准确。
此外,由于最终行人识别的精确度依赖于选择的检测框的质量,一旦选择的检测框质量较差时便会使最终识别结果的精度大幅下降,相较于仅选择一个检测框的方式,上述识别方法在检测框选择阶段无需计算高维度的检索特征向量,能够在检测框选择阶段保证选择出的检测框的质量的前提下大大减小模型计算量,提高了选择检测框阶段的工作效率,且上述识别方法中选择的两个检测框都会对最终的识别结果做出贡献,降低了单一检测框对识别结果产生的影响,提高了识别过程的抗风险能力。
实施例四
在上述实施例二的基础上,本发明实施例还提供了一种目标对象识别方法,本实施例的方法主要对上述步骤S204(即基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框)进行了优化。参见图4所示的目标对象识别方法的流程图,该方法主要包括如下步骤:
步骤S402,对待识别的视频帧序列中的视频帧进行目标对象检测,得到包含有目标对象的检测框。
步骤S404,将每个检测框分别输入质量评分模型(用于对输入的检测框进行图像质量评分)和第一卷积神经网络模型(用于对输入的检测框进行跟踪特征向量提取),得到每个检测框的图像质量评分和跟踪特征向量。
步骤S406,基于每个检测框的跟踪特征向量确定同一目标对象的检测框集合。
步骤S408,基于每个检测框的图像质量分值大小对上述检测框集合中的检测框排序;基于该排序选择第一检测框和第二检测框。其中,第一检测框的图像质量分值和第二检测框的图像质量分值均大于未被选中的检测框的图像质量分值。
本实施例中,基于图像质量分值大小的排序可以是按照图像质量分值由大到小排序,也可以是按照图像质量分值由小到大排序。如果是按照图像质量分值由大到小排序,则选择排序最靠前的两个检测框分别作为第一检测框和第二检测框。如果是按照图像质量分值由小到大排序,则选择排序最靠后的两个检测框分别作为第一检测框和第二检测框。
步骤S410,将第一检测框输入第二卷积神经网络模型,得到第一检测框的第一检索特征向量;其中,第二卷积神经网络模型用于对输入的检测框进行检索特征向量提取。
步骤S412,基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量。其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量。
步骤S414,对第一检索特征向量和所述第二检索特征向量进行均值融合,得到同一目标对象的最优特征向量。
上述融合可以基于实际需要具体选择合适的融合方式,除了均值融合之外,也可以为加权融合等。
步骤S416,基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。
上述识别方法中,采用质量评分模型结合第一卷积神经网络模型的方式对检测框进行图像质量评分和低维度的跟踪特征向量的提取,能够基于图像质量分值从同一目标对象的检测框集合选择出两个图像质量分值最高的检测框,由于最终目标对象识别的精确度依赖于选择的检测框的质量,一旦选择的检测框质量较差时便会使最终识别结果的精度大幅下降,相较于仅选择一个检测框的方式,通过上述选择最优图像质量的检测框的方式,可以有效保障用于特征识别的检测框的质量是最好的,基于选择出的两个检测框的低维度的跟踪特征向量以及其中一个检测框的高维度的检索特征向量确定出另一个检测框的检索特征向量,通过两个高维度的检索特征向量融合得到最优特征向量,其更具鲁棒性和表征能力,基于最优特征向量进行识别的结果相较于仅通过一个检索特征向量得到的识别结果更准确。此外,上述识别方法在检测框选择阶段无需计算高维度的检索特征向量,能够在检测框选择阶段保证选择出的检测框的质量的前提下大大减小模型计算量,提高了选择检测框阶段的工作效率,且上述识别方法中选择的两个检测框都会对最终的识别结果做出贡献,降低了单一检测框对识别结果产生的影响,提高了识别过程的抗风险能力。
为了进一步提高目标对象识别结果的准确度,本实施例的方法对上述步骤S206(基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量。其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量)具体包括:将第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量输入预先训练好的特征升级网络模型,得到第二检测框的第二检索特征向量。其中,特征升级网络模型是基于标注有对象标签的图像样本训练卷积神经网络模型得到的。通过采用特征升级网络模型确定第二检测框的第二检索特征向量的方式,能够保证确定出的第二检测框的第二检索特征向量更准确且效率更高。
参见图5所示的网络模型的整体架构示意图,其中,该网络模型用于执行上述目标对象识别方法,其包括:目标对象检测模型、质量评分模型、第一卷积神经网络模型、跟踪模型、推图模型、第二卷积神经网络模型、特征升级网络模型、融合模型和目标对象匹配模型。参照图6所示的一种目标对象识别方法示意图,该方法在上述图5的模型基础上进行实现,其可以应用于行人重识别场景,执行该方法包括以下步骤:
(1)将待识别的视频帧集合输入目标对象检测模型获取各个目标对象检测框,各个目标对象检测框可以通过抠图方式得到。
(2)将各个目标对象检测框分别输入第一卷积神经网络模型和质量评分模型,得到第一卷积神经网络模型输出的各个目标对象检测框的跟踪特征向量,以及质量评分模型输出的各个目标对象检测框的图像质量分值。
(3)将第一卷积神经网络模型输出的各个目标对象检测框的跟踪特征向量输入跟踪模型,由跟踪模型基于各个目标对象检测框的跟踪特征向量确定出属于同一目标对象的检测框,为同一目标对象的检测框分配同一对象标识,以使不同对象的检测框相互区分。
(4)将同一目标对象的检测框和图像质量分值输入推图模型,推图模型基于该同一目标对象的行人检测框的图像质量分值选择两个目标对象检测框,这里选择两个图像质量分值最高的目标对象检测框,分别作为第一检测框和第二检测框。
当然上述过程也可以仅对一个目标对象进行检测,通过第一卷积神经网络模型将得到该目标对象的检测框集合,通过质量评分模型将得到该集合中各个检测框的图像质量分值,再将上述检测框集合中的检测框按照图像质量分值由大到小排序,如图6所示,本实施例中目标对象检测框集合共有8个检测框,每个检测框的分值分别为0.4、0.3、0.6、0.9、0.5、0.2、0.8、0.1。按照质量评分降序排序后,分值较高的0.9和0.8对应检测框即第一检测框和第二检测框,图6中分别用网格和斜线填充表示。
(5)将第一检测框输入第二卷积神经网络模型,得到第一检测框的第一检索特征向量;其中,第二卷积神经网络模型用于对输入的检测框进行检索特征向量提取。
(6)将第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量输入特征升级网络模型,得到第二检测框的第二检索特征向量。其中,第一检索特征向量的维度大于第一跟踪特征向量;第二检索特征向量的维度大于第二跟踪特征向量。
(7)将上述第一检索特征向量和上述第二检索特征向量输入融合模型,由融合模型融合第一检索特征向量和第二检索特征向量,得到上述同一目标对象的最优特征向量。
(8)上述同一目标对象的最优特征向量输入目标对象匹配模型,由目标对象匹配模型基于目标对象底库对最优特征向量进行匹配操作,得到上述同一目标对象的识别结果(该过程图6中未示意出)。
综上所述,本实施例提供的上述目标对象识别方法,基于每个检测框的图像质量分值,按图像质量分值降序的方式对检测框集合中的检测框进行排序,从检测框集合中选择图像质量分值排序分别为第一和第二的第一检测框和第二检测框,基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量,融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量,基于最优特征向量和目标对象底库确定同一目标对象的识别结果。本发明实施例在进行目标对象识别时,对两个优质检测框的图像特征进行特征融合,让最终提取到的目标对象的图像特征更具鲁棒性和表征能力,在综合了同一目标对象的多个检测框的图像特征的同时,只需计算一个检测框的高维度的检索特征向量,计算量较小。相比于仅提取同一目标对象单个检测框的图像特征的特征提取方式,本发明缓解了现有CNN提取特征的泛化能力较差的问题,兼顾提升了目标对象的识别效率和识别结果的准确率。
上述特征升级网络模型的训练过程可以参照如下步骤a1至步骤a2:
步骤a1,将标注有对象标签的图像样本集合分别输入第三卷积神经网络模型(用于对输入的图像样本进行跟踪特征向量提取)和第四卷积神经网络模型(用于对输入的图像样本进行检索特征向量提取),得到每个对象标签对应的跟踪特征向量和检索特征向量。
其中,对象标签(或称对象标识)是用于表征目标对象的唯一标签,不同目标对象对应设置有不同的对象标签,同一目标对象的对象标签相同。
步骤a2,基于对象标签选择两个对象的多个图像样本对,每个图像样本对包含两个不同的对象,对于每一个图像样本对,均执行以下训练操作:(1)将每个图像样本对中的第一图像样本的检索特征向量、跟踪特征向量和第二图像样本的跟踪特征向量均输入预设的卷积神经网络模型,得到输出向量;(2)以第二图像样本的检索特征向量作为标准向量,计算卷积神经网络模型的输出向量与标准向量的损失值;(3)基于损失值调整卷积神经网络模型的参数,继续执行训练操作,直至损失值收敛至预设阈值,将训练好的卷积神经网络模型作为特征升级网络模型。
下面以行人重识别应用场景为例,行人重识别场景中的行人即为待识别的目标对象,参见图7示出了一种特征升级网络模型的训练过程示意图,为了便于描述,在图中用模型A表示上述第三卷积神经网络模型、模型B表示上述第四卷积神经网络模型、模型C表示待训练的卷积神经网络模型。该训练过程具体包括以下步骤:
(1)获取标注有行人标签的图片(或图像)样本集,基于行人标签将两个身份不同的行人的图片配对,将配对后的图片分别输入模型A和模型B,分别提取跟踪特征向量和检索特征向量。
图7中,在P*K的图片样本集中,P表示有P个不同的行人,K表示每个行人有K张不同的图片。如果该行人拥有的总图片数大于K,则取K张各不相同的图,如果小于K,则做重复采样取K张。K的值一般为4,可根据实际需要自行调整。
其中,从图片样本集中随机选择两张不同行人的图片样本,为方便描述,将这两张图片样本分别记为k1和k2,将k1和k2输入模型A,模型A对输入的图片样本进行低维度的跟踪特征向量提取,得到k1和k2的跟踪特征向量。将k1和k2输入模型B,模型B对输入的图片样本进行高维度的检索特征向量提取,得到k1和k2的检索特征向量。
(2)将k1和k2的跟踪特征向量、k1的检索特征向量输入待训练的卷积神经网络模型,得到输出向量C;
(3)以k2的检索特征向量作为标准向量,计算卷积神经网络模型的输出向量C与标准向量的损失值,其中该损失值可以基于以下函数计算得到:l2 loss(l2损失函数),kdloss(kd损失函数)、triplet loss(三元组损失函数)、cosface函数或其他已有的loss函数。
(4)基于上述损失值调整卷积神经网络模型的参数,继续执行训练操作,直至损失值收敛至预设阈值,将训练好的卷积神经网络模型作为特征升级网络模型。
上述k1、k2是随机选取的;训练阶段假设知道输入的图片是张三,所以特征C就是张三的特征,训练过程中可以让李四的检索特征向量、李四的跟踪特征向量和张三的跟踪特征向量作为输入,获得张三的升级特征向量,即张三的特征C,训练过程让张三的特征C和张三的检索特征向量尽可能相似,上述损失值可以是张三的特征C和张三的检索特征向量通过l2_loss函数计算得到。
为了提升训练效果,本实施例引入了扰乱操作,在模型A和B输出的各个图片的跟踪特征向量和检索特征向量的基础上,进行图片扰乱(shuffle)操作。比如同一行人之前图片顺序时1234,扰乱操作后该行人的图片顺序变成4321;
具体地,可以调用shuffle函数将同一模型中的所有向量按随机顺序重新排列,防止训练过程中模型的抖动和过拟合,保证模型的泛化能力。具体地,调用shuffle函数分别对模型A和模型B输出的特征向量做同步shuffle。为方便描述,将第一行人的图片样本做shuffle处理后得到的特征向量记为特征A,将第二行人的图片样本做shuffle处理后得到的特征向量记为特征B。
基于上述特征A和特征B随机选择两个不同对象的特征向量进行后续训练操作,具体训练过程同上所述,这里不再赘述。
实施例五
对于实施例二中所提供的目标对象识别方法,本发明实施例提供了一种目标对象识别装置,参见图8所示的一种目标对象识别装置的结构示意图,该装置包括以下模块:
获取模块82,用于获取待识别的视频帧序列中同一目标对象的检测框集合和检测框集合中每个检测框的图像质量分值。
检测框选择模块84,用于基于每个检测框的图像质量分值,从检测框集合中选择第一检测框和第二检测框。
向量确定模块86,用于基于第一检测框的第一检索特征向量、第一检测框的第一跟踪特征向量和第二检测框的第二跟踪特征向量确定第二检测框的第二检索特征向量。其中,第一检索特征向量的维度大于第一跟踪特征向量,第二检索特征向量的维度大于第二跟踪特征向量。
特征融合模块88,用于融合第一检索特征向量和第二检索特征向量,得到同一目标对象的最优特征向量。
识别模块90,用于基于最优特征向量和预存的目标对象底库确定同一目标对象的识别结果。
本实施例提供的上述目标对象识别装置,能够基于图像质量分值选择出两个检测框,基于两个检测框的低维度的跟踪特征向量以及其中一个检测框的高维度的检索特征向量确定出另一个检测框的检索特征向量,而无需对两个检测框均直接获取检索特征向量,减少了计算高维度的检索特征向量的过程,且通过两个高维度的检索特征向量融合得到最优特征向量,其更具鲁棒性和表征能力,基于最优特征向量进行识别的结果相较于仅通过一个检索特征向量得到的识别结果更准确。
上述获取模块82还用于:对待识别的视频帧序列中的视频帧进行目标对象检测,得到包含有所述目标对象的检测框;对每个所述检测框进行图像质量评分和跟踪特征向量提取,得到每个所述检测框的跟踪特征向量和图像质量分值;基于每个所述检测框的跟踪特征向量确定同一目标对象的检测框集合。
上述获取模块82还用于:将每个所述检测框分别输入质量评分模型和第一卷积神经网络模型,得到每个所述检测框的图像质量评分和跟踪特征向量;其中,所述质量评分模型用于对输入的检测框进行图像质量评分;所述第一卷积神经网络模型用于对输入的检测框进行跟踪特征向量提取。
检测框选择模块84还用于:基于每个所述检测框的图像质量分值大小对所述检测框集合中的检测框排序;基于所述排序选择第一检测框和第二检测框,其中,所述第一检测框的图像质量分值和所述第二检测框的图像质量分值均大于未被选中的检测框的图像质量分值。
在上述图8的基础上,本实施例还提供了另一种目标对象识别装置,参见图9,上述装置还包括:向量提取模块92,用于将所述第一检测框输入第二卷积神经网络模型,得到所述第一检测框的第一检索特征向量;其中,所述第二卷积神经网络模型用于对输入的检测框进行检索特征向量提取。
向量确定模块86还用于:将所述第一检测框的第一检索特征向量、所述第一检测框的第一跟踪特征向量和所述第二检测框的第二跟踪特征向量输入预先训练好的特征升级网络模型,得到所述第二检测框的第二检索特征向量;其中,所述特征升级网络模型是基于标注有对象标签的图像样本训练卷积神经网络模型得到的。
参见图9,上述装置还包括模型训练模块94,用于训练特征升级网络模型,其训练过程包括:将标注有对象标签的图像样本集合分别输入第三卷积神经网络模型和第四卷积神经网络模型,得到每个所述对象标签对应的跟踪特征向量和检索特征向量;其中,所述第三卷积神经网络模型用于对输入的图像样本进行跟踪特征向量提取,所述第四卷积神经网络模型用于对输入的图像样本进行检索特征向量提取;基于所述对象标签选择两个对象的多个图像样本对,其中,每一个图像样本对包含两个不同的对象,对于每一个所述图像样本对,均执行以下训练操作:将每个所述图像样本对中的第一图像样本的检索特征向量、跟踪特征向量和第二图像样本的跟踪特征向量均输入预设的卷积神经网络模型,得到输出向量;以所述第二图像样本的检索特征向量作为标准向量,计算所述卷积神经网络模型的输出向量与所述标准向量的损失值;基于所述损失值调整所述卷积神经网络模型的参数,继续执行所述训练操作,直至所述损失值收敛至预设阈值,将训练好的所述卷积神经网络模型作为特征升级网络模型。
上述特征融合模块88还用于对所述第一检索特征向量和所述第二检索特征向量进行均值融合,得到所述同一目标对象的最优特征向量。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例六
参见图10的一种目标对象识别装置的结构示意图,本发明实施例还提供另一种目标对象识别装置200,包括:处理器10,存储器11,总线12和通信接口13,处理器10、通信接口13和存储器11通过总线12连接;处理器10用于执行存储器11中存储的可执行模块,例如计算机程序。
其中,存储器11可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口13(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线12可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器11用于存储程序,处理器10在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器10中,或者由处理器10实现。
处理器10可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器11,处理器10读取存储器11中的信息,结合其硬件完成上述方法的步骤。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的一种目标对象识别方法、装置和电子系统的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种目标对象识别方法,其特征在于,所述方法应用于电子设备,包括:
获取待识别的视频帧序列中同一目标对象的检测框集合和所述检测框集合中每个检测框的图像质量分值;
基于每个所述检测框的图像质量分值,从所述检测框集合中选择第一检测框和第二检测框;
基于所述第一检测框的第一检索特征向量、所述第一检测框的第一跟踪特征向量和所述第二检测框的第二跟踪特征向量确定所述第二检测框的第二检索特征向量;其中,所述第一检索特征向量的维度大于所述第一跟踪特征向量;所述第二检索特征向量的维度大于所述第二跟踪特征向量;
融合所述第一检索特征向量和所述第二检索特征向量,得到所述同一目标对象的最优特征向量;
基于所述最优特征向量和预存的目标对象底库确定所述同一目标对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,获取待识别的视频帧序列中同一目标对象的检测框集合和所述检测框集合中每个检测框的图像质量分值的步骤,包括:
对待识别的视频帧序列中的视频帧进行目标对象检测,得到包含有所述目标对象的检测框;
对每个所述检测框进行图像质量评分和跟踪特征向量提取,得到每个所述检测框的跟踪特征向量和图像质量分值;
基于每个所述检测框的跟踪特征向量确定同一目标对象的检测框集合。
3.根据权利要求2所述的方法,其特征在于,对每个所述检测框进行图像质量评分和跟踪特征向量提取的步骤,包括:
将每个所述检测框分别输入质量评分模型和第一卷积神经网络模型,得到每个所述检测框的图像质量评分和跟踪特征向量;其中,所述质量评分模型用于对输入的检测框进行图像质量评分;所述第一卷积神经网络模型用于对输入的检测框进行跟踪特征向量提取。
4.根据权利要求1所述的方法,其特征在于,基于每个所述检测框的图像质量分值,从所述检测框集合中选择第一检测框和第二检测框的步骤,包括:
基于每个所述检测框的图像质量分值大小对所述检测框集合中的检测框排序;
基于所述排序选择第一检测框和第二检测框,其中,所述第一检测框的图像质量分值和所述第二检测框的图像质量分值均大于未被选中的检测框的图像质量分值。
5.根据权利要求1所述的方法,其特征在于,从所述检测框集合中选择第一检测框和第二检测框的步骤之后,所述方法还包括:
将所述第一检测框输入第二卷积神经网络模型,得到所述第一检测框的第一检索特征向量;其中,所述第二卷积神经网络模型用于对输入的检测框进行检索特征向量提取。
6.根据权利要求1所述的方法,其特征在于,基于所述第一检测框的第一检索特征向量、所述第一检测框的第一跟踪特征向量和所述第二检测框的第二跟踪特征向量确定所述第二检测框的第二检索特征向量的步骤,包括:
将所述第一检测框的第一检索特征向量、所述第一检测框的第一跟踪特征向量和所述第二检测框的第二跟踪特征向量输入预先训练好的特征升级网络模型,得到所述第二检测框的第二检索特征向量;其中,所述特征升级网络模型是基于标注有对象标签的图像样本训练卷积神经网络模型得到的。
7.根据权利要求6所述的方法,其特征在于,所述特征升级网络模型的训练过程包括:
将标注有对象标签的图像样本集合分别输入第三卷积神经网络模型和第四卷积神经网络模型,得到每个所述对象标签对应的跟踪特征向量和检索特征向量;其中,所述第三卷积神经网络模型用于对输入的图像样本进行跟踪特征向量提取,所述第四卷积神经网络模型用于对输入的图像样本进行检索特征向量提取;
基于所述对象标签选择两个对象的多个图像样本对,其中,每一个图像样本对包含两个不同的对象,对于每一个所述图像样本对,均执行以下训练操作:
将每个所述图像样本对中的第一图像样本的检索特征向量、跟踪特征向量和第二图像样本的跟踪特征向量均输入预设的卷积神经网络模型,得到输出向量;
以所述第二图像样本的检索特征向量作为标准向量,计算所述卷积神经网络模型的输出向量与所述标准向量的损失值;
基于所述损失值调整所述卷积神经网络模型的参数,继续执行所述训练操作,直至所述损失值收敛至预设阈值,将训练好的所述卷积神经网络模型作为特征升级网络模型。
8.根据权利要求1所述的方法,其特征在于,融合所述第一检索特征向量和所述第二检索特征向量,得到所述同一目标对象的最优特征向量的步骤,包括:
对所述第一检索特征向量和所述第二检索特征向量进行均值融合,得到所述同一目标对象的最优特征向量。
9.一种目标对象识别装置,其特征在于,所述装置应用于电子设备,包括:
获取模块,用于获取待识别的视频帧序列中同一目标对象的检测框集合和所述检测框集合中每个检测框的图像质量分值;
检测框选择模块,用于基于每个所述检测框的图像质量分值,从所述检测框集合中选择第一检测框和第二检测框;
向量确定模块,用于基于所述第一检测框的第一检索特征向量、所述第一检测框的第一跟踪特征向量和所述第二检测框的第二跟踪特征向量确定所述第二检测框的第二检索特征向量;其中,所述第一检索特征向量的维度大于所述第一跟踪特征向量;所述第二检索特征向量的维度大于所述第二跟踪特征向量;
特征融合模块,用于融合所述第一检索特征向量和所述第二检索特征向量,得到所述同一目标对象的最优特征向量;
识别模块,用于基于所述最优特征向量和预存的目标对象底库确定所述同一目标对象的识别结果。
10.一种电子系统,其特征在于,所述电子系统包括:图像采集设备、处理设备和存储装置;
所述图像采集设备,用于获取待识别的视频帧序列;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至8任一项所述的方法的步骤。
CN202011143453.1A 2020-10-22 2020-10-22 目标对象识别方法、装置和电子系统 Pending CN112417970A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011143453.1A CN112417970A (zh) 2020-10-22 2020-10-22 目标对象识别方法、装置和电子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011143453.1A CN112417970A (zh) 2020-10-22 2020-10-22 目标对象识别方法、装置和电子系统

Publications (1)

Publication Number Publication Date
CN112417970A true CN112417970A (zh) 2021-02-26

Family

ID=74841224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011143453.1A Pending CN112417970A (zh) 2020-10-22 2020-10-22 目标对象识别方法、装置和电子系统

Country Status (1)

Country Link
CN (1) CN112417970A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393419A (zh) * 2021-04-29 2021-09-14 北京迈格威科技有限公司 视频处理方法、装置及电子系统
CN115049954A (zh) * 2022-05-09 2022-09-13 北京百度网讯科技有限公司 目标识别方法、装置、电子设备和介质
CN115100725A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质
WO2023000764A1 (zh) * 2021-07-23 2023-01-26 北京迈格威科技有限公司 目标检索方法、装置、设备及存储介质
WO2023221770A1 (zh) * 2022-05-16 2023-11-23 京东方科技集团股份有限公司 一种动态目标分析方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932509A (zh) * 2018-08-16 2018-12-04 新智数字科技有限公司 一种基于视频跟踪的跨场景目标检索方法及装置
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质
CN111127509A (zh) * 2018-10-31 2020-05-08 杭州海康威视数字技术股份有限公司 目标跟踪方法、装置和计算机可读存储介质
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
WO2020151166A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 多目标跟踪方法、装置、计算机装置及可读存储介质
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932509A (zh) * 2018-08-16 2018-12-04 新智数字科技有限公司 一种基于视频跟踪的跨场景目标检索方法及装置
CN111127509A (zh) * 2018-10-31 2020-05-08 杭州海康威视数字技术股份有限公司 目标跟踪方法、装置和计算机可读存储介质
WO2020151166A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 多目标跟踪方法、装置、计算机装置及可读存储介质
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦珊珊;李云波;陈佳林;潘志松;: "多目标跨摄像头跟踪技术", 国防科技, no. 06, 20 December 2019 (2019-12-20) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393419A (zh) * 2021-04-29 2021-09-14 北京迈格威科技有限公司 视频处理方法、装置及电子系统
WO2023000764A1 (zh) * 2021-07-23 2023-01-26 北京迈格威科技有限公司 目标检索方法、装置、设备及存储介质
CN115049954A (zh) * 2022-05-09 2022-09-13 北京百度网讯科技有限公司 目标识别方法、装置、电子设备和介质
CN115049954B (zh) * 2022-05-09 2023-09-22 北京百度网讯科技有限公司 目标识别方法、装置、电子设备和介质
WO2023221770A1 (zh) * 2022-05-16 2023-11-23 京东方科技集团股份有限公司 一种动态目标分析方法、装置、设备及存储介质
CN115100725A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质
CN115100725B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质

Similar Documents

Publication Publication Date Title
CN109977262B (zh) 从视频中获取候选片段的方法、装置及处理设备
CN112417970A (zh) 目标对象识别方法、装置和电子系统
CN110235138B (zh) 用于外观搜索的系统和方法
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
CN108875542B (zh) 一种人脸识别方法、装置、系统及计算机存储介质
CN107944427B (zh) 动态人脸识别方法及计算机可读存储介质
CN111368772B (zh) 身份识别方法、装置、设备及存储介质
CN112381104B (zh) 一种图像识别方法、装置、计算机设备及存储介质
CN111401238B (zh) 一种视频中人物特写片段的检测方法及装置
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN111291887A (zh) 神经网络的训练方法、图像识别方法、装置及电子设备
CN110765903A (zh) 行人重识别方法、装置及存储介质
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN113111838A (zh) 行为识别方法及装置、设备和存储介质
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN113505682A (zh) 活体检测方法及装置
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
CN111476132A (zh) 视频场景识别方法、装置及电子设备、存储介质
JP2012048624A (ja) 学習装置、方法及びプログラム
CN114359618A (zh) 神经网络模型的训练方法、电子设备及计算机程序产品
CN112257628A (zh) 一种户外比赛运动员的身份识别方法、装置及设备
CN113472834A (zh) 一种对象推送方法及设备
CN116129523A (zh) 动作识别方法、装置、终端及计算机可读存储介质
CN112989115B (zh) 待推荐视频的筛选控制方法及装置
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination