CN115294420A - 一种特征提取模型的训练方法、重识别方法及装置 - Google Patents
一种特征提取模型的训练方法、重识别方法及装置 Download PDFInfo
- Publication number
- CN115294420A CN115294420A CN202210815301.4A CN202210815301A CN115294420A CN 115294420 A CN115294420 A CN 115294420A CN 202210815301 A CN202210815301 A CN 202210815301A CN 115294420 A CN115294420 A CN 115294420A
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- video frame
- processed
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及信息处理技术领域,尤其涉及一种特征提取模型的训练方法、重识别方法及装置,解决无法在存在遮挡干扰的情况下,实现对于视频中对象特征进行有效识别的问题,方法为:获取样本数据集合;基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,在训练过程中,将指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算损失值。这样,借助于模型训练过程中提取的前景增强向量,能够增强模型对于图像中关键区域的注意程度,增强对于前景中关键区域的感知,减少背景信息的干扰,增加训练得到的目标特征提取模型的鲁棒性。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种特征提取模型的训练方法、重识别方法及装置。
背景技术
随着信息识别技术的发展,能够通过对视频中动态对象的识别,实现对于目标对象的有效管理,例如,应用在养老社区中,实现对于老人的识别和管理。
相关技术下,在对视频中的动态对象进行识别时,通常借助于行人重识别(re-identification,ReID)技术,实现对于目标对象的有效识别。
然而,由于目前ReID技术中,通常基于识别得到的对象的整体特征,实现对象识别,因此,对于对象的识别过程极大地受限于对象自身的刚性特征和柔性特征,这使得识别过程极易受到对象穿着、对象在视频帧中的尺寸大小、对象的被遮挡情况、对象的姿态,以及视频的拍摄视角的影响,无法在存在遮挡区域的情况下,实现对于各个对象特征的有效识别。
发明内容
本申请实施例提供一种对象识别方法、装置、电子设备及存储介质,用以解决现有技术中存在的无法在存在遮挡干扰的情况下,实现对于视频中对象特征进行有效识别。
本申请实施例提供的具体技术方案如下:
第一方面,提出一种特征提取模型的训练方法,包括:
获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;
基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:
读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;
将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
可选的,所述计算第二损失之后,进一步包括:
针对每个预测特征图,基于所述预测特征图中的各关键区域生成区域组集合,其中,所述区域组集合中包括:由两个对称肢体各自归属的关键区域构成的区域组,以及由一个非对称肢体归属的关键区域构成的区域组;
针对每个区域组集合,获取对应各个区域组内的关键区域提取的关键区域特征向量,并基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值;
基于所述第一类损失值、所述第二类损失值、以及各个第三类损失值,调整网络参数。
可选的,所述基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值,包括:
确定各个关键区域特征向量对应的图像特征向量,并确定所述各个关键区域特征向量和图像特征向量对应的特征通道数信息;
基于所述特征通道数信息确定拆分后的各个特征维度范围,并基于所述各个特征维度范围,分别将拆分后的、对应相同特征维度范围的各个关键区域子特征向量和图像子特征向量,确定为一组子特征向量,得到各组子特征向量;
针对每组子特征向量,分别计算各个关键区域子特征向量与图像子特征向量之间的向量差异,得到第三子损失;基于各个第三子损失计算第三类损失值。
可选的,所述基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,包括:
基于各关键区域特征向量与对应的预测特征图中各个位置的特征信息之间的融合结果,分别计算对于每个预测特征图中各个位置的注意力权重;
基于各个注意力权重计算对应的预测特征图中、各个位置的特征信息对应的加权融合结果,并基于所述加权融合结果,对相应的预测特征图、对应的图像特征向量进行特征增强,得到前景增强向量。
第二方面,提出一种重识别方法,包括:
获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;
采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量,其中,所述目标特征提取模型是采用上述第一方面中任一项所述的训练方法训练得到的;
计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
可选的,所述获取待处理视频帧集合,包括:
获取各个图像采集设备采集的原始视频流,并针对每个原始视频流进行抽帧处理,得到各个原始视频帧集合;
针对每个原始视频帧,识别所述原始视频帧中各个对象所在的区域,并裁剪出所述原始视频帧中的各个对象所在的区域,分别生成对应的各个待处理视频帧,并将所述各个待处理视频帧关联所述原始视频帧对应的时间信息;
基于各个待处理视频帧生成待处理视频帧集合。
第三方面,提出一种特征提取模型的训练装置,包括:
获取单元,用于获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;
训练单元,用于基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:
读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;
将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
可选的,所述计算第二损失之后,所述训练单元进一步用于:
针对每个预测特征图,基于所述预测特征图中的各关键区域生成区域组集合,其中,所述区域组集合中包括:由两个对称肢体各自归属的关键区域构成的区域组,以及由一个非对称肢体归属的关键区域构成的区域组;
针对每个区域组集合,获取对应各个区域组内的关键区域提取的关键区域特征向量,并基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值;
基于所述第一类损失值、所述第二类损失值、以及各个第三类损失值,调整网络参数。
可选的,所述基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值时,所述训练单元用于:
确定各个关键区域特征向量对应的图像特征向量,并确定所述各个关键区域特征向量和图像特征向量对应的特征通道数信息;
基于所述特征通道数信息确定拆分后的各个特征维度范围,并基于所述各个特征维度范围,分别将拆分后的、对应相同特征维度范围的各个关键区域子特征向量和图像子特征向量,确定为一组子特征向量,得到各组子特征向量;
针对每组子特征向量,分别计算各个关键区域子特征向量与图像子特征向量之间的向量差异,得到第三子损失;基于各个第三子损失计算第三类损失值。
可选的,所述基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量时,所述训练单元用于:
基于各关键区域特征向量与对应的预测特征图中各个位置的特征信息之间的融合结果,分别计算对于每个预测特征图中各个位置的注意力权重;
基于各个注意力权重计算对应的预测特征图中、各个位置的特征信息对应的加权融合结果,并基于所述加权融合结果,对相应的预测特征图、对应的图像特征向量进行特征增强,得到前景增强向量。
第四方面,提出一种重识别装置,包括:
获取单元,用于获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;
提取单元,用于采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量,其中,所述目标特征提取模型是采用权利要求1-4任一项所述的训练方法训练得到的;
计算单元,用于计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
可选的,所述获取待处理视频帧集合时,所述获取单元用于:
获取各个图像采集设备采集的原始视频流,并针对每个原始视频流进行抽帧处理,得到各个原始视频帧集合;
针对每个原始视频帧,识别所述原始视频帧中各个对象所在的区域,并裁剪出所述原始视频帧中的各个对象所在的区域,分别生成对应的各个待处理视频帧,并将所述各个待处理视频帧关联所述原始视频帧对应的时间信息;
基于各个待处理视频帧生成待处理视频帧集合。
第五方面,提出一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现上述第一方面和第二方面中任一项所述的方法。
第六方面,提出一种计算机可读存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述第一方面和第二方面中任一项所述的方法。
本申请有益效果如下:
本申请提供一种特征提取模型的训练方法、重识别方法及装置,在训练用于提取对象特征的特征提取模型时,获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;再基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
这样,借助于模型训练过程中提取的前景增强向量,能够增强模型对于图像中关键区域的注意程度,增强对于前景中关键区域的感知,减少背景信息的干扰,增加训练得到的目标特征提取模型的鲁棒性;另外,由于增加了前景增强向量,使得能够极大的避免遮挡干扰所造成的影响,能够通过提取图像中的局部特征,使得得到的图像特征向量中包含更多可考量的信息,提高对于图像中对象的可解读性,增强目标特征识别模型的识别精度,为准确识别出图像中待识别对象的特征提供处理依据。
进一步的,在基于训练得到的目标特征提取模型进行重识别操作时,获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;再采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量;然后计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
这样,在计算目标图像帧对应的目标视频特征向量,以及计算待处理视频帧对应的待处理视频特征向量后,通过计算向量向量之间的相似度,能够在待处理视频帧中确定包括目标对象的待处理视频帧,完成对于目标对象的重识别,识别出目标对象在待处理视频帧中的出现情况,为后续实际针对目标对象进行的跟踪和管理提供处理依据。
附图说明
图1为本申请实施例中训练得到目标初始特征提取模型的流程示意图;
图2为本申请实施例中获得样本视频帧的示意图;
图3为本申请实施中的训练过程中的网络结构示意图;
图4为本申请实施例中一轮迭代训练过程的流程示意图;
图5为本申请实施例中重识别的流程示意图;
图6为本申请实施例中实现各功能的模块示意图;
图7为本申请实施例中特征提取模型的训练装置的逻辑结构示意图;
图8为本申请实施例中重识别装置的流程示意图;
图9为本申请实施例中特征提取模型的训练装置的实体结构示意图;
图10为本申请实施例中提出重识别装置的实体结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
为了解决现有技术中存在的无法在存在遮挡干扰的情况下,实现对于视频中对象特征进行有效识别的问题,本申请提供一种特征提取模型的训练方法、重识别方法及装置,在训练用于提取对象特征的特征提取模型时,获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;再基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
这样,借助于模型训练过程中提取的前景增强向量,能够增强模型对于图像中关键区域的注意程度,增强对于前景中关键区域的感知,减少背景信息的干扰,增加训练得到的目标特征提取模型的鲁棒性;另外,由于增加了前景增强向量,使得能够极大的避免遮挡干扰所造成的影响,能够通过提取图像中的局部特征,使得得到的图像特征向量中包含更多可考量的信息,提高对于图像中对象的可解读性,增强目标特征识别模型的识别精度,为准确识别出图像中待识别对象的特征提供处理依据。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
本申请实施例中,实现特征提取模型的训练以及重识别的处理设备,具体可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。也可以是终端设备,如个人计算机、手机、平板电脑、笔记本等计算机设备。
本申请提出的技术方案,可以应用在各样的应用场景中。
应用场景1、识别走失老人或者走失儿童
具体的,当存在走失老人或者走失儿童时,处理设备可以采用目标特征提取模型,基于目标老人或目标儿童的近照,提取目标图像特征向量,进而获取指定区域中的、各个图像采集设备采集的视频流,完成对各个视频流的抽帧处理得到视频帧后,裁剪出各个视频帧中包括的行人,得到各个行人图像。
进一步的,继续采用所述目标特征提取模型,针对各个行人图像,分别提取得到待处理图像特征向量;然后,分别计算目标图像特征向量与各个待处理图像特征向量之间的相似度,再根据相似度筛选出与目标老人或者目标儿童匹配的行人图像,确定包括目标老人或目标儿童的视频帧,进而确定目标老人或者目标儿童的运动轨迹或最后出现的位置。
这样,能够为寻找走失老人或者走失儿童提供有力线索,有助于辅助相关部门找到走失老人或走失儿童。
应用场景2、养老社区的跌倒老人识别。
具体的,处理设备可以借助于已有的诸如防跌倒模型在内的医学模型进行辅助判定,当确定视频中存在跌倒的老人时,则针对视频流进行抽帧处理,然后从视频帧中裁剪出包括跌倒老人的待处理图像;进一步的,处理设备采用已训练的目标特征提取模型,基于所述待处理图像,得到待处理图像特征向量。
与此同时,所述处理设备采用所述目标特征提取模型,针对各个健康老人的图像进行处理,得到各个目标图像特征向量;所述处理设备再计算各个目标图像特征向量与所述待处理图像特征向量之间的相似度,并基于得到的各个相似度,确定跌倒老人的信息,进而直接基于跌倒老人的信息进行示警。
应用场景3、养老社区的老人运动轨迹识别。
具体的,处理设备可以采用目标特征提取模型,基于养老社区中的各个老人的近照,分别提取目标图像特征向量,进而获取指定区域中的、各个图像采集设备采集的视频流,完成对各个视频流的抽帧处理得到视频帧后,裁剪出各个视频帧中包括的行人,得到各个行人图像。进一步的,继续采用所述目标特征提取模型,针对各个行人图像,分别提取得到待处理图像特征向量。
然后,针对每个老人对应的目标图像特征向量,分别计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,进而基于获得的各个相似度确定对应的老人出现的视频帧,再根据该老人在各个视频帧中的出现情况,确定该老人的运动轨迹,进而能够辅助分析该老人在指定时间段内的运动次数、外出次数,以及外出时间等行动特征。
这样,能够为保障老人的健康安全提供处理依据,能够辅助预见可能发生的危机事件,防患于未然。
需要说明的是,本申请提出的技术方案,可以应用于人脸识别平台上,主要针对养老社区行人识别问题。为了提高老人识别的精度,获得一个鲁棒性高的模型,本申请设计的知识蒸馏网络PDM(Pose feature Distillation Model),通过强调行人身体部分的语义特征,提高模型对图像前景行人的感知能力,排除遮挡物体和背景的干扰,并利用知识蒸馏机制将该能力更新到图像特征提取网络中,从而得到一个高效且支持复杂场景的强鲁棒性图像特征提取网络,最后将从图像帧中提取出的特征向量通过特征检索系找到对应的目标对象,其中,PDM网络用于在模型训练过程中实现损失值的计算。
本申请实施例中,训练得到目标特征提取模型的第一设备,以及基于目标特征提取模型进行重识别的第二设备,可以对应相同的处理设备,所述第一设备和第二设备也可以分别对应不同的处理设备。本申请以下的描述中,将仅以第一设备和第二设备对应同一处理设备为例,对相关的模型训练过程和重识别过程进行说明。
下面结合附图,对训练得到目标特征提取模型的过程进行说明:
参阅图1所示,其为本申请实施例中训练得到目标初始特征提取模型的流程示意图,下面结合附图1对具体的训练过程进行说明:
步骤101:处理设备获取样本数据集合。
处理设备获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签,对象标签用于唯一标识样本视频帧中包括的对象。
具体的,处理设备在生成样本数据集合中,可以从不同图像采集设备处获取采集的样本视频流,进而针对样本视频进行抽帧和裁剪处理,得到各个样本视频帧,其中,基于样本视频流中的一个初始视频帧,能够得到至少一个样本视频帧,一个样本视频帧中包括该视频帧中的一个对象。
需要说明的是,本申请实施例中,处理设备在识别初始视频帧包括的对象时,可以采用本领域通用的目标检测算法,识别出视频帧中包括的对象。如,可以采用yolov5算法,识别视频帧中的行人目标框,进而根据行人目标框在视频帧中裁剪出行人图片。
例如,参阅图2所示,其为本申请实施例中获得样本视频帧的示意图,根据图2所示,从样本视频流中抽帧得到各个初始视频帧后,采用预设的人体识别算法,针对各个初始视频帧进行识别处理,分别识别出各个初始视频帧中包括的对象,如图2中示意的一个初始视频帧中包括对象A和对象B。进而从该初始视频帧中裁剪出对象A和对象B,得到包括对象A的样本视频帧1和包括对象B的样本视频帧2。
步骤102:处理设备基于样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型。
处理设备构建样本数据集合后,基于构建的样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,其中,所述预设的收敛条件包括但不限于以下任意一种:总训练轮数达到第一设定值,或者,计算得到的损失值连续低于第二设定值的次数达到第三设定值,所述第一设定值、所述第二设定值,以及所述第三设定值的具体取值根据实际的处理需要设置,在此不做具体限制。
另外,用于进行收敛判定的损失值的计算过程将在后续的训练过程中进行详细说明。
进一步的,所述处理设备确定满足预设的收敛条件后,基于由初始特征提取网络训练得到的目标特征提取网络,生成目标特征提取模型。
下面结合附图,对模型的训练过程进行具体说明:
参阅图3所示,其为本申请实施中的训练过程中的网络结构示意图,下面结合附图3,对训练过程中构建的网络结构进行说明:
本申请实施中,处理设备为了训练得到目标特征提取模型,构建的网络结构中,具体包括初始特征提取网络、预训练的局部特征提取网络、以及预训练的分类网络,其中,
所述初始特征提取网络,用于形成预测特征图和图像特征向量,获得指定长、宽、以及通道数的特征图,其中,特征图也可以理解为特征矩阵。在构建初始特征提取网络时,可以采用深度残差(Deep residualnetwork,ResNet深度残差网络)系列的网络,诸如ResNet18、ResNet50等。具体的,本申请可以去掉已有ResNet50网络中最后的池化层和全连接层后,将剩余的网络结构作为初始特征提取网络。
所述预训练的局部特征提取网络,用于提取对象的动作特征,识别出各个预设关键区域的关键区域特征向量。本申请实施例中,局部特征提取网络具体可以采用HR-Net网络,对于HR-Net网络的处理过程而言,在基于样本视频帧进行处理时,能够生成形如(X,Y,S)的特征矩阵(特征图),其中,X表征特征图的长,Y表征特征图的宽,S表征对应的关键区域,一个关键区域对应人体上的一个关键位置。
所述分类网络,可以采用本领域常规的分类网络结构,在训练过程中,先基于样本数据集合中包括的对象数目,配置分类网络的分类总数,其中,各个对象标签对应的对象总数与所述分类总数相同。进而采用所述分类网络,基于获得的图像特征向量,得到分类结果。
需要说明的是,本申请实施例中,由于所述局部特征提取网络和分类网络仅出现在模型训练过程中,且后续只基于训练后的目标特征提取网络构建目标特征提取模型。因此,可以根据实际的处理需要,选择预训练的局部特征提取网络和分类网络实现功能,其中,网络的预训练过程是本领域的常规技术,在此将不再进行具体说明,另外,本申请可以采用开源的预训练后的网络参数,对局部特征提取网络和分类网络进行初始化。
另外,本申请实施例中还可能包括知识蒸馏网络PDM,用以实现损失值的计算。
下面以一轮迭代训练过程为例,对模型的训练过程进行详细说明:
需要说明的是,本申请实施中,每轮迭代训练均是以前一轮迭代训练得到的特征提取网络作为初始特征提取网络,继续进行训练的,其中,在一批(batch)训练过程中输入的样本视频帧的总数根据实际的处理需要设置,本申请不做具体限定。另外,一轮迭代训练过程表征使用一批样本数据完成预测,并基于预测结果完成反向传播调整网络参数的过程。
参阅图4所示,其为本申请实施例中一轮迭代训练过程的流程示意图,下面结合附图4,对训练过程进行详细说明:
步骤401:处理设备读取指定数目的样本视频帧输入初始特征提取网络,得到各预测特征图和图像特征向量,并采用分类网络基于各图像特征向量确定分类结果,以及基于分类结果与对应的对象标签之间的分类差异,计算第一类损失值。
本申请实施例中,处理设备读取一个batch的训练过程中所需要的、指定数目的样本视频帧后,将读取的各个样本视频帧输入当前的初始特征提取网络,得到对应所述各个样本视频帧的各个预测特征图和图像特征向量。
例如,以样本视频帧大小为(256,128,3)为例,处理设备将大小为(256,128,3)的样本视频帧输入初始特征提取网络,其中,256*128表征样本视频帧的大小,3表征样本视频帧的通道数;得到所述初始特征提取网络提取的预测特征图,记为F,大小为(16,8,2048),其中,16*8表征预测特征图的大小,2048表征预测特征图的通道数;然后借助于所述初始特征提取网络中的全局平均池化操作,获得对应图像特征向量,记为fe,大小为(1,2048),其中2048为通道数。
进一步的,处理设备将各图像特征向量输入预训练的分类网络,得到所述分类网络对应各样本视频帧预测得到的分类结果,进而处理设备计算对应的第一类损失值。
具体的,所述处理设备可以采用交叉熵损失函数,基于获得的分类结果与对应的对象标签之间的分类差异,计算交叉熵损失值(记为Lid);再针对每个样本视频帧,根据所述分类结果与对应的对象标签,确定所述样本视频帧对应的最相似正样本和最不相似负样本,生成对应的三元组信息;然后采用难样本采样三元组损失函数,基于各个三元组信息,计算难样本采样三元组损失值(记为Ltr);再基于所述交叉熵损失值和所述难样本采样三元组损失值,计算第一类损失值,其中,计算交叉熵损失值以及计算难样本采样三元组损失值的方式,是本领域的常规技术,本申请在此不做具体说明。
需要说明的是,在针对每个样本视频帧计算得到对应的交叉熵损失值和难样本采样三元组损失值后,可以将交叉熵损失值与难样本采样三元组损失值的和,作为第一类损失值。另外,由于在一轮迭代训练过程中,针对各个样本视频帧分别计算了第一类损失值,故可以将各个第一类损失值的平均值,作为一轮迭代训练得到的第一类损失值。
这样,借助于第一类损失值,使得后续在对初始特征提取网络进行训练时,能够从分类结果的角度,约束所述初始特征提取网络学习特征提取的能力。
步骤402:处理设备将指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值。
本申请实施例中,处理设备将一个batch内需要的、指定数目的样本视频帧和初始特征提取网络提取的预测特征图,输入预训练的局部特征提取网络,得到每个预测特征图中包括的各关键区域特征向量。
具体的,处理设备将各个样本视频帧输入局部特征提取网络,得到各个关键区域特征图。例如,在采用HR Net网络进行处理时,会得到形如(16,8,17)的关键区域特征图,其中,16*8位特征图的大小,17为识别出的关键区域总数,各个关键区域对应各个人体部位。
需要说明的是,本申请实施例中,可以根据实际处理需要在识别出的关键区域中,选择处理所使用的关键区域。例如,选取17个人体部位中的头,左小臂,右小臂,左膝,右膝,左脚踝,右脚踝和躯干这8个部位作为关键位置,获得各关键区域特征图(特征矩阵),记为Fp,大小为(16,8,8),其中,16*8表征特征图的大小,最后一个8表征选择的8个部位。
然后,采用所述局部特征提取网络,将各个关键区域特征图依次点乘对应的预测特征图F后,得到8个关键区域各自加权的图像特征矩阵,其中,每个图像特征矩阵的大小为(16,8,2048);然后,将8个图像特征矩阵中相对位置相同的矩阵元素进行相加;再通过进行全局平均池化操作,基于所述8个图像特征矩阵的相加结果,得到对应的关键位置特征向量,大小为(1,2048),其中,2048表示向量维度。
进一步的,所述处理设备基于计算得到的关键位置特征向量,对相应的预测特征图进行特征增强,得到前景增强向量。
具体的,所述处理设备基于各关键区域特征向量与对应的预测特征图中各个位置的特征信息之间的融合结果,分别计算对于每个预测特征图中各个位置的注意力权重;再基于各个注意力权重计算对应的预测特征图中、各个位置的特征信息对应的加权融合结果,并基于所述加权融合结果,对相应的预测特征图、对应的图像特征向量进行特征增强,得到前景增强向量。
在具体的处理过程中,通过关键区域特征向量使初始特征提取网络的网络焦点转移至关键区域,从而获得更有意义的前景表示,即,计算前景增强向量。
下面以针对一个预测特征图计算得到前景增强向量为例,进行具体说明:
在计算前景增强向量时,假设预测特征图大小为(16,8),那么具体可以采用以下公式进行计算时,对应的向量大小如下所示:
首先,采用如下公式,计算对于预测特征图中各个像素位置(简称位置)处特征的注意力权重:
其中,wi,j表征对于预测特征图中i,j所定位的位置处、特征的注意力权重,最终得到的注意力权重矩阵大小为(16,8);Fij表征第i行第j列位置处的特征,F大小为(16,8,2048);fk表征关键位置特征向量,大小为(1,2048);另外,在计算wij时,针对不同2048个维度中每个维度的特征,分别采用上述公式进行计算。
然后,采用如下公式,计算前景增强向量:
其中,wi,j为计算得到的注意力权重;fe表征初始特征提取网络基于预测特征图得到的图像特征向量,fw表征计算得到的前景增强向量,大小为(1,2048)。
所述处理设备得到各个前景增强向量后,基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值。
具体的,所述处理设备可以采用均方损失函数,基于前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失,记为Le,具体采用的公式如下:
其中,Le表征计算得到的第二类损失,fw,m表征前景增强向量中第m维的向量值,fe,m表示前景增强向量中第m维的向量值。
这样,借助于模型训练过程中提取的前景增强向量,能够增强模型对于图像中关键区域的注意程度,增强对于前景中关键区域的感知,一定程度上减少背景信息的干扰,增加训练得到的目标特征提取模型的鲁棒性。与此同时,提高了对于图像中对象的可解读性。
步骤403:处理设备基于第一类损失值和第二类损失值调整网络参数。
本申请一些可能的实施例中,处理设备计算得到第一类损失值和第二类损失值后,可以直接基于所述第一类损失值和所述第二类损失值调整模型参数。
可选的,在本申请另一些可能的实施例中,为了综合更多可考量的因素,所述处理设备可以计算第三类损失值。
具体的,所述处理设备针对每个预测特征图,基于所述预测特征图中的各关键区域生成区域组集合,其中,所述区域组集合中包括:由两个对称肢体各自归属的关键区域构成的区域组,以及由一个非对称肢体归属的关键区域构成的区域组;针对每个区域组集合,获取对应各个区域组内的关键区域提取的关键区域特征向量,并基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值。
本申请实施例中,在计算第三类损失值时,所述处理设备确定各个关键区域特征向量对应的图像特征向量,并确定所述各个关键区域特征向量和图像特征向量对应的特征通道数信息;然后基于所述特征通道数信息确定拆分后的各个特征维度范围,并基于所述各个特征维度范围,分别将拆分后的、对应相同特征维度范围的各个关键区域子特征向量和图像子特征向量,确定为一组子特征向量,得到各组子特征向量;再针对每组子特征向量,分别计算各个关键区域子特征向量与图像子特征向量之间的向量差异,得到第三子损失;之后基于各个第三子损失计算第三类损失值。
具体实施时,为了关键区域特征向量能和图像特征向量做更好的语义信息对齐,可以建立第三类损失值进行辅助约束。在具体约束时,将关键区域特征向量fk和图像特征向量fe,按照通道数等分成8个部分fkp和fep,大小为(1,256),其中,每个部分(part)分别代表部分的特征向量,关键区域特征向量和图像特征向量中,对应相同部分的特征向量具有相同的物理含义。
进一步的,采用如下公式,计算第三类损失值:
其中,Lpart为计算得到的第三类损失值,n对应不同部分的特征向量,对应一个具体的n值,r的取值跨度为1-8;fep,r表征fe中第r部分的特征向量;fkp,n表征fk中第n部分的特征向量。part(n)输出表示的物理含义可以理解为一个行人关键部位。
这样,通过将特征向量中不同维度的关键区域特征和不同维度的图像特征做更好的语义信息对齐,能够提高对于关键区域相对性的解读性,为模型的训练过程中添加更多可学习的因素。
进一步的,在计算有第三类损失值的情况下,所述处理设备基于第一类损失值、第二类损失值,以及所述第三类损失值,调整网络参数,其中,具体调整的网络根据实际处理需要设置,如,根据实际处理需要只调整初始特征提取网络,或者,只调整初始特征提取网络、以及分类网络,或者,只调整初始特征提取网络、以及局部特征提取网络,或者,调整初始特征提取网络、以及分类网络和局部特征提取网络,本申请不做具体限制。
具体的,可以采用如下公式,基于第三类损失值Lpart、第二类损失值Le、以及reid任务中的第一类损失值(交叉熵损失值Lid和难样本采样三元组损失Ltr),其中λ1和λ2作为训练中的超参数:
L=Lid+Ltr+λ1Le+λ2Lpart
这样,借助于各类损失函数的综合作用计算得到的损失值,能够对充分训练初始特征提取网络的特征提取能力,有助于更全面的分析对象的特征,并通过前景增强的方式,减少遮挡问题对于图像特征提取的干扰,提高了训练后的模型的鲁棒性;另外,通过将关键通道数信息与部位特征进行语义对齐,增加了更多的约束信息;而且,就整体的训练过程而言,相当于借助了知识蒸馏机制,提升初始特征提取网络的特征提取能力,为模型的有效训练提供了保障。
需要说明的是,本申请实施例中,可以采用对应的网络实现对于损失值的计算。具体的,处理设备可以创建知识蒸馏网络(Pose feature Distillation Model,PDM),在只存在第一类损失值和第二类损失值的情况下,进行第一类损失值和第二类损失值的计算,在只存在第一类损失值、第二类损失值和第三类损失值的情况下,进行第一类损失值、以及第二类损失值和第三类损失值的计算。
下面结合附图,对基于训练后的得到的目标特征提取模型进行重识别的过程进行说明。
需要说明的是,就本申请的应用需求而言,由于本申请后续意在针对目标对象进行重识别,因此,对包含目标对象的图像进行特征提取和比对,就能够满足重识别的需求。故本申请在实际的应用过程中,基于训练后的目标特征提取网络生成目标特征提取模型。
参阅图5所示,其为本申请实施例中重识别的流程示意图,下面结合附图5,对重识别过程进行详细说明:
步骤501:处理设备获取包含目标对象的目标图像帧,并获取待处理视频帧集合。
本申请实施例中,在针对目标对象进行重识别时,获取包含目标对象的目标图像帧,即,获取所述目标对象的近期图像,进而获取可能包括所述目标对象的待处理图像帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象。
具体的,所述处理设备获取各个图像采集设备采集的原始视频流,并针对每个原始视频流进行抽帧处理,得到各个原始视频帧集合;再针对每个原始视频帧,识别所述原始视频帧中各个对象所在的区域,并裁剪出所述原始视频帧中的各个对象所在的区域,分别生成对应的各个待处理视频帧,并将所述各个待处理视频帧关联所述原始视频帧对应的时间信息;然后基于各个待处理视频帧生成待处理视频帧集合。
需要说明的是,本申请实施例中,所述处理设备在进行抽帧处理时,可以采用本领域常规的抽帧方式,如,将原始视频流拆分为指定数目的原始视频子流,进而从各原始视频子流中分别随机抽取一个视频帧,作为原始视频帧,即,从同一原始视频流中抽取的多个原始视频帧。
另外,根据实际的处理需要,所述处理设备获取的各个原始视频流可能来自同一图像采集设备,或者,来自不同的图像采集设备,本申请在此不做具体限制。
进一步的,所述处理设备针对每个原始视频帧,采用诸如yolov5在内的人体识别算法,识别出每个原始视频帧中包括的待识别对象,进而将待识别对象从相应的原始视频帧中裁剪出来,得到待处理视频帧,其中,每个待处理视频帧关联有时间信息,而且,一个待处理视频帧对应从一个原始视频帧中裁剪出的待识别对象。
需要说明的是,本申请实施例中,所述处理设备可以根据实际的处理需要,重新设置(resize)待处理视频帧的大小,将各个待处理视频帧统一resize为指定大小的图像帧。
在一个原始视频帧中包括多个待识别对象的情况下,从该原始视频帧中可以裁剪得到多个待处理视频帧,另外,每个待处理视频帧关联有对应的原始视频帧的时间信息。在生成各个待处理视频帧集合时,将基于一个原始视频流中的各个原始视频帧裁剪得到的待处理视频帧,生成对应的一个待处理视频帧集合。
这样,通过抽帧建立待处理视频帧集合,使得抽取的各个原始视频帧能够体现原始视频流的特征,避免由于原始视频流中包括的、重复内容的原始视频帧过多,造成对于相似内容的重复特征提取,能够一定程度上提高资源的处理效率。
另外,由于得到的待处理视频帧中必定存在待识别对象,而且由于待处理视频帧是经过裁剪后获得的,能够一定程度上降低背景部分的影响,能够辅助降低遮挡等干扰对于重识别的不良影响,明确了需要进行特征提取的内容。
步骤502:处理设备采用已训练的目标特征提取模型,基于目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量。
具体的,处理设备获取目标视频帧和各个待处理视频帧集合后,采用上述图1的流程中训练得到目标特征提取模型,基于所述目标视频帧得到目标图像特向量,以及采用所述目标特征提取网络,分别基于各个待处理视频帧,得到对应的待处理图像特征向量,其中,所述目标特征提取模型的训练过程已经在上述流程中进行详细说明,在此不再赘述。
另外,在基于视频帧得到图像特征向量时经过的内部处理过程,与训练过程中经过的处理过程相同,本申请将不再展开说明。
步骤503:处理设备计算目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含目标对象的待处理视频帧。
具体的,处理设备可以采用向量相似度算法,分别计算目标图像特征向量和各个待处理图像特征向量之间的相似度;进而基于获得的各个相似度,识别包括目标对象的待处理视频帧,其中,采用的向量相似度算法具体可以是计算两个向量之间的欧式距离、余弦相似度、以及曼哈顿距离等方式中的任意一种。
在确定包含目标对象的待处理视频帧时,处理设备可以针对相似度设置相似度门限值,并筛选出与目标图像特征向量之间的相似度高于所述相似度门限值的待处理图像特征向量,以及将筛选出的待处理图像特征向量对应的目标待处理视频帧,作为包括目标对象的待处理视频帧。
进一步的,所述处理设备在确定包括目标对象的待处理视频帧后,可以对应的确定所述目标对象出现的原始视频帧,以及确定所述目标对象出现的原始视频流,进而能够确定所述目标对象出现的位置,实现对于目标对象的轨迹追踪和搜寻。
这样,结合所述目标对象在各个原始视频流中出现的时间信息和位置信息,能够分析所述目标对象的运动轨迹,进而能够辅助实现对于走失老人、儿童的轨迹搜寻,并能够在养老社区的环境中,辅助实现对老人健康情况的有效管理。
基于同一发明构思,参与图6所示,其为本申请实施例中实现各功能的模块示意图,下面结合附图6,对本申请实施例中,实现模型训练和重识别的各部分模块进行综合说明:
在最终实现重识别的过程中,涉及到的功能模块包括有:对象检测模块、图像特征提取模块、局部特征提取模块、知识蒸馏提取模块、以及检索模块,其中,在模型的训练阶段,所述图像特征提取模块、所述局部特征提取模型、以及所述知识蒸馏模块共同作用;在重识别过程中,所述对象检测模块、所述图像特征提取模块、以及所述检测模块共同作用。
下面对各个模块的功能进行说明:
所述对象检测模块,用于针对视频帧进行人体识别,识别视频帧中对象所出的区域,并从视频帧中裁剪出对象图像。在重识别过程中,用于裁剪生成待处理视频帧。另外,所述对象检测模块,也可以应用在模型训练过程中,用于裁剪生成样本视频帧。
这样,能够从图像采集设备采集的视频帧中,确定对象图像。
所述图像特征提取模块,存在于模型训练阶段和重识别应用阶段。在模型训练过程中,用于基于样本视频帧进行预测特征图和图像特征向量的提取,对应实现上述初始特征提取网络的处理功能;在重识别应用过程中,用于基于目标视频帧进行目标图像特征向量的提取,以及基于待处理视频帧,进行待处理图像特征向量的提取。
所述局部特征提取模块,存在于模型训练阶段,用于将人体局部特征充分加权提取到图像特征中,具体的,用于对图像特征向量中的指定关键区域进行增强,对应实现上述预训练的局部特征提取网络所实现的功能。
所述知识蒸馏提取模块,存在于模型训练阶段,主要将局部特征学习能力蒸馏到图像特征提取模块中,具体的,通过多部分对比损失的方法对特征提取模块进行正则化,换言之,用于在训练过程中计算各类损失值,进而基于计算得到的损失值反向传播调整网络参数,对应实现可能存在的PDM网络的功能。
这样,借助于知识蒸馏网络实现的功能,一方面,通过注意力机制将人体局部动作(由关键区域确定)特征加权到图像特征向量后,不仅利用人体动作(关键区域)增加了初始特征提取网络对图像前景信息的感知能力,同时减少了背景和遮挡信息的干扰,提高训练得到的、目标特征提取模型的精度和鲁棒性;另一方面,将关键区域的特征通道数信息和部位特征做更好的语义信息对齐,利用知识蒸馏机制将上述功能更新到所述初始图像特征提取网络上,进一步提高了训练得到的目标特征提取模型的特征提取能力。另外,在部署所述目标特征提取模型时,采用端到端网络结构,使得更高效的实现快速部署。
所述检索模块,应用于重识别应用过程中,用于实现向量相似度的计算,功能的实现可以由诸如Milvus在内的特征向量搜索工具实现,用于计算确定包括目标对象的待处理视频帧,实现快速匹配目标对象的目标图像特征向量。
基于上述各个模块的功能,在具体实现重识别的过程中,可以将先利用对象检测模块找到原始视频帧中的行人(对象),并裁剪出合适大小的待处理视频帧;然后将待处理视频帧输入图像特征提取模块得到待处理图像特征向量,进而采用所述检索模块,基于针对目标对象提取的图像特征向量,以及所述待处理图像特征向量之间的相似度,找到包括目标对象的待处理视频帧。
需要说明的是,本申请实施例中,所述图像特征提取模块、所述局部特征提取模块和所述知识蒸馏模块的融合,是本申请在训练过程中提出的创新模块,这三个模块并不是孤立存在的,三者存在动态结合的关系。
在具体实现模型训练的过程中,将样本视频帧输入图像特征提取模块得到预测特征图和图像特征向量,然后将样本视频帧输入局部特征提取模块得到人体动作特征图,并将人体动作特征图融合预测特征图,得到各个加权的图像特征矩阵,进而基于各个加权的图像特征矩阵处理得到关键区域特征向量,最后通过知识蒸馏模块建立约束准则更新图像特征提取模块网络参数。
基于同一发明构思,参阅图7所示,其为本申请实施例中特征提取模型的训练装置的逻辑结构示意图,特征提取模型的训练装置700中包括获取单元701、以及训练单元702,其中,
获取单元701,用于获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;
训练单元702,用于基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:
读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;
将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
可选的,所述计算第二损失之后,所述训练单元702进一步用于:
针对每个预测特征图,基于所述预测特征图中的各关键区域生成区域组集合,其中,所述区域组集合中包括:由两个对称肢体各自归属的关键区域构成的区域组,以及由一个非对称肢体归属的关键区域构成的区域组;
针对每个区域组集合,获取对应各个区域组内的关键区域提取的关键区域特征向量,并基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值;
基于所述第一类损失值、所述第二类损失值、以及各个第三类损失值,调整网络参数。
可选的,所述基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值时,所述训练单元702用于:
确定各个关键区域特征向量对应的图像特征向量,并确定所述各个关键区域特征向量和图像特征向量对应的特征通道数信息;
基于所述特征通道数信息确定拆分后的各个特征维度范围,并基于所述各个特征维度范围,分别将拆分后的、对应相同特征维度范围的各个关键区域子特征向量和图像子特征向量,确定为一组子特征向量,得到各组子特征向量;
针对每组子特征向量,分别计算各个关键区域子特征向量与图像子特征向量之间的向量差异,得到第三子损失;基于各个第三子损失计算第三类损失值。
可选的,所述基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量时,所述训练单元702用于:
基于各关键区域特征向量与对应的预测特征图中各个位置的特征信息之间的融合结果,分别计算对于每个预测特征图中各个位置的注意力权重;
基于各个注意力权重计算对应的预测特征图中、各个位置的特征信息对应的加权融合结果,并基于所述加权融合结果,对相应的预测特征图、对应的图像特征向量进行特征增强,得到前景增强向量。
基于同一发明构思,参阅图8所示,其为本申请实施例中重识别装置的流程示意图,重识别装置800中包括获取单元801、提取单元802、以及计算单元803,其中,
获取单元801,用于获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;
提取单元802,用于采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量,其中,所述目标特征提取模型是采用权利要求1-4任一项所述的训练方法训练得到的;
计算单元803,用于计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
可选的,所述获取待处理视频帧集合时,所述获取单元801用于:
获取各个图像采集设备采集的原始视频流,并针对每个原始视频流进行抽帧处理,得到各个原始视频帧集合;
针对每个原始视频帧,识别所述原始视频帧中各个对象所在的区域,并裁剪出所述原始视频帧中的各个对象所在的区域,分别生成对应的各个待处理视频帧,并将所述各个待处理视频帧关联所述原始视频帧对应的时间信息;
基于各个待处理视频帧生成待处理视频帧集合。
基于同一发明构思,参阅图9所示,其为本申请实施例中特征提取模型的训练装置的实体结构示意图,特征提取模型的训练装置可以为服务器或具有处理功能的终端设备。参照图9,特征提取模型的训练装置包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行上述特征提取模型的训练方法。
装置900还可以包括一个电源组件926被配置为执行装置900的电源管理,一个有线或无线网络接口950被配置为将装置900连接到网络,和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似系统。
基于同一发明构思,参阅图10所示,其为本申请实施例中提出重识别装置的实体结构示意图,所述电子设备至少包括:存储器1001和处理器1002,其中,
存储器1001,用于存储可执行指令;
处理器1002,用于读取所述存储器1001中的计算机指令,以实现上述重识别方法。
基于同一发明构思,本申请实施例中特征提取模型的训练和重识别实施例中提供一种存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述任一种方法。
综上所述,本申请实施例中,本申请提供一种特征提取模型的训练方法、重识别方法及装置,在训练用于提取对象特征的特征提取模型时,获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;再基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
这样,借助于模型训练过程中提取的前景增强向量,能够增强模型对于图像中关键区域的注意程度,增强对于前景中关键区域的感知,减少背景信息的干扰,增加训练得到的目标特征提取模型的鲁棒性;另外,由于增加了前景增强向量,使得能够极大的避免遮挡干扰所造成的影响,能够通过提取图像中的局部特征,使得得到的图像特征向量中包含更多可考量的信息,提高对于图像中对象的可解读性,增强目标特征识别模型的识别精度,为准确识别出图像中待识别对象的特征提供处理依据。
进一步的,在基于训练得到的目标特征提取模型进行重识别操作时,获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;再采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量;然后计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
这样,在计算目标图像帧对应的目标视频特征向量,以及计算待处理视频帧对应的待处理视频特征向量后,通过计算向量向量之间的相似度,能够在待处理视频帧中确定包括目标对象的待处理视频帧,完成对于目标对象的重识别,识别出目标对象在待处理视频帧中的出现情况,为后续实际针对目标对象进行的跟踪和管理提供处理依据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种特征提取模型的训练方法,其特征在于,包括:
获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;
基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:
读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;
将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
2.如权利要求1所述的方法,其特征在于,所述计算第二损失之后,进一步包括:
针对每个预测特征图,基于所述预测特征图中的各关键区域生成区域组集合,其中,所述区域组集合中包括:由两个对称肢体各自归属的关键区域构成的区域组,以及由一个非对称肢体归属的关键区域构成的区域组;
针对每个区域组集合,获取对应各个区域组内的关键区域提取的关键区域特征向量,并基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值;
基于所述第一类损失值、所述第二类损失值、以及各个第三类损失值,调整网络参数。
3.如权利要求2所述的方法,其特征在于,所述基于各个关键区域特征向量与对应的图像特征向量之间的向量差异,计算第三类损失值,包括:
确定各个关键区域特征向量对应的图像特征向量,并确定所述各个关键区域特征向量和图像特征向量对应的特征通道数信息;
基于所述特征通道数信息确定拆分后的各个特征维度范围,并基于所述各个特征维度范围,分别将拆分后的、对应相同特征维度范围的各个关键区域子特征向量和图像子特征向量,确定为一组子特征向量,得到各组子特征向量;
针对每组子特征向量,分别计算各个关键区域子特征向量与图像子特征向量之间的向量差异,得到第三子损失;基于各个第三子损失计算第三类损失值。
4.如权利要求1-3任一项所述的方法,其特征在于,所述基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,包括:
基于各关键区域特征向量与对应的预测特征图中各个位置的特征信息之间的融合结果,分别计算对于每个预测特征图中各个位置的注意力权重;
基于各个注意力权重计算对应的预测特征图中、各个位置的特征信息对应的加权融合结果,并基于所述加权融合结果,对相应的预测特征图、对应的图像特征向量进行特征增强,得到前景增强向量。
5.一种重识别方法,其特征在于,包括:
获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;
采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量,其中,所述目标特征提取模型是采用权利要求1-4任一项所述的训练方法训练得到的;
计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
6.如权利要求5所述的方法,其特征在于,所述获取待处理视频帧集合,包括:
获取各个图像采集设备采集的原始视频流,并针对每个原始视频流进行抽帧处理,得到各个原始视频帧集合;
针对每个原始视频帧,识别所述原始视频帧中各个对象所在的区域,并裁剪出所述原始视频帧中的各个对象所在的区域,分别生成对应的各个待处理视频帧,并将所述各个待处理视频帧关联所述原始视频帧对应的时间信息;
基于各个待处理视频帧生成待处理视频帧集合。
7.一种特征提取模型的训练装置,其特征在于,包括:
获取单元,用于获取样本数据集合,其中,每个样本数据中包括样本视频帧、以及所述样本视频帧对应的对象标签;
训练单元,用于基于所述样本数据集合对初始特征提取网络和预训练的分类网络进行多轮迭代训练,直至满足预设的收敛条件,基于训练后的目标图像特征提取网络生成目标特征提取模型;其中,在一轮迭代训练过程中,执行以下操作:
读取指定数目的样本视频帧输入所述初始特征提取网络,得到各预测特征图和图像特征向量,并采用所述分类网络基于各图像特征向量确定分类结果,以及基于所述分类结果与对应的对象标签之间的分类差异,计算第一类损失值;
将所述指定数目的样本视频帧和预测特征图输入预训练的局部特征提取网络,得到每个预测特征图各自对应的关键区域特征向量;基于各关键区域特征向量,对相应的预测特征图进行特征增强,得到前景增强向量,并基于各前景增强向量和对应的图像特征向量之间的向量差异,计算第二类损失值,以及基于所述第一类损失值和所述第二类损失值调整网络参数。
8.一种重识别装置,其特征在于,包括:
获取单元,用于获取包含目标对象的目标图像帧,并获取待处理视频帧集合,其中,每个待处理视频帧关联有时间信息,并且对应一个从采集的一个原始视频帧中、裁剪出的待识别对象;
提取单元,用于采用已训练的目标特征提取模型,基于所述目标视频帧提取出目标图像特征向量,以及分别基于各个待处理视频帧,提取出待处理图像特征向量,其中,所述目标特征提取模型是采用权利要求1-4任一项所述的训练方法训练得到的;
计算单元,用于计算所述目标图像特征向量与各个待处理图像特征向量之间的相似度,并基于各个相似度识别包含所述目标对象的待处理视频帧。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210815301.4A CN115294420A (zh) | 2022-07-08 | 2022-07-08 | 一种特征提取模型的训练方法、重识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210815301.4A CN115294420A (zh) | 2022-07-08 | 2022-07-08 | 一种特征提取模型的训练方法、重识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294420A true CN115294420A (zh) | 2022-11-04 |
Family
ID=83822908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210815301.4A Pending CN115294420A (zh) | 2022-07-08 | 2022-07-08 | 一种特征提取模型的训练方法、重识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294420A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091491A (zh) * | 2023-04-03 | 2023-05-09 | 中国科学技术大学先进技术研究院 | VOCs气体检测方法、装置、设备及计算机可读存储介质 |
CN116229379A (zh) * | 2023-05-06 | 2023-06-06 | 浙江大华技术股份有限公司 | 一种道路属性识别方法、装置、电子设备及存储介质 |
CN117519609A (zh) * | 2024-01-02 | 2024-02-06 | 中移(苏州)软件技术有限公司 | 一种视频文件的处理方法、装置及电子设备 |
-
2022
- 2022-07-08 CN CN202210815301.4A patent/CN115294420A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091491A (zh) * | 2023-04-03 | 2023-05-09 | 中国科学技术大学先进技术研究院 | VOCs气体检测方法、装置、设备及计算机可读存储介质 |
CN116229379A (zh) * | 2023-05-06 | 2023-06-06 | 浙江大华技术股份有限公司 | 一种道路属性识别方法、装置、电子设备及存储介质 |
CN116229379B (zh) * | 2023-05-06 | 2024-02-02 | 浙江大华技术股份有限公司 | 一种道路属性识别方法、装置、电子设备及存储介质 |
CN117519609A (zh) * | 2024-01-02 | 2024-02-06 | 中移(苏州)软件技术有限公司 | 一种视频文件的处理方法、装置及电子设备 |
CN117519609B (zh) * | 2024-01-02 | 2024-04-09 | 中移(苏州)软件技术有限公司 | 一种视频文件的处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1542155B1 (en) | Object detection | |
CN115294420A (zh) | 一种特征提取模型的训练方法、重识别方法及装置 | |
US11386598B2 (en) | Method and system for sensor data recognition using data enrichment for the learning process | |
US7421149B2 (en) | Object detection | |
Ramirez-Quintana et al. | Self-adaptive SOM-CNN neural system for dynamic object detection in normal and complex scenarios | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
US7522772B2 (en) | Object detection | |
Mocanu et al. | Deep-see face: A mobile face recognition system dedicated to visually impaired people | |
EP1542152B1 (en) | Object detection | |
CN110569731A (zh) | 一种人脸识别方法、装置及电子设备 | |
JP2004199669A (ja) | 顔検出 | |
EP1542154A2 (en) | Object detection | |
Siddiqi et al. | Human activity recognition using Gaussian mixture hidden conditional random fields | |
Tapu et al. | Seeing without sight-an automatic cognition system dedicated to blind and visually impaired people | |
CN113657200A (zh) | 一种基于掩码r-cnn的视频行为动作识别方法及系统 | |
CN116543419B (zh) | 基于嵌入式平台的酒店卫勤人员穿戴检测方法及系统 | |
CN113763420A (zh) | 一种目标跟踪方法、系统及存储介质和终端设备 | |
CN116189281B (zh) | 基于时空自适应融合的端到端人体行为分类方法及系统 | |
Puchała et al. | Feature engineering techniques for skeleton-based two-person interaction classification in video | |
JP7253967B2 (ja) | 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム | |
Kimura et al. | Dynamic Markov random fields for stochastic modeling of visual attention | |
CN110795972A (zh) | 行人身份识别方法、装置、设备及存储介质 | |
Tapu et al. | Face recognition in video streams for mobile assistive devices dedicated to visually impaired | |
Zhang et al. | Lightweight network for small target fall detection based on feature fusion and dynamic convolution | |
Zhang et al. | Improved OpenPose for multi-person pose estimation and behavior recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |