CN110807789A - 图像处理方法、模型、装置、电子设备及可读存储介质 - Google Patents
图像处理方法、模型、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110807789A CN110807789A CN201910786226.1A CN201910786226A CN110807789A CN 110807789 A CN110807789 A CN 110807789A CN 201910786226 A CN201910786226 A CN 201910786226A CN 110807789 A CN110807789 A CN 110807789A
- Authority
- CN
- China
- Prior art keywords
- image
- image frame
- weight
- feature
- video stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims description 68
- 238000000605 extraction Methods 0.000 claims description 58
- 230000004927 fusion Effects 0.000 claims description 58
- 238000010586 diagram Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 15
- 230000014509 gene expression Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 14
- 238000011176 pooling Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图像处理方法、模型、装置、电子设备及可读存储介质。该方法包括:获取关于目标对象的视频流;对于视频流中的每个图像帧,根据每个图像帧与视频流中各图像帧的关联关系,确定每个图像帧的第一权重;基于每个图像帧的第一权重,对各图像帧进行融合;基于融合后的结果,提取得到目标对象的轨迹特征。本方案会对视频流中的每个图像帧,都根据图像帧与视频流中各图像帧的关联关系来确定图像帧的第一权重,进而基于每个图像帧的第一权重,对各图像帧进行融合,再基于融合后的结果,提取得到目标对象的轨迹特征,即在进行轨迹特征提取时,考虑了视频流中帧与帧之间的关系,从而得到更好的特征表达效果,提升处理效果。
Description
技术领域
本申请实施例涉及图像处理技术领域,具体而言,本申请实施例涉及一种图像处理方法、模型、装置、电子设备及可读存储介质。
背景技术
在图像处理以及计算机视觉等领域,利用视频对目标进行跟踪逐渐成为一个新兴应用方向。该技术能够实现用摄像设备代替人眼,用计算机来代替人脑,从而协助人来完成对目标的监控、分析或预警等。目前,在智能家居、虚拟现实、智能可穿戴设备、大型监控系统等场景中,该技术具有广阔的应用前景和巨大的经济价值,得到了国内外学者以及研究机构的关注。
由于针对目标拍摄的视频会存在清晰度、遮挡程度、图像质量等方面的不同情况,在对视频中目标轨迹进行处理时,视频的每一帧的重要性是不同的,可以通过计算每一帧图像重要性来得到更好的处理结果。这种处理方式被称为注意力机制。
然而,现有的注意力机制通常只考虑每一帧图像本身的情况,而目标的信息或行为通常需要在一系列的表现中通过一些特殊的动作或形象来体现,若只考虑每一帧图像本身的情况,会使处理效果不理想。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
第一方面,本申请实施例提供了一种图像处理方法,该方法包括:
获取关于目标对象的视频流;
对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重;
根据每个所述图像帧的第一权重,对各所述图像帧进行融合;
基于融合后的结果,提取得到所述目标对象的轨迹特征。
在一种可选的实现方式中,所述根据每个所述图像帧的第一权重,对各所述图像帧进行融合,包括:
对于每个所述图像帧,根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重;
根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合。
在一种可选的实现方式中,所述根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合,包括:
将每个所述图像帧的第一权重和第二权重融合,得到每个所述图像帧的第三权重;
根据每个所述图像帧的第三权重,对各所述图像帧进行融合。
在一种可选的实现方式中,所述关联关系包括图像帧之间的关系特征,所述对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重,包括:
分别提取各个所述图像帧的图像特征;
将各个所述图像帧的图像特征两两组合而成的每个特征对分别进行关系特征提取,得到所述每个特征对所对应的关系特征;
对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征,得到每个所述图像帧的第一权重。
在一种可选的实现方式中,所述对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征,得到每个所述图像帧的第一权重,包括:
分别根据所述每个特征对所对应的关系特征,确定所述每个特征对所对应的权重分量,每个权重分量用于表征相应的特征对所对应的两个图像帧之间的相互影响程度;
对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征所对应的权重分量,得到每个所述图像帧的第一权重。
在一种可选的实现方式中,所述根据每个所述图像帧的第一权重,对各所述图像帧进行融合,包括:
分别提取各个所述图像帧的特征图像;
根据每个所述图像帧的第一权重,对各个所述图像帧的特征图像进行融合,得到所述视频流的轨迹特征图;
所述基于融合后的结果,提取得到所述目标对象的轨迹特征,包括:
基于所述轨迹特征图,提取得到所述目标对象的轨迹特征。
在一种可选的实现方式中,所述得到所述目标对象的轨迹特征之后,还包括:
基于所述目标对象的轨迹特征,针对所述目标对象进行相应的处理。
在一种可选的实现方式中,基于所述目标对象的轨迹特征,针对所述目标对象进行相应的处理,包括:
确定所述目标对象的轨迹特征与待匹配的轨迹特征的相似度;
根据所述目标对象的轨迹特征与所述待匹配的轨迹特征的相似度,确定所述目标对象与所述待匹配的轨迹特征所对应的对象是否为同一对象。
第二方面,本申请实施例提供了一种图像处理模型,该模型包括:
依次级联的图像权重确定模块、时序融合模块和轨迹特征提取模块;
所述图像权重确定模块用于对于关于目标对象的视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,得到每个所述图像帧的第一权重;
所述时序融合模块用于根据每个所述图像帧的第一权重,对各所述图像帧进行融合,得到融合后的结果;
所述轨迹特征提取模块用于基于所述融合后的结果,提取得到所述目标对象的轨迹特征。
在一种可选的实现方式中,所述图像权重确定模块还用于:
对于每个所述图像帧,根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重;
所述时序融合模块具体用于根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合。
在一种可选的实现方式中,所述图像权重确定模块包括依次级联的特征图提取模块、图像特征提取模块和第一注意力机制模块,其中,所述特征图提取模块的输出以及所述第一注意力机制模块的输出均与所述时序融合模块的输入连接;
所述特征图提取模块用于对所述视频流中的各个图像帧分别进行特征图提取,得到所述视频流中的各个图像帧分别对应的特征图;
所述图像特征提取模块用于对各个特征图分别进行图像特征提取,得到所述各个特征图分别对应的图像特征;
所述第一注意力机制模块用于根据每个所述图像帧所对应的各个特征对,得到每个所述图像帧的第一权重,其中,对于一个所述图像帧,所述图像帧所对应的各个特征对包括所述图像帧的图像特征与所述视频流中各图像帧的图像特征分别两两组合而成的特征对;
所述时序融合模块具体用于根据每个所述图像帧的第一权重,对各个所述图像帧的特征图像进行融合,得到所述视频流的轨迹特征图;
所述轨迹特征提取模块具体用于基于所述轨迹特征图,提取得到所述目标对象的轨迹特征。
在一种可选的实现方式中,在所述图像权重确定模块用于根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重时,所述图像权重确定模块还包括第二注意力机制模块,所述第二注意力机制模块的输入与所述特征图提取模块连接,所述第二注意力机制模块的输出与所述时序融合模块相连;
所述第二注意力机制模块具体用于根据每个所述图像帧的特征图,确定每个所述图像帧的第二权重;
所述时序融合模块具体用于根据每个所述图像帧的第一权重和第二权重,对各所述图像帧的特征图进行融合,得到所述视频流的轨迹特征图。
在一种可选的实现方式中,所述第一注意力机制模块包括依次级联的多层感知机、全连接层和平均处理单元;
所述多层感知机用于对各个所述图像帧提取的图像特征两两组合而成的每个特征对进行关系特征提取,得到所述每个特征对所对应的关系特征;
所述全连接层用于根据所述每个特征对所对应的关系特征,确定所述每个特征对所对应的权重分量;
所述平均处理单元用于对于每个所述图像帧,根据所述图像帧所对应的各关系特征所对应的权重分量,得到所述图像帧的第一权重。
第三方面,本申请实施例提供了一种图像处理装置,该装置包括:
获取模块,用于获取关于目标对象的视频流;
权重确定模块,用于对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重;
融合模块,用于根据每个所述图像帧的第一权重,对各所述图像帧进行融合;
轨迹特征提取模块,用于基于融合后的结果,提取得到所述目标对象的轨迹特征。
在一种可选的实现方式中,所述权重确定模块还用于对于每个所述图像帧,根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重;
所述融合模块在用于根据每个所述图像帧的第一权重,对各所述图像帧进行融合时,具体用于:
根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合。
在一种可选的实现方式中,所述融合模块在用于根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合时,具体用于:
将每个所述图像帧的第一权重和第二权重融合,得到每个所述图像帧的第三权重;
根据每个所述图像帧的第三权重,对各所述图像帧进行融合。
在一种可选的实现方式中,所述关联关系包括图像帧之间的关系特征,该装置还包括:
图像特征提取模块,用于分别提取各个所述图像帧的图像特征;
所述权重确定模块在用于对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重时,具体用于:
将各个所述图像帧的图像特征两两组合而成的每个特征对分别进行关系特征提取,得到所述每个特征对所对应的关系特征;
对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征,得到每个所述图像帧的第一权重。
在一种可选的实现方式中,所述权重确定模块在用于对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征,得到每个所述图像帧的第一权重时,具体用于:
分别根据所述每个特征对所对应的关系特征,确定所述每个特征对所对应的权重分量,每个权重分量用于表征相应的特征对所对应的两个图像帧之间的相互影响程度;
对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征所对应的权重分量,得到每个所述图像帧的第一权重。
在一种可选的实现方式中,所述图像特征提取模块用于分别提取各个所述图像帧的特征图像;
所述融合模块在用于根据每个所述图像帧的第一权重,对各所述图像帧进行融合时,具体用于:
根据每个所述图像帧的第一权重,对各个所述图像帧的特征图像进行融合,得到所述视频流的轨迹特征图;
所述轨迹特征提取模块在用于基于融合后的结果,提取得到所述目标对象的轨迹特征时,具体用于:
基于所述轨迹特征图,提取得到所述目标对象的轨迹特征。
在一种可选的实现方式中,该装置还包括:
处理模块,用于基于所述目标对象的轨迹特征,针对所述目标对象进行相应的处理。
在一种可选的实现方式中,所述处理模块在用于基于所述目标对象的轨迹特征,针对所述目标对象进行相应的处理时,具体用于:
确定所述目标对象的轨迹特征与待匹配的轨迹特征的相似度;
根据所述目标对象的轨迹特征与所述待匹配的轨迹特征的相似度,确定所述目标对象与所述待匹配的轨迹特征所对应的对象是否为同一对象。
第四方面,本申请实施例提供了一种电子设备,该电子设备包括:
处理器和存储器,存储器存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本申请的第一方面或第一方面的任一可选的实现方式中所示的方法。
第五方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质用于存储计算机指令、程序、代码集或指令集,当计算机指令、程序、代码集或指令集在计算机上运行时,使得计算机执行如本申请的第一方面或第一方面的任一可选的实现方式中所示的方法。
本申请实施例提供的图像处理方法、模型、装置、电子设备及可读存储介质,对于视频流中的每个图像帧,都会根据图像帧与视频流中各图像帧的关联关系来确定图像帧的第一权重,进而基于每个图像帧的第一权重,对各图像帧进行融合,再基于融合后的结果,提取得到目标对象的轨迹特征,即在进行轨迹特征提取时,考虑了视频流中帧与帧之间的关系,使得处理过程可以结合目标对象的综合情况,从而得到更好的特征表达效果,提升处理效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图做简单的介绍。
图1为本申请实施例提供的一种图像处理方法的流程示意图;
图2为本申请实施例提供的跨帧注意力机制的流程示意图一;
图3为本申请实施例提供的跨帧注意力机制方法的流程示意图二;
图4为本申请实施例提供的一种图像处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请的发明人经研究发现,现有的注意力技术通常只考虑帧本身的内容,然而除了自身内容,在计算每个图像帧的注意力时应该考虑这一帧和其它帧的关联,会达到更好的效果,例如在通过人体轨迹实现人身份的识别时,视频流中若存在一些人朝向为正面的图像帧以及一些人朝向为背面的图像帧,那么具有正面人体信息的图像帧会给予更高的重要性。但现有技术没有考虑这种跨帧关联,如果仅仅考虑每一帧图像本身的情况,是无法得到这种综合的图像情况的,那么将会严重影响目标轨迹的处理效果。
基于此,本申请实施例提供了一种新的注意力机制,相比以往时序注意力机制中只基于轨迹中每个图像帧本身内容来决定注意力权重的方法,本申请实施例提出一种考虑轨迹中多帧间关联的跨帧注意力机制,通过构建帧间关系网络来计算跨帧注意力权重。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种图像处理方法,如图1所示,该方法包括:
步骤S110:获取关于目标对象的视频流;
其中,目标对象为能够产生移动路径的物体。具体地,目标对象可以为具有生命的物体,例如人体、动物等,也可以为不具有生命的物体,例如车辆、机器人等。在实际应用中,可以通过接收用户的输入指令、或者以缺省的方式、或者根据预设的算法等手段来确定目标对象,本申请实施例在此不作限定。
进一步地,关于目标对象的视频流是指针对目标对象采集的包含其移动轨迹的图像集合,视频流中的各图像帧是具有时序信息的图像帧。实际应用中,视频流可以是采集设备采集的包含该目标对象的完整图像集合,也可以是在完整图像集合中使用追踪算法得到的该目标对象的移动路径或该目标对象的移动路径上的检测框串联而成的图像序列,因此,关于目标对象的视频流也可称为关于目标对象的轨迹图像序列。
步骤S120:对于视频流中的每个图像帧,根据每个图像帧与视频流中各图像帧的关联关系,确定每个图像帧的第一权重;
具体地,假设视频流中共有L个图像帧,对于每一个图像帧,可以根据该帧与视频流中各帧之间的关联关系来确定该帧的第一权重,如对应第一帧,可以根据第一帧和L个图像帧中各帧之间的关联关系,得到第一帧的第一权重。
通过该步骤,可以得到视频流中的每个图像帧的第一权重,由于每个图像帧的第一权重是基于该帧与视频流中各帧之间的关联关系确定的,因此,每个图像帧的第一权重可以有效的体现出每个图像帧在视频流中的重要性,也就是说,每个图像帧的重要性(第一权重)都是结合视频流中各图像帧得到的。
实际应用中,这种计算每个图像帧重要性的方法为一种新的注意力机制,因此第一权重也可称为第一注意力权重或跨帧注意力权重。
具体而言,可以针对每个图像帧提取特征图(feature-map),该步骤可以基于各图像帧的特征图进行处理。进一步地,还可以针对每个特征图提取图像特征,该步骤可以基于图像特征进行处理。
步骤S130:基于每个图像帧的第一权重,对各图像帧进行融合;
其中,该步骤可以基于特征图进行处理,具体的各图像帧的融合方式可以包括:特征相加、特征平均或通道拼接等方式,并在融合过程中,结合各图像帧分别对应的第一权重,得到融合后的结果。作为示例地,根据各个图像帧的特征图像和对应的第一权重,对图像帧的特征图像进行加权平均,得到视频流的轨迹特征图,即可以通过各图像帧分别对应的第一权重分别对各图像帧进行加权后,再对加权后的各图像帧进行特征平均处理。
步骤S140:基于融合后的结果,提取得到目标对象的轨迹特征。
其中,轨迹特征是指能够反映目标对象的移动轨迹的特征的数据,实际应用中,轨迹特征可通过但不限于以下至少一项进行表示:目标对象的移动轨迹上若干个特征点的位置信息、目标对象的移动轨迹的角度变换、移动轨迹的长度等,本申请实施例对此不做限定。
由于视频流包含目标对象的移动轨迹,即融合后的结果中也包含目标对象的移动轨迹级别的内容,基于此来提取目标对象的轨迹特征,考虑了视频流帧与帧之间的关系(也可称为跨帧关系或帧间关系),提高了轨迹特征的表达能力。
因此,本申请实施例提供的图像处理方法,对于视频流中的每个图像帧,都会根据图像帧与视频流中各图像帧的关联关系来确定图像帧的第一权重,进而基于每个图像帧的第一权重,对各图像帧进行融合,再基于融合后的结果,提取得到目标对象的轨迹特征,即在进行轨迹特征提取时,考虑了视频流中帧与帧之间的关系,使得处理过程可以结合目标对象的综合情况,从而得到更好的特征表达效果,提升处理效果。
本申请实施例中,在采用上述方案提取目标对象的轨迹特征时,还可以同时从视频流的每个图像帧本身的内容来考虑各图像帧的重要性,进一步提升轨迹特征的表达能力。
具体地,可以在步骤S130中,执行以下步骤:
步骤S131:对于每个图像帧,根据每个图像帧的图像内容,确定每个图像帧的第二权重;
通过该步骤,可以得到视频流中的每个图像帧的第二权重,分别用于从每个图像帧的自身内容,例如遮挡情况、清晰度等体现每个图像帧的重要性。
其中,第二权重也可称为第二注意力权重或帧内注意力权重。
具体而言,可以针对每个图像帧提取特征图,该步骤可以基于特征图进行处理。进一步地,还可以针对每个特征图提取图像特征,该步骤可以基于图像特征进行处理。
实际应用中,该步骤也可以在步骤S130之前执行,例如与步骤S120同时执行或分别执行,本申请实施例在此不做限定。
步骤S132:根据每个图像帧的第一权重和第二权重,对各图像帧进行融合。
此时,融合后的结果中既融入了通过视频流帧与帧之间的关系得到的各图像帧的重要性,也融入了通过各图像帧自身的内容得到的各图像帧的重要性,进而执行步骤S140来提取目标对象的轨迹特征,进一步有效提高了轨迹特征的表达能力。
本申请实施例中,为步骤S132提供了一种可行的实现方式,具体地,包括如下步骤:
步骤S1321:将每个图像帧的第一权重和第二权重融合,得到每个图像帧的第三权重;
其中,每个图像帧的第一权重和每个图像帧的第二权重都是用来体现图像帧的重要性的,因此可以进行结合来体现图像帧总的重要性。即针对每个图像帧,根据图像帧的第一权重和第二权重来计算第三权重。一种实施方式中,可以针对每个图像帧,将图像帧的第一权重和第二权重进行融合来得到第三权重,例如可采用但不限于以下任一种方式:
可选地,针对每个图像帧,直接将图像帧的第一权重和第二权重相加,得到图像帧的第三权重。
可选地,针对每个图像帧,直接将图像帧的第一权重和第二权重求均值,得到图像帧的第三权重。
可选地,针对每个图像帧,将图像帧的第一权重和第二权重分别加权后,再进行相加,得到图像帧的第三权重。由于第一权重和第二权重的来源不同,对最终结果的贡献度也可能不同,可以对图像帧的第一权重和第二权重分别分配不同的权重,例如给每个图像帧的第一权重分配较高的权重,给每个图像帧的第二权重分配较低的权重,分别进行加权相加,或者也可以采取其他权重分配方式,本领域技术人员可以根据实际情况进行设置,本申请实施例在此不做限定。其中,给各个图像帧的第一权重分配的权重可以相同也可以不同,同理地,给各个图像帧的第二权重分配的权重可以相同也可以不同,本申请实施例在此也不做限定。
可选地,针对每个图像帧,将图像帧的第一权重和第二权重进行加权平均,得到图像帧的第三权重,其中,对图像帧的第一权重和第二权重分别进行加权的方式可参见上述介绍,在此不再赘述。
步骤S1322:根据每个图像帧的第三权重,对各图像帧进行融合。
其中,该步骤可以基于特征图进行处理,具体的各图像帧的融合方式可以包括:特征相加、特征平均或通道拼接等方式,并在融合过程中,结合各图像帧分别对应的第三权重,得到融合后的结果。作为示例地,根据各个图像帧的特征图像和对应的第三权重,对各个图像帧的特征图像进行加权平均,得到视频流的轨迹特征图,即可以通过各图像帧分别对应的第三权重分别对各图像帧进行加权后,再对加权后的各图像帧进行特征平均处理。
其中,每个图像帧的第三权重是根据每个图像帧的第一权重和第二权重得到的,此时,融合后的结果中也同时融入了通过视频流帧与帧之间的关系得到的各图像帧的重要性,以及通过各图像帧自身的内容得到的各图像帧的重要性,进而执行步骤S140来提取目标对象的轨迹特征,进一步有效提高了轨迹特征的表达能力。而在得到第三权重后再来执行步骤S140,可以简化计算过程,有效提升处理效率。
本申请实施例中,步骤S140具体可通过全局平均池化层(Global AveragePooling,简称GAP)和全连接层(Fully connected layer,简称FC)对融合后的结果进行处理,得到目标对象的轨迹特征。
本申请实施例中,为步骤S120提供了一种可行的实现方式,具体地,关联关系包括图像帧之间的关系特征,那么针对视频流中每个图像帧,可以分别确定每个图像帧与视频流中各图像帧间的关系特征;
具体地,假设视频流中包含L个图像帧,对于每个图像帧,都需要确定其与视频流中L个图像帧之间的关联关系对应的关系特征,即每个图像帧可得到对应的L个关系特征,则L个图像帧共可得到L*L个关系特征。其中,每个关系特征都对应两个图像帧,用来体现这两个图像帧中目标对象的关联性。进一步地,再针对视频流中每个图像帧,根据图像帧所对应的各个关系特征,确定出图像帧的第一权重。
本申请实施例中,该过程可具体通过以下步骤实现:
步骤S121:分别提取各个图像帧的图像特征(也可称为帧级别图像特征);
本申请实施例中,可以利用训练后的骨干网络(Backbone Network,也可称为帧级别骨干网络)来对步骤S121进行处理,即将关于目标对象的视频流输入至骨干网络,接上例,假设视频流中包含L个图像帧,则骨干网络会输出L个图像特征,其中,图像特征可以表现为向量的形式,每个图像特征的特征长度(特征向量的长度)可以用C进行表示,即骨干网络会输出L个长度为C的图像特征,分别对应视频流的L个图像帧。
实际应用中,骨干网络可采用卷积神经网络(Convolutional Neural Networks,CNN),例如可以为resnet(Residual Neural Network,残差神经网络)、vgg(VisualGeometry Group Network,视觉几何组网络)、densenet(Densely ConnectedConvolutional Networks,密集连接卷积网络)、nasnet(基于神经结构搜索架构构建的神经网络模型)等,本申请实施例对此不作限定。
步骤S122:将各个图像帧的图像特征两两组合而成的每个特征对分别进行关系特征提取,得到每个特征对所对应的关系特征。
接上例,假设视频流中包含L个图像帧,各个图像帧的图像特征两两组合,会得到L*L对特征对。本申请实施例中,可以将L*L对特征对分别输入至训练后的多层感知机(Multi-Layer Perception,MLP)中进行关系特征提取。多层感知机是一种前向结构的人工神经网络,能够映射一组输入向量到一组输出向量,也就是说,多层感知机能够将输入的一对特征对映射为一个关系特征,由于关系特征中包含特征对所对应的两个图像帧的图像特征,因此能够涵盖这两个图像帧的关联关系。最后,多层感知机输出L*L个关系特征,每个关系特征的特征长度也可以为C,即多层感知机输出L*L个特征长度为C的关系特征
其他实施例中,该步骤也可以利用训练后的关系网络来进行处理,关系网络中包含多层感知机,即将L个图像特征输入至关系网络,关系网络会先将L个图像帧的图像特征两两组合(每个图像帧的图像特征分别和L个图像帧的图像特征进行组合),得到L*L对特征对,再利用多层感知机对L*L对特征对进行关系特征提取,输出L*L个关系特征,同时作为关系网络的输出。
步骤S123:对于每个图像帧,根据每个图像帧所对应的各关系特征,得到每个图像帧的第一权重;
接上例,假设视频流中包含L个图像帧,即对于任一个图像帧,都需要根据其所对应的L个关系特征来确定第一权重,这样,便可基于跨帧关系得到的该图像帧的重要性。那么对于视频流中的L个图像帧,都可按照该方式得到对应的第一权重。
本申请实施例中,为步骤S123提供了一种可行的实现方式,具体地,针对视频流中每个图像帧,可以包括如下步骤:
分别根据每个特征对所对应的关系特征,确定每个特征对所对应的权重分量,每个权重分量用于表征相应的特征对所对应的两个图像帧之间的相互影响程度;对于每个图像帧,根据每个图像帧所对应的各关系特征所对应的权重分量,得到每个图像帧的第一权重。
接上例,假设视频流中包含L个图像帧,本申请实施例中,可以将L*L个关系特征分别输入至训练后的一个全连接层(也可称为全连接层分离器)中,全连接层分离器会分别对每个关系特征进行处理,输出L*L个关系特征分别对应的权重分量。其中,权重分量可以以实数值的形式输出。这样,该L*L个权重分量可以表现为矩阵(例如i*j矩阵,其中i=j)的形式,每一个权重分量代表了第i个图像帧关联第j个图像帧得到的注意力,即第i个图像帧与第j个图像帧之间的相互影响程度。
进一步地,对第n(n≤i,n≤j)个图像帧所对应的各个关系特征分别对应的数值求均值,即对这个注意力矩阵的第n行或第n列求均值,即可得到第n个图像帧的第一权重,也就是说,对这个注意力矩阵的每一行或每一列求均值后,就得到了每个图像帧的第一注意力权重。
基于上述各实施例,如图2所示,本申请实施例为步骤S120提供了一种可行的完整实现过程,以视频流中包含L个(图中示出的为7个)图像帧为例,将关于目标对象的视频流输入至骨干网络,骨干网络会分别对L张图像进行特征提取,输出L个的图像特征,将L个图像特征输入至关系网络,如图2中所示,该示例中关系网络中会进行以下处理,将L个图像帧的图像特征两两组合,得到L*L对特征对。将L*L对特征对分别输入至多层感知机(对应图2中的MLP)中,多层感知机输出L*L个关系特征,即为关系网络的输出。将关系网络输出的L*L个关系特征输入至全连接层分离器(对应图2中的FC)中,全连接层分离器输出注意力矩阵。对注意力矩阵的每一行或每一列求均值后,就得到了每个图像帧的第一权重。
实际应用中,可以将图2所示的关系网络、全连接层分离器、以及求均值的单元封装为第一注意力机制模块(也可称为跨帧注意力机制模块),将视频流中提取的各个图像帧的图像特征输入至第一注意力机制模块,第一注意力机制模块即可输出各个图像帧的第一权重。
本申请实施例中,针对步骤S131,也可训练一个第二注意力机制模块(也可称为帧内注意力机制模块)来确定每个图像帧的第二权重,本申请实施例不对第二注意力机制模块的结构做具体限定。将视频流中提取的各个图像帧的图像特征分别输入至第二注意力机制模块,第二注意力机制模块即可输出各个图像帧的第二权重。
基于上述各实施例,如图3所示,本申请实施例为步骤S110~步骤S140提供了一种可行的完整实现过程,首先通过深度卷积网络对视频流中的每个图像帧进行特征图提取,图3中以深度卷积网络为ResNet为例,视频流中的每个图像帧在经过ResNet中的4个残差模块(ResBlock,简称RB)后输出得到每个图像帧的特征图。将每个图像帧的特征图分别输入全局平均池化层和全连接层(对应图3左侧的GAP/FC层)降维后变成每个图像帧的图像特征。将这些图像特征分别作为帧内注意力机制模块(即上述第二注意力机制模块)和跨帧注意力机制模块(即上述第一注意力机制模块)的输入,得到每个图像帧的两种注意力权重,每个图像帧的两种注意力权重经过加权平均(对应图3中的“+”)便可得到每个图像帧最终的注意力权重(即上述第三权重)。本实施例中,全局平均池化层、全连接层、帧内注意力机制模块和跨帧注意力机制模块可以封装为一个注意力模块,如图3所示,将提取每个图像帧的特征图输入该注意力模块,即可输出每个图像帧的第一权重和第二权重。其他实施例中,4个残差模块、全局平均池化层和全连接层可封装为一个骨干网络(对应图2中的骨干网络),通过骨干网络可直接从视频流的每个图像帧得到每个图像帧的图像特征,从而分别作为帧内注意力机制模块和预设的跨帧注意力机制模块的输入进行处理。在得到每个图像帧的第三权重后,将每个图像帧的第三权重输入到时序融合模块中,该时序融合模块的另一个输入是4个残差模块输出每个图像帧的特征图。时序融合模块会基于第三权重对每个图像帧的特征图进行加权平均,得到轨迹级别的特征图(对应步骤S130得到的融合后的结果),再输入一个全局平均池化层和全连接层(对应图3右侧的GAP/FC层)得到目标对象的轨迹特征。
结合上述各实施例,本申请实施例提供的用于执行步骤S110~步骤S140的网络模型为基于跨帧注意力机制构建的一种新的图像处理模型,该模型包括:依次级联的图像权重确定模块、时序融合模块和轨迹特征提取模块。
其中,图像权重确定模块用于对于关于目标对象的视频流中的每个图像帧,根据每个图像帧与视频流中各图像帧的关联关系,得到每个图像帧的第一权重。
即在实际应用中,将获取的关于目标对象的视频流中的各图像帧输入至图像权重确定模块,图像权重确定模块会输出每个图像帧的第一权重。
时序融合模块用于根据每个图像帧的第一权重,对各图像帧进行融合,得到融合后的结果。
即在实际应用中,将第一注意力机制模块输出的视频流中的每个图像帧的第一权重输入至时序融合模块,时序融合模块会输出融合后的结果。
轨迹特征提取模块用于基于融合后的结果,提取得到目标对象的轨迹特征。
即在实际应用中,将时序融合模块输出的融合后的结果输入至轨迹特征提取模块,轨迹特征提取模块会输出目标对象的轨迹特征。
本申请实施例中,图像权重确定模块还用于:
对于每个图像帧,根据每个图像帧的图像内容,确定每个图像帧的第二权重;
即在实际应用中,将视频流中的各个图像帧输入至图像权重确定模块,图像权重确定模块除了会输出每个图像帧的第一权重外,还会输出每个图像帧的第二权重。
此时,时序融合模块具体用于根据每个图像帧的第一权重和第二权重,对各图像帧进行融合。
即在实际应用中,第一注意力机制模块输出的视频流中的每个图像帧的第一权重输入至时序融合模块时,同时将第二注意力机制模块输出的每个图像帧的第二权重输入至时序融合模块,时序融合模块会输出融合后的结果。
本申请实施例中,该模型还可以包括:图像权重确定模块包括依次级联的特征图提取模块、图像特征提取模块和第一注意力机制模块,其中,特征图提取模块的输出以及第一注意力机制模块的输出均与时序融合模块的输入连接
其中,特征图提取模块用于对视频流中的各个图像帧分别进行特征图提取,得到视频流中的各个图像帧分别对应的特征图;
即在实际应用中,将获取的关于目标对象的视频流输入至述特征图提取模块,特征图提取模块会输出视频流中的各个图像帧分别对应的特征图;
图像特征提取模块用于对各个特征图分别进行图像特征提取,得到各个特征图分别对应的图像特征;
即在实际应用中,将特征图提取模块输出的各个特征图输入至图像特征提取模块,图像特征提取模块会输出各个特征图分别对应的图像特征;
第一注意力机制模块用于根据每个图像帧所对应的各个特征对,得到每个图像帧的第一权重,其中,对于一个图像帧,图像帧所对应的各个特征对包括图像帧的图像特征与视频流中各图像帧的图像特征分别两两组合而成的特征对;
即在实际应用中,将图像特征提取模块输出的各个特征图分别对应的图像特征输入至第一注意力机制模块,第一注意力机制模块会输出每个图像帧的第一权重。
此时,时序融合模块具体用于根据每个图像帧的第一权重,对各个图像帧的特征图像进行融合,得到视频流的轨迹特征图;
即在实际应用中,将特征图提取模块输出的各个特征图,以及第一注意力机制模块输出的视频流中的每个图像帧的第一权重输入至时序融合模块,时序融合模块会输出轨迹特征图。
以及此时,轨迹特征提取模块具体用于基于轨迹特征图,提取得到目标对象的轨迹特征。
即在实际应用中,将时序融合模块输出的轨迹特征图输入至轨迹特征提取模块,轨迹特征提取模块会输出目标对象的轨迹特征。
进一步地,在图像权重确定模块用于根据每个图像帧的图像内容,确定每个图像帧的第二权重时,图像权重确定模块还包括第二注意力机制模块,第二注意力机制模块的输入与特征图提取模块连接,第二注意力机制模块的输出与时序融合模块相连;
此时,第二注意力机制模块具体用于根据每个图像帧的特征图,确定每个图像帧的第二权重。
即在实际应用中,将图像特征提取模块输出的各个特征图分别对应的图像特征输入至第二注意力机制模块,第二注意力机制模块会输出每个图像帧的第二权重。
此时,时序融合模块具体用于根据每个图像帧的第一权重和第二权重,对各图像帧的特征图进行融合,得到视频流的轨迹特征图。
即在实际应用中,将特征图提取模块输出的各个特征图、第一注意力机制模块输出的视频流中的每个图像帧的第一权重、以及第二注意力机制模块输出的每个图像帧的第二权重输入至时序融合模块,时序融合模块会输出轨迹特征图。
以及此时,轨迹特征提取模块具体用于基于轨迹特征图,提取得到目标对象的轨迹特征。
即在实际应用中,将时序融合模块输出的轨迹特征图输入至轨迹特征提取模块,轨迹特征提取模块会输出目标对象的轨迹特征。
本申请实施例中,该模型还可以包括权重融合模块,用于将每个图像帧的第一权重和第二权重融合,得到每个图像帧的第三权重。
此时,时序融合模块具体用于根据每个图像帧的第三权重,对各图像帧进行融合。
其他实施例中,权重融合模块也可以包含在时序融合模块中,直接由时序融合模块基于每个图像帧的第一权重和第二权重,计算得到每个图像帧的第三权重,并根据每个图像帧的第三权重,对各图像帧进行融合。
或者权重融合模块也可以包含在图像权重确定模块中,在图像权重确定模块得到每个图像帧的第一权重和第二权重后,计算得到每个图像帧的第三权重,将第三权重输入时序融合模块,以使得时序融合模块根据每个图像帧的第三权重,对各图像帧进行融合。
一个模型的示例中,该模型的第一注意力机制模块可以对应图3的跨帧注意力机制模块;时序融合模块可以对应图3的时序融合模块;轨迹特征提取模块可以对应图3中右侧的全局平均池化层和全连接层;特征图提取模块可以对应图3的4个残差模块;图像特征提取模块可以对应图3中左侧全局平均池化层和全连接层;第二注意力机制模块可以对应图3的帧内注意力机制模块;权重融合模块可以对应图3的“+”。其中,图3的4个残差模块、右侧的全局平均池化层和全连接层、跨帧注意力机制模块、和帧内注意力机制模块可以构成图像权重确定模块。模型的运行方式可参见上文中的描述,在此不再赘述。
本申请实施例中,第一注意力机制模块包括依次级联的多层感知机、全连接层和平均处理单元;
多层感知机用于对各个图像帧提取的图像特征两两组合而成的每个特征对进行关系特征提取,得到每个特征对所对应的关系特征;
即在实际应用中,将各个图像帧提取的图像特征两两组合而成的每个特征对输入至多层感知机,多层感知机会输出每个特征对所对应的关系特征;
进一步地,可以由一个组合单元将各个图像帧提取的图像特征两两组合成特征对。
即将各个图像帧提取的图像特征输入至组合单元,组合单元输出各个特征对,在输入至多层感知机中。
更进一步的,组合单元和多层感知机可以组成关系网络,即将各个图像帧提取的图像特征输入至关系网络,关系网络输出每个特征对所对应的关系特征。
全连接层用于根据每个特征对所对应的关系特征,确定每个特征对所对应的权重分量;
即在实际应用中,将多层感知机或关系网络输出每个特征对所对应的权重分量输出至全连接层,全连接层输出每个特征对所对应的权重分量。
平均处理单元用于对于每个图像帧,根据图像帧所对应的各关系特征所对应的权重分量,得到图像帧的第一权重。
其中平均处理单元的执行过程可参见上文中对注意力矩阵的处理,在此不再赘述。
本申请实施例中,用于训练上述模型的训练集(batch)包含多个人体轨迹(视频流),每个人体轨迹包含若干张人体图像。将训练集输入网络进行前向计算,使用预设的损失函数来计算损失,以基于损失对模型进行反向梯度更新。其中,损失函数可以采用crossentropy loss、triple loss,arcface loss等,本申请实施例对此不做限定。
这样,便可使用训练好的网络进行目标对象轨迹特征的提取,将关于目标对象的视频流输入网络,输出目标对象的轨迹特征。
本申请实施例中,在得到目标对象的轨迹特征后,基于目标对象的轨迹特征,针对目标对象进行相应的处理。
作为示例地,可将其应用于视频行人重识别技术(Person ReID,Person Re-identification),利用得到人体轨迹特征进行检索,例如检索不同摄像头下的同一行人,又例如监控某摄像头下出现的每一个行人的行动路线等,可以应用于大型商场项目,为商场管理人员呈现每一位顾客在商场中进出的门店,顾客身份信息等。
可以理解,上述场景仅为示例,本领域技术人员可以根据实际情况基于上述范例进行适当的变化,以应用于其他场景。
本申请实施例中,提供了一种可行的实现方式,具体地,包括步骤:
步骤SA:确定目标对象的轨迹特征与待匹配的轨迹特征的相似度;
步骤SB:根据目标对象的轨迹特征与待匹配的轨迹特征的相似度,确定目标对象与待匹配的轨迹特征所对应的对象是否为同一对象。
本申请实施例中,对于检索场景,一种可行的实现方式中,待匹配的轨迹特征可以为数据库中的轨迹特征,此时:
步骤SA可以包括:确定目标对象的轨迹特征与数据库中的轨迹特征的相似度;
其中,数据库可以是任意类型的数据库,数据库中可以存储有不同对象的轨迹特征,在提取到目标对象的轨迹特征后,可以通过比对目标对象的轨迹特征与数据库中存储的对象的轨迹特征,比对相似度时可以逐一提取数据库中的轨迹特征进行比对,基于轨迹特征对的比对结果,可以判断目标对象的轨迹特征与数据库中某一轨迹特征是否为同一对象的轨迹特征,具体的,若目标对象的轨迹特征与数据库中某一轨迹特征的相似度大于设定阈值,则可以确定目标对象与该某一轨迹特征所对应的对象为同一对象。在实际应用中,若数据库中还可以存储有其所存储的各轨迹特征所对应的对象的相关信息,如对象的身份信息等,则在确定目标对象与上述某一轨迹特征所对应的对象为同一对象后,即可确定出该目标对象的各种相关信息。
通过将目标对象的轨迹特征与数据库中的每一条轨迹特征进行逐一比对,每次比对,会获得目标对象的轨迹特征与数据库中一个轨迹特征的相似度。实际应用中,可以使用余弦距离或欧氏距离等距离度量计算轨迹特征间的相似度。
步骤SB可以包括:根据目标对象的轨迹特征与数据库中的轨迹特征的相似度,确定目标对象是否为数据库中的轨迹特征所对应的对象。
实际应用中,可以在比对过程中,若确定出目标对象的轨迹特征与数据库中任一个轨迹特征的相似度超过阈值时,直接将该数据库的轨迹特征所对应的对象确定目标对象,并停止比对。也可以比对数据库中的全部轨迹特征后,将相似度最好的数据库中的轨迹特征所对应的对象确定为目标对象。
随后,可以基于该数据库中的对象,对其对应的相关信息进行展示、分析、修改、更新、删除等操作,本申请实施例对此不作限定。
也可以在确定出数据库中不存在与目标对象相同的对象时,在数据库中添加该目标对象相关的信息。
通过本申请实施例提供的跨帧注意力机制,能够有效提高检索的可靠性。
本申请实施例,对于跟踪场景,一种可行的实现方式中,基于目标对象的轨迹特征,对目标对象进行跟踪处理,待匹配的轨迹特征可以为目标对象的历史轨迹特征。
作为示例地,在对目标对象的跟踪过程中可能存在跟踪丢失的情况,为了重新找到目标对象的运动轨迹,可以在其历史轨迹的基础上提取轨迹特征,以判断后续的跟踪方式,以进行跟踪处理。
其他示例中,该过程也可通过预测的方式执行。例如,在对车辆进行跟踪时,根据其当前移动轨迹的轨迹特征,预测接下来车辆的行为为左转弯、右转弯或直行,以进行更好的处理,提高行车的安全性。
通过本申请实施例提供的跨帧注意力机制,能够有效提高跟踪的可靠性。
本申请实施例,还提供一种可行的实现方式,具体地,基于目标对象的轨迹特征,对目标对象的行为进行理解,能够应用于智能监控、对突发情况预警、历史情况追溯等场景。
通过本申请实施例提供的跨帧注意力机制,能够有效提高行为理解的可靠性。
需要说明的是,若存在多个目标对象需要进行处理,均可分别按照本申请的各实施例进行处理。
本申请实施例中,上述第一权重、第二权重、第三权重仅表示对不同类型的权重进行区分,而不能理解对权重大小的限定,实际应用中,权重大小可能相同也可能不同。
本申请提供的技术方案,对于视频流中的每个图像帧,都会根据图像帧与视频流中各图像帧的关联关系来确定图像帧的第一权重,进而基于每个图像帧的第一权重,对各图像帧进行融合,再基于融合后的结果,提取得到目标对象的轨迹特征,即在进行轨迹特征提取时,考虑了视频流中帧与帧之间的关系,使得处理过程可以结合目标对象的综合情况,从而得到更好的特征表达效果,进而在基于轨迹特征进行目标对象的相应处理时,能够有效提高处理的可靠性。
本申请实施例还提供了一种图像处理装置,如图4所示,该图像处理装置40可以包括:获取模块401、权重确定模块402、融合模块403和提取模块404,其中,
获取模块401用于获取关于目标对象的视频流;
权重确定模块402用于对于视频流中的每个图像帧,根据每个图像帧与视频流中各图像帧的关联关系,确定每个图像帧的第一权重;
融合模块403用于根据每个图像帧的第一权重,对各图像帧进行融合;
轨迹特征提取模块404用于基于融合后的结果,提取得到目标对象的轨迹特征。
在一种可选的实现方式中,权重确定模块402还用于对于每个图像帧,根据每个图像帧的图像内容,确定每个图像帧的第二权重;
融合模块403在用于根据每个图像帧的第一权重,对各图像帧进行融合时,具体用于:
根据每个图像帧的第一权重和第二权重,对各图像帧进行融合。
在一种可选的实现方式中,融合模块403在用于根据每个图像帧的第一权重和第二权重,对各图像帧进行融合时,具体用于:
将每个图像帧的第一权重和第二权重融合,得到每个图像帧的第三权重;
根据每个图像帧的第三权重,对各图像帧进行融合。
在一种可选的实现方式中,关联关系包括图像帧之间的关系特征,该装置还包括:
图像特征提取模块,用于分别提取各个图像帧的图像特征;
权重确定模块402在用于对于视频流中的每个图像帧,根据每个图像帧与视频流中各图像帧的关联关系,确定每个图像帧的第一权重时,具体用于:
将各个图像帧的图像特征两两组合而成的每个特征对分别进行关系特征提取,得到每个特征对所对应的关系特征;
对于每个图像帧,根据每个图像帧所对应的各关系特征,得到每个图像帧的第一权重。
在一种可选的实现方式中,权重确定模块402在用于对于每个图像帧,根据每个图像帧所对应的各关系特征,得到每个图像帧的第一权重时,具体用于:
分别根据每个特征对所对应的关系特征,确定每个特征对所对应的权重分量,每个权重分量用于表征相应的特征对所对应的两个图像帧之间的相互影响程度;
对于每个图像帧,根据每个图像帧所对应的各关系特征所对应的权重分量,得到每个图像帧的第一权重。
在一种可选的实现方式中,图像特征提取模块用于分别提取各个图像帧的特征图像;
融合模块403在用于根据每个图像帧的第一权重,对各图像帧进行融合时,具体用于:
根据每个图像帧的第一权重,对各个图像帧的特征图像进行融合,得到视频流的轨迹特征图;
轨迹特征提取模块404在用于基于融合后的结果,提取得到目标对象的轨迹特征时,具体用于:
基于轨迹特征图,提取得到目标对象的轨迹特征。
在一种可选的实现方式中,该装置还包括:
处理模块,用于基于目标对象的轨迹特征,针对目标对象进行相应的处理。
在一种可选的实现方式中,处理模块在用于基于目标对象的轨迹特征,针对目标对象进行相应的处理时,具体用于:
确定目标对象的轨迹特征与待匹配的轨迹特征的相似度;
根据目标对象的轨迹特征与待匹配的轨迹特征的相似度,确定目标对象与待匹配的轨迹特征所对应的对象是否为同一对象。
所属领域的技术人员可以清楚地了解到,本申请实施例提供的图像处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为描述的方便和简洁,装置实施例部分未提及之处,可参考前述方法实施例中相应内容,在此不再赘述。
本申请实施例提供的图像处理装置,会对视频流中的每个图像帧,都根据图像帧与视频流中各图像帧的关联关系来确定图像帧的第一权重,进而基于每个图像帧的第一权重,对各图像帧进行融合,再基于融合后的结果,提取得到目标对象的轨迹特征,即在进行轨迹特征提取时,考虑了视频流中帧与帧之间的关系,使得处理过程可以结合目标对象的综合情况,从而得到更好的特征表达效果,提升处理效果。
本申请实施例还提供了一种电子设备,如图5所示,图5所示的电子设50包括:包括:处理器501和存储器502,存储器502存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器501加载并执行以实现前述方法实施例中相应内容。
可选地,电子设备50还可以包括收发器503。处理器501和收发器503相连,如通过总线504相连。需要说明的是,实际应用中收发器503不限于一个,该电子设备50的结构并不构成对本申请实施例的限定。
其中,处理器501可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线504可包括一通路,在上述组件之间传送信息。总线504可以是PCI总线或EISA总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器502可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
本申请实施例提供的电子设备,可以通过处理器对视频流中的每个图像帧,都根据图像帧与视频流中各图像帧的关联关系来确定图像帧的第一权重,进而基于每个图像帧的第一权重,对各图像帧进行融合,再基于融合后的结果,提取得到目标对象的轨迹特征,即在进行轨迹特征提取时,考虑了视频流中帧与帧之间的关系,使得处理过程可以结合目标对象的综合情况,从而得到更好的特征表达效果,提升处理效果。
本申请实施例还提供了一种可读存储介质,例如为计算机可读存储介质,该计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
获取关于目标对象的视频流;
对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重;
根据每个所述图像帧的第一权重,对各所述图像帧进行融合;
基于融合后的结果,提取得到所述目标对象的轨迹特征。
2.根据权利要求1所述的图像处理方法,其特征在于,所述根据每个所述图像帧的第一权重,对各所述图像帧进行融合,包括:
对于每个所述图像帧,根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重;
根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合。
3.根据权利要求2所述的图像处理方法,其特征在于,所述根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合,包括:
将每个所述图像帧的第一权重和第二权重融合,得到每个所述图像帧的第三权重;
根据每个所述图像帧的第三权重,对各所述图像帧进行融合。
4.根据权利要求1-3任一项所述的图像处理方法,其特征在于,所述关联关系包括图像帧之间的关系特征,所述对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重,包括:
分别提取各个所述图像帧的图像特征;
将各个所述图像帧的图像特征两两组合而成的每个特征对分别进行关系特征提取,得到所述每个特征对所对应的关系特征;
对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征,得到每个所述图像帧的第一权重。
5.根据权利要求4所述的图像处理方法,其特征在于,所述对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征,得到每个所述图像帧的第一权重,包括:
分别根据所述每个特征对所对应的关系特征,确定所述每个特征对所对应的权重分量,每个权重分量用于表征相应的特征对所对应的两个图像帧之间的相互影响程度;
对于每个所述图像帧,根据每个所述图像帧所对应的各关系特征所对应的权重分量,得到每个所述图像帧的第一权重。
6.根据权利要求1-5任一项所述的图像处理方法,其特征在于,所述根据每个所述图像帧的第一权重,对各所述图像帧进行融合,包括:
分别提取各个所述图像帧的特征图像;
根据每个所述图像帧的第一权重,对各个所述图像帧的特征图像进行融合,得到所述视频流的轨迹特征图;
所述基于融合后的结果,提取得到所述目标对象的轨迹特征,包括:
基于所述轨迹特征图,提取得到所述目标对象的轨迹特征。
7.根据权利要求6所述的图像处理方法,其特征在于,所述根据每个所述图像帧的第一权重,对各个所述图像帧的特征图像进行融合,得到所述视频流的轨迹特征图,包括:
根据各个所述图像帧的特征图像和对应的第一权重,对各个所述图像帧的特征图像进行加权平均,得到所述视频流的轨迹特征图。
8.根据权利要求1所述的图像处理方法,其特征在于,所述得到所述目标对象的轨迹特征之后,还包括:
确定所述目标对象的轨迹特征与待匹配的轨迹特征的相似度;
根据所述目标对象的轨迹特征与所述待匹配的轨迹特征的相似度,确定所述目标对象与所述待匹配的轨迹特征所对应的对象是否为同一对象。
9.一种图像处理模型,其特征在于,包括:依次级联的图像权重确定模块、时序融合模块和轨迹特征提取模块;
所述图像权重确定模块用于对于关于目标对象的视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,得到每个所述图像帧的第一权重;
所述时序融合模块用于根据每个所述图像帧的第一权重,对各所述图像帧进行融合,得到融合后的结果;
所述轨迹特征提取模块用于基于所述融合后的结果,提取得到所述目标对象的轨迹特征。
10.根据权利要求9所述的图像处理模型,其特征在于,所述图像权重确定模块还用于:
对于每个所述图像帧,根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重;
所述时序融合模块具体用于根据每个所述图像帧的第一权重和第二权重,对各所述图像帧进行融合。
11.根据权利要求9或10所述的图像处理模型,其特征在于,所述图像权重确定模块包括依次级联的特征图提取模块、图像特征提取模块和第一注意力机制模块,其中,所述特征图提取模块的输出以及所述第一注意力机制模块的输出均与所述时序融合模块的输入连接;
所述特征图提取模块用于对所述视频流中的各个图像帧分别进行特征图提取,得到所述视频流中的各个图像帧分别对应的特征图;
所述图像特征提取模块用于对各个特征图分别进行图像特征提取,得到所述各个特征图分别对应的图像特征;
所述第一注意力机制模块用于根据每个所述图像帧所对应的各个特征对,得到每个所述图像帧的第一权重,其中,对于一个所述图像帧,所述图像帧所对应的各个特征对包括所述图像帧的图像特征与所述视频流中各图像帧的图像特征分别两两组合而成的特征对;
所述时序融合模块具体用于根据每个所述图像帧的第一权重,对各个所述图像帧的特征图像进行融合,得到所述视频流的轨迹特征图;
所述轨迹特征提取模块具体用于基于所述轨迹特征图,提取得到所述目标对象的轨迹特征。
12.根据权利要求11所述的图像处理模型,其特征在于,在所述图像权重确定模块用于根据每个所述图像帧的图像内容,确定每个所述图像帧的第二权重时,所述图像权重确定模块还包括第二注意力机制模块,所述第二注意力机制模块的输入与所述特征图提取模块连接,所述第二注意力机制模块的输出与所述时序融合模块相连;
所述第二注意力机制模块具体用于根据每个所述图像帧的特征图,确定每个所述图像帧的第二权重;
所述时序融合模块具体用于根据每个所述图像帧的第一权重和第二权重,对各所述图像帧的特征图进行融合,得到所述视频流的轨迹特征图。
13.一种图像处理装置,其特征在于,包括:
获取模块,用于获取关于目标对象的视频流;
权重确定模块,用于对于所述视频流中的每个图像帧,根据每个所述图像帧与所述视频流中各图像帧的关联关系,确定每个所述图像帧的第一权重;
融合模块,用于根据每个所述图像帧的第一权重,对各所述图像帧进行融合;
轨迹特征提取模块,用于基于融合后的结果,提取得到所述目标对象的轨迹特征。
14.一种电子设备,其特征在于,包括:处理器和存储器,
所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-8任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令、程序、代码集或指令集,当所述计算机指令、程序、代码集或指令集在计算机上运行时,使得计算机执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786226.1A CN110807789A (zh) | 2019-08-23 | 2019-08-23 | 图像处理方法、模型、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786226.1A CN110807789A (zh) | 2019-08-23 | 2019-08-23 | 图像处理方法、模型、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807789A true CN110807789A (zh) | 2020-02-18 |
Family
ID=69487493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910786226.1A Pending CN110807789A (zh) | 2019-08-23 | 2019-08-23 | 图像处理方法、模型、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807789A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486734A (zh) * | 2021-06-18 | 2021-10-08 | 广东技术师范大学 | 一种步态识别方法、系统、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012035640A1 (ja) * | 2010-09-16 | 2012-03-22 | 株式会社 東芝 | 動画像符号化方法及び動画像復号化方法 |
US20150324636A1 (en) * | 2010-08-26 | 2015-11-12 | Blast Motion Inc. | Integrated sensor and video motion analysis method |
WO2018098931A1 (zh) * | 2016-11-30 | 2018-06-07 | 华为技术有限公司 | 一种数据处理方法及装置 |
WO2018133119A1 (zh) * | 2017-01-23 | 2018-07-26 | 中国科学院自动化研究所 | 基于深度相机进行室内完整场景三维重建的方法及系统 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN109886951A (zh) * | 2019-02-22 | 2019-06-14 | 北京旷视科技有限公司 | 视频处理方法、装置及电子设备 |
CN109919978A (zh) * | 2018-11-12 | 2019-06-21 | 中国科学院自动化研究所 | 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 |
-
2019
- 2019-08-23 CN CN201910786226.1A patent/CN110807789A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324636A1 (en) * | 2010-08-26 | 2015-11-12 | Blast Motion Inc. | Integrated sensor and video motion analysis method |
WO2012035640A1 (ja) * | 2010-09-16 | 2012-03-22 | 株式会社 東芝 | 動画像符号化方法及び動画像復号化方法 |
WO2018098931A1 (zh) * | 2016-11-30 | 2018-06-07 | 华为技术有限公司 | 一种数据处理方法及装置 |
WO2018133119A1 (zh) * | 2017-01-23 | 2018-07-26 | 中国科学院自动化研究所 | 基于深度相机进行室内完整场景三维重建的方法及系统 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109919978A (zh) * | 2018-11-12 | 2019-06-21 | 中国科学院自动化研究所 | 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN109886951A (zh) * | 2019-02-22 | 2019-06-14 | 北京旷视科技有限公司 | 视频处理方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
董世元等: "基于权重滤波的时空融合算法对比分析", 北京测绘, vol. 33, no. 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486734A (zh) * | 2021-06-18 | 2021-10-08 | 广东技术师范大学 | 一种步态识别方法、系统、设备及存储介质 |
CN113486734B (zh) * | 2021-06-18 | 2023-11-21 | 广东技术师范大学 | 一种步态识别方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reddy et al. | Tessetrack: End-to-end learnable multi-person articulated 3d pose tracking | |
Zhang et al. | 4D association graph for realtime multi-person motion capture using multiple video cameras | |
Girdhar et al. | Detect-and-track: Efficient pose estimation in videos | |
CN111627045B (zh) | 单镜头下的多行人在线跟踪方法、装置、设备及存储介质 | |
Li et al. | Event-based vision enhanced: A joint detection framework in autonomous driving | |
Yin et al. | Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields | |
CN111402294A (zh) | 目标跟踪方法、装置、计算机可读存储介质和计算机设备 | |
CN110163041A (zh) | 视频行人再识别方法、装置及存储介质 | |
Tyagi et al. | A review of deep learning techniques for crowd behavior analysis | |
Dong et al. | Mobilexnet: An efficient convolutional neural network for monocular depth estimation | |
Kim et al. | Video object detection using object's motion context and spatio-temporal feature aggregation | |
CN116630850A (zh) | 基于多注意力任务融合与边界框编码的孪生目标跟踪方法 | |
Athar et al. | 4D-Former: Multimodal 4D panoptic segmentation | |
Liu et al. | Refined temporal pyramidal compression-and-amplification transformer for 3D human pose estimation | |
CN110807789A (zh) | 图像处理方法、模型、装置、电子设备及可读存储介质 | |
Ershadi-Nasab et al. | Uncalibrated multi-view multiple humans association and 3D pose estimation by adversarial learning | |
Ling et al. | STMA-GCN_PedCross: Skeleton Based Spatial-Temporal Graph Convolution Networks with Multiple Attentions for Fast Pedestrian Crossing Intention Prediction | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
CN115100565B (zh) | 一种基于空间相关性与光流配准的多目标跟踪方法 | |
Jia et al. | PV-YOLO: An Object Detection Model for Panoramic Video based on YOLOv4 | |
Saif et al. | Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition | |
CN113158782B (zh) | 基于单帧图像的多人并发交互行为理解方法 | |
CN115909497A (zh) | 一种人体姿态识别方法及装置 | |
CN114419729A (zh) | 一种基于轻量双流网络的行为识别方法 | |
Mittal et al. | A feature pyramid based multi-stage framework for object detection in low-altitude UAV images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022654 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200218 |