CN109740537A

CN109740537A - 人群视频图像中行人图像属性的精确标注方法及系统

Info

Publication number: CN109740537A
Application number: CN201910004514.7A
Authority: CN
Inventors: 潘新生; 梁添才; 金晓峰; 赵清利; 徐天适
Original assignee: Guangzhou Grg Jetco Financial Electronic Co Ltd; Guangdian Yuntong Financial Electronic Co Ltd
Current assignee: Guangzhou Grg Jetco Financial Electronic Co Ltd; GRG Banking Equipment Co Ltd; Guangdian Yuntong Financial Electronic Co Ltd
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2019-05-10
Anticipated expiration: 2039-01-03
Also published as: CN109740537B

Abstract

本发明属于图像处理技术，为人群视频图像中行人图像属性的精确标注方法及系统，其方法对视频数据的每一帧图像进行行人目标定位，利用位置信息、结果置信度和唯一性标识号表示行人目标的检测位置信息；根据置信度进行行人位置的向外扩展；对向外扩展后得到的行人位置区域进行图像分割，得到行人目标与背景的各分割目标图像层；以扩大位置的最大值为中心位置，行人位置宽高λ倍为宽高确定搜索窗口，统计搜索窗口内各分割目标图像层的像素个数总和，总和最大的确定为行人目标图像层；确定行人目标区域的最小矩形框，得到行人目标的精确位置。本发明有效解决了视频图像中人群的行人图像属性标注精度不足、逐帧视频标注工作量大的问题。

Description

人群视频图像中行人图像属性的精确标注方法及系统

技术领域

本发明涉及图像处理技术，具体为人群视频图像中行人图像属性的精确标注方法及系统。

背景技术

行人图像属性主要包括性别、年龄、是否戴眼镜、随身携带物品(比如背包、挎包、手提包、行李箱、打伞等)类型和颜色、衣着颜色和样式等。随着大数据、云计算技术的发展，行人图像属性识别技术广泛应用于视频图像结构化检索、大数据分析、视频治安防控、图侦破案等。因此，对行人图像属性的资源和结构化描述信息的需求是海量的。目前，对视频图像的行人图像属性的识别多采用机器学习的方法，需要先进行大量的、精确的行人图像属性标注，生成训练样本数据用于模型的训练和优化。

随着大数据、深度学习技术的发展，多目标行人图像属性识别的技术也逐渐转向深度学习。深度学习的网络模型训练需要大量、高质量的行人图像属性标注数据，而这些属性标注数据目前大多采用人工手动标注。人工手动标注数据存在以下的缺点：

1)标注工作量大、效率低，特别是针对视频的行人图像属性标注，如果每一帧图像都采用人工手动标注，需要标注的数据更是海量；

2)采用人工标注的行人图像属性存在一定的主观性、不一致性，特别是标注出的行人位置框、特征点位置信息存在较大的偏差；

3)针对视频图像中的人群，由于行人间存在相互遮挡、相互重叠，人工标注行人位置框、特征点位置的精度更是存在不足。

发明内容

为解决现有技术所存在的技术问题，本发明提供人群视频图像中行人图像属性的精确标注方法，该方法先粗略确定行人的位置信息，再采用基于深度学习的图像语义分割算法分割出行人目标，完成行人目标位置的精确标注，再进行目标的跟踪处理得到行人目标的ID号，根据ID号对行人目标进行图像属性的标注，有效地解决了视频图像中人群的行人图像属性标注精度不足、逐帧视频标注工作量大的问题。

本发明还提供人群视频图像中行人图像属性的精确标注系统。

本发明的精确标注方法采用以下技术方案来实现：人群视频图像中行人图像属性的精确标注方法，包括以下步骤：

S1、对视频数据的每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，利用行人目标的位置信息、行人目标位置结果置信度和行人目标的唯一性标识号表示行人目标的检测位置信息；

S2、根据行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息；

S3、利用基于深度学习的语义分割模型，对向外扩展后得到的行人位置区域进行图像分割，得到行人目标与背景的各分割目标图像层；

S4、根据行人目标的位置信息，以行人目标的扩大位置的最大值为中心位置，行人位置宽高的λ倍为宽高确定行人目标区域搜索窗口，并统计搜索窗口内各分割目标图像层的像素个数总和，则像素个数总和最大的分割目标图像层确定为行人目标图像层；

S5、根据行人目标图像层，确定行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置。

优选地，步骤S2进行行人位置的向外扩展时，行人位置的扩大数值根据行人目标位置结果置信度进行计算；行人目标位置结果置信度越大，行人位置的扩大数值就越小。行人位置的扩大数值δ_x、δ_y的取值范围分别在和δ_x、δ_y的计算公式如下：

其中行人目标位置结果置信度conf_i∈(0.5,1)。

优选地，步骤S3采用RACSIS语义分割方法，把行人位置扩展后的图片区域作为输入，通过改进空间维度上的金字塔空洞池化结构的方法，得到行人目标与背景的各分割目标图像层。

本发明精确标注系统采用如下技术方案实现：人群视频图像中行人图像属性的精确标注系统，包括：

行人目标的位置信息检测模块，对视频数据的每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，利用行人目标的位置信息、行人目标位置结果置信度和行人目标的唯一性标识号表示行人目标的检测位置信息；

行人位置扩展模块，根据行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息；

行人目标与背景的图像层分割模块，利用基于深度学习的语义分割模型，对向外扩展后得到的行人位置区域进行图像分割，得到行人目标与背景的各分割目标图像层；

行人目标图像层的确定模块，根据行人目标的位置信息，以行人目标的扩大位置的最大值为中心位置，行人位置宽高的λ倍为宽高确定行人目标区域搜索窗口，并统计搜索窗口内各分割目标图像层的像素个数总和，则像素个数总和最大的分割目标图像层确定为行人目标图像层；

行人目标的精确位置定位模块，根据行人目标图像层，确定行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过基于深度学习的目标检测算法先粗略确定行人的位置信息，再采用基于深度学习的图像语义分割算法分割出行人目标，从而完成行人目标位置的精确标注，然后再进行目标的跟踪处理，得到行人目标的ID号，最后通过对同一ID号的行人目标进行图像属性的标注，即可完成同一行人目标的所有视频帧图像属性标注，从而提高人工手动标注视频图像的效率和质量，有效地解决视频图像中人群的行人图像属性标注精度不足、逐帧视频标注工作量大的问题。

2、本发明在视频标注前，采用深度学习目标检测算法对每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，并对该帧图像的每个行人目标采用唯一性ID标识进行标示，准确度高。

3、根据行人位置结果的置信度，通过区域扩展算法将行人位置向外扩展，以确保行人位置框所在图像区域包含人体的所有部位，从而使后续利用语义分割模型进行行人位置区域的图像分割时，具有较高的准确性。

附图说明

图1是本发明的流程图；

图2是分割图层及搜索窗口的确定示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1，本发明提出了人群视频图像中行人图像属性的精确标注方法，主要包括以下步骤：

步骤1：开发一款图形界面的辅助标注软件工具，导入视频数据，获取视频帧序列，准备进行标注。

步骤2：采用深度学习目标检测算法对视频数据的每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，并对该帧图像的每个行人目标采用唯一性ID标识进行标示，利用行人目标的位置信息、行人目标位置结果置信度和行人目标的唯一性标识号对行人目标的检测位置信息表示为：

P_i＝(x_i,y_i,w_i,h_i,conf_i,id_i)

其中x_i、y_i、w_i、h_i为行人目标的位置信息，conf_i为行人目标位置结果的置信度，id_i为行人目标的唯一性标识号，i为视频帧序号。

步骤3：为确保行人位置框包含行人身体各部位，根据步骤2得到的行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息为：

P'_i＝(x_i-δ_x,y_i-δ_y,w_i+2*δ_x,h_i+2*δ_y,conf_i,id_i)

其中δ_x、δ_y为行人位置的扩大数值，可根据置信度conf_i进行计算，扩大数值的取值范围分别在和一般地，置信度conf_i的值越大，需要扩大的行人位置值δ_x、δ_y则越小，为了反映δ_x、δ_y与置信度conf_i的上述映射关系，特设计δ_x、δ_y的计算公式如下：

其中conf_i∈(0.5,1)。

步骤4：利用基于深度学习的语义分割模型，对向外扩展后得到的行人位置(x_i-δ_x,y_i-δ_y,w_i+2*δ_x,h_i+2*δ_y)区域进行图像分割，具体为采用RACSIS(Rethinking AtrousConvolution for Semantic Image Segmentation)等语义分割方法，把行人位置扩展后的图片区域作为输入，通过改进空间维度上的金字塔空洞池化(Atrous Spatial PyramidPooling，ASPP)结构的方法，得到行人目标与背景的各分割目标图像层。

RACSIS(Rethinking Atrous Convolution for Semantic Image Segmentation)语义分割是一种深度卷积神经网络(CNN)的方法，该方法通过设计一种深度神经网络模型，首先采用残差网络ResNet-50或残差网络ResNet-101模型进行特征映射(FeatureMapping)，然后通过金字塔空洞池化(Atrous Spatial Pyramid Pooling，ASPP)和图像池化(Image Prooling)来改善残差网络ResNe模型，最后通过1x1的卷积完成图像重构与分割映射(Segmentation Mapping)，得到行人目标与其他背景的分割目标图像层，如图2所示。

步骤5：根据步骤2得到行人目标的P_i＝(x_i,y_i,w_i,h_i,conf_i,id_i)位置信息，以扩大位置的最大值为中心位置、行人位置宽高的λ倍为宽高(即和)确定行人目标区域搜索窗口0.2﹤λ﹤0.6，一般取λ＝0.3，并统计搜索窗口内各分割目标图像层的像素个数总和，则像素个数总和最大的分割目标图像层确定为行人目标图像层。

搜索窗口的确定示意如图2所示，其中21为检测位置(x_i，y_i，w_i，h_i)，22为扩大位置(x_i-δ_x，y_i-δ_y，w_i+2*δ_x，h_i+2*δ_y)，23为搜索窗口24为行人精确位置(x0_i,y0_i,w0_i,h0_i)。

行人目标图像层的确定及各分割目标图像层的像素个数统计方法如下：

1)以中心位置为起始点，标记该起始点所在的图像层为第一图层，并记录起始点的像素值为(r₁,g₁,b₁)，像素和为1，记为sum(r_i,g_i,b_i)＝1(i＝1)，i为图层标记号；

2)采用回字形的搜索路径，分别取右、右下、下、左下、左、左上、上、右上各8个邻域点的像素值与起始点的像素值进行比较，相同则跟随起始点，并标记相应的邻域点所在的图像层为第一图层，像素和sum(r_i,g_i,b_i)(i＝1)加1，否则标记相应的邻域点所在的图像层为新的图层，图层标记号为i+1，像素和sum(r_i+1,g_i+1,b_i+1)加1；

3)继续按上述步骤2)在确定好的搜索窗口进行搜索，分别统计得到各图层的像素和sum(r_i,g_i,b_i)，i＝1，2,...,n,直到遍历完搜索窗口的所有像素点；

4)根据统计步骤3)得到的各图层的像素和sum(r_i,g_i,b_i)，取像素和sum_max(r_i',g_i',b_i')值最大的图层标记为i',并判断为行人目标图像层，像素值置为255，其他的图层则判断为背景图像层，像素值置0。

步骤6：根据上述步骤5确定的行人目标图像层，则可确定包含像素值为255行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置(x0_i,y0_i,w0_i,h0_i)为：

P0'_i＝(x0_i,y0_i,w0_i,h0_i,conf_i,id_i)

行人目标区域的最小矩形框的确定方法如下：

1)在上述步骤5确定的行人目标图像层区域窗口，以(0，0)为位置(x,y)的起始点，按宽、高分别递增的方法进行遍历搜索；

2)最小矩形框的位置记为(x_min,y_min,x_max,y_max)，当遍历搜索像素值为255的位置(x,y)时，分别记录矩形框上、下、左、右4边框的最小、最大值，直到完成图像的遍历搜索，得到的最小矩形框位置(x_min,y_min,x_max,y_max)即为行人目标的精确位置(x0_i,y0_i,w0_i,h0_i),其中x0_i＝x_min,y0_i＝y_min,w0_i＝x_min-x_min,h0_i＝y_max-y_min。

步骤7：对于第i+1帧图像，重复步骤2-6得到行人目标的精确位置信息，并对第i帧图像得到的行人目标进行跟踪处理，以确定第i+1帧图像的行人目标精确位置和唯一性标识号信息：

P0'_i+1＝(x0_i+1,y0_i+1,w0_i+1,h0_i+1,conf_i+1,id_i+1)

其中x_i+1、y_i+1、w_i+1、h_i+1为行人目标的位置信息，conf_i+1为行人目标位置结果的置信度，id_i+1为行人目标的唯一性标识号，i+1为视频帧序号。

行人目标跟踪处理的详细步骤如下：

1)对第i+1检测出的每一个行人目标框(x_i+1,y_i+1,w_i+1,h_i+1)_j，计算与上一帧i检测出的每一个行人目标框(x_i,y_i,w_i,h_i)_j'的交叠率IOUjj'(Intersection-Over-Union)：

并记录其最大的IOU_max和相应的行人目标ID号id_i。

2)当IOU_max大于一定的阈值时，则当前帧i+1检测出行人目标的ID号跟随上一帧i行人目标的id_i号，IOU_jj'匹配成功，否则对该行人目标的ID号赋予新的值。

3)对上一帧i未IOU_jj'匹配成功的行人目标进行基于特征的跟踪处理，若跟踪成功，则得到跟踪结果目标框和对应的行人目标ID号；若跟踪失败，则直接转到步骤9。

步骤8：对每个ID号的行人目标进行图像属性标注，根据视频帧之间的关联性和行人图像属性在视频时间段内的不变性，即可完成同一行人目标的所有视频帧图像属性标注。

步骤9：对上述步骤标注的行人位置和行人目标ID号信息进行人工确认和修正，并对漏标注的行人目标进行位置粗标注，再重复步骤3-8，完成行人图像属性的视频标注。

在本实施例中，人群视频图像中行人图像属性的精确标注系统用于实现上述精确标注方法，所包括的各主要模块分别如下：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.人群视频图像中行人图像属性的精确标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的精确标注方法，其特征在于，步骤S2进行行人位置的向外扩展时，行人位置的扩大数值根据行人目标位置结果置信度进行计算；行人目标位置结果置信度越大，行人位置的扩大数值就越小。

3.根据权利要求2所述的精确标注方法，其特征在于，行人位置的扩大数值δ_x、δ_y的取值范围分别在和δ_x、δ_y的计算公式如下：

其中行人目标位置结果置信度conf_i∈(0.5,1)。

4.根据权利要求1所述的精确标注方法，其特征在于，步骤S4所述λ的取值范围为：0.2﹤λ﹤0.6。

5.根据权利要求1所述的精确标注方法，其特征在于，步骤S3采用RACSIS语义分割方法，把行人位置扩展后的图片区域作为输入，通过改进空间维度上的金字塔空洞池化结构的方法，得到行人目标与背景的各分割目标图像层。

6.根据权利要求3所述的精确标注方法，其特征在于，步骤S4中行人目标图像层的确定及各分割目标图像层的像素个数统计方法如下：

1)以中心位置为起始点，标记该起始点所在的图像层为第一图层，并记录起始点的像素值为(r₁,g₁,b₁)，像素和为1，记为sum(r_i,g_i,b_i)＝1，i为图层标记号；

2)采用回字形的搜索路径，分别取右、右下、下、左下、左、左上、上、右上各8个邻域点的像素值与起始点的像素值进行比较，相同则跟随起始点，并标记相应的邻域点所在的图像层为第一图层，像素和sum(r_i,g_i,b_i)加1，否则标记相应的邻域点所在的图像层为新的图层，图层标记号为i+1，像素和sum(r_i+1,g_i+1,b_i+1)加1；

3)继续在搜索窗口进行搜索，分别统计得到各图层的像素和sum(r_i,g_i,b_i)，i＝1，2,...,n,直到遍历完搜索窗口的所有像素点；

7.根据权利要求1所述的精确标注方法，其特征在于，所述精确标注方法还包括：

S6、对于第i+1帧图像，重复S1-S5得到行人目标的精确位置信息，并对第i帧图像得到的行人目标进行跟踪处理，以确定第i+1帧图像的行人目标精确位置和唯一性标识号信息；

S7、对每个唯一性标识号的行人目标进行图像属性标注，根据视频帧之间的关联性和行人图像属性在视频时间段内的不变性，即可完成同一行人目标的所有视频帧图像属性标注。

8.人群视频图像中行人图像属性的精确标注系统，其特征在于，包括：

9.根据权利要求8所述的精确标注系统，其特征在于，所述行人位置扩展模块进行行人位置的向外扩展时，行人位置的扩大数值根据行人目标位置结果置信度进行计算；行人目标位置结果置信度越大，行人位置的扩大数值就越小。

10.根据权利要求8所述的精确标注系统，其特征在于，行人位置的扩大数值δ_x、δ_y的取值范围分别在和δ_x、δ_y的计算公式如下：

其中行人目标位置结果置信度conf_i∈(0.5,1)。