CN109815902B - 一种行人属性区域信息获取方法、装置及设备 - Google Patents
一种行人属性区域信息获取方法、装置及设备 Download PDFInfo
- Publication number
- CN109815902B CN109815902B CN201910069394.9A CN201910069394A CN109815902B CN 109815902 B CN109815902 B CN 109815902B CN 201910069394 A CN201910069394 A CN 201910069394A CN 109815902 B CN109815902 B CN 109815902B
- Authority
- CN
- China
- Prior art keywords
- attribute
- pedestrian
- image
- pixel point
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种行人属性区域信息获取方法、装置及设备,该方法包括:获取待识别图像;针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。应用本发明实施例提供的方案,能够识别出行人的属性在图像中的属性区域,以及行人所具有的属性。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种行人属性区域信息获取方法、装置及设备。
背景技术
随着图像采集技术的发展,城市监控摄像机越来越普及,利用城市监控摄像机对城市中不同场景进行监测对保障公共安全有着重要意义。在利用城市监控摄像机进行监测时,经常需要对所监测的场景中的行人进行识别。
实际应用中,在识别行人后通常需要进行行人追踪,以实时监测行人是否产生破坏公共安全的行为,而为了方便追踪,通常需要识别行人所具有的属性,利用识别的属性进行行人追踪。
然而,仅仅识别属性是否存在是不够的,得到属性区域的信息往往能够获得更大的价值。行人属性区域的信息有助于提升对行人进行追踪的能力。因为,判断两个行人是不是同一个人时,可以通过位置相近的属性区域是否具有相同的属性信息来进行判断,例如,通过行人头部对应的属性区域是否具有相同的头发来进行判断,通过行人中部对应的属性区域是否穿着相同款式的衣服来进行判断。因此,如何准确获取到行人属性区域的信息,对实现行人追踪有着重要意义。
发明内容
本发明实施例的目的在于提供一种行人属性区域信息获取方法、装置及设备,以实现获取行人属性区域所具有的属性。具体技术方案如下:
本发明实施例提供了一种行人属性区域信息获取方法,所述方法包括:
获取待识别图像;
针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。
可选的,所述获取待识别图像的步骤,包括:
获取视频采集设备采集的视频数据;
将所述视频数据中包含的每一视频帧的大小调整至预设大小;
针对每一调整后的视频帧,分别识别该视频帧中包含的各个行人所在的行人区域;
将识别行人区域后的每一视频帧分别作为一个待识别图像。
可选的,所述针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性的步骤,包括:
将所述待识别图像输入至预先训练的概率预估模型,得到所述待识别图像中每一像素点所属行人具有各个属性的概率,其中,所述概率预估模型为:采用样本图像和样本图像中每一像素点所属行人的标注属性对预设模型进行训练得到的、用于估算图像中各个像素点所属行人具有各个属性概率的模型,所述样本图像为:通过语义标注确定图像中行人的属性区域后得到的图像,所述标注属性是根据属性区域表征的行人的属性获得的属性;
根据所获得的概率确定每一像素点所属行人具有的属性。
可选的,利用以下方式得到所述概率预估模型:
从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像;
对样本图像中行人所具有的属性进行语义标注,根据语义标注结果确定样本图像中行人的属性区域,并根据所确定的属性区域表征的行人的属性,获得样本图像中每一像素点所属行人的标注属性;
将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率;
根据得到的预估概率,确定样本图像中每一像素点所属行人的预估属性;
利用预设的交叉熵损失算法,计算所确定预估属性和所获得标注属性之间的损失值;
判断所述损失值是否小于预设阈值;
如果否,利用梯度下降算法调整所述预设模型中的参数,并返回所述将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率的步骤;
如果是,将所述预设模型作为所述概率预估模型。
可选的,在所述从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像的步骤之前,还包括:
从预设数据集存储的图像中选取预设数量个图像,作为训练图像;
对各个训练图像中行人所具有的属性进行语义标注,并根据分割结果确定训练图像中行人的属性区域;
根据所确定的属性区域表征的行人的属性,获得训练图像中每一像素点所属行人的标注属性;
利用各个训练图像和各个训练图像中每一像素点所属行人的标注属性,对所述预设模型的初始模型进行训练,得到用于预估图像中每一像素点所属行人具有各个属性的预估概率的所述预设模型。
本发明实施例还提供了一种行人属性区域信息获取装置,所述装置包括:
获取模块,用于获取待识别图像;
确定模块,用于针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
识别模块,用于将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
作为模块,用于对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。
可选的,所述获取模块,具体用于,
获取视频采集设备采集的视频数据;
将所述视频数据中包含的每一视频帧的大小调整至预设大小;
针对每一调整后的视频帧,分别识别该视频帧中包含的各个行人所在的行人区域;
将识别行人区域后的每一视频帧分别作为一个待识别图像。
可选的,所述确定模块,具体用于,
将所述待识别图像输入至预先训练的概率预估模型,得到所述待识别图像中每一像素点所属行人具有各个属性的概率,其中,所述概率预估模型为:采用样本图像和样本图像中每一像素点所属行人的标注属性对预设模型进行训练得到的、用于估算图像中各个像素点所属行人具有各个属性概率的模型,所述样本图像为:通过语义标注确定图像中行人的属性区域后得到的图像,所述标注属性是根据属性区域表征的行人的属性获得的属性;
根据所获得的概率确定每一像素点所属行人具有的属性。
可选的,所述装置还包括:得到模块,
所述得到模块,用于从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像;
对样本图像中行人所具有的属性进行语义标注,根据语义标注结果确定样本图像中行人的属性区域,并根据所确定的属性区域表征的行人的属性,获得样本图像中每一像素点所属行人的标注属性;
将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率;
根据得到的预估概率,确定样本图像中每一像素点所属行人的预估属性;
利用预设的交叉熵损失算法,计算所确定预估属性和所获得标注属性之间的损失值;
判断所述损失值是否小于预设阈值;
如果否,利用梯度下降算法调整所述预设模型中的参数,并返回所述将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率的步骤;
如果是,将所述预设模型作为所述概率预估模型。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的行人属性区域信息获取方法。
本发明实施例提供的行人属性区域信息获取方法、装置及设备,可以针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为行人的属性。应用本发明实施例提供的方案能够识别出行人的属性在图像中的属性区域,以及行人所具有的属性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种行人属性区域信息获取方法的流程示意图;
图2为本发明实施例提供的一种行人属性区域信息获取装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1示出了本发明实施例提供的一种行人属性区域信息获取方法的流程示意图,该方法包括:
S100,获取待识别图像。
待识别图像也就是需要确定图像中包含行人的属性的图像。可以利用视频采集设备,如手机、摄像机等视频采集设备采集图像,然后在视频采集设备采集的图像中获取待识别图像。
一种实现方式中,可以利用以下步骤A1-A4得到待识别图像:
步骤A1,获取视频采集设备采集的视频数据。
步骤A2,将视频数据中包含的每一视频帧的大小调整至预设大小。
一种实现方式中,可以通过分辨率来衡量一个视频帧的大小,相应地,在将视频帧的大小调整至预设大小时,则可以把视频帧的分辨率调整至预设的分辨率。比如,可以把视频帧的分辨率调整至255*255。
步骤A3,针对每一调整后的视频帧,分别识别该视频帧中包含的各个行人所在的行人区域。
上述行人可以理解为待识别图像中包含的人。
一种实现方式中,可以利用目标检测算法来识别视频帧中包含的各个行人所在的行人区域。具体的,在利用目标检测算法来识别行人时,可以利用滑动窗口按照从左到右、从上到下的顺序遍历视频帧,分类识别出视频帧中的各个目标,识别出的各个目标也就是视频帧中包含的各个行人,从而得到各个行人所在的行人区域。
步骤A4,将识别行人区域后的每一视频帧分别作为一个待识别图像。
识别了图像中的行人区域后,在后续获得图像中像素点所属行人具有各个属性的概率时,则可以只获取行人区域中像素点所属行人具有各个属性的概率,而行人区域之外的区域可以认为是背景区域,由于背景区域中的像素点对于识别行人属性是没有意义的,因此,可以直接将行人区域之外的像素点所属行人具有各个属性的概率可以设置为一个较低的数值,比如0。由于获得需要确定所属行人具有各个属性的概率的像素点的数量减少,因而能够加快行人属性识别的效率。
S110,针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性。
行人具有的属性可以理解为能够可视化、且用于表征行人外观特征的属性,比如,一个行人具有的可视化、且用于表征外观的属性可以包括:短发、长发、太阳镜、围巾、短袖、长袖、格子衫、条纹衫、正装、夹克、牛仔裤、长裤、短裤、鞋、运动鞋、皮鞋、斜挎包、双肩包、旅行箱等属性。
像素点所属行人具有各个属性的概率,也就是站在像素点的角度来推测行人具有的各个属性的概率,行人区域中不同位置的像素点所表征的行人属性是不同的,比如,行人区域中头部位置的像素点可以用来推测行人头发的长短、是否戴帽子等属性;脚部位置的像素点可以用来推测行人穿的是运动鞋或皮鞋等。基于此可以从每一个像素点的角度来推测行人具有的各个属性的概率。
一种实现方式中,可以预先设置行人具有的属性的集合,集合中包含行人可能具有的各个属性,在针对像素点确定属性时,可以将像素点特征与各个属性在图像中的像素点的特征进行匹配,从而获得像素点所属行人可能具有的属性。比如,可以利用像素点的R、G、B、D特征与各个属性在图像中的像素点的R、G、B、D特征进行匹配从而获得像素点所属行人可能具有的属性。
一种实现方式中,在获得各个像素点所属行人具有各个属性的概率之后,针对每一个像素点,可以将概率最大的属性作为该像素点所属行人具有的属性。比如,一个像素点所属行人具有各个属性的概率包括:短发80%,帽子10%,那么,可以将短发作为该像素点所属行人具有的属性。
一种实现方式中,上述S110可以包括步骤B1和步骤B2,
步骤B1,将待识别图像输入至预先训练的概率预估模型,得到待识别图像中每一像素点所属行人具有各个属性的概率。
其中,概率预估模型为:采用样本图像和样本图像中每一像素点所属行人的标注属性对预设模型进行训练得到的、用于估算图像中各个像素点所属行人具有各个属性概率的模型,样本图像为:通过语义标注确定图像中行人的属性区域后得到的图像,标注属性是根据属性区域表征的行人的属性获得的属性。
具体的,预设模型可以为语义分割模型,具体的,可以为基于deeplab,U-Net,FCN(Fully Convolutional Networks),SegNet等神经网络架构的模型。
属性区域也就是一个行人所具有的属性在图像中的图像区域,比如,一个行人所穿着的长袖上衣在图像中的图像区域。相应地,通过语义标注确定图像中行人的属性区域,也就是将图像中行人所具有的属性进行语义标注,标注结果相同的像素点构成的区域也就是图像中行人所具有的各个属性在图像中的属性区域,也就是每一个属性区域为表示行人具有的一个属性的图像区域,属性区域中的各个像素点即为所属行人具有属性相同的像素点。
步骤B2,根据所获得的概率确定每一像素点所属行人具有的属性。
S120,将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域。
针对像素点所确定的属性相同,也就表明是属于同一个属性在图像内的像素点,因而可以将所确定的属性相同、且位置相邻的像素点所构成的联通区域识别为行人具有的一个属性的属性区域。
S130,对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。
一个行人在图像中的呈现形式是由各个像素点所构成的,也就是图像中同属于一个行人的像素点构成了该行人在图像中的图像区域。那么,针对像素点确定的属性也就是像素点所属行人具有的属性,因而,可以将针对该属性区域内像素点确定的属性作为行人的属性。
本发明实施例一种实现方式中,可以利用以下步骤得到概率预估模型:
步骤D1,从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像;
步骤D2,对样本图像中行人所具有的属性进行语义标注,根据语义标注结果确定样本图像中行人的属性区域,并根据所确定的属性区域表征的行人的属性,获得样本图像中每一像素点所属行人的标注属性。
标注属性也就是在利用样本图像进行训练之前,将样本图像中的每一个像素点所属行人的属性进行语义标注得到的,比如,可以使用labelme语义标注工具将样本图像中的每一个像素点所属行人的属性进行语义标注来得到标注属性。
步骤D3,将样本图像输入到预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率。
具体的,针对行人属性数据集数量小的特点可以在对预设模型进行训练之前,对预设模型进行调整,具体的,可以包括:减少预设模型中卷积层数和改变预设模型中网络模块结构两种调整方式。而不难理解的是,可以同时使用两种方式对预设模型进行调整,也可以单独使用一种方式对预设模型进行调整,对此本发明不做限定。
一方面,可以减少预设模型中卷积层数,达到精简网络规模的目的。例如,Xception中middle flow由8个卷积模块构成,所述卷积模块是由3个卷积核大小为3,通道数为728的深度可分离卷积构成。可以减少卷积模块的重复个数来达到精简网络规模的目的,可以将卷积模块的重复次数设置为小于八次。
另一方面,可以改变预设模型中网络模块结构,优化网络模块结构,更好的利用网络内的特征。例如,Densnet网络中的Densenet block通过将某一层之前的所有层的输出作为输入来更好的利用特征,可以使用densenet block替换掉预设模型网络中的resnetblock。
步骤D4,根据得到的预估概率,确定样本图像中每一像素点所属行人的预估属性。
具体的,在获得各个像素点所属行人具有各个属性的预估概率之后,针对每一个像素点,可以将预估概率最大的属性作为该像素点所属行人具有的预估属性。比如,一个像素点所属行人具有各个属性的预估概率包括:短发80%,帽子10%,那么,可以将短发作为该像素点所属行人具有的预估属性。
步骤D5,利用预设的交叉熵损失算法,计算所确定预估属性和所获得标注属性之间的损失值。
一种实现方式中,可以利用以下公式来计算损失值:
其中,C为损失值,n为像素点个数,y为像素点所属行人的标注属性,a为像素点所属行人的预估属性的概率。
步骤D6,判断损失值是否小于预设阈值,在判断结果为否时执行步骤D7,在判断结果为是时执行步骤D8。
步骤D7,利用梯度下降算法调整预设模型中的参数,并返回步骤D3。
具体的,梯度下降算法可以常采用momentum,adam,RMSprop等优化算法。
一种实现方式中,利用梯度下降算法调整预设模型中的参数时,可以在0~0.1之间调整预设模型中的基础学习率,在0.1~0.9之间调整预设模型中的丢弃率dropout。
步骤D8,将预设模型作为概率预估模型。
本发明实施例一种实现方式中,为了加快预设模型的收敛速度,在步骤D1之前,还可以包括:
步骤C1,从预设数据集存储的图像中选取预设数量个图像,作为训练图像。
一种实现方式中,预设数据集可以为VOC2012。
步骤C2,对各个训练图像中行人所具有的属性进行语义标注,并根据语义标注结果确定训练图像中行人的属性区域。
步骤C3,根据所确定的属性区域表征的行人的属性,获得训练图像中每一像素点所属行人的标注属性。
步骤C4,利用各个训练图像和各个训练图像中每一像素点所属行人的标注属性,对所述预设模型的初始模型进行训练,得到用于预估图像中每一像素点所属行人具有各个属性的预估概率的预设模型。
在利用视频采集设备采集的视频数据对预设模型进行训练之前,利用预设数据集中存储的图像对预设模型的初始模型进行预训练,由于预设数据集中的图像均为预先收集的具有代表性的图像,预先利用预设数据集中的图像对初始模型来得到预设模型,也就是得到的预设模型中的参数是利用预设数据集中的图像调整过的,在此基础上在后续利用线上数据也就是视频采集设备采集的数据进行训练时,能够加快预设模型的收敛速度。
应用本发明实施例提供的行人属性区域信息获取方法,可以针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为行人的属性,从而能够识别出行人的属性在图像中的属性区域,以及行人所具有的属性。
参见图2示出了本发明实施例提供的一种行人属性区域信息获取装置的结构示意图,该装置包括:
获取模块200,用于获取待识别图像;
确定模块210,用于针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
识别模块220,用于将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
作为模块230,用于对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。
本发明实施例一种实现方式中,获取模块200,具体用于,
获取视频采集设备采集的视频数据;
将所述视频数据中包含的每一视频帧的大小调整至预设大小;
针对每一调整后的视频帧,分别识别该视频帧中包含的各个行人所在的行人区域;
将识别行人区域后的每一视频帧分别作为一个待识别图像。
本发明实施例一种实现方式中,确定模块210,具体用于,
将所述待识别图像输入至预先训练的概率预估模型,得到所述待识别图像中每一像素点所属行人具有各个属性的概率,其中,所述概率预估模型为:采用样本图像和样本图像中每一像素点所属行人的标注属性对预设模型进行训练得到的、用于估算图像中各个像素点所属行人具有各个属性概率的模型,所述样本图像为:通过语义标注确定图像中行人的属性区域后得到的图像,所述标注属性是根据属性区域表征的行人的属性获得的属性;
根据所获得的概率确定每一像素点所属行人具有的属性。
本发明实施例一种实现方式中,上述装置还包括:得到模块,
所述得到模块,用于从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像;
对样本图像中行人所具有的属性进行语义标注,根据语义标注结果确定样本图像中行人的属性区域,并根据所确定的属性区域表征的行人的属性,获得样本图像中每一像素点所属行人的标注属性;
将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率;
根据得到的预估概率,确定样本图像中每一像素点所属行人的预估属性;
利用预设的交叉熵损失算法,计算所确定预估属性和所获得标注属性之间的损失值;
判断所述损失值是否小于预设阈值;
如果否,利用梯度下降算法调整所述预设模型中的参数,并返回所述将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率的步骤;
如果是,将所述预设模型作为所述概率预估模型。
本发明实施例一种实现方式中,上述装置还包括:预训练模块,
所述预训练模块,用于从预设数据集存储的图像中选取预设数量个图像,作为训练图像;
对各个训练图像中行人所具有的属性进行语义标注,并根据语义标注结果确定训练图像中行人的属性区域;
根据所确定的属性区域表征的行人的属性,获得训练图像中每一像素点所属行人的标注属性;
利用各个训练图像和各个训练图像中每一像素点所属行人的标注属性,对所述预设模型的初始模型进行训练,得到用于预估图像中每一像素点所属行人具有各个属性的预估概率的所述预设模型。
应用本发明实施例提供的行人属性区域信息获取装置,可以针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为行人的属性,从而实现识别行人的属性在图像中的属性区域,以及行人所具有的属性。
本发明实施例还提供了一种电子设备,如图3所示,包括处理器001、通信接口002、存储器003和通信总线004,其中,处理器001,通信接口002,存储器003通过通信总线004完成相互间的通信,
存储器003,用于存放计算机程序;
处理器001,用于执行存储器003上所存放的程序时,实现本发明实施例提供的行人属性区域信息获取方法。
具体的,上述行人属性区域信息获取方法包括:
获取待识别图像;
针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。
需要说明的是,通过上述电子设备实现行人属性区域信息获取方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
应用本发明实施例提供的各个方案,可以针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为行人的属性,从而实现识别行人的属性在图像中的属性区域,以及行人所具有的属性。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的行人属性区域信息获取方法。
具体的,上述行人属性区域信息获取方法包括:
获取待识别图像;
针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息。
需要说明的是,通过上述计算机可读存储介质实现行人属性区域信息获取方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
应用本发明实施例提供的各个方案,可以针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为行人的属性,从而实现识别行人的属性在图像中的属性区域,以及行人所具有的属性。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本发明实施例提供的行人属性区域信息获取方法。
具体的,上述行人属性区域信息获取方法包括:
获取待识别图像;
针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
对于每一属性区域,将针对该属性区域内像素点确定的属性作为所述要获取的属性区域的信息。
需要说明的是,通过上述计算机可读存储介质实现行人属性区域信息获取方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
应用本发明实施例提供的各个方案,可以针对待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性;将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为待识别图像中行人的属性区域;对于每一属性区域,将针对该属性区域内像素点确定的属性作为行人的属性,从而实现识别行人的属性在图像中的属性区域,以及行人所具有的属性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.一种行人属性区域信息获取方法,其特征在于,所述方法包括:
获取待识别图像;
针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息;
所述针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性的步骤,包括:
将所述待识别图像输入至预先训练的概率预估模型,得到所述待识别图像中每一像素点所属行人具有各个属性的概率,其中,所述概率预估模型为:采用样本图像和样本图像中每一像素点所属行人的标注属性对预设模型进行训练得到的、用于估算图像中各个像素点所属行人具有各个属性概率的模型,所述样本图像为:通过语义标注确定图像中行人的属性区域后得到的图像,所述标注属性是根据属性区域表征的行人的属性获得的属性;
根据所获得的概率确定每一像素点所属行人具有的属性;
利用以下方式得到所述概率预估模型:
从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像;
对样本图像中行人所具有的属性进行语义标注,根据语义标注结果确定样本图像中行人的属性区域,并根据所确定的属性区域表征的行人的属性,获得样本图像中每一像素点所属行人的标注属性;
将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率;
根据得到的预估概率,确定样本图像中每一像素点所属行人的预估属性;
利用预设的交叉熵损失算法,计算所确定预估属性和所获得标注属性之间的损失值;
判断所述损失值是否小于预设阈值;
如果否,利用梯度下降算法调整所述预设模型中的参数,并返回所述将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率的步骤;
如果是,将所述预设模型作为所述概率预估模型;
其中,利用以下公式计算损失值:
其中,C为损失值,n为像素点个数,y为像素点所属行人的标注属性,a为像素点所属行人的预估属性的概率。
2.如权利要求1所述的方法,其特征在于,所述获取待识别图像的步骤,包括:
获取视频采集设备采集的视频数据;
将所述视频数据中包含的每一视频帧的大小调整至预设大小;
针对每一调整后的视频帧,分别识别该视频帧中包含的各个行人所在的行人区域;
将识别行人区域后的每一视频帧分别作为一个待识别图像。
3.如权利要求1所述的方法,其特征在于,在所述从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像的步骤之前,还包括:
从预设数据集存储的图像中选取预设数量个图像,作为训练图像;
对各个训练图像中行人所具有的属性进行语义标注,并根据语义标注结果确定训练图像中行人的属性区域;
根据所确定的属性区域表征的行人的属性,获得训练图像中每一像素点所属行人的标注属性;
利用各个训练图像和各个训练图像中每一像素点所属行人的标注属性,对所述预设模型的初始模型进行训练,得到用于预估图像中每一像素点所属行人具有各个属性的预估概率的所述预设模型。
4.一种行人属性区域信息获取装置,其特征在于,所述装置包括:
获取模块,用于获取待识别图像;
确定模块,用于针对所述待识别图像中的每一像素点,获得该像素点所属行人具有各个属性的概率,并根据所获得的概率确定该像素点所属行人具有的属性,其中,行人具有的属性为:能够可视化、且用于表征行人外观特征的属性;
识别模块,用于将所确定的属性相同、且位置相邻的像素点形成的图像区域识别为所述待识别图像中行人的属性区域;
作为模块,用于对于每一属性区域,将针对该属性区域内像素点确定的属性作为所要获取的属性区域的信息;
所述确定模块,具体用于,
将所述待识别图像输入至预先训练的概率预估模型,得到所述待识别图像中每一像素点所属行人具有各个属性的概率,其中,所述概率预估模型为:采用样本图像和样本图像中每一像素点所属行人的标注属性对预设模型进行训练得到的、用于估算图像中各个像素点所属行人具有各个属性概率的模型,所述样本图像为:通过语义标注确定图像中行人的属性区域后得到的图像,所述标注属性是根据属性区域表征的行人的属性获得的属性;
根据所获得的概率确定每一像素点所属行人具有的属性;
所述装置还包括:得到模块,
所述得到模块,用于从视频采集设备采集的视频数据中获得用于进行模型训练的样本图像;
对样本图像中行人所具有的属性进行语义标注,根据语义标注结果确定样本图像中行人的属性区域,并根据所确定的属性区域表征的行人的属性,获得样本图像中每一像素点所属行人的标注属性;
将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率;
根据得到的预估概率,确定样本图像中每一像素点所属行人的预估属性;
利用预设的交叉熵损失算法,计算所确定预估属性和所获得标注属性之间的损失值;
判断所述损失值是否小于预设阈值;
如果否,利用梯度下降算法调整所述预设模型中的参数,并返回所述将样本图像输入到所述预设模型,得到样本图像中每一像素点所属行人具有各个属性的预估概率的步骤;
如果是,将所述预设模型作为所述概率预估模型;
其中,利用以下公式计算损失值:
其中,C为损失值,n为像素点个数,y为像素点所属行人的标注属性,a为像素点所属行人的预估属性的概率。
5.如权利要求4所述的装置,其特征在于,所述获取模块,具体用于,
获取视频采集设备采集的视频数据;
将所述视频数据中包含的每一视频帧的大小调整至预设大小;
针对每一调整后的视频帧,分别识别该视频帧中包含的各个行人所在的行人区域;
将识别行人区域后的每一视频帧分别作为一个待识别图像。
6.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-3任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910069394.9A CN109815902B (zh) | 2019-01-24 | 2019-01-24 | 一种行人属性区域信息获取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910069394.9A CN109815902B (zh) | 2019-01-24 | 2019-01-24 | 一种行人属性区域信息获取方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815902A CN109815902A (zh) | 2019-05-28 |
CN109815902B true CN109815902B (zh) | 2021-04-27 |
Family
ID=66603132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910069394.9A Active CN109815902B (zh) | 2019-01-24 | 2019-01-24 | 一种行人属性区域信息获取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815902B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175595B (zh) * | 2019-05-31 | 2021-03-02 | 北京金山云网络技术有限公司 | 人体属性识别方法、识别模型训练方法及装置 |
CN110751034B (zh) * | 2019-09-16 | 2023-09-01 | 平安科技(深圳)有限公司 | 行人行为识别方法及终端设备 |
CN111191527B (zh) * | 2019-12-16 | 2024-03-12 | 北京迈格威科技有限公司 | 属性识别方法、装置、电子设备及可读存储介质 |
CN114267328A (zh) * | 2021-12-14 | 2022-04-01 | 北京达佳互联信息技术有限公司 | 一种语音合成模型的训练方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862300A (zh) * | 2017-11-29 | 2018-03-30 | 东华大学 | 一种基于卷积神经网络的监控场景下行人属性识别方法 |
CN108596184A (zh) * | 2018-04-25 | 2018-09-28 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
CN108921054A (zh) * | 2018-06-15 | 2018-11-30 | 华中科技大学 | 一种基于语义分割的行人多属性识别方法 |
CN108921051A (zh) * | 2018-06-15 | 2018-11-30 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460407A (zh) * | 2018-02-02 | 2018-08-28 | 东华大学 | 一种基于深度学习的行人属性精细化识别方法 |
-
2019
- 2019-01-24 CN CN201910069394.9A patent/CN109815902B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862300A (zh) * | 2017-11-29 | 2018-03-30 | 东华大学 | 一种基于卷积神经网络的监控场景下行人属性识别方法 |
CN108596184A (zh) * | 2018-04-25 | 2018-09-28 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法、可读存储介质及电子设备 |
CN108921054A (zh) * | 2018-06-15 | 2018-11-30 | 华中科技大学 | 一种基于语义分割的行人多属性识别方法 |
CN108921051A (zh) * | 2018-06-15 | 2018-11-30 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
Non-Patent Citations (2)
Title |
---|
Improving facial attribute prediction using semantic segmentation;Kalayeh, M.M;《CVPR (2017)》;20171231;全文 * |
基于深度学习的目标检测与分割算法研究;王若辰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第2期);论文第3章 * |
Also Published As
Publication number | Publication date |
---|---|
CN109815902A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815902B (zh) | 一种行人属性区域信息获取方法、装置及设备 | |
Piao et al. | Depth-induced multi-scale recurrent attention network for saliency detection | |
JP7500689B2 (ja) | 制御されていない照明条件の画像中の肌色を識別する技術 | |
CN110147717B (zh) | 一种人体动作的识别方法及设备 | |
CN108960163B (zh) | 手势识别方法、装置、设备和存储介质 | |
CN109145766B (zh) | 模型训练方法、装置、识别方法、电子设备及存储介质 | |
US20180018503A1 (en) | Method, terminal, and storage medium for tracking facial critical area | |
CN110135246A (zh) | 一种人体动作的识别方法及设备 | |
CN109299658B (zh) | 脸部检测方法、脸部图像渲染方法、装置及存储介质 | |
CN108875667B (zh) | 目标识别方法、装置、终端设备和存储介质 | |
CN113591527A (zh) | 一种对象轨迹识别方法、装置、电子设备和存储介质 | |
CN111666922A (zh) | 视频匹配方法、装置、计算机设备和存储介质 | |
JP2022542199A (ja) | キーポイントの検出方法、装置、電子機器および記憶媒体 | |
US20220215647A1 (en) | Image processing method and apparatus and storage medium | |
CN111753590B (zh) | 一种行为识别方法、装置及电子设备 | |
CN115830002A (zh) | 一种红外图像质量评价方法及装置 | |
Wang et al. | Combined trajectories for action recognition based on saliency detection and motion boundary | |
CN111582027A (zh) | 身份认证方法、装置、计算机设备和存储介质 | |
CN111091089B (zh) | 一种人脸图像处理方法、装置、电子设备及存储介质 | |
CN112465869A (zh) | 一种轨迹关联方法、装置、电子设备及存储介质 | |
KR20230166840A (ko) | 인공지능을 이용한 객체 이동 경로 확인 방법 | |
WO2022206679A1 (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112101479B (zh) | 一种发型识别方法及装置 | |
CN111597966B (zh) | 一种表情图像识别方法、装置及系统 | |
CN112949571A (zh) | 识别年龄的方法、年龄识别模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |