CN111339943A

CN111339943A - 一种对象管理方法、系统、平台、设备及介质

Info

Publication number: CN111339943A
Application number: CN202010119638.2A
Authority: CN
Inventors: 周曦; 姚志强; 吴凯; 王忠林; 袁余峰; 侯朝能; 罗磊; 聂绪林; 李峰; 李飞照; 任浩; 田雪; 朱柯丞
Original assignee: Chongqing Zhongke Yuncong Technology Co ltd
Current assignee: Chongqing Zhongke Yuncong Technology Co ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-26

Abstract

本发明提供一种对象管理方法、系统、平台、设备及介质，包括有：获取一个或多个单帧或多帧图像；将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。本发明能够利用一个或多个对象在监控视频下的图像特征来构建该一个或多个对象的完整活动轨迹，实现对该一个或多个对象的跨镜头、跨区域跟踪。若对象为人，本发明能够利用不同行人在监控视频中的人脸或人体特征，来构建不同行人在不同目标区域下的运动轨迹，从而实现对不同行人的跨区域、跨镜头跟踪。

Description

一种对象管理方法、系统、平台、设备及介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种对象管理方法、系统、平台、设备及介质。

背景技术

近来年，对象(例如：人、动物)识别技术在构建“智慧城市”、“平安城市”等方面也得到了广泛应用。然而，在已建摄像头中，有80％以上的摄像头并非在任何情况下都可以拍摄到清晰人脸或人体，加之作案人员反侦察能力的提高，会故意躲避摄像头，及时抓拍到人脸或人体信息，并及时报警处置难度较大；不仅如此，在实际的场景中，一个摄像头往往无法覆盖所有区域，而多摄像头之间一般也没有重叠；此时由于跨镜头场景下人脸或人体数据的缺失，无法对目标对象的行进轨迹进行无间断的跟踪。因此，本发明提出一种利用对象在监控视频下的图像特征来构建对象的完整活动轨迹，实现对对象的跨镜头跟踪。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供对象管理方法、系统、平台、设备及介质，用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的，本发明提供一种对象管理方法，其特征在于，包括以下步骤：

获取一个或多个单帧或多帧图像；

将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；

根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。

可选地，对每帧图像，按照不同的分割粒度，分别分割为多组后，将每组输入至对应粒度的神经网络进行特征抽取。

可选地，若多组为三组，则第一组为：整帧图像；第二组为：将每帧图像划分为上下两部分；第三组为：将每帧图像划分为上、中、下三部分。

可选地，所述多个不同粒度的神经网络是指多个具有不同的网络支路结构、参数、损失函数的神经网络。

可选地，所述图像特征包括全局特征和/或局部特征。

可选地，通过分类损失和三元损失对每帧图像进行特征抽取，获取全局特征；和/或，

通过所述分类损失对所述每帧图像进行特征抽取，获取局部特征。

可选地，所述三元损失为Triplet Loss，所述分类损失为Softmax Loss。

可选地，根据抽取出的包含有所述一个或多个对象的所有图像特征，对所述一个或多个对象进行识别。

可选地，对所述一个或多个对象进行识别后，获取所述一个或多个对象的运动信息。

可选地，通过一个或多个图像采集设备，获取一个或多个单帧或多帧图像；

所述一个或多个图像采集设备设置的地理位置包括以下至少之一：居民区、学校、车站、机场、商场、医院。

可选地，所述多帧图像包括一个或多个连续帧图像、多个单帧图像。

可选地，所述对象包括人、动物。

可选地，若所述对象为人；

全局特征包括以下至少之一：人脸特征、人体特征；和/或，

局部特征包括以下至少之一：人脸特征、人体特征。

可选地，所述运动信息包括以下至少之一：运动时间、运动地理位置。

可选地，人脸特征包括以下至少之一：眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。

可选地，人体特征包括以下至少之一：服饰、体型、发型、姿态。

本发明还提供一种对象管理系统，包括有：

图像模块，用于获取一个或多个单帧或多帧图像；

特征模块，用于将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；

管理模块，用于根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。

可选地，所述图像特征包括全局特征和/或局部特征。

可选地，所述对象包括人、动物。

可选地，若所述对象为人；

全局特征包括以下至少之一：人脸特征、人体特征；和/或，

局部特征包括以下至少之一：人脸特征、人体特征。

本发明还提供一种对象管理平台，所述平台包括有上述任一所述的系统；

所述平台部署在一个或多个服务器上，通过网络协议连接视频监控系统中的一个或多个图像采集设备。

可选地，还包括显示单元，用于显示一个或多个图像采集设备采集的监控画面、以及显示一个或多个对象在一个或多个目标区域的运动信息。

可选地，还包括有配置管理单元，用于连接所述一个或多个图像采集设备，保存所述一个或多个图像采集设备的基本信息，并对用户权限进行配置与管理。

本发明还提供一种对象管理设备，包括有：

获取一个或多个单帧或多帧图像；

本发明还提供一种设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如上述中一个或多个所述的方法。

本发明还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如上述中一个或多个所述的方法。

如上所述，本发明提供的一种对象管理方法、系统、平台、设备及介质，具有以下有益效果：通过获取一个或多个单帧或多帧图像；将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。本发明能够利用一个或多个对象在监控视频下的图像特征来构建该一个或多个对象的完整活动轨迹，实现对该一个或多个对象的跨镜头、跨区域跟踪。若对象为人，本发明能够利用不同行人在监控视频中的人脸或人体特征，来构建不同行人在不同目标区域下的运动轨迹，从而实现对不同行人的跨区域、跨镜头跟踪。

附图说明

图1为一实施例提供的对象管理方法的流程示意图。

图2为另一实施例提供的对象管理方法的流程示意图。

图3为又一实施例提供的对象管理方法的流程示意图。

图4为一实施例提供的对象管理系统的硬件结构示意图。

图5为一实施例提供的终端设备的硬件结构示意图。

图6为另一实施例提供的终端设备的硬件结构示意图。

元件标号说明

M10 图像模块

M20 特征模块

M30 管理模块

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 语音组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种对象管理方法，其特征在于，包括以下步骤：

S10，获取一个或多个单帧或多帧图像；作为示例，本申请实施例中的多帧图像包括一个或多个连续帧图像(或视频)、多个单帧图像。本申请通过图像采集设备采集一个或多个多帧图像；例如复用过去已经建设完成的网络摄像机；通过复用已经建设完成的摄像机采集一个或多个视频，与新安装的摄像机相比，免去了弱电线路改造和消防审批，实施起来简单便捷，没有技术门槛。

S20，将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；对每帧图像，按照不同的分割粒度，分别分割为多组后，将每组输入至对应粒度的神经网络进行特征抽取。若多组为三组，则第一组为：整帧图像；第二组为：将每帧图像划分为上下两部分；第三组为：将每帧图像划分为上、中、下三部分。其中，所述多个不同粒度的神经网络是指多个具有不同的网络支路结构、参数、损失函数的神经网络；对象包括人、动物。

S30，根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。包括根据抽取出的包含有所述一个或多个对象的所有图像特征，对所述一个或多个对象进行识别。对所述一个或多个对象进行识别后，获取所述一个或多个对象的运动信息。其中，所述运动信息包括以下至少之一：运动时间、运动地理位置。

通过上述方案的记载，本方法能够利用一个或多个对象在监控视频下的图像特征来构建该一个或多个对象的完整活动轨迹，实现对该一个或多个对象的跨镜头、跨区域跟踪。

在一示例性实施例中，图像特征包括全局特征和/或局部特征；若对象为人，人脸特征包括以下至少之一：眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。人体特征包括以下至少之一：服饰、体型、发型、姿态。

根据抽取出的所有全局特征和/或局部特征确定所述一个或多个单帧或多帧图像中是否包含有一个或多个对象；

获取包含有所述一个或多个对象的所有单帧或多帧图像，确定所述一个或多个对象的运动信息。

在一示例性实施例中，通过一个或多个图像采集设备，获取一个或多个单帧或多帧图像；本申请实施例中的多帧图像包括一个或多个连续帧图像(或视频)、多个单帧图像。由于居民区、学校、车站、机场、商场、医院等地方行人流量通常较大，且覆盖行人的数量多；所以本申请实施例中的一个或多个目标区域包括以下至少之一：居民区、学校、车站、机场、商场、医院。

在一些示例性实施例中，通过分类损失、三元损失对所述单帧或多帧图像进行特征抽取，获取全局特征和/或局部特征。作为示例，例如通过分类损失和三元损失对所述单帧或多帧图像进行特征抽取，获取全局特征；和/或，通过所述分类损失对所述单帧或多帧图像进行特征抽取，获取局部特征。其中，所述分类损失、三元损失是经过神经网络训练后的分类损失、三元损失。将分类损失、三元损失分别输入到至少三个不同的独立神经网络支路中进行训练；训练时，每个独立神经网络支路使用不同的网络支路结构、独立的参数、独立的损失函数。具体地，利用三元损失Triplet Loss和分类损失Softmax Loss一起完成粗粒度的特征抽取，而在抽取细节粒度特征的时候，却只用分类损失Softmax Loss。在粗粒度分支中，两者联合训练可以帮助神经网络抽取更多样的特征；但在细粒度分支中，三元损失Triplet Loss将使得网络学到很错误的信息，最终导致神经网络性能下降。训练时，因为需要训练神经网络去提取三种不同粒度的特征，从Resnet50的res4a_1层开始，分成三个独立神经网络支路，每个独立神经网络支路使用不同的网络支路结构、独立的参数、独立的损失函数，有针对性地进行训练。这种神经网络结构设计非常巧妙，与现有技术相比，能够明显地提高识别效率、跟踪效率。

如图2所示，在一实施例中，以行人为对象，进行详细说明：

S100，获取一个或多个目标区域中的一个或多个监控视频；作为示例，本申请通过复用过去已经建设完成的网络摄像机采集一个或多个视频，与新安装的摄像机相比，免去了弱电线路改造和消防审批，实施起来简单便捷，没有技术门槛。由于居民区、学校、车站、机场、商场、医院等地方行人流量通常较大，且覆盖行人的数量多；所以本申请实施例中的一个或多个目标区域包括以下至少之一：居民区、学校、车站、机场、商场、医院。通过采集这些目标区域的监控视频，能够节约监控资源，利用较少的监控资源实现跨区域、跨境头的追踪。

S200，通过分类损失、三元损失对所述一个或多个监控视频进行特征抽取，获取包含有一个或多个行人的一个或多个图像特征。具体地，将一张图片分成三组：

1)完整图片；

2)上、下二分图片；

3)上、中、下三分图片。

通过分类损失Softmax Loss、三元损失Triplet Loss从每组图片中抽取特征，第一组(完整图片)中抽取的是较为整体的特征，第二组(上、下二分图片)抽取中粒度的特征，第三组(上、中、下三分图片)会抽取非常细节的特征，最后将这三组特征结合到一起用于代表这个行人。

其中，所述分类损失、三元损失是经过神经网络训练后的分类损失、三元损失。图像特征包括全局特征和/或局部特征；根据所述全局特征和/或局部特征确定一个或多个监控视频中是否包含有一个或多个行人。其中，全局特征包括以下至少之一：人脸特征、人体特征；和/或，局部特征包括以下至少之一：人脸特征、人体特征。

S300，根据抽取出的包含有一个或多个行人的所有全局特征和/或局部特征，确定一个或多个目标区域中的一个或多个监控视频中是否包含有一个或多个行人。具体地，获取包含有一个或多个全局特征和局部特征的一个或多个监控视频；将包含有一个或多个全局特征和局部特征的某一帧图像输入至分层矢量化模型中，获取该帧图像的全局特征向量和局部特征向量；根据所述某一帧图像的全局特征向量和局部特征向量，确定所述某一帧图像中是否包含有一个或多个行人。

分层矢量化模型实际上是一个多层的特征编码的过程。一个单层的特征编码由以下几个步骤组成：首先，对图片库里包含有人脸或人体的所有图像进行分块；其次，提取每块区域的局部特征(如LBP、SIFT)，形成局部特征描述子；然后，对所有局部特征描述子进行量化形成字典；最后，根据字典信息和人脸或人体图像的映射，编码形成人脸或人体图像的人脸或人体特征向量，定义该人脸或人体特征向量为人脸或人体DNA。

作为示例，以人体或人脸特征作为全局特征和/或局部特征，来确定所述某一帧图像中是否包含有一个或多个行人，具体有：

将包含有一个或多个人脸或人体的所述某一帧图像输入至所述分层矢量化模型中；

对包含有一个或多个人脸或人体的该帧图像进行分割，分割为一个或多个图像块；

提取每一个图像块的局部特征，根据所述局部特征获取每一个图像块的局部特征描述子；

对所述每一个图像块的局部特征描述子进行量化，生成图像块特征字典；

根据所述图像块特征字典与该帧图像的映射，编码形成该帧图像的人脸或人体特征向量；

获取该帧图像的人脸或人体特征向量；根据该帧图像的人脸或人体特征向量，确定所述某一帧图像中是否包含有一个或多个行人。作为示例，本申请将该帧图像的人脸或人体特征向量定义为人脸或人体DNA。其中，人脸或人体特征向量不受干扰因素的影响，所述干扰因素包括以下至少之一：光照、遮挡、角度、年龄、种族。具体地，人脸特征包括以下至少之一：眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。人体特征包括以下至少之一：服饰、体型、发型、姿态。作为示例，例如本申请实施例中的全局特征可以是容易忽略不显著的细节以及一些出现次数少的特征，例如：衣服logo，脸上的痣。局部特征可以是人体骨架关键点、人体姿态等。

获取包含有所述一个或多个行人的所有监控视频，确定所述一个或多个行人在一个或多个目标区域的运动信息。其中，所述运动信息包括以下至少之一：运动时间、运动地理位置。

本申请实施例通过获取一个或多个目标区域中的包含有一个或多个人脸或人体的一个或多个监控视频；将一个或多个监控视频中包含有所述一个或多个人脸或人体的某一帧图像输入至分层矢量化模型中，获取该帧图像的人脸或人体特征向量；根据该帧图像的人脸或人体特征向量，识别该帧图像中是否包含有一个或多个目标行人的人脸或人体。通过本方法能够识别出单帧或多帧图像中是否包含有一个或多个目标行人的人脸或人体，再判断这单帧或多帧图像来源于何处的图像采集设备，根据图像采集设备对应的地理位置，生成一个或多个目标行人的运动信息，从而可以对一个或多个目标行人进行跨区域、跨境头跟踪。

作为示例，例如获取某一居民区中其中5个摄像机拍摄的视频，每个摄像机均拍摄有一段视频，人工观看这5段视频中是否存在人脸或人体，剪切出这5段视频中存在人脸或人体的视频片段，再将存在人脸或人体的视频片段切分为一帧一帧包含有人脸或人体的图像，然后将每一帧包含有人脸或人体的图像输入至分层矢量化模型中，获取所述每一帧图像的人脸或人体特征向量；根据每一帧图像的人脸或人体特征向量，识别所述某一帧图像中是否包含有一个或多个目标行人的人脸或人体。其中，分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络，深度神经网络根据包含有目标行人的人脸或人体的图像进行训练。若识别出某些视频片段存在一个或多个目标行人的人脸或人体，直接从视频片段中获得这一个或多个目标行人的运动时间，再判断这些视频片段来源于哪些摄像机，根据摄像机的安装位置，则可以大致得到这一个或多个目标行人的运动地理位置；从而可以对这一个或多个目标行人实现跨镜头跟踪。其中，本申请实施例中的对象例如是失踪的小孩、存在某种状态的嫌疑人等。

在本申请实施例中，若对象为动物体，其跟踪方法与行人一致；具体功能和技术效果参照上述实施例即可，此处不再赘述。

如图3所示，在另一实施例中，以行人为对象，进行详细说明：

S500，获取包含一个或多个行人的待比较图像；其中，所述待比较图像为至少两个单帧或多帧图像；所述待比较图像的来源包括：证件照图像、摄像机采集的图像。

S600，对所述待比较图像进行处理，通过至少两个深度神经网络将所述待比较图像同时映射至同一比对空间中；

S700，通过所述同一比对空间比对所述待比较图像，确定所述待比较图像中是否存在一个或多个相同的行人。

具体地，选择所述待比较图像中的一个单帧或多帧图像作为参考帧图像，将所述待比较图像中其余的单帧或多帧图像作为比较帧图像；

将所述参考帧图像和所述比较帧图像分别输入到至少两个深度神经网络中，使所述比较帧图像与所述参考帧图像同时映射至同一比对空间中；

在所述同一比对空间中，对所述比较帧图像中的一个或多个人脸或人体特征和所述参考帧图像中一个或多个人脸或人体特征进行比对；

若比对结果中，所述比较帧图像中的一个或多个人脸或人体特征与所述参考帧图像中的一个或多个人脸或人体特征相同，则所述参考帧图像与所述比较帧图像中存在一个或多个相同的行人。

本申请实施例中，如果参考帧图像与所述比较帧图像中存在一个或多个相同的行人，且参考帧图像中包括有一个或多个目标行人时，则可以判断其余的单帧或多帧图像中也存在一个或多个目标行人的图像。通过找到对应的监控视频或视频片段，直接从监控视频或视频片段中获得这一个或多个目标行人的运动时间，再判断这些监控视频或视频片段来源于哪些摄像机，根据摄像机的安装位置，则可以大致得到这一个或多个目标行人的运动地理位置，从而可以对这一个或多个目标行人实现跨区域、跨镜头跟踪。

作为示例，例如获取某一医院中其中15个摄像机拍摄的视频，每个摄像机均拍摄有一段视频，人工观看这15段视频中是否存在人脸或人体，剪切出这15段视频中存在人脸或人体的视频片段，再将存在人脸或人体的视频片段切分为一帧一帧包含有人脸或人体的图像，然后将每一帧包含有人脸或人体的图像输入到至少两个深度神经网络中，使包含有所述一个或多个人脸或人体的某一帧图像与包含有所述一个或多个人脸或人体的另一帧图像同时映射至同一比对空间中；在该比对空间中比对所述某一帧图像与所述另一帧图像中的一个或多个人脸或人体，根据比对结果确定所述某一帧图像与所述另一帧图像中是否存在一个或多个相同的人脸或人体。若这些视频片段中存在一个或多个相同的人脸或人体，且这些相同的人脸或人体中包含有一个或多个目标行人的人脸或人体；则从这一个或多个视频中获取包含有所述一个或多个目标行人的人脸或人体的每一帧图像；根据获取的包含有所述一个或多个目标行人的人脸或人体的每一帧图像确定所述一个或多个目标行人的运动信息。其中，所述运动信息包括以下至少之一：运动时间、运动地理位置。所述深度神经网络是指训练完成后的深度神经网络，深度神经网络根据包含有目标行人的人脸或人体的图像进行训练。若识别出某些视频片段存在一个或多个目标行人的人脸或人体，直接从视频片段中获得这一个或多个目标行人的运动时间，再判断这些视频片段来源于哪些摄像机，根据摄像机的安装位置，则可以大致得到这一个或多个目标行人的运动地理位置；从而可以对这一个或多个目标行人实现跨镜头跟踪。本申请实施例中的目标行人是人，例如医生、病人、票贩子等。

本方法还能够应用于以下领域：

1、智能安防：对目标嫌疑人的行进轨迹进行不间断跟踪，从而更加完整地分析其行为意图。

2、智慧商业：对顾客的行进与停留轨迹进行识别，智能理解顾客需求。

3、智能寻人：即使在无法获取人脸的情况下也可通过目标人物的衣着体貌等特征快速进行定位。

4、智能家居：例如智能机器人的姿态识别、相册智能归类等。

本发明提供一种对象管理方法，通过获取一个或多个单帧或多帧图像；将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。若对象为人，本发明能够利用不同行人在监控视频中的人脸或人体特征，来构建不同行人在不同目标区域下的运动轨迹，从而实现对不同行人的跨区域、跨镜头跟踪。本方法能够复用已经建设的视频监控系统的网络摄像机，免去弱电线路改造和消防审批，实施简单便捷，无技术门槛。同时，通过复用现有的网络摄像机，能够支持5路1080P@30FPS视频流实时解析，兼容H.264/H.265视频编码格式，最大视频码率200Mbps，最大分辨率3840*2160。

如图4所示，本发明还提供一种对象管理系统，包括有：

图像模块M10，用于获取一个或多个单帧或多帧图像；作为示例，本申请实施例中的多帧图像包括一个或多个连续帧图像(或视频)、多个单帧图像。本申请通过图像采集设备采集一个或多个多帧图像；例如复用过去已经建设完成的网络摄像机；通过复用已经建设完成的摄像机采集一个或多个视频，与新安装的摄像机相比，免去了弱电线路改造和消防审批，实施起来简单便捷，没有技术门槛。

特征模块M20，用于将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；对每帧图像，按照不同的分割粒度，分别分割为多组后，将每组输入至对应粒度的神经网络进行特征抽取。若多组为三组，则第一组为：整帧图像；第二组为：将每帧图像划分为上下两部分；第三组为：将每帧图像划分为上、中、下三部分。其中，所述多个不同粒度的神经网络是指多个具有不同的网络支路结构、参数、损失函数的神经网络；对象包括人、动物。

管理模块M30，用于根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。包括根据抽取出的包含有所述一个或多个对象的所有图像特征，对所述一个或多个对象进行识别。对所述一个或多个对象进行识别后，获取所述一个或多个对象的运动信息。其中，所述运动信息包括以下至少之一：运动时间、运动地理位置。

通过上述方案的记载，本系统能够利用一个或多个对象在监控视频下的图像特征来构建该一个或多个对象的完整活动轨迹，实现对该一个或多个对象的跨镜头、跨区域跟踪。

在一实施例中，以行人为对象，进行详细说明：

图像模块M10，用于获取一个或多个目标区域中的一个或多个监控视频；作为示例，本申请通过复用过去已经建设完成的网络摄像机采集一个或多个视频，与新安装的摄像机相比，免去了弱电线路改造和消防审批，实施起来简单便捷，没有技术门槛。由于居民区、学校、车站、机场、商场、医院等地方行人流量通常较大，且覆盖行人的数量多；所以本申请实施例中的一个或多个目标区域包括以下至少之一：居民区、学校、车站、机场、商场、医院。通过采集这些目标区域的监控视频，能够节约监控资源，利用较少的监控资源实现跨区域、跨境头的追踪。

特征模块M20，用于通过分类损失、三元损失对所述一个或多个监控视频进行特征抽取，获取包含有一个或多个行人的一个或多个图像特征。具体地，将一张图片分成三组：

1)完整图片；

2)上下二分图片；

3)上中下三分图片。

通过分类损失Softmax Loss、三元损失Triplet Loss从每组图片中抽取特征，第一组抽取的是较为整体的特征，第二组抽取中粒度的特征，第三组会抽取非常细节的特征，最后将这三组特征结合到一起用于代表这个行人。

管理模块M30，用于根据抽取出的包含有一个或多个行人的所有全局特征和/或局部特征，确定一个或多个目标区域中的一个或多个监控视频中是否包含有一个或多个行人。具体地，获取包含有一个或多个全局特征和局部特征的一个或多个监控视频；将包含有一个或多个全局特征和局部特征的某一帧图像输入至分层矢量化模型中，获取该帧图像的全局特征向量和局部特征向量；根据所述某一帧图像的全局特征向量和局部特征向量，确定所述某一帧图像中是否包含有一个或多个行人。

作为示例，例如获取某一居民区中其中8个摄像机拍摄的视频，每个摄像机均拍摄有三段视频，人工观看这24段视频中是否存在人脸或人体，剪切出这24段视频中存在人脸或人体的视频片段，再将存在人脸或人体的视频片段切分为一帧一帧包含有人脸或人体的图像，然后将每一帧包含有人脸或人体的图像输入至分层矢量化模型中，获取所述每一帧图像的人脸或人体特征向量；根据每一帧图像的人脸或人体特征向量，识别所述某一帧图像中是否包含有一个或多个目标行人的人脸或人体。其中，分层矢量化模型中的每一层包括有一个或多个训练完成后的深度神经网络，深度神经网络根据包含有目标行人的人脸或人体的图像进行训练。若识别出某些视频片段存在一个或多个目标行人的人脸或人体，直接从视频片段中获得这一个或多个目标行人的运动时间，再判断这些视频片段来源于哪些摄像机，根据摄像机的安装位置，则可以大致得到这一个或多个目标行人的运动地理位置；从而可以对这一个或多个目标行人实现跨镜头跟踪。其中，本申请实施例中的对象例如是失踪的小孩、存在某种状态的嫌疑人等。

在另一实施例中，以行人为对象，进行详细说明：

获取包含一个或多个行人的待比较图像；其中，所述待比较图像为至少两个单帧或多帧图像；所述待比较图像的来源包括：证件照图像、摄像机采集的图像。

对所述待比较图像进行处理，通过至少两个深度神经网络将所述待比较图像同时映射至同一比对空间中；

通过所述同一比对空间比对所述待比较图像，确定所述待比较图像中是否存在一个或多个相同的行人。

作为示例，例如获取某一医院中其中10个摄像机拍摄的视频，每个摄像机均拍摄有两段视频，人工观看这20段视频中是否存在人脸或人体，剪切出这20段视频中存在人脸或人体的视频片段，再将存在人脸或人体的视频片段切分为一帧一帧包含有人脸或人体的图像，然后将每一帧包含有人脸或人体的图像输入到至少两个深度神经网络中，使包含有所述一个或多个人脸或人体的某一帧图像与包含有所述一个或多个人脸或人体的另一帧图像同时映射至同一比对空间中；在该比对空间中比对所述某一帧图像与所述另一帧图像中的一个或多个人脸或人体，根据比对结果确定所述某一帧图像与所述另一帧图像中是否存在一个或多个相同的人脸或人体。若这些视频片段中存在一个或多个相同的人脸或人体，且这些相同的人脸或人体中包含有一个或多个目标行人的人脸或人体；则从这一个或多个视频中获取包含有所述一个或多个目标行人的人脸或人体的每一帧图像；根据获取的包含有所述一个或多个目标行人的人脸或人体的每一帧图像确定所述一个或多个目标行人的运动信息。其中，所述运动信息包括以下至少之一：运动时间、运动地理位置。所述深度神经网络是指训练完成后的深度神经网络，深度神经网络根据包含有目标行人的人脸或人体的图像进行训练。若识别出某些视频片段存在一个或多个目标行人的人脸或人体，直接从视频片段中获得这一个或多个目标行人的运动时间，再判断这些视频片段来源于哪些摄像机，根据摄像机的安装位置，则可以大致得到这一个或多个目标行人的运动地理位置；从而可以对这一个或多个目标行人实现跨镜头跟踪。本申请实施例中的目标行人是人，例如医生、病人、票贩子等。

本系统还能够应用于以下领域：

本发明提供一种对目标区域的对象管理系统，通过图像模块获取一个或多个单帧或多帧图像；特征模块将每帧图像分割为多组，通过多个不同粒度的神经网络进行特征抽取，获取包含有一个或多个对象的图像特征；管理模块根据抽取出的包含有所述一个或多个对象的图像特征，对所述一个或多个对象进行管理。若对象为人，本系统能够利用不同行人在监控视频中的人脸或人体特征，来构建不同行人在不同目标区域下的运动轨迹，从而实现对不同行人的跨区域、跨镜头跟踪。本方法能够复用已经建设的视频监控系统的网络摄像机，免去弱电线路改造和消防审批，实施简单便捷，无技术门槛。同时，通过复用现有的网络摄像机，能够支持5路1080P@30FPS视频流实时解析，兼容H.264/H.265视频编码格式，最大视频码率200Mbps，最大分辨率3840*2160。

本发明还提供一种对象管理平台，所述平台包括有上述中任一所述的系统；

所述平台部署在一个或多个服务器上，通过网络协议连接视频监控系统中的一个或多个图像采集设备。所述平台可对接任意厂商的RTSP摄像机，支持像机数量视服务器显卡配置而定。

所述平台还包括显示单元，用于显示一个或多个图像采集设备采集的监控画面、以及显示一个或多个对象在一个或多个目标区域的运动信息。其中，显示单元提供图形化展示界面与UI交互，用于平台用户进行相关检索并输出检索结果。作为示例，包括提供网页显示，通过网页访问本平台，可以实时查看每路网络摄像机的监控画面，并可选择接入的像机进行相似目标检索与轨迹检索。

所述平台还包括有配置管理单元，用于连接所述一个或多个图像采集设备，保存所述一个或多个图像采集设备的基本信息，并对用户权限进行配置与管理。

本平台还能够应用于以下领域：

本发明提供一种对象管理平台，能够通过网络通信协议从现有的视频监控系统的网络摄像机获取视频流；能够从视频流中按一定的帧数间隔检测人脸图像并提取人脸结构化数据，对该人脸进行唯一标识；能够从视频流中按一定的帧数间隔检测人体图像并提取人体结构化数据，并将人体结构化数据与该视频帧内的人脸相关联；能够通过聚合计算将接收到的人脸与人体检测记录生成各种维度的统计数据，并据此提供人脸与人体目标图片的检索功能，同时可根据检索结果绘制指定时段内目标图片的行动轨迹。作为示例，例如：在人体检索页面上传需要检索的目标图片后选择设备、检索阈值，页面就会展示所选设备抓拍结果中与目标图片相似度满足指定阈值的抓拍结果。作为示例，例如：在人员轨迹分析页面，上传需要检索的目标图片后选择设备、检索阈值与检索时间段，页面就会在地图插件上按选择的时间展示与目标图片相似度满足指定阈值的抓拍结果的行动轨迹。

本申请实施例还提供了一种对象管理设备，包括有：

获取一个或多个单帧或多帧图像；

在本实施例中，该数据处理设备执行上述系统或方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

本申请实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中所述方法所包含步骤的指令(instructions)。

图5为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图6为本申请的一个实施例提供的终端设备的硬件结构示意图。图6是对图5在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述数据处理方法中的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图6实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图5实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种对象管理方法，其特征在于，包括以下步骤：

获取一个或多个单帧或多帧图像；

2.根据权利要求1所述的对象管理方法，其特征在于，对每帧图像，按照不同的分割粒度，分别分割为多组后，将每组输入至对应粒度的神经网络进行特征抽取。

3.根据权利要求2所述的对象管理方法，其特征在于，若多组为三组，则第一组为：整帧图像；第二组为：将每帧图像划分为上下两部分；第三组为：将每帧图像划分为上、中、下三部分。

4.根据权利要求1所述的对象管理方法，其特征在于，所述多个不同粒度的神经网络是指多个具有不同的网络支路结构、参数、损失函数的神经网络。

5.根据权利要求1或4所述的对象管理方法，其特征在于，所述图像特征包括全局特征和/或局部特征。

6.根据权利要求5所述的对象管理方法，其特征在于，通过分类损失和三元损失对每帧图像进行特征抽取，获取全局特征；和/或，

7.根据权利要求6所述的对象管理方法，其特征在于，所述三元损失为Triplet Loss，所述分类损失为Softmax Loss。

8.根据权利要求1所述的对象管理方法，其特征在于，根据抽取出的包含有所述一个或多个对象的所有图像特征，对所述一个或多个对象进行识别。

9.根据权利要求8所述的对象管理方法，其特征在于，对所述一个或多个对象进行识别后，获取所述一个或多个对象的运动信息。

10.根据权利要求5所述的对象管理方法，其特征在于，通过一个或多个图像采集设备，获取一个或多个单帧或多帧图像；

11.根据权利要求10所述的对象管理方法，其特征在于，所述多帧图像包括一个或多个连续帧图像、多个单帧图像。

12.根据权利要求10所述的对象管理方法，其特征在于，所述对象包括人、动物。

13.根据权利要求12所述的对象管理方法，其特征在于，若所述对象为人；

全局特征包括以下至少之一：人脸特征、人体特征；和/或，

局部特征包括以下至少之一：人脸特征、人体特征。

14.根据权利要求9所述的对象管理方法，其特征在于，所述运动信息包括以下至少之一：运动时间、运动地理位置。

15.根据权利要求13所述的对象管理方法，其特征在于，人脸特征包括以下至少之一：眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。

16.根据权利要求13所述的对象管理方法，其特征在于，人体特征包括以下至少之一：服饰、体型、发型、姿态。

17.一种对象管理系统，其特征在于，包括有：

图像模块，用于获取一个或多个单帧或多帧图像；

18.根据权利要求17所述的对象管理系统，其特征在于，对每帧图像，按照不同的分割粒度，分别分割为多组后，将每组输入至对应粒度的神经网络进行特征抽取。

19.根据权利要求18所述的对象管理系统，其特征在于，若多组为三组，则第一组为：整帧图像；第二组为：将每帧图像划分为上下两部分；第三组为：将每帧图像划分为上、中、下三部分。

20.根据权利要求17所述的对象管理系统，其特征在于，所述多个不同粒度的神经网络是指多个具有不同的网络支路结构、参数、损失函数的神经网络。

21.根据权利要求17或20所述的对象管理系统，其特征在于，所述图像特征包括全局特征和/或局部特征。

22.根据权利要求21所述的对象管理系统，其特征在于，通过分类损失和三元损失对每帧图像进行特征抽取，获取全局特征；和/或，

23.根据权利要求22所述的对象管理系统，其特征在于，所述三元损失为TripletLoss，所述分类损失为Softmax Loss。

24.根据权利要求17所述的对象管理系统，其特征在于，根据抽取出的包含有所述一个或多个对象的所有图像特征，对所述一个或多个对象进行识别。

25.根据权利要求24所述的对象管理系统，其特征在于，对所述一个或多个对象进行识别后，获取所述一个或多个对象的运动信息。

26.根据权利要求21所述的对象管理系统，其特征在于，通过一个或多个图像采集设备，获取一个或多个单帧或多帧图像；

27.根据权利要求26所述的对象管理系统，其特征在于，所述多帧图像包括一个或多个连续帧图像、多个单帧图像。

28.根据权利要求26所述的对象管理系统，其特征在于，所述对象包括人、动物。

29.根据权利要求28所述的对象管理系统，其特征在于，若所述对象为人；

全局特征包括以下至少之一：人脸特征、人体特征；和/或，

局部特征包括以下至少之一：人脸特征、人体特征。

30.根据权利要求25所述的对象管理系统，其特征在于，所述运动信息包括以下至少之一：运动时间、运动地理位置。

31.根据权利要求29所述的对象管理系统，其特征在于，人脸特征包括以下至少之一：眼睛的形状、鼻子的形状、嘴的形状、眼睛的间隔距离、五官的位置、脸的轮廓。

32.根据权利要求29所述的对象管理系统，其特征在于，人体特征包括以下至少之一：服饰、体型、发型、姿态。

33.一种对象管理平台，其特征在于，所述平台包括有权利要求17至权利要求32中任一所述的系统；

34.根据权利要求33所述的对象管理平台，其特征在于，还包括显示单元，用于显示一个或多个图像采集设备采集的监控画面、以及显示一个或多个对象在一个或多个目标区域的运动信息。

35.根据权利要求33所述的对象管理平台，其特征在于，还包括有配置管理单元，用于连接所述一个或多个图像采集设备，保存所述一个或多个图像采集设备的基本信息，并对用户权限进行配置与管理。

36.一种对象管理设备，其特征在于，包括有：

获取一个或多个单帧或多帧图像；

37.一种设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-16中一个或多个所述的方法。

38.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-16中一个或多个所述的方法。