CN106559645B

CN106559645B - 基于摄像机的监控方法、系统和装置

Info

Publication number: CN106559645B
Application number: CN201510622927.3A
Authority: CN
Inventors: 谢迪; 浦世亮; 彭剑锋; 朱江; 武晓阳
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2020-01-17
Anticipated expiration: 2035-09-25
Also published as: CN106559645A

Abstract

本发明公开了一种基于摄像机的监控方法、系统和装置。其中，该方法包括：接收多个摄像机持续上传的数字视频信息；使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型；在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，其中，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征；将目标对象的固有特征广播至多个摄像机；控制多个摄像机根据固有特征和语义模型对目标对象进行监控。本发明解决了现有技术中使用监控设备监控目标对象的过程中，需要对不同目标对象分别手动设计特征，导致监控效率低的技术问题。

Description

基于摄像机的监控方法、系统和装置

技术领域

本发明涉及视频监控技术领域，具体而言，涉及一种基于摄像机的监控方法、系统和装置。

背景技术

目前基于摄像机的监控技术或系统有很多，虽然这些技术或系统都在前端设备(即IP摄像机的硬件)上集成了视频监控相关的智能算法，用于对IP摄像机获取的数字视频信号进行分析，但现有技术具有如下的缺点：

(1)、现有的监控技术或系统针对监控场景中的不同目标类型(如人、汽车、非机动车等)采用不同的人工设计特征，需要技术人员针对目标类型手动设计特征，这样的方式无法涉及全部对象，因此当需要识别一类新对象时，若不针对这一类新对象重新手动设计特征，则无法实现对这一类新对象的监控、跟踪；若针对这一类新对象重新手动设计特征，又费时费力、效率低。

(2)、现有的监控技术或系统仅支持识别、检测、跟踪等基础智能，无法根据IP摄像机采集到的跟踪对象的不同特征进行更新，布控与跟踪功能不准确。例如，在前一部IP摄像机中圈选一辆目标车辆开始跟踪，当目标车辆驶出该IP摄像机时，需要切换到下一部IP摄像机以继续对目标车辆进行跟踪，但是由于现有技术中的IP摄像机不会对采集到的跟踪对象(如目标车辆)的不同特征进行更新，当目标车辆在前一部IP摄像机中被采集到的特征为车辆前部，而目标车辆进入下一部IP摄像机时被采集到的特征为车辆后部时，可能导致下一部IP摄像机识别目标车辆失败，从而导致跟踪失败。

针对现有技术中使用监控设备监控目标对象的过程中，需要对不同目标对象分别手动设计特征，导致监控效率低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于摄像机的监控方法、系统和装置，以至少解决现有技术中使用监控设备监控目标对象的过程中，需要对不同目标对象分别手动设计特征，导致监控效率低的技术问题。

根据本发明实施例的一个方面，提供了一种基于摄像机的监控方法，包括：接收多个摄像机持续上传的数字视频信息，其中，数字视频信息包括生成数字视频信息时摄像机对应的监控区域内的场景内容；使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型，其中，语义模型用于描述摄像机对应的监控区域内的场景内容；在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，其中，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征；将目标对象的固有特征广播至多个摄像机；控制多个摄像机根据固有特征和语义模型对目标对象进行监控。

根据本发明实施例的另一方面，还提供了一种基于摄像机的监控方法，包括：实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号；在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到目标对象的第一特征模型，其中，语义模型为服务器预先下发的用于描述摄像机对应的监控区域内的场景内容的模型，第一特征模型为摄像机生成的目标对象的特征模型；比较第一特征模型和摄像机接收到的目标对象的固有特征，得到比较结果；判断比较结果是否超过预设阈值；若比较结果超过预设阈值，则多个摄像机联动跟踪目标对象。

根据本发明实施例的另一方面，还提供了一种基于摄像机的监控系统，包括：服务器集群，包括多个服务器，多个服务器用于接收多个摄像机持续上传的数字视频信息，使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型，在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，将目标对象的固有特征广播至多个摄像机，以及控制多个摄像机根据固有特征和语义模型对目标对象进行监控，其中，数字视频信息包括生成数字视频信息时摄像机对应的监控区域内的场景内容，语义模型用于描述摄像机对应的监控区域内的场景内容，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征；多个摄像机，用于实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号，在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到摄像机的第一特征模型，比较第一特征模型和摄像机接收到的目标对象的固有特征，得到比较结果，判断比较结果是否超过预设阈值，以及若比较结果超过预设阈值，则多个摄像机联动跟踪目标对象，其中，语义模型为服务器预先下发的用于描述摄像机对应的监控区域内的场景内容的模型，第一特征模型为摄像机生成的目标对象的特征模型。

根据本发明实施例的另一方面，还提供了一种基于摄像机的监控装置，包括：接收单元，用于接收多个摄像机持续上传的数字视频信息，其中，数字视频信息包括生成数字视频信息时摄像机对应的监控区域内的场景内容；第一处理单元，用于使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型，其中，语义模型用于描述摄像机对应的监控区域内的场景内容；提取单元，用于在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，其中，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征；广播单元，用于将目标对象的固有特征广播至多个摄像机；控制单元，用于控制多个摄像机根据固有特征和语义模型对目标对象进行监控。

根据本发明实施例的另一方面，还提供了一种基于摄像机的监控装置，包括：获取单元，用于实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号；第二处理单元，用于在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到目标对象的第一特征模型，其中，语义模型为服务器预先下发的用于描述摄像机对应的监控区域内的场景内容的模型，第一特征模型为摄像机生成的目标对象的特征模型；比较单元，用于比较第一特征模型和摄像机接收到的目标对象的固有特征，得到比较结果；第一判断单元，用于判断比较结果是否超过预设阈值；第一确定单元，用于在比较结果超过预设阈值的情况下，确定多个摄像机联动跟踪目标对象。

采用本发明实施例，在接收到多个摄像机持续上传的数字视频信息之后，使用预设的学习模型处理该数字视频信息，得到各个摄像机对应的语义模型，在接收到用于监控目标对象的监控请求之后，无论目标对象属于何种类型，均可使用相同的学习模型自动提取目标对象的固有特征，然后将提取到的目标对象的固有特征广播至多个摄像机，并控制多个摄像机根据该目标对象的固有特征和语义模型联动跟踪该目标对象，无需现有技术中开发人员对不同类型的目标对象手动设计不同的特征，省时省力。通过本发明实施例，使用相同的学习模型自动提取任一类型的目标对象的固有特征，无论目标对象是什么类型，均可自动识别并自动提取其固有特征，避免了现有技术中针对不同目标类型开发人员需分别手动设计特征的问题，大大简化了监控不同目标类型的对象时的设计流程，提高了监控效率。采用本发明实施例，解决了现有技术中使用监控设备监控目标对象的过程中，需要对不同目标对象分别手动设计特征，导致监控效率低的技术问题，实现了无需根据目标对象的类型分别手动设计特征，无论目标对象是何种类型均可自动提取目标对象的固有特征，并基于该自动提取的固有特征准确监控目标对象的效果，提高了监控效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种基于摄像机的监控方法的流程图；

图2是根据本发明实施例的另一种基于摄像机的监控方法的流程图；

图3是根据本发明实施例的一种可选的基于摄像机的监控方法的流程图；

图4是根据本发明实施例的基于摄像机的监控系统的示意图；

图5是根据本发明实施例的一种基于摄像机的监控装置的示意图；以及

图6是根据本发明实施例的另一种基于摄像机的监控装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

IP摄像机：IP Camera，即网络摄像机，是基于网络传输的数字化设备，由传统摄像机与网络技术结合所产生的新一代摄像机。

CNN：Convolutional Neural Network，即卷积神经网络，是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

AP算法：Affinity propagation，即吸引子传播算法，其基本思想是将全部样本看作网络的节点，然后通过网络中各条边的消息传递，计算出各样本的聚类中心。

根据本发明实施例，提供了一种基于摄像机的监控方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种基于摄像机的监控方法的流程图，如图1所示，该方法可以包括如下步骤：

步骤S11，接收多个摄像机持续上传的数字视频信息，其中，数字视频信息包括生成数字视频信息时摄像机对应的监控区域内的场景内容。

在一种可选的实施例中，服务器集群中的各个服务器可以通过专用光缆接收各个摄像机上传的数字视频信号(如，RGB视频帧)。

进一步地，摄像机可以持续不断地将其拍摄到的数字视频信号传输至服务器，以便服务器基于这些数字视频信号建立各个摄像机所监控的监控区域的场景内容的模型。

步骤S13，使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型，其中，语义模型用于描述摄像机对应的监控区域内的场景内容。

在一种可选的实施例中，服务器根据预设的学习模型(如，深度学习的图像理解算法模型)对接收到的数字视频信号进行处理，提取数字视频信号所对应的场景内容中的所有对象的特征，生成对应该场景内容的语义模型。

可选地，预设的学习模型可以为卷积神经网络CNN模型。

步骤S15，在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，其中，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征。

在一种可选的实施例中，用户可以在需要对目标对象(如，人、汽车、非机动车等对象)进行监控时，向服务器输入待监控的目标对象所在的图像或者视频(如包含该目标对象的图像信息或者视频信息)，并请求对该目标对象进行监控。

可选地，目标对象可以为一种类型的目标，也可以为多种类型的目标；服务器可以为中央处理服务器集群(如中央处理单元)中的一台服务器。

进一步地，服务器在接收到携带有目标对象的监控请求(如，监控请求中携带有目标对象所在的图像或视频)之后，使用同样的学习模型从该图像或视频中自动提取目标对象的固有特征，而无需开发人员手动为该目标对象设计特征，省时省力，为后续对该目标对象的监控提供了准确的监控依据。

可选地，固有特征可以唯一的标识出目标对象，可以为目标对象本身所具有的特征，如颜色、表面纹理或者形状等等。

需要说明的是，无论目标对象是什么类型的对象，都可以使用该学习模型提取其固有特征。

步骤S17，将目标对象的固有特征广播至多个摄像机。

在一种可选的实施例中，服务器在提取到目标对象的固有特征之后，将该固有特征广播至多个摄像机，以根据该自动提取的固有特征对目标对象进行监控、跟踪等。其中，摄像机可以为IP摄像机。

步骤S19，控制多个摄像机根据固有特征和语义模型对目标对象进行监控。

可选地，服务器可以控制多个摄像机(如IP摄像机)根据其接收到的目标对象的固有特征和语义模型联动跟踪该目标对象，达到对目标对象进行识别跟踪的目的。

通过本发明上述实施例，可以自动识别一个或多个目标对象并提取其固有特征，基于自动提取到的固有特征对一个或多个目标对象同时进行监控、跟踪，进一步地提高了监控效率，可以节省大量人力物力资源。

根据本发明上述实施例，步骤S13，使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型可以包括：

步骤S131，使用学习模型处理任意一个摄像机所上传的多个数字视频信息，生成摄像机对应的初始语义模型。

可选地，对于任意一个摄像机持续上传的数字视频信息，使用相同的学习模型对其进行提取处理，得到对应于该摄像机所监控的监控区域的场景内容的初始语义模型，该初始语义模型描述了该摄像机所监控的监控区域的场景内容中的所有对象，如车辆、树木、马路等。

步骤S133，根据各个摄像机的物理位置建立虚拟网络。其中，虚拟网络中的节点对应各个摄像机的物理位置。

在一种可选的实施例中，服务器根据每个摄像机所对应的物理位置建立一个虚拟网络，每个摄像机对应该虚拟网络中的一个网络节点，以便基于该虚拟网络自动更新每个节点的摄像机对应的语义模型。

步骤S135，基于虚拟网络的节点控制各个摄像机进行信息交换，更新各个摄像机对应的初始语义模型，以得到各个摄像机对应的语义模型。

在一种可选的实施例中，可以使用吸引子传播AP算法自动地通过虚拟网络节点间的信息传递实现在线地更新每个节点对应的初始语义模型，得到各个摄像机对应的语义模型。

可选地，在更新模型时，每个节点将根据其领域节点的信息调整自身的模型参数，这个过程可以通过AP算法实现。AP算法是基于数据点之间的消息传递的一种聚类算法，不同于传统的聚类算法(如，k-means)，AP算法不需要确定类别的数目，而是只需找到能够表示一类的“典型样本”。下面对AP算法的原理进行说明。

例如，用x₁...x_n表示n个数据点的集合，s表示任意两个数据点间的相似度，满足仅当x_i与x_j之间的相似度比x_i与x_k之间的相似度更高时，有s(x_i,x_j)＞s(x_i,x_k)。在聚类过程中，AP算法交替地更新两类矩阵——吸引度(responsibility)矩阵与归属度(availability)矩阵。吸引度矩阵的每一个元素r(i,k)表示一个得分，此得分说明了在考虑其它候选点的前提下，当我们将数据点x_k作为当前数据点x_i的“典型样本”时的合适程度；而归属度矩阵的每一个元素a(i,k)同样表示一个得分，度量了数据点x_i将数据点x_k挑选为“典型样本”的合适程度。

其中，吸引度矩阵的更新方程如下：

r(i,k)←s(i,k)-max_k′≠k{a(i,k′)+s(i,k′)}；

归属度矩阵的更新方程如下：

在上述两个更新方程中，i≠k且a(k,k)←∑_i′≠kmax(0,r(i′,k))。

在该实施例中，当AP算法完成时，服务器将获得相似场景的加权语义模型(即本发明上述实施例中的摄像机的语义模型)。

通过本发明上述实施例，各个摄像机之间通过模型共享与信息交互机制，将不同摄像机对应的节点之间的语义模型进行融合，可以自适应地学习并更新模型，从而不断增强对目标对象的识别跟踪能力，实现了鲁棒的布控和跟踪功能。

在本发明上述实施例中，监控请求携带有包括目标对象的图像信息，其中，步骤S15，使用学习模型提取目标对象的固有特征可以包括：

步骤S151，识别目标对象在图像信息中所处的区域。

步骤S153，使用学习模型对区域内的图像进行特征提取处理，得到目标对象的固有特征。

在一种可选的实施例中，服务器在接收到用户输入的携带有目标对象所在的图像或者视频的信息的监控请求之后，从该信息中自动识别该目标对象所在的区域，并在识别到目标对象所在的区域之后，使用上述的学习模型(如CNN模型)对该区域对应的图像进行特征提取，从而得到目标对象的固有特征。

下面以用户输入一幅包含目标对象的图像为例对本发明上述实施例进行说明。

例如，当用户将包含目标对象的图像输入至服务器并请求服务器对该目标对象进行监控之后，服务器自动在该图像上识别出目标对象所处的图像区域，并将该图像区域标记出来，如在图像上以虚线框的形式将目标对象框在虚线框内。然后，服务器使用CNN模型对该虚线框内的特征进行提取处理，将提取到的特征作为目标对象的固有特征。

通过本发明上述实施例，使用基于深度学习的特征提取技术，对不同类型的目标对象使用相同的模型自动设计特征，避免了现有技术中针对不同类型的对象需要开发人员手动设计不同特征的问题，大大简化了监控设计流程，提高了监控效率。

在本发明上述实施例中，步骤S19，控制多个摄像机根据固有特征和语义模型对目标对象进行监控可以包括：

步骤S191，将最新的语义模型广播至多个摄像机，其中，多个摄像机根据最新的语义模型识别是否监控到目标对象。

可选地，服务器将最新的语义模型广播至多个摄像机，各个摄像机在接收到语义模型和目标对象的固有特征之后，判断其监控区域内是否监控到该目标对象。

在一个可选的实施例中，任意一个摄像机在接收到语义模型和目标对象的固有特征之后，使用上述实施例中的预设的学习模型对其生成的数字视频信息进行处理，得到该摄像机对应的监控区域的场景内容的模型，然后使用接收到的语义模型对该模型进行去重处理，即将语义模型中包含的对象作为背景，从生成的模型中去掉。然后，将去重后的模型与接收到的目标对象的固有特征进行对比，若对比的结果符合预设条件(如两者的相似率超过了预设阈值)，则识别出该摄像机监控到了目标对象。

步骤S193，接收监控到目标对象的摄像机返回的监控信息。

可选地，摄像机在监控到目标对象之后，将监控到目标对象的监控信息返回至服务器。

在一个可选的实施例中，监控信息中至少可以包括监控到的目标对象的特征以及监控到目标对象的时间。

步骤S195，根据监控信息监控目标对象。

具体地，服务器根据各个摄像机返回的监控信息对目标对象进行监控、跟踪。

在一个可选的实施例中，步骤S195，根据监控信息监控目标对象可以包括：

步骤S1951，获取各个监控到目标对象的摄像机的地理位置信息以及监控到目标对象的时间信息。

可选地，服务器获取各个监控到了目标对象的摄像机的地理位置信息(如GIS信息)以及其监控到目标对象的时间信息(如，目标对象在摄像机中出现的时间)。

其中，GIS为Geographic Information System，即地理信息系统。

步骤S1953，按照各个摄像机的时间信息的先后顺序，使用各个摄像机的地理位置信息构建目标对象的虚拟移动轨迹。

在一种可选的实施例中，服务器可以根据监控到目标对象的各个摄像机的GIS信息以及目标对象在各个摄像机中出现的时间来构建目标对象的虚拟移动轨迹。

例如，首先获取监控到目标对象的各个摄像机的GIS信息，并依据各个摄像机监控到目标对象的时间先后顺序在各个摄像机对应的地图上构建出一条目标对象移动的虚拟移动轨迹，以便基于该虚拟移动轨迹分析目标对象的移动倾向方向，从而为监控、跟踪目标对象提供建议。

步骤S1955，展示虚拟移动轨迹。

在一种可选的实施例中，在构建出目标对象的虚拟移动轨迹之后，可以展示该虚拟移动轨迹，以供监控人员查看。

步骤S1957，在接收用户输入的操作指令之后，按照操作指令控制虚拟移动轨迹的展示方式，其中，操作指令包括如下至少之一：旋转操作指令、缩放操作指令以及平移操作指令。

可选地，监控人员可以提供增强实现技术与服务器进行交互，并根据监控需求，对该虚拟移动轨迹的展示方式进行各种控制与操作，比如，使用手势控制三维虚拟移动轨迹进行旋转、缩放以及平移等。

可选地，服务器在接收到监控人员输入的操作指令之后，按照该操作指令调整虚拟移动轨迹的展示方式。

可选地，步骤S17，将目标对象的固有特征广播至多个摄像机可以包括：

步骤S171，对目标对象的固有特征进行压缩得到压缩包。

步骤S173，将压缩包广播至各个摄像机。

具体地，在服务器提取到目标对象的固有特征之后，将该固有特征压缩之后广播至前端的各个摄像机，接收到广播信息的摄像机将自动进入布控模式，开启对目标对象的监控过程。

图2是根据本发明实施例的另一种基于摄像机的监控方法的流程图。如图2所示，该方法可以包括：

步骤S202，实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号。

可选地，摄像机实时监控其所对应的监控区域的场景内容得到数字视频信号(如，RGB视频帧)。

在本发明实施例中，摄像机可以为IP摄像机。

步骤S204，在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到目标对象的第一特征模型。

其中，语义模型为服务器预先下发的用于描述摄像机对应的监控区域内的场景内容的模型，第一特征模型为摄像机生成的目标对象的特征模型。

在一种可选的实施例中，摄像机在接收到服务器下发的目标对象的固有特征之后，自动进入布控模式，此时摄像机根据其预先存储的由服务器下发的学习模型(如CNN模型)和语义模型处理监控得到的数字视频信号，以生成该摄像机对应的第一特征模型。

可选地，摄像机可以将语义模型作为背景模型，利用学习模型处理数字视频信号得到一个模型，并将得到的该模型中与背景模型中相同的信息过滤去重，利用过滤得到的模型作为第一特征模型。

步骤S206，比较第一特征模型和摄像机接收到的目标对象的固有特征，得到比较结果。

可选地，摄像机将描述其监控到的目标对象的第一特征模型与服务器下发的目标对象的固有特征进行比较，并依据比较结果判断是否需要开启联动跟踪模式。

步骤S208，判断比较结果是否超过预设阈值。

可选地，当摄像机判断出上述比较结果超过预设阈值时，表示摄像机监控到了待监控的目标对象。

步骤S210，若比较结果超过预设阈值，则多个摄像机联动跟踪目标对象。

可选地，在比较结果超过预设阈值的情况下，即摄像机监控到了目标对象时，此时摄像机开启跟踪模式，在跟踪模式下，所有摄像机将对目标对象进行联动跟踪。

采用本发明实施例，实时获取摄像机监控对应监控区域得到的数字视频信号，并在接收到服务器下发的待监控的目标对象的固有特征之后，基于服务器预先下发的学习模型和语义模型将数字视频信号自动映射为第一特征模型，当摄像机当前获得的第一特征模型与服务器下发的目标对象的固有特征的比较结果超过预设阈值时，则表示摄像机监控到了目标对象，摄像机开启跟踪模式，在跟踪模式下，所有摄像机将对目标对象进行联动跟踪。通过本发明实施例，对于任意类型的目标对象，均可根据服务器下发的相同的学习模型和语义模型自动提取摄像机监控到的数字视频信号的特征得到第一特征模型，并将摄像机当前得到的第一特征模型与目标对象的固有特征进行对比，实现对目标对象的有效监控，无需现有技术中开发人员针对不同目标类型分别手动设计特征以监控目标对象，大大简化了监控不同目标类型的对象时的设计流程，提高了监控效率。采用本发明实施例，解决了现有技术中使用监控设备监控目标对象的过程中，需要对不同目标对象分别手动设计特征，导致监控效率低的技术问题，实现了使用相同的学习模型自动提取任意类型的目标对象的固有特征，并基于该自动提取的固有特征准确监控目标对象的效果，提高了监控效率。

根据本发明上述实施例，步骤S210，多个摄像机联动跟踪目标对象可以包括：

步骤S2101，接收摄像机邻域内的其他摄像机发送的第二特征模型。其中，第二特征模型为邻域内的其他摄像机生成的目标对象的特征模型。

步骤S2103，根据第二特征模型调整第一特征模型的模型参数，以更新第一特征模型。

步骤S2105，使用更新后的第一特征模型对目标对象进行监控，并将更新后的第一特征模型发送至邻域内的其他摄像机。

在一种可选的实施例中，在跟踪模式下，所有摄像机对目标对象进行联动跟踪，在此过程中，可以对目标对象进行时空建模(如，根据摄像机采集得到的视频信息以及摄像机的位置进行建模)，由于在同一时间只有一个摄像机可以监控到目标对象，该摄像机可以接收其前一个监控到该目标对象的摄像机发送来的第二特征模型，并根据该第二特征模型更新该摄像机本身生成的第一特征模型的参数，得到更新后的第一特征模型并使用更新后的第一特征模型监控目标对象。在该摄像机完成对目标对象的监控之后，将更新后的第一特征模型发送至其下一个监控到该目标对象的摄像机，以使其下一个摄像机获得关于目标对象的最新信息，达到模型融合的目的。

通过本发明上述实施例，在跟踪模式下，所有摄像机对目标对象进行多摄像机联动跟踪，并对该目标对象进行时空建模，同时各个摄像机之间还将进行信息交换，以进行模型融合，达到通过学习不断增强对目标对象的记忆的目的。

在本发明上述实施例中，步骤S204，在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到摄像机的第一特征模型可以包括：

步骤S2041，使用学习模型和语义模型对数字视频信号进行处理，得到关于目标对象的特征图。

步骤S2043，对特征图进行上采样操作，得到与数字视频信号分辨率一致的特征图。

步骤S2045，从与数字视频信号分辨率一致的特征图中确定目标对象的位置信息。

步骤S2047，提取位置信息的特征，生成第一特征模型。

可选地，摄像机可以将语义模型作为背景模型，利用学习模型将数字视频信号中与背景模型中相同的信息过滤处理和特征提取处理，得到关于目标对象的特征图；对该特征图进行上采样操作，以获得与原数字视频信号分辨率一致的特征图，并从该特征图中确定目标对象所处的位置，利用学习模型提取该位置处的特征，并基于提取到的特征生成第一特征模型。

在一个可选的实施例中，当用户输入目标对象所在的图像或者视频时，服务器自动提取对象所在的图像区域，使用CNN模型提取目标对象的固有特征，然后将经过压缩的固有特征广播到每个IP摄像机。接收到广播信息(即前述的固有特征)的IP摄像机自动进入布控模式。在布控模式开启期间，集成在每个摄像机的摄像头上的嵌入式芯片(System onChip，简称SoC模块)开始工作，将输入的数字视频信号通过端到端(End-to-End)的方式自动映射为特征模型(即上述实施例中的第一特征模型)。

在该实施例中，将原始的数字视频信号自动映射为目标对象的第一特征模型的过程如下：

(1)使用中央处理单元中的服务器下发的学习模型(如CNN模型)处理输入的数字视频信号(如RGB视频帧)；

(2)经CNN模型输出得到关于目标对象的特征图(如，得分图)；

(3)对得分图进行上采样操作，得到与输入的RGB视频帧分辨率一致的得分图；

(4)对(3)中得到的得分图进行后处理(如图像处理操作)，得到目标对象的最大似然位置。其中，最大似然位置由于指示目标对象在RGB视频帧中所处的位置。

最后，摄像机根据(4)中得到的目标对象的最大似然位置生成第一特征模型，并将当前获得的第一特征模型与存储在摄像机内存中的目标对象的固有特征进行比对，如果比对结果超过预设阈值即表明当前情况符合报警规则，则摄像机开启跟踪模式。与此同时，摄像机向服务器发送报警信号。

在本发明上述实施例中，在实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号之后，上述方法还可以包括：判断是否接收到服务器下发的目标对象的固有特征；在判断出接收到服务器下发的目标对象的固有特征的情况下，摄像机进入布控模式，以使用学习模型和语义模型处理数字视频信号，得到摄像机的第一特征模型；在判断出未接收到服务器下发的固有特征的情况下，则摄像机将得到的数字视频信号上传至服务器。

具体地，摄像机在基于服务器下发的学习模型和语义模型生成目标对象的第一特征模型之前，首先判断是否接收到服务器下发的固有特征，在接收到服务器下发的固有特征时，摄像机自动进入布控模式，执行基于服务器下发的学习模型和语义模型生成目标对象的第一特征模型；在未接收到服务器下发的固有特征的情况下，则摄像机持续不断的将监控其监控区域产生的数字视频信号上传至服务器，以供服务器根据摄像机上传的数字视频信号生成各个摄像机对应的语义模型，实现对各个摄像机监控区域的场景描述。

可选地，在多个摄像机联动跟踪目标对象的同时，上述方法还可以包括：监控到目标对象的摄像机向服务器发送报警信号。其中，报警信号用于指示监控到目标对象的摄像机监控到了目标对象。

在一种可选的实施例中，监控到目标对象的摄像机向服务器发送报警信号，以告知服务器其监控到了目标对象，以便服务器及时了解摄像机的监控结果，根据监控结果对监控进行及时调整或及时告知监控人员。

下面结合图3详细介绍本发明上述实施例，如图3所示，以两个IP摄像机和一个中央处理单元为例对本发明上述实施例进行说明。如图3所示的方法可以包括如下步骤：

步骤S301，IP摄像机实时采集数字视频信号。

步骤S302，IP摄像机判断是否进入布控模式。

具体地，IP摄像机根据是否接收到中央处理单元(可以包括上述实施例中的服务器)下发的目标对象的固有特征为依据来判断是否进入布控模式：在IP摄像机接收到中央处理单元下发的目标对象的固有特征时，判断出进入布控模式；在IP摄像机未接收到中央处理单元下发的目标对象的固有特征时，判断出不进入布控模式。

其中，如果IP摄像机判断出进入布控模式，则执行步骤S305；如果IP摄像机判断出不进入布控模式，则执行步骤S303。

步骤S303，中央处理单元接收IP摄像机上传的数字视频信号。

步骤S304，中央处理单元根据数字视频信号生成语义模型。

具体地，该步骤的实现方式与本发明上述实施例中的步骤S1011至步骤S1014的实现方式一致，在此不再赘述。

步骤S305，IP摄像机进行建模对比。

具体地，该步骤的实现方式与本发明上述实施例中的步骤S204至步骤S206的实现方式一致，在此不再赘述。

步骤S306，IP摄像机判断是否进入跟踪模式。

具体地，该步骤的实现方式与本发明上述实施例中的步骤S208的实现方式一致，在此不再赘述。

其中，如果IP摄像机判断出进入跟踪模式，则执行步骤S307；如果IP摄像机判断出不进入跟踪模式，则返回执行步骤S305。

步骤S307，IP摄像机对目标对象进行跟踪。

具体地，该步骤的实现方式与本发明上述实施例中的步骤S210的实现方式一致，在此不再赘述。

步骤S308，IP摄像机在线更新目标对象的第一特征模型。

具体地，该步骤的实现方式与本发明上述实施例中的步骤S2101至步骤S2105的实现方式一致，在此不再赘述。

在该实施例中，提出了一种具有在线学习与推理功能的基于摄像机的前端实时布控方法与系统。该系统由中央处理单元(如中央处理服务器集群)与一定规模的前端IP摄像机组成。前端IP摄像机将获取的数字视频信号通过专用光缆传输到中央处理服务器集群，服务器集群自动调配空闲计算资源处理对应的数字视频信号，使用基于深度学习的图像理解算法生成对当前场景的初始语义描述。在该系统运行的生命周期中，前端IP摄像机持续不断地将拍摄到的画面传输回中央处理服务器集群，中央处理服务器集群将根据每个摄像机的物理位置建立一个虚拟网络，然后使用AP算法自动地通过网络节点间的信息传递在线地更新每个节点对应的语义模型。

当用户输入目标对象所在的图像或者视频时，系统自动提取目标对象所在的图像区域，使用卷积神经网络提取对象的固有特征，然后将经过压缩的特征广播到每个前端IP摄像机。接收到广播信息的前端IP摄像机自动进入布控模式。在布控模式开启期间，集成在每个IP摄像机的摄像头上的SoC智能模块开始工作，将输入的数字视频信号通过端到端(End-to-End)的方式自动映射为第一特征模型。前端IP摄像机将当前获得的第一特征模型与存储在内存中的目标对象的固有特征进行比对，如果符合报警规则(如，比对结果超过预设阈值)则开启跟踪模式。在跟踪模式下，所有前端IP摄像头将对目标对象进行多摄像机联动跟踪，并对目标对象进行时空建模，同时还将进行各个节点间的信息进行交换，目的是进行模型融合，通过学习不断增强对目标对象的记忆。同时，该系统将结合每个前端IP摄像机的GIS信息构建出目标对象的虚拟移动轨迹，用户还可通过增强现实技术与系统进行交互，对目标对象的虚拟移动轨迹的呈现方式进行各种控制与操作，比如使用手势控制三维轨迹模型的旋转、缩放以及平移等。

本发明上述实施例所提出的系统不但支持识别、检测、跟踪等基础智能功能，而且具备在线学习能力，能够自适应地学习并更新对象模型，从而实现鲁棒的布控与跟踪功能，并且基于AP算法通过网络节点(一个节点对应一个前端IP摄像机)之间的信息交换与传递实现了系统的推理功能，将不同节点之间的模型进行融合，从而不断增强对目标对象的识别跟踪能力。

通过本发明上述实施例，可以同时识别视频监控场景中的多种类型目标(行人、汽车、电瓶车、自行车)等，自动识别目标类别，基于深度学习的特征提取技术，不同类型的对象使用相同的模型建模，大大简化了系统的设计流程；该系统可以应用到自动化或半自动化嫌疑对象追踪、寻人寻物等方面，从而节省大量的人力物力资源。

图4根据本发明实施例的基于摄像机的监控系统的示意图。如图4所示，该系统可以包括：服务器集群41和多个摄像机43。

其中，服务器集群41包括多个服务器，多个服务器用于接收多个摄像机持续上传的数字视频信息，使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型，在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，将目标对象的固有特征广播至多个摄像机，以及控制多个摄像机根据固有特征和语义模型对目标对象进行监控，其中，数字视频信息包括生成数字视频信息时摄像机对应的监控区域内的场景内容，语义模型用于描述摄像机对应的监控区域内的场景内容，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征。

多个摄像机43用于实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号，在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到摄像机的第一特征模型，比较第一特征模型和摄像机接收到的目标对象的固有特征，得到比较结果，判断比较结果是否超过预设阈值，以及若比较结果超过预设阈值，则多个摄像机联动跟踪目标对象。

采用本发明实施例，服务器集群中的各个服务器在接收到多个摄像机持续上传的数字视频信息之后，使用预设的学习模型处理该数字视频信息，得到各个摄像机对应的语义模型，在接收到用于监控目标对象的监控请求之后，无论目标对象属于何种类型，均可使用相同的学习模型自动提取目标对象的固有特征，然后将提取到的目标对象的固有特征广播至多个摄像机，并控制多个摄像机根据该目标对象的固有特征和语义模型联动跟踪该目标对象，无需现有技术中开发人员对不同类型的目标对象手动设计不同的特征，省时省力；实时获取摄像机监控对应监控区域得到的数字视频信号，并在摄像机接收到服务器下发的待监控的目标对象的固有特征之后，基于服务器预先下发的学习模型和语义模型将数字视频信号自动映射为第一特征模型，当摄像机当前获得的第一特征模型与服务器下发的目标对象的固有特征的比较结果超过预设阈值时，则表示摄像机监控到了目标对象，摄像机开启跟踪模式，在跟踪模式下，所有摄像机将对目标对象进行联动跟踪。通过本发明实施例，使用相同的学习模型自动提取任一类型的目标对象的固有特征，无论目标对象是什么类型，均可自动识别并自动提取其固有特征，避免了现有技术中针对不同目标类型开发人员需分别手动设计特征的问题，大大简化了监控不同目标类型的对象时的设计流程，提高了监控效率。采用本发明实施例，解决了现有技术中使用监控设备监控目标对象的过程中，需要对不同目标对象分别手动设计特征，导致监控效率低的技术问题，实现了无需根据目标对象的类型分别手动设计特征，无论目标对象是何种类型均可自动提取目标对象的固有特征，并基于该自动提取的固有特征准确监控目标对象的效果，提高了监控效率。

在一种可选的实施例中，在该系统运行的生命周期中，多个摄像机持续不断的将采集到的数字视频信号上传至服务器；在该实施例中，服务器根据预设的学习模型(如，卷积神经网络CNN模型)对接收到的数字视频信号进行处理，提取数字视频信号中的所有对象的特征，生成对应摄像机的监控区域的场景内容的初始语义模型。

进一步地，服务器根据每个摄像机所对应的物理位置建立一个虚拟网络，每个摄像机对应该虚拟网络中的一个网络节点，以便基于该虚拟网络自动更新每个节点的摄像机对应的语义模型。

可选地，可以使用吸引子传播AP算法自动地通过虚拟网络节点间的信息传递实现在线地更新每个节点对应的初始语义模型，得到各个摄像机对应的语义模型。在更新模型时，每个节点将根据其领域节点的信息调整自身的模型参数，这个过程可以通过AP算法实现。

在一种可选的实施例中，用户可以在需要对目标对象(如，人、汽车、非机动车等对象)进行监控时，向服务器输入待监控的目标对象所在的图像或者视频(如包含该目标对象的图像信息或者视频信息)，并请求对该目标对象进行监控。可选地，目标对象可以为一种类型的目标，也可以为多种类型的目标；服务器可以为中央处理服务器集群(如中央处理单元)中的一台服务器。

服务器在提取到目标对象的固有特征之后，将该固有特征广播至多个摄像机，以根据该自动提取的固有特征对目标对象进行监控、跟踪等。其中，摄像机可以为IP摄像机。可选地，服务器可以控制多个摄像机(如IP摄像机)根据其接收到的目标对象的固有特征和语义模型联动跟踪该目标对象，达到对目标对象进行识别跟踪的目的。

在一个可选的实施例中，摄像机实时监控其所对应的监控区域的场景内容得到数字视频信号(如，RGB视频帧)。摄像机在接收到服务器下发的目标对象的固有特征之后，自动进入布控模式，此时摄像机根据其预先存储的由服务器下发的学习模型(如CNN模型)和语义模型处理监控得到的数字视频信号，以生成该摄像机对应的第一特征模型。可选地，摄像机可以将语义模型作为背景模型，利用学习模型处理数字视频信号得到一个模型，并将得到的该模型中与背景模型中相同的信息过滤去重，利用过滤得到的模型作为第一特征模型。

在该实施例中，摄像机将描述其监控到的目标对象的第一特征模型与服务器下发的目标对象的固有特征进行比较，并依据比较结果判断是否需要开启联动跟踪模式。当摄像机判断出上述比较结果超过预设阈值时，表示摄像机监控到了待监控的目标对象，此时摄像机开启跟踪模式，在跟踪模式下，所有摄像机将对目标对象进行联动跟踪。

在一种可选的实施例中，监控到目标对象的摄像机可以向服务器发送报警信号，以告知服务器其监控到了目标对象，以便服务器及时了解摄像机的监控结果，根据监控结果对监控进行及时调整或及时告知监控人员。

可选地，在跟踪模式下，所有摄像机对目标对象进行联动跟踪，在此过程中，可以对目标对象进行时空建模(如，根据摄像机采集得到的视频信息以及摄像机的位置进行建模)，由于在同一时间只有一个摄像机可以监控到目标对象，该摄像机可以接收其前一个监控到该目标对象的摄像机发送来的第二特征模型，并根据该第二特征模型更新该摄像机本身生成的第一特征模型的参数，得到更新后的第一特征模型并使用更新后的第一特征模型监控目标对象。在该摄像机完成对目标对象的监控之后，将更新后的第一特征模型发送至其下一个监控到该目标对象的摄像机，以使其下一个摄像机获得关于目标对象的最新信息，达到模型融合的目的。

在一种可选的实施例中，服务器获取各个监控到了目标对象的摄像机的地理位置信息(如GIS信息)以及其监控到目标对象的时间信息(如，目标对象在摄像机中出现的时间)，并按照各个摄像机的时间信息的先后顺序，使用各个摄像机的地理位置信息构建目标对象的虚拟移动轨迹，以便在构建出目标对象的虚拟移动轨迹之后，可以展示该虚拟移动轨迹，以供监控人员查看。

通过本发明上述实施例，可以自动识别一个或多个目标对象并提取其固有特征，基于自动提取到的固有特征对一个或多个目标对象同时进行监控、跟踪，进一步地提高了监控效率，可以节省大量人力物力资源。进一步地，各个摄像机之间通过模型共享与信息交互机制，将不同摄像机对应的节点之间的语义模型进行融合，可以自适应地学习并更新模型，从而不断增强度目标对象的识别跟踪能力，实现了鲁棒的布控和跟踪功能。

在本发明上述实施例中，使用基于深度学习的特征提取技术，对不同类型的目标对象使用相同的模型自动设计特征，避免了现有技术中针对不同类型的对象需要开发人员手动设计不同特征的问题，大大简化了监控设计流程，提高了监控效率。

图5是根据本发明实施例的一种基于摄像机的监控装置的示意图。如图5所示，该装置可以包括：接收单元51、第一处理单元53、提取单元55、广播单元57以及控制单元59。

其中，接收单元51用于接收多个摄像机持续上传的数字视频信息，其中，数字视频信息包括生成数字视频信息时摄像机对应的监控区域内的场景内容。

第一处理单元53用于使用预设的学习模型处理各个摄像机持续上传的数字视频信息，得到各个摄像机对应的语义模型，其中，语义模型用于描述摄像机对应的监控区域内的场景内容。

可选地，预设的学习模型可以为卷积神经网络CNN模型。

提取单元55用于在接收到携带有待监控的目标对象的监控请求之后，使用学习模型提取目标对象的固有特征，其中，固有特征为目标对象区别于各个摄像机对应的监控区域内的场景内容的特征。

广播单元57用于将目标对象的固有特征广播至多个摄像机。

控制单元59用于控制多个摄像机根据固有特征和语义模型对目标对象进行监控。

根据本发明上述实施例，第一处理单元53可以包括：第一生成模块531、建立模块533以及更新模块535。

其中，第一生成模块531用于使用学习模型处理任意一个摄像机所上传的多个数字视频信息，生成摄像机对应的初始语义模型。

建立模块533用于根据各个摄像机的物理位置建立虚拟网络，其中，虚拟网络中的节点对应各个摄像机的物理位置。

更新模块535用于基于虚拟网络的节点控制各个摄像机进行信息交换，更新各个摄像机对应的初始语义模型，以得到各个摄像机对应的语义模型。

可选地，在更新模型时，每个节点将根据其领域节点的信息调整自身的模型参数，这个过程可以通过AP算法实现。AP算法是基于数据点之间的消息传递的一种聚类算法，不同于传统的聚类算法(如，k-means)，AP算法不需要确定类别的数目，而是只需找到能够表示一类的“典型样本”。

在本发明上述实施例中，监控请求携带有包括目标对象的图像信息，其中，提取单元55可以包括：识别模块551和提取模块553。

其中，识别模块551用于识别目标对象在图像信息中所处的区域。

提取模块553用于使用学习模型对区域内的图像进行特征提取处理，得到目标对象的固有特征。

在本发明上述实施例中，控制单元59可以包括：第一广播模块591、第一接收模块593以及第一监控模块595。

其中，第一广播模块591用于将最新的语义模型广播至多个摄像机，其中，多个摄像机根据最新的语义模型识别是否监控到目标对象。

第一接收模块593用于接收监控到目标对象的摄像机返回的监控信息。

第一监控模块595用于根据监控信息监控目标对象。

在一个可选的实施例中，监控模块595可以包括：获取子模块5951、构建子模块5953、展示子模块5955以及控制子模块5957。

其中，获取子模块5951用于获取各个监控到目标对象的摄像机的地理位置信息以及监控到目标对象的时间信息。

其中，GIS为Geographic Information System，即地理信息系统。

构建子模块5953用于按照各个摄像机的时间信息的先后顺序，使用各个摄像机的地理位置信息构建目标对象的虚拟移动轨迹。

展示子模块5955用于展示虚拟移动轨迹。

控制子模块5957用于在接收用户输入的操作指令之后，按照操作指令控制虚拟移动轨迹的展示方式，其中，操作指令包括如下至少之一：旋转操作指令、缩放操作指令以及平移操作指令。

可选地，广播单元57可以包括：压缩模块571和第二广播模块573。

其中，压缩模块，用于对目标对象的固有特征进行压缩得到压缩包。

第二广播模块，用于将压缩包广播至各个摄像机。

图6是根据本发明实施例的另一种基于摄像机的监控装置的示意图，如图6所示，该装置可以包括：获取单元61、第二处理单元62、比较单元63、第一判断单元64以及第一确定单元65。

其中，获取单元61用于实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号。

在本发明实施例中，摄像机可以为IP摄像机。

第二处理单元62用于在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理数字视频信号，得到目标对象的第一特征模型，其中，语义模型为服务器预先下发的用于描述摄像机对应的监控区域内的场景内容的模型，第一特征模型为摄像机生成的目标对象的特征模型。

比较单元63用于比较第一特征模型和摄像机接收到的目标对象的固有特征，得到比较结果。

第一判断单元64用于判断比较结果是否超过预设阈值。

第一确定单元65用于在比较结果超过预设阈值的情况下，确定多个摄像机联动跟踪目标对象。

根据本发明上述实施例，第一确定单元可以包括：第二接收模块，用于接收摄像机邻域内的其他摄像机发送的第二特征模型，其中，第二特征模型为邻域内的其他摄像机生成的目标对象的特征模型；调整模块，用于根据第二特征模型调整第一特征模型的模型参数，以更新第一特征模型；第二监控模块，用于使用更新后的第一特征模型对目标对象进行监控，并将更新后的第一特征模型发送至邻域内的其他摄像机。

在本发明上述实施例中，第二处理单元可以包括：处理模块，用于使用学习模型和语义模型对数字视频信号进行处理，得到关于目标对象的特征图；采样模块，用于对特征图进行上采样操作，得到与数字视频信号分辨率一致的特征图；确定模块，用于从与数字视频信号分辨率一致的特征图中确定目标对象的位置信息；第二生成模块，用于提取位置信息的特征，生成第一特征模型。

(2)经CNN模型输出得到关于目标对象的特征图(如，得分图)；

在本发明上述实施例中，上述的装置还可以包括：第二判断单元，用于在实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号之后，判断是否接收到服务器下发的目标对象的固有特征；第二确定单元，用于在判断出接收到服务器下发的目标对象的固有特征的情况下，确定摄像机进入布控模式，以使用学习模型和语义模型处理数字视频信号，得到摄像机的第一特征模型；上传单元，用于在判断出未接收到服务器下发的固有特征的情况下，则摄像机将得到的数字视频信号上传至服务器。

可选地，上述的装置还可以包括：发送单元，用于在多个摄像机联动跟踪目标对象的同时，监控到目标对象的摄像机向服务器发送报警信号，其中，报警信号用于指示监控到目标对象的摄像机监控到了目标对象。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于摄像机的监控方法，其特征在于，包括：

接收多个摄像机持续上传的数字视频信息，其中，所述数字视频信息包括生成所述数字视频信息时所述摄像机对应的监控区域内的场景内容；

使用预设的学习模型处理各个所述摄像机持续上传的所述数字视频信息，得到各个所述摄像机对应的语义模型，其中，所述语义模型用于描述所述摄像机对应的监控区域内的场景内容；

在接收到携带有待监控的目标对象的信息的监控请求之后，使用所述学习模型提取所述目标对象的固有特征，其中，所述固有特征为所述目标对象区别于各个所述摄像机对应的监控区域内的场景内容的特征；

将所述目标对象的固有特征广播至所述多个摄像机；

控制所述多个摄像机根据所述固有特征和所述语义模型对所述目标对象进行监控；

其中，所述监控请求携带有包括所述目标对象的图像信息，其中，使用所述学习模型提取所述目标对象的固有特征包括：

识别所述目标对象在所述图像信息中所处的区域；

使用所述学习模型对所述区域内的图像进行特征提取处理，得到所述目标对象的固有特征；

其中，所述控制所述多个摄像机根据所述固有特征和所述语义模型对所述目标对象进行监控，包括：

控制所述多个摄像机分别使用预先存储的学习模型和所述语义模型处理实时获取的数字视频信息，得到所述目标对象的第一特征模型，比较所述第一特征模型和所述固有特征，得到比较结果，判断所述比较结果是否超过预设阈值，若超过，则所述多个摄像机联动跟踪所述目标对象，所述比较结果包括所述第一特征模型和所述固有特征的相似率。

2.根据权利要求1所述的方法，其特征在于，使用预设的学习模型处理各个所述摄像机持续上传的所述数字视频信息，得到各个所述摄像机对应的语义模型包括：

使用所述学习模型处理任意一个摄像机所上传的多个所述数字视频信息，生成所述摄像机对应的初始语义模型；

根据各个所述摄像机的物理位置建立虚拟网络，其中，所述虚拟网络中的节点对应各个所述摄像机的物理位置；

基于所述虚拟网络的节点控制各个所述摄像机进行信息交换，更新各个所述摄像机对应的初始语义模型，以得到各个所述摄像机对应的语义模型。

3.根据权利要求1所述的方法，其特征在于，控制所述多个摄像机根据所述固有特征和所述语义模型对所述目标对象进行监控包括：

将最新的语义模型广播至所述多个摄像机，其中，所述多个摄像机根据所述最新的语义模型识别是否监控到所述目标对象；

接收监控到所述目标对象的摄像机返回的监控信息；

根据所述监控信息监控所述目标对象。

4.根据权利要求3所述的方法，其特征在于，根据所述监控信息监控所述目标对象包括：

获取各个所述监控到所述目标对象的摄像机的地理位置信息以及监控到所述目标对象的时间信息；

按照各个所述摄像机的所述时间信息的先后顺序，使用各个所述摄像机的所述地理位置信息构建所述目标对象的虚拟移动轨迹；

展示所述虚拟移动轨迹；

在接收用户输入的操作指令之后，按照所述操作指令控制所述虚拟移动轨迹的展示方式，其中，所述操作指令包括如下至少之一：旋转操作指令、缩放操作指令以及平移操作指令。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，将所述目标对象的固有特征广播至所述多个摄像机包括：

对所述目标对象的固有特征进行压缩得到压缩包；

将所述压缩包广播至各个所述摄像机。

6.一种基于摄像机的监控方法，其特征在于，包括：

实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号；

在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理所述数字视频信号，得到所述目标对象的第一特征模型，其中，所述语义模型为所述服务器预先下发的用于描述所述摄像机对应的监控区域内的场景内容的模型，所述第一特征模型为所述摄像机生成的所述目标对象的特征模型；其中，所述固有特征为所述服务器在接收到携带有待监控的目标对象的信息及所述目标对象的图像信息的监控请求之后，识别所述目标对象在所述图像信息中所处的区域，使用所述学习模型对所述区域内的图像进行特征提取处理得到的；

比较所述第一特征模型和所述摄像机接收到的所述目标对象的固有特征，得到比较结果，所述比较结果包括所述第一特征模型和所述固有特征的相似率；

判断所述比较结果是否超过预设阈值；

若所述比较结果超过所述预设阈值，则多个所述摄像机联动跟踪所述目标对象。

7.根据权利要求6所述的方法，其特征在于，多个所述摄像机联动跟踪所述目标对象包括：

接收所述摄像机邻域内的其他摄像机发送的第二特征模型，其中，所述第二特征模型为所述邻域内的其他摄像机生成的所述目标对象的特征模型；

根据所述第二特征模型调整所述第一特征模型的模型参数，以更新所述第一特征模型；

使用更新后的第一特征模型对所述目标对象进行监控，并将所述更新后的第一特征模型发送至所述邻域内的其他摄像机。

8.根据权利要求6所述的方法，其特征在于，在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理所述数字视频信号，得到所述摄像机的第一特征模型包括：

使用所述学习模型和所述语义模型对所述数字视频信号进行处理，得到关于所述目标对象的特征图；

对所述特征图进行上采样操作，得到与所述数字视频信号分辨率一致的特征图；

从所述与所述数字视频信号分辨率一致的特征图中确定所述目标对象的位置信息；

提取所述位置信息的特征，生成所述第一特征模型。

9.根据权利要求6至8中任意一项所述的方法，其特征在于，在实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号之后，所述方法还包括：

判断是否接收到所述服务器下发的所述目标对象的固有特征；

在判断出接收到所述服务器下发的所述目标对象的固有特征的情况下，所述摄像机进入布控模式，以使用所述学习模型和所述语义模型处理所述数字视频信号，得到所述摄像机的第一特征模型；

在判断出未接收到所述服务器下发的固有特征的情况下，则所述摄像机将得到的所述数字视频信号上传至所述服务器。

10.根据权利要求6至8中任意一项所述的方法，其特征在于，在多个所述摄像机联动跟踪所述目标对象的同时，所述方法还包括：

监控到所述目标对象的摄像机向所述服务器发送报警信号，其中，所述报警信号用于指示所述监控到所述目标对象的摄像机监控到了所述目标对象。

11.一种基于摄像机的监控系统，其特征在于，包括：

服务器集群，包括多个服务器，所述多个服务器用于接收多个摄像机持续上传的数字视频信息，使用预设的学习模型处理各个所述摄像机持续上传的所述数字视频信息，得到各个所述摄像机对应的语义模型，在接收到携带有待监控的目标对象的信息的监控请求之后，使用所述学习模型提取所述目标对象的固有特征，将所述目标对象的固有特征广播至所述多个摄像机，以及控制所述多个摄像机根据所述固有特征和所述语义模型对所述目标对象进行监控，其中，所述数字视频信息包括生成所述数字视频信息时所述摄像机对应的监控区域内的场景内容，所述语义模型用于描述所述摄像机对应的监控区域内的场景内容，所述固有特征为所述目标对象区别于各个所述摄像机对应的监控区域内的场景内容的特征，所述监控请求携带有包括所述目标对象的图像信息；使用所述学习模型提取所述目标对象的固有特征包括：识别所述目标对象在所述图像信息中所处的区域；使用所述学习模型对所述区域内的图像进行特征提取处理，得到所述目标对象的固有特征；

所述多个摄像机，用于实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号，在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理所述数字视频信号，得到所述摄像机的第一特征模型，比较所述第一特征模型和所述摄像机接收到的所述目标对象的固有特征，得到比较结果，判断所述比较结果是否超过预设阈值，以及若所述比较结果超过所述预设阈值，则多个所述摄像机联动跟踪所述目标对象，

其中，所述语义模型为所述服务器预先下发的用于描述所述摄像机对应的监控区域内的场景内容的模型，所述第一特征模型为所述摄像机生成的所述目标对象的特征模型，所述比较结果包括所述第一特征模型和所述固有特征的相似率。

12.一种基于摄像机的监控装置，其特征在于，包括：

接收单元，用于接收多个摄像机持续上传的数字视频信息，其中，所述数字视频信息包括生成所述数字视频信息时所述摄像机对应的监控区域内的场景内容；

第一处理单元，用于使用预设的学习模型处理各个所述摄像机持续上传的所述数字视频信息，得到各个所述摄像机对应的语义模型，其中，所述语义模型用于描述所述摄像机对应的监控区域内的场景内容；

提取单元，用于在接收到携带有待监控的目标对象的信息的监控请求之后，使用所述学习模型提取所述目标对象的固有特征，其中，所述固有特征为所述目标对象区别于各个所述摄像机对应的监控区域内的场景内容的特征；

广播单元，用于将所述目标对象的固有特征广播至所述多个摄像机；

控制单元，用于控制所述多个摄像机根据所述固有特征和所述语义模型对所述目标对象进行监控；

其中，所述监控请求携带有包括所述目标对象的图像信息，其中，所述提取单元包括：

识别模块，用于识别所述目标对象在所述图像信息中所处的区域；

提取模块，用于使用所述学习模型对所述区域内的图像进行特征提取处理，得到所述目标对象的固有特征；

其中，所述控制单元，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述第一处理单元包括：

第一生成模块，用于使用所述学习模型处理任意一个摄像机所上传的多个所述数字视频信息，生成所述摄像机对应的初始语义模型；

建立模块，用于根据各个所述摄像机的物理位置建立虚拟网络，其中，所述虚拟网络中的节点对应各个所述摄像机的物理位置；

更新模块，用于基于所述虚拟网络的节点控制各个所述摄像机进行信息交换，更新各个所述摄像机对应的初始语义模型，以得到各个所述摄像机对应的语义模型。

14.根据权利要求12所述的装置，其特征在于，所述控制单元包括：

第一广播模块，用于将最新的语义模型广播至所述多个摄像机，其中，所述多个摄像机根据所述最新的语义模型识别是否监控到所述目标对象；

第一接收模块，用于接收监控到所述目标对象的摄像机返回的监控信息；

第一监控模块，用于根据所述监控信息监控所述目标对象。

15.根据权利要求14所述的装置，其特征在于，所述监控模块包括：

获取子模块，用于获取各个所述监控到所述目标对象的摄像机的地理位置信息以及监控到所述目标对象的时间信息；

构建子模块，用于按照各个所述摄像机的所述时间信息的先后顺序，使用各个所述摄像机的所述地理位置信息构建所述目标对象的虚拟移动轨迹；

展示子模块，用于展示所述虚拟移动轨迹；

控制子模块，用于在接收用户输入的操作指令之后，按照所述操作指令控制所述虚拟移动轨迹的展示方式，其中，所述操作指令包括如下至少之一：旋转操作指令、缩放操作指令以及平移操作指令。

16.根据权利要求12至15中任意一项所述的装置，其特征在于，所述广播单元包括：

压缩模块，用于对所述目标对象的固有特征进行压缩得到压缩包；

第二广播模块，用于将所述压缩包广播至各个所述摄像机。

17.一种基于摄像机的监控装置，其特征在于，包括：

获取单元，用于实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号；

第二处理单元，用于在接收到服务器下发的目标对象的固有特征之后，使用预先存储的学习模型和语义模型处理所述数字视频信号，得到所述目标对象的第一特征模型，其中，所述语义模型为所述服务器预先下发的用于描述所述摄像机对应的监控区域内的场景内容的模型，所述第一特征模型为所述摄像机生成的所述目标对象的特征模型；其中，所述固有特征为所述服务器在接收到携带有待监控的目标对象的信息及所述目标对象的图像信息的监控请求之后，识别所述目标对象在所述图像信息中所处的区域，使用所述学习模型对所述区域内的图像进行特征提取处理得到的；

比较单元，用于比较所述第一特征模型和所述摄像机接收到的所述目标对象的固有特征，得到比较结果，所述比较结果包括所述第一特征模型和所述固有特征的相似率；

第一判断单元，用于判断所述比较结果是否超过预设阈值；

第一确定单元，用于在所述比较结果超过所述预设阈值的情况下，确定多个所述摄像机联动跟踪所述目标对象。

18.根据权利要求17所述的装置，其特征在于，所述第一确定单元包括：

第二接收模块，用于接收所述摄像机邻域内的其他摄像机发送的第二特征模型，其中，所述第二特征模型为所述邻域内的其他摄像机生成的所述目标对象的特征模型；

调整模块，用于根据所述第二特征模型调整所述第一特征模型的模型参数，以更新所述第一特征模型；

第二监控模块，用于使用更新后的第一特征模型对所述目标对象进行监控，并将所述更新后的第一特征模型发送至所述邻域内的其他摄像机。

19.根据权利要求17所述的装置，其特征在于，所述第二处理单元包括：

处理模块，用于使用所述学习模型和加权语义模型对所述数字视频信号进行处理，得到关于所述目标对象的特征图；

采样模块，用于对所述特征图进行上采样操作，得到与所述数字视频信号分辨率一致的特征图；

确定模块，用于从所述与所述数字视频信号分辨率一致的特征图中确定所述目标对象的位置信息；

第二生成模块，用于提取所述位置信息的特征，生成所述第一特征模型。

20.根据权利要求17至19中任意一项所述的装置，其特征在于，所述装置还包括：

第二判断单元，用于在实时获取摄像机监控对应的监控区域的场景内容得到的数字视频信号之后，判断是否接收到所述服务器下发的所述目标对象的固有特征；

第二确定单元，用于在判断出接收到所述服务器下发的所述目标对象的固有特征的情况下，确定所述摄像机进入布控模式，以使用所述学习模型和所述语义模型处理所述数字视频信号，得到所述摄像机的第一特征模型；

上传单元，用于在判断出未接收到所述服务器下发的固有特征的情况下，则所述摄像机将得到的所述数字视频信号上传至所述服务器。

21.根据权利要求17至19中任意一项所述的装置，其特征在于，所述装置还包括：

发送单元，用于在多个所述摄像机联动跟踪所述目标对象的同时，监控到所述目标对象的摄像机向所述服务器发送报警信号，其中，所述报警信号用于指示所述监控到所述目标对象的摄像机监控到了所述目标对象。