CN113243015B

CN113243015B - 视频监控系统

Info

Publication number: CN113243015B
Application number: CN201880100371.3A
Authority: CN
Inventors: 葛主贝
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2024-03-26
Anticipated expiration: 2038-12-19
Also published as: WO2020124448A1; US11605220B2; US20210312200A1; CN113243015A

Abstract

本申请中提供了一种视频监控系统。所述系统可以获取由相机捕获的第一场景下对象的第一图像，所述相机被配置成在对象识别过程中捕获至少一幅图像以供使用；可以获取在第二场景下捕获的所述对象的第二图像；可以评估所述对象的所述第一图像和至少一幅样本图像之间的相似度；还可以至少基于所述对象的所述第二图像和所述至少一幅样本图像之间的关联度来确定校准函数，以校准所述对象的所述第一图像和所述至少一幅样本图像之间的相似度，其中，在对象识别过程中，所述校准函数将与由所述相机捕获的至少一幅图像一起应用。

Description

视频监控系统

技术领域

本申请涉及视频监控，尤其涉及一种视频监控系统。

背景技术

随着视频监控技术的开发和广泛应用，对象识别广泛应用于各种环境场景。通常地，在对象识别过程中提供用于对象校准(例如，面部校准)的相似度阈值。如果感兴趣对象的图像和从视频监控获取的图像之间的相似度超过相似度阈值，则确定找到感兴趣对象。

然而，在不同场景下捕获的相同对象的图像可能是不同的。例如，在不同场景下捕获的不同图像中的相同对象(例如，在不同位置的不同摄像机)可以具有不同的特征。这些差异可能会影响图像间相似度的确定，从而降低各种场景下对象识别的准确性。

发明内容

根据本申请的第一方面，提供了一种视频监控系统。所述系统包括：一个相机，所述相机被配置为捕获用于对象识别过程的至少一幅图像；一个存储设备，所述存储设备用于存储一组指令；以及至少一个处理器，所述处理器用于与所述存储设备通讯。当执行所述指令时，所述至少一个处理器可以被配置为：使所述系统获取由所述相机在第一场景下捕获的对象的第一图像；获取在第二场景下捕获的所述对象的第二图像；评估所述对象的所述第一图像和至少一幅样本图像之间的相似度；以及至少基于所述对象的第二图像和至少一幅样本图像之间的相关性来确定校准函数，以校准对象的第一图像和至少一幅样本图像之间的相似度，其中应用的所述校准函数与由所述相机在所述对象识别过程中捕获的所述至少一幅图像相关联。

在一些实施例中，所述至少一个处理器被配置为使所述系统获取所述对象的所述第二图像与所述至少一幅样本图像之间的相似度。

在一些实施例中，所述至少一个处理器被配置为使所述系统指定一个函数作为校准函数，被指定的所述一个函数可以表明所述对象的所述第一图像和所述至少一幅样本图像之间的相似度与所述对象的所述第二图像和所述至少一幅样本图像之间的参考相似度之间的关系。

在一些实施例中，所述校准函数可用于校准由所述相机捕获的至少一幅图像与存储在存储器中的注册者图像之间的至少一个相似度。

在一些实施例中，所述注册者图像可以包括可疑人物的面部图像。

在一些实施例中，可以将由所述相机捕获的所述至少一幅图像和所述注册者图像之间的至少一个相似度与在所述对象识别过程中用于面部核对的认证阈值进行比较。

在一些实施例中，当所述相机在监控状态下工作时，可以捕获所述物体的所述第一图像。

在一些实施例中，当所述对象处于基本静止状态时，可以捕获所述对象的所述第二图像。

在一些实施例中，所述对象的所述第一图像可以包括人物的面部图像。

在一些实施例中，可以从面部图像库中选择所述至少一幅样本图像。

在一些实施例中，所述面部图像库可以包括所述人物的至少一幅参考面部图像。

在一些实施例中，所述至少一个处理器被配置为使所述系统：在所述面部图像库中选择至少两副面部图像；计算第一相似度值，每个所述第一相似度值表示所述第一图像和所述至少两副面部图像中的一幅之间的相似度。

根据本申请的第二方面，提供了一种视频监控系统。所述系统包括：至少一个存储设备，用于存储样本图像；以及至少一个可通信地耦合到所述存储设备的处理设备。所述处理设备可以：基于在第一场景中捕获的第一对象的第一图像来计算包括第一相似度值的第一相似度表，每个所述第一相似度值表示所述第一对象在所述至少两副样本图像中的对应一幅中呈现的可能性；基于在第二场景中捕获的所述第一对象的第二图像来计算包括第二相似度值的第二相似度表，每个所述第二相似度值表示所述第一对象在所述至少两副样本图像中的对应一幅中呈现的可能性；基于所述第一相似度表和所述第二相似度表之间的映射计算补偿因子；以及响应于接收在所述第一场景中捕获的第三图像，通过将阈值与由所述补偿因子调整的所述第三图像与注册者图像之间的相似度值进行比较来确定所述第三图像中是否存在第二对象。

在一些实施例中，所述对象可以包括人类对象。

在一些实施例中，所述对象的所述第一图像可以在所述第一场景中使用第一相机捕获，并且所述对象的所述第二图像可以在所述第二场景中使用第二相机捕获。

在一些实施例中，可以使用所述第一相机捕获所述第三图像。

在一些实施例中，所述处理设备还可以：在第一位置接收所述第一相机捕获的所述对象的所述第一图像；以及在第二位置接收所述第二相机捕获的所述对象的第二图像。

在一些实施例中，所述处理设备可以进一步基于所述第一场景中的对象检测错误率确定所述阈值。

在一些实施例中，所述处理设备还可以进一步用于：接收在所述第二场景中捕获的所述对象的所述第二图像；将所述第二图像添加到所述至少两副样本图像中；基于在所述第二场景中捕获的所述对象的所述第二图像计算出所述第一相似度表。

在一些实施例中，所述注册者图像包括可疑人物的面部图像。

本申请的一部分附加特性可以在以下描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解，本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各个方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。附图未按比例绘制。这些实施例是非限制性的示例性实施例，在这些实施例中，各图中相同的编号表示相似的结构，其中：

图1是根据本申请的一些实施例所示的示例性视频监控系统的示意图；

图2是根据本申请的一些实施例所示的示例性计算设备的硬件和/或软件组件的示意图；

图3是根据本申请的一些实施例所示的示例性用户设备的组件的示意图；

图4是根据本申请的一些实施例所示的示例性服务器的框图；

图5是根据本申请的一些实施例所示的示例性确定相机的校准函数过程的流程图；

图6是根据本申请的一些实施例所示的示例性识别对象的过程的流程图；

图7是根据本申请的一些实施例所示的表格形式的与人脸识别相关的参考相似度的示意图；以及

图8是根据本申请的一些实施例所示的表格形式的与人脸识别相关的参考相似度的示意图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例。对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。需进一步理解的是，本申请中使用的术语“包括”和/或“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，还可以包括其它的步骤和元素。

根据本申请的一些实施例，可以以各种方式参考系统的一些模块，然而，可以在客户终端和/或服务器中使用任何数量的不同模块。这些模块仅用于举例说明，并不用于限制本申请的范围。在系统和方法的不同方面可以使用不同的模块。

根据本申请的一些实施例，流程图用于说明系统执行的操作。应当理解的是，前面或下面的操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或以上操作。

参考附图描述本申请的实施例的技术方案，如下所述。显然，所描述的实施例不是穷举性的，也不是限制性的。基于本申请中提出的实施例，本领域普通技术人员在没有作出创造性劳动的情况下获取的其他实施例，均在本申请的范围内。

第一方面，本申请涉及用于识别至少一幅图像中的对象的视频监控系统和方法。具体地，可以通过以监控状态工作的至少一个相机捕获一幅或以上图像。在一些实施例中，可以通过将一幅或以上图像与参考图像进行校准来执行识别处理，以生成例如相似度，所述相似度表示对象出现在参考图像中的可能性。可以进一步通过校正函数调整相似度以与用于认证的阈值进行比较。在一些实施例中，为了生成校正函数，至少一个相机可以在第一场景中捕获对象的图像，其与至少两副样本图像进一步比较以生成至少两个第一相似度值。在第二场景中捕获的对象的另一图像也可以用于与至少两副样本图像进行比较以生成至少两个第二相似度值。然后，可以基于至少两个第一相似度值与至少两个第二相似度值之间的映射关系生成校正函数。

图1是根据本申请的一些实施例的示例性视频监控系统的示意图。视频监控系统100，可以被配置为处理图像或由至少两副图像组成的视频(也称为“视频帧”)。如图所示，视频监控系统100可以包括视频源101，编码器104，缓冲管理器105，缓冲器106，发射器107，终端108(或至少两个终端108)，网络112和网络存储设备113(或至少两个网络存储设备113)。

视频源101可以通过网络112将视频发送到终端108。视频源101可以生成视频本身或者经由视频传输站点生成视频。视频源101可以包括相机102和/或服务器103。

相机102可以被配置为执行感兴趣区域(AOI)的监控。在一些实施例中，相机102可以是固定视频传感器或移动视频传感器。如本文所使用的，视频传感器可指用于视觉记录的设备。视频传感器可以捕获与AOI或感兴趣对象有关的图像数据。图像数据可以包括视频，图像或其组合。如本文所使用的，术语“视频”可以指以模拟和/或数字形式表示的电影。例如，视频可以包括电影、来自相机或其他观察者的图像序列、计算机生成的图像序列等，或其组合。如本文所使用的，序列(也称为帧)可以指视频内的特定图像或其他离散单元。视频传感器可以在摄影机中实现。摄影机可以包括彩色摄像机、数字摄像机、摄像机、PC摄像机、网络摄像机、红外(IR)摄像机、微光摄像机、热摄像机、CCTV摄像机、摇摄、倾斜、变焦(PTZ)摄像机、视频感测设备、互联网协议(IP)摄像机等，或其组合。图像可以是三维(3D)图像或二维(2D)图像。

在一些实施例中，相机102可以包括相机处理电路。相机处理电路可以被配置为处理与本申请中的相机102有关的数据和/或信息和/或控制相机102中的一个或以上组件(例如，透镜，快门)。例如，相机处理电路可以自动确定相机102的曝光参数的值，例如曝光时间，曝光增益和光圈尺寸。相机处理电路还可以调整相机102拍摄的图像的质量，例如图像的锐度。例如，相机处理电路可以确定相机102是否检测到人物。确定检测到人物之后，作为响应，相机处理电路可以使用相机102捕获该人物的正面。在一些实施例中，相机处理电路可以在相机102的本地或远程。例如，相机处理电路可以经由网络112与相机102通信。作为另一示例，相机处理电路可以集成到相机102中。

应注意，在不同场景下捕获的图像可能是不同的。在一些实施例中，不同场景之间的差异在于照明量、照明类型(例如，阳光、白光、黄光)、照明角度、天气(例如，下雨、雾天、晴天)、相机102的拍摄角度等，或其任何组合。不同场景之间的差异可能导致在不同场景中捕获的不同图像中的相同对象的不同特征。例如，在不同的照明下捕获的相同对象可能在不同图像中具有不同的颜色。例如，在雾天捕获的图像中的相同对象可能比在晴天捕获的图像看起来更模糊。在一些实施例中，不同场景之间的差异可以与不同相机的不同位置相关联。例如，相机102可以包括至少两个相机，每个相机都可以位于特定位置，从而在与其他相机不同的场景下工作。

在一些实施例中，视频监控系统100的一个或以上组件可以通过根据捕获图像的场景来校准图像或与图像相关联的至少一个参数来处理图像。例如，视频监控系统100的一个或以上组件可以根据捕获图像的场景和标准化场景来处理由特定相机捕获的图像。如本文所使用的，标准化场景可指具有预定条件(例如预定照明、预定天气、预定拍摄角度等)的场景，在该条件下特定相机可捕获图像。

在一些实施例中，相机102可以包括存储设备。存储设备可以存储数据，指令和/或任何其他信息。在一些实施例中，存储设备可以存储从处理设备获取的数据。例如，存储设备可以存储捕获的图像。在一些实施例中，存储设备可以存储数据和/或指令，处理设备可以执行或使用这些数据和/或指令来执行本申请中描述的示例性方法。在一些实施例中，存储设备可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等，或其任何组合。示例性大容量存储器可以包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写内存可以包括随机存取内存(RAM)。示例性RAM可包括动态随机存取内存(DRAM)、双倍数据速率同步动态随机存取内存(DDRSDRAM)、静态随机存取内存(SRAM)、晶闸管随机存取内存(T-RAM)和零电容随机存取内存(Z-RAM)等。示例性ROM可包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字多功能磁盘ROM等。

服务器103可以处理从相机102、网络存储设备113等获取的数据和/或信息。例如，服务器103可以从相机102和/或网络存储设备113获取图像数据(例如，图像，视频等)。服务器103可以基于图像数据识别对象(例如，人，人脸)。服务器103可以评估图像数据中的对象与从网络存储设备113获取的感兴趣对象之间的相似度。

在一些实施例中，服务器103可以识别相机102的特定场景，并根据具体场景校准由相机102捕获的图像或与图像相关联的至少一个参数。例如，服务器103可以识别相机102拍摄图像时的白天场景，并且根据第一校准函数校准白天拍摄的图像。服务器103还可以识别照相机102拍摄图像时的夜间场景，并根据第二校准函数校准在夜间拍摄的图像。第一校准函数和第二校准函数可以相同或不同。作为另一示例，服务器103可以识别第一相机102正在捕获图像的第一位置的场景，并根据第三校准函数校准在第一位置处捕获的图像。服务器103还可以识别第二相机102正在捕获图像的第二位置的场景，并根据第四校准函数校准在第二位置处捕获的图像。第三校准函数和第四校准函数可以是相同或不同的。

在一些实施例中，服务器103可以基于与相机102和环境条件相关的相机信息来识别场景。相机信息可以包括相机102的一个或以上设置参数。环境条件可包括相机102的位置、相机102的环境照明条件、天气、时间等，或其任何组合。

在一些实施例中，服务器103可以基于在第一场景中捕获的对象的第一图像，计算第一图像和至少一幅样本图像之间的第一相似度。服务器103可以基于在第二场景中捕获的对象的第二图像，计算第二图像和至少一幅样本图像之间的第二相似度。服务器103还可以基于第一相似度和第二相似度之间的映射关系来计算校准函数。校准函数还可用于校准不同图像之间的相似度，从而提高视频监控中对象识别的准确性。

在一些实施例中，服务器103可以从终端设备(例如，终端108)接收关于感兴趣的对象(例如，包括可疑人物在内的注册者图像)的查询。服务器103可以基于由相机102捕获的图像数据来搜索感兴趣的对象。作为对查询的响应，服务器103可以发送与感兴趣对象相关的信息以显示在终端108上。与感兴趣对象相关的信息可能包括警报。警报可包括感兴趣对象的位置、感兴趣对象的出现时间、感兴趣对象的移动轨迹等，或其任何组合。与感兴趣对象相关的信息可以以文本、表格、图表、图像、视频、音频等形式显示在终端设备上。

在一些实施例中，服务器103可以是工作站或服务器。例如，服务器103可以是单个服务器或服务器组。服务器组可以是集中式的，也可以是分布式的。在一些实施例中，服务器103可以是本地的或远程的。例如，服务器103可以经由网络112访问存储在相机102和/或网络存储设备113中的信息和/或数据。作为另一示例，服务器103可以直接连接到相机102和/或网络存储设备113以访问存储的信息和/或数据。在一些实施例中，服务器103可以在云平台上实现。仅作为示例，云平台可包括私有云、公共云、混合云、社区云、分布式云、云间云、多云等，或其组合。

在通过网络112发送视频之前，视频源101可以将视频发送到编码器104进行编码，或者将视频通过缓冲管理器105发送到缓冲器106。例如，由视频源101提供的视频可以在尺寸上相对较大(例如，原始视频数据、以低压缩率编码的视频)，因此在传输之前，视频源101可以将视频发送到编码器104以进行视频压缩。作为另一示例，由视频源101提供的视频可以尺寸适当，并且视频源101可以通过缓冲管理器105直接将视频发送到缓冲器106用于视频传。

编码器104可以是来自视频源101的远程设备或者在视频源101中的本地设备。在通过网络112发送视频之前，编码器104可以由视频源101提供的视频进行编码。通过编码，可以压缩和/或加密要发送的视频。例如，编码器104可以使用用于视频压缩的算法对视频进行编码，使得用于传输视频的成本(例如，时间成本、资源成本、财务成本)可以显著降低。可选地或附加地，编码器104可以使用用于视频加密的算法对视频进行编码，以便可以安全地传输视频，并且未经许可的用户无法观看视频。编码器104可以逐帧编码视频帧并生成至少两个编码的视频帧。编码器104可以通过缓冲管理器105将编码的视频帧发送到缓冲器106。可选地或附加地，缓冲管理器105可以从编码器104获取编码的视频帧。在一些实施例中，编码器104可以使用基于运动图像专家组(MPEG)的编码技术对要发送的视频进行编码。

要发送的视频帧和/或图像可以以视频帧缓冲队列的形式存储在缓冲器106中，视频帧缓冲队列可以由缓冲管理器105管理。缓冲器106可以使用基于队列的数据结构来缓冲要发送的视频。

缓冲器106可以是用于缓冲要通过网络112传输视频的存储设备。它可以是来自视频源101的远程设备或者在视频源101中的本地设备，例如相机102的存储介质。缓冲器106可包括大容量存储设备、可移动存储设备、易失性读写存储器、只读存储器(ROM)等，或其任何组合。示例性大容量存储器可以包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)，例如动态RAM(DRAM)、双日期速率同步动态RAM(DDRSDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容RAM(Z-RAM)。示例性ROM可包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字多功能磁盘ROM等。

发射器107可以将缓冲在缓冲器106中的视频或视频帧发送到网络112。发射器107可以响应于从视频源101、缓冲管理器105、终端108等或其组合发送的指令来发送视频或视频帧。可选地或附加地，发射器107可以自发地发送存储在缓冲器106中的视频或视频帧。发射器107可以通过一个或以上网络连接(有线和/或无线)将视频或视频帧通过网络112发送到终端108。

在一些实施例中，发射器107可以能够确定网络112的传输性能。例如，发射器107可以监控其数据发送速率以确定传输性能。

终端108可以通过网络112接收发送的视频和/或与注册者图像相关的信息。终端108可以使用解码算法将发送的视频或视频帧解码(例如，通过安装在终端108上的视频播放器)并将视频显示给用户。解码算法可以对应于编码器104使用的编码算法。

终端108可以是各种形式的。例如，终端108可以包括移动设备109、平板计算机110、笔记本电脑111等或其任何组合。在一些实施例中，移动设备109可包括可穿戴设备、移动设备、虚拟现实设备、增强现实设备等或其任何组合。在一些实施例中，可穿戴设备可包括手镯、脚套、眼镜、头盔、手表、衣服、背包、智能配件等，或其任何组合。在一些实施例中，移动设备可包括移动电话、个人物数字助理(PDA)、笔记本电脑、平板计算机、台式机等，或其任何组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括GoogleGlass^TM,anOculusRift^TM,aHololens^TM,aGearVR^TM等。在一些实施例中，终端108可以是处理引擎的一部分。

网络112可以包括任何合适的网络，其可以促使由视频源101提供的视频的传输到终端108。网络112可以是和/或包括公用网络(例如，因特网)、专用网络(例如，局域网(LAN)、广域网(WAN))、有线网络(例如，以太网)、无线网络(例如，802.11网络、Wi-Fi网络)、蜂窝网络(例如，长期演进(LTE)网络)，帧中继网络、虚拟专用网(“VPN”)、卫星网络、电话网络、路由器、集线器、交换机、服务器计算机和/或其任何组合。仅仅作为示例，网络112可以包括电缆网络、有线网络、光纤网络、电信网络、内部网、无线局域网(WLAN)、城域网(MAN)、公共电话交换网(PSTN)、蓝牙^TM网络，ZigBee^TM网络、近场通信(NFC)网络等，或其任何组合。在一些实施例中，网络112可以包括一个或以上网络接入点。例如，网络112可以包括有线和/或无线网络接入点，例如基站和/或因特网交换点，通过这些接入点可以将视频源101提供的视频发送到终端108。

在一些实施例中，网络112可以包括一个或以上网络存储设备113。网络存储设备113可以是用于缓冲或缓存在网络112中传输的数据的设备。在终端108接收之前，由发射器107发送的视频或视频帧可以在一个或以上网络存储设备113中被缓冲或存储。注册者图像可以在一个或以上网络存储设备113中缓冲或存储。网络存储设备113可以是服务器、集线器、网关等或其组合。

可以注意到，编码器104、缓冲管理器105、缓冲器106和发射器107中的一个或以上可以是独立设备，或者集成到视频源101或另一个独立设备中的模块。例如，编码器104、缓冲管理器105、缓冲器106和发射器107中的一个或以上可以集成到相机102或服务器103中。作为另一示例，编码器104、缓冲管理器105、缓冲器106和发射器107可以包括在视频处理引擎中，该视频处理引擎可以通过直接有线连接，网络112或未示出的另一网络通信，该视频处理引擎可以与视频源101通信。作为另一示例，编码器104可以是独立设备(例如，计算机或服务器)，而缓冲管理器105、缓冲器106和发射器107可以包括在另一个独立设备中。

图2是根据本申请的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图。例如，计算设备200可以是服务器103、相机102的相机处理电路，和/或专用于视频或图像处理的电子设备。编码器104和缓冲管理器105也可以在计算设备200上实现。如图2所示，计算设备200可以包括处理器222、存储器227、输入/输出(I/O)226和通信端口225。

处理器222(例如，逻辑电路)可以执行计算机指令(例如，程序代码)并根据本文描述的技术执行功能。例如，处理器222可以包括其中的接口电路和处理电路。接口电路可以被配置为从总线(图2中未示出)接收电子信号，其中电子信号编码用于处理处理电路的结构化数据和/或指令。处理电路可以进行逻辑运算计算，然后确定结论，结果和/或编码作为电子信号的指令。然后，接口电路可以通过总线从处理电路发送电子信号。

计算机指令可以包括例如例程、程序、对象、组件、数据结构、过程、模块和功能，它们执行本文所描述的特定功能。在一些实施例中，处理器222可以包括一个或以上硬件处理器，例如微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASICs)、专用指令集处理器(ASIP)、中央处理单元(CPU)、图形处理单元(GPU)，物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机器(ARM)、可编程逻辑器件(PLD)、能够执行一个或以上功能的任何电路或处理器等，或其任何组合。

仅仅为了说明，在计算设备200中仅描述了一个处理器。然而，应该注意，本申请中的计算设备200还可以包括多个处理器，因此由如本申请中所述的一个处理器执行的操作和/或方法操作也可以由多个处理器联合或单独执行。例如，如果在本申请中，计算设备200的处理器执行操作A和操作B，应该理解，操作A和操作B也可以由计算设备200中的两个或多个不同的处理器共同或单独地执行(例如，第一处理器执行操作A和第二处理器执行操作B，或者第一和第二处理器联合执行操作A和B)。

存储器227可以存储从视频源101、编码器104、缓冲管理器105、缓冲器106、发射器107、终端108、网络112、网络存储设备113和/或视频监控系统100的其他组件获取的任何的数据/信息。在一些实施例中，存储器227可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等，或其任何组合。例如，大容量存储器可以包括磁盘、光盘、固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。易失性读写存储器可以包括随机存取存储器(RAM)，其可以包括动态RAM(DRAM)、双数据速率同步动态RAM(DDR-SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容RAM(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字多功能磁盘ROM等。在一些实施例中，存储器227可以存储一个或以上程序和/或指令以执行本申请中描述的示例性方法。

I/O226可以输入和/或输出信号、数据、信息等。在一些实施例中，I/O226可以包括输入设备和输出设备。输入设备的示例可包括键盘、鼠标、触摸屏、麦克风等，或其组合。输出设备的示例可以包括显示设备、扬声器、打印机、投影仪等或其组合。显示装置的示例可包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面屏幕、电视装置、阴极射线管(CRT)、触摸屏等，或其组合。

通信端口225可以连接到网络(例如，网络112)以促进数据通信。通信端口225可以在视频源101、编码器104、缓冲管理器105、缓冲器106、发射器107、终端108、网络112、网络存储设备113和/或视频监控系统100的任何其他组件之间建立连接。该连接可以是有线连接、无线连接、能够实现数据传输和/或接收的任何其他通信连接和/或这些连接的任何组合。有线连接可包括例如电缆、光缆、电话线等，或其任何组合。无线连接可以包括例如蓝牙^TM连接，Wi-Fi^TM链接，WiMax^TM链路、WLAN链路、ZigBee链路、移动网络链路(例如3G、4G、5G)等，或其组合。在一些实施例中，通信端口2400可以是和/或包括标准化的通信端口，例如RS232、RS485等。在一些实施例中，通信端口225可以是专门设计的通信端口。

图3是示出根据本申请的一些实施例的示例性用户设备的示例性组件的示意图。如图3所示，用户设备300可以包括通信平台320、显示器310、图形处理单元(GPU)330、中央处理单元(CPU)330、I/O端口350、内存360和存储器390。在一些实施例中，包括但不限于系统总线或控制器(未示出)的任何其他合适组件也可以包括在用户设备300中。在一些实施例中，移动操作系统370(例如，iOS^TM，Android^TM，WindowsPhone^TM)和一个或以上应用程序380可以从存储器390加载到内存360中，以便由处理器340执行。用户设备300可以是终端108的实施例。应用380可以包括视频播放器，用于通过网络112接收由视频源101提供的视频并解码所接收的视频。

为了实施本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本文中描述的一个或以上组件的硬件平台。具有用户接口元素的计算机可用于实施个人计算机(PC)或任何其他类型的工作站或终端设备。若计算机被适当的程序化，计算机亦可用作服务器。

图4是根据本申请的一些实施例的示例性服务器103的框图。服务器103可以包括图像获取模块410、相似性评估模块420、校准函数确定模块430、警报确定模块440和存储模块450。服务器103可以包括更多或更少的组件而不丧失通用性。例如，两个模块可以组合成单个模块，或者一个模块可以被分成两个或以上个模块。作为另一示例，一个或以上模块可驻留在不同的计算设备(例如，台式机、笔记本电脑、移动设备、平板计算机、可穿戴计算设备等，或其组合)上。作为又一示例，服务器103可以在图2所示的计算设备200上实现。

在这里以及在整个本申请中，可以以许多不同的方式和硬件、软件或者以硬件和软件的不同组合来实现模块。例如，模块实现的全部或部分可以是处理电路，其可以包括指令处理器的部分或全部，例如中央处理单元(CPU)、微控制器、微处理器；或专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、其他电子元件；或作为包括离散逻辑或其他电路组件的电路，包括模拟电路组件、数字电路组件或两者皆有；或其任何组合。例如，电路可以包括离散的互连硬件组件，或者可以组合在单个集成电路管芯上，分布在多个集成电路管芯之间，或者实现在公共封装中的多个集成电路管芯的多芯片模块(MCM)中。

图像获取模块410可以获取描绘一个或以上对象的图像。图像可以包括静止图片、视频(离线或直播流)、视频帧或其组合。在一些实施例中，可以从例如编码设备(例如，编码器104)、相机(例如，相机102)和/或存储设备(例如，网络存储设备113、计算设备220的存储器227、存储器390)等或其任何组合获取图像。在一些实施例中，可以从例如实时馈送、存储设备、基于IEEE1394的接口、视频数字化器、计算机图形引擎、网络连接等或其组合获取图像。由图像获取模块410获取的图像可以存储在存储模块450、存储器227或存储器390中，或者经由网络112发送到终端108。

在一些实施例中，描绘一个或以上对象的图像可以由配置为监控感兴趣区域(AOI)的相机捕获。一个或以上对象可以包括一个人物。

在一些实施例中，由图像获取模块410获取的图像可以包括在第一场景中捕获的第一图像和在第二场景中捕获的第二图像。第一场景可能与第二场景不同。

在一些实施例中，图像获取模块410可以将图像发送到服务器103的其他模块以进行进一步处理。例如，图像获取模块410可以将同一对象的不同图像和一幅或以上样本图像发送到相似性评估模块420，以确定对象的不同图像和一幅或以上样本图像之间的一个或以上相似度。作为另一示例，图像获取模块410可以将图像发送到警报确定模块440，用于确定感兴趣的对象是否出现在图像中。作为示例，图像获取模块410可以将图像发送到存储模块450，用于存储在本地数据库或远程数据库中。

相似性评估模块420可以被配置为评估两幅图像之间的相似度。两幅图像之间的相似度可以指对象出现在两幅图像中的一幅图像中的概率。

校准函数确定模块430可以被配置为确定校准函数。所述校准函数表示不同相似度(例如，对象的第一图像和至少一幅样本图像之间的相似度，以及对象的第二图像和至少一幅样本图像之间的参考相似度)之间的关系。

在一些实施例中，确定模块430还可以确定是否已经调试了相机。如果存在与相机对应的校准函数，则校准函数确定模块430可以确定相机已被调试。

报警确定模块440可被配置为确定在监控视频中是否发现感兴趣的人物，并响应于确定找到感兴趣的人物而生成信号。警报确定模块440可以将在监控状态下由相机捕获的图像与注册者图像之间的(校准的)相似度与用于认证阈值(例如，85％、90％、95％)进行比较，如果在监控状态下由相机捕获的图像与注册者图像之间的(校准的)相似度大于用于认证的阈值，则确定找到感兴趣的对象。

由报警确定模块440生成的信号可以将指令(也称为报警)编码到终端108，通知终端108的用户找到了感兴趣的人物。此外，报警确定模块440可以向终端108发送与感兴趣的人物相关的信号编码数据，包括感兴趣的人物的位置、感兴趣的人物的出现时间、感兴趣的人物的移动轨迹等，或者其任何组合。与感兴趣的人物相关的数据可以以文本、图表、图像、视频、音频等的形式显示在终端108上。

存储模块450可被配置为存储数据、指令和/或与感兴趣对象相关的任何其他信息。例如，存储模块450可以存储对象的不同图像、第一相似度表、第二相似度表、校准函数等或其任何组合。在一些实施例中，存储模块450可以存储从服务器103，终端108和/或相机102获取的数据。在一些实施例中，存储模块450可以存储服务器103可以执行或用于执行本申请中描述的示例性方法的数据和/或指令。在一些实施例中，存储模块450可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等，或其组合。在一些实施例中，存储模块450可以在云平台上实现，如本申请其他地方所述。在一些实施例中，存储模块450可以连接到服务器103中的一个或多个其他组件和/或与之通信。服务器103中的一个或以上组件可以访问存储在存储模块450中的数据或指令。

应当注意，对服务器103的述描述仅仅是为了说明的目的而提供的，并且不能被认为是唯一的实施例。对于本领域的普通技术人物员而言，可以在本申请的一些实施例的指导下进行各种变化和修改。然而，这些变化和修改可以不脱离本申请的一些实施例的保护。

图5是示出根据本申请的一些实施例所示的用于确定相机的校准函数的示例性过程500的流程图。在一些实施例中，如图1所示，可以在视频监控系统100上实现过程500。例如，过程500可以作为指令的形式存储在存储介质(例如，网络存储设备113或计算设备220的存储器227)中，并且由服务器103调用和/或执行。下面呈现的过程500中的操作是说明性的。在一些实施例中，过程500可以用一个或以上未描述的附加操作来完成，和/或不使用讨论过的一个或以上操作。另外，如图5所示和下面所描述的过程500的操作的顺序不是限制性的。

在502中，服务器103可以获取由相机(例如，相机102)在第一场景下捕获的对象的第一图像。操作502可以由图像获取模块410执行。在一些实施例中，服务器103可以从编码设备(例如，编码器104)、相机(例如，相机102)和/或存储设备(例如，网络存储设备113、计算设备220的存储器227、存储器390)获取第一图像。第一图像可以以任何图像格式存储，例如RAW格式(指未处理或最小处理的图像数据)、TIFF(标记的输入文件格式)、JPEG(联合摄影专家组)格式、GIF(图形交换格式)或BMP格式(指位图格式)，并且具有任何图像分辨率。

第一场景可以与相机和环境条件相关联的相机信息相关联。相机信息可以包括相机的一个或以上设置参数，例如，在不同工作状态(例如，监控状态，待机状态，调试状态)中的相机的设置参数。环境条件可包括照相机的位置、照相机的环境照明条件、天气、时间等，或其任何组合。应当注意，第一图像的质量可能随着第一场景的变化而变化。例如，不同图像中的相同对象的颜色可以根据不同的照明条件而变化。具体地，第一场景可以是相机在监控状态下工作的场景。当对象处于移动状态(例如，行走、奔跑)时，可以捕获第一图像。

在一些实施例中，对象可以是人物，并且第一图像可以呈现人物的面部。在由相机捕获的图像数据被预处理之后，可以获取第一图像。示例性预处理操作可包括增强操作、变换操作、压缩操作、边缘检测、分割操作、鼻子还原操作等，或其组合。例如，可以执行变换操作以将一个域(例如，空间域)中的图像数据变换到另一个域(例如，频域)以确定图像数据的特征。作为另一示例，可以执行增强操作来增强图像数据的一部分(例如，人脸)。作为又一示例，可以执行分割操作来识别或分割图像数据中的人脸。

在504中，服务器103可以获取在第二场景下捕获的对象的第二图像。操作504可以由图像获取模块410执行。在一些实施例中，服务器103可以从存储设备(例如，网络存储设备113、计算设备220的存储器227、存储器390)获取第二图像。

第二场景可能与第一场景不同。在一些实施例中，第二图像可以由放置在与捕获第一图像的相机不同的位置的不同相机捕获。此外，当对象处于基本静止状态时，可以生成第二图像。例如，第二图像可以是在标准场景(例如，具有标准化采样环境)下捕获的对象的标准照片。标准化采样环境可包括预设背景、预设照明条件等，或其组合。或者，在一些实施例中，第二图像可以由与捕获第一图像的相机相同的相机捕获。在这种情况下，与第一场景相比，第二场景可以是相机使用不同的设置参数或在不同的环境条件下工作的场景。例如，第一场景可以是日间场景，第二场景可以是夜间场景。作为另一个例子，第一场景可能是雾天的情况，第二场景可能是晴天的情况。

在506中，服务器103可以获取对象的第二图像和至少一幅样本图像之间的参考相似度。操作506可以由相似性评估模块420执行。

在一些实施例中，可以预先评估对象的第二图像和一幅或以上样本图像之间的一个或以上参考相似度，并将其存储在存储设备(例如，存储模块450)中。当需要时，服务器103可以从存储设备检索参考相似度。或者，如操作504中所述，相似性评估模块420可以在图像获取模块410获取对象的第二图像之后评估对象的第二图像与至少一幅样本图像之间的参考度相似度。

至少一幅样本图像可以包括任何数目的图像，例如5、10、30、100、300等。所述至少一幅样本图像可以从至少两副样本图像中选择，所述至少两副样本图像作为在对象识别过程中用于对象校准的样本而收集。在一些实施例中，可以基于对象的类别将至少两副样本图像划分为不同的集合。以人脸识别为例，可以从至少两副样本图像中的一组样本面部图像中选择至少一幅样本图像。在一些实施例中，一幅或以上样本图像还可以包括与第一/第二图像相同的对象的一幅或以上样本图像。具体地，第二图像可以被视为一幅样本图像并包括在至少两副样本图像中。

如本文所使用的，对象的第二图像和至少一幅样本图像之间的(参考)相似度可指对象的第二图像中的对象出现在至少一幅样本图像中的概率。在一些实施例中，两幅图像之间的相似度可以表示为相似度值。较大的相似度值可以表示两幅图像之间的更高程度的相似度。

在一些实施例中，可以通过比较从两幅图像中提取的一组特征集来确定两幅图像之间的相似度。

特征集可以与两幅图像中的两幅图像或多个组件的颜色、形状、大小、位置相关。在一些实施例中，可以根据视频监控系统100的默认设置获取该组特征集。以人脸为例，特征集可以包括肤色、头发颜色、头发长度、人脸的高度和宽度、头部形状(细长或圆形)和一个或多个器官(例如，眼睛、嘴、耳朵、鼻子)的相对位置等，或其任何组合。在一些实施例中，该特征集可以是可调的。例如，用户可以创建用于确定相似度的新特征集。用户可以向特征集合添加一个或多个特征(例如，眼睛颜色)和/或从特征集合中删除一个或多个特征(例如，头发颜色)。用户可以通过终端108改变该特征集。例如，终端108可以与监控实体(例如，交通警察部门)相关联。监控实体的管理员或雇员可以经由终端108向服务器103发送命令，以在确定相似度时改变特征集。

在一些实施例中，服务器103可以使用一个或多个特征描述符提取特征集。示例性特征描述符可包括尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)、基于多支持区域顺序的梯度直方图(MROGH)、二进制鲁棒独立元素特征(BRIEF)、仿射SIFT、卷积神经网络(CNN)、完整核费雪判别式(CKFD)，迭代最近点(ICP)、Hausdorff距离、扩展高斯图像(EGI)、点签名(PS)等，或其组合。服务器103可以使用各种方法来区分特征集。例如，可以使用在分割期间使用被指定为皮肤的像素的范围来确定宽度和高度。又例如，可以使用基于分类器的方法来确定面部的形状。可以收集长脸和圆脸的训练集。例如，可以使用诸如Adaboost算法、CNN算法、支持向量分类器算法或最近邻分类器算法之类的学习算法来学习如何基于训练集将面部分类为细长的或圆形的。

或者，可以根据两幅图像或以上模型来确定两幅图像之间的相似度。示例性模型可以利用卷积网络(例如，CNN)，其接收两幅图像作为输入，然后作为结果输出两幅图像之间的相似度。两幅图像之间的相似度可以基于两幅图像之间的距离来确定，例如欧几里德距离、加权欧几里德距离、标准化欧几里德距离、余弦距离、汉明距离、曼哈顿距离(也称为城市街区距离)、切比雪夫距离、马氏距离、贾卡距离等。应当注意，上述对两幅图像之间的相似度的确定过程的描述仅仅是为了说明的目的而提供的，并不作为对本申请保护范围的限制。

应当注意，物体的第二图像与至少一幅样品图像之间的相似度的参考度可以以各种形式表示。参照图7作为示例，可以示出包括至少两个参考相似度的第一相似度表。在一些实施例中，第一相似度表也可以称为标准化相似度表。表的第一列可以包括人物A的面部的第二图像“A_test”。表的第二列可以包括至少两副样本面部图像，每副样本图像对应于第二图像“A_test”。至少两副样本面部图像可以包括人物A的样本面部图像“A_regis”，人物B的样本面部图像“B_regis”，人物C的样本面部图像“C_regis”，人物D的样本面部图像“D_regis”，人物E的样本面部图像“E_regis”，等。表的第三列可以包括至少两个值，这些值表示第二列中的第二图像“A_test”和相应的样本面部图像之间的参考相似度(也称为参考相似度值)。例如，如图7所示，第二图像“A_test”和样本图像“A_regis”之间的参考相似度可以表示为98％，表示第二图像“A_test”中的面部出现在样本图像“A_regis”中的可能性为98％。在508中，服务器103可以评估对象的第一图像和至少一幅样本图像之间的相似度。操作508可以由相似性评估模块420执行。与506中描述的参考相似度类似，对象的第一图像和至少一幅样本图像之间的相似度可以指对象的第一图像中的对象出现在至少一幅样本图像中的概率。

应当注意，对象的第一图像和至少一幅样本图像之间的相似度可以用与参考相似度类似的形式表示。为简洁起见，可以以组合方式示出对象的第一图像和至少一幅样本图像之间的相似度以及对象的第二图像和至少一幅样本图像之间的参考相似度。作为示例，参照图8可以示出包括至少两个参考相似度和至少两个相似度的第二相似度表。表的第一列可以包括人物A的人脸的第一图像“A_test_K”。第一图像可以由相机“K”(即第一相机)捕获。表的第二列可以包括同一个人物A的人脸的第二图像“A_test”。表的第三列可以包括存储在视频监控系统100中的样本面部图像库。样本面部图像库可以包括人物A的样本面部图像“A_regis”、人物B的样本面部图像“B_regis”、人物C的样本面部图像“C_regis”、人物D的样本面部图像“D_regis”、人物E的样本面部图像“E_regis”等。表的第四列可以包括至少两个值，这些值表示第一图像“A_test_K”和第三列中相应的样本面部图像之间的相似度(也称为“相似度值”)。表的第五列可以包括至少两个值，这些值表示第二图像“A_test”和第二列中的相应样本图像之间的参考相似度(也称为“参考相似度值”)。例如，如图8所示，第一图像“A_test_K”和样本面部图像“A_regis”之间的相似度可以表示为94％，表示第一图像“A_test_K”中的人脸出现在样本面部图像“A_regis”中的可能性为94％。通过比较第四列和第五列中的值，可以注意到，根据捕获对象的图像的不同场景，相同对象的识别过程可以产生不同的结果。

在510中，服务器103可以基于对象的第一图像和至少一幅样本图像之间的相似度和对象的第二图像和至少一幅样本图像之间的参考相似度来确定校准函数。操作510可以由确定模块430执行。校准函数可以指示对象的第一图像和至少一幅样本图像之间的相似度和对象的第二图像和至少一幅样本图像之间的参考相似度之间的关系。

在一些实施例中，服务器103可以确定每对相似度和参考相似度之间的关系，然后基于所有相似度和参考相似度对之间的关系确定校准函数。一个相似度和参考相似度对可对应于同一样本人脸图像，基于该样本人脸图像确定相似度和参考相似度。

出于说明目的，服务器103可以使用分段线性映射模型、曲线拟合模型、机器学习模型等或其任何组合将相似度映射到相应的参考相似度。

以分段线性映射模型为例，校准函数可用方程式(1)表示如下：

其中，x表示相似度，f(x)表示对应的参考相似度，n为不小于2的整数，f_k(x)表示k＝1,..,n时的线性和/或仿射函数，D_n表示x的取值范围。对于D_k和D_k+1之间的每个边界值x＝x_k，既可以使用f_k(x)也可以使用f_k+1(x)。例如，如果x等于50％，D_k可以是(30％,50％]，D_k+1可以是(50％,80％)。

以机器学习模型为例，校准函数可以是神经网络模型。神经网络模型可以接收相似度的输入，并输出参考相似度或相似度与估计的参考相似度之间的差。神经网络模型可以基于初步神经网络模型进行训练。初步神经网络模型可基于卷积神经网络模型(CNN)、全卷积神经网络(FCN)模型、生成对抗性网络(GAN)中的至少一个来构建，神经网络模型可包括反向传播(BP)神经网络模型、径向基函数(RBF)神经网络模型，深层信念网(DBN)神经网络模型、Elman神经网络模型等，或其组合。

可以使用至少两个训练集(例如，包括至少两个相似度和至少两个对应的参考相似度)迭代地训练神经网络模型。在迭代期间，可以根据代价函数(也称为损失函数)来更新神经网络模型的一个或以上参数。代价函数可以被配置成评估神经网络模型的输出值和期望值之间的差异。神经网络模型的输出可以基于相似度的输入(例如，第一图像“A_test_K”和样本面部图像“A_regis”之间的相似度)来生成。与输出相关联的期望值可以是与输入相似度相对应的参考相似度(例如，第二图像“A_test”和样本图像“A_regis”之间的参考相似度)。可确定第一条件以指示神经网络模型是否被充分训练。确定满足第一条件后，作为响应，可以认为神经网络模型已得到充分训练。在一些实施例中，第一条件可以涉及代价函数的值。例如，如果代价函数的值最小或小于阈值(例如，一个常数)，则可以满足第一条件。作为另一示例，如果多次迭代中的代价函数的值收敛，则可以满足第一条件。在一些实施例中，如果在两个或以上个连续迭代中的代价函数的值的变化等于或小于阈值(例如，一个常数)，则可以认为收敛已经发生。

以曲线拟合模型为另一示例，可以通过基于至少两个参考相似度和至少两个相似度计算拟合曲线来确定校准函数。例如，校准函数可以是描述相似度和相应的参考相似度之间的线性映射关系的线性函数。

在一些实施例中，校准函数可进一步应用于校准由相机捕获的一幅或多副图像与存储在存储器中的注册者图像之间的一个或多个相似度。关于校准函数的应用的详细描述可以在本申请的其他地方找到(例如，图6及其描述)。

应当注意，过程500的上述描述仅仅是为了说明的目的，不能被认为是唯一的实施例。对于本领域的普通技术人员，可以在本申请的一些实施例的指导下进行各种变化和修改。在一些实施例中，可以减少或添加一些操作。然而，这些变化和修改并不超出本申请的一些实施例的保护范围。例如，可以在示例性过程500中添加一个或以上其他可选操作(例如，存储操作)。在存储操作中，服务器103可以将相似度、参考相似度存储在本申请其他地方公开的任何存储设备(例如，网络存储设备113或计算设备220的存储器227)中。

图6是根据本申请的一些实施例的用于识别对象的示例性过程600的流程图。在一些实施例中，如图1所示，可以在视频监控系统100上实现过程600。例如，过程600可以作为指令的形式存储在存储介质(例如，网络存储设备113或计算设备220的存储器227)中，并且由服务器103调用和/或执行。下面呈现的过程600中的操作是说明性的。在一些实施例中，过程600可以用一个或以上未描述的附加操作来完成，和/或缺少一个或以上已经讨论过的操作。另外，如图6所示和下面所描述的过程600的操作顺序不是限制性的。

在602中，服务器103可以获取由在监控状态下工作的相机捕获的一幅或以上图像。操作602可以由图像获取模块410执行。在监控状态下工作的相机可以是监控系统的一部分，其被配置为监控感兴趣区域(AOI)。监控系统可以包括至少两个相机，每个相机具有用于识别的标签。两个以上相机可以捕获描绘一个或以上感兴趣对象的图像。一个或以上感兴趣的对象可以包括人、车辆、物品等，或其任何组合。在一些实施例中，监控系统可以被配置为基于捕获的图像搜索对象。

为简洁起见，由在监控状态下工作的相机捕获的一幅或以上图像也可被称为一幅或以上第三图像。一幅或以上第三图像可以包括静止图片、视频(离线或实时流)、视频帧或其组合。在一些实施例中，可以从例如实时馈送、存储设备、基于IEEE1394的接口、视频数字化器、计算机图形引擎、网络连接等或其组合获取一幅或以上第三图像。

在一些实施例中，第三图像可以是由相机捕获的原始图像，并且包括表示原始图像中对象位置的位置信息。在一些实施例中，可以通过预处理由相机捕获的原始图像来获取第三图像。服务器103可以通过检测和提取原始图像中的对象来预处理原始图像。对象检测可以包括对象的识别(例如，确定和存储对象的类型)和对象的位置的确定(例如，确定和存储对象的位置)。例如，服务器103可以确定在原始图像中有2个人、1辆汽车和3个动物，并将它们的位置存储在原始图像中。示例性对象检测方法可以包括基于区域的卷积网络(R-CNN)、空间金字塔池网络(SPP-Net)、快速基于区域的卷积网络(FastR-CNN)、快速基于区域的卷积网络(FasterR-CNN)等。

在604中，服务器103可确定相机是否已被调试。操作604可以由确定模块430执行。如果存在与相机对应的校准函数，则服务器103可以确定相机已被调试。例如，服务器103可以确定相机处于夜间场景中，并且确定是否存在对应于相机的夜间场景的校准函数。例如，服务器103可以确定相机处于有雾场景中，并且确定是否存在对应于相机的有雾场景的校准函数。在一些实施例中，无论环境的变化如何，每个相机只有一个校准函数，其中校准函数与相机的分辨率、相机的位置、相机的标准化照明等有关。响应于确定相机已被调试，过程600可前进到606；否则，过程600可以进行到操作614。

在606中，服务器103可以获取对应于相机的校准函数。服务器103可以从校准函数确定模块430或存储模块450获取与相机对应的校准函数。在一些实施例中，服务器103可以基于相机的标签获取校准函数。在一些实施例中，可以结合图5中的操作510来确定对应于相机的校准函数。应当注意，在一些实施例中，可以获取对应于相机的多个校准函数。多个校准函数可对应于捕获图像的不同场景。例如，一个校准函数可用于校准白天由相机捕获的图像的注册者相似度，另一个校准函数可用于校准夜间由相机捕获的图像的注册者相似度。作为另一示例，一个校准函数可用于校准在雾天由相机捕获的图像的注册者相似度，另一个校准函数可用于校准在晴天由相机捕获的图像的注册者相似度。

在608中，服务器103可以基于校准函数校准由相机捕获的一幅或以上第三图像和注册者图像之间的一个或以上的相似度。操作608可以由警报确定模块440执行。注册者图像可以是感兴趣者的面部图像。例如，注册者图像可以包括可疑人员的面部图像。例如，注册者图像可以包括丢失人员的面部图像。

服务器103可以通过确定一幅或多副第三图像和注册者图像之间的每个相似度来确定一幅或多副第三图像和注册者图像之间的一个或多个相似度(为简洁起见，也称为“注册者相似度”)。确定注册者相似度的方式可以与506中获取参考相似度的方式类似，此处不再赘述。

在一些实施例中，在确定注册者相似度之前，服务器103可以确定一幅或以上第三图像是否能够被校准，并且仅选择能够被校准的图像来确定注册者相似度。如果图像的质量太低，或者图像是从无法收集到足够信息的方向上捕获的，则图像可能无法被校准。

在一些实施例中，服务器103可以基于图像定义评估图像的质量。如果图像定义低于定义阈值，则服务器103可以确定图像的质量太低。定义阈值可以是视频监控系统100的默认设置，或者可以在不同的情况下调节。在一些实施例中，可以基于梯度函数(例如，Brenner梯度函数、Tenengrad梯度函数、Laplacian梯度函数)、灰度差模之和(SMD)函数、熵函数等或其任何组合来确定图像定义。

在一些实施例中，服务器103可以分析关于要校准的对象的信息。以面部识别为例，如果两副面部图像中的面部角度之间的差小于角度阈值，则可以确定两副面部图像能够被校准；否则，可以确定两副面部图像不能被校准。角度阈值可以是视频监控系统100的默认设置，或者可以在不同的情况下调整。应当注意，如果面部角度改变，则图像中的面部的外观可能显著改变，并且面部识别的精度可能降低。

服务器103可以基于校准函数确定一个或多个校准的相似度。例如，服务器103可以将注册者相似度输入到神经网络模型中以生成经校准的相似度。作为另一示例，服务器103可以计算偏移值以补偿注册者相似度。注册者相似度的值可以加上偏移值来生成经校准的相似度。

在610中，服务器103可以确定一个或以上校准的相似度中的至少一个是否大于用于面部校准的认证阈值。操作610可以由警报确定模块440执行。在一些实施例中，用于面部校准的用于认证的阈值可以是视频监控系统100的默认设置。例如，用于面部校准的用于认证的阈值可以是85％，90％，95％等。在一些实施例中，可以根据对象检测错误率来调整用于面部校准的用于认证的阈值，该对象检测错误率代表对象识别过程中服务器103的错误判断。确定一个或以上相似度中的至少一个大于用于面部校准的认证阈值后，作为响应，过程600可以进行到612；否则，过程600可以进行到操作602。

在612中，服务器103可以输出与至少一幅图像相关的警报，该图像对应于大于用于认证的阈值的一个或以上校准相似度中的至少一个。操作612可以由警报确定模块440执行。服务器103可以确定在一幅或多副捕获的图像和注册者图像之间已经实现了匹配。确定在一幅或以上图像中的至少一幅中找到注册者图像中的人之后，作为响应，服务器103可以向终端108发送至少一个信号。在一些实施例中，服务器103可以向终端108发送编码指令(也称为警报)的信号，通知终端108的用户找到了感兴趣的人。此外，服务器103可以向终端108发送与感兴趣的人相关的信号编码数据，包括感兴趣的人的位置、感兴趣的人的出现时间、感兴趣的人的移动轨迹等，或者其任何组合。与感兴趣的人相关的数据可以以文本、图表、图像、视频、音频等的形式显示在终端108上。

在614中，服务器103可以调试相机。操作614可以由确定模块430执行。服务器103可以通过确定相机的校准函数来调试相机。关于校准函数的确定的详细描述可以在本申请的其他地方找到(例如，在图5及其描述中)。

应当注意，过程600的上述描述仅仅是为了说明的目的而提供的，不能被认为是唯一的实施例。对于本领域的普通技术人员，可以在本申请的一些实施例的指导下进行各种变化和修改。在一些实施例中，可以减少或添加一些操作。然而，这些变化和修改可能不会超出本申请的一些实施例的保护范围。例如，作为对校准注册者相似度的替代，服务器103可以使用校准函数来校准用于认证的阈值。用于认证的阈值的校准可包括增加或减少用于认证的阈值的值，其可带来与减少或增加注册者相似度类似的结果。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此，应当强调并注意的是，本申请中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本申请的各个方面可以全部由硬件、全部由软件(包括固件、驻留软件、微代码等)或组合的软件和硬件实现来实现，这些软件和硬件实现在本文中通常被称为“模块”、“单元”、“组件”、“设备”或“系统”。此外，本申请的一些方面可以采取计算机程序产品的形式，该计算机程序产品体现在一个或更多计算机可读介质中，其上体现有计算机可读程序代码。

计算机可读信号介质可以包含一个内含有计算机程序代码的传播数据信号，例如，在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式、光形式等或任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

用于执行本申请的一些方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写，包括面向对象的编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python之类的；传统的过程编程语言，例如“C”编程语言、visualbasic、Fortran2003、Perl、COBOL2002、PHP、ABAP；动态编程语言，例如Python、Ruby和Groovy；或者其他编程语言。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计算机建立连接(例如，通过使用网络服务提供商的网络)或在云计算环境中或作为服务提供，例如，软件服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其它名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种视频监控系统，包括：

相机，被配置为捕获至少一幅图像，所述至少一幅图像用于对象识别过程；

存储设备，用于存储一组指令；以及

至少一个处理器，用于与所述存储设备通信，其中，当执行所述指令时，所述至少一个处理器被配置为使所述系统：

获取由所述相机在第一场景下捕获的所述对象的第一图像；

获取在第二场景下捕获的所述对象的第二图像；

评估所述对象的所述第一图像和至少一幅样本图像之间的相似度；以及

至少基于所述对象的所述第二图像和所述至少一幅样本图像之间的相似度来确定校准函数，以校准所述对象的所述第一图像和所述至少一幅样本图像之间的所述相似度，其中，

在对象识别过程中，所述校准函数将与所述相机捕获的一幅或多幅图像一起应用。

2.根据权利要求1所述的系统，其特征在于，为了确定用于校准所述对象的所述第一图像和所述至少一幅样本图像之间的所述相似度的所述校准函数，所述至少一个处理器被配置为使所述系统：

获取所述对象的所述第二图像与所述至少一幅样本图像之间的参考相似度。

3.根据权利要求2所述的系统，其特征在于，为了确定用于校准所述对象的所述第一图像和所述至少一幅样本图像之间的所述相似度的所述校准函数，所述至少一个处理器被配置为使所述系统：

指定一个函数作为所述校准函数，被指定的所述一个函数表示所述对象的所述第一图像和所述至少一幅样本图像之间的相似度与所述对象的所述第二图像和所述至少一幅样本图像之间的参考相似度之间的关系。

4.根据权利要求1所述的系统，其特征在于，所述校准函数用于校准由所述相机捕获的所述至少一幅图像和存储在存储器中的注册者图像之间的至少一个相似度。

5.根据权利要求4所述的系统，其特征在于，所述注册者图像包括可疑人物的面部图像。

6.根据权利要求4所述的系统，其特征在于，将由所述相机捕获的所述至少一幅图像和所述注册者图像之间的所述至少一个相似度与在所述对象识别过程中用于面部核对的认证阈值进行比较。

7.根据权利要求1所述的系统，其特征在于，所述对象的所述第一图像是当所述相机在监控状态下工作时捕获的。

8.根据权利要求7所述的系统，其特征在于，所述对象的所述第二图像是当所述对象处于基本静止状态时捕获的。

9.根据权利要求1所述的系统，其特征在于，所述对象的所述第一图像包括人物的面部图像。

10.根据权利要求9所述的系统，其特征在于，所述至少一幅样本图像选自面部图像库。

11.根据权利要求10所述的系统，其特征在于，所述面部图像库包括所述人物的至少一幅参考面部图像。

12.根据权利要求10所述的系统，其特征在于，为了评估所述对象的所述第一图像和所述至少一幅样本图像之间的相似度，所述至少一个处理器被配置为使所述系统：

在所述面部图像库中选择至少两幅面部图像；以及

计算至少两个第一相似度值，每个所述第一相似度值表示所述第一图像和所述至少两幅面部图像中的一幅面部图像之间的相似度。

13.一种视频监控系统，包括：

存储设备，用于存储至少两幅样本图像；以及

至少一个处理设备，可通信地耦合到所述存储设备，用于：

基于在第一场景中捕获的第一对象的第一图像，计算包括第一相似度值的第一相似度表，每个所述第一相似度值表示所述第一对象在所述至少两幅样本图像中的对应一幅中呈现的可能性；

基于在第二场景中捕获的所述第一对象的第二图像来计算包括第二相似度值的第二相似度表，每个所述第二相似度值表示所述第一对象在所述至少两幅样本图像中的对应一幅中呈现的可能性；

基于所述第一相似度表和所述第二相似度表之间的映射计算补偿因子；以及

响应于接收在所述第一场景中捕获的第三图像，通过将阈值与由所述补偿因子调整的所述第三图像与注册者图像之间的相似度值进行比较来确定所述第三图像中是否存在第二对象。

14.根据权利要求13所述的系统，其特征在于，所述对象包括人类对象。

15.根据权利要求13所述的系统，其特征在于，所述对象的所述第一图像在所述第一场景中使用第一相机捕获，并且所述对象的所述第二图像在所述第二场景中使用第二相机捕获。

16.根据权利要求15所述的系统，其特征在于，使用所述第一相机捕获所述第三图像。

17.根据权利要求15所述的系统，其特征在于，所述处理设备还进一步用于：

在第一位置接收所述第一相机捕获的所述对象的所述第一图像；以及

在第二位置接收所述第二相机捕获的所述对象的所述第二图像。

18.根据权利要求13所述的系统，其特征在于，所述处理设备还进一步用于：

基于所述第一场景中的对象检测错误率确定所述阈值。

19.根据权利要求13所述的系统，其特征在于，所述处理设备还进一步用于：

接收在所述第二场景中捕获的所述对象的所述第二图像；

将所述第二图像添加到所述至少两副样本图像中；以及

基于在所述第二场景中捕获的所述对象的所述第二图像计算出所述第一相似度表。

20.根据权利要求13所述的系统，其特征在于，所述注册者图像包括可疑人物的面部图像。