CN116129328A

CN116129328A - 遗留物检测方法、装置、设备以及存储介质

Info

Publication number: CN116129328A
Application number: CN202310184272.0A
Authority: CN
Inventors: 徐光耀; 陈明根
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-16

Abstract

本公开提供了一种遗留物检测方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及图像处理技术领域。具体实现方案为：确定检测视频帧中相对于背景视频帧的新增物品的物品检测框和新增人物的人物检测框，在新增人物的人物检测框中，确定新增物品所属人物的人物检测框，基于新增物品的物品检测框，判断新增物品在检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于新增物品所属人物的人物检测框，判断新增物品的预设范围内是否存在新增物品所属人物，若不存在，则确定新增物品为目标区域内的遗留物。如此，提升了遗留物检测的准确性。

Description

遗留物检测方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及图像处理技术领域，具体涉及一种遗留物检测方法、装置、设备以及存储介质。

背景技术

遗留物是指被其所属人物携带进入目标区域，进而在其所属人物离开后被遗留在目标区域的物品。目前，在机场、车站或小区等人流量大的公共场所中，如果有人蓄意将不明物品遗留至公共场所时，为避免这些遗留物中可能存在危害公共安全的物品，需要及时识别出此类遗留物并实时告警，预防潜在的危害公共安全的事件发生。

发明内容

本公开提供了一种遗留物检测方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种遗留物检测方法，该方法包括：

基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框；

在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框；

基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

根据本公开的另一方面，提供了一种遗留物检测装置，该装置包括：

检测模块，用于基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框；

确定模块，用于在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框；

判断模块，用于基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开所提供的遗留物检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行本公开所提供的遗留物检测方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开所提供的遗留物检测方法。

本公开所提供的技术方案，通过将初始时刻的背景视频帧作为参考帧，对当前时刻的检测视频帧进行检测，考虑到了当前检测帧相对于初始参考帧的变化，能够实现对任意未知变化物品的检测，能够快速检测出新增物品和新增人物，以便后续针对新增物品进行遗留物的判断，同时，在除判断新增物品在连续帧内是否发生位置变化之外，还结合了判断周边是否存在新增物品所属人物的手段，来进一步实现对遗留物的检测，提升了遗留物检测的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例示出的一种遗留物检测方法的实施环境示意图；

图2是本公开实施例示出的一种遗留物检测方法的流程示意图；

图3是本公开实施例示出的一种遗留物检测方法的流程示意图；

图4是本公开实施例示出的一种遗留物检测方法的流程示意图；

图5是本公开实施例示出的一种遗留物检测装置的结构框图；

图6是用来实现本公开实施例的遗留物检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

首先，针对本公开实施例涉及的应用场景进行描述，本公开实施例提供的遗留物检测方法可应用于如机场、车站、小区、商场以及广场等公共场所的场景中，具体应用于公共场所中针对遗留物的检测。其中，遗留物是指被其所属人物携带进入公共场所的某一区域，进而在其所属人物离开后被遗留在该区域的物品。本公开实施例后续采用目标区域来指代公共场所中待进行遗留物检测的区域。

应理解地，在机场、车站或小区等人流量大的公共场所中，如果有人蓄意将不明物品遗留至公共场所时，可能会存在危害公共安全的物品，此时，需要及时识别出此类遗留物并实时告警，预防潜在的危害公共安全的事件发生。

相关技术中，通常是采集公共场所的图像，通过分析该图像中各个物体的像素变化信息，来对该图像中由运动转变为静止的物体进行检测，再通过机器学习的方式区分人物和物品，从而识别遗留的物品。然而，由于该方法在检测初期仅需要依赖于像素维度的变化信息，且由于像素变化这一分析算法本身抗干扰的能力不强且算法精度较低，很容易出现误检和漏检的情况，从而导致遗留物检测的准确性较差。或者，在采集公共场所的图像之后，还可以利用通过深度学习算法训练的检测模型，对该图像中的预设类物品进行检测，再通过目标跟踪的方式确定该物品是否被遗留。然而，由于模型训练时的物品类别是固定的，利用该方法仅能检测出预设类别的物品，而无法检测非预设类别的物品，可能会导致无法检测出某些物品(如未用于训练的类别的物品)的情况，从而导致遗留物检测的准确性较差。

基于此，本公开实施例提供了一种遗留物检测方法，通过将初始时刻的背景视频帧作为参考帧，对当前时刻的检测视频帧进行检测，考虑到了当前检测帧相对于初始参考帧的变化，能够实现对任意未知变化物品的检测，能够快速检测出新增物品和新增人物，以便后续针对新增物品进行遗留物的判断，同时，在除判断新增物品在连续帧内是否发生位置变化之外，还结合了判断周边是否存在新增物品所属人物的手段，来进一步实现对遗留物的检测，提升了遗留物检测的准确性。

图1是本公开实施例示出的一种遗留物检测方法的实施环境示意图。参见图1，该实施环境包括摄像装置101和电子设备102。

本公开实施例中，摄像装置101用于采集目标区域的视频数据。在一些实施例中，目标区域的视频数据包括目标区域初始时刻的背景视频帧以及目标区域当前时刻的检测视频帧。

本公开实施例中，电子设备102用于基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框，在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框，基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

在一些实施例中，电子设备102可以包括变化检测模块、多目标跟踪模块和遗留物识别模块。其中，变化检测模块用于基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框。多目标跟踪模块用于基于该新增物品的物品检测框，获取该新增物品的跟踪序列，以便基于该新增物品的跟踪序列，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化。遗留物识别模块用于在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框，基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

在一些实施例中，电子设备102可以为终端1021。其中，终端1021为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。在一些实施例中，终端1021具有通信功能，能够接入有线网络或无线网络。终端1021可以泛指多个终端中的一个，本公开实施例仅以终端1021来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。

在另一些实施例中，电子设备102可以为服务器1022。在一些实施例中，服务器1022是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式文件系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据或者人工智能平台等基本云计算服务的云服务器中的至少一种，本公开实施例对此不加以限定。在一些实施例中，上述服务器1022的数量能够更多或更少，本公开实施例对此不加以限定。当然，服务器1022还能够包括其他功能，以便提供更全面多样化的服务。

在一些实施例中，摄像装置101与电子设备102通信连接。在一些实施例中，本公开实施例所提供的遗留物检测方法由终端1021执行，相应地，摄像装置101在采集到目标区域的视频数据之后，将该目标区域的视频数据发送至终端1021，进而终端1021利用本公开实施例所提供的遗留物检测方法，判断该目标区域中是否存在遗留物。或者，在另一些实施例中，本公开实施例所提供的遗留物检测方法由服务器1022执行，相应地，摄像装置101在采集到目标区域的视频数据之后，将该目标区域的视频数据发送至服务器1022，进而服务器1022利用本公开实施例所提供的遗留物检测方法，判断该目标区域中是否存在遗留物。

下面基于图1所示实施环境，对本公开实施例提供的方法进行介绍。

图2是本公开实施例示出的一种遗留物检测方法的流程示意图，该遗留物检测方法由电子设备执行。在一些实施例中，该电子设备可以为上述图1所示的终端或服务器。如图2所示，该方法包括以下步骤。

S201、基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框。

其中，目标区域用于指代公共场所中待进行遗留物检测的区域。示例地，目标区域可以是机场、车站、小区、商场以及广场等公共场所包含的任一个区域。

本公开实施例中，背景视频帧是指摄像装置在初始时刻所采集的视频帧。应理解地，背景视频帧用于描述目标区域中相对静止的物品、设施等背景图像信息。在一些实施例中，初始时刻可以是预先设定的固定时刻，如00:00时刻或其他时刻。或者，在另一些实施例中，初始时刻也可以是摄像装置开启拍摄的时刻，相应地，背景视频帧可以是摄像装置在开启拍摄时所采集的第一帧视频画面。

在上述实施例中，通过将初始时刻的背景视频帧作为参考帧，对当前时刻的检测视频帧进行检测，考虑到了当前检测帧相对于初始参考帧的变化，能够实现对任意未知变化物品的检测，能够快速检测出新增物品和新增人物，以便后续针对新增物品进行遗留物的判断。

S202、在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框。

在一些实施例中，该新增人物的数量可以为一个或多个，相应地，该新增人物的人物检测框的数量也可以为一个或多个。在该实施例中，在该新增人物的人物检测框中，通过确定该新增物品所属人物的人物检测框，以便后续利用该新增物品所属人物的人物检测框来进行新增物品周边是否存在新增物品所属人物的判断。

S203、基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

在上述实施例中，通过判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，能够辨别该新增物品在连续帧内是否发生过移动，如果未发生过移动则表明该新增物品长时间停留，其有可能是遗留物，进而，通过判断该新增物品的预设范围内是否存在该新增物品所属人物，能够辨别该新增物品的周边是否存在其所属人物，如果不存在则表明该新增物品是遗留物。

本公开实施例提供的技术方案，通过将初始时刻的背景视频帧作为参考帧，对当前时刻的检测视频帧进行检测，考虑到了当前检测帧相对于初始参考帧的变化，能够实现对任意未知变化物品的检测，能够快速检测出新增物品和新增人物，以便后续针对新增物品进行遗留物的判断，同时，在除判断新增物品在连续帧内是否发生位置变化之外，还结合了判断周边是否存在新增物品所属人物的手段，来进一步实现对遗留物的检测，提升了遗留物检测的准确性。

上述图2为本公开示出的一种简单实施例，下面基于一种具体实施例对本公开提供的遗留物检测方法进行说明。图3是本公开实施例示出的一种遗留物检测方法的流程示意图，该遗留物检测方法由电子设备执行。在一种可能的实现方式中，该电子设备可以为上述图1所示的终端或服务器。如图3所示，以电子设备为执行主体，该方法包括以下步骤。

S301、电子设备获取目标区域初始时刻的背景视频帧和当前时刻的检测视频帧。

在一些实施例中，目标区域预先部署有一个或多个摄像装置，相应地，通过摄像装置采集目标区域的视频数据，该视频数据包括初始时刻的背景视频帧和当前时刻的检测视频帧，进而，将所采集的背景视频帧和检测视频帧发送至电子设备，以便电子设备联合背景视频帧和检测视频帧来执行后续的遗留物检测过程。需要说明的是，背景视频帧和检测视频帧为对同一区域进行拍摄得到的两帧视频画面。

在一些实施例中，摄像装置在拍摄得到该第一帧视频画面时，可以将该第一帧视频画面作为该摄像装置的背景视频帧，并将该背景视频帧与该摄像装置的装置标识对应存储，以便后续电子设备能够及时获取该背景视频帧。其中，装置标识可以是摄像装置的名称、编号或ID(Identity，身份标识符号)中任一项。

在一些实施例中，摄像装置在采集目标区域的视频数据之后，每间隔目标帧数提取一帧视频画面作为检测视频帧，并将该检测视频帧与该摄像装置的装置标识对应存储，以便后续电子设备利用本公开实施例提供的遗留物检测方法对该检测视频帧进行遗留物检测。其中，目标帧数为预先设定的帧数，如10帧或其他帧数。本公开实施例对目标帧数的设定不作限定。

S302、电子设备基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行变化检测，得到该检测视频帧中相对于该背景视频帧发生变化的物品检测框和人物检测框。

本公开实施例中，变化检测用于检测该检测视频帧中相对于该背景视频帧发生变化的目标(如物品或人物)。需要说明的是，发生变化的目标的数量可以是一个或多个。还需要说明的是，本公开实施例所涉及的包含人物的视频帧来自于公开数据集。

应理解地，变化检测的结果包括发生变化的目标的位置信息以及发生变化的目标的类别信息。在一些实施例中，位置信息采用矩形检测框来表示，也即是，上述物品检测框和人物检测框可以是矩形检测框的形式。在一些实施例中，针对任一个发生变化的目标，该发生变化的目标可以采用多种不同尺寸的矩形检测框来表示，如三种不同尺寸的矩形检测框。如此，通过输出多种不同尺寸的物品检测框，能够避免出现检测框覆盖不全面或检测框覆盖面过小的问题，提高了变化检测的准确性。进一步地，在一些实施例中，类别信息采用类别标签来表示，该类别标签用于指示目标的类别是物品还是人物。例如，上述矩形检测框可以携带该类别标签，用于指示物品检测框或人物检测框。

在一些实施例中，电子设备利用变化检测模型来进行上述变化检测，该变化检测模型提供有基于该背景视频帧对该检测视频帧进行变化检测的功能。相应过程为：将该背景视频帧与该检测视频帧输入变化检测模型，通过该变化检测模型对该背景视频帧与该检测视频帧进行处理，得到该发生变化的物品检测框和人物检测框。如此，利用变化检测模型来进行变化检测，不仅能够快速高效地检测该目标区域中的新增物品或新增人物，还能够提高变化检测的准确性。

在一些实施例中，电子设备对该背景视频帧与该检测视频帧进行图像预处理，以获得第一尺寸的背景视频帧与第一尺寸的检测视频帧，进而将该第一尺寸的背景视频帧与第一尺寸的检测视频帧输入变化检测模型，通过该变化检测模型对该第一尺寸的背景视频帧与第一尺寸的检测视频帧进行处理，得到该发生变化的物品检测框和人物检测框。其中，第一尺寸为预先设定的尺寸，如640×640尺寸。本公开实施例对第一尺寸的设定不作限定。如此，通过图像预处理，以使背景视频帧与检测视频帧的图像尺寸能够更加贴合变化检测模型的输入，以便后续利用该变化检测模型来进行变化检测。

在一些实施例中，该变化检测模型包括特征提取层、特征融合层以及变化检测层。其中，特征提取层用于提取该背景视频帧的第一图像特征以及该检测视频帧的第二图像特征。特征融合层用于对所提取的第一图像特征与第二图像特征进行融合处理，得到图像融合特征。变化检测层用于基于该图像融合特征，对该检测视频帧中相对于该背景视频帧发生变化的目标进行检测。其中，第一图像特征用于指代背景视频帧的图像特征。第二图像特征用于指代检测视频帧的图像特征。在一些实施例中，第一图像特征与第二图像特征均可以是特征图的形式。在一些实施例中，融合处理的方式可以是特征图相加、特征图相减或特征图连接，或者，融合处理还能够结合可学习的参数作为权重来进行特征图相加或特征图相减。本公开实施例对融合处理的方式不作限定。

相应地，上述通过该变化检测模型对该背景视频帧与该检测视频帧进行处理的过程包括：通过该变化检测模型的特征提取层，分别提取该背景视频帧的第一图像特征与该检测视频帧的第二图像特征；通过该变化检测模型的特征融合层，对该第一图像特征与该第二图像特征进行融合处理，得到图像融合特征；通过该变化检测模型的变化检测层，基于该图像融合特征，确定该检测视频帧中相对于该背景视频帧发生变化的该物品检测框和该人物检测框。

在一些实施例中，上述变化检测模型基于样本图像对以及该样本图像对的标注数据，对初始检测模型进行模型训练得到。

其中，样本图像对作为初始检测模型的训练数据。在一些实施例中，该样本图像对包括背景图像和检测图像，该背景图像和该检测图像是同一视角下不同时刻的一对图像。标注数据用于指示检测图像中相对于背景图像发生变化的目标(如人物或物体)。在一些实施例中，标注数据可以是检测标注框的形式，该检测标注框用于指示发生变化的目标的位置以及类别。

在一些实施例中，利用摄像装置采集同一视角下不同时刻的多幅图片，再按照随机选取的方式，将不同时刻的一对图片作为样本图像对，其中时间靠前的作为背景图像，时间靠后的作为检测图像。在一些实施例中，还可以利用多个不同区域部署的摄像装置，或多种不同类型的摄像装置来采集上述背景图像和检测图像，以确保训练数据的丰富性。进一步地，在一些实施例中，在摄像装置采集到上述背景图像和检测图像之后，还可以对背景图像和检测图像进行光影消除处理，进而利用消除光影后的背景图像和检测图像来进行模型训练或者模型检测，以消除光影变化对模型训练或模型检测的影响，从而提高模型训练或模型检测的准确性。

在一些实施例中，模型训练所采用的初始检测模型可以是PPYOLOE+模型，PPYOLOE+模型是一种单阶段的目标检测模型。在一些实施例中，PPYOLOE+模型包括Backbone(骨干)网络模块、Neck(颈部)网络模块以及Head(头部)网络模块。

其中，Backbone网络模块用于提取图像的图像特征。在一些实施例中，Backbone网络模块是采用RepResBlock堆叠而成的网络结构，该网络结构利用结构重参数化的思想，在模型训练过程中能够利用多分支和跳跃连接的多特征图多感受野的融合结构来提取图像特征，能够提升模型训练的检测精度，且，在检测过程中RepResBlock可以退化为同效果的单路结构，能够节省显存，从而显著提升检测效率。此外，PPYOLOE+模型在利用RepResBlock进行特征提取时，还在该RepResBlock的卷积层中增加了可学习的权重参数(alpha)，能够进一步提升Backbone网络模块的表征能力，以便提取出表征效果更好的图像特征。应理解地，PPYOLOE+模型的Backbone网络模块对应于本公开所提到的变化检测模型的特征提取层。

Neck网络模块用于对Backbone网络模块所提取到的图像特征进行进一步处理。在一些实施例中，Neck网络模块是采用FPN(Feature Pyramid Network，特征金字塔网络)和PAN(Path Aggregation Network，路径聚合网络)所构成的网络结构，由于FPN网络为自顶向下进行下采样的网络，其能够传递强语义特征且感受野较大，有利于分类，而PAN网络为自底向上的上采样网络，其能够传递强定位信息，有利于检测框定位，因此，该网络结构能够更好地融合Backbone网络模块所输出的图像特征，从而提高网络的性能。应理解地，PPYOLOE+模型的Neck网络模块对应于本公开所提到的变化检测模型的特征融合层。

Head网络模块用于预测目标的类别和位置，以输出目标的类别信息和位置信息。在一些实施例中，Head网络模块在模型训练过程中，采用TAL(Task Alignment Learning，任务对齐学习)算法来进行模型评估。具体地，在模型训练过程中输出多个检测预测框之后，利用分类置信度和交并比参数等指标参数，来选取用于模型评估的检测预测框，进而利用所选取的检测预测框与预设的检测标注框进行模型评估。其中，分类置信度用于描述模型认为检测预测框内包括某类别目标的概率。交并比参数用于表征两个边界框之间的重合度。在一些实施例中，交并比参数可以是两个边界框的交集与并集之间的比值。例如，交并比参数可以是IoU(Intersection over Union，交并比)参数。示例地，按照分类置信度和交并比参数由高至低的排列次序进行排序，选取排序靠前的目标数量的检测预测框作为用于模型评估的检测预测框，且，确保该目标数量的检测预测框所覆盖的点是处于检测标注框内的，如此，能够解决分类和定位分支不对齐的问题。

需要说明的是，上述实施例以PPYOLOE+模型为例对初始检测模型进行了说明。当然，在另一些实施例中，初始检测模型还可以是其他类型的模型，本公开实施例对模型训练所采用的初始检测模型不作限定。

在一些实施例中，电子设备获取多个样本图像对以及该多个样本图像对的标注数据，根据该多个样本图像对以及该多个样本图像对的标注数据进行模型训练，得到变化检测模型。

具体地，模型训练的过程可以包括：在第一次迭代训练的过程中，将多个样本图像对输入初始检测模型中，获得第一次迭代训练的检测结果；基于该第一次迭代训练的检测结果与该样本图像对的标注数据，调整该初始检测模型的模型参数，基于调整后的模型参数，执行下一次迭代训练；进而，在任一次迭代训练的过程中，将多个样本图像对输入上一次迭代训练后得到的模型中，以获得本次迭代训练的检测结果，基于本次迭代训练的检测结果与样本图像对的标注数据，调整模型参数，基于调整后的模型参数，执行下一次迭代训练，直至模型训练满足目标条件，获取满足目标条件的模型作为变化检测模型。

应理解地，在每一次迭代训练结束后，均需要判断模型训练是否达到目标条件，如果模型训练达到目标条件，则停止模型训练并获取本次迭代训练得到的模型作为变化检测模型，如果模型训练未达到目标条件，则继续执行下一次迭代训练。在一些实施例中，该目标条件满足下述条件中的至少一项：模型训练的迭代次数达到目标次数；或者，模型损失值小于或等于目标阈值。其中，目标次数为预先设定的训练迭代次数，如迭代次数达到100。本公开实施例对目标次数的设定不作限定。目标阈值为预先设定的固定阈值，如模型损失值小于0.0001。本公开实施例对目标阈值的设定不作限定。

S303、电子设备在发生变化的该物品检测框中，确定该检测视频帧中相对于该背景视频帧的新增物品的物品检测框，在发生变化的该人物检测框中，确定该检测视频帧中相对于该背景视频帧的新增人物的人物检测框。

在一些实施例中，电子设备在检测视频帧中发生变化的该物品检测框中，判断该检测视频帧是否存在相对于该背景视频帧的新增物品，如果存在，则确定新增物品的物品检测框，同时，在检测视频帧中发生变化的该人物检测框中，判断该检测视频帧是否存在相对于该背景视频帧的新增人物，如果存在，则确定新增人物的人物检测框。

在上述S302至S303所示的实施例中，电子设备基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框。需要说明的是，上述S302至S303所示的实施例以电子设备先进行变化检测再判断是否存在新增物体或新增人物为例，对确定新增物体或新增人物的过程进行了说明。如此，通过将初始时刻的背景视频帧作为参考帧，对当前时刻的检测视频帧进行检测，考虑到了当前检测帧相对于初始参考帧的变化，能够实现对任意未知变化物品的检测，进而能够快速检测出新增物品和新增人物。而在另一些实施例中，电子设备还可以采用目标检测模型来执行上述针对新增物体或新增人物的检测过程，该目标检测模型提供有基于该背景视频帧对该检测视频帧中新增目标的检测功能。相应过程为：电子设备将该背景视频帧与该检测视频帧输入目标检测模型，通过该目标检测模型对该背景视频帧与该检测视频帧进行处理，得到该新增物品的物品检测框和该新增人物的人物检测框。如此，利用目标检测模型来进行新增目标的检测，能够更加快速高效地检测该目标区域中的新增目标，从而提高了遗留物检测的整体效率。

在一些实施例中，电子设备对该背景视频帧与该检测视频帧进行图像预处理，以获得第一尺寸的背景视频帧与第一尺寸的检测视频帧，进而将该第一尺寸的背景视频帧与第一尺寸的检测视频帧输入目标检测模型，通过该目标检测模型对该第一尺寸的背景视频帧与第一尺寸的检测视频帧进行处理，得到该新增物品的物品检测框和该新增人物的人物检测框。如此，通过图像预处理，以使背景视频帧与检测视频帧的图像尺寸能够更加贴合目标检测模型的输入，以便后续利用该目标检测模型来进行新增目标的检测。

需要说明的是，目标检测模型的模型结构和模型训练过程与上述S302中变化检测模型的模型结构和模型训练过程类型，不再赘述。

在一些实施例中，电子设备还在该初始时刻至该当前时刻的时间段内，判断该背景视频帧之后第二预设帧数的视频帧内是否检测到该新增物品，若该背景视频帧之后第二预设帧数的视频帧内均未检测到该新增物品，则将该第二预设帧数的视频帧中最后一个视频帧更新为该背景视频帧，若该背景视频帧之后第二预设帧数的视频帧内能够检测到该新增物品，则维持该背景视频帧不变。

其中，第二预设帧数为预先设定的固定帧数，如3帧、5帧或其他帧数。本公开实施例对第二预设帧数的设定不作限定。在一些实施例中，针对多个摄像装置中的任一个摄像装置，根据该摄像装置的装置标识，来判断该摄像装置的视频画面内是否在连续帧未出现新增物品，若是，则将该摄像装置应的背景视频帧更新为当前的视频帧，并将该新的背景视频帧与该摄像装置的装置标识对应存储，以便后续电子设备能够及时获取该背景视频帧。

如此，通过判断连续帧内是否能够检测到相对于背景视频帧的新增物品，进而在未检测到相对于背景视频帧的新增物品的情况下，实时更新背景视频帧，以使新确定的背景视频帧更加贴近检测视频帧，以便于下一次遗留物检测时采用新的背景视频帧能够更加准确地检测新增目标，从而提升了遗留物检测的准确性。

S304、电子设备在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框。

在一些实施例中，电子设备在该新增人物的人物检测框中，确定该新增物品的物品检测框与各个人物检测框之间的交并比参数、中心点距离，进而根据该新增物品的物品检测框与各个人物检测框之间的交并比参数、中心点距离，来确定该新增物品的所属行人。

在一些实施例中，该新增物品所属人物的人物检测框满足下述条件中的至少一项：

(1)与该物品检测框之间的交并比参数大于第一预设阈值。

其中，交并比参数用于表征该物品检测框与该人物检测框之间的重合度。应理解地，交并比参数的重合度越大，则表明该物品检测框与该人物检测框越相关，交并比参数的重合度越小，则表明该物品检测框与该人物检测框越不相关。第一预设阈值为预先设定的阈值，如0.2、0.3或其他阈值。本公开实施例对第一预设阈值的设定不作限定。

在一些实施例中，交并比参数可以是IoU参数。示例地，以IoU参数为例，电子设备确定人物检测框与物品检测框之间的交并比参数的过程为：确定人物检测框与物品检测框之间的重合面积，并确定人物检测框与物品检测框的面积总和，进而确定该重合面积与该面积总和的比值，将所确定的比值确定为人物检测框与物品检测框之间的交并比参数。

(2)与该物品检测框之间的交并比参数最大。

(3)与该物品检测框之间的中心点距离小于第二预设阈值。

其中，中心点距离用于表征该物品检测框与该人物检测框之间的距离。应理解地，中心点距离的数值越大，则表明该物品检测框与该人物检测框越不相关，中心点距离的数值越小，则表明该物品检测框与该人物检测框越相关。第二预设阈值为预先设定的阈值，如0.1或其他阈值。在一些实施例中，第二预设阈值基于物品检测框的长和宽来确定，如第二预设阈值可以是物品检测框的最长边的3倍长度。本公开实施例对第二预设阈值的设定不作限定。

(4)与该物品检测框之间的中心点距离最小。

在上述实施例中，提供了确定新增物品所属人物可参考的多项条件，丰富了确定新增物品所属人物的方式，提高了确定新增物品所属人物的灵活性，其中通过确定交并比参数或中心点距离，能够较好的表征物品检测框与人物检测框之间的相关度，进而能够准确地确定出新增物品所属人物的人物检测框。需要说明的是，电子设备在确定该新增物品所属人物的人物检测框时，可以利用上述(1)至(4)中的一项、两项或多项条件，来确定新增物品所属人物的人物检测框。示例地，以基于上述(1)、(3)和(4)为例，在新增物品的物品检测框分别与各个人物检测框之间的交并比参数中，选取与该物品检测框之间的交并比参数大于第一预设阈值的人物检测框，并在所选取的交并比参数大于第一预设阈值的人物检测框中，根据新增物品的物品检测框分别与各个人物检测框之间的中心点距离，选取与该物品检测框之间的中心点距离小于第二预设阈值、且中心点距离最小的人物检测框，将满足上述三项条件的人物检测框作为该新增物品所属行人的人物检测框。

S305、电子设备基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则执行S306。

在一些实施例中，电子设备基于该新增物品的物品检测框，获取该新增物品的跟踪序列，基于该新增物品的跟踪序列，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化。

本公开实施例中，该跟踪序列用于指示在该初始时刻至该当前时刻的时间段内该新增物品的运动轨迹。其中，跟踪序列是指多个物品跟踪框所组成的序列。在一些实施例中，跟踪序列包括多个物品跟踪框以及该多个物品跟踪框的跟踪ID。第一预设帧数为预先设定的固定帧数，如3帧、5帧或其他帧数。本公开实施例对第一预设帧数的设定不作限定。

在一些实施例中，电子设备利用多目标跟踪算法(ByteTrack)，来执行上述获取新增物品的跟踪序列的过程。相应过程为：电子设备对该检测视频帧的前一视频帧中已有的物品跟踪框进行预测，得到该物品跟踪框在该检测视频帧中的跟踪预测框，若该新增物品的物品检测框与该跟踪预测框之间的相关度大于第一相关度阈值，则将该已有的物品跟踪框对应的跟踪序列确定为该新增物品的跟踪序列，若该新增物品的物品检测框与该跟踪预测框之间的相关度小于或等于该第一相关度阈值，则为该新增物品新建跟踪序列。在该实施例中，利用已有的物品跟踪框进行相关度判断，来确定新增物品的跟踪序列，能够快速高效地确定出新增物品的跟踪序列，以便后续根据新增物品的跟踪序列来执行遗留物的判断过程。

其中，相关度用于衡量新增物品的物品检测框与跟踪预测框之间的相关程度。第一相关度阈值为预先设定的相关度阈值，如95％、98％或其他阈值。本公开实施例对第一相关度阈值的设定不作限定。

多目标跟踪算法中包括卡尔曼(Kalman)滤波算法。在一些实施例中，通过卡尔曼滤波算法来执行上述对已有的物品跟踪框进行预测的过程。在一些实施例中，卡尔曼滤波算法采用(x，y，w，h)来表示跟踪预测框。其中，(x，y)表示跟踪预测框的中心点坐标，w表示跟踪预测框的宽度值，h表示跟踪预测框的长度值。

在一些实施例中，多目标跟踪算法还利用各个物品检测框的分类置信度对卡尔曼滤波算法的协方差矩阵进行平滑，以实现可适应遗留物长宽比剧烈变化的多目标跟踪算法。相应过程为：根据新增物品的物品检测框的分类置信度，将物品检测框划分为高分框和低分框，对前一帧的物品跟踪框进行卡尔曼滤波，以预测得到跟踪预测框，进而将高分框与跟踪预测框进行相关度判断以获得高分框的跟踪序列，再将低分框与剩余的跟踪预测框进行相关度判断以获得低分框的跟踪序列，针对未匹配到跟踪序列的高分框则新建跟踪序列并设置新的跟踪ID。

在上述实施例中，利用多目标跟踪算法来获取新增物品的跟踪序列，能够快速高效地确定出新增物品的跟踪序列，以便根据新增物品的跟踪序列来判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，如此，能够辨别该新增物品在连续帧内是否发生过移动，如果未发生过移动则表明该新增物品长时间停留，则其有可能是遗留物。

S306、电子设备基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

在一些实施例中，电子设备对该人物检测框对应的图像块进行特征提取，得到该新增物品所属人物的特征信息，判断该新增物品的预设范围内是否存在与该特征信息之间的相关度大于第二相关度阈值的人物。

在一些实施例中，电子设备利用特征提取模型来执行上述提取新增物品所属人物的特征信息的过程。相应过程为：将该人物检测框对应的图像块输入特征提取模型，通过该特征提取模型提取该物品所属人物的特征信息。

在一些实施例中，电子设备对该人物检测框对应的图像块进行图像预处理，以获得第二尺寸的图像块，进而将该第二尺寸的图像块输入特征提取模型，通过该特征提取模型提取该图像块的特征信息。其中，第二尺寸为预先设定的尺寸，如256×192尺寸。本公开实施例对第二尺寸的设定不作限定。

在一些实施例中，上述特征提取模型可以是Resnet+Triplet loss模型。在一些实施例中，上述Resnet+Triplet loss模型中，Resnet作为特征提取模型的骨干网络，其作用是将输入的图片块提取成固定维数的特征值向量，并利用残差连接的方式来防止网络退化，使得模型能够获取到更高维度的特征。Triplet loss作为一种用于训练差异性小的样本的损失函数，其输入是一个三元组，包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，通过优化锚示例与正示例的距离，使其小于锚示例与负示例的距离，能够实现人物之间的相似性计算，从而帮助模型更好的区分人物之间的特征。

需要说明的是，上述实施例以在确定新增物品未发生位置变化的情况下，再提取新增物品所属人物的特征信息为例，对方案进行了说明。而在另一些实施例中，上述提取新增物品所属人物的特征信息的过程可以在S304之后S305之前执行，也即是在确定新增物品所属人物的人物检测框之后、判断该新增物品是否发生位置变化之前执行。在一些实施例中，在确定新增物品所属人物的人物检测框之后，且提取该新增物品所属人物的特征信息之后，将该新增物品所属人物的特征信息对应存储。

在一些实施例中，预设范围可以是以新增物品中心点为圆心、预设半径的圆形范围。相应地，电子设备判断该新增物品的预设范围内是否存在该新增物品所属人物的过程可以是：判断以新增物品中心点为圆心、预设半径的圆形范围内是否存在与该特征信息之间的相关度大于第二相关度阈值的人物。其中，第二相关度阈值为预先设定的阈值，如95％、98％或其他阈值。本公开实施例对第二相关度阈值的设定不作限定。

在上述实施例中，在除判断新增物品在连续帧内是否发生位置变化之外，还结合了判断周边是否存在新增物品所属人物的手段，来进一步实现对遗留物的检测，提升了遗留物检测的准确性。

在基于上述S306确定目标区域内的遗留物之后，电子设备可以向该遗留物对应的摄像装置发起警告提示，以触发该摄像装置发起警告。其中，警告提示携带该遗留物的跟踪序列以及该遗留物对应的摄像装置的装置标识。在一些实施例中，该警告提示还携带遗留物的位置信息，以便目标区域的安全人员根据对应的摄像装置复查是否存在遗留物，若存在则及时前往现场处理。

示例地，图4是本公开实施例示出的一种遗留物检测方法的流程示意图。参见图4，t表示遗留时间，t为大于等于0的正数，图4以t0时刻背景图来指代背景视频帧，以t1时刻检测图来指代检测视频帧，将该t0时刻背景图与t1时刻检测图一并输入变化检测模型，根据该变化检测模型所输出的检测结果来判断是否检测到新增物品。在一些实施例中，如果检测到新增物品，则联合新增物品和新增人物，来获取新增物品的跟踪序列，并确定新增物品所属人物的特征信息，以判断该新增物品是否连续帧内未发生位置变化且其周边不存在其所属人物，如果是则确认该新增物品为遗留物并发其警告提示，如果不是则重置遗留时间t为0。在另一些实施例中，如果未检测到新增物品，则继续判断是否在连续帧内未检测到新增物品，如果是则更新背景图。其中，通过将背景图和检测图一并作为模型的输入，并以变化检测模型作为核心算法，能够突破目标检测类别数量的限制，实现了高效精确的遗留物检测，且，利用跟踪定位与行人特征提取的方式，能够准确地确定物品所属人物并及时判断物品是否为遗留物，能够快速高效实时地检测遗留物事件，以便安全人员及时作出应对，同时还提高了遗留物检测的精度，能够避免误检漏检等情况。

图5是本公开实施例示出的一种遗留物检测装置的结构框图，参见图5，该装置包括检测模块501、确定模块502和判断模块503。其中：

检测模块501，用于基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行检测，得到该检测视频帧中相对于该背景视频帧的新增物品的物品检测框和新增人物的人物检测框；

确定模块502，用于在该新增人物的人物检测框中，确定该新增物品所属人物的人物检测框；

判断模块503，用于基于该新增物品的物品检测框，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于该新增物品所属人物的人物检测框，判断该新增物品的预设范围内是否存在该新增物品所属人物，若不存在，则确定该新增物品为该目标区域内的遗留物。

在一些实施例中，该检测模块501，用于：

将该背景视频帧与该检测视频帧输入目标检测模型，通过该目标检测模型对该背景视频帧与该检测视频帧进行处理，得到该新增物品的物品检测框和该新增人物的人物检测框，该目标检测模型提供有基于该背景视频帧对该检测视频帧中新增目标的检测功能。

在一些实施例中，该检测模块501，包括：

检测子模块，用于基于目标区域初始时刻的背景视频帧，对该目标区域当前时刻的检测视频帧进行变化检测，得到该检测视频帧中相对于该背景视频帧发生变化的物品检测框和人物检测框；

确定子模块，用于在发生变化的该物品检测框中，确定该检测视频帧中相对于该背景视频帧的新增物品的物品检测框，在发生变化的该人物检测框中，确定该检测视频帧中相对于该背景视频帧的新增人物的人物检测框。

在一些实施例中，该检测子模块，用于：

将该背景视频帧与该检测视频帧输入变化检测模型，通过该变化检测模型对该背景视频帧与该检测视频帧进行处理，得到该发生变化的物品检测框和人物检测框，该变化检测模型提供有基于该背景视频帧对该检测视频帧进行变化检测的功能。

在一些实施例中，该判断模块503，包括：

获取子模块，用于基于该新增物品的物品检测框，获取该新增物品的跟踪序列，该跟踪序列用于指示在该初始时刻至该当前时刻的时间段内该新增物品的运动轨迹；

位置判断子模块，用于基于该新增物品的跟踪序列，判断该新增物品在该检测视频帧之前第一预设帧数的视频帧内是否发生位置变化。

在一些实施例中，该获取子模块，用于：

对该检测视频帧的前一视频帧中已有的物品跟踪框进行预测，得到该物品跟踪框在该检测视频帧中的跟踪预测框；

若该新增物品的物品检测框与该跟踪预测框之间的相关度大于第一相关度阈值，则将该已有的物品跟踪框对应的跟踪序列确定为该新增物品的跟踪序列，若该新增物品的物品检测框与该跟踪预测框之间的相关度小于或等于该第一相关度阈值，则为该新增物品新建跟踪序列。

与该物品检测框之间的交并比参数大于第一预设阈值，该交并比参数用于表征该物品检测框与该人物检测框之间的重合度；

与该物品检测框之间的交并比参数最大；

与该物品检测框之间的中心点距离小于第二预设阈值，该中心点距离用于表征该物品检测框与该人物检测框之间的距离；

与该物品检测框之间的中心点距离最小。

在一些实施例中，该判断模块503包括人物判断子模块，用于：

对该人物检测框对应的图像块进行特征提取，得到该新增物品所属人物的特征信息；

判断该新增物品的预设范围内是否存在与该特征信息之间的相关度大于第二相关度阈值的人物。

在一些实施例中，还包括更新模块，用于：

在该初始时刻至该当前时刻的时间段内，若该背景视频帧之后第二预设帧数的视频帧内均未检测到该新增物品，则将该第二预设帧数的视频帧中最后一个视频帧更新为该背景视频帧。

根据本公开的实施例，本公开还提供了一种电子设备，包括至少一个处理器；以及与该至少一个处理器通信连接的存储器；其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开所提供的遗留物检测方法。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使电子设备执行本公开所提供的遗留物检测方法。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开所提供的遗留物检测方法。

在一些实施例中，电子设备可以为上述图1中所示出的终端或服务器。图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备600还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ReadOnly Memory，ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RandomAccess Memory，RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(In put/Out put，I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processing，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如遗留物检测方法。例如，在一些实施例中，遗留物检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的遗留物检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行遗留物检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Parts，ASSP)、芯片上系统的系统(System On Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种遗留物检测方法，包括：

基于目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行检测，得到所述检测视频帧中相对于所述背景视频帧的新增物品的物品检测框和新增人物的人物检测框；

在所述新增人物的人物检测框中，确定所述新增物品所属人物的人物检测框；

基于所述新增物品的物品检测框，判断所述新增物品在所述检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于所述新增物品所属人物的人物检测框，判断所述新增物品的预设范围内是否存在所述新增物品所属人物，若不存在，则确定所述新增物品为所述目标区域内的遗留物。

2.根据权利要求1所述的方法，其中，所述基于目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行检测，得到所述检测视频帧中相对于所述背景视频帧的新增物品的物品检测框和新增人物的人物检测框，包括：

将所述背景视频帧与所述检测视频帧输入目标检测模型，通过所述目标检测模型对所述背景视频帧与所述检测视频帧进行处理，得到所述新增物品的物品检测框和所述新增人物的人物检测框，所述目标检测模型提供有基于所述背景视频帧对所述检测视频帧中新增目标的检测功能。

3.根据权利要求1所述的方法，其中，所述基于目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行检测，得到所述检测视频帧中相对于所述背景视频帧的新增物品的物品检测框和新增人物的人物检测框，包括：

基于所述目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行变化检测，得到所述检测视频帧中相对于所述背景视频帧发生变化的物品检测框和人物检测框；

在发生变化的所述物品检测框中，确定所述检测视频帧中相对于所述背景视频帧的新增物品的物品检测框，在发生变化的所述人物检测框中，确定所述检测视频帧中相对于所述背景视频帧的新增人物的人物检测框。

4.根据权利要求3所述的方法，其中，所述基于所述目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行变化检测，得到所述检测视频帧中相对于所述背景视频帧发生变化的物品检测框和人物检测框，包括：

将所述背景视频帧与所述检测视频帧输入变化检测模型，通过所述变化检测模型对所述背景视频帧与所述检测视频帧进行处理，得到所述发生变化的物品检测框和人物检测框，所述变化检测模型提供有基于所述背景视频帧对所述检测视频帧进行变化检测的功能。

5.根据权利要求1所述的方法，其中，所述基于所述新增物品的物品检测框，判断所述新增物品在所述检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，包括：

基于所述新增物品的物品检测框，获取所述新增物品的跟踪序列，所述跟踪序列用于指示在所述初始时刻至所述当前时刻的时间段内所述新增物品的运动轨迹；

基于所述新增物品的跟踪序列，判断所述新增物品在所述检测视频帧之前第一预设帧数的视频帧内是否发生位置变化。

6.根据权利要求5所述的方法，其中，所述基于所述新增物品的物品检测框，获取所述新增物品的跟踪序列，包括：

对所述检测视频帧的前一视频帧中已有的物品跟踪框进行预测，得到所述物品跟踪框在所述检测视频帧中的跟踪预测框；

若所述新增物品的物品检测框与所述跟踪预测框之间的相关度大于第一相关度阈值，则将所述已有的物品跟踪框对应的跟踪序列确定为所述新增物品的跟踪序列，若所述新增物品的物品检测框与所述跟踪预测框之间的相关度小于或等于所述第一相关度阈值，则为所述新增物品新建跟踪序列。

7.根据权利要求1所述的方法，其中，所述新增物品所属人物的人物检测框满足下述条件中的至少一项：

与所述物品检测框之间的交并比参数大于第一预设阈值，所述交并比参数用于表征所述物品检测框与所述人物检测框之间的重合度；

与所述物品检测框之间的交并比参数最大；

与所述物品检测框之间的中心点距离小于第二预设阈值，所述中心点距离用于表征所述物品检测框与所述人物检测框之间的距离；

与所述物品检测框之间的中心点距离最小。

8.根据权利要求1或7所述的方法，其中，所述基于所述新增物品所属人物的人物检测框，判断所述新增物品的预设范围内是否存在所述新增物品所属人物，包括：

对所述人物检测框对应的图像块进行特征提取，得到所述新增物品所属人物的特征信息；

判断所述新增物品的预设范围内是否存在与所述特征信息之间的相关度大于第二相关度阈值的人物。

9.根据权利要求1所述的方法，还包括：

在所述初始时刻至所述当前时刻的时间段内，若所述背景视频帧之后第二预设帧数的视频帧内均未检测到所述新增物品，则将所述第二预设帧数的视频帧中最后一个视频帧更新为所述背景视频帧。

10.一种遗留物检测装置，包括：

检测模块，用于基于目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行检测，得到所述检测视频帧中相对于所述背景视频帧的新增物品的物品检测框和新增人物的人物检测框；

确定模块，用于在所述新增人物的人物检测框中，确定所述新增物品所属人物的人物检测框；

判断模块，用于基于所述新增物品的物品检测框，判断所述新增物品在所述检测视频帧之前第一预设帧数的视频帧内是否发生位置变化，若未发生位置变化，则基于所述新增物品所属人物的人物检测框，判断所述新增物品的预设范围内是否存在所述新增物品所属人物，若不存在，则确定所述新增物品为所述目标区域内的遗留物。

11.根据权利要求10所述的装置，其中，所述检测模块，用于：

12.根据权利要求10所述的装置，其中，所述检测模块，包括：

检测子模块，用于基于所述目标区域初始时刻的背景视频帧，对所述目标区域当前时刻的检测视频帧进行变化检测，得到所述检测视频帧中相对于所述背景视频帧发生变化的物品检测框和人物检测框；

确定子模块，用于在发生变化的所述物品检测框中，确定所述检测视频帧中相对于所述背景视频帧的新增物品的物品检测框，在发生变化的所述人物检测框中，确定所述检测视频帧中相对于所述背景视频帧的新增人物的人物检测框。

13.根据权利要求12所述的装置，其中，所述检测子模块，用于：

14.根据权利要求10所述的装置，其中，所述判断模块，包括：

获取子模块，用于基于所述新增物品的物品检测框，获取所述新增物品的跟踪序列，所述跟踪序列用于指示在所述初始时刻至所述当前时刻的时间段内所述新增物品的运动轨迹；

位置判断子模块，用于基于所述新增物品的跟踪序列，判断所述新增物品在所述检测视频帧之前第一预设帧数的视频帧内是否发生位置变化。

15.根据权利要求14所述的装置，其中，所述获取子模块，用于：

16.根据权利要求10所述的装置，其中，所述新增物品所属人物的人物检测框满足下述条件中的至少一项：

与所述物品检测框之间的交并比参数最大；

与所述物品检测框之间的中心点距离最小。

17.根据权利要求10或16所述的装置，其中，所述判断模块包括人物判断子模块，用于：

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使电子设备执行根据权利要求1至9中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的方法。