CN113850837A

CN113850837A - 视频处理方法、装置、电子设备、存储介质及计算机产品

Info

Publication number: CN113850837A
Application number: CN202111414732.1A
Authority: CN
Inventors: 李星宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2021-12-28
Anticipated expiration: 2041-11-25
Also published as: CN113850837B

Abstract

本申请实施例公开了一种视频处理方法、装置、电子设备、存储介质及计算机产品，涉及地图、人工智能及云技术领域。该方法包括：获取待处理视频以及待处理视频的采集信息，待处理视频中存在至少一帧包含目标对象的目标图像；对待处理视频的各帧图像进行目标对象的检测与追踪，基于检测结果，确定出待处理视频中的各视频片段，各视频片段中包括至少一个包含连续的目标图像的目标片段；从至少一个目标片段中确定至少一帧基准图像；基于采集信息，确定各帧基准图像对应的位置；根据各基准图像对应的位置，确定目标对象的位置。基于本申请实施例提供的该方案，可以方便、快捷地实现对目标对象位置的确定。

Description

视频处理方法、装置、电子设备、存储介质及计算机产品

技术领域

本申请涉及地图、人工智能及云技术领域，具体而言，本申请涉及一种视频处理方法、装置、电子设备、存储介质及计算机产品。

背景技术

科技的快速发展为人们生活带来了很多的便利。地图类应用就是其中之一，人们可以通过终端设备上的地图类应用方便、快捷的进行感兴趣的地点、建筑物等多种信息的查询。比如，人们在出门前，如果是打算乘坐公共交通设施，可以通过地图类应用查询公共交通路线，例如，可以查询自己所在位置周边的公交站点的相关信息。

近年来，随着多种多样的具有电子地图功能的应用的普及，电子地图的使用也已经成为了很多人生活中不可或缺的一部分，电子地图中包含的各种对象位置的准确性是其中很重要的一环，是提升人们的地图类应用使用感知的基础。而随着时间的推移以及实际生活中道路、建筑物等各种设施的不断更新，很多对象的位置也可能发生了改变，比如，公交站点会有新增，原有公交站点的位置也可能发生变化。而如何实现这些对象位置的自动化且准确地更新是亟需解决的重要问题之一。

发明内容

本申请的目的在于提供一种能够自动化且准确地确定出目标对象位置的视频处理方法、装置、电子设备、存储介质及计算机产品。为了实现该目的，本申请实施例提供的技术方案如下：

一方面，本申请提供了一种视频处理方法，该方法包括：

获取待处理视频以及所述待处理视频的采集信息，所述待处理视频中存在至少一帧目标图像，所述目标图像为包含目标对象的图像，所述采集信息包括采集时间和采集所述待处理视频时视频采集设备的定位数据，所述定位数据包括至少两个定位位置以及各所述定位位置的定位时间；

对所述待处理视频的各帧图像进行目标对象的检测与追踪，得到所述各帧图像的检测结果，一帧图像的检测结果表征了该帧图像是否为目标图像；

基于所述各帧图像的检测结果，确定出所述待处理视频中的各视频片段，其中，所述各视频片段中包括至少一个目标片段，所述目标片段是指包括连续的目标图像的视频片段；

从所述至少一个目标片段中确定至少一帧基准图像；

基于所述采集信息，确定各帧所述基准图像对应的位置，所述基准图像对应的位置为采集所述基准图像时所述视频采集设备的定位位置；

根据各帧所述基准图像对应的位置，确定所述目标对象的位置。

另一方面，本申请实施例提供了一种视频处理装置，该装置包括：

视频信息获取模块，用于获取待处理视频以及所述待处理视频的采集信息，所述待处理视频中存在至少一帧目标图像，所述目标图像为包含目标对象的图像，所述采集信息包括采集时间和采集所述待处理视频时视频采集设备的定位数据，所述定位数据包括至少两个定位位置以及各所述定位位置的定位时间；

视频检测模块，用于对所述待处理视频的各帧图像进行目标对象的检测与追踪，得到所述各帧图像的检测结果，一帧图像的检测结果表征了该帧图像是否为目标图像；

视频片段确定模块，用于基于所述各帧图像的检测结果，确定出所述待处理视频中的各视频片段，其中，所述各视频片段中包括至少一个目标片段，所述目标片段是指包括连续的目标图像的视频片段；

图像筛选模块，用于从所述至少一个目标片段中确定至少一帧基准图像；

对象位置确定模块，用于基于所述采集信息，确定各帧所述基准图像对应的位置，以及根据各帧所述基准图像对应的位置，确定所述目标对象的位置，其中，所述基准图像对应的位置为采集所述基准图像时所述视频采集设备的定位位置。

可选的，所述各视频片段中还包括至少一个非目标片段；视频片段确定模块还用于对所述各视频片段进行以下预处理：

对于所述各视频片段中的第一片段，将所述第一片段与所述第一片段的关联片段合并，且合并后的视频片段的类型为所述关联片段的类型，所述类型为目标片段或非目标片段；其中，所述第一片段是指包含的图像帧数小于或等于设定值的视频片段；所述第一片段的关联片段，是指所述各视频片段中与所述第一片段相邻的、包含的图像帧数大于或等于设定值的视频片段；

相应的，图像筛选模块在从所述至少一个目标片段中确定至少一帧基准图像时可以用于：

从预处理后的所述各视频片段中的各目标片段中筛选至少一帧基准图像。

可选的，所述第一片段的关联片段，是指从所述第一片段开始、位于所述第一片段之前的第一个包含的图像帧数大于或等于设定值的视频片段。

可选的，图像筛选模块在从所述至少一个目标片段中确定至少一帧基准图像时可以用于：确定所述至少一个目标片段中的第二片段，所述第二片段是指所述至少一个目标片段中包含的图像帧数最多的目标片段、或者所述至少一个目标片段中的最后一个目标片段中的至少一项；从所述第二片段中确定至少一帧基准图像。

可选的，图像筛选模块在从所述第二片段中确定至少一帧基准图像时可以用于：将所述第二片段中处于中间位置的一帧图像确定为基准图像。

可选的，对象位置确定模块在基于所述采集信息，确定各帧所述基准图像对应的位置时可以用于：

对于任一所述基准图像，根据所述基准图像在所述待处理视频中的位置以及所述待处理视频的采集时间，确定所述基准图像的采集时间；确定所述至少两个定位位置的定位时间中与所述采集时间相匹配的定位时间；根据与所述采集时间相匹配的定位时间的定位位置，确定所述基准图像对应的位置。

可选的，对象位置确定模块可以用于：

将小于所述采集时间的定位时间中与所述采集时间最接近的第一定位时间、以及不小于所述采集时间的定位时间中与所述采集时间最接近的第二定位时间，确定为与所述采集时间相匹配的定位时间；基于所述第一定位时间对应的定位位置和所述第二定位时间对应的定位位置进行插值处理，得到所述采集时间对应的定位位置；将所述采集时间对应的定位位置确定为所述基准图像对应的位置。

可选的，对象位置确定模块在根据各帧所述基准图像对应的位置，确定所述目标对象的位置时可以用于：

对于每帧所述基准图像，获取该基准图像对应的第一周边路网数据，所述第一周边路网数据是指以该基准图像对应的位置为中心的预设范围内的路网数据；根据各所述基准图像对应的位置和第一周边路网数据，确定所述目标对象的位置。

可选的，对象位置确定模块可以用于：

从位置信息库中获取所述目标对象的历史位置，所述位置信息库中包括至少一个对象的历史位置，所述至少一个对象包括所述目标对象；获取所述历史位置对应的第二周边路网数据；根据各帧所述基准图像对应的位置、所述第一周边路网数据、所述目标对象的历史位置、以及所述第二周边路网数据，确定所述目标对象的位置。

可选的，对象位置确定模块可以用于：

根据所述第一周边路网数据、所述目标对象的历史位置、以及所述第二周边路网数据，确定各帧所述基准图像对应的位置中满足预设条件的位置；基于所述满足预设条件的位置，对所述目标对象的历史位置进行更新；

其中，所述预设条件包括以下各项：

所述基准图像对应的位置与所述历史位置的距离小于或等于设定距离；

所述基准图像对应的位置和所述历史位置位于同一条道路上，且所述基准图像对应的位置和所述历史位置不是分别位于同一条道路的主路和辅路；

目标线段与周边道路中的各道路均不存在交点，所述目标线段是指所述基准图像对应的位置和所述历史位置之间的连线，所述周边道路是指所述基准图像对应的第一周边路网数据和所述第二周边路网数据中包含的道路；

所述目标线段与所述周边道路中的各道路所在的直线均满足以下条件：

所述目标线段与所述直线的夹角不大于设定角度且所述目标线段与所述直线不存在交点。

可选的，视频检测模块具体可以用于：

对于所述各帧图像中每帧图像，获取该帧图像的至少一帧前序图像的检测结果，其中，一帧图像的检测结果包括目标对象在该帧图像中的位置信息；基于所述至少一帧前序图像的检测结果，生成所述至少一帧前序图像中目标对象对应的热点图；将该帧图像、该帧图像的至少一帧前序图像、以及所述至少一帧前序图像对应的热点图输入到训练好的目标追踪模型中，通过所述目标追踪模型执行以下操作，得到该帧图像的检测结果：

提取该帧图像对应的第一特征、该帧图像的各帧前序图像对应的第二特征、以及各帧前序图像对应的热点图的第三特征；将所述第一特征、各帧前序图像对应的第二特征和第三特征进行融合，得到融合后的特征；基于融合后的特征，预测得到该帧图像的检测结果。

可选的，上述目标对象可以是公交站点，所述公交站点包括公交站牌或公交站台中的至少一项。

另一个方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现本申请实施例提供的方法的步骤。

另一方面，本申请实施例还提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的方法的步骤。

再一方面，本申请实施例还提供了一种计算机程序产品，该产品包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的方法的步骤。

本申请实施例提供的技术方案带来的有益效果包括：

本申请实施例提供的技术方案，可以基于包含目标对象的待处理视频以及该视频的采集信息，方便、快捷地实现对目标对象的位置的自动化确定。具体的，基于该方案，可以通过对待处理视频中的各帧图像进行目标对象的追踪与检测，确定出该视频中包含目标对象的各目标片段，由于待处理视频的视频时长或帧数是确定的，从而可以基于该视频的采集时间（如起始采集时间）以及采集该视频时的定位数据，确定出包含目标对象的目标片段中各帧图像的采集时间以及采集各帧图像对应的定位位置，因此，可以从确定出的目标片段中选择至少一帧基准图像，并根据视频的采集信息确定出基准图像的定位位置，由于该定位位置是在拍摄包含目标对象的基准图像时视频采集设备所在的位置，从而可以基于基准图像对应的位置来确定出目标对象的位置。本申请实施例提供的方法，通过对视频中目标对象的检测与追踪，并结合采集视频时的采集时间和定位数据，实现了对目标对象位置准确、快速的计算，为基于目标对象的位置的业务处理需求提供了技术支持，更好的满足了实际应用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了基于本申请实施例提供的视频处理方法的一种数据处理系统的结构示意图；

图2为基于本申请实施例提供的视频处理方法的一种数据处理方法的流程图；

图3为本申请实施例中提供的一种确定公交站点所在位置的流程示意图；

图4为本申请实施例提供的一种视频处理方法的流程示意图；

图5为本申请实施例提供的一种目标追踪模型的原理示意图；

图6为本申请实施例提供的一种通过目标追踪模型对图像进行目标对象检测及追踪的示意图；

图7为本申请一示例中提供的一种对视频检测结果进行平滑处理前后的对比示意图；

图8为本申请一示例中提供的一种筛选基准图像的原理示意图；

图9为本申请一示例中提供的一种确定基准图像对应的位置的原理示意图；

图10、图11以及图12为本申请实施例提供的几种判断计算出的位置是否可用的情况示意图；

图13为本申请实施例提供的一种视频处理装置的结构示意图；

图14为本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

本申请是针对现有确定目标对象位置的方案中所存在的准确性、效率性较低的问题，而提出的一种视频处理方法，基于该方法可以自动化实现目标对象位置的确定，且准确性能有效提高。

可选的，本申请实施例提供的视频处理方法，可以基于人工智能（ArtificialIntelligence，AI）技术实现。比如，对待处理视频中各帧图像进行目标检测及追踪的步骤可以通过训练好的神经网络模型实现，例如，可以采用多目标追踪（MOT，Multi-ObjectTracking）模型。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习（ML，Machine Learning)）/深度学习、自动驾驶、智慧交通等几大方向。其中，深度学习是机器学习领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

本申请实施例提供的方法涉及到计算机视觉（Computer Vision，CV）技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可选的，本申请实施例所涉及的数据处理可以基于云技术（Cloud technology）实现，比如，基于待处理视频的采集信息确定基准图像对应的位置、根据基准图像对应的位置确定目标对象的位置等步骤，可以采用云技术中的云计算实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术是云技术的重要支撑。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

基于本申请实施例提供的方法，可以准确地实现目标对象位置的自动化计算，可以为电子地图数据的更新提供很好的技术支持，比如，可以对电子地图数据中所涉及的目标对象的位置进行自动化的更新，当终端设备需要获取目标对象的位置时，可以将更加精确的位置提供给用户。其中，上述终端设备包括用户终端，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR（Augmented Reality，增强现实）/VR（Virtual Reality，虚拟现实）设备等。

为了更好的说明及理解本申请实施例提供的方案，首先对本申请实施例中涉及的一些相关技术进行介绍。

MOT：即多目标追踪，是对序列（通常是指视频）中的不同对象进行轨迹追踪。目前主流的MOT方法是tracking by detection（检测跟踪），即先使用目标检测的方法提取序列中感兴趣目标（本申请实施例中的目标对象）的bbox(bounding box，检测框)，然后根据序列前后的关系，为含有相同目标的bbox分配相同的ID（标识）。

CenterTrack（Tracking Objects as Points，作为点的目标跟踪）：是一种在线的MOT深度学习模型，该追踪模型基于一对图像和先前一帧图像的检测结果输出，定位当前帧中的感兴趣目标，并且与前一帧的目标相关联。该模型将同时进行检测和追踪，实现更简单、速度更快、结果更准确。

公交站点坐标自动化：可以使用人工智能深度学习的方法，在没有人工参与的情况下，对公交车站点的经纬度坐标（即位置）进行初步计算。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

为了更好的理解和说明本申请实施例提供的方案，下面结合一个具体的应用场景实施例对本申请实施例提供的视频处理方法进行说明。该场景实施例中，目标对象以公交站点为例进行说明。其中，公交站点包括公交站牌和公交站台。可选的，本申请实施例提供的该方法，可以应用于地图类应用中的公交站点的位置的更新，在用户通过地图类应用查询公交站点时，能够将更加准确的公交站点的位置提供给用户，或者是用户在查询指定位置周边的公交站点时，可以为用户提供更加准确的周边公交站点的相关信息，如站点的名称、站点距离指定位置的距离、指定位置与站点之间的路线信息等等。下面对该应用场景实施例进行说明。

图1示出了一种基于本申请实施例提供的视频处理方法的数据处理系统的结构示意图。如图1中所示，该数据处理系统可以包括视频采集设备10、终端设备20、管理服务器30、应用服务器40以及终端设备50。其中，应用服务器40可以是地图类应用（以下称为目标应用）的后台服务器，终端设备50可以是运行有地图类应用的任一用户的终端设备，如用户的智能手机，应用服务器40与终端设备50通信连接，用户可以通过其终端设备50上运行的该应用的应用客户端进行操作，比如，查询某个大厦的地址（即位置）、查询某个地址周边的指定对象（如公交站点）。

终端设备20可以是目标应用的后台管理人员（如具有操作权限的技术人员）所使用的电子设备，该设备上可以运行有用于管理该目标应用的客户端（图1中所示的管理客户端），管理服务器30与终端设备20通信连接，后台管理人员可以通过终端设备20上的管理客户端的用户界面对目标应用进行管理操作，该管理操作可以包括但不限于目标应用的数据更新等。管理服务器30一侧还可以配置有数据库31，该数据库31可以是位置信息库，其中可以存储有大量公交站点的当前位置（如经纬度坐标），也就是本申请实施例中的历史位置。可以基于本申请实施例提供的方法，实现对数据库31中的公交站点的位置的更新。

视频采集设备10用于公交站点的视频拍摄，得到待处理视频，可选的，视频采集设备10可以是数据采集人员使用的手机，手机上可以安装由相应的数据采集管理应用，采集人员可以通过该应用来触发待处理视频的采集并存储到视频采集设备10中。之后，可以将视频采集设备10和终端设备20连接（有线或无线连接），将视频采集设备10中存储的待处理视频发送给终端设备20，终端设备20可以通过执行本申请实施例提供的方法，确定出待处理视频对应的公交站点的位置，或者是终端设备20可以将待处理视频发送给管理服务器30，由管理服务器30通过执行本申请实施例提供的方法，确定出待处理视频对应的公交站点的位置（图1中所示的目标对象的经纬度坐标），以基于确定出的位置来判断是否需要对应用服务器40中存储的该公交站点的位置进行更新。

在实际应用中，管理服务器30和应用服务器40可以是同一服务器，也可以是不同的服务器。下面的实施例描述中以管理服务器30和应用服务器40是两个不同的服务器为例进行说明，管理服务器30和应用服务器40可以通信，进行数据交互。

图2中示出了基于1中所示的数据处理系统的一种数据处理方法的流程示意图，下面结合图1和图2，对该数据处理方法的实施流程进行说明。如图2中所示，该方法可以包括以下步骤S1至步骤S9，其中，步骤S1是步骤S5是确定公交站点位置的实施方式，步骤S6至步骤S9是用户的终端设备50向应用服务器40请求数据的实施方式，两个实施方式的步骤之间的顺序不是固定的，可以没有先后之分。

步骤S1：通过视频采集设备10对公交站点进行视频采集，得到公交站点的待处理视频。

其中，公交站点可以任一需要进行位置更新的公交站点，也就是本场景实施例中的目标对象。可选的，数据采集人员可以通过乘坐公交路线包含该公家站点的公交车，在公交车抵达该公交站点附近时、或者在公交站点短暂停车时进行该公交站点的视频的采集，得到待处理视频。其中，该视频中应该至少有一帧图像是包含该公交站点的公交站牌或公交站台中的至少一项的，图像中的公交站牌或公交站台表征了该公交站点，也就是说，本场景实施例中目标图像是包含公交站牌或公交站台的图像，在对视频中的目标对象进行目标追踪检测时，是对视频的图像中的公交站牌和公交站台进行追踪。

在进行视频采集的过程中，还需要同步记录视频的采集信息，包括视频的采集时间和采集该视频时采集设备的定位数据，如采集时间可以包括视频采集的起始时间（即起始拍摄/采集时间），视频采集设备在开始采集视频时，同步开启设备中的定位模块，定位模块可以每隔预设时间间隔（如1秒）对设备进行一次定位，并记录每次定位出的设备的位置（即定位位置）和定位时间。

步骤S2：视频采集设备10通过终端设备20将待处理视频发送给管理服务器30。

步骤S3：管理服务器30基于待处理视频和位置数据库中存储的该公交站点的原始位置（即历史位置），来确定公交站点的位置（可以称为目标位置）。

具体的，视频采集设备10与终端设备20可以通过有线或无线的方式通信连接，以将采集的待处理视频和视频的采集信息发送至管理服务器30，管理服务器30在接收到终端设备20发送来的待处理视频以及视频的采集信息之后，可以基于接收到的信息以及位置数据库中存储的上述公交站点的历史位置，通过执行本申请实施例提供的视频处理方法，确定出公交站点的目标位置。

作为一可选方案，视频采集设备10采集的待处理视频及该视频的采集信息可以关联存储到指定的存储服务器中，存储服务器在存储待处理视频及其存储信息之后，生成待处理视频对应的url（Uniform Resource Locator，统一资源定位符）地址，可以将该url地址发送给终端设备20，目标应用的后台管理人员在需要启动某个公交站点的位置更新计算时，可以将该url地址发送给管理服务器30，管理服务器30可以根据该地址获取到待处理视频及其采集信息。

图3示出了本申请实施例提供的一种适用于上述应用场景的视频处理方法的流程示意图，作为一可选实施方式，如图3中所示，上述步骤S3可以包括步骤S31至步骤S35。

步骤S31：公交任务，该步骤用于获取公交站点的待处理视频（图3中的站点视频）和采集信息（图3中的轨迹数据）。

可选的，可以在视频开始采集时同步开启设备的定位模块，如GPS（全球定位系统，Global Positioning System）定位模块，此时定位模块的第一次定位的定位时间即可以作为待处理视频的采集起始时间。轨迹数据包括GPS定位数据，具体可以包括多个定位位置（如经纬度坐标）和每个定位位置对应的定位时间。

步骤S32：任务解析，该步骤中，管理服务器可以通过视频的url地址获取到待处理视频及其采集信息，并通过解析获取到的视频（图3中所示的解析视频url）和采集信息（图3中所示的解析轨迹数据）得到视频中的每一帧图像和具体的轨迹数据。

步骤S33：MOT服务，即多目标追踪任务，该步骤可以通过调用已经训练好的多目标追踪模型对待处理视频进行目标对象（公交站牌和公交站台）进行检测及追踪（图3中所示的视频追踪），并基于追踪结果选择出视频中的基准图像（图3中所示的目标选帧）。

具体的，可以通过多目标追踪模型对待处理视频的各帧图像进行目标对象的追踪检测，确定出各帧图像中包含目标对象的图像以及不包含目标对象的图像，从而基于检测结果可以确定出视频中的目标片段（连续的包含目标对象的图像组成的片段）和非目标片段（即连续的不包含目标对象的图像组成的片段）。

可选的，可以从确定出的各目标片段中选择出最长（即包含图像数量最多）的片段，将该片段中位于中间帧位置的图像作为基准图像，也就是图3中所示的目标帧，基于该目标帧来确定公交站点的位置。

步骤S33的具体可选实现方式将在本申请后文的实施例中进行展开描述。

步骤S34：站点坐标计算，该步骤通过计算选择出的目标帧的采集时间（图3中所示的目标帧对应的轨迹）来确定公交站点的位置（图3中所示的坐标计算）。

在确定出目标帧之后，可以基于待处理视频的轨迹数据和该目标帧在视频中的位置，来确定目标帧对应的位置，也就是采集该目标帧时视频采集设备所在的位置。可选的，可以根据视频的起始拍摄时间、视频的时长以及该目标帧在视频中的帧位置，计算出该目标帧的采集时间，之后，可以从多个定位时间中找到离目标帧的采集时间最近的前后时间（位于该目标帧的采集时间之前的定位时间中与该采集时间最接近的定位时间、以及位于该目标帧的采集时间之后的定位时间中与该帧时间最接近的定位时间），然后可以通过线性插值的处理方式，基于这前后时间对应的两个定位位置，计算出目标帧的采集时间对应的定位位置（即目标帧对应的位置）。当然，如果目标帧的采集时间正好等于多个定位时间中的一个定位时间，可以直接将该定位时间对应的定位位置确定为该目标帧对应的位置，该位置具体可以是经纬度坐标。

步骤S35：坐标自动化计算，该步骤通过在数据库（图3中所示的母库）中获取该公交站点的历史位置，基于计算出的目标帧对应的位置和母库中存储的该公交站点的位置，来确定是否可以采用步骤S34中计算出的坐标对数据库中该公交站点的历史位置进行优化更新（即图3中所示的即母库坐标匹配步骤以及站点坐标优化）。也就是说，该步骤用于判断基于待处理视频及其采集信息确定出的位置是否可以直接使用（即是否可以直接用来替换母库中对应的历史位置，后文中也可以简称为是否可用），如果可用，则可以采用该位置对母库中该公交站点的位置进行更新处理，计算出的位置则为该公交站点的目标位置，如果不可用，可以采用其他方式（如由人工判断）继续判断是否需要对母库中的位置进行更新。该步骤的具体可选实施方式将在后文中展开说明。

步骤S4：管理服务器30更新位置数据库中存储的公交站点的位置，具体的，如果通过该步骤S3判断基于视频计算出的公交站点的经纬度坐标可用，则可以将母库中存储的该公交站点的坐标更新为该经纬度坐标。

步骤S5：管理服务器30将更新后的公交站点的位置发送给应用服务器40，以使应用服务器40可以对其存储的该公交站点的位置进行对应更新。

步骤S6：应用服务器40接收用户通过其终端设备50发送的指定位置周边的公交站点查询请求。

其中，指定位置的具体形式本申请实施例不做限定，可以是某个指定对象，如某个小区名称、某个大厦名称、某条道路名称等等，只要是能够表征一个位置的信息均可。

步骤S7：应用服务器40根据上述查询请求，在其数据库中查询上述指定位置周边的公交站点，并确定出公交站点的相关信息。

步骤S8：应用服务器40将确定出的公交站点的相关信息发送给终端设备50。

步骤S9：终端设备50接收上述相关信息，并通过目标应用的用户界面将相关信息展示给用户。

具体的，以上述指定位置是一个大厦名称为例，应用服务器40收到查询请求后，可以先确定出该大厦的位置（如经纬度坐标），之后，可以根据其数据库中存储的各个公交站点的位置，确定出以该大厦的位置为中心的设定范围内的公交站点，或者是距离该大厦的位置最近的设定数量的公交站点，并可以将确定出的站点的相关信息发送给终端设备50，以通过终端设备50将相关信息显示给用户。其中，公交站点的相关信息包括但不限于公交站点的名称、位置、与上述指定位置的距离等等，终端设备50将相关信息展示给用户的形式本申请实施例不做限定，如可以根据接收到的公交站点的位置在用户界面显示的电子地图中显示该位置在地图中的位置，将公交站点的名称以及上述距离等通过文本形式显示给用户，应用服务器40还可以将确定出的公交站点的公交车信息也提供给用户。

基于本申请实施例提供的方法，可以方便、快捷地实现公交站点坐标自动化，可以更好的满足实际应用需求。

下面对本申请提供的视频处理方法的多种可选实施例进行说明。

图4示出了本申请实施例提供的一种视频处理方法的流程示意图，该方法可以由任意的电子设备执行，如可以由终端设备或服务器执行，终端设备或服务器可以通过执行该方法，基于待处理视频确定出目标对象的位置。其中，上述服务器可以是物理服务器，也可以是云服务器，也可以是服务器集群，还可以是采用分布式结构的服务器集群。

作为一可选方案，可以通过视频采集设备对目标对象进行视频采集，得到待处理视频，视频采集设备可以与上述电子设备（终端设备或服务器）通信连接，将待处理视频传输给电子设备，由电子设备通过执行本申请实施例提供的方法，确定出该目标对象的位置，其中，视频采集设备与电子设备之间的通信连接可以是有线连接，也可以是无线连接，可以是直接通信连接，也可以是通过其他设备实现连接。

如图4中所示，本申请实施例提供的该视频处理方法可以包括以下步骤S110和步骤S160，可选的，该方法可以终端设备或服务器执行。

步骤S110：获取待处理视频以及待处理视频的采集信息，待处理视频中存在至少一帧目标图像，目标图像为包含目标对象的图像。

本申请实施例中，对于目标对象具体是哪种对象本申请实施例不做限定，可以包括但不限于可以通过电子地图展示给用户的任一对象，如可以是公交站点、地铁站点、加油站、公共厕所等。为了描述方便，本申请的一些实施例中目标对象将以公交站点为例进行说明。其中，公交站点可以包括公交站牌或公交站台中的至少一项。

对于待处理视频的获取方式本申请实施例不做限定。可选的，如前文所述，可以由视频采集人员携带视频采集设备对目标对象进行视频采集。以公交站点为例，对于需要进行视频采集的公交站点，视频采集人员可以乘坐公交车，在公交车上对公交站点进行视频拍摄，或者是乘坐专门的采集车辆对公交站点进行视频拍摄，得到待处理视频及其采集信息。

其中，待处理视频的采集信息包括待处理视频的采集时间以及采集待处理视频时视频采集设备的定位数据。采集时间可以是绝对时间信息（如哪一天的实际时间），也可以是相对时间信息。待处理视频的采集时间是可以用于确定待处理视频的各帧图像的采集时间的信息，待处理视频的采集时间所包含的信息的具体形式本申请实施例不做限定，如可以包括采集的起始时间或结束时间中的至少一项，那么根据待处理视频的时长以及采集时间，可以确定出视频中各帧图像对应的采集时间。例如，待处理视频的时长是T，采集起始时间是t1，待处理视频中包含M张图像，那么视频中第一帧图像的采集时间为t1，第二帧图像的采集时间为t1+T/M，以此类推。

本申请实施例中，上述定位数据可以包括多个（至少两个）定位位置以及每个定位位置（如经纬度坐标）对应的定位时间。

对于获取上述定位数据的具体方式本申请实施例不做限定，比如，上述视频采集设备可以自带有定位模块，采集人员在通过该设备开启视频采集时，设备可以自动启动定位模块，每隔固定间隔（如1秒）对设备进行一次定位，并记录视频采集过程中的相关时间信息，如视频采集起始时间或每次进行定位的时间（即定位时间）中的至少一项，每个定位得到的数据即为一个定位点的定位信息，其中，每次定位对应的定位时间也可以根据采集起始时间和上述固定间隔计算得到的。在停止视频采集时，得到采集的视频，并基于记录的相关时间信息和每次定位出的经纬度坐标得到该视频的采集信息，可以将采集得到的视频以及视频的采集信息关联存储。

需要说明的是，在实际处理中，待处理视频可以是通过视频采集设备采集到的原始视频（即上述采集的视频），也可以是对采集的视频进行抽帧处理得到的视频，比如，可以对采集的视频每隔设定帧数（如一帧）抽取一帧图像，得到待处理视频。但上述采集信息是指原始视频的采集信息，为了保证后续确定出的目标对象的位置的准确性，在需要计算待处理视频中的各帧图像的采集时间时，可以采用各帧图像在原始视频中的位置（即帧位置）和原始视频的采集时间确定各帧图像的采集时间。

步骤S120：对待处理视频的各帧图像进行目标对象的检测与追踪，得到各帧图像的检测结果。

步骤S130：基于各帧图像的检测结果，确定出待处理视频中的各视频片段，各视频片段中包括至少一个目标片段。

其中，待处理视频中的一帧图像的检测结果表征了该帧图像是否为目标图像，也就是该帧图像中是否包含目标对象，如是否包括公交站牌或公交站台。

上述目标片段是指包含连续的目标图像的视频片段（即由连续的目标图像组成的片段），需要说明的是，在实际应用中，目标片段可能包含多帧连续的目标图像，也可能只包含一帧图像，比如，根据检测结果确定一帧图像是目标对象，但该帧图像的前一帧和后一帧均不是目标图像，那么该帧图像也是一个目标片段。相应的，非目标片段是指包含连续的非目标图像的视频片段，非目标片段同样可能只有一帧图像，也可能是包含多张连续的非目标图像。

在实际视频采集过程中，会由于拍摄过程中其他对象对目标对象的遮挡、拍摄角度、视频采集设备的抖动等多种因素，导致待处理视频中一些图像中可能不包含目标对象。为了基于待处理视频实现目标对象所在位置的自动化计算，在获取到待处理视频后，需要对待处理视频中包含目标对象的图像进行检测，基于检测结果确定出待处理视频中包含目标对象的视频片段（目标片段）和不包含目标对象的视频片段（非目标片段）。

其中，对待处理视频进行目标对象检测与追踪的具体实现方式本申请实施例不做限定。可选的，可以采用训练好的多目标追踪模型实现。模型的具体架构本申请实施例不做限定，可以根据实际应用需求选择和配置，可以基于现有的任一MOT模型实现。可选的，为了使得目标检测与追踪的准确性以及视频的处理效率两方面都具有较好的效果，可以采用基于CenterTrack（Tracking Objects as Points，作为点的目标跟踪）的MOT深度学习模型。基于CenterTrack的目标追踪模型可以同时对视频中的目标对象进行检测和追踪，且模型的数据处理速度以及处理结果都比较理想。

步骤S140：从至少一个目标片段中确定至少一帧基准图像。

其中，基准图像的数量以及确定方式本申请实施例均不做限定，可以根据实际需求配置。比如，基准图像可以是从至少一个目标片段中随机选择的一张或多张（两张或两张）图像，也可以是预配置的筛选策略确定出的图像。

可选的，如果不考虑处理效率，可以采用人工的方式从至少一个目标片段中筛选图像质量较高、拍摄角度较好的至少一帧图像作为基准图像。

步骤S150：基于采集信息，确定各帧基准图像对应的位置。

步骤S160：根据各帧基准图像对应的位置，确定目标对象的位置。

其中，各帧基准图像可以是一帧图像，也可以是多帧图像，一帧基准图像对应的位置为采集该基准图像时视频采集设备的定位位置，也就是采集待处理视频时采集该帧图像的时间所对应的定位位置。由于各帧基准图像所对应的位置是采集图像时视频采集设备所在的位置，因此，可以根据基准图像对应的位置，确定出目标对象的位置。

本申请的可选实施例中，待处理视频的定位数据包括至少两个定位位置以及各定位位置的定位时间；上述步骤S150中，基于采集信息，确定各帧基准图像对应的位置，具体可以包括：

对于任一基准图像，根据该基准图像在待处理视频中的位置以及待处理视频的采集时间，确定该基准图像的采集时间；确定上述至少两个定位位置的定位时间中与上述采集时间相匹配的定位时间；根据与采集时间相匹配的定位时间的定位位置，确定该基准图像对应的位置。

由前文描述可知，待处理视频可以是通过视频采集设备拍摄得到的目标对象的原始视频，也可以是进行预处理后得到的视频（如抽帧得到的视频）。可选的，若待处理视频是预处理后的视频，如抽帧得到视频，上述待处理视频的采集信息可以是待处理视频对应的原始视频的采集信息，对于基准图像，可以根据基准图像在待处理视频中的位置（即帧位置）以及抽帧方式（如抽帧间隔），得到基准图像在原始视频中的位置，根据该位置和原始视频的采集信息，确定出该基准图像对应的位置。

可选的，对于一帧基准图像，上述至少两个定位位置的定位时间中与该帧图像的采集时间相匹配的定位时间，可以是上述至少两个定位位置的定位时间中与该采集时间最接近的时间，可以将该最近接的时间对应的定位位置作为该帧图像对应的位置。可选的，上述确定基准图像对应的位置方案，可以在多个定位位置之间的定位时间间隔比较小的情况下实施，以保证最终确定出的目标对象的位置的准确性。

为了能够更加准确的确定目标对象的位置，作为另一可选方案，对于任一帧基准图像，确定上述至少两个定位位置的定位时间中与该基准图像的采集时间相匹配的定位时间，具体可以包括：

将小于采集时间的定位时间中与采集时间最接近的第一定位时间、以及不小于采集时间的定位时间中与采集时间最接近的第二定位时间，确定为与采集时间相匹配的定位时间；

相应的，上述根据与采集时间相匹配的定位时间的定位位置，确定该基准图像对应的位置，可以包括：

基于第一定位时间对应的定位位置和第二定位时间对应的定位位置进行插值处理，得到采集时间对应的定位位置；

将采集时间对应的定位位置确定为基准图像对应的位置。

在实际实施时，由于视频采集设备在较短时间内通常是可以采集到多张图像的，而定位数据通常很难在同样短的时间内容进行相应次数的定位，也就是说，很难每张图像的采集时间都能准确的对应到一个定位位置。因此，可以从多个定位位置的定位时间中挑选出与基准图像的采集时间最接近的两个定位时间，即上述第一定位时间和第二定位时间，基准图像的采集时间按照时间先后位于这两个定位时间之间，从而可以根据这两个定位时间的定位位置，更加准确的确定出基准图像对应的位置。可选的，可以对两个定位时间的定位位置进行插值处理，得到基准图像对应的位置。作为一可选方式，可以采用线性插值的方式确定基准图像对应的位置，具体的，将定位时间和定位位置分别作为直角坐标下的两个坐标轴，基于第一定位时间和第二定位时间、以及这两个定位时间的定位位置，确定出一条直线，根据该直线和基准图像的采集时间，则可以确定出该采集时间对应的定位位置。

在确定出各基准图像对应的位置之后，则可以基于确定出的位置，确定目标对象的位置。比如，在上述至少一帧基准图像是一帧图像时，可以在该帧图像对应的位置满足一定条件（如根据路网数据可以确定该帧图像对应的位置是位于道路上，而并非位于水域或者建筑物等非道路区域）时，将该帧图像对应的位置确定为目标对象所在的位置；在上述至少一帧基准图像是至少两帧图像时，可以综合各帧基准图像对应的位置得到目标对象的位置，比如，可以将各帧基准图像对应的位置中满足一定条件的各位置的位置均值作为目标对象的位置。

本申请实施例提供的视频处理方法，可以基于深度学习中的视频多目标追踪模型对目标对象的位置（如公交站点的经纬度坐标）进行自动化计算，该方法可以运用深度学习中的多目标追踪技术，对待处理视频进行目标对象的检测及追踪，提取出待处理视频中包含目标对象的各目标片段，然后可以结合确定出的目标片段中的图像以及采集待处理视频时所记录的视频的采集信息进行联合计算，从而确定出目标对象的位置，实现了目标对象位置的自动化计算。比如，目标对象可以是公交站点，可以通过对视频中的公交站牌和公交站台进行检测与追踪，并根据检测结果确定出包含公交站牌或公交站台中至少一项的各目标图像，从而确定出目标片段，并结合采集视频时获取的定位数据，计算出公交站点的经纬度坐标，满足了公交站点坐标自动化的应用需求。

作为本申请的一可选方案，上述对待处理视频的各帧图像进行目标对象的检测与追踪，得到各帧图像的检测结果，可以包括：

对于各帧图像中每帧图像，获取该帧图像的至少一帧前序图像的检测结果，其中，一帧图像的检测结果包括目标对象在该帧图像中的位置信息；

基于至少一帧前序图像的检测结果，生成至少一帧前序图像中目标对象对应的热点图（即heatmap，也可以称为热图）；

将该帧图像、该帧图像的至少一帧前序图像、以及至少一帧前序图像对应的热点图输入到训练好的目标追踪模型中，通过目标追踪模型执行以下操作，得到该帧图像的检测结果：

提取该帧图像对应的第一特征、该帧图像的各帧前序图像对应的第二特征、以及各帧前序图像对应的热点图的第三特征；

将第一特征、各帧前序图像对应的第二特征和第三特征进行融合，得到融合后的特征；

基于融合后的特征，预测得到该帧图像的检测结果。

在实际应用中，由于待处理视频是对目标对象进行拍摄得到的多帧图像，通常情况下目标对象在相邻的两张或多张图像中的位置偏差应该是不会太大的，但由于各种因素的影响，在实际拍摄中，可能会由于遮挡或其他情况导致目标对象可能会被遮挡，因此，为了能够更加准确、全面的检测出各帧图像中是否存在目标对象，在对一帧图像进行目标对象的跟踪检测时，可以融入该帧图像的至少一帧前序图像以及这些图像的检测结果，以提升检测结果。

其中，一帧图像的至少一帧前序图像是指待处理视频中位于该帧图像之前的、且与该帧图像相邻的至少一帧图像。比如，一帧图像是视频中的第T帧图像，如果上述至少一帧前序图像采用一帧图像，那第T帧图像的该前序图像则是第T-1帧图像，如果上述至少一帧前序图像采用两帧图像，第T帧图像的该前序图像则是第T-1帧图像和第T-2帧图像。

本申请实施例中，如果一帧图像中检测出了目标对象，一帧图像的检测结果可以包括检测出的目标对象在该帧图像中的位置信息，当然，如果一帧图像中没有检测出目标对象，检测结果可以是预设的信息或者其他设定的输出信息。可选的，目标对象在一帧图像中的位置信息可以包括目标对象在该帧图像中所在区域的中心点坐标，还可以包括所在区域的大小（比如所在图像区域的长和宽）。基于一帧图像的检测结果生成该帧图像中目标对象对应的heatmap的具体方式本申请实施例不做限定，如可以对目标对象的中心点进行高斯处理形成heatmap。

可以理解的是，对于待处理视频中的第一帧图像，该图像是不存在前序图像的，在实际处理中，可以根据需求配置对第一帧图像的处理方式，比如，为了满足模型的输入要求，在对第一帧图像进行处理时，可以将该帧图像以及预设的至少一张图像以及热力图输入到模型中，通过模型预测出第一帧图像的检测结果。

在对图像进行处理时，上述对将第一特征（也就是特征图）、各帧前序图像对应的第二特征和第三特征进行融合的具体方式本申请实施例不做限定，比如，可以将三部分特征进行相加处理，具体的，可以将这三部分的特征按位相加，得到融合后的特征。

对于上述目标追踪模型的模型架构本申请实施例也不做限定。可选的，可以采用基于CenterTrack的神经网络模型（可以称为CenterTrack模型），CenterTrack模型可以将目标（即目标对象）检测（detection）和追踪（tracking）两步合起来同时进行，能够大大缩减模型的预测速度，提高处理效率。

作为一个示例，图5中示出了采用CenterTrack模型对待处理视频进行目标对象的检测与追踪的原理示意图，其中的目标检测网络是该模型的重要结构，可选的，如可以采用基于CenterNet（中心网络）的目标检测网络，该网络是一阶段（one-stage）的目标检测网络，其anchor-free（锚框/检测框自由匹配）和center-based（基于中心）的思想，使得该网络能够在速度和精度上很好的trade-off（平衡）。下面结合图5对通过该模型对待处理视频中的图像进行目标对象检测及追踪的流程进行说明，也就是图3所示的MOT服务部的可选实现方式。

该示例中以当前待处理的图像是视频中的第k帧为例进行说明，采用的前序图像是一帧图像。如图5中所示，模型的输入包括三部分，第k帧图像、第k-1帧图像以及第k-1帧图像的热图即热点图，该示例中，视频中的图像是RGB（即red、green、blue，红绿蓝三色）图像，热点图可以是一张灰度图，第k帧图像和第k-1帧图像的大小都是（W，H，3），即图中所示的W×H×3，热点图的大小为（W，H，1），其中，W和H分别表示图像的宽和高，3和1表示图像的通道数，也就是说，模型的输入包括第k帧图像的R通道、G通道和B通道这3个通道的图像、第k-1帧图像的这3个通道的图像以及一张热点图。

将上述三部分输入至模型的目标检测网络之后，目标检测网络可以利用利用第k帧的先验信息（即第k-1帧图像和第k-1帧图像的热点图）来提升第k帧图像的预测结果，得到第k帧图像的检测结果。

作为一可选方案，图6中示出了本申请实施例提供的一种目标追踪模型的结构示意图，该示意图中模型的输入只是示意性的示出了当前要检测的图像（仍以上述第k帧图像为例），其前序图像及前序图像的热点图在图6中未示出，目标对象是公交站牌和公交站台。如图6中所示，该可选方案中，目标追踪模型包括两个级联的目标检测网络，即图6中所示的网络M1和网络M2，网络M1的输出是网络M2的输入，其中，网络M1和网络M2的具体结构可以相同，也可以不同，本示例中，网络M1和网络M2的网络结构是相同的，均包括编码器部分和解码器部分，如都可以是CenterNet，网络M1的输入为上述三部分的图像，网络M2的输出为第k帧图像的检测结果示意图。该示例中，如图6所示，第k帧图像中包含公交站牌（即三条公交的线路信息所在的牌子）和公交站台，经过目标追踪模型可以得到该图像中公交站牌和公交站台的检测结果，如图6中M2网络的输出部分，区域B1是基于检测结果得到的公交站台的检测结果，区域B2是公交站牌的检测结果。

回到图5，作为一可选方案，CenterTrack模型的输出可以包括3部分，分别是当前帧图像（该示例中的第k帧）的热点图（图5中所示的目标中心检测图）、目标（即检测出的目标对象）的宽高（Hight and Width）（图5中所示的目标边界框尺寸图）、以及目标的位移预测（Displacement prediction）即图5中所示的偏移图。该示例中，输出的三部分特征图的尺寸是输入图像的1/4。其中，热点图用于提取感兴趣目标（即目标对象）的中心点位置，n表示所要检测的目标对象的种类数量，比如，目标对象是公交站台和公交站牌，则n=2，每张目标中心检测图就是一个类别的目标对象对应的检测框中心点位置分布的热力图，检测框中心点位置即为目标对象在输出的热力图中的位置，基于热力图和模型输入图像的尺寸对应关系，可以知晓目标对象在输入图像中对应的中心点位置。

目标的宽高用于获取感兴趣目标的bbox框即检测框，该图中包含检测出的目标对象的检测框（也就是包围该对象的矩形框）的宽和高。目标的位移预测则负责为不同帧之间（第k帧和第k-1帧）的同一个目标对象建立联系，偏移图中包含了目标对象的检测框中心点位置在前后帧之间的位移。CenterTrack模型基于“目标的位移预测”这一输出，可以使得模型在视频的时间轴上建立相邻帧的检测结果之间的联系，从而可以在时间维度上时间维度上为同一个对象赋予相同的标识（ID），实现对在不同帧中出现的目标对象的追踪。

在基于模型检测得到待处理视频中各帧图像的检测结果之后，就可以确定出视频中哪些图像是包含目标对象的目标图像，哪些是不包含目标对象的图像。从而可以确定出视频中的各视频片段，其中包括至少一个目标片段。

本申请的可选实施例中，待处理视频中的各视频片段中还包括至少一个非目标片段；在基于各帧图像的检测结果确定出各视频片段之后，该方法还可以包括对各视频片段进行以下预处理：

对于各视频片段中的第一片段，将第一片段与第一片段的关联片段合并，且合并后的视频片段的类型为关联片段的类型，类型为目标片段或非目标片段；

其中，第一片段是指包含的图像帧数小于或等于设定值的视频片段；第一片段的关联片段，是指各视频片段中与第一片段相邻的、包含的图像帧数大于或等于设定值的视频片段；

相应的，上述从至少一个目标片段中确定至少一帧基准图像，可以包括：

从预处理后的各视频片段中的各目标片段中筛选至少一帧基准图像。

可选的，一个第一片段的关联片段是指从该第一片段开始、位于该第一片段之前的第一个包含的图像帧数大于或等于设定值的视频片段。

在实际应用中，由于各种外在及内在因素的影响，比如，由于视频数据在采集过程中可能存在拍摄抖动、晃动，自然光线不佳、天气等问题，加之目标追踪模型的检测准确性也很难达到完美的状态，待处理视频中各帧图像的检测结果可能会存在漏检或误检的问题。而基于本申请实施例提供的上述可选方案，可以有效减少上述问题。

考虑到在实际视频采集时，由于是针对感兴趣目标（即目标对象，如公交站点）采集的一段连续的图像序列，感兴趣目标应该是在视频中随机的连续片段内出现。但由于上述多种因素的影响，可能会导致本来连续包含感兴趣目标的图像之间出现检测结果不连续的情况，即基于检测结果确定目标片段时，一个实际上的目标片段可能会被一个较短的非目标片段隔开，而一个实际上的非目标片段也可能被一个较短的目标片段隔开。基于此，本申请提供的该可选方案提出了上述对视频片段进行平滑处理的方案，具体的，如果一个视频片段中包含的帧数小于或等于设定值（这样的片段可以称为状态保持小于n（设定值）的离散片段），则将该片段与其相邻的、帧数大于或等于设定值的片段进行合并，得到合并后的片段，其中，此处的合并有两个层面上的含义，一个层面上是将两个相邻的片段合并成一个片段，另一层面上是将帧数小于或等于设定值的该片段的类型更改为与其合并的另一个片段的类型，比如，帧数较少的片段是非目标片段，帧数较多的片段是目标片段，那么合并后的片段则是目标片段，相反，如有帧数较少的片段是目标片段，帧数较多的片段是非目标片段，那么合并后的片段则是非目标片段。其中，上述设定值的具体取值本申请实施例不做限定，可以根据经验和/或实验值确定，比如设定值可以取5。

图7中示出了本申请实施例提供的一种对各视频片段进行平滑处理前后的对比结果示意图，图7中从上到下横向的线段分别代表视频序列（即待处理视频）、目标出现帧（待处理视频中真实的包含目标对象的图像）、模型检测结果（通过模型检测出的待处理视频中包含目标对象的图像）、结果平滑表示对基于模型检测结果确定出的各视频片段进行上述平滑处理后的结果。图7中除视频序列一行之外的其他各行的黑色横线代表的待处理视频中对应位置的图像是包含目标对象的图像，由图7中可以看出，该示意图中，待处理视频中真实的目标片段包括视频片段S1和视频片段S2，其他空白区域为非目标片段。而基于检测结果确定出的目标片段有6个片段，对比第2行的目标出现帧和第3行的模型检测结果可以看出，通过模型检测出的包含目标对象的图像存在误检和漏检。如第3行中的片段D3，该片段实际是不包含目标对象的图像帧序列，但基于检测结果确定出该部分是目标片段，是误检。而第3行中片段D1和片段D2之间的片段（即空白部分）是误检，该部分实际上是包含目标对象的图像序列，但基于检测结果确定出是非目标片段。

而采用本申请实施例提供的上述平滑处理方式，可以有效缓解上述误检和漏检的问题，如图7中第4行所示的平滑处理后的结果，对于片段D1和片段D2之间的非目标片段（也就是从左侧开始第3条和第4条竖着的虚线之间的片段），基于平滑处理，可以将该非目标片段与位于该片段之前的第一个图像帧数大于n的目标片段合并，从而最终将第3行中的第一个目标片段D1、第二个目标片段D2以及两者之间的非目标片段合成为了一个目标片段中，使得片段D1和片段D2之间的漏检片段被修正。同样的，片段D3可以与该片段的前一个包含的帧数大于n的片段（即片段D2和D3之间的非目标片段）中，且合并后的片段为非目标片段，实现了对误检片段D3的修正。通过图7可以明显发现，平滑处理后的结果更加的具有连续性，并且在一定程度上抑制了小片段的误检和漏检。使得最终确定出的目标片段以及非目标片段的准确性有了进一步的提升。

在完成对视频片段的平滑处理之后，则基于平滑处理后的各目标片段来进行基准图像的选择。在进行图像选择时，如何快速、准确的选择出其中相对完好的一张感兴趣目标（如公交站牌或者公交站台）的图像，是确定目标对象位置的任务中相当耗时和高成本的事情。作为一种方式，可以采用人工选取的方式，但是该方案太过耗时，且人工成本昂贵。为了提高处理效率，并能够选取出不错的基准图像，本申请的可选实施例中提供了一种自动化的筛选基准图像的方式，该方式可以包括以下步骤：

确定至少一个目标片段中的第二片段，第二片段是指至少一个目标片段中包含的图像帧数最多的目标片段、或者至少一个目标片段中的最后一个目标片段；

从第二片段中确定至少一帧基准图像。

在理想情况下，由于待处理图像是针对目标对象进行采集的视频，待处理视频中应该只会出现一个连续的片段包含目标对象（站台或站牌），也就是理论上应该只有一个目标片段。但在现实世界中，可能较短距离里会出现除目标对象之外的其他与目标对象特征相同的其他对象（比如对于公交站点而言，现实中存在较短距离内多个站台/站牌出现的情况），并且由于拍摄过程中存在抖动和遮挡等因素，加上目标追踪模型本身的漏检和误检，往往使得实际的检测包含多个目标片段。如何从这些目标片段中选择出合适的片段，也是很重要的一个问题，如果片段选择不合适，导致选择出的基准图像中没有目标对象或者拍摄视角较差（比如在距离目标对象较远距离拍摄的一张图像），就会导致最终确定出的目标对象的位置偏差较大。

为了选择出合适的目标片段，通过对大量实际采集得到的视频分析发现，采集人员在对目标对象进行视频采集时，以目标对象为公交站点、拍摄人员乘坐公交车在公交车上对公交站点进行视频采集为例，下面两种模式是最为常见的采集模式：

一种模式是公交车会在“需求站点”（即目标对象）附近停车，拍摄人员在公交车停车过程中对站点进行拍摄，得到待处理视频；另一种模式是拍摄人员会在“需求站点”过站后（可以理解成视频采集设备无法再拍摄到站点）停止拍摄。对于第一种模式，由于是在停车过程中一直采集视频，对“需求站点”的拍摄时间较长，那么采集得到的视频中应该会出现时长相对较长的目标片段。对于第二种模式所采集到的视频中应该在视频的相对后面的片段出现目标片段。考虑于此，本申请提供的该可选实施例中，可以从基于检测结果确定出的各目标片段中挑选时长最长的视频片段（可以称为状态保持最长片段）或最后一个视频片段（最后片段）中的至少一个，作为上述第二片段。

作为一可选方案，第二片段可以包括上述状态保持最长片段和最后片段（两个片段也可能是同一个目标片段），也可以是其中之一，如可以采用状态保持最长片段。

在挑选出合适的片段（即第二片段）之后，则可以进一步从合适的片段中再选择至少一帧基准图像。比如，从第二视频中随机选择一张或多张图像，例如，将第二片段划分为若干个子片段，从每个子片段中挑选一帧（如子片段中位于中间位置的图像）作为基准视频。可选的，可以将第二片段中处于中间位置（帧位置）的一帧图像确定为基准图像。

作为一个示例，图8中示出了本申请实施例的一种确定基准图像的示意图，图8中所示的检测结果一行即为基于各帧图像的检测结果确定出的目标片段和非目标片段，可选的，目标片段和非目标片段可以是经过平滑处理后的各视频片段。从图8中可以看出，该示例中包含3个目标片段，状态保持最长片段（即图8中所示的状态最长片段）为中间的第二个片段，基准图像则可以采用位于状态最长片段中间的一帧图像，或者是最后片段中间的一帧图像，也就是图8中两条虚线对应于视频序列中相应位置的图像中的至少一帧。可选的，可以选择状态最长片段中的中间帧。当然，如果状态最长片段中的图像帧数是偶数，可以采用中间两帧中的任一帧。

在完成基准图像的选择之后，则可以基于待处理视频的采集信息确定出基准图像对应的位置，从而基于基准图像对应的位置来确定目标对象的位置。可选的，可以采用本申请前文提供的实施例中的方式来确定基准图像对应的位置。其中，基准图像可以是一张，也可以是多张（两张或两张以上）。如果是多张，可以分别确定每张基准图像对应的位置。具体的，对于一张基准图像，可以首先根据视频的采集时间（如拍摄开始时间）和该基准图像在视频中的帧位置，确定出该基准图像的采集时间，然后从定位数据中查找与该采集时间最近的前后时间（即位于该采集时间之前的与采集时间最接近的定位时间，以及位于该采集时间之后的与该采集时间最接近的定位时间），然后对查找到的两个定位时间对应的定位位置采用线性插值的方式，确定出采集时间对应的定位位置，该位置即可作为该基准图像对应的位置（如经纬度坐标）。

作为一个示例，图9示出了本申请实施例提供的一种确定基准图像对应的位置的原理示意图，该示例中的基准图像为一张图像，图9中的任务轨迹对应的曲线（虚线）是定位数据，曲线中的每个短线段可以理解为一个定位位置和该位置对应的定位时间，短线段之间的间隔是两次定位之间的时间间隔，轨迹时间所在的一行实线为待处理视频的采集时间，最左侧的起点为采集起始时间（与定位的起始时间相同），实线的长度代表视频时长，MOT服务一行的短实线代表选择出的目标片段（即第二片段），竖直方向的虚线与该短实线的交点对应的是目标片段的中间位置，表示基准图像为目标片段的中间帧，竖直方向的虚线与轨迹时间的交点表示基准图像的采集时间，该虚线与任务轨迹的交点表示在定位数据的定位时间中与采集时间相匹配的定位时间，也就是前文中的前后时间，通过对这两个时间对应的定位位置进行线性插值，即可计算出基准图像的采集时间对应的定位位置。

进一步的，在确定出至少一帧基准图像对应的位置之后，由于确定出的位置是采集基准图像时采集设备所在的位置，与目标对象的实际位置相差很小，可以基于这些位置确定目标对象的位置，比如，可以对这些位置进行修正，基于修正后的位置确定目标对象的位置。例如，目标对象的位置是公交站点，考虑到一般情况下视频采集车辆（如公交车或专门的采集车辆）与站点之间的距离以及拍摄时采集设备相对于基准图像的视角，可以基于该距离和视角对基准图像对应的位置进行修正，如果基准图像是一帧，可以基于修正后的位置确定公交站点的位置，如将位置作为公交站点的可能位置，可以采用人工或者其他策略进一步判断该位置是否可用，如果可用则可以将该位置作为公交站点的位置，如果基准图像是多个，则可以将多个基准图像对应的位置融合（如求均值或者去除其中的异常值（如与其他多数位置的距离过大的位置）之后求均值），基于融合后的位置确定公交站点的位置。

本申请的可选实施例中，上述根据各帧基准图像对应的位置，确定目标对象的位置，可以包括：

对于每帧基准图像，获取该基准图像对应的第一周边路网数据，第一周边路网数据是指以该基准图像对应的位置为中心的预设范围内的路网数据；

根据各帧基准图像对应的位置和第一周边路网数据，确定目标对象的位置。

其中，对于获取周边路网数据的具体方式本申请实施例不做限定。上述预设范围也可以根据实际需求设置，如可以设置为30米。其中，可选的，周边路网数据可以包括上述设定范围内的所有实际存在的对象的相关信息，如可以包括但不限于设定范围内的所有道路信息、各种其他设施（如水域、建筑物等等）以及这些设置所占据的位置信息等。基于这些周边路网数据可以判断基准图像对应的位置是否可用，比如，如果计算出的基准图像对应的位置位于水域或建筑物等非道路设施上，那计算出的位置是很有可能是错误的即定位错误，不可用。基于该可选方案，可以从一定程度上避免计算出的位置不可用的问题。

为了进一步准确的判断计算出的基准图像的位置是否可用，本申请的可选实施例中，上述根据各帧基准图像对应的位置和第一周边路网数据，确定目标对象的位置，可以包括：

从位置信息库中获取目标对象的历史位置，该位置信息库中包括至少一个对象的历史位置，至少一个对象包括目标对象；

获取历史位置对应的第二周边路网数据；

根据各帧基准图像对应的位置、第一周边路网数据、目标对象的历史位置、以及第二周边路网数据，确定目标对象的位置。

该可选方案中，还进一步考虑位置信息库中所存储的目标对象的历史位置，比如，对于公交站点而言，该历史位置可以是位置数据库中存储的该公交站点的经纬度坐标。考虑到实际应用中，即使历史位置存在偏差，但偏差通常也不会过大，因此，如果计算出的位置可用，计算出的位置和数据库中存储的历史位置之间的偏差也不应当过大，相应的，历史位置的周边路网数据应该也与计算出的位置是有关系的，因此，历史位置和历史位置的周边路网数据可以进一步用于辅助判断计算出的位置是否可用，提升最终确定出的位置的准确度。

可选的，根据各帧基准图像对应的位置、第一周边路网数据、目标对象的历史位置、以及第二周边路网数据，确定目标对象的位置，可以包括：

根据第一周边路网数据、目标对象的历史位置、以及第二周边路网数据，确定各帧基准图像对应的位置中满足预设条件的位置；

基于满足预设条件的位置，对目标对象的历史位置进行更新；

其中，预设条件包括以下各项：

①基准图像对应的位置与历史位置的距离小于或等于设定距离；

②基准图像对应的位置和历史位置位于同一条道路上，且基准图像对应的位置和历史位置不是分别位于同一条道路的主路和辅路；

③目标线段与周边道路中的各道路均不存在交点，目标线段是指基准图像对应的位置和历史位置之间的连线，周边道路是指基准图像对应的第一周边路网数据和第二周边路网数据中包含的道路；

④目标线段与周边道路中的各道路所在的直线均满足以下条件：

目标线段与直线的夹角不大于设定角度且目标线段与直线不存在交点。

如果满足上述各条件，则可以确定计算出的基准图像对应的位置可用，可以基于满足条件的位置对目标对象的历史位置进行更新，也就是可以将位置数据库中的历史位置更新为满足条件的位置或者是将满足条件的位置融合后的位置。具体的，通过上述条件①，避免了基于视频自动化计算出的位置与历史位置偏大过大，设定距离的取值可以根据实际需求配置，如可以设置为50米。通过上述条件②，避免了自动化计算出的位置与历史位置不在同一条道路上，偏差过大。通过上述条件③，避免了自动化计算出的位置与历史位置之间跨道路。通过上述条件④，则可以避免了计算出的位置和历史位置分别位于丁字路口的道路两侧，计算出的位置和历史位置偏差过大。

需要说明的是，在实际应用中，根据目标对象所在城市的路网数据的具体情况，在实际判断计算出的位置是否可用于时，除了上述条件，还可以根据实际情况配置其他条件或者只选择上述预设条件中的部分条件。

为了更好的理解本申请实施例提供的上述判断自动化计算出的基准图像对应的位置是否可用的方案，下面结合图10至图12中对该方案进行可视化的说明。

以目标对象为一个指定的公交站点为例，假设选择的基准图像是一帧图像，通过计算得到的该帧图像对应的位置为经纬度坐标A（称为站点坐标A），母库即位置数据库中存储的该站点的位置记为经纬度坐标B（称为站点坐标B）。对于初步计算得到的站点坐标A，需要与母库中的站点坐标B进行匹配，以判断该坐标A是否可用。可选的，可以从三个维度对坐标A是否可用进行自动化判断：直线距离（即距离判断）、是否跨路和主辅路判断。下面对这三个维度的判断分别进行说明。

1）距离判断

对自动化初步计算的站点坐标A和匹配上的母库站点坐标B进行距离计算，如果两者的距离大于阈值dis_threshold（即设定距离，如50米），则标记该坐标对（即坐标A和坐标B），如可以打上“False”标志，后续可以流转人工进行判断是采用A还是采用B，也就是说坐标A不能够直接使用。

2）是否跨路

自动化计算的坐标A是否可用的第二个标准该坐标是否与母库坐标B之间存在跨路的情况。根据公交轨迹这一线路任务，一般会存在三种情况的跨路：两个坐标在不同的路段、两个坐标穿越某条路段、两个坐标跨丁字路口。

为了确定是否存在跨路情况，首先可以通过调用“坐标周边路网服务”（如预配置的地图数据库）分别召回以A，B两处坐标为中心的预设范围dis_road（如30米）内的路网数据（即第一周边路网数据和第二周边路网数据），接着可以做如下判断：

a) 坐标A是否在水域、建筑物等非道路区域内部，如果在，则说明坐标A不一定可以使用，可以对坐标对打上不可用标志，如打上“False”标志；否则进行下一步判断。

b) 如果坐标A，B均属于道路内部区域，判断所属道路是否为同一条道路，如果不属于，对坐标对打上“False”标志；否则进行下一步判断。如图10中所示的示意图中，坐标A（图中A点对应的五角星）位于道路1上，坐标B位于道路2上，坐标A和B不属于同一条道路，计算出的坐标不一定可用即不能直接使用。

c) 遍历坐标A，B召回的所有道路（也就是坐标A的周边路网数据中包含的道路和坐标B的周边路网数据中包含的道路），判断其中是否有道路所在的线段与AB坐标连线之间是否存在交点，如果存在任一条道路与该AB坐标连线存在交点，则对坐标对打上“False”标志；否则进行下一步判断。如图11所示的示意图中，AB坐标连线与道路3存在交点，计算出的坐标不一定可用。

d) 如果坐标A和B属于同一条道路，将该道路记为road_same，遍历A、B召回的所有道路（除去road_same本身之外的其他道路），如果存在任一道路road_angle，使得road_same和road_angle两条道路所在直线之间夹角大于设定角度（如45度），那么需要对这种情况做“丁字路口判断”：具体的，可以连接坐标A和坐标B形成线段，判断线段AB与road_angle所在的直线是否有交点，如果有，则说明坐标A和坐标B分别位于丁字路口的两侧（跨丁字路口），计算出的坐标不一定可用，对坐标对打上“False”标志；否则进行下一步判断。如图12所示的示意图中，坐标A和坐标B的线段AB与道路4所在的直线存在交点，两个坐标虽然都位于道路5上的，但两个坐标跨丁字路口，坐标A不一定可用。

3）主辅路判断

如果坐标A和B均属于某条道路，且一个道路属于主路，另一个属于辅路，则该坐标对打上“False”标志。

对于打上“False”标志的坐标对，可以后续流转人工进行进一步判断，没有打上“False”标志的坐标对，可以使用自动化坐标A替换母库中对应的坐标B。

基于本申请实施例提供的方案，实现了对目标对象位置的自动化计算，可以大大降低人力成本，能够很好的满足实际应用需求。如可以将该方法应用到公交站点坐标的自动化计算中，实现基于视频追踪的公交站点坐标自动化方法。

为了验证本申请实施例提供的方法的有效性，以公交站点坐标自动化为例，对本申请实施例提供的方法进行了评测。表1和表2分别示出了在多个不同城市多个公交站点进行公交站点自动化计算的评测结果、以及如果基于本申请实施例中提供的方案确定出的可用坐标对位置数据库中对应的站点坐标进行更新后可以得到的坐标更新率（即表2中的自动化率，即位置数据库中多少公交站点的坐标可以被计算出的坐标更新）以及更新后的准确率（即用1减去表2中的误检率）。

从表1中看出，虽然在对采集的视频进行检测时存在漏检和误检的情况，但是采用该自动化方法计算出的公交站点的坐标的可用性（结果可用，即可以基于计算出的坐标对数据库中的坐标进行更新）还是很可观的，能够很大程度上满足实际应用需求，大大降低人工工作量，降低公交站点坐标更新的成本。从表2中可以看出，基于本申请实施例提供的方法，可以实现城市中大部分公交站点坐标的更新，且多个城市的更新后坐标的误检率基本可以忽略，也就是说，采用本申请实施例提供的方法，更新后的站点坐标的准确性基本都能够提高。

表1

城市	结果可用	漏检	误检
				城市1	75.00%	31.36%	9.09%
城市2	70.00%	37.00%	5.00%
				城市3	82.35%	23.53%	6.47%
城市4	78.26%	38.26%	0.43%
				城市5	88.89%	24.44%	4.44%
城市6	61.54%	44.62%	0.00%
				城市7	83.33%	20.00%	0.56%
城市8	76.04%	32.43%	3.54%

表2

城市	自动化率	误检率
			城市9	84.21%	5.26%
城市10	84.21%	0.00%
			城市11	66.67%	0.00%
城市12	66.67%	0.00%
			城市13	72.73%	0.00%
城市14	70.83%	0.00%
			平均值	74.22%	0.88%

基于与本申请提供的视频处理方法相同的原理，本申请实施例还提供了一种视频处理装置，如图13所示，该视频处理装置100可以包括视频信息获取模块110、视频检测模块120、视频片段确定模块130、图像筛选模块140以及对象位置确定模块150。

视频信息获取模块110，用于获取待处理视频以及待处理视频的采集信息，待处理视频中存在至少一帧目标图像，目标图像为包含目标对象的图像，待处理视频的采集信息包括采集时间和采集待处理视频时视频采集设备的定位数据，定位数据包括至少两个定位位置以及各所述定位位置的定位时间；

视频检测模块120，用于对待处理视频的各帧图像进行目标对象的检测与追踪，得到各帧图像的检测结果，一帧图像的检测结果表征了该帧图像是否为目标图像；

视频片段确定模块130，用于基于各帧图像的检测结果，确定出待处理视频中的各视频片段，其中，各视频片段中包括至少一个目标片段，目标片段是指包含连续的目标图像的视频片段；

图像筛选模块140，用于从上述至少一个目标片段中确定至少一帧基准图像；

对象位置确定模块150，用于基于采集信息，确定各帧基准图像对应的位置，以及根据各帧基准图像对应的位置，确定目标对象的位置，其中，基准图像对应的位置为采集基准图像时视频采集设备的定位位置。

可选的，各视频片段中还包括至少一个非目标片段；视频片段确定模块还用于对各视频片段进行以下预处理：

相应的，图像筛选模块在从至少一个目标片段中确定至少一帧基准图像时可以用于：

可选的，第一片段的关联片段，是指从第一片段开始、位于第一片段之前的第一个包含的图像帧数大于或等于设定值的视频片段。

可选的，图像筛选模块在从至少一个目标片段中确定至少一帧基准图像时可以用于：

确定至少一个目标片段中的第二片段，第二片段是指至少一个目标片段中包含的图像帧数最多的目标片段、或者至少一个目标片段中的最后一个片段中的至少一项；从第二片段中确定至少一帧基准图像。

可选的，图像筛选模块在从第二片段中确定至少一帧基准图像时可以用于：将第二片段中处于中间位置的一帧图像确定为基准图像。

可选的，对象位置确定模块在基于采集信息，确定各帧基准图像对应的位置时可以用于：

对于任一基准图像，根据基准图像在待处理视频中的位置以及待处理视频的采集时间，确定基准图像的采集时间；确定至少两个定位位置的定位时间中与采集时间相匹配的定位时间；根据与采集时间相匹配的定位时间的定位位置，确定基准图像对应的位置。

可选的，对象位置确定模块可以用于：

将采集时间对应的定位位置确定为基准图像对应的位置。

可选的，对象位置确定模块在根据各帧基准图像对应的位置，确定目标对象的位置时可以用于：

对于每帧基准图像，获取该基准图像对应的第一周边路网数据，第一周边路网数据是指以该基准图像对应的位置为中心的预设范围内的路网数据；根据各帧基准图像对应的位置和第一周边路网数据，确定目标对象的位置。

可选的，对象位置确定模块可以用于：

从位置信息库中获取目标对象的历史位置，位置信息库中包括至少一个对象的历史位置，至少一个对象包括目标对象；获取历史位置对应的第二周边路网数据；根据各帧基准图像对应的位置、第一周边路网数据、目标对象的历史位置、以及第二周边路网数据，确定目标对象的位置。

可选的，对象位置确定模块可以用于：

根据第一周边路网数据、目标对象的历史位置、以及第二周边路网数据，确定各基准图像对应的位置中满足预设条件的位置；基于满足预设条件的位置，对目标对象的历史位置进行更新；其中，上述预设条件包括以下各项：

基准图像对应的位置与历史位置的距离小于或等于设定距离；

基准图像对应的位置和历史位置位于同一条道路上，且基准图像对应的位置和历史位置不是分别位于同一条道路的主路和辅路；

目标线段与周边道路中的各道路均不存在交点，目标线段是指基准图像对应的位置和历史位置之间的连线，周边道路是指基准图像对应的第一周边路网数据和第二周边路网数据中包含的道路；

目标线段与周边道路中的各道路所在的直线均满足以下条件：

可选的，视频检测模块具体可以用于：

对于各帧图像中每帧图像，获取该帧图像的至少一帧前序图像的检测结果，其中，一帧图像的检测结果包括目标对象在该帧图像中的位置信息；基于至少一帧前序图像的检测结果，生成至少一帧前序图像中目标对象对应的热点图；将该帧图像、该帧图像的至少一帧前序图像、以及至少一帧前序图像对应的热点图输入到训练好的目标追踪模型中，通过目标追踪模型执行以下操作，得到该帧图像的检测结果：

提取该帧图像对应的第一特征、该帧图像的各帧前序图像对应的第二特征、以及各帧前序图像对应的热点图的第三特征；将第一特征、各帧前序图像对应的第二特征和第三特征进行融合，得到融合后的特征；基于融合后的特征，预测得到该帧图像的检测结果。

可选的，上述目标对象可以是公交站点，公交站点包括公交站牌或公交站台中的至少一项。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述及有效效果具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

基于与本申请实施例提供的视频处理方法及装置相同的原理，本申请实施例中还提供了一种电子设备（如服务器），该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

可选的，图14示出了本申请实施例所适用的一种电子设备的结构示意图，如图14所示，该电子设备4000包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等，比如从其他电子设备接收待处理视频。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例提供的方法对应的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，该产品包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

从所述至少一个目标片段中确定至少一帧基准图像；

2.根据权利要求1所述的方法，其特征在于，所述各视频片段中还包括至少一个非目标片段；所述方法还包括对所述各视频片段进行以下预处理：

对于所述各视频片段中的第一片段，将所述第一片段与所述第一片段的关联片段合并，且合并后的视频片段的类型为所述关联片段的类型，所述类型为目标片段或非目标片段；

其中，所述第一片段是指包含的图像帧数小于或等于设定值的视频片段；所述第一片段的关联片段，是指所述各视频片段中与所述第一片段相邻的、包含的图像帧数大于或等于设定值的视频片段；

所述从所述至少一个目标片段中确定至少一帧基准图像，包括：

从预处理后的所述各视频片段中的各目标片段中确定至少一帧基准图像。

3.根据权利要求2所述的方法，其特征在于，所述第一片段的关联片段，是指从所述第一片段开始、位于所述第一片段之前的第一个包含的图像帧数大于或等于设定值的视频片段。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述从所述至少一个目标片段中确定至少一帧基准图像，包括：

确定所述至少一个目标片段中的第二片段，所述第二片段是指所述至少一个目标片段中包含的图像帧数最多的目标片段、或者所述至少一个目标片段中的最后一个目标片段中的至少一项；

从所述第二片段中确定至少一帧基准图像。

5.根据权利要求4所述的方法，其特征在于，所述从所述第二片段中确定至少一帧基准图像，包括：

将所述第二片段中处于中间位置的一帧图像确定为基准图像。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述采集信息，确定各帧所述基准图像对应的位置，包括：

对于任一所述基准图像，根据所述基准图像在所述待处理视频中的位置以及所述待处理视频的采集时间，确定所述基准图像的采集时间；

确定所述至少两个定位位置的定位时间中与所述采集时间相匹配的定位时间；

根据与所述采集时间相匹配的定位时间的定位位置，确定所述基准图像对应的位置。

7.根据权利要求6所述的方法，其特征在于，所述确定所述至少两个定位位置的定位时间中与所述采集时间相匹配的定位时间，包括：

将小于所述采集时间的定位时间中与所述采集时间最接近的第一定位时间、以及不小于所述采集时间的定位时间中与所述采集时间最接近的第二定位时间，确定为与所述采集时间相匹配的定位时间；

所述根据与所述采集时间相匹配的定位时间的定位位置，确定所述基准图像对应的位置，包括：

基于所述第一定位时间对应的定位位置和所述第二定位时间对应的定位位置进行插值处理，得到所述采集时间对应的定位位置；

将所述采集时间对应的定位位置确定为所述基准图像对应的位置。

8.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据各帧所述基准图像对应的位置，确定所述目标对象的位置，包括：

对于每帧所述基准图像，获取该基准图像对应的第一周边路网数据，所述第一周边路网数据是指以该基准图像对应的位置为中心的预设范围内的路网数据；

根据各帧所述基准图像对应的位置和第一周边路网数据，确定所述目标对象的位置。

9.根据权利要求8所述的方法，其特征在于，所述根据各帧所述基准图像对应的位置和第一周边路网数据，确定所述目标对象的位置，包括：

从位置信息库中获取所述目标对象的历史位置，所述位置信息库中包括至少一个对象的历史位置，所述至少一个对象包括所述目标对象；

获取所述历史位置对应的第二周边路网数据；

根据各帧所述基准图像对应的位置、所述第一周边路网数据、所述目标对象的历史位置、以及所述第二周边路网数据，确定所述目标对象的位置。

10.根据权利要求9所述的方法，其特征在于，所述根据各帧所述基准图像对应的位置、所述第一周边路网数据、所述目标对象的历史位置、以及所述第二周边路网数据，确定所述目标对象的位置，包括：

根据所述第一周边路网数据、所述目标对象的历史位置、以及所述第二周边路网数据，确定各帧所述基准图像对应的位置中满足预设条件的位置；

基于所述满足预设条件的位置，对所述目标对象的历史位置进行更新；

其中，所述预设条件包括以下各项：

11.根据权利要求1至3中任一项所述的方法，其特征在于，所述对所述待处理视频的各帧图像进行目标对象的检测与追踪，得到所述各帧图像的检测结果，包括：

对于所述各帧图像中每帧图像，获取该帧图像的至少一帧前序图像的检测结果，其中，一帧图像的检测结果包括目标对象在该帧图像中的位置信息；

基于所述至少一帧前序图像的检测结果，生成所述至少一帧前序图像中目标对象对应的热点图；

将该帧图像、该帧图像的至少一帧前序图像、以及所述至少一帧前序图像对应的热点图输入到训练好的目标追踪模型中，通过所述目标追踪模型执行以下操作，得到该帧图像的检测结果：

将所述第一特征、各帧前序图像对应的第二特征和第三特征进行融合，得到融合后的特征；

基于融合后的特征，预测得到该帧图像的检测结果。

12.一种视频处理装置，其特征在于，所述装置包括：

13.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。