CN110519532A

CN110519532A - 一种信息获取方法及电子设备

Info

Publication number: CN110519532A
Application number: CN201910822906.4A
Authority: CN
Inventors: 吴德东; 陈杰; 文承尧; 曹颖君
Original assignee: China Mobile Communications Group Co Ltd; China Mobile M2M Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile M2M Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-11-29

Abstract

本发明提供一种信息获取方法及电子设备，该方法包括：获取查询请求信息；从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；根据所述目标轨迹信息从原始视频中获取目标图像；将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。本发明提供的上述方法，用户通过查询请求信息可获取到对应的浓缩视频，通过浓缩视频来获得所需信息，节省了用户从原始视频中查找信息的时间，提高了信息获取的效率。

Description

一种信息获取方法及电子设备

技术领域

本发明涉及通信技术领域，尤其涉及一种信息获取方法及电子设备。

背景技术

目前，对长视频进行人工分析时，需要浏览整段视频；而绝大多数的场景中，视频中真正有效的信息实际上只占整体的小部分，其他则多为冗余信息；通过人工方法提取感兴趣的部分，效率低下。

例如，某个场景中，用户对某路口进行24小时视频监控。如果要获取凌晨00:00～08:00时段通过该路口的车辆，就需要遍历整个8小时的历史视频记录，识别并记录通过的车辆。而这段时间车流量比较小，其中也许只有几辆车、只有几十秒的通行画面是用户感兴趣的。

目前，从视频中获取信息时，需要人工遍历整个视频，使得信息获取效率低下。

发明内容

本发明实施例提供一种信息获取方法及电子设备，以解决现有的从视频中获取信息时，效率低下的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种信息获取方法，包括：

获取查询请求信息；

从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；

对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；

根据所述目标轨迹信息从原始视频中获取目标图像；

将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。

第二方面，本发明实施例还提供一种电子设备，包括：

第一获取模块，用于获取查询请求信息；

第二获取模块，用于从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；

第三获取模块，用于对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；

第四获取模块，用于根据所述目标轨迹信息从原始视频中获取目标图像；

拼接模块，用于将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。

第三方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述信息获取方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述信息获取方法的步骤。

在本发明实施例中，获取查询请求信息；从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；根据所述目标轨迹信息从原始视频中获取目标图像；将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。这样，用户通过查询请求信息可获取到对应的浓缩视频，通过浓缩视频来获得所需信息，节省了用户从原始视频中查找信息的时间，提高了信息获取的效率。

附图说明

图1是本发明实施例提供的信息获取方法的流程图之一；

图2a-2b是本发明实施例提供的显示界面示意图；

图3是本发明实施例提供的信息获取方法的流程图之二；

图4是本发明实施例提供的素材提取的流程图；

图5是本发明实施例提供的生成浓缩视频的流程图；

图6是本发明实施例提供的电子设备的结构图之一；

图7是本发明实施例提供的电子设备的结构图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的信息获取方法的流程图之一，如图1所示，本实施例提供一种信息获取方法，所述方法应用于电子设备，包括以下步骤：

步骤101、获取查询请求信息。

查询请求信息可包括标识(即ID)，起始时间，长度，目标类别中的一种或多种，标识可理解为轨迹标识，起始时间可理解为时间段的起始时间点，长度可理解为时间长度，目标类别可理解为目标对象的类别信息，例如，类别信息包括人、动物或车辆等等。查询请求信息可由用户输入至电子设备中。

查询请求信息可以为时间范围、目标类别或附属的描述信息(以车辆为例，附属的描述信息可以是车型、颜色、车牌号等，附属的描述信息可在轨迹生成时获得的)。

步骤102、从预获取的轨迹信息集中获取与所述查询请求信息相匹配的目标轨迹信息。

轨迹信息集中包括一个或多个轨迹信息，轨迹信息用于对原始视频中目标对象的运动轨迹进行描述。所述轨迹信息包括轨迹标识，起始时间，总长度，目标对象的位置信息、类别信息等。其中，总长度可理解为目标对象的运动轨迹的总时间长度，目标对象的位置信息可理解为目标对象在视频帧中的空间位置信息。视频帧可理解为原始视频中包括目标对象的帧。一条轨迹信息对应描述一条轨迹。轨迹信息集预先获取。在本申请中，轨迹信息集中的轨迹信息可理解为轨迹的结构化描述信息。

本步骤中，根据查询请求信息，从轨迹信息集中获取与查询请求信息相匹配的目标轨迹信息，目标轨迹信息可以为一条或多条。

步骤103、对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息。

轨迹重排即对轨迹在时间轴上重整，确定轨迹在最终的浓缩视频中的起始时间点，这样获得的目标轨迹信息包括轨迹在浓缩视频中的起始时间。例如，轨迹A的时间长度为10秒，浓缩视频的时间长度为1分钟，那么在对轨迹A进行轨迹重排，即是确定轨迹A在浓缩视频中的起始时间，若将浓缩视频的第10秒确定为轨迹A的起始时间，那么，则在浓缩视频的第10秒开始播放轨迹A。

步骤104、根据所述目标轨迹信息从原始视频中获取目标图像。

根据目标轨迹信息可以从原始视频中获取到与目标轨迹信息对应的轨迹，该轨迹由多张位于不同空间位置的目标图像组成。

原始视频中，前后各帧中出现的同一目标对象，需要在时空上将它们整合起来，分配同一个轨迹标识，这就形成了轨迹。简单地看轨迹具有“某个目标对象在某帧图像中出现在某个位置”的描述信息。

目标图像为从原始视频的视频帧中提取的包括目标对象的图像。目标图像中可以仅包括目标对象。

本步骤中，根据目标轨迹信息从原始视频中获取目标图像，也可以理解为根据目标轨迹信息从原始视频中提取前景图像，该前景图像即为包括目标对象的图像。

目标轨迹信息中包括目标对象的位置信息，根据该位置信息可从原始视频的相应位置提取出前景图层，即包括目标对象的图像。目标对象的位置信息包括目标对象所在帧在时间轴上的时间位置信息和目标对象在其所在帧图像中的空间位置信息。

步骤105、将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。

背景图像预先获取，该背景图像与目标图像对应。图像拼接使用泊松编辑，实现轨迹前景与背景的无缝融合。将提取的多张目标图像按照时间顺序，融合到背景图像中，以获得浓缩视频。

背景图像可在轨迹生成时获取，它们在时间上有一定对应关系。在同一视频中获取的轨迹和背景图像，可通过时间戳获知。在进行图像拼接时，查询到对应的轨迹后需要进一步找到与之对应的背景；如果多条轨迹对应着不同的背景，可以对背景进行平均处理。

对长视频进行人工分析时，需要浏览整段视频；而绝大多数的场景中，视频中真正有效的信息实际上只占整体的小部分，其他则多为冗余信息。视频浓缩可以解决对较长时间段视频分析效率低下的问题。

用户观看浓缩视频后对原始视频有了大致印象，对感兴趣的目标轨迹，经常需要定位到其在原始视频中的对应片段进行审查。为了方便用户在浓缩视频和原始视频间快速切换，可以在两个图层上分别展示浓缩视频和原始视频；两者的播放控制都支持播放、暂停、快慢、或者快进等基本操作，默认状态下展示浓缩结果(即浓缩视频)图层，隐藏原始视频图层。如图2a所示，图中标号11所示为显示浓缩视频的图层，标号22所示为显示原始视频的图层。

如图2b所示，本实施中的电子设备还包括用户查询界面，供用户利用关键字组合对轨迹进行查询，即通过用户查询界面输入查询请求信息，其中，标号33所示为用于输入查询请求信息的输入框，标号44所示为查询结果显示区域。用户查询结果以列表的形式展示，每一条记录对应一条符合查询条件的目标轨迹信息，目标轨迹信息可包括轨迹ID，起始时间，长度，目标类别等。

列表中的各条记录可点击，点击后浓缩视频从轨迹起始帧开始播放直至轨迹结束位置，循环播放；在每一帧浓缩视频中都对目标对象进行了适当的标识，表示当前选中，用于与其他目标进行区分(通过展示bounding box、轨迹ID、起始时间，以及目标对象的历史运动轨迹线进行识别)；其他各目标对象对应的边界框(即bounding box)区域也是可以点击选取的。在播放暂停的情况下，当检测到鼠标移动到某目标对应bounding box区域后，显示该bounding box表示可以选定，不过与当前被选中的情况做一定区分(颜色、线型等)；此时在该区域点击左键表示选定该目标，高亮列表中对应记录项，原选中目标的标识内容切换为当前选中目标对应标识；在选定目标的状态下点击右键，唤出右键菜单中提供详细描述、显示/隐藏标识、跳转到原始视频等各项选项。选择详细描述则展示目标轨迹的结构化描述详细信息；选择显示/隐藏标识可以控制选中标识的显示与否；选择跳转到原始视频，则在浓缩视频图层上方弹出原始视频图层，展示原始视频片段。原始视频随即跳转到选定目标轨迹的起始帧位置开始播放直至轨迹结束位置，循环播放。与浓缩视频界面上的类似，原始视频界面也支持选中、标识等操作，不过选中后唤出右键菜单中对应选项变为跳转到浓缩视频，选择后去掉原始视频播放图层，重新激活浓缩视频图层，跳转到点击目标对应轨迹的起始帧继续展示。这样用户可以在原始视频和浓缩视频之间，对被选目标轨迹的起始位置进行跳转切换。

本发明实施例的信息获取方法，获取查询请求信息；从预获取的轨迹信息集中获取与所述查询请求信息相匹配的目标轨迹信息；根据所述目标轨迹信息从原始视频中获取目标图像；将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。这样，用户通过查询请求信息可获取到对应的浓缩视频，通过浓缩视频来获得所需信息，例如，获取浓缩视频中目标对象的运行轨迹、目标对象的行为特征等等，节省了用户从原始视频中查找信息的时间，提高了信息获取的效率。

进一步的，所述轨迹信息集的获取过程包括：

对所述原始视频进行目标识别，以获取到目标对象的位置信息和类别信息；

若历史轨迹中没有与所述目标对象相匹配的轨迹，为所述目标对象设置轨迹信息，所述轨迹信息包括ID，起始时间，总长度，所述位置信息、所述类别信息；

将所述轨迹信息添加到所述轨迹信息集中。

具体的，在获取原始视频之后，进行目标识别之前，还可以先对原始视频进行预处理。

如图3所示，本方案的可以分为三个部分。第一部分是素材提取，第二部分是生成浓缩(获取浓缩视频)，第三部分是互动展示。其中素材提取可在线实时进行，生成浓缩和互动展示则是由用户请求驱动，两者通过数据库解耦合。如图4所示，图4为从原始视频中获取素材的过程。其中，包括预处理、前景目标识别、轨迹合成、生成描述、背景提取，以及持久化等几个过程。

以下对上述几个过程进行详细描述。

预处理。首先将原始视频解码为一帧一帧的图像，对图像进行适当的预处理，以满足后续步骤的要求。本方案中主要是进行视频裁剪、尺寸调整或帧率调整等。视频裁剪是将连续不断的视频分割为长度适当的视频片段，进入下一流程。后续目标识别、轨迹合成等是针对每个片段进行的；尺寸调整是为了下一步的目标识别模型做适配，目标识别模型是在一定尺寸的图像集上训练得到的，在进行推理的时候输入图像也要与训练图像保持一致；帧率调整则是为了提高处理速度。原始视频可能有较高的帧率，实际上处理时在较低帧率上仍然能获得比较理想的浓缩效果。可以按照场景的实际需要在时间轴上进行重采样，适当降低帧率，提高处理速度。

前景目标识别。预处理完成之后，对预处理获得的视频进行目标识别，目标识别也可称为前景目标识别，前景目标识别是用于检测出输入图像中感兴趣的目标，一般多为运动物体。本申请按照用户需要提供几种识别方法。

简单场景下，可以选择基于运动的目标识别。基于可视背景提取方法(visualbackground extractor，简称VIBE)算法的运动目标检测，提供目标的bounding box。VIBE会对图像进行像素级的标记，将各像素分为运动、静止两类。在此基础上进行一系列形态学处理，得到表示运动物体的像素团块，再根据团块获得目标的bounding box，用于描述目标的位置信息。VIBE对目标重叠遮挡、粘连和目标在静止或运动状态切换的场景下表现不够理想，但是计算速度最快；

一般场景下可以使用多分类单杆检测器(Single Shot MultiBox Detector，简称SSD)、单杆检测器(即YOLO)等卷积神经网络(Convolutional Neural Networks,简称CNN)目标检测模型，同时提供目标bounding box和粗略的类别信息。SSD、YOLO等是比较新的目标检测模型，它们计算速度比较快，检测效果也保持在不错的水平，最适合在本方案中使用。输入SSD、YOLO的是图像张量，模型返回的是图像中检测到的目标类别ID、置信度及表示目标位置的bounding box。结合类别、置信度阈值对输出信息进行过滤，获取感兴趣目标(即目标对象)的位置信息和类别信息。

在之前的预处理步骤中已经对视频帧率进行了调整；在此基础上为了进一步提高处理速度，本流程中再次进行跳帧。通过一个可设置的参数，根据实际的场景调节目标识别的频率，如每N帧图片识别一次，N为大于1的整数。两次识别之间目标的位置通过的核相关滤波算法(Kernel Correlation Filter，简称KCF)进行跟踪估计。即使在降低识别频率的状况下，目标识别仍然是整个视频浓缩流程中最耗时的步骤之一，在使用图形处理器(Graphics Processing Unit，简称GPU)的情况下，基本可以达到准实时处理的速度。

轨迹合成。进行目标识别之后，获取目标对象的运动轨迹。原始视频中，若相邻帧中出现同一目标，需要在时空上将它们整合起来，分配同一个轨迹ID，以形成轨迹。简单地看轨迹就是“某个目标在某帧图像中出现在某个位置”这样的描述信息。本申请中轨迹合成使用了传统方法，当作分配问题看待，即将检测出的目标分配到已经存在的轨迹上。分配使用匈牙利算法，以最优化能量函数的方式进行。匈牙利算法需要定义距离度量，本方案中使用马氏距离，还需要不匹配的惩罚项，可根据实际场景进行设置。算法以矩阵的形式表示分配方案，行列分别表示已有轨迹和当前检测出的前景目标。矩阵各元素的值为对应轨迹Kalman Filter中预测位置与检测目标bounding box中点的距离。匈牙利算法的输出包括分配矩阵，未匹配的轨迹和目标。分配矩阵确定了目标与轨迹的对应关系，未被匹配的轨迹和目标信息用于新轨迹的初始化、轨迹结束的判断等。

在目标识别步骤中设置了可调的检测频率，相邻两次检测间的各帧图像，目标对象的位置是通过KCF跟踪算法获得。KCF计算速度远远高于目标识别，可以节省大量计算资源。KCF利用目标对象的外观信息进行跟踪，但是实际场景中经常会出现目标形变、视角引起的尺度变化、局部遮挡等问题，对KCF的跟踪产生干扰。为了提高鲁棒性，本方案中利用Kalman filter对KCF跟踪的目标的运动进行预测，综合运动信息提高跟踪的鲁棒性。

轨迹信息集中包括检测过程获得的所有轨迹的轨迹信息(也可称为描述信息)。每条轨迹都有自己的描述信息，包括了轨迹ID、起始时间、终止时间、总长度、在各帧中的空间位置等基本信息，此外还包括了对应的Kalman Filter、一些元信息用于支撑轨迹本身的维护管理。

在确定轨迹的开始时，依据新检测的目标对象没有与之匹配的历史轨迹来判定，检测到不匹配已知轨迹的新目标，一条新的轨迹就被初始化。为它分配新的ID，设置起始时间，总长度，位置信息、类别信息等。即若历史轨迹中没有与所述目标对象相匹配的轨迹，为所述目标对象设置轨迹信息，所述轨迹信息包括ID，起始时间，总长度，所述位置信息、所述类别信息；并将所述轨迹信息添加到所述轨迹信息集中。总长度初始化是取值为1，新的轨迹每被匹配上一次，长度加1，直至轨迹结束才得到该轨迹的最终的总长度。

历史轨迹可理解为轨迹信息集中轨迹信息对应的轨迹。

轨迹的更新由视频片段中每帧图像驱动。在每帧图像上获取轨迹-目标分配方案后，匹配的轨迹更新其总长度、终止时间、位置、类别信息，Kalman Filter、KCF状态等。元信息中连续未分配计数器置零，更新可视计数器和前景面积；未匹配的轨迹需要更新连续未分配计数器、可视计数器等。此外元信息中会维护一张bounding box范围内的截图用于后续生成描述使用。截图更新的依据是类别信息中置信度高低，最终保留的是检测置信度最高对应帧上的目标区域截图。

轨迹的结束，依据元信息汇总连续未匹配计数器来判定。当出现某条轨迹连续未被匹配次数超过预设阈值时，认为该轨迹结束。即所述轨迹信息集的获取过程还包括：若所述历史轨迹中的第一轨迹连续未被匹配的次数超过预设次数阈值，更新所述轨迹信息集中与所述第一轨迹对应的轨迹信息。预设次数阈值可根据实际情况进行设置，在此不做限定。所述轨迹信息集中与所述第一轨迹对应的轨迹信息，可以理解为更新轨迹信息中的轨迹结束信息，轨迹结束信息用于标识轨迹结束。

即使出现遮挡的情况，只要遮挡的时间不超过阈值范围，仍然可以根据KalmanFilter预测的位置完成正确的匹配。连续未匹配的次数在轨迹内部的元信息中维护，随每次匹配结果进行更新。还有一种情况是在视频片段末尾处结束所有轨迹。当轨迹结束时，轨迹描述信息进入持久化流程，落地到数据库中。为了去除干扰，本流程结束时会对轨迹进行一定验证过滤，比如总长度过短、总遮挡时间超过总长度一定比例的轨迹会被当作噪声干扰，直接丢弃不进入下一流程。

背景提取。所述背景图像的获取过程包括：

对所述原始视频的目标帧进行时域中值滤波，来获取背景图像；

其中，所述目标帧为包括的目标对象少于预设阈值的帧。

背景图像的获取过程，也可视为背景提取过程。背景提取为生成浓缩结果(即浓缩视频)时的图像拼接准备素材。最终的图像拼接，是将重排后的轨迹中各帧前景目标图层，融合到对应的背景图层上。本方案中背景提取是使用时域中值滤波得到。

均值滤波比中值滤波计算效率高得多，但是获取背景时中值滤波具有更好的鲁棒性。时域中值滤波计算速度较慢。

滤波处理的开销同图像尺寸直接相关。为了进一步提高性能，在进行背景提取时使用了尺寸缩放。用户根据实际场景设置缩放尺度,等比例地缩小原图像的尺寸后，再进行滤波处理，结果直接持久化。在后续图像拼接过程中使用背景时，只需把持久化的结果按照相同的比例放大后，得到与原图像相同尺寸的背景图像。缩放操作会给背景图片带来一定的清晰度损失，不过背景本身也是无关紧要的信息，少许损失可以接受，对视频浓缩结果影响不会特别明显。

对视频帧进行滤波处理时，滤波只在检测器未识别或者较少目标的帧上进行，跳过包含较多目标的帧，即对所述原始视频的目标帧进行时域中值滤波，来获取背景图像；其中，所述目标帧为包括的目标对象少于预设阈值的帧。预设阈值可根据实际情况进行设置，在此不做限定。这样既能提高处理速度，也能提升背景提取效果。

用户还可根据实际情况设置滤波最大迭代次数，当达到该值后不再进行滤波操作，停止更新背景。一般来说，运动目标较少的场景下该值可以相应设置得较小。时域中值滤波本身也是耗时的步骤之一，实现时可并行化处理，即图像中的各像素点按行列分配到各个线程中并行进行时域中值滤波，线程数量由用户根据实际计算资源设置。

生成描述。在目标识别提供了目标的位置信息和类别信息后，使用CNN分类模型对目标进行进一步的处理，得到更详细、更加结构化的视觉描述信息。CNN分类是生成轨迹的结构化描述的手段，结构化描述和轨迹的时间等通常作为查询筛选轨迹的条件。自定义的模型就是根据场景，希望查询时可以通过哪些属性进行区分筛选，就使用生成对应信息的模型。不同类别的目标，要使用的分类模型是不一样的，这部分可以由用户自定义。比如上一步识别出目标为车辆类型，可以进一步对车型进行分类、对车身颜色进行识别、对车牌进行检测等；而识别类别为人，可以进一步对人的体型、性别、衣着等进行判断等。这里的分类模型需要根据实际需要，预先分别进行训练。生成描述使用轨迹序列中，类别置信度最高的一帧目标截图，经过适当缩放后输入到各分类模型，该截图在轨迹生成阶段得到。

分类模型一般参考经典CNN分类网络结构设计，对目标各方面描述分别由不同的模型负责，各模型分别由适当的训练样本进行训练，比如车辆的车型由一个模型识别，车牌由另一个模型识别等等；截图并行地送到各个模型进行推理，最后综合各项分类结果得到描述。需要注意的是对截图分类的模型结构，需要充分考虑到截图尺寸因素。轨迹中目标区域往往只占整体的一小部分，为了提高对小目标的处理效果，需要在模型结构上进行适当的改进，以获得最佳效果。

持久化。原始视频片段与背景图像、描述信息、轨迹信息等持久化到数据库中，供后续使用。原始视频、背景图片可以存到文件系统中，数据库记录相应路径；轨迹信息和结构化描述信息可以整合到一起，直接存入数据库中。背景图像是与目标对象的轨迹一起获得的，在持久化的时候，他们的时间段具有对应关系。

根据用户查询请求，生成浓缩视频的过程。用户在请求时，需要指定时间范围和浓缩视频的长度。查询条件一般默认只考虑时间范围，将该范围内所有轨迹筛选出来；还可以结合场景包括结构化描述信息等。浓缩视频的长度需要指定，涉及到后续轨迹编排重组的方案生成。根据选定的时间范围在数据库中查询符合条件的轨迹、背景和原始视频，经过处理后得到对应的浓缩结果。浓缩视频的长度应当根据实际场景选择适当值，太长则处理时间较长，太短则视觉效果可能会退化。本方案根据一些典型场景结合素材本身特性，给出几个默认配置，供用户选择。若不指定则由默认配置中选定一个最优的经验值。生成浓缩的大致流程如图5所示。

查询原始视频。在处理视频浓缩请求时，一般是指定一段时间范围，请求生成该段时间内原始视频对应的视频浓缩。首先要获取该段时间内对应的原始视频片段。如果指定的时间范围较长，有可能出现查询得到一系列满足条件的视频片段。它们在后续处理时分别与对应时间段的背景、轨迹一并进行处理。

查询背景。获取该段时间内对应的背景图像。如果指定的时间范围较长，有可能出现查询得到一系列满足条件的背景图像。它们对应着原始视频分段。它们在时间轴上相邻，图像本身可能存在细微的差异；这种情况下，最后生成的浓缩视频中，也会有类似延时摄影的视觉效果。当进行图像拼接的时候，需要注意轨迹同背景、原始视频的对应关系，即时间上相互对应的背景、原始视频、轨迹进行拼接，最后再按时间顺序前后串联起来，得到指定时间段的视频浓缩结果。由于在第一部分中，背景提取经过了对原始图像的缩放，在本流程中首先需要进行相应的拉升，将图像尺寸还原到原始尺寸。

根据实际情况，如果背景图像时间跨度不大，可以使用各背景图像平均得到最终的背景图像，将所有轨迹都拼接到该最终的背景图像中；如果时间跨度较大，比如明显的黑夜白天，背景图像本身差异比较明显，可优选按插值的方式根据时间轴为每条轨迹生成对应背景图像，然后将轨迹分别拼接到该背景图像中，再按顺序排列好。后一种方式处理复杂一些，但效果更好。

查询轨迹。与查询背景类似，以时间范围从数据库中获取所有满足条件轨迹信息。如背景查询所指出的，每条轨迹应找到与之对应时段的背景。

在确定目标对象的轨迹(可视为原始轨迹)之后，对获取的轨迹进行重排。

轨迹重排之前首先需要对原始轨迹进行适当的分割，获得长度适当的轨迹片段，避免个别过长轨迹带来的不良影响。例如，用户请求浓缩视频长度为10s，而查询出的轨迹为15s，如果不分割是不能把整段轨迹插到浓缩视频中的，此时就可以把15s分割为7s和8s两段短轨迹再进行处理。轨迹重排可看作一个能量函数优化问题。能量函数的设计以降低轨迹与轨迹之间重叠为主要目标。有别于基于图分割算法的优化，本申请使用了启发式的模拟退火来计算轨迹重排。模拟退火的参数根据解空间的大小预先估计设定。

轨迹重排是以轨迹片段为基本单位，整体进行。重排只涉及轨迹片段在时间轴上的移动，其空间位置保持不变，此处只涉及时间轴的搬移，既是为了降低优化难度，也是为了使浓缩结果更自然。为了进一步压缩解空间大小，对轨迹在时间轴上的平移进行了量化，最小的移动单位由用户根据实际场景指定，这样减少了部分候选移动方案。当时间范围包含的轨迹片段较多，目标浓缩结果长度较长时，模拟退火要经过较长时间收敛。为了防止出现过长的计算时间，设置了最大迭代次数，当解空间搜索达到阈值后退出搜索，返回当前的局部最值作为结果。同时也设置了提前退出的机制，当能量降低到较低水平后直接退出搜索，返回当前结果。

能量函数主要由3部分组成：

Energy＝alpha*activity+beta*collision+gamma*consistency；

alpha、beta、gamma分别为3个部分对应的权重，根据实际场景进行设置，Energy为这三个部分的加权和。优化目标有3个方面，首先尽量多包涵目标信息，然后尽量降低目标之间的重叠遮挡，最后尽量保持轨迹间的相对时序顺序。

Activity量化浓缩结果中运动目标的包含情况。每条轨迹在生成时会记录其中运动像素的总量。为了简化计算，该值由轨迹对应各帧中的bounding box的面积总和表示，在生成轨迹时预先在元信息中进行记录维护。如果某条轨迹被排除在浓缩结果以外，activity将增加轨迹对应的bounding box面积总和。该项的目的是使得浓缩结果中尽可能完整得包含所有运动轨迹目标。降低activity意味着更多的轨迹被包含在浓缩结果中。

collision量化轨迹与轨迹间的碰撞重叠，即按照指定的轨迹移动方案，轨迹间重叠的面积大小总和。轨迹间的重叠在图像拼接后，往往对用户理解图像内容有一定影响，应当尽量规避。为了简化计算，通过迭代轨迹，求取轨迹对应各帧中bounding box的并集的面积总和表示。该项的目的是尽可能降低浓缩结果中轨迹的重叠，降低collision意味着浓缩结果中轨迹两两重叠的情况更少，能获得更好的视觉效果。

consistency量化轨迹调整后时序的变化。原则上浓缩视频中各轨迹出现的先后次序，应当尽量同原始视频中保持一致，这样有助于用户对浓缩结果的理解。为了简化计算预先定义一个时序常量，每当移动方案中出现一次轨迹间先后顺序同原始视频不一致，consistency加上该常量。

轨迹重排可使得目标对象的轨迹在指定的时间轴上移动。即轨迹重排涉及轨迹片段在时间轴上的移动，其空间位置保持不变。

图像拼接。图像拼接需要原始视频片段、背景、轨迹信息和重排计划。图像拼接使用泊松编辑，实现轨迹前景与背景的无缝融合。按照上一流程中得到的重排计划，按顺序由各条轨迹中提取相应的前景目标位置信息，在原始视频中相应位置提取出前景图层，融合到背景图像中。在多图层重叠的情况下利用权重叠加(即weighted add)方式进行透明处理。图像拼接可获得浓缩视频。

本方案在进行目标检测的过程中结合了基于CNN的目标检测和分类模型，而非传统的运动检测、图分割或者背景建模等方法。故本方案支持获取可用于结构化查询的目标视觉外观描述，从而支持对轨迹进行结构化查询，可理解为根据查询请求信息对轨迹进行查询，以获取对应的浓缩视频。

本方案在进行轨迹生成的过程中综合使用了基于运动或基于外观特征的目标跟踪方法，具有较好的鲁棒性，同时基于外观的目标跟踪使得CNN目标检测的调用频率降低，一定程度上缓解了CNN目标检测耗时较长的问题。

本方案在获取了目标轨迹信息后，利用适当的CNN分类模型进一步对目标进行分析，得到可用于结构化查询的视觉外观描述信息并与轨迹信息一同持久化，从而支持对轨迹进行结构化查询。

本方案通过采用基于CNN的目标检测模型来实现前景目标的识别，以及基于CNN分类模型对前景目标进行分析，获取了对前景目标的结构化描述。该描述信息可以用于完成对目标的结构化查询，大大改善用户使用体验，提高了用户获取信息的效率。

本方案生成轨迹综合使用了基于运动、外观的跟踪模型，一方面缓解了CNN目标检测性能低下的问题，另一方面在复杂场景下相比传统仅依靠运动模型更加具有鲁棒性。

参见图6，图6是本发明实施例提供的电子设备的结构图之一，如图6所示，电子设备600包括第一获取模块601、第二获取模块602、第三获取模块603、第四获取模块604和拼接模块605。

其中，第一获取模块601，用于获取查询请求信息；

第二获取模块602，用于从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；

第三获取模块603，用于对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；

第四获取模块604，用于根据所述目标轨迹信息从原始视频中获取目标图像；

拼接模块605，用于将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频。

进一步的，所述轨迹信息集的获取过程包括：

将所述轨迹信息添加到所述轨迹信息集中。

进一步的，所述轨迹信息集的获取过程还包括：

若所述历史轨迹中的第一轨迹连续未被匹配的次数超过预设次数阈值，更新所述轨迹信息集中与所述第一轨迹对应的轨迹信息。

进一步的，所述背景图像的获取过程包括：

其中，所述目标帧为包括的目标对象少于预设阈值的帧。

电子设备600能够实现图1方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例的电子设备600，获取查询请求信息；从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；根据所述目标轨迹信息从原始视频中获取目标图像；将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频，这样，用户通过查询请求信息可获取到对应的浓缩视频，通过浓缩视频来获得所需信息，节省了用户从原始视频中查找信息的时间，提高了信息获取的效率。

参见图7，图7是本发明实施例提供的另一种电子设备的结构示意图。如图7所示，电子设备700包括：处理器701、存储器702及存储在所述存储器702上并可在所述处理器上运行的计算机程序，电子设备700中的各个组件通过总线系统703耦合在一起。可理解，总线系统703用于实现这些组件之间的连接通信。

其中，处理器701，用于获取查询请求信息；

根据所述目标轨迹信息从原始视频中获取目标图像；

进一步的，所述轨迹信息集的获取过程包括：

将所述轨迹信息添加到所述轨迹信息集中。

进一步的，所述轨迹信息集的获取过程还包括：

进一步的，所述背景图像的获取过程包括：

其中，所述目标帧为包括的目标对象少于预设阈值的帧。

电子设备700能够实现前述实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例的电子设备700，获取查询请求信息；从预获取的轨迹信息集中获取与所述查询请求信息相匹配的轨迹信息；对所述轨迹信息对应的轨迹进行轨迹重排，获得目标轨迹信息；根据所述目标轨迹信息从原始视频中获取目标图像；将所述目标图像和预获取的背景图像进行拼接，获得浓缩视频，这样，用户通过查询请求信息可获取到对应的浓缩视频，通过浓缩视频来获得所需信息，节省了用户从原始视频中查找信息的时间，提高了信息获取的效率。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述信息获取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，电子设备，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种信息获取方法，其特征在于，包括：

获取查询请求信息；

根据所述目标轨迹信息从原始视频中获取目标图像；

2.根据权利要求1所述的方法，其特征在于，所述轨迹信息集的获取过程包括：

将所述轨迹信息添加到所述轨迹信息集中。

3.根据权利要求2所述的方法，其特征在于，所述轨迹信息集的获取过程还包括：

4.根据权利要求1所述的方法，其特征在于，所述背景图像的获取过程包括：

其中，所述目标帧为包括的目标对象少于预设阈值的帧。

5.一种电子设备，其特征在于，包括：

第一获取模块，用于获取查询请求信息；

6.根据权利要求5所述的电子设备，其特征在于，所述轨迹信息集的获取过程包括：

将所述轨迹信息添加到所述轨迹信息集中。

7.根据权利要求6所述的电子设备，其特征在于，所述轨迹信息集的获取过程还包括：

8.根据权利要求5所述的电子设备，其特征在于，所述背景图像的获取过程包括：

其中，所述目标帧为包括的目标对象少于预设阈值的帧。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的信息获取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的信息获取方法的步骤。