CN115834977A

CN115834977A - 视频处理的方法、电子设备、存储介质及计算机程序产品

Info

Publication number: CN115834977A
Application number: CN202211446202.XA
Authority: CN
Inventors: 王信; 杨跃
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-03-21
Anticipated expiration: 2042-11-18
Also published as: CN115834977B

Abstract

本公开提供了一种视频处理的方法，可包括：对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，其中目标片段的第一帧图片和最后一帧图片之间存在变化量；对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片；以及响应于目标图片的数量符合数量范围阈值的判断结果，将多帧目标图片依时序进行串联，以获得目标视频。本公开还提供一种电子设备、存储介质及计算机程序产品。

Description

视频处理的方法、电子设备、存储介质及计算机程序产品

技术领域

本公开涉及视频处理领域，特别涉及一种视频处理的方法、电子设备、存储介质及计算机程序产品。

背景技术

在房子装修的过程中，大多数客户无法直接去现场查看装修进度和实时情况，为了提高客户的信任度和满意度，装修公司大多数会选择在工地安装摄像头，对工地的装修过程进行实时直播；或者，将装修视频全量留存。客户通过手机终端的应用程序(app)注册账号并绑定工地，通过app的直播观看功能或者视频回放功能，对装修的过程进行查询和验收，以实现装修过程的可视化、透明化的目的。

但是，客户观看直播的时间有限，不能实时监控施工工地的装修过程；每天的装修时长大概在8小时左右，较长的视频数据无疑增加了视频回放的时间成本，客户难以精准地把握装修进度以及关键节点的装修情况，降低了客户体验感；对于不了解装修领域的客户，更无法从全量视频数据中提取关键节点，无法对关键节点进行重点验收；全量视频数据的数据量较大，耗费硬件资源和流量。另外，视频数据不具备交互性，无法进行局部放大，不便于客户重点查看局部细节。

发明内容

本公开提供了一种视频处理的方法、电子设备、存储介质及计算机程序产品。

根据本公开的一个方面提供了一种视频处理的方法，可包括：对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，其中目标片段的第一帧图片和最后一帧图片之间存在变化量；对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片；以及响应于目标图片的数量符合数量范围阈值的判断结果，将多帧目标图片依时序进行串联，以获得目标视频。

在一些实施方式中，对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，可包括：在照片数据中提取多个目标物照片，多个目标物照片依时序构成照片序列，其中照片序列中相邻的两个目标物照片的拍摄间隔为期望时长；利用变化量识别模型，对照片序列中相邻的两个目标物照片进行变化检测，以筛选出存在变化量的相邻的两个目标物照片作为目标照片对；以及将各个目标照片对分别映射至全量视频数据，以提取多个目标片段，其中目标片段的第一帧图片和最后一帧图片依时序分别对应于目标照片对中的两个目标物照片，第一帧图片和所述最后一帧图片之间存在所述变化量。

在一些实施方式中，对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片，可可包括：依时序分别计算各段目标片段中相邻两帧图片之间的差分强度值；以及清除差分强度值小于差分阈值的图片，以保留大于或等于差分阈值的图片作为关键帧图片，其中关键帧图片的数量被差分阈值控制为期望数量。

在一些实施方式中，对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片，还可包括：在多个关键帧图片中，提取包含动作主体的多帧初筛图片；以及在各帧初筛图片中识别动作主体的动作类型，以提取具有目标动作的多帧目标图片。

在一些实施方式中，数量范围阈值为：2f＜N≤f*t，其中，f为目标视频的帧率，N为目标图片的数量，t为目标视频的最大时长。

在一些实施方式中，在响应于目标图片的数量符合数量范围阈值的判断结果，将多帧目标图片依时序进行串联，以获得目标视频之后，可包括：根据目标物的结构信息，构建目标物的三维模型，其中目标物为照片数据和全量视频数据的拍摄主体。

在一些实施方式中，在根据目标物的结构信息，构建目标物的三维模型之后，可包括：根据任一目标物照片，确定目标物中多个关键点的二维位置坐标；将各个关键点的二维位置坐标分别映射至三维模型，以确定各个关键点在三维模型中的三维位置坐标。

在一些实施方式中，在将各个关键点的二维位置坐标分别映射至三维模型，以确定各个关键点在三维模型中的三维位置坐标之后，还包括：根据各个关键点在三维模型中的三维位置坐标，将目标视频中的各个像素点映射至三维模型，以形成实景交互模型，其中实景交互模型用于根据交互指令对交互指令中的目标空间进行放大操作和空间进入操作，实景交互模型还用于根据交互指令展示目标视频中对应于目标空间的变化过程。

在一些实施方式中，在对照片数据进行变化检测，以在全量视频数据中提取多段目标片段之前，可包括：以预设拍摄间隔拍摄多个目标物照片，以形成照片数据；以及录制目标物的全量视频数据。

根据本公开的另一个方面提供了一种电子设备，可包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时，以实现如上述任一实施方式的视频处理的方法。

根据本公开的又一个方面提供了一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上述任一实施方式的视频处理的方法。

根据本公开的再一个方面提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述任一实施方式的视频处理的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本公开示例性实施方式的视频处理的方法流程图。

图2为本公开示例性实施方式的视频处理完整过程图。

图3本公开示例性实施方式的目标照片对变化量提取示意图。

图4本公开示例性实施方式的三维模型关键点确定示意图。

图5本公开示例性实施方式的实景交互模型展示图。

图6本公开示例性实施方式的视频处理的装置框图。

附图标记说明

1000 视频处理的装置

1002 目标片段提取模块

1004 目标图片提取模块

1006 目标视频生成模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

本文使用的术语是为了描述具体实施例的目的，而不是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1为本公开示例性实施方式的视频处理的方法流程图。下面将结合图1对视频处理的方法S100进行阐述。

步骤S102，对照片数据进行变化检测，以在全量视频数据中提取多段目标片段。

其中，照片数据是拍摄的目标物照片的集合，全量视频数据则为对目标物的变化过程的录制视频。

在获取照片数据和全量视频数据的过程中，采用同一采集设备，以便将照片数据中目标物照片映射至全量视频数据中。

变化检测是利用变化量识别模型对照片数据中时序相邻的目标物照片之间变化量进行提取的方式，通过变化检测可获得时序相邻的目标物照片之间的变化量。

目标片段为根据照片数据，在全量视频中截取的首尾帧图片存在变化量的视频片段。

例如，当目标物为施工建筑时，那么照片数据则包含施工建筑不同时刻的状态照片，变化量则表征相邻两个拍摄时刻的之间的施工建筑的施工量。全量视频数据录制了一天内对施工建筑的全部施工过程，当然也包含大量未施工时的静态画面。目标片段为全量视频数据中截取的首尾帧图片存在施工过程的视频片段。

步骤S104，对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片。

其中，目标片段为全量视频数据中首尾帧存在变化量的视频片段。目标动作检测为判断目标片段中存在动作主体，且动作主体执行目标动作的视频片段。

一般而言，视频是由多帧图片构成的，因此目标动作检测的目的是在目标片段中筛选出执行目标动作的多个目标图片，清除不具备目标动作的静态图片。换言之，通过目标动作检测，可处理出使目标片段的首尾帧出现变化量的关键步骤图片，实现了对全量视频数据的进一步处理。

例如，当目标物为施工建筑时，目标图片为目标片段中执行施工动作的图片，而删减的目标片段中的其它帧图片则为未施工的静止画面。通过目标动作检测，可以对全量视频数据在目标片段的基础上进行进一步地处理，为用户查询、监控施工过程提供更精准的施工视频。

步骤S106，响应于目标图片的数量符合数量范围阈值的判断结果，将多帧目标图片依时序进行串联，以获得目标视频。

其中，数量范围阈值用于通过控制目标图片的数量来调控目标视频的播放时长，以便将目标视频的播放时长控制在期望时长的范围中。目标视频包含了目标物的变化过程，且播放时间处于合理范围，可为用户提供有意义的变化过程视频，也不会提升用户的观看时间成本。

若经过步骤S102和步骤S104的处理之后，获取的目标图片的数量超过数量范围阈值的上限，那么获得的目标视频的播放时间较长，用户观看目标视频时需要花费较长的时间成本，不利于用户查询和监控，也会降低用户体验。若获取的目标图片的数量低于数量范围阈值的下限，那么目标视频较短，不具备可参考性，例如用户无法通过1秒钟的视频了解施工建筑一天内的施工过程。

基于此，通过等时间间隔的删减目标图片的方式减少目标图片的数量，进而实现压缩目标视频的播放时间的目的。或者，不生成低于数量范围阈值的下限的目标视频，以避免用户的无意义观看。

例如，当目标物为施工建筑时，且全量视频数据的录制周期为一天时，目标视频可为用户提供一天内的大部分施工过程，减少用户观看未施工静止画面的时长。可将一天中8小时的施工时间压缩为体现施工过程的几分钟时间，提升了用户的查询和监控体验。

图2为本公开示例性实施方式的视频处理完整过程图。视频处理的过程主要包括：摄像头部署；对摄像头拍摄的相邻目标物照片进行变化检测，当没有变化(即判断结果为N)时，丢弃对应时间段视频，当存在变化(即判断结果为Y)时，下载视频(即目标片段)；对目标片段进行帧间差分；对各个目标片段进行动作主体检测(行人检测)和动作类型识别(即行为识别)；最后设置组合策略，将处理后多个目标图片进行串联，以生成目标视频(即生成短视频)。另外，还可将目标视频与利用BIM或者CAD建立的实景交互模型(即房屋3D模型)进行自动标定，已实现3D视频融合，以便用户通过摄像头绑定的app账号进行客户查验。下面将结合图2对视频处理的完整过程进行阐述。

在一些实施方式中，步骤S102的具体执行过程可为：在照片数据中提取多个目标物照片，多个目标物照片依时序构成照片序列；利用变化量识别模型，对照片序列中相邻的两个目标物照片进行变化检测，以筛选出存在变化量的相邻的两个目标物照片作为目标照片对；以及将各个目标照片对分别映射至全量视频数据，以提取多个目标片段，其中目标片段的第一帧图片和最后一帧图片依时序分别对应于目标照片对中的两个目标物照片，第一帧图片和最后一帧图片之间存在变化量。

其中，照片序列中相邻的两个目标物照片的拍摄间隔为期望时长，期望时长对应于对目标片段的截取时长，可设置为10分钟。

照片数据中各个时序相邻目标物照片的拍摄间隔可为2分钟，那么当期望时长设置为10分钟时，可提取照片数据中拍摄的第一张目标物照片、第五张目标物照片、第十张目标物照片(以此类推)等构成照片序列。

如图3所示，变化量识别模型是一种卷积神经网络，在利用大量训练样本进行学习之后，可识别输入的两张图片之间的差异，并精准输出二者的变化量。更具体地，向变化量识别模型中输入长C、宽W和高H的Pre-change image(预变图片)、及长C、宽W和高H的Post-change image(变化后图片)，经过变化量识别模型的change-former(变化模型)算法对照片序列中时序相邻的两张目标物照片进行差异识别，以形成长N_cls、宽W和高H的二进制变化地图。其中，Pre-change image即为目标照片对中时序靠前的目标物照片、Post-changeimage为目标照片对中时序靠后的目标物照片，二进制变化地图可表征变化量。

变化量识别模型执行change-former算法时涉及的具体运算方式为现有技术，不再赘述。

当输入变化量识别模型的两个时序相邻的目标物照片之间存在变化量时，则以这两个时序相邻的目标物照片为目标照片对，目标物在目标照片对之间的拍摄间隔中存在变化过程，那么将保留二者之间的对应视频；反之，则证明目标物在目标照片对之间的拍摄间隔中没有变化，没有变化即没有变化动作，那么将丢弃对应时间段视频，以节省流量和计算资源。

在一些实施方式中，可利用视频提取工具ffmpeg下载视频，即目标照片对之间的目标片段。当然，也可利用其他视频提取工具进行下载，在此不做限制。

在一些实施方式中，为了过滤掉目标片段中的冗余图片，例如静止画面对应的图片，同时保留主要的变化过程，可以在步骤S104中设置帧间差分的方式得到关键帧图片。

具体地，步骤S104的执行步骤可包括：依时序分别计算各段目标片段中相邻两帧图片之间的差分强度值；以及清除差分强度值小于差分阈值的图片，以保留大于或等于差分阈值的图片作为关键帧图片，其中关键帧图片的数量被差分阈值控制为期望数量。

更具体地，以目标物为施工建筑为例，施工建筑的施工片段则可包括第一帧图片、第二帧图片、第三帧图片至第n帧图片，以施工片段的第一帧图片作为关键帧图片，首先计算第一帧图片与第二帧图片的差分强度值，二者之间的差分强度值大于或等于差分阈值时，保留第二帧图片，并以第二帧图片作为新的关键帧图片，计算第二帧图片和与其相邻且时序在其后的图片之间的差分强度值；若二者之间的差分强度值小于差分阈值时，说明二者之间的差异较小、变化量不具有参考性，此时清除第二帧图片。进一步地，在清除第二帧图片之后，第一帧图片与第三针帧图片为相邻图片，那么计算二者之间的差分强度值，若二者之间的差分强度值小于差分阈值时，此时清除第三帧图片，依时序计算第一帧图片与后续图片之间的差分强度值；当二者之间的差分强度值大于或等于差分阈值时，保留第三帧图片，并以第三帧图片作为新的关键帧图片，计算第三帧图片和与其相邻且时序在其后的图片之间的差分强度值，清楚差分强度值小于差分阈值的图片，以保留大于或等于差分阈值的图片作为关键帧图片，步骤与前述相同，不再一一列举。

其中，差分强度值用于表征相邻两帧图片之间的变化量，差分强度值越大，变化量越明显；反之，变化量不明显，二者差异较小不具有参考性。差分阈值用于过滤差分强度值不满足要求的图片，因此可通过控制差分阈值的大小来控制关键帧图片的期望数量。关键帧图片的期望数量根据对最终生成的目标视频的时长设定，在此不具体限定。

在一些实施方式中，当目标物的两帧图片之间存在变化量时，意味着有动作主体的出现(即行人检测)，并且该动作主体还执行了会使目标物变化的目标动作。以目标物为施工建筑为例，动作主体为施工人员，目标动作为施工动作，当施工人员执行施工动作时，才可使施工建筑产生变化量。

基于此，在获得了关键帧图片之后，步骤S104的执行步骤还可包括：在多个关键帧图片中，提取包含动作主体的多帧初筛图片；以及在各帧初筛图片中识别动作主体的动作类型，以提取具有目标动作的多帧目标图片。

具体地，检测各个关键帧图片是否存在动作主体(例如施工人员)，如果没有出现动作主体，则下一个帧画面中目标物不会被改变，那么过滤掉该无意义图片；对于出现动作主体的关键帧图片，则检测图片中的动作主体的坐标点，并根据坐标点的值对该关键帧图片进行裁剪，以提取关键帧图片中动作主体部分，清洗掉背景的部分，避免在后续对初筛图片进行动作类型的识别过程中，受到背景的干扰。

进行动作主体的检测时，可采用特征提取算法yolo v3进行动作主体的识别。yolov3的检测步骤主要为：在关键帧图片中识别动作主体；进而确定动作主体的位置，即确定其在关键帧图片中的坐标点。具体地，将各个关键帧图片分别输入至yolo v3中，yolo v3会将其转化为不同尺寸的三个网格图片，利用每个网格图片的先验框试探框中是否有动作主体，如果有则框起来；对各个框的位置和概率得分进行排序，提取概率得分最大的框作为终极边界框，那么即可在关键帧图片中找到动作主体。当然，根据网格图片中各个网格的坐标点，即可推断出动作主体在关键帧图片中的坐标点。yolo v3为常规的特征提取算法，仅简要概括其实现方式，不再过多赘述。

在获取了包含动作主体的初筛图片之后，利用分类模型对各帧初筛图片进行分类，以将初筛图片中动作主体的动作类型分类至对应类别。

具体地，提前收集目标物对应的工地环境的多个图像数据，按照前述步骤对图像数据进行处理，以获得多个初筛图片样本，该初筛图片样本为多个具有动作主体的样本图片，用于对分类模型resnet18进行训练。当然，训练之前还要根据需求确定多个动作类型，例如行走、站立和其他。动作类别的数量与训练的分类模型的数量一致。利用包含有大量具有动作主体的样本图片的初筛图片样本对各个分类模型进行训练，通过设置不同的分类期望值，可调整各个分类模型的内部参数进行调整，直至可根据输入的样本图片输出对应的动作类型，那么证明该分类模型训练完毕。此时，该分类器整合了三种分类模型，可根据输入的图片，输出对应的动作类型。

将包含动作主体的初筛图片输入至分类器中，即可由该分类器进行处理和分类，进而输出对应于该初筛图片中动作主体的动作类型(即行为识别)。当动作主体为施工人员时，清除行走和站立对应的初筛图片，保留其他动作类型对应的初筛图片为目标图片，其中，其他动作类型为目标动作的动作类型。

通过对动作主体和目标动作的筛选，进一步提取了具有实际施工动作、且造成实际变化量的目标图片，生成短视频，以浓缩全量视频数据。

在一些实施方式中，在目标视频帧率一定的情况下，目标视频的播放时长受目标图片数量的影响，因此为了保证目标视频的浓缩、省时效果，同时保证目标视频具有参考、查询意义，目标视频中的目标图片的数量应该处于合理的数量范围阈值。

其中，数量范围阈值为：2f＜N≤f*t，f为目标视频的帧率，N为目标图片的数量，t为目标视频的最大时长(单位为s)。

低于2秒的视频不具备查询意义，其无法展示变化量的重点实现过程(例如重点施工过程)。高于最大时长t的目标视频，播放时长过长，不具备浓缩视频、提高用户查询质量的效果。

基于此，当目标图片的数量N少于2f时，不生成目标视频。当目标图片的数量N大于或等于f*t时，以预设数量间隔过滤目标图片，以减少目标图片的数量；例如，以2为预设数量间隔，那每隔两张目标图片删除一张目标图片。当然，也可为其他过滤方式，不一一列举。

在一些实施方式中，在步骤S106之后，还包括：根据目标物的结构信息，构建目标物的三维模型，其中目标物为照片数据和全量视频数据的拍摄主体。

构建目标物的三维模型可采用三维模型构建工具BIM或CAD。例如，当目标物为施工建筑时，在BIM或CAD中输入施工建筑的户型图，该户型图可表征目标物的结构信息，BIM或CAD可根据该结构信息建立三维模型(即房屋3D模型)。三维模型的构建，便于将目标视频与实际场景结合，能够给用户身临其境的观看体验。

在一些实施方式中，在生成三维模型之后，还包括：根据任一目标物照片，确定目标物中多个关键点的二维位置坐标；以及将各个关键点的二维位置坐标分别自动标定至三维模型，以确定各个关键点在三维模型中的三维位置坐标。

如图4所述，利用Ulsd算法，自动选取目标物中的相应关键点，将三维模型通过俯视图生成二维模型，以方便图片与模型的匹配；然后，利用cost矩阵进行线段匹配，根据关键点的二维位置坐标确定其在三维模型的三维位置坐标，再利用坐标转换算法(调用opencv中的solvePnP函数即可)，得到像素坐标系与世界坐标系之间的转换参数，为后续步骤中将目标视频中各个像素坐标转换成三维坐标做准备。

在一些实施方式中，在获得了各个关键点的三维位置坐标之后，还包括：根据各个关键点在三维模型中的三维位置坐标，将目标视频中的各个像素点映射至三维模型，以形成实景交互模型(即3D视频融合)。

其中，像素点映射至三维模型的过程，涉及了像素坐标与三维坐标的转换，可利用前述的像素坐标系与世界坐标系之间的转换参数实现。实景交互模型用于根据交互指令对交互指令中的目标空间进行放大操作和空间进入操作，实景交互模型还用于根据交互指令展示目标视频中对应于目标空间的变化过程。

当施工建筑为目标物时，实景交互模型的实际效果如图5所示。用户可通过嵌入app(应用程序)的h5界面，看到施工人员对入户门、客厅、卫生间、主卧、阳台的施工状态、施工过程等。其中，卫生间和阳台处于未安装状态。通过实景交互模型，将施工状态和施工过程针对性地展示给用户，避免了用户观看冗余视频的时间成本，提升了用户对施工建筑的查询监控效率。

在一些实施方式中，在步骤S102之前，首先在目标物的环境中(例如施工建筑的工地)部署鱼眼摄像头，以尽量覆盖更多的作业范围。将鱼眼摄像头绑定在用户的app上，可为用户提供实时施工直播。

另外，该摄像头还以预设拍摄间隔(例如2分钟)拍摄多个目标物照片，以形成照片数据。同时，还录制目标物的全量视频数据。若施工周期为8小时，那么全量视频数据的录制时长也为8小时。

根据本公开的视频处理的方法，能够在全量视频数据中提取包含施工过程的目标图片，进而使得由目标图片形成的目标视频能够完整展示施工进度，同时具备较短的播放时长，为用户摘取有意义的部分，过滤无意义的静止画面，节省了下载视频的流量成本、和用户观看视频的时间成本。另外，将视频和三维模型融合，生成实景交互模型，支持放大、缩小、旋转、单空间进入等沉浸式查询方式，进一步提升了用户的观看和查询体验。

图6本公开示例性实施方式的视频处理的装置框图。

如图6所示，根据本公开的一个方面提供了一种视频处理的装置1000，可包括：目标片段提取模块1002，用于对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，其中目标片段的第一帧图片和最后一帧图片之间存在变化量；目标图片提取模块1004，用于对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片；以及目标视频生成模块1006，用于响应于目标图片的数量符合数量范围阈值的判断结果，将多帧目标图片依时序进行串联，以获得目标视频。

视频处理的装置1000的各个模块是用于实现视频处理的方法的各个步骤而提出的，因此其实现方式、原理等，均与视频处理的方法中的相关描述对应，可参考前文，不再赘述。

该装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

根据本公开的视频处理的装置，能够在全量视频数据中提取包含施工过程的目标图片，进而使得由目标图片形成的目标视频能够完整展示施工进度，同时具备较短的播放时长，为用户摘取有意义的部分，过滤无意义的静止画面，节省了下载视频的流量成本、和用户观看视频的时间成本。另外，将视频和三维模型融合，生成实景交互模型，支持放大、缩小、旋转、单空间进入等沉浸式查询方式，进一步提升了用户的观看和查询体验。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现视频处理的方法，该方法可包括：对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，其中目标片段的第一帧图片和最后一帧图片之间存在变化量；对各段目标片段中各帧图片进行目标动作检测，以获得具备目标动作的多帧目标图片；以及响应于目标图片的数量符合数量范围阈值的判断结果，将多帧目标图片依时序进行串联，以获得目标视频。

本公开还提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现本公开任一个实施方式的实现视频处理的方法。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种视频处理的方法，其特征在于，包括：

对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，其中所述目标片段的第一帧图片和最后一帧图片之间存在变化量；

对各段所述目标片段中各帧图片进行目标动作检测，以获得具备所述目标动作的多帧目标图片；以及

响应于所述目标图片的数量符合数量范围阈值的判断结果，将多帧所述目标图片依时序进行串联，以获得目标视频。

2.根据权利要求1所述的视频处理的方法，其特征在于，所述对照片数据进行变化检测，以在全量视频数据中提取多段目标片段，包括：

在照片数据中提取多个目标物照片，多个所述目标物照片依时序构成照片序列，其中所述照片序列中相邻的两个所述目标物照片的拍摄间隔为期望时长；

利用变化量识别模型，对所述照片序列中相邻的两个所述目标物照片进行变化检测，以筛选出存在变化量的相邻的两个所述目标物照片作为目标照片对；以及

将各个所述目标照片对分别映射至所述全量视频数据，以提取多个目标片段，其中所述目标片段的第一帧图片和最后一帧图片依时序分别对应于所述目标照片对中的两个所述目标物照片，所述第一帧图片和所述最后一帧图片之间存在所述变化量。

3.根据权利要求1所述的视频处理的方法，其特征在于，所述对各段所述目标片段中各帧图片进行目标动作检测，以获得具备所述目标动作的多帧目标图片，包括：

依时序分别计算各段所述目标片段中相邻两帧图片之间的差分强度值；以及

清除所述差分强度值小于差分阈值的图片，以保留大于或等于所述差分阈值的图片作为关键帧图片，其中所述关键帧图片的数量被所述差分阈值控制为期望数量。

4.根据权利要求3所述的视频处理的方法，其特征在于，所述对各段所述目标片段中各帧图片进行目标动作检测，以获得具备所述目标动作的多帧目标图片，还包括：

在多个所述关键帧图片中，提取包含动作主体的多帧初筛图片；以及

在各帧所述初筛图片中识别所述动作主体的动作类型，以提取具有目标动作的多帧目标图片。

5.根据权利要求1所述的视频处理的方法，其特征在于，在所述响应于所述目标图片的数量符合数量范围阈值的判断结果，将多帧所述目标图片依时序进行串联，以获得目标视频之后，包括：

根据目标物的结构信息，构建所述目标物的三维模型，其中所述目标物为所述照片数据和所述全量视频数据的拍摄主体。

6.根据权利要求5所述的视频处理的方法，其特征在于，在所述根据目标物的结构信息，构建所述目标物的三维模型之后，包括：

根据任一所述目标物照片，确定所述目标物中多个关键点的二维位置坐标；以及

将各个所述关键点的二维位置坐标分别映射至所述三维模型，以确定各个所述关键点在所述三维模型中的三维位置坐标。

7.根据权利要求6所述的视频处理的方法，其特征在于，在所述将各个所述关键点的二维位置坐标分别映射至所述三维模型，以确定各个所述关键点在所述三维模型中的三维位置坐标之后，包括：

根据各个所述关键点在所述三维模型中的三维位置坐标，将所述目标视频中的各个像素点映射至所述三维模型，以形成实景交互模型，其中所述实景交互模型用于根据交互指令对所述交互指令中的目标空间进行放大操作和空间进入操作，所述实景交互模型还用于根据所述交互指令展示所述目标视频中对应于所述目标空间的变化过程。

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1至7中任一项所述的视频处理的方法。

9.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至7中任一项所述的视频处理的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的视频处理的方法。