CN113132690B

CN113132690B - 施工过程视频的生成方法、装置以及电子设备、存储介质

Info

Publication number: CN113132690B
Application number: CN202110437435.2A
Authority: CN
Inventors: 王信; 王冲冲; 贾忠良
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beijing Fangjianghu Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-11-08
Anticipated expiration: 2041-04-22
Also published as: CN113132690A

Abstract

本公开提供了一种施工过程视频的生成方法、装置以及电子设备、存储介质，涉及图像处理技术领域，其中的方法包括：对原始视频进行抽帧处理，获得第一图像帧；对第一图像帧进行异常采集角度过滤处理，获得第二图像帧；基于帧间差分信息获得预设数量的第一关键帧；对第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧；对第二关键帧进行人员动作识别处理，选取目标帧；基于目标帧生成目标视频；本公开的方法、装置以及电子设备、存储介质，能够生成施工短视频，提高客户查验效率，使客户能够快速了解装修工地状况，缩短客户查验工地施工情况的时间，使客户更具针对性、目的性地进行在线查验，有效改善了客户体验。

Description

施工过程视频的生成方法、装置以及电子设备、存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种施工过程视频的生成方法、装置以及电子设备、存储介质。

背景技术

在房屋装修领域，一些客户因为工作繁忙而不能直接去现场查看装修的进度和情况，为了提高客户的信任度，装修公司通常会选择在装修工地安装摄像头，对工地现场进行实时直播，或者将现场视频全量留存，供客户查询和验收。例如，在装修工地安装摄像头，客户通过手机终端APP注册账号并绑定工地摄像头，装修公司提供直播观看和视频回放的功能，最终达到装修工地线上可视化，透明化的目的。但是，客户因为工作繁忙等原因观看直播时间有限，不能很好的监控施工工地，并且，一般工地每天工作八小时，这么长的视频数据，查看本地回放耗时耗力，客户体验度不够友好，同时，很多客户对装修领域不够了解，不能很好的把握装修的细节和要点。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种施工过程视频的生成方法、装置以及电子设备、存储介质。

根据本公开实施例的第一方面，提供一种施工过程视频的生成方法，包括：步骤一、根据预设的视频抽帧策略，对视频采集设备对于施工现场采集的原始视频进行抽帧处理，获得第一图像帧；步骤二、基于预设的采集角度过滤策略，对所述第一图像帧进行异常采集角度过滤处理，获得第二图像帧；步骤三、确定相邻的两个第二图像帧之间的帧间差分信息，基于所述帧间差分信息获得预设数量的第一关键帧；步骤四、基于预设的人员检测策略对所述第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧；步骤五、对所述第二关键帧进行人员动作识别处理，用以从所述第二关键帧中选取目标帧；步骤六、基于所述目标帧生成与所述施工现场相对应的目标视频。

可选地，所述采集角度过滤策略包括：地面面积在所述第一图像帧中的面积占比范围；所述基于预设的采集角度过滤策略，对所述第一图像帧进行异常采集角度过滤处理包括：使用图像分割模型对所述第一图像帧进行识别，用于获取所述第一图像帧中的地面面积和非地面面积；基于所述地面面积和所述非地面面积，确定此地面面积在所述第一图像帧的图像面积中的面积占比；如果所述面积占比在所述面积占比范围之内，则选取此第一图像帧作为第二图像帧；如果所述面积占比在所述面积占比范围之外，则滤除此第一图像帧。

可选地，预设数量为N；所述确定相邻的两个第二图像帧之间的帧间差分信息，基于所述帧间差分信息获得预设数量的第一关键帧包括：依次获取在采集时间上相邻的两个第二图像帧，计算所述两个第二图像帧之间的帧间差分，获得帧间差分强度；对所述帧间差分强度进行排序处理，基于排序结果选取N个最大帧间差分强度相对应的N对第二图像帧；将所述各对第二图像帧中的、在采集时间上靠后的第二图像帧，确定为所述第一关键帧。

可选地，所述基于预设的人员检测策略对所述第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理包括：使用人员检测模型对所述第一关键帧进行检测，如果在所述第一关键帧中有人员，则确定在所述第一关键帧中的人员坐标，并基于所述人员坐标对所述第一关键帧进行裁剪处理，生成所述第二关键帧；使用人员检测模型对所述第一关键帧进行检测，如果在所述第一关键帧中没有人员，则将所述第一关键帧滤除。

可选地，所述对所述第二关键帧进行人员动作识别处理，用以从所述第二关键帧中选取目标帧包括：使用行为识别模型对所述第二关键帧进行识别处理，用以识别所述第二关键帧中人员的动作类型；设置目标动作类型，将所述动作类型与所述目标动作类型相匹配的第二关键帧，作为所述目标帧。

可选地，获取所述目标视频的帧率、最小时长和最大时长；如果所述目标帧的数量小于所述最小时长与所述帧率的乘积，则不生成所述目标视频；如果所述目标帧的数量大于所述最大时长与所述帧率的乘积，则循环执行步骤二至步骤五，直至使所述目标帧的数量小于或等于所述最大时长与所述帧率的乘积。

可选地，在所述目标视频生成之后，基于所述视频采集设备与APP账号的绑定关系将所述目标视频与所述APP账号进行绑定处理，将所述目标视频存储在云端；当接收与所述APP账号相对应的视频请求时，返回所述目标视频。

根据本公开实施例的第二方面，提供一种施工过程视频的生成装置，包括：抽帧处理模块，用于根据预设的视频抽帧策略，对视频采集设备对于施工现场采集的原始视频进行抽帧处理，获得第一图像帧；过滤处理模块，用于基于预设的采集角度过滤策略，对所述第一图像帧进行异常采集角度过滤处理，获得第二图像帧；关键帧获取模块，用于确定相邻的两个第二图像帧之间的帧间差分信息，基于所述帧间差分信息获得预设数量的第一关键帧；裁剪处理模块，用于基于预设的人员检测策略对所述第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧；目标帧获取模块，用于对所述第二关键帧进行人员动作识别处理，用以从所述第二关键帧中选取目标帧；视频生成模块，用于基于所述目标帧生成与所述施工现场相对应的目标视频。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的方法。

根据本公开实施例的第四方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述的方法。

基于本公开上述实施例提供的施工过程视频的生成方法、装置以及电子设备、存储介质，通过抽帧策略、视频角度识别并利用帧间差分技术提取关键帧，利用人体检测、行为识别等深度学习技术，过滤掉无意义图像帧，基于目标帧生成目标视频；能够生成施工短视频，提高客户查验效率，使客户能够快速了解装修工地状况，缩短客户查验工地施工情况的时间；通过施工关键节点识别，使得客户更具针对性、目的性地进行在线查验，以较少的时间成本，达到对工地装修情况的精确掌握和了解的目的，有效改善了客户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本公开的施工过程视频的生成方法的一个实施例的流程图；

图2为本公开的施工过程视频的生成方法的一个实施例中的进行抽帧处理的流程图；

图3为本公开的施工过程视频的生成方法的一个实施例中的进行异常采集角度过滤处理的流程图；

图4为U-net网络结构图；

图5为本公开的施工过程视频的生成方法的一个实施例中的获得第一关键帧的流程图；

图6为本公开的施工过程视频的生成方法的一个实施例中的进行裁剪处理的流程图；

图7为Darknet53的结构示意图。

图8为本公开的施工过程视频的生成方法的一个实施例中的选取目标帧的示意图；

图9为本公开的施工过程视频的生成装置的一个实施例的结构示意图；

图10是本公开的电子设备的一个实施例的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，装修公司在装修工地安装摄像头，对工地现场进行实时直播，或者将现场视频全量留存，供客户查询和验收。但是，客户因为工作繁忙等原因观看直播时间有限，并且，查看本地回放耗时耗力，客户体验度不够友好，同时，很多客户对装修领域不够了解，不能很好的把握装修的细节和要点，因此，需要一种新的施工过程视频的生成技术方案。

本公开提供的施工过程视频的生成方法，根据预设的视频抽帧策略，对原始视频进行抽帧处理，获得第一图像帧；对第一图像帧进行异常采集角度过滤处理，获得第二图像帧；基于帧间差分信息获得预设数量的第一关键帧；对第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧；对第二关键帧进行人员动作识别处理，选取目标帧；基于目标帧生成目标视频；能够生成施工短视频，提高客户查验效率，使客户能够快速了解装修工地状况，缩短客户查验工地施工情况的时间；通过施工关键节点识别，使得客户更具针对性、目的性地进行在线查验，以较少的时间成本，达到对工地装修情况的精确掌握和了解的目的，有效改善了客户体验。

示例性方法

本公开中的步骤标号，例如“步骤一”、“步骤二”、“S101”、“S102”等，仅为了区分不同步骤，不代表步骤之间的先后顺序，具有不同标号的步骤在执行时可以调整顺序。

图1为本公开的施工过程视频的生成方法的一个实施例的流程图，如图1所示的方法包括步骤：S101-S106。下面对各步骤分别进行说明。

S101，根据预设的视频抽帧策略，对视频采集设备对于施工现场采集的原始视频进行抽帧处理，获得第一图像帧。

在一个实施例中，视频采集设备可以为摄像头等，施工现场可以为目标房间进行装修的现场，目标房间可以为客厅、卧室等。可以对摄像头在4小时、18小时等时段内对装修现场采集的原始视频进行抽帧处理，可以使用多种视频抽帧策略。预先将视频采集设备与用户的APP账号进行绑定关系。例如，在施工工地部署摄像头，摄像头尽量能覆盖到更多的施工作业范围，将摄像头绑定在已经注册的APP账号上。

S102，基于预设的采集角度过滤策略，对第一图像帧进行异常采集角度过滤处理，获得第二图像帧。

S103，确定相邻的两个第二图像帧之间的帧间差分信息，基于帧间差分信息获得预设数量的第一关键帧。

S104，基于预设的人员检测策略对第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧。

在一个实施例中，人员可以为施工人员等，施工人员可以为工人等。可以使用多种人员检测策略对第一关键帧进行过滤处理。

S105，对第二关键帧进行人员动作识别处理，用以从第二关键帧中选取目标帧。

S106，基于目标帧生成与施工现场相对应的目标视频。可以使用现有的多种方法使用目标帧(图片)生成目标视频。

在目标视频生成之后，基于视频采集设备与APP账号的绑定关系将目标视频与APP账号进行绑定处理，将目标视频存储在云端。当接收与APP账号相对应的视频请求时，向用户的手机返回目标视频。

本公开的施工过程视频的生成方法，通过分析摄像头收集到的数据，以抽帧策略、视频角度识别并利用帧间差分技术提取关键帧，利用人体检测、行为识别等深度学习技术，过滤掉更深层次的无意义图像帧，使用保留的图像帧自动生成一个带有施工节点等属性的短视频，可以在手机终端的APP中展示，能够让客户快速了解装修工地状况，缩短客户查验工地施工情况的时间，使客户能以1-2分钟的时间对长时间(例如一整天)的施工内容有一个清晰的回顾，同时可以引导客户了解装修技术点，从专业的角度出发，让客户以极少的时间成本，达到对工地装修情况的精确掌握和了解的目的。

视频抽帧策略可以为多种。图2为本公开的施工过程视频的生成方法的一个实施例中的进行抽帧处理的流程图，如图2所示的方法包括步骤：S201-S203。下面对各步骤分别进行说明。

S201，设置抽帧频率，并获取原始视频的视频帧率。

S202，基于视频帧率和抽帧频率，确定抽帧间隔。

S203，根据抽帧间隔对原始视频进行抽帧处理。

通过对摄像头采集的原始视频进行抽帧处理，可以减少视频序列中的冗余特征。可以设置多种抽帧策略，通过抽帧策略可以在保证目标视频能够反映作业实际情况的前提下，提高算法处理效率。例如，设置抽帧公式为：

n＝FPS/HZ (1-1)；

其中，n表示抽帧间隔，FPS表示视频帧率，HZ为抽帧频率。

采集角度过滤策略包括：地面面积在第一图像帧中的面积占比范围等。图3为本公开的施工过程视频的生成方法的一个实施例中的进行异常采集角度过滤处理的流程图，如图3所示的方法包括步骤：S301-S305。下面对各步骤分别进行说明。

S301，使用图像分割模型对第一图像帧进行识别，用于获取第一图像帧中的地面面积和非地面面积。

在一个实施例中，可以采用多种训练好的深度学习模型对第一图像帧进行识别，获取第一图像帧中的地面面积和非地面面积。图像分割模型包括现有的U-net卷积神经网络模型等。

S302，基于地面面积和非地面面积，确定此地面面积在第一图像帧的图像面积中的面积占比。

S303，判断面积占比是否在面积占比范围之内，如果是，则进入步骤S304，如果否，则进入步骤S305。

S304，选取此第一图像帧作为第二图像帧。

S305，滤除此第一图像帧。

在一个实施例中，视频中可能会存在摄像头角度异常的图像数据，会影响用户体验，对于摄像头采集的视频中的拍摄异常角度需要进行过滤。U-net卷积神经网络是全卷积神经网络的一种变形，结构形似字母U，如图4所示。U-net卷积神经网络由两部分组成：搜索路径(contracting path)和扩展路径(expanding path)。搜索路径用来捕捉图片中的上下文信息，扩展路径为了对图片中所需要分割出来的部分进行精准定位。

使用训练好的U-net卷积神经网络对第一图像帧进行识别，将整个图像空间分成地面和非地面，获取第一图像帧中的地面面积和非地面面积；基于地面面积和非地面面积，确定此地面面积在第一图像帧的图像面积中的面积占比。

例如，面积占比范围可以设置为1/4-1/2，如果地面面积占整个第一图像帧的面积的面积占比在1/4-1/2之内，即1/4≤面积占比≤1/2，则选取此第一图像帧作为第二图像帧；如果地面面积占整个第一图像帧的面积的面积占比在1/4-1/2之外，即面积占比<1/4，或面积占比>1/2，则滤除此第一图像帧。

基于相邻的两个第二图像帧之间的帧间差分信息获得预设数量的第一关键帧可以采用多种方法，预设数量为N。图5为本公开的施工过程视频的生成方法的一个实施例中的获得第一关键帧的流程图，如图5所示的方法包括步骤：S501-S503。下面对各步骤分别进行说明。

S501，依次获取在采集时间上相邻的两个第二图像帧，计算两个第二图像帧之间的帧间差分，获得帧间差分强度。

S502，对帧间差分强度进行排序处理，基于排序结果选取N个最大帧间差分强度相对应的N对第二图像帧。

S503，将各对第二图像帧中的、在采集时间上靠后的第二图像帧，确定为第一关键帧。

在一个实施例中，在对第一图像帧进行异常采集角度过滤处理之后，第二图像帧中仍然会有很多冗余信息，可以采用帧间差分算法得到关键帧。帧间差分法是一种通过对视频图像序列的连续两帧图像做差分运算获取运动目标轮廓的方法。当监控场景中出现异常目标运动时，相邻两帧图像之间会出现较为明显的差别，两帧相减，求得图像对应位置像素值差的绝对值，判断其是否大于某一阈值，进而分析视频或图像序列的物体运动特性。

可以使用现有的多种帧间差分法计算两个第二图像帧之间的帧间差分，计算结果为帧间差分强度。对帧间差分强度进行排序，取强度靠前的前N张第二图像帧作为第一关键帧。

对第一关键帧进行过滤处理并进行裁剪处理可以采用多种方法。图6为本公开的施工过程视频的生成方法的一个实施例中的进行裁剪处理的流程图，如图6所示的方法包括步骤：S601-S602。下面对各步骤分别进行说明。

S601，使用人员检测模型对第一关键帧进行检测，如果在第一关键帧中有人员，则确定在第一关键帧中的人员坐标，并基于人员坐标对第一关键帧进行裁剪处理，生成第二关键帧。

在一个实施例中，人员检测模型可以为多种神经网络模型，例如为现有的YOLOv3神经网络模型等。通过YOLOv3神经网络模型等检测第一关键帧中的人员。

S602，使用人员检测模型对第一关键帧进行检测，如果在第一关键帧中没有人员，则将第一关键帧滤除。

在一个实施例中，由于没有施工人员(工人)出现的画面通常是静止不变的，因此需要使用训练好的YOLOv3神经网络模型等检测第一关键帧中有没有出现施工人员。YOLOv3算法是YOLO(You Only Look Once)系列目标检测算法中的第三版，相比之前的算法，精度有显著提升。YOLOv3网络结构特征提取所采用的Darknet53结构如图7所示。

使用训练好的YOLOv3神经网络模型检测第一关键帧中有没有出现施工人员，将没有检测到施工人员的第一关键帧过滤掉，对于检测到施工人员的第一关键帧返回人体坐标点，并根据坐标值对第一关键帧进行裁剪，供后续分类使用。

对第二关键帧进行人员动作识别处理可以采用多种方法。图8为本公开的施工过程视频的生成方法的一个实施例中的选取目标帧的示意图，如图8所示的方法包括步骤：S801-S802。下面对各步骤分别进行说明。

S801，使用行为识别模型对第二关键帧进行识别处理，用以识别第二关键帧中人员的动作类型。

在一个实施例中，行为识别模型可以为多种神经网络模型，例如为现有的Resnet18分类网络模型等。使用Resnet18分类网络模型等识别第二关键帧中人员的动作类型，动作类型可以包括走动、站立不动以及其他等。

S802，设置目标动作类型，将动作类型与目标动作类型相匹配的第二关键帧，作为目标帧。

在一个实施例中，ResNet又名残差神经网络，指的是在传统卷积神经网络中加入残差学习(residual learning)的思想，解决了深层网络中梯度弥散和精度下降(训练集)的问题。Resnet18分类网络模型为ResNet分类网络模型中的一种。

可以使用现有的多种训练方法，预先生成训练集并基于训练集进行Resnet18分类网络模型训练，得到训练好的Resnet18分类网络模型，为三分类模型(识别的类别分别是走动(walk)、站立不动(stand)以及其它(other))。使用训练好的Resnet18分类网络模型对第二关键帧进行识别处理，确定施工人员属于哪种行为，过滤掉施工人员为walk和stand类别的第二关键帧。

在一个实施例中，获取目标视频的帧率、最小时长和最大时长；如果目标帧的数量小于最小时长与帧率的乘积，则不生成目标视频；如果目标帧的数量大于最大时长与帧率的乘积，则循环执行步骤S102至步骤S105，直至使目标帧的数量小于或等于最大时长与帧率的乘积。

例如，为了保证生成的目标视频最大时长有限，需要预先设置处理策略。例如，设置目标视频的最小时长为2秒、目标视频的最大时长为t分钟、目标视频的帧率为f。

如果目标帧(图片)的数量少于2*f张，则不生成短视频(低于2秒的视频对客户意义不大)；在目标帧数量高于f*t*60张的情况下，按照步骤S101至步骤S105步再次进行处理，直到目标帧数量低于f*t*60张为止。假设最终过滤得到了N张图片，则最终生成的目标视频的时长设为T＝N/f。如果T的单位为秒，则最终T的取值范围为(2<＝T<＝t*60)。

示例性装置

在一个实施例中，如图9所示，本公开提供一种施工过程视频的生成装置，包括：抽帧处理模块901、过滤处理模块902、关键帧获取模块903、裁剪处理模块904、目标帧获取模块905和视频生成模块906。抽帧处理模块901根据预设的视频抽帧策略，对视频采集设备对于施工现场采集的原始视频进行抽帧处理，获得第一图像帧。过滤处理模块902基于预设的采集角度过滤策略，对第一图像帧进行异常采集角度过滤处理，获得第二图像帧。

关键帧获取模块903确定相邻的两个第二图像帧之间的帧间差分信息，基于帧间差分信息获得预设数量的第一关键帧。裁剪处理模块904基于预设的人员检测策略对第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧。目标帧获取模块905对第二关键帧进行人员动作识别处理，用以从第二关键帧中选取目标帧。视频生成模块906基于目标帧生成与施工现场相对应的目标视频。

在一个实施例中，抽帧处理模块901设置抽帧频率，并获取原始视频的视频帧率；抽帧处理模块901基于视频帧率和抽帧频率，确定抽帧间隔，根据抽帧间隔对原始视频进行抽帧处理。

采集角度过滤策略包括：地面面积在第一图像帧中的面积占比范围；过滤处理模块902使用图像分割模型对第一图像帧进行识别，用于获取第一图像帧中的地面面积和非地面面积。过滤处理模块902基于地面面积和非地面面积，确定此地面面积在第一图像帧的图像面积中的面积占比。如果面积占比在面积占比范围之内，则过滤处理模块902选取此第一图像帧作为第二图像帧，如果面积占比在面积占比范围之外，则过滤处理模块902滤除此第一图像帧。

预设数量为N，关键帧获取模块903依次获取在采集时间上相邻的两个第二图像帧，计算两个第二图像帧之间的帧间差分，获得帧间差分强度。关键帧获取模块903对帧间差分强度进行排序处理，基于排序结果选取N个最大帧间差分强度相对应的N对第二图像帧。关键帧获取模块903将各对第二图像帧中的、在采集时间上靠后的第二图像帧，确定为第一关键帧。

裁剪处理模块904使用人员检测模型对第一关键帧进行检测，如果在第一关键帧中有人员，则裁剪处理模块904确定在第一关键帧中的人员坐标。裁剪处理模块904基于人员坐标对第一关键帧进行裁剪处理，生成第二关键帧。裁剪处理模块904使用人员检测模型对第一关键帧进行检测，如果在第一关键帧中没有人员，则裁剪处理模块904将第一关键帧滤除。

目标帧获取模块905使用行为识别模型对第二关键帧进行识别处理，用以识别第二关键帧中人员的动作类型。目标帧获取模块905设置目标动作类型，将动作类型与目标动作类型相匹配的第二关键帧，作为目标帧。

视频生成模块906获取目标视频的帧率、最小时长和最大时长。如果目标帧的数量小于最小时长与帧率的乘积，则视频生成模块906不生成目标视频。如果目标帧的数量大于最大时长与帧率的乘积，则视频生成模块906使过滤处理模块、关键帧获取模块、裁剪处理模块和目标帧获取模块的功能循环执行，直至使目标帧的数量小于或等于最大时长与帧率的乘积。

视频生成模块906在目标视频生成之后，基于视频采集设备与APP账号的绑定关系将目标视频与APP账号进行绑定处理，将目标视频存储在云端。当接收与APP账号相对应的视频请求时，视频生成模块906返回目标视频。

图10是本公开的电子设备的一个实施例的结构图，如图10所示，电子设备101包括一个或多个处理器1011和存储器1012。

处理器1011可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备101中的其他组件以执行期望的功能。

存储器1012可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1011可以运行程序指令，以实现上文的本公开的各个实施例的施工过程视频的生成方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备101还可以包括：输入装置1013以及输出装置1014等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备1013还可以包括例如键盘、鼠标等等。该输出装置1014可以向外部输出各种信息。该输出设备1014可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备101中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备101还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的施工过程视频的生成方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的施工过程视频的生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

上述实施例中的施工过程视频的生成方法、装置以及电子设备、存储介质，通过抽帧策略、视频角度识别并利用帧间差分技术提取关键帧，利用人体检测、行为识别等深度学习技术，过滤掉无意义图像帧，基于目标帧生成目标视频；能够生成带有施工节点等属性的短视频，提高客户查验效率，使客户能够快速了解装修工地状况，缩短客户查验工地施工情况的时间；通过施工关键节点识别，使得客户更具针对性、目的性地进行在线查验，能够引导客户了解装修技术点，以极少的时间成本，达到对工地装修情况的精确掌握和了解的目的，有效改善了客户体验。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种施工过程视频的生成方法，包括：

步骤一、根据预设的视频抽帧策略，对视频采集设备对于施工现场采集的原始视频进行抽帧处理，获得第一图像帧；

步骤二、基于预设的采集角度过滤策略，对所述第一图像帧进行异常采集角度过滤处理，获得第二图像帧；

其中，所述采集角度过滤策略包括：地面面积在所述第一图像帧中的面积占比范围；使用图像分割模型对所述第一图像帧进行识别，用于获取所述第一图像帧中的地面面积和非地面面积；基于所述地面面积和所述非地面面积，确定此地面面积在所述第一图像帧的图像面积中的面积占比；如果所述面积占比在所述面积占比范围之内，则选取此第一图像帧作为第二图像帧；如果所述面积占比在所述面积占比范围之外，则滤除此第一图像帧；

步骤三、确定相邻的两个第二图像帧之间的帧间差分信息，基于所述帧间差分信息获得预设数量的第一关键帧；

步骤四、基于预设的人员检测策略对所述第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧；其中，使用人员检测模型对所述第一关键帧进行检测，如果在所述第一关键帧中有人员，则确定在所述第一关键帧中的人员坐标，并基于所述人员坐标对所述第一关键帧进行裁剪处理，生成所述第二关键帧；

步骤五、对所述第二关键帧进行人员动作识别处理，用以从所述第二关键帧中选取目标帧；

步骤六、基于所述目标帧生成与所述施工现场相对应的目标视频。

2.如权利要求1所述的方法，其中，预设数量为N；所述确定相邻的两个第二图像帧之间的帧间差分信息，基于所述帧间差分信息获得预设数量的第一关键帧包括：

依次获取在采集时间上相邻的两个第二图像帧，计算所述两个第二图像帧之间的帧间差分，获得帧间差分强度；

对所述帧间差分强度进行排序处理，基于排序结果选取N个最大帧间差分强度相对应的N对第二图像帧；

将所述各对第二图像帧中的、在采集时间上靠后的第二图像帧，确定为所述第一关键帧。

3.如权利要求1所述的方法，所述对通过过滤的第一关键帧进行裁剪处理包括：

使用人员检测模型对所述第一关键帧进行检测，如果在所述第一关键帧中没有人员，则将所述第一关键帧滤除。

4.如权利要求1所述的方法，所述对所述第二关键帧进行人员动作识别处理，用以从所述第二关键帧中选取目标帧包括：

使用行为识别模型对所述第二关键帧进行识别处理，用以识别所述第二关键帧中人员的动作类型；

设置目标动作类型，将所述动作类型与所述目标动作类型相匹配的第二关键帧，作为所述目标帧。

5.如权利要求1所述的方法，还包括：

获取所述目标视频的帧率、最小时长和最大时长；

如果所述目标帧的数量小于所述最小时长与所述帧率的乘积，则不生成所述目标视频；

如果所述目标帧的数量大于所述最大时长与所述帧率的乘积，则循环执行步骤二至步骤五，直至使所述目标帧的数量小于或等于所述最大时长与所述帧率的乘积。

6.如权利要求1所述的方法，还包括：

在所述目标视频生成之后，基于所述视频采集设备与APP账号的绑定关系将所述目标视频与所述APP账号进行绑定处理，将所述目标视频存储在云端；

当接收与所述APP账号相对应的视频请求时，返回所述目标视频。

7.一种施工过程视频的生成装置，包括：

抽帧处理模块，用于根据预设的视频抽帧策略，对视频采集设备对于施工现场采集的原始视频进行抽帧处理，获得第一图像帧；

过滤处理模块，用于基于预设的采集角度过滤策略，对所述第一图像帧进行异常采集角度过滤处理，获得第二图像帧；

其中，采集角度过滤策略包括：地面面积在第一图像帧中的面积占比范围；所述过滤处理模块，用于使用图像分割模型对所述第一图像帧进行识别，用于获取所述第一图像帧中的地面面积和非地面面积；基于所述地面面积和所述非地面面积，确定此地面面积在所述第一图像帧的图像面积中的面积占比；如果所述面积占比在所述面积占比范围之内，则选取此第一图像帧作为第二图像帧；如果所述面积占比在所述面积占比范围之外，则滤除此第一图像帧；

关键帧获取模块，用于确定相邻的两个第二图像帧之间的帧间差分信息，基于所述帧间差分信息获得预设数量的第一关键帧；

裁剪处理模块，用于基于预设的人员检测策略对所述第一关键帧进行过滤处理，并对通过过滤的第一关键帧进行裁剪处理，获得第二关键帧；其中，使用人员检测模型对所述第一关键帧进行检测，如果在所述第一关键帧中有人员，则确定在所述第一关键帧中的人员坐标，并基于所述人员坐标对所述第一关键帧进行裁剪处理，生成所述第二关键帧；

目标帧获取模块，用于对所述第二关键帧进行人员动作识别处理，用以从所述第二关键帧中选取目标帧；

视频生成模块，用于基于所述目标帧生成与所述施工现场相对应的目标视频。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一项所述的方法。

9.一种电子设备，所述电子设备包括：

处理器；用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一项所述的方法。