CN113923516A

CN113923516A - 基于深度学习模型的视频处理方法、装置、设备以及存储介质

Info

Publication number: CN113923516A
Application number: CN202111155291.8A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-11
Anticipated expiration: 2041-09-29
Also published as: CN113923516B

Abstract

本发明公开了一种基于深度学习模型的视频处理方法，包括：获取目标视频；基于动态目标检测模型对目标视频进行动态目标检测，得到目标视频中的动态目标区域、非动态目标区域和动态目标区域对应的深度信息；根据动态目标区域和非动态目标区域确定出目标视频的图像插入区域；根据动态目标区域对应的深度信息确定出目标视频的图像插入区域对应的目标深度信息；将广告图像插入至目标视频的图像插入区域中目标深度信息对应的位置，以完成对目标视频的处理。可见，本发明能够实现基于目标视频中的动态目标和动态目标在目标视频中的深度信息，将广告图像插入至目标视频中合适的位置，从而能够提高视频处理方法的处理效果。本发明可以应用在数字医疗系统。

Description

基于深度学习模型的视频处理方法、装置、设备以及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于深度学习模型的视频处理方法、装置、计算机设备以及存储介质。

背景技术

目前，大众对各视频网站的会员机制的接受度在不断地提升，导致传统的在视频前插入的贴片广告的推广效应也在不断地降低，为此，一种在视频的视频内容中植入广告的新型广告形式(如，视频中两个人坐在一起聊天，则可以在两个人前面放置的桌子上植入XX品牌饮料的广告)正在逐渐兴起。这种新型广告形式在对将要插入的广告进行处理时的一个实现关键点在于，如何在视频中确定出合适的能够植入广告的位置。目前主流的位置推荐算法主要考虑视频中的物体在二维空间上的位置，但是，视频中的物体实际上往往是处于一个三维空间上的，这容易导致最终确定出的广告在视频中插入的位置并不理想，影响视频处理的效果。如，在视频中，两个物体在二维空间上距离很近，但是在三维空间上处于不同的深度时，若只从二维空间上进行考虑，则通常不会在这两个物体之间插入广告，但是，若从三维空间上进行考虑时，由于这两个物体虽然在二维空间上距离较近，但是在三维空间上处于不同的深度，一个物体的存在通常并不会影响用户对另一个物体的注意，所以仍然有可能在这两个物体之间寻找到合适的位置插入广告。可见，目前的视频处理方法的处理效果仍有进一步提升的空间。

发明内容

本发明所要解决的技术问题在于，目前的视频处理方法的处理效果较差。

为了解决上述技术问题，本发明第一方面公开了一种基于深度学习模型的视频处理方法，所述方法包括：

获取待处理的目标视频；

基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息；

根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域；

根据所述动态目标区域对应的深度信息确定出所述目标视频的图像插入区域对应的目标深度信息；

将预先确定出的广告图像插入至所述目标视频的图像插入区域中所述目标深度信息对应的位置，以完成对所述目标视频的处理。

本发明第二方面公开了一种基于深度学习模型的视频处理装置，所述装置包括：

获取模块，用于获取待处理的目标视频；

检测模块，用于基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息；

确定模块，用于根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域；

所述确定模块，还用于根据所述动态目标区域对应的深度信息确定出所述目标视频的图像插入区域对应的目标深度信息；

插入模块，用于将预先确定出的广告图像插入至所述目标视频的图像插入区域中所述目标深度信息对应的位置，以完成对所述目标视频的处理。

本发明第三方面公开了一种计算机设备，所述计算机设备包括：

存储有可执行程序代码的存储器；

与所述存储器连接的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的基于深度学习模型的视频处理方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于深度学习模型的视频处理方法中的部分或全部步骤。

本发明实施例中，先对目标视频进行动态目标检测，得到目标视频中的动态目标区域、非动态目标区域和动态目标区域对应的深度信息，然后根据动态目标区域和非动态目标区域确定出图像插入区域，根据动态目标区域对应的深度信息确定出图像插入区域对应的目标深度信息，最后将广告图像插入至目标视频的图像插入区域中目标深度信息对应的位置，以完成对目标视频的处理，从而能够实现基于目标视频中的动态目标和动态目标在目标视频中的深度信息，将广告图像插入至目标视频中合适的位置，从而能够提高视频处理方法的处理效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于深度学习模型的视频处理方法的流程示意图；

图2是本发明实施例公开的一种基于深度学习模型的视频处理装置的结构示意图；

图3是本发明实施例公开的一种计算机设备的结构示意图；

图4是本发明实施例公开的一种计算机存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于深度学习模型的视频处理方法、装置、计算机设备以及存储介质，先对目标视频进行动态目标检测，得到目标视频中的动态目标区域、非动态目标区域和动态目标区域对应的深度信息，然后根据动态目标区域和非动态目标区域确定出图像插入区域，根据动态目标区域对应的深度信息确定出图像插入区域对应的目标深度信息，最后将广告图像插入至目标视频的图像插入区域中目标深度信息对应的位置，以完成对目标视频的处理，从而能够实现基于目标视频中的动态目标和动态目标在目标视频中的深度信息，将广告图像插入至目标视频中合适的位置，从而能够提高视频处理方法的处理效果。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于深度学习模型的视频处理方法的流程示意图。如图1所示，该基于深度学习模型的视频处理方法可以包括以下操作：

101、获取待处理的目标视频。

在上述步骤101中，待处理的目标视频可以是由用户上传的。目标视频可以是一个电影视频、电视剧视频、短视频等。如，用户想要在一个电影视频中插入广告，则可以将该电影视频上传进行视频处理，处理完成的电影视频中将会附带有插入的广告。可选地，本发明实施例中的视频处理方法可以应用在数字医疗系统中，此时，目标视频则可以是医疗相关的短视频，如，疾病的介绍视频、医院的介绍视频、治疗过程的展示视频、病人检查结果的展示视频等等。

102、基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息。

在上述步骤102中，动态目标检测模型可以是深度学习模型FCOS3D。深度学习模型FCOS3D能够实现对目标视频中的动态目标的位置以及动态目标的深度进行检测。深度学习模型FCOS3D的原理如下：首先对目标视频中的图像进行特征提取，得到五个不同大小的特征图，然后为了充分考虑不同大小的动态目标的特征，可以将五个特征图进行融合，接着将五个特征图输入至模型的检测头中，即能够回归出目标视频中的动态目标的位置框和动态目标的深度。可以将深度学习模型FCOS3D输出的动态目标的位置框中的区域作为目标视频中的动态目标区域，将动态目标的位置框以外的区域作为目标视频中的非动态目标区域，将动态目标的深度信息作为动态目标区域对应的深度信息。

103、根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域。

在上述步骤103中，在使用深度学习模型FCOS3D将目标视频分割为动态目标区域和非动态目标区域之后，即可以根据目标视频的动态目标区域和非动态目标区域从目标视频中确定出图像插入区域。具体地，在选择目标视频的图像插入区域时，大多优先考虑用户的注意力集中的区域，然而实践发现，在播放目标视频时，用户注意力集中的区域会一定程度上受播放目标视频的用户终端的屏幕尺寸的影响，在使用不同屏幕尺寸的用户终端播放目标视频时，用户注意力集中的区域和目标视频的动态目标区域、非动态目标区域的关联关系通常也不太一样。所以，在选择目标视频的图像插入区域可以综合考虑播放目标视频的用户终端的屏幕尺寸的因素，对于不同屏幕尺寸的用户终端使用不同的图像插入区域的确定过程，具体的图像插入区域的确定过程，稍后进行具体描述。

104、根据所述动态目标区域对应的深度信息确定出所述目标视频的图像插入区域对应的目标深度信息。

在上述步骤104中，根据人类的注意力机制，在用户观看目标视频时，注意力通常集中于与目标视频中的动态目标所在的深度层级，所以可以将广告插入至目标视频中的动态目标所在的深度层级，从而能够更好地吸引用户的注意力，也即可以直接将动态目标区域对应的深度信息确定为目标视频的图像插入区域对应的目标深度信息。

105、将预先确定出的广告图像插入至所述目标视频的图像插入区域中所述目标深度信息对应的位置，以完成对所述目标视频的处理。

在上述步骤105中，广告图像可以是由用户预先设置的，如，xx品牌的饮料图像。将广告图像插入至目标视频中图像插入区域中目标深度信息对应的位置，从而能够将目标视频作为一个三维空间进行考虑，向其中合适的位置插入广告。相对于目前的只将目标视频作为一个二维空间进行考虑的广告插入形式，本发明实施例的广告插入形式更能贴合用户在观看目标视频时实际的注意力分布情况，使得广告在目标视频中最终插入的位置更加准确。可选地，当本发明实施例中的视频处理方法应用在数字医疗系统中时，在目标视频中插入的广告图像可以替换为医疗相关的图像，如，在疾病的介绍视频中可以插入疾病相关的医生信息的图像，在治疗过程的展示视频中可以插入记录有医嘱的图像等等。当完成对目标视频的处理之后，还可以将处理完成的目标视频上传至数字医疗系统中，以便于在数字医疗系统的医疗终端中播放目标视频。

可见，实施图1所描述的基于深度学习模型的视频处理方法，先对目标视频进行动态目标检测，得到目标视频中的动态目标区域、非动态目标区域和动态目标区域对应的深度信息，然后根据动态目标区域和非动态目标区域确定出图像插入区域，根据动态目标区域对应的深度信息确定出图像插入区域对应的目标深度信息，最后将广告图像插入至目标视频的图像插入区域中目标深度信息对应的位置，以完成对目标视频的处理，从而能够实现基于目标视频中的动态目标和动态目标在目标视频中的深度信息，将广告图像插入至目标视频中合适的位置，从而能够提高广告图像插入至目标视频的位置的准确性，提高视频处理方法的处理效果。

在一个可选的实施例中，所述获取待处理的目标视频之后，所述基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息之前，所述方法还包括：

基于预设的实体检测模型对所述目标视频进行目标实体检测，得到所述目标视频的每一个视频帧中的目标实体区域；

根据所述目标视频的每一个视频帧中的目标实体区域的数量对所述目标视频执行预设的视频帧筛选操作，以实现对所述目标视频中的视频帧的筛选，并触发执行所述的基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息的操作。

在该可选的实施例中，目标视频的视频内容通常可以分为内容紧凑和内容空闲两部分，对于内容紧凑的部分通常不适宜插入广告，通常可以将广告插入至内容空闲的部分。这里，也可以使用另一个FCOS3D模型(即实体检测模型)检测目标视频中活动的物体(即目标实体)，然后根据目标视频中每一个视频帧中的目标实体的数量来将目标视频的视频帧划分为内容空闲的视频帧和内容紧凑的视频帧(具体的划分过程稍后进行描述)，从而能够将内容空闲的视频帧从目标视频中筛选出来，用于插入广告图像，使得目标视频的广告插入更加准确。

可见，实施该可选的实施例，在对目标视频插入广告图像之前，先通过实体检测模型检测出目标视频中每一个视频帧的目标实体区域，然后根据每一个视频帧的目标实体区域的数量对目标视频的视频帧进行筛选，从而能够使广告图像插入的视频帧更加准确，提升视频处理方法的处理效果。

在一个可选的实施例中，所述根据所述目标视频的每一个视频帧中的目标实体区域的数量对所述目标视频执行预设的视频帧筛选操作，包括：

判断所述目标视频的每一个视频帧中的目标实体区域的数量与前一个视频帧中的目标实体区域的数量的差值是否大于预设的差值阈值；

当判断出该视频帧中的目标实体区域的数量与前一个视频帧中的目标实体区域的数量的差值大于所述差值阈值时，将该视频帧分类为紧凑视频帧，其中，所述紧凑视频帧是指无广告图像插入的视频帧；

当判断出该视频帧中的目标实体区域的数量与前一个视频帧中的目标实体区域的数量的差值未大于所述差值阈值时，将该视频帧分类为空闲视频帧，其中，所述空闲视频帧是指将要被插入所述广告图像的视频帧。

在该可选的实施例中，在对目标视频的视频帧进行筛选时，可以根据视频帧中目标实体区域的数量的变化情况进行筛选，若视频帧中目标实体区域的数量的变化较大，则说明该视频帧的内容紧凑，不宜插入广告，若视频帧中目标实体区域的数量的变化较小，则说明该视频帧的内容空闲，适宜插入广告。具体地，可以预设一个差值阈值(如，3)，若一个视频帧中目标实体的数量相对于其前一个视频帧中目标实体的数量的增量大于3时，则可以将该视频帧分类为紧凑视频帧，若目标实体的数量的增量未大于3时，则可以将该视频帧分类为空闲视频帧。

可见，实施该可选的实施例，在对目标视频的视频帧进行筛选时，根据视频帧中目标实体区域的数量的变化情况进行筛选，从而能够准确地从目标视频中筛选出将要插入广告图像的视频帧，使广告图像插入的视频帧更加准确，提升视频处理方法的处理效果。

在一个可选的实施例中，所述基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息，包括：

基于预设的动态目标检测模型对所述目标视频中的每个空闲视频帧进行动态目标检测，得到该空闲视频帧中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息；以及，

所述根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域，包括：

根据每个空闲视频帧的动态目标区域和非动态目标区域确定出该空闲视频帧的图像插入区域；以及，

所述根据所述动态目标区域对应的深度信息确定出所述目标视频的图像插入区域对应的目标深度信息，包括：

根据每个空闲视频帧的动态目标区域对应的深度信息确定出该空闲视频帧的图像插入区域对应的目标深度信息；以及，

所述将预先确定出的广告图像插入至所述目标视频的图像插入区域中所述目标深度信息对应的位置，以完成对所述目标视频的处理，包括：

将预先确定出的广告图像插入至每个空闲视频帧的图像插入区域中所述目标深度信息对应的位置，以完成对所述目标视频的处理。

在该可选的实施例中，在完成对目标视频的视频帧的筛选之后，由于只需要在空闲视频帧中插入广告图像，所以可以只对目标视频中的空闲视频帧进行动态目标检测、插入广告图像等操作来完成对目标视频的广告插入，从而能够减少视频处理的数据处理量，有利于在保证视频处理的处理效果的同时提升视频处理的处理效率。

可见，实施该可选的实施例，在完成对目标视频的视频帧的筛选之后，只对目标视频中的空闲视频帧进行广告图像插入的处理，从而能够减少视频处理的数据处理量，有利于在保证视频处理的处理效果的同时提升视频处理的处理效率。

在一个可选的实施例中，所述根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域，包括：

获取将要播放所述目标视频的用户终端的终端类型；

当所述用户终端的终端类型为预设的第一终端类型时，将所述非动态目标区域确定为所述目标视频的图像插入区域，其中，所述第一终端类型的终端设备的屏幕尺寸均小于预设的屏幕尺寸阈值；

当所述用户终端的终端类型为预设的第二终端类型时，将与所述动态目标区域相邻的区域确定为所述目标视频的图像插入区域，其中，所述第二终端类型的终端设备的屏幕尺寸均大于所述屏幕尺寸阈值。

在该可选的实施例中，实践发现，在播放目标视频时，用户注意力集中的区域会一定程度上受播放目标视频的用户终端的屏幕尺寸的影响。由于人眼的物理结构以及人类的注意力机制，用户对中央凹视野中的物体特征比较敏感，而对外周视野中的物体运动比较敏感，所以，当播放目标视频的用户终端是个人手机等小屏幕设备时，目标视频全部在用户的中央视野中，可以直接将广告图像插入至目标视频的非动态目标区域，这样已能够吸引到用户的注意力，当播放目标视频的用户终端是电脑、平板等大屏幕设备时，用户的中央视野通常不能覆盖整个目标视频，通常只能够集中在目标视频的动态目标区域，但是由于动态目标区域中的图像通常在不断地变化，不适宜插入广告图像，所以可以将广告图像插入至用户的外周视野(即与动态目标区域相邻的区域，如，与动态目标区域的左下角相邻的、在动态目标区域以外的区域，与动态目标区域的右下角相邻的、在动态目标区域以外的区域)，这样也能够吸引到用户的注意力。具体地，可以预设一个屏幕尺寸阈值(如，10英寸)，若用户终端的终端类型的屏幕尺寸小于屏幕尺寸阈值时，即可以将广告图像插入至非动态目标区域中，若用户终端的终端类型的屏幕尺寸大于屏幕尺寸阈值时，即可以将广告图像插入至与动态目标区域相邻的区域中。其中，可以通过查询预设的屏幕尺寸表格，来确定出用户终端的终端类型的屏幕尺寸。屏幕尺寸表格中可以预先存储有不同的终端类型所对应的屏幕尺寸。

可见，实施该可选的实施例，当播放目标视频的用户终端的屏幕尺寸小于屏幕尺寸阈值时，将广告图像插入至非动态目标区域，当播放目标视频的用户终端的屏幕尺寸大于屏幕尺寸阈值时，将广告图像插入至与动态目标区域相邻的区域，从而能够实现根据用户终端的屏幕尺寸调整广告图像插入至目标视频的位置，提高广告图像插入至目标视频的位置的准确性，提高视频处理方法的处理效果。

对所述目标视频执行预设的减帧操作，以将所述目标视频中指定的视频帧从所述目标视频中删去，并触发执行所述的基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息的步骤。

在该可选的实施例中，在对目标视频进行广告图像插入处理之前，可以将目标视频中的一些视频帧从目标视频中删去，再进行广告图像的插入处理，这样即能够减少数据处理量，从而提高视频处理方法的处理效率。可以按照预设的帧数间隔将视频帧删去，如，每隔5帧即将一个视频帧从目标视频中删去，也可以按照预设的时长间隔将视频帧删去，如，每隔1s即将一个视频帧从目标视频中删去。

可见，实施该可选的实施例，在对目标视频进行广告图像插入处理之前，将目标视频中的部分视频帧从目标视频中删去，再进行广告图像的插入处理，从而能够减少数据处理量，提高视频处理方法的处理效率。

在一个可选的实施例中，所述对所述目标视频执行预设的减帧操作，以将所述目标视频中指定的视频帧从所述目标视频中删去，包括：

获取所述目标视频的原始帧数和播放时长；

通过以下公式计算出所述目标视频对应的减帧时长间隔：

其中，a为所述目标视频对应的减帧时长间隔，d为所述目标视频的播放时长，b为所述目标视频的原始帧数，c为预设的所述目标视频减帧后的帧数；

以所述减帧时长间隔为时长间隔，从所述目标视频删除视频帧，以完成对所述目标视频的减帧。

在该可选的实施例中，还可以预先设置目标视频减帧后的帧数，然后通过预设的公式计算出目标视频的减帧时长间隔，最后，按照减帧时长间隔将目标视频的帧数删减至预先设置的帧数。如，目标视频的原始帧数为600帧，播放时长为60秒，预设的目标视频减帧后的帧数为300帧，则计算出的减帧时长间隔为0.2秒，则每隔0.2秒即将目标视频中的视频帧删去，从而将目标视频的帧数减少至300帧。

可见，实施该可选的实施例，通过预先设置目标视频减帧后的帧数，然后通过预设的公式计算出目标视频的减帧时长间隔，最后按照减帧时长间隔将目标视频的帧数删减至预先设置的帧数，从而能够实现将目标视频的帧数删减至指定的帧数。

可选地，还可以：将所述基于深度学习模型的视频处理方法的基于深度学习模型的视频处理信息上传至区块链中。

具体来说，基于深度学习模型的视频处理信息是通过运行所述基于深度学习模型的视频处理方法后得到的，用于记录基于深度学习模型的视频处理情况，例如，获取到的目标视频、目标视频中的动态目标区域、非动态目标区域等等。将基于深度学习模型的视频处理信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该基于深度学习模型的视频处理信息，以便查证所述基于深度学习模型的视频处理方法的基于深度学习模型的视频处理信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

实施例二

请参阅图2，图2是本发明实施例公开的一种基于深度学习模型的视频处理装置的结构示意图。如图2所示，该基于深度学习模型的视频处理装置可以包括：

获取模块201，用于获取待处理的目标视频；

检测模块202，用于基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息；

确定模块203，用于根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域；

所述确定模块203，还用于根据所述动态目标区域对应的深度信息确定出所述目标视频的图像插入区域对应的目标深度信息；

插入模块204，用于将预先确定出的广告图像插入至所述目标视频的图像插入区域中所述目标深度信息对应的位置，以完成对所述目标视频的处理。

对于上述基于深度学习模型的视频处理装置的具体描述可以参照上述基于深度学习模型的视频处理方法的具体描述，为避免重复，在此不再一一赘述。

实施例三

请参阅图3，图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示，该计算机设备可以包括：

存储有可执行程序代码的存储器301；

与存储器301连接的处理器302；

处理器302调用存储器301中存储的可执行程序代码，执行本发明实施例一公开的基于深度学习模型的视频处理方法中的步骤。

实施例四

请参阅图4，本发明实施例公开了一种计算机存储介质401，计算机存储介质401存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一公开的基于深度学习模型的视频处理方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于深度学习模型的视频处理方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于深度学习模型的视频处理方法，其特征在于，所述方法包括：

获取待处理的目标视频；

2.根据权利要求1所述的基于深度学习模型的视频处理方法，其特征在于，所述获取待处理的目标视频之后，所述基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息之前，所述方法还包括：

3.根据权利要求2所述的基于深度学习模型的视频处理方法，其特征在于，所述根据所述目标视频的每一个视频帧中的目标实体区域的数量对所述目标视频执行预设的视频帧筛选操作，包括：

4.根据权利要求3所述的基于深度学习模型的视频处理方法，其特征在于，所述基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息，包括：

5.根据权利要求1所述的基于深度学习模型的视频处理方法，其特征在于，所述根据所述动态目标区域和所述非动态目标区域确定出所述目标视频的图像插入区域，包括：

获取将要播放所述目标视频的用户终端的终端类型；

6.根据权利要求1-5任一项所述的基于深度学习模型的视频处理方法，其特征在于，所述获取待处理的目标视频之后，所述基于预设的动态目标检测模型对所述目标视频进行动态目标检测，得到所述目标视频中的动态目标区域、非动态目标区域和所述动态目标区域对应的深度信息之前，所述方法还包括：

7.根据权利要求6所述的基于深度学习模型的视频处理方法，其特征在于，所述对所述目标视频执行预设的减帧操作，以将所述目标视频中指定的视频帧从所述目标视频中删去，包括：

获取所述目标视频的原始帧数和播放时长；

通过以下公式计算出所述目标视频对应的减帧时长间隔：

8.一种基于深度学习模型的视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的目标视频；

9.一种计算机设备，其特征在于，所述计算机设备包括：

存储有可执行程序代码的存储器；

与所述存储器连接的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于深度学习模型的视频处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于深度学习模型的视频处理方法。