CN113408329A

CN113408329A - 基于人工智能的视频处理方法、装置、设备及存储介质

Info

Publication number: CN113408329A
Application number: CN202011342225.7A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-09-17

Abstract

本申请提供了一种基于人工智能的视频处理方法、装置、设备及存储介质；方法包括：对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像；使用目标检测模型，对至少一个待处理图像中的当前待处理图像进行目标检测，得到至少一类检测对象对应的至少一个检测区域；根据至少一个检测区域中每个检测区域的尺寸信息，从至少一个检测区域中确定主体检测区域；基于主体检测区域的主体尺寸信息与检测对象，确定当前待处理图像的景别识别结果，进而得到至少一个待处理图像中每个待处理图像的景别识别结果；基于每个待处理图像的景别识别结果实现对待处理视频的智能处理。通过本申请，能够提高基于人工智能进行视频处理的效率。

Description

基于人工智能的视频处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的视频处理方法、装置、设备及存储介质。

背景技术

目前，在视频处理技术的视频封面图生成、精彩视频智能生成中，视频图像的远近景识别功能至关重要。示例性的，在生成封面图时，生成业务常常需要能提供丰富的远景、中景、全景、近景特写等图像素材能力，而非全部都来自于大人脸素材；在视频生成中，一般需要以全景或远景片段作为开始场景、以人物近景作为过渡、以人物特写作为关键片段交替产生有故事有层次的视频。目前的常用方法是通过标注海量数据训练常规深度学习的远近景识别模型，包括：人工定义不同景物远近的类别，从无到有收集大量图像，进行人工标注，标注清洗，训练识别模型等步骤。由此可见，目前的方法需要大量的人工投入到标注和收集海量的数据的过程，以支撑模型训练达到较高识别准确率，因此模型训练涉及的工作量较大，训练耗时长，降低了模型训练的效率，进而降低了视频处理的效率；并且，目前的方法应用在视频分析任务中时，远近景识别模型需要分析的图像数量极大、分析任务复杂，造成了视频分析任务的计算压力，从而进一步降低了视频处理的效率。

发明内容

本申请实施例提供一种基于人工智能的视频处理方法、装置、设备及存储介质，能够提高视频处理的效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的视频处理方法，包括：

对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像；

使用目标检测模型，对所述至少一个待处理图像中的当前待处理图像进行目标检测，得到至少一类检测对象对应的至少一个检测区域；所述目标检测模型用于从所述当前待处理图像检测出所述至少一类检测对象所占据的所述至少一个检测区域；

根据所述至少一个检测区域中每个检测区域的尺寸信息，从所述至少一个检测区域中确定主体检测区域；

基于所述主体检测区域的主体尺寸信息与检测对象，确定所述当前待处理图像的景别识别结果，进而得到所述至少一个待处理图像中每个待处理图像的景别识别结果；所述景别识别结果表征图像内容距离视觉出发点的距离；

基于所述每个待处理图像的景别识别结果实现对所述待处理视频的智能处理。

本申请实施例提供一种基于人工智能的视频处理装置，包括：

视频抽帧模块，用于对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像；

目标检测模型，用于对所述至少一个待处理图像中的当前待处理图像进行目标检测，得到至少一类检测对象对应的至少一个检测区域；所述目标检测模型用于从所述当前待处理图像检测出所述至少一类检测对象所占据的所述至少一个检测区域；

景别识别模块，用于根据所述至少一个检测区域中每个检测区域的尺寸信息，从所述至少一个检测区域中确定主体检测区域；基于所述主体检测区域的主体尺寸信息与检测对象，确定所述当前待处理图像的景别识别结果，进而得到所述至少一个待处理图像中每个待处理图像的景别识别结果；所述景别识别结果表征图像内容距离视觉出发点的距离；

视频处理模块，用于基于所述每个待处理图像的景别识别结果实现对所述待处理视频的智能处理。

上述装置中，所述主体尺寸信息包括：主体区域高度与主体区域宽度；所述至少一类检测对象包括：人物对象；所述景别识别模块，还用于当所述检测对象为所述人物对象时，根据所述主体区域高度与所述主体区域宽度，得到所述主体检测区域的尺寸比与第一面积；当所述第一面积大于或等于第一预设面积阈值时，根据所述尺寸比确定所述景别识别结果；或者，当所述第一面积小于所述第一预设面积阈值且大于或等于第二预设面积阈值时，基于所述主体区域高度或所述主体区域宽度确定所述景别识别结果；或者，所述第二预设面积阈值小于所述第一预设面积阈值；或者，当所述第一面积小于所述第二预设面积阈值时，将所述景别识别结果确定为大远景，并将所述当前待处理图像标记为不符合预设结果。

上述装置中，所述尺寸比为所述主体区域高度与所述主体区域宽度的比值；所述景别识别模块，还用于当所述尺寸比大于第一预设尺寸比阈值，且小于或等于属于第二预设尺寸比阈值时，将所述景别识别结果确定为人脸特写；或者，所述第二预设尺寸比阈值大于所述第一预设尺寸比阈值；或者，当所述尺寸比大于所述第二预设尺寸比阈值，且小于或等于第三预设尺寸比阈值时，将所述景别识别结果确定为人体近景；所述第三预设尺寸比阈值大于所述第二预设尺寸比阈值；或者，当所述尺寸比大于所述第三预设尺寸比阈值，且小于或等于第四预设尺寸比阈值时，将所述景别识别结果确定为人体全景；所述第四预设尺寸比阈值大于所述第三预设尺寸比阈值；或者，当所述尺寸比大于所述第四预设尺寸比阈值时，将所述景别识别结果确定为远景。

上述装置中，所述景别识别模块，还用于当所述主体区域高度或所述主体区域宽度大于或等于预设第一边长阈值时，将所述景别识别结果确定为人体全景；或者，当所述主体区域高度或所述主体区域宽度小于所述预设第一边长阈值，且大于或等于预设第二边长阈值时，判断所述尺寸比是否大于所述第二预设尺寸比阈值；当所述尺寸比大于或等于所述第二预设尺寸比阈值时，将景别识别结果确定为远景；或者，当所述尺寸比小于所述第二预设尺寸比阈值时，将景别识别结果确定为大远景；或者，当所述主体区域高度或所述主体区域宽度小于所述预设第二边长阈值时，将所述景别识别结果确定为大远景，并将所述当前待处理图像标记为不符合预设结果。

上述装置中，所述主体尺寸信息包括：主体区域高度与主体区域宽度；所述至少一类检测对象包括：物体对象；所述景别识别模块，还用于当所述检测对象为所述物体对象时，根据所述主体区域高度与所述主体区域宽度，得到所述主体检测区域第二面积；当所述第二面积大于或等于预设第三面积阈值时，将所述景别识别结果确定为物体特写；或者，当所述第二面积小于所述预设第三面积阈值且大于或等于预设第四面积阈值时，将所述景别识别结果确定为物体近景；所述预设第四面积阈值小于所述预设第三面积阈值；或者，当所述第二面积小于所述预设第四面积阈值且大于或等于所述第二预设面积阈值时，将所述景别识别结果确定为物体全景；所述预设第四面积阈值大于所述第二预设面积阈值；或者，当所述第二面积小于所述第二预设面积阈值时，将所述景别识别结果确定为物体远景。

上述装置中，所述目标检测模型，还用于所述对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像之后，对所述至少一个待处理图像中的当前待处理图像进行目标检测，未检测到检测区域时，将所述当前待处理图像标记为不符合预设结果，不使用所述当前待处理图像进行视频处理。

上述装置中，所述基于人工智能的视频处理装置还包括模型训练模块，所述模型训练模块，用于所述使用目标检测模型对所述至少一个待处理图像中的每个待处理图像进行目标检测，得到目标检测结果之前，使用所述初始目标检测模型对所述训练样本图像集进行目标检测，从所述训练样本图像集中确定出不符合预设结果的样本图像；将所述不符合预设结果的样本图像作为增量训练样本，获取所述增量训练样本的标注结果，进而得到增量训练样本集；基于所述增量训练样本集与所述训练样本图像集，对所述初始目标检测模型进行迭代训练，得到所述目标检测模型。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的视频处理方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的视频处理方法。

本申请实施例具有以下有益效果：

通过预先训练好的目标检测模型得到至少一个检测区域，基于至少一个检测区域中的主体检测区域的尺寸信息与检测对象，确定当前待处理图像的景别识别结果，减少了从零训练景别识别模型所需要的训练工作量，以及景别识别模型在视频处理过程中的图像处理工作量，从而提高了视频处理的效率。

附图说明

图1是本申请实施例提供的基于人工智能的视频处理系统架构的一个可选的结构示意图；

图2是本申请实施例提供的基于人工智能的视频处理装置的一个可选的结构示意图；

图3是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图；

图4是本申请实施例提供的一个可选的不同景别识别结果的效果示意图；

图5是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图；

图6是本申请实施例提供的人物不同景别与画面关系对比的效果示意图；

图7是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图；

图8是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图；

图9是本申请实施例提供的基于人工智能的视频处理系统的一个可选的功能模块结构图；

图10是本申请实施例提供的目标检测模型训练的一个可选的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)深度学习技术：一种利用深层神经网络系统，进行机器学习的技术。

2)标注：对图像内的物体采用矩形的标注框画出来，并注明该框所对应的实物标签，即标注类别。

3)识别模型：机器学习技术对标注样本数据(图片——指定标签的对应关系)进行学习后获得的数学模型，学习训练的过程中获得该数学模型的参数，识别预测时加载该数学模型的参数并计算输入样本属于指定范围内某个实物标签的概率。

4)检测模型：机器学习技术对标注样本数据(图片——指定的多个标注框和标签对的对应关系)进行学习后获得的数学模型，学习训练的过程中获得该数学模型的参数，识别预测时加载该数学模型的参数并计算输入样本存在实物标签的预测框以及该预测框属于指定范围内某个实物标签的概率。

5)检测模型标注：对图像内的物体采用矩形的标注框画出来，并注明该框所对应的实物标签，即标注类别。

6)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

7)计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

8)机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

9)景别是指由于摄影机与被摄体的距离不同，而造成被摄体在摄影机录像器中所呈现出的范围大小的区别。景别的划分，一般可分为五种，由近至远分别为特写、近景、中景、全景、远景。

本申请实施例提供的方案涉及人工智能的图像检测与图像识别等技术，具体通过如下实施例进行说明：本申请实施例提供一种基于人工智能的视频处理方法、装置、设备和存储介质，能够提高视频处理的效率，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端时示例性应用。

参见图1，图1是本申请实施例提供的基于人工智能的视频处理系统100的一个可选的架构示意图，为实现支撑一个视频处理应用，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400-1用于通过服务器200从数据库500中获取待处理视频，对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像；使用目标检测模型，对至少一个待处理图像中的当前待处理图像进行目标检测，得到至少一类检测对象对应的至少一个检测区域；根据至少一个检测区域中每个检测区域的尺寸信息，从至少一个检测区域中确定主体检测区域；基于主体检测区域的主体尺寸信息与检测对象，确定当前待处理图像的景别识别结果，进而得到至少一个待处理图像中每个待处理图像的景别识别结果；景别识别结果表征图像内容距离视觉出发点的远近；基于每个待处理图像的景别识别结果实现对待处理视频的智能处理，在图形界面410-1显示待处理视频的处理结果，如智能剪辑后的视频或视频封面图。终端400还用于将处理结果通过网络300发送给服务器200，以使服务器200将处理结果推送至终端400-2，并在终端400-2的图形处理界面410-2上显示处理结果。服务器200用于响应于终端400-1的获取请求，并从数据库500中将待处理视频发送至终端400-1，并接收终端400-1对待处理视频的处理结果，将处理结果通过网络300推送至终端400-2。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的终端400-1的结构示意图，图2所示的终端400-1包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的基于人工智能的视频处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：视频抽帧模块4551、目标检测模型4552、景别识别模块4553和视频处理模块4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的基于人工智能的视频处理装置(以下简称为视频处理装置)可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于人工智能的视频处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integra ted Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的基于人工智能的视频处理方法。

参见图3，图3是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

S101、对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像；

本申请实施例中，视频处理装置可以对待处理视频进行视频分镜。得到至少一个镜头，其中，至少一个镜头内的每个镜头包含至少一张候选图片。视频处理装置从每个镜头包含的至少一张候选图片中抽取预设数量的图片，作为待处理图像，从而可以从至少一个镜头中抽取得到至少一个待处理图像。

在一些实施例中，视频处理装置可以通过视频分镜开源库python开源库，SceneDetect v5.0对待处理视频进行视频分镜，得到待处理视频对应的多个镜头，每个镜头中包含多张图片。由于同一分镜的镜头内常常为相同事物，为了减少计算量，视频处理装置从每个镜头中抽取中间两帧图像作为待处理图像，从而通过多个镜头得到至少一个待处理图像。

S102、使用目标检测模型，对至少一个待处理图像中的当前待处理图像进行目标检测，得到至少一类检测对象对应的至少一个检测区域；目标检测模型用于从当前待处理图像检测出至少一类检测对象所占据的至少一个检测区域。

本申请实施例中，视频处理装置可以使用多分类的目标检测模型，对至少一个待处理图像中的每个待处理图像进行目标检测。其中，对于至少一个待处理图像中的当前待处理图像，视频处理装置可以使用目标检测模型从当前待处理图像中提取图像特征，并基于提取的图像特征与预设的至少一类检测对象，对当前待处理图像中包含至少一类检测对象的图像区域进行识别和预测，最终通过目标检测模型输出至少一类检测对象对应的至少一个检测区域，从而完成对当前待处理图像的目标检测。

本申请实施例中，至少一个检测区域的区域信息包含检测区域的高度、宽度、检测区域在待处理图像中的位置坐标、以及检测区域分别对应于至少一类检测对象中每类检测对象的置信度，也即检测区域中包含每类检测对象的概率。

S103、根据至少一个检测区域中每个检测区域的尺寸信息，从至少一个检测区域中确定主体检测区域。

本申请实施例中，视频处理装置可以根据至少一个检测区域中每个检测区域的尺寸信息，确定出当前待处理图像中主体检测区域，其中，主体检测区域内的图像内容表征当前待处理图像的主体内容。

在一些实施例中，尺寸信息可以是检测区域高度和宽度；视频处理装置可以根据每个检测区域的高度和宽度计算出该检测区域的面积，进而从至少一个检测区域中确定出面积最大的检测区域作为主体检测区域。在另外一些实施例中，视频处理装置可以根据每个检测区域的宽高比，确定出宽高比属于预设比值范围内的检测区域作为主体检测区域，具体的根据实际情况进行选择，本申请实施例不作限定。

S104、基于主体检测区域的主体尺寸信息与检测对象，确定当前待处理图像的景别识别结果，进而得到至少一个待处理图像中每个待处理图像的景别识别结果；景别识别结果表征图像内容距离视觉出发点的距离。

本申请实施例中，由于主体检测区域表征了当前待处理图像中的主体内容，视频处理装置可以根据确定出的主体检测区域尺寸信息，结合对检测对象尺寸信息的先验知识，确定当前待处理图像的景别识别结果。视频处理装置对至少一个待处理图像中每个待处理图像进行相同的处理，可以得到每个待处理图像的景别识别结果。

本申请实施例中，景别识别结果可以是被摄主体和画面形象在屏幕框架结构中所呈现出的大小和范围，表征图像内容距离视觉出发点的距离。在一些实施例中，景别识别结果可以为大远景，远景，全景，近景与特写。

在一些实施例中，大远景，远景，全景，近景与特写可以如图4所示。

S105、基于每个待处理图像的景别识别结果实现对待处理视频的智能处理。

本申请实施例中，视频处理装置可以基于每个待处理图像的景别识别结果，选择不同景别的待处理图像进行智能视频剪辑，实现对待处理视频的智能处理；视频处理装置也可以根据实际应用的需要，根据每个待处理图像的景别识别结果，选择适合的目标待处理图像，利用目标待处理图像生成待处理视频对应的封面图，以实现封面图与待处理视频结合推送。

在一些实施例中，对于智能视频剪辑场景，视频处理装置可以通过递进式组接或跳跃式组接的方法，对不同景别的待处理图像进行拼接和剪辑。示例性的，对于递进式组接，视频处理装置可以以由近及远的顺序，将景别识别结果分别为特写、近景、中景、全景以及远景的待处理图像进行拼接，得到远离式效果的视频剪辑，或者，视频处理装置可以以由远及近的顺序，将景别识别结果分别为远景、全景、中景、近景以及特写的待处理图像进行拼接，得到接近式效果的视频剪辑。对于跳跃式组接，视频处理装置则可以根据不同的剪辑需求，跳跃式的选择不同景别的待处理图像进行拼接，得到视觉变化特征明显的视频剪辑。具体的根据实际情况进行选择，本申请实施例不作限定。

可以理解的是，本申请实施例中，视频处理装置通过预先训练好的目标检测模型得到至少一个检测区域，基于至少一个检测区域中的主体检测区域的尺寸信息与检测对象，确定当前待处理图像的景别识别结果，减少了从零训练景别识别模型所需要的训练工作量，以及景别识别模型在视频处理过程中的图像处理工作量，从而提高了视频处理的效率。

在一些实施例中，参见图5，图5是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图，主体尺寸信息包括：主体区域高度与主体区域宽度；至少一类检测对象包括：人物对象，S104中基于主体检测区域的主体尺寸信息与检测对象，确定当前待处理图像的景别识别结果可以通过S1041-S1043来实现，将结合各步骤进行说明。

S1041、当检测对象为人物对象时，根据主体区域高度与主体区域宽度，得到主体检测区域的尺寸比与第一面积。

本申请实施例中，视频处理装置可以根据主体检测区域对于至少一类检测对象中每类检测对象的置信度，确定主体检测区域对应的检测对象是否为人物对象。当确定检测对象为人物对象时，视频处理装置可以根据主体检测区域的主体尺寸信息，结合视频中人物对象的尺寸信息的先验知识，确定当前待处理图像的景别识别结果。

本申请实施例中，当检测对象为人物对象时，视频处理装置可以根据主体区域高度与主体区域宽度，分别计算出主体检测区域的尺寸比与第一面积。

在一些实施例中，视频处理装置可以对主体检测区域的尺寸信息进行归一化，以对不同分辨率的待处理图像使用统一的景别识别标准。示例性的，视频处理装置可以将主体检测区域的尺寸信息归一化至(0,1)区间，如对于448*448的当前待处理图像，其中包括的主体检测区域的像素高度为40，像素宽度为20，则视频处理装置将40/448作为主体检测区域高度，将20/448作为主体检测区域宽度，将(40/448)*(20/448)作为主体检测区域的第一面积。

S1042、当第一面积大于或等于第一预设面积阈值时，根据尺寸比确定景别识别结果。

本申请实施例中，当主体检测区域的第一面积大于或等于第一预设面积阈值时，视频处理装置可以根据尺寸比：如主体检测区域高度与主体检测区域宽度的比值，或是主体检测区域宽度与主体检测区域高度的比值，来确定景别识别结果。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，第一预设面积阈值可以取0.2。也可以根据具体不同景别的定义选择其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

在一些实施例中，人物对象的不同景别与画面关系对比可以如图6所示。从图6中可以看出，对于人物对象来说，在一些主要表现人物的画面中，人脸特写、人体近景、人体全景和远景都有可能在整个画面占据较大的区域；其中，人脸特写的宽高差距较小，随着景别所表征的距离由近及远，人体近景、人体全景与远景的宽高差距逐渐增大。同时，在一些同时表现人物或环境的画面中，人体全景与人体远景，包括大远景也可能在整个图像中占据较小的区域；此时，人体全景占据的区域呈现区域边长较长的特点，远景占据的区域呈现区域边长较短，且宽高差距较大的特点，大远景占据的区域呈现边长较短，宽高差距较小的特点。因此，视频处理装置可以结合图6中的人物对象在不同景别下的特点，根据主体检测区域的尺寸信息确定出当前待处理图像的景别识别结果。

在一些实施例中，尺寸比为主体区域高度与主体区域宽度的比值，当第一面积大于或等于第一预设面积阈值时，S1042中的根据尺寸比确定景别识别结果可以通过执行S201-S204来实现，将结合各步骤进行说明。

S201、当尺寸比大于第一预设尺寸比阈值，且小于或等于属于第二预设尺寸比阈值时，将景别识别结果确定为人脸特写；第二预设尺寸比阈值大于第一预设尺寸比阈值。

本申请实施例中，第一预设尺寸比阈值可以是根据先验知识设定的人物对象占据区域的最小的高度和宽度的比值，若小于第一预设尺寸比阈值，则可能违背人物对象比例的基本常识。第二预设尺寸比阈值可以是与人脸特写(如人体肩部以上)的常规比例对应设定的阈值。其中，第二预设尺寸比阈值大于第一预设尺寸比阈值。因此，在第一面积大于或等于第一预设面积阈值的情况下，当尺寸比大于第一预设尺寸比阈值，且小于或等于属于第二预设尺寸比阈值时，说明主体检测区域面积较大，且宽高差距不明显，符合人脸特写的特点，视频处理装置可以将景别识别结果确定为人脸特写。

在一些实施例中，第一预设尺寸比阈值可以取1，第二预设尺寸比阈值可以取2。也可以根据实际情况设定其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S202、尺寸比大于第二预设尺寸比阈值，且小于或等于第三预设尺寸比阈值时，将景别识别结果确定为人体近景；第三预设尺寸比阈值大于第二预设尺寸比阈值。

本申请实施例中，第三预设尺寸比阈值大于第二预设尺寸比阈值，也就是说，第三预设尺寸比阈值的高宽比特写的人物对象的高宽比更大，可以认为是近景(如人体胸部以上)对应的高宽比。因此，在第一面积大于或等于第一预设面积阈值的情况下，当尺寸比大于第二预设尺寸比阈值，且小于或等于第三预设尺寸比阈值时，说明主体检测区域面积较大，且宽高差距较为明显，符合人体近景的特点，视频处理装置将景别识别结果确定为人体近景。

在一些实施例中，第三预设尺寸比阈值可以取4，也可以根据实际情况设定其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S203、当尺寸比大于第三预设尺寸比阈值，且小于或等于第四预设尺寸比阈值时，将景别识别结果确定为人体全景。

本申请实施例中，第四预设尺寸比阈值大于第三预设尺寸比阈值，可以认为是人物对象的高宽比在近景的基础上进一步沿人物高度方向加长。在第一面积大于或等于第一预设面积阈值的情况下，当尺寸比大于第三预设尺寸比阈值，且小于或等于第四预设尺寸比阈值时，说明主体检测区域面积较大，且宽高差距非常明显，符合人体全景的特点，视频处理装置将景别识别结果确定为人体全景。

在一些实施例中，第四预设尺寸比阈值可以取6，也可以根据实际情况设定其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S204、当尺寸比大于第四预设尺寸比阈值时，将景别识别结果确定为远景。

本申请实施例中，当尺寸比大于第四预设尺寸比阈值时，说明主体检测区域的宽高差距进一步拉大，人物对象的视觉效果距离更远，因此相应地，视频处理装置将景别识别结果确定为远景。

S1043、当第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值时，基于主体区域高度或主体区域宽度确定景别识别结果；第二预设面积阈值小于第一预设面积阈值。

本申请实施例中，第二预设面积阈值小于第一预设面积阈值，当人物对象对应的主体检测区域的第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值时，说明主体检测区域在当前待处理图像中占据的区域较小，主体检测区域对应的人物对象距离视觉出发点较远，视频处理装置可以基于主体区域高度或主体区域宽度进行进一步判断，来最终确定景别识别结果。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，第二预设面积阈值可以取值为0.01，也可以设定为其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

在一些实施例中，S1043可以通过执行S301-S305来实现，将结合各步骤进行说明。

S301、当主体区域高度或主体区域宽度大于或等于预设第一边长阈值时，将景别识别结果确定为人体全景。

本申请实施例中，在第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值的情况下，当主体区域高度或主体区域宽度大于或等于预设第一边长阈值时，说明主体检测区域面积较小，且某一边的边长较长，符合人体全景的特点，视频处理装置将景别识别结果确定为人体全景。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，预设第一边长阈值可以设定为0.3，也可以根据实际情况设定为其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S302、当主体区域高度或主体区域宽度小于预设第一边长阈值，且大于或等于预设第二边长阈值时，判断尺寸比是否大于第二预设尺寸比阈值。

本申请实施例中，在第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值的情况下，当主体区域高度或主体区域宽度小于预设第一边长阈值，且大于或等于预设第二边长阈值时，视频处理装置可以进一步判断尺寸比是否大于第二预设尺寸比阈值。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，预设第二边长阈值可以设定为0.1，也可以根据实际情况设定为其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S303、当尺寸比大于或等于第二预设尺寸比阈值时，将景别识别结果确定为远景。

本申请实施例中，在第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值，以及主体区域高度或主体区域宽度小于预设第一边长阈值，且大于或等于预设第二边长阈值的情况下，当尺寸比大于或等于第二预设尺寸比阈值时，说明主体检测区域面积较小，边长较短，且宽高差距明显，符合远景的特点，视频处理装置将景别识别结果确定为远景。

S304、当尺寸比小于第二预设尺寸比阈值时，将景别识别结果确定为大远景。

本申请实施例中，在第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值，以及主体区域高度或主体区域宽度小于预设第一边长阈值，且大于或等于预设第二边长阈值的情况下，当尺寸比小于第二预设尺寸比阈值时，说明主体检测区域面积较小，边长较短，且宽高差距不明显，符合大远景的特点，视频处理装置将景别识别结果确定为大远景。

S305、当主体区域高度或主体区域宽度小于预设第二边长阈值时，将景别识别结果确定为大远景，并将当前待处理图像标记为不符合预设结果。

本申请实施例中，在第一面积小于第一预设面积阈值且大于或等于第二预设面积阈值，以及主体区域高度或主体区域宽度小于预设第一边长阈值，且大于或等于预设第二边长阈值的情况下，当主体区域高度或主体区域宽度小于预设第二边长阈值时，说明主体检测区域的某个边长过窄，视频处理装置可以将景别识别结果确定为大远景。并且，由于过窄的边长表征着当前待处理图像可能处于大远景或错误检测的中间边界，视频处理装置可以将当前待处理图像进一步标记为不符合预设结果，以提示后续的视频处理过程对不符合预设结果的图像进行进一步确认，并可将标记为不符合预设结果的图像运用在对目标检测模型进一步训练的过程中，将在模型训练的部分进行说明。

S1044、当第一面积小于第二预设面积阈值时，将景别识别结果确定为大远景，并将当前待处理图像标记为不符合预设结果。

本申请实施例中，当第一面积小于第二预设面积阈值时，说明主体检测区域在整个画面中占据的区域过小，视频处理装置可以将景别识别结果确定为大远景，并且将当前待处理图像进一步标记为不符合预设结果，以提示后续的视频处理过程对不符合预设结果的图像进行进一步确认，并可将标记为不符合预设结果的图像运用在对目标检测模型进一步训练的过程中，将在模型训练的部分进行说明。

在一些实施例中，S102之后，当视频处理装置得到至少一个检测区域时，当至少一个检测区域中检测对象为人物对象的检测区域数量大于预设人物数量阈值时，视频处理装置可以将当前待处理图像的景别识别结果确认为人物群景。

需要说明的是，本申请实施例中，尺寸比也可以是主体区域宽度与主体区域高度的比值，相应地，第一预设尺寸比阈值、第二预设尺寸比阈值、第三预设尺寸比阈值与第四预设尺寸比阈值可以基于预先定义的宽度与高度的比值来相应的设定，具体的根据实际情况进行选择，本申请实施例不作限定。

可以理解的是，本申请实施例中，视频处理装置可以基于预训练好的目标检测模型，通过远近景的先验知识判断图像远近景，从而避免了直接大规模收集标注样本进行识别，同时避免了引入额外的深度学习模型造成整体计算时间过长，并且效果与远近景的定义更接近，从而提高了景别识别结果的效率与准确性，进而提高了视频处理的效率与准确性。

在一些实施例中，参见图7，图7是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图。主体尺寸信息包括：主体区域高度与主体区域宽度；至少一类检测对象包括：物体对象，示例性的，物体对象可以是建筑物、车辆、树木等图像对象。S104中基于主体检测区域的主体尺寸信息与检测对象，确定当前待处理图像的景别识别结果的过程可以通过S1045-S1049来实现，将结合各步骤进行说明。

S1045、当检测对象为物体对象时，根据主体区域高度与主体区域宽度，得到主体检测区域第二面积。

S1046、当第二面积大于或等于预设第三面积阈值时，将景别识别结果确定为物体特写。

本申请实施例中，当第二面积大于或等于预设第三面积阈值时，说明物体对象占据的主体检测区域在当前待处理图像中占据的比例较大，物体对象距离视觉出发点的距离较近，视频处理装置将景别识别结果确定为物体特写。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，预设第三面积阈值可以设定为0.3，也可以根据实际情况设定为其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S1047、当第二面积小于预设第三面积阈值且大于或等于预设第四面积阈值时，将景别识别结果确定为物体近景；预设第四面积阈值小于预设第三面积阈值。

本申请实施例中，预设第四面积阈值小于预设第三面积阈值。当第二面积小于预设第三面积阈值且大于或等于预设第四面积阈值时，说明物体对象占据的主体检测区域小于特写对应的面积，属于近景对应的面积范围，视频处理装置将景别识别结果确定为物体近景。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，预设第三面积阈值可以设定为0.1，也可以根据实际情况设定为其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S1048、当第二面积小于预设第四面积阈值且大于或等于第二预设面积阈值时，将景别识别结果确定为物体全景；预设第四面积阈值大于第二预设面积阈值。

本申请实施例中，预设第四面积阈值大于第二预设面积阈值。当第二面积小于预设第四面积阈值且大于或等于第二预设面积阈值时，视频处理装置将景别识别结果确定为物体全景。

在一些实施例中，对于归一化到(0,1)区间的主体区域高度与主体区域宽度，预设第四面积阈值可以设定为0.01，也可以根据实际情况设定为其他取值，具体的根据实际情况进行选择，本申请实施例不作限定。

S1049、当第二面积小于第二预设面积阈值时，将景别识别结果确定为物体远景。

本申请实施例中，当第二面积小于第二预设面积阈值时，视频处理装置将景别识别结果确定为物体远景。

可以理解的是，本申请实施例中，视频处理装置还可以对物体类别的对象进行远近景识别，在不需要大幅增加模型运算量和处理量的基础上实现了对多种类型检测对象的远近景识别，提高了视频处理的效率。

在一些实施例中，S101之后，还可以包括S001，将结合各步骤进行说明。

S001、当使用目标检测模型，对至少一个待处理图像中的当前待处理图像进行目标检测，未检测到检测区域时，将当前待处理图像标记为不符合预设结果，不使用当前待处理图像进行视频处理。

本申请实施例中，当视频处理装置使用目标检测模型，对至少一个待处理图像中的当前待处理图像进行目标检测，未检测到检测区域时，说明当前待处理图像中包含目标检测模型无法识别的目标对象，无法进一步根据可识别的目标对象推断出景别识别结果。视频处理装置将当前待处理图像标记为不符合预设结果，不使用当前待处理图像进行视频处理；并可将标记为不符合预设结果的图像运用在对目标检测模型进一步训练的过程中，将在模型训练的部分进行说明。

在一些实施例中，参见图8，图8是本申请实施例提供的基于人工智能的视频处理方法的一个可选的流程示意图，基于图3，S102之前，还可以包括S401-S403，将结合各步骤进行说明。

S401、使用初始目标检测模型对训练样本图像集进行目标检测，从训练样本图像集中确定出不符合预设结果的样本图像。

本申请实施例中，视频处理装置可以采用初始目标检测模型，基于初始目标检测模型的默认初始训练权重，对训练样本图像集进行目标检测，并基于目标检测结果，结合上述景别识别方法，从训练样本图像集中确定出未检测到目标的训练样本图像、和/或主体检测区域的第一面积小于第二预设面积阈值的训练样本图像，和/或主体区域高度或主体区域宽度小于预设第二边长阈值的训练样本图像作为不符合预设结果的样本图像。

在一些实施例中，初始目标检测模型可以是yolov5模型，也可以是其他类型的目标检测网络模型，具体的根据实际情况进行选择，本申请实施例不作限定。

在一些实施例中，训练样本图像集可以采用开源数据coco训练集作为训练样本图像集，也可以采用其他图像集作为训练样本图像集，具体的根据实际情况进行选择，本申请实施例不作限定。

S402、将不符合预设结果的样本图像作为增量训练样本，获取增量训练样本的标注结果，进而得到增量训练样本集。

本申请实施例中，视频处理装置将不符合预设结果的样本图像作为增量训练样本，获取增量训练样本的标注结果，进而得到增量训练样本集。

本申请实施例中，不符合预设结果的样本图像包括未被检测到的主体物体，这些未被检测到的主体物体可能是初始目标检测模型漏检的，也可能是不属于初始目标检测模型的预设检测对象类型的新增类型对象。视频处理装置收集不符合预设结果的样本图像的标注结果，将增量训练样本与增量训练样本对应的标注结果作为增量训练样本集，继而将增量训练样本集投入对初始目标检测模型的训练，以增强初始目标检测模型的目标检测能力。

本申请实施例中，标注结果为人工对不符合预设结果的样本图像中的主体物体的位置、大小与类别进行标注的标注区域。

S403、基于增强训练样本集与训练样本图像集，对初始目标检测模型进行迭代训练，得到目标检测模型。

本申请实施例中，视频处理装置可以把增强训练样本集与训练样本图像集作为全量训练数据集，将全量训练数据集分成多批，得到至少一批训练数据集，采用标准的随机梯度下降(Stochastic Gradient Descent，SGD)优化方法更新网络权重。具体地，视频处理装置可以将至少一批训练数据集中的每批训练数据集进行图像增强的预处理，并输入到初始目标检测模型中进行前向计算，得到当前轮训练中每批训练数据集对应的训练预测区域集合；视频处理装置根据训练预测区域集合与每批训练数据集对应的标注区域集合，计算训练预测区域集合的置信度损失、训练预测区域集合中正预测区域的分类交叉熵损失、中心位置坐标损失，宽高损失；最后将置信度损失、分类交叉熵、中心位置坐标损失与宽高损失相加得到当前轮训练的总损失。视频处理装置根据当前轮训练的总损失，通过SGD算法得到对初始目标检测模型的各层神经网络进行权重调整的梯度值，使用梯度值更新各层权重，并基于更新后的权重进行下一轮训练，直至达到预设训练目标，如训练次数达到预设次数，或总损失达到预设损失阈值以下时，结束训练，得到目标检测模型。

在一些实施例中，视频处理装置可以通过公式(1)计算每轮训练的总损失，如下：

其中，S²为当前训练数据中预测到有训练预测区域的位置集合，obj为训练预测区域有物体的正检测框，noobj为训练预测区域没有物体的负检测框。x_i与y_i为标注区域的中心坐标，

与

为训练预测区域的中心坐标，

为中心位置坐标损失。w_i与h_i分别为标注区域的宽高值，

与

分别为训练预测区域的宽高值，

为宽高损失；C_i为训练预测区域的置信度得分，

为训练预测区域与标注区域的重叠部分，

为置信度损失，

为预测类别损失。

可以理解的是，本申请实施例中，视频处理装置可以通过景别识别方法挖掘出目标检测的训练难例，使用训练难例作为增量样本对初始目标检测模型进行训练，从而提高了目标检测模型的目标检测能力，进而增强了目标检测的准确性以及视频处理的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例中，参见图9，图9示出了基于人工智能的视频处理系统的一个可选的功能模块结构图。在图9的系统中，视频处理装置可以借助视频分析理解系统中原有的关键目标检测模块，将本申请实施例中的远近景识别方法应用于关键目标检测模块下游的视频分析业务中，帮助提升视频理解和视频嵌入的效果，并且避免在视频分析理解系统中额外引入分析任务复杂、计算压力较大的远近景识别模型，使得整个视频处理系统更加轻量化，减少远近景识别计算的耗时，提高视频处理效率。下面，以基于图9所示的视频处理系统智能地生成视频封面图为例，结合图10进一步说明本申请实施例的示例性应用过程。其中，对于图10所示出的远近景识别模块，在模型训练过程中，该模块可以将识别结果输出至用于进行缺失目标的样本图像收集的模型训练模块；在视频处理过程中，该模块可以将识别结果输出至用于生成封面图的视频处理模块。

本申请实施例中，对于模型训练过程，视频处理装置可以将原始样本集输入目标检测模型，使用目标检测模型对原始样本集中的当前样本图像进行目标检测，得到当前样本检测结果。视频处理装置可以通过图10中的远近景识别模块，采用S501-S504中的方法，对当前样本检测结果进行分析，得到远近景识别结果，如下：

S501、当当前样本检测结果为至少一个目标检测框时，从至少一个目标检测框中确定出面积最大的目标检测框，作为主体检测区域；并将主体检测区域的面积、高度与宽度归一化到(0,1)的数值区间，进而得到主体检测区域的面积a、主体区域高度h、主体区域宽度w与主体检测区域的高宽比ratio，其中，ratio等于h/w。

S502、当主体检测区域中的检测对象为人物对象时，通过人物远近景判断方法，确定当前样本图像的远近景识别结果，具体地，人物远近景判断方法可以通过S01-S03来实现，如下：

S01、当a大于或等于0.2时，根据ratio的值确定当前样本图像的远近景识别结果。

S01中，第一预设面积阈值为0.2。S01可以包括S01-1至S01-4，如下：

S01-1、当ratio大于1且小于或等于2时，将当前样本图像的远近景识别结果确定为人脸特写。

S01-1中，第一预设尺寸比阈值为1，第二预设尺寸比阈值为2。

S01-2、当ratio大于2且小于或等于4时，将当前样本图像的远近景识别结果确定为人体近景。

S01-2中，第三预设尺寸比阈值为4。

S01-3、当ratio大于4且小于或等于6时，将当前样本图像的远近景识别结果确定为人体全景。

S01-2中，第四预设尺寸比阈值为6。

S01-4、当ratio大于6时，将当前样本图像的远近景识别结果确定为远景。

S02、当a大于或等于0.01，且小于0.2时，基于w或h的值确定当前样本图像的远近景识别结果。

S02中，第二预设面积阈值为0.01。S02可以包括S02-1至S02-4，如下：

S02-1、当w或h大于或等于0.3时，将当前样本图像的远近景识别结果确定为人体全景。

S02-1中，预设第一边长阈值为0.3。

S02-2、当w或h小于0.3，且大于或等于0.1时，若ratio大于或等于2，将当前样本图像的远近景识别结果确定为远景。

S02-2中，预设第二边长阈值为0.1。

S02-3、当w或h小于0.3，且大于或等于0.1时，若ratio小于2，将当前样本图像的远近景识别结果确定为大远景。

S02-4、当w或h小于0.1时，将当前样本图像的远近景识别结果确定为大远景，同时将当前样本图像标记为不符合预设结果。

S03、当a小于0.01时，将当前样本图像的远近景识别结果确定为大远景，同时将当前样本图像标记为不符合预设结果。

S503、当主体检测区域中的检测对象为物体对象时，通过物体远近景判断方法，确定当前样本图像的远近景识别结果，具体地，物体远近景判断方法可以通过S11-S14来实现，如下：

S11、当a大于或等于0.3时，将当前样本图像的远近景识别结果确定为物体特写。

S11中，预设第三面积阈值为0.3。

S12、当a小于0.3，且大于或等于0.1时，将当前样本图像的远近景识别结果确定为物体近景。

S11中，预设第四面积阈值为0.1。

S13、当a小于0.1，且大于或等于0.01时，将当前样本图像的远近景识别结果确定为物体全景。

S14、当a小于0.01时，将当前样本图像的远近景识别结果确定为远景。

S504、当当前样本检测结果为无目标时，将当前样本图像标记为不符合预设结果。

本申请实施例中，对于模型训练过程，视频处理装置通过S501-S504的方法，对原始样本集中的每个样本图像进行相同的处理，将得到的全部不符合预设结果的样本图像作为缺失目标的样本图像，获取缺失目标的样本图像的标注结果，从而得到增量训练样本集。视频处理装置共同使用原始样本集与增强训练样本集对目标检测模型进行训练，并使用经过训练的目标检测模型进行视频处理过程。

本申请实施例中，对于视频处理过程，视频处理装置对待处理视频进行抽帧分镜，得到至少一个待处理图像，视频处理装置使用上述训练后的目标检测模型对至少一个待处理图像进行目标检测，得到每个待处理图像的至少一个检测区域。视频处理装置通过远近景识别模块，对于每个待处理图像的至少一个检测区域进行上述S501-S504一致的处理，得到每个待处理图像的远近景识别结果，最终，视频处理装置可以在每个待处理图像的远近景识别结果中，根据实际封面图需求，确定出目标图像，使用目标图像生成封面图。示例性的，当实际封面图需求为采用人物特写作为待处理视频的封面图时，视频处理装置根据每个待处理图像的远近景识别结果，确定出属于人物特写的待处理图像作为目标图像，使用目标图像生成人物特写效果的封面图，从而完成视频处理过程。

可以理解的是，本申请实施例中，视频处理装置可以利用远近景识别模块中的算法逻辑，对目标检测模型进行进一步训练，从原始样本集中挖掘出缺失目标样本图像作为缺失目标图像，收集缺失目标图像的标注结果形成标注样本训练集，使用标注样本训练集对目标检测神经网络模型进行增量训练与更新，从而提高目标检测模型的精度，进而提高整个视频处理系统的准确性。并且，视频处理装置在已有的目标检测模型上配合远近景识别逻辑，无需增加过多的处理工作量，即可快速根据目标检测模型的目标检测结果确定出图像的远近景识别结果，从而提高了视频处理的效率。

下面继续说明本申请实施例提供的基于人工智能的视频处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的基于人工智能的视频处理装置455中的软件模块可以包括：

视频抽帧模块4551，用于对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像；

目标检测模型4552，用于对所述至少一个待处理图像中的当前待处理图像进行目标检测，得到至少一类检测对象对应的至少一个检测区域；所述目标检测模型用于从所述当前待处理图像检测出所述至少一类检测对象所占据的所述至少一个检测区域；

景别识别模块4553，用于根据所述至少一个检测区域中每个检测区域的尺寸信息，从所述至少一个检测区域中确定主体检测区域；基于所述主体检测区域的主体尺寸信息与检测对象，确定所述当前待处理图像的景别识别结果，进而得到所述至少一个待处理图像中每个待处理图像的景别识别结果；所述景别识别结果表征图像内容距离视觉出发点的距离；

视频处理模块4554，用于基于所述每个待处理图像的景别识别结果实现对所述待处理视频的智能处理。

在一些实施例中，所述主体尺寸信息包括：主体区域高度与主体区域宽度；所述至少一类检测对象包括：人物对象；所述景别识别模块4553，还用于当所述检测对象为所述人物对象时，根据所述主体区域高度与所述主体区域宽度，得到所述主体检测区域的尺寸比与第一面积；当所述第一面积大于或等于第一预设面积阈值时，根据所述尺寸比确定所述景别识别结果；或者，当所述第一面积小于所述第一预设面积阈值且大于或等于第二预设面积阈值时，基于所述主体区域高度或所述主体区域宽度确定所述景别识别结果；所述第二预设面积阈值小于所述第一预设面积阈值；或者，当所述第一面积小于所述第二预设面积阈值时，将所述景别识别结果确定为大远景，并将所述当前待处理图像标记为不符合预设结果。

在一些实施例中，所述尺寸比为所述主体区域高度与所述主体区域宽度的比值；所述景别识别模块4553，还用于当所述尺寸比大于第一预设尺寸比阈值，且小于或等于属于第二预设尺寸比阈值时，将所述景别识别结果确定为人脸特写；所述第二预设尺寸比阈值大于所述第一预设尺寸比阈值；或者，当所述尺寸比大于所述第二预设尺寸比阈值，且小于或等于第三预设尺寸比阈值时，将所述景别识别结果确定为人体近景；或者，当所述第三预设尺寸比阈值大于所述第二预设尺寸比阈值；当所述尺寸比大于所述第三预设尺寸比阈值，且小于或等于第四预设尺寸比阈值时，将所述景别识别结果确定为人体全景；所述第四预设尺寸比阈值大于所述第三预设尺寸比阈值；或者，当所述尺寸比大于所述第四预设尺寸比阈值时，将所述景别识别结果确定为远景。

在一些实施例中，所述景别识别模块4553，还用于当所述主体区域高度或所述主体区域宽度大于或等于预设第一边长阈值时，将所述景别识别结果确定为人体全景；或者，当所述主体区域高度或所述主体区域宽度小于所述预设第一边长阈值，且大于或等于预设第二边长阈值时，判断所述尺寸比是否大于所述第二预设尺寸比阈值；当所述尺寸比大于或等于所述第二预设尺寸比阈值时，将景别识别结果确定为远景；或者，当所述尺寸比小于所述第二预设尺寸比阈值时，将景别识别结果确定为大远景；或者，当所述主体区域高度或所述主体区域宽度小于所述预设第二边长阈值时，将所述景别识别结果确定为大远景，并将所述当前待处理图像标记为不符合预设结果。

在一些实施例中，所述主体尺寸信息包括：主体区域高度与主体区域宽度；所述至少一类检测对象包括：物体对象；所述景别识别模块4553，还用于当所述检测对象为所述物体对象时，根据所述主体区域高度与所述主体区域宽度，得到所述主体检测区域第二面积；当所述第二面积大于或等于预设第三面积阈值时，将所述景别识别结果确定为物体特写；或者，当所述第二面积小于所述预设第三面积阈值且大于或等于预设第四面积阈值时，将所述景别识别结果确定为物体近景；所述预设第四面积阈值小于所述预设第三面积阈值；或者，当所述第二面积小于所述预设第四面积阈值且大于或等于所述第二预设面积阈值时，将所述景别识别结果确定为物体全景；所述预设第四面积阈值大于所述第二预设面积阈值；或者，当所述第二面积小于所述第二预设面积阈值时，将所述景别识别结果确定为物体远景。

在一些实施例中，所述目标检测模型4552，还用于所述对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像之后，对所述至少一个待处理图像中的当前待处理图像进行目标检测，未检测到检测区域时，将所述当前待处理图像标记为不符合预设结果，不使用所述当前待处理图像进行视频处理。

在一些实施例中，所述基于人工智能的视频处理装置还包括模型训练模块，所述模型训练模块，用于所述使用目标检测模型对所述至少一个待处理图像中的每个待处理图像进行目标检测，得到目标检测结果之前，使用所述初始目标检测模型对所述训练样本图像集进行目标检测，从所述训练样本图像集中确定出不符合预设结果的样本图像；将所述不符合预设结果的样本图像作为增量训练样本，获取所述增量训练样本的标注结果，进而得到增量训练样本集；基于所述增量训练样本集与所述训练样本图像集，对所述初始目标检测模型进行迭代训练，得到所述目标检测模型。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的视频处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、5、7、8中示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，视频处理装置可以基于预训练好的目标检测模型，通过远近景的先验知识判断图像远近景，从而避免了直接大规模收集标注样本进行识别，同时避免了引入额外的深度学习模型造成整体计算时间过长，并且效果与远近景的定义更接近，从而提高了景别识别结果的效率与准确性，进而提高了视频处理的效率与准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述主体尺寸信息包括：主体区域高度与主体区域宽度；所述至少一类检测对象包括：人物对象；所述基于所述主体检测区域的主体尺寸信息与检测对象，确定所述当前待处理图像的景别识别结果，包括：

当所述检测对象为所述人物对象时，根据所述主体区域高度与所述主体区域宽度，得到所述主体检测区域的尺寸比与第一面积；

当所述第一面积大于或等于第一预设面积阈值时，根据所述尺寸比确定所述景别识别结果；或者，

当所述第一面积小于所述第一预设面积阈值且大于或等于第二预设面积阈值时，基于所述主体区域高度或所述主体区域宽度确定所述景别识别结果；所述第二预设面积阈值小于所述第一预设面积阈值；或者，

当所述第一面积小于所述第二预设面积阈值时，将所述景别识别结果确定为大远景，并将所述当前待处理图像标记为不符合预设结果。

3.根据权利要求2所述的方法，其特征在于，所述尺寸比为所述主体区域高度与所述主体区域宽度的比值；所述根据所述尺寸比确定所述景别识别结果，包括：

当所述尺寸比大于第一预设尺寸比阈值，且小于或等于属于第二预设尺寸比阈值时，将所述景别识别结果确定为人脸特写；所述第二预设尺寸比阈值大于所述第一预设尺寸比阈值；或者，

当所述尺寸比大于所述第二预设尺寸比阈值，且小于或等于第三预设尺寸比阈值时，将所述景别识别结果确定为人体近景；所述第三预设尺寸比阈值大于所述第二预设尺寸比阈值；或者，

当所述尺寸比大于所述第三预设尺寸比阈值，且小于或等于第四预设尺寸比阈值时，将所述景别识别结果确定为人体全景；所述第四预设尺寸比阈值大于所述第三预设尺寸比阈值；或者，

当所述尺寸比大于所述第四预设尺寸比阈值时，将所述景别识别结果确定为远景。

4.根据权利要求3所述的方法，其特征在于，所述基于所述主体区域高度或所述主体区域宽度确定所述景别识别结果，包括：

当所述主体区域高度或所述主体区域宽度大于或等于预设第一边长阈值时，将所述景别识别结果确定为人体全景；或者，

当所述主体区域高度或所述主体区域宽度小于所述预设第一边长阈值，且大于或等于预设第二边长阈值时，判断所述尺寸比是否大于所述第二预设尺寸比阈值；

当所述尺寸比大于或等于所述第二预设尺寸比阈值时，将景别识别结果确定为远景；或者，

当所述尺寸比小于所述第二预设尺寸比阈值时，将景别识别结果确定为大远景；或者，

当所述主体区域高度或所述主体区域宽度小于所述预设第二边长阈值时，将所述景别识别结果确定为大远景，并将所述当前待处理图像标记为不符合预设结果。

5.根据权利要求2所述的方法，其特征在于，所述主体尺寸信息包括：主体区域高度与主体区域宽度；所述至少一类检测对象包括：物体对象；所述基于所述主体检测区域的主体尺寸信息与检测对象，确定所述当前待处理图像的景别识别结果，包括：

当所述检测对象为所述物体对象时，根据所述主体区域高度与所述主体区域宽度，得到所述主体检测区域第二面积；或者，

当所述第二面积大于或等于预设第三面积阈值时，将所述景别识别结果确定为物体特写；或者，

当所述第二面积小于所述预设第三面积阈值且大于或等于预设第四面积阈值时，将所述景别识别结果确定为物体近景；所述预设第四面积阈值小于所述预设第三面积阈值；或者，

当所述第二面积小于所述预设第四面积阈值且大于或等于所述第二预设面积阈值时，将所述景别识别结果确定为物体全景；所述预设第四面积阈值大于所述第二预设面积阈值；或者，

当所述第二面积小于所述第二预设面积阈值时，将所述景别识别结果确定为物体远景。

6.根据权利要求1所述的方法，其特征在于，所述对待处理视频进行抽帧与分镜处理，得到至少一个待处理图像之后，所述方法还包括：

当使用目标检测模型，对所述至少一个待处理图像中的当前待处理图像进行目标检测，未检测到检测区域时，将所述当前待处理图像标记为不符合预设结果，不使用所述当前待处理图像进行视频处理。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述使用目标检测模型对所述至少一个待处理图像中的每个待处理图像进行目标检测，得到目标检测结果之前，所述方法还包括：

使用初始目标检测模型对训练样本图像集进行目标检测，从所述训练样本图像集中确定出不符合预设结果的样本图像；

将所述不符合预设结果的样本图像作为增量训练样本，获取所述增量训练样本的标注结果，进而得到增量训练样本集；

基于所述增量训练样本集与所述训练样本图像集，对所述初始目标检测模型进行迭代训练，得到所述目标检测模型。

8.一种基于人工智能的视频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的方法。

10.一种存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至7任一项所述的方法。