CN114222065B

CN114222065B - 图像处理方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN114222065B
Application number: CN202111566737.6A
Authority: CN
Inventors: 吕金刚; 周宇虹; 黄远东; 薛米生; 荆楠; 赵玉瑶
Original assignee: Beijing Eswin Computing Technology Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2024-03-08
Anticipated expiration: 2041-12-20
Also published as: CN114222065A

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备、存储介质及程序产品。该方法包括：确定第一镜头框的尺寸，第一镜头框用于在采集的摄像头画面中截取录制画面；当摄像头画面中的目标对象处于第一状态时，对第一镜头框进行移动，以使得目标对象处于第一镜头框内；当目标对象进入第二状态时，基于第二状态的目标对象在摄像头画面中的相关位置，将第一镜头框缩放为第二镜头框；当目标对象结束第二状态时，将第二镜头框恢复为第一镜头框。本申请实施例通过在采集的高分辨率摄像头画面中，截取预设低分辨率录制画面的方式，能够有效模拟摄像头转动、变焦变倍的效果，达到替换专业摄像，提升拍摄效果的目的。

Description

图像处理方法、装置、电子设备、存储介质及程序产品

技术领域

本申请涉及录播技术领域，具体而言，本申请涉及一图像处理方法、装置、电子设备、存储介质及程序产品。

背景技术

现代教育不是一个孤立、封闭的过程，而是开放的、现实的、全方位的社会活动，需要利用先进的管理沟通工具。录播成为解决大批量教学资源专业制作的最有效工具，运用录播系统的力量，在课堂常态化教学的同时，就可以完成课堂全过程的实况拍摄。

目前，可使用的录播系统和方法有很多，但距离真人摄影师拍摄的效果，还有很大的差距。例如一些方案会采用多个摄像头的方式，通过判断监控目标是在哪个摄像头监控视场中，然后切换摄像头画面，存在镜头切换突变、不自然等现象。

发明内容

本申请实施例的目的旨在解决现有录播系统和方法拍摄效果差的问题。技术方案如下：

根据本申请实施例的一个方面，提供了一种图像处理方法，该方法包括：

确定第一镜头框的尺寸，第一镜头框用于在采集的摄像头画面中截取录制画面；

当摄像头画面中的目标对象处于第一状态时，对第一镜头框进行移动，以使得目标对象处于第一镜头框内；

当目标对象进入第二状态时，基于第二状态的目标对象在摄像头画面中的相关位置，将第一镜头框缩放为第二镜头框；

当目标对象结束第二状态时，将第二镜头框恢复为第一镜头框。

根据本申请实施例的另一个方面，提供了一种图像处理装置，该装置包括：

确定模块，用于确定第一镜头框的尺寸，第一镜头框用于在采集的摄像头画面中截取录制画面；

移动模块，用于当摄像头画面中的目标对象处于第一状态时，对第一镜头框进行移动，以使得目标对象处于第一镜头框内；

缩放模块，用于当目标对象进入第二状态时，基于第二状态的目标对象在摄像头画面中的相关位置，将第一镜头框缩放为第二镜头框；

恢复模块，用于当目标对象结束第二状态时，将第二镜头框恢复为第一镜头框。

根据本申请实施例的又一个方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上的计算机程序，该处理器执行该计算机程序以实现本申请实施例提供的图像处理方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的图像处理方法的步骤。

根据本申请实施例的还一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的图像处理方法的步骤。

本申请实施例提供的图像处理方法、装置、电子设备、存储介质及程序产品，通过在采集的高分辨率摄像头画面中，截取预设低分辨率录制画面的方式，能够有效模拟摄像头转动、变焦变倍的效果，达到替换专业摄像，提升拍摄效果的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像处理方法的流程示意图；

图2为本申请实施例提供的一种镜头状态的示意图；

图3为本申请实施例提供的一种身份识别的流程示意图；

图4为本申请实施例提供的一种镜头切换逻辑处理的流程示意图；

图5为本申请实施例提供的一种对象检测的流程示意图；

图6为本申请实施例提供的一种多目标跟踪的流程示意图；

图7为本申请实施例提供的一种视频录制系统的结构示意图；

图8为本申请实施例提供的一种图像处理装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请实施例中提供了一种图像处理方法，如图1所示，该方法包括：

步骤S101：确定第一镜头框的尺寸，第一镜头框用于在采集的摄像头画面中截取录制画面；

本申请实施例中，第一镜头框可以理解为一个截取框，能够在采集的摄像头画面中持续截取ROI区域(region of interest，感兴趣区域)作为录制画面。

本申请实施例中，第一镜头框的尺寸可以是预设的，例如可以直接获取预设的第一镜头框的尺寸。

或者，第一镜头框的尺寸可以是即时确定的，例如，基于摄像头画面的尺寸按照一定的比例来确定，但不限于此，本领域技术人员可以根据实际需求来设置第一镜头框的尺寸的确定方式。

可选的，在确定出第一镜头框的尺寸后，利用第一镜头框截取录制画面时，第一镜头框的尺寸可以保持大小固定，也可以按照一定规则进行变化，本领域技术人员可以根据实际情况进行设置，本申请实施例在此不做限定。

步骤S102：当摄像头画面中的目标对象处于第一状态时，对第一镜头框进行移动，以使得目标对象处于第一镜头框内；

其中，对象可以但不限于是人体、动物或机器人等。

本申请实施例中，第一状态是指目标对象移动幅度较大的状态。以目标对象是授课录制场景中的本堂课教师为例，第一状态可以是课堂巡视、互动等存在明显移动的状态。

本申请实施例中，第一镜头框也可以理解为追踪镜头，使得目标对象一直处于第一镜头框内，即对目标对象进行追踪。

具体而言，第一镜头框的移动方向，可以是第一镜头框的中心点指向目标对象的中心点的方向。其中，目标对象的中心点可以是指目标对象的检测框的中心点，也可以是其他方式确定的中心点，本申请实施例对此不做限定。

可选地，当第一镜头框的中心点与目标对象的中心点重合时，第一镜头框的移动过程可以终止；或者，当第一镜头框的中心点移动至目标对象的中心点的预定范围内时，即第一镜头框的中心点与目标对象的中心点的距离小于预定阈值d时，第一镜头框的移动过程可以终止；或者当第一镜头框触碰到摄像头画面的边界时，第一镜头框的移动过程可以终止。

可选地，当第一镜头框的中心点与目标对象的中心点的距离大于预定阈值d时，对第一镜头框进行移动，即第一镜头框开始向目标对象的中心点开始移动；或者，当第一镜头框的中心点与目标对象的中心点不重合时，第一镜头框开始向目标对象的中心点开始移动。

步骤S103：当目标对象进入第二状态时，基于第二状态的目标对象在摄像头画面中的相关位置，将第一镜头框缩放为第二镜头框；

本申请实施例中，第二状态是指目标对象移动幅度较小的状态。以目标对象是授课录制场景中的本堂课教师为例，第二状态可以是手写板书、讲课等位置相对较为固定的状态。

本申请实施例中，将第一镜头框缩放为第二镜头框，具体可以包括：将第一镜头框缩小为第二镜头框，该过程也可以理解为镜头聚焦过程，第二镜头框也可以理解为聚焦镜头。

本申请实施例中，第二状态的目标对象的相关位置也可以是指目标对象的第二状态的相关位置。例如以目标对象是本堂课教师，第二状态是手写板书为例，相关位置可以是黑板位置P_b＝(x_b1，y_b1，x_b2，y_b2)，其中，(x_b1，y_b1)是黑板位置左上角的坐标点，(x_b2，y_b2)是黑板位置右下角的坐标点。相关位置也可以是本堂课教师的当前位置P_t＝(x_t1，y_t1，x_t2，y_t2)，其中，(x_t1，y_t1)是本堂课教师的当前位置左上角的坐标点，(x_t2，y_t2)是本堂课教师的当前位置右下角的坐标点。又例如以第二状态是讲课状态为例，相关位置可以是讲桌位置、显示屏位置或是本堂课教师的当前位置等。其中，基于相关位置对第一镜头框进行缩放，即将相关位置作为缩放的终止位置。

需要说明的是，本文中所指的位置是指在摄像头画面中的位置，为便于描述，本文中相同的内容将不再赘述。

本申请实施例中，当相关位置的尺寸大于第一镜头框的尺寸时，可以对第一镜头框进行放大，得到第二镜头框；当相关位置的尺寸小于第一镜头框的尺寸时，可以对第一镜头框进行缩小，得到第二镜头框。也就是说，第二镜头框和第一镜头框可以理解为同一个截取框，只是尺寸发生了变化。

步骤S104：当目标对象结束第二状态时，将第二镜头框恢复为第一镜头框。

即当目标对象从第二状态切换至第一状态或者其他状态时，可以启动恢复镜头，即开始执行镜头恢复过程，例如将聚焦镜头还原至追踪镜头，以利用追踪镜头继续对目标对象进行追踪。

本申请实施例中，将第二镜头框恢复为第一镜头框，具体可以包括：将第二镜头框恢复为第三镜头框(与第一镜头框尺寸相同)，将第三镜头框切换为第一镜头框。第三镜头框也可以理解为恢复镜头。其中，第三镜头框和第二镜头框可以理解为同一个截取框，只是尺寸发生了变化。第三镜头框和第一镜头框也可以理解为同一个截取框，只是状态发生了变化(第一镜头框可移动)。

本申请实施例中，镜头框可以为矩形框，也可以为其他形状的框，本领域技术人员可以根据实际情况进行设置，本申请实施例对此不做限定。

需要说明的是，上述步骤S102、步骤S103和步骤S104等步骤编号并不构成对步骤先后顺序的限定，即步骤S102、步骤S103和步骤S104的执行顺序可以是没有先后的，例如可以先执行步骤S103和步骤S104，再执行步骤S102，也可以依次执行步骤S102、步骤S103和步骤S104等，本申请实施例在此不做限定。

本申请实施例提供的图像处理方法，可以应用各种录制场景，例如教师授课的录制场景等，但不限于此。

下面以目标对象是老师为例，通过图2给出了镜头状态的示意图。

如图2所示，在采集的摄像头画面A中，包括老师和黑板；利用第一镜头框(追踪镜头B)在摄像头画面A中截取分辨率较小的画面作为录制画面，使得镜头更能聚焦在老师和黑板区域。录制过程中，还可以根据老师的状态，将第一镜头框缩小为第二镜头框(聚焦镜头C)，使得镜头进一步聚焦在老师和黑板区域，得到分辨率更小的录制画面。

可以理解的是，截取后的各个录制画面可以根据播放显示屏的大小进行适配，得到一系列尺寸相同，但像素不同的播放画面，以模拟镜头的转动和变焦效果。

本申请实施例中，第一镜头框和第二镜头框可以用于在实时采集的摄像头画面中截取录制画面，即本申请的技术方案可以对摄像头录制中的画面进行实时处理，直接生成截取后的录制视频。

或者，第一镜头框和第二镜头框也可以用于在已采集的视频的各个摄像头画面中截取录制画面，即本申请的技术方案可以对摄像头录制完的视频画面进行后期处理，生成截取后的录制视频。

本申请实施例提供的图像处理方法，在采集的高分辨率摄像头画面中，通过截取预设低分辨率录制画面的方式，使得镜头更能聚焦在目标对象所在的区域；通过第一镜头框在摄像头画面中的移动，模拟摄像头的转动效果；通过第一镜头框和第二镜头框的相互转换，模拟摄像头的变焦变倍效果，即本申请实施例提供的图像处理方法通过物理方式可实现镜头转动、变焦效果、切换视场的视频录制，并且第一镜头框本身可实现平滑移动的效果，使得录制效果更自然，更真实，达到替换专业摄像，提升拍摄效果的目的。同时该方式也降低了视频存储空间，提升了视频传输效率。

本申请实施例中，采集的摄像头画面可以来自单摄像头采集设备，即本申请实施例基于单摄像头采集画面便可实现镜头转动、变焦效果的视频录制。其他实施例中，采集的摄像头画面也可来自多个摄像头采集的画面。本申请实施例在此对采集设备的类型不做具体限定，例如可以是能够进行多角度拍摄的云台摄像机，也可以是录像机、机器人、无人机、智能移动终端等。

本申请实施例中，为步骤S101提供了一种可行的实施方式，具体地，可以包括步骤：

步骤S1011：获取第一镜头框的参照物在摄像头画面中的像素面积；

步骤S1012：基于像素面积，确定第一镜头框的尺寸。

一个可选的实施例中，获取第一镜头框的参照物在摄像头画面中的像素面积后，直接将覆盖该像素面积的预定比例的最小尺寸作为第一镜头框的尺寸。例如以参照物是黑板为例，假设(w，h)为高清摄像头的分辨率，w为摄像头画面的宽度，h为摄像头画面的高度。获取黑板所占摄像头画面的像素面积后，确定能够完全覆盖黑板区域的w/h比例的最小尺寸，作为第一镜头框的尺寸。

另一个可选的实施例中，可以先初始化第一镜头框的尺寸大小为(scale*w，scale*h)，其中(w，h)为高清摄像头的分辨率，w为摄像头画面的宽度，h为摄像头画面的高度，scale为镜头尺寸因子，且0<scale≤1。作为示例地，若设置scale＝2/3，假设高清摄像头分辨率为1080P，则第一镜头框的初始大小为720P。获取第一镜头框的参照物在摄像头画面中的像素面积后，将第一镜头框的初始化尺寸与该像素面积进行比对，若该像素面积较大，则放大第一镜头框的尺寸，直到完全覆盖参照物的区域。例如以参照物是黑板为例，获取黑板所占摄像头画面的像素面积后，若黑板所占像素面积大于第一镜头框的尺寸，则第一镜头框按照w/h比例放大，直到第一镜头框完全覆盖黑板区域，将放大后的尺寸作为第一镜头框的尺寸。同理，若该像素面积较小，可以缩小第一镜头框的尺寸，并将缩小后的尺寸作为第一镜头框的尺寸。进一步地，还可以预配置缩小第一镜头框的尺寸下限，本领域技术人员可以根据实际情况设置下限的值，本申请实施例对此不做限定。

本申请实施例中，对于步骤S101，除了确定第一镜头框的尺寸，还可以确定第一镜头框的位置。

一个可选的实施例中，第一镜头框的初始化的位置可以是随机的。

另一个可选的实施例中，第一镜头框的初始化的位置可以是第一镜头框的参照物在摄像头画面中的位置，例如以参照物是黑板为例，第一镜头框的初始化的位置可以是以黑板位置中心为中心点。

另一个可选的实施例中，第一镜头框的初始化的位置可以是摄像头画面中的预定位置，例如以摄像头画面中心为中心点。

本申请实施例提供的图像处理方法，在确定第一镜头框的尺寸和位置后，便可将该尺寸和位置第一镜头框截取的画面作为录制视频的第一个画面，以及便于确定后续镜头框的处理。

本申请实施例中，为步骤S102提供了一种可行的实施方式，具体地，在确定第一镜头框的移动方向后，还可以按照预定移动步长，对第一镜头框进行移动。作为示例地，x轴方向的移动步长为x_step，y轴方向的移动步长为y_step，其中y_step：x_step＝h：w。可以理解，在按照预定移动步长对第一镜头框进行移动时，若任一方向(例如y轴方向)的第一镜头框的中心点与目标对象的中心点对齐时，该方向(例如y轴方向)的移动可以停止，另一方向(例如x轴方向)可以保持继续移动。即第一镜头框可以按照预定移动步长进行横向移动或竖向移动。

本申请实施例中，为步骤S103提供了一种可行的实施方式，具体地，可以包括步骤：

步骤S1031：根据相关位置、第一镜头框在摄像头画面中的当前位置和第一预设时间，确定缩放步长；

假设第一镜头框在摄像头画面中的当前位置为P_c＝(x_c1，y_c1，x_c2，y_c2)，其中，(x_c1，y_c1)为第一镜头框左上角的坐标点，(x_c2，y_c2)为第一镜头框右下角的坐标点。以目标对象是本堂课教师，第二状态是手写板书，相关位置是黑板位置P_b＝(x_b1，y_b1，x_b2，y_b2)为例，假定聚焦完成时间(即第一预设时间)预设为T_focus，则缩放步长具体包括：x轴方向的缩放步长：y轴方向的缩放步长：/>实际应用中，本领域技术人员可以根据实际情况对第一预设时间的值进行设置，本申请实施例在此不做限定。

步骤S1032：根据缩放步长，将第一镜头框缩放为第二镜头框。

继续以上述目标对象是本堂课教师，第二状态是手写板书，相关位置是黑板位置P_b＝(x_b1，y_b1，x_b2，y_b2)为例，可以将第一镜头框在摄像头画面中的当前位置P_c＝(x_c1，y_c1，x_c2，y_c2)为起始位置，以黑板位置P_b＝(x_b1，y_b1，x_b2，y_b2)为终止位置，开始启动镜头缩放，根据确定出的缩放步长，将第一镜头框缩放为第二镜头框。

本申请实施例中，将第一镜头框缩放为第二镜头框之后，还可以包括步骤：

步骤S1033：将第二镜头框保持第二预设时间；

步骤S1034：重复执行以下步骤，直至目标对象结束第二状态：当第二预设时间达到时，若目标对象仍处于第二状态，则将第二镜头框继续保持第二预设时间。

作为示例地，镜头缩放过程完成之后，第二镜头框大小保持第二预设时间T_hold-1不变，当第二预设时间达到时，若目标对象仍处于第二状态(例如上例中，当第二预设时间达到时教师状态为手写板书)，则第二镜头框大小继续保持T_hold-1时间不变，若目标对象不是第二状态(例如上例中，当第二预设时间达到时教师状态不是手写板书)，则执行步骤S104，即当前镜头由第二镜头框切换为第一镜头框状态。

本申请实施例中，为步骤S104提供了一种可行的实施方式，具体地，可以包括步骤：

步骤S1041：根据第二镜头框在摄像头画面中的当前位置、目标对象在摄像头画面中的当前位置、第一镜头框的预设尺寸和第三预设时间，确定恢复步长；

假设第二镜头框在摄像头画面中的当前位置为P_f＝(x_f1，y_f1，x_f2，y_f2)，其中，(x_f1，y_f1)为第二镜头框左上角的坐标点，(x_f2，y_f2)为第二镜头框右下角的坐标点；根据目标对象在摄像头画面中的当前位置以及第一镜头框的预设尺寸，确定镜头框的恢复位置为P_track＝(x_tr1，y_tr1，x_tr2，y_tr2)，其中，(x_tr1，y_tr1)为恢复位置左上角的坐标点，(x_tr2，y_tr2)为恢复位置右下角的坐标点；本申请实施例中，第一镜头框的预设尺寸可以是步骤S101确定出的尺寸，也可以是初始化的尺寸，还可以是重新设置的尺寸等，但不限于此。假定恢复完成时间(第三预设时间)预设为T_back，则恢复步长具体包括：x轴方向的缩放步长为：y轴方向缩放步长为：/>实际应用中，本领域技术人员可以根据实际情况对第三预设时间的值进行设置，本申请实施例在此不做限定。

步骤S1042：根据恢复步长，将第二镜头框恢复为第一镜头框。

即可以把第二镜头框在摄像头画面中的当前位置P_f＝(x_f1，y_f1，x_f2，y_f2)作为起始位置，以基于目标对象在摄像头画面中的当前位置以及第一镜头框的预设尺寸确定出的恢复位置P_track＝(x_tr1，y_tr1，x_tr2，y_tr2)为终止位置，开始启动恢复镜头，根据确定出的恢复步长，将第二镜头框恢复为第一镜头框。

本申请实施例中，将第二镜头框恢复为第一镜头框之后，还可以包括步骤：

步骤S1043：将第一镜头框保持第四预设时间不移动。

作为示例地，恢复过程完成之后，恢复镜头保持预设第四预设时间T_hold-2时间不变，当第四预设时间达到时，当前镜头由恢复镜头切换为追踪镜头状态，即对第一镜头框进行移动，以追踪目标对象。

需要说明的是，上述第二预设时间和第四预设时间可以相同也可以不同。本领域技术人员可以根据实际情况对第二预设时间和第四预设时间进行设置，本申请实施例在此不做限定。

本申请实施例提供的图像处理方法，通过第二预设时间和/或第四预设时间的设置，可以实现镜头的去抖效果，使得视频录制效果更平稳。

本申请实施例提供了一种可行的实施方式，本方案还包括目标(对象)身份识别方法，用于识别摄像头画面中的各个对象的身份。具体而言，本申请实施例可以采用基于视频的对象身份识别方法，不局限于人脸识别方法，还可以包含但不限于人形ReID(Person re-identification，行人重识别)方法、传统的表观特征匹配方式、步态识别、以及基于物理设备的RFID(Radio Frequency Identification，射频识别)方法等。

本申请实施例中，从录制准确度的角度考虑，采用基于深度学习方式的人形ReID方法。身份识别阶段可以包括如下操作步骤：

步骤S201：确定摄像头画面中的各个对象的跟踪序列；

本申请实施例中，摄像头画面中可能包括一个或多个对象，对每个对象的身份进行识别。

其中，每个对象的跟踪序列包括多帧人形图像。具体而言，可以对采集的摄像头画面进行人脸检测和/或人形检测，并利用目标跟踪算法，对相应的人脸和/或人形的位置进行跟踪，得到相应的跟踪序列。

步骤S202：针对各个对象中每个对象的跟踪序列，确定跟踪序列与目标对象底库图像的相似度，得到对象属性值序列；

获得各个对象的跟踪序列后，可以进行ReID前向推理获取到每个对象的特征向量。

本申请实施例中，可以使用向量相似度计算算法，计算每个对象的特征向量与目标对象底库图像的特征向量的相似度。

本申请实施例中，目标对象底库图像的数量可以为一张或多张。作为示例地，可以利用N张目标对象底库图像，其中，N≥3，例如可以至少分别包含1张正面、侧面、背面全身照片。分别提取N张目标对象底库图像的特征向量用于相似度计算。

相似度计算中，将每个对象与每张目标对象底库图像的相似度值进行排序，取最大值作为最终的相似度值，若最大相似度值大于阈值match_thr，则认为该对象为目标对象，状态为True，否则该对象不是目标对象，状态为False；也就是说，每个对象的每帧对象属性值为bool(布尔)值；连续缓存多帧，便可得到各个对象的属性值序列。

步骤S203：根据各个对象的属性值序列，在各个对象中确定目标对象。

具体而言，可以针对各个对象中每个对象的属性值序列，确定属性值序列中属性为目标对象的数量；将属性为目标对象的数量大于第一预定数量的属性值序列对应的对象确定为目标对象。

作为示例地，假设各个对象的对象属性值序列为P₁帧，若某个对象的对象属性值序列中Q₁帧(Q₁≤P₁)为True，则判定该对象为目标对象，否则不是。

下面以教师授课的录制场景为例，将本堂课教师作为目标对象，通过图3示出了教师身份识别的具体流程：

(1)遍历各个对象的跟踪序列，遍历过程中针对每个当前对象的跟踪序列继续执行以下流程，直到所有对象的跟踪序列遍历完成(即每次遍历会判断是否遍历完对象跟踪序列，未完成则继续遍历，已完成则执行下述(9))；

(2)前向推理计算当前对象的特征向量；

(3)遍历本堂课教师底库特征向量，遍历过程中针对每个当前教师底库特征向量继续执行以下流程，直到所有教师底库特征向量遍历完成(即每次遍历会判断是否遍历完底库特征向量，未完成则继续遍历，已完成则继续执行上述(1))；

(4)计算对象与底库图片的相似度；

(5)对相似度进行排序并取最大值；

(6)判断最大值是否大于阈值match_thr；若是，则对象属性值为True，表示该对象是本堂课教师，否则对象属性值为False，表示该对象不是本堂课教师。

(7)连续缓存P₁帧对象属性值序列；

(8)判断P₁帧中是否有不小于Q₁帧的对象属性值为True；若是，则该对象为本堂课教师，若否则该对象不是本堂课教师。

(9)遍历完成后，保存、更新教师属性(身份)。

本申请实施例提供的图像处理方法，通过准确地识别目标对象，能够有效处理视频录制场景中多人走动、目标对象(例如教师授课录制场景中的授课教师)被遮挡或者消失等情况，使得镜头切换更加准确、自然，提升视频录制效果。

本申请实施例提供了一种可行的实施方式，本方案还包括目标(对象)状态识别方法，用于识别摄像头画面中的至少一个对象的状态。具体而言，本申请实施例可以采用基于视频的人体属性识别算法，不局限于单帧图像分类的方式，还可以包含但不限于基于目标(对象)检测的方式、提取人体姿态特征的方法、基于时域行为分析的方式等。

本申请实施例中，从录播准确度的角度考虑，采用基于深度学习方式的分类算法。对象状态识别阶段可以包括如下操作步骤：

步骤S301：确定摄像头画面中的至少一个对象的跟踪序列；

本申请实施例中，摄像头画面中可能包括一个或多个对象，可以仅对目标对象的状态进行识别，也可以对其他的一个或多个对象的状态进行识别。

若对目标对象的状态进行识别，可以在识别出目标对象身份的基础上，再识别目标对象的状态。

具体而言，该步骤可以先确定摄像头画面中的各个对象的跟踪序列，再从中确定至少一个对象的跟踪序列。其中，各个对象的跟踪序列可以直接与身份识别阶段采用相同的跟踪序列，也可以重新对采集的摄像头画面进行人脸检测和/或人形检测，并利用目标跟踪算法，对相应的人脸和/或人形的位置进行跟踪，得到相应的跟踪序列，本申请实施例在此不做限定。

步骤S302：基于至少一个对象的跟踪序列，通过状态识别网络模型，得到至少一个对象分别对应的状态类别序列；

获得至少一个对象的跟踪序列后，分别输入状态识别网络模型做前向推理计算，识别网络模型分别输出预设状态类别的置信度。

为便于理解，下面以识别教师状态为例，介绍状态识别网络模型的训练过程。

收集教师授课视频序列，经过视频抽帧筛选出图片集；然后逐帧运行人体检测模型前向推理计算，通过检测结果截取人体图片并保存，从中整理训练集并标注为5个类别：手写板书、讲课、课堂巡视、互动，以及其他；在GPU服务器上对状态识别网络模型进行训练，获取到训练后的授课状态识别模型及其权重。本领域技术人员应能理解，上述状态类别仅为举例，更不能理解为对本申请实施例的限定，实际应用中，也可以标注其他状态类别进行训练，则在线推理应用阶段，状态识别网络模型也会识别出相应的状态类别。

在识别网络模型分别输出的状态类别的置信度中，取置信度最高(Top1)的状态类别作为分类结果，连续缓存多帧分类结果，便可得到至少一个对象分别对应的状态类别序列。

步骤S303：根据至少一个对象分别对应的状态类别序列，确定至少一个对象的状态。

具体而言，针对至少一个对象中每个对象的状态类别序列，根据状态类别序列，确定对象的状态，可以包括：确定状态类别序列中数量最多的第一状态类别；确定第一状态类别在状态类别序列中的数量是否大于第二预定数量；若是，则将第一状态类别确定为对象的状态；若否，则将第二状态类别确定为对象的状态。

作为示例地，假设某个对象的状态类别序列为P₂帧，在P₂帧中确定哪个状态类别所占的帧数最多，例如确定出是第一状态类别，则确定P₂帧中是否至少存在Q₂帧(Q₂≤P₂)为第一状态类别，若是，则确认该对象的状态为第一状态类别，否则，则确定该对象的状态为其他类别(第二状态类别)。

本申请实施例中，对象状态识别的具体流程与对象身份识别的流程相似，具体可参见对图3的介绍，在此不再赘述。

本申请实施例提供的图像处理方法，通过将对象(例如教师)的状态进行细分(例如包括但不限于写板书、讲课、课堂巡视、互动、其他等类别)，能够有效避免对象状态识别不佳等情况，提升视频录制效果。

需要说明的是，上述第一预定数量和第二预定数量可以相同也可以不同。本领域技术人员可以根据实际情况对第一预定数量和第二预定数量进行设置，本申请实施例在此不做限定。

本申请实施例中，可以在身份识别、状态识别的基础上，再执行步骤S101～步骤S104。其中，步骤S101～步骤S104也可以理解为镜头切换逻辑处理方法。总的来说，通过对目标对象的运动轨迹准确跟踪，同时结合参照物(例如可以是黑板、讲台、显示屏等)的位置信息，确定最优的镜头(ROI区域)，再根据目标对象的状态，移动第一镜头框或缩放为第二镜头框，以实现对目标对象的追踪或聚焦。

下面以教师授课的录制场景为例，通过图4示出了镜头切换逻辑处理阶段的具体操作流程。具体而言，基于各个对象的跟踪序列，确定摄像头画面中是否有本堂课教师；若否，则切换至追踪镜头(第一镜头框)；若是，则继续判断本堂课教师的状态是否是手写板书或讲课；若是，则切换至聚焦镜头(第二镜头框)；若否，则继续判断本堂课教师的状态是否是课堂巡视、互动或其他；若是，则切换至恢复镜头(第一镜头框)；若否，则继续判断镜头保持时间是否已到；若是，则切换至追踪镜头(第一镜头框)；若否，则保持镜头不变。每次镜头切换会调整镜头的大小或状态并进行保存。

本申请实施例提供的技术方案，通过识别教师的身份，持续追踪教师的移动轨迹，避免镜头跟踪其他干扰目标，从而提升录制的精确性；通过对教师状态进行细分为：写板书、讲课、课堂巡视、互动、其他等多个类别，根据教师的状态来切换镜头，提升录播效果。

本申请实施例中，为确定摄像头画面中的各个对象的跟踪序列的方法，提供了一种可行的实施方式，具体而言，基于视频的目标(对象)跟踪方法，不局限于狭义的特征匹配，还可以包括但不限于目标运动轨迹预测、目标运动状态校正等；不局限于传统的Kalman(卡尔曼)跟踪、KCF(Kernel Correlation Filter，核相关滤波)跟踪等算法，也包括深度学习方式的目标跟踪算法。

本申请实施例中，从整体性能角度考虑，采用Kalman结合IOU(Intersection overUnion，交并比)匹配的多目标(即多对象)跟踪方法。目标跟踪阶段可以包括如下操作步骤：

步骤S401：获取各帧摄像头画面对应的对象检测序列；

本申请实施例中，各帧摄像头画面中均可能包括一个或多个对象，对每个对象在摄像头画面中的位置进行检测。也就是说，每帧摄像头画面对应的对象检测序列可能包含一个或多个对象的位置信息。

本申请实施例中，可以采用基于视频的目标(对象)检测方法，不局限于深度学习方式，还可以包括但不限于传统的运动目标检测、光流检测、目标分割等。

本申请实施例中，从整体性能角度考虑，在对象检测阶段使用深度学习检测的方式，以保证对象检测的准确率与检出率。

一种可选的实施方式中，如图5所示，使用离线训练的对象检测器，对视频解码后的单帧图像(即摄像头画面)进行推理计算，获得摄像头画面中各个对象的位置，并存储获得的对象位置序列。

其中，每个对象的位置信息可以采用任意方式进行表示，例如检测框(可以是矩形框，但不限于此)的左上角和右下角的坐标，或者检测框任一点的坐标加上检测框的宽和高等，本身实施例在此不做限定。

具体地，若对象检测序列可能多个对象的位置信息，则该多个对象的位置信息可以是随意排列的，也可以是按照预定规则进行排列的，以组成对象检测序列，本申请实施例在此对多个对象的位置信息的顺序不做限定。

步骤S402：针对每帧摄像头画面对应的对象检测序列，将对象检测序列对应的各个对象框与每个目标跟踪器中的跟踪对象进行匹配；

本申请实施例中，建立多目标跟踪器队列并初始化。

针对每帧摄像头画面，接收当前帧摄像头画面中的对象检测序列，循环遍历对象检测序列对应的跟踪对象框(也可称为检测框或跟踪框)D_i，分别与多目标跟踪器中的每个跟踪对象T_j进行IOU匹配。

步骤S403：若匹配成功，则将匹配成功的对象框加入到相应的目标跟踪器中；

即将匹配成功的对象框D_i加入到目标跟踪器T_j中。

步骤S404：若任一对象框未匹配到跟踪对象，则新增目标跟踪器；

即匹配失败的情况，对象框D_i未匹配到目标跟踪器T_j，针对未匹配到目标跟踪器T_j的对象框D_i，在目标跟踪器队列T中新建目标跟踪器T_j+1，并将对象框D_i加入到目标跟踪器T_j+1中。

步骤S405：若进行多帧预测匹配且任一跟踪对象始终未匹配到对象框，则删除该跟踪对象对应的目标跟踪器。

即匹配失败的情况，目标跟踪器T_j未匹配到对象框D_i，针对未匹配到对象框D_i的目标跟踪器T_j，用kalman对目标跟踪器T_j进行多帧预测匹配，若目标跟踪器T_j预测次数超过预设时间t之后，则在目标跟踪器队列T中删除目标跟踪器T_j。

步骤S406：针对得到的各个目标跟踪器，确定摄像头画面中的各个对象的跟踪序列。

其中，确定摄像头画面中的各个对象的跟踪序列后，也可以保存相应的跟踪ID号进行使用。

本申请实施例中，以人体跟踪为例，多目标跟踪方法的流程图可以如图6所示，将人体目标检测结果(即对象检测序列，也可称为目标检测序列)与多目标跟踪器进行一一匹配，若匹配成功则更新对应的目标跟踪器，若匹配失败，对于未匹配到目标跟踪器的对象检测框，则新建对应的目标跟踪器。对于未匹配到对象检测框的目标跟踪器，用kalman进行多帧预测，并分别与每一帧的对象检测序列进行匹配。匹配过程中，针对每个当前帧，判断与当前帧对象检测序列匹配是否成功，若成功则继续判断下一帧，若不成功则判断预测时间是否大于t，若否则继续进行kalman预测，若是则删除该目标跟踪器。针对得到的各个目标跟踪器，分别保存对应的对象跟踪序列。

本申请实施例中，还可以对得到的跟踪序列进行平滑处理。具体地，确定摄像头画面中的每个对象的跟踪序列，包括：针对每个对象的原始跟踪序列的每一当前帧，确定当前帧的前预定帧数中对象框的平均值，并基于平均值，对当前帧的对象框进行平滑处理；基于每个对象的原始跟踪序列进行平滑处理后的每一帧，得到每个对象的跟踪序列。

本申请实施例中，可以对各个对象的跟踪序列在时域上进行缓存，最大缓存帧数为f_max。当某一对象的跟踪序列缓存大于f_max时，则在该对象的跟踪序列中删除存在时间最长(最久)的对象框再缓存时间最短(最新)的当前帧对象框T₀，以更新缓存。

具体而言，可以对最近连续f_smooth帧(预定帧数)的对象框大小计算平均值，以进行平滑处理，其中f_smooth≤f_max。假设对象框坐标为(x_i，y_i，x_j，y_j)，其中，(x_i，y_i)为对象框左上角的坐标点，(x_j，y_j)为对象框右下角的坐标点，则平滑之后的对象框坐标为：

其中，为平滑处理之后对象框左上角的坐标点，/>为平滑处理之后对象框右下角的坐标点，/>表示对最近连续f_smooth帧的对应坐标计算平均值。

本申请实施例提供的图像处理方法，通过对跟踪序列进行平滑处理，可使得基于根据序列的身份识别和状态识别更加准确。

需要说明的是，上述多种序列可以采用相同的时间单位，例如P帧(例如上述P₁和P₂可以相同)，也可以采用不同的时间单位，本领域技术人员可以根据实际情况进行设置，本申请实施例在此不做限定。

本申请实施例提供的图像处理方法，可以采用如图7所示的视频录制系统来实现。其中视频录制系统可以包括目标(对象)检测模块、目标(对象)跟踪模块、身份识别模块、状态识别模块、镜头切换逻辑处理模块。对于教师授课场景的录制，对象检测模块也可以具体是人体目标(对象)检测模块，目标跟踪模块也可以具体是人体目标(对象)跟踪模块，身份识别模块也可以具体是授课教师身份识别模块，状态识别模块也可以具体是授课教师状态识别模块。视频录制系统还可以包括视频解码模块和拍摄存储视频模块。

其中，目标(对象)检测模块可以用于执行上述目标(对象)检测方法。目标(对象)跟踪模块可以用于执行上述目标(对象)跟踪方法，身份识别模块可以用于执行上述目标(对象)身份识别方法，状态识别模块可以用于执行上述目标(对象)状态识别方法，镜头切换逻辑处理模块用于执行上述镜头切换逻辑处理方法，视频解码模块可以用于对摄像头采集的视频画面进行解码，拍摄存储视频模块可以用于对截取的录制视频进行存储。其中，每个模块的具体执行方法具体可以参见上文中的介绍，在此不再赘述。

本申请实施例中，视频录制系统可以部署于终端和/或服务器等电子设备。其中，终端可以为笔记本电脑、平板电脑、台式计算机、智能音箱、移动设备(例如，手机、便携式播放器、个人数字助理、便携式游戏设备、智能手表、智能语音交互设备、车载终端等)、智能家电(例如但不限于智能电视)等设备，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

本申请实施例提供的视频录制系统，在应用于教师授课录制场景时，能够解决现有技术中的对教师讲台上多人走动、授课教师被遮挡或者消失，以及授课教师的状态识别等情况处理不佳或者根本没有处理，导致镜头切换突变、不自然的问题，通过视觉方式对授课教师运动轨迹进行追踪，根据教师的授课状态，模拟摄像头转动、变焦变倍，切换视场的效果。

相较于传统录播方式需要专业的摄影师人工操作，费工费力，且性价比不高，本申请实施例提供的视频录制系统能够有效模拟摄像头转动、变焦变倍的效果，达到替换专业摄像的目的。

相较于现有技术中对教师讲台场景、教师授课状态类别等划分简单，录播效果体验差等问题，本申请实施例提供的视频录制系统，对教师状态进行细分为：写板书、讲课、课堂巡视、互动、其他等多个类别，在镜头切换时通过模拟摄像头变焦变倍的过程，使得录播效果更自然，更真实。

本申请实施例提供的视频录制系统在每节课开始之前，保存本堂授课教师多张(例如正面、背面、侧面等至少3张)全身图片到数据库，使用人体ReID算法，持续追踪教师的运动轨迹，避免镜头跟踪其他干扰目标，从而提升录播精确性。

本申请实施例提供了一种图像处理装置，如图8所示，该图像处理装置80可以包括：确定模块801、移动模块802、缩放模块803以及恢复模块804，其中，

确定模块801用于确定第一镜头框的尺寸，第一镜头框用于在采集的摄像头画面中截取录制画面；

移动模块802用于当摄像头画面中的目标对象处于第一状态时，对第一镜头框进行移动，以使得目标对象处于第一镜头框内；

缩放模块803用于当目标对象进入第二状态时，基于第二状态的目标对象在摄像头画面中的相关位置，将第一镜头框缩放为第二镜头框；

恢复模块804用于当目标对象结束第二状态时，将第二镜头框恢复为第一镜头框。

在一种可选的实施方式中，确定模块801在用于确定第一镜头框的尺寸时，具体用于：

获取第一镜头框的参照物在摄像头画面中的像素面积；

基于像素面积，确定第一镜头框的尺寸。

在一种可选的实施方式中，缩放模块803在用于基于第二状态的目标对象在摄像头画面中的相关位置，将第一镜头框缩放为第二镜头框时，具体用于：

根据相关位置、第一镜头框在摄像头画面中的当前位置和第一预设时间，确定缩放步长；

根据缩放步长，将第一镜头框缩放为第二镜头框。

在一种可选的实施方式中，缩放模块803在用于将第一镜头框缩放为第二镜头框之后，还用于：

将第二镜头框保持第二预设时间；

重复执行以下步骤，直至目标对象结束第二状态：

当第二预设时间达到时，若目标对象仍处于第二状态，则将第二镜头框继续保持第二预设时间。

在一种可选的实施方式中，恢复模块804在用于将第二镜头框恢复为第一镜头框时，具体用于：

根据第二镜头框在摄像头画面中的当前位置、目标对象在摄像头画面中的当前位置、第一镜头框的预设尺寸和第三预设时间，确定恢复步长；

根据恢复步长，将第二镜头框恢复为第一镜头框。

在一种可选的实施方式中，恢复模块804在用于将第二镜头框恢复为第一镜头框之后，还用于：

将第一镜头框保持第四预设时间不移动。

在一种可选的实施方式中，移动模块802在用于对第一镜头框进行移动时，具体用于：

当第一镜头框的中心点与目标对象的中心点距离大于阈值时，对第一镜头框进行移动。

在一种可选的实施方式中，确定模块801还用于：

确定摄像头画面中的各个对象的跟踪序列；

针对各个对象中每个对象的跟踪序列，确定跟踪序列与目标对象底库图像的相似度，得到对象属性值序列；

根据各个对象的属性值序列，在各个对象中确定目标对象。

在一种可选的实施方式中，确定模块801在用于根据各个对象的属性值序列，在各个对象中确定目标对象时，具体用于：

针对各个对象中每个对象的属性值序列，确定属性值序列中属性为目标对象的数量；

将属性为目标对象的数量大于第一预定数量的属性值序列对应的对象确定为目标对象。

在一种可选的实施方式中，确定模块801还用于：

确定摄像头画面中的至少一个对象的跟踪序列；

基于至少一个对象的跟踪序列，通过状态识别网络模型，得到至少一个对象分别对应的状态类别序列；

根据至少一个对象分别对应的状态类别序列，确定至少一个对象的状态。

在一种可选的实施方式中，确定模块801在用于针对至少一个对象中每个对象的状态类别序列，根据状态类别序列，确定对象的状态时，具体用于：

确定状态类别序列中数量最多的第一状态类别；

确定第一状态类别在状态类别序列中的数量是否大于第二预定数量；

若是，则将第一状态类别确定为对象的状态；

若否，则将第二状态类别确定为对象的状态。

在一种可选的实施方式中，确定模块801在用于确定摄像头画面中的各个对象的跟踪序列时，具体用于：

获取各帧摄像头画面对应的对象检测序列；

针对每帧摄像头画面对应的对象检测序列，将对象检测序列对应的各个对象框与每个目标跟踪器中的跟踪对象进行匹配；

若匹配成功，则将匹配成功的对象框加入到相应的目标跟踪器中；

若任一对象框未匹配到跟踪对象，则新增目标跟踪器；

若进行多帧预测匹配且任一跟踪对象始终未匹配到对象框，则删除该跟踪对象对应的目标跟踪器；

针对得到的各个目标跟踪器，确定摄像头画面中的各个对象的跟踪序列。

在一种可选的实施方式中，确定模块801在用于确定摄像头画面中的每个对象的跟踪序列时，具体用于：

针对每个对象的原始跟踪序列的每一当前帧，确定当前帧的前预定帧数中对象框的平均值，并基于平均值，对当前帧的对象框进行平滑处理；

基于每个对象的原始跟踪序列进行平滑处理后的每一帧，得到每个对象的跟踪序列。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述以及产生的有益效果具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现前述各方法实施例的步骤。

在一个可选实施例中提供了一种电子设备，如图9所示，图9所示的电子设备900包括：处理器901和存储器903。其中，处理器901和存储器903相连，如通过总线902相连。可选地，电子设备900还可以包括收发器904，收发器904可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器904不限于一个，该电子设备900的结构并不构成对本申请实施例的限定。

处理器901可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器901也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线902可包括一通路，在上述组件之间传送信息。总线902可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线902可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器903可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器903用于存储执行本申请实施例的计算机程序，并由处理器901来控制执行。处理器901用于执行存储器903中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种图像处理方法，其特征在于，包括：

确定第一镜头框的尺寸，所述第一镜头框用于在采集的摄像头画面中截取录制画面；

当所述摄像头画面中的目标对象处于第一状态时，对所述第一镜头框进行移动，以使得所述目标对象处于所述第一镜头框内，其中，所述第一镜头框的移动方向为所述第一镜头框的中心点指向所述目标对象的中心点的方向，所述对所述第一镜头框进行移动，包括：在确定所述第一镜头框的移动方向后，按照预定移动步长，对所述第一镜头框进行移动；

当所述目标对象进入第二状态时，基于所述第二状态的所述目标对象在所述摄像头画面中的相关位置，将所述第一镜头框缩放为第二镜头框；

当所述目标对象结束所述第二状态时，将所述第二镜头框恢复为所述第一镜头框；

所述基于所述第二状态的所述目标对象在所述摄像头画面中的相关位置，将所述第一镜头框缩放为第二镜头框，包括：

根据所述相关位置、所述第一镜头框在所述摄像头画面中的当前位置和第一预设时间，确定缩放步长；

根据所述缩放步长，将所述第一镜头框缩放为第二镜头框；

所述将所述第二镜头框恢复为所述第一镜头框，包括：

根据所述第二镜头框在所述摄像头画面中的当前位置、所述目标对象在所述摄像头画面中的当前位置、所述第一镜头框的预设尺寸和第三预设时间，确定恢复步长；

根据所述恢复步长，将所述第二镜头框恢复为所述第一镜头框。

2.根据权利要求1所述的方法，其特征在于，所述确定第一镜头框的尺寸，包括：

获取所述第一镜头框的参照物在摄像头画面中的像素面积；

基于所述像素面积，确定所述第一镜头框的尺寸。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一镜头框缩放为第二镜头框之后，还包括：

将所述第二镜头框保持第二预设时间；

重复执行以下步骤，直至所述目标对象结束所述第二状态：

当所述第二预设时间达到时，若所述目标对象仍处于第二状态，则将所述第二镜头框继续保持第二预设时间。

4.根据权利要求1所述的方法，其特征在于，所述将所述第二镜头框恢复为所述第一镜头框之后，还包括：

将所述第一镜头框保持第四预设时间不移动。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一镜头框进行移动，包括：

当所述第一镜头框的中心点与所述目标对象的中心点距离大于阈值时，对所述第一镜头框进行移动。

6.根据权利要求1所述的方法，其特征在于，还包括：

确定所述摄像头画面中的各个对象的跟踪序列；

针对所述各个对象中每个对象的跟踪序列，确定跟踪序列与目标对象底库图像的相似度，得到对象属性值序列；

根据所述各个对象的所述属性值序列，在所述各个对象中确定所述目标对象。

7.根据权利要求6所述的方法，其特征在于，所述根据所述各个对象的所述属性值序列，在所述各个对象中确定所述目标对象，包括：

针对所述各个对象中每个对象的属性值序列，确定属性值序列中属性为目标对象的数量；

将属性为目标对象的数量大于第一预定数量的属性值序列对应的对象确定为所述目标对象。

8.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

确定所述摄像头画面中的至少一个对象的跟踪序列；

基于所述至少一个对象的跟踪序列，通过状态识别网络模型，得到所述至少一个对象分别对应的状态类别序列；

根据所述至少一个对象分别对应的状态类别序列，确定所述至少一个对象的状态。

9.根据权利要求8所述的方法，其特征在于，针对所述至少一个对象中每个对象的状态类别序列，根据状态类别序列，确定对象的状态，包括：

确定状态类别序列中数量最多的第一状态类别；

确定所述第一状态类别在状态类别序列中的数量是否大于第二预定数量；

若是，则将所述第一状态类别确定为对象的状态；

若否，则将第二状态类别确定为对象的状态。

10.根据权利要求6所述的方法，其特征在于，确定所述摄像头画面中的各个对象的跟踪序列，包括：

获取各帧摄像头画面对应的对象检测序列；

若任一对象框未匹配到跟踪对象，则新增目标跟踪器；

11.根据权利要求6所述的方法，其特征在于，确定所述摄像头画面中的每个对象的跟踪序列，包括：

针对所述每个对象的原始跟踪序列的每一当前帧，确定当前帧的前预定帧数中对象框的平均值，并基于所述平均值，对所述当前帧的对象框进行平滑处理；

基于所述每个对象的原始跟踪序列进行平滑处理后的每一帧，得到所述每个对象的跟踪序列。

12.一种图像处理装置，其特征在于，包括：

确定模块，用于确定第一镜头框的尺寸，所述第一镜头框用于在采集的摄像头画面中截取录制画面；

移动模块，用于当所述摄像头画面中的目标对象处于第一状态时，对所述第一镜头框进行移动，以使得所述目标对象处于所述第一镜头框内，其中，所述第一镜头框的移动方向为所述第一镜头框的中心点指向所述目标对象的中心点的方向，所述对所述第一镜头框进行移动，包括：在确定所述第一镜头框的移动方向后，按照预定移动步长，对所述第一镜头框进行移动；

缩放模块，用于当所述目标对象进入第二状态时，基于所述第二状态的所述目标对象在所述摄像头画面中的相关位置，将所述第一镜头框缩放为第二镜头框；

恢复模块，用于当所述目标对象结束所述第二状态时，将所述第二镜头框恢复为所述第一镜头框；

所述缩放模块在用于基于所述第二状态的所述目标对象在所述摄像头画面中的相关位置，将所述第一镜头框缩放为第二镜头框时，具体用于：

根据所述缩放步长，将所述第一镜头框缩放为第二镜头框；

所述恢复模块在用于将所述第二镜头框恢复为所述第一镜头框时，具体用于：

13.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-11任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。