CN117459661A

CN117459661A - 一种视频处理方法、装置、设备及机器可读存储介质

Info

Publication number: CN117459661A
Application number: CN202311232169.5A
Authority: CN
Inventors: 吴杰; 薛云飞
Original assignee: Xinhuasan Intelligent Terminal Co ltd
Current assignee: Xinhuasan Intelligent Terminal Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-26

Abstract

本公开提供一种视频处理方法、装置、设备及机器可读存储介质，方法包括：获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，获取矫正后的各待摄取屏幕相连区域；确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，融合人形轮廓区域和各待摄取屏幕的画面。通过本公开的技术方案，在实时摄取的讲授画面中，对一个或多个待摄取屏幕进行提取和矫正，拼合形成去除无关因素的课件画面，并自动提取主讲人物人像融合入课件画面，实现实时共享去除背景且融合主讲人像的课件内容，无需复杂设备和操作，成本低，效果好。

Description

一种视频处理方法、装置、设备及机器可读存储介质

技术领域

本公开涉及通信技术领域，尤其是涉及一种视频处理方法、装置、设备及机器可读存储介质。

背景技术

随着计算机视觉技术和互联网技术的不断发展，相比传统的粉笔课堂互动教学模式，实时互动的智慧课堂录制模式开始兴起，让老师和学生有一个全新的教学互动体验。

现有的教室课堂录播共享系统，需要独立录播主机及中控，造价高昂；同时，PPT和板书画面分开不友好，多个摄像头导播画面切换复杂，模糊画质导致板书看不清，以至于录播课堂的使用局限于各类教学技术比赛中，日常授课使用频次低，造成了资源浪费。

发明内容

有鉴于此，本公开提供一种视频处理方法、装置及电子设备、机器可读存储介质，以至少改善上述技术问题之一。

具体地技术方案如下：

本公开提供了一种视频处理方法，应用于图像处理设备，所述方法包括：获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

作为一种技术方案，所述预设条件，包括：符合在指定时间段内出现在指定画面位置的人像；和/或，符合与待摄取屏幕相对位置参数在预设范围内的人像；和/或，符合匹配预设人物识别对象的人像。

作为一种技术方案，所述获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域，包括：使用预设关键点检测模型，获取各待摄取屏幕的四个端点的端点信息，根据各待摄取屏幕的四个端点的端点信息，获取包括有各待摄取屏幕的最小画面，对最小画面进行透视变换，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域。

作为一种技术方案，所述根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整，包括：根据同时与主讲人物区域有交合的至少两个待摄取屏幕的画面的位置参数，设置偏移值，根据与主讲人物区域的交合程度设置一个待摄取屏幕的画面为基准，根据基准和偏移值，偏移主讲人物区域的位置。

本公开同时提供了一种视频处理装置，应用于图像处理设备，所述装置包括：第一模块，用于获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；第二模块，用于在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；第三模块，用于根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

本公开同时提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，处理器执行所述机器可执行指令以实现前述的视频处理方法。

本公开同时提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述的视频处理方法。

本公开提供的上述技术方案至少带来了以下有益效果：

在实时摄取的讲授画面中，对一个或多个待摄取屏幕进行提取和矫正，拼合形成去除无关因素的课件画面，并自动提取主讲人物人像融合入课件画面，实现实时共享去除背景且融合主讲人像的课件内容，无需复杂设备和操作，成本低，效果好。

附图说明

为了更加清楚地说明本公开实施方式或者现有技术中的技术方案，下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施方式，对于本领域普通技术人员来讲，还可以根据本公开实施方式的这些附图获得其他的附图。

图1是本公开一种实施方式中的视频处理方法的流程图；

图2是本公开一种实施方式中的视频处理装置的结构图；

图3是本公开一种实施方式中的电子设备的硬件结构图。

附图标记：第一模块21，第二模块22，第三模块23。

具体实施方式

在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的，而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开提供一种视频处理方法、装置及电子设备、机器可读存储介质，以至少改善上述技术问题之一。

具体地技术方案如后述。

在一种实施方式中，本公开提供了一种视频处理方法，应用于图像处理设备，所述方法包括：获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

具体地，如图1，包括以下步骤：

步骤S11，获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；

步骤S12，在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；

步骤S13，根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

在一种实施方式中，所述预设条件，包括：符合在指定时间段内出现在指定画面位置的人像；和/或，符合与待摄取屏幕相对位置参数在预设范围内的人像；和/或，符合匹配预设人物识别对象的人像。

在一种实施方式中，所述获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域，包括：使用预设关键点检测模型，获取各待摄取屏幕的四个端点的端点信息，根据各待摄取屏幕的四个端点的端点信息，获取包括有各待摄取屏幕的最小画面，对最小画面进行透视变换，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域。

在一种实施方式中，所述根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整，包括：根据同时与主讲人物区域有交合的至少两个待摄取屏幕的画面的位置参数，设置偏移值，根据与主讲人物区域的交合程度设置一个待摄取屏幕的画面为基准，根据基准和偏移值，偏移主讲人物区域的位置。

在一种实施方式中，以课堂老师上课为例，使用一个或多个智能屏幕作为展示课件的设备，即待摄取屏幕。通过高清摄像头实时采集智能屏幕前课堂老师上课的视频流，采集过程中确保摄像头设备的设置和位置能够捕捉到整个智能屏幕区域，并保证视频质量和稳定性。

为了满足各种不同的教室场景，可设置多个智能屏幕并排连接一起，比如双联屏、三联屏、四联屏等。为了应对摄像头拍摄的智能屏幕存在的一定畸变、智能屏幕连接之间会存在一定的物理距离误差的情况，拍摄的智能屏幕不是一个标准的矩形，首先定位出智能屏幕四个端点的信息，以便后续做进一步的优化处理。由于摄像头距离智能屏幕的距离高度不同，对智能屏幕定位的效果都会不一样，故需要采集教室不同场景的多个智能屏幕的图像，然后通过不同亮度变化、随机噪声、不同尺度变化等数据增强方式以增加数据的多样性，最后通过pytorch的深度学习框架训练出一个智能屏幕端点检测的深度学习关键点检测模型。

为了去除课堂老师人物以外的背景干扰，缩小人物抠图的搜索范围，将原始画面映射到只包含智能屏幕区域的内容。由于实际采集的多个智能屏幕区域会存在一定的畸变，首先计算出多个智能屏幕连接一起的最外围区域的四个端点的坐标，根据四个端点的坐标，计算出透视变换矩阵，然后对这个四个端点构成的多智能屏幕连接区域进行透视变换，得到矫正后的多智能屏幕相连区域。

针对矫正后的多智能屏幕相连区域，对该区域进行归一化处理到统一尺度大小，以便处理各种不同距离和高度采集到的智能屏幕。通过对采集到的不同教学课件内容场景的图像通过开源的AI抠图大模型进行数据标记，通过知识蒸馏的大模型指导小模型的方法训练出一个实时轻量的人物抠图算法模型，用于智能屏幕课件背景，得到只包含人物的区域。

考虑到上面人物抠图算法获取到的人物区域的细节部分会存在残留的课件背景的情况以及需要判断出主讲老师，对人物区域图像进行二值化处理。根据实际的教室场景设置一个阈值作为二值化的阈值进行去除残留的背景。然后通过腐蚀、膨胀、闭运算等处理方式处理二值化的区域，去除干扰的小封闭区域，最后对处理后的二值化图像区域寻找出每个区域的最外围轮廓，从而提取出每个人形轮廓区域。

根据上面得到的每个人形轮廓区域，获取出每个人形轮廓的最外接矩形，通过计算每个人形轮廓的最外接矩形区域与智能屏幕区域的iou值，将iou值最大的人形轮廓确定为主讲老师。由于实际场景中，学生坐在前面会有概率出现在摄像头拍摄的画面上，而且老师刚好离开了智能屏幕区域，这时候会导致人像追踪到学生。为了解决这个问题，根据实际智能屏幕高度与老师站立的高度设置一个高度阈值，当人形轮廓的矩形区域的高度大于设定的高度阈值时，才将iou值最大的人像轮廓放入老师跟踪队列，以便后续跟踪和处理；当人形轮廓的矩形区域的高度小于设定的高度阈值时，就不做处理。

对于获取到的老师人形轮廓会存在锯齿状、毛刺点、亮度不够等情况，对老师人形轮廓做进一步的后处理操作。

为了去除人形轮廓的毛刺点和小型轮廓间隙，通过腐蚀操作将人形轮廓的边界向内收缩，然后通过膨胀操作则将其边界向外扩张。

为了去除人形轮廓的锯齿状，对人形轮廓图像，通过降采样方式生成不同尺度的人物轮廓图像，然后通过高斯滤波器对不同尺度的轮廓图像进行平滑处理，以去除人物抠图的高频噪声和多余背景细节，得到不同层级的人物轮廓的高斯金字塔图像。然后通过上采样原始的人物抠图图像并与低一级的高斯金字塔进行相减，得到对应不同层级的人物轮廓的拉普拉斯金字塔图像。再对每个层级的人物轮廓的拉普拉斯金字塔图像，通过高斯滤波器等平滑滤波器来减少人物抠图图像中的锯齿状边缘。最后将平滑后的人物轮廓的拉普拉斯金字塔图像与上一级的高斯金字塔图像相加，逐级上采样和叠加处理，最终重建出平滑后的人形轮廓图像。

为了解决不同场景老师人物亮度不够、亮度过曝的问题，通过计算人形轮廓的亮度直方图。由于亮度直方图表示了图像中不同亮度级别的像素数量，设置一定的亮度阈值进行判断。当亮度直方图结果低于设定的亮度阈值时，人形轮廓的亮度不够，应用增加亮度的方法，例如直方图均衡化、线性改变亮度等。当亮度直方图结果高于设定的亮度阈值时，人形轮廓的亮度过曝，采用减少亮度的方法，例如直方图压缩、亮度缩放或亮度减少等。

由于实际采集的多个智能屏幕之间会存在一定的物理间距，与智能屏幕录制的课件内容融合时会造成一定的位置偏移造成老师人像与课件内容有偏差。所以计算多个智能屏幕区域上下两个端点之间的像素间距，通过上下两个端点像素间距的平均值作为设定的位置偏移值。如果有两个智能屏幕相连接，当人像轮廓区域与左边智能屏幕区域相交值更大时，将人像轮廓区域位置要向右偏移一个设定的位置偏移值；当人像轮廓区域与右边智能屏幕区域相交值更大时，将人像轮廓区域位置要向左偏移一个设定的位置偏移值，当然，在特殊应用场景下，反向偏移也是根据需要可以设置的。

为了让老师人像与智能屏幕课件比例一致，对上面处理后的人形轮廓，通过插值方法缩放到智能屏幕录制课件的图像比例。然后将每帧获取到的老师人像图像，与智能屏幕每帧录制课件内容进行对帧融合，实时共享去除背景的融合老师人像的课件内容。

在一种实施方式中，本公开同时提供了一种视频处理装置，如图2，应用于图像处理设备，所述装置包括：第一模块，用于获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；第二模块，用于在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；第三模块，用于根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

装置实施方式与对应的方法实施方式相同或相似，在此不再赘述。

在一种实施方式中，本公开提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，处理器执行所述机器可执行指令以实现前述的视频处理方法，从硬件层面而言，硬件架构示意图可以参见图3所示。

在一种实施方式中，本公开提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述的视频处理方法。

这里，机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(RadomAccess Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本公开的实施方式可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员应明白，本公开的实施方式可提供为方法、系统或计算机程序产品。因此，本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且，本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。以上所述仅为本公开的实施方式而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

1.一种视频处理方法，其特征在于，应用于图像处理设备，所述方法包括：

获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；

在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；

根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

2.根据权利要求1所述的方法，其特征在于，所述预设条件，包括：

符合在指定时间段内出现在指定画面位置的人像；

和/或，符合与待摄取屏幕相对位置参数在预设范围内的人像；

和/或，符合匹配预设人物识别对象的人像。

3.根据权利要求1所述的方法，其特征在于，所述获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域，包括：

使用预设关键点检测模型，获取各待摄取屏幕的四个端点的端点信息，根据各待摄取屏幕的四个端点的端点信息，获取包括有各待摄取屏幕的最小画面，对最小画面进行透视变换，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域。

4.根据权利要求1所述的方法，其特征在于，所述根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整，包括：

根据同时与主讲人物区域有交合的至少两个待摄取屏幕的画面的位置参数，设置偏移值，根据与主讲人物区域的交合程度设置一个待摄取屏幕的画面为基准，根据基准和偏移值，偏移主讲人物区域的位置。

5.一种视频处理装置，其特征在于，应用于图像处理设备，所述装置包括：

第一模块，用于获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域；

第二模块，用于在目标区域中提取人形轮廓区域，根据预设条件，确认获取到的人形轮廓区域中的主讲人物区域，根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整；

第三模块，用于根据目标区域中，人形轮廓区域与各待摄取屏幕的重叠关系，调整人形轮廓区域与各待摄取屏幕的相对位置参数，融合人形轮廓区域和各待摄取屏幕的画面。

6.根据权利要求5所述的装置，其特征在于，所述预设条件，包括：

符合在指定时间段内出现在指定画面位置的人像；

和/或，符合匹配预设人物识别对象的人像。

7.根据权利要求5所述的装置，其特征在于，所述获取若干待摄取屏幕各自的端点信息，根据所有获取到的端点信息，矫正各待摄取屏幕的畸变和尺寸，获取矫正后的各待摄取屏幕相连区域，作为目标区域，包括：

8.根据权利要求5所述的装置，其特征在于，所述根据矫正后的各待摄取屏幕的画面的参数，对主讲人物区域进行矫正调整，包括：

9.一种电子设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令，以实现权利要求1-4任一所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。