CN114120163A - 视频帧处理方法、装置及其相关设备和存储介质 - Google Patents
视频帧处理方法、装置及其相关设备和存储介质 Download PDFInfo
- Publication number
- CN114120163A CN114120163A CN202111076345.1A CN202111076345A CN114120163A CN 114120163 A CN114120163 A CN 114120163A CN 202111076345 A CN202111076345 A CN 202111076345A CN 114120163 A CN114120163 A CN 114120163A
- Authority
- CN
- China
- Prior art keywords
- video frame
- target video
- image
- current target
- display board
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 39
- 208000006440 Open Bite Diseases 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims description 44
- 238000007499 fusion processing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 33
- 230000000903 blocking effect Effects 0.000 description 9
- 238000003709 image segmentation Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本申请公开了一种视频帧处理方法、处理装置、终端设备和计算机可读存储介质,该方法包括:获取对文字展示板录像得到的当前目标视频帧;从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像;利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像;将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧。通过上述方式,本申请能够避免遮挡物对文字展示板内容的遮挡。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频帧处理方法、处理装置、终端设备和计算机可读存储介质。
背景技术
教学是教师按既定的教学目的将知识传递给学生的过程,其中,属于符号语言系统的板书就是课堂教学信息传递的重要载体。板书是使学生通过视觉而获取知识的,它是利用视觉交流信息的渠道。
然而,在实际教学过程中,老师在讲解时,经常会挡住板书内容,使得坐在教室后面以及想参与这堂课程的其他班级学生无法有效轻松获取书写内容。
发明内容
本申请主要解决的技术问题是提供一种视频帧处理方法、处理装置、终端设备和计算机可读存储介质,能够避免遮挡物对文字展示板内容的遮挡。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种视频帧处理方法,该方法包括:获取对文字展示板录像得到的当前目标视频帧;从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像;利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像;将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧。
其中,利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像,包括:从当前目标视频帧中提取第一区域图像,其中,第一区域图像包含当前目标视频帧中位于被遮挡区域以外的图像信息;以及从历史目标视频帧中提取第二区域图像,其中,第二区域图像包含表示文字展示板在被遮挡区域中的内容的图像信息;结合第一区域图像和第二区域图像的图像信息,得到无遮挡图像。
其中,在从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像之前,视频帧处理方法还包括:对当前目标视频帧进行遮挡物语义分割,得到当前目标视频帧的遮挡物分割结果,其中,遮挡物分割结果包含被遮挡区域的位置信息;从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像,包括:利用被遮挡区域的位置信息,从当前目标视频帧中提取得到遮挡物图像。
其中,在从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像之前,视频帧处理方法还包括:利用被遮挡区域的位置信息,确定当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离;响应于距离小于预设距离值,执行从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像及其后续步骤。
其中,获取对文字展示板录像得到的当前目标视频帧,包括:获取多个摄像头分别对文字展示板录像得到的多个初始视频帧;将多个初始视频帧进行配准处理,得到经配准的多个初始视频帧;将经配准的多个初始视频帧进行融合处理,得到当前目标视频帧。
其中,至少一个初始视频帧包含文字展示板的局部画面,至少一个初始视频帧包含文字展示板的全局画面。
其中,在将多个初始视频帧进行配准处理,得到经配准的多个初始视频帧之前,视频帧处理方法还包括:分别对多个初始视频帧进行矫正处理;和/或,将经配准的多个初始视频帧进行融合处理,得到当前目标视频帧,包括:将多个初始视频帧进行拼接处理,得到当前目标视频帧,其中,当前目标视频帧的第一像素点的像素值是由多个初始视频帧对应的第二像素点的像素值进行加权处理得到的,第一像素点和第二像素点为多个初始视频帧的重叠区域的像素点。
其中,初始视频帧的第二像素点对应的权重与第二像素点与区域边界的距离为负相关关系,区域边界为重叠区域靠近初始视频帧的边界。
其中,经处理目标视频帧中的遮挡物图像的透明度大于0且小于100%;和/或,在将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧之前,视频帧处理方法还包括以下任一步骤:对无遮挡图像进行文本检测,得到无遮挡图像中的文本内容,并对无遮挡图像中的文本内容进行预设处理,其中,预设处理包括将文本内容设置预设背景上;对文本内容的属性进行调节,其中,属性包括颜色、对比度和粗细中的至少一种;对无遮挡图像的颜色和/或对比度进行调节。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种视频帧处理装置,视频帧处理装置包括:获取模块,用于获取对文字展示板录像得到的当前目标视频帧;提取模块,用于从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像;替换模块,用于利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像;叠加模块,用于将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端设备,该终端设备包括存储器和处理器,存储器存储有程序指令,处理器用于执行程序指令以实现上述的视频帧处理方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有程序指令,程序指令能够被执行以实现上述的视频帧处理方法。
上述方案,通过历史目标视频帧中的文字展示板的内容替换当前目标视频帧中的被遮挡区域,以得到无遮挡图像;通过将无遮挡图像和遮挡物图像叠加,使得经处理目标视频帧同时包括无遮挡图像层和遮挡物图像层,但由于对遮挡物图像进行了透明化处理,遮挡物不会对文字展示板中的内容进行遮挡。
附图说明
图1是本申请提供的视频帧处理方法一实施例的流程示意图;
图2是本申请提供的语义分割网络模型输入的分割目标一实施例的示意图;
图3是本申请提供的语义分割模型输出结果一实施例的示意图;
图4是本申请提供的当前目标视频帧一实施例的示意图;
图5是本申请提供的历史目标视频帧一实施例的示意图;
图6是本申请提供的无遮挡图像一实施例的示意图;
图7是本申请提供的原始无遮挡图像一实施例的示意图;
图8是本申请提供的调节后的无遮挡图像一实施例的示意图;
图9是本申请提供的当前目标视频帧另一实施例的示意图;
图10是本申请提供的经处理目标视频帧一实施例的示意图;
图11是图1所示步骤S11一实施例的流程示意图;
图12是本申请提供的包含文字展示板的全局画面一实施例的示意图;
图13是图12所示全局画面矫正后一实施例的示意图;
图14是本申请提供的拼接图像一实施例的简化示意图;
图15是执行图1所示步骤S12之前所执行步骤一实施例的流程示意图;
图16是图1所示步骤S13一实施例的流程示意图;
图17是本申请提供的视频帧处理装置一实施例的框架示意图;
图18是本申请提供的终端设备一实施例的框架示意图;
图19是本申请提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。
请参阅图1,图1是本申请提供的视频帧处理方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:
步骤S11:获取对文字展示板录像得到的当前目标视频帧。
在一实施方式中,文字展示板可以但不限于黑板、白板、多媒体展示板、智慧黑板等。其中,在本实施例的方法应用于教室教学领域时,文字展示板可以为黑板或白板,文字展示板的内容即为教师书写的板书内容。
可选地,在一实施方式中,可直接读取本地存储或云端存储的对文字展示板的录像,从而获取对文字展示板录像中的当前目标视频帧。可以理解地,在其他实施方式中,也可通过摄像机实时采集对文字展示板的录像,以从实时采集的对文字展示板的录像中获取得到当前目标视频帧,可根据实际使用需要具体设置对文字展示板的录像的来源,在此不做具体限定。
其中,当前目标视频帧可以为文字展示板的录像中的任意一帧;当前目标视频帧也可以为用户选定的文字展示板的录像中的一帧,用户通过分析文字展示板录像中的各视频帧以确定得到当前目标视频帧,使得后续对当前目标视频帧进行处理得到无遮挡的文字展示板内容的效率更高,减少后续的处理时间,减少运算量。具体可根据实际使用需要设置,在此不做具体限定。需要说明的是,本文所述的无遮挡的文字展示板内容是将遮挡物透明化处理,以使能够查看到被遮挡的文字展示板内容即能够查看到文字展示板上的所有内容,最终呈现的图像画面中包括透明化处理后的遮挡物以及完整的文字展示板的内容。
在一实施方式中,可利用不同视角的多个摄像头对文字展示板进行录像。考虑到某些应用场景中会采用加长的文字展示板,或者会采用上下推拉的文字展示板,单一摄像头为了获取到包括完整文字展示板在内的画面,可能会使拍摄到的图像画面不清晰或者存在一些应用空间内固定物体的遮挡,不利于后续还原无遮挡文字展示板内容的操作。因此,通过设置不同视角的多个摄像头,对多个摄像头采集到的图像画面进行矫正、匹配、融合等处理,以获得对文字展示板的无教室内固定物体遮挡且清晰的图像画面,即获取对完整的文字展示板的画面清晰的录像,从而便于后续对录像中的当前视频帧进行处理以得到完整的无遮挡的文字展示板内容。可以理解地,在其他实施方式中,也可使用单一摄像头对文字展示板进行录像,可根据实际使用场景具体设置,在此不做具体限定。
可选地,在一实施方式中,多个摄像头中的1个摄像头是为了获取包含文字展示板全局画面的全局摄像头,多个摄像头中的剩余其他摄像头是为了获取文字展示板局部画面的局部摄像头。在其他实施方式中,也可采用2个、3个等摄像头作为全局摄像头,可根据实际使用需要具体设置,在此不做具体限定。其中,不对局部摄像头的数量具体限定,可根据实际使用需要具体设置。
步骤S12:从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像。
本实施方式中,当前目标视频帧中包括文字展示板和对文字展示板进行遮挡的遮挡物,所以从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像,一方面便于后续还原完整的文字展示板内容,另一方面便于后续对该遮挡物图像进行透明化处理。
在一实施方式中,可利用语义分割网络模型从当前目标视频帧中提取得到文字展示板的被遮挡区域对应的遮挡物图像。图像语义分割的是为每个像素指定语义标签,一般将一张RGB图作为输入即分割目标,将分割结果图作为输出,其中每一个像素包含了其类别的标签。语义分割网络模型是建立在分类模型基础上的,通过机器来识别大量的照片和视频,借助MobileNet卷积神经网络特征萃取器、物体比例塑造模型以及同化前后内容的技术,使用Deeplabv3作为编码器,通过空洞卷积控制输出特征图的分辨率,实现准确率和运行时间的平衡;并且使用Xception模型,并把Depthwise separable convolution应用到ASPP和译码器,构成一个更加强大的编码器-译码器网络;这样通过大量的样本学习和训练,同时借助人工智能的自我学习,DeepLab-v3+技术可以对图像或者视频画面中的前后景物体进行精确的识别,从而实现精准地图像分割。可以理解地,在其他实施方式中,也可利用其他网络模型提取得到文字展示板的被遮挡区域对应的遮挡物图像,在此不做具体限定。
举例来说,如图2、图3所示,图2是本申请提供的语义分割网络模型输入的分割目标一实施例的示意图,图3是本申请提供的语义分割模型输出结果一实施例的示意图,将如图2所示的RGB图像作为输入即分割目标,从而得到如图3所示的分割结果图,分割结果图即为掩膜图,由于是为了将人像提取出来,所以掩膜图中人像区域即目标区域的映射值为255,背景区域的映射值为0,进一步地通过将分割结果图对图2所示的模型输入图进行掩膜,会将背景区域处理掉,只保留人像区域,也就是说,从图2中提取得到了人像。当然,在其他实施方式中,语义分割网络模型输出的分割结果也可以是从图2中提取得到的人像图,避免基于人像掩膜图进一步提取得到人像图,减少了计算量,具体可根据实际使用需要设置,在此不做具体限定。
在一实施方式中,利用语义分割网络模型得到的文字展示板的被遮挡区域对应的遮挡物分割结果中还可包括被遮挡区域的位置信息,可利用被遮挡区域的位置信息,确定是否执行该步骤即步骤S12及其后续的步骤。例如,可通过判定当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离是否满足预设要求,以确定是否执行步骤S12及其后续的步骤。
步骤S13:利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像。
本实施方式中,利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,从而得到无遮挡图像。也就是说,利用历史目标视频帧中文字展示板中的对应当前目标视频帧中被遮挡区域部分的内容,覆盖当前目标视频帧中的被遮挡区域,从而准确还原得到无遮挡图像。
在一实施方式中,历史目标视频帧可以是当前目标视频帧的上一帧视频帧,也可以是上上帧视频帧。在其他实施方式中,当任一帧中均不存在对应被遮挡区域的未被遮挡部分时,即需要任意几帧组合才能得到对应被遮挡区域的未被遮挡部分时,历史目标视频帧也可以是当前目标视频帧之前的任意几帧,主要根据当前目标视频帧中的被遮挡区域决定。
举例来说,请参阅图4-图6,图4是本申请提供的当前目标视频帧一实施例的示意图,图5是本申请提供的历史目标视频帧一实施例的示意图,图6是本申请提供的无遮挡图像一实施例的示意图。如图4所示,文字展示板为黑板,文字展示板的内容是板书内容,遮挡物为老师,老师所处位置被遮挡的部分为被遮挡区域;如图5所示,上一帧目标视频帧中存在当前目标视频帧中被遮挡区域部分的板书内容,因此将上一帧目标视频帧作为历史目标视频帧,利用其文字展示板中对应当前视频帧中被遮挡区域部分的内容,替换当前目标视频帧中的被遮挡区域,从而得到如图6所示的无遮挡板书。
请参阅图7-图8,图7是本申请提供的原始无遮挡图像一实施例的示意图,图8是本申请提供的调节后的无遮挡图像一实施例的示意图。在一实施方式中,对于获得的无遮挡图像可进一步地进行颜色、对比度等的调节,具体可根据实际使用需要具体设置,在此不做具体限定。
步骤S14:将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧。
本实施方式中,将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧。具体地,请参阅图9-图10,图9是本申请提供的当前目标视频帧另一实施例的示意图,图10是本申请提供的经处理目标视频帧一实施例的示意图。如图9所示,当前目标视频帧中遮挡物对文字展示板的部分内容遮挡;如图10所示,经处理目标视频帧中可同时看到完整的文字展示板的内容以及遮挡物,且遮挡物未对文字展示板地内容遮挡,这是因为对遮挡物图像进行了透明化处理。可选地,经处理目标视频帧中的遮挡物图像的透明度大于0且小于100%,例如,可以是65%、55%等,可根据实际使用需要具体设置,在此不做具体限定。
在一实施方式中,可在对无遮挡图像进行调节后,再与经透明化处理的遮挡物图像进行叠加,具体的调整包括但不限于颜色、对比度的调整。
在一具体的实施方式中,本实施例的方法应用于教室教学领域时,如图9和图10所示,一方面能够使得教师在基于板书内容进行讲解时不对板书内容进行遮挡,以使坐在教室后面的同学以及想参与这堂课程的其他班级学生能够轻松获取教师的板书内容;另一方面,在经处理目标视频帧中对教师进行透明化处理而并非将其隐藏,能够使得学生在基于板书内容学习时能够观察到老师的状态神色,更有利于学生基于板书内容进行学习。
另外,在一实施方式中,在实际的教师授课过程中,还可对当前目标视频帧对应的经处理目标视频帧进行分发,通过分发可以将当前展示的经处理目标视频帧图像内容推送给教师侧屏幕、学生平板等显示设备,以供学生浏览查看,既有利于学生和教师之间的互动、活跃课堂气氛,也便于教师传授知识、学生记忆知识,提高学生学习的高效性。
此外,在一实施方式中,还可对当前目标视频帧对应的经处理目标视频帧图像进行截图保存,以便于教师在之后的授课中二次使用。
在另一具体的实施方式中,在将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧之前,还可将文字展示板和文字展示板中的内容进行分离,以更换文字展示板中内容的背景,最后将具有预设背景的文本内容与经透明化处理的遮挡物图像进行叠加,得到经处理目标视频帧。由于在当文字展示板中的内容为脱机手写体文字时,其笔画的轻重可能会导致像素点的误判,从而无法将手写体文字的所有笔画完好地保留下来,因此为了能够提取到完好的文本内容,具体包括如下过程:步骤一:先利用聚类算法对无遮挡图像进行粗略分析,以将无遮挡图像中的文字展示板部分聚为一类,将文本内容聚为一类。可以采用的聚类策略是,通过确定某个点的上下左右四个方向的点为哪一类,直至确定无遮挡图像中的所有点,从而完成对无遮挡图像的聚类分析。步骤二:对无遮挡图像进行文本检测,得到无遮挡图像中的文本内容。具体地,使用CTPN网络模型对无遮挡图像中的文本行进行准确定位,从而分割得到文本内容。其原理是在卷积网络获得的特征图上生成一系列适当尺寸的文本预选框,通过滑动窗口生成锚点框,然后判断锚点框中是否包含文本内容,从而提取得到无遮挡图像中的文本内容。
进一步地,在获取到无遮挡图像中的文本内容后,还需对文本内容进行预设处理,其中,预设处理可以是将文本内容设置在预设背景上,以使后续包含有预设背景的文本内容与经透明化处理的遮挡物结合得到对应当前目标视频帧的经处理目标视频帧。由于是对文本内容进行预设处理才使文本内容具有预设背景,所以文本内容可以在预设背景中所以移动,从而扩大了文本内容展示面积,打破了传统文字展示板的使用局限性。可以理解地,预设处理也可以是对文本内容进行的其他处理,在此不做具体限定。
在一实施方式中,还可对提取得到的文本内容的颜色、对比度、粗细等进行调节,提高文本内容的可视化程度。
请参阅图11,图11是图1所示步骤S11一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图11所示的流程顺序为限。如图11所示,该实施例中,通过对多摄像头采集的录像画面进行矫正、匹配和融合处理,以获取当前目标视频帧,具体包括:
步骤S111:获取多个摄像头分别对文字展示板录像得到的多个初始视频帧。
本实施方式中,利用不同视角的多个摄像头对文字展示板进行录像,从而获取多个摄像头分别对文字展示板录像得到的多个初始视频帧。其中,由于多个摄像头对文字展示板的录像是同时进行的,所以获取到的多个初始视频帧对应的时间点是相同的,也就是说,以摄像头上相同的时间点为基准,从各个摄像头中提取相同时间点对应的视频帧,以作为各个摄像头的初始视频帧。
其中,初始视频帧为未经过任何处理的视频帧,即从摄像头采集到的对文字展示板的录像中直接提取出来的视频帧。
在一实施方式中,至少一个初始视频帧包含文字展示板的全局画面,至少一个初始视频帧包含文字展示板的局部画面,也就是说,至少一个摄像头用于采集包含文字展示板的全局画面,至少一个摄像头用于采集包含文字展示板的局部画面。如图12所示,图12是本申请提供的包含文字展示板的全局画面一实施例的示意图,由于在到某些应用场景中会采用加长的文字展示板,或者会采用上下推拉的文字展示板,单一摄像头为了获取到包括完整文字展示板在内的画面,可能会使拍摄到的图像画面不清晰或者存在一些应用空间内固定物体的遮挡,不利于后续还原无遮挡文字展示板内容的操作。因此,通过设置至少一个初始视频帧包含文字展示板的全局画面,该全局画面包含整个文字展示板;另外,通过设置至少一个初始视频帧包含文字展示板的局部画面,由于局部画面清晰,所以可以利用局部画面与全局画面进行匹配、融合等,以使局部画面替换该局部画面对应在全局画面中的区域,从而获得对文字展示板的清晰的图像画面,进而便于后续获取得到完整的无遮挡的文字展示板内容。其中,不对用于采集全局画面和局部画面的摄像头数量进行具体限定,可根据实际使用需要具体设置。
在一具体的应用场景中,本实施例的方法用于教室教学领域,通过设置至少一个初始视频帧包含黑板的全局画面,以保证后续获得的当前目标视频帧是包括整个黑板的;另外,通过设置至少一个初始视频帧包含文字展示板的局部画面,用于采集局部画面的局部摄像头为会追踪老师拍摄的特写摄像头,特写摄像头能够放大或缩小采集的图像画面,以使采集到的的包含黑板的局部画面清晰;后续通过将全局画面和局部画面进行匹配、融合等,两者将图像信息进行相互补充,从而便于获得完整的无遮挡的板书内容。
步骤S112:分别对多个初始视频帧进行矫正处理。
如图12所示,由于当摄像机的镜头的光轴与文字展示板的平面不垂直时,摄像头采集到的文字展示板的画面就会发生透视变形,变形后的文字展示板上的文字内容就会呈现近大远小的现象,不便于后续对各初始视频帧进行匹配、融合处理等。如图13所示,图13是图12所示全局画面矫正后一实施例的示意图,因此,在一实施方式中,会分别对多个初始视频帧进行矫正处理,以得到矫正后的多个初始视频帧,矫正后的多个初始视频帧中只包含文字展示板,从而便于后续对各初始视频帧进行匹配、融合处理。
在一实施方式中,利用初始视频帧的水平消失点和竖直消失点进行图像矫正。具体地,将各初始视频帧划分为足够小的区域,提取视频帧图像中的平行基线和文字展示板中文本段落之间的空白信息,以及提取横向曲线和纵向基线,从而估计得到视频帧图像的水平消失点位置和竖直消失点位置;通过水平消失点位置和竖直消失点位置确定期望的文字展示板四个角的位置;根据当前文字展示板四个角的位置和期望的文字展示板四个角的位置生成透视矩阵,最后通过生成的透视矩阵完成对视频帧图像的矫正。可以理解地,在其他实施方式中,也可利用其他方式对初始视频帧进行矫正,在此不做具体限定。
需要说明的是,对于不需要进行图像矫正的实施例中,可不执行步骤S112。
步骤S113:将多个初始视频帧进行配准处理,得到经配准的多个初始视频帧。
本实施方式中,通过将多个初始视频帧进行配准处理,得到经配准的多个初始视频帧,以获得包含文字展示板局部画面的初始视频帧和包含文字展示板全局画面的初始视频帧之间的空间映射关系,两两初始视频帧在空间维度上对齐或匹配,从而达到信息融合的目的。其中,需要说明的是,包含文字展示板局部画面的初始视频帧是为了与包含文字展示板全局画面的初始视频帧进行融合,以替换全局画面中不清晰的区域,所以多个初始视频帧进行配准处理实际是将各局部画面对应的初始帧视频与各全局画面对应的初始视频帧进行配准,而并非是任意两个初始视频帧进行相互配准。
在一具体的实施方式中,包含文字展示板全局画面的初始视频帧为1个。首先,对各个初始视频帧进行特征点提取,得到各个初始视频帧的特征点;其中,可利用Harris算法对各初始视频帧进行特征点检测,或者可同时利用Harris算法和Canny算法对各初始视频帧进行特征点检测,Canny算法用于对图像的边缘轮廓进行检测,两个算法的结合,使得初始视频帧之间的配准性更高,当然,也可利用其它算法以及算法结合对初始视频帧进行特征点提取,在此不做具体限定。其次,将各包含文字展示板局部画面的初始视频帧的特征点与包含文字展示板全局画面的初始视频帧的特征点进行匹配,得到特征匹配对,从而得到经配准的多个初始视频帧;其中,不对特征点匹配算法进行具体限定,可根据实际使用需要具体设置。
步骤S114:将经配准的多个初始视频帧进行融合处理,得到当前目标视频帧。
本实施方式中,由于步骤S113中已经获得包含文字展示板局部画面的各初始视频帧和包含文字展示板全局画面的初始视频帧之间的特征匹配对,又因为基于特征匹配对能够获取两者之间的空间映射关系,所以可通过各包含文字展示板局部画面的初始视频帧与包含文字展示板全局画面的初始视频帧通过对应的空间映射关系进行融合,以使清晰的局部画面替换全局画面中对应该局部画面的区域,从而使得包含文字展示板的全局画面清晰,即使得当前目标视频帧的图像画面清晰,便于后续对当前目标视频帧的处理。
在一实施方式中,对经配准的多个初始视频帧进行融合处理,实际就是将各包含文字展示板局部画面的初始视频帧与包含文字展示板全局画面的初始视频帧进行拼接。
具体地,首先,对步骤S113获得的各特征匹配对进行采样,计算得到对应各特征匹配对对应的单应性矩阵的初始值,从而初步确定各局部画面和全局画面之间转换关系;其次,引导拼接,在计算出单应性矩阵之后,将局部画面上的所有像素点乘以单应性矩阵以将局部画面映射到全局画面上,从而实现局部画面对应的初始视频帧和全局画面对应的初始视频帧的配准对齐;其次,在配准对齐后,确定极线附近区域的特征点对应情况;其次,调整单应性矩阵,直至配准对齐后的图像的极限附近区域的特征点对应数目稳定。
其中,考虑到图像可能会受到曝光等因素影响,会使得在实际拼接过程中,图像的缝合线两端出现明显的明暗变化,因此,在各包含文字展示板局部画面的初始视频帧与包含文字展示板全局画面的初始视频帧配准对齐后,将包含局部画面的初始视频帧和包含全局画面的初始视频帧在重叠区域对应的第二像素点的像素值进行加权处理,以得到对应重叠区域的第一像素点的像素值,即当前目标视频帧中该重叠区域对应的第一像素点的像素值。可以理解地,在其他实施方式中,也可利用颜色插值或者多分辨率样条技术进行全局画面和局部画面的缝合线处理,在此不做具体限定。
在一具体的实施方式中,如图14所示,图14是本申请提供的拼接图像一实施例的简化示意图,初始视频帧的第二像素点对应的权重与第二像素点与区域边界的距离为负相关关系,其中,区域边界为重叠区域靠近初始视频帧的边界。具体地,假设重叠区域处包含文字展示板的全局图像的第二像素点的权重的变化因子是k(0<k<1),Pixel_L是包含文字展示板的全局图像在拼接前对应重叠区域的区域处的像素值,Pixel_R是包含文字展示板的局部图像在拼接前对应重叠区域的区域处的像素值,Pixel是重叠区域的像素值;由于初始视频帧的第二像素点对应的权重与第二像素点与区域边界的距离为负相关关系,所以在重叠区域中,沿全局画面向局部画面的方向,k由1渐变为0,此时重叠区域处局部画面的第二像素点的权重由0渐变为1,从而对全局画面和局部画面进行缝合线处理,避免缝合线两端出现明显的明暗变化。在其他实施方式中,为了使重叠区域中的各个像素点与全局画面和局部画面建立了更大的相关性,令k=d1/(d1+d2),其中d1,d2分别表示重叠区域中的像素点到两幅图像画面重叠区域的左边界和右边界的距离,即使用公式Pixel=k×Pixel_L+(1-k)×Pixel_R对全局画面和局部画面进行缝合线处理。
请参阅图15,图15是执行图1所示步骤S12之前所执行步骤一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图15所示的流程顺序为限。如图15所示,该实施例中,利用语义分割网络模型从当前目标视频帧中提取文字展示板的被遮挡区域对应的遮挡物图像,具体包括:
步骤S151:对当前目标视频帧进行预处理。
本实施方式中,会对当前目标视频帧进行预处理,以对面积较小的噪声点进行剔除,避免当前目标视频帧中的噪声点对后续的图像分割产生影响。
在一实施方式中,可利用阈值法对当前目标视频帧进行预处理。具体地,先对当前目标视频帧进行二值化处理,使得当前目标视频帧灰度化,图像上的像素点的像素值变为0或者255,也就是说,将整个当前目标视频帧呈现出明显的黑白效果;然后设置一个像素值大小为阈值;然后,将当前目标视频帧上像素值大于或等于阈值的像素点的像素值调整为255,将当前目标视频上像素值小于阈值的像素点的像素值调整为0,可重复多次设置不同阈值,以将不同的噪声点进行剔除,从而将当前目标视频帧中影响后续图像分割的所有噪声点剔除。可以理解地,在其他实施方式中,也可通过其他方法对当前目标视频帧进行预处理,在此不做具体限定。
在一实施方式中,为了提高实时施处理视频帧的效率,可开启多线程操作,例如,同时开启两个线程进行视频帧处理,一个线程用于缓存读取当前目标视频帧信息,另一个线程用于处理当前目标视频帧。
需要说明的是,对于当前目标视频帧中无面积较小的噪声的实施例,可以不执行步骤S151,直接执行步骤S152。
步骤S152:对当前目标视频帧进行遮挡物语义分割,得到当前目标视频帧的遮挡物分割结果。
本实施方式中,利用语义分割网络模型对当前目标视频帧进行遮挡物语义分割,从而得到当前目标视频帧的遮挡物分割结果。可选地,当前目标视频帧的遮挡物分割结果可以是掩膜图,得到遮挡物的掩膜图能够将对应的遮挡物提取出来,当然当前目标视频帧的遮挡物分割结果也可以是最后提取得到的遮挡物,在此不做具体限定。
其中,遮挡物分割结果包含被遮挡区域的位置信息,被遮挡区域的位置信息能够反映出被遮挡区域在当前目标视频帧中的位置,并且能够根据当前目标视频帧和上一目标视频帧的被遮挡区域的位置信息确定被遮挡区域是否对应同一遮挡物等。
步骤S153:利用被遮挡区域的位置信息,确定当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离。
本实施方式中,利用被遮挡区域的位置信息,确定当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离。
在一实施方式中,可将当前目标视频帧和上一目标视频帧的被遮挡区域的中心点作为基点,计算两中心点之间的距离,将两中心点之间的距离作为当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离。在其他实施方式中,也可将当前目标视频帧和上一目标视频帧的被遮挡区域上的其他点作为基点,计算两者之间的距离,可根据实际使用需要具体设置,在此不做具体限定。
步骤S154:判断当目标视频帧和上一目标视频帧的被遮挡区域之间的距离是否小于预设距离值。
本实施方式中,预先设置有预设距离值,由于相邻两帧的时间间隔较短,所以在当目标视频帧和上一目标视频帧的被遮挡区域之间的距离小于预设距离值时,则认为当前目标视频帧和上一目标视频帧的被遮挡区域对应的遮挡物相同,此时执行步骤S155;而在当目标视频帧和上一目标视频帧的被遮挡区域之间的距离大于或等于预设距离值时,超出了遮挡物在一帧时间内可移动的上限,即同一遮挡物在一帧时间内无法做到移动此距离,则认为当前目标视频帧和上一目标视频帧的被遮挡区域对应的遮挡物不同,此时不对该当前目标视频帧进行后续的处理。需要说明的是,在当前目标视频帧具有两个或多个被遮挡区域时,可分别计算当前目标视频帧中每一被遮挡区域和上一目标视频帧的被遮挡区域之间的距离,只要有一个距离满足小于预设距离值,则认为当前目标视频帧包括与上一目标视频帧相同的遮挡物,此时同样执行步骤S155。
其中,不对预设距离值进行具体限定,可根据实际使用场景具体设置。
步骤S155:响应于距离小于预设距离值,执行从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像及其后续步骤。
本实施方式中,在当目标视频帧和上一目标视频帧的被遮挡区域之间的距离小于预设距离值时,将语义分割网络模型获取得到的遮挡物掩膜图对当前目标视频帧进行掩膜,以从当前目标视频帧中提取得到文字展示板的被遮挡区域对应的遮挡物图像。通过加入被遮挡区域的位置信息进行判定是否执行从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像及其后续步骤,提高了后续分离遮挡区域和未遮挡区域的准确性。
请参阅图16,图16是图1所示步骤S13一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图16所示的流程顺序为限。如图16所示,该实施例中,将当前目标视频帧的上一帧作为历史目标视频帧,利用其得到无遮挡图像,具体包括:
步骤S131:从当前目标视频帧中提取第一区域图像。
本实施方式中,从当前目标视频帧中提取第一区域图像,其中,第一区域图像包含当前目标视频帧中位于被遮挡区域以外的图像信息,也就是说,从当前目标视频帧中提取未被遮挡的区域。
在一实施方式中,如图4所示,可利用语义分割网络模型从当前目标视频帧中提取第一区域图像,图4中未涂黑的部分为第一区域图像。可以理解地,在其他实施方式中,也可利用其他网络模型从当前目标视频帧中提取第一区域图像,可根据实际使用需要具体设置,在此不做具体限定。
在一具体的实施方式中,利用语义分割网络模型从当前目标视频帧中提取第一区域图像。利用语义分割网络模型对当前目标视频帧进行分割,得到当前目标视频帧中的第一区域图像分割结果(掩膜图),其中,第一区域部分mask=0,遮挡物部分mask=255;由于需要提取第一区域图像,所以用代表当前目标视频帧的背景区域部分即第一区域部分frame[:,:,0]与对应第一区域部分的mask相乘,即frame[:,:,0]*(mask=0)相乘,以保留当前目标视频帧中被遮挡区域以外的图像信息即保留第一区域的图像信息,从而提取得到第一区域图像。
步骤S132:从历史目标视频帧中提取第二区域图像。
本实施方式中,从历史目标视频帧中提取第二区域图像,其中,第二区域图像包含表示文字展示板在被遮挡区域中的内容的图像信息。也就是说,历史目标视频帧中提取得到的第二区域图像包含对应当前目标视频帧中被遮挡区域中的内容的图像信息,也即第二区域图像的范围大小大于被遮挡区域的范围大小。
在一实施方式中,可利用语义分割网络模型从历史目标视频帧中提取第二区域图像。可以理解地,在其他实施方式中,也可利用其他网络模型从历史目标视频帧中提取第二区域图像,可根据实际使用需要具体设置,在此不做具体限定。
在一具体的实施方式中,利用语义分割网络模型从历史目标视频帧中提取第二区域图像。利用语义分割网络模型对历史目标视频帧进行分割,得到历史目标视频帧中的第二区域图像分割结果(掩膜图),其中,第二区域部分mask=0,遮挡物部分mask=255;由于需要提取第二区域图像,所以用代表历史目标视频帧的背景区域部分即第二区域部分frame[:,:,0]与对应第二区域部分的mask相乘,即frame[:,:,0]*(mask=0)相乘,以保留历史目标视频帧中被遮挡区域以外的图像信息即保留第二区域的图像信息,从而提取得到第二区域图像。
由于第二区域图像的范围大小大于被遮挡区域的范围大小,即第二区域图像中包括当前目标视频帧的被遮挡区域以外的图像信息,所以为了减少计算量,在一实施方式,从历史目标视频帧中提取对应当前目标视频帧的被遮挡区域中的内容的图像信息。具体地,如图5所示,将当前目标视频帧中的遮挡物分割结果,其中,遮挡物部分mask=0,第一区域图像部分mask=255;由于需要提取历史目标视频帧中对应当前目标视频帧的被遮挡区域中的内容的图像信息,所以用before_image[:,:,0]*(mask=255)相乘,从而保留历史目标视频帧中对应被遮挡区域中的内容的图像信息,此时将该保留的区域作为第二区域图像。
步骤S133:结合第一区域图像和第二区域图像的图像信息,得到无遮挡图像。
本实施方式中,如图6所示,由于第二区域图像包含表示文字展示板在被遮挡区域中的内容的图像信息,也就是说,历史目标视频帧的第二区域图像包括当前目标视频帧中的被遮挡内容的图像信息,所以将第一区域图像和第二区域图像的图像信息结合,能够得到无遮挡的图像。
其中,由于当前目标视频帧和历史目标视频帧均为RGB图像,包括R、G、B三层,所以在实际提取第一区域图像和第二区域图像时,实际需要对R、G、B三层均进行处理,即用代表当前目标视频帧的背景区域部分即第一区域部分的R层frame[:,:,0]与对应第一区域部分的mask相乘,用代表当前目标视频帧的背景区域部分即第一区域部分的G层frame[:,:,1]与对应第一区域部分的mask相乘,用代表当前目标视频帧的背景区域部分即第一区域部分的B层frame[:,:,2]与对应第一区域部分的mask相乘,同样地,对当前目标视频帧的前景区域即遮挡物对应的区域的R、G、B三层做对应的处理。具体处理如下:
before_image[:,:,0]=frame[:,:,0]*(mask=0)+before_image[:,:,0]*(mask=255)
before_image[:,:,1]=frame[:,:,1]*(mask=0)+before_image[:,:,1]*(mask=255)
before_image[:,:,2]=frame[:,:,2]*(mask=0)+before_image[:,:,2]*(mask=255)
请参阅图17,图17是本申请提供的视频帧处理装置一实施例的框架示意图。视频帧处理装置170包括:获取模块171、提取模块172、替换模块173和叠加模块174。获取模块171用于获取对文字展示板录像得到的当前目标视频帧;提取模块172用于从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像;替换模块173用于利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像;叠加模块174用于将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧。
其中,替换模块173用于利用历史目标视频帧中文字展示板的内容,替换当前目标视频帧中的被遮挡区域,得到无遮挡图像,具体包括:从当前目标视频帧中提取第一区域图像,其中,第一区域图像包含当前目标视频帧中位于被遮挡区域以外的图像信息;以及从历史目标视频帧中提取第二区域图像,其中,第二区域图像包含表示文字展示板在被遮挡区域中的内容的图像信息;结合第一区域图像和第二区域图像的图像信息,得到无遮挡图像。
其中,替换模块173用于在从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像之前,视频帧处理方法具体还包括:对当前目标视频帧进行遮挡物语义分割,得到当前目标视频帧的遮挡物分割结果,其中,遮挡物分割结果包含被遮挡区域的位置信息;提取模块172用于从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像,具体包括:利用被遮挡区域的位置信息,从当前目标视频帧中提取得到遮挡物图像。
其中,提取模块172在从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像之前,视频帧处理方法具体还包括:利用被遮挡区域的位置信息,确定当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离;响应于距离小于预设距离值,执行从当前目标视频帧中,提取文字展示板的被遮挡区域对应的遮挡物图像及其后续步骤。
其中,获取模块171用于获取当前目标视频帧,具体包括:获取多个摄像头分别对文字展示板录像得到的多个初始视频帧;将多个初始视频帧进行配准处理,得到经配准的多个初始视频帧;将经配准的多个初始视频帧进行融合处理,得到当前目标视频帧。
其中,上述至少一个初始视频帧包含文字展示板的局部画面,至少一个初始视频帧包含文字展示板的全局画面。
其中,获取模块171用于在将多个初始视频帧进行配准处理,得到经配准的多个初始视频帧之前,视频帧处理方法具体还包括:分别对多个初始视频帧进行矫正处理;和/或,获取模块171用于将经配准的多个初始视频帧进行融合处理,得到当前目标视频帧,具体包括:将多个初始视频帧进行拼接处理,得到当前目标视频帧,其中,当前目标视频帧的第一像素点的像素值是由多个初始视频帧对应的第二像素点的像素值进行加权处理得到的,第一像素点和第二像素点为多个初始视频帧的重叠区域的像素点。
其中,上述初始视频帧的第二像素点对应的权重与第二像素点与区域边界的距离为负相关关系,区域边界为重叠区域靠近初始视频帧的边界。
其中,上述经处理目标视频帧中的遮挡物图像的透明度大于0且小于100%;叠加模块174用于在将无遮挡图像与经透明化处理的遮挡物图像进行叠加,得到当前目标视频帧对应的经处理目标视频帧之前,具体还包括以下任一步骤:对无遮挡图像进行文本检测,得到无遮挡图像中的文本内容,并对无遮挡图像中的文本内容进行预设处理,其中,预设处理包括将文本内容设置预设背景上;视频帧处理装置170还包括调节模块175,调节模块175用于对文本内容的属性进行调节,其中,属性包括颜色、对比度和粗细中的至少一种;调节模块175用于对无遮挡图像的颜色和/或对比度进行调节。
请参阅图18,图18是本申请提供的终端设备一实施例的框架示意图。终端设备180包括存储器181和处理器182,存储器181中存储有程序指令,处理器182用于执行程序指令以实现上述任一视频帧处理方法实施例中的步骤。具体地,终端设备180可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器182用于控制其自身以及存储器181以实现上述任一视频帧处理方法实施例中的步骤。处理器182还可以称为CPU(Central Processing Unit,中央处理单元)。处理器182可能是一种集成电路芯片,具有信号的处理能力。处理器182还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器182可以由集成电路芯片共同实现。
请参阅图19,图19是本申请提供的计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质190存储有程序指令191,该程序指令191被执行时实现本申请视频帧处理方法任一实施例以及任意不冲突的组合所提供的方法。其中,该程序指令191可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质190中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质190包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种视频帧处理方法,其特征在于,所述方法包括:
获取对文字展示板录像得到的当前目标视频帧;
从所述当前目标视频帧中,提取所述文字展示板的被遮挡区域对应的遮挡物图像;
利用历史目标视频帧中所述文字展示板的内容,替换所述当前目标视频帧中的所述被遮挡区域,得到无遮挡图像;
将所述无遮挡图像与经透明化处理的所述遮挡物图像进行叠加,得到所述当前目标视频帧对应的经处理目标视频帧。
2.根据权利要求1所述的方法,其特征在于,所述利用历史目标视频帧中所述文字展示板的内容,替换所述当前目标视频帧中的所述被遮挡区域,得到无遮挡图像,包括:
从所述当前目标视频帧中提取第一区域图像,其中,所述第一区域图像包含所述当前目标视频帧中位于所述被遮挡区域以外的图像信息;以及
从所述历史目标视频帧中提取第二区域图像,其中,所述第二区域图像包含表示所述文字展示板在所述被遮挡区域中的内容的图像信息;
结合所述第一区域图像和所述第二区域图像的图像信息,得到所述无遮挡图像。
3.根据权利要求1所述的方法,其特征在于,在所述从所述当前目标视频帧中,提取所述文字展示板的被遮挡区域对应的遮挡物图像之前,所述方法还包括:
对所述当前目标视频帧进行遮挡物语义分割,得到所述当前目标视频帧的遮挡物分割结果,其中,所述遮挡物分割结果包含被遮挡区域的位置信息;
所述从所述当前目标视频帧中,提取所述文字展示板的被遮挡区域对应的遮挡物图像,包括:
利用所述被遮挡区域的位置信息,从所述当前目标视频帧中提取得到所述遮挡物图像。
4.根据权利要求3所述的方法,其特征在于,在所述从所述当前目标视频帧中,提取所述文字展示板的被遮挡区域对应的遮挡物图像之前,所述方法还包括:
利用所述被遮挡区域的位置信息,确定所述当前目标视频帧和上一目标视频帧的被遮挡区域之间的距离;
响应于所述距离小于预设距离值,执行所述从所述当前目标视频帧中,提取所述文字展示板的被遮挡区域对应的遮挡物图像及其后续步骤。
5.根据权利要求1所述的方法,其特征在于,所述获取对文字展示板录像得到的当前目标视频帧,包括:
获取多个摄像头分别对所述文字展示板录像得到的多个初始视频帧;
将所述多个初始视频帧进行配准处理,得到经配准的所述多个初始视频帧;
将经配准的所述多个初始视频帧进行融合处理,得到所述当前目标视频帧。
6.根据权利要求5所述的方法,其特征在于,
至少一个所述初始视频帧包含所述文字展示板的局部画面,至少一个所述初始视频帧包含所述文字展示板的全局画面。
7.根据权利要求5所述的方法,其特征在于,在所述将所述多个初始视频帧进行配准处理,得到经配准的所述多个初始视频帧之前,所述方法还包括:
分别对所述多个初始视频帧进行矫正处理;
和/或,所述将经配准的所述多个初始视频帧进行融合处理,得到所述当前目标视频帧,包括:
将所述多个初始视频帧进行拼接处理,得到所述当前目标视频帧,其中,所述当前目标视频帧的第一像素点的像素值是由所述多个初始视频帧对应的第二像素点的像素值进行加权处理得到的,所述第一像素点和所述第二像素点为所述多个初始视频帧的重叠区域的像素点。
8.根据权利要求6所述的方法,其特征在于,
所述初始视频帧的所述第二像素点对应的权重与所述第二像素点与区域边界的距离为负相关关系,所述区域边界为所述重叠区域靠近所述初始视频帧的边界。
9.根据权利要求1所述的方法,其特征在于,所述经处理目标视频帧中的遮挡物图像的透明度大于0且小于100%;
和/或,在所述将所述无遮挡图像与经透明化处理的所述遮挡物图像进行叠加,得到所述当前目标视频帧对应的经处理目标视频帧之前,所述方法还包括以下任一步骤:
对所述无遮挡图像进行文本检测,得到所述无遮挡图像中的文本内容,并对所述无遮挡图像中的所述文本内容进行预设处理,其中,所述预设处理包括将所述文本内容设置预设背景上;
对所述文本内容的属性进行调节,其中,所述属性包括颜色、对比度和粗细中的至少一种;
对所述无遮挡图像的颜色和/或对比度进行调节。
10.一种视频帧处理装置,其特征在于,所述视频帧处理装置包括:
获取模块,用于获取对文字展示板录像得到的当前目标视频帧;
提取模块,用于从所述当前目标视频帧中,提取所述文字展示板的被遮挡区域对应的遮挡物图像;
替换模块,用于利用历史目标视频帧中所述文字展示板的内容,替换所述当前目标视频帧中的所述被遮挡区域,得到无遮挡图像;
叠加模块,用于将所述无遮挡图像与经透明化处理的所述遮挡物图像进行叠加,得到所述当前目标视频帧对应的经处理目标视频帧。
11.一种终端设备,其特征在于,所述终端设备包括存储器和处理器,所述存储器存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令能够被执行以实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076345.1A CN114120163A (zh) | 2021-09-14 | 2021-09-14 | 视频帧处理方法、装置及其相关设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076345.1A CN114120163A (zh) | 2021-09-14 | 2021-09-14 | 视频帧处理方法、装置及其相关设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114120163A true CN114120163A (zh) | 2022-03-01 |
Family
ID=80441208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111076345.1A Pending CN114120163A (zh) | 2021-09-14 | 2021-09-14 | 视频帧处理方法、装置及其相关设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120163A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114554113A (zh) * | 2022-04-24 | 2022-05-27 | 浙江华眼视觉科技有限公司 | 一种快件码识别机取件人画像方法及装置 |
CN114945107A (zh) * | 2022-04-15 | 2022-08-26 | 北京奕斯伟计算技术股份有限公司 | 视频处理方法和相关装置 |
CN115209182A (zh) * | 2022-06-11 | 2022-10-18 | 安徽理工大学 | 一种智能化数学教学辅助装置、方法及智能教学系统 |
CN115410232A (zh) * | 2022-11-01 | 2022-11-29 | 深圳市鹏创软件有限公司 | 板书抓拍方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-09-14 CN CN202111076345.1A patent/CN114120163A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114945107A (zh) * | 2022-04-15 | 2022-08-26 | 北京奕斯伟计算技术股份有限公司 | 视频处理方法和相关装置 |
CN114945107B (zh) * | 2022-04-15 | 2024-02-02 | 北京奕斯伟计算技术股份有限公司 | 视频处理方法和相关装置 |
CN114554113A (zh) * | 2022-04-24 | 2022-05-27 | 浙江华眼视觉科技有限公司 | 一种快件码识别机取件人画像方法及装置 |
CN115209182A (zh) * | 2022-06-11 | 2022-10-18 | 安徽理工大学 | 一种智能化数学教学辅助装置、方法及智能教学系统 |
CN115209182B (zh) * | 2022-06-11 | 2023-08-22 | 安徽理工大学 | 一种智能化数学教学辅助装置、方法及智能教学系统 |
CN115410232A (zh) * | 2022-11-01 | 2022-11-29 | 深圳市鹏创软件有限公司 | 板书抓拍方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240078646A1 (en) | Image processing method, image processing apparatus, and non-transitory storage medium | |
CN114120163A (zh) | 视频帧处理方法、装置及其相关设备和存储介质 | |
CN110276767B (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
CN110363116B (zh) | 基于gld-gan的不规则人脸矫正方法、系统及介质 | |
Sarel et al. | Separating transparent layers through layer information exchange | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN111027504A (zh) | 人脸关键点检测方法、装置、设备及存储介质 | |
WO2022156626A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
WO2022156622A1 (zh) | 脸部图像的视线矫正方法、装置、设备、计算机可读存储介质及计算机程序产品 | |
Luo et al. | Saliency density maximization for efficient visual objects discovery | |
CN109803172B (zh) | 一种直播视频的处理方法、装置及电子设备 | |
CN110163211B (zh) | 一种图像识别方法、装置和存储介质 | |
CN110276831B (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
CN111507997B (zh) | 图像分割方法、装置、设备及计算机存储介质 | |
WO2021179764A1 (zh) | 图像处理模型生成方法、处理方法、存储介质及终端 | |
CN111382647B (zh) | 一种图片处理方法、装置、设备及存储介质 | |
CN111325107A (zh) | 检测模型训练方法、装置、电子设备和可读存储介质 | |
TW202316373A (zh) | 針對多層顯像中之物件辨識性的系統及方法 | |
CN113887329A (zh) | 一种头部姿态定位与检测方法及其应用和系统 | |
CN113610884A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US20230353702A1 (en) | Processing device, system and method for board writing display | |
CN114255493A (zh) | 图像检测方法、人脸检测方法及装置、设备及存储介质 | |
CN112218005A (zh) | 一种基于人工智能的视频剪辑方法 | |
CN116543014A (zh) | 一种融合全景的教师自动跟踪方法及系统 | |
US20240212239A1 (en) | Logo Labeling Method and Device, Update Method and System of Logo Detection Model, and Storage Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |