CN118115399A - 图像处理方法、系统以及非瞬时计算机可读取存储介质 - Google Patents
图像处理方法、系统以及非瞬时计算机可读取存储介质 Download PDFInfo
- Publication number
- CN118115399A CN118115399A CN202211469706.3A CN202211469706A CN118115399A CN 118115399 A CN118115399 A CN 118115399A CN 202211469706 A CN202211469706 A CN 202211469706A CN 118115399 A CN118115399 A CN 118115399A
- Authority
- CN
- China
- Prior art keywords
- image
- processor
- target object
- object box
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012937 correction Methods 0.000 claims abstract description 34
- 241000791900 Selene vomer Species 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000010354 integration Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000002146 bilateral effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本公开涉及图像处理方法、系统以及非瞬时计算机可读取存储介质。一种图像处理方法包含以下操作:由处理器接收来自相机的输入图像;由处理器执行俯视校正程序以依据输入图像产生俯视校正图像;由处理器对俯视校正图像执行对象提取程序以产生至少一个目标对象方框;由处理器对至少一个目标对象方框执行居中程序以产生居中图像;以及由处理器输出居中图像以供显示面板进行显示。
Description
【技术领域】
本公开是有关于一种图像技术,特别关于一种可执行俯视校正程序且可将目标对象居中的图像处理方法、系统以及非瞬时计算机可读取存储介质。
【背景技术】
随着科技的进步,现今已发展出各式搭载有相机的电子装置。举例而言,笔记本电脑、桌面计算机、平板计算机、智能型手机、穿戴式电子装置以及车载装置等装置皆可搭载有相机。而用户可利用这些电子装置中的相机拍摄动态图像或静态图像且实时地传送给其他电子装置以与另一用户进行互动或沟通。
【发明内容】
本公开的一些实施方式是关于一种图像处理方法。图像处理方法包含以下操作:由处理器接收来自相机的输入图像;由处理器执行俯视校正程序以依据输入图像产生俯视校正图像;由处理器对俯视校正图像执行对象提取程序以产生至少一个目标对象方框;由处理器对至少一个目标对象方框执行居中程序以产生居中图像;以及由处理器输出居中图像以供显示面板进行显示。
本公开的一些实施方式是关于一种图像处理系统。图像处理系统包含相机、内存以及处理器。相机用以拍摄输入图像。内存用以储存包含多个指令的程序。处理器用以执行该些指令以执行以下操作:接收来自相机的输入图像;俯视校正程序以依据输入图像产生俯视校正图像;对俯视校正图像执行对象提取程序以产生至少一个目标对象方框;对至少一个目标对象方框执行居中程序以产生居中图像;以及输出居中图像以供显示面板进行显示。
本公开的一些实施方式是关于一种非瞬时计算机可读取存储介质。非瞬时计算机可读取存储介质用以储存包含多个指令的程序。当处理器执行该些指令时,处理器执行以下操作:接收来自相机的输入图像;执行俯视校正程序以依据输入图像产生俯视校正图像;对俯视校正图像执行对象提取程序以产生至少一个目标对象方框;对至少一个目标对象方框执行居中程序以产生居中图像;以及输出居中图像以供显示面板进行显示。
综上所述,本公开的图像处理方法以及图像处理系统,可对图像执行俯视校正程序且可将图像中的目标对象居中以达到追踪目标对象的效果。
【附图说明】
为让本公开的上述和其他目的、特征、优点与实施例能够更明显易懂,附图的说明如下:
图1是依照本公开一些实施例所绘示的图像处理系统的示意图;
图2是依照本公开一些实施例所绘示的图像处理方法的流程图;
图3是依照本公开一些实施例所绘示的俯视校正程序的示意图;
图4是依照本公开一些实施例所绘示的对象提取程序的示意图;以及
图5是依照本公开一些实施例所绘示的居中程序的示意图。
【具体实施方式】
在本文中所使用的用词『耦接』亦可指『电性耦接』,且用词『连接』亦可指『电性连接』。『耦接』及『连接』亦可指二个或多个组件相互配合或相互互动。
参考图1。图1是依照本公开一些实施例所绘示的图像处理系统100的示意图。
以图1为例而言,图像处理系统100包含传输装置110以及接收装置120。在一些实施例中,传输装置110或接收装置120可为笔记本电脑、桌面计算机、平板计算机、智能型手机、穿戴式电子装置、车载装置或其他具有相似功能的电子装置。
以图1为例而言,传输装置110包含处理器111、内存112、输入接口113、相机114以及显示面板115。处理器111分别与内存112、输入接口113、相机114以及显示面板115耦接。
在一些实施例中,处理器111可为中央处理器(central processor)、微处理器(microprocessor)或其他具有相似功能的电路。
在一些实施例中,内存112可为非瞬时计算机可读取存储介质,例如只读存储器、闪存、软盘、硬盘、光盘、快闪碟、随身碟、磁带、可从网络读取的数据库,或任何本公开内容所属的技术领域中的普通技术人员所能想到具有相同功能的存储介质。内存112中可储存程序CP1,且程序CP1包含多个指令。举例而言,程序CP1包含用以执行视频会议以及图像处理方法(例如:图2中的图像处理方法200)的多个指令。
在一些实施例中,输入接口113可为与传输装置110有线连接或无线配对的鼠标、键盘、触摸板(touch pad)或触控面板(touch panel)。
在一些实施例中,相机114可为设置于传输装置110当中的内嵌式相机(例如:智能型手机所搭载的相机)。在一些实施例中,相机114可为与传输装置110有线连接或无线配对的外接式相机(例如:与桌面计算机有线连接的网络摄影机)。
在一些实施例中,显示面板115可为传输装置110中的显示面板。在一些实施例中,显示面板115可与输入接口113整合成单一组件以形成传输装置110中的触控显示面板。
相似地,接收装置120包含处理器121、内存122、输入接口123、相机124以及显示面板125。
由于处理器121、内存122、输入接口123、相机124以及显示面板125的实现方式、耦接关系以及功能分别相似于处理器111、内存112、输入接口113、相机114以及显示面板115,故于此不再赘述。内存122中亦可储存程序CP2,且程序CP2包含多个指令。举例而言,程序CP2包含用以执行视频会议的多个指令。
在实际应用上,传输装置110与接收装置120之间可通过网络彼此联机以传输各种数据。举例而言,用户(主讲者)可操作传输装置110且另一用户(与会者)可操作接收装置120以通过网络与视频会议服务器共同参与视频会议,进而传输图像数据、声音数据或其他各种数据。
于此特别说明的是,图像处理系统100中装置的数量仅用于示例,其他各种合适的数量皆在本公开的范围中。举例而言,可以有三个或超过三个装置共同参与该视频会议。
参考图2。图2是依照本公开一些实施例所绘示的图像处理方法200的流程图。图像处理方法200包含操作S210、操作S220、操作S230、操作S240以及操作S250。
在一些实施例中,图像处理方法200可应用于图1的图像处理系统100。也就是说,处理器111可执行程序CP1以执行图像处理方法200。
为了易于理解,以下段落将搭配图1的图像处理系统100以及图3至图5对图像处理方法200进行描述。图3是依照本公开一些实施例所绘示的俯视校正程序的示意图。图4是依照本公开一些实施例所绘示的对象提取程序的示意图。图5是依照本公开一些实施例所绘示的居中程序的示意图。
一并参考图2以及图3。在操作S210中,处理器111接收来自相机114的输入图像310。输入图像310可为动态图像或静态图像。
举例而言,当主讲者操作传输装置110以进行视频会议时,主讲者可能会利用相机114的镜头对着桌面拍摄以对桌面上的对象(例如:芯片)进行讲解。然而,在大多数的情况下,主讲者并不会特别将相机114以正上方的视角对着桌面拍摄。也就是说,在大多数的情况下,相机114的镜头的光轴方向与水平面(桌面)之间的角度并非直角。
需特别说明的是,本公开并不以芯片与桌面为限制。其他各种合适的前景对象与背景环境皆在本公开的范围中。在实际应用上,当背景环境为平整且色彩单调的环境时,可更有利后续的图像处理。
如前所述,在大多数的情况下,主讲者并不会特别将相机114以正上方的视角对着桌面拍摄。
在操作S220中,处理器111执行俯视校正程序以依据输入图像310产生俯视校正图像320。
一般而言,基于相机114的镜头特性,输入图像310将可能存在形变。形变例如为桶状形变、枕状形变或其他各种形变。举例而言,若相机114的镜头为广角镜头,由于广角镜头具有短焦距的特性,输入图像310将可能存在广角形变。广角形变会使得俯视校正程序发生更严重的歪曲现象。据此,在这些实施例中,处理器111会在俯视校正程序之前先对输入图像310执行形变校正程序以产生形变校正图像。接着,处理器111再对形变校正图像执行俯视校正程序以产生俯视校正图像320。
关于形变校正程序,用户或处理器111可控制相机114以不同视角对黑白相间的棋盘格(可定义为世界坐标)进行拍摄以得到棋盘格角点在图像中的坐标。各张图像的角点坐标可被储存于内存112中。接着,处理器111可依据相机的特性以及镜头的特性分别假设未知的内部参数、未知的形变参数以及未知的相机外部参数(例如:相对于棋盘格的坐标位置以及旋转角度)。接着,处理器111可对上述未知的外部参数、未知的内部参数以及未知的形变参数所构成的矩阵,藉由已知的棋盘格世界坐标和图像中棋盘格角点的对应关系,进行求解以得到用于形变校正程序的校正参数。接着,处理器111可利用这些校正参数对输入图像310进行形变校正以改善输入图像310的形变问题。
接着,关于俯视校正程序,处理器111可依据真实相机114的外部参数以及虚拟相机(正上方视角)的外部参数计算出平移参数或旋转参数。这些平移参数或旋转参数可被储存于内存112中且可用以将图像校正为正上方视角的图像,如图3中的俯视校正图像320。如前所述,当背景环境为越平整时,俯视校正的效果会越好。
然而,在形变校正以及俯视校正的过程中,一些对象会自然地被校正于视野范围外。以图3为例而言,输入图像310中包含有主讲者的衣服与主讲者的整个右手,但俯视校正图像320的视野范围中已不存在主讲者的衣服且仅存在主讲者的部分右手。
一并参考图2以及图4。在操作S230中,处理器111对俯视校正图像320执行对象提取程序以产生至少一个目标对象方框(图4中以两个目标对象方框TO1-TO2为例,但本公开不以此数量为限)。
首先,处理器111对俯视校正图像320执行滤波程序以滤除噪声且产生经滤波图像。滤波程序可例如为高斯滤波(Gaussian filtering)程序、均值滤波(Mean filtering)程序、双边滤波(Bilateral filtering)程序或其他各种滤波程序,其中双边滤波程序可同时达到噪声滤除以及增强对象边界的效果。接着,处理器111对经滤波图像执行强化(Sharpen)程序以产生经处理图像330。相较于图3中的俯视校正图像320,图4中经处理图像330的对象边缘较清楚。各种合适的强化程序皆在本公开的范围中。
接着,处理器111对经处理图像330执行颜色分割程序。举例而言,处理器111利用K平均算法(KMeans)将经处理图像330中各像素的颜色进行分类以将前景对象与背景环境分离。如前所述,当背景环境为色彩单调的环境时,可更有利前景对象与背景环境之间的分离。接着,处理器111对前景对象执行边缘检测程序以决定各前景对象的轮廓。当决定出各前景对象的轮廓后,处理器111可决定且定位出对象方框O1-O3。
于此特别说明的是,虽然图4绘示出了三个对象方框O1-O3,但本公开不以此数量为限。其他各种合适的数量皆在本公开的范围中。另外,本公开亦不以K平均算法为限,其他各种合适的将前景对象与背景环境分离的算法皆在本公开的范围中。
接着,处理器111对对象方框O1-O3执行对象检测(Object detection)程序以判断出该些对象方框O1-O3中的对象种类。以图4为例而言,对象方框O1以及对象方框O2中的对象为芯片,而对象方框O3中的对象为手。
接着,处理器111执行对象排除程序以自对象方框O1-O3决定出目标对象方框。
在一些实施例中,处理器111可设定哪些对象为常见对象(例如:手或鼠标)。处理器111可将这些常见对象列为需排除的对象。以图4为例,处理器111会排除对象方框O3(手),且将剩余的对象方框O1-O2选择为目标对象方框TO1-TO2。虽然图4中目标对象方框TO1-TO2中的对象皆为芯片,但本公开不以此为限。举例而言,在其他实施例中,目标对象方框TO1中的对象可为芯片,而目标对象方框TO2中的对象可为使用说明光盘。也就是说,目标对象方框TO1-TO2中的对象可为相同种类或为不同种类。
在一些实施例中,用户可预先通过输入接口113设定目标对象的种类。处理器111可依据用户所设定的目标对象种类建立欲被追踪的目标对象列表。目标对象列表中可记载一种目标对象或多种目标对象种类。举例而言,用户可将芯片设定为目标对象以产生目标对象列表。接着,处理器111会将包含此种类目标对象(芯片)的对象方框O1-O2选择为目标对象方框TO1-TO2,且排除剩余的对象方框O3。在其他实施例中,目标对象列表可包含不同种类的目标对象。这些不同种类的目标对象可属于同一主题,以达到主题式追踪。举例而言,目标对象列表可包含芯片以及使用说明光盘。如此,芯片的对象方框以及使用说明光盘的对象方框皆会被选择为目标对象方框。
一并参考图2以及图5。在操作S240中,处理器111对目标对象方框TO1-TO2执行居中程序以产生居中图像340。首先,处理器111依据目标对象方框TO1-TO2决定出整合目标对象方框MO。换句话说,整合目标对象方框MO可涵盖所有目标对象方框TO1-TO2。接着,处理器111会依据整合目标对象方框MO对经处理图像330进行裁切以将整合目标对象方框MO放大且居中以产生居中图像340。在一些实施例中,经放大的整合目标对象方框LMO的中心点C会与居中图像340的中心点C对齐。在一些实施例中,经放大的整合目标对象方框LMO的长宽比会与整合目标对象方框MO的长宽比相同。
在一些实施例中,主讲者可通过输入接口113设定经放大的整合目标对象方框LMO与居中图像340的上边界、下边界、左边界以及右边界之间的距离以达到其所欲达到的显示效果。在一些实施例中,主讲者亦可通过输入接口113设定图像的调整速度以及调整时间以达到其所欲达到的效果。
在操作S250中,处理器111输出居中图像340以供显示面板115进行显示。在一些实施例中,处理器111更将居中图像340(例如:通过视频会议服务器)输出至接收装置120的处理器121以供显示面板125进行显示。如此,与会者可通过显示面板125观看到最终的居中图像340。由于居中图像340已校正为正上方视角且目标对象被放大且居中,因此与会者可更专注观看居中图像340中的目标对象且同步聆听主讲者对此目标对象的讲解内容。据此,整个视频会议的沟通可更有效率。
在一些相关技术中,需要多台相机才能达到追踪目标对象的效果。在一些相关技术中,仅追踪单一目标对象或是在多个不同的画面追踪单一目标对象。
相较于上述该些相关技术,本公开仅须单一相机114即可达到俯视校正且追踪目标对象的效果。另外,本公开可在同一画面同时追踪多个目标对象。
在一些实施例中,输入图像310为动态图像。也就是说,输入图像310包含多个帧(frame)。在实际应用上,主讲者可能会在讲解过程中改变目标对象的位置、改变目标对象的形状、将目标对象移出相机114的拍摄范围或将新的目标对象移入相机114的拍摄范围。当主讲者进行上述操作时,下一帧的整合目标对象方框MO的位置或范围可能会与目前这一帧的整合目标对象方框MO的位置或范围不相同。而处理器111会依据前后两帧的整合目标对象方框MO的位置或范围计算出方框位移量或方框范围改变量,且利用平滑曲线程序(例如:平滑曲线公式)决定前后两帧的整合目标对象方框MO的缩放比例以及调整对前后两帧的经处理图像330的裁切方式。由于平滑曲线程序可使前后两帧的变化较不剧烈,因此可让观看者拥有较佳且较平顺的观看体验。在一些实施例中,主讲者亦可通过输入接口113设定前后两帧的调整速度以及调整时间以达到其所欲达到的效果。
综上所述,本公开的图像处理方法以及图像处理系统,可对图像执行俯视校正程序且可将图像中的目标对象居中以达到追踪目标对象的效果。
虽然本公开已以实施方式公开如上,然其并非用以限定本公开,任何本领域普通技术人员,在不脱离本公开的精神和范围内,当可作各种更动与润饰,因此本公开的保护范围应当以所附的权利要求书为准。
【符号说明】
100:图像处理系统
110:传输装置
111:处理器
112:内存
113:输入接口
114:相机
115:显示面板
120:接收装置
121:处理器
122:内存
123:输入接口
124:相机
125:显示面板
200:图像处理方法
310:输入图像
320:俯视校正图像
330:经处理图像
340:居中图像
S210,S220,S230,S240,S250:操作
O1,O2,O3:对象方框
TO1,TO2:目标对象方框
MO:整合目标对象方框
LMO:经放大的整合目标对象方框
C:中心点。
Claims (10)
1.一种图像处理方法,包含:
由处理器接收来自相机的输入图像;
由该处理器执行俯视校正程序以依据该输入图像产生俯视校正图像;
由该处理器对该俯视校正图像执行对象提取程序以产生至少一个目标对象方框;
由该处理器对该至少一个目标对象方框执行居中程序以产生居中图像;以及
由该处理器输出该居中图像以供显示面板进行显示。
2.如权利要求1所述的图像处理方法,其中由该处理器执行该俯视校正程序包含:
由该处理器对该输入图像执行形变校正程序以产生形变校正图像;以及
由该处理器对该形变校正图像执行该俯视校正程序以产生该俯视校正图像。
3.如权利要求1所述的图像处理方法,其中由该处理器对该俯视校正图像执行该对象提取程序包含:
由该处理器对该俯视校正图像执行滤波程序以及强化程序以产生经处理图像;
由该处理器对该经处理图像执行颜色分割程序以及边缘检测程序以定位出该至少一个对象方框;以及
由该处理器对该至少一个对象方框执行对象检测程序以从该至少一个对象方框中决定该至少一个目标对象方框。
4.如权利要求3所述的图像处理方法,其中由该处理器对该至少一个对象方框执行该对象检测程序包含:
由该处理器对该至少一个对象方框执行该对象检测程序以及对象排除程序以从该至少一个对象方框中决定该至少一个目标对象方框。
5.如权利要求3所述的图像处理方法,其中该至少一个目标对象方框包含多个目标对象方框,且该些目标对象方框中的多个目标对象属于目标对象列表。
6.如权利要求3所述的图像处理方法,其中由该处理器对该至少一个目标对象方框执行该居中程序包含:
由该处理器依据该至少一个目标对象方框决定整合目标对象方框;以及
由该处理器依据该整合目标对象方框对该经处理图像进行裁切以将该整合目标对象方框放大且居中,进而产生该居中图像。
7.如权利要求6所述的图像处理方法,其中该输入图像为动态图像且该图像处理方法还包含:
由该处理器对该动态图像中的第一帧的该整合目标对象方框与该动态图像中的第二帧的该整合目标对象方框执行平滑曲线程序。
8.一种图像处理系统,包含:
相机,用以拍摄输入图像;
内存,用以储存包含多个指令的程序;以及
处理器,用以执行该些指令以执行以下操作:
接收来自该相机的该输入图像;
执行俯视校正程序以依据该输入图像产生俯视校正图像;
对该俯视校正图像执行对象提取程序以产生至少一个目标对象方框;
对该至少一个目标对象方框执行居中程序以产生居中图像;以及
输出该居中图像以供显示面板进行显示。
9.如权利要求8所述的图像处理系统,其中执行该俯视校正程序包含:
对该输入图像执行形变校正程序以产生形变校正图像;以及
对该形变校正图像执行该俯视校正程序以产生该俯视校正图像。
10.一种非瞬时计算机可读取存储介质,用以储存包含多个指令的程序,其中当处理器执行该些指令时,该处理器执行以下操作:
接收来自相机的输入图像;
执行俯视校正程序以依据该输入图像产生俯视校正图像;
对该俯视校正图像执行对象提取程序以产生至少一个目标对象方框;
对该至少一个目标对象方框执行居中程序以产生居中图像;以及
输出该居中图像以供显示面板进行显示。
Publications (1)
Publication Number | Publication Date |
---|---|
CN118115399A true CN118115399A (zh) | 2024-05-31 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995902B2 (en) | Facial signature methods, systems and software | |
US11743416B2 (en) | Apparatus and methods for the storage of overlapping regions of imaging data for the generation of optimized stitched images | |
US9852513B2 (en) | Tracking regions of interest across video frames with corresponding depth maps | |
US9142010B2 (en) | Image enhancement based on combining images from multiple cameras | |
US8619148B1 (en) | Image correction after combining images from multiple cameras | |
EP3735677A1 (en) | Fusing, texturing, and rendering views of dynamic three-dimensional models | |
US20130169760A1 (en) | Image Enhancement Methods And Systems | |
CN114667471A (zh) | 具有垂直偏置视野的相机 | |
TWI742481B (zh) | 視訊會議全景影像展開方法 | |
CN109690568A (zh) | 一种处理方法及移动设备 | |
US11776089B2 (en) | Apparatus and methods for non-uniform downsampling of captured panoramic images | |
US11812154B2 (en) | Method, apparatus and system for video processing | |
WO2018129692A1 (en) | Image refocusing | |
CN112470164A (zh) | 姿态校正 | |
CN113302915A (zh) | 在视频会议中共享物理书写表面 | |
NL2029657B1 (en) | Accurate optical flow estimation in stereo pairs of equirectangular images | |
WO2013112295A1 (en) | Image enhancement based on combining images from multiple cameras | |
CN118115399A (zh) | 图像处理方法、系统以及非瞬时计算机可读取存储介质 | |
TWI826119B (zh) | 影像處理方法、系統以及非暫態電腦可讀取記錄媒體 | |
WO2022036338A2 (en) | System and methods for depth-aware video processing and depth perception enhancement | |
WO2023097576A1 (en) | Segmentation with monocular depth estimation | |
CN117729418A (zh) | 一种基于画面显示的人物框定方法、装置和终端设备 | |
US9531943B2 (en) | Block-based digital refocusing system and method thereof | |
CN117135440A (zh) | 视频处理方法及装置、计算机可读介质和电子设备 | |
CN114339120A (zh) | 沉浸式视频会议系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |