CN103946894A - 图形显示窗口在图像内的动态放置的方法和装置 - Google Patents
图形显示窗口在图像内的动态放置的方法和装置 Download PDFInfo
- Publication number
- CN103946894A CN103946894A CN201280057484.2A CN201280057484A CN103946894A CN 103946894 A CN103946894 A CN 103946894A CN 201280057484 A CN201280057484 A CN 201280057484A CN 103946894 A CN103946894 A CN 103946894A
- Authority
- CN
- China
- Prior art keywords
- window
- image
- convolution
- pixel value
- geometric configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
- H04N1/3871—Composing, repositioning or otherwise geometrically modifying originals the composed originals being of different kinds, e.g. low- and high-resolution originals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/409—Edge or detail enhancement; Noise or error suppression
- H04N1/4092—Edge or detail enhancement
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
公开一种用于动态地选择图像中的图形显示窗口的方法(800)。对图像执行(805)空间梯度测量。计算(810)用于图像的卷积后像素值。使用所计算的卷积后像素值,确定(815)用于多个窗口位置选项的多个图像特性。多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状。基于多个图像特性,图形被放置在(820)多个窗口位置选项之一中。
Description
背景技术
目前,渲染流送视频的设备能够在预定窗口时隙中渲染叠加图形。图形可以为字幕(EIA-608和EIA-708数字闭路字幕)和关联于帧呈现时间的其他屏上显示(OSD)的形式。因为用于这些字幕和OSD的位置被预先确定,所以在很多情况下,在操作中,视频窗口的一些感兴趣部分可能被图形显示覆盖。在很多情况下,特别是在可以渲染更大位图的708数据的情况下,这使用户沮丧。
因为当前图形解决方案采用预定定位,所以当前不存在最小化图形显示可能覆盖在下面图像中的重要信息的情况的方式。因此,有机会开发将图形显示窗口放置在较少妨碍在下面视频的位置中的解决方案。
附图说明
因此,本发明的上述特征被获得并且可以被详细理解的方式、以上简单概括的本发明的更多特定说明可以通过参考附图中所图示的其实施例获得。
然而,将注意,附图仅图示本发明的典型实施例,并且因此不被认为是其范围的限制,因为本发明可以承认其他等同有效实施例。
图1图示了用于流送或广播媒体内容的示例性系统100;
图2图示了原始图像210和边缘检测图像205的实例;
图3、图4和图5图示了执行边缘检测的示例性方法;
图6图示了示例性Sobel掩模600;
图7图示了根据一个实施例的Sobel方法分析;
图8图示了根据一个实施例的用于动态地选择用于图像的图形显示窗口的方法800;
图9图示了具有四个窗口或象限的图像的一个实施例900;
图10图示了具有四个窗口或象限的图像的一个实施例1000;
图11图示了根据一个实施例的用于动态地选择图形显示窗口的方法1100;以及
图12图示了根据一个实施例的示例设备900的框图。
具体实施方式
为了本公开的目的,图像或“图像数据”是指流送或广播的媒体内容的帧,其可以是现场的或者被预先记录。另外,图形或“图形数据”是指闭路字幕信息。闭路字幕信息或数据可以覆盖图像数据(例如,为视频或视频数据)的序列。
公开了一种用于将图形显示窗口动态地放置在图像内的方法。图形显示窗口确定用于放置闭路字幕图形的边界。如果闭路字幕模式允许最多4行和32列文本(例如,卷起模式),则图形显示窗口将容纳该几何形状,并且文本将被放置在该窗口内,并且与也正被显示的图像叠加。
图像可以是实时呈现的多个视频帧之一。在一个实施例中,对图像执行空间梯度测量。计算用于图像的卷积后像素值。使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性。多个窗口位置选项具有能够容纳所显示的图形的几何形状。基于多个图像特性,图形显示被放置在多个窗口位置选项之一中。在一个实施例中,图形显示可以使用多种模式被呈现,包括但不限于:弹出(pop-up)、滚动(roll-on)和涂画(paint-on)。
图形特性可以是图像中的边缘或边缘像素的量。使用该方法,具有特定图形显示窗口几何形状的闭路字幕或图形数据可以被覆盖在具有至少与图形显示窗口一样大的形状并且相对于具有图形显示窗口几何形状的图像中的其他位置具有最少边缘或边缘像素数目的图像的区域中。
可替换地,图像特性可以是图像中的信息量。类似地,闭路字幕数据可以被放置在容纳图形数据几何形状并且与具有闭路字幕数据几何形状的图像中的其他位置相比,具有最少信息量的图像的区域中。
注意,边缘检测可以在多于一个图像上发生,例如,用于视频帧的序列。用于多个窗口位置选项的多个累积图像特性被确定用于视频帧的序列。从而,在一段视频期间,图形数据可以被放置在容纳图形数据并且在视频片段的周期内具有最少边缘数目和/或最少信息量的区域中。图形显示可以使用不同模式被呈现,包括但不限于:滚动、涂画和弹出。
因为当使用该方法时,图形数据可能在视频图像周围“跳跃”,所以可以通过经由用户输入接收到的选择来启用和禁用图形显示窗口的动态放置。还可以(或可替换地)基于给定视频帧序列中的运动量或信息改变量来自动禁用和启用图形显示窗口的动态放置。当动态放置被禁用时,图形显示窗口保持在图像上的相同区域中,其可以是最新近放置的窗口或默认位置(例如,图像的顶部或底部边缘)。
因为图形显示窗口可以被放置在图像上的任何位置处,所以可以存在具有将被比较的图像特性的大量可能放置选项。(窗口越小,其可以放置在图像内的位置就越多。)为了减少比较的数目,在另一个实施例中,分析图像中的预定区域。这些预定区域可以被静止定位并且不重叠或重叠。然后,不是比较用于图形窗口放置的所有可能性的图像特性,而是比较仅用于预定区域的图像特性。在具有最少边缘数目或最低信息量的单个预定区域内,图形显示窗口被放置在具有最少边缘数目或最低信息量的子区域中。从而,该两级分析更快,但是将图形显示窗口限制在预定区域之一中。图形显示可以使用不同模式被呈现,包括但不限于:滚动、涂画、以及弹出。
公开了一种用于动态地选择用于图像的图形显示窗口的装置。该装置具有存储器。该装置还具有处理器,所述处理器被配置成:对图像执行二维空间梯度测量;计算用于图像的卷积后像素值;使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性,多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状;以及基于多个图像特性,将闭路字幕或图形数据放置在多个窗口位置选项之一中。
还公开了一种非暂时性计算机可读存储介质,其具有当由处理器执行时,执行以下方法的指令:对图像执行二维空间梯度测量;计算用于图像的卷积后像素值;使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性,多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状;以及基于多个图像特性,将闭路字幕或图形显示放置在多个窗口位置选项之一中。
本公开设法将图形显示窗口放置在具有最少信息的图像帧的区域中。在一个实施例中,这通过使用边缘检测方法来完成,其中,选择具有最少数目的检测到的边缘的窗口。本公开不限于关联于帧呈现时间戳的图形,并且可以扩展至任何类型的图形显示屏幕。另外,虽然本公开涉及闭路字幕作为图形的主要实例,但是在此呈现的方法还可以应用至用于开放字幕的文本的动态或自动放置,例如,副标题,或媒体内容中的其他类型的图形,例如,电视网络标志或球队标志。
图1图示了用于流送或广播媒体内容的示例性系统100。内容提供商105将媒体内容经由网络110流送到最终用户设备115。内容提供商105可以是例如卫星电视系统或多系统运营商(MSO)、或例如媒体服务器或视频点播(VOD)服务器的头端。网络110可以是基于互联网协议(IP)的网络。网络110还可以是用于广播电视内容的广播网络,其中,内容提供商105是电缆或卫星电视提供商。另外,网络110可以是有线的,例如,光纤、同轴电缆,或者是无线接入网,例如,3G、4G、全球微波互联接入(WiMAX)、高速分组接入(HSPA)、HSPA+、长期演进(LTE)。最终用户设备115可以是机顶盒(STB)、个人数字助理(PDA)、数字视频记录器(DVR)、计算机、或移动设备,例如,膝上型电脑、上网本、平板电脑、便携式媒体播放器、或无线电话。在一个实施例中,最终用户设备115用作STB和DVR。另外,最终用户设备115可以经由例如蓝牙、无线局域网(WLAN)协议的多种协议通过单独有线或无线连接或网络120,与其他最终用户设备125通信。最终用户设备125可以包括类似于最终用户设备115的设备。在一个实施例中,最终用户设备115是STB,并且其他最终用户设备125是DVR。
显示器140经由单独网络或连接120耦合至最终用户设备115、125。显示器140呈现由具有动态选择的图形显示窗口的一个或多个图像构成的多媒体内容。一个或多个图像可以通过最终用户设备115、125或内容提供商105生成。一个或多个图像可以是视频帧,例如,当按顺序显示时,产生运动错觉的一系列图像中的单个图像。
遥控器135可以被配置成控制最终用户设备115、125和显示器140。遥控器135可以用于选择由最终用户设备115、125在显示器140上呈现给用户的多个选项。
图2图示了原始图像210和边缘检测图像205的实例。边缘表征边界,并且因此存在图像处理中的根本重要性的问题。图像中的边缘是具有强强度对比的区域,例如,强度从一个像素到下一个像素的跳跃。边缘检测图像是图像压缩算法中的常规做法,其显著减少图像中的数据量,并且在保留图像中的重要结构性质的同时,过滤出更少有用信息。多种边缘检测算法可以在本公开中使用,以分析所渲染的图像内容。
假定具有特定窗口几何形状(长方形窗口选项的几何形状222、226、232、236)的闭路字幕或图形显示,可以认为将该图形窗口放置在具有较低数目的边缘像素的图像的区域中比放置在具有较大数目的边缘像素的区域更加安全。例如,图2中示出若干窗口位置选项222、226、232、236。实际上,更多选项可用。例如,清楚地,窗口位置选项236具有比其他窗口位置选项222、226、232更多的边缘。在该特定图像210中,具有最少边缘的窗口选项222是将放置闭路字幕或图形的位置。
边缘检测在像新闻或谈话节目的存在较少运动的视频片段中有用。根据视频帧序列,在若干帧或者从选项222到选项232的跳跃和从选项232跳回到选项222内,叠加图形显示的位置可以停留在选项222位置中。如果图形显示窗口的放置的改变变得令用户讨厌,则用户可以启用并且禁用在存在最少量边缘或信息的区域中呈现的图形。当解码器检测到给定视频帧序列中的运动和信息改变超过特定阈值时,启用和禁用图形显示窗口的动态选择还可以(或可替换地)由解码器本身控制。
图3、图4和图5图示了执行边缘检测的示例性方法。存在执行边缘检测的很多方式。然而,大多数不同方法可以被分为两类,梯度和拉普拉斯。梯度方法通过查找图像的一阶导数的最大值和最小值来检测边缘。拉普拉斯方法搜索图像的二阶导数的零交叉来寻找边缘。边缘具有斜坡的一维形状,并且计算图像的导数可以强调其位置。
图3图示了一维连续信号f(t)的曲线图300。图4图示了曲线图300中所示的信号的梯度的曲线图400。在一个维度中,曲线图300中的信号的梯度是关于t的一阶导数。曲线图400描绘表示一阶导数的信号。
清楚地,导数信号示出位于原始信号中的边缘的中心处的最大值。定位边缘的该方法是边缘检测滤波器的“梯度滤波器”家族的特性,并且包括Sobel方法。如果梯度的值超过一些阈值,则像素位置表明边缘位置。如前所述,具有边缘的像素将比没有边缘的周围像素具有更高像素强度值。所以一旦阈值被设置,梯度值就可以与阈值进行比较,并且只要超过阈值,就可以检测出边缘。而且,当一阶导数为最大值时,二阶导数为零。
结果,找到边缘的位置的另一个替代方案是定位二阶导数中的零。该方法被已知为拉普拉斯方法。图5图示了描绘曲线图300中的信号的二阶导数的曲线图500。具有零值的曲线图500中的信号的位置描绘边缘。
本公开利用用于检测边缘的Sobel方法。存在用于检测边缘的很多方法,其可以由本公开一起利用,以便动态地选择图形显示窗口。在此使用用于检测边缘的Sobel方法作为实例。
基于以上一维分析,只要存在准确近似以计算二维图像的导数,该理论可以应用至二维。Sobel运算器对图像执行2-D空间梯度测量,并且强调与边缘相对应的高空间频率的区域。使用用于帧的掩模执行卷积。在该实施例中,使用Sobel掩模来执行卷积。通常,使用Sobel掩模来找到在输入灰度级图像中的每个点处的近似绝对梯度幅度。
图6图示了Sobel掩模。Sobel边缘检测器使用一对3×3卷积掩模600,一个估计x方向(列)上的梯度,并且另一个估计y方向(行)上的梯度。卷积掩模通常比实际图像小很多。结果,掩模在图像之上滑行,一次操纵一个正方形像素。在一个实施例中,解码器执行Sobel方法以用于解码后的帧的亮度部分。
然后,使用以下公式计算梯度的幅度:
其中
可以使用以下计算近似幅度:
|G|=|Gx|+|Gy|
图7图示了根据一个实施例的Sobel方法分析。掩模在输入图像的区域之上滑行,改变像素的值,并且然后将一个像素向右移位,并且继续向右移位,直到掩模到达行的端部为止。然后,掩模从下一行的开始处开始。图7中所示的实例示出掩模710在由虚线轮廓表示的输入图像705的左上部分之上滑行。公式示出如何计算输出图像715中的特定像素b22(由虚线表示)。掩模的中心位于在图像中正被操纵的像素之上。I&J值被用于移动文件指针,以便使例如像素(a22)乘以对应掩模值(m22)。值得注意的是,第一和最后一行中、以及第一和最后一列中的像素不能通过3×3掩模操纵。这是因为当将掩模的中心放置在第一行(例如)中的像素之上时,掩模将在图像边界外面。在该实例中,输出图像715的像素b22将如下计算:
b22=(a11*m11)+(a12*m12)+(a13*m13)+(a21*m21)+(a22*m22)+(a23*M23)+(a31*m31)+(a32*m32)+(a33*m33).
图8图示了根据一个实施例的用于动态地选择用于图像的图形显示窗口的方法800。在步骤805处,对图像执行空间梯度测量。在一个实施例中,空间梯度测量是二维空间梯度测量。
在步骤810处,计算用于图像的卷积后像素值。通过使用关于图像的掩模,计算卷积后像素值。在一个实施例中,掩模是Sobel掩模。
在步骤815处,使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性。多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状。图像特性可以是边缘或边缘像素数目、信息量、或替代地这两个选项。
在步骤820处,基于多个图像特性,将例如闭路字幕数据的图形放置在多个窗口位置选项之一中。为了本公开的目的,术语“闭路字幕或图形数据的几何形状”可以指文本的可接受行的数目和给定字幕模式下的文本的每行的可接受行宽度。字幕模式的实例是“滚动”、“弹出”和“涂画”。
在一个实施例中,方法800是确定用于视频流中的每个图像/帧的所选窗口位置选项的再现方法。在另一个实施例中,方法800是使用可选步骤817,基于在多个视频图像(例如,视频流中的视频帧的序列)内累积的图像特性信息来确定所选窗口位置选项的再现方法。在一个实施例中,在使用可选步骤817的情况下,视频帧的序列对应于视频流中的场景改变(大信息改变)之后的连续视频帧。
在一个实施例中,图像特性是图像中的边缘量。当边缘像素具有超过阈值的卷积后像素值时,图像中的边缘量可以通过计数来计算。在[80,120]之间选择典型边缘阈值,用于灰度级图像。
在一些情况下,所渲染的图像(例如,帧)跨过帧具有更多边缘。该帧可能比另一个在前帧具有更多内容或对象。该情况可能意味着当前镜头(例如,图像或帧)是特写镜头。
在一个实施例中,图形被放置在具有最少边缘数目的图像的区域中。在户外运动节目(例如,篮球)的情况下,用户可能想要看到更多场地-大多数场地区域将不显示任何边缘。球场的中心可能具有很多边缘。较近角摄影视图可能示出跨过帧延伸的更多边缘。在这样的情况下,可以有效地完成图形渲染,确保具有最少信息的区域被选择,并且不清除像击球手、主球场、高飞球接球等的任何关键视图。
在一个实施例中,由于在多个帧上检测到的信息而导致可以选择特定窗口位置选项。例如,在高尔夫广播期间,高尔夫球跨过具有天空或作为地面的绿色的屏幕移动。在该实例中,由于在多个帧上检测到球的运动而导致特定窗口位置选项不太可能被选择。如果在连续图像上,高尔夫球从屏幕的右下部分穿过到屏幕的左上部分,则若干窗口位置选项不可能具有最低数目的边缘像素(例如,右下、中心、以及左上)。然后,在该特定高尔夫镜头期间,图形显示可以被放置在左下窗口位置选项或者右上窗口位置选项中。
如果字幕是弹出类型,则可以在不跨过很多边缘的情况下,将已知长度的单行放置在屏幕的下边缘上(使用“自由式”窗口放置确定或者使用多个预先选择的窗口选项之一确定)。如果字幕滚动(多达四行深并且多达32列宽),则在图像的高尔夫镜头序列期间,窗口可能需要被认真地定位。如果所有窗口放置选项都大于所检测到的边缘像素的阈值数目,则字幕可以被放置在默认位置中而不是具有最少边缘像素的窗口位置选项中。
在一个实施例中,图像特性是图像中的信息量。在该实施例中,图形被放置在具有最少信息量的图像的区域中。在像新闻电视广播的节目中,除了特定位置之外,通常观测到非常少运动。一个实例是新闻电视广播,钟在图像的底部上运行。在该情况下,将图形定位在具有最少信息的区域中(例如,沿着图像的顶部)将非常有用。对于具有大量运动的序列,用户可以选择禁用图形显示窗口的动态选择。可替换地,当图像特性大于阈值时,处理器可以禁用图形显示窗口的动态选择。
在一个实施例中,图像是实时呈现的多个视频帧之一。图形显示窗口的动态定位可以由经由用户输入接收到的选择控制。当解码器确定帧中的边缘在所设置期限内不允许解码器将具有相同几何形状的图形重定位在帧的序列内时,图形显示窗口的动态定位可以被自动禁用。在该情况下,自动重定位可以由解码器关闭,并且图形可以被渲染在由协议指定的默认位置中。在自动重定位被关闭之后,用户可以在随后时间启用自动重定位。当存在场景中的很多动作、具有大量详情的特写镜头等时,该情况是可能的。
在一个实施例中,图形被放置在具有可以容纳例如实际闭路字幕数据的图形的几何形状的具有最少量边缘的图像的区域中。在该实施例中(例如,弹出),特定最少边缘位置与图形的准确几何形状匹配。对于该实施例,由于最少边缘选择位置与图形的准确几何形状匹配,所以将不存在最少边缘选择位置太小而不符合闭路字幕数据的给定几何形状的情况。然而,如果最少边缘选项大于边缘像素的阈值数目,则解码器可以选择默认位置,用于显示图形数据。
在一个实施例中,预先选择区域可以被定义用于限制图像内的窗口放置选项的数目。例如,图像(例如,帧)可以被划分为四个象限。最少边缘/信息检测方法最初仅在这些预先选择的象限上操作,并且然后当放置闭路字幕数据时,在一个所选象限内操作。
图9图示了具有用于窗口位置选项的预先选择区域的图像的一个实施例900。在该实施例中,预先选择区域是类似2×2矩阵的四个区域或者象限。图像或帧905被划分为四个象限910、915、920、925。在每个帧上完成边缘检测。具有最少边缘和/或信息的象限被选择用于图形显示窗口的放置。在所选象限内,图形显示窗口可以如先前关于图8描述的那样被动态地定位(开始于步骤815,并且将多个窗口位置选项限制在所选象限内)。从而,图9示出区域910内的四个示例图形显示窗口放置选项。实际上,更多选项可用。
图10图示了具有用于窗口位置选项的预先选择区域的图像的另一个实施例1000。在该实施例中,窗口位置选项是类似1×4矩阵的四个区域或象限。图像或帧1005被水平地划分为四个象限1010、1015、1020、1025。在每个帧上完成边缘检测。具有最少边缘和/或最少量信息的象限被选择用于放置图形显示窗口。在所选象限内,图形显示窗口可以如先前关于图8描述的那样被动态地定位(开始于步骤815,并且将多个窗口位置选项限制在所选象限内)。从而,四个图形显示窗口选项被示出为象限1010中的实例。实际上,更多选项可用。
虽然图9至图10示出了四个预先选择区域,但是可以实现其他数目(两个以上)的区域。而且,虽然图9至图10示出相等尺寸和几何形状的区域,但是在其他实现中,区域可以具有不同尺寸和/或形状。另外,区域可以重叠,而不是如图9至图10中所示的不重叠。
高级电视闭路字幕(ATVCC)标准允许9600位/秒,其中,电子工业联盟(EIA)608(模拟字幕)可以是960bps。EIA708可以承载8640bps,这意味着,每帧,在60Hz,一个可以具有被分配用于闭路字幕的20字节。
图11图示了根据一个实施例的用于动态地定位图形显示窗口的方法1100。在步骤1110处,确定闭路字幕模式。可以在“滚动”1115、“涂画”1125、或“弹出”1120模式下显示字幕。基于字幕模式,可以预先建立窗口几何形状。
滚动模式1113被设计成便于在直播事件期间理解消息。从左边擦除字幕,并且然后在下一行出现在下面时,向上滚动。一、二、三或四行通常同时留在屏幕上。因为图形可以多达四行深,图形显示窗口可以多达四行深并且多达32行宽。注意,与以下将描述的其他两种模式相比,滚动模式下的图形显示窗口的几何形状可能更大。
在涂画模式1115下,从左到右在屏幕上擦除文本的单行。文本的完整单行暂时留在屏幕上,并且然后消失。在涂画模式下,行长度可以增加。同样地,当确定图形显示窗口几何形状时,控制器可以说明(account for)最长可能行长度。例如,在涂画模式下,图形显示窗口可以被设置为1行深和32列宽。
弹出模式1117通常比模式1113和1115更少地分散电视观众的注意;然而,在渲染该行的任何部分之前,完整行必须在观众视线以外被预先聚集。在弹出模式下,行深度和长度被已知,并且图形显示窗口可以准确地为已知弹出图形的行深度和列宽度。同样地,图形的放置可以非常准确。
在步骤1120处,处理闭路字幕数据。在可选步骤1130处,例如使用如先前论述的边缘检测方法来找到来自多个预定区域中的单个区域,以找到具有最少边缘(或最少信息)的预定区域。使用来自步骤1120的闭路字幕数据和来自步骤1110的字幕模式,可以设置图形显示窗口几何形状。在步骤1140处,选择具有最少量边缘和/或信息的窗口位置选项(如果步骤1130发生,则在多个预定区域中的所找到一个内)。在一个实施例中,使用方法800来确定具有最少量边缘和/或信息的“自由式”窗口位置选项,而不使用步骤1130。换句话说,方法800可以被用于选择多个窗口位置选项之一,其中,多个窗口位置选项占用整个图像。在每步骤1140选择所选区域内的特定图形窗口位置之前,方法800还被用于通过使用步骤1130,选择多个固定或预先选择区域之一(例如,象限910、915、920、925之一或象限1010、1015、1020、1025之一)。
渲染器(renderer)能够自由地更改字体大小,并且还将行分隔符定位在图形显示窗口中的任何位置。通常,当在两个字母之间检测到空间时,可以插入行分隔符。
对于渲染类型1113、1115、1117中的每个,可以不同地固定用于重定位图形显示窗口的判定作出点。对于滚动模式1113,例如,当已经在给定时间显示文本的四行并且第五行必须出现使,可以作出(使用图8)关于用于图形显示窗口的最佳位置的确定。在使用图形显示窗口(即,步骤1130和1140)的两级定位的新闻节目的情况下,用于图形显示窗口的象限可以非常稳定,这是因为给定象限中的边缘量通常在广播期间可以不改变。对于弹出1115和涂画1117模式,每次新一行数据必须被“弹出”或“涂画”时(即,在每一行完成之后),作出关于哪个象限具有最少边缘量的确定。
包括但不限于结合图6至图11呈现的那些的上述处理在一般多目的或单目的处理器中实现。这样的处理器将在组件、编译或机器级执行指令,以执行该处理。按照以上呈现并且在例如非暂时性计算机可读介质的计算机可读介质上存储或传送的描述,那些指令可以由本领域普通技术人员编写。可以使用源代码或任何其他已知计算机辅助设计工具来创建指令。计算机可读介质可以是承载那些指令的任何介质,并且包括CD-ROM、DVD、磁性或其他光盘、磁带、硅存储器(例如,可拆卸、不可拆卸、易失性或非易失性)、分组或非分组有线或无线传输信号。
图12图示了示例设备1200的框图。特别是,设备1200可以被用于动态地选择图形,例如,闭路字幕、用于图像的显示窗口。设备1200可以在内容提供商105、显示器140、或最终用户设备115、125中实现。
设备1200包括处理器(CPU)1210、例如随机存取存储器(RAM)和/或只读存储器(ROM)的存储器1220、例如闭路字幕的图形、窗口位置选项选择模块1240、图形模式选择模块1250、以及多种输入/输出设备1230(例如,存储设备,包括但不限于带驱动器、软盘驱动器、硬盘驱动器或光盘驱动器、接收器、传送器、以及在多媒体中通常要求的其他设备,例如,内容传递、编码器、解码器、系统组件、通用串行总线(USB)大容量存储器、网络附加存储器、网络云上的存储设备)。
应该理解,窗口位置选项选择模块1240和图形模式选择模块1250可以被实现为通过通信信道耦合至CPU1210的一个或多个物理设备。可替换地,窗口位置选项选择模块1240和图形模式选择模块1250可以由一个或多个软件应用表示(或者甚至软件和硬件的组合,例如,使用专用集成电路(ASIC)),其中,软件从存储介质(例如,磁或光驱动器或盘)下载并且在计算机的存储器1220中由CPU操作。同样地,本公开的窗口位置选项选择模块1240(包括关联数据结构)和图形模式选择模块1250(包括关联数据结构)可以被存储在计算机可读介质上,例如,RAM存储器、磁或光驱动器或盘等。
虽然以上提供了本公开的多个实施例,但是在不脱离其基本范围的情况下,可以想到其他和进一步实施例,并且其范围可以由权利要求确定。
Claims (19)
1.一种用于将图形显示窗口布置动态地放置在图像内的方法,包括:
对所述图像执行二维空间梯度测量;
计算用于所述图像的卷积后像素值;
使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性,所述多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状;
基于所述多个图像特性,将所述图形显示放置在所述多个窗口位置选项之一中。
2.根据权利要求1所述的方法,其中,通过使用关于所述图像的掩模,计算所述卷积后像素值。
3.根据权利要求1所述的方法,其中,图像特性是边缘数目,并且所述放置包括:
将所述图形显示放置在具有最低边缘数目的所述窗口位置选项中。
4.根据权利要求3所述的方法,其中,当边缘像素具有超过阈值的卷积后像素值时,通过计数计算所述图像中的所述边缘数目。
5.根据权利要求3所述的方法,其中,所述图形显示是闭路字幕数据,并且所述放置包括:
将闭路字幕数据放置在具有最少边缘数目的所述窗口位置选项中。
6.根据权利要求1所述的方法,其中,所述图像特性是所述图像中的信息量,并且所述放置包括:
将所述图形显示放置在具有所述最低信息量的所述窗口位置选项中。
7.根据权利要求1所述的方法,其中,所放置的图形显示在弹出模式下被呈现。
8.根据权利要求1所述的方法,其中,所放置的图形显示在滚动模式下被呈现,并且所述几何形状比所述图形显示更深。
9.根据权利要求1所述的方法,其中,所放置的图形显示在涂画模式下被呈现,并且所述几何形状比所述图形显示更长。
10.根据权利要求1所述的方法,其中,所述图像是视频帧的序列中的一个视频帧,并且其中,用于所述多个窗口位置选项的多个累积图像特性被确定用于所述视频帧的序列。
11.根据权利要求10所述的方法,其中,所述放置通过接收用户输入被禁用。
12.根据权利要求10所述的方法,其中,所述放置基于所述多个视频帧的序列中的运动量和信息改变量中的至少一个被禁用。
13.根据权利要求10所述的方法,其中,所放置的图形显示在滚动模式下被呈现。
14.根据权利要求10所述的方法,其中,所放置的图形显示在涂画模式下被呈现。
15.根据权利要求10所述的方法,其中,基于所述多个累积图像特性,窗口位置选项不予考虑。
16.根据权利要求1所述的方法,进一步包括:在所述计算之后,
基于所计算的卷积后像素值,从多个预定区域中找到一区域,以及
其中,所述多个窗口位置选项仅在所述区域内。
17.一种用于将闭路字幕显示窗口动态地放置在图像内的装置,包括:
存储器;以及
处理器,所述处理器被配置成执行以下:
对所述图像执行二维空间梯度测量;
计算用于所述图像的卷积后像素值;
使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性,所述多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状;
基于所述多个图像特性,将所述图形显示放置在所述多个窗口位置选项之一中。
18.根据权利要求17所述的装置,其中,所述处理器还被配置成执行以下:
基于所计算的卷积后像素值,从多个预定区域中找到一区域,以及
其中,所述多个窗口位置选项仅在所述区域内。
19.一种非暂时性计算机可读存储介质,包括当由处理器执行时,执行用于将图形显示窗口动态地定位在图像内的以下方法的指令,所述方法包括:
对所述图像执行二维空间梯度测量;
计算用于所述图像的卷积后像素值;
使用所计算的卷积后像素值,确定用于多个窗口位置选项的多个图像特性,所述多个窗口位置选项具有能够容纳图形显示的几何形状的几何形状;
基于所述多个图像特性,将所述图形显示放置在所述多个窗口位置选项之一中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/302,173 | 2011-11-22 | ||
US13/302,173 US20130127908A1 (en) | 2011-11-22 | 2011-11-22 | Method and apparatus for dynamic placement of a graphics display window within an image |
PCT/US2012/065401 WO2013078072A1 (en) | 2011-11-22 | 2012-11-16 | Method and apparatus for dynamic placement of a graphics display window within an image |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103946894A true CN103946894A (zh) | 2014-07-23 |
Family
ID=47291252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280057484.2A Pending CN103946894A (zh) | 2011-11-22 | 2012-11-16 | 图形显示窗口在图像内的动态放置的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20130127908A1 (zh) |
EP (1) | EP2783348A1 (zh) |
KR (1) | KR20140075802A (zh) |
CN (1) | CN103946894A (zh) |
WO (1) | WO2013078072A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9232188B2 (en) | 2014-06-04 | 2016-01-05 | Apple Inc. | Dynamic transition from video messaging to video communication |
WO2015187458A1 (en) * | 2014-06-04 | 2015-12-10 | Apple Inc. | Dynamic display of video communication data |
US9544540B2 (en) * | 2014-06-04 | 2017-01-10 | Apple Inc. | Dynamic display of video communication data |
US9516269B2 (en) | 2014-06-04 | 2016-12-06 | Apple Inc. | Instant video communication connections |
US9232187B2 (en) | 2014-06-04 | 2016-01-05 | Apple Inc. | Dynamic detection of pause and resume for video communications |
US10528214B2 (en) | 2016-12-28 | 2020-01-07 | Microsoft Technology Licensing, Llc | Positioning mechanism for bubble as a custom tooltip |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1418427A (zh) * | 2000-03-16 | 2003-05-14 | 柳泰旭 | 字幕数据和音频数据的记录与重放方法及设备 |
US6711291B1 (en) * | 1999-09-17 | 2004-03-23 | Eastman Kodak Company | Method for automatic text placement in digital images |
US20110064301A1 (en) * | 2009-09-16 | 2011-03-17 | Microsoft Corporation | Textual attribute-based image categorization and search |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366699B1 (en) * | 1997-12-04 | 2002-04-02 | Nippon Telegraph And Telephone Corporation | Scheme for extractions and recognitions of telop characters from video data |
US6906743B1 (en) * | 1999-01-13 | 2005-06-14 | Tektronix, Inc. | Detecting content based defects in a video stream |
US20020044152A1 (en) * | 2000-10-16 | 2002-04-18 | Abbott Kenneth H. | Dynamic integration of computer generated and real world images |
DE60141570D1 (de) * | 2001-06-29 | 2010-04-29 | Nokia Corp | Bildeditierverfahren |
US7609847B2 (en) * | 2004-11-23 | 2009-10-27 | Hewlett-Packard Development Company, L.P. | Methods and systems for determining object layouts |
US7352912B2 (en) * | 2004-12-10 | 2008-04-01 | Xerox Corporation | Method for automatically determining a region of interest for text and data overlay |
CA2651464C (en) * | 2008-04-30 | 2017-10-24 | Crim (Centre De Recherche Informatique De Montreal) | Method and apparatus for caption production |
BR112013021047B1 (pt) * | 2011-02-16 | 2021-03-30 | Genscape Intangible Holding, Inc | Método e sistema para coletar e analisar informação operacional a partir de uma rede de componentes associados com uma commodities de energia líquida e método para monitorar o transporte de óleo cru em uma rede |
US9749504B2 (en) * | 2011-09-27 | 2017-08-29 | Cisco Technology, Inc. | Optimizing timed text generation for live closed captions and subtitles |
-
2011
- 2011-11-22 US US13/302,173 patent/US20130127908A1/en not_active Abandoned
-
2012
- 2012-11-16 WO PCT/US2012/065401 patent/WO2013078072A1/en active Application Filing
- 2012-11-16 EP EP12795688.6A patent/EP2783348A1/en not_active Withdrawn
- 2012-11-16 KR KR1020147013517A patent/KR20140075802A/ko not_active Application Discontinuation
- 2012-11-16 CN CN201280057484.2A patent/CN103946894A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711291B1 (en) * | 1999-09-17 | 2004-03-23 | Eastman Kodak Company | Method for automatic text placement in digital images |
CN1418427A (zh) * | 2000-03-16 | 2003-05-14 | 柳泰旭 | 字幕数据和音频数据的记录与重放方法及设备 |
US20110064301A1 (en) * | 2009-09-16 | 2011-03-17 | Microsoft Corporation | Textual attribute-based image categorization and search |
Non-Patent Citations (1)
Title |
---|
O.R.VINCENT ET AL.: ""A Descriptive Algorithm for Sobel Image Edge Detection"", 《PROCEEDINGS OF INFORMING SCIENCE&IT EDUCATION CONFERENCE (INSITE) 2009》 * |
Also Published As
Publication number | Publication date |
---|---|
KR20140075802A (ko) | 2014-06-19 |
WO2013078072A1 (en) | 2013-05-30 |
EP2783348A1 (en) | 2014-10-01 |
US20130127908A1 (en) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10368123B2 (en) | Information pushing method, terminal and server | |
CN103946894A (zh) | 图形显示窗口在图像内的动态放置的方法和装置 | |
US9538049B2 (en) | Scheme for determining the locations and timing of advertisements and other insertions in media | |
EP2380358B1 (en) | Creation of depth maps from images | |
US8295683B2 (en) | Temporal occlusion costing applied to video editing | |
KR101318459B1 (ko) | 수신기 상에서 오디오비주얼 문서를 시청하는 방법 및이러한 문서를 시청하기 위한 수신기 | |
EP3745712B1 (en) | Scheme for determining the locations and timing of advertisements and other insertions in media | |
US20070291134A1 (en) | Image editing method and apparatus | |
EP2932462B1 (en) | Content aware video resizing | |
EP3238213B1 (en) | Method and apparatus for generating an extrapolated image based on object detection | |
CN104469178B (zh) | 一种图像显示方法及电子设备 | |
CN104735521B (zh) | 一种滚动字幕检测方法及装置 | |
CN112995678B (zh) | 一种视频运动补偿方法、装置及计算机设备 | |
Pidaparthy et al. | Keep your eye on the puck: Automatic hockey videography | |
CN107645628B (zh) | 一种信息处理方法及装置 | |
CN112954443A (zh) | 全景视频的播放方法、装置、计算机设备和存储介质 | |
US9892757B2 (en) | Apparatus and method for calculating and virtually displaying football statistics | |
CN110324641B (zh) | 全景视频中保持兴趣目标时刻显示的方法及装置 | |
Chamaret et al. | Attention-based video reframing: Validation using eye-tracking | |
CN113365145B (zh) | 视频处理、视频播放方法、装置、计算机设备及存储介质 | |
US20120169937A1 (en) | Image processing apparatus and image processing method | |
Lee | Novel video stabilization for real-time optical character recognition applications | |
US10237614B2 (en) | Content viewing verification system | |
JP2009245406A (ja) | 画像処理装置およびそのプログラム | |
Martín et al. | Automatic players detection and tracking in multi-camera tennis videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140723 |