CN1324526C

CN1324526C - 视频信号的自适应缩放

Info

Publication number: CN1324526C
Application number: CNB038127458A
Authority: CN
Inventors: R·蒂费德里科; M·拉芬; P·卡赖; G·拉姆波尼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-06-03
Filing date: 2003-05-21
Publication date: 2007-07-04
Anticipated expiration: 2023-05-21
Also published as: WO2003102903A2; JP2005528643A; AU2003228063A8; AU2003228063A1; US20050226538A1; WO2003102903A3; CN1659591A; EP1514236A2; KR20050010846A

Abstract

将一个具有输入分辨率的输入视频信号(IV)变换为一个具有输出分辨率的输出视频信号(OV)的方法包括：将输入视频信号(IV)中的是文本的输入像素标为输入文本像素从而得到一个指明哪个输入像素是输入文本像素的输入像素映像(IPM)(10)；以及对输入视频信号(IV)进行取决于输入像素是否被标为输入文本像素的缩放从而提供输出视频信号(OV)的步骤(11)。

Description

视频信号的自适应缩放

技术领域

本发明涉及将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的方法。本发明还涉及将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的变换器、具有这样的变换器的显示设备和具有这样的变换器的视频信号产生器。

背景技术

如CRT那样的传统模拟显示器可无缝连接到具有若干空间分辨率和刷新率的许多不同的视频/图形源。通过适当控制电子束，可以对屏幕上任何任意位置进行寻址，因此可以通过用模拟方式准确控制像素间距离来缩放(scale)输入的图像。

在处理诸如液晶显示器(LCD)、等离子显示板(PDP)和聚合体LED(PolyLed)之类的具有固定分辨率的矩阵显示器时，需要用一个变换器对输入的图像进行数字缩放，以便使它的分辨率适配于固定的显示分辨率。这种数字缩放操作通常借助被嵌入在显示设备(也称为监视器)内的使用线性内插方案的数字内插器执行。

然而，传统的线性内插方案会在所显示的图像中引入质量降低，特别可见的是模糊或者台阶效应/几何失真。图形内容，特别是文本，对由线性内插技术所引起的伪像十分敏感。

发明内容

本发明的一个目的是改善经缩放的文本的可读性和外观。

本发明的第一方面提供了一种将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的方法，所述方法包括下列步骤：将输入视频信号中的是文本的输入像素标记为输入文本像素，从而得到一个指明哪个输入像素是输入文本像素的输入像素映像，以及对输入视频信号进行缩放，从而提供输出视频信号，该缩放取决于输入像素是否被标为输入文本像素。将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上，该映射基于：(1)一个由输出分辨率除以输入分辨率定义的缩放因子，(2)输入文本像素在输入像素映像内的位置，以及(3)一个由输入文本像素及其周围输入文本像素形成的几何图案，以及其中对所述输入视频信号的内插由输出像素映像控制，所述映射包括：在输入视频信号的一个视频行内检测是输入像素映像内的一个连续输入文本像素行的一个开始输入像素的开始输入位置的位置，或各自的输入像素映像内的一个连续输入文本像素行的一个结束输入像素的结束输入位置的位置，确定在输入视频信号的上一个视频行内一个输入文本像素是否与所述开始输入像素或各自的结束输入像素斜线连接，以及如果是的话，调整所述开始输入位置或各自的结束输入位置的位置，使得输出像素连接到相应的上一个输出线的末端。本发明的第二方面提供了一种将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的变换器，所述变换器包括：一个将输入视频信号中的是文本的输入像素标为输入文本像素从而得到一个指明哪个输入像素是输入文本像素的输入像素映像的装置，一个对输入视频信号进行缩放，从而提供输出视频信号的装置，其缩放量取决于输入像素是否被标为输入文本像素，一个用于将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上的装置，该映射基于：(1)一个由输出分辨率除以输入分辨率定义的缩放因子，(2)输入文本像素在输入像素映像内的位置，以及(3)一个由输入文本像素及其周围输入文本像素形成的几何图案，以及一个用于对由输出像素映像控制的所述输入视频信号进行内插的装置，所述用于映射的装置配置成：在输入视频信号的一个视频行内检测是输入像素映像内的一个连续输入文本像素行的一个开始输入像素的开始输入位置的位置，或输入像素映像内的一个连续输入文本像素行的一个各自的结束输入像素的结束输入位置的位置，确定在输入视频信号的上一个视频行内一个输入文本像素是否与所述开始输入像素或各自的结束输入像素斜线连接，以及如果是的话，调整所述开始输入位置或各自的结束输入位置的位置，使得输出像素连接到相应的上一个输出线的末端。本发明的第三方面提供了一种包括一个用于将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的变换器的显示设备，所述变换器包括：一个将输入视频信号中的是文本的输入像素标为输入文本像素从而得到一个指明哪个输入像素是输入文本像素的输入像素映像的装置，一个对输入视频信号进行缩放，从而提供输出视频信号的装置，其缩放量取决于输入像素是否被标为输入文本像素，一种将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上的装置，该映射基于：(1)一个由输出分辨率除以输入分辨率定义的缩放因子，(2)输入文本像素在输入像素映像内的位置，以及(3)一个由输入文本像素及其周围输入文本像素形成的几何图案，以及一个用于对由输出像素映像控制的所述输入视频信号进行内插的装置，和一个用于显示输出视频信号的矩阵显示设备，所述用于映射的装置配置成：在输入视频信号的一个视频行内检测是输入像素映像内的一个连续输入文本像素行的一个开始输入像素的开始输入位置的位置，或输入像素映像内的一个连续输入文本像素行的一个各自的结束输入像素的结束输入位置的位置，确定在输入视频信号的上一个视频行内一个输入文本像素是否与所述开始输入像素或各自的结束输入像素斜线连接，以及如果是的话，调整开始输入位置或各自的结束输入位置的位置，使得输出像素连接到相应的上一个输出线的末端。本发明的第四方面提供了一种包括一个中央处理单元和一个用于提供需显示的输出视频信号的视频适配器的视频信号产生器，所述视频适配器包括一个用于将一个具有输入分辨率的输入视频信号变换为具有输出分辨率的输出视频信号的变换器，所述变换器包括：一个将输入视频信号中的是文本的输入像素标为输入文本像素从而得到一个指明哪个输入像素是输入文本像素的输入像素映像的装置，一个对输入视频信号进行缩放，从而提供输出视频信号的装置，其缩放量取决于输入像素是否被标为输入文本像素，一个用于将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上的映射装置，该映射基于：(1)一个由输出分辨率除以输入分辨率定义的缩放因子，(2)输入文本像素在输入像素映像内的位置，以及(3)一个由输入文本像素及其周围输入文本像素形成的几何图案，以及一个用于对由输出像素映像控制的所述输入视频信号进行内插的装置，所述用于映射的装置配置成：在输入视频信号的一个视频行内检测是输入像素映像内的一个连续输入文本像素行的一个开始输入像素的开始输入位置的位置，或输入像素映像内的一个连续输入文本像素行的一个各自的结束输入像素的结束输入位置的位置，确定在输入视频信号的上一个视频行内一个输入文本像素是否与所述开始输入像素或各自的结束输入像素斜线连接，以及如果是的话，调整开始输入位置或各自的结束输入位置的位置，使得输出像素连接到相应的上一个输出线的末端。在从属权利要求中规定了各有利实施例。

在具有固定显示器像素矩阵的矩阵显示器中需要采用现有技术的内插算法。这些算法使输入视频信号适配于显示器像素矩阵的图形格式，以便规定需在显示器像素矩阵上显示的所有输出显示器像素的值。

通常为此而采用的内插技术包括线性方法(例如三次卷积或方形核(box kernel))。这些现有技术的方法具有两个主要的缺点。

首先，整个图像用同一个核内插，这并不是最佳的处理。不同的内容对不同的内插伪像敏感。例如，非常陡峭的内插核可能适合于保持图形的边缘，但是可能在自然区域内引入像素化。

其次，即使在文本的特定情况下，线性核也不能取得模糊和几何失真之间的良好折衷。一方面，方形内插产生边缘完全清晰但形状不规则的字符，而另一方面，三次样条滤波器可以保持字符的一般外观但引入模糊。

按照本发明的变换器包括一个缩放器和一个产生一个指示输入像素是文本还是非文本的双态输出的文本检测器。也就是说，文本检测器将输入视频的输入像素标为文本或非文本(也称为背景)。缩放器对输入视频信号进行缩放，以得到输出视频信号，其中缩放操作对于文本和非文本的输入像素是不同的。这样就可以根据所检测到的输入视频信号的类型使缩放得到最优化。

将包括加标记的输入像素的双态输入文本映像(map)作为其中将输出像素标为文本或背景的输出文本映像映射到输出域。为了例示输出映像，在一个简单的实施例中，输出映像是一个经缩放的输入映像。输出文本映像形成经内插的文本的“骨架”。输入映像和输出映像可以都是虚拟的，也可以存储(部分地)在一个存储器内。被标为文本信息的输入映像的输入像素称为输入文本像素，被标为文本信息的输出映像的输出像素称为输出文本像素。

缩放操作由输出映像控制。

将一个具体的输出像素标为文本像素取决于如由缩放因子规定的相应输入文本像素的位置，而且基于输入文本像素的位置和形态(周围配置)。这具有不仅在缩放中考虑一个像素是否为文本而且还考虑由这个输入文本像素和它周围至少一个输入文本像素所形成的几何图案的优点。可以识别出文本的垂直和水平部分，并由缩放器以不同于对文本的斜线或弯曲部分所采取的方式加以处理。优选的是，文本的垂直的和水平部分应该保持清晰(不进行使用周围的非文本像素的信息的内插，或者只进行非常轻微的此类内插)，而文本的斜线或弯曲部分可以加以柔化以最小化台阶效应(进行较强的内插，以在这些部分周围得到灰度级)。

所述加标记取决于在输入映像内是否检测到连接的斜线文本像素。如果是，在输出映像中将相应的输出像素定位成使它们仍然互连。这样，在输出映像内字符的几何形状就可以尽可能地保持原样。

在一个实施例中，所述加标记取决于在输入映像内是否检测到连接的垂直对准的文本像素。如果是，在输出映像内将相应的输出像素定位成使它们同样垂直对准。这样，在输出映像内字符的几何形状就可以尽可能地保持原样。

在一个实施例中，对输出映像内的输出像素的加标记被计算为由连续输入文本像素行的长度乘以缩放因子。这样，输出映像内相应的连续输出文本像素行的长度就得到适当的缩放。

在一个实施例中，可以通过选择因子k的值选择将相应的连续输出文本像素行的长度取整到最适当的整数。

在一个实施例中，如果检测到斜线连接，斜线连接就优先于垂直对准。这看来在使经缩放的字符的形状保持接近于输入字符的形状这一方面产生最好的结果。

在一个实施例中，由行像素的端点与相邻像素形成的几何结构被用来确定文本输出像素在输出映像内的定位。这样，输出映像内的经缩放的字符的几何形状就与输入映像内的原始字符的几何形状最为相象。

在一个实施例中，经缩放的由相邻的被标为文本的输出像素组成的行(它是经变换的由相邻的被标为文本的输入像素组成的行)取决于这条输出像素行的开始点或结束点是否由保持斜线连接或垂直对准而固定。如果是这样的话，这样的开始或结束点在输出映像内的位置就得到固定。规定用来确定还没有固定的开始点或结束点的算法。这防止了输出文本像素的断开或未对准。

在一个实施例中，规定了用来确定一行的还没有固定的开始点和结束点的算法。

在一个实施例中，输出映像内被标为文本像素的输出像素被用相应输入文本像素的文本信息(颜色和亮度)代替。这样，文本信息就没有被内插，因此完全清晰，然而没有得到对字符的圆化(rounding)。非文本输入视频可以被内插，或者也可以根据输出映像被替代。

在一个实施例中，所述缩放根据在相邻输入视频样本之间的分数位置(或者，输出视频样本相对相邻输入视频样本的相位)内插一个输出视频样本值并且根据一个与输出视频样本相应的预定输出像素是否为文本适配所述分数位置(移动相位)。例如，内插器可以是一个已知的扭曲距离(Warped Distance)内插器(也称为WaDi)，它具有一个控制分数位置的输入。恰当控制WaDi使文本可以得到比非文本信息小的内插，从而保持了文本的清晰度。

在一个实施例中，还根据由预定输出像素周围的输出文本像素形成的图案进一步适配所述分数位置。现在，WaDi由输入和输出文本映像的局部形态控制，并能产生阶跃或渐变的过渡，以为字符的不同部分提供恰当的亮度曲线。具体地说，使主要的水平和垂直笔划保持清晰，而使倾斜和弯曲的部分得到平滑。

在一个实施例中，只对在从非文本到文本的过渡中所涉及的过渡输出像素执行适配分数部分所需的计算。这使得所需的计算能力最小化。

在一个实施例中，根据过渡输出像素是否被标为文本或非文本和根据过渡输出像素周围的输出文本像素的图案适配分数部分(确定移动量)。

在一个实施例中，所述缩放包括一个用于控制所有像素的分数部分的修改量的用户可控输入。这样，用户可以将总的抗混叠效应控制成从完全清晰的结果到传统的线性内插图像。

参照以下所描述的这些实施例可以清楚地看到本发明的这些及其他方面。

附图说明

在本说明的这些附图中：

图1示出了现有技术的内插方案的一些例子；

图2示出了相应的重建信号；

图3在左侧示出了一个原始文本图像，在右侧示出了用三次核内插的图像；

图4在左侧示出了一个原始文本图像，在右侧示出了用方形核内插的图像；

图5示出了按照本发明的一个实施例的计算机监视器的总体方案；

图6示出了缩放引擎的一个实施例；

图7示出了缩放器的一个实施例的方框图；

图8示出了按照本发明的输出文本映像构造的一个实施例的流程图；

图9A和9B示出了在经缩放的字符中的断开的或未对准的文本像素的例子；

图10示出了各种斜线连接和垂直对准图案；

图11示出了按照本发明的输出文本映像构造的一个实施例的流程图；

图12示出了说明已知的扭曲(WaDi)原理的波形；

图13示出了说明按照本发明一个实施例的WaDi控制器的操作的流程图；

图14自上到下示出了用三次内插、按照本发明的一个实施例和最近邻内插得到的经缩放的文本；以及

图15示出了具有按照本发明的缩放器的视频信号产生器的方框图。

具体实施方式

图1示出了现有技术的内插方案的一些例子。图1A示出了一个Sync函数，图1B示出了一个矩形函数，图1C示出了一个三角形函数，图1D示出了一个三次样条函数。

图2示出了相应的重建信号RS，图2A是根据Sync函数重建的，图2B是根据矩形函数重建的，而图2C是根据三角形或斜坡函数重建的。

通常采用的图像重新缩放应用是基于线性方案的数字内插技术。这些内插处理过程在概念上包括两个域变换。第一个变换是用核函数Hin(未示出)从原始的离散域变换到连续的(实)域。第二个变换Hout是通过对第一个变换Hin的输出进行采样达到的，并且提供最终的离散域内的输出样本。为了避免混叠，第二下采样Hout必须对一个经低通滤波成其带宽小于输入和输出域的两个Nyquist频率中最小一个Nyquist频率的信号进行。这个低通滤波由Hout执行。实际的实现方式使用由Hin与Hout的卷积产生的单个滤波器。

如图1B至1D所示的通常采用的滤波器核具有一个基本上有限的带宽。如果带宽是有限的，就不会出现混叠，但是会引入模糊，这在图形边缘附近特别明显。

由于图形图案通常具有一个非有限的带宽，因此不能在任何离散域内正确表示。然而，一般如诸如文本之类的一些图形图案所具的阶越形过渡可以用诸如方形(也称为矩形、最近邻或像素重复)之类的具有非有限带宽的核进行缩放。但是，方形核引入混叠，从空间上来看会变成几何失真。

图3在左侧示出了一个用三次核内插的原始文本图像。如在右边图像中可看到的那样，引入了模糊。

图4在左侧示出了一个用方形核内插的原始文本图像，如在右边图像中可看到的那样，方形核内插导致几何失真。

由图3和4可见，基本问题是无论选用哪个线性核，不是在图形图案中引入模糊就是几何失真。对于小的文本(像素最多是14个)和小的放大因子(在1到2.5之间)的情况，缩放是非常关键的。这是因为只是在输出域内的一个像素的定位误差就会导致与输出字符的大小相比有颇大的相对误差。例如，如果输出字符大小是6个像素，相应的失真可以是20％左右。然而，在计算机应用中通常存在的大多数文本是在以上范围内，而且实际上用于格式变换的所有感兴趣的缩放因子在1到2.5的范围内。

本发明是针对一种检测一个像素是否为文本和根据检测结果对内插进行适配的方法。

在一个按照本发明的实施例中，通过首先用一个修正的最近邻方案将文本像素映射到输出域再应用一个非线性内插核平滑一些字符细部，在尽可能保持文本字符的规则性的同时使清晰度最高。

已知的最近邻方案引入几何失真，因为它不分内容地实现输入与输出域像素之间的严格映射。作为一个例子，同一个图案(例如一个字符)根据它在输入网格上的位置不同地得到缩放，因为最近邻处理只是考虑了相对输入和输出网格定位，而没有考虑某个像素属于一个特定的结构或内容。这个考虑适用于所有线性核，即使是应用通过局部平滑边缘而有些“隐藏”了改变位置的影响的频带有限核。

因此，按照本发明的这种方法提供了一种与内容相关的处理，所述处理提供对文本和非文本像素的适当的操作。

文本缩放的一种通用方法可以是对所有的单个字符进行识别(例如，用OCR(光学字符识别)程序)，包括识别字体类型及大小，然后通过重新反映其矢量表示来重建经新缩放的字符(操作系统缩放字符的方式)。然而，这种方法将需要强大的计算能力。当必需在实时显示处理中执行计算时这可能是一个问题。此外，由于实际上不可能存储和识别所有可能的字体类型，所述重新反映可能会缺乏普遍性。

即使我们不可以依赖对字符的完全矢量描述，但仍能利用与文本反映有关的技术和形态约束来保持某些普遍的文本特性，从而使垂直和水平笔划清晰并使它们的粗细严格固定。倾斜和弯曲的部分可以用附加的灰度级平滑(抗混叠效应)。缩放处理过程不应该导致字符内部不对准，即网格拟合对于一个字符的所有部分都必须一致。

每当要必须将一个包含文本和具有预定分辨率的源图像适配成不同的分辨率时可以使用按照本发明的一个实施例的算法。应用的一个实际例子是用于固定矩阵显示器的集成电路控制器。这个控制器的任务是使源视频(通常是PC图形适配器的输出)的分辨率适配于显示器的分辨率。除适配图像尺寸之外，为了与显示器的诸如固有尺寸、刷新率、逐行/隔行扫描、灰度系数之类的所有物理和技术特性匹配，这种适配是必需的。

图5示出了按照本发明的一个实施例的计算机监视器的总体方案。耦合到帧存储器3上的帧率变换器2接收视频信号IVG，并将输入的视频IV提供给缩放引擎1。视频信号IVG的帧率被变换为适合在矩阵显示器4上显示的输入视频IV的帧率。缩放引擎对输入视频IV进行缩放，以得到一个输出视频OV，从而使得被提供给矩阵显示器4的输出视频OV的分辨率匹配于与输入视频IV的分辨率无关的矩阵显示器4的分辨率。视频信号IVG由计算机的图形适配器提供。如图5所示的帧率变换器2和缩放引擎1也可以提供在如图15所示的计算机PC内。

图6示出了缩放引擎的实施例。缩放引擎1包括一个文本检测器10和一个执行缩放算法的缩放器11。文本检测器10接收输入视频IV，并将指明输入视频IV内哪些输入视频样本是文本和哪些输入视频样本不是文本的信息TM提供给缩放器11。执行缩放算法的缩放器11接收输入视频IV，并提供将输入视频IV缩放后得到的输出视频OV。缩放算法由信息TM控制，以便根据输入视频样本是否为文本来适配所述缩放。

图7示出了执行缩放算法的变换器的一个实施例的方框图。这个变换器包括文本检测器10、输出文本映像构造器110、自适应扭曲器(warper)111、内插器112和全局清晰度控制113。

内插器112对包括输入视频样本的输入视频信号IV(表示输入视频图像)进行内插，以得到包括输出视频样本的输出视频信号OV(表示输出视频图像)。内插器112具有一个控制输入端，用来接收指明怎样根据周围输入视频样本值(例如，两个值)计算一个输出视频样本值的经扭曲的相位信息(warped phase information)WP。经扭曲的相位信息WP确定必须在其上计算输出视频样本的值的两个输入视频样本之间的分数位置。计算得的值取决于所用的内插算法或函数。内插算法确定两个输入样本之间的函数，该函数用来根据这两个样本之间的每个位置确定输出样本的值。两个样本之间的位置由相位信息WP确定。

文本检测器10接收输入视频信号IV，以产生其中指明哪些输入视频样本是文本的输入像素映像IPM。输出文本映像构造器110接收输入像素映像IPM，以提供输出像素映像OPM。输出像素映像OPM是其中对于输出视频样本指明是否应将其认为是文本的映像。输出像素映像OPM是根据输入像素映像IPM构造的，使得在输出视频信号OV内的经缩放的字符几何特性保持尽可能接近输入视频信号IV内的输入字符的原始几何特性。输出像素映像OPM的构造是以缩放因子为基础的，并且可以基于形态约束。

自适应扭曲器111根据输出像素映像OPM确定经扭曲的相位信息(分数位置)。用户可调的全局清晰度控制113控制整个画面上的扭曲量。

在一个优选实施例中，算法由显示IC控制器执行。由于将输入视频IV实时处理成输出视频OV，优选地限制计算量和计算复杂度以及存储器资源。具体地说，必须减少每个像素的计算。另一个涉及对计算的限制与浮点运算用硬件实现通常过于复杂有关。因此，优选的是，只使用逻辑运算，最多是整数运算。只要涉及到存储器，原则上可以设计一个自由使用整个帧缓存器(存储整个输入的图像)的算法，但是通常缩放算法是在处理链的最后执行的，并且访问一个外部帧缓存器并不方便。在这种情况下，缩放器只能访问它的内部存储器。由于存储器往往要占据大的芯片面积，因此优选的是只有在需处理的行附近的少数行被缓存在存储器内。然而，缩放算法要对整个帧存储器或有限个缓存行进行操作。

这个缩放算法是为放大设计的，即缩放因子大于1，特别是在1到2.5范围内，这包括了用于由图形适配器所提供的计算机视频的所有典型的图形格式变换因子。

这个缩放算法是内容驱动的，需要文本检测，以允许区别对待文本像素和背景像素的专门处理。该算法优选地包括两个主要步骤。首先，构造输出文本映像，其次执行自适应内插。这后一个步骤不十分重要，但可以进一步改善所显示的文本的质量。

映射步骤110将输入双态像素映像IPM(由文本检测所检测到的像素)重建到输出域。这个操作是双态的，意味着根据输入文本像素的位置和形态(周围配置)将输出像素标为文本或背景。

自适应内插器112执行抗混叠操作，这是在建立输出文本“骨架”后执行的，以便在字符附近产生一些灰度级像素。即使原始文本是清晰的(即附近没有抗混叠的灰度级)，在处理后的图像内产生一些灰度级也是适当的，因为如果正确执行的话这有助于降低锯齿度和几何失真。可以将平滑灰度级的数量调节成使字符的不同部分将得到不同的对待。

在更为详细地说明算法前，应指出的是，在执行图像转置操作后在水平和垂直方向上的步骤是相同的。概念上，整个缩放可以包括以下步骤：

·执行(水平)缩放，

·转置经水平缩放的文本映像和经水平缩放的图像，

·执行(水平)缩放，以及

·转置最终结果。

因此，下面将只对水平缩放进行说明。

图8示出了按照本发明的输出文本映像构造的实施例的流程图。

图9A和9B示出了在经缩放的字符中的断开的或未对准的文本像素的例子。左侧所示的字符为输入像素映像IPM内的输入字符。字符的左侧垂直笔划在输入像素映像IPM内的位置标为s，右侧垂直笔划的位置标为e。因此，下面的横划的开始像素开始于开始像素位置s，而结束于结束像素位置e。输入像素映像IPM内的位置对于一个被标为文本的像素标为TP，而对于一个没有被标为文本的像素标为NTP。右侧所示的字符是在输出像素映像OPM内的输出字符。字符的左侧垂直笔划在输出像素映像OPM内的位置标为S，S与输入像素映像IPM内位置s的经缩放的位置相应，右侧垂直笔划的位置标为E。因此，下面的横划的开始像素开始于开始像素位置S，而结束于结束像素位置E。输出像素映像OPM内的位置对于一个被标为文本的像素标为TOP，而对于一个被标为非文本或背景的像素标为NOP。

图10示出了上一行和下一行的各种斜线连接和垂直对准图案，可用一个高为3行的分析窗区分。在输入像素映像IPM内，在一个预定的视频行内，一个文本像素序列的开始标为s，而它的结束标为e。在上一个视频行内，一个序列的开始和结束分别示为sp和ep。虽然没有示出，在输出像素映像OPM内，在预定的视频行内，一个与由s和e确定的输入序列关联的序列的开始和结束分别标为S和E。而且，在上一个视频行内，一个与由sp和ep确定的输入序列关联的序列的开始和结束标为Sp和Ep。

在图8中，从对输入图像201的文本检测步骤202开始进行对文本像素的从输入到输出的映射。用于在本文件中包括的的实例的一种可行的检测算法在代理人文档PHIT020011EPP中描述。需指出的是，文本检测202是基于像素的和双态的，这意味着为每个像素指定一个指明它是否为文本的双态标记。

完整的文本映射算法的目的是创建一个双态输出像素映像OPM，它是对包括在输入图像201内发现的文本像素的双态输入像素映像IPM进行缩放的结果。所得到的输出像素映像OPM构成缩放后文本的“骨架”，在它附近可以产生一些其他灰度级。因此，该映射必须尽可能地保持原始文本的外观，特别是几何规则性。

通过对另一个双态映像进行缩放而得到一个双态映像的最简单的方式是应用最近邻(nearest neighbor)方案，它将每个输出像素与输入域内最近的一个像素相关联。如果z为缩放因子，I为当前输出像素索引，而i为所关联的输入像素索引，则最近邻关系为：

i＝round(I/z) (1)

在输出像素映像OPM内，一个输出像素的值是最近的输入像素的值。由于输入域没有输出域密集，因此预定个输入像素值必需与较多个输出像素相关联。所以，同一个输入文本像素的值可能用于一个或两个相继的输出像素，这取决于输入像素与相应的输出像素的出现时刻的偏移。输出像素出现时刻相对输入像素出现时刻的这种可变性导致字符形状的可变粗细和失真。

最近邻方案产生不规则形状字符的原因是它不区分文本像素和背景像素。将一个输出像素标为文本像素或背景像素(在样本图像内为白色像素或黑色像素)的判决只是根据最近的输入像素的标记进行的。由于文本检测为每个输入像素增添了是文本还是背景的信息，因此可以施加用于保持某些所预期的文本特性的专门约束。其中之一是粗细规则性。

我们为像素重复方案增加的基本约束是任何在输入域IPM内的长度为l的连续文本像素序列必须被映射为在输出域OPM内一个具有固定长度L的序列。理想的是，对于每个可能的输入序列长度l可以为相应的输出序列长度L选择一个任意值。实际上，输出序列长度L通过将积l*z近似为一个整数确定，其中z为缩放因子。整数近似可以用以下方式执行：

或者，更为一般地用参数取整运算：

其中当x的小数部分超过1-k这个值时，x就要取整为最近的较大整数。通常的floor、ceil和round运算是作为k分别为0、0.5和1时的特定情况得出的。给定了缩放因子z，k的选择影响输入与输出的粗细之间的关系。实际上，k越大，经缩放的文本就越粗，因为round_k运算趋向ceil运算。于是，输入序列与输出序列的长度之间的关系为：

L＝round_k(l·z) (3)

在(图8)这个流程图中，在步骤203，提取输入视频IV的第n行。在一行内，对所有文本序列(由邻接的文本像素组成的序列)进行评估。在下面假设整个输入行是可见的，因此所有文本序列可以同时评估。扩展到有限分析窗的情况将结合图11所示的流程图说明。

在步骤204，检测下一个文本序列。在步骤205，分别检测文本序列的开始和结束位置s和e，从而计算出文本序列的长度l＝e-s+1。然后，在步骤206，用式(3)确定所希望的输出序列的长度L。

如果只是施加这个保持粗细的约束，就可能导致在经缩放的字符内出现断开和未对准。例如，考虑用k＝0.6和缩放因子z＝1.28的式(3)执行输入/输出长度映射的情况。在这种情况下，输入序列与输出序列的长度之间的关系为：

l	l·z	L＝round_k(l·z)
l	l·z	L＝round_k(l·z)	1	1.28	1
2	2.56	3	1	1.28	1
2	2.56	3	3	3.84	4
4	5.12	5	3	3.84	4
4	5.12	5	5	6.4	7
6	7.68	8	5	6.4	7
6	7.68	8	7	8.96	9

由于一个长为3个像素的序列l被映射为一个长为4个像素的序列L，因此给定如图9A中所示的两个垂直笔划的位置，就不可能在不断开其右(或左)端的情况下放置这个输出序列。相反，如果右边垂直笔划的位置如图9B所示，右上连接会保留但这个长为7个像素的右端会失去垂直对准，因此产生一个与字符的右侧邻接的寄生像素。

为了保持连接和对准，必须允许在输出序列的位置和/或长度上有某种灵活性。在这方面，必须将用式(3)计算的值考虑为一个所希望的输出序列长度L，这个长度可以根据周围文本像素的配置而被稍微加以适配。

用于分析这配置的分析窗的大小取决于可用的硬件资源。下面假设所述窗跨越从当前行的上一行到当前行的下一行的三行和每个行内的所有像素。这允许将每个输入序列“看”作一个从开始s到结束e的整体。

保持输出映像内文本像素的连接和对准的思想是根据在相应输入序列上找到的对准信息而将每个输出序列的开始S和结束E的位置调节一个为了将它们置于适当位置所需的位移量，使得输出像素与前一输出行内的相应端连接/对准。

在这方面，采用一个高为3行的分析窗，就可以区分如图10所示的各种与上一行和与下一行的斜线连接和垂直对准图案。

与上一行的对准和连接(图10A、C、E和G)被用来确定当前输出序列的端部对准。例如，如果检测到图10A所示的情况，我们就知道必须满足当前输出序列上的开始点的向上垂直对准。因此，在输出域OPM的上一行内搜索与输入域IPM内的sp相应的点Sp(通过对上一行的计算确定Sp的位置)。随后将当前输出开始点S置于与Sp相同的位置。如果在序列的结束点检测到垂直对准，就应用类似的程序。在图10E和G所示的斜线对准的情况下，当前端的位置完全由最近邻方案确定。如稍后可看到的那样，这个选择保证了始终保持斜线连接。

为了确定E的位置，必须知道：

·输入域内e的位置，

·是否存在垂直对准连接，

·在存在垂直对准连接的情况下，Ep的位置。

在该列表中的最后一项表明，必需对Ep的位置进行跟踪，以便计算E的位置。为此，引入一个称为当前对准寄存器(CAR)的双态寄存器。CAR与输出行一样长，为每个像素位置存储一个双态值，如果必须满足垂直对准就为1，否则为0。注意，斜线连接没有被包括在这个寄存器CAR内。

如果在一个输入序列内发现它的开始s是垂直对准的，相应的输出位置S将与上一行内的垂直输出位置Sp相同。这个位置是可从CAR得到的，CAR正是在位置Sp上含有一个1。

首先计算含有与s相应的位置的输出间隔Is：

然后，在间隔Is内对寄存器CAR进行扫描，直到发现一个1，这因此就是Sp。同样的程序适用于在一个序列的结束Ie处的垂直对准。

CAR对于一个行是有效的。在处理转到下一行时，CAR必须更新，以便考虑涉及这新的行的对准。实际上，行i的向上对准(存储在CAR内)正好是行i-1的向下对准。因此，可以通过考察当前行的向下对准(即图10B和10C所示的配置)来设置下一行的对准标志。实际上，适当的是定义另一个具有与CAR相同的大小、用来存储下一行的对准位置的寄存器，即下一行对准寄存器(NAR)。每次将一个输入序列映射到输出域时，就对它的结束进行分析，以便确定是否出现一个向下对准。如果是这个情况，就将NAR内相应位置设置为1。在这行处理结束时寄存器NAR含有要用于下一行的寄存器CAR的值，

总之，对于每个输入文本序列将执行以下操作：

·相对上一行内的文本像素分析输入文本序列的端点s和e(检测到图10A或C所示的配置？)，

·决定输出域内序列位置(S和E)，可能在寄存器CAR内查找对准，

·相对下一行内的文本像素分析输入序列端点(检测到图10B或F所示的配置？)，

·如果识别出图10B或F所示的配置，在NA00在输出像素映像OPM内的开始位置S(或结束位置E)处置1，以及

·在这行的结束时，将寄存器NAR拷贝到寄存器CAR上后再复位。

保持斜线连接的原则是每当检测到向上或向下的斜线连接(图10E、F、G和H所示情况)时无论是否存在垂直对准都通过应用最近邻方案来简单地映射序列端点(s或e)。更为详细地说，如果一个序列的开始点s属斜线连接图案，所关联的输出端点S为

而如果必需映射结束点e，则所述关系为

注意，与只考虑当前行的向上对准的垂直对准处理不同，在检测到向上或向下连接时都施加斜线连接约束。此外，一个序列端点每当它是斜线连接的一部分时都受到最近邻映射，无论是否存在垂直对准。也就是说，保持斜线连接约束具有比保持垂直对准约束高的优先权。实践中，如果同时验证一个向上对准和一个向下斜线连接，就应用最近邻映射方案。实验表明，给斜线连接优选权能更好地保持字符的总体形状。

在图8中，在步骤207至212对一个开始点实现以上说明的算法，而在步骤213至218对一个结束点以同样方式实现以上说明的算法。在步骤207，检测是否存在一个斜线连接，如果是，就在步骤209用式(6)计算输出映像内的开始点S，再在步骤211将标志S_set置位以指明开始点固定在适当位置。如果没有检测到斜线连接，就在步骤208检测是否存在一个垂直对准。如果是，就如在步骤210所规定的那样在寄存器CAR内找出输出像素映像OPM内的开始点S的位置，再在步骤211将标志S_set置位。如果没有发现垂直对准就在步骤212将标志S_set复位，以指明开始点S没有被一个斜线或垂直约束固定。

步骤214对一个结束点(是一个由邻接的标为文本的像素组成的序列的右侧端点)的斜线连接进行检验。如果是，就在步骤216用式(7)计算出输出像素映像OPM内的结束点E再将指明这个结束点E被固定的标志E_set置位。如果不是，就在步骤213检验是否存在一个垂直对准，如果是，就在步骤215根据寄存器CAR设置结束点E再在步骤218将标志E_sct置位，如果不是，就在步骤217将标志E_set复位，以指明结束点E没有被斜线和垂直对准保持固定。

一旦执行了以上对准/连接步骤，就有以下三种可能情况。

(1)两个端点都已被约束固定。在这种情况下输出序列的位置完全确定，因此算法进至步骤225。

(2)只有开始点S或结束点E已被约束固定。由于两个端点之一是自由可调的，因此可以施加输出长度是用式(3)计算的所希望的长度Ld这个条件。

因此，如果在步骤221检测到开始点S已经被对准约束固定而结束点E还没有固定，就在步骤224用以下关系确定结束点E

E＝S+L_d-1 (8)

类似地，如果在步骤220检测到结束点E已经被固定而开始点S还没有固定，就在步骤223用以下关系计算出开始点S

S＝E-L_d+1 (9)

(3)如果在步骤219检测到端点S和E都是自由可调的，则除输出长度L的条件之外，可以决定序列的位置。优选的是，通过将输出序列的中点与准确的(不受网格约束)经映像的中点对准来确定这条线的中心。两个端点的准确映射为

s→S_id＝s·z e→E_id＝e·z (10)

从而有关中点为

M_{id} = \frac{S_{id} + E_{id}}{2} - - - (11)

在步骤222，将最好地确定输出序列的中心、同时将长度保持等于L_d的端点S和E的值计算为：

\begin{matrix} S = &lang; M_{id} &rang; - \frac{L_{d} - 1}{2} \\ E = &lang; M_{id} &rang; + \frac{L_{d} - 1}{2} \end{matrix}\}

如果L_d为奇数(12)

如果L_d为偶数(12)

在图8中，步骤219至224执行以上算法部分。在步骤219确定开始点S和结束点E是否都没有被约束固定在适当位置，如果是，就在步骤222用式(12)确定行的中心。在步骤220测试是否开始点S没有被固定而结束点E被固定。如果是，用式(9)计算开始点S。在步骤221测试是否开始点S被固定而结束点E没有被固定。如果是，在步骤224用式(8)计算结束点E。

然后，在步骤225将寄存器NAR更新，再在步骤227检验是否到达这行的结束处。如果不是，算法进至步骤204。如果是，就在步骤228将寄存器NAR拷贝入寄存器CAR，在步骤229将行序号加1后，算法进至步骤203。步骤226是自适应内插步骤，将在稍后说明。

总之，流程图8描述了一个输出文本映像OPM构造的实施例。对于每个输入序列，首先确定开始点s和结束点e的位置。然后，计算出所希望的输出长度L_d。此时，分别分析序列的两个端点，查找斜线连接或垂直对准(序列对准分析)。注意，如果检测到一个斜线连接，就跳过垂直对准处理。为两个端点各定义一个布尔变量(S_set和E_set)。如果有关端点已经被约束固定就将这个变量置位，在相反情况下将这个变量复位。根据这信息对输出序列定位(输出序列定位)。可能的情况为：

S_set＝0和E_set＝0在这种情况下，开始点和结束点都没有固定。输出序列用式(12)定位。

S_set＝0和E_set＝1输出序列的开始点由(9)确定。

S_set＝1和E_set＝0输出序列的结束点由(8)确定。

S_set＝1和E_set＝1输出序列已经被固定。

一旦计算出S和E的位置，对输入配置进行进一步检查。如果e(或s)呈现为向下垂直对准，就在NAR内将位置E(或S)置位为1。在此阶段，实际图像内插所需的所有要素都已就绪，可以执行自适应内插(抗混叠)步骤226。

在以上所描述的算法中，需映射的整个序列是同时可见的，这意味着可以映射一个视频行内任意长的序列，但是必需存储整个加有标记的输入像素行。

如果引入位置/配置寄存器，这就不是必需的。例如，可以分析输入视频IV的每个输入像素周围的一个3×3窗，得出它是否为一个0→1或1→0过渡的部分。在第一种情况(一个序列的开始)下，可以将当前位置s与有关垂直对准和斜线连接(图10A至F所示的配置)的信息一起存入一个内部位置寄存器。当在位置e检测到随后的1→0过渡时，所有信息(端点的对准/连接和输入序列的长度)都可用来按以上各段落中所说明的程序将整个输入序列映射到输出域，从而保持长度和对准/连接约束。当然，这种解决方案隐含地假设了整个输出行是可访问的，因为输入序列的长度(因此相应输出的长度)仅仅由行长度限制。

原则上，采用这最后和优选的方法，整体性能与所描述的没有资源限制的情况相同。用于映射步骤的这种优选算法示于图11的流程图，它是由图8的流程图通过将序列开始处理和序列结束处理串接起来得到的。

图11示出了按照本发明的输出文本映像构造的实施例的流程图。

在步骤302，检测在步骤301得到的输入视频IV内哪些输入像素是输入文本像素ITP。在步骤303，接收输入视频IV的行n的输入像素0。在步骤335，计数器将索引i加1，在步骤304，在算法中选择带索引i(输入像素映像IPM的该行内的位置)的输入像素。

在步骤305，检验行n的输入像素是否为一个文本序列的开始。如果不是，在步骤335增加索引i，然后评估下一个像素。如果是，就在步骤306存储这个开始位置和它的近邻配置。步骤307至312与图8的步骤207至212相同，确定是否需为这个开始像素保持斜线或垂直对准。在步骤307检查斜线连接，在步骤308检查垂直对准。在步骤309用最近邻确定开始点S，在步骤31O用寄存器CAR内的信息确定结束点S。如果开始点S没有被固定，就在步骤312将标志S_set复位为零。如果开始点S被固定，就在步骤311将标志S_set置位为1。

在标志S_set的值确定后，在步骤313将i加1，在步骤314检验下一个像素是否为一个结束像素。如果不是，就在步骤315将i加1，再由步骤314评估下一个像素。如果在步骤314检测到一个序列结束，就执行与图8的步骤213至218相同的步骤316至321，确定是否需为这个结束像素保持斜线或垂直对准。步骤316检查垂直对准，步骤检查斜线连接，在步骤318用寄存器CAR内的信息设定结束点E，在步骤319用最近邻设定结束点E。步骤32O将E_set标志复位，然后步骤321将E_set标志置位。

在步骤322，确定输入序列长度l，再在步骤323，计算输出序列长度L_d。

步骤324至334与图8的步骤219至229相同。在步骤324检验是否S_set＝0而且E_set＝0，如果是，就在步骤325确定输出序列的中心。在步骤326检验是否S_set＝0而且E_set＝1，如果是，就在步骤327用式(9)确定开始点S。在步骤328检验是否S_se＝1而且E_set＝0，如果是，就在步骤329用式(8)确定结束点E。

在步骤330对寄存器NAR更新后由步骤331执行自适应内插。如果在步骤332检测到不是行的结束，就在步骤304将i加1，以取出下一个输入样本。如果在步骤332检测到行的结束，就在步骤333将寄存器NAR拷贝入寄存器CAR，再在步骤334将索引n加1，从而在步骤303提取下一个视频行。

所需的存储器资源现在是：一个加到输入图像上的3×3滑窗，以及CAR、NAP和当前输出文本映像行三个如输出行那样长的双态缓存器。

在检测映射程序的一个实施例中，存储样本的输出区小于整个行。假设CMAX为最大输出序列长度，相应的最大输入序列长度c_MAX为

每当输出序列长度C大于CMAX(输出序列长度C＞CMAX)时，就不可能同时映射两个输出端点，因为它们离得太远。即使不能保持输出长度，但仍然可以维持连接。对于每个输入像素来说仍然可能看到环绕它的跨越CMAX+2个列和三个行的区域(分析窗)。与起初的假设相比，将可见性从整个输入行限制为CMAX+2个列。如果一个输入像素在分析窗的第二列的中间一行处，就能检测到是文本序列开始的0→1过渡。类似地，当出现一个从1→0的过渡时序列结束将是倒数第二个位置(列CMAX+1)。

至今所描述的算法映射一个完全可见的序列，这是仅当序列长度等于或小于CMAX的情况。如果只有序列的一部分是可见的，对于每个输入的像素可以执行以下算法：

·如果分析窗没有包含文本像素，就不采取动作。

·如果当前像素是一个序列的开始，而这个序列的结束在分析窗内，那末整个序列就在分析窗内。于是，映射与在以上描述的算法中所说明的相同。

·如果只有序列的开始是可见的，按关于对准/连接的规则将开始点s映射到输出网格，而结束点e用式(6)映射。

·如果在分析窗的中间行内只包括文本像素，开始点s和结束点e分别用最近邻式(6)和(7)映射。

·如果只有序列的结束是可见的，开始点s用式(6)映射，而结束点e用对准/连接约束映射。

注意，随着每个输入像素的到达，输出基准区域向前移动，并与上一个输出基准区域有部分交叠。结果，逐步建立输出序列。两个端点明确地按对准/连接规则映射，而序列的长度L是滑窗处理过程的结果，这如段落开头所述的那样，允许保持对准，所希望的长度最长为CMAX。

映射110(也称为输出文本映像构造器)是一个双态文本图像的缩放算法，它会减少基于像素的方案典型具有的伪像(即像素重复)。为了进一步减小剩余的几何失真和使清晰度与规则度之间的折衷可控制，根据非线性自适应滤波器引入了一个内插级112(也称为内插器)。内插级112由映射步骤110通过自适应扭曲器111控制，以引入取决于局部形态(文本像素配置)的灰度级，使得对倾斜和弯曲部分的平滑远远超过对水平和垂直笔划(它们始终是锐利和规则的，因为输出域由矩形采样网格表征)的平滑。

另一个重要的特征是全局清晰度控制113允许以单个通用控制将通用抗混叠效果调节成可以从一个完全清晰的结果(基本上输出映像周围没有灰度级)改变到一个经传统的线性内插的图像。所采用的特定非线性方案(扭曲距离(或WaDi)滤波器控制)允许用无论那个核(双线性的、三次的等)作为计算基础。这样，通用控制的范围从完全清晰的图像到任意线性内插。在这个意义上，所提出的算法是线性内插的推广。

下面，首先结合图12说明扭曲距离内插器112的一般理论。然后，结合图13所示的流程图说明用映射步骤110得到的由输出文本掩码OTM对WaDi的控制。

图12示出了说明已知的扭曲距离(WaDi)原理的波形和输入样本。函数f(x)示出了在输入视频信号IV内的一个过渡过程。

用于线性内插的已知概念扭曲距离使线性内插器适配于自然(非图形)图像的局部像素配置。具体地说，目的是防止边缘由于内插处理过程而变得模糊。如果需内插的输出像素处在输出映像OPM内的位置u，则输出像素在输入域(IPM)内的相应位置就为x＝u/z，其中z为缩放因子。相位p＝x-x0，其中x0为紧接x左侧的输入样本。如果用简单的篷状(tent)(双线性)核作为基核，输出值将为：

\hat{f} (x) = (1 - p) f (x_{0}) + pf (x_{1}) - - - (13)

其中x1为紧接x右侧的输入样本。

概括地说，内插的样本是相邻像素的线性组合，它取决于分数位置(或者说相位)p。在一个亮度边缘处的内插通过局部扭曲相位而被适配成使x实际上移向右侧或左侧的输入像素。这种扭曲在存在亮度边缘时较强而在平滑部分较轻。为了确定扭曲量，对一个需内插的像素周围的四个像素进行分析，并计算出一个不对称值：

A = \frac{| f (x_{1}) - f (x_{- 1}) | - | f (x_{2}) - f (x_{0}) |}{L - 1} - - - (14)

其中，L为所允许的亮度级的数量(在8比特量化的情况下为256)，x_-1为输入样本x₀前的输入样本，而x₂是输入样本x₁后的输入样本。如果应用S形的边缘模型，(14)的不对称值在边缘完全对称时为0，而在边缘在右侧(或左侧)较平坦时为1(或-1)。

需被内插的样本应被移向它所属的平坦的区域。因此，在A＞0时，必需增大相位p，而如果A＜0就必需减小相位p。这是用以下扭曲函数达到的：

p′＝p-kAp(p-1) (15)

其中，k为通用扭曲量。经扭曲的相位p′的范围仍为[0，1]，如果k的范围为[0，1]的话。必需注意的是，无论A和k的值如何，保持两个极端值p＝0和p＝1(相应，p′＝0和p′＝1)。这意味着如果基核是一个内插器(如果所内插的信号等于输入信号，如果x确切与一个输入样本位置匹配的话)，经扭曲的核仍然是一个内插器。

在按照本发明的一个实施例中，相位扭曲的构思被用来控制抗混叠的量(字符周围的灰度级)。与已知的WaDi相比，用于文本缩放的扭曲函数是完全重新设计的，以便考虑文本形态。此外，式(15)的通用控制k用一个可用于从线性缩放的图像到完全双态的图像的范围的更为复杂的控制代替。

图13示出了说明按照本发明的一个实施例的WaDi控制器112的操作的流程图，WaDi控制器112确定必需加到每个输出像素相位p上的扭曲量。为了计算新的相位p，对于每个样本考虑以下影响。

·需计算的输出像素的类别(文本或背景)，此信息直接由映射器110提供。

·形态约束，当前文本像素周围的文本像素图案确定本地抗混叠效果。例如，如果当前像素是斜线的一部分，扭曲就要比像素属于水平直线或垂直直线的情况轻一些。

·所需的通用抗混叠量，这是一个外部用户控制。两个极端是基核和完全陡峭内插(基本上是由映射步骤获得的双态内插)。这个控制的中间值不只是两个极端值的纯混合，而是对上一步骤所考虑的各种像素配置的抗混叠水平的渐进的和有区别的适配。

扭曲处理过程只需要在文本边缘周围执行，因此只是在文本序列的开始和结束执行，因为内部的部分是单色(恒定)的并且无论哪个内插核都会产生相同(恒定)的结果。因此，不失一般性，可以假设相位p在文本序列内部部分和在背景内保留不变。所述端点在步骤401检测。

从算法角度来看，只是在输入文本映像内检测到过渡0→1(文本序列开始s)和1→0(文本序列结束e)时才施加WiDi控制。这一检测固有地由映射步骤110执行。因此可以将自适应内插步骤112直接插入映射级(在图8流程图内的NAR更新前)。

如果在步骤402检测到一个序列的开始s或结束e，就选择流程图的两个分支中的一个适当的分支。操作基本上是相同的，只是某些与形态控制有关的参数设置不同，见步骤406至409和步骤419至422。下面将只对一个序列的开始的情况进行说明。

在步骤402检测到一个序列的开始s后，在步骤403确定输入映像IPM内的0→1过渡涉及哪些输出像素。WaDi控制器112将只计算这些像素的相位。因此，在计算中所包括的是在输出过渡区间内发现的所有像素。

在篷状(双线性)核的情况下，不关注输出过渡区间Iw外的输出像素，因为输入映像IPM内的两个相邻输入像素(位置大于s或小于s-1)具有相同的标记(0或1)，因此无论相位值p如何都将产生相同的结果。在长度为Lh的核的一般情况下(诸如其范围为四个像素的三次核)式(16)只是近似的，必须加以适配以包含整个阶跃响应：

为了简明起见，将以双线性基核为例进行说明，扩展到更长的核的情况是直接明了的。

例如，形态控制是以对当前输入像素(由映射步骤检测到的s或e)周围的一个3×2的窗的分析为基础的。搜索分析窗以在一个含有以下六个种类的所有可能配置的小数据库内找到匹配：

·孤立的开始(结束)像素。这种配置对于许多例如在小型的诸如10点arial“T”之类的无衬线(sans-serif)字符内发现的水平笔划是典型的。

·垂直对准的像素。这些典型地是垂直笔划。

·像素是细斜笔划的一部分。

·像素可能是粗斜笔划或弯曲笔划的一部分。

·像素可以是一个较粗斜笔划的一部分但也可以是一个水平线和一个垂直线之间的交点的一部分。

·像素在一个凹形内。

在步骤404执行确定输入过渡配置。在步骤405，获取输出过渡区间I_w内最左边的像素。

在按照本发明的一个实施例控制WaDi的算法与自然图像的已知算法之间的一个主要差别是除扭曲量之外在本发明的这个实施例中还定义了它的方向或符号。这允许根据文本/背景类别将扭曲朝向左侧或右侧内插样本(在图12中分别为x0或x1)驱动。扭曲因子W_pix量化相位p′的量和方向(分别为绝对值和符号)，对于当前像素p′被定义为：

p^{'} = f_{w} (p, W_{pix}) = \{\begin{matrix} - W_{pix} p^{2} & - 1 \leq W_{pix} < 0 \\ p & W_{pix} = 0 \\ (W_{pix} - 1) p^{2} + 2 (1 - W_{pix}) p + W_{pix} & 0 < W_{pix} \leq 1 \end{matrix} - - - (18)

除以上特点之外，扭曲函数的定义还允许控制最小的可能位移量。例如，如果扭曲W_pix＝0.3而p＝0(当前输出像素确切地与一个输入像素重合)，有p′＝0.3，这意味着输出像素向右移动至少0.3个像素，无论它的原始相位如何。

扭曲函数的另一个特性是由于它是p的二次函数。在因子W_pix为正(或负)而p接近原点(接近1)时，扭曲效果较强，这意味着接近输入样本的输出像素受到比在中间的像素更大的“吸引”。

通过为每个输出像素指定一个特定的扭曲因子W_pix实现形态控制。假设输入过渡是一个开始过渡(对于一个结束过渡也类似地成立)，对于输出过渡区间I_w内的每个像素，扭曲因子W_pix按如下选择：

·如果在步骤406检测到像素已由映射110标为文本，就在步骤408将扭曲因子的值设置为W_pix＝1。这个设置相当于指定右侧输入值(文本)为当前输出样值。目的是被标为文本的输出像素应该保持与原始图像相同的颜色。

·如果在步骤406检测到这个像素已被标为背景，则在步骤407因子W_pix就成为-Wx，其中Wx是一个专用于由步骤404中的形态分析所检测到的配置的常数。作为一个例子，常数Wx的一个可能定义为：

在3*2窗内的像素的配置(1为文本) Wx的值

00 0.8

01

00

00 01 01 0.85

01 01 01

01 00 01

00 01 10 10 0.3

01 01 01 01

10 10 00 01

00 11 0.15

01 01

11 00

01 11 0.1

01 01

11 01

10 11 10 11 0.8

01 01 01 01

10 11 11 10

在一个序列开始的情况下，如果输出像素已被标为背景，因子W_pix就在步骤407成为负的(W_pix＝-Wx)，而如果它已被标为文本，因子W_pix就在步骤408成为正的(W_pix＝Wx)。这意味着将背景像素左移，而将文本像素右移。

在步骤409，计算相位p。较大的失真值与较清晰的结果相应。因此，与倾斜图案有关的配置得到平滑，因为扭曲因子比较小。另一方面，有可能是一个水平或垂直笔划的一部分的配置得到很强的朝向背景的扭曲，因此强调了与文本的对比。

全局控制级113(步骤410至413和415)调节通用抗混叠量。作为一个例子，控制级113能通过调整在形态控制步骤计算的相位扭曲而将抗混叠级别设置成从基核(最大抗混叠)到完全清晰的图像(文本周围没有灰度级)。例如，通过用在区间[0，2]范围内的单个参数GW，对全局扭曲控制的行为约束为：

·Gw＝0→没有扭曲效果。输入视频(IV)由纯基核处理。

·Gw＝1→扭曲由形态控制规定。

·Gw＝2→文本周围没有灰度级。所得到的图像通过直接使用输出文本映像和将文本/背景标记代替为文本/背景颜色来确定。

为了满足所有这三个约束，因子W_pix用例如为分段线性关系的因子W_pix′代替(步骤412)：

{W_{pLx}}^{'} = f_{G} (W_{pix}, G_{W}) = \{\begin{matrix} W_{pix} G_{W} & 0 \leq G_{W} \leq 1 \\ (1 - W_{pix}) G_{W} + {2 W}_{pix} - 1 & 1 < G_{W} \leq 2 \end{matrix} - - - (19)

因子W_pix′具有与因子W_pix相同的符号，因此扭曲方向不变。式(19)的一个令人感兴趣的性质是对于Gw＜1和Gw＞1斜率是不同的。在第一部分内的斜率与因子W_pix成正比，而在第二部分(Gw＞1)内的斜率与1-W_pix成正比。因此，对于因子W_pix的较大值，大多数锐化效果发生在范围0＜Gw＜1内，而对于因子W_pix的较小值(＜0.5)大多数效果出现在参数Gw＞1。由于因子W_pix取决于局部形态，因此结果是字符的不同部分在Gw改变时将得到不同的锐化。步骤411控制Gw的值。

如果因子W_pix小，扭曲函数(18)趋向于像等式(p′＝p)的特性。按定义扭曲函数为二次的，即使是因子W_pix接近于零。因此，除了在p＝0或p＝1时，相位仍然受到扭曲(p′＜＞p)。为了克服这个缺点，引入一个混合函数，对于Gw的接近于零的值，它对原始相位的加权远远超过对经扭曲的相位的加权：

p″＝[1-t(G_W)]p+t(G_W)p′ (20)

其中

t (G_{W}) = \{\begin{matrix} \log_{10} [9 (- {G_{W}}^{2} + {2 G}_{W}) + 1] & G_{W} &Element; [0,1] \\ 1 & G_{W} &Element; [1,2] \end{matrix} - - - (21)

函数t(Gw)在步骤410计算，扭曲因子W_pix′在步骤412用式(19)确定，相位p′的值在步骤413用式(18)确定，而相位p″在步骤415按照式(21)确定。注意，式(21)只是对于小的Gw值校正经扭曲的相位值的加权函数的一个例子。在一个优选实施例中，内插器112由经扭曲的相位WP控制(如图7所示)，以得到相位p″。如果不需要全局控制113，内插器112用由步骤409计算的相位p控制。

在步骤416，通过用新相位p″对输入像素进行线性组合计算出输出亮度。在步骤417测试当前像素是否为输出过渡区间Iw内的最后一个像素，如果不是，在步骤406继续对这个当前输出过渡区间Iw内的下一个像素进行计算。该下一个像素在步骤418取出。

当在步骤402检测到序列的结束时执行同样的算法。唯一的区别是步骤406至409用步骤419至422代替。

如果在步骤419检测到像素已由映射110标为文本，就在步骤421将扭曲因子的值设置为Wpix＝-1。这个设置相当于指定左侧输入值(文本)为当前输出样本。目的是被标为文本的输出像素应该保持与原始图像相同的颜色。如果在步骤419检测到这个像素已被标为背景，则在步骤420，因子Wpix就成为Wx，其中Wx是一个专用于由在步骤404中的形态分析所检测到的配置的常数。在步骤422，计算相位p。

图14自上到下示出了用三次内插、按照本发明的实施例和最近邻内插得到的经缩放的文本。由按照本发明的实施例所提供的改善清楚地得到证明。

图15示出了视频产生器PC的方框图，该视频产生器包括一个中央处理单元CPU和一个提供需在显示器的显示屏上显示的输出视频信号OV的视频适配器GA。视频适配器GA包括一个将一个具有输入分辨率的视频信号IV变换为一个具有输出分辨率的输出视频信号OV的变换器，这个变换器包括一个将输入视频信号IV中的是文本的输入像素标为输入文本像素ITP从而得到一个指明哪个输入像素是输入文本像素ITP的输入像素映像IPM的加标记器10和一个对输入视频信号IV进行其缩放量取决于输入像素是否被标为输入文本像素ITP的缩放从而提供输出视频信号OV的缩放器11。

应指出的是，上面提到的实施例都是为了例示本发明而不是限制本发明，熟悉该技术领域的人员将能在不背离所附权利要求书的范围的情况下设计出许多其他替换实施例。在权利要求书中，括入括号内的任何标注符号不应该看作是对权利要求的限制。所谓“包括”并不排除还存在权利要求内所列的那些之外的元件或步骤。本发明可以用包括若干不同元件的硬件实现，也可以用适当编程的计算机实现。在列举若干装置的设备权利要求中，这些装置中的一些可以用同一个硬件项实现。某些措施在相互不同的从属权利要求中叙述并不表示不能有益地采用这些措施的组合。

Claims

1.一种将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的方法，所述方法包括下列步骤：

将输入视频信号中的是文本的输入像素标记为输入文本像素，从而得到一个指明哪个输入像素是输入文本像素的输入像素映像，以及

对输入视频信号进行缩放，从而提供输出视频信号，该缩放取决于输入像素是否被标为输入文本像素，

将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上，该映射基于：

(1)一个由输出分辨率除以输入分辨率定义的缩放因子(z)，

(2)输入文本像素在输入像素映像内的位置，以及

(3)一个由输入文本像素及其周围输入文本像素形成的几何图案，以及

其中对所述输入视频信号的内插由输出像素映像控制，所述映射包括：

在输入视频信号的一个视频行内检测是输入像素映像内的一个连续输入文本像素行的一个开始输入像素的开始输入位置(s)的位置，或输入像素映像内的一个连续输入文本像素行的一个各自的结束输入像素的结束输入位置(e)的位置，

确定在输入视频信号的上一个视频行内一个输入文本像素是否与所述开始输入像素或各自的结束输入像素斜线连接，以及如果是的话，

调整所述开始输入位置(s)或各自的结束输入位置(e)的位置，使得输出像素连接到相应的上一个输出行的相应端。

2.一种如在权利要求1中所要求的方法，其中所述映射包括：

在输入视频信号的一个视频行内检测是输入像素映像内的一个连续输入文本像素行的一个开始输入像素的开始输入位置(s)的位置，以及

确定在输入视频信号的上一个视频行内一个输入文本像素是否与所述开始输入像素斜线连接，以及如果是的话，

按(开始输入位置-1/2)*缩放因子的最近较大整数计算输出像素映像内的一个与开始输入像素相应的开始输出像素的输出位置(S)。

3.一种如在权利要求1中所要求的方法，其中所述映射包括：

检测是输入像素映像内的一个连续输入文本像素行的开始输入像素的开始输入位置(s)的位置，以及

确定在输入视频信号的上一个视频行内的一个输入文本像素是否处在与所述开始输入像素的开始输入位置(s)相同的开始输入位置(sp)，以及如果是的话，

将在输出像素映像内的一个与开始输入像素相应的开始输出像素定位在一个与对应于上个视频行的输入文本像素的开始输出像素相同的开始输出位置(S)。

4.一种如在权利要求1中所要求的方法，其中所述映射包括：

确定在输入像素映像内的一个连续输入文本像素行的输入长度(l)，以及

按输入长度(l)与缩放因子(z)的乘积的整数计算一个相应的连续输出文本像素行的输出长度(L)。

5.一种如在权利要求4中所要求的方法，其中所述计算被适配成按

L＝(l*z+k)的最近较小整数

计算连续输出文本像素行的输出长度(L)，

其中，l为输入长度，z为缩放因子，而k为一个在0到1之间的数。

6.一种如在权利要求1中所要求的方法，其中所述映射包括：

检测是输入映像内的一个连续输入文本像素行的开始输入像素的开始输入位置(s)的位置，

确定在输入视频信号的上一个视频行内的一个输入文本像素是否与所述开始输入像素斜线连接，以及如果是的话，

按(开始输入位置-1/2)*缩放因子的最近较大整数计算输出像素映像内的一个与开始输入像素相应的开始输出像素的位置，而如果不是的话，

确定在输入视频信号的上一个视频行内的一个与开始输入像素的开始输入位置相同的开始输入位置处是否存在一个输入文本像素，如果是的话，

7.一种如在权利要求6中所要求的方法，其中所述映射还包括：

检测输入像素映像内的一个连续输入文本像素行的一个结束输入像素的结束输入位置，

确定在输入视频信号的上一个视频行内的一个输入文本像素是否与所述结束输入像素斜线连接，如果是的话，

按(开始输入位置-1/2)*缩放因子(z)的最近较小整数计算输出像素映像内的一个与所述结束输入像素相应的结束输出像素的结束输出位置，而如果不是的话，

确定在输入视频信号的上一个视频行内的一个与所述结束输入像素的结束输入位置相同的结束输入位置处是否存在一个输入文本像素，如果是的话，

将在输出像素映像内的一个与结束输入像素相应的结束输出像素定位在与对应于上个视频行的输入文本像素的结束输出像素相同的结束输出位置。

8.一种如在权利要求7中所要求的方法，其中所述映射还包括：

(1)如果连续输入文本像素行的开始输出文本像素的开始输出位置由在权利要求6中执行的步骤固定，而所述连续输入文本像素的结束输出像素的结束输出位置由在权利要求7中执行的步骤固定，就将输出像素映像内的一个连续输出文本像素行定位成从开始输出位置到结束输出位置，

(2)如果开始输出位置由在权利要求6执行的步骤固定，而结束输出位置没有由在权利要求7中所执行的步骤固定，

确定输入像素映像内的连续输入文本像素行的输入长度，以及

按输入长度(l)与缩放因子(z)的乘积的整数计算一个相应的连续输出文本像素行的输出长度(L)，

按开始输出像素加上输出长度(L)计算结束输出像素，

(3)如果所述行的开始输出文本像素没有由在权利要求6中执行的步骤固定，而结束输出像素由在权利要求7中执行的步骤固定，

按结束输出像素减去输出长度(L)再加上1计算开始输出像素。

9.一种如在权利要求8中所要求的方法，其中所述映射还包括如果开始输出文本像素和结束输出文本像素都没有分别由权利要求6和7的步骤固定就确定该输出文本像素行的中心。

10.一种如在权利要求1中所要求的方法，其中所述缩放包括用输入视频信号的一个相应输入视频样本的值代替输出像素映像的输出像素，从而得到形成输出视频信号的输出视频样本。

11.一种如在权利要求1中所要求的方法，其中所述缩放包括根据相邻输入视频样本之间的分数位置(p)内插输出视频样本的值和根据一个与输出视频样本相应的预定输出像素是否为文本来适配该分数位置(p)。

12.一种如在权利要求11中所要求的方法，其中所述对分数位置(p)的适配还根据由预定输出像素周围的输出像素形成的图案进行，其中所述图案由被标为文本或非文本的输出像素确定。

13.一种如在权利要求11中所要求的方法，其中所述缩放包括确定在一个从非文本到文本的过渡中所涉及的过渡输出像素，以便只对文本边缘的输出像素执行对分数部分(p)的适配。

14.一种如在权利要求13中所要求的方法，其中

(1)如果过渡输出像素中的一个预定输出像素被标为文本，就对分数位置(p)进行适配以控制内插，从而在后继输出视频样本的一个位置处提供是一个输入视频样本的输出视频样本，后继输入视频样本是一个文本样本，以及

(2)如果过渡输出像素中的一个预定输出像素被标为非文本，就对分数位置(p)进行适配以控制内插，从而在输出视频之前的一个位置处提供是一个输入视频样本的输出视频样本，在前的输入视频样本像素是一个非文本样本，以及

(3)根据一个由预定过渡输出像素周围的输出文本像素形成的图案对分数部分(p)进行适配，其中对图案内的水平和垂直结构的适配量比对图案内的斜线结构的大。

15.一种如在权利要求14中所要求的方法，其中所述缩放包括一个用于控制对分数部分(p)的适配量的用户可控输入。

16.一种将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的变换器，所述变换器包括：

一个将输入视频信号中的是文本的输入像素标为输入文本像素从而得到一个指明哪个输入像素是输入文本像素的输入像素映像的装置，

一个对输入视频信号进行缩放，从而提供输出视频信号的装置，其缩放量取决于输入像素是否被标为输入文本像素，

一个用于将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上的装置，该映射基于：

(1)一个由输出分辨率除以输入分辨率定义的缩放因子(z)，

(2)输入文本像素在输入像素映像内的位置，以及

一个用于对由输出像素映像控制的所述输入视频信号进行内插的装置，

所述用于映射的装置配置成：

17.一种包括一个用于将一个具有输入分辨率的输入视频信号变换为一个具有输出分辨率的输出视频信号的变换器的显示设备，所述变换器包括：

一种将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上的装置，该映射基于：

(1)一个由输出分辨率除以输入分辨率定义的缩放因子(z)，

(2)输入文本像素在输入像素映像内的位置，以及

一个用于对由输出像素映像控制的所述输入视频信号进行内插的装置，和

一个用于显示输出视频信号的矩阵显示设备，

所述用于映射的装置配置成：

调整开始输入位置(s)或各自的结束输入位置(e)的位置，使得输出像素连接到相应的上一个输出行的相应端。

18.一种包括一个中央处理单元和一个用于提供需显示的输出视频信号的视频适配器的视频信号产生器，所述视频适配器包括一个用于将一个具有输入分辨率的输入视频信号变换为具有输出分辨率的输出视频信号的变换器，所述变换器包括：

一个用于将形成输入像素映像的加标记的输入像素映射到一个指明输出像素映像中哪个输出是文本的输出像素映像上的映射装置，该映射基于：

(1)一个由输出分辨率除以输入分辨率定义的缩放因子(z)，

(2)输入文本像素在输入像素映像内的位置，以及

所述用于映射的装置配置成：