CN1134895C

CN1134895C - 压缩电子墨迹的方法和装置

Info

Publication number: CN1134895C
Application number: CNB971260583A
Authority: CN
Inventors: 钱德拉・莫汉; D·E·雷诺尔德斯; E・里德尔
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1996-12-11
Filing date: 1997-12-11
Publication date: 2004-01-14
Anticipated expiration: 2017-12-11
Also published as: GB9625661D0; JP3091719B2; DE69727545T2; CN1185060A; EP0848350A1; DE69727545D1; JPH10247240A; EP0848350B1

Abstract

提供一种旨在在手提式平台上对墨迹进行低成本的高压缩处理的有损耗墨迹压缩系统。本发明检测(101)墨迹中的关键点，然后，对连续关键点之间的删除动态信息的光滑曲线进行重复采样(102)。然后将所述重复采样数据标度(103)，使其更加与显示分辨率相匹配。最后，对所述数据进行δ编码(104)和压缩(105)，以便存储。

Description

压缩电子墨迹的方法和装置

本发明涉及数据压缩系统，更具体地说，涉及电子墨迹数据的压缩。

几种产品支持对电子墨迹形式的手写体信息的捕捉和存储。正如这里所用到的，电子墨迹是一序列墨迹书写笔划，每一笔划是一序列由数字化仪图形输入板以恒定的采样速率所测量的坐标对(x，y)。数字式数字化设备在本技术中是常用的。例如，一台这样的设备具有100Hz的采样频率，坐标对以毫英寸为单位，并由16位整数表示。对于这种举例的设备，原始表示法存储一个典型的手写字大概需要1千字节(kB)的存储容量。

对于手提式产品，存储器容量的限制要求对电子墨迹进行数据压缩，以允许存储草稿和笔记中有用的内容。数据压缩系统在先有技术中是常用的，所述系统将数字数据编码为压缩的数字码，并将所述压缩的数字码再解码为原始的数字数据。数据压缩是指试图将数据以一种给定的格式转换为另外一种比原始数据占用空间少的格式的过程。数据压缩系统的目的是要实现节省保存给定的大量数字信息所需的存储量，或减少传输给定大量数据信息体所需的时间。数据压缩系统可以被分为两大类；无损耗型和有损耗型。

要成为实用技术，数据压缩系统需要满足一定的准则。无损耗系统应该具有可逆性。为了使无损耗数据压缩系统具有可逆性，它必须能够将被压缩数据再扩展，或解码回到它原始的格式，而没有任何的信息变化或丢失。解码后的数据和原有数据必须一致，并且相互没有区别。在有损耗型数据压缩系统中，只要数据的整体感觉(overallperception)没有改变，可以允许在压缩，解压缩过程中信息的某些变化或丢失。

电子墨迹的无损耗压缩是肯定可以的。然而，从只要求把墨迹显示在屏幕上的角度出发，有大量的多余墨迹信息可以被删除。从提供高压缩比的需要来看，有损耗型压缩技术更加适合。

数据压缩系统应该提供由数据压缩和解压缩系统与之进行通信的设备所提供和所接受的足够的有关数据速率的性能。电子墨迹应用程序的性能是非常重要的，这是因为一般来说，该电子应用程序是用于具有相对较小的CPU能力的小计算机。如果对于每一笔划必须使用复杂的压缩技术的话，即使是具有更大的计算能力的系统也会比较慢。

另外一个数据压缩和解压缩系统设计的重要准则是压缩的效率，一般由压缩比来表示。压缩比一般被定义为非压缩格式的数据量除以压缩格式数据量的比。为了使数据可以被压缩，所述数据必须具有冗余性。压缩效率将决定于压缩方法如何有效地使用输入数据中的冗余性。

电子墨迹的应用程序必须兼顾压缩效率与墨迹的退化和性能。由于电子墨迹具有一些供压缩用的冗余源，因此相对高的压缩比是可能的。

公开的国际专利申请WO94/03853公开了一种用于电子墨迹压缩的方法和装置，其中为了保持真实度而省去了一些极值点。为了减少连续极值间被存储的点的数量，将测量每一点的局部曲率并将具有低曲率的点删除。这种局部测量将有使在延伸笔划上弯度平缓的墨迹变形的风险，在这种情况下，可能不存在起动所述曲率测量的点，但是累积的曲率足以产生扭结。

恒定的采样频率(100Hz)允许捕捉关于笔运动的动态信息。然而，这一采样频率比关于手写的奈奎斯特Nyquist极限高出很多，并且数据可以按照2至4倍下降采样，并仍然保留全部动态信息。动态信息对于签名的验证的是非常重要的，并且在某些手写识别和潦草笔迹的匹配中是有用的。然而，动态信息对于在显示设备上显示墨迹的痕迹是不必要的。

在缺省墨迹表示法中使用绝对坐标位置允许笔的位置在连续的10毫秒采样之间的整个范围内变化。这大约高于人手所能达到的最大转动速率两个量级。另外，关键点之间笔的轨迹是平滑的、慢变化的曲线，并因此下一采样点的位置可以采用线性预测法、曲线拟合法或动态模型进行预估。这样，模型和所述模型所产生的偏差一起编码能够提供进一步的压缩，虽然在实际中，产生足于适度省去的密度(重置模型)的关键点。

数字化仪和显示器两者的分辨率都明显地低于内部笔数据的标准化的毫英寸的分辨率。减少存储分辨率以与特定的数字化仪/显示器设备相匹配或简单地使用较低的标准化的分辨率(如300点/英寸)提供一些小的额外节省。

根据本发明，我们提供一种压缩手写体数字表示的尺寸的方法，它包括以下步骤：

为了检测关键点，检测所述数字表示形式的局部极值(101)，所述关键点位于所述手写体曲率高的区域；

利用根据所述关键点的多边形近似法对所述数字表示进行重复采样(102)，产生重复采样数据。

局部极值的检测在计算上是相对廉价的，因此提供一种成本低廉的检测关键点的方法。通过多边形近似的重复采样是一种有效的方法，用来在减少数据点数目的同时又保留了能够足以重构手写体输入的重要的点。

在将要描述的实施例中，利用多边形逼近的重复采样包括以下的步骤：

从沿着所述数字表示法的一部分的第一点到沿着所述数字表示法的所述部分的第二点形成一条直线；

沿着数字表示法的一部分在所述第一点和所述第二点之间设置第三点，所述第三点具有距所述直线的最大距离；

如果所述最大距离大于极限值，则用从所述第一点到所述第三点的第一直线和从所述第三点到所述第二点的第二直线取代所述直线；

如果所述最大距离小于所述极限值，则

如果所述直线比最大长度短，则用所述直线取代所述第一点和所述第二点之间所述数字表示部分；

如果所述直线比最大长度长，则将在第四点分开所述直线，所述第四点位于所述第一点和所述第二点之间的所述数据表示的所述部分。

所述方法还包括以下步骤：

在定位局部极值之前，对所述数字表示进行低通滤波；

消除由所述定位步骤产生的人为产生物；

对所述重复采样数据进行再标度，产生再标度数据；

对所述再标度数据进行编码，产生编码数据；以及

对所述编码数据进行压缩，产生压缩数据。

编码的步骤可以包括以下步骤：

在所述数字化仪上预测下一点的位置，并且对所述下一点的所述预测位置和所述下一点的实际位置之间的偏差进行编码。

在将要被描述的实施例中，通过上述所定义的方法对手写体的数字表示法进行解压缩的方法包括以下步骤：

对所述压缩数据进行扩张，以获得所述编码数据；

对所述编码数据进行解码，以获得解码数据；

用直线将解码数据内各个独立的点连接。

在解压缩期间，解码的步骤可以包括以下步骤：

识别所述解码数据中的尖点，所述尖点是高曲率的点；以及

推导出所述尖点之间的解码数据的每对点之间的插值点。

获得插值点的步骤可以包括利用样条平滑法找出所述插值点。尖点可以被定义为其出段对着与入段构成的钝角的点。

本发明还提供一种计算装置，所述装置包括将手写体输入信号数字化的装置和按照上述所定义的方法将所述手写体输入信号压缩的装置。通过举例，并结合附图所进行的详细的描述可以对本发明有更好的了解。

图1是说明本发明最佳实施例的压缩部分的逻辑操作的高级流程图。

图2是说明关键点检测的逻辑操作的高级流程图。

图3说明根据本发明的基于极值检测的窗口的例子。

图4图示说明典型的具有紧密的x/y极值点的手写体字母。

图5说明在对手写体字采样时检测的关键点。

图6a图示说明对图5的手写体字进行多边形采样的效果，其中，τ＝2而d＝56毫英寸。

图6b图示说明对图5中的手写体字进行多边形采样的效果，其中，τ＝5而d＝112毫英寸。

图7a显示一条线段上多边形采样的第一迭代。

图7b显示一条线段上多边形采样的第二迭代。

图8图示说明可能的曲线预测模型。

图9是显示本发明最佳实施例的解压缩部分的逻辑操作的高级流程图。

图10是手写体字符的例子，所述字符包含可能由解压缩过程检测出的尖点。

图11a说明对手写体字进行高级压缩、继之以无额外插值的解压缩的结果。

图11b说明图11a的每段一个插值点的结果。

图11c说明图11a的每段三个插值点的结果。

图12图示说明一个数据例子的每级压缩的空间节省的分布。

图13图示说明利用关于手写体字以及每一级压缩的节省量的最佳实施例的结果。

在给出详细说明之前，下面先概述如何实施本发明。

为了实现本发明，提供一种减少手写体数字表示量的方法。首先，对所述数字表示进行低通滤波。其次，设定局部极值点，关键点的超集(superset)。关键点的检测可能产生人为的因素，这些将被除去。然后，原始数据通过多边形近似被再采样，利用直线有选择地替代曲线，以产生再采样数据。再采样数据被再标度产生再标度数据。再标度将数据标度得与目的分辨率更加接近。然后，利用δ编码技术对再标度数据进行编码，并且在存储之前压缩。

多边形逼近用来对原始数据进行再采样。通过首先定义从第一关键点到第二关键点的直线来进行多边形逼近。沿第一关键点和第二关键点之间的数字表示部分、找出距所述直线距离最大的一个点。如果最大距离大于极限值，则所述直线将被从第一关键点到所述点的直线和另外一条从所述点到第二关键点的直线所取代。如果最大距离小于极限值，则测量所述直线的长度。如果所述直线比最大长度短，则第一关键点和第二关键点之间的数字表示将被所述直线所替代。另外，如果所述直线比最大长度长，则所述直线将在分割点被分割，其中分割点位于第一关键点和第二关键点之间的数字表示部分上。这个过程被递归地执行直到所述数字表示被一系列比最大值短的直线所取代，并且没有偏离一个极限值的数字表示为止。

解压缩需要对δ编码数据进行解码。然后用直线绘制解码后的数据。然而，在解压缩期间，能够进行选择性的平滑处理。首先通过识别再标度数据中的尖点来实行平滑方法，这里尖点出现在高曲率的点上。采用二阶样条多项式，在沿尖点点之间的解码后的数据的每一对点之间至少产生一个插值点。

现在参考图1，图中显示本发明最佳实施例的流程图。本发明在墨迹中检测关键点(101)，然后在连续废弃动态信息的关键点之间重复采样平滑曲线(102)，然后对重复采样数据进行标度使得更加接近显示分辨率(103)。其次，对所述数据进行δ编码(104)，然后进行压缩(105)。

首先，让我们简单地看一下每一方框的功能。在第一阶段关键点检测(101)，检测墨迹中高曲率的点。关键点检测101通过检测局部极值来完成。

第二阶段，在保持101中所检测的关键点的同时，重复采样(102)产生新的更小的墨迹采样集。可以对这些采样值用原始墨迹相同的形式进行编码，导致减少无需去压缩的(108)墨迹记录量。根据书写风格和重复采样步骤的主动性(aggresiveness)，重复采样墨迹可以在原始墨迹采样量的20％和45％之间，而不严重丢失其可读性。

其次，为了达到高压缩比，利用103进一步的量化采样坐标的分辨率，来改变墨迹格式，称为“再标度rescaling”。由于墨迹的特性，用δ坐标代替绝对坐标可以减少数据量(104)。最后，在方框105中以压缩位流对产生的小δ值进行编码。

本专业的技术人员将明白，对于每一个过程方框可以有几种不同的算法和参数设定，给出不同的速度，压缩和真实性的折衷的方案。

上面是简单的浏览，下面将对每一方框进行详细的说明。

手写字含有不易识别的高曲率区域，(关键点由尖点和小环形所组成)。这些高曲率区是不易识别的。不考虑这些临界区域而简单地重复采样则导致变形以及失去易读性。为了防止这种情况，首先将检测临界点(以下称为关键点)。关键点检测步骤101具有以下的好处：

1.在最后被编码的墨迹中关键点被保存，使其具有更好的易读性；

2.关键点之间的墨迹是简单，平滑的曲线，因此简化了重复采样的过程。

用来标记这些关键点的被选特性检测算法检测局部极值。使用简单算法导致较低的计算成本。检测尖点和尖锐环形以外的其它关键点不成问题。在最坏的情况下这些额外的关键点可能导致由于过分强迫的重复采样产生轻微更低的压缩，然而，实现上这种影响可以被忽略不计。

现在参考图2，在所述最佳实施例中，由于马达的振动和数字化噪声的组合产生多个假的局部极值，基于极值的关键点检测器不能简单地找出在原始x/y值的局部最大/最小值。为了克服这点，原始数据将首先被低通滤波(301)，以减少噪声，然后横跨固定宽度的窗口而不是简单的相邻数据点、检测极值(302)。最后，对记录的极值进行后处理去掉某些人为成分(303)。

低通滤波(301)由方程式1所给出的移动平均滤波器来实现。

{X^{'}}_{i} = Σ_{j = - R}^{R} X_{(i + j)}

方程(1)

R对于100Hz采样频率的数据采样选择等于2。必须指出，滤波数据只是被用来确定关键点和重复点。原始数据用来提供实际的重复采样坐标值。因此，低通滤波器的响应精度是不严格的，并且简单的移动平均就足够了。

现在参考图3，通过沿滤波数据移动三点测试窗来检测线500的最大值/最小值(也称为极值)，记录任何所找到的极值。如果x_mid的x(或y)坐标大于(或小于)x_left和x_right两者相应的坐标，则将在该测试窗中找到极值。通过选择x_left到x_right窗口中最大(或最小)x(或y)值的单个数据点，可以找到实际极值的位置。

每次测试之后，窗口将利用下式移动：

x_mid-x_left

x_right-x_mid

x_mid-x_right

为了增加处理速度，利用city块距离(x和y位移的和)而不是欧几里德距离来计算步距d。

这种简单的最大/最小值检测将产生必须去除的特殊的人为产生物。对于倾斜的手写字600，很多的环形具有如图4所示相互靠近的极值x605和y606。为了减小影响，只有更加靠近某一阈值(在最佳实施例中的两个采样点)的一对后选关键点中更尖锐的点才被保留。

在图1的关键点检测101中，将每一笔画的墨迹分为一系列平滑的曲线段。重复采样步骤依次交替的施加于每一段上，通过一组足够密集的空间分离的样值替代原有基于时间的墨迹样值，来定义墨迹轨迹。当笔缓慢移动时，产生很多接近的有间隔的样值，由于原有墨迹数据包括句号，这将减少采样点的数目。

所使用的重复采样技术是一种多边形近似的技术。现有段被一系列直线段所替代，其中每一原始采样点和最近线段之间的最大距离小于某一小阈值(τ)。在最佳实施例中，使用的阈值范围为2-8毫英寸，它低于目标LCD显示器典型的象素间距。

将在下面被更加详细地描述的所使用的多边形算法在两个方面与传统的方法不同，第一，只是局部地使用偏差测试而不是全部，第二，所产生的线段的长度不能超过最大值。这保证了上限线段长度使得后面编码阶段的简单化，并且在局部偏差测试中可以改善强度和误差的比。

根据图5重复对墨迹进行采样的结果如图6所示。对于这个例子，重复墨迹采样在细设置时(图6a)需要33％原始墨迹的数据点，在粗设置时(如图6b)需要22％。

现在参考图7，详细地说，通过两个关键点901和902，利用一系列的直线段来限定多边形算法逼近的曲线900，使得线段不长于d，并且每一采样点的最大偏差小于与最近直线段的距离τ。通过以递归的方式分割线段直到满足如图7所示的准则来进行这一步骤。

要重复采样的每段墨迹(图7中900)都将被处理。首先在两个连续的关键点901和902之间将是线段903。重复采样处理的关键步骤如下：

1.假设点901和902之间为直线段903。

2.在距线段903最大距离处定位点，在图7a中为905。为了有效地完成这一工作，利用这样事实，关键点之间几乎所有的线段是简单的凸曲线。搜索从在901和902之间中间样值处开始，并爬升到局部(而不是整体)的最大偏差点。所述偏差本身通过快速逼近进行计算。如果线段903具有梯度，并且点901位于(0，0)处，则线段904的长度由下式给出：

l＝|y-mx|/h

其中(使用Chebyshev逼近法)

h = \sqrt{1 + m^{2}} = a + b | m |

a＝0.96，b＝0.4|m|≤1 方程(2)a＝0.4，b＝0.96|m|＞1

因此，搜索的步骤可以使用小整数算法计算h。而且，h独立于被测试点，使得一旦在搜索内环的外部时，它可以被计算。

3.如果线904的长度(l)＞τ，则将如图7b所示在点905处将线段903分开，并且递归地将线段906和907多边形化。

4.如果偏差在限制范围之内，则检查903的长度。如果它小于d则退出。否则在其之间设置中点905，并且递归地将线段906和907多边形化。在这种情况下，点905通常被选择为中间的采样点，然而，在非常高速的书写中，在901和902之间可能没有采样点，在这种情况下，介乎901和902之间的新的插值点被合成。

另外一种多边形重复采样是等距重复采样，即，沿连续关键点之间的曲线在等距离上采样。这种方法廉价并且可以在编码阶段改进使用采样预测的能力，因此，减少每一被采样点的编码量。然而，早期的实验显示，等距离重复采样在没有产生不可接受的变形时，所获得的数据量的减少非常小，并且在编码效率上的增益不能调整重复采样效率的有损耗。

正如前面在对图1进行讨论中所描述的那样，原始墨迹被以虚假的高分辨率表示。由于只有直线(或曲线)段的端点以这种分辨率来描绘，所以分辨率的八倍衰减(到125点/英寸)对于屏幕上的显示是可以接受的。所述线(或曲线)段本身可以在显示器设备上以全分辨率来显示。对于典型的手写体尺寸来说，以125点/英寸来存储重复采样点将引起小的变形。更低的分辨率将产生可测的变形，但即使减小到60点/英寸，对于其易读性的影响也非常小。在最佳实施例中，通过删除坐标值最低几位(2-4位)的粗略的方法来实现再标度。

图1预测/δ编码步骤104利用曲线模型和一系列小误差值的组合替换重复采样点的(再标度)绝对坐标值。早期使用几个曲线模型(Bezier样条，立方样条，圆锥样条，Chebyshcv和Legendre多边形)的实验表明，可以有很好的配合数据，但是描绘曲线参数的开销与简单编码δ采样所需的开销是可比的。首先，试图使用某些预测搭配排序来进行多边形采样值的编码。总的形式如图8所示。

可以有几种变换的模型：

1.无预测。存储初始位置s₀以及每一对后续点：c_i＝s_i-s_i-1一系列的δ值c_i。在重复采样步骤和再标度步骤中，d极限的组合保证这些δ值具有小的固定的边界(根据参数设定，一般为±7或±15)

2.利用线性外插法p_i+1＝s_i+(s_i-s_i-1)预测下一采样点，并且对预测点和实际点c_i＝s_i-p_i之间的误差值编码。当所述曲线经过关键点时，这将产生小的编码。在图8中，点404是模型试图预测的下一点。从点403到点405的向量(409)是前一向量408的重复。模型对预测点405和实际点404之间的误差编码。

3.利用假设曲线是圆形来预测下一采样点，使得p_i+1＝s_i+R(α)(s_i-s_i-1)，其中R(α)是α的旋转矩阵，并且对预测值和实际值之间的误差进行编码。如图8所示，通过与前一被延伸的向量409形成相同角度(α)的线段410来产生预测点406，而角度(α)是前一向量408和倒数第二条被延伸向量407之间的夹角。模型对预测点406和实际点404之间的误差进行编码。

4.其它线性或非线性模型配合，如使用最大熵模型。

初步实验表明在精细采样栅格上，对于(2)和(3)的近似是有效的，并且将产生减小的偏差编码量。然而，随着采样密度的降低，这种近似将变差，而简单δ编码(选择1)将更加有效。对于高压缩比，给定状态要求最佳实施例使用δ编码，选择(1)。

前一阶段在每对连续重复采样点之间产生一系列小δ值。这些δ值具有固定的上限。在最佳实施例中，这些δ值被直接存储在压缩的4-6位整数中。本专业的技术人员将明白，可以使用其它几种编码技术。δ值的分布并不特别适合于Huffman编码，但是可以使用算术编码。使用算术编码的实验建议通过使用固定或者自适应的统计模型，虽然增加了解压缩的开销，但可以实现存储开销进一步减少10％。

在使用被压缩数据之前，它必须被解压缩。上面已经描述了压缩的过程，下面将讨论解压缩的过程。现在参考图9，为了解压缩，直接进行将位压缩反转(201)和δ编码反转(202)的步骤，以产生重复采样点。然后，可以通过描绘采样点之间的直线段，以通常的方式给出这种重构的墨迹(204)。然而，众所周知，由于关键点之间的手写曲线是平滑的，所以墨迹也将变为平滑(203)。可以使用多种平滑墨迹的方法，例如，通过在每一点之间使用曲线段。另外，所述过程能够内插墨迹，以增加线段的数目来近似平滑曲线。

为了保持解压缩算法的独立，并不依赖于特殊的墨迹显示系统，可以选择在解压缩采样点之间产生附加内插点的新的处理方法。初步实验表明使用立方样条的内插多边形段可以产生良好的易读性。

为了防止内插过程非平滑尖点，在尖点使样条分裂。为了使过程完全独立，平滑处理过程具有分离尖点检测步骤。

可以如图3所示进行尖点检测。然而，为了解压缩，只需要那些具有高曲率度的尖点。在最佳实施例中，尖点检测器把任何其出线段角度与入线段角度的差别，大于90°的点称为尖点。利用检测两个向量点的符号，这种检测开销小。参考图10显示给出的墨迹710，在其它点中，700和704上有关键点。700点上变化不需要是平滑的，而704点上的变化必须平滑。通过检查与一个点有关的两条线段之间的角度，平滑处理可以确定何时将线段分开。在点700上，入射线段的切线703和出射线段的切线702之间的角度701大于90°，因此，点700被识别为尖点。在点704上，入射线段的切线707和出射线段的切线706之间的角度705与上一情况正相反。因此，点704将不被标记为尖点，并且因此它被平滑化。应该注意，上述例子用90°作为测试参考值，然而，本专业的技术人员将明白，了解了上述说明之后，90°的值不是严格规定的，可以根据系统的需要而改变。

标记尖点后可以开始进行内插过程。全部样条内插过程开销比较小，但是在通常使用中，对普通的显示分辨率重复命中。在最佳实施例中，每一对重构采样点之间只产生一个内差点的专门的样条内插法被作为一种缺省的设置。为了说明这点，图11显示的在最高压缩设置的情况下，不同内插值数量的效果。图11a显示，没有任何平滑，在最高压缩设置时，压缩之后的图5的墨迹。图11b显示使用上面描述的样条内插法所产生的每一段附加点的结果。最后，图11c显示每段产生三个附加点的结果。

如果二阶样条被用来表示每一段，则连续采样点之间的曲线可以被描述成为两个重叠二阶样条之间的混合。利用Legendre多边形法，混合将导致每一采样点的立方样条方程式：

P (t) = P_{i} + \frac{(P_{i + 1} - P_{i - 1})}{2} t + \frac{(- P_{i + 2} + 4 P_{i + 1} - 5 P_{i} + 2 P_{i - 1})}{2} t^{2} + \frac{(P_{i + 2} - 3 P_{i + 1} + 3 P_{i} - P_{i - 1})}{2} t^{3}

方程(3)

初始和结束点的方程式与此相似。

在对每一对重构采样点之间的单一点进行内插处理的特殊情况下，算法为：

1.将第一采样点标记为平滑段的开始，P_s

2.寻找采样点Pi直到到达笔划的末端或找到一个由点乘积测试(P_i+1-P₁)*(P₁-P_i-1)＜0所定义的尖点，将所述点标记为平滑段的末端，P_e

3.利用下面的方程，在每一对采样点之间产生内插点：

P_s+0.5＝(3P_s+6P_s+1-P_s+2)/8

P_i+0.5＝(-P_i-1+9P_i+9P_i+1-9P_i-2)/16

P_e+0.5＝(-P_e-2+6P_e-1+P_e)/8

4.如果P_e是笔划中最后一个样值，则退出，否则将其作为P_s并且跳到步骤2。

在对每一对采样点之间大于一个的点进行内插处理的一般的情况下，步骤3将由全立方方程所替代，实际上，标准差分方程技术可以被用来计算在内环中没有使用任何乘法的立方方程式。

最佳实施例是完全独立的，并且不依赖于前末端或特殊的墨迹显示系统的使用。压缩过程使用x/y极值关键点检测、快速多边形重复采样和位压缩(不是算术编码)。解压缩过程对于双倍或四倍的重构采样密度，有选择地运行样条内插步骤。

作为16位的窗口库，对于压缩/解压缩编码量是7kB加3kB的内插值。在Windows486/50的平台上，平均压缩时间是每一手写字为6毫秒。平均字解压缩时间是每字1.4毫秒，如果开启内插操作则为2.4毫秒。

各种压缩参数可以被改变，以产生多种“压缩”等级。最佳实施例提供六种压缩等级，从0(接近无损耗)到5(最大侵蚀性，失去一些真实性)。所使用的参数值如表1所示。

对压缩结果的主要影响由书写风格来确定。小的，草书比起大的，印刷体来说，更可压缩，并且更容易变形。利用来自两个书写风格非常接近的作者的高分辨率数据进行主要压缩测量。对于每一作者，使用三个测试句子(一共40字)，并且结果是在字样值中的取平均的。对于所有情况，高压缩等级的变形主观上是可以接受的。表1显示关于这种测试数据的所得到的压缩。

等级	τ	d	再标度时被撤销的位数	对于小的/草书的压缩	对于大的/印刷体的压缩
等级	τ	d	再标度时被撤销的位数	对于小的/草书的压缩	对于大的/印刷体的压缩	0	2	56	2	12％	18％
1	5	56	3	9％	14％	0	2	56	2	12％	18％
1	5	56	3	9％	14％	2	5	120	3	8％	12％
3	8	120	3	7％	11％	2	5	120	3	8％	12％
3	8	120	3	7％	11％	4	5	112	4	7％	10％
5	8	112	4	6％	9％	4	5	112	4	7％	10％

表1

图12中的表说明最终压缩比值可归于来自图5的手写字的例子的每一阶段(重复采样，再标度和位压缩)。

作为说明压缩的主观结果，图13与表2一起显示在所有六个压缩等级的对一个例字进行的压缩和解压缩的结果。

图	压缩等级	大小	原始百分比
图	压缩等级	大小	原始百分比	图13a	原始	1156	100％
图13b	0	115	9％	图13a	原始	1156	100％
图13b	0	115	9％	图13c	1	83	7％
图13d	2	69	5％	图13c	1	83	7％
图13d	2	69	5％	图13e	3	59	5％
图13f	4	57	4％	图13e	3	59	5％
图13f	4	57	4％	图13g	5	49	4％

表2

这里也公开将来作为进一步改进这种压缩系统的几种途径：

1.对于计算能力不是特别受到限制的情况中，将使用比简单位压缩更好的最后编码步骤。使用算术编码器的实验建议使用这种方法至少可以获得10％的压缩。

2.在下降采样之前使用空间低通滤波器，以避免混叠效应。这一步骤的改进对有损耗编码器的真实性会有最大的影响，而不会影响解压缩时间。

3.对于高压缩设置来说，使用预测编码的努力都没有成功。然而，利用双向编码法以及利用在交替的样值对之间的内插法而不是外插法，可以开发数据同一规则性。初期实验表明可以获得10％的进一步的节省。

Claims

1.一种压缩手写体的数字表示的尺寸的方法，其特征在于，包括下面的步骤：

为了检测关键点而检测所述数字表示中的局部极值(101)，所述关键点位于所述手写字的高曲率区域；

根据所述关键点利用多边形逼近的方法对所述数字表示进行重复采样，以产生重复采样数据。

2.根据权利要求1所述的方法，其特征在于，所述通过多边形逼近的方法重复采样的步骤包括：

从沿所述数字表示的一部分的第一点(901)到沿所述数字表示的所述部分的第二点(902)形成一条直线(903)；

在所述第一点(901)和第二点(902)之间沿所述数字表示的一部分(900)定位第三点(905)，所述第三点(905)具有离所述直线(903)的最大距离(l)；

如果所述最大距离(l)大于限制值(τ)，则用从所述第一点(901)到所述第三点(905)的第一条直线(906)，和从所述第三点(905)到所述第二点(902)的第二条直线(907)替代所述直线(903)；

如果所述最大距离(l)小于所述限制值(τ)，则

如果所述直线(903)比最大长度(d)短，则用所述直线(903)替代所述第一点(901)和所述第二点(902)之间所述数字表示的所述部分(900)；而

如果所述直线(903)比所述最大长度(d)长，则在第四点将所述直线(903)分开，所述第四点位于所述第一点(901)和所述第二点(902)之间的所述数字表示的所述部分上。

3.根据权利要求1或2所述的方法，其特征在于，还包括以下的步骤：

在定位(302)所述局部极值之前，对所述数字表示进行低通滤波；

去掉(303)所述定位步骤的产生物；

对所述重复采样数据进行再标度，产生再标度数据；

对所述再标度数据进行编码，产生编码数据；以及，

对所述编码数据进行压缩，产生压缩数据。

4.根据权利要求3所述的方法，其特征在于，所述编码步骤包括；在所述数字表示上预测下一点的位置，并且对所述下一点的预测位置(405，406)和所述下一点的实际位置(404)之间的差进行编码(104)。

5.一种用来对利用根据权利要求3或4的方法压缩的手写体的数字表示进行解压缩的方法，其特征在于，包括以下步骤：

对所述压缩数据进行解压缩，得到所述编码数据；

对所述编码数据进行解码，得到所述解码数据；以及

用直线将所述解码数据中的独立的点连接起来。

6.根据权利要求5所述的方法，其特征在于，所述解码步骤包括：在所述解码数据中识别尖点(703)，所述尖点(703)是高曲率的点；推导出所述尖点(703)之间的、每一对沿所述解码后的数据的点之间的内插值点(203)。

7.根据权利要求6所述的方法，其特征在于，所述推导步骤包括使用样条平滑(方程3)找到所述内插点的步骤。

8.根据权利要求6或7所述的方法，其特征在于，尖点是出线段面对着与入线段形成的钝角的点。