CN1524234B

CN1524234B - 用于转换字符代码的设备

Info

Publication number: CN1524234B
Application number: CN018215793A
Authority: CN
Inventors: Y·徐
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2000-12-27
Filing date: 2001-10-31
Publication date: 2010-05-26
Anticipated expiration: 2021-10-31
Also published as: JP2005501303A; US7900143B2; KR20030072574A; KR100584038B1; CN1524234A; TWI366769B; AU2002220113A1; WO2002052435A3; WO2002052435A2; US20020120654A1

Abstract

本发明涉及一种用于转换字符代码的设备，包括：用于接收包含字符的文件的装置；第一代码转换器，用于当字符属于第一类型时则把所述文件的字符转换成第一代码格式；第二代码转换器，用于当字符属于第二类型时则把所述文件的字符转换成第二代码格式，所述第一代码格式不同于所述第二代码格式，且所述第一类型不同于所述第二类型。

Description

用于转换字符代码的设备

背景技术

本发明一般涉及因特网浏览器，特别涉及支持大数量的字符的浏览器。

作为打印材料显示的或者出现在计算机监视器上的文本数据以二进制数字代码的形式编码。当击打键盘上的一个给定键时，产生该键的一个字符代码。计算机然后使用该字符代码从列出同样字符代码的存储的字体文件中选择合适的字符形状。

英语个人计算机系统一般使用7位字符代码。该代码根据美国信息交换标准代码(ASCII)(ANSIx3.4-1994)编码，它允许大约128项的字符集，包括大小写拉丁字母、阿拉伯数字、符号和控制字符。

中、日、韩(CJK)语具有较多数目的字符，数量级为数十万字符。这些字符远超过7位ASCII字符代码所具有的容量。

例如，日本的个人计算机现在使用日本工业标准(JIS)X0208-1990，它只能容纳6879个字符。虽然它对许多基本功能来说是适合的，但是对于书写人名、地名、历史数据和其它这种信息可能还不够。

现有的CJK字符集在给定可用的字符集时不足以提供多种重要的信息。例如，对于Netscape Communicator万维网浏览器使用的GB-2313和BIG-5字符集，只有大约16,000个字符可用。

因此，国际标准化组织建立了一个称为ISO-2022的标准，它概括地论述可以怎样构造7位和8位字符代码。·汉语版是ISO-2022-CN，在征求意见书(RFC)1922(网络工作组，1996)中阐述。

所谓的统一码(Unicode)是由一些美国软件公司开发的，目的是将全世界的字符集统一为一个大字符集。参见国际标准化组织ISO/IEC10646-1(1993)日内瓦，瑞士。统一码寻求限制字符集空间到16位亦即最多65,536个字符。这一字符空间意味着每一字符必须由16位亦即两个字节的定长码表示。然而，即使使用统一码，世界上所有的字符，包括数十万CJK字符，也不能使用一个仅允许总共65,536个字符的字符集表示。

例如，统一码不允许建立使用CJK语言的联机数字图书馆。这种图书馆可能需要未经删略的字符集，它们包括至今曾使用过的所有字符。另外，在CJK国家中能够书写许多人和地方的人名和地名是十分重要的。因此，以文化完整的方式对待CJK字符集而言，统一码还是不够的。虽然CJK语用户有可能能够以小得多的字符集应付，但是CJK语的表达性和多功能性却由于可用的字符代码被大大地限制了。

因此需要以更好的方式操作字符集，使得可以使用更大数目的字符代码，特别是对于CJK语言而言。

附图说明

图1是为根据本发明的一个实施例的软件的流程图；

图2是为实现本发明的一个实施例的硬件的方框图；

图3是为根据本发明的一个实施例的软件的流程图。

具体实施方式

图1所示万维网浏览器12提供针对较大字符集的需要的一个平台级解决方案。万维网浏览器12可以起到用于任何基于万维网应用的通用的交叉平台的用户接口作用。浏览器12有效地使大字符集能够支持所有基于万维网的应用。

源超文本标记语言(HTML)文件按照ISO-2022CN和ISO-2022CN-扩展格式编码，这在方框10指示。在浏览器12中，该文件被转换为扩展的统一码格式，以包括对统一码2.0(ISO/IEC 10646和RFC 2152(1996))的代理机制的支持。使用统一码的代理机制扩展统一码的能力到足以识别具有100万个不同字符的字符集。因为现有统一码标准使用16位字符长度，因此16位值能提供不多于65,536个字符。

于是，ISO-2022-CN和CN扩展格式被转换为具有代理支持的统一码，这在方框14指示。已经在统一码标准中定义的那些CJK字符被转换为它们的16位统一码值。未由统一码标准定义的剩余的字符转换为两个16位值。在本发明的一个实施例中，两个16位值的每一个分别在0xD800～0xDB00和0xDC00～0xDFFF的范围。这与代理机制的统一码定义一致而没有二义性。

浏览器12进行万维网内容的解析，如方框16指示，诸如HTML解析。之后，完成剩余的显示步骤，如方框18指示。

当浏览器12准备绘制(render)一个特定的文本字符串时，浏览器12对于该字符串中的每一个字符进行循环。对于CJK字符，第一次搜索查找已知的CJK字体库中的字体，如方框20指示。已知的CJK字体库包括国家标准(“信息交换用汉字编码字符集基本集”，GB-2312-80)，Big-5(信息工业研究院，“计算机汉字编码字符集”，1984年3月)，GBK(“信息技术”通用多八位位组编码字符集，GB 13000)和GB18030字库。对于未包括在已知CJK字体库中的那些罕见字符，绘制引擎(rendering engine)检索覆盖较大字符集的字体库。使用适当的字体显示驱动器，如在方框22和24指示。

通过使用ISO-2022转换器编码HTML内容，而不是直接编码为统一码，可以使用7位编码机制。7位机制的使用使得CJK字符不太可能被现有或将来的通信基础设施诸如因特网截断。7位信息可以保持为终端显示的字符、文件内容、电子邮件内容或万维网内容，而不管它是被怎样传输的。如方框30指示，然后可以在显示屏幕上显示文本内容。

当不使用CJK字符时，可以使用普通的ASCII字符的字符串，如方框26所指示。然后可以使用ASCII字符集字体显示驱动器，如方框28所指示。

转到图2，基于处理器的系统32可以是台式计算机、膝上型计算机、手持计算机、诸如蜂窝电话、机顶盒或类似物品的电器。处理器34耦合到桥36。桥36耦合在系统存储器38和显示器40之间。显示器40可以是计算机监视器、液晶显示器或甚至是电视接收机。

桥36还耦合到总线42，后者耦合另一个桥44。桥44可以耦合到硬磁盘驱动器46或者其它存储设备。其它可能的存储设备包括闪存和可重写数字通用盘驱动器。存储器46在执行前存储浏览器12。在执行时，浏览器12被传输到系统存储器38。

桥44还耦合到另一条总线48。总线48可以耦合串行输入/输出(SI0)设备50。SIO设备50可以连接到调制解调器52，调制解调器52为基于处理器的系统32提供因特网访问。

中文网页内容由英语HTML标签和按照已知中文字符集标准编码的中文文本字符串组成。当把网页读入浏览器时，它的所有内容(包括英语标签和编码的中文文本字符串)被首先转换为统一码文本字符串。这个统一码文本字符串然后由HTML解析程序解析，并且建立一个文件对象模型以表示网页的抽象数据结构。然后应用绘制引擎遍历文件对象模型，以便使用与HTML标签相关的格式和字体访问和绘制该页的每一元素。

在绘制过程期间，绘制引擎一次绘制一个统一码字符。对于每一特定统一码字符，绘制引擎针对字体文件的可用性索引矩阵运行快速检查，以确定给定的统一码字符的字体是否可在给定的字体文件中获得。如果该字符不在该字体文件中，则绘制引擎搜索下一个字体文件，搜寻尽可能接近该样式的字体。

当找到相应于该字符的字体时，把该字符的统一码转换回国家字符集编码，使用该编码的值索引该字符的字体字节在给定的字体文件中的偏移。然后绘制引擎取出这些字体字节，并在由布局引擎计算的给定位置产生该字符的字形图像。

在这一过程期间，有两个步骤进行字符集转换。一个步骤是在网页源被解析前将其转换为统一码。另一个步骤是将文本字符串中的每一个统一码字符转换为其字符集编码标准，以便可以使用它的值作为索引在字体文件中取出字体信息。

例如，如果源网页是一个HTML页，它的中文字符内容以GBK编码方案编码，那么，当把该网页读入浏览器时，英语HTML标签和以GBK编码的中文文本字符串通过一个统一码转换器，在那里通过直接的一对一映射表，把每一中文字符(16位GBK代码)转换为统一码。GBK代码自身在相邻的块中。因此，映射表是一个一维数组，具有大约21,000个条目，在简单计算后可以使用该GBK代码作为对这一数组的索引。这一过程是高效的，包括存储一个2x21,000字节的数组。不涉及复杂的检索。

为绘制现在编码为统一码的字符，直接使用该统一码索引字体文件，或者把该统一码转变回另一种编码，该另一种编码具有一个与其相关的字体文件。对于中文字符，因为统一码不表示在一个相邻的块中的中文字符，因此，遵照一个特定标准的布局次序将字体安排在相邻块中。在这种场合，浏览器需要将统一码字符转换回到一种标准。

然而，不能使用在转换GBK到统一码时所涉及的直接数组索引把统一码变换到一种像GB2312或BIG5或GBK的标准。可以建立具有整个统一码标准的大小的另一个映射表，或者通过搜索GBK到统一码的映射表进行反向转换。

对于支持大约21,000个中文字符和使用GBK编码中文的浏览器，GBK到统一码的映射表大约是2x21,000字节，统一码到GBK的映射表将具有大约2x65,000字节大小。

支持(无论是以ISO-2022-CN-EXT还是GB 18030编码的)100,000个中文字符的浏览器需要一个到统一码的映射表(使用代理区域)，该表具有大约4x100,000字节的大小。逆映射表将有大约4x1000,000字节的大小，因为统一码代理具有大约1,000,000的范围。这里，使用4x而不是2x，因为统一码代理区域对于它表示的每一字符有4个字节。

为避免用于将统一码映射回到ISO-2022-CN-EXT或GB18030的大的逆映射表，搜索原来的ISO-2022-CN-EXT到统一码的映射表(或GB18030到统一码的映射表)以进行逆映射。这恰好地折衷处理器速度和存储器。

由统一码引入的转换问题在于，中文字符在统一码中不是以和在国家字符集标准中同样的次序连续分配的。可以以这种方式使用统一码代理区域，即，使得100,000中文字符的大多数在统一码代理区域中具有相邻的布局。在一些实施例中可以不需要用于反向转换的巨大的映射表或处理器加强的搜索。同时，可以保留与统一码值仍然在常规16位统一码范围内的(那些不在代理区域中的)中文字符的向下兼容性。

对于中文字符是按照ISO-2022-CN-EXT编码的网页，这里中文字符在几个95x95平面中安排，这100,000中文字符可以在12个平面内安排，每一个平面具有95行(0x20，0x21，...，0x7f)和95列(0x20，0x21，...，0x7f)。

这些平面和ISO-2022平面相同。每一平面具有9025((0x7f-0x20)x(0x7f-0x20)＝95x95)个字符。12个平面包含所有中文字符。16个平面包含大约150,000个字符，多于所有可能的CJK和越南字符加在一起的数目。

在统一码的代理区域内，可以这样安排这些平面，即，使得在95x95字符的平面和统一码之间的映射简单而直接，而不需巨大的映射表或者复杂的搜索算法。这样，平面可以连续映射到统一码代理区域的连续区域内。例如，第一个95x95字符的平面可以映射到代理的第一个95行，在每一平面和代理区域之间有相同的(行，列)关系。一个平面内的列可以映射到代理区域的第一个95列。第二个95x95字符的平面可以映射到代理的第二个95行，在该平面和代理区域之间有相同的(行，列)关系。在该平面内的列映射到代理区域的第一个95列。

代理区域有从0xD800到0xDBff的总共1024行。所以95列总共可以包含97280(1024x95)个字符，比每一平面有9025个字符的10个平面稍多。换句话说，如果要使用10个中文字符平面实施，则我们需要把它们映射到代理区域的10x95x950个行以支持90,250个字符。对于在常规GBK区域内的那些现有的中文字符(它们被映射到16位统一码区域)，则支持多于100,000个字符。

在一个实施例中可以以非常简单的方式把平面号、行号和列号(PRC)映射到代理区域。在统一码术语中，代理区域中的行和列分别称为高代理和低代理。一个平面、行和列中的一个字符，它的代理区域分配是：

高代理＝平面x95+行号

低代理＝列号

逆映射算法可以同样简单。对于在代理区域中的一个已知的统一码字符，它的平面号、在该平面中的行号和列号如下：

平面＝(高代理-0xD800)％95

行＝(高代理-0xD800)mod 95+0x20

列＝(低代理-0xDC00)+0x20

这一布局安排遵从统一码和向下兼容。它不覆盖在16位区域中的现有的统一码分配。新引入的字符不需提供映射表，也不需要复杂的转换算法。在屏幕绘制或打印期间，对于在一个字体文件中索引该字符的字体可以直接使用寻址方式(平面，行，列)或者(高代理，低代理)。系统可以渐进实现。任何销售商都可以减少或增加所支持的平面的数目而不干涉其它字符的转换、绘制或其它处理。例如，一个销售商可以只想在16位GBK和16位统一码实现之外实现一个或者多个95x95字符的平面。于是销售商可以支持大约29,000个字符，这足够支持在GB 18030标准中定义的所有27,000个字符。

使用映射表，字体文件也可以以容易使用的布局安排。换句话说，因为字符自身在相邻的块中，在每一95x95字符的平面内如此，它们的表示在统一码代理区域内也是如此，所以可以设计字体检索机制，使得当源HTML页被解析为统一码字符串时执行字符的屏幕绘制和打印机输出。对于在16位范围内的统一码字符，可以使用一个杂凑函数检查一个64k的矩阵，以确定一个特定字符是否可在一个特定的国家字符集中和它相关的字体文件中获得。如果可以，则使用该字体。如果不可以，则可以在下一国家字符集中搜索该字符。如果用户没有优选项，则可以重写缺省的字体搜索机制。

对于在代理区域内的统一码字符，浏览器查找一组新的字体文件。在该组字体文件中，每一字体文件具有在一个给定的平面(有95x95个字符)内的那些字符的字体。代理区域中的每一统一码字符知道它原来的平面号、行号和列号的位置，因此浏览器知道字体文件以检索该字体。在一个给定的字符平面内，每一字符的字体采用和这一统一码字符的(行，列)值同样的次序安排。因为对于在代理区域中的那些字符可以使用非常简单的统一码到行、列的转换，因此每一字符的字体也采用和该统一码字符的代理值对同样的次序安排。

总而言之，在一个实施例中字体文件分成平面，每一平面具有95x95个字符的字体。特定字符的字体可以直接从它的(平面，行，列)值、或从它的代理统一码值以简单的计算定位。

例如，对于一个占用28字节的位映射的14x16字体，对于一个在平面X、行Y和列Z的字符，我们将有一个字体文件名，诸如FontPlaneX。在该字体文件内，该字符的字体的开始字节是28*(Y*95+Z)，如果我们假定行和列是从0到94计数。

ISO-2022-CN和ISO-2022-CN-EXT定义一种编码字符集的机制，该字符集列在下表左列，使用在下表右列表示的字符集指定序列：

字符集	字符集指定符序列
字符集	字符集指定符序列	GB2312	1B 24 29 41
CNS 11643-1992平面1	1B 24 29 47	GB2312	1B 24 29 41
CNS 11643-1992平面1	1B 24 29 47	CNS 11643-1992平面2	1B 24 2A 48
ISO-IR-165	1B 24 29 45	CNS 11643-1992平面2	1B 24 2A 48
ISO-IR-165	1B 24 29 45	CNS 11643-1992平面3	1B 24 2B 49
CNS 11643-1992平面4	1B 24 2B 4A	CNS 11643-1992平面3	1B 24 2B 49
CNS 11643-1992平面4	1B 24 2B 4A	CNS 11643-1992平面5	1B 24 2B 4B
CNS 11643-1992平面6	1B 24 2B 4C	CNS 11643-1992平面5	1B 24 2B 4B

字符集	字符集指定符序列
字符集	字符集指定符序列	CNS 11643-1992平面7	1B 24 2B 4D

在一个给定的文本字符串中，如果一个应用程序看见这些字符集指定符序列中的一个话，则它切换到解释后继文本字符串的模式，使得每两个字节组合为相应于该字符集指定符序列的字符集中的单个字符。为编码多于100,000字符，在一个实施例中，上面的字符集指定符序列的最后两个数字可以扩展：

字符集	字符集指定符序列
字符集	字符集指定符序列	新平面0	1B 24 71 41
新平面1	1B 24 71 42	新平面0	1B 24 71 41
新平面1	1B 24 71 42	新平面2	1B 24 71 43
新平面3	1B 24 71 44	新平面2	1B 24 71 43
新平面3	1B 24 71 44	新平面4	1B 24 71 45
新平面5	1B 24 71 46	新平面4	1B 24 71 45
新平面5	1B 24 71 46	新平面6	1B 24 71 47
新平面7	1B 24 71 48	新平面6	1B 24 71 47
新平面7	1B 24 71 48	新平面8	1B 24 71 49
新平面9	1B 24 71 50	新平面8	1B 24 71 49
新平面9	1B 24 71 50	新平面10	1B 24 71 51
新平面11	1B 24 71 52	新平面10	1B 24 71 51
新平面11	1B 24 71 52	新平面12	1B 24 71 53

根据图3，实现浏览器12的软件60可以以接收采用平面、行和列(PRC)格式的HTML网页开始，如方框62指示。平面由在文本字符串开始处的字符集指示符隐式表示，行和列由在文本字符串中的每两个字节表示。

每当改变一个字符集平面时，这在菱形64判定，则插入一个新的字符集指示符(CSG)以指示模改变，这在框66指示。对由ISO-2022-CN和ISO-2022-CN-EXT定义的字符，这在菱形68判定，可以使用表映射来映射它的16位统一码值，这在框70指示。之后，完成绘制步骤，这在框72指示。

对于支持100,000或者更多字符的浏览器，把那些新定义的和编码的字符映射到代理区域，如方框74指示。对于在代理区域中的统一码字符，可以使用代理值来计算原来的平面、行和列值。然后引导浏览器寻找它的文件位置和一个特定字符的字体字节在一个字体文件内的偏移，如方框76指示。然后如在方框78指示，针对ISO-2022-CN-EXT场合或者映射到代理区域的扩展的场合产生字形图像。

虽然对于有限数目的实施例说明了本发明，但是熟悉本技术领域的人理解可以对其进行各种修改和改变。本发明的意图是，所附权利要求覆盖这种落入本发明的真正精神和范围内的修改和改变。

Claims

1.一种用于转换字符代码的设备，包括：

用于接收包含字符的文件的装置；

第一代码转换器，用于当字符属于第一类型时则把所述文件的字符转换成第一代码格式；

第二代码转换器，用于当字符属于第二类型时则把所述文件的字符转换成第二代码格式，所述第一代码格式不同于所述第二代码格式，且所述第一类型不同于所述第二类型。

2.如权利要求1的设备，包括用于接收采用平面、行和列格式的网页的接收器。

3.如权利要求1的设备，包括用于确定字符集平面是否改变的装置。

4.如权利要求3的设备，包括用于当字符集平面已经改变时插入新的字符集指示符的单元。

5.如权利要求3的设备，其中所述用于确定的装置还用于确定所述文件中的字符是不是按照第一代码格式定义的。

6.如权利要求5的设备，包括用于当所述字符是按照第一代码格式编码时则把统一码值表格映射到该第一代码格式的装置。

7.如权利要求5的设备，其中所述用于确定的装置还用于当未使用第一格式时则使用统一码的代理区域。

8.如权利要求7的设备，所述用于确定的装置还使用代理值来查找字体文件位置和偏移。

9.如权利要求7的设备，还包括用于把字体文件分割为平面的分割器。

10.如权利要求9的设备，其中所述分割器根据平面、行和列信息或根据代理统一码信息有选择地确定特定字符的字体。