CN111428441A

CN111428441A - 面向信息系统跨平台应用的汉字编码转换方法及设备

Info

Publication number: CN111428441A
Application number: CN202010190157.0A
Authority: CN
Inventors: 葛光富
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-17
Anticipated expiration: 2040-03-18
Also published as: CN111428441B

Abstract

本发明公开了一种面向信息系统跨平台应用的汉字编码转换方法及设备。该方法包括：依照汉字国标码的字节长度、码值范围生成包含全部汉字的国标编码全汉字文本文件；将国标编码全汉字文本文件转换为Unicode编码全汉字文本文件；根据国标编码全汉字文本文件和Unicode编码全汉字文本文件，生成汉字国标编码与Unicode编码转换中间映射表；从待转换字符串中提取中文字符，根据汉字国标编码与Unicode编码转换中间映射表以及Unicode编码与UTF‑8编码转换规则，得到该中文字符对应的UTF‑8编码或国标编码。本发明的方法简单易行，能够为信息处理尤其是嵌入式终端提供轻量化的跨平台通用汉字编码转换手段，可支撑新开发信息系统兼容与已有系统的中文信息交互。

Description

面向信息系统跨平台应用的汉字编码转换方法及设备

技术领域

本发明属于计算机技术领域，具体涉及一种汉字编码转换方法及设备。

背景技术

在我国的信息系统工程应用中，顺应国际化时代的发展，各类新运用的工具和软件的汉字编码大多采用了全球共享通用的Unicode字符集，该字符集目前能够涵盖世界上主要语言的符号和文字。而在指挥控制、网络安全、公共交通等业务领域方面，现役信息系统的汉字编码包括有GB2312、GBK以及GB18030等国标码，为兼容与已有系统的互译互操作，故按照国际化要求新开发的信息系统在相当的一段时间内，仍会面临着上述编码形式的汉字编码转换需求。

综合军民用市场，有着大量的计算处理设备用于搭建各型信息系统，但这些设备却部署着种类多样、复杂不一的操作系统运行环境。尤其是嵌入式设备更为突出，如车载终端的VxWorks、ReWorks等，便携终端的Android、WinCE、AOS、SyberOS等。因此，为降低系统开发维护成本、提升行业企业效益，用于支撑应用跨操作系统平台快速移植改造的汉字编码转换技术，成为信息系统软件服务平台统筹规划中的必要考虑因素。

要进行汉字编码转换，对于Linux/类Linux系统上的软件，利用GNU(GNU is NotUnix，指的是一个自由软件工程项目)的libconv库即可实现。该库支持包括世界主流语系在内的字符集区域标准与国家标准编码间的互转，但是这对于计算处理资源受限的信息处理尤其是嵌入式的终端而言，资源占用就显得有点庞大，且不利于通用移植改造应用到各类操作系统尤其是国产化操作系统。

因此，需要一种新的更简便、更利于移植的轻量级编码转换方法。

发明内容

发明目的：针对现有技术的不足，本发明提出一种面向信息系统跨平台应用的汉字编码转换方法及设备，能够以较低的计算存储资源实现中文的国标码与国际编码转换。

技术方案：第一方面，提供一种面向信息系统跨平台应用的汉字编码转换方法，包括以下步骤：

依照汉字国标码的字节长度、码值范围生成包含全部汉字的国标编码全汉字文本文件；

将国标编码全汉字文本文件转换为Unicode编码全汉字文本文件；

根据国标编码全汉字文本文件和Unicode编码全汉字文本文件，生成汉字国标编码与Unicode编码转换中间映射表；

从待转换字符串中提取中文字符，根据汉字国标编码与Unicode编码转换中间映射表以及Unicode编码与UTF-8编码转换规则，得到该中文字符对应的UTF-8编码或国标编码。

其中，所述国标编码采用GB18030编码，所述国标编码全汉字文本文件为GB18030编码全汉字文本文件。

进一步地，所述生成汉字国标编码与Unicode编码转换中间映射表包括：

(a)创建通用代码语言可识别的GB18030与Unicode编码双向映射表，包括：GB18030到Unicode汉字编码映射表和Unicode到GB18030汉字编码映射表，并初始化；

(b)从GB18030编码全汉字文本文件中依次从前向后取得两个字节组成字符，根据字符的十六进制码值判断是否GBK汉字，若不是则再取得两个字节组成4字节的CJK统一汉字扩充A汉字，得到当前汉字的GB18030码值；

(c)从Unicode编码全汉字文件中依次从前向后取得两个字节组成汉字，获取该汉字的Unicode码值，根据预先构建的位置计算公式计算得到GB18030到Unicode汉字编码映射表的Unicode码值存表位置，并据此在相应表中该位置存入汉字Unicode码值；根据预先构建的存表值计算公式计算得到Unicode到GB18030汉字编码映射表的GB18030码存表值，并据此将该GB18030码存表值存放到相应表中；

(d)重复执行步骤b和步骤c直至全汉字文件遍历结束，生成最终的GB18030与Unicode编码双向映射表。

其中，所述位置计算公式为：

所述存表值计算公式为：

其中v为汉字的GB18030码值，v₁、v₂、v₃、v₄分别为汉字GB18030码从低到高第1～4个字节的码值。

进一步地，所述根据汉字国标编码与Unicode编码转换中间映射表以及Unicode编码与UTF-8编码转换规则，得到该中文字符对应的UTF-8编码或国标编码包括：

从待转换字符串中提取国标码字符，查找汉字国标编码与Unicode编码转换中间映射表换算到Unicode编码，根据Unicode编码与UTF-8编码转换规则，得到UTF-8编码；

从待转换字符串中提取UTF-8字符，根据Unicode编码与UTF-8编码转换规则，得到Unicode编码，查找汉字国标编码与Unicode编码转换中间映射表换算到国标编码；

其中，所述查找汉字国标编码与Unicode编码转换中间映射表换算到Unicode编码包括：根据位置计算公式使用汉字的GB18030码值计算得到Unicode码值存表位置，之后通过查找GB18030到Unicode汉字编码映射表中的该位置得到转换后的汉字Unicode码值；

所述查找汉字国标编码与Unicode编码转换中间映射表换算到国标编码包括：使用汉字的Unicode码值查找Unicode到GB18030汉字编码映射表中的对应下标位置获取GB18030码存表值，之后根据以下公式计算得到转换后的汉字国标码值：

其中c为汉字的Unicode码值，n为汉字的GB18030码存表值-24066。

第二方面，提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的步骤。

有益效果：本发明利用现存汉字国标码的字节长度、码值范围，通过预先生成汉字国标编码与Unicode编码转换中间映射表，作为编码转换时的查找依据，结合Unicode编码与UTF-8编码的转换规则，仅通过两次映射就可以实现中文的国标码与通常优选的国际编码UTF-8的业务实际转换要求。本发明设计的GB18030与Unicode编码双向映射表，结构精巧，简便易用，减少了计算存储资源的占用，达成轻量“瘦身”的目的，同时中文字符串汉字编码转换支持跨平台通用代码语言程序化实现，使得本发明方法能够更轻量地应用于各类业务信息系统，同时支撑应用本方法的软件部件甚至整件的快速跨平台迁移或改造，有利于提高信息系统的资源利用率以及降低系统的开发维护成本。

附图说明

图1是本发明的面向信息系统跨平台轻量应用的汉字编码转换方法的流程图；

图2是根据本发明实施例的GB18030编码全汉字文本文件的示意图；

图3是根据本发明实施例的GB18030编码全汉字文件转换到Unicode编码的操作示意图；

图4是根据本发明实施例的Unicode到GB18030编码映射表的示意图；

图5是根据本发明实施例的国标码中文字符提取的过程示意图；

图6是根据本发明实施例的UTF-8中文字符提取的过程示意图；

图7是根据本发明实施例的查表映射换算到Unicode编码的过程示意图；

图8是根据本发明实施例的查表映射换算到国标码的过程示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

结合图1，根据本发明的一个实施例，一种面向信息系统跨平台轻量应用的汉字编码转换方法，包括如下步骤：

第一步、汉字编码转换中间映射表预制：在Windows7系统平台上，编写映射表制作过程辅助程序，通过使用辅助程序的国标码全汉字生成功能，其创建一个文本文件并以二进制形式打开后，依照汉字国标码的字节长度、码值范围生成包含全部汉字的GB18030编码全汉字文本文件，当前汉字国标码主要有GB2312、GBK、GB18030，依次前向兼容，故等同GB18030编码全部；GBK全称《汉字内码扩展规范》，为双字节编码，其编码的首字节在0x81与0xFE之间，尾字节在0x40与0xFE之间且不为0x7F；GB18030《信息交换用汉字编码字符集基本集的扩充》，是GBK的取代版本，在其基础上增加了4字节编码的CJK统一汉字扩充A汉字，该增加部分汉字编码的第一字节在0x81与0x82之间，第二字节在0x30与0x39之间，第三字节在0x81与0xFE之间，第四字节在0x30与0x39之间，将GB18030编码范围的全部码值依次从小到大保存到上述文件后关闭文件，最终生成包含全部汉字的GB18030编码全汉字文本文件，如图2所示；之后使用记事本方式打开该文件并将其另存为Unicode编码的新文件即Unicode编码全汉字文件，操作如图3所示；紧接着使用辅助程序的编码转换中间映射表生成功能最终得到通用代码语言可识别的汉字国标与国际编码转换中间映射表即GB18030与Unicode编码双向映射表。

其中编码转换中间映射表生成的详细步骤如下：

(1-1)创建通用C/C++代码语言可识别的GB18030与Unicode编码双向映射表，包括GB18030到Unicode汉字编码映射表和Unicode到GB18030汉字编码映射表，其一GB18030到Unicode汉字编码映射表中数组支持存放元素65536个，数组元素下标能够一一对应GB18030汉字字符码值，数组元素数值为2个字节大小存储的Unicode汉字字符码值，初始值为代表无效映射的0xFFFF，其二Unicode到GB18030汉字编码映射表中数组支持存放元素65536个，数组元素下标为Unicode汉字字符码值，数组元素数值为2个字节大小存储并能够一一对应的GB18030汉字字符码值，初始值为代表无效映射的0xFFFF；

(1-2)从GB18030编码全汉字文本文件中依次从前往后取得两个字节组成字符，根据字符的十六进制码值满足

(其中v_h、v_l分别为首、尾字节的码值)与否来判断是否GBK汉字，不是则再接着从前往后取得两个字节组成4字节的CJK统一汉字扩充A汉字，以此得到当前汉字的GB18030码值；

(1-3)从Unicode编码全汉字文件中依次从前往后取得两个字节组成汉字，获取该汉字的Unicode码值，紧接着根据公式

计算得到GB18030到Unicode汉字编码映射表的Unicode码值存表位置，并据此在相应表中该位置存入汉字Unicode码值，以及公式

计算得到Unicode到GB18030汉字编码映射表的GB18030码存表值，并据此将该GB18030码存表值存放到相应表中(Unicode码值下标位置)，其中v为汉字的GB18030码值，v₁、v₂、v₃、v₄分别为汉字GB18030码从低到高第1～4个字节的码值，(0xFE-0x40+1)＝191为GBK编码尾字节占据的码位数目，同理加推导10、(10×126)＝1260、(1260×10)＝12600分别为CJK统一汉字扩充A汉字第四字节、第三四字节、第二三四字节占据的码位数目，以及(191×126)＝24066为GBK编码双字节占据的码位数目；

(1-4)重复前两个步骤直至全汉字文件遍历结束，最终生成通用代码语言可识别的GB18030与Unicode编码双向映射表，映射表总计1024行，每行64个码值映射元素，其一Unicode到GB18030编码映射表如图4所示，其中汉字“科”的表中位置为第488行第18列，注：图中左侧的数值如21、508为表元素所在的行，上部的数值如10、120为字符所在的列刻度值，表中每列起始元素首字符的刻度值为4，每个元素含逗号占据7个列刻度，其中元素0xC6BF的首字符刻度值为123，故(508-21+1)＝488、((123-4)÷7+1)＝18，其编码映射为0x79D1→0xC6BF。

第二步、中文字符串汉字编码转换：通过运用GB18030与Unicode编码双向映射表、UTF-8与Unicode编码转换规则，对要转换的国标码或UTF-8编码字符串进行中文字符提取、国际编码转换、查表映射换算等组合系列处理，得到对应UTF-8编码或国标码的中文字符串。汉字编码转换各过程的详细步骤如下：

(2-1)中文字符提取：按照需求提取中文字符的编码类型包括国标码、UTF-8，并根据该类型编码的字节长度、码值范围，判断提取相应国标码或UTF-8编码的中文字符，包括：

1)国标码中文字符提取：如图5所示，从国标码字符串中依次从前往后读取一个字节，根据码值判断是否基础ASCII码字符，不是则再读取一个字节组成两个字节，根据字符的十六进制码值满足

(其中v_h、v_l分别为首、尾字节的码值)与否判断是否GBK汉字字符，不是则再读取两个字节组成4个字节的CJK统一汉字扩充A的汉字字符；

2)UTF-8中文字符提取：如图6所示，从UTF-8编码字符串中依次读取一个字节，根据码值判断是否基础ASCII码字符，不是则按照UTF-8编码规则再读取一个字节直至到组成UTF-8字符。

(2-2)国际编码转换：按照转换需求，进行汉字的国际Unicode到UTF-8、或UTF-8到Unicode编码转换，包括：

1)Unicode到UTF-8编码转换：按照表1中体现的UTF-8与Unicode间的编码转换规则，根据中文字符的Unicode码值计算得到该汉字的UTF-8码值；

2)UTF-8到Unicode编码转换：按照表1中体现的UTF-8与Unicode间的编码转换规则，根据中文字符的UTF-8码值的计算得到该汉字的Unicode码值。

表1 UTF-8与Unicode编码对照表

UTF-8与Unicode编码转换规则具体为：在只包含1个字节的UTF-8编码中，其最高位置0，其余的7个二进制位用来对字符进行编码；在含n(1<n≤6)个字节的UTF-8编码中，其第一个字节的前n位置1，第n+1位置0，后续字节的最高位均置1，次高位均置0，全部字节中剩余的二进制用来对字符进行编码。一个字符的UTF-8编码中包含字节的个数取决于其Unicode编码所处的范围，具体如表1所示，该表中*表示字符编码的可用二进制位，将Unicode编码的二进制位按由低到高的次序放入*表示的空位中即可得到其所对应的UTF-8编码。

(2-3)查表映射换算，按照转换需求，通过查找GB18030与Unicode编码双向映射表以及结合存表关系进行数值换算，将汉字的国标码转换到Unicode编码或Unicode编码转换到国标码，包括：

1)查表映射换算到Unicode编码：如图7所示，根据第一步中公式(1)使用汉字的国标码值计算得到Unicode码值存表位置，之后通过查找GB18030到Unicode汉字编码映射表中的该位置得到转换后的汉字Unicode码值；

2)查表映射换算到国标码：如图8所示，使用汉字的Unicode码值查找Unicode到GB18030汉字编码映射表中的对应下标位置获取GB18030码存表值，之后根据公式

计算得到转换后的汉字国标码值，其中c为汉字的Unicode码值，n为汉字的GB18030码存表值-24066，其中24066为GBK编码双字节占据的码位数目，[0x3400，0x4DB5]为GBK汉字对应Unicode的编码范围，0x81308130为CJK统一汉字扩充A汉字的起始码值，10、1260、12600分别为CJK统一汉字扩充A汉字第四字节、第三四字节、第二三四字节占据的码位数目，0x100、0x10000、0x10000分别为CJK统一汉字扩充A汉字第四字节、第三字节、第二字节码值以0开始从小到大排序序号要换算到该汉字四字节相对扩充A汉字起始码差值时要相乘的系数。

基于与方法实施例相同的技术构思，根据本发明的另一实施例，提供一种计算机设备，所述设备包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现方法实施例中的各步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种面向信息系统跨平台应用的汉字编码转换方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的汉字编码转换方法，其特征在于，所述国标编码采用GB18030编码，所述国标编码全汉字文本文件为GB18030编码全汉字文本文件。

3.根据权利要求2所述的汉字编码转换方法，其特征在于，所述生成汉字国标编码与Unicode编码转换中间映射表包括：

(b)从GB18030编码全汉字文本文件中依次从前往后取得两个字节组成字符，根据字符的十六进制码值判断是否GBK汉字，若不是则再依次取得两个字节组成4字节的CJK统一汉字扩充A汉字，得到当前汉字的GB18030码值；

(c)从Unicode编码全汉字文件中依次取得两个字节组成汉字，获取该汉字的Unicode码值，根据预先构建的位置计算公式计算得到GB18030到Unicode汉字编码映射表的Unicode码值存表位置，并据此在相应表中该位置存入汉字Unicode码值；根据预先构建的存表值计算公式计算得到Unicode到GB18030汉字编码映射表的GB18030码存表值，并据此将该GB18030码存表值存放到相应表中；

4.根据权利要求3所述的汉字编码转换方法，其特征在于，所述GB18030到Unicode汉字编码映射表中数组支持存放元素65536个，数组元素下标能够一一对应GB18030汉字字符码值，数组元素数值为2个字节大小存储的Unicode汉字字符码值，初始值为代表无效映射的0xFFFF；所述Unicode到GB18030汉字编码映射表中数组支持存放元素65536个，数组元素下标为Unicode汉字字符码值，数组元素数值为2个字节大小存储并能够一一对应GB18030汉字字符码值，初始值为代表无效映射的0xFFFF。

5.根据权利要求3所述的汉字编码转换方法，其特征在于，所述步骤b中根据字符的十六进制码值是否满足

来判断是否GBK汉字，其中v_h、v_l分别为首、尾字节的码值。

6.根据权利要求3所述的汉字编码转换方法，其特征在于，所述步骤c中位置计算公式为：

7.根据权利要求3所述的汉字编码转换方法，其特征在于，所述步骤c中存表值计算公式为：

8.根据权利要求1所述的汉字编码转换方法，其特征在于，所述从待转换字符串中提取中文字符包括：按照转换需求提取字符的编码类型，并根据该类型编码的字节长度、码值范围，判断提取相应国标码或UTF-8编码的中文字符。

9.根据权利要求3所述的汉字编码转换方法，其特征在于，所述根据汉字国标编码与Unicode编码转换中间映射表以及Unicode编码与UTF-8编码转换规则，得到该中文字符对应的UTF-8编码或国标编码包括：

其中c为汉字的Unicode码值，n为汉字的GB18030码存表值-24066。

10.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-9中的任一项所述方法的步骤。