CN113296614A

CN113296614A - 生僻汉字的编码方法、装置、电子设备及存储介质

Info

Publication number: CN113296614A
Application number: CN202110677209.1A
Authority: CN
Inventors: 居浩宇; 王珂; 赵晓飞
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-24

Abstract

本申请实施例提供生僻汉字的编码方法、装置、电子设备及存储介质，包括获取生僻汉字集中各生僻汉字的汉字编码序列；对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系，从而实现了基于EBCDIC编码格式的生僻汉字的编码表示，解决了现有的IBM系统中无法支持生僻汉字的问题。

Description

生僻汉字的编码方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种生僻汉字的编码方法、装置、电子设备及存储介质。

背景技术

目前，银行平台下的计算机通常使用IBM主机系统，而该主机下的ZOS系统一般仅支持EBCDIC编码。

现有的EBCDIC编码支持单字节字符集和双字节字符集，其仅能支持约3万个汉字。国际标准汉字包括约8万个，其中不乏有会使用在人名或地名中使用到的生僻汉字。

但是，EBCDIC编码的码位已经分配给常用汉字或英文字符，并没有空余的单字节字符集或双字节字符集的码位空间以分配给这些生僻汉字分配。因此，如何在现有的IBM主机系统上为这些生僻汉字进行编码处理成为亟待解决的问题。

发明内容

本申请实施例提供一种生僻汉字的编码方法、装置、电子设备及存储介质，以为生僻汉字的EBCDIC编码处理提供解决方案。

一方面，本申请提供了一种生僻汉字的编码方法，包括：

生僻汉字的编码方法，其特征在于，包括：

获取生僻汉字集中各生僻汉字的汉字编码序列；

对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；

根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系。

可选实施例中，不同生僻汉字的汉字编码序列映射至EBCDIC编码的保留区域的不同编码值上。

可选实施例中，所述EBCDIC编码序列包括标识字节和转换字节；

其中，所述标识字节用于表示所述EBCDIC编码序列为生僻汉字的EBCDIC编码序列；所述转换字节用于区别不同的生僻汉字的EBCDIC编码序列。

可选实施例中，所述转换字节是通过对所述汉字编码序列进行基于哈希算法的编码转换处理获得的。

可选实施例中，所述标识字节位于所述EBCDIC编码序列的头字节。

可选实施例中，所述标识字节的编码值的取值为FE。

可选实施例中，所述转换字节的编码值的取值范围为C04141至ECFEBF。

可选实施例中，所述编码方法还包括：

读取所述生僻汉字集的编码转换关系；

根据待识别生僻汉字的汉字编码，确定与所述待识别生僻汉字对应的EBCDIC编码序列。

第二方面，本申请提供了一种生僻汉字的编码装置，包括：

获取模块，用于获取生僻汉字集中各生僻汉字的汉字编码序列；

转换处理模块，用于对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；

构建模块，用于根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系。

第三方面，本申请提供了一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面所述生僻汉字的编码方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面的生僻汉字的编码方法。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面的生僻汉字的编码方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所基于的一种网络架构的示意图；

图2是本申请提供的一种生僻汉字的编码方法的流程示意图；

图3为本申请提供的一种生僻汉字的编码装置的结构示意图；

图4为本申请实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的系统和方法的例子。

为了能够清楚的说明本申请提供的校验方案，首先将对涉及的名词进行解释：

编码：为每一个字符分配可以用于在计算机中存储表示的编码方式所形成的集合，也称为字符编码表。

EBCDIC：全称Extended Binary Coded Decimal Interchange Code，其是IBM主机系统下的一种字符编码表。

GB18030：是工信部推出的电子产品汉字中文编码国家标准。

现有的EBCDIC编码支持单字节字符集(即SBCS)和双字节字符集(即DBCS)，其只能够支持32,443个字符(其中汉字27533个)。

而随着GB18030国家汉字编码标准(GB18030)中字符以及公安部人口信息用字的逐年扩充，GB18030-2005新补充的42711个生僻汉字，这些补充的生僻汉字在现有的IBM主机系统上缺少其相应的EBCDIC编码格式，这也使得当出现与生僻汉字相关的信息时，IBM主机系统及相应数据库无法有效对这些生僻汉字进行存储，严重影响了使用。

一般来说，EBCDIC编码的码位已经分配给常用汉字或英文字符，并没有空余的单字节字符集或双字节字符集的码位空间以分配给这些生僻汉字分配。因此，如何在现有的IBM主机系统上为这些生僻汉字进行编码处理成为亟待解决的问题。

针对上述问题，发明人发现在EBCDIC码中还包括有可用于自定义编码的保留区，利用该保留区可为生僻汉字进行EBCDIC编码，即通过对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系，从而实现了基于EBCDIC编码格式的生僻汉字的编码表示，解决了现有的IBM系统中无法支持生僻汉字的问题。

下面将结合不同实现方式对本申请提供的方法进行说明。

参考图1，图1为本申请所基于的一种网络架构的示意图，该图2所示网络架构具体可包括服务器1、终端设备2。

其中，服务器1具体是指用于对各类汉字、字母、数字进行编码的编码服务器，其具体可架设在云端的服务器集群中，其可承载有本申请提供的生僻汉字的编码装置，以基于本申请提供的生僻汉字的编码方法执行对生僻汉字进行编码处理。

终端设备2是指基于IBM主机系统的硬件设备，其可使用通过前述服务器1编码后的生僻汉字以进行信息的表达和展示。

其中，当服务器1中的生僻汉字的编码装置完成生僻汉字的编码之后，将获得生僻汉字集的编码转换关系，并将该生僻汉字集的编码转换关系通过网络下发给终端设备2，以供终端设备2存储。

当终端设备2加载该生僻汉字集的编码转换关系之后，可基于该生僻汉字集的编码转换关系对需要表达和显示的生僻汉字进行基于EBCDIC编码的显示。

实施例一

图2是本申请提供的一种生僻汉字的编码方法的流程示意图，如图2所示的，该方法包括：

步骤101、获取生僻汉字集中各生僻汉字的汉字编码序列。

步骤102、对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列。

步骤103、根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系。

需要说明的是，本申请提供的生僻汉字的编码方法具体可应用于生僻汉字的编码装置上，该编码装置可安装或集成在如图1所示的网络架构中的服务器1中。

具体来说，为了实现对于生僻汉字的编码处理，编码装置首先需要获取待编码的生僻汉字集。其中，该生僻汉字集中包括有待编码的各个生僻汉字以及相应的汉字编码序列。一般的，生僻汉字的汉字编码序列是指生僻汉字在GB18030标准格式下的编码序列。编码装置可通过网络下载以获取生僻汉字的汉字编码序列。

然后，编码装置将会针对生僻汉字集中的每一个生僻汉字，进行编码转换处理，以将每一个生僻汉字从其在GB18030标准格式下汉字编码序列EBCDIC标准格式下的EBCDIC编码序列。

对于EBCDIC码来说，其一般可支持单字节字符集或双字节字符集的编码转换，即利用单字节的编码序列以用于对单字节字符集中的字符进行表示，或利用双字节的编码序列以用于对双字节字符集中的字符进行表示。因此，在前述基础上，EBCDIC码只能够支持32,443个字符(其中汉字27533个)的表示，且这些字符已经被前述的单字节字符集中的字符和双字节字符集中的字符占据，并没有多余的编码空间分配给本申请所针对的生僻汉字。

基于此，在本申请中利用了EBCDIC编码的保留区域，以用于对生僻汉字进行编码转化和支撑。具体的，EBCDIC编码的保留区域是指EBCDIC编码标准下预留给用户以进行自定义的编码区域。本申请正是利用了EBCDIC编码的保留区域以作为生僻汉字的EBCDIC编码的映射区域，实现为生僻汉字分配唯一EBCDIC编码序列的功能。

也就是说，编码装置对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列。

当完成对生僻汉字集中各生僻汉字的编码转换后，将根据生成各生僻汉字的EBCDIC编码序列得到生僻汉字集的编码转换关系，该生僻汉字集的编码转换关系用于表示生僻汉字集中每一个生僻汉字的汉字编码序列与其相应的EBCDIC编码序列之间的映射关系。

该生僻汉字集的编码转换关系可被终端设备直接加载使用，如，当IBM主机系统下的终端设备从网络上获取包括有生僻汉字的汉字编码序列时，终端设备可利用加载的生僻汉字集的编码转换关系，在编码转换关系中查找与生僻汉字的汉字编码序列对应的EBCDIC编码序列，以用于后续显示或其他处理。即，读取所述生僻汉字集的编码转换关系；根据待识别生僻汉字的汉字编码，确定与所述待识别生僻汉字对应的EBCDIC编码序列。

而在其他实施方式中，当IBM主机系统下的终端设备需要显示生僻汉字时，也可直接根据生僻汉字集的编码转换关系找到该生僻汉字的EBCDIC编码序列，并将其EBCDIC编码序列作为显示字符进行显示。需要说明的是，由于IBM主机系统下的终端设备并不能支持生僻汉字的显示，因此，在实际显示时，其所显示的字符并不为生僻汉字本身，而是生僻汉字对应的EBCDIC编码序列。

当然，在另外的实施方式中，当IBM主机系统下的终端设备中还包括有现有技术中的单字节字符集的EBCDIC编码以及双字节字符集的EBCDIC编码；因此，在终端设备获取到需要显示的EBCDIC编码序列时，可基于单字节字符集的EBCDIC编码、双字节字符集的EBCDIC编码以及生僻汉字集的编码转换关系，确定需要显示的EBCDIC编码序列对应的显示内容，如需要显示字符或EBCDIC编码序列本身。而通过这样的方式，可使得需要显示的EBCDIC编码序列能够被正确的显示出来，而不是进行了误显示或误读。

在上述实施方式的基础上，为了使得每个生僻汉字的EBCDIC编码序列是唯一的，在本实施方式中，编码装置在对各汉字编码序列进行编码转换处理时，还需要将不同生僻汉字的汉字编码序列映射至EBCDIC编码的保留区域的不同编码值上。

在上述实施方式的基础上，本申请还提供了生僻汉字的编码序列的具体结构。所述EBCDIC编码序列包括标识字节和转换字节；其中，所述标识字节用于表示所述EBCDIC编码序列为生僻汉字的EBCDIC编码序列；所述转换字节用于区别不同的生僻汉字的EBCDIC编码序列。

在本实施方式提供的每个生僻汉字的EBCDIC编码序列中，均包括有4个字节的编码值。

该4个字节中的头字节可为作为前述标识字节，在其中一种可选实施方式中，该标识字节的编码值的取值为FE。即，当终端设备接受到任一EBCDIC编码序列并发现其序列的头字节的编码值为FE时，该EBCDIC编码序列将用于表示生僻汉字，此时，终端设备可直接显示该EBCDIC编码序列。

该4个字节中的后3个字节可作为前述的转换字节。在其中一种可选实施方式中，该转换字节的编码值的取值范围为C04141至ECFEBF。换句话说，对于该4个字节中的第2个字节，其编码值的取值范围C0至EC；对于该4个字节中的第3个字节，其编码值的取值范围41至FE；对于该4个字节中的第3个字节，其编码值的取值范围41至BF。

为了保证每一生僻汉字具有唯一的EBCDIC编码序列，其每一生僻汉字的转换字节需要保证唯一性。基于此，在本实施方式中转换字节是通过对所述汉字编码序列进行基于哈希算法的编码转换处理获得的。

具体的，对于某一生僻汉字来说，其的EBCDIC编码序列表示为FExxyyzz，其中的FE为标识字节，xxyyzz分别为转换字节。

为了得到转换字节的编码值，将进行如下运算：

xx＝x’C0’+HEX((x’XXXXXX’+x’1’)/x’8CC5’)；

yy＝x’41’+HEX(((x’XXXXXX’+x’1’)％x’8CC5’)/x’BE’)；

zz＝x’41’+HEX(((x’XXXXXX’+x’1’)％x’8CC5’)％x’BE’)；

其中，HEX用于表示哈希算法的算法函数，XXXXXX’用于表示汉编码序列；C0’、8CC5’、41’、BE’分别为编码值。

通过上述方式能够得到生僻汉字在每一个转换字节上的编码值，而该转换字节的编码值和标识字节的编码值将构成EBCDIC编码序列。

本申请实施例提供生僻汉字的编码方法，包括获取生僻汉字集中各生僻汉字的汉字编码序列；对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系，从而实现了基于EBCDIC编码格式的生僻汉字的编码表示，解决了现有的IBM系统中无法支持生僻汉字的问题。

实施例二

在实施例一的基础上，实施例二提供了一种生僻汉字的编码装置，图3为本申请提供的一种生僻汉字的编码装置的结构示意图，如图3所示的，该编码装置包括：

获取模块301，用于获取生僻汉字集中各生僻汉字的汉字编码序列；

转换处理模块302，用于对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；

构建模块303，用于根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系。

可选实施例中，所述标识字节的编码值的取值为FE。

可选实施例中，所述编码装置还包括：识别模块；

所述识别模块，用于读取所述生僻汉字集的编码转换关系；以及根据待识别生僻汉字的汉字编码，确定与所述待识别生僻汉字对应的EBCDIC编码序列。

本申请实施例提供生僻汉字的编码装置，包括获取生僻汉字集中各生僻汉字的汉字编码序列；对各汉字编码序列进行编码转换处理，以将所述各汉字编码序列映射至EBCDIC编码的保留区域，得到各生僻汉字的EBCDIC编码序列；根据所述各生僻汉字的汉字编码序列和相应的EBCDIC编码序列，构建所述生僻汉字集的编码转换关系，从而实现了基于EBCDIC编码格式的生僻汉字的编码表示，解决了现有的IBM系统中无法支持生僻汉字的问题。

实施例三

图4为本申请实施例提供的电子设备的结构示意图，如图4所示，本申请实施例还提供一种电子设备1400，包括：存储器1401，处理器1402以及计算机程序。

其中，计算机程序存储在存储器1401中，并被配置为由处理器1402执行以实现本申请任意一个实施例提供的生僻汉字的编码方法。相关说明可以对应参见附图中的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

其中，本实施例中，存储器1401和处理器1402通过总线连接。

实施例四

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本申请任意一个实施例提供的生僻汉字的编码方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程问答系统的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、系统或设备使用或与指令执行系统、系统或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、系统或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前所述的生僻汉字的编码方法。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种生僻汉字的编码方法，其特征在于，包括：

获取生僻汉字集中各生僻汉字的汉字编码序列；

2.根据权利要求1所述的编码方法，其特征在于，不同生僻汉字的汉字编码序列映射至EBCDIC编码的保留区域的不同编码值上。

3.根据权利要求1所述的编码方法，其特征在于，所述EBCDIC编码序列包括标识字节和转换字节；

4.根据权利要求3所述的编码方法，其特征在于，所述转换字节是通过对所述汉字编码序列进行基于哈希算法的编码转换处理获得的。

5.根据权利要求3所述的编码方法，其特征在于，所述标识字节位于所述EBCDIC编码序列的头字节。

6.根据权利要求5所述的编码方法，其特征在于，所述标识字节的编码值的取值为FE。

7.根据权利要求3所述的编码方法，其特征在于，所述转换字节的编码值的取值范围为C04141至ECFEBF。

8.根据权利要求1-7任一项所述的编码方法，其特征在于，还包括：

读取所述生僻汉字集的编码转换关系；

根据待识别生僻汉字的汉字编码序列，确定与所述待识别生僻汉字对应的EBCDIC编码序列。

9.一种生僻汉字的编码装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-8任一项所述的编码方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-8任一项所述的编码方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-8任一项所述的编码方法。