CN103914436A - 提供较小目标编码空间的码转换方法、计算机装置和程序产品 - Google Patents
提供较小目标编码空间的码转换方法、计算机装置和程序产品 Download PDFInfo
- Publication number
- CN103914436A CN103914436A CN201310008670.3A CN201310008670A CN103914436A CN 103914436 A CN103914436 A CN 103914436A CN 201310008670 A CN201310008670 A CN 201310008670A CN 103914436 A CN103914436 A CN 103914436A
- Authority
- CN
- China
- Prior art keywords
- code
- space
- point
- source
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及提供较小目标编码空间的码转换的方法、计算机装置与程序产品。本发明公开一种提供来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)时码转换的方法、计算机装置与程序产品。该方法包含接收对一来源文件执行由一来源编码空间至一目标编码空间的码转换的一要求,其中该来源文件依据一来源编码空间编码,且该来源编码空间大于目标编码空间;及依据一预先建立的码转换的映射表,而对该来源文件分别产生一主要转换文件及一延伸转换文件。
Description
技术领域
本发明关于提供码转换的机制;尤其是提供来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)时码转换的方法与计算机装置。
背景技术
计算机及其它电子装置基本上使用文本(text)与使用者互动,而一般显示在监视器或其它类型的显示屏幕上。由于文本必须以计算机或其它电子装置内部的数字类型表示(representation),因此必须以字符集编码(Character Set Encoding)。一般,字符集编码对字符集的每一字符以一唯一的数字表示编码。该经编码的字符可以是字母、数字或各种文本符号。每一字符被指定一数值码以供计算机或其它电子装置使用。不同语言的计算机系统使用不同字符集。以中文为例,可使用BIG5,Unicode字符集。EBCDIC的已编码字符集标识符(Coded Character Set Identifier,CCSID)00835也指示一代表双字节传统中文的码页(codepage)。
然而,在涉及码页或字符转换时,将遭遇一问题。当转换来自较大码页的字符时,较小码页将限制码点(code point)的扩充。例如,Unicode与EBCDIC(CCSID=00835)间的转换。与Unicode比较,EBCDIC码页的码点范围较小。当来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)时,将耗尽目标编码空间的码表中所有可用码点。因此,在目标编码空间中将有来源编码空间的码点遗失。如图1所示,来源编码空间(如Unicode)中的码点“坤”(U+5764)在目标编码空间(EBCDIC,CCSID=00835)中,存在 一对应码点“坤”(507D),然而Unicode的码点“蜫”(U+872B)在EBCDIC中,并不存在一对应码点。
一般,这些在EBCDIC中不存在对应码点的Unicode原始码点系语言中所谓稀有字(rare word)。传统的解决方式是将这些稀有字映射至目标编码空间的一预定义特定字符;或在已转换的目标编码文本中保留该要被转换的来源编码空间稀有字的原始码(即在来源编码空间的码点),虽然它在已转换的目标编码文本中不可读。然而,对4字节的Unicode (UCS-4)与2字节的EBCDIC(CCSID=00835)间转换而言,因EBCDIC(CCSID=00835)仅使用2字节,而Unicode(UCS-4)是4字节,故后者将不可行。关于前者,虽该特定字符可在目标编码空间或码页下识别,但该稀有字的语言特性,都将遗失。以中文为例,该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。
因此,存在一目标编码空间能读取稀有字且又能保有该稀有字的语言特性的需求。
发明内容
本说明书中所提及的特色、优点、或类似表达方式并不暗示本发明可实现的所有特色及优点应在本发明的任何单一的具体实施例内。而是应明白,有关特色及优点的表达方式是指结合具体实施例所述的特定特色、优点、或特性包含在本发明的至少一具体实施例内。因此,本说明书中对于特色及优点、及类似表达方式的论述可与相同具体实施例有关,但也非必要。
此外,可以按照任何合适的方式,在一或多个具体实施例中结合本发明所述特色、优点、及特性。相关领域技术人员应明白,在没有特定具体实施例的一个或多个特定特色或优点的情况下,也可实施本发明。在其它例子中应明白,特定具体实施例中的其它特色及优点可能未在本发明的所有具体实施例中出现。
本发明提供一新的码转换机制。该机制利用一预先建立的码转换的映射表,而对一依据来源编码空间编码的来源文件分别产生一依据较小目标编码空间编码的主要转换(main converted)文件及一延伸转换文件,以供应用程序使用。该映射表利用语言特性建立,其机制利用一些特定语言特性群组化一些来源编码空间的稀有字,以共享目标编码空间的具有相同或相似的特定语言特性的相同单一码点。
当执行数据文件转换时,该主要转换文件按照已知方式根据预先建立的码转换映射表建立,而该延伸转换文件也按照该映射表而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。因此,通过结合主要转换文件及延伸转换文件,本发明延伸了目标编码空间的码区域,以供使用目标编码空间的程序利用。
对于仅能接受原始目标编码空间的已知应用程序而言,对应该共享目标编码空间的相同单一码点而有相同或相似的语言特性的一替代字符,可用来代表该稀有字。由于该替代字符与该稀有字有相同或相似的语言特性,因此也能帮助了解及猜测该数据文件的内容。至于,能利用本发明上述结合主要转换文件及延伸转换文件而建立的目标编码空间延伸码区域的新程序而言,可结合主要转换文件及延伸转换文件以找到该正确的稀有字,而正确呈现。
根据本发明一实施例,本发明公开一种提供在较小目标编码空间的码转换的的方法,该方法包含:接收对一来源文件执行由一来源编码空间至一目标编码空间之码转换的一要求,其中该来源文件系依据一来源编码空间编码,且该来源编码空间大于目标编码空间;及依据一预先建立之码转换之映射表,而对该来源文件分别产生一主要转换文件及一延伸转换文件。
根据本发明另一实施例,本发明公开一种提供在较小目标编码空间之码转换的计算机装置,包含:
一主机;该主机包含,
一总线系统;
一存储器,连接到该总线系统,其中该存储器包含一组指令;
一连接到该总线系统的处理单元,其中该处理单元执行该组指令,以执行前述的码转换的方法。
根据本发明另一实施例,本发明公开一种储存在一计算机可用介质上的计算机程序产品,包含一计算机可读程序,供在一计算机上执行时,实施前述的码转换的方法。
参考以下说明及随附权利要求书或利用如下文所提的本发明的实施方式,即可更加明了本发明的这些特色及优点。
附图说明
为了立即了解本发明的优点,请参考如附图所示的特定具体实施例,详细说明上文简短叙述的本发明。在了解这些附图仅描绘本发明的典型具体实施例并因此不将其视为限制本发明范畴的情况下,参考附图以额外的明确性及细节来说明本发明,附图中:
图1为一种公知在Unicode与EBCDIC间进行码转换的例子;
图2为本发明的例示性计算机装置的硬件环境方块图;
图3为一种依据本发明一具体实施例的码转换模块的方法流程图;
图4显示一依据本发明以建立码转换的映射表的第一具体实施例;
图5为一种依据本发明以建立码转换之一第二具体实施例。
具体实施方式
本说明书中“一具体实施例”或类似表达方式的引用是指结合该具体实施例所述的特定特色、结构、或特性包括在本发明的至少一具体实施例中。因此,在本说明书中,“在一具体实施例中”及类似表达方式的用语的出现未必指相同的具体实施例。
本领域技术人员当知,本发明可实施为计算机装置、方法或作为计算机程序产品的计算机可读介质。因此,本发明可以实施为各种形 式,例如完全的硬件实施例、完全的软件实施例(包含固件、常驻软件、微程序代码等),或者也可实施为软件与硬件的实施形式,在以下会被称为“电路”、“模块”或“系统”。此外,本发明也可以按照任何有形的介质形式实施为计算机程序产品,其具有计算机可使用程序代码储存于其上。
一个或更多个计算机可使用或可读取介质的组合都可以利用。举例来说,计算机可使用或可读取介质可以是(但并不限于)电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置、设备或传播介质。更具体的计算机可读取介质实施例可以包括下列所示(非限定的例示):由一个或多个连接线所组成的电连接、可携式计算机磁盘、硬盘驱动、随机存取存储器(RAM)、只读存储器(ROM)、可抹除程序化只读存储器(EPROM或闪存)、光纤、可携式光盘片(CD-ROM)、光学储存装置、传输介质(例如因特网(Internet)或内部网络(intranet)之基础连接)、或磁储存装置。需注意的是,计算机可使用或可读取介质更可以为纸张或任何可用于将程序行印于其上而使得该程序可以再度被电子化的适当介质,例如通过光学扫描该纸张或其它介质,然后再编译、解译或其它合适的必要处理方式,然后可再度被储存于计算机存储器中。在文本中,计算机可使用或可读取介质可以是任何用于保持、储存、传送、传播或传输程序代码的介质,以供与其相连接的指令执行系统、装置或设备来处理。计算机可使用介质可包括其中储存有计算机可使用程序代码的传播数据讯号,不论是以基带(baseband)或是部分载波的型态。计算机可使用程序代码的传输可以使用任何适体的介质,包括(但并不限于)无线、有线、光纤缆线、射频(RF)等。
用于执行本发明操作的计算机程序码可以使用一种或多种程序语言的组合来撰写,包括对象导向程序语言(例如Java、Smalltalk、C++或其它类似者)以及传统程序编程语言(例如C编程语言或其它类似的编程语言)。程序代码可以按照独立软件套件的形式完整的在使用者的计算机上执行或部分在使用者的计算机上执行,或部分在使 用者计算机而部分在远程计算机。
在以下本发明的相关叙述会参照依据本发明具体实施例的计算机装置、方法及计算机程序产品的流程图及/或方块图来进行说明。当可理解,每一个流程图及/或方块图中的每一个方块,以及流程图及/或方块图中方块的任何组合,可以使用计算机程序指令来实施。这些计算机程序指令可供通用型计算机或特殊计算机的处理器或其它可程序化数据处理装置所组成的机器来执行,而指令经由计算机或其它可程序化数据处理装置处理以便实施流程图及/或方块图中所说明的功能或操作。
这些计算机程序指令也可被储存在计算机可读取介质上,以便指示计算机或其它可程序化数据处理装置来进行特定的功能,而这些储存在计算机可读取介质上的指令构成一制品,其内包括的指令可实施流程图及/或方块图中所说明的功能或操作。
计算机程序指令也可被加载到计算机上或其它可程序化数据处理装置,以便在计算机或其它可程序化装置上进行一系统操作步骤,而在该计算机或其它可程序化装置上执行该指令时产生计算机实施程序以达成流程图及/或方块图中所说明的功能或操作。
其次,请参照图2至图5,在附图中显示依据本发明各种实施例的计算机装置、方法及计算机程序产品可实施的架构、功能及操作之流程图及方块图。因此,流程图或方块图中的每个方块可表示一模块、区段、或部分的程序代码,其包含一个或多个可执行指令,以实施指定的逻辑功能。另当注意,某些其它的实施例中,方块所述的功能可以不按照图中所示的顺序进行。举例来说,两个图示相连接的方块事实上也可以同时执行,或依据所牵涉到的功能在某些情况下也可以按照图标相反的顺序执行。此外也需注意者,每个方块图及/或流程图的方块,以及方块图及/或流程图中方块的组合,可通过基于特殊目的硬件的系统来实施,或者通过特殊目的硬件与计算机指令的组合,来执行特定的功能或操作。
<计算机装置>
图2说明本发明的例示性计算机装置202的硬件环境方块图。在一个示范性的实施例中,计算机装置为一台通用型的台式计算机,可具有处理器以执行各种应用程序;储存装置以储存各种信息及程序代码;显示装置、通讯及输出/入装置做为与使用者沟通的接口;以及外围组件或其它特定用途组件。在其它实施例中,本发明也可实施为其它的形式,而具有更多或更少的其它装置或组件。网络也可实施为任何类型的联机,包括固定连接的局域网络(LAN)或广域网络(WAN)联机,或利用因特网服务提供者来暂时拨接至因特网,也不限于有线无线等各种连接方式,例如通过GSM、或Wi-Fi等无线网络与服务器端计算机通信。然而应了解,虽未绘示但其它硬件及软件组件(例如额外计算机系统、路由器、防火墙等)可包含于网络之中。
如图2所示,计算机装置202包括一耦合至系统总线206的处理器单元204。一视频适配器208(其控制一显示器210)也耦合至系统总线206。系统总线206通过一总线桥212耦合至一输入/输出(I/O)总线214。一I/O接口216耦合至I/O总线214。I/O接口216能与各个I/O装置通信,该I/O装置包括一键盘218、一鼠标220、一只读光驱(CD-ROM)222、一软盘机224及一闪存随身碟226。I/O装置还可以是数字相机模块用以输入影像数据或是条形码数据,或是I/O装置可与显示器210整合为触控屏幕,用以供使用者操作应用程序与编写信息。连接到I/O接口216的端口的规格,可以是熟悉计算机架构技术者所知的任一种,其包括(但不限于)通用串行总线(USB)端口。
使用一网络接口230,计算机装置202能通过一网络228与一服务器252通信,网络接口230耦合至系统总线206。网络228可为一外部网络(例如,因特网)或一内部网络(例如,一以太网络或一虚拟专用网络(VPN))。使用网络228,计算机装置202能使用本发明以与服务器252互动。
一硬盘驱动接口232也耦合至系统总线206上。硬盘驱动接口232与一硬盘驱动234介接。在一优选实施例中,硬盘驱动234进驻 (populates)系统存储器236,该系统存储器236也耦合至系统总线206。进驻系统存储器236的数据包括计算机装置202的操作系统(OS)238及应用程序244。
OS 238包括一用于供使用者存取诸如应用程序244等资源的壳层(shell)240及核心242。壳层240是一可在使用者与操作系统间提供一解译器与接口的程序。该壳层提供系统提示、解译由键盘、鼠标或其它使用者输入媒介所输入的命令及向该操作系统的适当的较低层级(例如,核心242)发送经解译的命令供进行处理。虽然壳层240一般是以文字为基础的行导向式使用者接口,但本发明也能支持其它使用者接口模式,诸如图形的、语音的、示意动作的模式等。核心242包括OS 238的较低层级功能,该较低层级功能包括由OS 238的其它部分及应用程序244所要求的基本服务,该基本服务包括:存储器管理、处理序及任务管理、磁盘管理及鼠标与键盘之管理。
服务器252可以使用与前述计算机装置202相同或类似的硬件架构,也或者可以利用其它的基础架构,本发明并不限制。举例来说,服务器可以是台式计算机等。然而图2所示以及上述的范例均非用于限制本发明的架构。服务器252可包括一浏览器。浏览器包括程序模块及指令,该程序模块及指令使用超文本传送协议(HTTP)消息使万维网(WWW)客户端(即:计算机装置202)能够发送及接收网络消息至因特网。
应用程序244可包括一本发明的码转换模块246及一供码转换的映射表(mapping table)248。码转换模块246包括程序模块及指令,该程序模块及指令能对一来源文件执行码转换,以获得一转换的目标文件。该码转换模块246可以是应用程序内的模块,或以常驻程序(Daemon)的方式实施。但在其它实施例中,也可以用其它形式的程序型态来实施。
在计算机装置202内绘示的硬件组件并非意欲包罗万象,而是代表本发明所使用的最重要组件。举例而言,计算机装置202可以另包括替代存储器储存装置,诸如磁带(magnetic cassette)、多样化数字 光盘(DVD)、(Bernoulli)卡匣及类似者。这些及其它变化将包含在本发明的精神及范畴内。
<码转换模块流程>
图3配合图4与图5以显示本发明的码转换模块的方法步骤。
图3为一种依据本发明一具体实施例的码转换模块的方法流程图。
步骤310:接收对一来源文件执行码转换的一要求,该来源文件依据一来源编码空间编码。
步骤320:依据一预先建立的码转换的映射表248,而对该来源文件分别产生一主要转换文件及一延伸转换文件。其中该来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)。该映射表248则利用语言特性建立,其机制是利用一些特定语言特性群组化(group)一些来源编码空间的稀有字,以共享目标编码空间的具有相同或相似的特定语言特性的相同单一码点。更多细节将参照图4或图5在之后描述。该主要转换文件按照公知方式根据预先建立的码转换映射表248建立,而该延伸转换文件也按照该映射表248而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。
图4显示一依据本发明以建立码转换的映射表248的第一具体实施例。如前述的图1所示,来源编码空间(如Unicode)中的码点“坤,,(U+5764)在目标编码空间(EBCDIC,CCSID=00835)中,存在一对应码点“坤”(507D),然而Unicode的码点“蜫”(U+872B)为在EBCDIC中不存在一对应码点的稀有字。
依据本发明图4的例子,首先,该在EBCDIC中不存在对应码点的Unicode的码点将映射至EBCDIC中之一代表一替代(surrogate)字符的码点,该替代字符具有与该稀有字相同或相似拼音的语言特性。如图4所示,Unicode中的码点“坤”(U+5764)在EBCDIC(CCSID=00835)中,存在一对应码点“坤”(507D)。而有相同拼音的语言特性的Unicode稀有字的码点“蜫”(U+872B) 也映射至“坤”(U+5764)在EBCDIC中的该对应码点“坤”(507D)。因此,有相同拼音的稀有字可被归类为同一群组以共享EBCDIC中的一相同码点代表的替代字符。
其次,使用一延伸码,供识别有相同或相似拼音的语言特性而共享目标编码空间的相同单一码点的稀有字。如图4所示,有相同拼音的语言特性的Unicode稀有字的码点“蜫”(U+872B)也映射至“坤”(U+5764)在EBCDIC中的该对应码点“坤”(507D),但利用相同的拼音的语言特性,额外记录一延伸码(H1)。延伸码(H1)的产生可简单地依序编码,如依据本发明图4的例子可简单地指定H1=01。因此,通过结合主要转换文件及延伸转换文件,本发明延伸了目标编码空间的码区域,供使用目标编码空间的程序利用。
图4的例子仅取拼音的单一语言特性做为群组化稀有字的依据。事实上,该替代字符可具有与该稀有字至少一个相同或相似的语言特性。以中文为例,该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。因此,有相同之一个或多个语言特性的稀有字可被归类为同一群组,以共享EBCDIC中相同的一单一码点,即共享相同单一码点代表的替代字符。此时,延伸码之建立可利用习知之哈希(hash)函数,以不同语言特性为输入,而对每一共享相同码点的多个字符指定一唯一数值作为延伸码。
例如:假设部首及笔画的值是[0,255]间的整数,则下述哈希函数将产生唯一数值给一特定部首及笔画的组合。
F(部首,笔画)=Hex((部首)*256+(笔画))
该哈希函数式可逆(reversible),因此能在延伸码中保有语言特性。
图5为一种依据本发明以建立码转换的一第二具体实施例。如图示,其除了对有相同或相似拼音的语言特性,而共享目标编码空间的相同单一码点的稀有字,指定唯一延伸码外,对该共享的码点的替代字符也指定一延伸码。例如,Unicode中的码点“昆”(U+6606) 在EBCDIC(CCSID=00835)中,存在一对应码点“昆”(50F9)。而有相同拼音的语言特性的Unicode稀有字的码点“蜫”(U+872B)及“昆”(U+5D10)也一并映射至“昆”(U+6606)在EBCDIC中的该对应码点“昆”(50F9),即共享目标编码空间的相同的对应码点“昆”(50F9)。但是,如图5所示,包含对应码点“昆”(50F9)在内,共享码点的所有字符均被指定唯一延伸码外,H1,H2及H3。相似地,如前述,依据本发明本实施例延伸码(H1,H2及H3)的产生可简单地依序编码,即可简单地分别指定H1=01、H2=02及H3=03。
依据前述图4或图5实施例,一码转换的映射表248可被预先建立。当执行数据文件转换时,依据一预先建立的码转换的映射表248,而对该来源文件分别产生一主要转换文件及一延伸转换文件。该主要转换文件是依公知方式根据一预先建立的码转换映射表248而建立,而该延伸转换文件也依据该映射表248而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点的不同字符。因此,通过结合主要转换文件及延伸转换文件,本发明延伸了目标编码空间的码区域,供使用目标编码空间的程序利用。执行数据文件转换后建立的主要转换文件及一延伸转换文件可以如下列形式呈现。
来源文件:
主要转换文件:
延伸转换文件:
其中XYZ为在来源编码空间的字符,而xxxx yyyy zzzz分别为XYZ在目标编码空间中相应的码点。对于在目标编码空间中有相应码点的字符,在延伸转换文件中可以由一特殊字符hhhh代表。否则以相应的延伸码填入。需注意的是,上述延伸转换文件的格式仅是例示,本发明并不限制。其也可以按照偏移量(offset)方式记录(即文本中的第几个字),如
offset aaa H1
offset bbb H2
offset ccc H3
其中aaa,bbb,ccc分别代表“昆蜫昆”等字符在来源文件中的偏移量。
对于仅能接受原始目标编码空间的公知应用程序而言,对应该共享目标编码空间的相同单一码点而有相同或相似的语言特性的一替代字符,可用来代表该稀有字。由于该替代字符与该稀有字有相同或相似的语言特性,因此也能帮助了解及猜测该数据文件的内容。
需说明的是,依据本发明公开由于有延伸码区域可供扩充原目标编码空间相应的字符,以纳入来源编码空间所有的稀有字。因此,对能利用本发明上述结合主要转换文件及延伸转换文件而建立的目标编码空间延伸码区域的新程序而言,可结合主要转换文件及延伸转换文件,以找到该正确的稀有字而正确呈现。
在不脱离本发明精神或必要特性的情况下,可以按照其它特定形式来体现本发明。应将所述具体实施例各方面仅视为解说性而非限制性。因此,本发明的范畴如随附权利要求书所示而非如前述说明所示。所有落在申请专利范围之等效意义及范围内的变更应视为落在申请专利范围的范畴内。
【主要组件符号说明】
202计算机装置 204处理器单元
206系统总线 208视频适配器
210显示器 212总线桥
214输入/输出(I/O)总线 216 I/O接口
218键盘 220鼠标
222读光驱(CD-ROM) 224软盘机
226闪存随身盘 228网络
230网络接口 232硬盘驱动接口
234硬盘驱动 236系统存储器
238操作系统(OS) 240壳层(shell)
242核心 244应用程序
246码转换模块 248映射表(mapping table)
252服务器
Claims (17)
1.一种提供在较小目标编码空间的码转换的方法,该方法包括:
接收对来源文件执行由来源编码空间至目标编码空间的码转换的要求,其中该来源文件依据来源编码空间编码,且该来源编码空间大于目标编码空间;及
依据预先建立的码转换的映射表,而对该来源文件分别产生主要转换文件及延伸转换文件。
2.如权利要求1所述的方法,其中该来源编码空间是Unicode,而该目标编码空间是EBCDIC。
3.如权利要求1所述的方法,其中该映射表利用语言特性建立,该建立利用至少一个相同或相似的语言特性群组化一些来源编码空间的稀有字,以共享目标编码空间具有与该稀有字相同或相似的语言特性的替代(surrogate)字符的单一码点。
4.如权利要求3所述的方法,该稀有字是在目标编码空间中不存在对应码点的来源编码空间的字符,该稀有字的码点将映射至目标编码空间中的替代字符的码点,且该替代字符具有与该稀有字至少一个相同或相似的语言特性。
5.如权利要求4所述的方法,其中该主要转换文件根据预先建立的码转换映射表建立,而该延伸转换文件也根据该映射表而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。
6.如权利要求5所述的方法,其中该延伸码利用哈希(hash)函数,以不同语言特性为输入,而对每一共享相同码点的多个字符指定唯一数值作为延伸码。
7.如权利要求5所述的方法,其中其除了对有相同或相似拼音的语言特性,而共享目标编码空间的相同单一码点的稀有字,指定唯一延伸码外,对该共享的码点的替代字符也指定延伸码。
8.如权利要求2所述的方法,其中该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。
9.一种储存在计算机可用介质上的计算机程序产品,包括计算机可读程序,供在计算机上执行时,以实施如权利要求1至8中任一项所述的方法,以提供在较小目标编码空间的码转换。
10.一种提供在较小目标编码空间的码转换的装置,该装置包括:
用于接收对来源文件执行由来源编码空间至目标编码空间的码转换的要求的装置,其中该来源文件依据来源编码空间编码,且该来源编码空间大于目标编码空间;及
用于依据预先建立的码转换的映射表,而对该来源文件分别产生主要转换文件及延伸转换文件的装置。
11.如权利要求9所述的装置,其中该来源编码空间是Unicode,而该目标编码空间是EBCDIC。
12.如权利要求9所述的装置,其中该映射表利用语言特性建立,该建立利用至少一个相同或相似的语言特性群组化一些来源编码空间的稀有字,以共享目标编码空间具有与该稀有字相同或相似的语言特性的替代(surrogate)字符的单一码点。
13.如权利要求12所述的装置,该稀有字是在目标编码空间中不存在对应码点的来源编码空间的字符,该稀有字的码点将映射至目标编码空间中的替代字符的码点,且该替代字符具有与该稀有字至少一个相同或相似的语言特性。
14.如权利要求13所述的装置,其中该主要转换文件根据预先建立的码转换映射表建立,而该延伸转换文件也根据该映射表而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。
15.如权利要求14所述的装置,其中该延伸码利用哈希(hash)函数,以不同语言特性为输入,而对每一共享相同码点的多个字符指定唯一数值作为延伸码。
16.如权利要求14所述的装置,其中其除了对有相同或相似拼音的语言特性,而共享目标编码空间的相同单一码点的稀有字,指定唯一延伸码外,对该共享的码点的替代字符也指定延伸码。
17.如权利要求11所述的装置,其中该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310008670.3A CN103914436B (zh) | 2013-01-09 | 2013-01-09 | 提供较小目标编码空间的码转换方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310008670.3A CN103914436B (zh) | 2013-01-09 | 2013-01-09 | 提供较小目标编码空间的码转换方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103914436A true CN103914436A (zh) | 2014-07-09 |
CN103914436B CN103914436B (zh) | 2018-02-02 |
Family
ID=51040130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310008670.3A Active CN103914436B (zh) | 2013-01-09 | 2013-01-09 | 提供较小目标编码空间的码转换方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103914436B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444680A (zh) * | 2020-04-25 | 2020-07-24 | 中信银行股份有限公司 | 生僻字的编码扩展方法、装置、存储介质及电子设备 |
CN113282298A (zh) * | 2021-06-11 | 2021-08-20 | 中国农业银行股份有限公司 | 汉字编码转换方法、装置、设备、介质及产品 |
CN113282298B (zh) * | 2021-06-11 | 2024-06-07 | 中国农业银行股份有限公司 | 汉字编码转换方法、装置、设备、介质及产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182103A1 (en) * | 2002-03-21 | 2003-09-25 | International Business Machines Corporation | Unicode input method editor |
CN1741006A (zh) * | 2005-09-22 | 2006-03-01 | 北京北大方正电子有限公司 | 一种创建冷僻字扩充字库的方法 |
US20060173931A1 (en) * | 2005-01-31 | 2006-08-03 | James Broadhurst | System and method for managing long names in an application programming interface |
CN1971587A (zh) * | 2005-11-22 | 2007-05-30 | 国际商业机器公司 | 用于在代码页中的多种编码的方法和系统 |
CN101404007A (zh) * | 2008-11-19 | 2009-04-08 | 闻泰集团有限公司 | 一种Unicode编码到GB2312编码转换方法 |
US20090164455A1 (en) * | 2007-12-21 | 2009-06-25 | Weinberg Paul N | System and method for performing unicode matching |
-
2013
- 2013-01-09 CN CN201310008670.3A patent/CN103914436B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182103A1 (en) * | 2002-03-21 | 2003-09-25 | International Business Machines Corporation | Unicode input method editor |
US20060173931A1 (en) * | 2005-01-31 | 2006-08-03 | James Broadhurst | System and method for managing long names in an application programming interface |
CN1741006A (zh) * | 2005-09-22 | 2006-03-01 | 北京北大方正电子有限公司 | 一种创建冷僻字扩充字库的方法 |
CN1971587A (zh) * | 2005-11-22 | 2007-05-30 | 国际商业机器公司 | 用于在代码页中的多种编码的方法和系统 |
US20090164455A1 (en) * | 2007-12-21 | 2009-06-25 | Weinberg Paul N | System and method for performing unicode matching |
CN101404007A (zh) * | 2008-11-19 | 2009-04-08 | 闻泰集团有限公司 | 一种Unicode编码到GB2312编码转换方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444680A (zh) * | 2020-04-25 | 2020-07-24 | 中信银行股份有限公司 | 生僻字的编码扩展方法、装置、存储介质及电子设备 |
CN111444680B (zh) * | 2020-04-25 | 2023-05-16 | 中信银行股份有限公司 | 生僻字的编码扩展方法、装置、存储介质及电子设备 |
CN113282298A (zh) * | 2021-06-11 | 2021-08-20 | 中国农业银行股份有限公司 | 汉字编码转换方法、装置、设备、介质及产品 |
CN113282298B (zh) * | 2021-06-11 | 2024-06-07 | 中国农业银行股份有限公司 | 汉字编码转换方法、装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN103914436B (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675744B2 (en) | Performing a code conversion in a smaller target encoding space | |
US20220198137A1 (en) | Text error-correcting method, apparatus, electronic device and readable storage medium | |
KR20190048364A (ko) | Netconf 기반의 네트워크 시스템 명령어를 yang 언어로 모델링하는 방법 및 장치 | |
CN112988290B (zh) | 多语言配置文件的生成方法、页面显示方法、装置及终端 | |
CN108108342A (zh) | 结构化文本的生成方法、检索方法及装置 | |
RU2406142C2 (ru) | Система и способ для сохранения документа в последовательном двоичном формате | |
CN109766085B (zh) | 一种处理枚举类型代码的方法及装置 | |
CN110647316B (zh) | 通用业务对象的生成方法、装置、计算机设备及存储介质 | |
KR102634484B1 (ko) | 정보 추출 방법, 장치, 기기 및 저장 매체 | |
CN112966824A (zh) | 推理库的部署方法、装置和电子设备 | |
KR20210040878A (ko) | 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체 | |
CN101692254B (zh) | 一种多Unicode语言字码显示方法和装置 | |
KR20070003418A (ko) | 동적 템플릿을 이용한 무선 웹 페이지 제공 방법 및 장치 | |
CN112506479A (zh) | 页面编辑的方法、装置、设备以及存储介质 | |
CN113900966A (zh) | 一种基于Cache的访存方法及装置 | |
US11531814B2 (en) | Method and device for generating modified statement | |
US9019247B2 (en) | Modifying information on a hand writable physical medium with a digital pen | |
CN100498808C (zh) | 一种印刷电路板器件高度的输出方法及装置 | |
US8082528B2 (en) | Process-independent schema library | |
CN103914436A (zh) | 提供较小目标编码空间的码转换方法、计算机装置和程序产品 | |
CN111027283A (zh) | 一种蒙古文数字化信息处理方法、系统及存储介质 | |
US20150055868A1 (en) | Character data processing method, information processing method, and information processing apparatus | |
CN105786529A (zh) | 一种类托管代码调用c/c++风格函数的复杂结构的参数设计方法 | |
CN111596897B (zh) | 代码复用的处理方法、装置及电子设备 | |
CN113961242B (zh) | 布局文件的转换方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |