CN100390783C - 进行格变换的方法和系统 - Google Patents

进行格变换的方法和系统 Download PDF

Info

Publication number
CN100390783C
CN100390783C CNB01814473XA CN01814473A CN100390783C CN 100390783 C CN100390783 C CN 100390783C CN B01814473X A CNB01814473X A CN B01814473XA CN 01814473 A CN01814473 A CN 01814473A CN 100390783 C CN100390783 C CN 100390783C
Authority
CN
China
Prior art keywords
character
code
function
concentrating
chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB01814473XA
Other languages
English (en)
Other versions
CN1449529A (zh
Inventor
约奇姆·鲍尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1449529A publication Critical patent/CN1449529A/zh
Application granted granted Critical
Publication of CN100390783C publication Critical patent/CN100390783C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本发明涉及用于将第一集元素变换为第二集元素的方法和系统,更具体地说,本发明涉及例如根据统一字符编码标准进行格变换。它利用计算机系统提供的快速翻译函数提高变换处理速度。根据本发明,将第一集元素分离为:第一子集,含有将被翻译为所述第二集中的一个特定元素的各元素;第二子集,含有所述第一集的剩余元素。编制第一表304,其中属于第一子集的每个元素被分配给第二集中的相应元素,而所述第二子集中的所有元素被分配给异常处理元素。编制第二表314,该第二表表示规则,异常处理函数根据其翻译所述第二子集中的所述元素。

Description

进行格变换的方法和系统
技术领域
本发明涉及用于将第一集元素变换为第二集元素的方法和系统。更具体地说,本发明涉及用于格变换(case conversion)的方法和系统,即将具有特定属性的字符,例如小写字母、大写字母或标题字母变换为具有这些属性中的一种不同属性的字符。
背景技术
各公司开发的初始版本系统或程序通常仅处理一种特定语言(例如:英语)。通常,对能够处理不同语言的该系统或程序的不同版本的需要只是个时间问题。到面前为止,通常的方法是,仅仔细研究所有代码行并翻译文字字符串。
如果仅需要将该系统或程序变换为另外一种语言形式,则这种方法是可以接受的,因为翻译是一种耗时的工作。并非所有的文字字符串均需要翻译。因此,翻译过程需要人来做出判断。此外,需要以同样的方式准备系统或程序的每种新版本,所以耗费资源、时间和金钱。不仅如此,由于公司终归要具有多个程序代码版本,所以维护和支持工作也更昂贵了。也就是说,因为需要将程序代码的每次变更应用于每种不同语言版本。更没有考虑翻译人员因为错误地修改代码而有可能引入错误的危险。
越来越多的公司在进行系统设计之前把注意力集中在解决上述多语言问题。使系统和程序国际化的一种通用技术是将文字字符串与程序代码分离,因此不会因为使该程序适应不同语言而需要对程序代码进行修改。这可以通过提供含有可翻译信息的分离文件实现。然而,这需要在进行程序设计时解决此问题,或者说这需要对代码做大量修改。
需要将所有可翻译字符串转移到被称为所谓资源文件的分离文件内,而且需要改变程序代码,以便在需要时能够存取这些字符串。这些资源文件可以是平面文本文件,数据库,甚或代码资源,但是它们与主代码完全分离,而且仅含有可翻译数据。
应用具有这些变化的程序以满足适应不同国际环境的基本要求。为了使这种系统或程序本地化,即使这种系统或程序满足不同国家的要求,只需翻译资源文件。因此,不需要改变程序代码。甚至不必要求程序员进行翻译。可以仅将资源文件提交给翻译代理机构进行修改。
然而,这仅解决了多语言问题的一个方面,即如何提供给系统或程序翻译的标记、菜单或用户信息。另一个问题是在屏幕上显示被翻译的字符串。只要同一个字符集可以用于不同的语言,则可以直通。然而,除了广泛使用的字符“a”至“z”之外,不同的欧洲语言使用很多不同的字符。不仅如此,还有不使用拉丁字母的语言,例如,使用西里尔字母的大多数斯拉夫语言或使用希腊字母的希腊语等。
为了解决此问题,需要不同字符集,过去一直利用代码页编码不同字符集。当前,国际化系统和程序采用通用字符编码标准,例如:ISO/IEC 10646(国际标准化组织/国际电子技术委员会)或统一字符编码标准。
利用该标准,可以实现一种同时满足所有国际市场要求的国际化处理过程。由于该标准对每个字符提供单一定义,所以它可以以统一方式对用于所有国际市场的字符进行处理,而且它还可以避免不同字符代码体系结构的复杂性。
现在,这样制备的系统和程序可以处理标记、菜单和用户信息的不同翻译。它们可以以正确字符集形式显示这种消息,而且还可以存储所有文字信息,而不存在因为使字符集混合而破坏数据的危险。然而,为了实现完全国际化,还需要更多的功能。
主要的系统和程序,特别是字处理程序,数据库以及搜索引擎需要具有格变换功能。“格”是其中字母具有两种不同形式的某种字母表的一个特征。在形状和大小上可以显著不同的这些变型被称为“大写字母”,也称为“大写”或“大写的”,和“小写字母”,也称为“小写”或“小写的”。因此它是字符的标准属性。除了大写和小写属性外,在进行格变换时还要区别被称为“标题字母”(titlecase)的第三种属性。“标题字母”指单词中其后是小写字母的起始大写字母。这通常是在标题、题目以及条目中采用的惯常作法,例如象在字典、词汇表或内容表中那样。
然而,格变换不是无足轻重的,因为根据特定语言,会对类似字母做出不同处理。这是因为它们具有特定格映射,即字母的大写方式、小写方式以及标题方式之间的相关性。在变换为大写时,特定字符可以扩展为两个字符,它们可以根据上下文具有不同格映射,或者它们可以对不相同的语言具有不同的格映射。
通过对具有硬编码特定格的逐个字符进行格变换,目前的方法解决了上述问题。对于每个字符,检验是否因为所关心的语言或字符位置而需要进行不同变换。
从US 6,055,365中得知一种利用计算机将利用源码点集中的代码点串表示其字形和控制代码的源文本翻译为利用目标代码点集中的代码点串表示其字形和控制代码的目标文本的方法。该方法包括存取翻译状态表的步骤,而翻译状态表至少具有一行单元,每行具有相关状态值。然而,单元通过源代码点被索引。当前状态用于选择翻译状态表中的一行。然后,源文本的输入代码点序列用于选择该行内的单元。如果该单元含有下一个状态值,则重复进行使用当前状态的步骤和使用输入代码点序列的步骤,直到提供了要求的目标代码点序列。此后,利用下一个状态值更新当前状态,最后,对每个下一个输入代码点序列重复进行使用当前状态的步骤、使用输入代码点序列的步骤以及重复步骤。
上述方法教导了以计算机程序实现通用状态机。为了确定下一个状态,通用状态机需要查找输入流内的每个单独字节。这样产生了许多开销,因此降低了处理速度。
发明目的
因此,本发明的目的是提供一种提高处理速度的方法和系统。
发明内容
利用一种根据独立权利要求将第一集元素变换为第二集元素,从而使第一集中的至少一个元素与第二集中的一个或多个元素具有上下文相关关系的方法和系统可以实现上述目的。术语“上下文”不仅指所研究元素之前和之后的元素,而且指对变换处理有意义的环境。例如,对于需要进行变换的字符,上下文可以是使用该字符的语言,或所采用的编码方案。
本发明的重点是提高速度。因此,该方法和系统试图结合本发明采用已经设置在使用的计算机上的、用于翻译元素的基本功能。通常,为了翻译元素而设置的基本功能简单,但是速度快。
本发明采用标准翻译函数(function)。根据本发明方法和系统使用的函数可以将第一集元素块翻译为第二集元素块。然而,所设置的函数只能处理第一集与第二集之间的静态关系,即在所有环境下,将第一集中的元素翻译为第二集元素中的一个特定元素。如果需要进行不同处理,则该函数需要中断其处理过程,并产生异常。在不存在静态关系时,以对第一集中的每个元素规定第二集中的一个特定元素或异常处理元素的表的形式,对该函数提供第一集中的元素与第二集中的元素之间的关系。每当第一集中的一个元素被翻译为异常处理元素时,该函数中断,并执行异常处理函数。
优先以机器指令实现该函数,即在计算机的硬件级处理的函数。这样可以使指令的计算速度比软件实现的计算速度快得多。例如,对具有一个调用的整批字符进行变换的这种函数可以运行在国际商用机器公司制造的S/390硬件平台上。在此硬件平台上,该特定函数被称为TRTT(二对二翻译(Translate two to two))。
然而,由于所需的函数只提供简单翻译处理,所以例如机器码形式的软件实现,即实际上被计算机读取和译码的计算机程序表示可以足够快。
为了利用所使用的计算机系统提供的简单、但是快速的翻译函数,根据本发明,将第一集中的元素分离为:第一子集,其含有将被翻译为第二集中的一个特定元素的各元素;第二子集,其含有第一集的剩余元素。第一表被编制,其中属于第一子集的每个元素被分配给第二集中的相应元素,而第二子集中的所有元素被分配给异常处理元素。所编制的第二表表示规则,异常处理函数根据其翻译第二子集中的元素。确定要变换的数据块,利用第一集内的元素构成数据块。然后,将第一表、第二表以及确定数据块送到翻译函数。最后,处理翻译函数。
附图说明
根据以下详细说明,本发明的上述以及其它目的、特征以及优点将变得更加明显。
将在所附权利要求中对本发明的新颖特征进行说明。然而,通过结合附图参考以下对说明性实施例所做的说明,可以最佳理解本发明本身以及本发明的优选使用方式、其它目的以及优点,附图包括:
图1示出在根据本发明的方法和系统中使用的第一表的生成过程;
图2示出用于说明根据本发明的方法和系统的第一运行方式的流程图;
图3示出用于说明根据本发明的方法和系统的第二运行方式的流程图;
图4示出确定进行上下文相关格变换的特定规则的表的详图;以及
图5示出图4所示表的生成过程。
发明详述
参考图1,图1示出第一图表100,第一图表100具有第一列102、第二列104以及第三列106。图表100定义不同字符的格变换。
在第一列102内,示出要变换的所有字符的字形。字形是在字符的可视表示中使用的图像。仅示出第一列102中的字符“A”和“B”作为例子。第一行和第四行中的点表示该图表实际上非常大,包括了所有需要的字符。
第二列列出字符“A”和“B”的十六进制代码,即以给定格式表示相应字符。在该图中,以分别支持ISO/IEC 10646标准(国际标准化组织/国际电子技术委员会)和统一字符编码标准的通用字符编码标准对字符A和B进行编码。
最后,第三列示出相应字符A或B的小写字母表示的十六进制代码。换句话说,每当准备将其十六进制代码为x0041的字符A变换为其小写字母表示时,必须利用十六进制代码代替它。当然,在采用同一种编码标准时才正确。然而,如果采用其它编码标准,则提供相应图表。该图表不能直接根据本发明提供的将第一元素集变换为第二元素集的方法和系统进行自动字符变换。因此,从第一图表100开始,编制箭头112指向的第一表110。
第一表110由第一列114和第二列116构成。第一列列出线性存储单元块的地址,而第二列116列出相应存储单元的内容。现在,以将字符的小写字母表示的代码存储在用对应于字符编码的地址指出的第二列区域内的方式生成第一表110。换句话说,要变换字符的代码被翻译为线性存储单元块的地址,而将表示格变换结果的代码存储到相应存储单元内。例如,编码字符A的十六进制代码x0041现在代表含有给定通用编码标准的字符A的小写字母表示x0061的存储单元的地址。
因此,通过对第一图表100进行处理,获得含有关于最初存储在第一图表100内的字符变换的信息的存储单元块。以同样的方式编制规定将字符变换为大写字母或标题字母的表。当然,需要提供不同的图表。通常可以从建立相应通用编码标准的机构获取这种图表。
现在,参考图2,图2示出根据本发明的方法和系统的第一运行方式的流程图。方框200示出结合本发明使用的计算机系统提供的翻译函数。该翻译函数可以利用一次调用变换一批字符。通过指定可以找到该批字符的相应地址,将该批字符送到翻译函数。这是利用第一箭头202表示的。
为了指示该函数如何翻译接收的批数据,对该翻译函数提供事先编制的表204。表204即图1所示的第一表110。作为一种选择,还可以对翻译函数提供不同的表206指示翻译函数进行不同变换。表204使翻译函数能够将输入的批字符变换为小写,而不同表206例如可以指示翻译函数将提供的批字符变换为大写。最后,如果所提供批字符(这里为字符源)到达末尾,则可以对该结果做进一步处理,如第二箭头208所示。
到此为止,对用于处理格变换基本情况的第一运行方式进行了说明。在此基本情况中,在所有环境下,将字符变换为一种特定字符。然而,格变换不是无足轻重的。根据特定语言,同样可以对字母进行不同处理。
在变换为大写时,可以将字符扩展为两种字符。例如,被称作“拉丁文小写字母升S”(Latin Small Letter Sharp S)的德文字符“β”扩展为两个字符“拉丁大写字母S”的序列。
各字符可以根据上下文具有不同的格映射。例如,如果希腊字符“∑”,即“希腊大写字母西格玛”有另一个字母跟在其后,则它具有第一小写字母表示“σ”,即“希腊小写字母西格玛”,如果它是单词中的最后一个字母,则它具有第二小写字母表示“ζ”,即“希腊小写字母最后西格玛”。
此外,各字符可以具有根据语言的格映射。例如,在土耳其语言中,字母“拉丁大写字母I”具有“不附点(dotless)拉丁小写字母I”的小写字母表示,而在土耳其语中,字母“拉丁小写字母I”具有“上附点大写字母I”(Capital Letter I with Dot Above)的大写字母表示。
参考图3,图3示出根据本发明的方法和系统的第二运行方式的流程图。在此运行方式中,该方法和系统还对需要上下文相关变换的字符进行处理。
方框300示出计算机系统提供的翻译函数。该翻译函数可以利用一个调用对送到该函数的批字符进行变换,如第一箭头302所示。根据送到该翻译函数的、事先编制的第一表304实现此变换过程。
第一表304对应于图1所示的表110,但是该表示出一些其它特征。该表含有第一列和第二列。第一列列出线性存储单元块的地址,而第二列列出相应存储单元的内容,以上已经参考图1对此作了更详细说明。在需要进行上下文相关变换(context dependent conversion)的情况下,在第一表304内,存储单元的内容是特定异常处理元素,也称为“停止元素”。每当翻译函数将字符翻译为停止元素时,翻译函数中断其处理过程,并执行异常处理函数,如箭头310所示。方框312示出异常处理函数。利用翻译函数本身或者明显作为本发明方法的一部分调用执行异常处理函数。
事先编制的第二表314表示规则,异常处理函数根据该规则翻译要求进行上下文相关变换的字符。在确定正确、特定上下文变换后,终止异常处理函数,而且控制过程返回翻译函数,如箭头316所示。利用翻译函数自动重复上述处理步骤,直到整批字符被变换。如果到达字符源的末尾,则翻译函数终止,并返回变换批字符进一步进行处理,如箭头318所示。
图4示出特定格表400的详图。特定格表400对应于图3所示的第二表314。术语“特定格”(special casing)指规则,根据其变换所有上下文相关字符。该表包括11列、11行和标题列。承认所示的表仅构成所需的所有特定格的一小部分。此外,如该表内所列信息的特定表示仅是表示它的一种可能方式,例如:行和列可以具有不同排列,或者可以将解释标题和列标题全部省略。行1、3、6和11内的点表示纯粹为了清楚未示出的其它行。
第一列含有源字符代码。该字符正是要进行变换的字符。第二列列出小写字母映射的字节数,而第三列规定小写字母映射的代码。相应地,第四列列出标题字母映射的字节数,第五列规定标题字母映射的代码,第六列列出大写字母映射的字节数,而第七列规定大写字母映射的代码。第八列含有国家代码。第九列列出语言代码。第十列是状态表,最后,第十一列列出一些解释。
参考第二行,第二行示出在变换为大写字母时扩展为两个字符的字符例子。十六进制代码x00DF编码被称为“拉丁小写字母升S”的德语字符“β”。同样以两个字节对小写字母映射进行编码,因为它已经是小写字母。在大写字母或标题字母中,它扩展为两个被编码为x0053、x0053、现在具有4字节长度的字符“拉丁大写字母S”序列。
如果根据特殊条件字符获得不同格映射,则对同一个字符表示变换规则不止需要一行,每种条件占一行。第四行和第五行列出具有十六进制代码x03A3的希腊字符“Σ”,即“希腊大写字母西格玛”的例子。第四行列出该字符是否是单词中最后一个字母的情况,如条件“最后”所示。在这种情况下,将该字符变换为其具有十六进制代码x03C2的小写字符表示“σ”,即“希腊小写字母西格玛”。如果该字母不是单词内的最后一个字母,则其小写字母表示为其十六进制代码为x03C3的“ζ”,即“希腊小写字母最后西格玛”。
第七行和第八行列出因为它们所处的语言,而需要对其中的共同拉丁大写字母和小写字母进行不同处理的例子。在土耳其语中,在十六进制代码为x0049的字母“拉丁大写字母I”具有其十六进制代码为x0131的“不附点拉丁小写字母I”的小写字母表示,而其十六进制代码为0069的字母“拉丁小写字母I”具有其十六进制代码为x0130的“上附点大写字母I”的大写字母表示。由于只有土耳其语才如此,所以国家代码显示“TR”。在英语中,例如,在变换为小写字母时,其十六进制代码为x0049的“拉丁大写字母I”被变换为其十六进制代码为x0069的“拉丁小写字母I”,反之亦然,如第八行和第十行所示。
最后,参考图5,图5示出图4所示特定格表的生成过程。具有3列的第一图表500列出要翻译字符的所有代码及其小写字母映射的代码。在第二图表502中,示出特定格列。除了第一图表所示的各列之外,在第二图表中还示出了表示特定格条件的列“条件”。
利用代表“σ”,即“希腊小写字母西格玛”的十六进制代码x03C3对希腊字符“∑”,即“希腊大写字母西格玛”的第一小写字母映射进行编码。然而,在特定格图表502中还存在此字符的第二小写字母映射。如果要变换的字符是单词中的最后一个字符,如条件“最后”所示,则需要不同小写字母映射,在此,十六进制代码x03C2代表“ζ”,即“希腊小写字母最后西格玛”。
现在,根据上述图表500和502提供的信息编制第一表504和第二表506。第一表504含有格变换为小写字母进行的常规处理的所有信息。在第一图表中,取第二列列出可能变换的所有不同字符的代码,如箭头507所示。然后,作为小写字母映射,对在第二图表中规定了特定格条件的具有入口(entry)的所有字符分配“停止”代码,如箭头508所示。例如,十六进制代码x03A3获得两个不同小写字母映射,如上所述。因此,在同一行内存在“停止”。所以,将第一图表500中的信息和第二图表502中的特定格信息写入第二表506,如箭头510和512所示。在第一表504内仅示出只具有一个小写字母映射的字符。
除了具有不同格的字符外,还存在所谓“非格”(uncased)字符,即在进行格变换时不发生变化的字符,例如任何连续顺序的空白,即空格、制表键、回车键和/或换行、逗号、句点、分号。
在本发明的另一个实施例中,非格字符用于将表驱动字符变换为标题字母。在变换为标题字母的过程中,只将位于单词开头的字符变换为大写字母。在开始进行变换过程之前,如上所述,通过调用标准翻译函数,将编制的特定表送到该翻译函数。在此特定表中,将表示需要特别处理的停止元素填写到非格字符代码标出的所有行的内容区域。每当字符被翻译为停止元素时,调用异常处理函数。然后,异常处理函数确定下一个与非格字符相反的格字符,并执行大写字母变换。因此,仅通过提供不同表,就可以通过调用一次翻译函数将整批字符变换为标题字母。
根据本发明的方法和系统的另一个主要优点在于,在出现新格映射时,翻译函数和异常处理函数可以保持不变。优点在于,没有关于格变换期间字符处理过程的信息被硬编码,即直接写入程序内不容易被修改的多个可能位置。
可以以硬件、软件或硬件与软件的组合方式实现本发明。任何类型的计算机系统,或者适于实现在此描述的方法的其它设备均适于实现本发明。硬件与软件的典型组合可以是具有计算机程序的通用计算机系统,在加载并执行该计算机程序时,该计算机程序控制计算机系统,使得该计算机系统实现在此描述的方法。还可以将本发明嵌入计算机程序产品内,该计算机程序产品包括能够实现在此描述方法的所有特性,并且在载入计算机系统时,它可以实现这些方法。
在本发明的上下文中,计算机程序装置或计算机程序指任何语言、代码或符号形式的一组指令表示,该组指令使具有信息处理能力的系统直接执行特定函数,或者在经过进行以下两项中的任何一项或经过进行这两项之后执行特定函数:a)变换为另一种语言、代码或符号;b)以不同材料形式再现。
此外,优点在于,本发明可以至少被部分引入直接内置在集成电路内的硬件实现中,例如硬件芯片。集成电路包括至少实现并反映本发明代码变换方法部分步骤的硬件。考虑到电信设备的不断增长的多样性和不断增长的包括越来越多的技术特征的函数范围,因此这种芯片可以用于种类繁多的设备中。从当前可以使用的设备的观点出发,这种芯片的优点在于可以用于构成任何国际通信一部分的任何设备内。例如,任何类型网络(例如:因特网)中的因特网服务器、路由器、用于TV或无线电接收设备、特别是数字TV或数字收音机的机顶盒、移动电话、任何类型的手持计算和/或通信设备或者具有输入接口、用于处理任何外语数据的任何其它设备。

Claims (10)

1.一种将第一集元素变换为第二集元素的方法,第一集中的至少一个元素与第二集中的一个或多个元素具有上下文相关关系,利用计算机系统提供翻译函数,以根据对所述第一集中的每个元素规定第二集中的一个特定元素或异常处理元素的表,将第一集元素块翻译为第二集元素块,所述函数还被提供给中断处理,从而每当对利用所述表内的异常处理元素标记的元素进行处理时,执行异常处理函数,所述方法包括步骤:
将所述第一集元素分为:第一子集,其含有将被翻译为所述第二集中的一个特定元素的各元素;第二子集,其含有所述第一集的剩余元素;
编制第一表(304),其中属于第一子集的每个元素被分配给第二集中的相应元素,所述第二子集中的所有元素被分配给异常处理元素;
编制第二表(314),该第二表表示规则,异常处理函数根据其翻译所述第二子集中的所述元素;
确定要变换的数据块,从而利用所述第一集内的元素构成所述数据块;
将所述第一表(304)、所述第二表(314)以及所述确定数据块送到所述翻译函数(300);以及
处理所述翻译函数。
2.根据权利要求1所述的方法,其中利用具有第一属性的字符构成所述第一集,而利用具有第二属性的所述字符构成所述第二集。
3.根据权利要求2所述的方法,其中所述第一属性和所述第二属性由小写字母、大写字母或标题字母构成。
4.根据上述权利要求中的任何一个所述的方法,其中通过进行格变换将第一集元素变换为第二集元素。
5.根据上述权利要求1所述的方法,其中利用以用于表示计算机处理过程中的文本的统一字符编码标准编码的各字符构成所述第一集和所述第二集。
6.根据权利要求1所述的方法,其中编制第一表的步骤包括步骤:
确定所有非格字符的代码;
在第一表(304)中对各字符的确定代码分配异常处理字符。
7.根据权利要求1所述的方法,进一步提供:第一图表(500),其列出待翻译各字符的所有代码和其映射到不同格的代码;以及第二图表(502),其含有一系列条件映射,其中编制第一表包括步骤:
从第一图表中取出待翻译字符的所有代码;
确定第二图表内具有入口的各字符的代码;以及
在第一表中对各字符的确定代码分配异常处理字符。
8.根据权利要求1所述的方法,进一步提供:第一图表(500),其列出待翻译各字符的所有代码和其映射到不同格的代码;以及第二图表(502),其含有一系列条件映射,其中编制第二表的步骤包括:
从第二图表中取出所有代码、映射和条件;
确定在第二图表内具有入口的第一图表内各字符的代码;以及
将各字符的确定代码和相应映射附加到第二表。
9.一种将第一集元素变换为第二集元素的系统,第一集中的至少一个元素与第二集中的一个或多个元素具有上下文相关关系,该系统包括:
计算机系统,提供翻译函数,以根据对所述第一集中的每个元素规定第二集中的一个特定元素或异常处理元素的表,将第一集元素块翻译为第二集元素块,所述函数还被提供给中断处理,从而每当对利用所述表内的异常处理元素标记的元素进行处理时,执行异常处理函数,
第一部分,其被配置为使计算机系统将所述第一集元素分离为:第一子集,其含有将被翻译为所述第二集中的一个特定元素的各元素;第二子集,其含有所述第一集的剩余元素;
第二部分,其配置为使计算机系统编制第一表,其中属于第一子集的每个元素被分配给第二集中的相应元素,而所述第二子集中的所有元素被分配给异常处理元素;
第三部分,其被配置为使计算机系统编制第二表,该第二表表示规则,异常处理函数根据其翻译所述第二子集中的所述元素;
第四部分,其被配置为使计算机系统确定要变换的数据块,从而利用所述第一集内的元素构成所述数据;
第五部分,其被配置为使计算机系统将所述第一表、所述第二表以及所述确定数据块送到所述翻译函数;以及
第六部分,其被配置为使计算机系统处理所述翻译函数。
10.根据权利要求9所述的系统,该系统被设置为用作安装了用于执行根据权利要求1至8中的任何一个所述方法各步骤的计算机程序的因特网服务器。
CNB01814473XA 2000-08-22 2001-08-11 进行格变换的方法和系统 Expired - Fee Related CN100390783C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00117994.4 2000-08-22
EP00117994 2000-08-22

Publications (2)

Publication Number Publication Date
CN1449529A CN1449529A (zh) 2003-10-15
CN100390783C true CN100390783C (zh) 2008-05-28

Family

ID=8169604

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB01814473XA Expired - Fee Related CN100390783C (zh) 2000-08-22 2001-08-11 进行格变换的方法和系统

Country Status (6)

Country Link
US (1) US20020052749A1 (zh)
EP (1) EP1325428A2 (zh)
CN (1) CN100390783C (zh)
AU (1) AU2001291760A1 (zh)
TW (1) TW561360B (zh)
WO (1) WO2002017129A2 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2264628A1 (en) * 2002-09-18 2010-12-22 Netezza Corporation Intelligent storage device controller
US6861963B1 (en) * 2003-11-07 2005-03-01 Microsoft Corporation Encoding conversion fallback
DE102004048531A1 (de) * 2004-06-25 2006-01-19 Daimlerchrysler Ag Vorrichtung und Verfahren zur Stabilisierung eines Fahrzeugs
US7831908B2 (en) * 2005-05-20 2010-11-09 Alexander Vincent Danilo Method and apparatus for layout of text and image documents
US20080086694A1 (en) * 2006-09-11 2008-04-10 Rockwell Automation Technologies, Inc. Multiple language development environment using shared resources
CN114330248B (zh) * 2022-02-22 2022-05-17 深圳市微克科技有限公司 一种智能穿戴系统自动切换多国语言的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787452A (en) * 1996-05-21 1998-07-28 Sybase, Inc. Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5870492A (en) * 1992-06-04 1999-02-09 Wacom Co., Ltd. Hand-written character entry apparatus
JP2750555B2 (ja) * 1992-06-16 1998-05-13 シャープ株式会社 携帯型電子機器におけるアルファベット処理システム
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
US5793381A (en) * 1995-09-13 1998-08-11 Apple Computer, Inc. Unicode converter
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6204782B1 (en) * 1998-09-25 2001-03-20 Apple Computer, Inc. Unicode conversion into multiple encodings
US6523172B1 (en) * 1998-12-17 2003-02-18 Evolutionary Technologies International, Inc. Parser translator system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787452A (en) * 1996-05-21 1998-07-28 Sybase, Inc. Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment

Also Published As

Publication number Publication date
AU2001291760A1 (en) 2002-03-04
EP1325428A2 (en) 2003-07-09
WO2002017129A2 (en) 2002-02-28
CN1449529A (zh) 2003-10-15
TW561360B (en) 2003-11-11
US20020052749A1 (en) 2002-05-02
WO2002017129A3 (en) 2002-09-12

Similar Documents

Publication Publication Date Title
US5682158A (en) Code converter with truncation processing
US7949513B2 (en) Language module and method for use with text processing devices
CN100416591C (zh) 字符识别电子设备和字符识别方法
US7251667B2 (en) Unicode input method editor
EP0268069B1 (en) Method of forming a message file in a computer
CN1519753B (zh) 字符输入编辑方法、装置
CN104866469A (zh) 具有第二语言模式的输入法编辑器
CA2579052C (en) Multi language text input in a handheld electronic device
EP1679614B1 (en) Method and apparatus for providing foreign language text display when encoding is not available
CN101796573B (zh) 显示装置、字符序列的显示方法、多个字符序列的排序方法
CN1524234B (zh) 用于转换字符代码的设备
US4727511A (en) Multitype characters processing method and terminal device
CN1322401C (zh) 通信终端设备,接收设备及其方法
CN100390783C (zh) 进行格变换的方法和系统
US20060277332A1 (en) Translation support system and program thereof
US7359850B2 (en) Spelling and encoding method for ideographic symbols
WO1997010556A1 (en) Unicode converter
KR20010016679A (ko) 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법
CN105892710B (zh) 基于文本框的汉字输入方法及其装置
CN100416471C (zh) 一种小键盘上西语输入中的歧义处理与人机交互方法
CN111045530A (zh) 嵌入式条码识读设备模拟多国语言键盘输出的方法及设备
Peruginelli et al. Character sets: towards a standard solution?
CN101325758A (zh) 可显示多种语言的移动通讯装置及方法
Hensch Ibm history of far eastern languages in computing. Part 1. Requirements and initial phonetic product solutions in the 1960s
WO1998033118A1 (en) Method of solving millennium problems of some application programs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080528

Termination date: 20090911