CN101000602A - 字符转换方法与系统 - Google Patents

字符转换方法与系统 Download PDF

Info

Publication number
CN101000602A
CN101000602A CNA2006100917143A CN200610091714A CN101000602A CN 101000602 A CN101000602 A CN 101000602A CN A2006100917143 A CNA2006100917143 A CN A2006100917143A CN 200610091714 A CN200610091714 A CN 200610091714A CN 101000602 A CN101000602 A CN 101000602A
Authority
CN
China
Prior art keywords
character
code
numeric
utf
computing machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100917143A
Other languages
English (en)
Inventor
林政荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Original Assignee
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiwan Semiconductor Manufacturing Co TSMC Ltd filed Critical Taiwan Semiconductor Manufacturing Co TSMC Ltd
Publication of CN101000602A publication Critical patent/CN101000602A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种字符转换方法与系统。该方法包括:首先取得以第一字符集编码的至少一个字符,其中该第一字符集依据单码世界字符标准,并且每一字符依据该第一字符集编码为第一字符码;再将每一该字符的该第一字符码转换为数值字符参考,其中该数值字符参考与超文本标记语言一致;以及使用第二字符集储存每一该字符的该数值字符参考,以供编码。本发明的字符转换方法和系统完成多语言数据的字符转换,而无须大幅度改变该数据库或服务器,因此解决了传统字符转换方法的缺点。

Description

字符转换方法与系统
技术领域
本发明涉及字符转换方法,特别涉及适用于多语言数据的计算机执行的字符转换方法。
背景技术
传统上,不同地区具有其各自的区域性的字符编码标准。例如台湾地区使用Big-5作为字符编码标准,中国大陆地区使用GB-2312作为字符编码标准,日本则使用Shift-JIS作为字符编码标准。随着商业活动的国际化,跨国企业可能会在不同的地区,依据区域性的字符编码标准,建立其网站。
由于在不同区域之间数据交换日益频繁,字符编码全球化便成了一种不可避免的趋势。例如,单码(Unicode)针对每一字符,指定了一个唯一的号码,因此提供了一种国际性的编码标准。单码(Unicode)的正式名称为单码世界字符标准(Unicode Worldwide Character Standard),其为一种用于交换、处理、及显示不同语言写成的数据的系统。单码也支持传统的及历史的多语言书写的数据。
当以单码字符集(例如UTF-8)编码的来源数据和以区域性字符集(例如Big-5)编码的目标媒体(例如数据库、文件、或应用程序)沟通时,即发生数据转换的问题。
图1显示用于不同字符集的字符转换系统的示意图。来源数据库100储存以UTF-8编码的数据,而目标数据库102储存以Big-5编码的数据。若以UTF-8编码的数据106从来源数据库100传送到目标数据库102,则必须在目标数据库102建立转换器112来进行字符转换。若在目标数据库102端提供应用服务器104,则必须在应用服务器104也建立转换器114来进行字符转换。这样才能够将数据106正确储存在目标数据库102或正确显示在应用服务器104。
如图1所示的字符转换系统存在问题,也就是说,即使只有少量的数据要进行转换,也必须在目标端的每一个元件中,都建立字符转换器。
图1显示用于不同字符集的字符转换系统的示意图。来源数据库200储存以UTF-8编码的数据,而目标数据库202储存以Big-5编码的数据。建立了代理器210以进行UTF-8编码数据和Big-5编码数据之间的字符转换。若以UTF-8编码的UTF-8数据206从来源数据库200传送到目标数据库202,则数据206经由代理器210转换为以Big-5编码的Big-5数据208。若在目标数据库202端提供应用服务器204,则其可以直接使用储存在数据库202中的数据或经过转换的数据208。
如图2所示的字符转换系统存在问题,也就是说,必须建立代理器,以进行在两种字符集之间的每一字符转换。例如,UTF-8编码数据转换成Big-5编码数据,UTF-8编码数据转换成Shift-JIS编码数据,或UTF-8编码数据转换成GB-2312编码数据,其耗费相当多的资源。另一个问题为UTF-8字符集和Big-5字符集并非一对一兼容,这样一来,使用代理器可能会造成部分字符漏失。
发明内容
本发明提供一种字符转换方法,特别是有关于适用于多语言数据的计算机执行的字符转换方法。
本发明提供一种计算机执行的字符转换方法。该方法包括:首先取得以第一字符集编码的至少一个字符,其中该第一字符集依据单码世界字符标准(Unicode Worldwide Character Standard),并且每一字符依据该第一字符集编码为第一字符码;再将每一该字符的该第一字符码转换为数值字符参考(numeric character reference),其中该数值字符参考与超文本标记语言(Hypertext Markup Language)一致;以及使用第二字符集储存每一该字符的该数值字符参考,以供编码。
本发明所述的计算机执行的字符转换方法,其中该字符由使用该第一字符集编码的数据库或文件取得。
本发明所述的计算机执行的字符转换方法,其中该第一字符集为UTF-8、UTF-16、或UTF-32字符集。
本发明所述的计算机执行的字符转换方法,其中每一该字符的该第一字符码包含句柄及数值码,并且该转换步骤进一步从该第一字符码中提取数值码。
本发明所述的计算机执行的字符转换方法,其中该数值字符参考格式化为字符串“
”,其中“D”为提取出的该数值码,而“&#X”则为该数值字符参考的语法格式。
本发明所述的计算机执行的字符转换方法,其中该转换后的字符提供给浏览器以进行显示,其中该浏览器依据超文本标记语言显示字符。
本发明所述的计算机执行的字符转换方法,其中每一该字符的该数值字符参考使用该第二字符集储存于文件、数据库、或应用程序,以供编码。
本发明还提供一种字符转换系统,其包括取得模块、转换器、储存模块。该取得模块,其用以取得以第一字符集编码的至少一个字符,其中该第一字符集依据单码世界字符标准(Unicode Worldwide Character Standard),并且每一字符依据该第一字符集编码为第一字符码。该转换器,其耦接于该取得模块,用以将每一该字符的该第一字符码转换为数值字符参考(numericcharacter reference),其中该数值字符参考与超文本标记语言(HypertextMarkup Language)一致。该储存模块,其耦接于该转换器,用以使用第二字符集储存每一该字符的该数值字符参考,以供编码。
本发明所述的字符转换系统,其中该取得模块由使用该第一字符集编码的数据库或文件取得该字符。
本发明所述的字符转换系统,其中该第一字符集为UTF-8、UTF-16、或UTF-32字符集。
本发明所述的字符转换系统,其中每一该字符的该第一字符码包含句柄及数值码,并且该转换器进一步从该第一字符码中提取数值码。
本发明所述的字符转换系统,其中该数值字符参考格式化为字符串“
”,其中“D”为提取出的该数值码,而“&#X”则为该数值字符参考的语法格式。
本发明所述的字符转换系统,其中该转换后的字符提供给浏览器以进行显示,其中该浏览器依据超文本标记语言显示字符。
本发明所述的字符转换系统,其中每一该字符的该数值字符参考使用该第二字符集储存于文件、数据库、或应用程序,以供编码。
本发明的字符转换方法和系统完成多语言数据的字符转换,而无须大幅度改变该数据库或服务器,因此解决了传统字符转换方法的缺点。
附图说明
为让本发明的上述和其它目的、特征、和优点能更明显易懂,下文特举出优选实施例,并配合附图,作详细说明如下:
图1显示公知用于不同字符集的字符转换系统的示意图。
图2显示公知用于不同字符集的字符转换系统的示意图。
图3显示依据本发明实施例的计算机执行的字符转换方法的流程图。
图4显示依据本发明实施例的字符转换系统。
图5显示依据本发明实施例的数值字符参考的示意图。
图6显示依据本发明实施例的字符转换系统的示意图。
其中,附图标记说明如下:
100~来源数据库;      102~目标数据库;    106~数据;
112~转换器;          114~转换器;        104~应用服务器;
200~来源数据库;      202~目标数据库;    210~代理器;
206~UTF-8数据;       208~Big-5数据;     204~应用服务器;
500~字符;            504~数值字符参考;  502~第一字符码;
600~来源数据库;      610~字符转换系统;  606~UTF-8数据;
608~数值字符参考数据;602~目标数据库;    604~应用服务器;
620~代理器;          621~Big-5字符。
具体实施方式
为了让本发明的目的、特征、及优点能更明显易懂,下文特举优选实施例,并配合图3到图6做详细的说明。本发明说明书提供不同的实施例来说明本发明不同实施方式的技术特征。其中,实施例中的各元件的配置为说明使用,并非用以限制本发明。并且实施例中附图标记的部分重复,是为了简化说明,并非表示不同实施例之间的关联性。
图3显示依据本发明实施例的计算机执行的字符转换方法的流程图。取得以第一字符集编码至少一个字符(步骤S300)。例如,该字符由使用该第一字符集编码的数据库或文件取得。该第一字符集依据单码世界字符标准(Unicode Worldwide Character Standard),例如UTF-8、UTF-16、或UTF-32字符集。
上述取得的每一该字符依据该第一字符集编码为第一字符码。每一该字符的该第一字符码被转换为数值字符参考(numeric character reference)(步骤S302)。其中该数值字符参考与超文本标记语言(Hypertext MarkupLanguage,HTML)一致。其中每一该字符的该第一字符码包含句柄及数值码,使得上述转换步骤进一步从该第一字符码中提取数值码。其中,该数值字符参考格式化为字符串“
”,其中“D”为提取出的该数值码,而“&#X”则为该数值字符参考的语法格式。当“
”在HTML文件中由译码器(例如浏览器的译码器)读取,则其可以被识别并编码为在单码中的字符。因此,该浏览器可以正确显示该字符。
图5显示依据本发明实施例的数值字符参考的示意图。字符500“堃”为汉字字符,其包含于UTF-8字符集中,但不包含于Big-5字符集中。“堃”的第一字符码为(1110 0101 10 1000  00 10 00  0011)(如图5中第一字符码502所示)。上述“堃”的第一字符码包含句柄及数值码。其中,句柄即为上述数字中没有底线标示的字符码,而数值码则为上述数字中有底线标示的字符码。这样一来,转换步骤可以进一步从该第一字符码中提取数值码,也就是说,(0101 1000 0000 0011),以十进制表示就是5803。该数值字符参考为“堃”(如图5中数值字符参考504所示)。
使用第二字符集储存每一该字符的该数值字符参考,以供编码(步骤S304)。用于储存每一该字符的该数值字符参考的储存媒体可以是数据库、文件、或应用程序。
接着,可以将该转换后的字符提供给全球网络(world wide web)浏览网页以供显示使用(步骤S306)。在此,该全球网络浏览网页显示HTML字符。
图4显示依据本发明实施例的字符转换系统。字符转换系统包含取得模块400、转换器402、储存模块404。
取得模块400,其用以取得以第一字符集编码的至少一个字符。其中该第一字符集依据单码世界字符标准(Unicode Worldwide Character Standard),并且每一字符依据该第一字符集编码为第一字符码。该第一字符集依据单码世界字符标准(Unicode Worldwide Character Standard),例如UTF-8、UTF-1 6、或UTF-32字符集。
该转换器402耦接于该取得模块400,用以将每一该字符的该第一字符码转换为数值字符参考(numeric character reference)。其中该数值字符参考与超文本标记语言(Hypertext Markup Language)一致。其中每一该字符的该第一字符码包含句柄及数值码。转换器402进一步从该第一字符码中提取数值码。其中,该数值字符参考格式化为字符串“
”,其中“D”为提取出的该数值码,而“&#X”则为该数值字符参考的语法格式。
该储存模块404耦接于该转换器402,用以使用第二字符集储存每一该字符的该数值字符参考,以供编码。用于储存每一该字符的该数值字符参考的储存媒体可以是数据库、文件、或应用程序。
接着,可以将该转换后的字符提供给全球网络(world wide web)浏览网页406以供显示使用。在此,该全球网络浏览网页406显示HTML字符。
图6显示依据本发明实施例的字符转换系统的示意图。来源数据库600储存以UTF-8编码的数据,而目标数据库602储存以Big-5编码的数据。字符转换系统610建立。取自来源数据库600的以UTF-8编码的UTF-8数据606,被字符转换系统610转换为格式化为数值字符参考的数值字符参考数据608,并储存在目标数据库602。若在目标端提供应用服务器604,则可以直接使用储存在数据库602中的数据或经过转换的数据608。由于在应用服务器604的浏览器可读取HTML数据,因此格式化为数值字符参考的转换过的字符可以被正确显示。
本发明提供的系统具有弹性。例如,可以将代理器620附加于该系统,以将部分的字符直接由UTF-8转换为Big-5字符621。本发明的字符转换方法和系统完成多语言数据的字符转换,而无须大幅度改变该数据库或服务器,因此解决了传统字符转换方法的缺点。
虽然本发明已以优选实施例公开如上,然而其并非用以限定本发明,任何熟悉该项技术的人,在不脱离本发明的精神和范围内,应当可以做出一些变动与修改,因此本发明的保护范围应当以所附的权利要求书所界定的范围为准。

Claims (14)

1.一种计算机执行的字符转换方法,该方法包括:
取得以第一字符集编码的至少一个字符,其中该第一字符集依据单码世界字符标准,并且每一字符依据该第一字符集编码为第一字符码;
将每一该字符的该第一字符码转换为数值字符参考,其中该数值字符参考与超文本标记语言一致;以及
使用第二字符集储存每一该字符的该数值字符参考,以供编码。
2.如权利要求1所述的计算机执行的字符转换方法,其中该字符由使用该第一字符集编码的数据库或文件取得。
3.如权利要求1所述的计算机执行的字符转换方法,其中该第一字符集为UTF-8、UTF-16、或UTF-32字符集。
4.如权利要求1所述的计算机执行的字符转换方法,其中每一该字符的该第一字符码包含句柄及数值码,并且该转换步骤进一步从该第一字符码中提取数值码。
5.如权利要求4所述的计算机执行的字符转换方法,其中该数值字符参考格式化为字符串“
”,其中“D”为提取出的该数值码,而“&#X”则为该数值字符参考的语法格式。
6.如权利要求1所述的计算机执行的字符转换方法,其中该转换后的字符提供给浏览器以进行显示,其中该浏览器依据超文本标记语言显示字符。
7.如权利要求1所述的计算机执行的字符转换方法,其中每一该字符的该数值字符参考使用该第二字符集储存于文件、数据库、或应用程序,以供编码。
8.一种字符转换系统,其包括:
取得模块,其用以取得以第一字符集编码的至少一个字符,其中该第一字符集依据单码世界字符标准,并且每一字符依据该第一字符集编码为第一字符码;
转换器,其耦接于该取得模块,用以将每一该字符的该第一字符码转换为数值字符参考,其中该数值字符参考与超文本标记语言一致;以及
储存模块,其耦接于该转换器,用以使用第二字符集储存每一该字符的该数值字符参考,以供编码。
9.如权利要求8所述的字符转换系统,其中该取得模块由使用该第一字符集编码的数据库或文件取得该字符。
10.如权利要求8所述的字符转换系统,其中该第一字符集为UTF-8、UTF-16、或UTF-32字符集。
11.如权利要求8所述的字符转换系统,其中每一该字符的该第一字符码包含句柄及数值码,并且该转换器进一步从该第一字符码中提取数值码。
12.如权利要求11所述的字符转换系统,其中该数值字符参考格式化为字符串“
”,其中“D”为提取出的该数值码,而“&#X”则为该数值字符参考的语法格式。
13.如权利要求8所述的字符转换系统,其中该转换后的字符提供给浏览器以进行显示,其中该浏览器依据超文本标记语言显示字符。
14.如权利要求8所述的字符转换系统,其中每一该字符的该数值字符参考使用该第二字符集储存于文件、数据库、或应用程序,以供编码。
CNA2006100917143A 2006-01-09 2006-06-08 字符转换方法与系统 Pending CN101000602A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/327,397 US7642937B2 (en) 2006-01-09 2006-01-09 Character conversion methods and systems
US11/327,397 2006-01-09

Publications (1)

Publication Number Publication Date
CN101000602A true CN101000602A (zh) 2007-07-18

Family

ID=38232310

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100917143A Pending CN101000602A (zh) 2006-01-09 2006-06-08 字符转换方法与系统

Country Status (3)

Country Link
US (1) US7642937B2 (zh)
CN (1) CN101000602A (zh)
TW (1) TWI321738B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043801A (zh) * 2009-10-16 2011-05-04 无锡华润上华半导体有限公司 数据库间的数据交互方法、系统及发送方数据库、接收方数据库
CN102184095A (zh) * 2011-01-30 2011-09-14 广东佳和通信技术有限公司 融合通信系统的中文显示系统及方法
CN104778243A (zh) * 2015-04-09 2015-07-15 天脉聚源(北京)教育科技有限公司 一种字符型数据转换成数值型数据的方法和装置
CN105243168A (zh) * 2015-11-11 2016-01-13 中国建设银行股份有限公司 一种数据迁移方法及系统
CN107533617A (zh) * 2015-07-21 2018-01-02 At信息股份有限公司 服务器装置、信息管理系统、信息管理方法以及计算机程序
CN113162628A (zh) * 2021-04-26 2021-07-23 深圳希施玛数据科技有限公司 一种数据编码方法、数据解码方法、终端和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7663511B2 (en) * 2008-06-18 2010-02-16 Microsoft Corporation Dynamic character encoding
JP6397343B2 (ja) * 2015-01-28 2018-09-26 株式会社日立社会情報サービス 情報処理装置、および、情報処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314469B1 (en) 1999-02-26 2001-11-06 I-Dns.Net International Pte Ltd Multi-language domain name service
US6345307B1 (en) 1999-04-30 2002-02-05 General Instrument Corporation Method and apparatus for compressing hypertext transfer protocol (HTTP) messages
US6963876B2 (en) 2000-06-05 2005-11-08 International Business Machines Corporation System and method for searching extended regular expressions
US7278100B1 (en) * 2000-07-10 2007-10-02 International Business Machines Corporation Translating a non-unicode string stored in a constant into unicode, and storing the unicode into the constant
US7086004B2 (en) * 2001-04-19 2006-08-01 International Business Machines Corporation Generalized mechanism for unicode metadata
TW569592B (en) 2002-09-20 2004-01-01 Inventec Appliances Corp Character transforming method for a mobile phone
CA2426496A1 (en) 2003-04-24 2004-10-24 Ibm Canada Limited - Ibm Canada Limitee Processing fixed-format data in a unicode environment
TWI306337B (en) 2005-01-24 2009-02-11 Mediatek India Technology Pvt Ltd Character conversion methods and systems

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043801A (zh) * 2009-10-16 2011-05-04 无锡华润上华半导体有限公司 数据库间的数据交互方法、系统及发送方数据库、接收方数据库
CN102184095A (zh) * 2011-01-30 2011-09-14 广东佳和通信技术有限公司 融合通信系统的中文显示系统及方法
CN104778243A (zh) * 2015-04-09 2015-07-15 天脉聚源(北京)教育科技有限公司 一种字符型数据转换成数值型数据的方法和装置
CN104778243B (zh) * 2015-04-09 2018-12-21 天脉聚源(北京)教育科技有限公司 一种字符型数据转换成数值型数据的方法和装置
CN107533617A (zh) * 2015-07-21 2018-01-02 At信息股份有限公司 服务器装置、信息管理系统、信息管理方法以及计算机程序
CN105243168A (zh) * 2015-11-11 2016-01-13 中国建设银行股份有限公司 一种数据迁移方法及系统
CN105243168B (zh) * 2015-11-11 2019-08-30 中国建设银行股份有限公司 一种数据迁移方法及系统
CN113162628A (zh) * 2021-04-26 2021-07-23 深圳希施玛数据科技有限公司 一种数据编码方法、数据解码方法、终端和存储介质
CN113162628B (zh) * 2021-04-26 2022-03-18 深圳希施玛数据科技有限公司 一种数据编码方法、数据解码方法、终端和存储介质

Also Published As

Publication number Publication date
US20070159366A1 (en) 2007-07-12
TWI321738B (en) 2010-03-11
TW200727148A (en) 2007-07-16
US7642937B2 (en) 2010-01-05

Similar Documents

Publication Publication Date Title
CN101000602A (zh) 字符转换方法与系统
Billington et al. The petri net markup language: Concepts, technology, and tools
Brandes et al. Graph markup language (GraphML)
CN108491199B (zh) 一种自动生成接口的方法及终端
US20050144556A1 (en) XML schema token extension for XML document compression
CN100565524C (zh) 一种保存网页内容的系统、方法及浏览器
CN102722479B (zh) 一种实现语言翻译的方法及装置
CN101996160B (zh) 一种字体数据的处理方法及系统
CN101361063A (zh) 支持基于规则的文档内容挖掘的系统与方法
CN103064827A (zh) 一种网页内容抽取的方法及装置
CN101013436A (zh) 将不同格式的文本数据转换为统一格式的方法及其系统
CN102253984A (zh) 查询语句处理装置和查询语句处理方法
CN101763423A (zh) 实现万维网页面树形结构数据展示的方法、系统及装置
CN102053994A (zh) 一种语言解析器和应用该解析器的解析方法
CN102073662B (zh) 一种解析和创建xml数据的方法及系统
Suzuki et al. Managing the software design documents with XML
CN103885765A (zh) 一种xbrl元素的编码方法
Khan et al. The Challenges of Converting Legacy Lexical Resources to Linked Open Data using Ontolex-Lemon: The Case of the Intermediate Liddell-Scott Lexicon.
CN101149669A (zh) 文字编码转换的方法
CN104317935A (zh) 一种xml账单文件批量生成html页面的方法及系统
CN101587470A (zh) 文档的编辑方法及装置
CN100390783C (zh) 进行格变换的方法和系统
CN101325758A (zh) 可显示多种语言的移动通讯装置及方法
CN106484661A (zh) 一种ebcdic编码扩展的方法
CN1836374B (zh) 一种适合代码自动生成的结构化数据的二进制编码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070718