CN1904878A - 用于产生字符集的方法和装置 - Google Patents

用于产生字符集的方法和装置 Download PDF

Info

Publication number
CN1904878A
CN1904878A CNA2006101001011A CN200610100101A CN1904878A CN 1904878 A CN1904878 A CN 1904878A CN A2006101001011 A CNA2006101001011 A CN A2006101001011A CN 200610100101 A CN200610100101 A CN 200610100101A CN 1904878 A CN1904878 A CN 1904878A
Authority
CN
China
Prior art keywords
value
character code
code value
character
predetermined reference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101001011A
Other languages
English (en)
Other versions
CN1904878B (zh
Inventor
赵重元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pan Thai Co ltd
Original Assignee
Pantech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pantech Co Ltd filed Critical Pantech Co Ltd
Publication of CN1904878A publication Critical patent/CN1904878A/zh
Application granted granted Critical
Publication of CN1904878B publication Critical patent/CN1904878B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供一种产生字符集的方法,包括:接收字符代码值的两个字节,并且确定所述字符代码值是否大于预定的参考值;如果所述字符代码值大于所述预定参考值,则向所述字符代码值加上预定补偿值,并且输出得到的值,如果所述字符代码值不大于所述预定参考值,则输出所述字符代码值;以及在输入所述字符代码值后向由所述字符代码值组成的字符串的尾部加上空数据。

Description

用于产生字符集的方法和装置
技术领域
本发明涉及一种用于通过使用改进的Unicode(单一字符集编码标准)字符集来产生字符集的方法和装置。
背景技术
通常,在移动通信终端中使用用于输入诸如数字、符号、韩语字符和日语字符之类的字符所需要的字符集,并且向所述字符分配每个字符集的代码值。用于编码字符集的示例包括单字节字符集(SBCS)、多字节字符集(MBCS)和Unicode字符集。各个字符集在用于表示字符的字节数量和在字符串尾部添加的空数据上彼此不同。
SBCS使用比MBCS或Uicode字符集少的存储量来表示字符,但是在表示各种类型的字符上具有限制。MBCS使用多个字节来表示字符,即使在可以使用一个字节来表示字符的情况下也是如此。
发明内容
本发明提供了一种用于产生字符集的方法和装置,其通过改变表示字符所需要的字节数量来减少了表示字符所需要的存储量。
按照本发明的一个方面,提供了一种产生字符集的方法,包括:接收字符代码值的两个字节,并且确定所述字符代码值是否大于预定的参考值;如果所述字符代码值大于所述预定参考值,则向所述字符代码值加上预定补偿值,并且输出得到的值,如果所述字符代码值不大于所述预定参考值,则输出所述字符代码值;以及在输入所述字符代码值后向由所述字符代码值组成的字符串的尾部加上空数据。
按照本发明的另一个方面,提供了一种用于产生字符集的装置,包括:确定部分,用于接收字符代码值的两个字节,并且确定所述字符代码值是否大于预定的参考值;转换部分,用于如果所述字符代码值大于所述预定参考值,向所述字符代码值加上预定补偿值,并且则输出得到的值;以及输出部分,用于在输入所述字符代码值后向由所述字符代码值组成的字符串的尾部加上空数据,并且输出所述字符串。
所述装置可以还包括字符处理部分,用于处理和显示所述字符串。
所述字符代码值可以是Unicode值,并且所述预定参考值可以是‘0x0080’。
所述补偿值可以是‘0x8000’,并且所述空数据可以是‘0x00’。
按照本发明的另一个方面,提供了一种计算机可读介质,用于记录程序,所述程序在计算机中执行用于产生字符集的所述方法。
附图说明
通过参见附图而详细说明本发明的例证实施例,本发明的上述和其他特点和优点将变得更清楚,其中:
图1是按照本发明的一个实施例的用于产生字符集的方法的流程图;
图2A和2B图解了ASCII代码表;
图3图解了Unicode字符集的一部分;以及
图4是按照本发明的一个实施例的用于产生字符集的装置的方框图。
具体实施方式
现在参见附图来详细说明按照本发明的例证实施例。
图1是按照本发明的一个实施例的用于产生字符集的方法的流程图。
首先,详细说明对字符集进行编码的方法。所述字符集的示例包括单字节字符集(SBCS)、多字节字符集(MBCS)和Unicode字符集。
SBCS表示对于每个字符使用一个字节的字符集。在此字符集中,字符串以
Figure A20061010010100041
结尾,以指示字符串的尾部。SBCS的一个示例是ASCII代码。图2A和2B图解了ASCII代码的表。
MBCS表示一个字符集,其中,以两个字节来编码诸如韩语(Hangeul)、日语或汉语之类的字符,并且以一个字节来编码诸如英语之类的字符。MBCS一般被称为双字节字符集(DBCS),这是因为没有使用三个或更多的字节的字符。
DBSC编码方法使用特定值来确定一个字符是使用一个字节还是使用两个字节。例如,在移位JIS编码方法中,在0x81和0x9F之间和在0xE0和0xFC之间的值表示双字节字符。这些值被称为引导字节(lead byte),并且大于0x7F。所述引导字节后随尾部字节(trail byte)。在DBCS中,尾部字节可以具有除了‘0’之外的值。类似于SBCS,在DBCS中,字符串以 结尾。
Unicode字符集表示其中以两个字节来编码每个字符的字符集。因此,与SBCS相比,它需要更多的用于字符的存储量。即,在MBCS中,字符使用一个、两个或三个字节,而在Unicode字符集中,每个字符使用两个字节。在Unicode字符集中,字符串以
Figure A20061010010100052
结尾。图3图解了Unicode字符集的一部分。Unicode字符集具有比ASCII宽的、从0x0000到0x00FF的范围。
将参见图1来说明按照本发明的一个实施例的用于产生字符集的方法。在步骤S110中,输入字符代码。所述字符代码可以是Unicode。在步骤S120,确定Unicode的值是否大于0x0080。如果Unicode的值大于0x0080,则在步骤S130向0x0080加上所述Unicode值,以产生扩展的DBCS(E-DBCS)值。否则,在步骤S140,将Unicode值输出为E-DBCS值。所述E-DBCS值表示新的字符代码值。在步骤S150,向得到的字符代码串添加空数据。所述空数据使用一个字节
Figure A20061010010100053
在步骤S160,具有所述空数据的字符串被发送到显示部分,并且被输出。可以通过从E-DBCS值减去0x0080来将E-DBCS值转换为Unicode值。
例如,当输入Unicode值0x0400和0x0041时,向0x8000加上0x400,并且然后输出0x8400,这是因为0x0400大于0x0080。同时,因为Unicode值0x0041小于0x0080,因此将其识别为ASCII代码,并且输出0x41。结果,获得0x840041。向0x840041加上表示字符串的结尾的0x00,结果产生0x84004100。
图4是按照本发明的一个实施例的用于产生字符集的装置的方框图。
用于产生字符集的装置包括确定部分410、转换部分420、以及输出部分430。所述装置还可以包括字符处理部分440,其处理和显示从输出部分430输出的字符串。
确定部分410接收字符串。所述字符串可以是Unicode字符集。确定部分410确定字符代码的值是否大于0x8000。如果字符代码值大于0x8000,则确定部分410向转换部分420发送所述字符代码。否则,确定部分410向输出部分430发送所述字符代码。转换部分420向所述字符代码值加上0x8000,并且向输出部分430发送得到的值。输出部分430向所发送的字符代码加上一个字节的空数据,因此产生字符串。所述空数据可以是‘00’。字符处理部分440处理和显示以这种方式而产生的字符串。
同时,可以在计算机程序中写入用于产生字符集的上述方法。可以容易地由本领域的计算机程序员推导出构成所述程序的代码和代码段。所述程序存储在计算机可读媒体中,并且由计算机来执行,由此执行产生字符集的方法。所述计算机可读媒体的示例包括磁记录媒体、光记录媒体和载波媒体。
如从上述说明可明显看出的,有可能提高处理速度,这是因为使用Unicode值而不是使用转换表来确定字符代码的转换。
另外,有可能减少字符集所需要的存储量,这是因为所述字符使用一个或两个字节。而且,有可能表示在Unicode字符集中支持的特殊字符。
虽然已经参照本发明的例证实施例而说明了本发明,本领域内的技术人员会明白,在不脱离所附的权利要求所限定的本发明的精神和范围的情况下,可以进行形式和细节上的各种改变。
本申请要求2005年7月25日在韩国专利局提交的韩国专利申请第2005-67524号的优先权,将其公开内容通过引用而整体并入在此。

Claims (8)

1.一种产生字符集的方法,包括:
接收字符代码值的两个字节,并且确定所述字符代码值是否大于预定的参考值;
如果所述字符代码值大于所述预定参考值,则向所述字符代码值加上预定补偿值,并且输出得到的值,如果所述字符代码值不大于所述预定参考值,则输出所述字符代码值;以及
在输入所述字符代码值后向由所述字符代码值组成的字符串的尾部加上空数据。
2.按照权利要求1的方法,其中,所述字符代码值是Unicode值,并且所述预定参考值是‘0x0080’。
3.按照权利要求1的方法,其中,所述补偿值是‘0x8000’,所述空数据是‘0x00’。
4.一种用于产生字符集的装置,包括:
确定部分,用于接收字符代码值的两个字节,并且确定所述字符代码值是否大于预定的参考值;
转换部分,用于如果所述字符代码值大于所述预定参考值,则向所述字符代码值加上预定补偿值,并且则输出得到的值;以及
输出部分,用于在输入所述字符代码值后向由所述字符代码值组成的字符串的尾部加上空数据,并且输出所述字符串。
5.按照权利要求4的装置,还包括字符处理部分,用于处理和显示所述字符串。
6.按照权利要求4的装置,其中,所述字符代码值是Unicode值,并且所述预定参考值是‘0x0080’。
7.按照权利要求4的装置,其中,所述补偿值是‘0x8000’,而所述空数据是‘0x00’。
8.一种计算机可读介质,用于记录程序,所述程序在计算机中执行按照权利要求1的方法。
CN2006101001011A 2005-07-25 2006-06-28 用于产生字符集的方法和装置 Expired - Fee Related CN1904878B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR67524/05 2005-07-25
KR1020050067524A KR100755533B1 (ko) 2005-07-25 2005-07-25 캐릭터 셋 생성 방법 및 그 장치

Publications (2)

Publication Number Publication Date
CN1904878A true CN1904878A (zh) 2007-01-31
CN1904878B CN1904878B (zh) 2012-05-30

Family

ID=37674144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101001011A Expired - Fee Related CN1904878B (zh) 2005-07-25 2006-06-28 用于产生字符集的方法和装置

Country Status (3)

Country Link
US (1) US7298292B2 (zh)
KR (1) KR100755533B1 (zh)
CN (1) CN1904878B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7994949B2 (en) * 2009-11-30 2011-08-09 Red Hat, Inc. Unicode-compatible entropy coding
CN106844288B (zh) 2015-12-07 2022-03-22 创新先进技术有限公司 一种随机字符串生成方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701744A (en) * 1986-03-27 1987-10-20 Rca Corporation Method and apparatus for compacting and de-compacting text characters
KR920001310B1 (ko) * 1987-09-02 1992-02-10 가부시기가이샤 아스끼 문자표시장치
KR0144633B1 (ko) * 1994-12-30 1998-08-17 김준성 Lzw를 이용한 완성형 한글의 데이타 압축방법
US5682158A (en) * 1995-09-13 1997-10-28 Apple Computer, Inc. Code converter with truncation processing
US5832507A (en) * 1996-04-01 1998-11-03 Sun Microsystems, Inc. Method and apparatus for converting ASCII path names to parsed path name structures
US6247048B1 (en) * 1998-04-30 2001-06-12 Openwave Systems Inc Method and apparatus for transcoding character sets between internet hosts and thin client devices over data networks
US6622239B1 (en) * 1999-06-25 2003-09-16 International Business Machines Corporation Method, system and computer program product for optimization of single byte character processing employed within a multibyte character encoding scheme
JP2001084183A (ja) * 1999-09-17 2001-03-30 Nec Corp データ変換システム
US6601168B1 (en) * 1999-11-19 2003-07-29 Hewlett-Packard Development Company, L.P. Computer fan speed system to reduce audible perceptibility of fan speed changes
KR100399495B1 (ko) * 2000-04-26 2003-09-26 인터내셔널 비지네스 머신즈 코포레이션 소스 스트링의 타겟 스트링으로의 변환 방법, 이의 컴퓨터시스템 및 프로그램 제품
KR100408881B1 (ko) * 2002-01-09 2003-12-11 박도일 이진문자폰트를 이용한 산업용 잉크젯프린터의 문자출력방법 및 장치
US7132962B1 (en) * 2002-06-20 2006-11-07 Siebel Systems, Inc. Methods and apparatuses for character conversion control
KR100494876B1 (ko) * 2003-04-08 2005-06-14 주식회사 팬택 2바이트 문자 데이터 압축 방법
KR20050078426A (ko) * 2004-01-29 2005-08-05 엘지전자 주식회사 휴대단말기의 개선된 문자메시지 전송장치 및 방법
US7218252B2 (en) * 2004-02-25 2007-05-15 Computer Associates Think, Inc. System and method for character conversion between character sets

Also Published As

Publication number Publication date
KR100755533B1 (ko) 2007-09-06
KR20070013140A (ko) 2007-01-30
US20070018862A1 (en) 2007-01-25
US7298292B2 (en) 2007-11-20
CN1904878B (zh) 2012-05-30

Similar Documents

Publication Publication Date Title
CN102567293B (zh) 文本文件的编码格式探测方法和装置
US20060106888A1 (en) Data update system, differential data creating device and program for data update system, updated file restoring device and program
US6737994B2 (en) Binary-ordered compression for unicode
CN104834539A (zh) 一种数据增量更新方法
WO2020259417A1 (zh) 一种区块链的数据解析方法及装置
CN100585561C (zh) 在嵌入式系统剪裁可重定位的elf文件的方法
Lavanya et al. A simple approach for building transliteration editors for indian languages
CN107305495A (zh) 实现软件安装包功能修改的方法及终端
CN1904878A (zh) 用于产生字符集的方法和装置
US6883087B1 (en) Processing of binary data for compression
CN112200286A (zh) 字符串编码的方法和装置
CN102387120A (zh) 文件传输方法、服务器、客户端及网络传输系统
CN100347706C (zh) 一种pdf文档到xml文档转换的方法
CN102063415B (zh) 向pdf文件内嵌单字节字体的方法及其系统
CN1551013A (zh) 用于产生矢量字体的方法及设备
WO2024066271A1 (zh) 数据库水印的嵌入方法、溯源方法、装置和电子设备
CN1741006A (zh) 一种创建冷僻字扩充字库的方法
CN1290886A (zh) 优化单字节字符处理的方法、系统及计算机程序产品
CN105653506A (zh) 一种基于字符编码转换的gpu内文本处理的方法及装置
CN115712601A (zh) 一种基于springbatch批量读取定长文件的方法
CN114070470A (zh) 编解码方法及装置
CN107209672B (zh) 信息处理装置以及信息处理方法
CN1252586C (zh) 产生优化的计算机数据字段转换例程
CN101101628B (zh) 二维条码编码的汉字信息压缩方法
CN1131768A (zh) 数据处理系统和数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: Seoul, South Kerean

Patentee after: Pantech property management Co.

Address before: Seoul, South Korea

Patentee before: PANTECH Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20161115

Address after: Seoul, South Kerean

Patentee after: PANTECH CO.,LTD.

Address before: Seoul, South Kerean

Patentee before: Pantech property management Co.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200615

Address after: Seoul, South Kerean

Patentee after: Pan Thai Co.,Ltd.

Address before: Seoul, South Kerean

Patentee before: Pantech Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530