JP2569857B2 - Variable byte length character input control method - Google Patents

Variable byte length character input control method

Info

Publication number
JP2569857B2
JP2569857B2 JP2018239A JP1823990A JP2569857B2 JP 2569857 B2 JP2569857 B2 JP 2569857B2 JP 2018239 A JP2018239 A JP 2018239A JP 1823990 A JP1823990 A JP 1823990A JP 2569857 B2 JP2569857 B2 JP 2569857B2
Authority
JP
Japan
Prior art keywords
character
byte
characters
byte length
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018239A
Other languages
Japanese (ja)
Other versions
JPH03223923A (en
Inventor
雄司 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018239A priority Critical patent/JP2569857B2/en
Publication of JPH03223923A publication Critical patent/JPH03223923A/en
Application granted granted Critical
Publication of JP2569857B2 publication Critical patent/JP2569857B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、計算機システムにおけるバイト長の異なる
文字が混在する文字列を処理する不定バイト長文字入力
制御方式に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an undefined byte length character input control system for processing a character string in which characters having different byte lengths are mixed in a computer system.

(従来の技術) 近年の情報処理システムでは、日本語データの処理は
必要不可欠となってきている。ところが、1バイトで表
現できない日本語データの文字の処理に対して、様々な
問題が発生している。この様々な問題は英数字を標準と
した1バイトコード系に1文字と2バイトで表現する日
本語コード系を加えてコード系を拡張したことに起因す
る。たとえば、1バイト文字の次に2バイト文字が現れ
る文字列の処理を行う場合、その文字列を処理するシス
テムに対して1文字を表すバイト長が変化したことをど
のように伝えるかという問題や、ASCIIコードの‘1'とJ
IS漢字コードの‘1'を同じ数字として認識しなくてはな
らないという問題などがある。そしてこれらの問題は言
語処理系等のように、テキストコードを処理するシステ
ムにとって大きな影響を与えることになる。
(Prior Art) In recent information processing systems, processing of Japanese data has become indispensable. However, various problems have occurred with respect to the processing of characters of Japanese data that cannot be represented by one byte. These various problems stem from the fact that the code system has been expanded by adding a Japanese code system expressed by one character and two bytes to a one-byte code system using alphanumeric characters as a standard. For example, when processing a character string in which a two-byte character appears after a one-byte character, there is a problem of how to notify a system that processes the character string that the byte length representing one character has changed. , ASCII code '1' and J
There is a problem that the IS kanji code '1' must be recognized as the same number. These problems have a great effect on a system that processes text codes, such as a language processing system.

第2図は従来の不定バイト長文字入力制御方式の構成
を表す図である。テキストコード生成部201が生成する
テキストコード208では、該テキストコード208中の2バ
イト文字列部分が2バイト文字の始まりまたは終わりを
示すバイト長が固定の2つの制御文字で囲まれている。
たとえば、‘ABC日本語XYZ'という文字列では、第3に
示すように‘C'と‘日’の間と‘語’と‘X'の間にそれ
ぞれ2バイト文字の始まりと終わりを表す制御文字<KI
>,<KO>が挿入されている。これら2つの制御文字は
2バイトからなり、16進数コードではそれぞれ3F75,3F7
6である。
FIG. 2 is a diagram showing a configuration of a conventional character input control system of indefinite byte length. In the text code 208 generated by the text code generation unit 201, the two-byte character string portion in the text code 208 is surrounded by two control characters having a fixed byte length indicating the start or end of the two-byte character.
For example, in the character string "ABC Japanese XYZ", as shown in Fig. 3, the control that indicates the start and end of a double-byte character between "C" and "day" and between "word" and "X" respectively. Character <KI
>, <KO> are inserted. These two control characters consist of 2 bytes, and are 3F75 and 3F7 respectively in hexadecimal code.
6

テキストコード生成部201で生成したテキストコード2
08を与えられた1バイト入力処理部202は、与えられた
テキストコード208で1バイト文字を1バイト文字属性
識別部204に与える。1バイト文字属性識別部204は、与
えられた文字コードで1バイトコードテーブル206を表
引きし、その1バイト文字に対する属性情報が格納され
ている属性ビットテーブル209を得る。ここで仮に、1
バイト入力処理部202が1バイトの3Fというコードを発
見すると、次の1バイトを読み、それが75なら2バイト
入力処理部203へ制御を移し、そうでなければそのまま
1バイト入力処理を行う。2バイト入力処理部203へ制
御が移ると2バイト文字を2バイト文字属性識別部205
に与え、2バイトコートテーブル207をその2バイトコ
ードで表引きしてその2バイト文字に対する属性ビット
テーブル210を得る。2バイト文字列の終わりを示す制
御文字<KO>は2バイトであるから、2バイト入力処理
部203は特別な処理を行うことなく制御文字<KO>を識
別することができ、該制御文字<KO>を発見すると1バ
イト入力処理部202へ制御を戻す。
Text code 2 generated by text code generator 201
The 1-byte input processing unit 202 given 08 gives a 1-byte character to the 1-byte character attribute identification unit 204 with the given text code 208. The one-byte character attribute identification unit 204 looks up the one-byte code table 206 using the given character code, and obtains an attribute bit table 209 storing attribute information for the one-byte character. Here, temporarily
When the byte input processing unit 202 finds the one-byte code of 3F, the next one byte is read, and if it is 75, the control is transferred to the two-byte input processing unit 203. Otherwise, the one-byte input process is performed. When control is transferred to the 2-byte input processing unit 203, the 2-byte character is identified by the 2-byte character attribute identification unit 205.
The two-byte code table 207 is represented by the two-byte code to obtain an attribute bit table 210 for the two-byte character. Since the control character <KO> indicating the end of the two-byte character string is two bytes, the two-byte input processing unit 203 can identify the control character <KO> without performing any special processing. When KO> is found, the control is returned to the 1-byte input processing unit 202.

文字属性の識別は以下のように行っていた。たとえ
ば、1バイトが8ビットの文字で32種類の属性の有無を
表すときは、要素数が256であって1要素が4バイトの
バイトコードテーブルを用意し、‘1'の文字コードが24
1であるとそのバイトコードテーブルの241番目の属性ビ
ットテーブルの数字属性を表すビットを‘ON'にする、
といった具合である。2バイト文字に対しては、テーブ
ルの大きさを65536にして処理する。
Character attributes were identified as follows. For example, when one byte is an 8-bit character and indicates the presence or absence of 32 types of attributes, a byte code table with 256 elements and one element with 4 bytes is prepared, and the character code of “1” is 24 bytes.
If it is 1, the bit indicating the numeric attribute of the 241st attribute bit table of the bytecode table is set to 'ON',
And so on. For 2-byte characters, processing is performed with the table size set to 65536.

(発明が解決しようとする課題) 上述した従来の不定バイト長文字入力制御方式では、
2バイト文字の前後に付加する2バイト文字の始まりま
たは終わりを示す2つの制御文字のバイト長が固定であ
るため、異なるバイト数の文字を含んだテキストコード
を処理するシステムが1バイト文字を入力中または2バ
イト文字を入力中に、処理中の文字とバイト長が異なる
制御文字に対応しなくてはならなかった。また、テキス
トコードの処理システムは、1バイト文字の入力処理部
と2バイト文字の入力処理部の2つの入力処理部とが必
要であり、処理システムが複雑かつ非効率的となってい
た。
(Problem to be Solved by the Invention) In the above-mentioned conventional character input control method of undefined byte length,
Since the byte lengths of the two control characters that indicate the beginning or end of the double-byte character added before and after the double-byte character are fixed, a system that processes text codes containing characters with different numbers of bytes inputs single-byte characters. When entering medium or double-byte characters, it was necessary to accommodate control characters that differed in byte length from the character being processed. In addition, the text code processing system requires two input processing units, a one-byte character input processing unit and a two-byte character input processing unit, and the processing system is complicated and inefficient.

このように、従来の不定バイト長文字入力制御方式に
は解決すべき課題があった。
As described above, there is a problem to be solved in the conventional character input control method of indefinite byte length.

(課題を解決するための手段) 本発明は、1バイトで表現される英語文字と複数バイ
トで表現される日本語文字とが混在する文字列の処理を
行う計算機システムにおける不定バイト長文字入力制御
方式において、 文字列に混在するそれぞれ異なるバイト長の文字毎に
文字と同じバイト長であって文字列において以下に続く
文字のバイト長が変化することとその以下に続く文字の
バイト長とを示す制御文字を生成する制御文字生成手段
と、文字を構成する各バイトに対応するバイトコードテ
ーブルを階層化して各バイト長毎のそれぞれの文字に対
する属性情報を管理する文字属性情報管理手段と、 異なるバイト長の文字が混在する文字列を受け、該文
字列における異なるバイト長の文字と文字との間にある
仮想上の位置に、直前の文字と同じバイト長であって該
文字に続く文字のバイト長が何バイトであるかを示す前
記制御文字を挿入してテキストコードを生成するテキス
トコード生成手段と、 該テキストコード生成手段が生成するテキストコード
を受け、前記文字属性情報を参照して前記テキストコー
ドの各文字に定義されている文字属性を識別する文字属
性識別手段と、 を有する。
(Means for Solving the Problems) The present invention relates to an undefined byte length character input control in a computer system for processing a character string in which English characters represented by one byte and Japanese characters represented by a plurality of bytes are mixed. In the method, for each character with a different byte length mixed in the character string, it indicates that the byte length of the following character changes in the character string and the byte length of the following character in the character string Control character generating means for generating control characters, character attribute information managing means for hierarchizing a byte code table corresponding to each byte constituting the character and managing attribute information for each character for each byte length, different bytes Receives a character string containing mixed-length characters, and places the same character as the immediately preceding character at a virtual position between the characters with different byte lengths in the character string. Text code generation means for generating a text code by inserting the control character indicating the byte length of a character following the character, the text code being generated by the text code generation means; And character attribute identification means for identifying a character attribute defined for each character of the text code with reference to the character attribute information.

(実施例) 次に、本発明について図面を参照して説明する。(Example) Next, the present invention will be described with reference to the drawings.

第1図は本発明の一実施例を示す構成図である。テキ
ストコード生成部1は、入力された文字列が途中でその
文字列を構成する文字のバイト長が変化したときに、変
化前の文字のバイト長である制御文字を付加したテキス
トコードを生成する。文字属性識別部2は、記憶領域3
中の1バイト文字属性情報5および2バイト文字属性情
報6を管理する。それぞれの文字属性情報はいくつかの
バイトコードテーブル7,8,9、10を有しており、各バイ
ト長のそれぞれの文字に対する属性をその文字の各バイ
トに対応するバイトコードテーブルを階層化して管理し
ている。そして各文字の最下位バイトに対応するバイト
コードテーブルには、その文字に対する属性を示す属性
ビットテーブルまたは、文字のバイト長が変化すること
を知らせる他の文字属性情報の最上位バイトに対するバ
イトコードテーブルへのポインタが格納されている。レ
ジスタCT4は現在入力中の文字のバイト長に対する文字
属性情報の最上位バイトのバイトコードテーブルを指
す。レジスタCT4の初期値は、1バイト文字属性情報5
のバイトコードテーブル7へのポインタ値である。
FIG. 1 is a block diagram showing one embodiment of the present invention. The text code generation unit 1 generates a text code to which a control character, which is the byte length of the character before the change, is added when the byte length of the character forming the character string changes in the middle of the input character string. . The character attribute identification unit 2 is a storage area 3
1-byte character attribute information 5 and 2-byte character attribute information 6 therein. Each character attribute information has several byte code tables 7, 8, 9, and 10, and the attribute for each character of each byte length is obtained by layering the byte code table corresponding to each byte of the character. Managing. The byte code table corresponding to the least significant byte of each character includes an attribute bit table indicating the attribute of the character or a byte code table corresponding to the most significant byte of other character attribute information indicating that the byte length of the character changes. The pointer to is stored. The register CT4 indicates the byte code table of the most significant byte of the character attribute information with respect to the byte length of the currently input character. The initial value of register CT4 is 1-byte character attribute information 5
Is a pointer value to the byte code table 7 of FIG.

1バイトが8ビットで1要素の大きさが4バイトであ
るバイトコードテーブルについて考える。ここで、1バ
イト文字から2バイト文字への変化を示す1バイトの制
御文字<2S>のコードを3F、2バイト文字から1バイト
文字への変化を示す2バイトの制御文字<1S>のコード
を3F76とする。このとき、テキストコード生成部1は
“123456'という文字列に対して、第4図に示すテキス
トコードを生成する。ここで‘1',‘2',‘5',‘6'は1
バイト文字であり、16進数でそれぞれF1,F2,F5,F6のコ
ードであるとする。‘3',‘4'は2バイト文字であり、
そのコードは16進法でそれぞれ7BF3,7BF4であるとす
る。‘2'と‘3'との間および‘4'と‘5'との間には、そ
れぞれ<2S>,<1S>の制御文字が挿入されている。し
たがって、2バイト長の文字の前後にバイト長が変化す
る直前の文字と同じバイト長の制御文字を挿入すること
により文字のバイト長が変化することを示す制御文字を
全て現在入力中の文字のバイト長で表現するから、現在
入力中の文字のバイト長で制御文字を識別することがで
きる。
Consider a byte code table in which one byte is 8 bits and the size of one element is 4 bytes. Here, the code of a 1-byte control character <2S> indicating a change from a 1-byte character to a 2-byte character is 3F, and a code of a 2-byte control character <1S> indicating a change from a 2-byte character to a 1-byte character. To 3F76. At this time, the text code generation unit 1 generates the text code shown in Fig. 4 for the character string "123456 ', where" 1 "," 2 "," 5 ", and" 6 "are 1
It is assumed that the characters are byte characters and the codes are F1, F2, F5, and F6 in hexadecimal. '3' and '4' are double-byte characters,
Assume that the codes are 7BF3 and 7BF4 in hexadecimal, respectively. Control characters <2S> and <1S> are inserted between '2' and '3' and between '4' and '5', respectively. Therefore, by inserting a control character having the same byte length as the character immediately before the byte length changes before and after the 2-byte length character, all the control characters indicating that the byte length of the character changes will be the same as those of the currently input character. Since it is expressed in byte length, the control character can be identified by the byte length of the currently input character.

次に、テキストコード生成部1で生成された第4図に
示すテキストコードの処理について説明する。第5図は
文字属性識別部2の処理を示す流れ図である。文字属性
識別部2は、まず、レジスタP15にレジスタCT4の内容を
代入する(ステップ501)。このとき、レジスタCT4には
1バイト文字属性情報5のバイトコードテーブル7への
ポインタ値が格納されており、そのポインタ値がレジス
タP15に代入される。そして、テキストコードの1バイ
トを読み、レジスタQ16に代入する(ステップ502)。す
ると、レジスタQ16には文字‘1'の文字コードF1が渡
り、レジスタCT4の指し示すバイトコードテーブル7のF
1番目の要素の内容をレジスタP15に代入する(ステップ
503)(第7図(a))。
Next, the processing of the text code shown in FIG. 4 generated by the text code generation unit 1 will be described. FIG. 5 is a flowchart showing the processing of the character attribute identification unit 2. First, the character attribute identification unit 2 substitutes the contents of the register CT4 into the register P15 (step 501). At this time, the pointer value of the one-byte character attribute information 5 to the byte code table 7 is stored in the register CT4, and the pointer value is assigned to the register P15. Then, one byte of the text code is read and assigned to the register Q16 (step 502). Then, the character code F1 of the character “1” is passed to the register Q16, and the F of the byte code table 7 indicated by the register CT4 is
Substitute the contents of the first element into register P15 (step
503) (FIG. 7 (a)).

各バイトコードテーブルの要素の内容は、他のバイト
コードテーブルへのポインタ値または属性ビットテーブ
ルもしくは文字がバイト長の変化を示す制御文字である
ときの他の文字属性情報の最上位バイトに対するバイト
コードテーブルへのポインタ値のいずれかである。これ
らは次のようにして識別される。各バイトコードテーブ
ルの大きさは一定で、4の倍数のバイト数であるから、
記憶領域3の中で整列することにより、それぞれのバイ
トコードテーブルの先頭番地の下位2ビットを0にする
ことができる。したがって、バイトコードテーブルの要
素の最下位ビットを第0ビット、最上位ビットを第31ビ
ットとすると、第6図に示すように第1、第0ビットの
値が00なら他のバイトコードテーブルへのポインタ値
(601)、01なら属性ビットテーブル(602)、11なら他
の文字属性情報の最上位バイトに対するバイトコードド
テーブルへのポインタ値に3を加えた値として識別する
ことができる。
The content of each bytecode table element is a pointer value to another bytecode table or the bytecode for the most significant byte of the attribute bit table or other character attribute information when a character is a control character indicating a change in byte length One of the pointer values to the table. These are identified as follows. Since the size of each bytecode table is constant and is a multiple of 4 bytes,
By arranging in the storage area 3, the lower 2 bits of the head address of each byte code table can be set to 0. Therefore, assuming that the least significant bit of the byte code table element is the 0th bit and the most significant bit is the 31st bit, if the values of the first and 0th bits are 00 as shown in FIG. Can be identified as a value obtained by adding 3 to the pointer value to the byte-coded table for the most significant byte of the other character attribute information if the pointer bit is (601), 01 is the attribute bit table (602), and 11 is the attribute bit table.

今、入力処理をしている文字のバイト長は1であるか
らレジスタP15の内容は他のバイトコードテーブルへの
ポインタ値ではなくまたその文字は‘1'であって制御文
字でもないからレジスタP15に与えられた属性ビットテ
ーブル12の内容に従った各属性処理を行う(ステップ50
4,505,506)(‘1'という文字の意味から数字としての
処理が行われる)。次に、ステップ501へと処理が戻り
‘2'の文字に対して同様の処理が行われる。制御文字で
ある2Sに対してはステップ503によってレジスタP15に1
バイト文字属性情報5のバイトコードテーブル7の3F番
目の内容が得られる。この内容は、2バイト文字属性情
報6の上位バイトに対するバイトコードテーブル8への
ポインタ値に3を加えた値であるから、ステップ504,50
5を経てステップ507へ処理が移る。ここでレデスタP15
の内容から3を引いた値をレジスタCT4に代入して(ス
テップ507)、ステップ501に戻る。以下、レジスタCT4
は、2バイト文字属性情報6の上位バイトに対するバイ
トコードテーブルへのポインタ値を保持する。テキスト
コード11から得られる‘3'の2バイトの文字コードの上
位バイトを得るとレジスタCT4の指すバイトコードテー
ブル8の7B番目の要素には、他のバイトコードテーブル
9へのポインタ値が格納してあるから、ステップ504で
はステップ502へ処理を移し、下位バイトに対しては下
位バイトのバイトコードテーブル10のF3番目の内容から
属性ビットテーブル14を得て、各属性処理を行う(ステ
ップ506)(第7図(b))。文字‘4'については、
‘3'と同様である。制御文字1Sは2バイトからなる1バ
イト文字の始まりを示す制御文字で、レジスタCT4の指
すバイトコードテーブル8の3F番目の要素が指すバイト
コードテーブル9の76番目の内容には1バイト文字属性
情報5のバイトコードテーブル7へのポインタ値に3を
加えた値が設定してあり、ステップ507によってレジス
タCT4は再び1バイト文字を識別する状態になる。以
下、文字‘5',‘6'が‘1',‘2'と同様に入力して処理さ
れる。
Now, since the byte length of the character for which input processing is performed is 1, the content of the register P15 is not a pointer value to another byte code table, and the character is "1" and is not a control character. Each attribute processing is performed according to the contents of the attribute bit table 12 given to the
(4,505,506) (processing as a number is performed from the meaning of the character '1'). Next, the process returns to step 501, and the same process is performed on the character “2”. At step 503, 1S is stored in the register P15 for the control character 2S.
The 3F-th contents of the byte code table 7 of the byte character attribute information 5 are obtained. Since this content is a value obtained by adding 3 to the pointer value to the byte code table 8 for the upper byte of the 2-byte character attribute information 6, steps 504, 50
After step 5, the processing moves to step 507. Here Redesta P15
Is substituted into the register CT4 (step 507), and the process returns to step 501. Below, register CT4
Holds the pointer value to the byte code table for the upper byte of the 2-byte character attribute information 6. When the upper byte of the two-byte character code of “3” obtained from the text code 11 is obtained, a pointer value to another byte code table 9 is stored in the 7B-th element of the byte code table 8 indicated by the register CT4. In step 504, the process proceeds to step 502. For the lower byte, the attribute bit table 14 is obtained from the F3 contents of the byte code table 10 of the lower byte, and each attribute process is performed (step 506). (FIG. 7 (b)). For the character '4',
Same as '3'. The control character 1S is a control character indicating the start of a one-byte character consisting of two bytes. The 76th content of the bytecode table 9 indicated by the 3Fth element of the bytecode table 8 indicated by the register CT4 includes 1-byte character attribute information. A value obtained by adding 3 to the pointer value to the byte code table 7 of 5 is set, and the register CT4 is again in a state of identifying a 1-byte character by step 507. Hereinafter, characters '5' and '6' are input and processed in the same manner as '1' and '2'.

以上に説明した実施例は、1バイト文字と2バイト文
字に限ったものであったが、1〜Nバイトの文字を扱う
システムでは、各文字毎にそのバイト長の変化を示す制
御文字をそれぞれN−1個定義することによって容易に
本発明を適用することができる。たとえば、1〜3バイ
トの文字を扱うシステムでは、2バイトおよび3バイト
文字に変化することを示す1バイトの2つの制御文字、
1バイトおよび3バイト文字に変化することを示す2バ
イトの2つの制御文字、1バイトおよび2バイト文字に
変化することを示す3バイトの2つの制御文字の6個の
制御文字を定義すれば良い。また、本発明は一見多くの
バイトコードテーブルを必要とするようにみえるが、実
際は特殊属性を持つ文字というのは極限られたいくつか
の文字であるから全く同じ内容のバイトコードテーブル
が多く存在する傾向がある。そこで、バイトコードテー
ブルを1つだけ用意し、別々なところから参照できるよ
うに工夫することによって多数のバイトコードテーブル
が必要であるという問題を解決することができる。
Although the embodiment described above is limited to one-byte characters and two-byte characters, in a system that handles 1 to N-byte characters, a control character indicating a change in the byte length is provided for each character. The present invention can be easily applied by defining N-1 pieces. For example, in a system that handles 1-3 byte characters, two 1-byte control characters indicate that they will change to 2-byte and 3-byte characters,
It is sufficient to define six control characters of two control characters of two bytes indicating change to one-byte and three-byte characters, and two control characters of three bytes indicating change to one-byte and two-byte characters. . Also, the present invention seems to require many bytecode tables at first glance, but in reality, there are many bytecode tables having exactly the same contents because characters having special attributes are a very limited number of characters. Tend. Therefore, it is possible to solve the problem that a large number of bytecode tables are required by preparing only one bytecode table and devising it so that it can be referred to from different places.

(発明の効果) 以上に詳しく説明したように本発明の不定バイト長文
字入力制御方式は、テキストコードを処理するシステム
が1バイト文字を入力中であっても2バイト文字を入力
中であっても制御文字に対する処理の乱れがない。ま
た、テキストコードの処理部に1バイト文字に対する入
力処理部と2バイト文字に対する入力処理部とをそれぞ
れ用意する必要がなく、単純かつ効率的なテキストコー
ドの処理部が実現できる。
(Effect of the Invention) As described in detail above, the variable byte character input control method of the present invention provides a system for processing a text code in which a single-byte character is being input while a double-byte character is being input. Also, there is no disturbance in processing for control characters. Further, it is not necessary to prepare an input processing unit for one-byte characters and an input processing unit for two-byte characters in the text code processing unit, respectively, and a simple and efficient text code processing unit can be realized.

本発明には以上のような効果がある。 The present invention has the above effects.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例を示す構成図、第2図は従来
の不定バイト長文字入力制御方式を示す構成図、第3図
は従来のテキストコード生成部201が生成したテキスト
コードを示す図、第4図は本発明のテキストコード生成
部1が生成したテキストコードを示す図、第5図は本発
明の文字属性識別部2の処理を示す流れ図、第6図は本
発明のバイトコードテーブルの要素の種類を示す図、第
7図は本発明のバイトコードテーブルにより階層的に管
理される属性ビットテーブルを示す図である。 1,201……テキストコード生成部、2……文字属性識別
部、3……記憶領域、4……レジスタCT、5……1バイ
ト文字属性情報、6……2バイト文字属性情報、7,8,9,
10……バイトコードテーブル、11,208……テキストコー
ド、12,13,14,209,210……属性ビットテーブル、15……
レジスタP、16……レジスタQ、202……1バイト入力
処理部、203……2バイト入力処理部、204……1バイト
文字属性識別部、205……2バイト文字属性識別部、206
……1バイトコードテーブル、207……2バイトコード
テーブル、601,602,603……バイトコードテーブルの要
素。
FIG. 1 is a block diagram showing one embodiment of the present invention, FIG. 2 is a block diagram showing a conventional character input control method of indefinite byte length, and FIG. FIG. 4 is a diagram showing a text code generated by the text code generation unit 1 of the present invention. FIG. 5 is a flowchart showing processing of the character attribute identification unit 2 of the present invention. FIG. 6 is a byte diagram of the present invention. FIG. 7 is a diagram showing types of elements of the code table, and FIG. 7 is a diagram showing an attribute bit table managed hierarchically by the bytecode table of the present invention. 1, 201: text code generation unit, 2: character attribute identification unit, 3: storage area, 4: register CT, 5: 1-byte character attribute information, 6: 2-byte character attribute information, 7, 8, 9,
10… Byte code table, 11,208 …… Text code, 12,13,14,209,210 …… Attribute bit table, 15…
Registers P, 16: Register Q, 202: 1-byte input processing unit, 203: 2-byte input processing unit, 204: 1-byte character attribute identification unit, 205: 2-byte character attribute identification unit, 206
... 1 byte code table, 207 ... 2 byte code table, 601, 602, 603 ... elements of the byte code table.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】1バイトで表現される英語文字と複数バイ
トで表現される日本語文字とが混在する文字列の処理を
行う計算機システムにおける不定バイト長文字入力制御
方式において、 文字列に混在するそれぞれ異なるバイト長の文字毎に文
字と同じバイト長であって文字列において以下に続く文
字のバイト長が変化することとその以下に続く文字のバ
イト長とを示す制御文字を生成する制御文字生成手段
と、 文字を構成する各バイトに対応するバイトコードテーブ
ルを階層化して各バイト長毎のそれぞれの文字に対する
属性情報を管理する文字属性情報管理手段と、 異なるバイト長の文字が混在する文字列を受け、該文字
列における異なるバイト長の文字と文字との間にある仮
想上の位置に、直前の文字と同じバイト長であって該文
字に続く文字のバイト長が何バイトであるかを示す前記
制御文字を挿入してテキストコードを生成するテキスト
コード生成手段と、 該テキストコード生成手段が生成するテキストコードを
受け、前記文字属性情報を参照して前記テキストコード
の各文字に定義されている文字属性を識別する文字属性
識別手段と、 を有することを特徴とする不定バイト長文字入力制御方
式。
An indeterminate byte length character input control method in a computer system for processing a character string in which English characters represented by one byte and Japanese characters represented by a plurality of bytes are mixed. Control character generation that generates control characters that have the same byte length as the character for each character with a different byte length, and indicate that the byte length of the following character changes in the character string and the byte length of the following character Means, character attribute information management means for hierarchizing a byte code table corresponding to each byte constituting a character, and managing attribute information for each character for each byte length, and a character string in which characters of different byte lengths are mixed. Received in a virtual position between characters having different byte lengths in the character string, and having the same byte length as the immediately preceding character and following the character. Text code generating means for generating a text code by inserting the control character indicating how many bytes the character has, and receiving the text code generated by the text code generating means, and referring to the character attribute information And a character attribute identification means for identifying a character attribute defined for each character of the text code.
JP2018239A 1990-01-29 1990-01-29 Variable byte length character input control method Expired - Fee Related JP2569857B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018239A JP2569857B2 (en) 1990-01-29 1990-01-29 Variable byte length character input control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018239A JP2569857B2 (en) 1990-01-29 1990-01-29 Variable byte length character input control method

Publications (2)

Publication Number Publication Date
JPH03223923A JPH03223923A (en) 1991-10-02
JP2569857B2 true JP2569857B2 (en) 1997-01-08

Family

ID=11966131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018239A Expired - Fee Related JP2569857B2 (en) 1990-01-29 1990-01-29 Variable byte length character input control method

Country Status (1)

Country Link
JP (1) JP2569857B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3471381B2 (en) * 1993-01-26 2003-12-02 株式会社リコー String processing method
CN116301666B (en) * 2023-05-17 2023-10-10 杭州数云信息技术有限公司 Java object serialization method, java object deserialization device and terminal

Also Published As

Publication number Publication date
JPH03223923A (en) 1991-10-02

Similar Documents

Publication Publication Date Title
US5870084A (en) System and method for efficiently storing and quickly retrieving glyphs for large character set languages in a set top box
US5778213A (en) Multilingual storage and retrieval
US5966637A (en) System and method for receiving and rendering multi-lingual text on a set top box
US6055365A (en) Code point translation for computer text, using state tables
US20030061316A1 (en) Variable length file header apparatus and system
JP2729025B2 (en) Font Derivation Method in Data Processing System
JPS63151224A (en) Data compaction
US6928438B2 (en) Culturally correct ordering of keyed records
JP3333549B2 (en) Document search method
JP2006202308A (en) Graphical user interface method, graphical user interface device, and recording medium
JP2569857B2 (en) Variable byte length character input control method
JPH08329116A (en) Method for retrieving structured document
JP2000276492A (en) Device and method for information processing, and storage medium stored with computer-readable information processing program
JP2990312B2 (en) Data access method and device
JPH0391863A (en) Attribute management system for uncertain byte length character
JP2001236111A (en) Automatic numbering system of lot number
JPH09114854A (en) Document retrieving system
JPH0440554A (en) Character data processor
JPH0237466A (en) Information processing system
JPH07107683B2 (en) Image retrieval device
JPH03116268A (en) Character attribute control system
JPH04167123A (en) Mixed data processing system
Ludwick Consolidated Automated Support System (CASS) Automated Technical Information (ATI) display system using ASCII data files
JPH01152564A (en) Japanese character storing system
JPS59123035A (en) Code converter

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees