JPH03223923A - Control system for input of unfixed byte length character - Google Patents
Control system for input of unfixed byte length characterInfo
- Publication number
- JPH03223923A JPH03223923A JP2018239A JP1823990A JPH03223923A JP H03223923 A JPH03223923 A JP H03223923A JP 2018239 A JP2018239 A JP 2018239A JP 1823990 A JP1823990 A JP 1823990A JP H03223923 A JPH03223923 A JP H03223923A
- Authority
- JP
- Japan
- Prior art keywords
- character
- byte
- characters
- byte length
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 description 6
- 206010034719 Personality change Diseases 0.000 description 3
- 230000010365 information processing Effects 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、計算機システムにおけるバイト長の異なる文
字が混在する文字列を処理する不定バイト長文字入力制
御方式に関する。DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to an indefinite byte length character input control method for processing character strings in which characters of different byte lengths coexist in a computer system.
(従来の技術)
近年の情報処理システムでは、日本語データの処理は必
要不可欠となってきている。ところが、1バイトで表現
できない日本語データの文字の処理に対して、様々な問
題が発生している。この様々な問題は英数字を標準とし
た1バイトコード系に1文字と2バイトで表現する日本
語コード系を加えてコード系を拡張したことに起因する
。たとえば、1バイト文字の次に2バイト文字が現れる
文字列の処理を行う場合、その文字列を処理するシステ
ムに対して1文字を表すバイト長が変化したことをどの
ように伝えるかという問題や、ASCIIコードの°1
゛とJIS漠字コードの°l′を同じ数字として認識し
なくてはならないという問題などがある。そしてこれら
の問題は言語処理系等のように、テ該テキストコード処
理するシステムにとって大きな影響を与えることになる
。(Prior Art) In recent information processing systems, processing of Japanese data has become essential. However, various problems have arisen in processing characters in Japanese data that cannot be expressed in one byte. These various problems are due to the expansion of the 1-byte code system, which uses alphanumeric characters as the standard, by adding the Japanese code system, which is expressed using 1 character and 2 bytes. For example, when processing a string in which a 2-byte character appears next to a 1-byte character, there are issues such as how to notify the system processing the string that the byte length representing one character has changed. , ASCII code °1
There are problems such as the need to recognize ゛ and °l' in the JIS vague character code as the same number. These problems have a great impact on systems that process text codes, such as language processing systems.
第2図は従来の不定バイト長文字入力制御方式の構成を
表す図である。テキストコード生成部201が生成する
テキストコード208では、該テキストコード208中
の2バイト文字列部分が2バイト文字の始まりまたは終
わりを示すバイト長が固定の2つの制御文字で囲まれて
いる。たとえば、°^BC日本語X’/2 ’ という
文字列では、第3図に示すように′C′と′日°の間と
°語°と。FIG. 2 is a diagram showing the configuration of a conventional character input control system of indefinite byte length. In the text code 208 generated by the text code generation unit 201, a 2-byte character string portion in the text code 208 is surrounded by two control characters with a fixed byte length indicating the start or end of the 2-byte character. For example, in the character string °^BCJapanese
Xoの間にそれぞれ2バイト文字の始まりと終わりを表
す制御文字<KT>、<KO>が挿入されている。これ
ら2つの制御文字は2バイトからなり、16進数コード
ではそれぞれ3F75.3F76である。Control characters <KT> and <KO> representing the start and end of double-byte characters, respectively, are inserted between Xo. These two control characters consist of 2 bytes and have hexadecimal codes of 3F75.3F76, respectively.
テキストコード生成部201で生成したテキストコード
208を与えられた1バイト入力処理部202は、与え
られたテキストコード208で1バイト文字を1バイト
文字属性識別部204に与える。1バイト文字属性識別
部204は、与えられた文字コードで1バイトコードテ
ーブル206を表引きし、その1バイト文字に対する属
性情報が格納されている属性ビットテーブル209を得
る。ここで仮に、1バイト入力処理部202が1バイト
の3Fというコードを発見すると、次の1バイトを読み
、それが75なら2バイト入力処理部203へ制御を移
し、そうでなければそのまま1バイト入力処理を行う。The 1-byte input processing unit 202, which is given the text code 208 generated by the text code generation unit 201, supplies the 1-byte character with the given text code 208 to the 1-byte character attribute identification unit 204. The 1-byte character attribute identification unit 204 looks up the 1-byte code table 206 using the given character code, and obtains the attribute bit table 209 in which attribute information for the 1-byte character is stored. Here, if the 1-byte input processing unit 202 finds a 1-byte code of 3F, it will read the next 1 byte, and if it is 75, it will transfer control to the 2-byte input processing unit 203, otherwise it will continue to write 1 byte. Perform input processing.
2バイト入力処理部203へ制御が移ると2バイト文字
を2バイト文字属性識別部205に与え、2バイトコー
ドテーブル207をその2バイトコードで表引きしてそ
の2バイト文字に対する属性ビットテーブル210を得
る。2バイト文字列の終わりを示す制御文字くKO〉は
2バイトであるから、2バイト入力処理部203は特別
な処理を行うことなく制御文字<KO>を識別すること
ができ、該制御文字くKO〉を発見すると1バイト入力
処理部202へ制御を戻す。When control is transferred to the 2-byte input processing unit 203, the 2-byte character is given to the 2-byte character attribute identification unit 205, and the 2-byte code table 207 is looked up using the 2-byte code to create the attribute bit table 210 for the 2-byte character. obtain. Since the control character <KO> that indicates the end of a 2-byte character string is 2 bytes long, the 2-byte input processing unit 203 can identify the control character <KO> without performing any special processing. KO> is found, control is returned to the 1-byte input processing unit 202.
文字属性の識別は以下のように行っていた。たとえば、
1バイトが8ビツトの文字で32種類の属性の有無を表
すときは、要素数が256であって1要素が4バイトの
バイトコードテーブルを用意し、′1°の文字コードが
241であるとそのバイトコードテーブルの241番目
の属性ビットテーブルの数字属性を表すビットを°ON
’にする、といった具合である。2バイト文字に対して
は、テーブルの大きさを65536にして処理する。Character attributes were identified as follows. for example,
To represent the presence or absence of 32 types of attributes using 8-bit characters, prepare a bytecode table with 256 elements and 4 bytes per element, and if the character code for '1° is 241. Turn ON the bit representing the numeric attribute in the 241st attribute bit table of the bytecode table.
' to do, and so on. For 2-byte characters, the table size is set to 65536 and processed.
(発明が解決しようとする課題)
上述した従来の不定バイト長文字入力制御方式では、2
バイト文字の前後に付加する2バイト文字の始まりまた
は終わりを示す2つの制御文字のバイト長が固定である
から、興なるバイト数の文字を含んだテ該テキストコー
ド処理するシステムが1バイト文字を入力中または2バ
イト文字を入力中に、処理中の文字とバイト長が異なる
制御文字に対応しなくてはならなかった。また、テキス
トコードの処理システムは、1バイト文字の入力処理部
と2バイト文字の入力処理部の2つの入力処理部とが必
要であり、処理システムが複雑かつ非効率的となってい
た。(Problem to be Solved by the Invention) In the conventional character input control method of indefinite byte length described above, two
Because the byte length of the two control characters that are added before and after a byte character to indicate the start or end of a 2-byte character is fixed, a system that processes a text code containing characters of varying number of bytes will not be able to process 1-byte characters. While inputting or inputting double-byte characters, it was necessary to deal with a control character whose byte length was different from the character being processed. Furthermore, the text code processing system requires two input processing sections, a 1-byte character input processing section and a 2-byte character input processing section, making the processing system complex and inefficient.
このように、従来の不定バイト長文字入力制御方式には
解決すべき課題があった。As described above, there are problems that need to be solved in the conventional character input control method of indefinite byte length.
(課題を解決するための手段)
本発明は、1バイトで表現される英語文字と複数バイト
で表現される日本語文字とが混在する文字列の処理を行
う計算機システムにおける不定バイト長文字入力制御方
式において、
文字列に混在するそれぞれ異なるバイト長の文字毎に文
字と同じバイト長であって文字列において以下に続く文
字のバイト長が変化することとその以下に続く文字のバ
イト長とを示す制御文字と、文字を構成する各バイトに
対応するバイトコードテーブルを階層化し°ζ各バイト
長毎のそれぞれの文字に対する属性を管理する文字属性
情報とを定義し、
異なるバイト長の文字が混在する文字列を受け、該文字
列における異なるバイト長の文字と文字との間にある仮
想上の位置に、直前の文字と同じバイト長であって該文
字に続く文字のバイト長が何バイトであるかを示す前記
制御文字を挿入してテ該テキストコード生成するテキス
トコード生成手段と、
該テキストコード生成手段が生成するテ該テキストコー
ド受け、前記文字属性情報を参照して前記テキストコー
ドの各文字に定義されている文字属性を識別する文字属
性識別手段と、
を有する。(Means for Solving the Problems) The present invention provides variable byte length character input control in a computer system that processes character strings in which English characters expressed in one byte and Japanese characters expressed in multiple bytes coexist. In this method, for each character of different byte length mixed in a string, it is shown that the byte length of the character that has the same byte length and that follows in the string changes, and the byte length of the character that follows it. Control characters and character attribute information that manages the attributes of each character for each byte length are defined by layering the byte code table corresponding to each byte that constitutes the character, and characters with different byte lengths coexist. Receive a character string, and at a virtual position between characters of different byte lengths in the string, find out how many bytes is the byte length of the character that has the same byte length as the previous character and follows the character. text code generation means for generating the text code by inserting the control character indicating the text; character attribute identification means for identifying character attributes defined in .
(実施例) 次に、本発明について図面を参照して説明する。(Example) Next, the present invention will be explained with reference to the drawings.
第1図は本発明の一実施例を示す構成図である。FIG. 1 is a block diagram showing an embodiment of the present invention.
テキストコード生成部1は、入力された文字列が途中で
その文字列を構成する文字のバイト長が変化したときに
、変化前の文字のバイト長である制御文字を付加したテ
該テキストコード生成する。When the byte length of the characters constituting the input character string changes midway through the input character string, the text code generation unit 1 generates a text code by adding a control character that is the byte length of the character before the change. do.
文字属性識別部2は、記憶領域3中の1バイト文字属性
情報5および2バイト文字属性情報6を管理する。それ
ぞれの文字属性情報はいくつかのバイトコードテーブル
7.8,9.10を有しており、各バイト長のそれぞれ
の文字に対する属性をその文字の各バイトに対応するバ
イトコードテーブルを階層化して管理している。そして
各文字の最下位バイトに対応するバイトコードテーブル
には、その文字に対する属性を示す属性ビットテーブル
または、文字のバイト長が変化することを知らせる他の
文字属性情報の最上位バイトに対するバイトコードテー
ブルへのポインタが格納されている。Character attribute identification section 2 manages 1-byte character attribute information 5 and 2-byte character attribute information 6 in storage area 3 . Each character attribute information has several bytecode tables 7.8, 9.10, and the attributes for each character of each byte length are hierarchically arranged by the bytecode tables corresponding to each byte of that character. Managed. The bytecode table corresponding to the least significant byte of each character contains an attribute bit table indicating attributes for that character, or a bytecode table for the most significant byte of other character attribute information that indicates that the byte length of the character changes. A pointer to is stored.
レジスタCT4は現在入力中の文字のパイ1〜長に対す
る文字属性情報の最上位バイトのバイトコードテーブル
を指す、レジスタCT4の初期値は、1バイト文字属性
情報5のバイトコードテーブル7へのポインタ値である
。Register CT4 points to the byte code table of the most significant byte of character attribute information for the length of the character currently being input.The initial value of register CT4 is the pointer value to byte code table 7 of 1-byte character attribute information 5. It is.
1バイトが8ビツトで1要素の大きさが4バイトである
バイトコードテーブルについて考える。Consider a bytecode table in which 1 byte is 8 bits and each element is 4 bytes.
ここで、1バイト文字から2バイト文字への変化を示す
1バイトの制御文字〈2S〉のコードを3F、2バイト
文字から1バイト文字への変化を示す2バイトの制御文
字くIS〉のコードを3F76とする。このとき、テキ
ストコード生成部1は°123456’という文字列に
対して、第4図に示すテ該テキストコード生成する。こ
こで’1’、’2’、’5’、°6′は1バイト文字で
あり、16進数でそれぞれFl、F2.F5F6のコー
ドであるとする。’ 3’ 、’ 4’は2バイト文字
であり、そのコードは16進法でそれぞれ7BF3.7
8F4であるとする。2゜と°3°との間および′4′
と5”との間には、それぞれ<28>、<IS>の制御
文字が挿入されている。したがって、2バイト長の文字
の前後にバイト長が変化する直前の文字と同じバイト長
の制御文字を挿入することにより文字のバイト長が変化
することを示す制御文字を全て現在入力中の文字のバイ
ト長で表現するから、現在入力中の文字のバイト長で制
御文字を識別することができる。Here, the code for the 1-byte control character <2S> indicating a change from a 1-byte character to a 2-byte character is 3F, and the code for the 2-byte control character <IS> indicating a change from a 2-byte character to a 1-byte character. Let be 3F76. At this time, the text code generating section 1 generates the text code shown in FIG. 4 for the character string 123456'. Here, '1', '2', '5', and °6' are 1-byte characters, and in hexadecimal numbers Fl, F2, . Assume that the code is F5F6. '3' and '4' are double-byte characters, and their codes are respectively 7BF3.7 in hexadecimal.
Suppose it is 8F4. Between 2° and °3° and '4'
and 5", control characters <28> and <IS> are inserted, respectively. Therefore, the control characters with the same byte length as the character immediately before and after the 2-byte length character change. All control characters that indicate that the byte length of a character changes when a character is inserted are expressed by the byte length of the character currently being input, so control characters can be identified by the byte length of the character currently being input. .
次に、テキストコード生成部1で生成された第4図に示
すテキストコードの処理について説明する。第5図は文
字属性識別部2の処理を示す流れ図である。文字属性識
別部2は、まず、レジスタP15にレジスタCT4の内
容を代入する(ステップ501)。このとき、レジスタ
CT4には1バイト文字属性情報5のバイトコードテー
ブル7へのポインタ値が格納されており、そのポインタ
値がレジスタP15に代入される。そして、テキストコ
ードの1バイトを読み、レジスタQ16に代入する(ス
テップ502)。すると、レジスタQ16には文字゛1
′の文字コードF1が渡り、レジスタCT4の指し示す
バイトコードテーブル7のF1番目の要素の内容をレジ
スタP15に代入する(ステップ503)(第7図(a
))。Next, processing of the text code shown in FIG. 4 generated by the text code generation section 1 will be explained. FIG. 5 is a flowchart showing the processing of the character attribute identification section 2. The character attribute identification unit 2 first assigns the contents of the register CT4 to the register P15 (step 501). At this time, a pointer value to the byte code table 7 of the 1-byte character attribute information 5 is stored in the register CT4, and the pointer value is assigned to the register P15. Then, one byte of the text code is read and assigned to register Q16 (step 502). Then, the character ``1'' is stored in register Q16.
' character code F1 is passed, and the contents of the F1-th element of the bytecode table 7 pointed to by the register CT4 are assigned to the register P15 (step 503) (see FIG. 7(a).
)).
各バイトコードテーブルの要素の内容は、他のバイトコ
ードテーブルへのポインタ値または属性ビットテーブル
もしくは文字がバイト長の変化を示す制御文字であると
きの他の文字属性情報の最上位バイトに対するバイトコ
ードテーブルへのポインタ値のいずれかである。これら
は次のようにして識別される。各バイトコードテーブル
の大きさは一定で、4の倍数のバイト数であるから、記
憶領域3の中で整列することにより、それぞれのバイト
コードテーブルの先頭番地の下位2ビツトをOにするこ
とができる。したがって、バイトコードテーブルの要素
の最下位ビットを第0ビツト、最上位ビットを第31ビ
ツトとすると、第6図に示すように第1、第0ビツトの
値が00なら他のバイトコードテーブルへのポインタ値
(601)、01なら属性ビットテーブル(602)、
11なら他の文字属性情報の最上位バイトに対するバイ
トコ−トチ−プルへのポインタ値に3を加えた値として
識別することができる。The content of each bytecode table element is a pointer value to another bytecode table or a bytecode for the most significant byte of attribute information in an attribute bit table or other character when the character is a control character indicating a change in byte length. Any pointer value to a table. These are identified as follows. The size of each bytecode table is constant and the number of bytes is a multiple of 4, so by arranging them in storage area 3, the lower two bits of the first address of each bytecode table can be set to O. can. Therefore, if the least significant bit of an element in a bytecode table is the 0th bit and the most significant bit is the 31st bit, as shown in Figure 6, if the value of the 1st and 0th bits is 00, the data is transferred to another bytecode table. pointer value (601), if 01, attribute bit table (602),
If it is 11, it can be identified as the value obtained by adding 3 to the pointer value to the byte code triple for the most significant byte of other character attribute information.
今、入力処理をしている文字のバイト長は1であるから
レジスタP15の内容は他のバイトコードテーブルへの
ポインタ値ではなくまたその文字は1′であって制御文
字でもないからレジスタP15に与えられた属性ビット
テーブル12の内容に従った各属性処理を行う(ステッ
プ504゜505.506)(’ 1°という文字の意
味から数字としての処理が行われる)。次に、ステップ
501へと処理が戻り、°2°の文字に対して同様の処
理が行われる。制御文字である2Sに対してはステップ
503によってレジスタP15に1バイト文字属性情報
5のバイトコードテーブル7の3F番目の内容が得られ
る。この内容は、2バイト文字属性情報6の上位バイト
に対するバイトコードテーブル8へのポインタ値に3を
加えた値であるから、ステップ504,505を経てス
テップ507へ処理が移る。ここでレジスタP15の内
容から3を引いた値をレジスタCT4に代入して(ステ
ップ507)、ステップ501に戻る。The byte length of the character currently being input is 1, so the content of register P15 is not a pointer value to another bytecode table, and the character is 1' and is not a control character, so the contents of register P15 are Each attribute is processed according to the contents of the given attribute bit table 12 (steps 504, 505, and 506) (processing is performed as a number based on the meaning of the character 1°). Next, the process returns to step 501, and the same process is performed on the 2° character. For the control character 2S, the contents of the 3Fth byte code table 7 of the 1-byte character attribute information 5 are obtained in the register P15 in step 503. Since this content is the value obtained by adding 3 to the pointer value to the bytecode table 8 for the upper byte of the 2-byte character attribute information 6, the process moves to step 507 via steps 504 and 505. Here, the value obtained by subtracting 3 from the contents of register P15 is assigned to register CT4 (step 507), and the process returns to step 501.
以下、レジスタCT4は、2バイト文字属性情報6の上
位バイトに対するバイトコードテーブルへのポインタ値
を保持する。テキストコード11から得られる3′の2
バイトの文字コードの上位バイトを得るとレジスタCT
4の指すバイトコードテーブル8の7B番目の要素には
、他のバイトコードテーブル9へのポインタ値が格納し
であるから、ステップ504ではステップ502へ処理
を移し、下位バイトに対しては下位バイトのバイトコー
ドテーブル10のF3番目の内容から属性ビットテーブ
ル14を得て、各属性処理を行う(ステップ506)(
第7図(b))。文字°4゛については、3′と同様で
ある。制御文字ISは2バイトからなる1バイト文字の
始まりを示す制御文字で、レジスタCT4の指すバイト
コードテーブル8の3F番目の要素が指すバイトコード
テーブル9の76番目の内容には1バイト文字属性情報
5のバイトコードテーブル7へのポインタ値に3を加え
た値が設定してあり、ステップ507によってレジスタ
CT4は再び1バイト文字を識別する状態になる。以下
、文字°5°、゛6′が°1°、°2°と同様に入力し
て処理される。Hereinafter, the register CT4 holds a pointer value to the bytecode table for the upper byte of the 2-byte character attribute information 6. 2 of 3' obtained from text code 11
Get the upper byte of the character code of the byte and register CT
The 7Bth element of the bytecode table 8 pointed to by 4 stores a pointer value to another bytecode table 9, so in step 504, the process moves to step 502, and for the lower byte, the lower byte is stored. The attribute bit table 14 is obtained from the contents of the F3rd bytecode table 10, and each attribute process is performed (step 506).
Figure 7(b)). The character °4' is the same as 3'. The control character IS is a control character that indicates the start of a 1-byte character consisting of 2 bytes, and the 76th content of the byte code table 9 pointed to by the 3F-th element of the byte code table 8 pointed to by register CT4 contains 1-byte character attribute information. A value obtained by adding 3 to the pointer value to the byte code table 7 of 5 is set, and in step 507, the register CT4 is again in the state of identifying 1-byte characters. Thereafter, the characters °5° and '6' are input and processed in the same way as °1° and °2°.
以上に説明した実施例は、1バイト文字と2バイト文字
に限ったものであったが、1〜Nバイトの文字を扱うシ
ステムでは、各文字毎にそのバイト長の変化を示す制御
文字をそれぞれN−1個定義することによって容易に本
発明を適用することができる。たとえば、1〜3バイト
の文字を扱うシステムでは、2バイトおよび3バイト文
字に変化することを示す1バイトの2つの制御文字、1
バイトおよび3バイト文字に変化することを示す2バイ
トの2つの制御文字、1バイトおよび2バイト文字に変
化することを示す3バイトの2つの制御文字の6個の制
御文字を定義すれば良い。また、本発明は一見多くのバ
イトコードテーブルを必要とするようにみえるが、実際
は特殊属性を持つ文字というのは極限られたいくつかの
文字であるから全く同じ内容のバイトコードテーブルが
多く存在する傾向がある。そこで、バイトコードテ−プ
ルを1つたけ用意し、別々なところから参照できるよう
に工夫することによって多数のバイトコードテーブルが
必要であるという問題を解決することができる。The embodiment described above was limited to 1-byte characters and 2-byte characters, but in a system that handles characters of 1 to N bytes, a control character indicating a change in the byte length of each character is assigned to each character. The present invention can be easily applied by defining N-1. For example, in a system that handles 1- to 3-byte characters, two 1-byte control characters, 1
It is sufficient to define six control characters: two 2-byte control characters indicating change to byte and 3-byte characters, and two 3-byte control characters indicating change to 1-byte and 2-byte characters. Furthermore, although the present invention appears to require a large number of bytecode tables, in reality there are only a limited number of characters that have special attributes, so there are many bytecode tables with exactly the same content. Tend. Therefore, the problem of the need for a large number of bytecode tables can be solved by preparing only one bytecode table so that it can be referenced from different locations.
(発明の効果)
以上に詳しく説明したように本発明の不定バイト長文字
入力制御方式は、テ該テキストコード処理するシステム
が1バイト文字を入力中であっても2バイト文字を入力
中であっても制御文字に対する処理の乱れがない。また
、テキストコードの処理部に1バイト文字に対する入力
処理部と2バイト文字に対する入力処理部とをそれぞれ
用意する必要がなく、単純かつ効率的なテキストコード
の処理部が実現できる。(Effects of the Invention) As explained above in detail, the variable byte length character input control method of the present invention allows the text code processing system to input 2-byte characters even when it is inputting 1-byte characters. There is no disruption in the processing of control characters. Further, it is not necessary to prepare an input processing section for 1-byte characters and an input processing section for 2-byte characters in the text code processing section, and a simple and efficient text code processing section can be realized.
本発明には以上のような効果がある。The present invention has the above effects.
第1図は本発明の一実施例を示す構成図、第2図は従来
の不定バイト長文字入力制御方式を示す構成図、第3図
は従来のテキストコード生成部201が生成したテ該テ
キストコード示す図、第4図は本発明のテキストコード
生成部1が生成したテ該テキストコード示す図、第5図
は本発明の文字属性識別部2の処理を示す流れ図、第6
図は本発明のバイトコードテーブルの要素の種類を示す
図、第7図は本発明のバイトコードテーブルにより階層
的に管理される属性ビットテーブルを示す図である。
1.201・・・テキストコード生成部、2・・・文字
属性識別部、3・・・記憶領域、4・・・レジスタCT
、5・・・1バイト文字属性情報、6・・・2バイト文
字属性情報、7,8,9.10・・・バイトコードテー
ブル、11,208・・・テキストコード、12.13
゜14.209.210・・・属性ビットテーブル、1
5・・・レジスタP、16・・・レジスタQ、202・
・・1バイト入力処理部、203・・・2バイト入力処
理部、204・・・1バイト文字属性識別部、205・
・・2バイト文字属性識別部、206・・・1バイトコ
ードテーブル、207・・・2バイトコードテーブル、
601.602,603・・・バイトコードテーブル6FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a block diagram showing a conventional variable byte length character input control method, and FIG. 3 is a block diagram showing the text generated by the conventional text code generation unit 201. FIG. 4 is a diagram showing the text code generated by the text code generation section 1 of the present invention. FIG. 5 is a flowchart showing the processing of the character attribute identification section 2 of the present invention.
The figure shows the types of elements of the bytecode table of the present invention, and FIG. 7 shows the attribute bit table hierarchically managed by the bytecode table of the present invention. 1.201...Text code generation section, 2...Character attribute identification section, 3...Storage area, 4...Register CT
, 5... 1-byte character attribute information, 6... 2-byte character attribute information, 7, 8, 9.10... Byte code table, 11,208... Text code, 12.13
゜14.209.210...Attribute bit table, 1
5...Register P, 16...Register Q, 202.
...1-byte input processing section, 203...2-byte input processing section, 204...1-byte character attribute identification section, 205.
... 2-byte character attribute identification section, 206... 1-byte code table, 207... 2-byte code table,
601, 602, 603... Bytecode table 6
Claims (1)
る日本語文字とが混在する文字列の処理を行う計算機シ
ステムにおける不定バイト長文字入力制御方式において
、 文字列に混在するそれぞれ異なるバイト長の文字毎に文
字と同じバイト長であって文字列において以下に続く文
字のバイト長が変化することとその以下に続く文字のバ
イト長とを示す制御文字と、文字を構成する各バイトに
対応するバイトコードテーブルを階層化して各バイト長
毎のそれぞれの文字に対する属性を管理する文字属性情
報とを定義し、 異なるバイト長の文字が混在する文字列を受け、該文字
列における異なるバイト長の文字と文字と該テキストコ
ード生成手段が生成するテキストコードを受け、前記文
字属性情報を参照して前記テキストコードの各文字に定
義されている文字属性を識別する文字属性識別手段と、 を有することを特徴とする不定バイト長文字入力制御方
式。[Claims] In an indefinite byte length character input control method in a computer system that processes character strings in which English characters expressed in one byte and Japanese characters expressed in multiple bytes coexist, For each character of different byte length, the character is composed of a control character that has the same byte length as the character and indicates that the byte length of the character that follows in the string changes and the byte length of the character that follows it. The byte code table corresponding to each byte is hierarchically defined, and the character attribute information that manages the attributes for each character for each byte length is defined. Character attribute identification means receives characters of different byte lengths and a text code generated by the text code generation means, and identifies character attributes defined for each character of the text code by referring to the character attribute information. An indefinite byte length character input control method characterized by having the following.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018239A JP2569857B2 (en) | 1990-01-29 | 1990-01-29 | Variable byte length character input control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018239A JP2569857B2 (en) | 1990-01-29 | 1990-01-29 | Variable byte length character input control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03223923A true JPH03223923A (en) | 1991-10-02 |
JP2569857B2 JP2569857B2 (en) | 1997-01-08 |
Family
ID=11966131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018239A Expired - Fee Related JP2569857B2 (en) | 1990-01-29 | 1990-01-29 | Variable byte length character input control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2569857B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06223114A (en) * | 1993-01-26 | 1994-08-12 | Ricoh Co Ltd | Character string processing system |
CN116301666A (en) * | 2023-05-17 | 2023-06-23 | 杭州数云信息技术有限公司 | Java object serialization method, java object deserialization device and terminal |
-
1990
- 1990-01-29 JP JP2018239A patent/JP2569857B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06223114A (en) * | 1993-01-26 | 1994-08-12 | Ricoh Co Ltd | Character string processing system |
CN116301666A (en) * | 2023-05-17 | 2023-06-23 | 杭州数云信息技术有限公司 | Java object serialization method, java object deserialization device and terminal |
CN116301666B (en) * | 2023-05-17 | 2023-10-10 | 杭州数云信息技术有限公司 | Java object serialization method, java object deserialization device and terminal |
Also Published As
Publication number | Publication date |
---|---|
JP2569857B2 (en) | 1997-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5414841A (en) | Computerized system for representing data items using token identifiers | |
US5680616A (en) | Method and system for generating and maintaining property sets with unique format identifiers | |
US5819283A (en) | Method and system for the extensibility of objects | |
JPS6091450A (en) | Table type language interpreter | |
EP0268069B1 (en) | Method of forming a message file in a computer | |
US6438516B1 (en) | Method and apparatus for optimizing unicode composition and decomposition | |
US6928438B2 (en) | Culturally correct ordering of keyed records | |
JP2006512633A (en) | Method and apparatus for generating a distributed Java application with a central XML configuration file | |
JP2000201080A (en) | Data compressing/restoring device and method using additional code | |
EP0843266A2 (en) | Dynamic incremental updating of electronic documents | |
JPH03223923A (en) | Control system for input of unfixed byte length character | |
JP2000276492A (en) | Device and method for information processing, and storage medium stored with computer-readable information processing program | |
EP1862924A1 (en) | Object-oriented system for mapping structered information to different structured information | |
JPH03147181A (en) | Object reference processing system | |
CN106227713A (en) | Document processing method and device | |
JPH08160929A (en) | Information processor and information processing method | |
JPH1055339A (en) | On-line business processing system | |
JP2990312B2 (en) | Data access method and device | |
JPH0391863A (en) | Attribute management system for uncertain byte length character | |
JPS5928190A (en) | Character pattern generation system | |
GB2121221A (en) | Table-driven apparatus for data display and modification | |
JPH02255976A (en) | Information processor | |
JP2669070B2 (en) | Screen definition device | |
JPH05165619A (en) | Standard name attaching system | |
JPH09114854A (en) | Document retrieving system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |