JPH03144735A

JPH03144735A - インタプリタの言語処理方式

Info

Publication number: JPH03144735A
Application number: JP28382589A
Authority: JP
Inventors: Yukiko Hashimoto; 橋本　ユキ子
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-10-30
Filing date: 1989-10-30
Publication date: 1991-06-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉本発明は、１バイトコードで表現される１バイトコード
系文字と２バイトコードで表現される２バイトコード系
文字とを含む文字列を処理するインタプリタの言語処理
方式（以下、単に言語処理方式という、）に関し、この
言語処理方式はインタプリタとして動作する言語処理プ
ロセッサ上の言語（ｖＩに日本語）処理機能の一部を構
成する。

（従来の技術）ところで、従来においては、コンピュータシステムで利
用されるコード体系には英数字（Ａ、Ｂ。

Ｃ１・・・、１，２．・・・）、特殊記号（＋−，−、
×。

＄、・・・）、制御文字などから成る１バイトで表わさ
れる１バイトコード系の文字（以下、ＡＮＫ文字という
、〉と日本語文字（漢字、ひらがな、カタカナなど）な
どの１バイトではその文字の種類が多く表わすことので
きない２バイトコード系の文字（以下、日本語文字とい
う、）とが存在する従来のコンピュータシステムにおけ
る日本諸処ＦＪ機能では、文字列操作が複雑になるため
、ＡＮＫ文字と日本語文字との混在を許さない場合が多
かった。

ＡＮＫ文字と日本語文字との混在を許す場合もあるが、
かかる混在を許す場合においては、文字列中の文字位置
を数える場合は、文字単位ではなくてバイト単位に数え
て例えば“ＡあＡ”という文字列の２文字目をとり出す
と、“あ”ではなく２バイトコード文字“あ”の前半の
１バイトが返却される。この場合、文字位置を意識した
文字列処理を行うときには、ユーザが自分でＡＮＫ文字
は１バイト、日本語文字は２バイトと数えてバイト単位
に処理を行うことが必要であった。

これでは不便なため、日本語文字も、ＡＮＫ文字も同じ
１文字と数え、文字列中に混在が許されるように文字列
処理が拡張されたものがある。

この種の日本語処理機能では、この文字列処理と実現す
るために日本語文字列及び混在文字列は全て各文字を２
バイトで表現するようにしている。

即ち、第５図に示すように日本語文字は、その２バイト
文字コードで表現し、日本語文字と混在するＡＮＫ文字
はその１バイト文字コードの先頭に１バイトのθ（数字
のＯではない）を付加した２バイトコードからなる文字
列で表現し、文字列オブジェクトと生成している。以下
、この文字列を２バイト文字列と呼ぶ。この実現方式を
採用した場合には、第６図に示すように文字列データの
全てを２バイトで実現する２バイト文字列方式と、第７
図に示すようにＡＮＫ文字のみから成る文字列は１バイ
ト文字列とすると共に日本語文字のみから成る文字列と
ＡＮＫ文字を日本語文字の混在した文字列は２バイト文
字列で実現する１バイト兼２バイト文字列方式とが考え
られる。

ここで、上述の２バイト文字列を導入すれば混在文字列
中の全ての文字を２バイト単位で扱うことができ便利で
ある。また１バイト兼２バイト文字列方式においては、
通常の場合に、文字列を生成したときは、ＡＮＫ文字は
１バイトのままの文字列として生成し、かつ、日本語文
字は２バイトのｔ、まの文字列を生成しておき、文字位
置を意識した文字列処理を行うときにＡＮＫ文字を２バ
イト文字列に変換する処理を行っている。

（発明が解決しようとする課題）上述した従来の言語処理方式には以下に述べるような欠
点がある。

すなわち、上述した２バイト文字列方式では、文字列が
全て２バイトで表わされているので、文字列処理におけ
る文字位置の認識は単純に２バイト単位に行えば良いの
で実行効率はあまり低下しないが１バイトで済むＡＮＫ
文字のみから成る文字列も全て２バイト表現となるため
メモリ効率が著しく低下するという欠点がある。

また、上述した１バイト兼２バイト文字列方式では、Ａ
ＮＫ文字は通常１バイトで記述されるのでメモリ効率の
低下はあまりないが、文字列生成時に１バイト文字列を
生成するか、２バイト文字列を生成するかを判断する処
理が必要となり、また１バイト文字列と２バイト文字の
間で特別の文字列処理を行うことになるので、文字列処
理が複雑になるなどの点から、処理効率が低下するとい
う欠点がある。

以下に上記欠点を具体的な例をあげて説明する。

第５図に示すように、“ＮＥＣ日本電気”という文字列
を入力して文字列オブジェクトを生成する場合ＮＥＣと
いう文字を読んでいる間は１バイト文字列だと判断を下
しているが、日という日本語文字を認識した時点で先に
入力したＮＥＣも０ＮＯＢＯＣと変換して、２バイト文
字列を生成しなければならない。

また、ｌバイト文字列に２バイト文字列を連結したり、
１バイト文字列の文字を２バイト文字で置換したりする
ときは、ｌバイト文字列を２バイト文字列に変換してか
ら連結及び置換の処理を行わなければならない。

さらに、２バイト文字列からこの文字列中の部分文字列
をとり出す場合には、とり出した部分文字列がＡＮＫ文
字のみから成る２バイト文字列になることがある、たと
えば、前述の第５図の文字列”ＮＥＣ日本電気”の１文
字目がら３文字とり出した文字列オブジェクトは０ＮＯ
ＥＯＣとなっており、通常に入力された１バイト文字列
″ＮＥＣ″と比較しようとした場合には“０ＮＯＥＯＣ
”と“ＮＥＣ”とのどちらか一方のフォーマットを変更
して両者のフォーマットが等しくなるような処理を行わ
なければならない。

このように具体的な例示のごとく、文字列の要素を直接
アクセスするような文字列処理を行う場合には、１バイ
ト文字列と２バイト文字列に変換する操作や、結果とし
て生成されたＡＮＫ文字のみの２バイト文字列と対応す
る１バイト文字列間の操作などが必要となり文字列処理
の負担が大きくなるという欠点がある。

本発明は、上記欠点を解消することをＢ題とするもので
あって、ｌバイトコード系文字列を１バイトのままメモ
リ上に格納することができメモリ効率を高めることがで
きると共に、１バイトコード系文字列と２バイトコード
系文字列とが混在した文字列中の文字の位置を容易にバ
イト単位に計算することができ文字列操作の処理効率を
上げることができるインタプリタの言語処理方式を提供
することを目的とする。

（課題を解決するための手段）上記課題は、１バイトコードで表現される１バイトコー
ド系文字と２バイトコードで表現される２バイトコード
系文字とを含む文字列を処理するインタプリタの言語処
理方式において、前記文字列の文字を構成する文字コー
ドが格納される文字列オブジェクトと、該文字列オブジ
ェクトの各文字コードのバイト数が格納される文字属性
テーブルとからなる文字列データを生成する文字列デー
タ生成手段と、前記文字列オブジェクトの文字列における基準位置から
各文字までの部分文字列に対応する前記文字属性テーブ
ルにおけるバイト数の合計値を求めて、該合計バイト数
を前記各文字のバイト位置とするバイト位置計算手段とを備えることにより解決できる。

〈作用）本発明によれば、文字列データ生成手段により、文字列
の文字を構成する文字コードをメモリに格納して文字列
オブジェクトを生成すると共に、同じく文字列データ生
成手段により、前記文字列オブジェクトの各文字コード
のバイト数をメモリに格納して文字属性テーブルを生成
する。そして、文字列オブジェクトの文字列における基
準位置から各文字までの部分文字列のバイト位置を求め
ようとした場合には、バイト位置計算手段により前記部
分文字列に対応する文字属性テーブルの合計値を求める
。この合計バイト数が前記各文字のバイト位置になる。

（実施例）以下に図面を参照して本発明の一実施例について説明す
る。

第１図は本実施例の構成を表わすブロック図である。第
１図に示すように、文字列ｘ、ｙ、ｚ（ＡＩ、Ａ２．Ａ
３）に対して、文字列データ（Ａ４．Ａ５．Ａ６）が用
意されている１文字列データ（Ａ４．Ａ５．Ａ６）は、
各文字列を構成する文字列コードをそのまま格納して文
字列の実体を表わす文字列オブジェクト（Ａ８．ＡＩＯ
。

Ａ１２）と、文字列中の文字単位に２ビツトのデータが
割当てられておりその２ビツトのデータによりＡＮＫ文
字か日本語文字か否を表す文字属性テーブル（Ａ７．Ａ
９．Ａｌ　ｌ　）とから構成されている０文字列処理手
段（Ａ１３）は、文字列を生成する際は文字列を構成す
る文字コードをそのままデータとしてメモリ上に格納し
、文字列オブジェクト（Ａ８．ＡＩＯ，Ａ１２）を生成
し、さらに各文字単位に日本語か、ＡＮＫ文字かを判定
し、日本語文字なら１．１をＡＮＫ文字なら０．１の２
ビツトを要素とする文字属性テーブル（Ａ７．Ａ８．Ａ
ｔ　１　）を生成する文字列データ生成手段（Ａ１４）
と、文字列中のある文字をアクセスするために文字数で
指定された文字位置をバイト単位に数えたバイト位置に
換算するバイト位置計算手段（Ａ１５）とを備える。な
お、第１図中において各文字属性テーブル（Ａ７．Ａ９
゜Ａ１１）と文字列オブジェクト（Ａ８．ＡＩＯ。

Ａ１２）の下に付けられた数字（Ａ１６．Ａ１７゜Ａ１
８．Ａ１９．Ａ２０．Ａ２１＞が各々対応する文字位置
を示す、ｎ文字目の文字の文字オブジェクト内のバイト
位置を計算する場合には、文字属性テーブル（Ａ７．Ａ
９．Ａｌｌ＞の先頭ビットから（ｎ−１）Ｘ２ビツトを
全て加えることによって求めることができる。ただし、
ここで得られる文字オブジェクト内のバイト位置は先頭
をＯ番目と数えた相対バイト数である６例えば第１図中
の文字列Ｘ“日本１の山”　（Ａ１）の５文字目“山”
のバイト位置は、文字属性テーブル（Ａ７）における先
頭から８（（５−１）Ｘ２＋ビツト（１，１，１，１，
０，１，１，１，）の各ビットを全て加えると７となり
、７バイト目から“山“が始まることがわかる０次に、
アクセスしようとしている文字がＡＮＫ文字から１バイ
ト、日本語文字なら２バイトであるので、アクセスする
のに何バイトをとり出したら良いかという判断をするに
は、文字属性テーブル（Ａ７．Ａ９．Ａｌ　ｌ　）の対
応する文字位置の２ビツト分のデータを加える。この合
計値分のバイト数をとり出せばよい。

たとえば、上記した文字列Ｘから“山”をとり出す場合
には、文字属性テーブル（Ａ７）の５文字目に対応する
２ビツト（１，１）を加えて２となり２バイト分取り出
せば“山”が取り出せることになる。同様に第１図に示
す文字列Ｙの５文字目の“山”の場合は文字属性テーブ
ル（Ａ９）の１．１，１，１，１，１，１．１を加えて
８バイト目から１，１を加えた２バイト分となり、第１
図の文字列２の５文字目“３”の場合は０，１゜０．１
，０，１，０．１を加えて４バイト目から０．１を加え
た１バイト分となる０次に本実施例の言語処理方式によ
る文字列操作について第２図〜第４図に基づいて具体的
に説明する。

まず、第２図に基づいて文字列中から部分文字列をとり
出す処理を説明する。

文字列Ａ（Ｂｌ）の２文字目から４文字をとり出し、“
ＥＣ日本”という部分文字列Ｂ　（Ｂ２）を新しく生成
する場合を考える。とり出す部分文字列の先頭位置を求
めるため、文字列Ａ中の２文字目“Ｅ″の相対バイト数
を求めるとすなわち、（２−１）ｘ２＝２ビットである
ので、文字属性テーブル（Ｂ３）の先頭の２ビット０．
１の各ビットを加え１バイト目が相対バイト数になる０
次に、とり出す２文字目から４文字のバイト数を計算す
る。このバイト数は、文字属性テーブルＢ３の２文字目
のビットから４文字分を加えることによって求まる。す
なわち、ｏ、１，０，１，１゜１．１．１を加えて６バ
イトとなる。そしてこの後に、文字属性テーブル（Ｂ３
）の相対バイト数としての２ビツト目から８ビツトをと
り出して文字属性テーブル（Ｂ５）を生威し、さらに文
字列オブジェクト（Ｂ４）の相対バイトとしての４バイ
ト目から６バイトをとり出した文字列オブジェクト（Ｂ
６）を生成することによって部分文字列Ｂ（Ｂ２）が作
成できる。

次に、２つ以上の文字を単に連結する場合には第３図に
示すように、単に文字属性テーブルと文字列オブジェク
トを各々連結した文字列データを作成すれば良い。

ｉ＆後に文字列中の文字をある文字で置換する場合を第
４図に示す、なお、この場合、文字列中のバイト数が置
き換えたい文字と置き換えられる文字とで一致していれ
ば単に置換すればよく特に問題はない、ここでは、一致
していない場合について説明する。かかる場合には、新
しい文字列オブジェクトを生成しなければならない、ま
た、この場合、もとの置き換えられる文字列のアドレス
を変更しないようにしなければならないのなら、文字列
オブジェクトをさす文字列ヘッダをもつような構造を生
成するすればよい、たとえば、第４図に示すように、文
字列Ｃ“日本１の山”の３文字目“１”を“−”に置換
する場合を説明する。第４図中に示すように、文字列Ｃ
をさすデータ（Ｄｌ）がある、データＤ１のさしている
のが文字列ヘッダ（Ｂ２）であり、第４図中で実線の矢
印で示すように、その文字列ヘッダＤ２から文字列オブ
ジェクト（Ｂ３）をさしている０文字列Ｃの３文字目も
数字“１ｎを漢字の“−”に直接置換する場合は、“日
本一の山′″という文字列オブジェクト（Ｄ４）を生成
し、第４図中で点線の矢印りうで示すように、文字列ヘ
ッダＤ２が文字列オブジェクトＤ４をさすように変換す
る。

（発明の効果）以上に説明したように、本発明の言語処理方式によれば
次に述べるような効果が得られる。

まず、文字列中の文字がＡＮＫ文字か日本語文字かを表
わす文字属性と、そのバイト数とを表わす文字属性テー
ブルを備えており、この文字属性テーブルを使用して文
字数で指定された文字位置とバイト単位に数えたバイト
位置に変換する処理を行うことによってＡＮＫ文字を１
バイトのままで２バイトにすることなくメモリ上に格納
することができ、メモリ効率が向上するという効果があ
る。

また、文字コードのよｙｉ１バイト文字、２バイト文字
を混在した文字列中の文字の位置を前記文字属性テーブ
ルを利用することによって文字位置を容易にバイト単位
に計算することができ、文字列操作の処理効率を上げる
こともできるという効果がある。

さらに、日本語文字とＡＮＫ文字を混在して文字列中に
含めることができるようになり、日本語文字１文字をＡ
ＮＫ文字１文字と同等に１文字として扱うような文字列
処理を実現することができるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実肢例の構成を示す１０７７図、第
２図は第１図の実施例において文字列データから部分文
字列をとり出す処理を説明するための説明図、第３図は
第１図の実施例において２つの文字列データを連結する
処理を説明するための説明図、第４図は第１図の実施例
において文字列データの一部を他の文字で置換する処理
を説明するための説明図、第５図は従来の２バイト文字
列を示す説明図、第６図は従来の２バイト文字列方式を
示す説明図、第７図は従来の１バイト兼２バイト文字列
を示す説明図である。ＡＩ、Ａ２．Ａ３．Ｂｌ、Ｂ２・・・文字列、Ａ７Ａ９
．Ａｔ　１．Ｂ３．Ｂ５・・・文字属性テーブル、Ａ８
．ＡＩＯ，ＡＩ２．　　Ｂ４．　　Ｂ６．Ｄ３．Ｄ４・
・・文字列オブジェクト、Ａ１３・・・文字列処理手段
、Ａ１４・・・文字列データ生成手段、Ａ１５・・・バ
イト位置計算手段、Ｄｌ・・・文字列Ｃをさすデータ、
Ｄ２・・・文字列ヘッダ、Ｄ５・・・文字列オブジェク
トをさすポインタ。

Claims

【特許請求の範囲】１バイトコードで表現される１バイトコード系文字と２
バイトコードで表現される２バイトコード系文字とを含
む文字列を処理するインタプリタの言語処理方式におい
て、前記文字列の文字を構成する文字コードが格納される文
字列オブジェクトと、該文字列オブジェクトの各文字コ
ードのバイト数が格納される文字属性テーブルとからな
る文字列データを生成する文字列データ生成手段と、前記文字列オブジェクトの文字列における基準位置から
各文字までの部分文字列に対応する前記文字属性テーブ
ルにおけるバイト数の合計値を求めて、該合計バイト数
を前記各文字のバイト位置とするバイト位置計算手段とを備えることを特徴とするインタプリタの言語処理方式
。