JPH0358137A

JPH0358137A - 複数文字系に対する文字認織方式

Info

Publication number: JPH0358137A
Application number: JP19529189A
Authority: JP
Inventors: Akira Nakada; 章中田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-07-26
Filing date: 1989-07-26
Publication date: 1991-03-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［［要〕複数文字系の原始プログラムを人力対象とする複数文字
系の文字認識方式に関し、同じモジュールにより複数の文字系を処理できるように
することを目的とし、複数の文字種毎に設けられた文字の属性が記録された文
字属性テーブルと、該文字属性テーブルを入力文字系に
応じて切換える制御モジュールと、翻訳言語の規則に従
い、文字列を区切る語分解部とにより構戊され、前記制
御モジュールか翻訳対象原始プログラムの文字系を判定
して、その文字系に合った文字属性テーブルを選択し、
選択した文字属性テーブルを語分解部に受け渡すことに
より、同一の語分解部により複数の文字系を処理するよ
うに構成する。

［産業上の利用分野］本発明は複数文字系の原始プログラムを人力対象とする
複数文字系の文字認識方式に関し、更に詳しくは複数文
字系の原始プログラムを人力対象とするコンパイラにお
ける複数文字系の文字認識方式に関する。

近年のコンピュータシステムは、多用なシステムの導入
に伴い、複数の文字系（例えばＥＢＣＤＩＣ系，ＡＳＣ
Ｉｉ系等）が導入されてきている。

これにより、コンパイラでもそれぞれの文字系の原始プ
ログラムを処理することが必要となってきている。この
ためには、コンパイラが各文字系に対応した文字を認識
する必要がある。

［従来の技術コ従来のコンパイラで複数の文字系を処理する場合、第６
図に示すように、文字系の異なる原始プログラム１毎に
文字認識モジュール２を用意し、当該モジュール２内に
認識すべき文字の値をテーブルとして格納していた。そ
して、原始プログラム１から読出した文字の値をモジュ
ール２内のテーブルと比較して文字認識を行っていた。

［発明が解決しようとする課題］従って、従来方式によれば翻訳対象となる文字系が複数
種ある場合には、モジュール内のテープルの値をそれぞ
れの文字系に合わせたモジュールを文字系の数たけ準備
しておく必要があり、繁椎なものとなっていた。

本発明はこのような課題に鑑みてなされたものであって
、同じモジュールにより複数の文字系を処理できるよう
にすることができる複数文字系に対する文字認識方式を
提供することを目的としている。

［課題を解決するための手段］第１図は本発明方式の原理ブロック図である。

図において、１０は複数の文字種毎に設けられた文字の
属性（例えば英字，数字，空白等の区別をいう）が記録
された文字属性テーブル、１１はこれら文字属性テーブ
ル１０を入力文字系に応じて切換える制御モジュール、
１２は翻訳言語の規則に従い、文字列を区切る語分解部
である。

［作用］認識すべき文字の値を語分角ｑ部１２の中には保持せず
、認識すべき属性に従って処理するようにし、文字の値
とその文字の属性との対応は文字属性テーブル１０に保
持しておく。語分解部１２では、１文字を読み込んだ直
後に文字属性テーブルｌＯを参照し、文字属性を得て、
文字認識の処理を行うようにする。

従って、複数の文字系を処理する場合には、語分解部１
２の処理が文字属性テーブル１０にのみ依存するように
なるため、制御モジュール１１で文字属性テーブル１０
を切換えることにより、同じ語分解部１２で複数文字系
の文字の認識を行うことが可能となる。

［実施例］以下、図面を参照して本発明の実施例を詳細に説明する
。

第２図は本発明の一実施例を示すブロック図である。第
１図と同一のものは、同一の符号を付して示す。図は、
ＥＢＣＤ　Ｉ　Ｃ文字系とＡＳＣＩＩ系の両文字系のＣ
ＯＢＯＬ原始プログラムを認識する場合を示している。

文字属性テーブルｌｏ中の▼し▼，ｌｖ”▼，▼Ａ▼，
▼Ｂ▼，▼１▼，▼２▼は入力する文字を示している。

これら文字の直後の（Ｘ▼・・・▼）はそれぞれの文字
系での１６進で示した文字の値を示している。例えば、
ＥＢＣＤＩＣ系での▼Ａ▼はＸｖＣ１▼となり、ＡＳＣ
ＩＩ系での同じ▼Ａ▼はＸ▼４１▼となり、値が異なっ
ている。

次の▼空白▼，▼引用符▼，▼数字▼，▼英字▼は、語
分解部１２で認識すべき文字の属性である。これら属性
は、１バイトの値として文字属性テーブル１０内に保持
されている。つまり、文字属性テー　ブル１０は、文字
の値をインデックスとして参照すると、文字属性が得ら
れるように各文字系毎のテーブルとなっている。語分角
ｑ部１２は、文字属性に従い文字列を認識するようにし
、文字の値を参照して処理することはないようにする。

今、例として文字列▼Ａ−”Ｂ″Ｕ１▼をｃｏＢＯＬの
文法に従って解析する場合を考える。この例では、人力
文字列をＥＢＣＤＩＣで表現すると、ＸＶＣ１４０７Ｆ
Ｃ２７Ｆ４０ＦＩＶとナリ、ＡＳＣＩＩで表現すると、Ｘ▼４　１　２０２２４２２２２０３１▼となる。語分
解部１２にはこのような表現で文字列が入力される。例
の場合、分離符として▼１▼及び▼”▼のみを考え、数
字定数として小数はないものとし、引用符は文字定数内
には記述できないものとすると、語分解部１２の処理論
理は第３図に示すようなものとなる。以下、第３図につ
いて説明する。

先ず原始プログラムから文字を人力する（Ｓ１）。ここ
で、図中で示される▼ＧＥＴＣＨＲ▼は人力対象となる
次の１字を読込み、その文字の値に対応する文字属性を
通知するシーケンスをいう。

文字属性を通知するために参照するのが、制御モジュー
ル１１で切換えられて渡される文字属性テーブル１０で
ある。次に、その人力した文字が英字かどうかチェック
する（Ｓ２）。ここで、文字が英字かどうかのチェック
は、制御モジュール１１によってセレクトされた文字属
性テーブル１０を参照することにより判定することがで
きる。英字と判定されたら、次に次の文字を入力し（ｓ
３）、分離符であるかどうかチェックする（ｓ４）。

分離符であった時には、入力した文字列は終了している
ことを示すから、利用者語として出力する。分離符でな
い場合には、まだ文字列が続くので、文字列を追加し（
Ｓ５）、再度文字を人力する（Ｓ３）。以上のシーケン
スを文字列が分離符で区切られるまで続ける。

次に、Ｓ２で人力した文字が英字でない場合、人力した
文字が数字かどうかチェックする（ｓ６）。ここで、文
字が英字かどうかのチェックは、制御モジュール１１に
よってセレクトされた文字属性テーブル１−０を参照す
ることにより判定することができる。数字と判定された
ら、次に次の文字を人力し（Ｓ７）、分離符であるかど
うかチェックする（Ｓ８）。

分離符であった時には、入力した文字列は終了している
ことを示すから、数字定数として出力する。分離符でな
い場合には、まだ文字列が続くので、文字列を追加し（
Ｓ９）、再度文字を入力する（Ｓ７）。以上のシーケン
スを文字列が分離符で区切られるまで続ける。

次に、Ｓ６で入力した文字が数字でない場合、人力した
文字が引用符であるかどうかチェックする（Ｓ　１　０
）。ここで、文字が引用符かどうかのチェックは、制御
モジュール１１によってセレクトされた文字属性テーブ
ル１０を参照することにより判定することができる。引
用符と判定されたら、次に次の文字を人力し（Ｓｌｌ）
、分離符であるかどうかチェックする（Ｓ　１　２）。

分離符であった時には、入力した文字列は終了している
ことを示すから、文字定数として出力する。分離符でな
い場合には、まだ文字列が続くので、文字列を追加し（
８１３）、再度文字を入力する（Ｓｌｌ）。以上のシー
ケンスを文字列が分離符で区切られるまで続ける。

次に、ＳＩＯで引用符でなかった時、分離符であるかど
うかチェックし（Ｓ１４）、そうであった場合には、文
字列の頭が分離符であったことになり、分離符▼−▼と
して出力する。ｓ１ｏで分離符でなかった場合には、文
字列の終了であるかどうかチェックし（Ｓ１５）、そう
であった場合には、動作を終了し、そうでなかった場合
には、Ｓ１に戻り、新たな文字の人力を行う。

第４図はＥＢＣＤＩＣ系の▼ＧＥＴｃＨＲ▼の処理論理
を示す図である。原始プログラムから▼ＡＬＪ″Ｂ″Ｕ
１▼なる文字列を１字ずつ人刀する。

人力した文字について、文字属性テーブル１ｏを参照し
、▼Ａ▼は英字．▼−▼は空白というようにつぎつぎに
その属性を調べて文字属性を通知する。ここで、▼Ａ▼
は英字，▼一▼は空白というように文字の属性を調べて
いくが、この結果は文字系に依存しないことが重要であ
る。

第５図はＡｓｃＩＩ系の▼ＧＥＴｃＨＲ▼の処理結果を
示す図である。第４図のＥＢＣＤＩＣ系の場合と同様、
▼Ａ▼は英字，▼０▼は空白というように処理結果が文
字系に依存していないことがわかる。

つまり、▼ＧＥＴＣＨＲ▼では、入力文字の値に従い、
文字属性テーブルを参照し、人力文字に対応する文字属
性を通知し、語分解部１２では、文字の値でなく、▼Ｇ
ＥＴＣＨＲ▼が通知する文字属性に従い処理する。語分
解部１２の処理は、文字の値ではなく、文字属性に依存
する。従って、文字属性テーブル１０を入力原始プログ
ラムの文字系に置換するだけで、複数の文字系に対する
処理が可能となる。

上述の説明では、文字系としてＥＢＣＤＩＣ系とＡＳＣ
ＩＩ系を例にとった。しかしながら、本発明はこれに限
るものではなく、あらゆる種類の文字系に適用すること
ができる。

［発明の効果］以上、詳細に説明したように、本発明によれば文字系毎
にその属性を記録した文字属性テーブルを予め準備して
おくことにより、原始プログラムの人力時には、対応す
る文字属性テーブルを用いて語分解部が人力文字の属性
を認識するように構成することにより、同じモジュール
により複数の文字系を処理できるようにすることができ
る。

【図面の簡単な説明】

第１図は本発明方式の原理ブロック図、第２図は本発明
の一実施例を示すブロック図、第３図は語分解部の処理
論理を示すフローチャート、第４図はＥＢＣＤＩＣ系の▼ＧＥＴＣＨＲ▼の処理論理
を示す図、第５図はＡＳＣＩＩ系の▼ＧＥＴＣＨＲ▼の処理結果を
示す図、第６図は従来方式の説明図である。第１図において、１０は文字属性テーブル、１１は制御モジュール、１２は語分解部である。

Claims

【特許請求の範囲】複数の文字種毎に設けられた文字の属性が記録された文
字属性テーブル（１０）と、該文字属性テーブル（１０）を入力文字系に応じて切換
える制御モジュール（１１）と、翻訳言語の規則に従い、文字列を区切る語分解部（１２
）とにより構成され、前記制御モジュール（１１）が翻訳対象原始プログラム
の文字系を判定して、その文字系に合った文字属性テー
ブル（１０）を選択し、選択した文字属性テーブル（１０）を語分解部（１２）
に受け渡すことにより、同一の語分解部により複数の文
字系を処理するように構成したことを特徴とする複数文
字系に対する文字認識方式。