JPH04178837A

JPH04178837A - 字句エラー訂正方法

Info

Publication number: JPH04178837A
Application number: JP2306324A
Authority: JP
Inventors: Hiroko Yamaguchi; 裕子山口; Noriyasu Mori; 森　教安
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-11-14
Filing date: 1990-11-14
Publication date: 1992-06-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は字句解析におけるエラー処理に係り、特にユー
ザが入力した仕様に基づいた訂正をする字句エラー訂正
方法に関する。

〔従来の技術〕

コンパイラ等で行なわれている字句解析処理とはソース
プログラムを１文字ずつ読んで、字句という文字列に切
り出していく処理である。字句エラーとは字句のつづり
誤りを指す。

字句解析処理で字句エラーを回復する方法は、Ａ、Ｖ、
エイホ、Ｊ、Ｄ、ウルマン著「コンパイラＪ　　（１９
８６年、培風館発行）第３４９頁から第３５１頁に論じ
られている。よくとられている方法の一つを以下、述へ
る。

字句が誤っていたら、現在の文脈で次に現われうる字句
の一覧を構文解析部からもらい、その中から現在の文字
列に最も近いものをみつける。実際の字句のつづり誤り
のほとんどは、１文字の誤りにあることから、現在の文
字列を１文字変えたものが候補の一覧にあるかどうかで
調へる。

〔発明が解決しようとする課題〕

上記従来技術では、字句のつづりの誤りと思われるもの
があると、無条件に訂正する。しかし、現実には字句に
もつづりを誤り易いものとそうでないものがある。また
、正しい字句を他の字句のつづり誤りとみなして、間違
った訂正をしてしまう恐れがある。

上記の問題を解決するために１本発明ではユーザがあら
かじめ入力しておいた字句のつづり誤りを訂正するため
の情報をもとに訂正を行なう。

本発明ではどの程度までつづり誤りを訂正する（もしく
はエラーにする）かを字句解析の実行時にユーザが指定
できるようにすることも目的とする。

〔課題を解決するための手段〕

ユーザは字句毎につづり誤りを訂正するための誤り許容
情報を指定した仕様を入力する。本発明のシステムは、
字句解析時に使う誤り検索用字句テーブルにこの情報を
設定する。

ユーザは字句解析部を実行する時に、字句のつづり誤り
をどの程度まで許すか（誤り許容度）を指定する。つづ
りの誤った字句を検出したら、前記字句テーブルを用い
て、（誤り許容度範囲内の）もとのつづりを検索し、つ
づりを訂正する。

〔作用〕

ユーザが入力する誤り許容情報とは、字句毎に何箇所ま
でかの誤りを許す、あるいは特定の（誤った）つづりを
許すという情報である。字句解析時に使う誤り検索用字
句テーブルにこの情報は設定される。

字句解析時に、ユーザが指定した誤り許容度範囲内のつ
づりの誤った字句を検出したら、前記字句テーブルの誤
り許容情報に基づいて、もとのつづりを検索することが
できる。

〔実施例〕

以下、本発明の一実施例を図面を用いて説明する。実施
例では、字句エラーを訂正する対象の字句はキーワード
（予約語）に限定する。

字句解析部の処理では、識別子を字句として切りだした
ら、あらかじめ設定されているキーワードテーブルを検
索して、どのキーワードか（あるいは識別子か）を判定
する方法（キーワード方式）をとるものが多い。実施例
の字句解析もこの方法をとるものとする。

第１図は本発明の字句エラー訂正方法を実現するための
計算機システムの構成図である。本実施例の計算機シス
テムは、ＣＰＵｌ０Ｉ、主記憶装置！１０２．制御装Ｍ
１０３より構成される。また、制御装置１０３は外部記
憶装置１０４に接続している。外部記憶装置１１０４に
は本システムの入力となるキーワードの誤り許容情報１
０５および本システムの出力となる誤り検索用キーワー
ドテーブル１０６および誤り許容度１０７が格納される
。

主記憶装置１０２には、字句解析エラー訂正方法を実現
する字句解析部を含んだコンパイラ１０８および前記誤
り検索用キーワードテーブルを生成するキーワードテー
ブル生成ルーチン１０９が格納されている。

ＣＰＵｌ０Ｉはキーワードテーブル生成ルーチン１０９
を実行することにより、誤り検索用キーワードテーブル
１０６を生成する。字句解析時には、コンパイラ１０８
は前記誤り検索用キーワードテーブルを参照して、字句
のつづり誤りを修正する。

第２図に字句解析部のキーワードのエラー訂正方法の処
理の流れを示す。コンパイラ１０８を実行するときに、
ユーザが指定したキーワードの誤り許容度を読み込む（
ステップ２０１）。字句解析部は字句として識別子を切
りだしたら、キーワードテーブルからつづりが完全に一
致するキーワードを検索する（ステップ２０４）。該当
するキーワードがなければ誤り検索用キーワードテーブ
ル１０６を検索する。このときは、各キーワードの誤り
許容情報および誤り許容度指定に基づいた解析゛を行な
い（ステップ２０５）＝つづり誤りを修正し、メツセー
ジを出力する（ステップ２０６）。

（キーワード方式を採らない字句解析部の処理では、ス
テップ２０４がなくなる）本システムでのキーワードのつづり誤りとは、１文字が
余計に挿入されている、１文字が欠けている、１文字が
誤っている、隣あう２文字が入れ替わっている場合をい
う。以上のうちの１つに該当したら字句誤りが一箇所あ
るという。キーワードのつづり誤り許容情報として、ユ
ーザは字句誤りを一箇所許すキーワードに対してｒ＃ｐ
ｅｒｍｉｔ　Ｉ　Ｊと書く。三箇所まで許す場合にはｒ
＃ｐｅｒｍｉｔ　２　Ｊと、レベル分けして書く（三箇
所以上の場合はキーワードの誤りというより、識別子で
ある可能性の方が高いので、許容情報はｒ＃ｐｅｒｍｉ
ｔ　２　Ｊまでとする）。

また、本システムを使うユーザがよく間違えるつづり誤
りについては、とくにそのつづりを誤り情報として書け
る。正しいキーワードのつづりに対して誤ったつづりを
（ｒ＃ｒｅｃｏｖｅｒ、１指定して）書く。

第３図はキーワードの誤り許容情報１０５の一例である
・　ｒ　ｐｒｏｃｅｄｕｒｅ　Ｊのように比較的文字数
の多いものにはＩ’ｌｐｅｒｍｉｔ　２　Ｊを指定して
いる。

ｒ　＃ｒｅｃｏｖｅｒ　Ｊの直後に指定しである［ρｒ
ｏｇｒａｎ　ＪはｒｐｒｏｇｒａｌｌＪのつづり誤りと
なる。つづり誤りを許さないキーワードに関しては何の
記述もしない。

コンパイラを実行するときに、ユーザが誤り許容度を［
１」と指定した場合はｒ＃ｐｅｒｍｉｔ　Ｉ　Ｊまたは
Ｎｌｐｅｒｍｉｔ　２　Ｊが指定されているキーワード
のつづり誤りは一箇所まで許される。誤り許容度を「２
」と指定した場合は、これらの誤りに加えｒ＃ｐｅｒｍ
ｉｔ　２　Ｊが指定されているキーワードのつづり誤り
が三箇所まで許される。許容情報および誤り許容度と、
誤りを許す程度の関係を第４図に示す。

例えば、ソースプログラムを初めてコンパイルするとき
には、許容度を「２」と指定し、キーワードのつづり誤
りのせいでコンパイルが中断されないようにする。メツ
セージをみてつづり誤りを修正し、最終的なコンパイル
の段階になって、つづり誤りを許さないように（許容度
を指定しない）すればよい。

上記の誤り許容情報の例から、生成される誤り検索用キ
ーワードテーブルの一例を第５図に示す。

一般のキーワードテーブルにはキーワードの（正しい）
つづりと、（字句解析部の処理結果として返す）対応す
るコードとが設定されている。これらに加え、本シテム
では誤り許容情報のレベルを設定する。ｒ＃ｒｅｃｏｖ
ｅｒ　Ｊ指定されたつづりも登録するが、誤り許容情報
欄でｒ　＃ｒｅｃｏνｅｒＪ指定されたものとわかるよ
うにする。

誤り検索用キーワードテーブルを生成する代わりに、通
常のキーワードテーブルに誤り許容情報欄を設け、レベ
ルを設定する方法もある。この場合、テーブルにはキー
ワード（＃ｒｅｃｏｖｅｒ指定されている誤ったつづり
も含める）をアルファベット順に登録しておく。文字列
比較して一致していれば０を、アルファベット順で先（
後）ならば負（正）を返す関数（例えばＣ言語の標準関
数ｓｔｒｃｍｐ　）を用いてテーブルを二分探索する。

切り出した文字列と一致するものがなければ、つづりが
１番近いキーワードの添字が返る（ただし、１文字目が
違っている場合はそうならない）。このキーワードと周
辺のもので＃ｐｅｒｍｉｔ指定されているものが誤りの
もとのキーワードの候補となる。

＃ｒｅｃｏｖｅｒ指定されている誤ったつづりと一致し
たときは、これかもとのキーワードとなる。

誤り検索用キーワードテーブルの検索方法（ステップ２
０５）の−例を説明する。上記のように誤りのもとのキ
ーワードの候補が求まったら、これらと切りだした文字
列のつづりを１文字ずつ比較していく。

つづり誤りのパターンと文字列比較処理の流れ図を第６
図に示す。文字列中で現在みている文字をポインタで指
すとする。流れ図は、始めて文字が一致しなかったとこ
ろから始まり、現在調べている候補のつづりが本当に誤
りのもとである可能性があるか、否かで終っている。可
能性があれば残りの文字を比較して、全て一致すれば現
在の候補が誤りのもとのキーワードとなる。可能性がな
ければ、別の候補を調べる。

１文字目が違っている場合は上記の方法とは異なる処理
にいく。しかし、１文字目から間違っている可能性は少
ない。

＄ｒｅｃｏｖｅｒ指定されている候補はつづりが全て等
しいかどうかでみる。

第２図に示した処理の流れとは異なる処理の流れを第７
図に示す。（字句エラーの回復などしない）通常の字句
解析をして、構文解析をする。キーワードがくるべきは
ずなのに、そうならなかった場合に構文解析部はくるべ
きキーワードのコード（複数ありうる）を返す（ステッ
プ２１１）。

誤り検索用キーワードテーブルを用いて、これらのコー
ドに対応するキーワードのつづりと、切り出した字句の
つづりとを比較して該当するキーワードを検索する（ス
テップ２１２）。

この方法だと第２図に示したものよりも、誤り検索用キ
ーワードテーブルを検索する処理が単純になる。ただし
、構文解析部がエラー時に、くるべきキーワードのコー
ド（複数ありうる）を字句解析部に返す処理が増える。

本発明は字句解析生成系にも適用できる。第８図に字句
解析生成系の処理の流れ図と入力例と出力例を示す。字
句解析生成系１１０は字句仕様１１１を入力し１字句解
析プログラム１１２を出力する。字句の仕様としてキー
ワードの仕様を定義するとき誤り許容情報を付加すれば
よい。

字句の仕様は一般に正規表現で表わされるが、正規表現
では識別子や文字列リテラルの字数の上限値を表わすこ
とができない６本発明では字数の上限値を表わす入力仕
様も提供する。第７図（ｂ）の入力例のようにｒ＃１１
ｍ１ｔ　１４　Ｊとある場合は、対応する字句（ここで
は識別子）の字数の上限値を１４文字とできる。字句解
析生成系は、字句解析プログラム上で、ｒ＃１１ｍ１ｔ
」指定のある字句の処理部に字数の上限値チエツクを付
加すればよい。

誤り許容度としてｒｌ」以上が指定さ九た場合は上限値
を超えたものはエラーとし、そうでなければエラーメツ
セージを出すだけでエラーにはしない。

〔発明の効果〕

本発明は以下に記載するような効果を持つ。コンパイラ
において字句解析時に入力プログラム中の字句のつづり
誤りを訂正することにより、字句解析以降の処理を続行
できる。

字句の誤りを検出・訂正するためのテーブルを生成する
ための仕様（各字句毎につづり誤りをどの程度許すかと
いう情報を含む）をあらかじめユーザが入力することに
より、ユーザが誤りを許すとした字句毎に指定した範囲
（何箇所までの誤りを許すか、あるいは特定の誤ったつ
づりを許すという情報）での訂正が行なえる。これによ
り処理の効率が良くなるばかりでなく、ある字句と似た
字句をつづり誤りとみなして間違った訂正をしてしまう
危険もなくなる。

つづり誤りを訂正するか否かの情報を字句解析実行時に
ユーザが入力することにより、ユーザはつづりの誤りを
訂正するか、否かを実行時に選択できる。

字句解析生成系への入力仕様に字句の誤りを検出・訂正
するための情報を付加することで字句の誤りを検出・訂
正する字句解析プログラムを生成できる。

【図面の簡単な説明】

第１図は本発明の計算機システムの構成図、第２図は本
発明の一実施例の処理の流れ図、第３図はキーワードの
誤り許容情報の一例、第４図は許容情報および誤り許容
度と、誤りを許す程度の関係を示す図、第５図は生成さ
れる誤り検索用キーワードテーブルの一例、第６図はつ
づり誤りのパターンと文字列の比較処理の流れ図、第７
図は本発明の一実施例の処理の流れ図、第８図は字句解
析生成系の処理の流れ図と入力例と出力である。符号の説明１０１・・・ＣＰＵ、１０２・・・主記憶装置、］０３
・・・制御装置、１ｏ３・・・制御装置、１０４・・・
外部記憶装置１１０４．１．０５・・・誤り許容情報、
１０６・・・誤り検索用キーワードテーブル、１０７・
・誤り許容度、１０８・・・コンパイラ、１０９・・・
キーワードテーブル生成ルーチン。茅１Ｍ第２図峯３図 ′ｆ−外図正しい、プ゛ｌ）：ｆ’にＫｅｃｔ ■１虻すｕｈＬい　■ｊ（ｉ余訂　　　Ｏ丸す逆籾　ｅ
１丸字丸↓ＦＡ　ｄ　Ｌｅｄ　　ＢｔｘｔＬＯｋｅ、ｄ
　　ＰＩＬ　ｒｃｅ、ｃｌ−ｇｏ＜才ｔｌ穿？図似）

Claims

【特許請求の範囲】１、入力プログラムの字句を解析し、前記字句解析の結
果に基づいて入力プログラムの構文を解析し、前記構文
解析の結果から計算機で実行されるコードを生成するコ
ンパイラにおいて、あらかじめ字句の誤りを検出・訂正
するためのテーブルと処理部を設け、前記字句解析にお
いて前記入力プログラムの各字句に前記処理を適用し、
前記入力プログラムの字句におけるつづり誤りを訂正す
ることを特徴とするコンパイラ。２、第１項記載のコンパイラにおいて前記テーブルと前
記処理部があらかじめ記憶装置に格納されていることを
特徴とするコンパイラ。３、第１項記載のコンパイラにおいて前記テーブルを生
成するための仕様をユーザが入力装置から入力すること
を特徴とするコンパイラ。４、第３項記載の前記テーブルを生成するための仕様が
、各字句毎につづり誤りをどの程度許すかという情報を
含むことを特徴とするコンパイラ。５、第１項記載のコンパイラにおいて字句のつづり誤り
を訂正するか否かの情報をコンパイラ実行時にユーザが
入力装置から入力することを特徴とするコンパイラ。６、字句解析において、ユーザがあらかじめ字句のつづ
り誤りを検出・訂正するための仕様を入力し、字句のつ
づり誤りを検出・訂正するためのテーブルと処理部を生
成し、字句解析において入力プログラムの各字句に前記
処理を適用し、前記入力プログラムの字句におけるつづ
り誤りを訂正することを特徴とする字句エラー訂正方法
。７、第６項記載の字句のづづり誤りを検出・訂正するた
めの仕様が、各字句毎につづり誤りをどの程度許すかと
いう情報を含むことを特徴とする字句エラー訂正方法。８、第６項記載の字句解析において、字句のつづり誤り
を訂正するか否かの情報をコンパイラ実行時にユーザが
入力装置から入力することを特徴とする字句エラー訂正
方法。９、字句解析生成系において、字句解析生成系への入力
仕様に字句の誤りを検出・訂正するための情報を付加す
ることで字句の誤りを検出・訂正する字句解析プログラ
ムを生成することを特徴とする字句解析生成方法。