JPS5840788B2

JPS5840788B2 - 入力デ−タのエラ−検出装置

Info

Publication number: JPS5840788B2
Application number: JP54164879A
Authority: JP
Inventors: デ−ビツド・グリツクマン; エイボン・コンスタンテイン・グリ−ニアス; ジエ−ムズ・テリ−・リパス; ウオルタ−・ステイ−ブン・ロ−ゼンバ−ム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1979-01-05
Filing date: 1979-12-20
Publication date: 1983-09-07
Also published as: US4342085A; ES487455A1; JPS5592967A

Description

【発明の詳細な説明】本発明はテキスト・プロセシングに係り、特にテキスト
・ワードの辞書を記憶するのに必要な記憶容量が小さく
てよい入力データのエラー検出装。

置。

実用的な自動綴り確認装置すなわちハイフン付は装置を
実現する上において、辞書記憶ファイルの最大人力数は
動作効率およびコストの両面において装置の実用性に影
警を与える重要なファクタである。

従来、記憶ファイルの容量を小さくするために種々の方
法がとられてきた。

第１の方法は、現在使用中でないあるいは最も使用され
ない記憶ファイルの人力を無視するものである。

従来のファイルの容量を小さくする第２の方法は、一連
の同一文字を識別子と計数値に置換することにより文字
および記号をラン・レングス・コード化してファイル中
のデータを圧縮するものである。

第３の方法は、例えば固定バイト・コードをハフマン・
コード（Ｈｕｆｍａｎｃｏｄｅ）に置換するとむ）つ
たように−散に使用されているコードをより効率的なコ
ードに置換することにより、より頻繁に発生する文字を
より少いビットで表示するものである。

この方法は同様な発生特性を有する種々の文字の組を組
合せることによって改良し得る。

第４の方法は、辞書ファイル中の各ワードを大きさと独
自の角度を有するベクトルに置換し、同じ大きさは対阜
する角度によってラン・レングスコード化される。

この技術によるファイル小容量化の理論的背景は、ワー
ドの大きさおよび角度表示を記憶することは平均的長さ
のワードの文字を記憶することに比較してわずかな記憶
スペースしか必要としないことにある。

ベクトルの大きさをラン・レングス・コード化すること
によりこの技術はさらに改良される。

しかしながら、ワード・レスト・ファイルの容量を大き
くする最大の辞書内容要素は、基礎ワードに接頭辞およ
び接尾辞が付加されて形成される多くの文字にある。

従来、この問題は取扱われていなかった。

自動的な綴り確認およびハイフン付けのための辞書ファ
イルにおけるデータ圧縮を改良するために、本発明は、
ワードから接頭辞および接尾辞を除去し各ワードの独自
の基礎ワードすなわち語幹のみを記憶させるものである
。

本発明は、ラン・レングス・コード化法、ハフマン・コ
ード化法およびベクトル表示法を含む公知の記憶容量減
少技術を改良するのに有益である。

それは、本発明が必要なファイル入力数を減少させるの
に対し、他の技術は各人力の記憶スペースを減少させる
ものだからである。

語幹処理装置は、辞書ファイルがコンパイルされる組込
み機能と、辞書ファイルがアクセスされる検索機能を有
する。

両機能が実行される際ともに所定の接頭辞および接尾辞
が使用される。

リスト中の各接頭辞および接尾辞は、これらが探索され
るテキスト状態に応じてこれらを監視する一組のコード
化された規則と関連付けられる。

以下、添付図面を参照して本発明の好ましい実施例につ
いて説明する。

第１図に示されたテキスト処理装置は、命令を解読し且
つ実行し得る汎用の演算処理装置すなわちＣＰＵＩＯ
を具備している。

演算処理装置１０は母線１３を介して命令メモリ１４と
２方向通信を行うようになっている。

命令メモリ１４は演算処理装置１０の動作を制御する本
発明に関連した命令を記憶している。

また、演算処理装置１０は母線１１を介してメモリ１２
と２方向通信を行うようになっている。

メモリ１２は命令メモリ１４に記憶された命令に関連す
る所定の接頭辞および接尾辞のリストを記憶している。

さらに、演算処理装置１０は母線１１Ａを介して辞書メ
モリ１２Ａと２方向通信を行うようになっている。

辞書メモ１Ｊ１２Ａは所定の辞書ワードの基礎ワードす
なわち語幹を記憶している。

命令メモリ１４、接頭辞／接尾辞用メモリ１２、および
辞書メモリ１２Ａはすべてリード・オンリ・メモリまた
はランダム・アクセス・メモリによって構成し得る。

入力レジスタ１６はデータ源から母線１７を介してテキ
スト・ワードを受ける。

データ源はキーボード、磁気テープ読取装置、磁気カー
ド読取装置、およびディスク°ファイル等を含む種々の
入力装置によって構成し得る。

テキスト・ワードは命令メモリ１４に記憶された命令に
従って処理されるために母線１５を介してレジスタ１６
によって演算処理装置１０に入力される。

出力レジスタ１８は人力レジスタ１６の内容について実
行された処理動作の結果を示す信号を演算処理装置１０
から母線９を介して受ける。

出力レジスタ１８に記憶された信号はこの信号を必要と
する装置が母線１９を介して取出し得るようになってい
る。

この信号を必要とする装置には、表示されるべきワード
を光によって際立たせる手段を有する表示装置、および
印刷されるべきワードの始点に印刷要素を再位置づけす
るかあるいはベルを鳴らす手段を有するプリンタ等が含
まれる。

本発明の好ましい実施例は、ワードからすべての所定の
接頭辞および接尾辞を切り拾てることによって辞書メモ
リ１２Ａに記憶されるべきテキスト・ワードの辞書を発
生するために第１図のテキスト処理装置を制御する１組
の命令すなわちプログラムを有する。

発生されたテキスト・ワードの辞書は、入力打鍵のよう
な通常のワード・プロセシング動作の間入力レジスタ１
６に入力されるワードの綴りが正しいか否か確認するた
めにアクセスされる。

また、接頭辞と語幹との連結位置および語幹と接尾辞と
の連結位置に潜在的ハイフン断絶点が発生される。

人力ワードは辞書メモリ１２Ａの内容と比較される前に
所定の接頭辞および接尾辞を除去するために本発明の命
令の制御の下に演算処理装置１０によって処理される。

辞書メモリをアクセスするためのプログラムは辞書メモ
リに記憶される１組のテキスト・ワードを発生するプロ
グラムと同じ規制を含んでいなければならない。

次に、人力レジスタ１６に人力されるワードの綴りが正
しいか否かを自動的に確認する動作の背景動作の規則に
ついて説明する。

予め定められた接頭辞が第１表に示されている。

このリストはすべての接頭辞を含むものではなく、はん
の−例を示しただけである。

接頭辞処理において第１に要求されることは、短い接頭
辞と同じ文字を含む長い接頭辞がはじめに入力されたワ
ードに匹敵する程度に長さが短縮されるように接頭辞リ
ストが処理されることである。

例えば、１ｎｔｅｒ”は前に入力されたワード”ｉｎ”
と匹敵する程度の長さとされなければならない。

接頭辞処理において第２に要求されることは、入力ワー
ドが接頭辞を除去した状態で基礎ワードすなわち語幹の
みとなり最小の文字数Ｎを有することである。

好ましい実施例において定められた最小ワード長Ｎは３
文字であるそして、入力ワードが接頭辞処理のための
最小の要求を満すか否かを判断するために初期チェック
が行われる。

第１表において最も短い接頭辞の文字数Ｐは２である。

したがって、ワードは接頭辞処理のための初期テストに
合格するためには少くとも（Ｎ＋Ｐ）すなわち５文字の
長さを有しなければならない。

本発明の接頭辞処理ルーチンの好ましい実施例において
第３に要求されることは、入力ワードの第１文字がアル
ファベット文字であることである。

ワードの第１文字がアルファベット文字でなければ、そ
のワードはフラグによって表示され、接頭辞処理規則の
下では処理されることはない。

この初期接頭辞前処理は第２表に示されたプログラムル
ーチンによって実行される。

人力ワードがアルファベット文字で始まるとともに要求
される最小の文字数を有するならば、人力ワードは該ワ
ードの長さより長くなく（Ｐ＋Ｎ）の長さを有する接頭
辞メモリ１２に記憶された接頭辞と比較される。

例えば、入力ワードが６つの文字を含んでいれば、３文
字あるいはそれより少い文字数を有する接頭辞が入力ワ
ードと比較される。

第３表は接頭辞メモリ１２中の接頭辞を入力レジスタ１
６中の入力ワードと比較する命令メモリ１４からのプロ
グラム・ルーチンを示す。

比較対象である接頭辞メモリ１２中の接頭辞が入力ワー
ドの始めの文字に一致すると、入力ワードの開始アドレ
スが修正され、除去された接頭辞およびその長さがワー
ドのハイフン点として記憶される。

これで接頭辞処理が完了する。命令メモリ１４はまた演
算処理装置１０の制御の下に入力レジスタ１６に入力さ
れたワードから接頭辞を除去するルーチンを含んでいる
。

第４表は接頭辞前処理サブルーチンを示したプログラム
である。

この接尾辞サブルーチンはアポストロフィおよびＳ”接
尾辞を処理し、第８表に示されたワード終点再構成サブ
ルーチンを呼出す。

第５表は接頭辞／接尾辞メモリ１２に記憶される所定の
接尾辞のリストの一例である。

接尾辞処理規則にはまたワード長Ｎが接尾辞を含めて少
くとも３文字でなければならないことが含まれる。

接尾辞前処理サブルーチンは所与の接尾辞のそれぞれを
入力ワードに対して予備チェックしその長さＮが必要な
文字数に接尾辞の文字数を加えたものを含むのに十分か
否かを判断する。

この文字チェックの結果に基き接尾辞サブルーチンは語
尾サブルーチンと同様なルーチンに分岐する。

アポストロフィおよび′″Ｓ”以外の予め定められた接
尾辞のそれぞれを処理するサブルーチンは第６表に示さ
れている。

予め定められた接尾辞のそれぞれは接尾辞の除去に続く
語幹の語尾の再構成を規定する一組の規則と関連してい
る。

このような再構成規則は第７表に示されている。

語幹の語尾の再構成を実行するプログラム・サブルーチ
ンは第８表にリストされている。

なお、第７表において、各接尾辞のための規則は順次試
行されるものとする。

第２図１こは入力ワードの綴りの正しさを確認する動作
の背景にある語幹処理アルゴリズムが示されでいる。

第９表は入力ワードが削除されるべき接頭辞を含んでい
るか否かを判断するために入力ワードのテストを制御す
る主語幹処理サブルーチンを示す。

この語幹サブルーチンは接頭辞および接頭辞を除去する
処理ルーチンを介して入力ワードの４つの可能なパスを
与える。

プログラム・ルーチンは複数形を除去する別個のパスを
与えるが、動作を簡単なものにするために複数形は第２
図の流れ線図の通常の接尾辞として取扱われる。

入力ワード２０は該ワードが接尾辞を含むか否かを判断
するために第４表に示された接尾辞前処理サブルーチン
の制御の下１こ演算処理装置１０によってブロック２２
において試験される。

接尾辞前処理サブルーチンは第９表の主語幹処理ルーチ
ンの制御の下にＣａ５ｅｌの処理の一部としで分岐され
る。

接尾辞が第５表の予め定められた接尾辞の１つと同じで
あることが判明すると、この接尾辞は第６表の適当なサ
ブルーチンの制御の下１こブロック２４において除去さ
れる。

接尾辞が除去可能ならば、語尾は第８表に示されたプロ
グラム・サブルーチンの′制御の下に第７表１こ示され
た再構成規則を使用して再構成される。

そして、接尾辞が処理されたことを示すためにブロック
２６１こおいてフラグＦ１がセットされる。

接尾辞の処理に続いであるいは接尾辞が存在しないと判
断されると、結合点２に分岐され、入力ワードが接頭辞
を含んでいるか否かを判断するためにブロック２８１こ
おいて試験される。

接頭辞前処理サブルーチンは入力ワードが法定接頭辞を
有するの１こ十分な数の文字を含んでいるか否かを判断
するために該入力ワードを試験する。

第３表に示された接頭辞チェック・サブルーチンは第１
表に示され且つ接頭辞／接尾辞メモリ１２に記憶された
接頭辞の１つがワードの始めの文字に一致しでいるか否
かを判断するための試験を行い、一致している場合、ブ
ロック３０においで接頭辞文字を除去するためにワード
の開始アドレスを調整する。

そして、接頭辞の処理が実行されたことを示すためにブ
ロック３２においてフラグＦ２がセットされる。

接頭辞の処理に続いであるいはワード中１こ接頭辞の存
在が検出されなかった場合、入力ワードはブロック３４
において辞書メモＩ７１２Ａの内容と比較される。

上述した接頭辞処理および接尾辞処理の間、所定の接頭
辞および接頭辞が入力ワードから除去される。

辞書メモＩＪ１２Ａは語幹のみ、すなわち接頭辞および
接尾辞を有しないワードのみを記憶する。

これにより同じ語が複合されて形成される語を記憶する
必要がなくなるので辞書を記憶するの１と必要な容量を
小さくすることができる。

辞書メモリに記憶されるワードは各文字１こついて一定
数Ｑビットを有するバイトによっであるいは例えばラン
・レングス・コード化法またはハフマン・コード化法に
よってデータ圧縮された形で示すことができるが、本発
明の好ましい実施例では、ワードは米国特許第３９９５
２５４号に開示されたようなベクトル表示の形で辞書メ
モリに記憶される。

入力ワードが辞書メモＩＪ１２Ａの入力に一致すると、
演算処理装置１０から出力レジスタ１８に信号が出力さ
れ、入力ワードが正しく綴られでいることが表示される
。

入力ワードを辞書メモリの内容に一致させる試みに続い
て次のことが行われる。

すなわち、一致していなければ、フラグＦ１およびＦ２
をセットするか否かの判断のための検査がブロック３８
において行われる。

フラグＦ１およびＦ３の双方がセットされると、ブロッ
ク４０において、除去された接頭辞が入力ワードに元ど
おり付加される。

元どおりに接頭辞が付加された入力ワードはブロック４
２においで辞書メモリの内容と比較される。

ブロック４２において入力ワードが辞書メモリ中で発見
されると、結合点４を介し、てこのことを表示するため
１こレジスタ１８から信号が発生する。

辞書メモリ１２Ａ中１こワードが発見されないと、ブロ
ック４４１こおいて再び接尾辞が除去され、ブロック４
６において除去された接尾辞が元どおり付加される。

そして、現在接尾辞を有するが接頭辞を有しない入力ワ
ードがブロック４８においで辞書メモ１７１２Ａの内容
と比較される。

両者が一致していれば、前述のように出力レジスタ１８
から信号が発生する。

一致していなければ、すなわち入力ワードが接頭辞また
は接尾辞のみを有しでいれば、ＦｌまたはＦ２をセット
するか否かを判断するためブロック５０においてチェッ
クがなされる。

どちらの場合１こおいても、接尾辞が元どおり付加され
た後ブロック４７においてＦ１６）クリアされるので
ＦｌまたはＦ２のみがセットされる。

ブロック４０乃至４８の順で処理が行われれば、Ｆ２の
みがセットされブロック５２において接頭辞が元どおり
付加される。

ブロック５２においで接頭辞が元どおり付加されるとブ
ロック５４においで接頭辞および接尾辞を含むワード全
体が辞書メモＩＪ１２Ａ内に存在するか否かを判断
すをための試験が行われる。

ワードが辞書メモリ１２Ａの入力と一致すると、一致を
示す信号がレジスタ１８に出力される。

ブロック５０がブロック３８から分岐されると、ブロッ
ク５０においてＦｌまたはＦ２のみがセットされたこと
が表示される。

ブロック５２１こおいて適当な接頭辞または接尾辞が元
どおり付加され、辞書メモ１月２人の内容がブロック５
４において試験される。

ブロック５０においでフラグＦ１だけでなくＦ２もセッ
トされないかあるいはブロック５４における試験の結果
が否定的であれば、辞書メモ１月２Ａ中にワードが発見
されないことすなわちワードが正しく綴られていないこ
とがプロセッサ１０によって出力レジスタ１８に表示さ
れる。

入力ワードに接頭辞および／または接尾辞を元どおり付
加するのは、ワードが適当なものであると確認されなか
った後ワードの開始アドレスおよび終了アドレスを再調
整するか、あるいは一方が無修正ワードを含む２つのレ
ジスタの内容を維持することによって行われる。

第９表に示された主語幹処理ルーチンは、入力ワードが
正しく綴られていることを確認する過程において第２図
のフローチャートに示されるように接頭辞と接尾辞の組
合せを使用してパス１乃至４のそれぞれを実行する。

以上、特定の電子計算機命令セットを参照し且つ予め定
められた接頭辞および接尾辞に関して本発明を説明した
が、他の電子計算機言語を使用しでも本発明を実施する
ことができるとともに、本発明の範囲を逸脱することな
く接頭辞および接尾辞のリストを修正できることは当業
者には明らかであろう。

また、上述の好ましい実施例は本発明を英語に適用した
ものであるが、同様に、本発明は他の多数の言語１こ適
用し得る。

さらに、上記の好ましい実施例は汎用プロセッサを制（
財）するためのいくつかのプログラムを使用するもので
あるが、本発明は同じ機能を実行するマイクロコードを
使用する特別世途のプロセッサを使用しても実施するこ
とができる。

【図面の簡単な説明】

第１図はテキスト処理装置のいくつかの構成要素を示す
ブロック図、第２図は本発明による語幹処理装置の動作
を示す流れ線図である。１０・・・演算処理装置、１２・・・接頭辞／接尾辞メ
モリ、１２Ａ−・・辞書メモリ、１４・・・命令メモリ
、１６・・・入力レジスタ、１８・・・出力レジスタ。

Claims

【特許請求の範囲】１所定のデータ・セグメントの語幹の組を記憶する辞
書メモリと、所定の接頭辞データ・セグメントの組及び／又は所定の
接尾辞データ・セグメントの組を記憶する接頭辞・接尾
辞メモリと、入力データ・セグメントを受取る入力レジスタと、プロセッサと、前記プロセッサの動作を制御する所定の複数の命令を記
憶する命令メモリと、を具備し、前記命令メモリに記憶された所定の複数の命令に応じて
、前記プロセッサが前記入力レジスタに記憶された入力
データ・セグメントの前頭部及び／又は後尾部と前記接
頭辞・接尾辞メモリに記憶された接頭辞及び／又は接尾
辞とを比較し、両者が一致したときに前頭部及び／又は
後尾部が削除された入力データ・セグメントを前記辞書
メモリに記憶された語幹と比較し、両者が不一致のとき
にエラー検出信号を発生することを特徴とする入力デー
タのエラー検出装置。