JPS5840788B2 - 入力デ−タのエラ−検出装置 - Google Patents
入力デ−タのエラ−検出装置Info
- Publication number
- JPS5840788B2 JPS5840788B2 JP54164879A JP16487979A JPS5840788B2 JP S5840788 B2 JPS5840788 B2 JP S5840788B2 JP 54164879 A JP54164879 A JP 54164879A JP 16487979 A JP16487979 A JP 16487979A JP S5840788 B2 JPS5840788 B2 JP S5840788B2
- Authority
- JP
- Japan
- Prior art keywords
- prefix
- word
- suffix
- memory
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
- Input From Keyboards Or The Like (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の詳細な説明】
本発明はテキスト・プロセシングに係り、特にテキスト
・ワードの辞書を記憶するのに必要な記憶容量が小さく
てよい入力データのエラー検出装。
・ワードの辞書を記憶するのに必要な記憶容量が小さく
てよい入力データのエラー検出装。
置。
実用的な自動綴り確認装置すなわちハイフン付は装置を
実現する上において、辞書記憶ファイルの最大人力数は
動作効率およびコストの両面において装置の実用性に影
警を与える重要なファクタである。
実現する上において、辞書記憶ファイルの最大人力数は
動作効率およびコストの両面において装置の実用性に影
警を与える重要なファクタである。
従来、記憶ファイルの容量を小さくするために種々の方
法がとられてきた。
法がとられてきた。
第1の方法は、現在使用中でないあるいは最も使用され
ない記憶ファイルの人力を無視するものである。
ない記憶ファイルの人力を無視するものである。
従来のファイルの容量を小さくする第2の方法は、一連
の同一文字を識別子と計数値に置換することにより文字
および記号をラン・レングス・コード化してファイル中
のデータを圧縮するものである。
の同一文字を識別子と計数値に置換することにより文字
および記号をラン・レングス・コード化してファイル中
のデータを圧縮するものである。
第3の方法は、例えば固定バイト・コードをハフマン・
コード(Hufman code)に置換するとむ)つ
たように−散に使用されているコードをより効率的なコ
ードに置換することにより、より頻繁に発生する文字を
より少いビットで表示するものである。
コード(Hufman code)に置換するとむ)つ
たように−散に使用されているコードをより効率的なコ
ードに置換することにより、より頻繁に発生する文字を
より少いビットで表示するものである。
この方法は同様な発生特性を有する種々の文字の組を組
合せることによって改良し得る。
合せることによって改良し得る。
第4の方法は、辞書ファイル中の各ワードを大きさと独
自の角度を有するベクトルに置換し、同じ大きさは対阜
する角度によってラン・レングスコード化される。
自の角度を有するベクトルに置換し、同じ大きさは対阜
する角度によってラン・レングスコード化される。
この技術によるファイル小容量化の理論的背景は、ワー
ドの大きさおよび角度表示を記憶することは平均的長さ
のワードの文字を記憶することに比較してわずかな記憶
スペースしか必要としないことにある。
ドの大きさおよび角度表示を記憶することは平均的長さ
のワードの文字を記憶することに比較してわずかな記憶
スペースしか必要としないことにある。
ベクトルの大きさをラン・レングス・コード化すること
によりこの技術はさらに改良される。
によりこの技術はさらに改良される。
しかしながら、ワード・レスト・ファイルの容量を大き
くする最大の辞書内容要素は、基礎ワードに接頭辞およ
び接尾辞が付加されて形成される多くの文字にある。
くする最大の辞書内容要素は、基礎ワードに接頭辞およ
び接尾辞が付加されて形成される多くの文字にある。
従来、この問題は取扱われていなかった。
自動的な綴り確認およびハイフン付けのための辞書ファ
イルにおけるデータ圧縮を改良するために、本発明は、
ワードから接頭辞および接尾辞を除去し各ワードの独自
の基礎ワードすなわち語幹のみを記憶させるものである
。
イルにおけるデータ圧縮を改良するために、本発明は、
ワードから接頭辞および接尾辞を除去し各ワードの独自
の基礎ワードすなわち語幹のみを記憶させるものである
。
本発明は、ラン・レングス・コード化法、ハフマン・コ
ード化法およびベクトル表示法を含む公知の記憶容量減
少技術を改良するのに有益である。
ード化法およびベクトル表示法を含む公知の記憶容量減
少技術を改良するのに有益である。
それは、本発明が必要なファイル入力数を減少させるの
に対し、他の技術は各人力の記憶スペースを減少させる
ものだからである。
に対し、他の技術は各人力の記憶スペースを減少させる
ものだからである。
語幹処理装置は、辞書ファイルがコンパイルされる組込
み機能と、辞書ファイルがアクセスされる検索機能を有
する。
み機能と、辞書ファイルがアクセスされる検索機能を有
する。
両機能が実行される際ともに所定の接頭辞および接尾辞
が使用される。
が使用される。
リスト中の各接頭辞および接尾辞は、これらが探索され
るテキスト状態に応じてこれらを監視する一組のコード
化された規則と関連付けられる。
るテキスト状態に応じてこれらを監視する一組のコード
化された規則と関連付けられる。
以下、添付図面を参照して本発明の好ましい実施例につ
いて説明する。
いて説明する。
第1図に示されたテキスト処理装置は、命令を解読し且
つ実行し得る汎用の演算処理装置すなわちCPUI O
を具備している。
つ実行し得る汎用の演算処理装置すなわちCPUI O
を具備している。
演算処理装置10は母線13を介して命令メモリ14と
2方向通信を行うようになっている。
2方向通信を行うようになっている。
命令メモリ14は演算処理装置10の動作を制御する本
発明に関連した命令を記憶している。
発明に関連した命令を記憶している。
また、演算処理装置10は母線11を介してメモリ12
と2方向通信を行うようになっている。
と2方向通信を行うようになっている。
メモリ12は命令メモリ14に記憶された命令に関連す
る所定の接頭辞および接尾辞のリストを記憶している。
る所定の接頭辞および接尾辞のリストを記憶している。
さらに、演算処理装置10は母線11Aを介して辞書メ
モリ12Aと2方向通信を行うようになっている。
モリ12Aと2方向通信を行うようになっている。
辞書メモ1J12Aは所定の辞書ワードの基礎ワードす
なわち語幹を記憶している。
なわち語幹を記憶している。
命令メモリ14、接頭辞/接尾辞用メモリ12、および
辞書メモリ12Aはすべてリード・オンリ・メモリまた
はランダム・アクセス・メモリによって構成し得る。
辞書メモリ12Aはすべてリード・オンリ・メモリまた
はランダム・アクセス・メモリによって構成し得る。
入力レジスタ16はデータ源から母線17を介してテキ
スト・ワードを受ける。
スト・ワードを受ける。
データ源はキーボード、磁気テープ読取装置、磁気カー
ド読取装置、およびディスク°ファイル等を含む種々の
入力装置によって構成し得る。
ド読取装置、およびディスク°ファイル等を含む種々の
入力装置によって構成し得る。
テキスト・ワードは命令メモリ14に記憶された命令に
従って処理されるために母線15を介してレジスタ16
によって演算処理装置10に入力される。
従って処理されるために母線15を介してレジスタ16
によって演算処理装置10に入力される。
出力レジスタ18は人力レジスタ16の内容について実
行された処理動作の結果を示す信号を演算処理装置10
から母線9を介して受ける。
行された処理動作の結果を示す信号を演算処理装置10
から母線9を介して受ける。
出力レジスタ18に記憶された信号はこの信号を必要と
する装置が母線19を介して取出し得るようになってい
る。
する装置が母線19を介して取出し得るようになってい
る。
この信号を必要とする装置には、表示されるべきワード
を光によって際立たせる手段を有する表示装置、および
印刷されるべきワードの始点に印刷要素を再位置づけす
るかあるいはベルを鳴らす手段を有するプリンタ等が含
まれる。
を光によって際立たせる手段を有する表示装置、および
印刷されるべきワードの始点に印刷要素を再位置づけす
るかあるいはベルを鳴らす手段を有するプリンタ等が含
まれる。
本発明の好ましい実施例は、ワードからすべての所定の
接頭辞および接尾辞を切り拾てることによって辞書メモ
リ12Aに記憶されるべきテキスト・ワードの辞書を発
生するために第1図のテキスト処理装置を制御する1組
の命令すなわちプログラムを有する。
接頭辞および接尾辞を切り拾てることによって辞書メモ
リ12Aに記憶されるべきテキスト・ワードの辞書を発
生するために第1図のテキスト処理装置を制御する1組
の命令すなわちプログラムを有する。
発生されたテキスト・ワードの辞書は、入力打鍵のよう
な通常のワード・プロセシング動作の間入力レジスタ1
6に入力されるワードの綴りが正しいか否か確認するた
めにアクセスされる。
な通常のワード・プロセシング動作の間入力レジスタ1
6に入力されるワードの綴りが正しいか否か確認するた
めにアクセスされる。
また、接頭辞と語幹との連結位置および語幹と接尾辞と
の連結位置に潜在的ハイフン断絶点が発生される。
の連結位置に潜在的ハイフン断絶点が発生される。
人力ワードは辞書メモリ12Aの内容と比較される前に
所定の接頭辞および接尾辞を除去するために本発明の命
令の制御の下に演算処理装置10によって処理される。
所定の接頭辞および接尾辞を除去するために本発明の命
令の制御の下に演算処理装置10によって処理される。
辞書メモリをアクセスするためのプログラムは辞書メモ
リに記憶される1組のテキスト・ワードを発生するプロ
グラムと同じ規制を含んでいなければならない。
リに記憶される1組のテキスト・ワードを発生するプロ
グラムと同じ規制を含んでいなければならない。
次に、人力レジスタ16に人力されるワードの綴りが正
しいか否かを自動的に確認する動作の背景動作の規則に
ついて説明する。
しいか否かを自動的に確認する動作の背景動作の規則に
ついて説明する。
予め定められた接頭辞が第1表に示されている。
このリストはすべての接頭辞を含むものではなく、はん
の−例を示しただけである。
の−例を示しただけである。
接頭辞処理において第1に要求されることは、短い接頭
辞と同じ文字を含む長い接頭辞がはじめに入力されたワ
ードに匹敵する程度に長さが短縮されるように接頭辞リ
ストが処理されることである。
辞と同じ文字を含む長い接頭辞がはじめに入力されたワ
ードに匹敵する程度に長さが短縮されるように接頭辞リ
ストが処理されることである。
例えば、1nter”は前に入力されたワード”in”
と匹敵する程度の長さとされなければならない。
と匹敵する程度の長さとされなければならない。
接頭辞処理において第2に要求されることは、入力ワー
ドが接頭辞を除去した状態で基礎ワードすなわち語幹の
みとなり最小の文字数Nを有することである。
ドが接頭辞を除去した状態で基礎ワードすなわち語幹の
みとなり最小の文字数Nを有することである。
好ましい実施例において定められた最小ワード長Nは3
文字である そして、入力ワードが接頭辞処理のための
最小の要求を満すか否かを判断するために初期チェック
が行われる。
文字である そして、入力ワードが接頭辞処理のための
最小の要求を満すか否かを判断するために初期チェック
が行われる。
第1表において最も短い接頭辞の文字数Pは2である。
したがって、ワードは接頭辞処理のための初期テストに
合格するためには少くとも(N+P)すなわち5文字の
長さを有しなければならない。
合格するためには少くとも(N+P)すなわち5文字の
長さを有しなければならない。
本発明の接頭辞処理ルーチンの好ましい実施例において
第3に要求されることは、入力ワードの第1文字がアル
ファベット文字であることである。
第3に要求されることは、入力ワードの第1文字がアル
ファベット文字であることである。
ワードの第1文字がアルファベット文字でなければ、そ
のワードはフラグによって表示され、接頭辞処理規則の
下では処理されることはない。
のワードはフラグによって表示され、接頭辞処理規則の
下では処理されることはない。
この初期接頭辞前処理は第2表に示されたプログラムル
ーチンによって実行される。
ーチンによって実行される。
人力ワードがアルファベット文字で始まるとともに要求
される最小の文字数を有するならば、人力ワードは該ワ
ードの長さより長くなく(P+N)の長さを有する接頭
辞メモリ12に記憶された接頭辞と比較される。
される最小の文字数を有するならば、人力ワードは該ワ
ードの長さより長くなく(P+N)の長さを有する接頭
辞メモリ12に記憶された接頭辞と比較される。
例えば、入力ワードが6つの文字を含んでいれば、3文
字あるいはそれより少い文字数を有する接頭辞が入力ワ
ードと比較される。
字あるいはそれより少い文字数を有する接頭辞が入力ワ
ードと比較される。
第3表は接頭辞メモリ12中の接頭辞を入力レジスタ1
6中の入力ワードと比較する命令メモリ14からのプロ
グラム・ルーチンを示す。
6中の入力ワードと比較する命令メモリ14からのプロ
グラム・ルーチンを示す。
比較対象である接頭辞メモリ12中の接頭辞が入力ワー
ドの始めの文字に一致すると、入力ワードの開始アドレ
スが修正され、除去された接頭辞およびその長さがワー
ドのハイフン点として記憶される。
ドの始めの文字に一致すると、入力ワードの開始アドレ
スが修正され、除去された接頭辞およびその長さがワー
ドのハイフン点として記憶される。
これで接頭辞処理が完了する。命令メモリ14はまた演
算処理装置10の制御の下に入力レジスタ16に入力さ
れたワードから接頭辞を除去するルーチンを含んでいる
。
算処理装置10の制御の下に入力レジスタ16に入力さ
れたワードから接頭辞を除去するルーチンを含んでいる
。
第4表は接頭辞前処理サブルーチンを示したプログラム
である。
である。
この接尾辞サブルーチンはアポストロフィおよびS”接
尾辞を処理し、第8表に示されたワード終点再構成サブ
ルーチンを呼出す。
尾辞を処理し、第8表に示されたワード終点再構成サブ
ルーチンを呼出す。
第5表は接頭辞/接尾辞メモリ12に記憶される所定の
接尾辞のリストの一例である。
接尾辞のリストの一例である。
接尾辞処理規則にはまたワード長Nが接尾辞を含めて少
くとも3文字でなければならないことが含まれる。
くとも3文字でなければならないことが含まれる。
接尾辞前処理サブルーチンは所与の接尾辞のそれぞれを
入力ワードに対して予備チェックしその長さNが必要な
文字数に接尾辞の文字数を加えたものを含むのに十分か
否かを判断する。
入力ワードに対して予備チェックしその長さNが必要な
文字数に接尾辞の文字数を加えたものを含むのに十分か
否かを判断する。
この文字チェックの結果に基き接尾辞サブルーチンは語
尾サブルーチンと同様なルーチンに分岐する。
尾サブルーチンと同様なルーチンに分岐する。
アポストロフィおよび′″S”以外の予め定められた接
尾辞のそれぞれを処理するサブルーチンは第6表に示さ
れている。
尾辞のそれぞれを処理するサブルーチンは第6表に示さ
れている。
予め定められた接尾辞のそれぞれは接尾辞の除去に続く
語幹の語尾の再構成を規定する一組の規則と関連してい
る。
語幹の語尾の再構成を規定する一組の規則と関連してい
る。
このような再構成規則は第7表に示されている。
語幹の語尾の再構成を実行するプログラム・サブルーチ
ンは第8表にリストされている。
ンは第8表にリストされている。
なお、第7表において、各接尾辞のための規則は順次試
行されるものとする。
行されるものとする。
第2図1こは入力ワードの綴りの正しさを確認する動作
の背景にある語幹処理アルゴリズムが示されでいる。
の背景にある語幹処理アルゴリズムが示されでいる。
第9表は入力ワードが削除されるべき接頭辞を含んでい
るか否かを判断するために入力ワードのテストを制御す
る主語幹処理サブルーチンを示す。
るか否かを判断するために入力ワードのテストを制御す
る主語幹処理サブルーチンを示す。
この語幹サブルーチンは接頭辞および接頭辞を除去する
処理ルーチンを介して入力ワードの4つの可能なパスを
与える。
処理ルーチンを介して入力ワードの4つの可能なパスを
与える。
プログラム・ルーチンは複数形を除去する別個のパスを
与えるが、動作を簡単なものにするために複数形は第2
図の流れ線図の通常の接尾辞として取扱われる。
与えるが、動作を簡単なものにするために複数形は第2
図の流れ線図の通常の接尾辞として取扱われる。
入力ワード20は該ワードが接尾辞を含むか否かを判断
するために第4表に示された接尾辞前処理サブルーチン
の制御の下1こ演算処理装置10によってブロック22
において試験される。
するために第4表に示された接尾辞前処理サブルーチン
の制御の下1こ演算処理装置10によってブロック22
において試験される。
接尾辞前処理サブルーチンは第9表の主語幹処理ルーチ
ンの制御の下にCa5elの処理の一部としで分岐され
る。
ンの制御の下にCa5elの処理の一部としで分岐され
る。
接尾辞が第5表の予め定められた接尾辞の1つと同じで
あることが判明すると、この接尾辞は第6表の適当なサ
ブルーチンの制御の下1こブロック24において除去さ
れる。
あることが判明すると、この接尾辞は第6表の適当なサ
ブルーチンの制御の下1こブロック24において除去さ
れる。
接尾辞が除去可能ならば、語尾は第8表に示されたプロ
グラム・サブルーチンの′制御の下に第7表1こ示され
た再構成規則を使用して再構成される。
グラム・サブルーチンの′制御の下に第7表1こ示され
た再構成規則を使用して再構成される。
そして、接尾辞が処理されたことを示すためにブロック
261こおいてフラグF1がセットされる。
261こおいてフラグF1がセットされる。
接尾辞の処理に続いであるいは接尾辞が存在しないと判
断されると、結合点2に分岐され、入力ワードが接頭辞
を含んでいるか否かを判断するためにブロック281こ
おいて試験される。
断されると、結合点2に分岐され、入力ワードが接頭辞
を含んでいるか否かを判断するためにブロック281こ
おいて試験される。
接頭辞前処理サブルーチンは入力ワードが法定接頭辞を
有するの1こ十分な数の文字を含んでいるか否かを判断
するために該入力ワードを試験する。
有するの1こ十分な数の文字を含んでいるか否かを判断
するために該入力ワードを試験する。
第3表に示された接頭辞チェック・サブルーチンは第1
表に示され且つ接頭辞/接尾辞メモリ12に記憶された
接頭辞の1つがワードの始めの文字に一致しでいるか否
かを判断するための試験を行い、一致している場合、ブ
ロック30においで接頭辞文字を除去するためにワード
の開始アドレスを調整する。
表に示され且つ接頭辞/接尾辞メモリ12に記憶された
接頭辞の1つがワードの始めの文字に一致しでいるか否
かを判断するための試験を行い、一致している場合、ブ
ロック30においで接頭辞文字を除去するためにワード
の開始アドレスを調整する。
そして、接頭辞の処理が実行されたことを示すためにブ
ロック32においてフラグF2がセットされる。
ロック32においてフラグF2がセットされる。
接頭辞の処理に続いであるいはワード中1こ接頭辞の存
在が検出されなかった場合、入力ワードはブロック34
において辞書メモI712 Aの内容と比較される。
在が検出されなかった場合、入力ワードはブロック34
において辞書メモI712 Aの内容と比較される。
上述した接頭辞処理および接尾辞処理の間、所定の接頭
辞および接頭辞が入力ワードから除去される。
辞および接頭辞が入力ワードから除去される。
辞書メモIJ12Aは語幹のみ、すなわち接頭辞および
接尾辞を有しないワードのみを記憶する。
接尾辞を有しないワードのみを記憶する。
これにより同じ語が複合されて形成される語を記憶する
必要がなくなるので辞書を記憶するの1と必要な容量を
小さくすることができる。
必要がなくなるので辞書を記憶するの1と必要な容量を
小さくすることができる。
辞書メモリに記憶されるワードは各文字1こついて一定
数Qビットを有するバイトによっであるいは例えばラン
・レングス・コード化法またはハフマン・コード化法に
よってデータ圧縮された形で示すことができるが、本発
明の好ましい実施例では、ワードは米国特許第3995
254号に開示されたようなベクトル表示の形で辞書メ
モリに記憶される。
数Qビットを有するバイトによっであるいは例えばラン
・レングス・コード化法またはハフマン・コード化法に
よってデータ圧縮された形で示すことができるが、本発
明の好ましい実施例では、ワードは米国特許第3995
254号に開示されたようなベクトル表示の形で辞書メ
モリに記憶される。
入力ワードが辞書メモIJ12Aの入力に一致すると、
演算処理装置10から出力レジスタ18に信号が出力さ
れ、入力ワードが正しく綴られでいることが表示される
。
演算処理装置10から出力レジスタ18に信号が出力さ
れ、入力ワードが正しく綴られでいることが表示される
。
入力ワードを辞書メモリの内容に一致させる試みに続い
て次のことが行われる。
て次のことが行われる。
すなわち、一致していなければ、フラグF1およびF2
をセットするか否かの判断のための検査がブロック38
において行われる。
をセットするか否かの判断のための検査がブロック38
において行われる。
フラグF1およびF3の双方がセットされると、ブロッ
ク40において、除去された接頭辞が入力ワードに元ど
おり付加される。
ク40において、除去された接頭辞が入力ワードに元ど
おり付加される。
元どおりに接頭辞が付加された入力ワードはブロック4
2においで辞書メモリの内容と比較される。
2においで辞書メモリの内容と比較される。
ブロック42において入力ワードが辞書メモリ中で発見
されると、結合点4を介し、てこのことを表示するため
1こレジスタ18から信号が発生する。
されると、結合点4を介し、てこのことを表示するため
1こレジスタ18から信号が発生する。
辞書メモリ12A中1こワードが発見されないと、ブロ
ック441こおいて再び接尾辞が除去され、ブロック4
6において除去された接尾辞が元どおり付加される。
ック441こおいて再び接尾辞が除去され、ブロック4
6において除去された接尾辞が元どおり付加される。
そして、現在接尾辞を有するが接頭辞を有しない入力ワ
ードがブロック48においで辞書メモ1712Aの内容
と比較される。
ードがブロック48においで辞書メモ1712Aの内容
と比較される。
両者が一致していれば、前述のように出力レジスタ18
から信号が発生する。
から信号が発生する。
一致していなければ、すなわち入力ワードが接頭辞また
は接尾辞のみを有しでいれば、FlまたはF2をセット
するか否かを判断するためブロック50においてチェッ
クがなされる。
は接尾辞のみを有しでいれば、FlまたはF2をセット
するか否かを判断するためブロック50においてチェッ
クがなされる。
どちらの場合1こおいても、接尾辞が元どおり付加され
た後ブロック47においてF 16)クリアされるので
FlまたはF2のみがセットされる。
た後ブロック47においてF 16)クリアされるので
FlまたはF2のみがセットされる。
ブロック40乃至48の順で処理が行われれば、F2の
みがセットされブロック52において接頭辞が元どおり
付加される。
みがセットされブロック52において接頭辞が元どおり
付加される。
ブロック52においで接頭辞が元どおり付加されるとブ
ロック54においで接頭辞および接尾辞を含むワード全
体が辞書メモIJ 12 A内に存在するか否かを判断
すをための試験が行われる。
ロック54においで接頭辞および接尾辞を含むワード全
体が辞書メモIJ 12 A内に存在するか否かを判断
すをための試験が行われる。
ワードが辞書メモリ12Aの入力と一致すると、一致を
示す信号がレジスタ18に出力される。
示す信号がレジスタ18に出力される。
ブロック50がブロック38から分岐されると、ブロッ
ク50においてFlまたはF2のみがセットされたこと
が表示される。
ク50においてFlまたはF2のみがセットされたこと
が表示される。
ブロック521こおいて適当な接頭辞または接尾辞が元
どおり付加され、辞書メモ1月2人の内容がブロック5
4において試験される。
どおり付加され、辞書メモ1月2人の内容がブロック5
4において試験される。
ブロック50においでフラグF1だけでなくF2もセッ
トされないかあるいはブロック54における試験の結果
が否定的であれば、辞書メモ1月2A中にワードが発見
されないことすなわちワードが正しく綴られていないこ
とがプロセッサ10によって出力レジスタ18に表示さ
れる。
トされないかあるいはブロック54における試験の結果
が否定的であれば、辞書メモ1月2A中にワードが発見
されないことすなわちワードが正しく綴られていないこ
とがプロセッサ10によって出力レジスタ18に表示さ
れる。
入力ワードに接頭辞および/または接尾辞を元どおり付
加するのは、ワードが適当なものであると確認されなか
った後ワードの開始アドレスおよび終了アドレスを再調
整するか、あるいは一方が無修正ワードを含む2つのレ
ジスタの内容を維持することによって行われる。
加するのは、ワードが適当なものであると確認されなか
った後ワードの開始アドレスおよび終了アドレスを再調
整するか、あるいは一方が無修正ワードを含む2つのレ
ジスタの内容を維持することによって行われる。
第9表に示された主語幹処理ルーチンは、入力ワードが
正しく綴られていることを確認する過程において第2図
のフローチャートに示されるように接頭辞と接尾辞の組
合せを使用してパス1乃至4のそれぞれを実行する。
正しく綴られていることを確認する過程において第2図
のフローチャートに示されるように接頭辞と接尾辞の組
合せを使用してパス1乃至4のそれぞれを実行する。
以上、特定の電子計算機命令セットを参照し且つ予め定
められた接頭辞および接尾辞に関して本発明を説明した
が、他の電子計算機言語を使用しでも本発明を実施する
ことができるとともに、本発明の範囲を逸脱することな
く接頭辞および接尾辞のリストを修正できることは当業
者には明らかであろう。
められた接頭辞および接尾辞に関して本発明を説明した
が、他の電子計算機言語を使用しでも本発明を実施する
ことができるとともに、本発明の範囲を逸脱することな
く接頭辞および接尾辞のリストを修正できることは当業
者には明らかであろう。
また、上述の好ましい実施例は本発明を英語に適用した
ものであるが、同様に、本発明は他の多数の言語1こ適
用し得る。
ものであるが、同様に、本発明は他の多数の言語1こ適
用し得る。
さらに、上記の好ましい実施例は汎用プロセッサを制(
財)するためのいくつかのプログラムを使用するもので
あるが、本発明は同じ機能を実行するマイクロコードを
使用する特別世途のプロセッサを使用しても実施するこ
とができる。
財)するためのいくつかのプログラムを使用するもので
あるが、本発明は同じ機能を実行するマイクロコードを
使用する特別世途のプロセッサを使用しても実施するこ
とができる。
第1図はテキスト処理装置のいくつかの構成要素を示す
ブロック図、第2図は本発明による語幹処理装置の動作
を示す流れ線図である。 10・・・演算処理装置、12・・・接頭辞/接尾辞メ
モリ、12A−・・辞書メモリ、14・・・命令メモリ
、16・・・入力レジスタ、18・・・出力レジスタ。
ブロック図、第2図は本発明による語幹処理装置の動作
を示す流れ線図である。 10・・・演算処理装置、12・・・接頭辞/接尾辞メ
モリ、12A−・・辞書メモリ、14・・・命令メモリ
、16・・・入力レジスタ、18・・・出力レジスタ。
Claims (1)
- 【特許請求の範囲】 1 所定のデータ・セグメントの語幹の組を記憶する辞
書メモリと、 所定の接頭辞データ・セグメントの組及び/又は所定の
接尾辞データ・セグメントの組を記憶する接頭辞・接尾
辞メモリと、 入力データ・セグメントを受取る入力レジスタと、 プロセッサと、 前記プロセッサの動作を制御する所定の複数の命令を記
憶する命令メモリと、 を具備し、 前記命令メモリに記憶された所定の複数の命令に応じて
、前記プロセッサが前記入力レジスタに記憶された入力
データ・セグメントの前頭部及び/又は後尾部と前記接
頭辞・接尾辞メモリに記憶された接頭辞及び/又は接尾
辞とを比較し、両者が一致したときに前頭部及び/又は
後尾部が削除された入力データ・セグメントを前記辞書
メモリに記憶された語幹と比較し、両者が不一致のとき
にエラー検出信号を発生することを特徴とする入力デー
タのエラー検出装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/001,123 US4342085A (en) | 1979-01-05 | 1979-01-05 | Stem processing for data reduction in a dictionary storage file |
US1123--5B6913 | 1979-01-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5592967A JPS5592967A (en) | 1980-07-14 |
JPS5840788B2 true JPS5840788B2 (ja) | 1983-09-07 |
Family
ID=21694487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP54164879A Expired JPS5840788B2 (ja) | 1979-01-05 | 1979-12-20 | 入力デ−タのエラ−検出装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US4342085A (ja) |
JP (1) | JPS5840788B2 (ja) |
ES (1) | ES487455A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0217386Y2 (ja) * | 1985-01-17 | 1990-05-15 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59865B2 (ja) * | 1979-09-13 | 1984-01-09 | シャープ株式会社 | 電子式翻訳装置 |
US4632578A (en) * | 1981-04-03 | 1986-12-30 | Digitext, Inc. | Computerized printing system |
US4499553A (en) * | 1981-09-30 | 1985-02-12 | Dickinson Robert V | Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words |
US4597057A (en) * | 1981-12-31 | 1986-06-24 | System Development Corporation | System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles |
US4574363A (en) * | 1982-07-13 | 1986-03-04 | International Business Machines Corporation | Mixed mode enhanced resolution hyphenation function for a text processing system |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
US4580241A (en) * | 1983-02-18 | 1986-04-01 | Houghton Mifflin Company | Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons |
US4771401A (en) * | 1983-02-18 | 1988-09-13 | Houghton Mifflin Company | Apparatus and method for linguistic expression processing |
US4692042A (en) * | 1983-06-13 | 1987-09-08 | Digitext, Inc. | Computerized printing system |
JPH0644264B2 (ja) * | 1983-12-23 | 1994-06-08 | シャープ株式会社 | 単語記憶方式 |
JPS60159970A (ja) * | 1984-01-30 | 1985-08-21 | Hitachi Ltd | 情報蓄積検索方式 |
US4701851A (en) * | 1984-10-24 | 1987-10-20 | International Business Machines Corporation | Compound word spelling verification |
US4672571A (en) * | 1984-10-24 | 1987-06-09 | International Business Machines Corporation | Compound word suitability for spelling verification |
EP0187454B1 (en) * | 1984-11-16 | 1990-05-23 | Canon Kabushiki Kaisha | Word processor |
US5675821A (en) * | 1984-11-16 | 1997-10-07 | Canon Kabushiki Kaisha | Document processing apparatus and method |
US4783758A (en) * | 1985-02-05 | 1988-11-08 | Houghton Mifflin Company | Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words |
JPS61267118A (ja) * | 1985-05-21 | 1986-11-26 | Sharp Corp | キ−入力確認用音声出力方式 |
US4807181A (en) * | 1986-06-02 | 1989-02-21 | Smith Corona Corporation | Dictionary memory with visual scanning from a selectable starting point |
US5206949A (en) * | 1986-09-19 | 1993-04-27 | Nancy P. Cochran | Database search and record retrieval system which continuously displays category names during scrolling and selection of individually displayed search terms |
US4879648A (en) * | 1986-09-19 | 1989-11-07 | Nancy P. Cochran | Search system which continuously displays search terms during scrolling and selections of individually displayed data sets |
US4829472A (en) * | 1986-10-20 | 1989-05-09 | Microlytics, Inc. | Spelling check module |
US4797855A (en) * | 1987-01-06 | 1989-01-10 | Smith Corona Corporation | Word processor having spelling corrector adaptive to operator error experience |
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
US4777617A (en) * | 1987-03-12 | 1988-10-11 | International Business Machines Corporation | Method for verifying spelling of compound words |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
DE3750135T2 (de) * | 1987-04-23 | 1994-12-08 | Oce Nederland Bv | Textverarbeitungssystem und -verfahren zur Prüfung des richtigen und folgerichtigen Gebrauchs von Einheiten und chemischen Formeln in einem Textverarbeitungssystem. |
US4994966A (en) * | 1988-03-31 | 1991-02-19 | Emerson & Stern Associates, Inc. | System and method for natural language parsing by initiating processing prior to entry of complete sentences |
US5251129A (en) * | 1990-08-21 | 1993-10-05 | General Electric Company | Method for automated morphological analysis of word structure |
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
WO1992014214A1 (en) * | 1991-02-01 | 1992-08-20 | Wang Laboratories, Inc. | A text management system |
US5940624A (en) * | 1991-02-01 | 1999-08-17 | Wang Laboratories, Inc. | Text management system |
NL9101285A (nl) * | 1991-07-23 | 1993-02-16 | Oce Nederland Bv | Inrichting en werkwijze voor het bepalen van gegevens van samengestelde woorden. |
US5742834A (en) * | 1992-06-24 | 1998-04-21 | Canon Kabushiki Kaisha | Document processing apparatus using a synonym dictionary |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
CA2309499C (en) * | 1997-11-24 | 2007-06-19 | British Telecommunications Public Limited Company | Information management and retrieval |
US6092038A (en) * | 1998-02-05 | 2000-07-18 | International Business Machines Corporation | System and method for providing lossless compression of n-gram language models in a real-time decoder |
US6308149B1 (en) | 1998-12-16 | 2001-10-23 | Xerox Corporation | Grouping words with equivalent substrings by automatic clustering based on suffix relationships |
TW388826B (en) * | 1998-12-21 | 2000-05-01 | Inventec Corp | Quickly word-identifying method |
US6618697B1 (en) | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
US7080005B1 (en) * | 1999-07-19 | 2006-07-18 | Texas Instruments Incorporated | Compact text-to-phone pronunciation dictionary |
TWI269193B (en) * | 2004-10-01 | 2006-12-21 | Inventec Corp | Keyword sector-index data-searching method and it system |
US7761286B1 (en) * | 2005-04-29 | 2010-07-20 | The United States Of America As Represented By The Director, National Security Agency | Natural language database searching using morphological query term expansion |
EP1855210B1 (en) * | 2006-05-11 | 2018-01-03 | Dassault Systèmes | Spell checking |
US20080313545A1 (en) * | 2007-06-13 | 2008-12-18 | Microsoft Corporation | Systems and methods for providing desktop or application remoting to a web browser |
US8311795B2 (en) * | 2008-01-11 | 2012-11-13 | International Business Machines Corporation | String pattern conceptualization from detection of related concepts by analyzing substrings with common prefixes and suffixes |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3311893A (en) * | 1963-08-29 | 1967-03-28 | Sperry Rand Corp | Memory organization wherein only new data bits which are different from the old are recorded |
JPS5524134B2 (ja) * | 1974-11-15 | 1980-06-27 |
-
1979
- 1979-01-05 US US06/001,123 patent/US4342085A/en not_active Expired - Lifetime
- 1979-12-20 JP JP54164879A patent/JPS5840788B2/ja not_active Expired
-
1980
- 1980-01-04 ES ES487455A patent/ES487455A1/es not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0217386Y2 (ja) * | 1985-01-17 | 1990-05-15 |
Also Published As
Publication number | Publication date |
---|---|
US4342085A (en) | 1982-07-27 |
ES487455A1 (es) | 1980-09-16 |
JPS5592967A (en) | 1980-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS5840788B2 (ja) | 入力デ−タのエラ−検出装置 | |
US4773039A (en) | Information processing system for compaction and replacement of phrases | |
CA1153471A (en) | Alpha content match prescan method for automatic spelling error corrections | |
EP0268069B1 (en) | Method of forming a message file in a computer | |
JPH0525138B2 (ja) | ||
EP0054658A1 (en) | Automatic spelling checking and correction process in a text processing system | |
JPH01503181A (ja) | コンピュータ | |
JPH0546358A (ja) | テキストデータの圧縮方法 | |
JPH0546357A (ja) | テキストデータの圧縮方法および復元方法 | |
JPH0969785A (ja) | データ圧縮方法及びデータ圧縮装置 | |
JPS6382061A (ja) | デ−タ圧縮方式 | |
JP3105982B2 (ja) | ルビ付加機能処理装置及び処理方法 | |
CN111026554A (zh) | 一种XenServer系统物理内存分析方法及系统 | |
EP0042035A2 (en) | Method and apparatus for vectorizing text words in a text processing system | |
CN114416213A (zh) | 词向量文件加载方法、装置及存储介质 | |
EP0526054A2 (en) | Monitoring execution of a computer program to provide test coverage analysis | |
JPH0721798B2 (ja) | 言語処理装置 | |
JPH0159614B2 (ja) | ||
JP4439599B2 (ja) | 入力データ音声出力装置 | |
CN117235345A (zh) | 开放版式文档ofd搜索方法、装置及电子设备 | |
JPS635793B2 (ja) | ||
JPS61264472A (ja) | 文書作成装置 | |
JPH0368071A (ja) | 英単語検索装置 | |
JPH0371368A (ja) | 英単語検索装置 | |
JPH07129588A (ja) | パターン誘導型文書内容解析装置 |