JPH0916598A

JPH0916598A - エラー・パターンを用いた文字列修正システムおよび方法

Info

Publication number: JPH0916598A
Application number: JP7167676A
Authority: JP
Inventors: Emu Buitsusaa Eritsuku; エリック・エム・ヴィッサー
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-07-03
Filing date: 1995-07-03
Publication date: 1997-01-17
Also published as: US6023536A

Abstract

(57)【要約】【目的】形態素解析を行う情報処理システムにおい
て、入力文字列に含まれる誤りを効率よく修正し、対応
する認識結果の文字列を出力することを目的とする。【構成】入力モジュール２１から入力文字列が読み込
まれると、プロセッサ２０は、パーマネント・メモリ１
１内のエラー・パターン１３とエラー・コンディション
１４を参照しながら、辞書１２を検索する。エラー・パ
ターンには、入力文字列に含まれる可能性のあるエラー
の型が定義されており、入力文字がこれに適合すると、
誤りであると仮定として処理される。そして、プロセッ
サ２０は、入力文字をエラー・パターンから生成される
代替文字１９と置き換えて検索を続け、検索経路を表す
解析パス１７をテンポラリ・メモリ１５に格納する。検
索の結果、形態素が認識されると、そこに至るまでの解
析パスを形態素デリベーション１８として格納し、それ
が示す辞書の対応語を出力モジュール２２から出力す
る。エラー・パターンにより、特定の種類のエラーに限
定した修正を行うことができ、処理が効率化される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は形態素解析処理に係り、
入力された文字列（記号等を含むキャラクタ・ストリン
グ）を解析して、対応する認識結果の文字列を出力する
文字列修正システムとその方法に関する。

【０００２】

【従来の技術】入力文を単語単位に分割することを目的
とする形態素解析は、文書処理（あるいは自然言語処
理）における最も基本的なステップであり、近年の研究
課題となっている。従来の形態素解析においては、主と
して辞書検索に焦点が当てられている。例えば欧文処理
では、プロセッサは入力文の作成者がスペースや句読点
で区切った部分をそのまま単語として受け入れ、単に辞
書内で対応する単語を探している。このとき、近似法等
を用いてスペルエラーを修正することもある。

【０００３】しかしながら、一般の文字がそうであるよ
うにスペースや句読点もまた、挿入位置が誤っていた
り、入れ忘れがあったりする。また、中国語や日本語等
の言語ではスペースにより単語が区切られることはな
く、さらにドイツ語やオランダ語等の言語は辞書内の単
語をつなぎ合わせて新規の単語を創り出す大きな自由度
を持っている。このため、スペースや句読点が常に正し
い単語の境界を示しているという保証はない。

【０００４】もう１つの形態素解析法は、入力文を１文
字ずつ読み取り、辞書内の単語と１文字ずつ比較する方
法である。この方法によれば、最初から単語の境界を意
識することなく記号等を含む入力文字列を処理すること
ができる。ある位置までに読み取った文字列が辞書内の
単語に相当し、残りの入力文字を追加すると辞書内の単
語と一致しないとき、その位置が１つの単語の終わりで
あると判断される。

【０００５】このようなメカニズムは幾通りか考えられ
るが、概念的に最も簡単なものは、辞書全体をメモリに
格納しておき、入力単語に一致しない単語を順次破棄す
るメカニズムである。

【０００６】しかし、最も広く用いられている方法は、
辞書内の単語をＴＲＩＥテーブル（検索テーブル）と呼
ばれる多数のテーブルに編成し直して、これらのテーブ
ルの間に参照関係を設定する方法である。この場合、あ
るテーブルは辞書内の全ての単語の最初の文字を有する
ことになる。例えば、このテーブルの文字「ａ」のエン
トリは、「ａ」で始まる全ての単語の２番目の文字を有
するもう１つのテーブルをポイントする。この方法は、
ＴＲＩＥ法として広く知られている（Donald E. Knuth.
The Art of Computer Programming. Volume 3: Storin
g and Searching. Addison-Wesley Series in Computer
Science and Information Processing.Addison-Wesley
Company, Reading(Mass.), 1973.) 。

【０００７】図２０は、ＴＲＩＥ法における英語のＴＲ
ＩＥテーブルの例とそれらの関係を示している。これら
のＴＲＩＥテーブルにおいて、第１列の入力文字（inpu
t character ）は、単語の中でそれらのＴＲＩＥテーブ
ルが表す特定の位置の文字を表す。図２０のＴＲＩＥテ
ーブルは入力文字としてアルファベットのみを格納して
いるが、必ずしもこれに限られることはなく、数字や句
読点、あるいはスペース等も入力文字として用いられ
る。図２０（ａ）のＴＲＩＥテーブル“root”は、入力
文字として全ての単語の最初の文字、つまり全てのアル
ファベットを格納している最も上位のＴＲＩＥテーブル
である。

【０００８】第２列の辞書の対応語（dictionary word
）は、この位置までに読み取られた文字列が辞書のエ
ントリに対応するか否かを表す。図２０の例では、文字
列が辞書のエントリに対応するとき、そのエントリの品
詞名を辞書の対応語として格納している。例えば、“Ar
t ”、“N ”、“Prop. N ”、“Prep”は、それぞれ冠
詞、普通名詞、固有名詞、前置詞を表す。また、対応す
るエントリがないときは、空集合を表すシンボル“ 外
１ ”が格納される。

【０００９】

【外１】

【００１０】図２０（ｂ）に示すＴＲＩＥテーブル“r
-”の入力文字“a ”には、ラジウムの化学記号の“r
a”（N ）とエジプトの神の名前である“ra”（Prop. N
）の２つの辞書のエントリが対応している。

【００１１】第３列のＴＲＩＥテーブルリンク（TRIE t
able link ）は、第１列の入力文字を処理して到達する
位置に対応するＴＲＩＥテーブルの名称を表し、後続す
るＴＲＩＥテーブルとの接続関係を与えている。例え
ば、ＴＲＩＥテーブル“root”のＴＲＩＥテーブルリン
ク“r-”はＴＲＩＥテーブル“r-”を指し、ＴＲＩＥテ
ーブル“r-”のＴＲＩＥテーブルリンク“rd- ”は図２
０（ｃ）に示すＴＲＩＥテーブル“rd- ”を指し、ＴＲ
ＩＥテーブル“rd- ”のＴＲＩＥテーブルリンク“rd.
-”は図２０（ｄ）に示すＴＲＩＥテーブル“rd.-”を
指している。ＴＲＩＥテーブル“rd.-”のように、エン
トリを１つも持たないＴＲＩＥテーブルは、それ以上の
文字が続くような対応語が辞書のエントリにないことを
表す。

【００１２】図２１は、従来のＴＲＩＥ法による認識処
理のフローチャートである。以下、図２１を参照しなが
ら、文字列"Rd. "を例にとり認識処理を説明する。処理
が開始されると、まずＴＲＩＥテーブル“root”が読み
込まれ（ステップＳ１）、入力文字列の左端の文字“R
”が読み込まれて、入力ポインタが右へシフトする
（ステップＳ２）。次に、読み込まれた文字がＴＲＩＥ
テーブル“root”の入力文字のエントリにあるかどうか
検索され（ステップＳ３）、文字“R ”（“r ”）はＴ
ＲＩＥテーブル“root”にあるので、対応するＴＲＩＥ
テーブルリンクが指すＴＲＩＥテーブル“r-”が読み込
まれる（ステップＳ４）。

【００１３】次に、残りの文字列の最初の文字“d ”が
読み込まれ（ステップＳ２）、ＴＲＩＥテーブル“r-”
の中で対応するＴＲＩＥテーブルリンクが指すＴＲＩＥ
テーブル“rd- ”が読み込まれる（ステップＳ４）。さ
らに、文字“. ”が読み込まれ（ステップＳ２）、ＴＲ
ＩＥテーブル“rd- ”の中で対応するＴＲＩＥテーブル
リンクが指すＴＲＩＥテーブル“rd.-”が読み込まれる
（ステップＳ４）。

【００１４】ここでスペース“ ”が読み込まれるが
（ステップＳ２）、ＴＲＩＥテーブル“rd.-”は空なの
で対応するエントリがなく、この段階での対象文字列
“Rd. ”が辞書のエントリにあるかどうか検索される
（ステップＳ５）。文字列“Rd. ”は“Road”の略語で
あり辞書に登録されているので、単語として認識され
（ステップＳ６）、処理を終了する。

【００１５】ＴＲＩＥテーブル“rd.-”がエントリを持
たないのは、３文字の文字列“rd.”で始まってさらに
文字が続く単語が辞書に登録されていないからである。
ステップＳ５で辞書のエントリにないときは、読み込ま
れた文字列の最後の文字が１つずつ破棄され（ステップ
Ｓ７、Ｓ８）、残った対象文字列が辞書のエントリの１
つと一致したとき（ステップＳ５、ＹＥＳ）、単語とし
て認識される（ステップＳ６）。もし、すべての文字を
破棄しても辞書のエントリに一致しない場合は（ステッ
プＳ８、ＮＯ）、解析は失敗に終わる（ステップＳ
９）。

【００１６】例えば、“catch"とともに“catch 22”と
いう語がエントリとして辞書に登録されている場合、Ｔ
ＲＩＥテーブル“catch-”の入力文字のエントリには
“ ”（スペース）があるので、文字列“catch the do
g ”が入力されたとき、次の文字“t ”まで連続して読
み込まれる（ステップＳ２）。ところが、“t ”はＴＲ
ＩＥテーブル“catch-”のエントリにはなく（ステップ
Ｓ３、ＮＯ）、文字列“catch ”は辞書のエントリにな
い（ステップＳ５、ＮＯ）。そこで、“catch ”の最後
の文字“ ”が破棄され（ステップＳ７）、文字列“ca
tch"が単語として認識される（ステップＳ６）。

【００１７】このようなシステムにおけるスペル・エラ
ーおよび代替文字の検出方法には次の２つの方法があ
る。１つは、入力文字とＴＲＩＥテーブルのエントリと
のミスマッチが起こるのを待って、その点から代替文字
を探す方法である。もう１つは、たとえＴＲＩＥテーブ
ルのエントリとマッチしていたとしても、いずれかの文
字に誤りがあると仮定して、始終代替文字を探す方法で
ある。

【００１８】例えば、“airborne”、“airconditione
d”、“airport ”の３つの単語を考え、“airport ”
が“airbort ”のように誤って入力されたとする。ミス
マッチを待つ形態素解析システムでは、最後の“t ”に
到達するまで誤りを検出せずに処理を進める。そして、
“t ”を“n ”の間違いだと仮定して、そこから処理を
続行する。このため、“airport ”が１つの候補となり
得ることを見出すためには、処理対象の文字列を逆方向
に辿る必要があろう。この例では、“airbort ”には
“airport ”と比較して誤字が１つだけ含まれる（“b
”は“p ”の誤り）のに対して、“airborne”が正解
だとすると２つの連続する誤字が含まれる（“t ”は
“n ”の誤りで、最後の“e ”が抜けている）ことにな
る。したがって、“airport ”のほうが正解の可能性が
高い。

【００１９】一方、常時代替パスを計算する形態素解析
システムでは、“b ”が読み込まれた時に、これが“p
”や“c ”等の誤字である可能性を直ちに仮定する。
そして、さらに入力文字の読み取りを続け、“c ”は後
続する文字列からして不適当とみなし、“airborne”に
は多少引き止められるが最後にはこれを放棄して、“ai
rport ”を支持することになる。

【００２０】

【発明が解決しようとする課題】しかしながら、上述の
ような従来の形態素解析方法には以下のような問題があ
る。

【００２１】上述の例においては、説明を分かりやすく
するために、他の多数の代替パスについては考慮してい
ない。実際には、正解に辿り着くためには膨大な数の候
補を調べる必要がある。

【００２２】また、入力されたいずれの文字も他の文字
の間違いである可能性があり、いずれの文字も余計な文
字である可能性があり、また入力者が意図した単語を構
成するいずれの文字も抜けている可能性があるとする
と、結局、どんな単語も他のあらゆる単語の誤りであり
得ることになる。これは、明らかに望ましくない状況で
ある。

【００２３】この状況の出現は、例えば１つの単語の中
には２つを超えるエラーはないというようなある種の規
範に照して解析のパスをチェックし、その規範に合わな
いパスの処理を打ち切ることにより、一般に防止され
る。エラーが存在するかどうかをチェックするために用
いられる規範としては、１つの単語中のエラーの数、連
続したスペルエラーがあるかどうか、スペルエラーの重
みの合計値、あるいはこれらの規範の組合わせ等が考え
られる。しかしながら、従来の形態素解析方法では、こ
うした規範を用いたとしてもまだ多数の代替パスが残さ
れるため、処理の効率が悪いという問題がある。

【００２４】本発明は、形態素解析を行う情報処理シス
テムにおいて、入力文字列に含まれる誤りを効率よく修
正し、対応する認識結果の文字列を出力する文字列修正
システムとその方法を提供することを目的とする。

【００２５】

【課題を解決するための手段】図１は、本発明の文字列
修正システムの原理図である。本発明の文字列修正シス
テムは、入力文字列と辞書のエントリを比較して形態素
解析を行う情報処理システムにおける文字列修正システ
ムであって、辞書格納手段１、エラー・パターン格納手
段２、および検索手段３を備える。

【００２６】辞書格納手段１は、入力文字列中の文字と
比較される入力文字のエントリを持つ辞書を格納する。
エラー・パターン格納手段２は、上記入力文字列に含ま
れる可能性のあるエラーの型を規定したエラー・パター
ンを格納する。

【００２７】検索手段３は、エラー・パターン格納手段
２に格納された上記エラー・パターンを用いて辞書格納
手段１に格納された辞書を検索し、上記入力文字列に対
応する辞書のエントリを求め、認識語の候補として出力
する。

【００２８】図１の辞書格納手段１は、図２の実施例の
構成図におけるパーマネント・メモリ１１に対応し、エ
ラー・パターン格納手段２はパーマネント・メモリ１１
とテンポラリ・メモリ１５に対応し、検索手段３はプロ
セッサ２０に対応する。また、辞書格納手段１に格納さ
れる辞書は辞書１２に対応し、例えば検索テーブルの１
種であるＴＲＩＥテーブルを含む。

【００２９】

【作用】辞書格納手段１は、例えば複数のＴＲＩＥテー
ブルからなる辞書を格納し、検索手段３は、入力文字列
中の文字をＴＲＩＥテーブルの入力文字のエントリと比
較する。それらが合致すれば、検索手段３は、ＴＲＩＥ
テーブルリンクが指す次のＴＲＩＥテーブルに順次アク
セスして、最終的に辞書のエントリが得られたところ
で、それを認識語の１つの候補とする。

【００３０】このような入力文字列の認識処理におい
て、検索手段３は、エラー・パターン格納手段２に格納
されたエラー・パターンを参照し、対応する型のエラー
を入力文字列が含んでいるものと仮定して、入力文字列
を修正する。そして、修正結果を元に辞書との照合を続
行し、辞書のエントリが認識されれば、認識語の候補と
して出力する。

【００３１】ユーザは、適当なエラー・パターンを作成
してエラー・パターン格納手段２に格納することによ
り、あるいはエラー・パターン格納手段２に格納された
エラー・パターンのいずれかを指定することにより、特
定の型のエラーを想定した処理を検索手段３に行わせる
ことができる。したがって、入力文字に対応して生成さ
れる代替パスの数が限定され、検索処理が効率化され
る。

【００３２】また、エラーの重み等もエラー・パターン
毎に決めることが可能となり、これを用いてエラー・パ
ターンを適用するかどうかの条件を設定することができ
る。

【００３３】

【実施例】以下、図面を参照しながら、本発明の実施例
を詳細に説明する。図２は、本発明の実施例の文字列修
正システムの構成図である。図２の文字列修正システム
は、パーマネント・メモリ１１、テンポラリ・メモリ１
５、プロセッサ２０、入力モジュール２１、および出力
モジュール２２を備える。パーマネント・メモリ１１
は、辞書１２、エラー・パターン１３、およびエラー・
コンディション１４を格納し、テンポラリ・メモリ１５
は、エラー・パターン１６、解析パス１７、形態素デリ
ベーション１８、および代替文字１９を格納する。辞書
１２は検索処理用にコンパイルされた辞書であり、ここ
ではＴＲＩＥテーブルを用いている。図２の文字列修正
システムは、単語認識におけるエラー修正の微調整を行
い、認識語の候補を処理結果として出力する。

【００３４】入力モジュール２１は、入力される文字列
（入力文字列）を読み込み、入力文字列内の位置を示す
入力ポインタの値を保持する。プロセッサ２０は、パー
マネント・メモリ１１にアクセスして、辞書１２、エラ
ー・パターン１３、およびエラー・コンディション１４
を参照し、テンポラリ・メモリ１５に中間結果を格納し
ながら、入力文字列の検索処理を行う。このとき、エラ
ー・パターン１３の一部を取り出し、エラー・パターン
１６としてテンポラリ・メモリ１５に格納しておく。

【００３５】エラー・パターン１６は、プロセッサ２０
が認識し修正することのできるスペルエラーの種類
（型）を定義するために用いられる。したがって、解析
対象のテキストのタイプ、文字列を生成するユーザ固有
の癖、言語の種類等を含む環境の要請と、解析処理それ
自身の要請との間の簡潔かつ効率的なインタフェースを
提供するためのものである。

【００３６】図３は、パーマネント・メモリ１１内に格
納されるエラー・パターン１３の例を示している。図３
において、［０］はエラー・パターンの形式を表してお
り、１つのエラー・パターンが、フォールト・パターン
（fault pattern ）、コレクト・パターン（correct pa
ttern ）、コンディション（conditions）、および重み
値（weight）からなることを示している。フォールト・
パターンは欠陥のあるスペルのパターンを表し、コレク
ト・パターンはフォールト・パターンと置き換えられる
正しいスペルのパターンを表す。フォールト・パターン
とコレクト・パターンは特定の文字を用いて記述しても
よく、あるいは変数を用いて記述してもよい。また、コ
ンディションはそのエラー・パターンの適用条件を表
し、重み値はそのエラー・パターンを数値化する際の重
みを表す。スペルを表すフォールト・パターンおよびコ
レクト・パターンは、文字だけでなく、文字を表す変数
からなることもある。

【００３７】例えば、図３のエラー・パターン［１］、
［２］、［４］、［５］のｘとｙは変数を表している。
エラー・パターン［１］の（ｘｙ）⇒（ｙｘ）は、２つ
の文字がどんな文字であれ、これらが入れ換わっている
可能性を表現している。また、（ｘ≠ｙ）はこれらの変
数に対する束縛条件を表している。もし、ｘ＝ｙだとす
ると、フォールト・パターンとコレクト・パターンが等
しくなるので、このエラー・パターンが意味を持たなく
なるため、コンディション（ｘ≠ｙ）が課されている。
これに代わって、コンディション（（ｘ∈母音）∧（ｙ
∈子音））が課されていたとすると、最初の文字が母音
で次の文字が子音であるような文字の組についてのみ、
このエラー・パターンが適用されることになる。

【００３８】エラー・パターン［２］は、１つの文字が
他の文字に置き換わっているエラーを表し、エラー・パ
ターン［３］は、文字列“tions ”の代わりに“tois”
が入力された場合のエラーを表している。また、エラー
・パターン［４］は、同じ文字が重複して入力された場
合のエラーを表し、エラー・パターン［５］は、２つの
文字からなるスペルのうち、後の文字のみが入力された
場合のエラーを表している。また、エラー・パターン
［３］、［４］においては、コンディションは空であ
り、束縛条件が存在しないことを示す。

【００３９】プロセッサ２０は、入力文字列を１文字ず
つ読み取って、テンポラリ・メモリ１５に格納されたエ
ラー・パターン１６のフォールト・パターンと比較す
る。もし、いずれかのエラー・パターンのフォールト・
パターンに適合した場合は、入力文字が誤りであると仮
定する。このとき、コレクト・パターンから代替文字１
９を生成し、フォールト・パターンに対応する入力文字
を代替文字１９の１つと置き換える。また、入力文字を
１つ読み取る度に、対応する解析パス１７をテンポラリ
・メモリ１５に格納する。

【００４０】図４は、テンポラリ・メモリ１５に格納さ
れる解析パス１７の例を示している。図４（ａ）は解析
パスの形式を示しており、１つの解析パスが１つまたは
複数のステップからなることを表している。１つのステ
ップは、現在のＴＲＩＥテーブル（current TRIE tabl
e）、最後に読んだ文字（last-read character ）、置
換文字または置換文字列（substituted character or c
haracters ）、処理中のエラー・パターン（error patt
ern in progess）、そのステップまでのエラー統計情報
（error statistics so far ）、および入力ポインタ値
（input pointerposition）の各データを含む。

【００４１】現在のＴＲＩＥテーブルは、新しく読み込
まれたＴＲＩＥテーブルの名称を表し、最後に読んだ文
字は、入力文字列から読み込まれた最新の文字を表し、
置換文字または置換文字列は、代替文字１９から選ばれ
た置き換え用の文字（列）、あるいはエラー・パターン
により指定される置き換え用の文字（列）を表す。処理
中のエラー・パターンは、エラー・パターン１６から選
ばれたエラー・パターンを、１文字の処理の後の最新の
状況を反映するように書き換えたものである。エラー統
計情報は、エラー・パターンの適用回数に関する情報
で、例えば、処理対象の文字列に対して適用したエラー
の数と各エラーの重みの合計等を表す。また、入力ポイ
ンタ値は、次の入力文字を指す入力ポインタの値を表
す。

【００４２】図４（ｂ）は、処理の最初のステップで生
成されるルート・パス（root path）を示している。こ
のルート・パスは１つのステップのみからなり、現在の
ＴＲＩＥテーブルが“root”で、入力ポインタ値は０で
あることを表す。また、最後に読んだ文字、置換文字
（列）、エラー・パターン、およびエラー統計情報は空
であることを表している。

【００４３】図４（ｃ）は、“cat ”という単語を誤っ
て“cta ”と入力した時の処理において、正しい単語
“cat ”を認識するに至る解析パスを示している。この
解析パスは４つのステップＳＴ１、ＳＴ２、ＳＴ３、Ｓ
Ｔ４からなり、それぞれＴＲＩＥテーブル“root”、
“c-”、“ca- ”、“cat-”にアクセスしていることを
表す。ステップＳＴ１とＳＴ２ではエラー・パターンは
適用されていないが、ステップＳＴ３では、図３のエラ
ー・パターン［１］が適用されている。

【００４４】ここでは、エラー・パターン［１］の変数
ｘに文字ｔが代入されているが、ｔの次の文字はまだ読
み込まれていないので、変数ｙはｔ以外のあらゆる文字
が対応することになる。そこで、この解析パスにおいて
は、一例として置換文字ａが変数ｙに代入されている。
これにより、エラー・パターン［１］は、（／ｔ／ａ）
⇒（／ａ／ｔ）のように具体化されるが、フォールト・
パターンの最初の文字ｔは読み出されているので、結
局、（／ａ）⇒（／ｔ）が残る。また、この時点で変数
ｘ、ｙはパターンから消去されているので、コンディシ
ョン（ｘ≠ｙ）は不要となり、ステップＳＴ３のエラー
・パターンのコンディションは空になっている。ステッ
プＳＴ３でエラー・パターン［１］が適用されたので、
ステップＳＴ３、ＳＴ４のエラー統計情報としては、エ
ラー数１とエラー・パターン［１］の重み０．６が設定
される。結局、この解析パスは、入力文字列“cta ”の
ｔとａの順序を入れ替えて文字列“cat ”を生成するパ
スを与えている。

【００４５】このように、解析パスは、最後に読んだ文
字が処理された時点までの特定の解析処理の状態を表現
している。プロセッサ２０は、修正された文字を用いて
ＴＲＩＥテーブルを検索し、該当する辞書の対応語が得
られれば、そこに至るまでの解析パスを形態素デリベー
ション１８としてテンポラリ・メモリ１５に格納する。
すべての可能な形態素デリベーションが得られると、そ
れらが示す対応語を出力モジュール２２に送る。出力モ
ジュール２２は、処理の結果得られた１つ以上の対応語
を認識結果として、例えば図示されていないディスプレ
イ装置やプリンタ、あるいは文書処理システムにおける
次段の処理装置等に出力する。

【００４６】本発明においては、エラー・パターンは解
析アルゴリズムそのものからは分離されており、このた
め容易に変更することができる。この特徴により、形態
素解析およびスペル修正システムに大きな柔軟性が与え
られる。例えば、タイプされた文書を扱うシステムで
は、“o ”と“i ”はキーボード上で互いに隣接してい
るため、“o ”の代わりに誤って“i ”が入力される可
能性が高い。これに対して、光学的な読み取り装置によ
り入力された文字列を認識するシステムでは、“o ”は
“c ”と視覚的にかなり似通っているため、“o ”の代
わりに“c ”が入力される可能性が高い。このように、
入力方法に応じてエラー・パターンが異なる場合でも、
最適なエラー・パターンを選択して用いることにより、
柔軟に対処することができる。また、束縛条件として用
いられるコンディションも自由に定義できる。

【００４７】実施例の１つとして、エラー・パターンを
定義するための特別なユーザ・インタフェースを設けて
もよい。このユーザ・インタフェースは、エラー・パタ
ーンに関するユーザの希望を視覚的にあるいは他の意味
において一層魅力的な形式で表現し、その希望を解析処
理で用いられる別の形式に変換する。

【００４８】以下の説明では、テンポラリ・メモリ１５
からデータを読み出す時、そのデータはテンポラリ・メ
モリ１５から消去され、パーマネント・メモリ１１から
データを読み出す時は消去されないものとする。

【００４９】まず、以下の条件を前提として、本実施例
の第１の実施例における文字列修正処理について説明す
る。（１）処理開始時において入力ポインタは７を指してい
る。（２）入力ポインタ値７の位置から入力される文字列は
“from”である。（３）パーマネント・メモリ１１内には図９のエラー・
パターン［１］および［２］が格納されている。（４）パーマネント・メモリ１１内のエラー・コンディ
ション１４は、６文字未満の単語には１つのタイプのエ
ラー・パターンのみが許されることを記述している。ま
た、一般則として、１つのエラー・パターンが適用され
た文字列には、重複して他のエラー・パターンを適用し
ないことも記述している。（５）処理開始時においてテンポラリ・メモリ１５の格
納領域は空である。

【００５０】図５から図８までは、本実施例における文
字列修正処理の一例であるスペル修正処理を示すフロー
チャートである。図９は、第１の実施例における入力文
字列と入力ポインタ値の関係を示しており、図１０、１
２、１３、１４は、第１の実施例における解析パスを示
している。また、図１１は、第１の実施例における形態
素デリベーションを示しており、図１５は、第１の実施
例で用いられるＴＲＩＥテーブルを示している。図１５
（ｂ）において、辞書の対応語の列の“suff”は接尾辞
を表す。

【００５１】まず、図５および図６の処理フローについ
て簡単に説明する。図５において処理が開始されると、
プロセッサ２０は初期設定を行った後に（ステップＳ１
１）、入力文字を１文字づつ読み込み（ステップＳ１
２）、入力文字とメモリ内のエラー・パターンに基づい
て、できるだけ多くの解析パスを生成する。このとき、
新たな入力文字を読み込む毎に、先に生成された解析パ
スを利用して新たな解析パスを生成する。解析パスの生
成は、いくつかの処理ループの組合わせにより行われ
る。

【００５２】最も下位のループは図６のステップＳ２
０、Ｓ２１、Ｓ２２、Ｓ２３からなり、テンポラリ・メ
モリ１５内の各エラー・パターン毎にその処理が一巡す
る。そして、先に生成された特定の解析パス、入力文
字、および適用対象のエラー・パターンとに基づいて、
新しい解析パスが生成される。また、文字列の認識に成
功した解析パス、入力文字、およびエラー・パターンの
組合わせは、形態素デリベーションとしてテンポラリ・
メモリ１５内に書き込まれる。すべてのエラー・パター
ンについて処理が終わると、既存の解析パスと入力文字
からさらに新しい解析パスを生成する。（ステップＳ２
５）。このときは、エラー・パターンが適用されないの
で、入力文字が正しいものとして処理され、文字列の認
識に成功した解析パスと入力文字の組合わせが、形態素
デリベーションとして書き込まれる。

【００５３】より上位のループは図５のステップＳ１
３、Ｓ１４、および図６のすべてのステップからなり、
先の入力文字から生成された各解析パス毎にその処理が
一巡する。このとき、各解析パス毎に前処理が行われ、
エラー・パターンが既にそのパス上で適用されているか
どうか（ステップＳ１７）、もし適用されていなけれ
ば、そのパス上でエラーが許されるかどうか（ステップ
Ｓ１８）がチェックされる。エラーが許される場合は、
このパスに対して、上述のステップＳ２０、Ｓ２１、Ｓ
２２、Ｓ２３、およびＳ２５の処理が行われ、エラーが
許されない場合は、ステップＳ２５の処理のみが行われ
る。また、エラー・パターンが既に適用されていれば、
ステップＳ２０、Ｓ２１、Ｓ２２、Ｓ２３からなるルー
プは、そのエラー・パターンについて１回だけ処理され
る。

【００５４】そして、プロセッサ２０は、新しい解析パ
スを生成できなくなるまで、このような処理を連続する
各入力文字毎に繰り返す。新しい解析パスが生成できな
くなると（ステップＳ１５、Ｎ）、ステップＳ２３およ
びＳ２５で書き込んだすべての形態素デリベーションを
用いて、出力を生成する（ステップＳ１６）。

【００５５】次に、図５から図１５までを参照しなが
ら、スペル修正処理について詳細に説明する。図５にお
いて、プロセッサ２０は、まず図２０（ａ）のようなＴ
ＲＩＥテーブル“root”を読み込み、ルート・パスを計
算する（ステップＳ１１）。ここでは、入力ポインタ値
は７であるので、ルート・パスは図９の解析パス［０］
のようになる。次に、入力文字列の左端の文字を読み込
み、入力ポインタを右へシフトする（ステップＳ１
２）。ここでは、入力文字列“from”の入力ポインタ値
７の位置から文字“f ”が読み込まれ、入力ポインタが
８の位置へシフトする。次に、テンポラリ・メモリ１５
内の解析パスのうちで、未処理のパスが残っているかど
うかをチェックする（ステップＳ１３）。未処理のパス
とは、実際の入力ポインタ値より小さい値の入力ポイン
タ値で終わっている解析パスを指す。ここでは、テンポ
ラリ・メモリ１５内にはルート・パス［０］しかない
が、その入力ポインタ値７は現在の入力ポインタ値８よ
り小さいので、未処理のパスとして扱われる。

【００５６】未処理のパスが残っていれば、次に、その
うちの１つを選び（ステップＳ１４）、そのパス上で処
理中のエラー・パターンがあるかどうかをチェックする
（図６、ステップＳ１７）。処理中のエラー・パターン
があれば、１つの解析パス上で２つ以上のエラー・パタ
ーンを適用できないという一般則から、他のエラー・パ
ターンの適用が禁止される。もし、解析パス中の処理中
のエラー・パターンのスロットがあるエラー・パターン
を含んでいれば、判定結果は肯定になる。ここでは、ル
ート・パス［０］が選ばれるが、これはエラー・パター
ンを含んでいないので判定結果は否定になる。

【００５７】処理中のエラー・パターンがなければ、次
に、現在の解析パス上でエラーが許されるかどうかをチ
ェックする（ステップＳ１８）。このとき、パーマネン
ト・メモリ１１内のエラー・コンディション１４を参照
して、現在の解析パスがその条件に反しないかどうかを
調べる。ここでは、エラー・コンディション１４により
６文字未満の単語には１つのタイプのエラー・パターン
のみが許されるが、ルート・パス［０］のエラー統計情
報は空なので、まだエラー・パターンが一度も適用され
ておらず、したがって、この解析パス上ではエラーが許
されることが分かる。

【００５８】エラーが許される場合は、パーマネント・
メモリ１１から適当なエラー・パターンを読み出してテ
ンポラリ・メモリ１５に格納する（ステップＳ１９）。
ここでは、上述のエラー・パターン［１］および［２］
がテンポラリ・メモリ１５に格納される。次に、未処理
のエラー・パターンが残っているかどうかをチェックし
（ステップＳ２０）、残っていればそのうちの１つを選
ぶ（ステップＳ２１）。一度、処理に用いられたエラー
・パターンはテンポラリ・メモリ１５から消去されるの
で、テンポラリ・メモリ１５に残っているものは未処理
のエラー・パターンということになる。ここでは、エラ
ー・パターン［１］および［２］がテンポラリ・メモリ
１５に格納された直後なので、これらは未処理のエラー
・パターンとみなされる。そこで、まずエラー・パター
ン［１］が最初に選ばれるものとする。

【００５９】次に、選んだエラー・パターンが適用可能
かどうかをチェックする（ステップＳ２２）。入力文字
が、エラー・パターン中のフォールト・パターンの最初
の文字に適合すれば、そのエラー・パターンは適用可能
と判定される。ここでは、エラー・パターン［１］のフ
ォールト・パターンは（ｘｙ）であり、その最初の文字
は変数ｘである。変数ｘに対する制約は特にないので、
エラー・パターン［１］は適用可能と判定される。選ん
だエラー・パターンが適用可能であれば、そのエラー・
パターンを用いて、新しい解析パス、ＴＲＩＥテーブ
ル、および形態素デリベーションを求める（ステップＳ
２３）。

【００６０】図７は、図６のステップＳ２３の処理を示
すフローチャートである。図７において処理が開始され
ると、プロセッサ２０は、まず現在のエラー・パターン
のコレクト・パターンが空かどうかをチェックする（ス
テップＳ３１）。ここでは、エラー・パターン［１］の
コレクト・パターンは（ｙｘ）であって、空ではないの
で、次に、コレクト・パターンの最初の位置を参照し
て、代替文字（列）を計算し、テンポラリ・メモリ１５
に書き込む。ここでは、コレクト・パターン（ｙｘ）の
最初の位置には別の変数ｙがあり、それに対するコンデ
ィションは変数ｘの値と等しくないこと（ｘ≠ｙ）であ
る。ところが、変数ｘは入力文字“f ”に置き換えられ
るため、変数ｙの値としては“f ”以外のすべての文字
（アルファベット、またはそれ以外の記号も含む）が許
され、それらが代替文字の候補となる。

【００６１】次に、テンポラリ・メモリ１５に書き込ま
れた代替文字、または代替文字列のうちの１つを選び
（ステップＳ３３）、それが代替文字列の場合は、その
最初の文字を取り出す（ステップＳ３４）。そして、代
替文字、または代替文字列の最初の文字が、現在のＴＲ
ＩＥテーブルの入力文字のエントリにあるかどうかを調
べる（ステップＳ３５）。現在のＴＲＩＥテーブルと
は、対象とする解析パス中の最後のステップに指定され
ているＴＲＩＥテーブルを指し、ここではＴＲＩＥテー
ブル“root”に対応する。ステップＳ３３で、例えば代
替文字“a ”が選ばれたとすると、これは代替文字列で
はないのでステップＳ３４の処理をスキップし、“a ”
をＴＲＩＥテーブル“root”のエントリと比較する（ス
テップＳ３５）。その結果、“a ”はＴＲＩＥテーブル
“root”のエントリにあることが分かる。

【００６２】代替文字が現在のＴＲＩＥテーブルのエン
トリにあれば、対応する次のＴＲＩＥテーブルを読み込
み、図４（ａ）の形式に従って新しい解析パスのデータ
を計算する（ステップＳ３６）。ここでは、ＴＲＩＥテ
ーブル“root”のＴＲＩＥテーブルリンク“a-”から、
次のＴＲＩＥテーブル“a-”が読み込まれ、ルート・パ
スに新たに追加されるステップの現在のＴＲＩＥテーブ
ルの名称は“a-”となる。また、最後に読んだ文字はス
テップＳ１２で読み込まれた“f ”であり、置換文字は
ステップＳ３３で選ばれた“a ”となる。処理中のエラ
ー・パターンは、ステップＳ２１で選ばれたエラー・パ
ターン［１］にｘ＝ｆ、ｙ＝ａを代入して、（／ｆ／
ａ）⇒（／ａ／ｆ）となるが、フォールト・パターンの
最初の文字ｆは読み出されているので、結局、（／ａ）
⇒（／ｆ）となる。また、コンディション（ｘ≠ｙ）は
無意味になるので消去される。エラー・パターン［１］
が適用されたので、エラー統計情報としては、エラー数
１とエラー・パターン［１］の重み０．６が設定され
る。また、入力ポインタの位置はステップＳ１２でシフ
トされており、その値は８である。こうして、図１０に
示される解析パス［１．１］が生成される。

【００６３】次に、形態素が認識されたかどうかをチェ
ックし（ステップＳ３７）、認識された場合は、その形
態素の導出（デリベーション）を表す形態素デリベーシ
ョンを生成して、テンポラリ・メモリ１５に書き込む
（ステップＳ３８）。形態素デリベーションは、形態素
明細と形態素の認識に至るまでの解析パスとからなる組
合わせデータである。ここで、形態素明細とは、認識さ
れた形態素を特定するデータであり、その形式は任意に
定義することができる。解析パス［１．１］の場合は、
入力文字“f ”を“a ”に置き換えることを意味してお
り、その結果、冠詞“a ”として認識される。そして、
例えば、図１１に示すような形態素デリベーション
｛１．１｝がテンポラリ・メモリ１５に書き込まれる。
形態素デリベーション｛１．１｝は、形態素明細（a, A
rt）と解析パス［１．１］とから構成されており、形態
素明細（a, Art）は、認識された形態素“a ”の品詞名
が冠詞であることを表している。

【００６４】次に、現在の代替文字列が空かどうかをチ
ェックし（ステップＳ３９）、空であれば新しい解析パ
スをテンポラリ・メモリ１５に書き込み（ステップＳ４
０）、空でなければステップＳ３４以降の処理を繰り返
す。ここでは、代替文字列は生成されていないので、ス
テップＳ３６で求めた解析パス［１．１］を新しいパス
としてテンポラリ・メモリ１５に書き込む。

【００６５】次に、テンポラリ・メモリ１５に他の代替
文字（列）があるかどうかをチェックし、他の代替文字
（列）があればステップＳ３３以降の処理を繰り返し、
なければ図７の処理を終了して図６のステップＳ２０以
降の処理を行う。ここでは、まだ“a ”のみしか取り出
していないので、多数の代替文字が残されている。そこ
で、残っている各代替文字毎に、ステップＳ３３、Ｓ３
４、Ｓ３５、Ｓ３６、Ｓ３７、Ｓ３８、Ｓ３９、Ｓ４
０、Ｓ４１、Ｓ３３のループ処理を一巡する。ただし、
ステップＳ３５で代替文字がＴＲＩＥテーブルのエント
リになければ、ステップＳ３６からＳ４０までの処理は
スキップされ、ステップＳ３７で形態素が認識されなけ
れば、ステップＳ３８の処理はスキップされる。例え
ば、代替文字の１つである“r ”については、図１０の
解析パス［１．２］が生成されるが、形態素は認識され
ず、形態素デリベーションは生成されない。

【００６６】この結果、ＴＲＩＥテーブルのエントリに
ある代替文字の数と同数のパスが生成される。ここでの
ＴＲＩＥテーブルは最上位のＴＲＩＥテーブル“root”
であり、英語の場合はすべての文字がそのエントリにあ
ると考えられるため、実際には、代替文字と同数のパス
が生成される。

【００６７】しかしながら、他の実施形態において、コ
レクト・パターン内の変数を埋める文字として、より限
定した組の文字（例えば、１文字のみ）を生成すること
にしてもよい。この場合には、その変数がフォールト・
パターン内に現れるかどうかをチェックし、フォールト
・パターン内のその変数の位置を求め、入力文字列内の
対応する位置の文字をのぞくことにより、特定の代替文
字を得ることができる。さらに他の形態として、現在の
ＴＲＩＥテーブルを用いて可能な代替文字を求めてもよ
い。現在のＴＲＩＥテーブルのエントリにない文字を、
代替文字としてテンポラリ・メモリ１５に書き込まない
ようにすれば、上述のループ処理の回数を大幅に削減す
ることができる。

【００６８】次に、プロセッサ２０は、テンポラリ・メ
モリ１５に未処理のエラー・パターンが残っているかど
うかをチェックする（図６、ステップＳ２０）。ここで
は、エラー・パターン［２］がまだ残っているので、こ
れが取り出され（ステップＳ２１）、エラー・パターン
［１］と同様に適用可能と判定される（ステップＳ２
２）。また、そのコレクト・パターンは空でないので、
エラー・パターン［１］と同様の代替文字が生成され、
その場合とほぼ同様にして、ステップＳ３３、Ｓ３４、
Ｓ３５、Ｓ３６、Ｓ３７、Ｓ３８、Ｓ３９、Ｓ４０、Ｓ
４１、Ｓ３３のループ処理が必要回数だけ繰り返され
る。しかしながら、生成される解析パスは、特に、処理
中のエラー・パターンとエラー統計情報において、エラ
ー・パターン［１］の場合と異なる。

【００６９】図１０の解析パス［１．３］、［１．４］
は、それぞれエラー・パターン［２］の変数ｙを“a
”、“r ”に置き換えた場合のパスを示している。エ
ラー・パターン［２］の場合は、それが具体化されると
同時に適用済になるので、処理中のエラー・パターンの
スロットには適用済を示す記号外２が格納される。
ま

【００７０】

【外２】

【００７１】た、エラー統計情報のスロットには、エラ
ー数１とともにエラー・パターン［２］の重み０．４が
格納される。こうして、エラー・パターン［２］の代替
文字に関する解析パスをすべて生成すると、再びステッ
プＳ２０に戻る。ところが、ステップＳ１９でテンポラ
リ・メモリ１５に読み込まれたエラー・パターン［１］
と［２］は既に読み出されているため、エラー・パター
ンはもうテンポラリ・メモリ１５に残っていない。そこ
で、次に、処理中のエラー・パターンがあるかどうかを
チェックする（ステップＳ２４）。これは、ステップＳ
１７と同じ処理であるが、これがステップＳ２４で繰り
返される理由は後で明らかになる。ここでは、エラー・
パターン［１］と［２］は既に処理済であるため、判定
結果は否定になる。

【００７２】この時点までに、プロセッサ２０はテンポ
ラリ・メモリ１５内のすべてのエラー・パターンについ
ての処理を完了しているが、入力文字を正しいとみなし
た処理をまだ行っていない。そこで、ステップＳ２４で
処理中のエラー・パターンがなければ、次に、入力文字
が正しいと仮定して、新しい解析パス、ＴＲＩＥテーブ
ル、および形態素デリベーションを求める（ステップＳ
２５）。

【００７３】図８は、ステップＳ２５の処理のフローチ
ャートである。図８において、プロセッサ２０は、まず
入力文字がＴＲＩＥテーブルのエントリにあるかどうか
をチェックする（ステップＳ５１）。ここでは、対象の
ＴＲＩＥテーブルはＴＲＩＥテーブル“root”であり、
入力文字“f ”はそのエントリにあることが分かる。

【００７４】次に、パーマネント・メモリ１１から、対
応する次のＴＲＩＥテーブルを読み込み、新しい解析パ
スを計算して、テンポラリ・メモリ１５に書き込み（ス
テップＳ５２）、形態素が認識されたかどうかをチェッ
クする（ステップＳ５３）。形態素が認識された場合
は、その形態素デリベーションをテンポラリ・メモリ１
５に書き込んで（ステップＳ５４）、図８の処理を終了
し、図５のステップＳ１３の処理を行う。ここでは、入
力文字“f ”が正しいと仮定して、ＴＲＩＥテーブル
“f ”が読み込まれ、図１０の解析パス［１．５］が生
成されるが、“f ”のみでは辞書の対応語として認識さ
れないので、ステップＳ５４の処理はスキップされる。

【００７５】次に、未処理の解析パスが残っているかど
うかをチェックする（図５、ステップＳ１３）。未処理
の解析パスは、前述したように、その入力ポインタ値が
実際の入力ポインタの値より小さい解析パスを指す。こ
こで、ルート・パスは、最初のステップＳ１４の処理の
際に既にテンポラリ・メモリ１５から読み出されて、な
くなっている。その代わりに、例えば解析パス［１．
１］〜［１．５］のような新たに生成されたパスがすべ
て残されている。しかしながら、これらのパスはすべ
て、現在の入力ポインタと同じ値８を入力ポインタ値と
して持っているため、これらは未処理の解析パスには相
当しない。そこで、次に、アクティブ・パスが残ってい
るかどうかをチェックする（ステップＳ１５）。ここで
は、生成したすべての解析パスがテンポラリ・メモリ１
５に存在しており、それらはアクティブと判定される。
尚、図１０の解析パス［１．１］、［１．２］、［１．
３］、［１．４］、［１．５］は、生成された解析パス
の一部に過ぎず、実際には多数の代替文字に対応して多
数の解析パスが生成されている。

【００７６】アクティブ・パスが残っていれば、次の入
力文字（残っている入力文字列の左端の文字）を読み込
み（ステップＳ１２）、最初の入力文字の時と同様の処
理を繰り返す。ここでは、入力ポインタ値８の位置から
次の入力文字“r ”が読み込まれ、入力ポインタは９に
シフトする。これにより、テンポラリ・メモリ１５内の
すべての解析パスが未処理の解析パスになるので、その
うちの１つが選ばれる。仮に、解析パス［１．１］が選
ばれたとすると、このパスは処理の途中のエラー・パタ
ーン（／ａ）⇒（／ｆ）を含んでいるので、ステップＳ
１７の判定結果は肯定となり、次に、解析パス［１．
１］上でこのエラー・パターンが適用可能かどうかがチ
ェックされる（ステップＳ２２）。ところが、このエラ
ー・パターンのフォールト・パターン内の最初の文字
“a”は入力文字“r ”と異なるため、判定結果は否定
となり、未処理のエラー・パターンが残っているかどう
かがチェックされる（ステップＳ２０）。しかし、入力
文字“r ”を読み込んでから後では、エラー・パターン
をパーマネント・メモリ１１からテンポラリ・メモリ１
５に読み込んでいないので、未処理のエラー・パターン
はなく、処理中のエラー・パターンがあるかどうかがチ
ェックされる（ステップＳ２４）。ここで、再び解析パ
ス［１．１］のエラー・パターンのスロットが参照さ
れ、処理中のエラー・パターンがあることが分かるの
で、ステップＳ２５の処理はスキップされる。こうし
て、解析パス［１．１］は新たなパスを生成するのに失
敗したので、破棄される。

【００７７】このように、ステップＳ１７で、解析パス
のエラー・パターンを適用せずに、ただ参照するだけ
で、処理中のエラー・パターンがあるかどうかを確認す
ることができる。また、そのエラー・パターンを適用し
ない場合は、ステップＳ２４で再び同じチェックを行っ
て、新しいパスの生成を省略することができる。このた
め、ステップＳ１７とＳ２４で同じチェックが行われ
る。

【００７８】次に、図５のステップＳ１３の処理に戻る
が、テンポラリ・メモリ１５にはまだ多数の解析パスが
残っている。そこで、次に、解析パス［１．２］が選ば
れたとする（ステップＳ１４）。このとき、再びステッ
プＳ１７からＳ２２の処理に移る。この場合は、エラー
・パターンのフォールト・パターン内の最初の文字は
“r ”で、入力文字“r ”と一致するので、図７のステ
ップＳ３１の処理に移り、続いてステップＳ３２の処理
が行われる。解析パス［１．２］のエラー・パターン
（／ｒ）⇒（／ｆ）の場合、可能な代替文字は“f ”の
みであるため、これがテンポラリ・メモリ１５に書き込
まれた後に（ステップＳ３２）、取り出される（ステッ
プＳ３４）。そして、ステップＳ３５で、“f ”は解析
パス［１．２］のＴＲＩＥテーブル“r-”と比較され
る。しかし、英語には“rf”で始まる単語はないので、
図２０（ｂ）に示されるＴＲＩＥテーブル“r-”の入力
文字のエントリには文字“f ”は存在しない。そこで、
ステップＳ４１の処理に移るが、他の代替文字はないの
で、次に、ステップＳ２０の処理に移る。そして、解析
パス［１．１］の場合と同様にして、ステップＳ２４か
らステップＳ１３の処理にに戻る。また、エラー・パタ
ーン［１］から生成される他の代替文字の解析パスにつ
いても、解析パス［１．１］の場合と同様に破棄され
る。したがって、２番目の入力文字が読み込まれた結
果、エラー・パターン［１］から生成された解析パスは
すべて、うまくいかなかったことになる。

【００７９】次に、プロセッサ２０は、エラー・パター
ン［２］から生成された解析パスについて処理を行う。
まず、解析パス［１．３］が取り出されると（ステップ
Ｓ１４）、処理中のエラー・パターンのスロットは適用
済の記号になっているので（ステップＳ１７、Ｎ）、次
にステップＳ１８の処理が行われる。ここで、パーマネ
ント・メモリ１１のエラー・コンディション１４が参照
され、６文字未満の単語内には１つのエラーしか許され
ないことが確認される。そこで、解析パス［１．３］の
エラー統計情報を見ると、既にエラーが発生しているこ
とが分かるので、これ以上のエラーは許されず、次にス
テップＳ２５の処理が行われる。ステップＳ２５では、
まず入力文字“r ”が図１５（ａ）に示されるＴＲＩＥ
テーブル“a-”のエントリと比較される（ステップＳ５
１）。“r ”はＴＲＩＥテーブル“a-”のエントリの１
つと一致するので、次に、図１５（ｂ）に示されるよう
な、対応する次のＴＲＩＥテーブル“ar- ”が読み込ま
れ、図１２の新しい解析パス［２．１］がテンポラリ・
メモリ１５に書き込まれる（ステップＳ５２）。しか
し、この時点では形態素は認識されないので、ステップ
Ｓ１３の処理に戻る。

【００８０】次に、解析パス［１．４］が取り出される
と（ステップＳ１４）、［１．３］の場合と同様にし
て、ステップＳ１７、Ｓ１８、Ｓ５１の順に処理され
る。この場合は、入力文字“r ”が図２０（ｂ）に示さ
れるＴＲＩＥテーブル“r-”のエントリにないので、そ
のままステップＳ１３の処理に戻る。実際、“rr- ”で
始まる英単語は存在しない。

【００８１】次に、解析パス［１．５］が取り出された
場合を考える（ステップＳ１４）。この場合は、処理中
のエラー・パターンはなく（ステップＳ１７、Ｎ）、エ
ラー統計情報も空であるため（ステップＳ１８、Ｙ）、
パーマネント・メモリ１１からエラー・パターン［１］
と［２］がテンポラリ・メモリ１５に読み込まれる（ス
テップＳ１９）。そして、ステップＳ２０を経て、例え
ばエラー・パターン［１］が選ばれる（ステップＳ２
１）。これ以降は、基本的に最初の文字“f ”の処理と
同様にして、ステップＳ３３、Ｓ３４、Ｓ３５、Ｓ３
６、Ｓ３７、Ｓ３８、Ｓ３９、Ｓ４０、Ｓ４１、Ｓ３３
のループ処理が必要回数だけ繰り返され、新しい解析パ
スが生成される。図１２の解析パス［２．２］、［２．
３］は、この時生成されるパスの例を示している。次
に、エラー・パターン［２］が選ばれ（ステップＳ２
１）、同様のループ処理が行われて、解析パス［２．
４］を含む複数のパスが生成される。この後、ステップ
Ｓ２０からＳ２４の処理に移り、ステップＳ２５で解析
パス［２．５］が生成される。そして、ステップＳ５３
を経てＳ１３、Ｓ１５の順に処理が行われ、次の入力文
字が読み込まれる（ステップＳ１２）。

【００８２】以下、同様にして処理が続行され、多数の
新しい解析パスが生成される。図１３の解析パス［３．
１］は、入力文字“o ”が読み込まれた時に解析パス
［２．５］から生成されるパスの１つであり、図１４の
解析パス［４．１］、［４．２］、［４．３］、［４．
４］は、入力文字“m ”が読み込まれた時に生成される
パスの例を示している。また、図１５（ｃ）は、入力文
字“o ”が読み込まれた時に、解析パス［２．１］に基
づいてアクセスされるＴＲＩＥテーブル“aro-”を示し
ており、図１５（ｄ）は、次の入力文字“m ”が読み込
まれた時にアクセスされるＴＲＩＥテーブル“arom- ”
を示している。図１５（ｄ）は、解析パス［４．１］の
最後のステップに含まれるＴＲＩＥテーブル“from- ”
を示している。

【００８３】こうして、最終的に入力文字列“from”の
次のスペースが読み込まれることになるが、スペースは
ＴＲＩＥテーブルの入力文字のエントリにないため（ス
テップＳ５１、Ｎ）、［４．１］以外のすべての解析パ
スが新しいパスの生成に失敗する。解析パス［４．１］
の場合は、エラー・パターンが一度も適用されていない
ので、スペースは誤入力であるとみなす自由度が残され
ている。そこで、他の代替文字が生成されるが、ＴＲＩ
Ｅテーブル“from- ”のエントリは空であるため（ステ
ップＳ３５、Ｎ）、いかなる代替文字からも新しいパス
は生成されない。結局、スペースが読み込まれたときに
は、すべての解析パスについて、新しいパスの生成が失
敗に終わる。

【００８４】そこで、アクティブ・パスは残されていな
いと判定され（ステップＳ１５）、ステップＳ３８とＳ
５４でテンポラリ・メモリ１５に書き込まれた形態素デ
リベーションを用いて、出力が計算される（ステップＳ
１６）。

【００８５】出力の計算においては、プロセッサ２０
は、まず生成された形態素デリベーションを、認識語と
しての可能性の高い順に格納する。認識語としての可能
性は、形態素デリベーションに含まれる解析パスの特性
の１つであるエラー統計情報と、形態素明細に記述され
ている形態素自身の長さとを用いて計算される。次に、
異なる解析パスを持っていても形態素明細が同じ場合
は、重複を排除する処理を行う。これにより、最も可能
性の高いものだけが残される。次に、エラー・パターン
の処理が完了していない形態素デリベーションを取り除
く。例えば、図１１の形態素デリベーション｛１．１｝
は、エラー・パターン［１］が半分適用されたままにな
っており、残されたフォールト・パターンおよびコレク
ト・パターンが処理されない限り、出力として有効では
ないと考えられる。そこで、このような形態素デリベー
ションは破棄される。あるいはまた、別の実施態様にお
いては、スペルエラーが２つの隣接する単語間にまたが
っている場合を想定し、後続する入力文字列の認識のた
めに未完了のエラー・パターンを用いる。こうして、残
された形態素デリベーションは、シンタクス処理等の次
段の処理に適合する適当な形式に変換され、出力され
る。

【００８６】第１の実施例における最終的な出力は、文
字列“from”、“form”、“prom”、“frog”、およ
び、より短い文字列“a ”、“fro ”、“for ”とな
り、これらは形態素の候補として認識される。このう
ち、“from”、“form”、“prom”、“frog”に対応す
る解析パスは、図１４の［４．１］、［４．２］、
［４．３］、［４．４］であり、“a ”、“fro ”に対
応する解析パスは、それぞれ図１０の［１．３］、図１
３の［３．１］である。ちなみに、“fro ”は“to and
fro”のように用いられる。“a ”、“fro ”、“for
”が他の文字列より短いということは、本発明のシス
テムの出力からこれらの文字列を選別して、最良の処理
を施す別のプロセッサの必要性を示唆している。

【００８７】以上の第１の実施例では、エラー・パター
ンのフォールト・パターンの長さがコレクト・パターン
と等しい場合の処理を説明した。言い換えれば、入力文
字が読み込まれる度に必ず１つの新しいステップが生成
され、新しいＴＲＩＥテーブルが参照された。しかしな
がら、いつもこうした手順で処理が進められるとは限ら
ない。

【００８８】次に、第２の実施例として、図３のエラー
・パターン［４］、［５］を採用した場合を考える。エ
ラー・パターン［４］は、“venneer ”の中の“n ”の
ように、１つの文字が重複した場合を記述している。こ
の場合、正しいスペルは“veneer”である。エラー・パ
ターン［５］は、２つのコンディションを持っている。
コンディション外３は、ここでは、変数ｘとｙに対
応する文字がキーボー

【００８９】

【外３】

【００９０】ド上で互いに隣接する位置にあることを表
し、コンディション（ｘ≠ｙ）は、変数ｘとｙに対応す
る文字が互いに異なることを表す。例えば、アルファベ
ットの“q ”と“w ”、“w ”と“e ”、“e ”と“r
”は隣接しているが、“q ”と“e ”は隣接していな
い。つまり、エラー・パターン［５］は、変数ｘに対応
する文字に隣接する、変数ｙに対応する文字が、変数ｘ
に対応する文字の前に入力されなければならないのにも
かかわらず、省かれてしまった場合を記述している。こ
のようなタイプミスはよくあることであり、例えば、
“veneer”とタイプしようとして“vener ”と打ってし
まうことが考えられる。

【００９１】最初にエラー・パターン［４］を用いた処
理を説明する。入力文字列“venneer ”と入力ポインタ
値の関係は図１６（ａ）の通りである。今、入力文字
“v ”と“e ”が既に処理されて、図１７の解析パス
［２．６］が得られているとする。次に、図５のステッ
プＳ１２で文字“n ”が読み込まれると、解析パス
［２．６］が選ばれ（ステップＳ１４）、エラー・パタ
ーン［４］が選ばれる（ステップＳ２１）。エラー・パ
ターン［４］のフォールト・パターンの最初の文字は変
数で特に条件はないので、このエラー・パターンが適用
される（ステップＳ２２、Ｙ）。また、コレクト・パタ
ーンは空ではないので（ステップＳ３１、Ｎ）、代替文
字が計算されるが（ステップＳ３２）、ここでは、唯一
の可能な代替文字は“n ”自身であることが分かる。

【００９２】次に、代替文字“n ”が選ばれ（ステップ
Ｓ３３）、図１９（ａ）に示されるＴＲＩＥテーブル
“ve- ”のエントリと比較される（ステップＳ３５）。
すると、“n ”はＴＲＩＥテーブル“ve- ”のエントリ
にあるので、図１７の解析パス［３．３］が新しく生成
される。しかし、形態素は認識されず（ステップＳ３
７、Ｎ）、代替文字列は空なので（ステップＳ３９、
Ｙ）、生成された解析パス［３．３］のみがテンポラリ
・メモリ１５に書き込まれる（ステップＳ４０）。そし
て、他の代替文字はないので（ステップＳ４１、Ｎ）、
ステップＳ２０の処理に戻る。

【００９３】次に、処理の進行に伴い、入力文字列の２
番目の“n ”が読み込まれ、解析パス［３．３］が選ば
れたとする。この解析パス上には処理中のエラー・パタ
ーンがあるため（ステップＳ１７、Ｙ）、直ちにステッ
プＳ２２の処理に移る。ここで、エラー・パターン内の
フォールト・パターンは（／ｎ）で、入力文字“n ”に
一致するので、このエラー・パターンが適用される（ス
テップＳ２２、Ｙ）。次に、コレクト・パターンは空で
あるので（ステップＳ３１、Ｙ）、ステップＳ４２の処
理に移って、新しい解析パスを計算する。このとき、図
１７の解析パス［４．５］が生成される。ここで興味深
いのは、追加されたステップのＴＲＩＥテーブル“ven
-”がその前のステップのＴＲＩＥテーブルと同じとい
うことである。これは、入力文字列の２番目の“n ”を
無視するために必要であり、望ましい結果である。この
ＴＲＩＥテーブル“ven-”は、図１９（ｂ）に示されて
いる。そして、解析パス［４．５］がテンポラリ・メモ
リ１５に書き込まれ（ステップＳ４０）、他の代替文字
はないので（ステップＳ４１、Ｎ）、ステップＳ２０、
Ｓ２４、Ｓ１３の順に処理を遡る。以下、残りの入力文
字列“eer ”が正しいと仮定すれば、最終的に形態素
“veneer”が認識され（ステップＳ５３、Ｙ）、対応す
る形態素デリベーションが得られる（ステップＳ５
４）。この例は、コレクト・パターンがフォールト・パ
ターンより短いエラー・パターンを用いて、解析が成功
する場合を示している。

【００９４】次に、もう１つの可能性として、コレクト
・パターンがフォールト・パターンより長いエラー・パ
ターン［５］を用いる例について説明する。この例にお
ける入力文字列“vener ”と入力ポインタ値の関係は図
１６（ｂ）の通りである。今、入力ポインタ値７の位置
の“r ”が読み込まれ（ステップＳ１２）、解析パス
［４．６］が選ばれ（ステップＳ１４）、エラー・パタ
ーン［５］が選ばれたものとする（ステップＳ２１）。
エラー・パターン［５］のフォールト・パターンは変数
ｘで始まるので、このエラー・パターンが適用され（ス
テップＳ２２、Ｙ）、変数ｘは文字“r ”に置き換えら
れる。

【００９５】次に、コレクト・パターンは空ではないの
で（ステップＳ３１、Ｎ）、代替文字または代替文字列
が計算される（ステップＳ３２）。代替文字と代替文字
列のいずれを計算すべきかは、エラー・パターンを見れ
ば分かる。もし、フォールト・パターンの長さが１で、
コレクト・パターンの長さが１より大きければ、プロセ
ッサ２０は代替文字の代わりに代替文字列を生成する必
要があることを認識する。ここでは、フォールト・パタ
ーンの長さが１で、コレクト・パターンの長さが２であ
るので、代替文字列が生成される。コレクト・パターン
を見ると、代替文字列は変数列ｙｘに当てはまる文字列
でなければならないが、変数ｘは既に文字“r ”に置き
換えられているので、変数ｙの候補が計算される。次
に、コンディションを見ると、変数ｙに当てはまる文字
は、キーボード上で“r ”に隣接していなければならな
いので、“e ”と“t ”が候補となる。こうして、代替
文字列“er”と“tr”が生成される。

【００９６】次に、これらの代替文字列の１つ、例えば
“tr”が選ばれ（ステップＳ３３）、その最初の文字
“t ”が取り出されて（ステップＳ３４）、図１９
（ｃ）に示されるＴＲＩＥテーブル“vene- ”のエント
リと比較される（ステップＳ３５）。すると、“t ”は
ＴＲＩＥテーブル“vene- ”のエントリにあるので、図
１９（ｅ）に示される次のＴＲＩＥテーブル“venet-”
が読み込まれ、図１８に示される解析パス［５．１］が
新しく生成される。しかし、形態素は認識されないので
（ステップＳ３７、Ｎ）、ステップＳ３８の処理はスキ
ップされ、代替文字列にはまだ“r ”が残っており、空
でないことが確認される（ステップＳ３９、Ｎ）。そこ
で、残っている代替文字列の最初の文字に該当する“r
”が取り出されるが（ステップＳ３４）、この文字は
ＴＲＩＥテーブル“venet-”と適合しないことが分かる
（ステップＳ３５、Ｎ）。そして、今度はステップＳ４
１の処理に移る。このとき、代替文字列“tr”の最初の
文字“t ”の処理に伴って生成された中間的な解析パス
［５．１］は、テンポラリ・メモリ１５には書き込まれ
ない。

【００９７】テンポラリ・メモリ１５にはまだもう１つ
の代替文字列“er”が残っているので、この代替文字列
が選ばれ（ステップＳ３３）、その最初の文字“e ”が
取り出されて（ステップＳ３４）、ＴＲＩＥテーブル
“vene- ”のエントリと比較される（ステップＳ３
５）。すると、“e ”もまたＴＲＩＥテーブル“vene-
”のエントリにあるので、図１９（ｄ）に示される次
のＴＲＩＥテーブル“venee-”が読み込まれ、解析パス
［５．２］が新しく生成される。しかし、形態素は認識
されず（ステップＳ３７、Ｎ）、代替文字列は空でない
ので（ステップＳ３９、Ｎ）、残っている代替文字列か
ら“r ”が取り出される（ステップＳ３４）。ここで、
この文字はＴＲＩＥテーブル“venee-”のエントリにあ
るため（ステップＳ３５、Ｙ）、不図示の次のＴＲＩＥ
テーブル“veneer- ”が読み込まれ、新しい解析パス
［６．１］が生成される。

【００９８】今度は、形態素“veneer”が認識されるた
め（ステップＳ３７、Ｙ）、対応する形態素デリベーシ
ョンと解析パス［６．１］がテンポラリ・メモリ１５に
書き込まれる（ステップＳ３８、Ｓ４０）。このとき書
き込まれる形態素デリベーションは、図１１の形態素デ
リベーション｛１．１｝と同様に、単語“veneer”の形
態素明細と解析パス［６．１］とからなる。そして、他
の代替文字列は残っていないので（ステップＳ４１、
Ｎ）、ステップＳ２０の処理に戻る。このように、コレ
クト・パターンがフォールト・パターンより長いエラー
・パターンを用いて解析が成功する場合もある。

【００９９】第１および第２の実施例において、パーマ
ネント・メモリ１１に格納されるエラー・コンディショ
ンとして、６文字未満の単語にはエラーが１つしか許さ
れないという条件を課したが、この条件を各エラー・パ
ターンの重み値を用いて記述することもできる。例え
ば、エラー・パターンが適用される度にその重み値をエ
ラー統計情報に順次加算していき、その和があるしきい
値を超えない限り、新たなエラー・パターンの適用を許
すことにしてもよい。

【０１００】また、以上の実施例では入力文字列が英語
の場合について説明したが、本発明の適用対象は特定の
言語に限られるものではなく、日本語、中国語、ドイツ
語、オランダ語等を含むあらゆる言語の文字列、記号列
に対して用いることができる。また、入力文字列が必ず
しも単一の言語に属している必要はなく、辞書に登録さ
れている複数の言語を含む文字列を処理することもでき
る。

【０１０１】さらに、文字列の入力はいかなる形態によ
るものでもよく、例えば、スキャナー等の光学的な読取
り装置から入力される文字列も、また音声により入力さ
れる文字列も、本発明の文字列修正システムにより処理
することができる。

【０１０２】

【発明の効果】本発明によれば、形態素解析を行う情報
処理システムにおいて、入力文字列に含まれるエラーが
特定のパターンに属することを想定して処理を行うこと
ができ、エラーを含む入力文字列を効率よく修正するこ
とができる。したがって、入力文字列に対応する認識結
果の文字列を特定するための処理時間が短縮される。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明の実施例のシステム構成図である。

【図３】実施例におけるエラー・パターンを示す図であ
る。

【図４】実施例における解析パスの形式と例を示す図で
ある。

【図５】実施例におけるスペル修正処理のフローチャー
ト（その１）である。

【図６】実施例におけるスペル修正処理のフローチャー
ト（その２）である。

【図７】実施例におけるスペル修正処理のフローチャー
ト（その３）である。

【図８】実施例におけるスペル修正処理のフローチャー
ト（その４）である。

【図９】第１の実施例における入力文字列を示す図であ
る。

【図１０】第１の実施例における解析パスを示す図（そ
の１）である。

【図１１】第１の実施例における形態素デリベーション
を示す図である。

【図１２】第１の実施例における解析パスを示す図（そ
の２）である。

【図１３】第１の実施例における解析パスを示す図（そ
の３）である。

【図１４】第１の実施例における解析パスを示す図（そ
の４）である。

【図１５】第１の実施例で用いられるＴＲＩＥテーブル
を示す図である。

【図１６】第２の実施例における入力文字列を示す図で
ある。

【図１７】第２の実施例における解析パスを示す図（そ
の１）である。

【図１８】第２の実施例における解析パスを示す図（そ
の２）である。

【図１９】第２の実施例で用いられるＴＲＩＥテーブル
を示す図である。

【図２０】rd. を検索するためのＴＲＩＥテーブルを示
す図である。

【図２１】従来のＴＲＩＥ法のフローチャートである。

【符号の説明】

１辞書格納手段２エラー・パターン格納手段３検索手段１１パーマネント・メモリ１２辞書１３、１６エラー・パターン１４エラー・コンディション１５テンポラリ・メモリ１７解析パス１８形態素デリベーション１９代替文字２０プロセッサ２１入力部２２出力部

Claims

【特許請求の範囲】

【請求項１】入力文字列と辞書のエントリを比較して
形態素解析を行う情報処理システムにおいて、前記入力文字列中の文字と比較される入力文字のエント
リを持つ前記辞書を格納する辞書格納手段と、前記入力文字列に含まれる可能性のあるエラーの型を規
定したエラー・パターンを格納するエラー・パターン格
納手段と、前記エラー・パターン格納手段に格納された前記エラー
・パターンを用いて前記辞書格納手段に格納された前記
辞書を検索し、前記入力文字列に対応する前記辞書のエ
ントリを求め、認識語の候補として出力する検索手段と
を備えることを特徴とする文字列修正システム。
【請求項２】前記エラー・パターン格納手段は、可能
性のあるエラーの文字パターンを表すフォールト・パタ
ーンと、該フォールト・パターンに対応する正しい文字
パターンを表すコレクト・パターンとを有する前記エラ
ー・パターンを格納することを特徴とする請求項１記載
の文字列修正システム。
【請求項３】前記検索手段は、前記フォールト・パタ
ーンに該当する第１の文字が入力された時、前記コレク
ト・パターンを参照して該第１の文字に代わる代替文字
を生成し、該代替文字を用いて前記辞書を検索すること
を特徴とする請求項２記載の文字列修正システム。
【請求項４】前記検索手段は、前記コレクト・パター
ンを参照して該第１の文字に代わる代替文字列を生成
し、該代替文字列中の文字を前記代替文字として、前記
辞書を検索することを特徴とする請求項３記載の文字列
修正システム。
【請求項５】前記検索手段は、前記入力文字列中の第
２の文字が前記辞書の入力文字のエントリと一致する場
合でも、該第２の文字が前記フォールト・パターンの始
まりであると仮定して、前記代替文字を用いて前記辞書
を検索することを特徴とする請求項３記載の文字列修正
システム。
【請求項６】前記検索手段は、前記コレクト・パター
ンに該当する複数の前記代替文字を生成し、各代替文字
を用いて前記辞書を検索して、該複数の代替文字の中か
ら前記認識語の候補に至る代替文字を求めることを特徴
とする請求項３記載の文字列修正システム。
【請求項７】前記検索手段は、前記入力文字列中の残
りの文字を読むことにより、前記コレクト・パターンに
該当する複数の前記代替文字の中から前記入力文字列に
合致する代替文字を選び、選んだ該代替文字を用いて前
記辞書を検索することを特徴とする請求項３記載の文字
列修正システム。
【請求項８】前記検索手段は、前記入力文字列中の残
りの文字を読んで、前記コレクト・パターンに該当する
複数の前記代替文字と比較することにより、前記エラー
・パターンが該入力文字列に合致するかどうかを決める
ことを特徴とする請求項３記載の文字列修正システム。
【請求項９】前記辞書格納手段は、入力される文字を
１文字ずつ検索するための複数のＴＲＩＥテーブルを有
する前記辞書を格納し、各ＴＲＩＥテーブルは、前記辞
書のエントリの最初の文字から途中の文字までの文字列
に対応して、次の文字の候補を表す前記入力文字のエン
トリと、前記辞書のエントリとの対応関係を表す辞書の
対応語のエントリと、次のＴＲＩＥテーブルを指すＴＲ
ＩＥテーブルリンクとを有し、前記検索手段は、前記コ
レクト・パターンから得られる代替文字を前記入力文字
のエントリと比較して、前記複数のＴＲＩＥテーブルを
検索することを特徴とする請求項２記載の文字列修正シ
ステム。
【請求項１０】前記エラー・パターン格納手段は、前
記フォールト・パターンと前記コレクト・パターンを前
記入力文字列中の文字に適用するための条件を有するよ
うな前記エラー・パターンを格納することを特徴とする
請求項２記載の文字列修正システム。
【請求項１１】前記フォールト・パターンは、前記エ
ラーの文字パターンを表す１つ以上の変数を有し、前記
コレクト・パターンは、前記正しい文字パターンを表す
１つ以上の変数を有し、前記フォールト・パターンとコ
レクト・パターンを適用するための条件は、該フォール
ト・パターンが有する変数と該コレクト・パターンが有
する変数の間の関係を表すことを特徴とする請求項１０
記載の文字列修正システム。
【請求項１２】前記エラー・パターン格納手段は、前
記エラー・パターンを前記入力文字列に適用するための
一般的条件をさらに格納し、ユーザは該一般的条件を任
意に指定できることを特徴とする請求項１記載の文字列
修正システム。
【請求項１３】前記一般的条件により、前記入力文字
列中に許されるエラーの数が制限されることを特徴とす
る請求項１２記載の文字列修正システム。
【請求項１４】前記エラー・パターン格納手段は、前
記エラー・パターンに対する重みを有するような該エラ
ー・パターンを格納し、前記一般的条件により、前記入
力文字列中に適用される各エラー・パターンについての
重みの合計が制限されることを特徴とする請求項１２記
載の文字列修正システム。
【請求項１５】前記辞書のエントリの最初の文字から
途中の文字までの検索経路を示す解析パスを格納するメ
モリ手段をさらに備え、前記検索手段は、前記入力文字
列中の文字が前記辞書中の入力文字のエントリと一致す
るとき、対応する解析パスを生成することを特徴とする
請求項１記載の文字列修正システム。
【請求項１６】前記検索手段は、前記入力文字列に前
記エラー・パターンを適用した時、処理中のエラー・パ
ターンを表す情報を含む前記解析パスを生成することを
特徴とする請求項１５記載の文字列修正システム。
【請求項１７】前記検索手段は、前記辞書を検索した
結果、形態素を認識すると、該形態素を特定する情報と
前記解析パスとを対応させて前記メモリ手段に格納する
ことを特徴とする請求項１５記載の文字列修正システ
ム。
【請求項１８】入力文字列と辞書のエントリを比較し
て形態素解析を行う情報処理システムにおいて用いられ
る記憶媒体であって、前記入力文字列に含まれる可能性のあるエラーの型を規
定したエラー・パターンを格納する記憶媒体。
【請求項１９】入力文字列と辞書のエントリを比較し
て形態素解析を行う情報処理システムにおいて用いられ
る記憶媒体であって、前記入力文字列に含まれる可能性のあるエラーの型を規
定したエラー・パターンを入力する手段と、該エラー・パターンを用いて前記辞書を検索し、前記入
力文字列に対応する前記辞書のエントリを求め、認識語
の候補として出力する検索手段とを備えることを特徴と
する記憶媒体。
【請求項２０】入力文字列と辞書のエントリを比較し
て形態素解析を行う方法において、前記入力文字列中の文字と比較される入力文字のエント
リを持つ前記辞書を生成し、前記入力文字列に含まれる可能性のあるエラーの型を規
定したエラー・パターンを生成し、前記エラー・パターンを用いて前記辞書を検索して、前
記入力文字列に対応する前記辞書のエントリを求め、該辞書のエントリを認識語の候補として出力することを
特徴とする文字列修正方法。