JP2003141451A

JP2003141451A - データ処理装置及び記録媒体

Info

Publication number: JP2003141451A
Application number: JP2001339479A
Authority: JP
Inventors: Tomonori Kudou; 朋紀工藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-11-05
Filing date: 2001-11-05
Publication date: 2003-05-16

Abstract

(57)【要約】【目的】言語処理による文字認識の認識率を下げるこ
となく、言語処理による認識率の向上を図ることができ
るデータ処理装置を提供すること。【構成】所定のペン等により文字をストローク情報と
して入力する文字入力ステップと、前記入力画像から文
字を抽出して予め所有している文字データ辞書との比較
を行いながら候補文字列に変換する文字認識ステップ
と、予め所有している単語データ辞書とを具備するデー
タ処理装置において、前記候補文字列の組み合わせと前
記単語データ辞書中の単語データとの比較を行って単語
を抽出する単語抽出ステップと、連続する同文字種の第
１候補文字を未知語とする未知語抽出ステップと、前記
抽出した単語及び未知語から文節候補を作成する文節候
補作成ステップと、前記文節候補中より尤もらしい文節
候補を選択する文節候補選択ステップと、前記選択され
た文節に基づいて第１候補文字を入れ換える文字候補決
定ステップを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字認識に関する
データ処理装置及びプログラムデータ等を記録した記録
媒体に関する。

【０００２】

【従来の技術】図１は従来の日本文読取装置の構成図で
あり、文字認識装置はプログラムに従って処理を実行す
る中央処理装置１、文字ストローク情報を記憶装置２に
入力する手書文字入力装置５、文字認識結果を表示する
表示装置４、プログラム、認識用の文字データ、辞書の
納まっている記憶装置２、ＦＤ（フロッピー（登録商
標）ディスク）・ＣＤ−ＲＯＭ・ＲＯＭ・磁気テープ等
の記録媒体に記憶されたプログラム、データ等を記憶装
置２に読み取る記憶媒体読取装置６、処理を操作するキ
ーボード、マウス等の入力装置３により構成されてい
る。

【０００３】図２は従来の概略フローチャートであり、
手書文字入力装置５により文字ストローク情報を取得す
るステップ（ステップ２１）。次に、ステップ２１で取
得した文字ストローク情報より文字を１文字毎にに切り
出して認識し、認識候補文字を出力する文字認識するス
テップ（ステップ２２）、単語格納した単語辞書や文法
的接続情報を格納した文法辞書等の言語処理に必要な記
憶装置２に格納された辞書を検索し、ステップで得られ
た認識文字とそれに対する認識候補文字と辞書を照合し
て、尤もらしい文字を出力する言語処理ステップ（ステ
ップ２３）とから成る。

【０００４】図１１の例に基づいて説明する。

【０００５】手書文字入力装置５に入力される用紙上に
印刷または記入された入力文字列の例（１１−１）“六
ブロックが空白で、小選挙区での戦い”及び入力文字列
の文字認識ステップで１文字毎に認識して得られる認識
候補文字の例（１１−２）であり、各文字列に対する認
識候補文字列である。記憶装置２に格納されている単語
辞書（図１２）の検索により「ブロック」、「空白」
（１１−３）等が見つかり、図１３のように文節候補が
作成されて「プ」が「ブ」に変更され、「自」が「白」
に変更され、入力文字列と同じ“六ブロックが空白で、
小選挙区での戦い”（１１−４）となり、表示装置４又
は記憶装置２に出力される。

【０００６】

【発明が解決しようとする課題】図１４に示すように、
手書文字入力装置５に入力される用紙上に印刷又は記入
された入力文字列の例及び文字認識ステップで１文字毎
に認識して得られる認識候補文字の例であり、図におい
て入力文字列は“アスペクトについて”であり、各文字
列に対する認識候補文字列である。

【０００７】単語辞書の検索により「アスベスト」が見
つかり、「ぺ」が「べ」に変更され、「ク」が「ス」に
変更され、“アスベストについて”となる。

【０００８】文字認識ステップの結果、入力文字列と等
しく認識が正しかったにも拘らず、認識した単語が辞書
に格納されていない場合、言語処理で誤った文字に置き
換えてしまい、認識率を下げてしまっていた。

【０００９】本発明は上記問題に鑑みてなされたもの
で、その目的とする処は、該当単語が辞書に登録されて
いない場合でも、言語処理による文字認識の認識率を下
げることなく、言語処理による認識率の向上を図ること
ができるデータ処理装置及び記録媒体を提供することに
ある。

【００１０】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置を、前記候補文字列の組み合わせと前記単
語データ辞書中の単語データとの比較を行って単語を抽
出する単語抽出ステップと、連続する同文字種の第１候
補文字を未知語とする未知語抽出ステップと、前記抽出
した単語及び未知語から文節候補を作成する文節候補作
成ステップと、前記文節候補中より尤もらしい文節候補
を選択する文節候補選択ステップと、前記選択された文
節に基づいて第１候補文字を入れ換える文字候補決定ス
テップを含んで構成したことを特徴とする。

【００１１】又、本発明は、所定のペン等により文字を
ストローク情報として入力する文字入力ステップと、前
記入力画像から文字を抽出して予め所有している文字デ
ータ辞書との比較を行いながら候補文字列に変換する文
字認識ステップと、予め所有している単語データ辞書と
を具備するデータ処理装置の記録媒体において、前記候
補文字列の組み合わせと前記単語データ辞書中の単語デ
ータとの比較を行って単語を抽出する単語抽出ステップ
と、連続する同文字種の第１候補文字を未知語とする未
知語抽出ステップ前記抽出した単語及び未知語から文節
候補を作成する文節候補作成ステップと、前記文節候補
中より尤もらしい文節候補を選択する文節候補選択ステ
ップと、前記選択された文節に基づいて第１候補文字を
入れ換える文字候補決定ステップをコンピュータに実行
させる情報処理プログラムを記録したことを特徴とす
る。

【００１２】

【発明の実施の形態】以下に本発明の実施の形態を添付
図面に基づいて説明する。

【００１３】本発明の文字認識装置のブロック図を図１
に示す。文字認識装置はプログラムに従って処理を実行
する中央処理装置１、文字ストローク情報を記憶装置２
に入力する手書文字入力装置５、文字認識結果を表示す
る表示装置４、プログラム、認識用の文字データ、辞書
の納まっている記憶装置２、ＦＤ（フロッピーディス
ク）・ＣＤ−ＲＯＭ・ＲＯＭ・磁気テープ等の記録媒体
に記憶されたプログラム、データ等を記憶装置２に読み
取る記憶媒体読取装置６、処理を操作するキーボード、
マウス等の入力装置３により、その主要部が構成されて
いて基本的には従来と同じである。

【００１４】図２は概略フローチャートであり、手書文
字入力装置５により文字ストローク情報を取得するステ
ップ（ステップ２１）。次に、ステップ２１で取得した
文字ストローク情報より文字を１文字毎に切り出して認
識し、認識候補文字を出力する文字認識するステップ
（ステップ２２）、単語格納した単語辞書や文法的接続
情報を格納した文法辞書等の言語処理に必要な記憶装置
２に格納された辞書を検索し、ステップで得られた認識
文字とそれに対する認識候補文字と辞書を照合して、尤
もらしい文字を出力する言語処理ステップ（ステップ２
３）とから成り、従来と同じである。

【００１５】次に、図３は言語処理（ステップ２３）の
詳細フローチャートであり、形態素解析（ステップ３
１）は、文字候補列に対して、単語辞書を参照しなが
ら、形態素解析を行う形態素解析処理である。ここで
は、形態素解析の例は、二文節最長一致法による。二文
節最長一致法とは、形態素解析後の隣接する任意の二文
節に対応する読みの長さが最長になる文節の区切りを採
用する方法である。こうして区切られた文節列を出力す
る。その後、解釈可能な文節と文節の構造を明らかに
し、その結果を形態素解析情報に追加する。ステップ３
１の形態素解析は、図１１において後述する。

【００１６】ステップ３２は、形態素解析情報を参照し
ながら、構文解析を行う構文解析処理である。形態素解
析情報から、文節の候補を各文節番号に対して１つずつ
選び出し、構文規則に基づいて句を生成していき、構文
解析を行い、最終的に文が生成できれば、構文解析に成
功したものとみなす。このような構文解析の方法は、構
文解析手法として一般的に行われており、公知であるの
で、詳細は記述しない。

【００１７】構文解析に成功した場合は、ステップ２３
へ進む。構文解析に失敗した場合は、形態素解析情報中
の文節の候補を変更して構文解析を行う。全ての文節の
候補に対して構文解析に失敗した場合は、ステップ３３
に進む。

【００１８】ステップ３３は、形態素解析及び構文解析
によって解析された結果に基づいて最適な文字候補を決
定する文字候補決定処理である。ステップ３２において
構文解析に成功していれば、成功した構文解析で使用し
ている文節の候補の表記を最適な文字候補として決定す
る。構文解析に成功したものがなければ、ステップ３１
の形態素解析のみで、最適な文字候補を決定する。文字
候補決定処理を終えた後、ステップ３４へ進む。

【００１９】ステップ３４は、ステップ３３で決定され
た最適な文字候補を表示する補正結果表示処理である。
これは、例えば、言語処理によって画像認識結果の第一
候補が入れ替えられた場合、その文字だけを別の属性で
表示する等の処理である。補正結果表示処理を終えた
後、言語補正処理を終了する。

【００２０】図４はステップ３１の形態素解析を詳細化
したフローチャートである。

【００２１】ステップ４１は、文字候補列の全ての部分
文字列の組み合わせに対して単語辞書を検索し、表記が
部分文字列にマッチする単語の各情報を単語情報に格納
する単語抽出処理である。単語抽出処理の詳細は図を用
いて後述する。処理を終えた後ステップ４２に進む。

【００２２】ステップ４２は、ステップ４１によって作
成された単語情報に接続規則辞書に記述されている接続
規則を適用し、文節候補情報を作成する処理である。文
節候補を作成するとは、生成された文節の表記が必ず文
字候補列に格納されている文字候補列の部分列とマッチ
するように各単語に接続規則を適用することである。こ
うして全ての文節候補を作成した後、ステップ３３に進
む。

【００２３】ステップ３３は、文節候補情報を参照して
最終的な文節を決定し、形態素情報を作成する文節の決
定処理である。文節を決定する際に用いられる手法は前
述した二文節最長一致法を例とする。処理を終えると、
形態素解析処理を終了する。

【００２４】図５はステップ４１の単語抽出処理を詳細
化したフローチャートである。

【００２５】ステップ５１は、文字候補列のあらゆる組
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
どうかを調べる候補文宇部分列検索処理である。全ての
候補文宇部分列に対して検索を終えた後、ステップ５２
へ進む。

【００２６】ステップ５２は、ステップ５１で辞書検索
を行った結果、或る位置の文字候補に対して単語が抽出
できたか否かをチェックする検索チェック処理である。
或る位置の文字候補に対応する単語が１つでも見つかっ
た場合は、ステップ５４に進む。或る位置の文字候補に
対応する単語が全く見つからなかった場合は、ステップ
５３の未知語抽出処理に進む。

【００２７】ステップ５３は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
未知語抽出処理は、例えば、ひらがな、カタカナ、英字
等の字種が連続している部分を抽出して名詞等に見なす
処理であり、かな漢字変換のような言語処理では一般に
行われている処理である。本発明における未知語処理で
は、未知語として抽出される文字候補は全て画像認識に
おいて認識された文字候補を抽出する。即ち、一旦未知
語抽出処理が起動されると、文字候補列の第１列におい
て、起動された文字位置から同種の文字種が連続する部
分を抽出して単語と見なし、名詞等の品詞付けする。処
理を終えると、ステップ５４へ進む。

【００２８】ステップ５４は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ５５へ進む。

【００２９】ステップ５５は、文字候補列に格納されて
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。未だ、単語抽
出が文字候補列の末尾まで達していない場合は、ステッ
プ５１に処理が進む。文字候補列の末尾まで単語抽出が
終了していれば、単語抽出処理を終える。

【００３０】図６はステップ４１の単語抽出処理を詳細
化したフローチャートである。

【００３１】ステップ６１は文字候補列のあらゆる組み
合わせにおいて全ての部分文字列を作成し、それら部分
文字列と同じ表記を持つ単語が単語辞書に存在するか否
かを調べる候補文宇部分列検索処理である。この種の辞
書検索方法は、全ての候補文宇部分列に対して検索を終
えた後、ステップ６２へ進む。

【００３２】ステップ６２は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
ステップ６３へ進む。

【００３３】ステップ６３は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ６４へ進む。

【００３４】ステップ６４は、文字候補列に格納されで
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。未だ、単語抽
出が文字候補列の末尾まで達していない場合、且つ、長
い単語が存在する場合は、ステップ６１に処理が進む。
文字候補列の末尾まで単語抽出が終了いる場合、又はこ
れ以上長い単語が存在しない場合は、単語抽出処理を終
える。

【００３５】図７は未知語抽出の詳細フローチャートで
ある。

【００３６】ステップ７１は未知語の先頭文字を取得す
る。ステップ７２は、対象文字の第１候補の文字種とス
テップ７１で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ７３に進み、異なった文字種の場
合、未知語抽出処理を終了する。ステップ７３は前の文
字列に対象文字を結合する。ステップ７４は、対象文字
を次の文字にする。次にステップ７２に戻る。

【００３７】図８は未知語抽出の詳細フローチャートで
ある。

【００３８】ステップ８１は未知語の先頭文字を取得す
る。ステップ８２は、対象文字の第１候補の文字種とス
テップ８１で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ８４に進み、異なった文字種の場
合、ステップ８３に進む。ステップ８３はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ８４に進み、結合不可の場合、未知語抽出処理を
終了する。ステップ８４は前の文字列に対象文字を結合
する。ステップ８５は、対象文字を次の文字にする。次
にステップ８２に戻る。

【００３９】図９は未知語抽出の詳細フローチャートで
ある。

【００４０】ステップ９１は未知語の先頭文字を取得す
る。ステップ９２は、対象文字の第１候補の文字種とス
テップ９１で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ９７に進み、異なった文字種の場
合、ステップ９３に進む。ステップ９３はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ９７に進み、結合不可の場合、ステップ９４に進
む。

【００４１】ステップ９４は、対象文字の次の文字候補
が存在するか否かを判定する。存在する場合、ステップ
９５に進み、存在しない場合、未知語抽出処理を終了す
る。ステップ９５は、次の文字候補を対象とする。ステ
ップ９６は、ステップ９５で取得した文字候補が前の文
字列に結合可能か否かを判定する。結合可能な場合、ス
テップ９７に進み、結合不可の場合、ステップ９４に戻
る。ステップ９７は前の文字列に対象文字を結合する。
ステップ９８は、対象文字を次の文字にする。次にステ
ップ９２に戻る。

【００４２】図１０は未知語抽出の詳細フローチャート
である。

【００４３】ステップ１０１は未知語の先頭の文字種を
取得する。ステップ１０２は、対象文字の第１候補の文
字種とステップ１０１で取得した先頭文字種を比較す
る。先頭文字種と同じ文字種の場合、ステップ１０５へ
進み、異なる場合、ステップ１０３に進む。ステップ１
０３はその文字が前の文字列と結合可能か否かを判定す
る。結合可能な場合、ステップ１０５に進み、結合不可
の場合、ステップ１０４に進む。ステップ１０４は、変
更可能な文字が存在するか否かを判定する。変更可能な
文字が存在する場合、ステップ１０５に進み、存在しな
い場合、未知語抽出処理を終了する。ステップ１０５
は、対象文字を前の文字列に結合する。ステップ１０６
は、対象文字を次の文字にする。次にステップ１０２に
戻る。

【００４４】次に、本発明文字認識装置の文字認識の方
法の一実施例の表示例（図１５）に従って処理の流れに
沿って説明する。

【００４５】手書文字入力装置５に入力される用紙上に
印刷又は記入された入力文字列“アスペクトについ”
（１５−１）である。この用紙を画像取得ステップ（ス
テップ２１）で画像ファイルを記憶装置２に格納する。
画像取得ステップで取得した画像ファイルを入力とし、
文字認識ステップ（ステップ２２）で１文字毎に認識し
て得られる認識候補文字の例（１５−２）であり、各文
字列に対する認識候補文字列である。

【００４６】単語辞書の例（１５−３）であり、単語抽
出処理（ステップ４１）ではこの辞書検索により「アス
ベスト」（１５−４）を単語抽出する（ステップ６
１）。ここでは、「アスペクト」は辞書に格納されてい
ないものとする。未知語抽出処理（ステップ６２）で第
１候補文字の同種文字列「アスペクト」（１５−５）を
未知語として抽出する。ここでは、先頭文字種「カタカ
ナ」を取得し（ステップ７１）、次の第１候補文字の文
字種を判定（ステップ７２）し、結合（ステップ７３）
していくことを繰り返し「アスペクト」が抽出される。
未知語抽出終了後、それぞれの単語を単語情報に登録す
る（ステップ６３）。単語情報に登録された単語から文
節を作成する（ステップ４２）。作成された文節から構
文解析する（ステップ３２）。文節を決定する（ステッ
プ４３）。文字候補列から決定する（ステップ３３）。
決定された文字列“アスペクトについて”（１５−６）
を表示装置４に表示する（ステップ３４）。又は、記憶
装置２に格納する。

【００４７】更に、本発明文字認識装置の文字認識の方
法の表示例（図１６）に従って処理の流れに沿って説明
する。

【００４８】手書文字入力装置５に入力される用紙上に
印刷又は記入された入力文字列“アーカイブについて”
（１６−１）である。この用紙を画像取得ステップ（ス
テップ２１）で画像ファイルを記憶装置２に格納する。
ステップ２１で取得した画像ファイルを入力とし、文字
認識ステップ（ステップ２２）で１文字毎に認識して得
られる認識候補文字の例（１６−２）であり、各文字列
に対する認識候補文字列である。単語抽出処理（ステッ
プ６１）では、この辞書検索で、「アーカイブ」は辞書
に格納されていないものとする。

【００４９】未知語抽出処理（ステップ６２）の詳細フ
ローを示す図８では、未知語の先頭文字種「カタカナ」
を取得する（ステップ８１）。次の文字「−（マイナス
記号）」の文字種「記号」と先頭文字種「カタカナ」を
比較する（ステップ８２）。図のように「−（マイナス
記号）」は結合可能文字種は「英字、数字」であるため
に結合不可である。ステップ８４は前の文字列に対象文
字を結合する。ステップ８５は、対象文字を次の文字に
する。次にステップ８２に戻る。

【００５０】又、未知語抽出処理（ステップ６２）の詳
細フローを示す図９では、未知語の先頭文字種「カタカ
ナ」を取得する（ステップ９１）。次の文字「−（マイ
ナス記号）」の文字種「記号」と先頭文字種「カタカ
ナ」を比較する（ステップ９２）。図のように「−（マ
イナス記号）」の結合可能文字種は「英字、数字」であ
るために結合不可である（ステップ９３）。対象文字の
次の文字候補「−（長音記号）」が存在する（ステップ
９４）。「ー（長音記号）」を対象とする（ステップ９
５）。次に図のように「ー（長音記号）」の結合可能文
字種は「ひらがな、カタカナ」であるために結合可能で
ある（ステップ９６）。前の文字列「ア」に対象文字を
結合し「アー」とする（ステップ９７）。対象文字を次
の文字「カ」にする（ステップ９８）。文字種チェック
に戻り、繰り返した結果、未知語「アーカイブ」が抽出
される。

【００５１】又、未知語抽出処理（ステップ６２）の詳
細フローを示す図１０では、未知語の先頭文字種「カタ
カナ」を取得する（ステップ１０１）。次の文字「−
（マイナス記号）」の文字種「記号」と先頭文字種「カ
タカナ」を比較する（ステップ１０２）。図のように
「−（マイナス記号）」の結合可能文字種は「英字、数
字」であるために結合不可である（ステップ１０３）。
変更可能な文字判定する。図のように「−（マイナス記
号）」は前文字種が「ひらがな、カタカナ」の場合、変
更候補文字として「ー（長音記号）」がある（ステップ
１０４）。「ー（長音記号）」を前の文字列「ア」に結
合して「アー」とする（ステップ１０５）。対象文字を
次の文字「カ」にする（ステップ１０６）。文字種チェ
ックに戻り、繰り返した結果、未知語「アーカイブ」が
抽出される。

【００５２】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。又、本発明はシステム或は装置にプログラ
ムを供給することによって実施される場合にも適用され
ることは言うまでもない。この場合、本発明に係るプロ
グラムを格納した記憶媒体が本発明を構成することにな
る。そして、該記憶媒体からそのプログラムをシステム
或は装置に読み込ませることによって、そのシステム或
は装置が予め定められた方法で動作する。プログラムを
格納する記録媒体としては、ＲＯＭ、フロッピーディス
ク、ＣＤ−ＲＯＭ、ハードディスク、メモリカード、光
磁気ディスク等を用いることができる。

【００５３】

【発明の効果】以上の説明で明らかなように、本発明に
よれば、該当単語が登録されていない場合にも、言語処
理による文字認識の認識率を下げることなく、言語処理
による文字認識装置全体の認識率の向上を図ることがで
きる。従って、この方法を構成要素に用いる文字認識装
置の信頼性を大幅に向上することが可能となった。

【図面の簡単な説明】

【図１】情報処理システムの構成を示すブロック図であ
る。

【図２】本発明に係るデータ処理装置の全体の処理手順
を示すフローチャートである。

【図３】言語補正処理手順を示すフローチャートであ
る。

【図４】形態素解析の手順を示すフローチャートであ
る。

【図５】単語抽出の手順を示すフローチャートである。

【図６】単語抽出の手順を示すフローチャートである。

【図７】未知語抽出の手順を示すフローチャートであ
る。

【図８】未知語抽出の手順を示すフローチャートであ
る。

【図９】未知語抽出の手順を示すフローチャートであ
る。

【図１０】未知語抽出の手順を示すフローチャートであ
る。

【図１１】従来例での主要データフローを示す図であ
る。

【図１２】従来例での辞書データを示す図である。

【図１３】従来例での文節データフローを示す図であ
る。

【図１４】従来例での主要データフローを示す図であ
る。

【図１５】本発明の実施の形態での主要データフローを
示す図である。

【図１６】本発明の実施の形態での主要データフローを
示す図である。

【図１７】本発明の実施の形態での結合判定データを示
す図である。

【図１８】本発明の実施の形態での結合判定データを示
す図である。

【図１９】本発明の実施の形態での結合判定データを示
す図である。

【図２０】本発明の実施の形態での結合判定データを示
す図である。

【符号の説明】

１中央処理装置２記憶装置３入力装置４表示装置５手書文字入力装置６記憶媒体読取装置

Claims

【特許請求の範囲】

【請求項１】所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置において、前記候補文字列の組み合わせと前記単語データ辞書中の
単語データとの比較を行って単語を抽出する単語抽出ス
テップと、連続する同文字種の第１候補文字を未知語と
する未知語抽出ステップと、前記抽出した単語及び未知
語から文節候補を作成する文節候補作成ステップと、前
記文節候補中より尤もらしい文節候補を選択する文節候
補選択ステップと、前記選択された文節に基づいて第１
候補文字を入れ換える文字候補決定ステップを有するこ
とを特徴とするデータ処理装置。
【請求項２】前記未知語抽出ステップが前記候補文字
列の組み合わせから結合判定データに基づいて未知語を
作成する未知語抽出ステップを有することを特徴とする
請求項１記載のデータ処理装置。
【請求項３】前記未知語抽出ステップが結合判定デー
タに基づいて候補文字を変更して未知語を作成する未知
語抽出ステップを有することを特徴とする請求項１記載
のデータ処理装置。
【請求項４】所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置の記録媒体において、前記候補文字列の組み合わせと前記単語データ辞書中の
単語データとの比較を行って単語を抽出する単語抽出ス
テップと、連続する同文字種の第１候補文字を未知語と
する未知語抽出ステップ前記抽出した単語及び未知語か
ら文節候補を作成する文節候補作成ステップと、前記文
節候補中より尤もらしい文節候補を選択する文節候補選
択ステップと、前記選択された文節に基づいて第１候補
文字を入れ換える文字候補決定ステップをコンピュータ
に実行させる情報処理プログラムを記録したコンピュー
タ読み取り可能な記録媒体。
【請求項５】前記未知語抽出ステップが前記候補文字
列の組み合わせから結合判定データに基づいて未知語を
作成する未知語抽出ステップをコンピュータに実行させ
ることを特徴とする請求項４記載の記録媒体。
【請求項６】前記未知語抽出ステップが結合判定デー
タに基づいて候補文字を変更して未知語を作成する未知
語抽出ステップをコンピュータに実行させることを特徴
とする請求項４記載の記録媒体。