JP2003178260A

JP2003178260A - データ処理方法

Info

Publication number: JP2003178260A
Application number: JP2001375899A
Authority: JP
Inventors: Tomonori Kudou; 朋紀工藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-12-10
Filing date: 2001-12-10
Publication date: 2003-06-27

Abstract

(57)【要約】【目的】辞書に登録されていない場合でも、言語処理
による文字認識の認識率を下げることなく、言語処理に
よる文字認識率の向上を図ることができるデータ処理方
法を提供すること。【構成】文字画像を入力する光学的画像入力ステップ
と、前記入力画像から文字を抽出し、予め所有している
文字データ辞書との比較を行ないながら候補文字列に変
換する文字認識ステップと、予め所有している単語デー
タ辞書とを具備するデータ処理方法において、前記候補
文字列の組み合わせと前記単語データ辞書中の単語デー
タとを比較して単語を抽出する単語抽出ステップと、連
続する同文字種の第１候補文字を未知語とする未知語抽
出ステップと、前記抽出した単語及び未知語から文節候
補を作成する文節候補作成ステップと、前記文節候補中
より尤もらしい文節候補を選択する文節候補選択ステッ
プと、前記選択された文節をもとに第１候補文字を入れ
換える文字候補決定ステップを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字認識に関する
データ処理方法に関するものである。

【０００２】

【従来の技術】図１は従来の日本文読取装置の構成図で
あり、文字認識装置はプログラムに従って処理を実行す
る中央処理装置１、文字画像を記憶装置２に入力する画
像入力装置５、文字認識結果を表示する表示装置４、プ
ログラム、認識用の文字データ、辞書の納まっている記
憶装置２、ＦＤ（フロッピー（登録商標）ディスク）・
ＣＤ−ＲＯＭ・磁気テープ等の記録媒体に記憶されたプ
ログラム、データ等を記憶装置２に読み取る記憶媒体読
取装置６、処理を操作するキーボード、マウス等の入力
装置３により構成されている。

【０００３】図２は従来の概略フローチャートであり、
画像入力装置５により文宇画像を取得するステップ（ス
テップ２１）。次に、ステップ２１で取得した文字画像
より文字を１文字毎に切り出して認識し、認識候補文字
を出力する文字認識するステップ（ステップ２２）、単
語格納した単語辞書や文法的接続情報を格納した文法辞
書等の言語処理に必要な記憶装置２に格納された辞書を
検索し、ステップで得られた認識文字とそれに対する認
識候補文字と辞書を照合し、尤もらしい文字を出力する
言語処理ステップ（ステップ２３）とがら成る。

【０００４】図１１に示す例に基づいて説明する。

【０００５】画像入力装置５に入力される用紙上に印刷
又は記入された入力文字列の例（１１−１）“六ブロッ
クが空白で、小選挙区での戦い”及び入力文字列の文字
認識ステップで１文字毎に認識して得られる認識候補文
字の例（１１−２）であり、各文字列に対する認識候補
文字列である。記憶装置２に格納されている単語辞書
（図１２）の検索により「ブロック」、「空白」（１１
−３）等が見つかり、図１３のように文節候補が作成さ
れて「プ」が「ブ」に変更され、「自」が「白」に変更
され、入力文字列と同じ“六ブロックが空自で、小選挙
区での戦い”（１１−４）となり、表示装置４又は記憶
装置２に出力される。

【０００６】

【発明が解決しようとする課題】図１４に示すように、
画像入力装置５に入力される用紙上に印刷又は記入され
た入力文字列の例及び文字認識ステップで１文字毎に認
識して得られる認識候補文字の例であり、図において入
力文字列ぱアスペクトについでであり、各文字列に対す
る認識候補文字列である。単語辞書の検索により「アス
ベスト」が見つかり、「ぺ」が「べ」に変更され、
「ク」が「ス」に変更され、“アスベストについて”と
なる。

【０００７】文字認識ステップの結果、入力文字列と等
しく認識が正しかったにも拘らず、認識した単語が辞書
に格納されていない場合、言語処理で誤った文字に置き
換えてしまい、認識率を下げてしまっていた。

【０００８】本発明は上記問題に鑑みてなされたもの
で、その目的とする処は、辞書に登録されていない場合
でも、言語処理による文字認識の認識率を下げることな
く、言語処理による文字認識率の向上を図ることができ
るデータ処理方法を提供することにある。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、紙面等の反射光を光電変換して文字画像
を入力する光学的画像入力ステップと、前記入力画像か
ら文字を抽出し、予め所有している文字データ辞書との
比較を行ないながら候補文字列に変換する文字認識ステ
ップと、予め所有している単語データ辞書とを具備する
データ処理方法において、前記候補文字列の組み合わせ
と前記単語データ辞書中の単語データとを比較して単語
を抽出する単語抽出ステップと、連続する同文字種の第
１候補文字を未知語とする未知語抽出ステップと、前記
抽出した単語及び未知語から文節候補を作成する文節候
補作成ステップと、前記文節候補中より尤もらしい文節
候補を選択する文節候補選択ステップと、前記選択され
た文節をもとに第１候補文字を入れ換える文字候補決定
ステップを有することを特徴とする。

【００１０】

【発明の実施の形態】以下に本発明の実施の形態を添付
図面に基づいて説明する。

【００１１】図１はデータ処理装置の構成を示すブロッ
ク図であり、データ処理装置は、プログラムに従って処
理を実行する中央処理装置１、文字画像を記憶装置２に
入力する画像入力装置５、文字認識結果を表示する表示
装置４、プログラム、認識用の文字データ、辞書の納ま
っている記憶装置２、ＦＤ（フロッピーディスク）・Ｃ
Ｄ−ＲＯＭ・ＲＯＭ・磁気テープ等の記録媒体に記憶さ
れたプログラム、データ等を記憶装置２に読み取る記憶
媒体読取装置６、処理を操作するキーボード、マウス等
の入力装置３により主要部が構成されており、基本的に
は従来と同じである。

【００１２】図２は概略フローチャートであり、画像入
力装置５により文字画像を取得するステップ（ステップ
２１）。次に、ステップ２１で取得した文字画像より文
字を１文字毎に切り出して認識し、認識候補文字を出力
する文字認識するステップ（ステップ２２）、単語格納
した単語辞書や文法的接続情報を格納した文法辞書等の
言語処理に必要な記憶装置２に格納された辞書を検索
し、ステップで得られた認識文字とそれに対する認識候
補文字と辞書を照合して、尤もらしい文字を出力する言
語処理ステップ（ステップ２３）とから成り、従来と同
じである。

【００１３】図３は言語処理（ステップ２３）の詳細フ
ローチャートであり、形態素解析（ステップ３１）は、
文字候補列に対して、単語辞書を参照しながら、形態素
解析を行う形態素解析処理である。ここでは、形態素解
析の例は、二文節最長一致法による。ここで、二文節最
長一致法とは、形態素解析後の隣接する任意の二文節に
対応する読みの長さが最長になる文節の区切りを採用す
る方法である。こうして区切られた文節列を出力する。
その後、解釈可能な文節と、文節の構造を明らかにし、
その結果を形態素解析情報に追加する。ステップ３１の
形態素解析は、図１１において後述する。

【００１４】ステップ３２は、形態素解析情報を参照し
ながら、構文解析を行う構文解析処理である。形態素解
析情報から、文節の候補を各文節番号に対して１つずつ
選び出し、構文規則に基づいて句を生成していき、構文
解析を行い、最終的に文が生成できれば、構文解析に成
功したものと見なす。このような構文解析の方法は、構
文解析手法として一般的に行われており、公知であるた
め詳細は記述しない。構文解析に成功した場合は、ステ
ップ２３へ進む。構文解析に失敗した場合は、形態素解
析情報中の文節の候補を変更して構文解析を行う。全て
の文節の候補に対して構文解析に失敗した場合は、ステ
ップ３３に進む。

【００１５】ステップ３３は、形態素解析及び構文解析
によって解析された結果に基づいて最適な文字候補を決
定する文字候補決定処理である。ステップ３２において
構文解析に成功していれば、成功した構文解析で使用し
ている文節の候補の表記を最適な文字候補として決定す
る。構文解析に成功したものがなければ、ステップ３１
の形態素解析のみで、最適な文字候補を決定する。文宇
候補決定処理を終えた後、ステップ３４へ進む。

【００１６】ステップ３４は、ステップ３８で決定され
た最適な文字候補を表示する補正結果表示処理である。
これは、例えば言語処理によって画像認識結果の第１候
補が入れ替えられた場合、その文字だけを別の属性で表
示する等の処理である。補正結果表示処理を終えた後、
言語補正処理を終了する。

【００１７】図４はステップ３１の形態素解析を詳細化
したフローチャートである。

【００１８】ステップ４１は、文字候補列の全ての部分
文字列の組み合わせに対して、単語辞書を検索し、表記
が部分文字列にマッチする単語の各情報を単語情報に格
納する単語抽出処理である。単語抽出処理の詳細は後述
する。処理を終えた後、ステップ４２に進む。

【００１９】ステップ４２は、ステップ４１によって作
成された単語情報に、接続規則辞書に記述されている接
続規則を適用し、文節候補情報を作成する処理である。
文節候補を作成するとは、生成された文節の表記が必ず
文字候補列に格納されている文字候補列の部分列とマッ
チするように各単語に接続規則を適用することである。
こうして全ての文節候補を作成した後、ステップ３３に
進む。

【００２０】ステップ３３は、文節候補情報を参照して
最終的な文節を決定し、形態素情報を作成する文節の決
定処理である。文節を決定する際に用いられる手法は前
述した二文節最長一致法を７１１として処理を終える
と、形態素解析処理を終了する。

【００２１】図５はステップ４１の単語抽出処理を詳細
化したフローチャートである。

【００２２】ステップ５１は、文字候補列のあらゆる組
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
否かを調べる候補文宇部分列検索処理である。全ての候
補文宇部分列に対して検索を終えた後、ステップ５２へ
進む。

【００２３】ステップ５２は、ステップ５１で辞書検索
を行った結果、或る位置の文字候補に対して単語が抽出
できたか否かをチェックする検索チェック処理である。
或る位置の文字候補に対応する単語が１つでも見つかっ
た場合は、ステップ５４に進む。或る位置の文字候補に
対応する単語が全く見つからなかった場合は、ステップ
５３の未知語抽出処理に進む。

【００２４】ステップ５３は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
未知語抽出処理は、例えばひらがな、カタカナ、英字等
の字種が連続している部分を抽出して名詞と見なす処理
であり、かな漢字変換のような言語処理では一般に行わ
れている処理である。本発明における未知語処理では、
未知語として抽出される文字候補は全て画像認識におい
て第１候補である文字候補のみを抽出する。即ち、未知
語抽出処理が一旦起動されると、文字候補列の第１列に
おいて、起動された文字位置から同種の文字種が連続す
る部分を抽出して単語と見なし、その品調を名詞とす
る。処理を終えると、ステップ５４へ進む。

【００２５】ステップ５４は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ５５へ進む。

【００２６】ステップ５５は、文字候補列に格納されて
いる文字候補の末尾まで単語抽出できたか否かをチェッ
クする候補文字列終了チェックである。単語抽出が文字
候補列の末尾まで達していない場合は、ステップ５１に
処理が進む。文字候補列の末尾まで単語抽出が終了して
いれば、単語抽出処理を終える。

【００２７】図６はステップ４１の単語抽出処理を詳細
化したフローチャートである。

【００２８】ステップ６１は、文字候補列のあらゆる組
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
否かを調べる候補文宇部分列検索処理である。全ての候
補文宇部分列に対して検索を終えた後、ステップ６２へ
進む。

【００２９】ステップ６２は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
ステップ６３へ進む。

【００３０】ステップ６３は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ６４へ進む。

【００３１】ステップ６４は、文字候補列に格納されて
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。単語抽出が未
だ文字候補列の末尾まで達していない場合で、且つ、長
い単語が存在する場合は、ステップ６１に処理が進む。
文字候補列の末尾まで単語抽出が終了いる場合、又はこ
れ以上長い単語が存在しない場合は、単語抽出処理を終
える。

【００３２】図７は未知語抽出の詳細フローチャートで
ある。

【００３３】ステップ７１は未知語の先頭文字を取得す
る。ステップ７２は、対象文字の第１候補の文字種とス
テップ７１で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ７３に進み、異なった文字種の場
合、未知語抽出処理を終了する。ステップ７３は、前の
文字列に対象文字を結合する。

【００３４】ステップ７４は、対象文字を次の文字にす
る。次に、ステップ７２に戻る。

【００３５】図８は未知語抽出の詳細フローチャートで
ある。

【００３６】ステップ８１は未知語の先頭文字を取得す
る。ステップ８２は、対象文字の第１候補の文字種とス
テップ８１で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ８４に進み、異なった文字種の場
合、ステップ８３に進む。

【００３７】ステップ８３は、その文字が前の文字列と
結合可能かを判定する。結合可能な場合、ステップ８４
に進み、結合不可の場合、未知語抽出処理を終了する。

【００３８】ステップ８４は、前の文字列に対象文字を
結合する。ステップ８５は、対象文字を次の文字にす
る。次にステップ８２に戻る。

【００３９】図９は未知語抽出の詳細フローチャートで
ある。

【００４０】ステップ９１は未知語の先頭文字を取得す
る。ステップ９２は、対象文字の第１候補の文字種とス
テップ９１で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ９７に進み、異なった文字種の場
合、ステップ９８に進む。ステップ９８はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ９７に進み、結合不可の場合、ステップ９４に進
む。

【００４１】ステップ９４は、対象文字の次の文字候補
が存在するか否かを判定する。存在する場合、ステップ
９５に進み、存在しない場合、未知語抽出処理を終了す
る。ステップ９５は、次の文字候補を対象とする。ステ
ップ９６は、ステップ９５で取得した文字候補が前の文
字列に結合可能か否かを判定する。結合可能な場合、ス
テップ９７に進み、結合不可の場合、ステップ９４に戻
る。ステップ９７は前の文字列に対象文字を結合する。
ステップ９８は、対象文字を次の文字にする。次に、ス
テップ９２に戻る。

【００４２】図１０は未知語抽出の詳細フローチャート
である。

【００４３】ステップ１０１は未知語の先頭の文字種を
取得する。ステップ１０２は、対象文字の第１候補の文
字種とステップ１０１で取得した先頭文字種を比較す
る。先頭文字種と同じ文字種の場合、ステップ１０５へ
進み、異なる場合、ステップ１０３に進む。ステップ１
０３はその文字が前の文字列と結合可能か否かを判定す
る。結合可能な場合、ステップ１０５に進み、結合不可
の場合、ステップ１０４に進む。ステップ１０４は、変
更可能な文字が存在ｍするか否かを判定する。変更可能
な文字が存在する場合、ステップ１０５に進み、存在し
ない場合、未知語抽出処理を終了する。ステップ１０５
は、対象文字を前の文字列に結合する。ステップ１０６
は対象文字を次の文字にする。次に、ステップ１０２に
戻る。

【００４４】次に、本発明に係るデータ方法の表示例
（図１１）に従って処理の流れに沿って説明する。

【００４５】画像入力装置５に入力される用紙上に印刷
又は記入された入力文字列“アスペクトについて”（１
３−１）である。この用紙を画像取得ステップ（ステッ
プ２１）で画像ファイルを記憶装置２に格納する。画像
取得ステップで取得した画像ファイルを入力とし、文字
認識ステップ（ステップ２２）で１文字毎に認識して得
られる認識候補文字の例（１３−２）であり、各文字列
に対する認識候補文字列である。単語辞書の例（１３−
３）であり、単語抽出処理（ステップ４１）では、この
辞書検索により「アスベスト」（１３−４）を単語抽出
する。ここでは、「アスベクト」は辞書に格納されてい
ないものとする。

【００４６】未知語抽出処理で第１候補文字の同種文字
列「アスペクト」（１３−５）を未知語として抽出す
る。それぞれの単語を単語情報に登録する（ステップ６
３）。単語情報に登録された単語から文節を作成する
（ステップ４２）。作成された文節から構文解析する
（ステップ３２）。文節を決定する（ステップ４３）。
文字候補列から決定する（ステップ３３）。決定された
文字列“アスペクトについて”（１３−６）を表示装置
４に表示する（ステップ３４）。又は、記憶装置２に格
納する。

【００４７】画像入力装置５に入力される用紙上に印刷
又はは記入された入力文字列“アーカイブについて”
（１４−１）である。この用紙を画像取得ステップ（ス
テップ２１）で画像ファイルを記憶装置２に格納する。
ステップ２１で取得した画像ファイルを入力とし、文字
認識ステップ（ステップ２２）で１文字毎に認識して得
られる認識候補文字の列（６−２）であり、各文字列に
対する認識候補文字列である。単語抽出処理（ステッ
プ）では、この辞書検索で、「アーカイブ」は辞書に格
納されていないものとする。図８に示す未知語抽出処理
（ステップ）の詳細フローでは、未知語の先頭文字種
「カタカナ」を取得する（ステップ８１）。次の文字
「−（マイナス記号）」の文字種「記号」と先頭文字種
「カタカナ」を比較する（ステップ８２）。図のように
「−（マイナス記号）」は結合可能文字種は「英宇、数
字」であるため結合不可である。ステップ８４は前の文
字列に対象文字を結合する。ステップ８５は、対象文字
を次の文字にする。次にステップ８２に戻る。

【００４８】図９に示す未知語抽出処理（ステップ）の
詳細フローでは、未知語の先頭文字種「カタカナ」を取
得する（ステップ９１）。次の文字「−（マイナス記
号）」の文字種「記号」と先頭文字種「カタカナ」を比
較する（ステップ９２）。図のように「−（マイナス記
号）」の結合可能文字種は「英字、数字」であるため、
結合不可である（ステップ９３）。対象文字の次の文字
候補「ー（長音記号）」が存在する（ステップ９４）。
「ー（長音記号）」を対象とする（ステップ９５）。次
に、図のように「ー（長音記号）」の結合可能文字種は
「ひらがな、カタカナ」であるため結合可能である（ス
テップ９６）。前の文字列「ア」に対象文字を結合して
「アー」とする（ステップ９７）。対象文字を次の文字
「カ」にする（ステップ９８）。文字種チェックに戻
り、繰り返した結果、未知語「アーカイブ」が抽出され
る。

【００４９】未知語の先頭文字種「カタカナ」を取得す
る（ステップ１０１）。次の文字「−（マイナス記
号）」の文字種「記号」と先頭文字種「カタカナ」を比
較する（ステップ１０２）。図のように「−（マイナス
記号）」の結合可能文字種は「英字、数字」であるため
結合不可である（ステップ１０３）。変更可能な文字判
定する。図のように「−（マイナス記号）」は前文字種
が「ひらがな、カタカナ」の場合、変更候補文字として
「ー（長音記号）」がある（ステップ１０４）。「ー
（長音記号）」を前の文字「ア」に結合し「アー」とす
る（ステップ１０５）。対象文字を次の文字「カ」にす
る（ステップ１０６）。

【００５０】文字種チェックに戻り、繰り返した結果、
未知語「アーカイブ」が抽出される。ステップ１０１は
未知語の先頭の文字種を取得する。ステップ１０２は、
対象文字の第１候補の文字種とステップ１０１で取得し
た先頭文字種を比較する。先頭文字種と同じ文字種の場
合、ステップ１０５へ進み、異なる場合、ステップ１０
３に進む。ステップ１０３はその文字が前の文字列と結
合可能かを判定する。結合可能な場合、ステップ１０５
に進み、結合不可の場合、ステップ１０４に進む。変更
可能な文字が存在する場合、ステップ１０５に進み、存
在しない場合、未知語抽出処理を終了する。ステップ１
０５は、対象文字を前の文字列に結合する。ステップ１
０６は、対象文字を次の文字にする。次に、ステップ１
０２に戻る。

【００５１】対象文字の第１候補の文字種とステップ７
１で取得した先頭文字種を比較する。同じ文字種の場
合、ステップ７３に進み、異なった文字種の場合、未知
語抽出処理を終了する。ステップ７３は前の文字列に対
象文字を結合する。ステップ７４は、対象文字を次の文
字にする。次にステップ７２に戻る。

【００５２】「アーカイブ」を未知語として抽出する。
それぞれの単語を単語情報に登録する（ステップ）。単
語情報に登録された単語から文節を作成する（ステッ
プ）。作成された文節から構文解析する（ステップ）。
文節を決定する（ステップ）。文字候補列から決定する
（ステップ）。決定された文字列“アスベクトについ
て”（６−３）を表示装置４に表示する。又は、記憶装
置２に格納する。

【００５３】又、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。又、本発明はシステム或は装置にプログラ
ムを供給することによって実施される場合にも適用され
ることは言うまでもない。この場合、本発明に係るプロ
グラムを格納した記憶媒体が本発明を構成することにな
る。そして、該記憶媒体からそのプログラムをシステム
或は装置に読み込ませることによって、そのシステム或
は装置が予め定められた方法で動作する。プログラムを
格納する記録媒体としては、ＲＯＭ、フロッピーディス
ク、ＣＤ−ＲＯＭ、ハードディスク、メモリカード、光
磁気ディスク等を用いることができる。

【００５４】

【発明の効果】以上の説明で明らかなように、本発明に
よれば、紙面等の反射光を光電変換して文字画像を入力
する光学的画像入力ステップと、前記入力画像から文字
を抽出し、予め所有している文字データ辞書との比較を
行ないながら候補文字列に変換する文字認識ステップ
と、予め所有している単語データ辞書とを具備するデー
タ処理方法において、前記候補文字列の組み合わせと前
記単語データ辞書中の単語データとを比較して単語を抽
出する単語抽出ステップと、連続する同文字種の第１候
補文字を未知語とする未知語抽出ステップと、前記抽出
した単語及び未知語から文節候補を作成する文節候補作
成ステップと、前記文節候補中より尤もらしい文節候補
を選択する文節候補選択ステップと、前記選択された文
節をもとに第１候補文字を入れ換える文字候補決定ステ
ップを有するものとしたため、辞書に登録されていない
場合でも、言語処理による文字認識の認識率を下げるこ
となく、言語処理による文字認識率の向上を図ることが
できるという効果が得られる。

【図面の簡単な説明】

【図１】本発明に係る情報処理システムの構成を示すブ
ロック図である。

【図２】本発明に係る情報処理システムの動作を示すフ
ローチャートである。

【図３】本発明の実施の形態における言語補正処理手順
を示すフローチャートである。

【図４】本発明の実施の形態における形態素解析の手順
を示すフローチャートである。

【図５】本発明の実施の形態における単語抽出の手順を
示すフローチャートである。

【図６】本発明の実施の形態における単語抽出の手順を
示すフローチャートである。

【図７】本発明の実施の形態における未知語抽出の手順
を示すフローチャートである。

【図８】本発明の実施の形態における未知語抽出の手順
を示すフローチャートである。

【図９】本発明の実施の形態における未知語抽出の手順
を示すフローチャートである。

【図１０】本発明の実施の形態における未知語抽出の手
順を示すフローチャートである。

【図１１】従来の主要データフローを示す図である。

【図１２】従来の辞書データを示す図である。

【図１３】従来の文節データフローを示す図である。

【図１４】従来の主要データフローを示す図である。

【図１５】実施の主要データフローを示す図である。

【図１６】本発明の実施の形態での主要データフローを
示す図である。

【図１７】本発明の実施の形態での結合判定データを示
す図である。

【図１８】本発明の実施の形態での結合判定データを示
す図である。

【図１９】本発明の実施の形態での結合判定データを示
す図である。

【図２０】本発明の実施の形態での結合判定データを示
す図である。

【符号の説明】

１中央処理装置２記憶装置３入力装置（キーボード）４表示装置５画像入力装置６記憶媒体読取装置

Claims

【特許請求の範囲】

【請求項１】紙面等の反射光を光電変換して文字画像
を入力する光学的画像入力ステップと、前記入力画像か
ら文字を抽出し、予め所有している文字データ辞書との
比較を行ないながら候補文字列に変換する文字認識ステ
ップと、予め所有している単語データ辞書とを具備する
データ処理方法において、前記候補文字列の組み合わせと前記単語データ辞書中の
単語データとを比較して単語を抽出する単語抽出ステッ
プと、連続する同文字種の第１候補文字を未知語とする
未知語抽出ステップと、前記抽出した単語及び未知語か
ら文節候補を作成する文節候補作成ステップと、前記文
節候補中より尤もらしい文節候補を選択する文節候補選
択ステップと、前記選択された文節をもとに第１候補文
字を入れ換える文字候補決定ステップを有することを特
徴とするデータ処理方法。
【請求項２】前記未知語抽出ステップは、前記候補文
字列の組み合わせから結合判定データに基づいて未知語
を作成する未知語抽出ステップを有することを特徴とす
る請求項１記載のデータ処理方法。
【請求項３】前記未知語抽出ステップは、結合判定デ
ータに基づいて候補文字を変更し未知語を作成する未知
語抽出ステップを有することを特徴とする請求項１記載
のデータ処理方法。