JP6489768B2

JP6489768B2 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: JP6489768B2
Application number: JP2014139867A
Authority: JP
Inventors: 欽也本田; 忠則中塚; 妙子山▲崎▼; 洋正川▲崎▼
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2019-03-27
Anticipated expiration: 2034-07-07
Also published as: JP2016019099A

Description

本発明は、情報処理装置、情報処理方法、プログラムに関する。

図３は、スキャン画像の一例である。このスキャン画像を編集したい場合がある。特許文献１は、スキャン画像の編集機能を開示している。

具体的には、特許文献１は、スキャン画像から、複数の罫線により構成される表領域を特定し、さらに、その表領域の内部の文字を文字認識する。また、表領域を構成する各罫線をベクトル化する。

そして、スキャン画像を左のウィンドウに表示しつつ、ベクトル化結果と認識文字とを右のウィンドウに表示する（特許文献１の図５）。

ユーザがこの右のウィンドウにて文字の編集を行うと、左のウィンドウから、上記特定された表領域が削除される。そして、編集後の文字が追加された表を生成し、当該生成された表を左のウィンドウに表示する。

特開２００１−０９４７６０

しかしながら、特許文献１の手法を取ると表領域の誤認識があった場合に、文字の編集が行いづらくなる。

上記課題を解決するために、本発明の情報処理装置は、画像と、前記画像を解析することにより特定された複数の領域とを表示するように制御する第１表示制御手段と、前記表示された複数の領域の中から、ユーザの指示に基づいて第１の領域を選択する選択手段と、前記選択手段で選択された前記第１の領域の頂点の位置を変更するための指示を前記ユーザから受付ける受付手段と、前記指示に応じて頂点の位置が変更された前記第１の領域が、前記表示された複数の領域の中の第２の領域を含んでいるか否かを判定し、前記指示に応じて頂点の位置が変更された前記第１の領域が、前記表示された複数の領域の中の第２の領域を含んでいると判定したことに従って、前記第１の領域と前記第２の領域とを結合する結合手段とを有することを特徴とする。

画像を解析することにより特定される領域についての変更が容易にできるようになる。

複写機１００の構成を示すブロック図情報処理装置２００の構成を示すブロック図スキャン画像の例スキャン画像の領域分割結果認識セルの枠を表示する表示画面認識セルが選択された際に表示される表示画面編集後の文字を表示した画面メインフローチャート編集のフローチャート認識セルの位置を変更するフローチャート編集後の文字の表示フロー認識セル４０６が選択された際に表示される表示画面認識セルを拡大する際に表示される表示画面認識セルを結合後に表示される表示画面認識セルを結合・分割するフローチャート認識セル４０７が選択された際に表示される表示画面認識セルを縮小する際に表示される表示画面認識セルを分割後に表示される表示画面式１の意味を説明する図セル内接直線検出領域を示す図セル内接直線の検出を示す図認識セル内部の削除のフローチャート認識セルの検出を示す図実施例２のフローチャート実施例２の認識セルを結合する際に表示される表示画面実施例３のフローチャート実施例３の認識セルを結合する際に表示される表示画面実施例４の課題を説明する図実施例４の課題を説明する図実施例４のフローチャート

まず、言葉の定義を行う。

オリジナル文字とは、スキャン画像中の文字のことである。

認識文字とは、オリジナル文字を文字認識することで得られた文字コード、又は、編集ウィンドウに表示される、その文字コードに対応する文字のことである。この認識文字は、編集ウィンドウ用文字サイズ（編集ウィンドウ用文字サイズとは、編集ウィンドウ用に設定された文字サイズという意味である）で編集ウィンドウ上に表示される。なお、この編集ウィンドウに表示される文字は、編集対象の文字となっている。

文字の編集は、ユーザが、編集ウィンドウから認識文字を削除して、代わりの文字を編集ウィンドウに入力する行為を示す。編集後の文字とは、入力された代わりの文字、又は、その文字に対応する文字コードのことである。この編集後の文字は、編集ウィンドウ上に表示される場合には、編集ウィンドウ用文字サイズで表示されるが、スキャン画像上に表示される場合には、スキャン画像用文字サイズで表示される。

なお、スキャン画像用文字サイズも編集ウィンドウ用文字サイズも共にそのデフォルト値は、予め保存部２０２に保存されているものとする。

以下、本発明を実施するための最良の形態について図面を用いて説明する。

＜第１の実施形態＞
＜複写機の構成と情報処理装置の構成＞
図１に本実施形態における複写機１００の構成を示す。複写機１００は、スキャナ１０１、送受信部１０２、プリンタ１０３より構成される。

図２に本実施形態における情報処理装置２００の構成を示す。情報処理装置２００は、ＣＰＵとＲＯＭ及びＲＡＭを内部に有する。ＣＰＵはＲＯＭから情報処理装置２００のプログラムをロードし、一次保存領域としてＲＡＭを利用して情報処理装置２００のプログラムを実行する。以上の動作により、各部（２０１−２０５）の処理が実行される。なお、受付部２０５は、キーボードとマウスを含む形態が一般的であるが、この形態に限られない。また、受付部２０５と表示部２０４は一体であっても良い。その場合、受付部２０５と表示部２０４をまとめてタッチパネルと呼ぶことになり、実施例中のクリックなる記載は、タッチと読み替えて頂くことになる。

＜スキャンから領域分割、文字認識まで＞
複写機１００のスキャナが文書をスキャンすると、スキャン画像（スキャン画像データとも言う）が生成される。生成されたスキャン画像を送受信部１０２が情報処理装置２００に送信する。すると、情報処理装置２００の送受信部２０１がこれを受信し、保存部２０２にそのスキャン画像を保存する。

ユーザが受付部２０５を介して、保存部２０２に保存されている複数のスキャン画像の中から、一つのスキャン画像を選択する。すると、制御部２０３は、そのスキャン画像を表示部２０４に表示する。

ユーザが受付部２０５を介して、表示部２０４に表示されたスキャン画像の解析を指示する。すると、制御部２０３は、領域分割と、文字認識と、認識セル枠表示の三つの処理を実行し、実行結果を表示部２０４に表示する。図３は、スキャン画像の例であり、図４は、制御部２０３による三つの処理の実行後の表示部２０４の表示結果である。

＜領域分割（１）−（５）、文字認識（６）、認識セル枠表示（７）の説明＞
（１）二値化
制御部２０３は、スキャン画像に対して２値化を行うことにより、２値画像を得る。この２値化により、スキャン画像における閾値より濃い色の画素は黒画素、その閾値より薄い色の画素は白画素となる。なお、以下では、スキャン画像が１００ＤＰＩであるものとして説明を行うが、スキャン画像がこの解像度に限られないのは言うまでもない。

（２）黒画素塊検出
制御部２０３は、２値画像に対して８連結で繋がる黒画素の輪郭を追跡することにより、８方向の何れかの方向で連続して存在する黒画素の塊（黒画素塊）を検出する。８連結とは、左上、左、左下、下、右下、右、右上、上の８つの方向の何れかで、同じ色（今回のケースでは黒）の画素が連続しているという意味である。一方、４連結とは、左、下、右、上の４つの方向の何れかで同じ色の画素が連続しているという意味である。この（２）では、８方向に存在する８つの隣接画素の何れもが黒画素ではない単独の黒画素は検出されない。一方、８方向に存在する８つの隣接画素の何れか１つにでも黒画素が存在する黒画素は、その隣接する黒画素と共に、黒画素塊として検出されることになる。図２３の２３０１は制御部２０３が検出した黒画素塊の一例である。また制御部２０３は、検出した黒画素塊の外接矩形の位置情報（四頂点のＸ、Ｙ座標情報のこと）を算出する。なお、Ｘ軸は右方向に伸び、Ｙ軸は下方向に伸びているものとする。幅は、Ｘ軸方向の長さ、高さは、Ｙ軸方向の長さを指す。図２３の２３０２は黒画素塊２３０１の外接矩形である。なお、本明細書で矩形と表現した時には、斜め向きの矩形は含まれず、四辺の全てがＸ座標軸、Ｙ座標軸の何れかと平行な矩形を表す。

（３）表領域検出
制御部２０３は検出した黒画素塊が以下の全ての条件に該当するか判定し、全てに該当する黒画素塊を表の枠線を構成する黒画素塊であると判定する。

黒画素塊の外接矩形の幅、高さが閾値以上（たとえば、１００画素・・・０．２５ｃｍ以上）である。

外接矩形の内部における黒画素塊の充填率が閾値以下である（たとえば、黒画素塊が外接矩形に占める割合が２０％以下）。

黒画素塊の最大幅及び高さと、外接矩形の幅及び高さの差が何れも小さい（たとえば、黒画素塊の最大幅及び高さと、外接矩形の幅及び高さの画素の差がともに１０画素以下）。

制御部２０３は、表の枠線を構成すると判定した黒画素塊の外接矩形の位置情報を保存部２０２に保存する。以下では、そのように保存された位置情報を持つ外接矩形を表領域と呼ぶ。なお、以上の判定の結果、図２３の黒画素塊２３０１は表の枠線を構成すると判定されたものとする。それに伴い、外接矩形２３０２は、表領域と呼ばれることになる。

（４）認識セルの特定
制御部２０３は、表領域内部の認識セルを特定する。認識セルを特定するためには、表領域内部の白画素の輪郭を追跡することにより、白画素塊を検出する必要がある。その上で、その白画素塊が所定の条件に合致する場合に、その白画素塊の外接矩形は、認識セルとして特定される。図２３の２３０３、２３０４は、制御部２０３が特定した認識セルである。制御部２０３は、特定された認識セルの位置情報を保存部２０２に保存する。

なお、例えば、所定の条件に合致するとは、以下の三つの条件の全てに合致することを指す。

白画素塊の外接矩形の幅、高さが閾値以上（たとえば、２０画素）である。

白画素塊の最大幅及び高さと、外接矩形の幅及び高さの差が何れも小さい（たとえば、白画素塊の最大幅及び高さと、外接矩形の幅及び高さの画素の差がともに５画素以下）。

（５）認識セル内の文字領域の特定
制御部２０３は、各認識セルの内部に、その各認識セルに内接する白画素塊によって囲まれた黒画素塊があるか判定する。そして、黒画素塊があると判定した場合、あると判定された全ての黒画素塊に外接矩形を設定する。

さらに、制御部２０３は、自身が一つの認識セルの中に複数の外接矩形を設定した場合には、外接矩形同士の距離が閾値３（例えば２０画素・・・０．５ｃｍ）以内であるか判定する。具体的には、制御部２０３は、外接矩形を一つ一つ選択し、選択された外接矩形からの距離が閾値３以内である外接矩形を検出する。

さらに、制御部２０３は、自身がそうした外接矩形を検出した場合、検出した外接矩形と、選択された外接矩形とを統合する。即ち、制御部２０３は、両方の外接矩形に外接する新たな外接矩形を設定し、その代わり、選択された外接矩形と、検出された外接矩形を削除する。

新たな外接矩形の設定、二つの外接矩形の削除が完了した後、制御部２０３は、その認識セル内の外接矩形をまた初めから一つ一つ選択し、互いの間の距離が閾値３以内である外接矩形同士を統合していく。以上の処理を繰り返す。即ち、互いの間の距離が閾値３以内である外接矩形が無くなるまで、外接矩形同士の統合が繰り返される。

以上の通り、本実施例では、一つの認識セルの内部に存在する外接矩形同士の統合を行うが、認識セルをまたぐ外接矩形同士の統合を行わない。

以上の処理が終わって依然として設定されている外接矩形は、文字領域と呼ばれる。以上の処理を認識セル内の文字領域の特定と呼ぶ。制御部２０３は、認識セルの内部に存在する文字領域の位置情報を、当該認識セルに関連付けて保存部２０２に保存する。

図２３の２３０５、２３０６は文字領域であって、認識セル２３０３には、文字領域２３０５が、認識セル２３０４には文字領域２３０６が関連付けられ、保存部２０２に保存される。

図３のスキャン画像に対して行われた領域分割の結果を図４に示す。図４では、特定された認識セルを示す外接矩形に太線枠を付け、文字領域を示す外接矩形に点線枠を付けている。図４の例では、４０２、４０３、４０４、４０６、４０７が認識セルである。４０１、４０５が文字領域である。

この図４では、４０３内部の罫線が掠れてしまっているため、本来は、複数のセルからなる４０３が１つの認識セルとして特定されている。また、４０６、４０７は、本来は、単一のセルであるにも関わらず、ノイズの関係で、別々の認識セルとして特定されている。

（６）文字認識
制御部２０３は、各文字領域に対して文字認識を行うことによって、各文字領域に対応する認識文字を得る。認識文字は、対応する文字領域に関連付けて保存部２０２に保存する。そうすることによって、認識文字は、文字領域と予め関連付けられている認識セルとも関連付けられることになる。文字認識を行わない場合、もしくは文字認識に失敗した場合は、文字領域に関連付けられる認識文字はない。

（７）認識セル枠表示
制御部２０３は、各認識セルの四辺（即ち、外接矩形の四辺）に太線枠を付けてスキャン画像を表示部２０４に表示する。表示された画面は図５となっている。なお、枠の形態は、太線でなくても実線でなくても良く、黒でなくても良いのは言うまでも無いが、これ以降は、太線であるものとして説明を続ける。また、この（７）で太線枠と共に表示されるスキャン画像は、（１）−（６）の処理が行われる前のスキャン画像であり、即ち、２値化前のスキャン画像である。

＜図８の説明＞
ユーザが受付部２０５を介して、表示部２０４に表示されている図５における任意の箇所をクリックする。なお、本明細書においてクリックとは、マウスの左ボタンを押して、すぐに（押してから一定時間内に）離す行為のことである。クリックされた箇所が認識セルの外接矩形の内側の場合に、制御部２０３は、その認識セルが選択されたと判定する（Ｓ８０１）。図６に、認識セル６０２が選択された際に表示される表示画面を示す。ここでは、認識セル６０２が選択されたものとして以下説明を続ける。なお、６０１は、受付部２０５を介してユーザが指し示している場所を示すマウスポインタである。

上記判定がなされると、制御部２０３は、選択された認識セルの内部のオリジナル文字を編集するための編集ウィンドウ６０４と、選択された認識セル６０２の位置や大きさを変更するためのハンドル６０３とを表示部２０４に追加表示する（Ｓ８０２）。このハンドル６０３（認識セル位置変更ハンドルと呼ばれる）は、選択された認識セル６０２の太線枠の四頂点に追加表示される。図６に、認識セル位置変更ハンドル６０３と編集ウィンドウ６０４が追加表示された結果を示す。

またＳ８０２では図６のように、選択された認識セル（選択状態の認識セル）が他の認識セルと区別つくようにするのも好ましい。例えば、選択状態の認識セルの枠をより太くするのも好ましい（極太線枠とするのも好ましい）。もちろん他の認識セルと区別つくのであれば他の方法を取っても良い。例えば、選択状態の認識セルの枠を他の色にしたり、点線とするような方法も考えられる。ただし、本明細書では、選択された認識セルを他の認識セルと区別つけるための方法として極太線枠を用いる方法を採用した場合を例に以下説明を続ける。

なお、認識セルに対する選択状態が解除された場合には、そうした極太線枠状態から元の状態に戻ることになる（即ち、他の認識セルと同じ太線枠状態に戻ることになる）。

編集ウィンドウ６０４における文字入力欄６０５には、選択された認識セルに関連付けられている認識文字が編集ウィンドウ用文字サイズで表示される。ユーザはこの文字入力欄６０５から認識文字を削除し、代わりに、他の文字を入力することができる。そうすることにより、認識文字の編集ができる。なお、選択された認識セルと関連付けられている認識文字が無い（例えば、選択された認識セル内部から文字領域が検出されなかった、もしくは文字領域は検出されたが文字認識が失敗して認識文字が存在しない。）場合には、文字入力欄６０５は空欄となる。

ＯＫボタン６０６は、文字の編集を確定する場合にクリックされるボタンである。Ａｐｐｌｙボタン６０７は、編集後の文字をスキャン画像上に表示したい場合にクリックされるボタンである。Ｃａｎｃｅｌボタン６０８は、文字の編集をキャンセルしたい場合にクリックされるボタンである。

図６が表示された後、ユーザは受付部２０５に対して新たな操作を行う。もしその操作が編集ウィンドウ６０４上での文字編集であれば、制御部２０３は、Ｓ８０３（図９のＳ９０１）に処理を進める。ユーザが受付部２０５に対して行った操作が認識セル位置変更ハンドルに対する操作であれば、制御部２０３は、Ｓ８０４（図１０のＳ１００１）に処理を進める。

＜図９の説明＞
Ｓ９０１では、制御部２０３は、認識セル位置変更ハンドル６０３を非表示にする。

Ｓ９０２では、制御部２０３は、編集ウィンドウ６０４上で編集された後の文字を、編集ウィンドウ用文字サイズで編集ウィンドウ６０４に表示する。

Ｓ９０３では、制御部２０３は、文字編集後にユーザが受付部２０５に対して行った操作が、別の認識セルの選択か、Ａｐｐｌｙボタンのクリックか、ＯＫボタンのクリックか、Ｃａｎｃｅｌボタンのクリックか判定する。Ｃａｎｃｅｌボタンのクリックであると判定した場合には、制御部２０３は、選択されている認識セルの選択状態を解除して図９の処理を終了する。なお、これ以降では説明を省略するが、選択状態が解除された認識セルは、上述の通り、極太線枠状態から、他の認識セルと同じ太線枠状態に戻ることになる。

それ以外であると判定した場合には、制御部２０３は、選択されている認識セル内部（即ち、スキャン画像における認識セルの内部）の色を全て削除する（Ｓ９０４）。ここで、色を削除するとは、認識セル内の画素の色情報を既定の色情報に置換するという意味である。本実施例では、規定の色情報が白であるものとして説明を続けるが、白に限るものではない。このＳ９０４における具体的な処理は、図２０−図２２を用いて後述する。

その上で制御部２０３は、編集後の文字をその認識セル内部にスキャン画像用文字サイズで配置する（Ｓ９０５．１。図１１で詳細に説明する）。そして、制御部２０３は、編集後のスキャン画像（即ち、認識セル内部の削除、及び、編集後の文字の配置が完了した画像）を保存部２０２に保存すると共に、表示部２０４で表示されているスキャン画像にこの編集後のスキャン画像を置き換える（Ｓ９０５．２）。そうすることにより、この編集後のスキャン画像は、各認識セルの外接矩形に太線枠が付けられた状態で表示されることになる。また、現在選択されている認識セルの外接矩形については極太線枠状態で表示されたままとなる。

さらに、上記操作がＯＫボタンのクリックであれば（Ｓ９０６）、制御部２０３は、選択されている認識セルの選択状態を解除した上で図９の処理を終了する。また、上記操作が別の認識セルの選択であれば（Ｓ９０６）、制御部２０３は、選択されている認識セルの選択状態を解除した上でＳ８０２に処理を進める。また、上記操作がＡｐｐｌｙボタン６０７のクリックであれば（Ｓ９０６）、制御部２０３は、Ｓ９０５．１で配置された編集後の文字の外接矩形の四頂点に文字位置変更ハンドルを表示する（Ｓ９０７）。

ユーザがもし編集後の文字の位置を変更したい場合には、この文字位置変更ハンドルの位置を動かす操作を受付部２０５に対して行うことになる。すると、その操作に応じた文字位置変更を制御部２０３は行い、さらに、その文字位置変更後の画像を、保存部２０２で保存されている編集後のスキャン画像と置き換える。さらに、表示中の編集後のスキャン画像とも置き換える。そうすることにより、文字位置変更後の画像が、編集後のスキャン画像として保存、表示されることになる（Ｓ９０８）。一方、文字位置を変更する必要が無い場合には、文字位置変更ハンドルに対する操作は行われない。その場合、Ｓ９０８では何も行われず、スキップされることになる。

その後、ユーザは、別の認識セルを選択するか、ＯＫボタンをクリックするか、Ｃａｎｃｅｌボタンをクリックすることになる。もし別の認識セルの選択がされたことを受付部２０５が受付けると（Ｓ９０９）、制御部２０３は、選択されている認識セルの選択状態を解除してＳ８０２に処理を進める。ＯＫボタンがクリックされたことを受付部２０５が受付けると（Ｓ９０９）、制御部２０３は、選択されている認識セルの選択状態を解除して図９の処理を終了する。また、もしＣａｎｃｅｌボタンがクリックされたことを受付部２０５が受付けると（Ｓ９０９）、制御部２０３は、選択されている認識セルの内部を元の状態に戻す（即ち、黒画素塊の削除前の状態に戻す）。その上で制御部２０３は、選択されている認識セルの選択状態を解除して図９の処理を終了する（Ｓ９１０）。

図９の処理が終了した後は、ユーザからの他の認識セルの選択を待つ状態となる。また、ユーザから受付部２０５に対して別の装置への編集後のスキャン画像の送信が指示された場合には、制御部２０３は、その選択待ち状態を解除する。その上で、制御部２０３は、保存部２０２に保存されている編集後のスキャン画像を送受信部２０１に別の装置へ送信させる。その別の装置が仮に複写機１００だったとすると、複写機１００は、編集後のスキャン画像を送受信部１０２により受信し、ユーザからの指示によっては編集後のスキャン画像をプリンタ１０３により印刷することになる。

以上の処理を行った場合、別の装置に送信される編集後のスキャン画像は、（選択されていた）認識セル内部の削除、及び、編集後の文字の配置が完了した画像となる。しかし、送信される画像は、必ずしもこれに限られるものではない。例えば、元のスキャン画像（２値化前のスキャン画像）と、認識セル内部の削除命令と、編集後の文字の配置命令とを含むファイルであっても良い。そのようなファイルを別の装置が受信した場合には、その別の装置の側で元のスキャン画像から認識セル内部の削除、及び、編集後の文字の配置が行われることになる。

＜図１０の説明＞
上述の通り、ユーザが受付部２０５に対して行った操作が認識セル位置変更ハンドル６０３に対する操作であれば、制御部２０３は、Ｓ８０４（図１０のＳ１００１）に処理を進める。

Ｓ１００１では、制御部２０３は、その操作に合わせて、認識セルの位置を変更し、変更後の位置の認識セルの四辺を極太線枠状態にして表示部２０４に表示する。この際、変更前の位置の認識セルの四辺の極太線枠状態は解除され、通常の状態（太線枠も極太線枠も付いていない状態）に戻ることになる。また、認識セル位置変更ハンドル６０３も同様に、変更前の位置の認識セルの四頂点からは解除され、変更後の位置の認識セルの四頂点に表示されることになる。なお、認識セルの位置を変更するとは、保存部２０２に保存されている認識セルの位置情報を変更することを意味する。

その後、制御部２０３は、編集ウィンドウ６０４を介した文字編集が行われるまで待機し、文字編集が行われると制御部２０３は、Ｓ９０１に処理を進める。

このように、文字編集が行われる前に認識セルの位置を変更可能とすることによって、Ｓ９０４で内部が削除される対象となる認識セルの位置を変更することができる。これにより、削除されるべき部位が削除され、かつ、削除されるべきでない部位が削除されずにすむこととなる。

＜図１１の説明＞
図１１を用いて、Ｓ９０５．１の処理の詳細を説明する。

Ｓ１１０１で、制御部２０３は、選択されている認識セルの位置情報、および当該認識セルに関連付けられた文字領域の位置情報を保存部２０２から取得する。

次にＳ１１０２で、制御部２０３は基準線の設定を行う。

認識セルの左上座標を（Ｘ１，Ｙ１）、右下座標を（Ｘ２，Ｙ２）、文字領域の左上座標を（ｘ１，ｙ１）、右下座標を（ｘ２，ｙ２）とする。

制御部２０３は、基準線の設定を行うために、まず、選択されている認識セルにおける文字領域の左右の余白を計算する。
左側の余白ｘ１−Ｘ１
右側の余白Ｘ２−ｘ２
（左側の余白）≧（右側の余白）ならば、基準線は文字領域の右辺、すなわち、（ｘ２，ｙ２）、（ｘ２，ｙ２）を結ぶ直線に設定される。
（左側の余白）＜（右側の余白）ならば、基準線は文字領域の左辺、すなわち、（ｘ１，ｙ１）、（ｘ１，ｙ２）を結ぶ直線に設定される。

Ｓ１１０３で、制御部２０３は、選択されている認識セル内部の設定されている基準線に合わせて、編集後の文字を配置する。

この時、配置される文字のサイズとして、スキャン画像用文字サイズのデフォルト値が用いられるものとするが、下記のようにして決定されたサイズを用いても良い。たとえば、選択されている認識セル内部に存在していたオリジナル文字の幅が４文字で１００ドットだった場合に、１文字あたりのサイズは、２５ドットと推定される。この認識セル内部に編集後の文字を違和感なく配置するためには、編集後の文字も１文字あたり２５ドット程度であるのが好ましい。このことから、標準的な文字のサイズが２５ドットとなるようなポイント数を計算し、そのポイント数を、配置される文字のサイズとして用いることも可能である。また、そのように決定された文字サイズをユーザが手動で変更できるような構成としても良い。さらには、配置される文字の色やフォント、スタイル（標準、斜体、太字）をユーザが手動で変更できるような構成としても良い。

ここで、編集後の文字の外接矩形の高さがＨ、幅がＷだったとする。また、文字領域の左上座標が（ｘ１，ｙ１）、右下座標が（ｘ２，ｙ２）であり、Ｓ１１０２で求めた基準線が文字領域の右辺だったとする。

この場合、編集後の文字の外接矩形を配置する座標は、Ｗｉｎｄｏｗｓ（登録商標）の場合（ｘ座標は右に行くほど大きくなり、ｙ座標は下に行くほど大きくなる）、
左上座標（ｘ２−Ｗ，ｙ２−Ｈ）
右下座標（ｘ２，ｙ２）
となる。

もし、基準線が左辺の場合には、編集後の文字の外接矩形の左辺を基準線（文字領域の左辺）に合わせるため、編集後の文字を配置する座標は、
左上座標（ｘ１，ｙ２−Ｈ）
右下座標（ｘ１＋Ｗ，ｙ２）
となる。

なお、これらの例では、編集後の文字の高さ方向（Ｙ方向）の位置は、オリジナル文字の配置されていた文字領域の下辺の位置を基準とした。しかしながら、この位置ではなく、編集後の文字の高さ方向の中心と、オリジナル文字の配置されていた文字領域の高さ方向の中心が揃うように編集後の文字の位置を決めても構わない。

＜Ｓ１００１の詳細（認識セルの結合と分割）＞
図４において、認識セル４０６と認識セル４０７は、本来は単一のセルであるにも関わらず、ノイズの関係で別々の認識セルとして特定されている。認識セル４０６と認識セル４０７を結合して、単一の認識セルとする手段について、図１５を用いて説明する。なお図１５は、図１０のＳ１００１の認識セル位置変更の処理の詳細を示す。

まず、ユーザが受付部２０５を介して、認識セル位置変更ハンドルをドラッグして、選択中の認識セルの位置を変更する（Ｓ１５０１）。本実施形態では、認識セルの四頂点に表示されている四つのハンドルのうちの一つのハンドルを掴んで、その一つのハンドルの位置の変更のみを行うため、認識セルのサイズも自動的に変更されることになる。

Ｓ１５０２では、制御部２０３が、変更した位置が、選択中の認識セルの縮小にあたるか、拡大にあたるか、どちらにもあたらないかを判定する。具体的な判定方法を以下に述べる。位置を変更する前の認識セルの幅をＷ１、高さをＨ１とし、位置を変更した後の認識セルの幅をＷ２、高さをＨ２とする。Ｗ１＜Ｗ２かつＨ１＜Ｈ２の場合は、制御部２０３が認識セルの拡大と判定する。Ｗ１＞Ｗ２かつＨ１＞Ｈ２の場合は、制御部２０３が認識セルの拡大と判定する。それ以外の場合は、制御部２０３が、どちらにもあたらないと判定する。

どちらにもあたらないと判定された場合は、制御部２０３は処理を終了する。

認識セルの拡大と判定した場合、制御部２０３は、拡大後の認識セルが、別の認識セルを包含するかどうかを判定する（Ｓ１５０３）。別の認識セルを包含しないと判定した場合は、制御部２０３は認識セルの結合は行わず、処理を終了する。

一方、Ｓ１５０３で別の認識セルを包含すると判定した場合は、制御部２０３は、拡大後の認識セルと、包含した当該別の認識セルを結合する（Ｓ１５０５）。

認識セルの結合ステップ（Ｓ１５０５）では、制御部２０３は、結合する前の各々の認識セルの座標を元に、両方の認識セルを含む最小の矩形を結合後の認識セルと設定する。そして、その設定した結合後の認識セルの位置情報を保存部２０２に保存する。例えば、結合する２つの認識セルの左上座標をそれぞれ（Ｘａ，Ｙａ）、（Ｘｂ，Ｙｂ）とし、仮にＸａ＞Ｘｂ、Ｙａ＜Ｙｂとすると、結合後の認識セルの左上座標は（Ｘｂ、Ｙａ）になる。左下、右上、右下座標についても同様の考え方で決定する。また、結合する認識セルが３個以上の場合でも同様である。なお、結合後の認識セルの位置情報が保存されることに伴い、拡大後の認識セルの位置情報及び上記別の認識セルの位置情報は保存部２０２から削除される。

次に、制御部２０３は、各々の認識セルに含まれる文字領域を結合する（Ｓ１５０６）。

具体的には、制御部２０３が、結合後の認識セルに含まれている文字領域を検出する。検出される文字領域は、拡大前の認識セルに含まれている文字領域と、上記別の認識セルに含まれている文字領域となる。その上で、検出した文字領域同士を結合する。結合後の文字領域は、結合前の全ての文字領域を包含する最小の矩形となる。この最小の矩形の位置情報を結合後の文字領域の位置情報として、結合後の認識セルと関連付けて保存部２０２に保存する。その代わりに、拡大前の認識セルに含まれていた文字領域の位置情報と、上記別の認識セルに含まれていた文字領域の位置情報を保存部２０２から削除する。

次に制御部２０３は、認識文字を結合する（Ｓ１５０７）。具体的には、制御部２０３は結合後の文字領域に含まれる複数の認識文字同士を結合することにより、１つの認識文字を新規に作成する。代わりに、元の複数の認識文字は削除する。新規に作成した認識文字は、制御部２０３が結合後の文字領域に関連付ける。なお、認識文字の結合では、単純に複数の認識文字を繋げるだけでもよいし、認識文字の間にスペースを挿入してもよい。

次に制御部２０３は、結合前の認識セルの四頂点から認識セル位置変更ハンドルを消して、結合後の認識セルの四頂点に認識セル位置変更ハンドルを表示部２０４に表示する（Ｓ１５０８）。つまり、結合後の認識セルが選択された状態にする。

また、制御部２０３は、結合後の認識文字を、編集ウィンドウ６０４における文字入力欄６０５に表示する（Ｓ１５０９）。

以上の認識セルの結合手段について、図１２、図１３、図１４を用いて、具体例を示す。

図１２はノイズにより別々の認識セルとして特定された認識セル４０６と認識セル４０７のうち、認識セル４０６がユーザにより選択された際の表示画面である。認識セル４０６と認識セル４０７は別々の認識セルとして特定されているため、文字入力欄１２０１には認識文字として「ＧｙｍＢａｇ」ではなく「Ｇｙｍ」が表示されている。

認識セル４０６と認識セル４０７を結合したい場合、まずユーザは認識セル４０６の認識セル位置変更ハンドル６０３をドラッグして、認識セル４０７を全て含むまで拡大する（図１３）。なお、認識セルをドラッグして拡大する際には、認識セルを拡大している最中であることが分かるよう、認識セルの枠の表示を変更するのが好ましい。例えば１３０１のように、認識セルを拡大している間は、認識セルの枠を点線で表示する。

ユーザが認識セル位置変更ハンドル６０３のドラッグを完了すると、制御部２０３は認識セル４０６と認識セル４０７を結合して、結合後の認識セル１４０１を表示部２０４に表示する（図１４）。また、文字領域の結合も行う。そして、Ｓ１５０７で認識文字の結合を行い、結合後の認識文字「ＧｙｍＢａｇ」を認識文字として文字入力欄１４０２に表示する。

次に、認識セルの分割について説明する。

図１６において、認識セル４０３は、本来は「Ｄｅｓｃｒｉｐｔｉｏｎ」、「Ｑｕａｎｔｉｔｙ」、「ＵｎｉｔＰｒｉｃｅ」、「Ａｍｏｕｎｔ」の認識文字を含む４つの認識セルとなるべきである。しかし、スキャン画像の罫線が掠れているため、１つの認識セルとして特定されている。認識セル４０３を分割して、複数の認識セルとする手段について、Ｓ１５１１−Ｓ１５１６を用いて説明する。

Ｓ１５０２で、制御部２０３が認識セルの縮小と判断した場合、次に制御部２０３は、選択中の認識セルに含まれていた文字領域の全てが、縮小後の認識セル内でも含まれているかどうかを判定する（Ｓ１５１１）。全て含まれていると判定した場合は、制御部２０３は選択中の認識セルの分割は行わず、処理を終了する。

一方、Ｓ１５１１で縮小後の認識セルに含まれない文字領域があると判定した場合は、制御部２０３は、縮小前の認識セルを分割する（Ｓ１５１２）。即ち、縮小前の認識セルに含まれていた文字領域の一部又は全てが、縮小後の認識セル内に含まれていない場合には、縮小前の認識セルを分割する。縮小前の認識セルの分割とは、具体的には、制御部２０３は、縮小後の認識セルとは別に、新規に認識セルを作成することを意味する。

縮小後の認識セルと、上記新規に作成する認識セルの位置情報は、縮小後の認識セルの位置情報と縮小前の認識セルの位置情報とを元に制御部２０３が決定する。例えば、縮小前の認識セルが、左上座標（Ｘａ１，Ｙａ１）、右下座標（Ｘａ２，Ｙａ２）とする。ユーザが右下の認識セル位置変更ハンドルをドラッグして認識セルを左方向に縮小して、その結果右下座標が（Ｘａ２−Ｗ，Ｙａ２）になったとする（Ｗは縮小幅）。この場合、制御部２０３は「Ｘ座標＝Ｘａ２−Ｗ」の位置で縮小前の認識セルを分割すると判断する。分割した結果、縮小後の認識セルの座標は、左上座標（Ｘａ１，Ｙａ１）右下座標（Ｘａ２−Ｗ，Ｙａ２）となり、新規に作成した認識セルの座標は、左上座標（Ｘａ２−Ｗ，Ｙａ１）右下座標（Ｘａ２，Ｙａ２）となる。

次に制御部２０３は、文字領域の分割を行う（Ｓ１５１３）。具体的には、まず縮小後の認識セル内に包含されていない文字領域と、縮小後の認識セルとの関連付けを解除し、代わりに、その文字領域を、新規に作成した認識セルに新たに関連付ける。また、認識セルを分割した位置の上に文字領域が重なっている場合は、その分割した位置で文字領域も分割する。例えば、左上座標（Ｘａ３，Ｙａ３）、右下座標（Ｘａ４，Ｙａ４）の文字領域を、Ｘ座標がＸａ５の位置で分割するとする。この場合は、左上座標（Ｘａ３，Ｙａ３）、右下座標（Ｘａ５，Ｙａ４）の文字領域と、左上座標（Ｘａ５，Ｙａ４）、右下座標（Ｘａ４，Ｙａ４）の文字領域の、２つの文字領域を作成する。そして、元の文字領域は制御部２０３が削除する。その後、制御部２０３は、新規に作成した２つの文字領域を、文字領域を包含している認識セルにそれぞれ関連付ける。

次に制御部２０３は、認識文字の分割を行う（Ｓ１５１３）。上記分割された文字領域に含まれるように認識文字を分割して、各文字領域に関連付ける。

次に制御部２０３は、分割後の認識セルのうち、もっとも左上側にある認識セルの四頂点に対して認識セル位置変更ハンドルを表示部２０４に表示する（Ｓ１５１５）。つまり、分割後に生成された複数の認識セルのうち、最も左上側に位置する認識セルを選択状態にする。また、制御部２０３は、分割後の認識文字を、編集ウィンドウ６０４における文字入力欄６０５に表示する（Ｓ１５１６）。

以上の認識セルの分割手段について、図１６、図１７、図１８を用いて、具体例を示す。図１６では認識セル４０３が選択されている状態の表示画面である。認識セル４０３は本来は複数の認識セルとなるべきだが、スキャン画像の罫線が掠れているため、単一の認識セルとして特定されている。単一の認識セルとして特定されているため、文字入力欄１６０１には、認識セル４０３内の認識文字が全て結合されて表示されている。

認識セル４０３を分割したい場合、まずユーザは認識セル４０３の認識セル位置変更ハンドル６０３をドラッグして、認識セルを分割したい位置まで認識セルを縮小する（図１５）。

図１７では、縮小後の認識セルの中には、認識文字「Ｄｅｓｃｒｉｐｔｉｏｎ」の文字領域のみが含まれていて、「Ｑｕａｎｔｉｔｙ」、「ＵｎｉｔＰｒｉｃｅ」、「Ａｍｏｕｎｔ」は含まれていない。そのためＳ１９０３で、制御部２０３は、縮小後の認識セルに包含していない文字領域があると判定し、認識セルの分割をおこなう。

認識セルを分割したあと、制御部２０３は、分割された各々の認識セルのうち、もっとも左上に位置する認識セルを選択状態にする（図１８）。また、制御部２０３は、分割後の認識セルに含まれる認識文字「Ｄｅｓｃｒｉｐｔｉｏｎ」を文字入力欄１８０２に表示する。

＜Ｓ９０４の詳細（図２０−図２３）＞
図２０−２３を用いて、Ｓ９０４の詳細を説明する。

スキャン画像には、認識セルに対して、対応する実際のセルが１つ存在する。以降、スキャン画像の実際のセルをセルと呼ぶ。

保存部２０２で保存されている認識セルの位置情報は、外接矩形の座標情報である。スキャン画像の傾きや歪みにより、認識セルの外接矩形の座標情報（２３０３、２３０４）とセルの罫線（２３０１）の位置は完全には一致しない。認識セルの外接矩形の内側にセルの罫線の一部が含まれていた場合、認識セル内部をすべて削除すると、セルの罫線の一部を削除してしまう場合がある。セルの罫線を削除することなく、認識セル内部のセルの罫線以外を削除するステップを以下に説明する。

図２０で２０１４はセルである。セル２０１４は、四点（２０１０−２０１３）を繋ぐ四本の罫線からなる領域である。２００１は、セル２０１４に対応する認識セルである。セル２０１４に内接する直線をセル内接直線と呼ぶ。セル内接直線は１つのセルに対して、上下左右の四本存在する（２００２−２００５）。

認識セル２００１に対応するセルのセル内接直線を検出するための領域を、セル内接直線検出領域と呼ぶ。１つの認識セルに対して４つのセル内接直線検出領域がある（２００６−２００９）。

Ｓ２２０１で、制御部２０３は、選択されている認識セル２００１の位置情報を保存部２０２から取得する。

Ｓ２２０２で、制御部２０３は、認識セル２００１の上下左右計４つのセル内接直線検出領域（２００６−２００９）を設定する。

上部のセル内接直線検出領域２００６は、認識セル２００１の上部の辺を基準として、上下にあらかじめ決められた値分（例えば２０画素・・・０．５０ｃｍ）広げた領域である。下部のセル内接直線検出領域２００７上部と同様の方法で設定される。左部のセル内接直線検出領域２００８は、認識セルの左部の辺を基準として、左右にあらかじめ決められた値分広げた領域である。右部のセル内接直線検出領域２００９は左部と同様の方法で設定される。

Ｓ２２０３で、制御部２０３は、上下左右のセル内接直線検出領域（２００６−２００９）に対して、直線検出を行う。直線検出はハフ変換を用いる。

上部のセル内接直線検出領域２００６に対するハフ変換による直線検出の方法を具体的に説明する。

まず、制御部２０３は、上部のセル内接直線検出領域２００６に対して、エッジ検出を行う。エッジ検出により、上下左右の画素との濃度の差が閾値以上のエッジ画素と、それ以外の非エッジ画素に分類される。図２１の２１０１は上部のセル内接直線検出領域２００６に対してエッジ検出を行い、エッジ画素を黒画素として表示した図である。

２１０２は上部のセル内接直線検出領域２００６内のエッジ画素の１つであり、エッジ画素の座標を（Ｘｂ１，Ｙｂ１）と表す。（Ｘｂ１，Ｙｂ１）を通る直線は式１で表現される。ρは原点から直線に垂線を引いた時の長さであり、θはｘ軸とのなす角度である。また、ρの小数点第一位を四捨五入し、整数化したものをρｉとする。
ρ＝Ｘｂ１ｃｏｓθ＋Ｙｂ１ｓｉｎθ・・・式１
この式１が表す直線を図１９に図示する。

制御部２０３は、θを一定の変化量（たとえば、１度ごと）で０度から３６０度まで変化させ、それぞれのθに対するρの値を計算することで、（Ｘｂ１，Ｙｂ１）を通る直線の（ρ，θ）の組み合わせを３６０個求める。制御部２０３は、上部のセル内接直線検出領域内２００６で、この処理をエッジ画素の全てに対して行うことにより、エッジ画素数×３６０個の（ρ，θ）の組み合わせを求める。仮にエッジ画素数が１００個あるとすると、３万６０００個の（ρ，θ）の組み合わせが求まるわけである。その中には、もちろん重複があり、（ρ１，θ１）の組み合わせは２０回あった、（ρ２，θ２）の組み合わせは３０回あったというふうに重複回数が求まる。つまり、（ρｉ，θｉ）の組み合わせの出現頻度が求まることになる。

この出現頻度を閾値と比較し、その閾値を超えた（ρｉ，θｉ）の組み合わせを直線を表す数式とみなす。

この閾値は、上部もしくは下部のセル内接直線検出領域の場合、セル内接直線検出領域の幅にあらかじめ定められた定数（例えば、０．７）を掛けた値とする。左部もしくは右部のセル内接直線検出領域の場合、セル内接直線検出領域の高さにあらかじめ定められた定数を掛けた値とする。その結果、図２１の例では、２１０１に対して直線検出を行った結果、２１０３と２１０４の二本の直線が検出される。２１０３と２１０４は検出された直線を黒画素で示した線である。制御部２０３は、下部、左部、右部に関しても同様の方法でそれぞれ直線検出を行う。

Ｓ２２０４で、制御部２０３は、Ｓ２２０３における直線検出結果を基にセル内接直線を特定する。

例えば、上部のセル内接直線検出領域の場合、上部のセル内接直線検出領域２００６から２本の直線が検出されている。この２本の直線の中から、認識セルを基準として最も内側、すなわち最下部の直線を上部のセル内接直線として検出する。

数学的には、上部のセル内接直線検出領域２００６の中央のｘ座標２１０５における、検出された各直線（２１０３、２０１４）のｙ座標の値を算出し、ｙ座標の値が最も大きい直線をセル内接直線として特定することになる。図２１の例では、ｙ座標の値が最も大きい２０１４がセル内接直線として特定される。

また、制御部２０３は上部のセル内接直線検出領域に１つも直線が検出されなかった場合、認識セルの上部の辺をセル内接直線として特定する。もちろん、１本のみ直線が検出された場合、その直線をセル内接直線として特定する。

制御部２０３は、下部、左部、右部に関しても同様にそれぞれ最も内側の直線をセル内接直線として検出する。

Ｓ２２０５で、制御部２０３は、スキャン画像に対して上下左右の四本のセル内接直線に囲まれた領域内部の色情報を削除する。具体的には、領域内部の画素の色情報を白に置換する。

この処理により、スキャン画像のセルの罫線を削除することなく、認識セル内部の罫線以外の色を削除することができる。

＜第２の実施形態＞
前記第１の実施形態では、認識セルを拡大することで認識セルを結合する方法について述べた。これに対して本実施例では、認識セルをドラッグして認識セルを結合する方法について述べる。

＜図２４の説明＞
まず、ユーザは認識セルをドラッグして、認識セルの位置を変更する（Ｓ２４０１）。

次に、制御部２０３は、位置変更後の認識セルに、他の認識セルが重なっているかどうかを判定する（Ｓ２４０２）。具体的には、制御部２０３は、まず位置変更後の認識セルと、他の認識セルの両方を含む領域の面積Ｓを求める。次に制御部２０３は、面積Ｓが、各認識セルの面積のＮ％より大きいかどうかを判定する。具体的には、位置変更後の認識セルの面積をＳ１、他の認識セルの面積をＳ２として、
Ｓ１×（Ｎ÷１００）＜Ｓ
Ｓ２×（Ｎ÷１００）＜Ｓ
のいずれかを満たすかどうかを制御部２０３は判定する。例えば、Ｎ＝８０の場合、面積Ｓの大きさが、各認識セルのいずれかの面積の８０％よりも大きいことを示す。つまり、位置変更後の認識セルと、他の認識セルの両方を含む領域がある程度大きければ、２つの認識セルは重なっていると判定する。

なお、上記認識セルの重なりを判定する処理は一例であり、他の判定方法でもかまわない。

Ｓ２４０２で認識セルが重なっていないと判定された場合は、処理を終了する。

一方、Ｓ２４０２で認識セルが重なっていると判定された場合は、制御部２０３は、重なっていると判定した認識セルを結合する（Ｓ２４０３）。認識セルの結合は、具体的には、まず制御部２０３が、重なった認識セルのうちの１つについて位置を変更する。その後、もう１つの認識セルの位置を保存部２０２から削除する。

上記、認識セルの位置を変更した後の認識セルの座標は、前記Ｓ１５０５と同様の方法で制御部２０３が決定する。つまり、結合後の認識セルは、結合する前の全ての認識セルを包含する最小の矩形となる。

その後はＳ１５０５の処理に続き、最終的にユーザは認識セルを結合することができる。

＜図２５の説明＞
図２５は、図１２の認識セル４０６が選択状態にある表示画面から、認識セル４０６の位置を変更している表示画面を示す図である。ユーザは認識セル４０７の認識セル位置変更ハンドル２５０１をマウス６０１でドラッグし、認識セル４０７に重ねている。図２４の処理に従い、制御部２０３は認識セル４０６と認識セル４０７を結合する。認識セルを結合したあとは、図１４で示した表示画面になる。

＜第３の実施形態＞
本実施形態では、前記第１、第２の実施形態とは別の手段で認識セルを結合する方法について述べる。本実施例は受付部２０５と表示部２０４がタッチパネルであることを想定している。

＜図２６の説明＞
まず、ユーザは、表示部２０４に対してピンチインの操作をおこなう（Ｓ２６０１）。ピンチインとは、ユーザが２本の指で表示部２０４の任意の場所をつまむように動かす操作のことであり、一般的には表示画面を縮小させるための操作である。

次に制御部２０３は、認識セルが選択されている状態かどうかを判定する（Ｓ２６０２）。認識セルが選択されていない場合は、制御部２０３は、表示画面を縮小する操作だと判断し、表示画面を縮小する（Ｓ２６０３）。

一方、認識セルが選択されている状態だと判定された場合は、制御部２０３は、ユーザがピンチインでタッチした２つの位置の両方に、認識セルがあるかどうかを判定する（Ｓ２６０４）。タッチした２つの位置に認識セルがないと判定された場合は処理を終了する。

タッチした２つの位置の両方に認識セルがあると判定された場合は、制御部２０３は、前記２つの認識セルを結合する（Ｓ２６０５）。具体的には、まず制御部２０３が、タッチした２つの位置にある認識セルのうちの１つについて、位置を変更する。その後、制御部２０３は、もう１つの認識セルの位置を保存部２０２から削除する。

＜図２７の説明＞
図２７は、図１２の認識セル４０６が選択状態にある表示画面から、ユーザが表示部２０４をピンチインしているところを示す図である。図２７では、認識セル４０６が選択された状態である。ユーザは２本の指２７０１で認識セル４０６と認識セル４０７をタッチして、ピンチインの操作を行う。この操作により、制御部２０３は認識セル４０６と認識セル４０７を結合する。認識セルを結合したあとは、図１４で示した表示画面になる。

＜第４の実施形態＞
第１の実施形態では、認識セルを拡大して、別の認識セルを包含する場合に認識セルを結合することについて述べた。それに対して本実施例では、認識セルを拡大して、別の認識セルを包含しなくても、ある程度認識セルが重なっていれば認識セルを結合する手段について述べる。

＜図２８、図２９の説明＞
図２８、図２９は本実施例で解決する課題を説明するための図である。

図２８の、２８０１はスキャン画像内のセルの１つを示す。セル２８０１は少し傾いており、これはスキャナ１０１で文書をスキャンした際に、スキャン画像が傾いてしまったことを想定している。なお、セル２８０１は、分かりやすくするためにセルが大きく傾いている図になっているが、実際には数ｄｏｔの傾きであり、視覚では傾いていることが判断できない場合も想定している。また、セル２８０１にはノイズ２８０７がある。

制御部２０３がスキャン画像の解析を行うと、ノイズ２８０７によりセルが分断され、認識セル２８０２と認識セル２８０３が特定される。このとき、セル２８０１は傾いているため、認識セル２８０２と認識セル２８０３の高さがそろっていない。なお、この図では高さがそろっていないことが視覚で分かるよう記載しているが、実際には最低１ｄｏｔの違いであり、視覚では判断できない場合も想定している。

次にユーザが認識セル２８０２と認識セル２８０３を結合するとする。実施例１で説明したように、ユーザは、認識セル２８０２の認識セル位置変更ハンドル２８０４をドラッグして拡大し、認識セル２８０３を包含しようとする。しかし、認識セル２８０２と認識セル２８０３の高さがそろっていないため、認識セル２８０３を左方向に拡大するだけでは、認識セル２８０３を包含できていない。そのため図１５のＳ１５０３で、別の認識セルを包含していないと判定され、制御部２０３は認識セルの結合をおこなわない。図では高さがそろっていないことが視覚で判断できるよう記載しているが、実際には高さのズレは最低１ｄｏｔの違いでしかなく、視覚では高さのズレが分からない。視覚では高さのズレが分からないため、ユーザは認識セルを包含したつもりでいるため、なぜ認識セルが結合されないのかが分からない。また、図２８の場合、認識セル２８０２を左方向ではなく左上方向に拡大すれば包含できるが、視覚では高さのズレが分からないため、ユーザはその操作に気づかない場合がある。

次に図２９の説明をする。２９０１はスキャン画像内のセルの１つを示す。セル２９０１はセル２８０１と違い、傾いてはいない。セル２９０１はノイズ２９０５により、認識セル２９０２と認識セル２９０３が特定される。この時、認識セル２９０２と認識セル２９０３の高さがそろっていない。高さがそろっていないのは、制御部２０３がスキャン画像を解析して認識セルを特定する際の誤差によるものである。制御部２０３が、黒画素塊を検出して罫線を特定する際に、スキャン画像のわずかな掠れなどにより、誤差が発生して、結果的に認識セル２９０２と認識セル２９０３の高さに違いが出ている。図２９では視覚で高さの違いが分かるよう記載しているが、実際には１ｄｏｔの違いであり、視覚では判断できない。

この場合も図２８で説明したのと同様に、認識セル２９０２を拡大しても認識セル２９０３を包含することができず、認識セルの結合ができない。

＜図３０の説明＞
図３０では、図２８、図２９で説明した本実施例の課題を解決する。

まず、Ｓ１５０３で、拡大後セルが別のセルを包含していないと判定された場合に、制御部２０３は、拡大後の認識セルが、別のセルと一部重なっているかどうかを判定する（Ｓ３００１）。重なっていないと判定した場合は、認識セルの結合は行わず、処理を終了する。

Ｓ３００１で一部重なっていると判定された場合は、制御部２０３は、認識セルが重なっている領域の面積Ｓを求める（Ｓ３００２）。

次に制御部２０３は、面積Ｓが、各認識セルの面積のＮ％より大きいかどうかを判定する（Ｓ３００３）。具体的には、拡大前の認識セルの面積をＳ１、別の認識セルの面積をＳ２として、
Ｓ１×（Ｎ÷１００）＜Ｓ
Ｓ２×（Ｎ÷１００）＜Ｓ
のいずれかを満たすかどうかを判定する。例えば、Ｎ＝８０の場合、面積Ｓの大きさが、各認識セルのいずれかの面積の８０％よりも大きいことを示す。

Ｓ３００３で大きくないと判定された場合は、認識セルの結合は行わず、処理を終了する。

一方、Ｓ３００３で大きいと判定した場合は、Ｓ３００３に進み、認識セルを結合する。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

画像と、前記画像を解析することにより特定された複数の領域とを表示するように制御する第１表示制御手段と、
前記表示された複数の領域の中から、ユーザの指示に基づいて第１の領域を選択する選択手段と、
前記選択手段で選択された前記第１の領域の頂点の位置を変更するための指示を前記ユーザから受付ける受付手段と、
前記指示に応じて頂点の位置が変更された前記第１の領域が、前記表示された複数の領域の中の第２の領域を含んでいるか否かを判定し、前記指示に応じて頂点の位置が変更された前記第１の領域が、前記表示された複数の領域の中の第２の領域を含んでいると判定したことに従って、前記第１の領域と前記第２の領域とを結合する結合手段と
を有することを特徴とする情報処理装置。
前記第１の領域と前記第２の領域はそれぞれ文字領域を含み、
前記指示に応じて頂点の位置が変更された前記第１の領域が前記第２の領域を含む場合、前記結合手段は、前記第１の領域と前記第２の領域とを結合し、さらに、前記第１の領域に含まれる文字領域と前記第２の領域に含まれる文字領域とを結合することを特徴とする請求項１に記載の情報処理装置。
前記第１の領域と前記第２の領域それぞれに含まれる文字領域に対して文字認識処理を行うことによって、各文字領域に対応する文字認識結果の認識文字を得る文字認識手段を、さらに有し、
前記指示に応じて頂点の位置が変更された前記第１の領域が前記第２の領域を含む場合、前記結合手段は、前記第１の領域と前記第２の領域とを結合し、さらに、前記第１の領域に含まれる文字領域と前記第２の領域に含まれる文字領域とを結合し、さらに、前記第１の領域に含まれる文字領域に対応する文字認識結果の認識文字と前記第２の領域に含まれる文字領域に対応する文字認識結果の認識文字とを結合することを特徴とする請求項２に記載の情報処理装置。
前記選択手段で第１の領域が選択された場合、前記第１の領域の頂点の位置を変更するためのハンドルを前記第１の領域の各頂点に対応付けて更に表示するように制御する第２表示制御手段を、さらに有し、
前記受付手段は、前記ユーザによる前記ハンドルの操作に基づいて、前記選択手段で選択された前記第１の領域の頂点の位置を変更するための指示を受付けることを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記第１表示制御手段により表示される前記複数の領域は、表領域を構成する複数のセルそれぞれに含まれる白画素塊の外接矩形であることを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
前記指示に応じて頂点の位置が変更された前記第１の領域が、前記第２の領域を含まない場合、前記結合手段は、前記第１の領域と前記第２の領域とを結合しないことを特徴とする請求項１乃至５の何れか１項に記載の情報処理装置。
前記指示に応じた頂点の位置の変更により前記第１の領域が縮小される場合、前記位置の変更が為される前の前記第１の領域に含まれ且つ前記位置の変更が為された後の当該縮小された前記第１の領域に含まれない新たな第３の領域を作成する作成手段を、さらに有することを特徴とする請求項１乃至６の何れか１項に記載の情報処理装置。
コンピュータを、請求項１乃至７の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。
情報処理装置の表示制御手段が、画像と、前記画像を解析することにより特定された複数の領域とを表示するように制御する表示制御工程と、
前記情報処理装置の選択手段が、前記表示された複数の領域の中から、ユーザの指示に基づいて第１の領域を選択する選択工程と、
前記情報処理装置の受付手段が、前記選択工程で選択された前記第１の領域の頂点の位置を変更するための指示を前記ユーザから受付ける受付工程と、
前記指示に応じて頂点の位置が変更された前記第１の領域が、前記表示された複数の領域の中の第２の領域を含んでいるか否かを判定し、前記指示に応じて頂点の位置が変更された前記第１の領域が、前記表示された複数の領域の中の第２の領域を含んでいると判定したことに従って、前記情報処理装置の結合手段が、前記第１の領域と前記第２の領域とを結合する結合工程とを有することを特徴とする情報処理方法。