JP3821267B2 - 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 - Google Patents
文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP3821267B2 JP3821267B2 JP11170899A JP11170899A JP3821267B2 JP 3821267 B2 JP3821267 B2 JP 3821267B2 JP 11170899 A JP11170899 A JP 11170899A JP 11170899 A JP11170899 A JP 11170899A JP 3821267 B2 JP3821267 B2 JP 3821267B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- images
- document
- line
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
- H04N1/3876—Recombination of partial images to recreate the original image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は、スキャナ等で読み取った複数の文書画像を結合して1つの文書画像を再生する文書画像結合装置、文書画像結合方法及び文書画像を結合するプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
新聞、設計図面等のサイズの大きい画像を読み取りたいという要望がある。そのよう場合、A1サイズ等の大きな画像を直接読み取れるスキャナーを有する画像読取装置を用いることは可能であるが、大型の画像読取装置は、装置のコストが高いばかりでなく、広い設置場所が必要となるなどの問題点があった。
【0003】
そこで、例えばA4サイズのスキャナーを用いてA4より大きなサイズの画像を分割して読み取り、分割した画像をオペレータが画面上で見ながら手動で結合する方法、あるいは原稿または原稿に被せる透明シートに位置合わせのマークを付けておいて、分割して読み取った複数の画像をそのマークを利用して結合する方法が提案されている。
【0004】
例えば、特開平1−229559号公報には、1回の読み取り動作によって読み取り可能な最大有効サイズより大きな原稿を、その最大有効サイズより小さい領域に分割するための分割指示マークを予め原稿に付けておき、その分割指示マークを含むように複数の領域に分割して画像を読み取り、分割指示マークの位置情報に基づいて分割した画像を1つの画像に結合する技術について記載されている。
【0005】
図34は、予めマークが付けられた画像を分割して読み取り、読み取った画像をマークを元に結合する従来の結合方法の説明図である。
この例では、分割した画像を結合するためのマークを入力対象画像に予め付けておいて、第1スキャンでそのマークを含むように入力対象画像の左側の第1画像を読み取り、同様に第2スキャンでそのマークを含むように右側の第2画像を読み取る。そして、第1及び第2画像のマークの位置を検出し、マークの位置が一致するように2つの画像を結合する。これにより元の入力対象画像を復元することができる。
【0006】
最近、携帯可能なノート型のパーソナルコンピュータが普及するにつれて、ノート型のパーソナルコンピュータで使用できるような小型で持ち運びが容易なハンドヘルドスキャナーが開発、製品化されている。この種のハンドヘルドスキャナーは、本体を小型化するために小型の光電変換センサを使用しているので、一度にスキャンできる幅が狭い。そのため、例えばA4サイズの原稿でも複数回に分けてスキャンした後、読み取った画像を結合する必要が生じる。
【0007】
【発明が解決しようとする課題】
しかしながら、スキャナーで読み取った画像をオペレータが手動で結合する方法は操作が煩雑であるという問題点がある。また、入力対象画像にマークを付ける方法は、画像を読み取る度にマークを付ける必要があり使い勝手が悪い。
【0008】
本発明の課題は、分割して読み取った文書画像を自動的に結合できるようにすることである。
【0020】
【課題を解決するための手段】
請求項1記載の発明は、分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割する領域分割手段と、領域分割手段により分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識する行画像抽出手段と、行画像抽出手段により抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を複数の文書画像の重なり位置として検出する重なり検出手段と、重なり検出手段により検出された重なり位置で複数の文書画像を結合する画像結合手段とを備える。
【0021】
この発明によれば、文書画像に表、図形等が含まれている場合でも、文書画像を複数の領域に分割し、領域毎に行画像を抽出することで、図形等を含まない行画像を抽出することが可能となる。従って、それらの行画像の文字領域を比較することで文書画像の重なり位置を正確に検出することができる。
【0022】
請求項13記載の発明は、分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割する領域分割手段と、領域分割手段により分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識する行画像抽出手段と、行画像抽出手段により抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を複数の文書画像の重なり位置として検出する重なり検出手段と、重なり検出手段により検出された重なり位置で複数の文書画像を結合する画像結合手段と、複数の文書画像の自動結合を行うか否かを表示画面上で設定できる設定手段とを備える。
【0023】
この発明によれば、ユーザは表示画面上に表示される設定手段により文書画像の自動結合を行うか否かを簡単に設定できる。例えば、表示画面上にボタンを表示し、そのボタンにより自動結合の実行の有無を指定できるようにすることで、画像を自動結合させるか否かの操作が非常に簡単になる。
【0024】
また、使用するスキャナの解像度、文書画像の結合枚数、読み取り対象の文書画像の用紙サイズ等を画面上で設定できるので、文書画像を結合するための条件の設定が簡単になる。
【0025】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。図1は、本発明の第1の実施の形態の文書画像結合装置(例えば、パーソナルコンピュータで構成される)11のブロック図である。この第1の実施の形態は、2つの文書画像の文字領域を抽出し、それぞれの文字領域の大きさ、位置を比較して2つの文書の重なり位置を検出するものである。画像入力手段は、例えばハンディスキャナ等からなる。文書画像結合システムは、例えば、文書画像結合機能を有するパーソナルコンピュータとハンディスキャナとから構成される。
【0026】
ハンディスキャナ等により読み取られた文書画像は、画像上のノイズ等を除去した後、必要に応じて傾き補正等の前処理を行って第1及び第2の画像格納部12,13に格納される。ここで、最初に読み取られた文書画像は、第1の文書画像として第1の画像格納部12に格納され、2番目に読み取られた文書画像は第2の文書画像として第2の画像格納部13に格納される。
【0027】
文字領域検出部14は、スキャナーで読み取られた第1及び第2の文書画像の大きさ(横画素数、縦画素数)を重なり位置検出部15に通知する。そして、重なり位置検出部15により指示された領域から1行分の行画像を抽出し、行画像の各文字領域の座標、例えば文書画像の左上角を原点とした直交座標における各文字領域の左上角の座標及び大きさを求め、それらを重なり位置検出部15に通知する。なお、文字領域とは、文字に外接する四角形で囲まれる領域を指す。
【0028】
重なり位置検出部15は、第1及び第2の文書画像の行画像の各文字領域の大きさと位置とを比較し、大きさと位置の一致度の高い行画像の位置を文書画像の重なり位置と判断し、例えば一致した行画像の先頭の文字領域の座標と最後の文字領域の座標とを重なり位置座標として画像結合部16に出力する。
【0029】
画像結合部16は、重なり位置検出部15から出力される重なり位置座標に基づいて2つの文書画像を結合して1つの文書画像に再生する。
この第1の実施の形態によれば、2つの文書画像の行画像の文字領域の位置と大きさを比較することにより2つの文書画像の重なり位置を検出し、その重なり位置で文書を結合することができる。従って、ユーザは文書画像を結合するための操作を何も行わなくとも、分割して読み取った複数の文書画像を結合させることができる。
【0030】
次に、図2は、本発明の第2の実施の形態の文書画像結合装置21のブロック図である。この第2の実施の形態は、分割して読み取った2つの文書画像のそれぞれについて文字領域内の文字の認識を行って対応する文字コードを得て、2つの文書画像の文字コードと文字領域の位置及び大きさの2つを比較して重なり位置を検出するものである。
【0031】
図2のブロックにおいて、第1の画像格納部12、第2の画像格納部13及び文字領域検出部14の機能は図1と同一である。
文字認識部22は、文字領域検出部14で検出された文字領域の文字画像の文字認識を行って対応する文字コードを得て、その文字コードを重なり位置検出部23に出力する。
【0032】
重なり位置検出部23は、第1及び第2の文書画像の行画像の文字領域の位置及び大きさと文字コードを比較し、一致度の高い行画像の位置を重なり位置と判断し、その行画像の位置座標を画像結合部16に出力する。画像結合部16は、その位置座標に基づいて2つの文書画像を結合する。
【0033】
図3(A)〜(C)は、原理説明図である。先ず、図3(A)に示すように、1つの文書画像が2つに分割されて読み取られる。図3(A)の例では文書画像の一部の文字が重なるようにスキャナーで読み取られている。次に、文字領域検出部14により、第1及び第2の文書画像の文字領域が検出され、それぞれの文字領域の座標、大きさが重なり位置検出部15に出力される。あるいは、文字認識部22が文字領域内の文字の認識を行って対応する文字コードを重なり位置検出部23に出力する。
【0034】
重なり位置検出部15(または23)は、図3(B)に示すように2つの文書画像の行画像単位で文字領域の座標、大きさを比較し、一致度の高い行画像を重なり位置と判断する。あるいは、2つの文書画像の行画像の文字コードを比較し、一致度の高い行画像を重なり位置と判断する。重なり位置が検出されたなら、文書結合部16は、2つの文書画像をその重なり位置で結合して1つの文書画像を再生する。
【0035】
次に、文字領域の座標及び大きさと文字コードの2つを比較して重なり位置を検出する本発明の第2の実施の形態の処理内容を、図4,図6,図10,図13のフローチャートを参照して説明する。
【0036】
図4は、文書画像を結合するための全体の処理を示すフローチャートである。先ず、文書画像の行の方向を識別する(図4,S401)。文書画像の行の方向の識別は、例えばスキャナ入力した画像の1ライン単位で水平方向及び垂直方向の黒画素数の累積値を求め、その黒画素数の累積値の分布から識別する。識別方法としては、黒画素の累積値(1ライン中に含まれる黒画素の個数)の分散を走査方向とそれに垂直な方向について計算し、分散の大きい方を行の方向と判断している。これは、行と平行に黒画素数を累積した場合には、文字の存在しない行間の部分では黒画素の累積値が「0」となり、文字の存在する行の部分では黒画素数が多くなるので、行の部分と行間とでは黒画素の累積値の分布が大きく変動するのに対して、行と直交する方向に黒画素数を累積した場合には、各ラインの中に文字の存在する部分と存在しない部分が混在するので、黒画素の累積値の分布はあまり変動しないことから、走査方向に対する行の方向を識別している。なお、走査方向に対する行の方向の識別方法は、上述した方法に限らず他の方法でも良い。
【0037】
次に、第1の文書画像から行画像を抽出する(S401)。ここで、行画像とは、図5に示すように文書画像の文書の1行を構成する複数の文字画像に外接する領域内の画像を指す。
【0038】
次に、図4のステップS402及びS404の行画像抽出処理の内容を図6のフローチャートを参照して説明する。
先ず、文書が縦書きか、横書きかにより行検出方向を決定する(図6,S601)。この処理では、文書が横書きであれば、第1及び第2の画像格納部12,13に格納されている文書画像を水平方向の1ライン単位で上から下に順に読み出す方向を選択し、文書が縦書きであれば、垂直方向の1ライン単位で右から左に順に読み出す方向を選択する。
【0039】
次に、行画像52の個数をカウントするカウンタLに初期値として「0」を設定し(S602)、ライン番号を示すラインカウンタkに「0」を設定して最初のラインを選択する(S603)。そして、ラインカウンタkで指定される第kラインが黒画素を含むか否かを判別す(S604)。
【0040】
第kラインに黒画素が含まれている場合には、文字を含む行と判断して、ラインカウンタkの値を行の開始ライン番号としてレジスタLsに格納する(S605)。そして、ラインカウンタkの値を「1」インクリメントして次のラインを選択する(S606)。そして、新たに指定された第kラインに黒画素が含まれるか否かを判別する(S607)。
【0041】
第kラインに黒画素が含まれる場合には、ステップS608に進みそのライが文書画像の最後のラインか否かを判別する。文書画像の最後のラインか否かの判別は、スキャナで文書を読み取ったとき、文書の縦方向と横方向の総ドット数が分かっているので、ライン番号が縦方向または横方向の総ドット数より大きいか否かにより判断する。
【0042】
文書画像の最後のラインでなければ(S608,NO)、ステップS606に戻り、次のラインを選択する。
ステップS607で第kラインに黒画素が含まれないと判別された場合には、それまでのラインに黒画素が含まれていて、次のラインに黒画素が含まれていないのであるから、行の終了と判断して、ステップS609に進み”k−1”、すなわち黒画素を含む1ライン前のライン番号を行の終了ライン番号としてレジスタLeに格納する。そして、行の開始ライン番号を示すレジスタLsから行の終了ライン番号を示すレジスタLeまでの各ラインの画像を行画像として抽出する(S610)。
【0043】
さらに、抽出した行画像が有効な行画像か否か、つまり重なり位置の検出に使用可能な行画像か否かを判別する(S611)。ステップS611の処理では、例えば、行画像として検出した領域のライン数が予め設定してある行画像のライン数を下回る場合、あるいは行画像の領域内の総画素数に対する黒画素の割合が予め設定した値より小さい場合には、文字でない画像上のノイズやゴミを読み取った可能性が高いので、その領域は行画像として不適切と判断して、ステップS613に進む。
【0044】
ステップS611で有効な行画像と判断された場合には、行画像の数をカウントするカウンタLの値を「1」インクリメントする(S612)。文書画像の横方向と縦方向の画素数は予め決められているので、ラインカウンタkの値と文書画像の縦方向の画素数とを比較し、ラインカウンタkの値が縦方向の画素数に達したか否かにより、ラインカウンタkで指定されるラインが文書画像の最後のラインか否かを判別する(S613)。文書画像の最後のラインでなければ、ラインカウンタkの値をインクリメントして次のラインを選択し(S614)、ステップS604に戻り、上述した処理を文書画像の最後のラインに達するまで繰り返しす。
【0045】
上述した行画像の抽出処理を2つの文書画像に対して行い、それぞれの行画像の開始ライン番号、終了ライン番号、行数を求める。
図4に戻り、ステップS402で第1の文書画像の行画像を抽出したなら、次のステップS403で、抽出した行画像の文字領域を検出し、それぞれの文字を認識して対応する文字コードを取得する。
【0046】
同様に、ステップS404で第2の文書画像の行画像を抽出したなら、次のステップS405で、抽出した行画像の文字領域を抽出し、それぞれの文字を認識して対応する文字コードを取得する。
【0047】
文字領域とは、図7に示すように文書画像の各文字に外接する領域を指している。行画像から文字領域を検出しその文字領域内の文字の認識を行う。
図4に戻り、2つの文書画像の文字コードを取得したなら、次に、比較方向と順序を決定する(S406)。
【0048】
行画像の比較の方向、順序は、例えば図8に示すように横書きの文書を2分割してスキャンする場合には、文書画像の上半分を最初にスキャンし、次に下半分をキャンすることが1番多いと思われる。そこで、図9(A)に示すように、第2の文書画像の上側の水平方向の1または複数の行画像と、第1の文書画像の水平方向の行画像を下側の行画像から中心に向かって順に比較する方向、あるいは第1の文書画像の下側の水平方向の1または複数の行画像と、第2の文書画像の水平方向の行画像を上側の行画像から中心に向かって順に比較する方向を、横書き文書の優先順位の1番目の比較方向として選択する。
【0049】
また、図8(B)に示すように縦書きの文書画像を2分割してスキャンする場合には、文書画像の右半分を最初にスキャンし、次に左半分をスキャンすることが1番多いと思われる。そこで、図9(D)に示すように、第2の文書画像の右側の垂直方向の1または複数の行画像と、第1の文書画像の垂直方向の行画像の左側の行画像から中心に向かう方向に順に比較する方向、あるいは第1の文書画像の垂直方向の1または複数の行画像と、第2の文書画像の垂直方向の行画像の右側の行から中心に向かう方向に順に比較する方向を、縦書き文書の優先順位の1番目の比較方向として選択する。
【0050】
さらに、横書きの文書で下半分を最初にスキャンし、次に上半分をスキャンした場合を想定して、図9(B)に示すように第2の文書画像の水平方向の行画像を下側から中心に向かう方向に、あるいは第1の文書画像の水平方向の行画像を上側から中心に向かう方向に順に比較する方向を優先順位の2番目の比較方向として選択する。
【0051】
同様に、縦書きの文書で左半分を最初にスキャンし、次に右半分をスキャンした場合を想定して、図9(C)に示すように、第1の文書画像の垂直方向の行画像を右側から中心に向かう方向に、あるいは第2の文書画像の垂直方向の行画像を左側から中心に向かう方向に順に比較する方向を優先順位の2番目の比較方向として選択する。
【0052】
また、場合によっては、図10(A)に示すように横書きの文書画像を縦方向に2分割してスキャンすることも、あるいは図10(B)に示すように縦書きの文書を横方向に2分割してスキャンすることも考えられる。
【0053】
文書画像の結合方向は文書のスキャン方向及び順序により定まる。縦書き文書を左右に2分割してスキャンした場合の文書画像の結合方向としては、図11に示すような4つの方向が考えられる。
【0054】
▲1▼最初に縦書き文書画像の右半分をスキャンし、次にその左半分をスキャンした場合には、図11(A)に示すように最初に読み取られた第1の文書画像の左端部と2番目に読み取られた第2の文書画像の右端部を結合する必要がある。
【0055】
▲2▼最初に文書画像の左半分をスキャンし、次に右半分をスキャンした場合には、図11(B)に示すように最初に読み取られた第1の文書画像の右端部と2番目に読み取られた第2の文書画像の左端部とを結合する必要がある。
【0056】
▲3▼縦書き文書を上下に2分割してスキャンした場合で、最初に文書画像の上半分をスキャンし、次に下半分をスキャンした場合には、図11(C)に示すように最初に読み取られた第1の文書画像の下端部と2番目に読み取られた第2の文書画像の上端部とを結合する必要がある。
【0057】
▲4▼最初に文書画像の下半分をスキャンし、次に上半分をスキャンした場合には、図11(D)に示すように最初に読み取られた第1の文書画像の上端部と2番目に読み取られた第2の文書画像の下端部とを結合する必要がある、
また、横書き文書を2分割してスキャンした場合の文書画像の結合方向としては、図12に示すような4つの方向が考えられる。
【0058】
▲1▼最初に文書画像の上半分をスキャンし、次に下半分をスキャンした場合には、最初に読み取られた第1の文書画像の下端部と2番目に読み取られた第2の文書画像の上端部とを結合する必要がある。
【0059】
▲2▼最初に横書き文書の下半分をスキャンし、次にその上半分をスキャンした場合には、図12(B)に示すように最初に読み取られた第1の文書画像の上端部と2番目に読み取られた第2の文書画像の下端部とを結合する必要がある。
【0060】
▲3▼横書き文書を左右に2分割してスキャンした場合で、最初に文書画像の左半分をスキャンし、次にその右半分をスキャンした場合には、図12(C)に示すように最初に読み取られた第1の文書画像の右端部と2番目に読み取られた第2の文書画像の左端部を結合する必要がある。
【0061】
▲4▼横書き文書を左右に2分割してスキャンした場合で、最初に文書画像の右半分をスキャンし、次にその左半分をスキャンした場合には、図12(D)に示すように最初に読み取った第1の文書画像の左端部と2番目に読み取った第2の文書画像の右端部とを結合する必要がある。
【0062】
以上のことを前提として比較方向とその順序が決定したなら、図4のステップS407の重なり位置検出処理を実行する。この重なり位置検出処理にについては後に詳しく説明する。
【0063】
次のステップS408で重なり位置が検出されたか否かを判別し、重なり位置が検出されたなら、その重なり位置で第1と第2の文書画像を結合する。
これにより、ユーザは分割して読み取った2つの文書画像を結合するための操作を何も行わなくとも、2つの文書画像を1つの文書画像に結合することができる。
【0064】
ここで、図4のステップS407の重なり位置検出処理の処理内容を、図13のフローチャートを参照して説明する。
先ず、横書きの文書の上半分を最初にスキャンし、次に重なり部分を含むように下半分をスキャンした場合(図9(A))、あるいは縦書きの文書の右半分を最初にスキャンし、次に重なり部分を含むように左半分をスキャンした場合(図9,(D))を想定して行画像の比較を行う。
【0065】
最初に第2の文書画像の行画像を指定する行カウンタk2に「1」を設定して、第2の文書画像の1行目の行画像を指定する(図13,S1001)。そして、そのk2行の行画像の文字領域の座標、大きさと文字コードを取得する(S1002)。
【0066】
ここで、文書画像の行番号は、文書をスキャンしたときのスキャン方向により自動的に決められており、例えば図14(A)に示すように、横書き文書画像を上から下にスキャンした場合には、上側の最初の行画像の行番号が「1」となり、以下順に「2」、「3」・・・と行番号が設定される。また、図14(B)に示すように縦書きの文書画像を右側から左側にスキャンした場合には、右側の最初の行画像の行番号が「1」となり、以下「2」、「3」・・・と行番号が設定される。
【0067】
次に、第1の文書画像の行画像を指定する行カウンタk1に第1の文書画像の最終行の行番号L1を設定する(図13,S1003)。
上述した処理で第2の文書画像の1行目の行番号を行カウンタk2に設定し、第1の文書画像の最終行の行番号を行カウンタk1に設定しているのは、横書き(または縦書き)の文書を上下に2分割してスキャンする場合、最初に文書画像の上側半分(または右半分)をスキャンし、次に下半分(または左半分)をスキャンすることが多いと考えられるので、第1の文書画像の下側(または左側)の行画像と、それに続く第2の文書画像の上側(または右側)の行画像が一致する可能性が高いので、第2の文書画像の1行目と第1の文書画像の最終行から中心に向かって順に比較することで、少ない比較回数で重なり位置を検出するためである。
【0068】
次に、行カウンタk1で指定される第1の文書画像のk1行の行画像の文字領域と文字コードを取得する(S1004)。
そして、第2の文書画像のk2番目(例えば、1行目)の行画像の隣接する文字領域の位置の差と第1の文書画像のk1番目(例えば、最終行)の行画像の隣接する文字領域の位置の差のずれ、それぞれの文字領域の大きさ及び第2の文書画像のk2番目の行画像の文字コードと第1の文書画像のk1番目の行画像の文字コードの一致度を計算する(S1005)。そして、2つの行画像の文字領域の相対位置と大きさの一致度を表す評価式の値が予め定めた閾値以下か否か、文字コードの一致度を示す値が所定値以下か否かを判別する(S1006)。
【0069】
2つの文書画像の行画像の文字領域の相対位置及び大きさの一致度は、例えば、図15に示すように文書画像の左上角を原点としたときの第1の文書画像の行画像のi番目の文字領域の左上角の座標を(Xai,Yai)、文字領域の高さをHai 幅をWai、i+1番目の文字領域の座標を(Xai+1,Yai+1)、第2の文書画像の行画像のi番目の文字領域の左上角の座標を(Xbi,Ybi)、文字領域の高さをHbi、幅をWbi, i+1番目の文字領域の座標を(Xbi+1,Ybi+1)としたとき、以下の式で表せる。
【0070】
P=Σ((|Xai+1−Xai|−|Xbi+1−Xbi|)2
+(|Yai+1−Yai|−|Ybi+1−Ybi|)2 ) ・・・(1)
S =Σ((Wai+1−Wbi) 2 +(Hai+1−Hbi) 2 ) ・・・(2)
上記の(1)式の|Xai+1−Xai|、|Yai+1−Yai|は、第1の文書画像のi+1番目の文字領域とi番目の文字領域の左上角の位置の水平方向及び垂直方向の差を示している。同様に|Xbi+1−Xbi|、|Ybi+1−Ybi|は、第2の文書画像のi+1番目の文字領域とi番目の文字領域の左上角の位置の水平方向及び垂直方向の差を示している。従って、|Xai+1−Xai|−|Xbi+1−Xbi|は2つの文書画像のi+1番目とi番目の文字領域の左上角の位置の水平方向の差のずれを表し、同様に|Yai+1−Yai|−|Ybi+1−Ybi|は2つの文書画像のi+1番目とi番目の文字領域の垂直方向の差のずれを表している。そして、2つの文書画像の隣接する文字領域の左上角の位置の差のずれを累積加算することにより、2つの文書画像の行画像内の文字領域の相対位置の一致度を求めることができる。なお、ずれを2乗しているのは、累積加算する際に打ち消しあって相殺されないようにするためである。
【0071】
2つの文書画像の行画像が一致すれば、行画像内の隣接する文字領域の位置の垂直方向及び水平方向の差は同じになるのでずれが小さくなり、(1)式のPの値は”0”または”0”に近い値となる。また、行画像が不一致であれば、行画像内の隣接する文字領域の位置の垂直方向及び水平方向の差のずれが大きくなり、Pの値も大きくなる。行画像が完全に一致すれば、Pの値は”0”となるが、スキャン画像であるので多少のゆがみが生じることを考慮して、予め定めた閾値とPとを比較し、Pが閾値以下であれば行が重なりあるものと判定するようにしている。
(2)式のSは文字領域の幅と高さのの違いを表しており、それぞれの文字領域の大きさが一致し、行画像の一致度が高いほど値が小さくなる。
【0072】
また、文字コードの一致度を示す値Rは、
”R=Σ|Mai==Mbi?0:1|/N” で表すことができる。
Mai、Mbiは、第1及び第2の文書画像のi番目の文字の文字コード、Nは1行の文字数を示している。上記の式のΣ|Mai==Mbi?0:1|/Nの中の値は文字コードが一致したとき、”0”、不一致のとき”1”となるので、一致度を示す左辺の値Rは、文字コードの一致度が高い程小さな値となる。
【0073】
図13に戻り、文字領域の位置及び大きさの一致度を示すP,Sの値と文字コードの一致度を示すRの値をそれぞれ所定のしきい値と比較し、P,Sの値が所定の閾値より大きいか、または文字コードの一致度を示す値Rが所定値より大きい場合には、2つの行画像は不一致と判断し、第1の文書画像の行カウンタk1の値から「1」を減算して次の行画像を指定する(S1007)。そして、カウンタk1の値が「1」以上か否か、つまり第1の文書画像の行画像の比較を最終行から1行目まで終了したか否かを判別する(S1008)。
【0074】
カウンタk1の値で「1」以上であれば、すなわち第1の文書画像で比較を行っていない行画像が残っている場合には、ステップS1004に戻りk1行目の行画像の文字領域と文字コードを取得し、上述した処理を繰り返す。
【0075】
他方、上述した行画像の比較を行ってP,Sの値が所定の閾値以下となり、かつ文字コードの一致度を示す値Rが所定値以下となったなら(S1006,YES)、行画像が一致するものと判断し、ステップS1009に進み一致した行画像の座標を重なり位置として格納する。
【0076】
他方、ステップS1008で第1の文書画像の行カウンタk1の値が「0」以下と判別されたとき、すなわち第1の文書画像の全ての行画像と第2の文書画像の1行目の行画像を比較した結果、一致する行画像が存在しないときには、文書画像のスキャン方向が異なるもの、つまり文書の上半分を最初にスキャンし、次に下半分をスキャンしたのではないと判断し、優先順位の2番目の比較方向で行画像の比較を行う。
【0077】
以下、この優先順位の2番目の比較方向での重なり位置検出処理を図16のフローチャートを参照して説明する。
優先順位の2番目の比較方向は、文書画像の下半分(または左半分)を最初にスキャンし、次に文書の上半分(または右半分)をスキャンした場合を想定しているので、第2の文書画像の最終行の行画像と第1の文書画像の各行画像を比較するために第2の文書画像の最終行の行番号L2を第2の文書画像の行画像を指定する行カウンタk2に設定する(図16,S1301)。さらに、第2の文書画像のk2番目の行画像の文字領域と文字コードを取得する(S1302)。
【0078】
次に、第1の文書画像の行画像を指定する行カウンタk1に「1」を設定して、1行目の行画像を指定する(S1303)。さらに、第1の文書画像のk1番目の行画像と第2の文書画像のk2番目の行画像の文字領域の座標、大きさの一致度を表す評価式の計算及び文字コードの一致度を示す値Rを計算する(S1304)。文字領域の座標及び大きさの一致度は、上述した(1)、(2)式の評価式を用いて計算する。
【0079】
そして、評価式のP,Sの値が予め設定した閾値以下か否か、文字コードの一致度を示す値Rが所定値以下か否かを判別する(S1306)。P,Sの値が閾値より大きいとき、または文字コードの一致度を示す値Rが所定値より大きいときには(S1306,NO)、2つの行画像は不一致と判断し、ステップS1307に進み行カウンタk1の値に「1」を加算して、次の行を指定する。そして、行カウンタk1の値が第1の文書画像の最終行の行番号L1以下か否かを判別する。
【0080】
行カウンタk1の値が最終行の号番号L1以下のときには(S1308,NO)、ステップS1304に戻り、行カウンタk1で指定される行画像の文字領域、文字コードを取得し、それらの文字領域、文字コードと第2の文書画像の最終行の文字領域、文字コードとを比較する。
【0081】
他方、P,Sの値が閾値以下、かつ文字コードの一致度を示す値Rが所定値以下と判別された場合には(S1306,YES)、第1の文書画像と第2の文書画像の行画像が一致したものと判断し、ステップS1309に進み行画像の座標を重なり位置座標として格納する。
【0082】
なお、行カウンタk1の値が最終行の行番号を超えた場合は(S1308,NO)、優先順位の1番目と2番目の2つの比較方向で2つの文書の行画像を比較しても一致する行画像が存在しなかった場合であるので、ステップS1310に進み重なり位置が検出できなかったことを通知する。
【0083】
この実施の形態によれば、文書を複数(2以上)の文書画像に分割して読み取った場合に、読み取った文書画像の行画像の文字領域の位置、大きさ及び文字コードを比較して一致する行画像を検出することにより文書画像の重なり位置を検出することができる。これにより、分割して読み取った文書画像を自動的に結合することができる。
【0084】
上述した第2の実施の形態では、文書画像の行画像の文字領域の位置及び大きさと文字コードの両方を用いて行画像の比較を行っているが、OCRのための辞書データを格納する記憶容量が足りなかったり、OCR処理に時間がかかってしまう低速なシステム等でOCRを搭載できないシステムでは、文字領域の位置と大きさのみを比較するようにしても良い。また、複数の行で文字が同じ順序で配置される可能性は少ないので、文字の大きさ、位置関係を比較せず、文字コードのみを比較するようにしても良い。
【0085】
次に、図17は、文書画像の文字領域のパターン、すなわち位置と大きさを比較して文書画像の重なり位置を検出する本発明の第1の実施の形態の重なり位置の検出方法の説明図である。
【0086】
この第1の実施の形態の重なり位置検出処理も基本的には第2の実施の形態の重なり位置検出処理と同様であり、1つ文書画像を上半分を最初にスキャンし、次に下半分をスキャンした場合に対応する行画像の比較方向を優先順の1番目のとし、文書画像の下半分を最初にスキャンし、次に上半分をスキャンした場合に対応する行画像の比較方向を優先順位の2番目に設定している。
【0087】
図13のステップS1006の行画像の一致度の判定で、1番目の優先順位の比較方向、すなわち第2の文書画像の1行目の行画像の文字領域の位置と大きさと、第1の文書画像の最終行の行画像の文字領域の位置と大きさとを比較して行画像の一致度を判定する。行画像が一致すると判定したなら、ステップS1009で、例えばその行画像の左端の文字領域の座標と右端の文字領域の座標を重なり位置座標として保存する。そして、その重なり位置で2つの文書画像を結合する。
【0088】
この第1の実施の形態は、行画像の文字領域の位置とその大きさのみから行画像の一致度を判定しているので、文字領域の位置及び大きさと、文字認識の両方を行って一致度を判定する場合に比べて重なり位置検出処理の処理プログラムが簡単になり処理時間も短くなる。
【0089】
次に、分割して読み取った文書画像の行画像の文字コードのみを比較して文書画像の重なり位置を検出する本発明の第3の実施の形態の重なり位置検出方法を図18を参照して説明する。
【0090】
この第3の実施の形態の文書画像結合装置の基本的構成は、図2に示す文書画像結合装置と同様である。
この第3の実施の形態では、図13のフローチャートにおいて、ステップS1002,ステップS1004で第2の文書画像の1行目の行画像の文字コードと第1の文書画像の最終行の行画像の文字コードを取得したなら、ステップS10005で2つの文書画像の文字コードの一致度を示す値Rを算出する。そして、一致度を示す値が所定値以下であれば、ステップS1009で行画像が一致するものと判断し、その行画像の座標を重なり位置座標として保存する。
【0091】
この第3の実施の形態は、文書画像の行画像の文字の文字認識を行って文字コードを得て、分割して読み取った2つの文書画像を行単位で文字コードを比較することで文書画像の重なり位置を検出することができるので、文書毎に位置合わせのマーク等を付ける必要がなく、簡単に文書を結合することができる。
【0092】
次に、読み取った文書画像を複数の領域に分割し、分割した領域から行画像を抽出し、それぞれの領域の行画像に含まれる文字を比較して複数の文書画像の結合位置を検出するようにした本発明の第4の実施の形態を説明する。
【0093】
この実施の形態の文書画像結合装置の基本的構成は、図2の文書画像結合装置21と同じであり、図2の構成と異なる点は、文字領域検出部14が、第1及び第2の画像格納部12,13に格納されている第1及び第2の文書画像をそれぞれ複数の領域に分割する機能と、それぞれの領域から行画像を抽出する機能を有している点である。
【0094】
図19は、第4の実施の形態の処理の概略を示すフローチャートである。先ず、スキャナにより分割して読み取った文書画像を順に第1の文書格納部12と第2の文書格納部13に格納する(図19,S1901)。次に、第1及び第2の文書画像をそれぞれ複数の領域に分割し、それぞれの領域から行画像を抽出する(S1902)。
【0095】
ここで、図19のステップS1901の行画像の抽出処理を、図20のフローチャートを参照して説明する。
先ず、分割して読み取った第1及び第2の文書画像を垂直方向及び水平方向にそれぞれ複数の領域に分割する(図20,S2001)。次に、全ての領域の行画像の抽出が終了したか否かを判別する(S2002)。
【0096】
全ての領域の抽出が終了していなければ(S2002,NO)、ステップS2003に進み、第1または第2の文書画像の複数の領域の中から、垂直方向または水平方向に分割した領域の1つを抽出する。
【0097】
次に、領域の分割線と垂直な方向に白画素ラインと黒画素ラインを検出し、画像の先頭ラインが黒画素ラインか否かを判別する。黒画素ラインか白画素ラインの判別は、黒画素の数が所定値より多いラインを黒画素ラインとし、黒画素の数が所定値未満のラインを白画素ラインと判定している。
【0098】
図21は白画素ラインと黒画素ラインの抽出方法の説明図である。例えば、領域の分割線に対して垂直な方向が図21(A)の縦方向であるとすると、図21(A)の文字の左端のラインには黒画素が3個含まれる。仮に、この文字が縦書きの文書の文字であるとすると、当然同一ライン上には他の文字の黒画素が含まれることになるので、ライン全体では多数の黒画素が検出されて、このラインは黒画素ラインと判定される。
【0099】
他方、図21(B)に示すような文字が存在しないいライン、例えば図21の左端のラインには黒画素が含まれない。従って、ライン全体でも黒画素数が所定値以下となるので、そのラインは白画素ラインと判定される。また、罫線が存在する場合でも、罫線と直交する方向にラインを選択した場合には、図12(B)の領域の右端のラインように罫線による黒画素が1個含まれることになるが、ライン全体では罫線以外に黒画素が存在しなければ、そのラインは白画素ラインと判定される。
【0100】
図20に戻り、画像の先頭ラインが黒画素ラインの場合には(S2004,YES)、黒画素領域をスキップして白画素ラインの検出を行う(S2005)。これは、最初に検出された領域が黒画素領域であった場合、スキャン時に文字の全体が読み取られず、文字の一部が読み取られている可能性があるので、その黒画素領域を文書画像の結合位置の検出に使用しないようにするためである。
【0101】
領域の先頭ラインが黒画素ラインで、その黒画素領域をスキップして次の白画素ラインを検出した場合、あるいはステップS2004で領域の先頭ラインが黒画素ラインではないと判別された場合には、ステップS2006においてフラグflagに”white”を設定する。そして、その領域に画素の判別を行っていないラインが存在するか否かを判別する(S2007)。画素の判別を行っていないラインが存在する場合には(S2007,YES)、フラグflagが”black”か否かを判別する(S2008)。
【0102】
フラグflagが”black”でない場合(S2008,NO)、つまり先頭の黒画素領域の次に白画素ラインが検出された場合、あるいは先頭ラインが白画素ラインであった場合には、ステップS2009に進み次のラインが黒画素ラインか否かを判別する。
【0103】
次のラインが黒画素ラインでなければ(S2009,NO)、ステップS2010に進み白画素ラインの数を計数するカウンタ”white_line”をインクリメントして次のラインを指定する。
【0104】
ステップS2007〜S2010の処理を繰り返し白画素領域の次の黒画素ラインを検出すると、ステップS2009の判別がYESとなり、ステップS2011に進みフラグflagに”black”を設定する。
【0105】
フラグflagが”black”となると、ステップS2008の判別がYESとなり、ステップS2012に進みラインが白画素ラインか否かを判別する。ラインが白画素ラインでなければ(S2012,NO)、ステップS2013に進み黒画素ラインの数をカウントするカウンタ”black_line”をインクリメント(black_line++) した後、ステップS2007に戻り、順次ラインを検出して黒画素ラインの数をカウントする。
【0106】
そして、黒画素ラインが終了して次の白画素ラインが検出されると(S2012,YES)、ステップS2014に進みフラグflagに”white”を設定する。
【0107】
以上のようにして白画素ラインとそれに続く黒画素ラインが検出されたなら、白画素ラインの数をカウントするカウンタ”white_line”の値が所定値”white_thresh1”より大きいか否かを判別する。
【0108】
なお、白画素ラインの数が所定値”white_thresh1”より大きいか否かを判別しているのは、行画像の方向に対して垂直方向に画素を検出するラインが設定された場合には、文字と文字の間の空白部分が白画素領域として検出される。このときの白画素領域の幅が所定値”white_thresh1”以下となるように”white_thresh1”の値を設定しておけば、文字間の空白と、行と行との間の空白行を識別できるからである。
【0109】
白画素ラインの数”white_line”が所定値”white_thresh1”より大きいときには、この白画素領域を行間と見なし次のステップS2016に進む。ステップS2016では、黒画素ラインの数”black_line”が黒画素ライン数の下限値”black_thresh1”より大きく、かつ上限値”black_thresh2”より小さいか否かを判別する。
【0110】
白画素ラインの数が所定値より大きく、かつ黒画素ラインの数が所定範囲内にあるとき、つまり行間に相当する所定幅以上の白画素領域が検出され、その白画素領域に隣接する所定幅の黒画素領域が検出された場合には(S2016,YES)、その黒画素領域を行画像(行)として抽出する(S2017)。
【0111】
ここで、黒画素ラインの数が”black_thresh2”より小さいことを行画像の条件として設定しているのは、文書画像に図形等が含まれている場合、図形を含む複数のラインを黒画素ラインとして検出した場合、一般に図形の幅は行画像の幅より広いので、その黒画素ラインの数は、行画像の黒画素ラインの数より大きくなる。そこで、黒画素ラインの数の上限値を設定することで、図形等を含む黒画素領域が行画像として抽出され、画像の結合位置を検出するための処理に無駄が生じるのを防ぐためである。
【0112】
以上の処理により1つの行画像が検出されたので行数をカウントする行カウンタをインクリメントし(S2018)、次の白画素ラインまたは黒画素ラインを検出するためにラインカウンタ”white_line”及び”black_line”にそれぞれ「0」を設定する(S2019)。その後、ステップS2007に戻り、上述した処理を繰り返し、次の白画素領域または黒画素領域の検出を行う。
【0113】
なお、ステップS2015で白画素ラインの数が所定値”white_thresh1”以下と判別された場合(S2015,NO)、つまり白画素領域が行間ではない場合には、検出した黒画素領域は行画像ではないので、ステップS2019に進みラインカウンタ”white_line”及び”black_line”をクリアする。
【0114】
同様に、ステップS2016で黒画素ラインの数が所定範囲外と判別された場合には(S2016,NO)、黒画素領域が行画像に該当しないと判断し、ステップS2019に進みラインカウンタ”white_line”及び”black_line”をクリアする。
【0115】
以上の処理を繰り返し、ステップS2007で画素を判別していないラインが存在しないと判別された場合(S2007,NO)、つまり垂直(または水平)方向に分割した1つの領域の全てのラインの検出が終了した場合には、ステップS2002に戻り、全ての領域が終了したか否かを判別し、領域が存在する場合には、上述した処理を繰り返す。
【0116】
なお、この第4の実施の形態では、分割して読み取った文書画像をそれぞれ垂直及び水平方向の領域に分割し、垂直方向に分割した領域の行画像の数、水平方向に分割した領域の行画像の数を求め、両者を比較して、行画像の数の多い方の領域を結合位置の検出に用いるようにしている。これは、行の方向に対して垂直方向に領域を分割することにより、図形、表等を含まない行画像を抽出できるからである。これにより、文書画像が縦書き、横書きの何れでも、また図形、表等が文書画像に含まれていても、文書画像から文字を含む行画像を正確に切り出すことができる。
【0117】
図22は、行画像の抽出の説明図である。図22の右側に示す文書画像の領域から、垂直方向及び水平方向に1ラインづつ黒画素ラインまたは白画素ラインが検出され、連続する白画素ラインが白画素領域として、連続する黒画遅ラインが黒画素領域として抽出される。さらに、黒画素ラインの数が上述した条件を満たすとき、一定数の黒画素ラインからなる黒画素領域は行画像として抽出される。この結果、図22の左側に示すような行画像を抽出することができる。
【0118】
次に図23は、図形を含む文書の行画像の抽出の説明図である。文書画像に図形が含まれている場合でも、行画像に対して垂直方向に上下2つの領域に分割し、領域単位で行画像の抽出を行うことで、上側の領域1から図形が含まれない黒画素領域及び白画素領域を抽出することができる。すなわち、図形を含む文書であっても、複数の領域に分割することにより、領域1から行画像を切り出すことが可能となる。
【0119】
例えば、複数の領域に分割せずに行画像の抽出を行ったとすると、図23の領域1の左から3行目の「そこで、最低二学年で1つの」という文章が書かれた行の隣の空白行には下側の図形の黒画素が含まれてしまうので、白画素領域ではなく黒画素領域として検出されてしまう可能性があり、本来文字の存在しない空白行と文字を含む行画像とを区別することが難しかった。
【0120】
この第4の実施の形態では、分割して読み取った文書画像を複数の領域に分割し、領域毎に行画像を抽出することにより、文書画像に図形、表、罫線等が含まれていても、それらを除いた文字のみが含まれる行画像を抽出することができる。これにより、後述する文書画像の結合位置の検出処理において、文書画像の結合位置となり得る有効な行画像を用いて行画像の比較を行うことができるので、結合位置を検出するための処理時間を短縮し、より効率的に文書画像を結合することができる。
【0121】
次に、図19のステップS1903の画像の結合位置の検出処理の内容を図24のフローチャートを参照して説明する。
上述した行画像の抽出処理により行画像の数の多かった領域を第1及び第2の文書格納部12,13からそれぞれ取り出す(図24,S2401)。このとき取り出す領域は、2つの文書画像の対応する領域を第1の候補として取り出す。例えば、図25に示すように2つの文書画像が読み取られ、それぞれの文書画像を上下2つの領域に分割した場合には、それぞれ対応する上側の領域1を取り出す。これは、文書画像をハンディスキャナによりスキャンするとき、通常は同じ方向にスキャンするので、第1及び第2の文書画像の対応する位置の領域の行画像から順に比較するためである。
【0122】
次に、第1の文書画像の領域1の行画像を取り出す(S2402)。なお、第1の文書画像の領域1から行画像を取り出す際に、縁から中心に向かう方向に順に行画像を取り出す。次に、取り出した行画像のそれぞれの文字を文字認識して対応する文字コードを検出する(S2403)。
【0123】
次に、第2の文書画像の領域1の行画像を取り出す(S2404)。さらに、行画像のそれぞれの文字を文字認識して対応する文字コードを検出する(S2305)。2つの文書画像のそれぞれの領域の行画像の文字コードを比較し、文字コードの一致度(画像の一致度)が所定値”Thresh”より大きいか否かを判別する(S2406)。このとき、先頭の文字コードが一致しない場合には、2つの領域の文字の配列がずれていることも考えられるので、一方の領域の先頭の文字コードと他方の領域の文字コードを順に比較して文字コードが一致するかどうかを判別する。
【0124】
文字コードの一致度が所定値以下の場合(S2406,NO)、つまり第1の文書画像の或る行画像の文字列と第2の文書画像の或る行画像の文字列の一致度が低い場合には、第2の文書画像の選択した領域に文字コードを比較していない行画像が存在するか否かを判別する(S2407)。文字コードを比較していない行画像が存在する場合には、ステップS2404に戻り第2の文書画像の次の行画像を取り出し上述した処理を繰り返す。
【0125】
ステップS2407で、第2の文書画像の選択した領域に文字コードの比較を行っていない行画像が存在しない場合(S2407,NO)、つまり第1の文書画像の選択した領域の特定の行画像(例えば、1番目の行画像)と、第2の文書画像の選択した領域の全ての行画像の文字コードの比較が終了して文字コード一致度が所定値以下のときには、ステップS2401に戻り第1及び第2の文書画像の次の領域を取り出し上述した処理を繰り返す。
【0126】
この結果、文字コードの一致度が所定値”Thresh”より大きい行画像が検出されたなら、ステップS2408に進み一致度の高い行画像の文字領域を文書画像の結合位置(重なり位置)として検出する。
【0127】
なお、文書を複数に分割してスキャンする場合、個人によってスキャン順序、あるいはスキャン方向に一定の傾向があると考えられるので、それぞれの行画像に番号を付け、過去に結合位置として検出された行画像の検出頻度を行画像の番号(識別情報)に対応させて記憶しておいて、検出頻度の高い行画像を優先して文字コードの比較を行うようにしても良い。このように過去に結合位置として検出された行画像の位置を優先して比較の対象とすることにより結合位置を検出するための処理時間を短縮することができる。
【0128】
図25は、2つの画像の結合面が行画像と平行な場合、つまり文書画像を行と平行な方向にスキャンして分割して読み取った場合の重なり位置の検出方法の説明図である。
【0129】
上述したように2つに分割した文書画像をそれぞれ2つの領域に分割し、領域の分割線と垂直な方向に黒画素ライン、白画素ラインの検出を行って、黒画素ラインの数が所定範囲内の黒画素領域を行画像として抽出する。次に、第1の文書画像の抽出した行画像を予め定められている方向から順に取り出す。例えば、縁から中心に向かう方向に行画像を順に取り出す。同様に第2の文書画像の抽出した行画像を予め定めてある方向から順に取り出す。
【0130】
そして、取り出した行画像のそれぞれの文字を認識し、得られた文字コードを比較して文字コードの一致度を判定する。文字コードの一致度が所定値以上であれば、その文字領域を2つの文書画像の重なり位置として決定する。
【0131】
図25においては、第1の文書画像の領域1の左から1行目の5個の文字「あ、い、う、え、お」の文字コードと、第2の文書画像の上側の領域1の右から1行目の5個の文字の文字コードが全て一致するので、その位置が2つの文書画像の結合位置となる。
【0132】
図26は、2つの文書画像の結合面が行画像(行)と垂直な場合、つまり文書画像を行と垂直な方向にスキャンして分割して読み取った場合の重なり位置の検出方法の説明図である。
【0133】
この場合も領域の分割線と垂直な方向に行画像を抽出し、行画像が抽出できたなら、それぞれの文字を認識し、得られた文字コードを比較して文字コードの一致度を判定する。
【0134】
図26において、例えば、第1の文書画像の右側の領域1の上から3行目の文字コードと、第2の文書画像の左側の領域1の上から3行目の文字コードを比較する。この場合、横書きの文書を中央部で重なるように左右に2分割して読み取り、分割した2つの文書画像をそれぞれ左右2つの領域に分割しているが、分割の仕方によっては第1の文書画像の領域1の3行目の先頭の文字と第2の文書画像の領域1の同一行の先頭の文字は必ずしも一致しない。
【0135】
例えば、図26では、第1の文書画像の領域1の3行目の文字列は「お、か、き、く、け、こ」の順序で並んでいるのに対して、第2の文書画像の領域1の文字列は「か、き、く、け、こ、さ」の順に並んでおり、両者の文字列は完全には一致しないことになる。
【0136】
そこで、本実施の形態では、一方の文書画像の領域の文字の配列順序を基準にして、他方の文書画像の領域の比較対象の文字を1づつ順に比較し、一致する文字が存在したなら、それ以降の対応する文字を順に比較するようにしている。
【0137】
図26の例について言えば、第2の文書画像の領域1の左から1番目の文字「か」の文字コードと、第1の文書画像の領域1の左から1番目の文字の文字コード、2番目の文字コード・・・と順に比較して、第1の文書画像の領域1の左から2番目の文字の文字コードと一致したなら、次に第2の文書画像の領域1の左から2番目の文字「き」の文字コードと、第1の文書画像の領域1の左から3番目の文字の文字コードを比較する。この場合、3番目以降の文字コードが全て一致するので、第1の文書画像の文字列「か、き、く、け、こ」を含む行画像と、第2の文書画像の同一の文字列を含む行画像の文字領域の位置が2つの文書画像の重なり位置、すなわち結合位置であることが分かる。
【0138】
以上のようにして文書画像の結合位置を検出したなら、検出した結合位置で2つの文書画像を結合する。図27は、図19のステップS1904の画像結合処理のフローチャートである。
【0139】
文書画像の結合位置が得られたなら、第1及び第2の文書画像を結合のために不要な画像と残す必要のある画像に分割する(図27,S2701)。次に、2つの文書画像がずれて読み取られている場合もあるので、2つの文書画像を含むような領域の縦幅と横幅とを決定する(S2702)。そして、不要な部分を除去して2つの文書画像を結合する。
【0140】
図28は、結合面が行と平行な場合、つまり文書画像を行と平行な方向にスキャンした場合の文書画像の結合方法の説明図である。
第1の文書画像の文字列「あ、い、う・・・」の行と、第2の文書画像の文字列「あ、い、う・・・」の行とが結合位置として検出され、第1及び第2の文書画像の該当する行の左隅上の座標が結合位置の座標として設定される。そして、第1及び第2の文書画像が、結合位置の座標の左側と右側の領域にそれぞれ分割され、第1の文書画像の分割位置(結合位置)の左側の画像を除去した残りの画像Aと、第2の文書画像の結合位置の右側の画像を除去した残りの画像Bとが結合されて元の文書画像が再生される。
【0141】
図29は、結合面が行と垂直な場合、つまり文書画像を行と垂直な方向にスキャンした場合の画像の結合方法の説明図である。
この場合、第1の文書画像の文字列「か、き、く、け、こ・・・」の行の文字「か」の左隅上を通り行と直交する線と、第2の文書画像の文字列「か、き、く、け、こ」を含む行の文字「か」の左隅上を通り行と直交する線が、それぞれ分割位置として得られる。そして、第1の文書画像の文字「か」の左上隅を通る線の左側の画像を除去した残りの画像Aと、第2の文書画像の文字「か」の左上隅を通る線の左側の画像を除去した残りの画像Bとが結合されて元の文書画像が再生される。
【0142】
上述した第4の実施の形態は、分割して読み取った文書画像をそれぞれ複数の領域に分割し、分割した領域から行画像を抽出し、その行画像の文字コードを比較して一致度が高い行画像を、文書画像の結合位置として検出するようにしたので、文書の中に図形、表、罫線等が含まれている場合でも、それらを含まない黒画素領域を行画像として抽出することができる。例えば、所定幅の行画像を検出することで、図形、表等を含んだ黒画素領域を行画像から除外することができるので、より正確に行画像を抽出することができる。従って、文書画像の結合位置を短い処理時間で正確に検出し、文書画像を再生することができる。
【0143】
なお、上述した第4の実施の形態では、抽出した行画像のそれぞれの文字の文字コードを比較して文書画像の結合位置を検出しているが、文字に外接する文字領域の位置と大きさとを比較して結合位置を検出するようにしても良い。
【0144】
次に、図30は、1つの文書画像を3つ以上に分割して読み取ったときに、各画像を順に結合する結合方法の説明図である。
図30に示すように、最初に読み取った画像1と2番目に読み取った画像2の結合位置を上述した画像の結合位置の検出処理により求め、画像1と画像2とを結合する。次に、1番目の画像1と2番目の画像2とを結合して得られた結合画像1と3番目に読み取った画像3とを結合し、結合画像3を得る。以下、同様に結合により得られた画像と読み取った画像を順に結合して最終的に全て元の画像を再生する。
【0145】
以下、複数画像の結合処理を図31のフローチャートと図32のユーザインタフェースの説明図を参照して説明する。
第1の画像格納部12に格納されている画像1を取り込む(図31,S3101)。次に、画像の取り込み枚数をカウントするカウンタiに初期値として「1」を設定する(S3102)。
【0146】
次に、自動結合のチェックボックスがオンとなっているか否かを判別する(S3103)。図32の▲1▼の自動結合のチェックボックスをユーザがマウス等によりクリックしてオンにすると、ステップS3103の判別がYESとなり、ステップS3104以降の処理が実行され、分割された文書画像の結合が行われる。なお、ステップS3103において、自動結合のチェックボックスがオフと判別された場合には(ステップS3103,NO)、ステップS3111に進み取り込んだ画像をそのまま表示する。なお、初期設定では自動結合するように条件が設定されている。
【0147】
次に、取り込んだ画像の枚数を計数するカウンタiの値がユーザにより設定さる結合枚数nより小さいか否かを判別する(S3104)。
結合枚数とは、1つの文書画像を幾つに分割して読み取ったか示すものであり、ユーザが図32の▲2▼の数字を変更することにより結合枚数を設定するようになっている。
【0148】
本実施の形態の文書画像結合装置の表示装置には、図32に示すような設定画面が表示され、ユーザは、その設定画面から文書画像の読み取り条件、結合条件等を設定することができる。具体的には、スキャナの解像度、画像の読み取り単位、読み取り対象の用紙サイズ、画像タイプ等をプルダウンメニューから選択できるようになっており、読み取り方向、自動結合を行うか否かはチェックボックスをマウス等でクリックすることで変更することができる。これにより、文書画像を読み取って、結合するまでの処理条件を簡易に設定でき、文書画像を結合する際の操作を簡略化できる。
【0149】
図31に戻り、取り込んだ画像の枚数が指定された結合枚数より小さい場合には(S3104,YES)、次に、結合終了ボタンが操作されたか否かを判別する(S3105)。結合終了ボタンとは、図32の▲3▼に示すボタンであり、自動結合の途中でこのボタンを操作することにより、自動結合処理を終了させることができる。
【0150】
次に、結合終了ボタンが操作されていなければ(S3105,NO)、次のステップS3106に進み、第2の画像格納部13に格納されている画像2を取り込む(S3106)。上述した画像の結合位置の検出処理により得られた結合位置で2つの画像を結合する(S3107)。そして、画像の結合が成功したか否かを判別する(S3108)。
【0151】
処理のスタート時には、画像1としては1番目に読み取った画像が、画像2としては2番目に読み取った画像が取り込まれるので両者を結合し、結合画像を第1の画像格納部12に格納する。
【0152】
画像の結合が成功したなら(S3108,YES)、処理のスタート時には、1番目と2番目の画像の結合が終了したことになるので、カウンタiの値をインクリメントして「2」にして2枚分の画像の結合が終了したことを記憶し、結合した画像を第1の画像格納部12に転送し(S3109)、ステップS3104に戻る。以下、第2の画像格納部13に3番目、4番目・・・の画像を順に格納し、その画像2と第1の画像格納部12の2回目、3回目・・・の結合画像との結合を繰り返すことにより、分割して読み取った文書画像を再生する。
【0153】
図31のステップS3108で結合が失敗したと判断された場合には(S3108,NO)、ステップS3110に進み再度第2の画像格納部13の画像2を取り込むか否かを判別する。ユーザにより取り込みが指示された場合には、ステップS3105に戻り上述した画像の結合処理を繰り返す。
【0154】
また、ステップS31110で結合終了ボタンが操作されたと判別された場合には(S3110,YES)、ステップS3111に進み第1の画像格納部12に格納されている結合画像を表示する。
【0155】
さらに、ステップS3104でカウンタiの値が指定枚数Nと等しいか、または大きいと判別された場合(S3104,NO)、つまり指定枚数分の画像の結合処理が終了した場合には、ステップS3111に進み第1の画像格納部12に格納されている結合画像、すなわち再生した元の文書画像を表示する。
【0156】
これらの処理により、図30に示すように1つの文書画像をn個に分割して読み取る場合に、1番目の画像1と2番目の画像2を結合して結合画像1を生成し、次に3番目の画像3とその結合画像1とを結合して結合画像2を生成する。以下、同様に前回の結合処理における結合画像K−1と次の画像Kとを結合して最終的な結合画像nを生成する。
【0157】
このように、1つの文書画像を複数の画像に分割して読み取る場合に、分割された個々の画像をそれぞれ結合するのではなく、1番目と2番目の画像を結合して得られる結合画像と次の3番目の画像を結合し、その結合画像と4番目の画像を結合し、以下同様の結合処理を繰り返すことにより、例えば、画像のスキャン順序に一定の規則性がある場合には、無駄な画像の結合位置の検出を行わずに、より短時間で結合位置を検出することができる。
【0158】
なお、文書画像を3以上の複数の画像に分割する場合、文書画像をハンディスキャナ等でスキャンする順序は一定の傾向がある場合が多いので、画像1,画像2の結合方向が検出されたなら、その結合方向を優先して次の画像3との結合位置を検出することでより短時間で結合位置を検出することができる。また、画像の結合処理の過程でそれ以前と結合方向が変化した場合には、新たに検出された結合方向で次の画像を結合することで、スキャン順序、方向の変化に応じて効率的に結合位置の検出を行うことができる。
【0159】
さらに、本発明の文書画像結合装置に格納されるプログラムデータを、図33に示すフロッピーディスク、CDROM等の記録媒体3301に格納しておいて、その記録媒体3301を情報処理装置(パーソナルコンピュータ等)3302の媒体駆動装置(フロッピーディスクドライバー、CDROMドライバー等)により読み取り、読み取ったプログラムデータをハードディスク等の記憶装置3303に格納し、そのプログラム実行するようにしてもよい。あるいはプログラムを情報提供者のコンピュータのハードディスク等の記憶装置3304に記憶しておいて、通信によりユーザの情報処理装置3302に転送し、ユーザ側の記憶装置3303に記憶してプログラムを実行するようにしてもよい。また、記録媒体3301に記録するプログラムは、実施の形態に述べたフローチャートの一部の機能を有するものであってもよい。
【0160】
【発明の効果】
本発明によれば、分割して読み取る文書に結合のためのマーク等を付ける必要が無く、また分割した文書画像の結合位置をオペレータが指定する必要が無くなり、分割して読み取った複数の画像をユーザの手を煩わすことなく結合することができる。また、分割して読み取った文書画像をそれぞれ複数の領域に分割して行画像を抽出することで、文書画像に図形、表等が含まれる場合でも、行画像を抽出して複数の文書画像を正確に結合することができる。
【図面の簡単な説明】
【図1】第1の実施の形態の文書画像結合装置のブロック図である。
【図2】第2の実施の形態の文書画像結合装置のブロック図である。
【図3】同図(A)、(B)、(C)は、原理説明図である。
【図4】全体の処理を示すフローチャートである。
【図5】行画像の説明図である。
【図6】行画像抽出処理のフローチャートである。
【図7】文字領域の説明図である。
【図8】同図(A)、(B)は横書き文書と縦書き文書のスキャン順序の説明図である。
【図9】同図(A)〜(D)は、重なり位置の検出方向の説明図である。
【図10】同図(A),(B)は、文書のスキャン順序の説明図である。
【図11】同図(A)〜(D)は、縦書文書の結合方向の説明図である。
【図12】同図(A)〜(D)は、横書文書の結合方向の説明図である。
【図13】重なり位置検出処理のフローチャート(その1)である。
【図14】同図(A)、(B)は、横書き及び縦書き文書画像の行画像番号の説明図である。
【図15】文字領域パターンと文字コードを比較して重なり位置を検出する場合の説明図である。
【図16】重なり位置検出処理のフローチャート(その2)である。
【図17】文字領域のパターンを比較して重なり位置を検出する場合の説明図である。
【図18】文字コードを比較して重なり位置を検出する場合の説明図である。
【図19】第4の実施の形態の処理の概要を示すフローチャートである。
【図20】行画像の抽出処理のフローチャートである。
【図21】同図(A)、(B)は、白画素ラインと黒画素ラインの抽出方法の説明図である。
【図22】行画像の抽出の説明図である。
【図23】図形を含む文書の行画像の抽出の説明図である。
【図24】画像の結合位置の検出処理のフローチャートである。
【図25】結合面が行と平行な場合の重なり位置の検出方法の説明図である。
【図26】結合面が行と垂直な場合の重なり位置の検出方法の説明図である。
【図27】画像の結合処理のフローチャートである。
【図28】結合面が行と平行な場合の画像の結合方法の説明図である。
【図29】結合面が行と垂直な場合の画像の結合方法の説明図である。
【図30】複数画像の結合方法の説明図である。
【図31】複数画像の結合処理のフローチャートである。
【図32】ユーザインタフェースの説明図である。
【図33】記録媒体の説明図である。
【図34】従来の画像結合方法の説明図である。
【符号の説明】
11,21 文書画像結合装置
12 第1の画像格納部
13 第2の画像格納部
14 文字領域検出部
15,23 重なり位置検出部
16 画像結合部
22 文字認識部
Claims (22)
- 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割する領域分割手段と、
前記領域分割手段により分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識する行画像抽出手段と、
前記行画像抽出手段により抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を前記複数の文書画像の重なり位置として検出する重なり検出手段と、
前記重なり検出手段により検出された重なり位置で前記複数の文書画像を結合する画像結合手段とを備えることを特徴とする文書画像結合装置。 - 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割する領域分割手段と、
前記領域分割手段により分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識する行画像抽出手段と、
前記行画像抽出手段により抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字画像を文字認識する文字認識手段と、
前記文字認識手段により得られるそれぞれの文書画像の1または複数の領域の文字認識結果に基づいて前記複数の文書画像の重なり位置を検出する重なり検出手段と、
前記重なり検出手段により検出された重なり位置で前記複数の文書画像を結合する画像結合手段とを備えることを特徴とする文書画像結合装置。 - 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割する領域分割手段と、
前記領域分割手段により分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識する行画像抽出手段と、
前記行画像抽出手段により抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の複数の文字領域の位置と大きさを比較して、一致度の高い複数の文字領域を検出し、検出した複数の文字領域の位置に基づいて前記複数の画像の重なり位置を検出する重なり検出手段と、
前記重なり検出手段により検出された重なり位置で前記複数の文書画像を結合する画像結合手段とを備えることを特徴とする文書画像結合装置。 - 前記行画像抽出手段は、分割された領域の1ライン分の画素を検出し、1ラインに含まれる黒画素数が一定値以上となるラインを黒画素ライン、それ以外のラインを白画素ラインとして検出することを特徴とする請求項1,2,または3記載の文書画像結合装置。
- 前記行画像抽出手段は、前記領域分割手段により分割された領域の分割線に対して垂直方向に1ラインづつ前記領域の画素を検出することを特徴とする請求項4記載の文書画像結合装置。
- 前記行画像抽出手段は、連続する黒画素ラインの数が所定範囲内となる領域を黒画素領域として抽出することを特徴とする請求項4または5記載の文書画像結合装置。
- 前記行画像抽出手段は、連続する白画素ラインの数が所定値以上となる領域を白画素領域として抽出することを特徴とする請求項6記載の文書画像結合装置。
- 前記領域分割手段は、読み取った文書画像の解像度に応じて分割する領域の大きさを変更することを特徴とする請求項1,2または3記載の文書画像結合装置。
- 前記行画像抽出手段は、読み取った文書画像の解像度に応じて黒画素領域とみなす黒画素ラインの数を変更することを特徴とする請求項6記載の文書画像結合装置。
- 前記行画像抽出手段は、所定の条件を満たす白画素領域と隣接する黒画素領域を行画像として抽出することを特徴とする請求項6または7記載の文書画像結合装置。
- 前記重なり検出手段は、過去に文書画像の重なり位置として検出された行画像の検出頻度を前記行画像に割り当てられる識別情報と対応させて記憶し、検出頻度の高い行画像から優先して重なり位置の検出を行うことを特徴とする請求項1,2または3記載の文書画像結合装置。
- 前記重なり検出手段は、それぞれの領域の行画像を所定の順序で比較することを特徴とする請求項1,2または3記載の文書画像結合装置。
- 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割する領域分割手段と、
前記領域分割手段により分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識する行画像抽出手段と、
前記行画像抽出手段により抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を前記複数の文書画像の重なり位置として検出する重なり検出手段と、
前記重なり検出手段により検出された重なり位置で前記複数の文書画像を結合する画像結合手段と、
前記複数の文書画像の自動結合を行うか否かを表示画面上で設定できる設定手段とを備えることを特徴とする文書画像結合装置。 - 前記設定手段は、表示画面上に表示される操作ボタンであることを特徴とする請求項13記載の文書画像結合装置。
- 前記設定手段は、文書画像の結合枚数をユーザが設定できることを特徴とする請求項13または14記載の文書画像結合装置。
- 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割し、
分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識し、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を前記複数の文書画像の重なり位置として検出し、
検出された重なり位置で前記複数の文書画像を結合することを特徴とする文書画像結合方法。 - 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割し、
分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識し、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域内の文字画像を文字認識し、
それぞれの領域の文字認識結果に基づいて前記複数の文書画像の重なり位置を検出し、
検出された重なり位置で前記複数の文書画像を結合することを特徴とする文書画像結合方法。 - 分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割し、
分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識し、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の複数の文字領域の位置と大きさを比較して、一致度の高い文字領域を抽出し、
抽出された文字領域の位置に基づいて前記複数の画像の重なり位置を検出し、
検出された重なり位置で前記複数の文書画像を結合することを特徴とする文書画像結合方法。 - 分割して読み取られた複数の文書画像の自動結合を行うか否かを表示画面上で設定できるように表示し、
前記複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割し、
分割された複数の領域のそれぞれについて行画像を抽出すると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識し、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を文書画像の重なり位置として検出し、
検出された重なり位置で前記複数の文書画像を結合することを特徴とする文書画像結合方法。 - コンピュータに、
分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割させ、
分割された複数の領域のそれぞれについて行画像を抽出させると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識させ、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を前記複数の文書画像の重なり位置として検出させ、
検出された重なり位置で前記複数の文書画像を結合させるプログラムを記録したコンピュータ読み取り可能な記録媒体。 - コンピュータに、
分割して読み取られた複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割させ、
分割された複数の領域のそれぞれについて行画像を抽出させると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識させ、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域内の文字画像を文字認識させ、
それぞれの領域の文字認識結果に基づいて前記複数の文書画像の重なり位置を検出させ、
検出された重なり位置で前記複数の文書画像を結合させるプログラムを記録したコンピュータ読み取り可能な記録媒体。 - コンピュータに、
分割して読み取られた複数の文書画像の自動結合を行うか否かを表示画面上で設定できるように表示させ、
前記複数の文書画像の内の任意数の文書画像またはそれぞれの文書画像を垂直及び水平方向に複数の領域に分割させ、
分割された複数の領域のそれぞれについて行画像を抽出させると共に、前記垂直方向に分割された領域から抽出した行画像の数と、前記水平方向に分割された領域から抽出した行画像の数とを比較し、行画像の数の多い領域の行画像の方向を前記複数の文書画像の行画像の方向として認識させ、
抽出された、行画像の数の多い方向に分割されたそれぞれの領域の行画像の文字領域を比較して、一致度の高い文字領域の位置を前記複数の文書画像の重なり位置として検出させ、
検出された重なり位置で前記複数の文書画像を結合させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11170899A JP3821267B2 (ja) | 1999-01-18 | 1999-04-20 | 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 |
US09/475,991 US7194144B1 (en) | 1999-01-18 | 1999-12-30 | Document image processing device, document image merging method, and storage medium recording a document image merging program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP938199 | 1999-01-18 | ||
JP11-9381 | 1999-01-18 | ||
JP11170899A JP3821267B2 (ja) | 1999-01-18 | 1999-04-20 | 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000278514A JP2000278514A (ja) | 2000-10-06 |
JP3821267B2 true JP3821267B2 (ja) | 2006-09-13 |
Family
ID=26344077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11170899A Expired - Fee Related JP3821267B2 (ja) | 1999-01-18 | 1999-04-20 | 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7194144B1 (ja) |
JP (1) | JP3821267B2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002024762A (ja) * | 2000-06-30 | 2002-01-25 | Toshiba Corp | 文書認識装置及びその方法 |
US7095905B1 (en) * | 2000-09-08 | 2006-08-22 | Adobe Systems Incorporated | Merging images to form a panoramic image |
JP4444545B2 (ja) * | 2002-01-23 | 2010-03-31 | 富士通株式会社 | 画像結合装置 |
US7343049B2 (en) * | 2002-03-07 | 2008-03-11 | Marvell International Technology Ltd. | Method and apparatus for performing optical character recognition (OCR) and text stitching |
US7221796B2 (en) | 2002-03-08 | 2007-05-22 | Nec Corporation | Character input device, character input method and character input program |
WO2004077356A1 (ja) * | 2003-02-28 | 2004-09-10 | Fujitsu Limited | 画像結合装置、画像結合方法 |
EP1833022A4 (en) * | 2004-12-28 | 2010-07-14 | Fujitsu Ltd | Image processing device for detecting the position of a processing object in a picture |
JP4919028B2 (ja) * | 2006-03-03 | 2012-04-18 | 富士ゼロックス株式会社 | 画像処理装置および画像処理プログラム |
US20090214134A1 (en) * | 2008-02-27 | 2009-08-27 | Motorola, Inc. | System and method for image data extraction and assembly in digital cameras |
JP4539756B2 (ja) | 2008-04-14 | 2010-09-08 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5116638B2 (ja) * | 2008-11-13 | 2013-01-09 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
JP5183453B2 (ja) * | 2008-12-17 | 2013-04-17 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
TWI379245B (en) * | 2009-04-27 | 2012-12-11 | Asustek Comp Inc | Method for continuously outputting character by video-recording |
JP2011065295A (ja) * | 2009-09-15 | 2011-03-31 | Ricoh Co Ltd | 画像処理装置、画像処理システムおよび画像処理プログラム |
US9129177B2 (en) | 2012-01-09 | 2015-09-08 | Qualcomm Incorporated | Image cache |
US9471833B1 (en) * | 2012-04-03 | 2016-10-18 | Intuit Inc. | Character recognition using images at different angles |
JP6061502B2 (ja) * | 2012-06-04 | 2017-01-18 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP5895759B2 (ja) | 2012-07-23 | 2016-03-30 | 富士ゼロックス株式会社 | 画像形成装置および試験データ |
JP5758025B1 (ja) * | 2014-04-30 | 2015-08-05 | 株式会社Pfu | 画像読取装置 |
US10926415B2 (en) * | 2015-11-16 | 2021-02-23 | Kawasaki Jukogyo Kabushiki Kaisha | Robot system and control method of robot system |
JP6852359B2 (ja) * | 2016-11-16 | 2021-03-31 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP6702198B2 (ja) * | 2017-01-11 | 2020-05-27 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及びプログラム |
JP6936018B2 (ja) * | 2017-02-21 | 2021-09-15 | ソニーセミコンダクタソリューションズ株式会社 | 映像送信装置および映像受信装置 |
JP6878968B2 (ja) * | 2017-03-13 | 2021-06-02 | 日本電気株式会社 | 物品管理システム、物品管理方法および物品管理プログラム |
JP6950252B2 (ja) * | 2017-04-11 | 2021-10-13 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置及びプログラム |
JP7240164B2 (ja) * | 2018-12-17 | 2023-03-15 | トッパン・フォームズ株式会社 | 画像処理装置、画像管理方法、プログラム |
JP2020123925A (ja) | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
US11366968B2 (en) * | 2019-07-29 | 2022-06-21 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
CN113034421A (zh) * | 2019-12-06 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置及存储介质 |
US20210265016A1 (en) | 2020-02-20 | 2021-08-26 | Illumina, Inc. | Data Compression for Artificial Intelligence-Based Base Calling |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6042990B2 (ja) * | 1978-05-22 | 1985-09-26 | 株式会社日立製作所 | パタ−ン認識方法 |
US4949391A (en) * | 1986-09-26 | 1990-08-14 | Everex Ti Corporation | Adaptive image acquisition system |
JPH01229559A (ja) | 1988-03-10 | 1989-09-13 | Oki Electric Ind Co Ltd | 原稿読取装置 |
JP2917155B2 (ja) | 1989-12-18 | 1999-07-12 | 株式会社日立製作所 | 画像結合装置及び方法 |
US5675672A (en) * | 1990-06-26 | 1997-10-07 | Seiko Epson Corporation | Two dimensional linker for character string data |
SE509327C2 (sv) * | 1996-11-01 | 1999-01-11 | C Technologies Ab | Sätt och anordning för registrering av tecken med hjälp av en penna |
JP3368184B2 (ja) * | 1997-08-27 | 2003-01-20 | 日本電信電話株式会社 | 画像処理方法及びその方法を記録した記録媒体及び画像処理装置 |
JPH11196255A (ja) * | 1997-12-26 | 1999-07-21 | Minolta Co Ltd | 画像読み取り装置、画像データ処理方法および画像データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
-
1999
- 1999-04-20 JP JP11170899A patent/JP3821267B2/ja not_active Expired - Fee Related
- 1999-12-30 US US09/475,991 patent/US7194144B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000278514A (ja) | 2000-10-06 |
US7194144B1 (en) | 2007-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3821267B2 (ja) | 文書画像結合装置、文書画像結合方法及び文書画像結合プログラムを記録した記録媒体 | |
JP5699623B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、および、プログラム | |
EP0834826B1 (en) | Positioning templates in optical character recognition systems | |
JP3056920B2 (ja) | 文書の走査イメージからフィールドのイメージを摘出する方法及びデータ処理システム | |
US4903312A (en) | Character recognition with variable subdivisions of a character region | |
JP3805005B2 (ja) | 画像処理装置及び光学的文字認識装置及びそれらの方法 | |
US5444793A (en) | Method for detecting machine printed monetary amounts in binary images | |
JP4533187B2 (ja) | 画像処理装置およびその制御方法 | |
JP3170299B2 (ja) | 画像読取処理装置 | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20110007366A1 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
EP1017011A2 (en) | Block selection of table features | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
JPH05217019A (ja) | ビジネスフォーム識別システム及び画像処理システム | |
JPH05282495A (ja) | 比較方法 | |
JP3678345B2 (ja) | 走査読込み文書のユーザ描画囲み領域抽出方法 | |
US20060061777A1 (en) | Modifying digital documents | |
JP6353893B2 (ja) | 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置 | |
US6947596B2 (en) | Character recognition method, program and recording medium | |
US20100131841A1 (en) | Document image layout apparatus | |
JPH06301781A (ja) | コンピュータによるパターン認識のためのイメージ変換方法及び装置 | |
JPH06103411A (ja) | 文書読取装置 | |
JP3954247B2 (ja) | 文書入力方法、文書入力プログラムを記録した記録媒体及び文書入力装置 | |
JP4409678B2 (ja) | 罫線抽出方式 | |
JP2755299B2 (ja) | 画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050314 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051006 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060614 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100630 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110630 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120630 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120630 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130630 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140630 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |