JP2016082357A - 画像処理装置、画像処理プログラムおよび画像処理方法 - Google Patents

画像処理装置、画像処理プログラムおよび画像処理方法 Download PDF

Info

Publication number
JP2016082357A
JP2016082357A JP2014211040A JP2014211040A JP2016082357A JP 2016082357 A JP2016082357 A JP 2016082357A JP 2014211040 A JP2014211040 A JP 2014211040A JP 2014211040 A JP2014211040 A JP 2014211040A JP 2016082357 A JP2016082357 A JP 2016082357A
Authority
JP
Japan
Prior art keywords
inclination
area
document image
image
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014211040A
Other languages
English (en)
Other versions
JP6379980B2 (ja
Inventor
田中 宏
Hiroshi Tanaka
宏 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014211040A priority Critical patent/JP6379980B2/ja
Publication of JP2016082357A publication Critical patent/JP2016082357A/ja
Application granted granted Critical
Publication of JP6379980B2 publication Critical patent/JP6379980B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】簡単な操作で、文書画像全体の傾きを適切に補正することのできる画像処理装置、画像処理プログラムおよび画像処理方法を提供する。
【解決手段】受け付けた文書画像を複数の領域に分割する分割部と、該分割部が分割した各領域の文書画像の縁に対する傾きを推定する推定部と、前記複数の領域それぞれと前記推定部が推定した傾きとを関連づけて出力する出力部と、前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する補正部とを備える。
【選択図】図4

Description

本発明は、画像処理装置、画像処理プログラムおよび画像処理方法に関する。
文書を入力する際に入力文書の傾きを検出し、補正する文書画像傾き検出方法が開示されている(特許文献1)。
文字、写真、絵、図形、表などが混在する文書画像からそれぞれの領域を識別する画像処理方法が開示されている(特許文献2)。
文字、写真、絵、図形、表などが混在する文書画像をそれぞれの領域に分割し、画素の白黒反転回数を基に算出した複雑度を指標として各領域の傾きを検出する傾き検出方法が開示されている(非特許文献1)。
特開平05−174183号公報 特開平09−167233号公報
石谷康人(Yasuto ISHITANI)、「領域の複雑度に基づく文書傾きの検出(Document Skew Detection Based on Local Region Complexity)」、文書の解析と認識1993年第2回国際会議録(Document Analysis and Recognition, 1993., Proceedings of the Second International Conference on)、1993年10月、p.49−52
しかしながら、特許文献1、特許文献2および非特許文献1の方法で文書画像の傾きを検出して補正しても、適切な傾き補正結果が得られない場合がある。
一つの側面では、簡単な操作で適切な傾き補正結果を得ることのできる画像処理装置等を提供することを目的とする。
画像処理装置は、受け付けた文書画像を複数の領域に分割する分割部と、該分割部が分割した各領域について前記文書画像の縁に対する傾きを推定する推定部と、複数の領域それぞれと、前記推定部が推定した傾きとを関連づけて出力する出力部と、前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する補正部とを備える。
一つの側面では、簡単な操作で適切な傾き補正結果を得ることのできる画像処理装置等を提供できる。
画像処理装置のハードウェア構成を示す装置構成図である。 処理対象の文書画像の例を示す説明図である。 文書画像を領域に分割した例を示す説明図である。 文書画像に傾き指標を重畳表示した例を示す説明図である。 領域の選択手順を説明する説明図である。 使用する領域以外を消去した文書画像の例を示す説明図である。 傾きを補正した文書画像の例を示す説明図である。 保存する文書画像の例を示す説明図である。 画像処理装置の処理手順を示すフローチャートである。 文書画像全体の傾き推定の処理手順を示すフローチャートである。 実施の形態3の文書画像全体の傾き推定の処理手順を示すフローチャートである。 実施の形態4の文書画像に領域の傾きを表示した例を示す説明図である。 実施の形態5の文書画像に傾き指標を重畳表示した例を示す説明図である。 実施の形態6の画像処理装置の処理手順を示すフローチャートである。 実施の形態7の画像処理装置の処理手順を示すフローチャートである。 実施の形態7の文書画像に傾き指標を重畳表示した例を示す説明図である。 実施の形態7の領域の選択手順を説明する説明図である。 実施の形態8の文書画像に傾き指標を重畳表示した例を示す説明図である。 画像処理装置の全体構成を示す機能構成図である。 実施の形態10の画像処理装置のハードウェア構成を示す装置構成図である。
[実施の形態1]
本実施の形態における画像処理装置10は、文書画像の入力を受け付け、その文書画像の縁に沿う内部領域に含まれる画像の傾きを補正して出力する装置である。本実施の形態では、画像処理装置10には汎用のパーソナルコンピューターを使用する。文書画像は、紙等に記録された文書をスキャナ、デジタルカメラなどの電子映像装置を用いて電子化した画像である。
図1は、画像処理装置10のハードウェア構成を示す装置構成図である。本実施の形態の画像処理装置10は、CPU(Central Processing Unit)11、主記憶装置12、補助記憶装置13、入力部14、操作部15、表示部16、通信モジュール17、バスを備える。
CPU11は、一または複数のCPUまたはマルチコアCPU等を備えた演算制御装置である。CPU11は、バスを介してハードウェア各部と接続されている。CPU11は、補助記憶装置13に保存された画像処理プログラムに従い、画像処理装置10に必要な演算処理およびハードウェア各部の制御を行う。
主記憶装置12は、SRAM(Static RAM)、DRAM(Dynamic RAM)またはフラッシュメモリ等の記憶装置である。主記憶装置12には、CPU11が行う処理の途中で必要な情報およびCPU11で実行中のプログラムが一時的に保存される。
補助記憶装置13は、ハードディスクまたは半導体メモリディスク等の記憶装置である。補助記憶装置13には、CPU11に実行させる画像処理プログラムおよび画像処理プログラムの実行に必要な各種データが保存される。
入力部14は、たとえばスキャナ、デジタルカメラ等の電子映像機器である。入力部14は文書画像が記録された可搬型記録媒体の読み取り装置でも良い。可搬型記録媒体は、SDHC(Secure Digital High Capacity)メモリカード、USB(Universal Serial Bus)メモリ、CD−ROM(Compact Disc Read Only Memory)ディスクまたはDVD(Digital Versatile Disc)ディスク等の光学ディスク等である。なお、後述の通信モジュール17を介して文書画像が画像処理装置10に入力されてもよい。また、文書画像は予め補助記憶装置13に保存されていても良い。
操作部15は、マウス、キーボード、タッチパネル、ペンタブレット、マイク等の機器であり、ユーザによる操作を画像処理装置10が受け付ける際に使用する。表示部16は、ディスプレイ、プリンタ等の機器であり、文書画像等を表示する。
通信モジュール17は、インターネットまたはイントラネット等のネットワークとの通信を行う。通信モジュール17は、ネットワーク上の保存領域に保存された文書画像の入力およびネットワーク上の保存領域への文書画像の出力に使用される。
図2は、処理対象の文書画像の例を示す説明図である。図3は、文書画像を領域に分割した例を示す説明図である。図4は、文書画像に傾き指標35を重畳表示した例を示す説明図である。図5は、領域の選択手順を説明する説明図である。図6は、使用する領域以外を消去した文書画像の例を示す説明図である。図7は、傾きを補正した文書画像の例を示す説明図である。図8は、保存する文書画像の例を示す説明図である。
図2から図8を使用して、本実施の形態の画像処理の概要を説明する。CPU11は、入力部14または通信モジュール17を介して図2の文書画像を受け付ける。CPU11は受け付けた文書画像を補助記憶装置13に保存する。CPU11は、保存した文書画像を読み出して表示部16に表示する。
図2に示すように、文書画像は一定の大きさの画像である。文書画像縁38は、受け付けた文書画像の縁を示す。図2は、文書の表示内容が文書画像縁38に対して時計回りの向きに傾いた状態の文書画像を受け付けた例を示している。文書画像縁38に沿う内側領域39には、文書の表示内容の文字等が画像として表示されている。以下の説明では、内部領域39に含まれる画像を文書画像全体という。
CPU11は、文書画像を図3に示すように第1領域301から第10領域310の10個の矩形の領域に分割する。説明のために図3では、各領域の境界を領域枠36で示している。分割数はCPU11が受け付けた文書画像および使用する分割方法によって変化する。なお、領域の形状は三角形、五角形以上の多角形または楕円形等でも良い。また、領域同士が一部分重複しても良い。
CPU11は、第1領域301から第10領域310までのそれぞれの領域の文書画像縁38に対する傾きを推定する。CPU11は、図4に示すように第1領域301から第10領域310の各領域に、各々の領域の傾きを示す傾き指標35および各領域の境界を示す領域枠36を重畳した画像を、表示部16に表示する。傾き指標35は、第1領域301から第10領域310の各々の傾きの推定結果に対応して表示される。図4では傾き指標35は各領域内に表示された文字列の行方向であると推定された方向の平行線である。なお、たとえば第3領域303の様に文字が含まれていない領域であっても、CPU11は第1領域301に対するのと同様の処理を行って傾きを推定して、傾き指標35を表示する。
CPU11は、どの領域を文書画像全体の傾き推定に使用するかの選択を操作部15から受け付ける。図5では、使用しないという選択を受け付けた第3領域303、第4領域304、第5領域305、第8領域308および第9領域309に指差しマーク37が表示され、これらの各領域内の傾き指標35が破線で表示されている。
操作部15にマウス等のポインティングデバイスが使用される場合を例にして説明する。初期状態では、すべての領域が使用する領域であると設定されている。領域がクリックされる事によりCPU11は使用しないという選択を受け付け、その領域の周縁部に指差しマーク37を表示し、傾き指標35を破線にする。既に選択済の領域がクリックされた場合には、CPU11は使用しないという選択の解除を受け付け、その領域の周縁部に表示されていた指差しマーク37を消去し、傾き指標35を実線にする。なお、初期状態では、全ての領域が使用しない領域であると設定され、クリックされることにより使用するという選択を受け付けるユーザインターフェースを使用しても良い。この場合には、使用するという選択を受け付けた領域に指差しマーク37を付けると良い。
図6に、文書画像全体の傾き推定に使用する領域のみを取り出した文書画像を示す。第1領域301、第2領域302、第6領域306、第7領域307および第10領域310が表示されている。文書画像全体の傾き推定に使用しないという選択を受け付けた第3領域303、第4領域304、第5領域305、第8領域308および第9領域309の内側は消去され、文書画像の地の色と同じ色で表示されている。CPU11は、図6に示す文書画像の内側の画像の文書画像縁38に対する傾きを推定する。図7に、図5の画像をCPU11が推定した傾きで補正した画像を示す。CPU11が傾き推定に使用した、第1領域301、第2領域302、第6領域306、第7領域307および第10領域310内の文字列が正しい向きになるように補正されている。
CPU11は、推定結果に基づいて図2に示す文書画像全体の傾きを補正する。CPU11は、たとえばA4判などの適切な文書サイズに設定して、図8に示す文書画像を出力する。出力は、表示部16に文書画像を表示しても良いし、補助記憶装置13に文書画像を保存しても良い。またCPU11は、通信モジュール17を介してネットワーク上の保存領域に文書画像を出力しても良い。
図9は、画像処理装置10の処理手順を示すフローチャートである。図9を使用して本実施の形態のCPU11が行う処理の流れを説明する。
CPU11は文書画像を受け付けて、補助記憶装置13に保存する(ステップS401)。ここで文書画像はスキャナ等で読み取った文書画像を入力部14から受け付けても良いし、読み取った後で可搬型記録媒体に保存されている文書画像を入力部14から受け付けても良い。文書画像は補助記憶装置13に予め保存されていても良い。また通信モジュール17を介してネットワーク上の保存領域に保存された文書画像を受け付けても良い。
CPU11は文書画像をある大きさをもつ複数の二次元領域に分割する(ステップS402)。文書画像を領域に分割する方法は、非特許文献1に記載されている画像の複雑度を使う方法、特許文献2に記載されている白と黒の2値の画像データに変換して処理する方法等、種々の方法が公知であるので説明は省略する。
CPU11は、分割した各領域の文書画像縁38に対する傾きを推定する(ステップS403)。傾きの推定方法は、特許文献1に記載されている画像の複雑度を使う方法、文書内の表罫線を使う方法等、種々の方法が公知であるので説明は省略する。
CPU11は、文書画像にCPU11が推定した各領域の傾きを示す傾き指標35および領域の境界を示す領域枠36を重畳した画像を生成する。ここで、傾き指標35は各領域の傾きの推定結果を示す平行線である。CPU11は、各領域についてステップS403で推定した傾き角度に沿う方向の長さを求め、傾き指標35をこれに対応する長さの平行線にする。また、CPU11は、各領域について平行線と直交する方向に沿う方向の長さを求め、傾き指標35をこれに対応する本数の平行線にする。その後、CPU11は、生成した画像を表示部16に表示する(ステップS404)。
CPU11は、どの領域を文書画像全体の傾きの推定に使用するかの選択を受け付ける(ステップS405)。ここで、文書画像全体の傾きは、具体的には垂直方向または水平方向に対する傾き、すなわち文書画像縁38の横辺または縦辺に対する内側領域39に含まれる画像の傾きである。選択は、操作部15より受け付ける。操作部15にマウス等のポインティングデバイスが使用される場合を例にして説明する。図5では、操作部15によりクリックされた領域は使用せず、それ以外の領域を使用するという選択を受け付けるユーザインターフェースを示す。図5とは逆に、クリックされた領域を使用してそれ以外の領域は使用しないという選択を受け付けるユーザインターフェースを採用することもできる。
CPU11は、表示部16に表示された図示しない選択完了のボタンが操作部15により操作されることにより、領域の選択が完了したことを受け付ける。なお、一定数以上の領域が選択された場合に、領域の選択が完了したとCPU11が判定して次のステップに移行するユーザインターフェースを採用しても良い。
CPU11は、文書画像全体の傾き推定のサブルーチンを起動する(ステップS406)。文書画像全体の傾き推定のサブルーチンは、使用するという選択を受け付けた領域の情報を用いて文書画像全体の傾きを推定するサブルーチンである。サブルーチン内の処理については後述する。
CPU11は、文書画像を回転することにより、文書画像全体の傾きを補正する(ステップS407)。文書画像を回転するとは、具体的には傾き推定に使用する領域と使用しない領域の双方を含む内側領域39内の画像を一体として、文書画像縁38に対して相対的に回転することである。また、文書画像全体の傾きを補正するとは、具体的には推定した傾きを打ち消す角度および向きで文書画像を回転することである。CPU11は、補正後の文書画像をたとえばA4版などの適切な大きさに設定する。CPU11は、表示部16に補正後の文書画像を表示する(ステップS408)。この際CPU11は、図7に示す様に傾き指標35、領域枠36および指差しマーク37を重畳した文書画像を表示しても良いし、図8に示す様に補正結果のみを示す文書画像を表示しても良い。
CPU11は、文書画像の補正を終了するか否かの選択を受け付ける(ステップS409)。選択は、表示部16に表示された図示しない選択完了のボタンが、操作部15により操作されることにより受け付ける。
文書画像の補正を終了する場合(ステップS409でYES)は、CPU11は補助記憶装置13等に補正後の文書画像を保存する(ステップS410)。その後処理を終了する。文書画像の補正を終了しない場合(ステップS409でNO)は、CPU11はステップS405に戻る。なお、ステップS408でCPU11が図8に示す様な補正結果のみの文書画像を表示した場合には、ステップS405に戻る前にCPU11は図7に示すような傾き指標35、領域枠36および指差しマーク37を重畳した文書画像を表示する。
図10は、文書画像全体の傾き推定の処理手順を示すフローチャートである。図10を使用して、文書画像全体の傾き推定のサブルーチンの処理の流れを説明する。
CPU11は、文書画像の複製を作成して補助記憶装置13に保存する(ステップS420)。以後の文書画像全体の傾き推定のサブルーチン内の処理は、文書画像の複製を用いて行う。CPU11は、1番目の領域に関する情報を取り出す(ステップS421)。CPU11は、調べている領域が文書画像全体の傾きの推定に使用する領域か否かを判定する(ステップS422)。調べている領域が文書画像全体の傾きの推定に使用する領域ではない場合は(ステップS422でNO)、CPU11はその領域の内部を文書画像の地の色と同じ色に設定する事により消去する(ステップS423)。
調べている領域が文書画像全体の傾きの推定に使用する領域の場合(ステップS422でYES)およびステップS423が終了した場合には、CPU11は全ての領域に対する処理が完了したか否かを判定する(ステップS424)。完了していない場合には(ステップS424でNO)、CPU11は次の領域に関する情報を取り出し(ステップS425)、ステップS422に戻る。
全ての領域に対する処理が完了している場合は(ステップS424でYES)、CPU11はステップS422からステップS425のループで処理した文書画像に基づいて文書画像全体の傾きを推定する(ステップS426)。すなわち、ステップS426で使用する文書画像は、文書画像全体の傾きの推定に使用する領域だけを残しそれ以外の領域を消去した文書画像である。ステップS426で使用する文書画像の例を図6に示す。前述の通り、傾きの推定方法は、特許文献1に記載されている画像の複雑度を使う方法、文書内の表罫線を使う方法等、種々の方法が公知であるので説明は省略する。ステップS403で領域の傾きを推定した際と同じ方法をステップS426でも使用しても良いし、異なる方法を用いても良い。以上で文書画像全体の傾き推定のサブルーチンを終了する。
本実施の形態によれば、傾き指標35を表示する事により、CPU11は各領域の傾きをどのように推定したかをユーザに理解させる事ができる。また、本実施の形態によれば、簡単な操作で適切な傾き補正結果を得ることのできる画像処理装置10を提供できる。
なお、文書画像全体の傾きの推定に使用する領域を1回選択すれば適切な傾き補正結果を得られる場合には、ステップS408およびステップS409を省略して、ステップS407で回転させた文書画像を保存(ステップS410)しても良い。
画像処理装置10にはタブレット、携帯電話、スマートフォンなどのモバイル電子機器を使用しても良い。カメラ機能付きのモバイル電子機器の場合には、カメラ機能により文書画像を受け付けても良い。また、画像処理装置10にはスキャナ、複合機、デジタルカメラなどの電子映像機器を使用しても良い。
[実施の形態2]
実施の形態2は、各領域の傾きを演算して、文書画像全体の傾きを推定する形態に関する。実施の形態2の文書全体の傾き推定の処理手順はフローチャートを省略して文章のみで説明する。なお、実施の形態1と共通する部分の説明は省略する。
CPU11は、文書全体の傾き推定に使用する各領域についての傾きの推定値の平均値を求める。更に詳細には、ステップS405で文書全体の傾き推定に使用すると選択した領域についての傾きの推定値の総和を求め、文書全体の傾き推定に使用する領域の数で割算する。
CPU11は求めた平均値を文書画像全体の傾きの推定値とする。以上で文書画像全体の傾き推定のサブルーチンを終了する。
本実施の形態によれば、CPU11が行う文書画像全体の傾き推定の処理は比較的単純な四則演算であるので、高速に行える。
なお、平均値の代わりに、中央値または最頻値を文書画像全体の傾きの推定値としても良い。これらの推定方法によると、文書全体の傾き推定に使用する領域が多い場合にも、CPU11が高速に処理を行える。
[実施の形態3]
実施の形態3は、各領域の傾きに領域ごとの重み付けを行って演算して、文書画像全体の傾きを推定する形態に関する。図11は、実施の形態3の文書画像全体の傾き推定の処理手順を示すフローチャートである。図11は図10に示したサブルーチンの代わりに使用するサブルーチンである。図11を使用して、本実施の形態の文書画像全体の傾き推定のサブルーチンの処理の流れを説明する。なお、実施の形態1と共通する部分の説明は省略する。
CPU11は、1番目の領域に関する情報を取り出す(ステップS528)。CPU11は、着目している領域の面積を文書画像全体の傾きの推定に使用する領域の面積の総和で割って、注目している領域についての重み付け係数を算出する(ステップS529)。文書画像全体の傾きの推定に使用する領域の重み付け係数の合計は1になる。CPU11は、算出した重み付け係数を補助記憶装置13または主記憶装置12に保存する。
CPU11は全ての領域に対する処理が完了したか否かを判定する(ステップS530)。完了していない場合には(ステップS530でNO)、CPU11は次の領域に関する情報を取り出す(ステップS531)。CPU11はステップS529に戻る。
全ての領域に対する重み付け係数の算出が完了している場合は(ステップS530でYES)、CPU11は文書画像全体の傾きを推定する(ステップS532)。ここでCPU11は、文書画像全体の傾きの推定に使用する各領域の傾きの推定値とその領域についての重み付け係数の積を算出し、その総和を文書画像全体の傾きと推定する。以上で文書画像全体の傾き推定のサブルーチンを終了する。
本実施の形態によれば、面積が大きい領域ほど、文書画像全体の傾きの推定結果に大きな影響を与える。したがって、各領域の面積を加味して文書画像全体の傾きを推定できる。
図11のフローチャートでは、全ての領域についての重み付け係数を算出したが、文書画像全体の傾きの推定に使用する領域についてのみ重み付け係数を算出しても良い。重み付け係数の算定に領域の複雑度(非特許文献1)を加味し、たとえば複雑度が高いほど重み付け係数が大きくなるように設定しても良い。
[実施の形態4]
実施の形態4は、第1領域301から第10領域310までの領域ごとにCPU11が推定した傾きを補正した画像を表示する形態に関する。図12は、実施の形態4の文書画像に領域の傾きを表示した例を示す説明図である。
図12は、CPU11が図4の代わりに表示する画像の例である。図12では、CPU11は、第1領域301から第10領域310までの各領域を、ステップS403で推定した傾きを補正するように文書画像縁38に対して回転している。回転の中心は各領域の重心である。CPU11は、各領域の境界を示す領域枠36を表示している。図12において領域内の文字が自然な向きに見える第1領域301、第2領域302、第6領域306、第7領域307、第8領域308、第9領域309および第10領域310は、CPU11により傾きが正しく推定されている。一方、図12で傾いて見える第3領域303、第4領域304および第5領域305は、CPU11により傾きが正しく推定されていない。すなわち、本実施の形態においては、領域自体がその領域の傾きを示す傾き指標の役割を果たす。
CPU11は、図9に示すステップS404で図4の画像の代わりに図12の画像を表示した後、どの領域を文書画像全体の傾き推定に使用するかの選択を受け付ける(ステップS405)。
本実施の形態によると、ユーザはCPU11が傾きを正しく推定した領域と、誤って推定した領域を簡単に見分ける事ができる。
[実施の形態5]
実施の形態5は、CPU11が傾き指標35に太い両端矢印を使用する形態に関する。図13は、実施の形態5の文書画像に傾き指標35を重畳表示した例を示す説明図である。
図13は、CPU11が図4の代わりに表示する画像の例である。図13では、CPU11は太い両端矢印形状の傾き指標35を使用して、各領域の文書画像縁38に対する傾きの推定結果を表示する。CPU11は、両端矢印を縁線のみで表示して、両端矢印の内部には領域内部の文書画像を表示する。
CPU11は、各領域についてステップS403で推定した傾き角度に沿う方向の長さを求め、傾き指標35をこれに対応する長さの両端矢印にする。また、CPU11は、各領域について両端矢印の長さと直交する方向に沿う方向の長さを求め、傾き指標35をこれに対応する太さの両端矢印にする。なお、傾き指標35には、片側矢印を用いても良い。また、傾き指標の太さは領域のサイズにかかわらず一定としても良い。
CPU11は、図9に示すステップS404で図4の画像の代わりに図13の画像を表示する。その後、どの領域を文書画像全体の傾き推定に使用するかの選択を受け付ける(ステップS405)。
本実施の形態によると、領域に重畳する傾き指標35の線の数が少ないので、ユーザは領域内部とCPU11が推定した傾きとを見比べやすい。
[実施の形態6]
実施の形態6は、最初に文書画像全体の傾きを推定して補正結果を表示し、補正結果が不適切な場合にのみ文書画像を領域に分割する形態に関する。図14は、実施の形態6の画像処理装置10の処理手順を示すフローチャートである。図14を使用して、本実施の形態の画像処理装置10の処理の流れを説明する。
CPU11は文書画像を受け付けて、補助記憶装置13に保存する(ステップS451)。CPU11は、受け付けた文書画像全体を用いて文書画像全体の傾きを推定する(ステップS452)。前述の通り、傾きの推定方法は、特許文献1に記載されている画像の複雑度を使う方法、文書内の表罫線を使う方法等、種々の方法が公知であるので説明は省略する。
CPU11は、受け付けた文書画像を回転することにより、文書画像全体の傾きを補正する(ステップS453)。CPU11は、文書画像をたとえばA4版などの適切な大きさに設定する。CPU11は、表示部16に補正後の文書画像を表示する(ステップS454)。
CPU11は、文書画像の補正を終了するか否かの選択を受け付ける(ステップS455)。選択は、表示部16に表示された図示しない選択完了のボタンが、操作部15により操作されることにより受け付ける。
文書画像の補正を終了する場合(ステップS455でYES)は、CPU11は補助記憶装置13等に補正後の文書画像を保存する(ステップS456)。CPU11は文書の画像処理を終了する。
文書画像の補正を終了しない場合(ステップS455でNO)は、CPU11は、文書画像を領域に分割する(ステップS457)。前述の通り、文書画像を領域に分割する方法は、非特許文献1に記載されている画像の複雑度を使う方法、特許文献2に記載されている白と黒の2値の画像データに変換して処理する方法等、種々の方法が公知であるので説明は省略する。
CPU11は、分割した各領域の文書画像縁38に対する傾きを推定する(ステップS458)。傾きの推定にはステップS452と同じ推定方法を使用しても良いし、異なる推定方法を使用しても良い。
CPU11は、文書画像にCPU11が推定した各領域の傾きを示す傾き指標35を重畳した画像を生成する。CPU11は、生成した画像を表示部16を介してディスプレイ等に表示する(ステップS459)。傾き指標35の表示形式は、図4、図12または図13に例示した形式のいずれかを使用しても良いし、例示した以外の形式を使用しても良い。
CPU11は、どの領域を文書画像全体の傾きの推定に使用するかの選択を受け付ける(ステップS460)。選択は、操作部15により受け付ける。
CPU11は、文書画像全体の傾き推定のサブルーチンを起動する(ステップS461)。CPU11は、図10、図11または実施の形態2に示したサブルーチンを使用できる。CPU11はステップS453に戻る。
本実施の形態によれば、領域に分割しなくても適切に傾き補正を行える文書画像については、領域に分割する処理を省略して短時間で処理を完了できる。
[実施の形態7]
実施の形態7は、領域を傾きの近いもの同士の群に分類し、文書画像全体の傾き推定に使用する領域の選択を群単位で受け付ける形態に関する。図15は、実施の形態7の画像処理装置10の処理手順を示すフローチャートである。図16は、実施の形態7の文書画像に傾き指標を重畳表示した例を示す説明図である。図17は、実施の形態7の領域の選択手順を説明する説明図である。
図15を使用して本実施の形態のCPU11が行う処理の流れを説明する。なお、実施の形態1と共通する部分の説明は省略する。ステップS403までは実施の形態1と同一である。
CPU11は傾きの推定値により領域を群に分類する(ステップS471)。分類は、傾きの推定値を予め定めたたとえば10度刻み等の区切りごとに分けて行う。なお、最短距離法等の公知のクラスタ分析の手法を利用して分類を行っても良い。
CPU11は、文書画像にCPU11が推定した各領域の傾きを示す傾き指標35、領域の境界を示す領域枠36および群の区別を重畳した画像を生成する。CPU11は、領域枠36の線の種類を群ごとに異なるようにすることにより、群の区別を示す。その後、CPU11は、生成した画像を表示部16に表示する(ステップS472)。表示の例を図16に示す。
図16を使用して更に詳しく説明する。本実施の形態においては、CPU11は10個の領域を4個の群に分割している。第1の群には、第1領域301、第2領域302、第6領域306、第7領域307、第10領域310の5個の領域が分類されている。第2の群には、第8領域308、第2領域309の2個の領域が分類されている。第3の群には、第3領域303、第4領域304の2個の領域が分類されている。第4の群には、第5領域305の1個の領域が分類されている。
図16では、所属する領域の数が最も多い第1の群の領域枠36を実線、第2の群の領域枠36を長い破線、第3の群の領域枠36を短い破線、第4の群の領域枠36を点線で表示している。なお、群の区別は領域枠36の色で示しても良いし、領域枠36の内部を薄い色で着色して示しても良い。
CPU11は、どの群を文書画像全体の傾き推定に使用するかの選択を受け付ける(ステップS473)。選択は、操作部15より受け付ける。
図17を使用して更に詳しく説明する。図17では指差しマーク37で示す通り、第1の群に属する第10領域310が選択されている。CPU11は、第10の領域310と同じ第1の群に属する合計5個の領域に対して、第10領域310に対する処理と同じ処理を行い、選択を受け付ける。CPU11は、これらの5個の領域の枠線を太く表示する。
なお、CPU11が一つの群のみの選択を受け付けるようにしても良いし、複数の群の選択を受け付けるようにしても良い。一つの群のみの選択を受け付ける場合には、CPU11は群が選択されると同時に選択が終了したと判定して次のステップに移動する。複数の群の選択を受け付ける場合には、表示部16に表示された図示しない選択完了のボタンが、操作部15により操作されることによりCPU11は領域の選択が完了したことを受け付ける。
CPU11は、文書画像全体の傾き推定のサブルーチンを起動して、受け付けた群に属する領域の情報を用いて文書画像全体の傾きを推定する(ステップS406)。CPU11は、図10、図11または実施の形態2に示したサブルーチンを使用できる。
CPU11は、文書画像を回転することにより、文書全体の傾きを補正する(ステップS407)。CPU11は、文書画像を適切な大きさに設定する。CPU11は、表示部16に補正後の文書画像を表示する(ステップS408)。
CPU11は、文書画像の補正を終了するか否かの選択を受け付ける(ステップS409)。選択は、表示部16に表示された図示しない選択完了のボタンが、操作部15により操作されることにより受け付ける。
文書画像の補正を終了する場合(ステップS409でYES)は、CPU11は補助記憶装置13等に補正後の文書画像を保存する(ステップS410)。その後処理を終了する。文書画像の補正を終了しない場合(ステップS409でNO)は、CPU11はステップS473に戻る。
本実施の形態によれば、傾きの推定結果が近接している複数の領域を群として表示するので、ユーザは個々の領域の細かい傾きの相違を考慮する必要がなくなる。また、本実施の形態によれば、傾きの推定結果が近接している複数の領域を群としてまとめて1回の操作で選択の受付を行える。したがって、多くの領域の選択を速やかに受け付けることができる。
なお、傾き指標35には、図12または図13に例示した形式を使用しても良いし、例示した以外の形式を使用しても良い。
[実施の形態8]
実施の形態8は、領域の群に番号を付け、領域の選択を番号で受け付ける形態に関する。図18は、実施の形態8の文書画像に傾き指標を重畳表示した例を示す説明図である。実施の形態7と同じ部分については説明を省略する。
図18は、図16の代わりに表示する画像の例である。CPU11は、属する領域の数の多い群から順番に番号を付け、各領域の近傍に丸数字で表示する。CPU11は、操作部15のマイクからの番号の音声入力により群の選択を受け付ける。CPU11は、操作部15のキーボードからの番号の入力により群の選択を受け付けても良い。
本実施の形態によると、音声入力または文字入力により群の選択を受け付ける事ができるので、マウスなどのポインティングデバイスの操作が苦手な人でも簡単に操作できる画像処理装置10を実現できる。
なお、領域を群に分類せずに、個々の領域に番号を付けて選択を受け付けても良い。また、番号の代わりにアルファベットなどの文字を使用しても良い。番号を各領域の内部に表示しても良い。属する領域の数の少ない群から順に番号を付けても良い。
[実施の形態9]
実施の形態9は、画像処理装置10の機能ブロックの構成を示す形態に関する。図19は、画像処理装置10の全体構成を示す機能構成図である。本実施の形態の画像処理装置10は、分割部22、推定部23、群分類部24、出力部25、選択受付部26および補正部28を備える。本実施の形態の画像処理装置10では、補助記憶装置13に保存されている画像処理プログラムをCPU11が実行することにより、図19の各機能が実現される。
分割部22は、受け付けた文書画像を複数の領域に分割する。推定部23は、分割した各領域の文書画像縁38に対する傾きを推定する。群分類部24は、推定した傾きに基づいて領域を複数の群に分類する。出力部25は、複数の領域それぞれと、推定した傾きとを関連付けて表示部16に出力する。選択受付部26は、文書画像全体の傾き推定に使用する領域もしくは群、または使用しない領域もしくは群の選択を受け付ける。補正部28は、領域に対する選択に基づいて領域の文書画像の縁に対する傾きを補正する
[実施の形態10]
実施の形態10は、汎用のコンピュータ40と画像処理プログラム41とを組み合わせて動作させることにより、画像処理装置10を実現する形態に関する。図20は、実施の形態10の画像処理装置10のハードウェア構成を示す装置構成図である。図20を使用して、本実施の形態の構成を説明する。なお、実施の形態1と共通する部分の説明は省略する。
本実施の形態の画像処理装置10は、CPU(Central Processing Unit)11、主記憶装置12、補助記憶装置13、入力部14、操作部15、表示部16、通信モジュール17およびバスを備える汎用のコンピュータ40を使用する。
画像処理プログラム41は、可搬型記録媒体42に記録されている。CPU11は、入力部14を介して画像処理プログラム41を読み込み、補助記憶装置13に保存する。またCPU11は、コンピュータ40内に実装されたフラッシュメモリ等の半導体メモリ43に記憶された画像処理プログラム41を読出しても良い。さらに、CPU11は、通信モジュール17およびインターネット等の通信網を介して接続される図示しない他のサーバコンピュータから画像処理プログラム41をダウンロードして補助記憶装置13に保存しても良い。
コンピュータ40は、上述した各種ソフトウェア処理を実行する画像処理プログラム41を、可搬型記録媒体42もしくは半導体メモリ43から読み取り、または通信網44を介して他のサーバコンピュータ(図示せず)からダウンロードする。画像処理プログラム41は、汎用のコンピュータ40の制御プログラムとしてインストールされ、主記憶装置12にロードして実行される。これにより、コンピュータ40は上述した画像処理装置10として機能する。
以上の実施の形態に関し、更に以下の付記を開示する。
[付記1]
受け付けた文書画像を複数の領域に分割する分割部と、
該分割部が分割した各領域について前記文書画像の縁に対する傾きを推定する推定部と、
複数の領域それぞれと、前記推定部が推定した傾きとを関連づけて出力する出力部と、
前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する補正部と
を備えることを特徴とする画像処理装置。
[付記2]
前記出力部は、
前記領域それぞれに、該領域の前記傾きを表す直線を重畳させて出力することを特徴とする付記1に記載の画像処理装置。
[付記3]
前記出力部は、
前記領域それぞれを回転して該領域の前記文書画像の縁に対する傾きを補正して出力することを特徴とする付記1に記載の画像処理装置。
[付記4]
前記補正部は、
選択を受け付けた前記領域または選択を受け付けていない前記領域を消去した文書画像に基づいて傾きを補正することを特徴とする付記1から付記3のいずれか一つに記載の画像処理装置。
[付記5]
前記補正部は、
選択を受け付けた前記領域または選択を受け付けていない前記領域について前記推定部が推定した各領域の傾きに基づいて傾きを補正することを特徴とする付記1から付記3のいずれか一つに記載の画像処理装置。
[付記6]
前記補正部は、
選択を受け付けた前記領域または選択を受け付けていない前記領域について前記推定部が推定した各領域の傾きの平均値、中央値または最頻値に基づいて傾きを補正することを特徴とする付記1から付記3のいずれか一つに記載の画像処理装置。
[付記7]
前記補正部は、
選択を受け付けた前記領域または選択を受け付けていない前記領域について前記推定部が推定した傾きをそれぞれの領域の面積で重みづけした値に基づいて傾きを補正することを特徴とする付記1から付記3のいずれか一つに記載の画像処理装置。
[付記8]
前記推定部が推定した傾きに基づいて前記領域を複数の群に分類する群分類部を備え、
前記出力部は、
前記群分類部が分けた群ごとに異なる形式で各領域を出力することを特徴とする付記1から付記7のいずれか一つに記載の画像処理装置。
[付記9]
前記領域に対する選択を受け付けた場合に、選択を受け付けた領域と同じ群に属する領域に対する選択受付処理を実行する選択受付部を備えることを特徴とする、付記8に記載の画像処理装置。
[付記10]
前記出力部は前記領域それぞれに対応付けて文字を出力し、
前記文字により前記領域の選択を受け付ける選択受付部を備えることを特徴とする付記1から付記9のいずれか一つに記載の画像処理装置。
[付記11]
前記出力部は前記群それぞれに対応付けて文字を出力し、
前記文字により前記群の選択を受け付ける選択受付部を備えることを特徴とする付記8または付記9に記載の画像処理装置。
[付記12]
受け付けた文書画像を複数の領域に分割し、
分割した各領域について前記文書画像の縁に対する傾きを推定し、
複数の領域それぞれと推定した傾きとを関連づけて出力し、
前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する
処理をコンピュータに実行させることを特徴とする画像処理プログラム。
[付記13]
受け付けた文書画像の内側領域の該文書画像の縁に対する傾きを補正して出力し、
傾き補正を終了するか否かの選択を受け付け、
傾き補正を終了するとの選択を受け付けた場合には処理を終了し、
傾き補正を終了しないとの選択を受け付けた場合には前記文書画像を複数の領域に分割し、
分割した各領域について前記文書画像の縁に対する傾きを推定し、
複数の領域それぞれと推定した傾きとを関連づけて出力し、
前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する
処理をコンピュータに実行させることを特徴とする画像処理プログラム。
[付記14]
受け付けた文書画像を複数の領域に分割し、
分割した各領域について前記文書画像の縁に対する傾きを推定し、
複数の領域それぞれと推定した傾きとを関連づけて出力し、
前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する
ことを特徴とする画像処理方法。
[付記15]
受け付けた文書画像の内側領域の該文書画像の縁に対する傾きを補正して出力し、
傾き補正を終了するか否かの選択を受け付け、
傾き補正を終了するとの選択を受け付けた場合には処理を終了し、
傾き補正を終了しないとの選択を受け付けた場合には前記文書画像を複数の領域に分割し、
分割した各領域について前記文書画像の縁に対する傾きを推定し、
複数の領域それぞれと推定した傾きとを関連づけて出力し、
前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する
ことを特徴とする画像処理方法。
各実施例で記載されている技術的特徴(構成要件)はお互いに組合せ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものでは無いと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
10 画像処理装置
11 CPU
14 入力部
15 操作部
16 表示部
17 通信モジュール
22 分割部
23 推定部
24 群分類部
25 出力部
26 選択受付部
28 補正部
35 傾き指標
38 文書画像縁
39 内側領域

Claims (5)

  1. 受け付けた文書画像を複数の領域に分割する分割部と、
    該分割部が分割した各領域について前記文書画像の縁に対する傾きを推定する推定部と、
    複数の領域それぞれと、前記推定部が推定した傾きとを関連づけて出力する出力部と、
    前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する補正部と
    を備えることを特徴とする画像処理装置。
  2. 前記出力部は、
    前記領域それぞれに、該領域の前記傾きを表す直線を重畳させて出力することを特徴とする請求項1に記載の画像処理装置。
  3. 前記出力部は、
    前記領域それぞれを回転して該領域の前記文書画像の縁に対する傾きを補正して出力することを特徴とする請求項1に記載の画像処理装置。
  4. 受け付けた文書画像を複数の領域に分割し、
    分割した各領域について前記文書画像の縁に対する傾きを推定し、
    複数の領域それぞれと推定した傾きとを関連づけて出力し、
    前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する
    処理をコンピュータに実行させることを特徴とする画像処理プログラム。
  5. 受け付けた文書画像を複数の領域に分割し、
    分割した各領域について前記文書画像の縁に対する傾きを推定し、
    複数の領域それぞれと推定した傾きとを関連づけて出力し、
    前記領域に対する選択に基づいて前記領域の前記文書画像の縁に対する傾きを補正する
    ことを特徴とする画像処理方法。
JP2014211040A 2014-10-15 2014-10-15 画像処理装置、画像処理プログラムおよび画像処理方法 Expired - Fee Related JP6379980B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014211040A JP6379980B2 (ja) 2014-10-15 2014-10-15 画像処理装置、画像処理プログラムおよび画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014211040A JP6379980B2 (ja) 2014-10-15 2014-10-15 画像処理装置、画像処理プログラムおよび画像処理方法

Publications (2)

Publication Number Publication Date
JP2016082357A true JP2016082357A (ja) 2016-05-16
JP6379980B2 JP6379980B2 (ja) 2018-08-29

Family

ID=55956551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014211040A Expired - Fee Related JP6379980B2 (ja) 2014-10-15 2014-10-15 画像処理装置、画像処理プログラムおよび画像処理方法

Country Status (1)

Country Link
JP (1) JP6379980B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
JPH0991450A (ja) * 1995-07-17 1997-04-04 Toshiba Corp 文書処理装置および文書処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
JPH0991450A (ja) * 1995-07-17 1997-04-04 Toshiba Corp 文書処理装置および文書処理方法

Also Published As

Publication number Publication date
JP6379980B2 (ja) 2018-08-29

Similar Documents

Publication Publication Date Title
US20210192202A1 (en) Recognizing text in image data
US9928439B2 (en) Facilitating text identification and editing in images
JP5561100B2 (ja) 隠蔽された文字の復元方法及び画像処理装置
US9171359B1 (en) Method and system for auto-correcting perspective distortion in document images
CN109845237B (zh) 图像形成设备、图像形成设备的扫描图像校正方法以及非暂时性计算机可读记录介质
JP2016536837A (ja) 取込んだ画像データを3次元で幾何学的に再構成するためのシステムおよび方法
US10140510B2 (en) Machine print, hand print, and signature discrimination
JP2014068264A (ja) 画像処理装置、画像処理方法、及びプログラム
US10460192B2 (en) Method and system for optical character recognition (OCR) of multi-language content
WO2018184255A1 (zh) 图像校正的方法和装置
US10049268B2 (en) Selective, user-mediated content recognition using mobile devices
US20160283786A1 (en) Image processor, image processing method, and non-transitory recording medium
US9767533B2 (en) Image resolution enhancement based on data from related images
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US10621428B1 (en) Layout analysis on image
US9483834B1 (en) Object boundary detection in an image
JP5284994B2 (ja) 画像処理装置
JP6379980B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
TWM637598U (zh) 電子計算裝置
US10032073B1 (en) Detecting aspect ratios of document pages on smartphone photographs by learning camera view angles
US20210182477A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
KR101912758B1 (ko) 문서 영상의 평활화 방법 및 장치
US10268920B2 (en) Detection of near rectangular cells
US11763582B2 (en) Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180716

R150 Certificate of patent or registration of utility model

Ref document number: 6379980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees