JP6105179B1 - 画像処理装置、画像処理方法、および、画像処理プログラム - Google Patents
画像処理装置、画像処理方法、および、画像処理プログラム Download PDFInfo
- Publication number
- JP6105179B1 JP6105179B1 JP2016567449A JP2016567449A JP6105179B1 JP 6105179 B1 JP6105179 B1 JP 6105179B1 JP 2016567449 A JP2016567449 A JP 2016567449A JP 2016567449 A JP2016567449 A JP 2016567449A JP 6105179 B1 JP6105179 B1 JP 6105179B1
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- area
- image
- line
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 138
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 78
- 239000000284 extract Substances 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 21
- 238000010191 image analysis Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 68
- 238000007726 management method Methods 0.000 description 15
- 238000013500 data storage Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 229940124913 IPOL Drugs 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20061—Hough transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Facsimile Image Signal Circuits (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
Description
より具体的には、例えば、図3に示すように、パンフレットの各ページやチラシ等は、それ自体が1枚の大きな画像データ40であるが、これは、さらに、例えば、写真のような複数の小さな画像41から構成されることが多い。
他方、画像の内容を認識してその内容を分類付け(タグ付け)する画像認識API(以下、「タグ付けエンジン」ともいう)等のディープラーニングの適用により、画像認識の精度が大きく向上されている。しかしながら、例えば、パンフレットの各ページの1枚の大きな画像そのものを入力してタグ付けエンジンによりタグ付けする場合、単にパンフレットという上位概念のタグ付けがなされる。
したがって、パンフレットの各ページ又はチラシ等が具体的にどのような情報を伝えるものであるのかを、タグ付けエンジンを用いて正確にタグ付けするためには、パンフレットの各ページやチラシのような1枚の大きな画像を構成する個々の画像(例えば、写真)を抽出して、各画像(写真)の内容をそれぞれ、タグ付けエンジンにより、タグ付けを行う必要がある。
このためには、例えば、紙媒体のパンフレットの各ページやチラシ等をスキャンして1枚の大きな画像データにした後に、当該1枚の大きな画像データに含まれる個々の小さな画像データ(写真部分)を抽出する技術が求められている。
従来、1枚の画像に含まれる複数のオブジェクトを抽出する技術が開示されている(例えば、非特許文献1)。
(実施形態)
<画像処理装置1>
図1は、本実施形態に係る画像処理装置1の機能ブロックを示す図である。
図2Aは、本実施形態に係る領域関連処理部13の機能ブロックを示す図である。
図2Bは、本実施形態に係る線関連処理部16の機能ブロックを示す図である。
図2Cは、本実施形態に係る重なり度関連処理部18の機能ブロックを示す図である。
図3から図5までは、画像データでの具体例を示す図である。
画像処理装置1は、画像データからその画像データに含まれる複数の画像データを切出画像として切り出す処理を行う装置である。そして、画像処理装置1は、切出画像が適切であるか否かを、当該切出画像をそれぞれ、タグ付けエンジンにより解析することによって得られるタグの内容が妥当であるか否かによって判定する。
画像処理装置1は、例えば、サーバである。画像処理装置1は、その他、パーソナルコンピュータ(PC)等であってもよい。画像処理装置1は、1台のコンピュータで構成されていてもよいし、複数台のコンピュータで構成されていてもよい。複数台のコンピュータを用いる場合には、これらのコンピュータはインターネットやイントラネット等の通信ネットワークを介して接続される。また、画像処理装置1は、例えばクラウド上に設けられる仮想サーバ(仮想マシン)として構成してもよい。
制御部10は、画像処理装置1の全体を制御する中央処理装置(CPU)である。制御部10は、記憶部30に記憶されているオペレーティングシステム(OS)やアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
記憶部30は、プログラム記憶部31と、画像データ記憶部32と、切出画像データ記憶部33とを備える。
画像データ記憶部32は、画像データを記憶する記憶領域である。
切出画像データ記憶部33は、切出画像データを記憶する記憶領域である。
通信インタフェース部39は、通信ネットワークを介して他の装置(例えば、イメージスキャナ(以降、単に「スキャナ」という。)や後述するタグ処理装置等)との通信を行うためのインタフェース部である。
画像データ取得部11は、画像データを取得する。ここで、取得する画像データは、例えば、パンフレットの見開きページやチラシ等をスキャンして得られる1枚の大きな画像データである。
図3に、取得する画像データ40の例を示す。図3に示す画像データ40は、温泉に関するパンフレットの見開きページを1枚の大きな画像データにしたものである。画像データ40は、文字や写真を含む1枚の大きな画像データであり、文字や写真を区別しない、1つの画像データである。
画像データ取得部11は、例えば、通信インタフェース部39を介して、スキャナから画像データを受け付けることで取得してもよいし、スキャナから受け付けた画像データを画像データ記憶部32に記憶しておき、その中から1つの画像データを取得してもよい。
また、画像データ取得部11は、例えば、通信インタフェース部39を介して、端末装置(図示せず)からアップロードされる画像データを取得するようにしてもよい。
候補領域抽出部12は、取得した1枚の大きな画像データから検出可能なオブジェクトを囲む領域(以下「候補領域」という)を抽出する。ここで、オブジェクトとは、1枚の大きな画像データから検出可能であり、例えば、画像特徴量が類似したひとかたまりを示す。
1枚の大きな画像データからオブジェクトを囲む領域を抽出する手法としては、種々の公知の手法を用いることができる。
文献Aに記載の手法によれば、1枚の大きな画像データに対して、ピクセルレベルで類似する領域をグルーピングしていくことで、オブジェクトを囲む領域を抽出する。
なお、画像データからオブジェクトを囲む領域を抽出する他の例としては、例えば、BING(Binarized Normed Gradients for Objectness Estimation)等がある。
なお、候補領域抽出部12が類似する小領域をグルーピングする際に生成する候補領域の形状として、典型的には、矩形領域とするが、これに限定されない。例えば、候補領域の形状として円領域や、楕円領域とするようにしてもよい。
図1に戻り、領域関連処理部13は、抽出したオブジェクトを囲む領域に関連する処理を行う。
図2Aに示すように、領域関連処理部13は、領域面積算出手段としての領域面積算出部131と、歪み判定手段としての歪み判定部132と、歪み補正手段としての歪み補正部133と、縦幅横幅比率算出手段としての縦幅横幅比率算出部134と、を備える。
歪み補正部133は、歪み判定部132により候補領域の輪郭に歪みがあると判定された場合、当該候補領域の輪郭を線形に補正する。より具体的には、候補領域抽出部12により抽出された領域が矩形領域の場合、候補領域の輪郭を線分に補正し、歪みのない候補領域の輪郭に整える。
図1に戻り、候補領域集合生成部14は、候補領域抽出部12により抽出された候補領域に基づいて、候補領域からなる集合(以下、「候補領域集合」という。)を生成する。
ここで、候補領域集合生成部14は、候補領域抽出部12により抽出された候補領域のうち、領域面積算出部131により算出される候補領域の面積が予め設定される第1の面積値を超える候補領域を削除するようにしてもよい。
また、候補領域集合生成部14は、候補領域抽出部12により抽出された候補領域のうち、縦幅横幅比率算出部134により算出される候補領域の縦幅と横幅との比率が一定値以上となる矩形領域となる候補領域を削除するようにしてもよい。
また、候補領域集合生成部14は、候補領域抽出部12により抽出された候補領域のうち、面積が予め設定される第1の面積値を超える候補領域及び/又は縦幅と横幅との比率が一定値以上となる候補領域を事前に削除して、1枚の大きな画像データからの切り出しの対象外にすることができる。
それにより、画像処理装置1が、1枚の大きな画像からその画像に含まれる複数の小さな画像(写真等)を切り出す際の処理の負荷を軽減することができる。
以上により、画像データ取得部11により取得される1枚の大きな画像からその画像に含まれる複数の小さな画像(写真等)の候補となる複数の候補領域の集合を生成することができる。
候補線抽出部15は、画像データ取得部11により取得される1枚の大きな画像データに含まれる線分及び円弧の少なくとも一方の線を候補線として抽出する。ここで、候補線とは、例えば、線分や、円弧をいう。
画像データから候補線を抽出する手法としては、種々の公知術を用いることができる。
画像データから線分を抽出する公知技術として、LSD(LineSegmentDetector)が挙げられる。LSDは、例えば、「Rafael Grompone von Gioi, J er emie Jakubowicz, Jean−Michel Morel, and Gregory Randall, “LSD: a Line Segment Detector”, Published in Image Processing On Line」インターネット〈http://www.ipol.im/pub/art/2012/gjmr−lsd/article.pdf〉(以下、文献Bという。)に記載されているように公知の技術である。具体的には、画像データの画素ごとの周波数方向を計算し、近傍画像と同じ周波数方向の画素をグルーピングして線分にするものである。
具体的には、画像データに含まれる線分又は円弧を検出するために、例えば公知のラプラシアン変換、Sobel法又はCanny法等により、エッジ画像を生成し、生成したエッジ画像から公知のHough変換により線分又は円弧を抽出することができる。
線関連処理部16は、候補線抽出部15により抽出した画像データに含まれる線に関連する処理を行う。
図2Bに示すように、線関連処理部16は、線補正手段としての線補正部161と、線角度算出部162と、線角度判定手段としての線角度判定部163とを備える。
ここで、第1角度とは、例えば、10度等の鋭角をいう。なお、線分が候補領域の辺と並行である場合には、算出した角度は0度になる。
線角度判定部163により、候補線抽出部15により抽出した画像データに含まれる線分と、候補領域集合生成部14により生成された候補領域集合に含まれる候補領域の辺との角度が予め設定された第1角度を超える場合は、当該線分と候補領域の辺とは重ならないと推測することができる。
図1に戻り、候補線集合生成部17は、候補線抽出部15により抽出された候補線に基づいて、候補線の集合を生成する。
候補線集合生成部17は、線補正部161により補正された候補線を、補正前の候補線に替えて、候補線集合に含む候補線にするようにしてもよい。
また、候補線集合生成部17は、候補線抽出部15により抽出した画像データに含まれる線分の集合から、候補領域集合生成部14により生成された候補領域集合に含まれる候補領域の辺との角度が予め設定された第1角度を超える線分となる候補線を削除するようにしてもよい。
それにより、画像処理装置1が、1枚の大きな画像からその画像に含まれる複数の小さな画像(写真等)を切り出す際の処理の負荷を軽減することができる。
以上により、画像データ取得部11により取得される1枚の大きな画像からその画像に含まれる複数の小さな画像(写真等)の候補となる複数の候補領域の集合を生成することができる。
ここで、画像データ65に含まれる線分66と、図5Aに示す画像データ60に含まれる線分61とを比較すると、線分66の数は、線分61の数よりも少ない。これは、候補線集合生成部17が、第1角度より大きい角度の線分61を除いたためである。つまり、図5Bに示す画像データ65は、画像データ60に含まれる斜め方向の線分61が削除されている。
重なり度関連処理部18は、候補領域集合生成部14により生成された候補領域の輪郭を形成する閉じた線(「囲い線」ともいう。)と、候補線集合生成部17により生成された候補線との重なり度合いに関連する処理を行う。
図2Cに示すように、重なり度関連処理部18は、重なり度算出手段としての重なり度算出部181と、重なり度判定手段としての重なり度判定部182とを備える。
図1に戻り、切出画像領域抽出部19は、重なり度判定部182による判定結果に応じて、候補領域を切出画像候補として抽出する。
具体的には、切出画像領域抽出部19は、重なり度判定部182により重なり度合いが第1割合値以上であると判定された候補領域を、切出画像候補として抽出し、切出画像候補の集合を生成する。
また、切出画像領域抽出部19は、切出画像候補の集合に含まれる他の候補領域と1辺が同一直線上に位置する候補領域については、その重なり度合いが第1割合値未満であっても、予め設定される第2割合値以上である場合、切出画像候補として抽出し、切出画像候補の集合に加えるように構成することができる。
すなわち、切出画像領域抽出部19は、切出画像候補の集合に含まれる他の候補領域と1辺が同一直線上に位置する候補領域を抽出し、抽出された候補領域の重なり度合いが第2割合値以上であると判定された候補領域を、切出画像候補として、切出画像候補の集合に追加することができる。
ここで、第2割合値は、第1割合値よりも小さな値であり、例えば30%とすると、切出画像候補の集合に含まれる他の候補領域と1辺が同一直線上に位置する候補領域であって、その重なり度合いが30%以上の候補領域が切出画像候補として、切出画像候補の集合に追加される。なお、第2割合値は、この値に限定されない。画像の特性等に応じて適宜設定することができる。
なお、切出画像領域抽出部19は、候補領域抽出部12により抽出された候補領域をそのまま切出画像候補として抽出しているが、切出画像候補の抽出はこれに限定されない。
切出画像領域抽出部19は、重なり度判定部182により重なり度合いが所定の割合値以上であると判定された候補線に基づいて切出画像候補を抽出するように構成してもよい。具体的には、候補領域の囲い線と重なる候補線を交差させ、又は延長させた後に交差させることで形成される領域を、切出画像候補として抽出するようにしてもよい。
タグ取得部20は、切出画像領域抽出部19によって抽出作成された切出画像候補の集合に含まれる各切出画像候補に関して、例えば通信インタフェース部39を介してタグ付けエンジンとしてのタグ処理装置(図示せず)に対してタグ付け処理を要求し、当該切出画像候補のタグ(分類、カテゴリ等)を取得する。
ここでタグ付けエンジンは、画像データに対して、画像解析によってタグを付与するものであって、種々の公知の技術を用いることができる。
画像解析によってタグを得るタグ付けエンジンの例としては、例えば「Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun, “Deep Residual Learning for Image Recognition”, Microsoft Research」(以下、文献Cという。)に記載されたものがある。文献Cに記載の手法によれば、対象画像データの中に写っているものを、画像解析をし、画像をモデリングした学習器との比較によって推定したタグを付与する。
タグ取得部20は、タグ付けエンジンの提供する画像認識APIを介して、各切出画像候補のタグを取得することができる。
切出画像判定部21は、タグ取得部20によって取得したタグに基づいて、切出画像候補を切出画像にするか否かを判定する。
より具体的には、切出画像判定部21は、各切出画像候補に対して取得されたタグが複数の関連しないタグを取得した場合、当該切出画像候補は、1つの小さな画像(写真等)ではないと判定する。
取得された複数のタグが関連性を有するか否かは、例えば、タグの関連情報を記憶したタグデータベース(図示せず)を予め用意しておき、切出画像判定部21は、取得した複数のタグをこのタグデータベースと照合し、複数のタグが、例えば、関連する又は類似するカテゴリに含まれるか否かによって判断してもよい。なお、タグデータベースは、画像処理装置1に有してもよいし、通信インタフェース部39を介して接続可能な外部サーバ等に有するものであってもよい。
また、切出画像判定部21によって、切出画像候補が1つの小さな画像ではないと判定された場合に、制御部10は、切出画像候補の重なり度合いを再度調整する代わりに、認識の候補(2つとするか、又は、1つとするか等)のみを結果として出力し、さらにタグ付けの結果も考慮して、認識の候補のうちいずれの候補にするかを決めてもよい。
さらに、切出画像判定部21によって、切出画像候補が1つの小さな画像ではないと判定された場合に、制御部10は、ディスプレイやプリンタ等の出力装置にエラー出力をすることで、ユーザに判断させるようにしてもよい。
以上のように、画像処理装置1は、切出画像判定部21による判定結果によって、1つの切出画像候補を、複数の切出画像にすることができる。
さらに、画像処理装置1は、切出画像判定部21による判定結果によって、間違った領域になっている切出画像候補を、正しい領域に修正した上で切出画像にすることもできる。
次に、本実施形態にかかる画像処理装置1による画像処理手順について図を参照しながら説明する。ここで、画像処理装置1は、候補領域の集合を領域関連処理部13の処理結果に基づいて生成すると共に、候補線の集合を線関連処理部16の処理結果に基づいて生成するものとする。
図6A及び図6Bは、画像処理の全体的な手順を示すフローチャートであり、図7及び図8は、当該画像処理のうち、特定の処理に係る処理手順を示すフローチャートである。なお、ここで説明する処理の流れは、上述した各機能部の機能を実現するための処理の流れ(フローチャート)の一例であって、このフローチャートに限定されない。
ここで、画像データからオブジェクトを囲む領域を抽出する手法としては、上述したように種々の公知の技術を用いることができる。
制御部10(候補領域抽出部12)は、画像データに対して、例えば、“Selective Search”を適用することで、画像データに含まれるオブジェクトを囲む領域を、複数得ることができる。ここで、制御部10は、例えば、候補領域管理テーブルを記憶部30に有するようにして、取得したオブジェクトを囲む領域を、その位置情報と共に記憶させてもよい。
ここで、候補領域に関する処理について、図7に基づき説明する。
図7のS30において、制御部10(歪み判定部132)は、抽出したオブジェクトを囲う領域の輪郭に歪みがあるか否かを判定する。歪みがある場合とは、例えば、“Selective Search”とは異なる手法でオブジェクトを抽出した場合や、オブジェクトを抽出した際に、矩形以外の形状で囲んだ場合をいう。歪みがある場合(S30:YES)には、制御部10は、処理をS31に移す。他方、歪みがない場合(S30:NO)には、制御部10は、処理をS32に移す。
S31において、制御部10(歪み補正部133)は、歪みがあった輪郭を線分に補正することで、輪郭が矩形を形成するようにする。ここで、制御部10は、線分を交差させ、又は線分を延長させた後に交差させることで矩形を形成するようにしてもよい。この処理によって、オブジェクトを囲う領域を、矩形で表すことができる。
S33において、制御部10(縦幅横幅比率算出部134)は、矩形の縦幅と横幅との比率を算出する。ここで、制御部10は、候補領域管理テーブルの該当のオブジェクトを囲む領域に対応付けて、算出した比率を記憶させてもよい。
S34において、制御部10(候補領域集合生成部14)は、所定の矩形領域を、切出画像の候補である候補領域とする。ここで、制御部10は、所定の矩形領域を、その面積と、縦幅及び横幅の比率とによって候補領域とする。
具体的には、制御部10は、S32で算出した面積が第1面積値を超えるものは、そのオブジェクトを囲む領域を候補領域とはしない。ここで、第1面積値は、上述したように予め決められた値であり、例えば、画像データの大きさに対して決定されるものであってもよいし、パラメータとして与えてもよい。画像処理装置1は、この処理によって、画像データに含まれる大きな矩形領域を、切り出しの対象外にすることができる。
ここで、制御部10は、候補領域管理テーブルから、面積が第1面積値を超えるオブジェクトを囲む領域と、比率が一定値以上のオブジェクトを囲む領域とのレコードを削除するようにしてもよい。
その後、制御部10は、この候補領域取得処理を終了し、処理を図6Aに移す。
ここで、候補線取得処理について、図8に基づき説明する。
図8のS40において、制御部10(候補線抽出部15)は、画像データに含まれる線分を抽出する。
ここで、画像データからオブジェクトを抽出する手法としては、上述したように種々の公知の技術を用いることができる。
制御部10(候補線抽出部15)は、画像データに対して、例えば、LSD(LineSegmentDetector)を適用することで、画像データに含まれる線分を複数得る。ここで、制御部10は、例えば、候補線管理テーブルを記憶部30に有するようにして、取得した線分を、その位置情報と共に記憶させてもよい。
S42において、制御部10(候補線集合生成部17)は、算出した角度が線角度判定部163により第1角度以下であると判定される線分を取得する。具体的には、制御部10(候補線集合生成部17)は、候補線の集合から、候補領域集合生成部14により生成された候補領域集合に含まれる候補領域の辺との角度が第1角度を超える線分となる候補線を削除する。ここで、第1角度は、上述したように予め決められた値であり、例えば、パラメータとして与えてもよい。ここで、制御部10は、候補線管理テーブルから、角度が第1角度を超える線分のレコードを削除するようにしてもよい。なお、線分が候補領域の辺と並行である場合には、算出した角度は0度になる。
S15において、制御部10(重なり度算出部181)は、選択した候補領域の囲い線である矩形と、候補線との重なり度合いを算出する。ここで、制御部10は、候補領域管理テーブルの該当のオブジェクトを囲む領域、つまり、選択した候補領域に対応付けて、候補線管理テーブルの各線分である候補線との重なり度合いの値を記憶させてもよい。
S16において、制御部10(重なり度判定部182)は、算出した重なり度合いが第1割合値以上であるか否かを判断する。ここで、第1割合値は、予め定められた値であり、例えば、50%といった値である。第1割合値以上である場合(S16:YES)には、制御部10は、処理をS17に移す。他方、第1割合値未満である場合(S16:NO)には、制御部10は、処理をS18に移す。
S18において、制御部10は、すべての候補領域について処理をしたか否かを判断する。すべての候補領域について処理をした場合(S18:YES)には、制御部10は、処理を図6BのS19に移す。他方、すべての候補領域について処理をしていない場合(S18:NO)には、制御部10は、処理をS14に移し、未処理の他の候補領域について、この処理を繰り返す。
S20において、制御部10(切出画像領域抽出部19)は、切出画像候補になっている他の候補領域と一辺が同一直線上に位置する候補領域の重なり度合いが、第1割合値より小さい第2割合値以上であるか否かを判断する。ここで、第2割合値は、予め定められた値であり、例えば、30%といった値である。第2割合値以上である場合(S20:YES)には、制御部10は、処理をS21に移す。他方、第2割合値未満である場合(S20:NO)には、処理をS22に移す。
このように、制御部10は、候補領域管理テーブルと、候補線管理テーブルを使用して処理をすることで、効率的な処理を行うことができる。
図9は、切出画像候補71を示した画像データ70を示す。上述の処理に示すように、制御部10は、候補領域と、候補線とを取得して、その重なり度合いによって、候補領域を切出画像候補71にする。
ここで、切出画像候補ごとに画像解析して、タグを付与するタグ付けエンジンとしては、上述したように種々の公知の技術を用いることができる。
制御部10(タグ取得部20)は、例えば、タグ付けエンジンの提供する画像認識APIを介して、各切出画像候補のタグを取得することができる。
この処理によって、切出画像候補が温泉を表す写真の画像であった場合には、タグとして、例えば、「温泉」が切出画像候補に付与される。
S24において、制御部10(切出画像判定部21)は、切出画像にすると判断された切出画像候補を、切出画像データ記憶部33に記憶させる。その後、制御部10は、本処理を終了する。
(1)画像データに対して、公知のオブジェクト抽出技術を適用して、オブジェクトを囲む候補領域を抽出し、他方、同じ画像データに対して、画像データに含まれる線分を検出する公知の線分検出技術を適用して、候補線を抽出することで、候補領域の輪郭と、候補線との重なり度合いの割合に基づいて、画像データから候補領域を切出画像として効率的に抽出することができる。
(2)候補領域から、その面積や、縦幅と横幅との比率が所定の条件を満たすものを事前に対象外にすることで、候補領域の輪郭と、候補線との重なり度合いの算出処理の負荷を軽減することができ、より高速に抽出することが可能になる。
(4)候補領域を矩形領域とし、前記候補線を線分とすることで、領域の形状が矩形となる切出画像を抽出することができる。
(5)候補領域の輪郭に歪みがある場合、予め歪みを補正しておくことで、候補線との重なり度合いの算出をより正確にすることが可能になる。
(7)2つの候補領域が同一直線上に配置され、2つの候補領域のいずれか一方が切出画像として判定された場合、他方の候補領域が切出画像候補である可能性は高いと予想される。そのため、候補領域の輪郭と、候補線との重なり度合いに関する閾値の条件をゆるめることで、抽出漏れ防止を図ると共に、精度向上が可能となる。
(8)タグ(分類、カテゴリ等)により、切出画像候補を切出画像にするか否かを判断する。よって、例えば、複数の領域がつながっている画像について、1つの画像であるか否かを判断するのに使用できる。
(1)本実施形態では、画像データからオブジェクトを囲む領域として矩形領域とするものを例に説明したが、これに限定されない。例えば、円領域や、楕円領域としてもよい。そして、画像データに含まれる線分を候補線としたが、円領域や、楕円領域とした場合には、画像データに含まれる円弧や、楕円の円弧を候補線としてもよい。そのようにすることで、画像データに含まれる円形の写真や、楕円形の写真を、切出画像として取得することができる。
また、1つの画像データに対して、矩形領域とするもの、円領域とするもの及び楕円領域とするものを、順番に適用してもよい。そのようにすることで、1つの画像に様々な形状で配置された画像を切り出すことができる。
(2)本実施形態では、パンフレットをスキャンして得られた画像データを例に処理の説明をしたが、対象とする画像データは、これに限定されない。画像データに複数の画像を含むものであればどのようなものであってもよく、例えば、漫画や、新聞紙、論文、一般書籍等であってもよい。そして、新聞紙の場合には、例えば、写真のみを切り出したり、広告領域のみを切り出したりする場合に有効である。なお、一枚の紙にそれぞれの内容が独立した複数の枠が存在するようなものに対して、より適切に切出画像を取得できる。
10 制御部
11 画像データ取得部
12 候補領域抽出部
13 領域関連処理部
131 領域面積算出部
132 歪み判定部
133 歪み補正部
134 縦幅横幅比率算出部
14 候補領域集合生成部
15 候補線抽出部
16 線関連処理部
161 線補正部
162 線角度算出部
163 線角度判定部
17 候補線集合生成部
18 重なり度関連処理部
181 重なり度算出部
182 重なり度判定部
19 切出画像領域抽出部
20 タグ取得部
21 切出画像判定部
30 記憶部
31a 画像処理プログラム
32 画像データ記憶部
33 切出画像データ記憶部
Claims (13)
- 画像データから前記画像データに含まれる切出画像を抽出する画像処理装置であって、
画像データを取得する画像データ取得手段と、
前記画像データから検出可能なオブジェクトを囲む領域を候補領域として抽出する候補領域抽出手段と、
前記候補領域抽出手段により抽出される候補領域に基づいて、候補領域集合を生成する候補領域集合生成手段と、
前記画像データに含まれる線分及び円弧の少なくとも一方の線を候補線として抽出する候補線抽出手段と、
前記候補線抽出手段により抽出される候補線に基づいて、候補線集合を生成する候補線集合生成手段と、
前記候補領域集合生成手段により生成された前記候補領域の輪郭を形成する閉じた線と、前記候補線集合生成手段により生成された前記候補線との重なり度合いが、予め設定された所定の第1割合値より以上であるか否かを判定する重なり度判定手段と、
前記重なり度判定手段により前記第1割合値より以上であると判定された場合に、前記候補領域を、切出画像として抽出する切出画像領域抽出手段と、
を備える画像処理装置。 - 抽出した前記領域の面積を算出する領域面積算出手段を備え、
前記候補領域集合生成手段は、前記領域面積算出手段により算出された前記領域の面積が予め設定された第1面積値を超える場合に、前記領域を前記候補領域集合から除外する、請求項1に記載の画像処理装置。 - 抽出した前記線の線幅を予め設定された太さに補正する線補正手段を備え、
前記候補線集合生成手段は、前記線補正手段により補正された補正後の線を、前記候補線にする、請求項1又は請求項2に記載の画像処理装置。 - 前記候補領域は矩形領域であり、前記候補線は線分である、請求項1〜請求項3のいずれか1項に記載の画像処理装置。
- 抽出した前記領域の輪郭に歪みがあるか否かを判定する歪み判定手段と、
前記歪み判定手段により前記領域の輪郭に歪みがあると判定された場合、前記領域の輪郭を線分に補正する歪み補正手段と、
を備え、
前記候補領域集合生成手段は、前記歪み補正手段により補正された補正後の領域を、前記候補領域にする、請求項4に記載の画像処理装置。 - 抽出した前記領域の縦幅と横幅との比率を算出する縦幅横幅比率算出手段を備え、
前記候補領域集合生成手段は、前記縦幅横幅比率算出手段により算出された前記領域の縦幅と横幅との比率が予め設定された値を超える場合に、前記領域を前記候補領域集合から除外する、請求項4又は請求項5に記載の画像処理装置。 - 抽出した前記線分と、前記候補領域の辺との角度が予め設定された第1角度以下か否かを判定する線角度判定手段を備え、
前記候補線集合生成手段は、前記線角度判定手段により前記第1角度以下と判定された場合に、前記線分を前記候補線にする、請求項4〜請求項6のいずれか1項に記載の画像処理装置。 - 前記切出画像領域抽出手段は、領域の一辺が同一直線上に位置する複数の前記候補領域のうち少なくとも1つを、前記切出画像領域抽出手段が前記切出画像として抽出した場合に、前記複数の候補領域のうち前記切出画像として抽出したものを除く他の前記候補領域の輪郭を形成する閉曲線と、前記候補線集合生成手段により生成された前記候補線集合に含まれる前記候補線との重なり度合いが前記第1割合値よりも小さな予め設定された第2割合値以上である場合に、前記候補領域を前記切出画像として抽出する、請求項4〜請求項7のいずれか1項に記載の画像処理装置。
- 前記領域は円形領域であり、前記候補線は円弧である、請求項1〜請求項3のいずれか1項に記載の画像処理装置。
- 前記領域は楕円形領域であり、前記候補線は楕円の円弧である、請求項1〜請求項3のいずれか1項に記載の画像処理装置。
- 前記切出画像領域抽出手段により抽出された前記切出画像に対して、画像解析をして解析対象画像に対するタグを付与するタグ付け処理装置によって付与されたタグを取得するタグ取得手段と、
前記タグ取得手段により取得した前記タグに基づいて、前記切出画像を判定する切出画像判定手段と、
を備える請求項1〜請求項10のいずれか1項に記載の画像処理装置。 - 画像処理装置によって画像データから前記画像データに含まれる切出画像を抽出する画像処理方法であって、
画像データを取得する画像データ取得ステップと、
前記画像データから検出可能なオブジェクトを囲む領域を候補領域として抽出する候補領域抽出ステップと、
前記候補領域抽出ステップにより抽出される候補領域に基づいて、候補領域集合を生成する候補領域集合生成ステップと、
前記画像データに含まれる線分及び円弧の少なくとも一方の線を候補線として抽出する候補線抽出ステップと、
前記候補線抽出ステップにより抽出される候補線に基づいて、候補線集合を生成する候補線集合生成ステップと、
前記候補領域集合生成ステップにより生成された前記候補領域の輪郭を形成する閉じた線と、前記候補線集合生成ステップにより生成された前記候補線との重なり度合いが、予め設定された所定の第1割合値より以上であるか否かを判定する重なり度判定ステップと、
前記重なり度判定ステップにより前記第1割合値より以上であると判定された場合に、前記候補領域を、切出画像として抽出する切出画像領域抽出ステップと、
を含む画像処理方法。 - 画像データから前記画像データに含まれる切出画像を抽出する画像処理装置としてコンピュータを機能させるための画像処理プログラムであって、
前記コンピュータを、
画像データを取得する画像データ取得手段と、
前記画像データから検出可能なオブジェクトを囲む領域を候補領域として抽出する候補領域抽出手段と、
前記候補領域抽出手段により抽出される候補領域に基づいて、候補領域集合を生成する候補領域集合生成手段と、
前記画像データに含まれる線分及び円弧の少なくとも一方の線を候補線として抽出する候補線抽出手段と、
前記候補線抽出手段により抽出される候補線に基づいて、候補線集合を生成する候補線集合生成手段と、
前記候補領域集合生成手段により生成された前記候補領域の輪郭を形成する閉じた線と、前記候補線集合生成手段により生成された前記候補線との重なり度合いが、予め設定された所定の第1割合値より以上であるか否かを判定する重なり度判定手段と、
前記重なり度判定手段により前記第1割合値より以上であると判定された場合に、前記候補領域を、切出画像として抽出する切出画像領域抽出手段と、
して機能させるための画像処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/069489 WO2018003074A1 (ja) | 2016-06-30 | 2016-06-30 | 画像処理装置、画像処理方法、および、画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6105179B1 true JP6105179B1 (ja) | 2017-03-29 |
JPWO2018003074A1 JPWO2018003074A1 (ja) | 2018-07-05 |
Family
ID=59366073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016567449A Active JP6105179B1 (ja) | 2016-06-30 | 2016-06-30 | 画像処理装置、画像処理方法、および、画像処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11144777B2 (ja) |
JP (1) | JP6105179B1 (ja) |
WO (1) | WO2018003074A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110865859B (zh) * | 2019-10-29 | 2021-10-22 | 维沃移动通信有限公司 | 图片显示方法、装置、电子设备及介质 |
CN115460456A (zh) * | 2021-06-08 | 2022-12-09 | 微软技术许可有限责任公司 | 数字内容添加的目标区域提取 |
CN118397078A (zh) * | 2024-02-21 | 2024-07-26 | 成都维海德科技有限公司 | 屏幕定位方法、装置、电子设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219928A (ja) * | 2008-04-10 | 2008-09-18 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理方法及び画像処理プログラム |
JP2010074368A (ja) * | 2008-09-17 | 2010-04-02 | Ricoh Co Ltd | 画像処理装置、画像処理方法、およびプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3278471B2 (ja) * | 1991-11-29 | 2002-04-30 | 株式会社リコー | 領域分割方法 |
US5689342A (en) * | 1994-11-17 | 1997-11-18 | Canon Kabushiki Kaisha | Image processing method and apparatus which orders text areas which have been extracted from an image |
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
US20030210803A1 (en) * | 2002-03-29 | 2003-11-13 | Canon Kabushiki Kaisha | Image processing apparatus and method |
JP4181892B2 (ja) * | 2003-02-21 | 2008-11-19 | キヤノン株式会社 | 画像処理方法 |
JP4920928B2 (ja) * | 2005-08-08 | 2012-04-18 | キヤノン株式会社 | 画像処理装置及びその制御方法、プログラム |
JP2008109394A (ja) * | 2006-10-25 | 2008-05-08 | Canon Inc | 画像処理装置及びその方法、プログラム |
JP4960897B2 (ja) * | 2008-01-30 | 2012-06-27 | 株式会社リコー | 画像処理装置、画像処理方法、プログラム、記憶媒体 |
JP4544324B2 (ja) * | 2008-03-25 | 2010-09-15 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
US8719701B2 (en) * | 2009-01-02 | 2014-05-06 | Apple Inc. | Identification of guides and gutters of a document |
FR2977692B1 (fr) * | 2011-07-07 | 2015-09-18 | Aquafadas Sas | Enrichissement de document electronique |
US8929635B2 (en) * | 2011-07-21 | 2015-01-06 | Carestream Health, Inc. | Method and system for tooth segmentation in dental images |
US8467606B2 (en) * | 2011-08-25 | 2013-06-18 | Eastman Kodak Company | Method for segmenting a composite image |
JP5984439B2 (ja) * | 2012-03-12 | 2016-09-06 | キヤノン株式会社 | 画像表示装置、画像表示方法 |
US9798711B2 (en) * | 2012-05-31 | 2017-10-24 | Xerox Corporation | Method and system for generating a graphical organization of a page |
JP6099457B2 (ja) * | 2013-03-28 | 2017-03-22 | 株式会社Pfu | 画像処理装置、領域決定方法及びコンピュータプログラム |
JP6261237B2 (ja) * | 2013-08-28 | 2018-01-17 | キヤノン株式会社 | 画像表示装置、画像表示装置の制御方法およびコンピュータプログラム |
RU2596600C2 (ru) * | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
WO2016207875A1 (en) * | 2015-06-22 | 2016-12-29 | Photomyne Ltd. | System and method for detecting objects in an image |
-
2016
- 2016-06-30 JP JP2016567449A patent/JP6105179B1/ja active Active
- 2016-06-30 WO PCT/JP2016/069489 patent/WO2018003074A1/ja active Application Filing
- 2016-06-30 US US16/313,753 patent/US11144777B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219928A (ja) * | 2008-04-10 | 2008-09-18 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理方法及び画像処理プログラム |
JP2010074368A (ja) * | 2008-09-17 | 2010-04-02 | Ricoh Co Ltd | 画像処理装置、画像処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2018003074A1 (ja) | 2018-07-05 |
US20200184249A1 (en) | 2020-06-11 |
US11144777B2 (en) | 2021-10-12 |
WO2018003074A1 (ja) | 2018-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12019675B2 (en) | Recognizing text in image data | |
AU2020200058B2 (en) | Image quality assessment and improvement for performing optical character recognition | |
US11830170B2 (en) | Systems and methods for image data processing to correct document deformations using machine learning system | |
US9275307B2 (en) | Method and system for automatic selection of one or more image processing algorithm | |
RU2014112237A (ru) | Ввод данных с изображений документов с фиксированной структурой | |
US20150228045A1 (en) | Methods for embedding and extracting a watermark in a text document and devices thereof | |
US20190019021A1 (en) | Simulating image capture | |
EP2808828A2 (en) | Image matching method, image matching device, model template generation method, model template generation device, and program | |
CN105225218B (zh) | 用于文档图像的畸变校正方法和设备 | |
JP6105179B1 (ja) | 画像処理装置、画像処理方法、および、画像処理プログラム | |
CN105469026A (zh) | 针对文档图像的水平和垂直线检测和移除 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
US20160092754A1 (en) | Identifying image transformations for improving optical character recognition quality | |
US10586099B2 (en) | Information processing apparatus for tracking processing | |
CN111881904A (zh) | 板书记录方法和系统 | |
US9792524B1 (en) | Gap shifting for automatic recognition of tabular text | |
US9886629B2 (en) | Techniques for restoring content from a torn document | |
US8538162B2 (en) | Data capture from multi-page documents | |
US20160170696A1 (en) | Page processing method and apparatus for variable data printing | |
Yang et al. | Effective geometric restoration of distorted historical document for large‐scale digitisation | |
JP6137464B2 (ja) | 画像処理装置および画像処理プログラム | |
US12131450B2 (en) | Systems and methods for image data processing to correct document deformations using machine learning system | |
US11758071B1 (en) | Identification and removal of noise from documents | |
CN107045522A (zh) | 一种基于掌纹数据的业务处理方法和装置 | |
KR100988431B1 (ko) | 영상 특징 추출 방법, 이를 기록한 기록매체 및 이를 수행하는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20161220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6105179 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |