JP6216871B2 - 文書バウンダリ検知方法 - Google Patents

文書バウンダリ検知方法 Download PDF

Info

Publication number
JP6216871B2
JP6216871B2 JP2016519588A JP2016519588A JP6216871B2 JP 6216871 B2 JP6216871 B2 JP 6216871B2 JP 2016519588 A JP2016519588 A JP 2016519588A JP 2016519588 A JP2016519588 A JP 2016519588A JP 6216871 B2 JP6216871 B2 JP 6216871B2
Authority
JP
Japan
Prior art keywords
document
image
image data
color
color channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016519588A
Other languages
English (en)
Other versions
JP2016521890A (ja
JP2016521890A5 (ja
Inventor
ルイス ジェームス ベアト
ルイス ジェームス ベアト
ジョン ジェイ アレシオ
ジョン ジェイ アレシオ
Original Assignee
コダック アラリス インク
コダック アラリス インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コダック アラリス インク, コダック アラリス インク filed Critical コダック アラリス インク
Publication of JP2016521890A publication Critical patent/JP2016521890A/ja
Publication of JP2016521890A5 publication Critical patent/JP2016521890A5/ja
Application granted granted Critical
Publication of JP6216871B2 publication Critical patent/JP6216871B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00681Detecting the presence, position or size of a sheet or correcting its position before scanning
    • H04N1/00742Detection methods
    • H04N1/00748Detecting edges, e.g. of a stationary sheet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Studio Devices (AREA)

Description

[従来出願への相互参照]
本願は、「文書バウンダリ検知方法」(METHOD FOR DETECTING A DOCUMENT BOUNDARY)と題する2013年6月12日付米国暫定特許出願第61/833952号の本出願であり且つ「文書バウンダリ検知方法」(METHOD FOR DETECTING A DOCUMENT BOUNDARY)と題する、2014年4月28日付米国特許出願第14/263181号に基づく優先権を主張する出願である。
[発明の分野]
本発明はディジタルイメージングの分野、より具体的にはキャプチャ(捕捉)したディジタル画像(捕捉ディジタル画像)内での文書配置を特定する方法に関する。
ディジタルカメラは、文書画像その他の画像を捕捉可能なスキャナに対し顕著な長所を有している。例えば、ディジタルカメラは一般にスキャナよりポータブルである。更に、スキャナではディジタル化対象画像をスキャナプラテン上に置かねばならないので、スキャナに比べディジタルカメラの方が、より多様な種類の文書(例.大きめの文書やフレームに組み込まれている文書)の画像を捕捉することができる。しかしながら、ディジタルカメラを使用するとスキャナ使用時には生じない問題が生じる。例えば、スキャナでは一般に照明条件がコントロールされるのに対し、ディジタルカメラ使用時には照明条件が変動する。更に、ディジタルカメラ使用時には幾何的歪みが発生しうるし、そうした歪みは諸要因、例えば文書に対するディジタルカメラの角度及び距離、ディジタルカメラで使用されているレンズ、並びに文書が平坦面上にあるのか湾曲面上にあるのかの別によって左右されうる。スキャナでは一般に可動スキャナヘッドが使用されており、プラテン上に平坦保持される文書からそのヘッドまでの距離が固定であるので、一般にはスキャナでそうした歪みが生じることはない。ディジタルカメラを用いた文書画像捕捉には、もう一つ、生じうる背景形状、模様及び色の種類が多様であるという問題もある。
「文書をモバイル撮像及び処理する方法」(Methods for mobile image capture and processing of documents)と題し発明者をNepomniachtchiとする特許文献1には、モバイルデバイスを使用した文書画像捕捉(撮像)及び処理の方法が開示されている。本方法では、モバイル通信デバイスを使用し金融証書の画像が捕捉され、データ抽出目的で処理される。その処理には、画像内にある文書の自動検知、画像の幾何学的補正、画像の二値化、画像の向き補正、画像のサイズ補正等が含まれている。捕捉画像における文書の配置を特定するプロセスでは、減色(グレースケールへの変換)やノイズ抑圧用モルフォロジ演算が使用される。その文書のエッジを表す「投票」点が識別され、それらの点に発する直線が近似的に求められる。文書の隅部(corner)は、それらの直線の交点を探し出すことで特定される。
「小切手をモバイル撮像及び処理する方法」(Methods for mobile image capture and processing of checks)と題しNepomniachtchi et al.を発明者とする特許文献2及びその関連文献では、モバイルデバイスを使用した文書撮像及び処理の方法が開示されている。本方法では、モバイル通信デバイスを使用し小切手の画像が捕捉され、データ抽出目的で処理される。この文献で教示されている文書配置は上掲の特許文献1でのそれと同じ要領である。捕捉された小切手画像には、二値化の上で、文書配置特定結果に基づくパースペクティブ(目線)補正の処理が施される。
「小切手をモバイル撮像及び処理するシステム」(Systems for mobile image capture and processing of checks)と題しNepomniachtchi et al.を発明者とする特許文献3には、モバイルデバイスを使用した自動文書処理の方法が開示されている。本方法では、捕捉された画像がデータ抽出目的で最適化及び拡張される。その処理動作には、画像内にある文書の自動検知、画像の幾何学的補正、画像の二値化、画像の向き補正、画像のサイズ補正等が含まれている。「文書をモバイル撮像及び処理する方法」(Methods for mobile image capture and processing of documents)と題しNepomniachtchiを発明者とする特許文献4にも、これに類似したプロセスが記載されている。
「画像内物体又はパターンを分類するのに最適な特徴を特定する方法及びシステム」(Methods and systems for determining optimal features for classifying patterns or objects in images)と題しAbramoff et al.を発明者とする特許文献5には、パターン又は物体を分類するための特徴を特定する方法が開示されている。本方法には、色チャネルを分離するステップ、並びに独立成分解析(ICA)を使用し医用イメージング向けに物体を検知するステップが含まれている。
「ディジタル捕捉画像処理システム及び方法」(Systems and methods for processing a digitally captured image)と題しZhangを発明者とする特許文献6には、文書のディジタル捕捉画像を処理する方法が開示されている。本方法は、ディジタル捕捉画像をグレースケール画像に変換するステップ、並びに適応的しきい値を適用して二値画像を導出するステップを有している。この二値画像は反復的画素プログレッションを使用しサーチされ、それにより複数個のエッジが検出される。検出された複数個のエッジを解析することで、イメージング済文書に係る隅部が、それら隅部の特定結果をパースペクティブ補正に利用できるように特定される。
「写真文書イメージングシステム」(Photographic document imaging system)と題しHeaney, Jr. et al.を発明者とする特許文献7には、文書を含む捕捉画像を処理する方法が開示されている。本方法は、イメージングされた文書をその背景から弁別するステップ、捕捉画像を調整することで歪みを低減するステップ、並びにその文書を適正に方向決めするステップを有している。イメージングされた文書のエッジがエッジ検出アルゴリズムを用い識別され、それらの線の交点が隅部たるべき点として導出される。
「画像処理方法、画像処理装置、画像読取装置及び画像形成装置」(Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus)と題しKonishiを発明者とする特許文献8には、取得した文書画像を一組の参照画像と比較し、どの参照画像がその取得済参照画像に最も似通っているかを判別する方法が開示されている。
米国特許第8326015号明細書 米国特許第8000514号明細書 米国特許第7978900号明細書 米国特許第7953268号明細書 米国特許第8340437号明細書 米国特許出願公開第2003/0156201号明細書 米国特許第7835589号明細書 米国特許第8320683号明細書
求められているのは、パースペクティブ補正の実行に使用できる文書バウンダリ(文書内外境界)を、文書の捕捉画像を処理することで識別する、より秀逸な方法である。
本発明により提供されるのは、文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
色チャネル毎にその画像データを解析することで対応する繁忙度(busyness)指標、即ち同画像データの複雑度を示す指標を求めるステップと、
最低の繁忙度を呈する色チャネルを選択するステップと、
選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
を有する。
本発明には、文書バウンダリを最もロバスト的に検知可能な色チャネルが、求められた繁忙度指標に基づき特定される、という長所がある。
検知された文書バウンダリを使用し捕捉カラーディジタル画像のパースペクティブ歪みを補正することで、パースペクティブ補正済文書画像を発生させることができる、という長所もある。これにより、ディジタルカメラをポータブル文書スキャナの簡略版として使用する際の主要な難点のうち一つが緩和される。
本発明の一実施形態に係る捕捉ディジタル画像処理システムの構成要素を示す上位概念図である。 ある例示的実施形態に係る捕捉ディジタル画像処理方法を示すフローチャートである。 図2の方法に係る捕捉ディジタル画像の処理を描出する一連の画像を示す図である。
ご理解頂けるように、別紙図面は本発明の概念を描出するためのものであるので均等縮尺であるとは限らない。
以下の説明では、通常はソフトウェアプログラムとして実現されるという想定で本発明の実施形態のうち幾つかを説明する。本件技術分野に習熟した者(いわゆる当業者)には、直ちに、そうしたソフトウェアの等価物をハードウェアでも構築可能なことをご認識頂けよう。画像操作のアルゴリズム及びシステムは周知であるので、以下の説明では、本発明に係る方法の一部をなし又はそれとより直截に協働するアルゴリズム及びシステムを特に注視する。そうしたアルゴリズム及びシステムの他面や、それにまつわる画像信号を処理例えば生成するためのハードウェア及びソフトウェアであって、本願中で具体的に説明や記述がされていないものは、本件技術分野で既知の類種システム、アルゴリズム、コンポーネント及び要素のなかから選択すればよい。これから本発明に係るものとして説明するシステムの場合、本願中で具体的に説明、示唆又は記述されていないが本発明の実施に役立つソフトウェアを、本件技術分野で一般的で通常技量の範囲内にあるものから採っている。
本発明には、本願で説明する実施形態同士の組合せが包含される。「一実施形態」等々を参照し示されている要素は、本発明の実施形態のうち少なくとも1個に備わる特徴である。何個所かで「一実施形態」、「諸実施形態」等々が参照されているが、それらが同じ実施形態又は実施形態群への参照であるとは限らない;反面、その旨示されている場合やいわゆる当業者にとり直ちに明らかな場合を除き、それらの実施形態が相容れないわけではない。「一方法」、「諸方法」等々、参照に際する単数形や複数形の使用は、限定を意味するものではない。注記すべきことに、明示的に注記されている場合や文脈上必然である場合を除き、本願では語「又は」を非排他的な意味で使用している。
図1は、本発明の一実施形態に係る画像処理システムの構成要素を示す上位概念図である。本システムは、データ処理システム110、周辺システム120、ユーザインタフェースシステム130及びデータストレージシステム140を備えている。周辺システム120、ユーザインタフェースシステム130及びデータストレージシステム140は、データ処理システム110に可通信接続されている。
データ処理システム110は、本願中で説明する例示的プロセスを含め本発明の諸実施形態に係るプロセスを体現するデータ処理デバイスを1個又は複数個備えている。語「データ処理デバイス」や「データプロセッサ」はあらゆるデータ処理デバイス、例えば中央処理ユニット(CPU)、デスクトップコンピュータ、ラップトップコンピュータ、メインフレームコンピュータ、携帯情報端末(PDA)、Blackberry(登録商標)、ディジタルカメラ、携帯電話その他を包含する意図のものである;データを処理し、管理し又は取り扱うことが可能であればどのようなデバイスでもよく、その構成要素が電気的か、磁気的か、光学的か、生物学的か、或いはその他かを問わない。
データストレージシステム140は、本発明の諸実施形態に係るプロセス、例えば本願中で説明する例示的プロセスを実行するのに必要な情報を含め、情報を格納可能な構成を有するプロセッサアクセシブルメモリを1個又は複数個備えている。データストレージシステム140は、複数個のコンピュータ又はデバイスを介しデータ処理システム110に可通信接続されたプロセッサアクセシブルメモリを複数個有する分散プロセッサアクセシブルメモリシステムにするとよい。反面、データストレージシステム140を分散プロセッサアクセシブルメモリシステムとする必要はないので、データストレージシステム140を構成する1個又は複数個のプロセッサアクセシブルメモリが単一のデータプロセッサ又はデバイス内に配されていてもよい。
語「プロセッサアクセシブルメモリ」は、揮発性か不揮発性かを問わず、また電子的か磁気的か光学的かその他かを問わず、あらゆるプロセッサアクセシブルデータストレージデバイスを包含する意図のものである;その例はレジスタ、フロッピーディスク(登録商標)、ハードディスク、コンパクトディスク、DVD、フラッシュメモリ、ROM、RAM等である。
語「可通信接続」は、有線か無線かを問わず、デバイス、データプロセッサ又はプログラムの間にありデータをやりとり可能なあらゆる種類の接続を包含する意図のものである。語「可通信接続」は、同一のデータプロセッサ内にあるデバイス又はプログラム間の接続、別々のデータプロセッサ内にあるデバイス又はプログラム間の接続、並びにもはやデータプロセッサ内にすらないデバイス間での接続を、包含する意図のものである。なお、図ではデータストレージシステム140がデータ処理システム110とは別体になっているが、いわゆる当業者にはご理解頂けるように、データストレージシステム140が丸ごと又は部分的にデータ処理システム110内に組み込まれていてもよい。更に、図では周辺システム120及びユーザインタフェースシステム130がデータ処理システム110とは別体になっているが、いわゆる当業者にはご理解頂けるように、それらのうち一方又は双方が丸ごと又は部分的にデータ処理システム110内に組み込まれていてもよい。
周辺システム120は、データ処理システム110にディジタルコンテンツレコードを供給しうるよう構成されたデバイスを1個又は複数個有する構成とすることができる。例えば、周辺システム120がディジタルスチルカメラ、ディジタルビデオカメラ、携帯電話その他のデータプロセッサを有する構成である。データ処理システム110には、周辺システム120内デバイスからディジタルコンテンツレコードを受領したときに、そのディジタルコンテンツレコードをデータストレージシステム140内に格納する能力がある。
ユーザインタフェースシステム130は、マウス、キーボード、別のコンピュータその他、そこからのデータがデータ処理システム110に入力される任意のデバイス又はデバイス群を有する構成とすることができる。なお、図では周辺システム120がユーザインタフェースシステム130とは別体になっているが、周辺システム120がユーザインタフェースシステム130の一部として備わっていてもよい。
ユーザインタフェースシステム130は、また、表示装置、プロセッサアクセシブルメモリその他、データ処理システム110からそのデバイス又はデバイス群へとデータが出力される任意のデバイス又はデバイス群を有する構成とすることができる。なお、図1ではユーザインタフェースシステム130及びデータストレージシステム140が互いに別体に描かれているが、ユーザインタフェースシステム130内にもしプロセッサアクセシブルメモリがあれば、そのメモリをデータストレージシステム140の一部としてもよい。
次に図2、即ち本発明の一実施形態に係る捕捉文書画像処理のフローチャートを参照して本発明を説明する。本方法への入力は捕捉ディジタル画像200である。捕捉ディジタル画像200はディジタルイメージングシステム、例えばディジタルカメラ、カメラ付電話機又はハードコピースキャナを用い取得されていて、文書を含むシーンが写っている画像である。捕捉ディジタル画像200は、値(画素値)を有する画像画素のアレイを有している。一般に、捕捉ディジタル画像200は、複数個の色チャネル(例.赤(R)、緑(G)及び青(B)色チャネル)を有するカラー画像となろう。
本発明の文脈でいう語「文書」とは、ソフトコピー媒体の相応なハードコピー上に写っている任意の画像のことである。文書の例としては、報告書、手紙、領収書、インボイス、雑誌、書籍、新聞、写真プリント、アートワーク(例.絵画)、テレビジョン又はコンピュータディスプレイ上に表示されているコンテンツ等がある。文書には、テキスト、グラフィクス、写真画像等、多種多様なコンテンツが含まれうる。大抵の文書では総じてそのバウンダリが方形であるが、ディジタルイメージングシステムのパースペクティブ(目線)や画像捕捉時における文書の平坦度次第で、バウンダリが幾何学的に歪むことがある。
好適な実施形態にあっては、複数個の前処理動作202を捕捉ディジタル画像200に適用することで、更なる処理に備え処理済ディジタル画像225が生成される。図3に示した実施形態では、その前処理動作に、ディジタル画像リサイズステップ205、色空間変換ステップ210、画像しきい値処理ステップ215及びモルフォロジ(形態素)処理ステップ220が含まれている。実施形態によっては、適用される個別の前処理動作が別のものとされることもある。
ディジタル画像リサイズステップ205の役割は、捕捉ディジタル画像200のサイズをある縮小サイズまで縮小し、ひいてはメモリ条件を緩和して残りのステップの情報処理効率を高めることである。ここでいう縮小サイズは、文書バウンダリの正確な検知が可能となるよう十分に大きくする必要がある。ある種の実施形態では、ディジタル画像リサイズステップ205にて、画像の長手寸法が約1000画素(例.1024画素)になるよう捕捉ディジタル画像のサイズが縮小される。別の実施形態では、画像が単純にある一定のリサイズ係数(例.25%)で以てリサイズされる。本件技術分野では画像リサイズ法が周知であり、そうした画像リサイズ法はいずれも本発明に従い使用することができる。画像リサイズ法には、通常、双一次補間、双三次補間又は最近傍補間といった補間プロセスの適用がつきものである。必須ではないが、補間プロセスが適用されるのに先立ち相応なアンチエイリアシングフィルタを捕捉ディジタル画像200にたたみ込むことで、リサイズプロセスでのエイリアシングアーティファクト(例.ジャギー)の発生を抑えるようにしてもよい。
色空間変換ステップ210では、画像データを相応な色空間に変換する色空間変換が実行される。色空間変換適用法はいわゆる当業者にとり周知である。好適な実施形態にあっては、画像データがHSV色空間、即ち色相(hue)色チャネル(H)、彩度(saturation)色チャネル(S)及び明度(value)色チャネル(V)を有する円筒状色空間へと変換される。「彩度」色チャネルは画像の色度(chroma)(又は彩度(colorfulness))、「明度」色チャネルは画像の輝度(luminance)(又は光度(lightness))に関連している。HSV色空間は周知であり、コンピュータグラフィクス、コンピュータビジョン、カラーピッカ及び画像編集ソフトウェアパッケージ等のアプリケーションで使用されている。HSV色空間には、各色チャネルが互いに根本的に異なる認識属性に関連しており、往々にして互いにあまり相関しない、という望ましい特性がある。そのため、いずれかの色チャネルで文書がその背景から明瞭に峻別される蓋然性が高くなりうる。
これに似た色空間であって本発明との併用に適したもの一つは、HSL(hue-saturation-lightness)色空間である(HSLにおける「彩度」(saturation)とHSVにおけるそれが同じ認識属性を参照しているけれどもその厳密な定義が大きく異なることに要注意)。他の類種としてはHSB(hue-saturation-brightness)及びHSI(hue-saturation-intensity)がある。これら色空間はそれぞれデバイス依存性RGB色空間の単純な変換によって特定される。結果として、それらにより規定される物理色は、その特定のRGB空間に係るデバイスでの赤基本色、緑基本色及び青基本色の色、並びにそれら基本色の量を表すのに使用される非線形性(即ち「ガンマ」)により左右される。各RGBデバイスは、従って、そのデバイスに係るユニークなHSV色空間(並びに同じくユニークなHSL、HSB又はHSI色空間)を有する。
実施形態によっては、画像データの変換先が、本件技術分野で既知な他の相応な色空間とされることもある。相応な色空間の例には、光度(lightness)、色度(chroma)及び色相(hue)属性を示す色チャネルを有する他の色空間(例.CIE L**ab)や、光度(lightness)及び2個の色差属性を示す色チャネルを有する色空間(例.YCrb、CIE L***又はCIE L***)が含まれよう。或いは、色空間変換ステップ210を省略し、残りの動作が捕捉ディジタル画像のそもそもの色空間(例.sRGB)にて適用されるようにしてもよい。
図3に、文書300が写っている(RGB色空間準拠)捕捉ディジタル画像200の一例を示す。色空間変換ステップ210(図2)の適用によって画像データをHSV色空間に変換した暁には三種類の色チャネル画像、即ち色相色チャネル画像310、彩度色チャネル画像312及び明度色チャネル画像314が得られる。
図2の議論に戻ると、画像データしきい値処理ステップ215の役割は、しきい値を画像データの各色チャネルに適用することで、しきい値処理済画像データ(即ち一般に画素値“0”及び“255”を使用し表現される二値画像データ)を導出することである。実施形態によっては、予め定めてあったしきい値が各色チャネルに適用される。より好ましいのは、画像しきい値処理ステップ215で画像データの統計的特性を解析することで、その画像データの各色チャネルにふさわしい適応的しきい値を導出することである。例えば、各色チャネル向けの適応的しきい値を、その色チャネルにおける平均画素値(即ち画素値の平均)を算出することで導出する。このようにすると、その色チャネル内の画像データに応じ、しきい値が各色チャネル毎に独特且つ別々の値になる。実施形態によっては、適応的しきい値の導出に、他の統計的特性(例.メディアン値又はモード値)或いは本件技術分野で周知でより複雑な画像解析プロセスが用いられよう。
モルフォロジ処理ステップ220の役割は、しきい値処理済画像データに1通り又は複数通りのモルフォロジ演算を適用することである。好適な実施形態にあっては、そのモルフォロジ演算にダイレーション(収縮)演算及びそれに続くエロージョン(膨張)演算が含まれる。ダイレーション演算及びエロージョン演算は、いわゆる当業者にとり既知なモルフォロジ演算のうち最も一般的な二種類である。ダイレーション演算及びエロージョン演算が最も典型的に適用されるのは二値画像であるが、ある種の形態のそれはグレースケール画像との協働にも適している。ダイレーション演算及びエロージョン演算の組合せはしばしばクロージング演算と呼ばれる。クロージング演算の効果は、前景領域内のあらゆる小孔が塞がれることである。
ダイレーション演算の役割は、“前景”領域(一般に白色画素)のバウンダリを拡大することである。これにより、前景画素構成領域のサイズが大きくなる一方、同領域内の孔が小さくなる。同様に、エロージョン演算の役割は、“背景”領域(一般に黒色画素)のバウンダリを拡大することである。これにより、前景画素構成領域のサイズが小さくなる一方、背景領域内の孔が小さくなる。ダイレーション/エロージョン演算では、通常、ダイレーション/エロージョン行列(即ちしばしば構造化要素と呼ばれるもの)を使用することで、中心画素を取り巻いていてサーチ対象となる画素近隣が画定される。その画素近隣内にある画素のいずれかが前景/背景値を呈しているときには、中心画素がその前景/背景値で以て置換される。好適な実施形態にあっては、ダイレーション演算にて単純な3×3ダイレーション行列、エロージョン演算にて単純な3×3エロージョン行列が使用される。
前処理動作202が終わったら、処理済ディジタル画像225を解析することで、後続の処理向けに色チャネルのうち1個が選択される。好適な実施形態にあっては、色チャネル繁忙度算出ステップ230を実行することで、処理済ディジタル画像225の色チャネル毎に色チャネル繁忙度235が導出される。この繁忙度は、画像データの複雑度(又はランダムさ)の物差しである。本件技術分野で既知の画像繁忙度指標導出法はいずれも本発明に従い使用することができる。
好適な実施形態にあっては、画像データ内を通る一組の経路に沿った遷移(即ち0から255への遷移又は255から0への遷移)の個数を、その処理済ディジタル画像225を構成する特定の色チャネルに関し計数することで、色チャネル繁忙度235が導出される。遷移個数が多めの画像は一般に複雑度が高めになろう。当該一組の経路は、例えば処理済ディジタル画像225のロー及びカラムとする。この場合、水平方向沿い遷移個数(即ちロー毎の遷移個数)及び垂直方向沿い遷移個数(即ちカラム毎の遷移個数)を総和すること
Figure 0006216871
により、色チャネル(C)に係る色チャネル繁忙度指標(BC)を算出することができる;式中、Nrはローrにおける遷移個数、Ncはカラムcにおける遷移個数である。
実施形態によっては、色チャネル繁忙度が他の繁忙度指標を用い算出されうる。例えば、周知の通り、あまり複雑でない画像(例.遷移個数が少なめな画像)を非可逆的画像圧縮アルゴリズムに従い圧縮するとより複雑な画像(例.遷移個数が多めな画像)より強めに圧縮されるものである。従って、処理済ディジタル画像225における個別色チャネルの圧縮率を、繁忙度の物差しとして使用することができる。例えば、各色チャネルの画像を周知のJPEG画像圧縮アルゴリズムに従い圧縮することが可能であり、またその圧縮率(例えば圧縮された画像のサイズとして数値化されたもの)を色チャネル繁忙度235として使用することが可能である。
本発明に従い色チャネル繁忙度235に代えて使用可能な繁忙度指標の別例は、連結成分解析を用い導出される明白な連結要素の個数(即ち前景画素の明白な集まりの個数)であろう。高めの繁忙度を有する画像では一般に明白な連結要素の個数が多めになる。
繁忙度指標として使用するのに適していて、色チャネル繁忙度235に代えて使用可能なもう一つの指標は、画像エントロピである。エントロピは「無秩序さ」又は「不確実さ」についての周知な物差しであり、広範なアプリケーションにてディジタル画像に日常的に適用されている。高めの繁忙度を有する画像では一般にエントロピが高めになる。
実施形態によっては、周波数コンテンツ指標の導出を基礎に色チャネル繁忙度235が導出される。複雑な画像では一般に高周波数コンテンツが多めになる。従って、この周波数コンテンツ指標の適例の一つは、所定のしきい値周波数より高い周波数で求めた周波数コンテンツの量であろう。いわゆる当業者には自明な通り、本発明に従い用いることが可能な周波数コンテンツ指標はこれ以外にも数多くある。
色チャネル選択ステップ240の役割は、色チャネル毎に算出された色チャネル繁忙度235に基づき、更なる処理に備え処理済ディジタル画像225からいずれかの色チャネルを選択することである。好適な実施形態にあっては、最低の色チャネル繁忙度235を有する色チャネルが選択される。捕捉ディジタル画像200から選択された色チャネルに係る画像データが、選択色チャネル画像245に指定される。
図3に、説明してきた例示的実施形態に従い導出された処理済ディジタル画像225の一例を示す。この処理済ディジタル画像225は、処理済色相色チャネル画像320、処理済彩度色チャネル画像322及び処理済明度色チャネル画像324を有している。色チャネル毎に算出された色チャネル繁忙度235(図2)に従い、色相色チャネル画像320が選択色チャネル画像245に指定されている。
図2の議論に戻ると、選択色チャネル画像245に係る画像データは更に文書バウンダリ検知プロセス247を使用し解析され、写っているハードコピー文書の文書バウンダリ280がそれにより検出される。文書バウンダリ検知プロセス247では、本件技術分野で既知のあらゆる文書バウンダリ検知プロセスを使用することができる。図示実施形態にあっては、まずエッジ検出ステップ250を選択色チャネル画像245に適用することで画像データ内のエッジが検出される。エッジ検出法は画像処理分野に係る当業者にとり周知である。好適な実施形態にあっては、エッジ検出ステップ250にて周知のCannyエッジ検出アルゴリズムが適用される。その画像データはまず画像ノイズ低減のため平滑される。次いで、Cannyエッジ検出アルゴリズムに従い画像勾配を算出することで、大きな空間導関数を有する領域が識別される。更に、非最大値抑圧演算を適用することで、画素のうちその勾配方向における極大値であるもの全てが抑圧される。次いで、ヒステリシスしきい値処理プロセスを使用しその画像内のエッジがトレースされる。勾配の大きさが下側第1しきい値を下回る画素はいずれも非エッジ画素と判断され、また上側第2しきい値を上回る画素はいずれもエッジ画素と判断される。勾配の大きさがそれら二通りのしきい値の間にある場合、その画素は、同画素から勾配の大きさが第2しきい値超の画素に至る経路が存在するならば、エッジと判断される。このようにすることで、エッジのうちぼんやりとした部分を識別することができる。
次に、多角形特定ステップ255をエッジ検出処理済画像に適用することで、検出されたエッジにより形成される多角形全てが識別される。エッジ輪郭が閉じていて外に凸なら、その輪郭は多角形で近似できる。本件技術分野で既知のエッジ輪郭由来多角形特定法は、いずれも、本発明に従い使用することができる。エッジ輪郭に基づく多角形の近似導出に多用される周知方法としては、スプリットアルゴリズム、マージアルゴリズム及びスプリットアンドマージアルゴリズムの三種類がある。スプリットアンドマージアルゴリズムの一例形態としては周知のRamer−Douglas−Peuckerアルゴリズムがある。このアルゴリズムはOpenCVコンピュータビジョンライブラリに実装されており、また本発明の例示的実施形態で使用されている。多角形特定ステップ255で求まるのは、それぞれ一組の頂点により規定される一群の多角形である。
多くの場合、多角形特定ステップ255では多角形が複数個特定される。最良多角形選択ステップ260の役割は、予め定められている一組の選択条件に基づき最良多角形265を選択することである。最良多角形265とは、写っている文書のバウンダリに最もよく対応しそうな多角形のことである。好適な実施形態にあっては、最良多角形選択ステップ265で使用される選択条件、特にシーケンシャルフィルタリングプロセスを適用する条件を使用し、一組の特定済多角形のなかから最良多角形265が選択される。
注目対象文書は一般に4個の隅部及び4個の辺を有する四辺形であろうから、初期フィルタリングステップにて、隅部が4個でない多角形全てを除外するとよい。写っている文書は一般に方形であるものと期待してよいので、残った四辺具備の多角形のうち、90°に対して所定の誤差範囲(例.±25°)内に収まっていない隅部を有する多角形も除外できる。小さな多角形(例.画像総面積の10%たるサイズ下限より小さな面積を有する多角形)、更には重複多角形(互いに一致している多角形)や4個ある画像縁のうちいずれかと一辺を共有している多角形(縁多角形)全ても濾過できる。より大きな多角形内にその全体が収まっている多角形も除外できる。最終的には、残った多角形の中で最も大きなものが最良多角形265たるべきものとして選択される。いわゆる当業者にはご理解頂けるように、このフィルタリングプロセス例の多様な変形態様や、他種選択法も、本発明に従い使用することができる。
有効多角形判別270の役割は、有効な多角形が見つかったか確認することである。場合によっては、フィルタリングステップのうち少なくとも基本セットに合格するような多角形が何も見つからないことがある(捕捉ディジタル画像200内に文書が写っていない場合や採用中の方法では文書バウンダリを成功裏に識別できなかった場合)。この場合、捕捉ディジタル画像200内に有効な文書が何も写っていない旨判明したことを示す文書不発見フラグ275をセットすればよい。有効な文書多角形が見つかった場合は、その最良多角形265が文書バウンダリ280であるものと見なされる。
求まった文書バウンダリ280を示す情報(例.その多角形に備わる隅部の座標)は、プロセッサアクセシブルメモリ内(例.RAM内又はハードディスク上)に格納可能であり、また種々の別アプリケーションにて使用可能である。例えば、求まった文書バウンダリ280を使用し、写っている文書を捕捉ディジタル画像200から抽出することが可能である。実施形態によっては、パースペクティブ補正プロセス285を使用し、撮像プロセスに関連するパースペクティブ歪みを補正することで、パースペクティブ補正済文書画像290が導出されうる。本件技術分野で既知のどのようなパースペクティブ補正プロセス285も、パースペクティブ歪みを本発明に従い補正するのに使用することができる。パースペクティブ補正済文書画像290は、撮像時の幾何学的配置に関連する歪みが除去された秀逸な文書画像である。
好適な実施形態にあっては、パースペクティブ補正プロセス285にてパースペクティブ変換行列が導出され、捕捉ディジタル画像200の幾何学的構成がその適用によって変換される。パースペクティブ変換行列は、文書バウンダリ280に備わる4個の頂点の座標、並びに補正後の画像空間におけるそれら4個の頂点の対応する座標が与えられていれば、周知方法を使用し算出することができる(ディジタル画像リサイズステップ205が適用される実施形態では、捕捉ディジタル画像200の座標に対応するよう文書バウンダリ280に備わる4個の頂点を適宜スケーリングすべきである)。通常、補正後の画像空間における4個の頂点座標は、4個の頂点が90°角をなすようなものとなる。実施形態によっては、補正済画像の幅及び高さが文書バウンダリ280のエッジのサイズから推定されうる。例えば、文書バウンダリ280の上エッジと下エッジの平均を以て補正済画像の幅、文書バウンダリ280の左エッジと右エッジの平均を以て補正済画像の高さとして採用することができる。別の実施形態にあっては、所定のデフォルト文書タイプ(例.8.5”×11”)に対応するよう補正済画像のサイズが仮定され、また相応な解像度(例.300dpi)を有するものと見なされる。
パースペクティブ変換行列(M)は、一般に次の形態
Figure 0006216871
を有するものとなろう;式中、(x,y)は捕捉ディジタル画像200におけるソース(変換前)座標、(x’,y’)はパースペクティブ補正済文書画像290におけるデスティネーション(変換後)座標、tはホモジニアスな成分である。オープンソース化されているコンピュータビジョンライブラリOpenCVではシンプルな関数“getPerspectiveTransform”、即ち文書バウンダリ280に備わる4個の頂点の座標並びに補正済画像空間におけるそれら4個の頂点の対応する座標が与えられている下でパースペクティブ変換行列を生成する関数が提供されている。これに対応するOpenCV関数“warpPerspective”では、求まったパースペクティブ変換行列を受け取って原画像(捕捉ディジタル画像200)に対するパースペクティブ変換を実行することで、対応する補正済画像(パースペクティブ補正済文書画像290)を導出する。その上で、補正済文書画像格納ステップ295を使用し、導出されたパースペクティブ補正済文書画像290をプロセッサアクセシブルメモリ内に格納すればよい。
再び図3を参照するに、選択色チャネル画像245には最良多角形265(図2)に対応する文書バウンダリ280が現れている。そもそもの捕捉ディジタル画像200を変換してパースペクティブ補正済文書画像290を導出するのに使用されたパースペクティブ変換行列は、この文書バウンダリ280を用い導出されたものである。看取できる通り、元々の捕捉ディジタル画像200内の文書にディジタルカメラの撮影時幾何配置が原因で生じているパースペクティブ歪みが補正されており、既存のハードコピースキャナを用い捕捉したときに得られるであろう画像と同様に見えるパースペクティブ補正済文書画像290が得られている。このことから、ディジタルカメラ又はカメラ付電話機をポータブル文書スキャナの簡略版として使用することに関わる大きな問題のうち、一つに対する解決策が、本発明の方法によりもたらされることを理解することができる。
コンピュータプログラム製品は、1個又は複数個の非一時的で有形なコンピュータ可読ストレージ媒体を伴いうる;例えば、磁気記録媒体例えば磁気ディスク(例えばフロッピーディスク(登録商標))又は磁気テープ;光学記録媒体例えば光ディスク、光テープ又は機械可読バーコード;固体電子ストレージデバイス例えばランダムアクセスメモリ(RAM)又はリードオンリメモリ(ROM);或いは他のあらゆる物理デバイス又は媒体を、1個又は複数個のコンピュータを制御して本発明に係る方法を実行させることが可能な命令群を有するコンピュータプログラムの格納に、使用することができる。
本発明の好適な実施形態のうちある種のものを具体的に参照して本発明を詳説してきたが、ご理解頂けるように、本発明の技術的範囲及び神髄から逸脱せずに様々な変形及び修正を施すことが可能である。
110 データ処理システム、120 周辺システム、130 ユーザインタフェースシステム、140 データストレージシステム、200 捕捉ディジタル画像、202 前処理動作、205 ディジタル画像リサイズステップ、210 色空間変換ステップ、215 画像しきい値処理ステップ、220 モルフォロジ処理ステップ、225 処理済ディジタル画像、230 色チャネル繁忙度算出ステップ、235 色チャネル繁忙度、240 色チャネル選択ステップ、245 選択色チャネル画像、247 文書バウンダリ検知プロセス、250 エッジ検出ステップ、255 多角形特定ステップ、260 最良多角形選択ステップ、265 最良多角形、270 有効文書多角形判別、275 文書不発見フラグ、280 文書バウンダリ、285 パースペクティブ補正プロセス、290 パースペクティブ補正済文書画像、295 補正済文書画像格納、300 文書、310 色相色チャネル画像、312 彩度色チャネル画像、314 明度色チャネル画像、320 処理済色相色チャネル画像、322 処理済彩度色チャネル画像、324 処理済明度色チャネル画像。

Claims (20)

  1. 文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
    ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
    前記色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ち同画像データの複雑度を示す指標を求めるステップと、
    前記繁忙度指標を求めるステップが、前記画像データに関し圧縮率指標を求めるステップを含み、
    最低の繁忙度を呈する色チャネルを選択するステップと、
    前記選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
    前記検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
    を有する方法。
  2. 請求項1記載の方法であって、更に、前記繁忙度指標を算出するのに先立ち各色チャネルに係る画像データをしきい値処理するステップを、有する方法。
  3. 請求項2記載の方法であって、前記画像データをしきい値処理するステップが、
    その画像データを解析することで適応的しきい値を決定するステップと、
    その適応的しきい値を使用し画像データをしきい値処理するステップと、
    を含む方法。
  4. 請求項3記載の方法であって、その適応的しきい値が、前記画像データの統計的特性に基づき導出される方法。
  5. 請求項2記載の方法であって、前記繁忙度指標を求めるステップが、前記しきい値処理済画像データ内を通る一組の経路に沿った遷移の個数を計数するステップを含む方法。
  6. 請求項2記載の方法であって、前記繁忙度指標を求めるステップが、前記しきい値処理済画像データの連結成分解析を実行するステップを含む方法。
  7. 文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
    ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
    前記色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ち同画像データの複雑度を示す指標を求めるステップと、
    最低の繁忙度を呈する色チャネルを選択するステップと
    前記選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
    前記検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
    前記検知された文書バウンダリに基づき捕捉カラーディジタル画像にパースペクティブ補正プロセスを適用することで、前記写っている文書が略方形のバウンダリを呈するような補正済ディジタル画像を生成するステップと、
    を有する方法
  8. 請求項1記載の方法であって、前記繁忙度指標を求めるステップが、その画像データに関し画像エントロピ指標を求めるステップを含む方法。
  9. 請求項1記載の方法であって、前記繁忙度指標を求めるステップが、その画像データに関し周波数コンテンツ指標を求めるステップを含む方法。
  10. 請求項1記載の方法であって、前記文書バウンダリを検知するステップが、エッジ検出プロセスを実行することでその画像データ内のエッジを検出するステップを含む方法。
  11. 請求項10記載の方法であって、更に、前記検出されたエッジに対応する多角形を1個又は複数個特定するステップを含む方法。
  12. 請求項11記載の方法であって、前記検出されたエッジに対応する多角形を複数個特定し、1個又は複数個ある所定の選択条件に基づき多角形のうち1個を選択する方法。
  13. 請求項11記載の方法であって、四辺形でない多角形を無視する選択条件がある方法。
  14. 請求項11記載の方法であって、最小限度のサイズを有していない多角形を無視する選択条件がある方法。
  15. 請求項1記載の方法であって、前記色チャネルとして、色相属性を表す色チャネルと、彩度属性を表す色チャネルと、輝度属性を表す色チャネルと、を有する方法。
  16. 請求項1記載の方法であって、前記色チャネルとして、光度属性を表す色チャネルと、色差属性を表す2個の色チャネルと、を有する方法。
  17. 請求項1記載の方法であって、前記色チャネルとして、赤色チャネル、緑色チャネル及び青色チャネルを有する方法。
  18. 文書のディジタル画像を捕捉する文書イメージングシステムであって、
    背景上にハードコピー文書があるカラーディジタル画像を捕捉し、複数個の色チャネルに関し画像データを有している捕捉カラーディジタル画像をもたらすように、構成された画像捕捉システムと、
    データ処理システムと、
    そのデータ処理システムに可通信接続されており、且つ同データ処理システムに前記捕捉カラーディジタル画像内パースペクティブ歪み補正方法を実行させるべく構成されている命令群が格納されているメモリシステムと、
    を備える文書イメージングシステムにおいて、上記方法が、
    その捕捉カラーディジタル画像を、複数個の解析色チャネルを有する解析色空間へと変換するステップと、
    前記解析色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ちその画像データの複雑度を示す指標を求めるステップと、
    最低の繁忙度を呈する解析色チャネルを選択するステップと、
    前記選択された解析色チャネルに係る前記画像データを解析することで、写っている文書の文書バウンダリを検知するステップと、
    前記検知された文書バウンダリに基づき前記捕捉カラーディジタル画像にパースペクティブ補正プロセスを適用することで、写っている文書が略方形のバウンダリを呈するような補正済ディジタル画像を生成するステップと、
    前記補正済ディジタル画像をプロセッサアクセシブルメモリ内に格納するステップと、
    を有する文書イメージングシステム。
  19. 文書の捕捉ディジタル画像内にある文書バウンダリを検知する方法であり、少なくとも部分的にデータ処理システムにより実行される方法であって、
    ディジタルイメージングシステムを用い捕捉されており、背景上にハードコピー文書が写っており、複数個の色チャネルに関し画像データを有しているカラーディジタル画像を、受け取るステップと、
    前記色チャネル毎にその画像データを解析することで対応する繁忙度指標、即ち同画像データの複雑度を示す指標を求めるステップであって、前記繁忙度指標を求めるステップが、その画像データに関し画像エントロピ指標を求めるステップを含み、
    最低の繁忙度を呈する色チャネルを選択するステップと
    前記選択された色チャネルに係る画像データを解析することで、写っているハードコピー文書の文書バウンダリを検知するステップと、
    前記検知された文書バウンダリを示す情報をプロセッサアクセシブルメモリ内に格納するステップと、
    を有する方法
  20. 請求項7記載の方法であって、前記繁忙度指標を求めるステップが、前記画像データに関し圧縮率指標を求めるステップを含む方法。
JP2016519588A 2013-06-12 2014-06-10 文書バウンダリ検知方法 Active JP6216871B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361833952P 2013-06-12 2013-06-12
US61/833,952 2013-06-12
US14/263,181 2014-04-28
US14/263,181 US9122921B2 (en) 2013-06-12 2014-04-28 Method for detecting a document boundary
PCT/US2014/041675 WO2014200982A2 (en) 2013-06-12 2014-06-10 Method for detecting a document boundary

Publications (3)

Publication Number Publication Date
JP2016521890A JP2016521890A (ja) 2016-07-25
JP2016521890A5 JP2016521890A5 (ja) 2017-07-20
JP6216871B2 true JP6216871B2 (ja) 2017-10-18

Family

ID=52019002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016519588A Active JP6216871B2 (ja) 2013-06-12 2014-06-10 文書バウンダリ検知方法

Country Status (5)

Country Link
US (1) US9122921B2 (ja)
EP (1) EP3008661A2 (ja)
JP (1) JP6216871B2 (ja)
CN (1) CN105339951B (ja)
WO (1) WO2014200982A2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102279026B1 (ko) * 2014-11-07 2021-07-19 삼성전자주식회사 적어도 하나의 객체를 포함하는 영상에서 객체를 추출하여 보정한 영상을 제공하는 장치 및 방법
US9524445B2 (en) * 2015-02-27 2016-12-20 Sharp Laboratories Of America, Inc. Methods and systems for suppressing non-document-boundary contours in an image
US9721178B2 (en) * 2015-06-16 2017-08-01 Telefonaktiebolaget Lm Ericsson (Publ) Automatic extraction of closed caption data from frames of an audio video (AV) stream using image clipping
US9900665B2 (en) 2015-06-16 2018-02-20 Telefonaktiebolaget Lm Ericsson (Publ) Caption rendering automation test framework
US9712697B1 (en) * 2016-01-20 2017-07-18 Xerox Corporation Detecting sizes of documents scanned using handheld devices
CN106991649A (zh) * 2016-01-20 2017-07-28 富士通株式会社 对摄像装置所捕获的文档图像进行校正的方法和装置
US9786039B2 (en) * 2016-01-26 2017-10-10 Wipro Limited Method and system for processing an image extracted from a document
WO2017208368A1 (ja) * 2016-05-31 2017-12-07 株式会社Pfu 画像処理装置、画像処理方法、および、プログラム
RU2626661C1 (ru) * 2016-06-24 2017-07-31 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и подсистема определения содержащих документ фрагментов цифрового изображения
WO2018120238A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
WO2018141109A1 (zh) * 2017-02-06 2018-08-09 华为技术有限公司 图像处理的方法和设备
JP6880867B2 (ja) * 2017-03-16 2021-06-02 株式会社リコー 画像処理装置、画像処理方法およびプログラム
US10257375B2 (en) * 2017-06-14 2019-04-09 Intuit, Inc. Detecting long documents in a live camera feed
US10171695B1 (en) 2017-06-14 2019-01-01 Intuit Inc. Out-of bounds detection of a document in a live camera feed
KR102402148B1 (ko) 2017-08-22 2022-05-26 삼성전자주식회사 전자 장치 및 그의 문자 인식 방법
CN109598177B (zh) * 2017-09-30 2023-12-01 施耐德电气工业公司 用于识别电气设备的状态的方法和装置
EP3496030A1 (en) * 2017-12-08 2019-06-12 Admesy B.V. Method and system for inspecting a display device
CN110414502B (zh) * 2019-08-02 2022-04-01 泰康保险集团股份有限公司 图像处理方法及装置、电子设备和计算机可读介质
JP7508212B2 (ja) * 2019-10-29 2024-07-01 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
TWI731484B (zh) * 2019-11-26 2021-06-21 台灣基督長老教會馬偕醫療財團法人馬偕紀念醫院 經由藥物泡型包裝影像建立藥物資料庫及管理藥物之方法及系統
CN114463352A (zh) * 2022-01-12 2022-05-10 济南超级计算技术研究院 玻片扫描图像目标分割提取方法及系统
CN114155546B (zh) * 2022-02-07 2022-05-20 北京世纪好未来教育科技有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN115082935A (zh) * 2022-07-04 2022-09-20 网易有道信息技术(北京)有限公司 用于对文档图像进行矫正的方法、设备及存储介质
KR102602292B1 (ko) * 2023-06-29 2023-11-16 주식회사 코이웨어 이미지에서 문서 영역 검출 장치 그 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3320759B2 (ja) * 1991-12-26 2002-09-03 株式会社東芝 文書画像傾き検出装置およびその方法
JPH064663A (ja) * 1992-06-16 1994-01-14 Seiko Instr Inc 画像データ2値化装置
JPH06343140A (ja) * 1993-06-01 1994-12-13 Matsushita Electric Ind Co Ltd 画像処理装置
JP3586147B2 (ja) * 1999-09-30 2004-11-10 キヤノン株式会社 画像処理装置、方法およびその処理を実行するプログラムを記憶する記憶媒体
US6985631B2 (en) * 2002-02-20 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for automatically detecting a corner in a digitally captured image
EP1517542B1 (en) * 2003-09-01 2010-11-10 Samsung Electronics Co., Ltd. Method and apparatus for adjusting colors of an image
US7593595B2 (en) 2004-08-26 2009-09-22 Compulink Management Center, Inc. Photographic document imaging system
JP2006270433A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 画像処理方法
US8320683B2 (en) 2007-02-13 2012-11-27 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus
US7991244B2 (en) 2007-04-30 2011-08-02 Hewlett-Packard Development Company, L.P. Variable skew correction system and method
US8340437B2 (en) 2007-05-29 2012-12-25 University Of Iowa Research Foundation Methods and systems for determining optimal features for classifying patterns or objects in images
US7949176B2 (en) 2008-01-18 2011-05-24 Mitek Systems, Inc. Systems for mobile image capture and processing of documents
JP5236332B2 (ja) * 2008-03-28 2013-07-17 アイベックステクノロジー株式会社 符号化装置、符号化方法および符号化プログラム
EP2321955A4 (en) * 2008-08-04 2017-08-16 Humaneyes Technologies Ltd. Method and a system for reducing artifacts
JP5229050B2 (ja) * 2009-03-30 2013-07-03 富士通株式会社 画像からの文書領域抽出装置、方法、及びプログラム
JP4772894B2 (ja) * 2009-08-03 2011-09-14 シャープ株式会社 画像出力装置、携帯端末装置、撮像画像処理システム、画像出力方法、プログラムおよび記録媒体
JP4630936B1 (ja) * 2009-10-28 2011-02-09 シャープ株式会社 画像処理装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2016521890A (ja) 2016-07-25
US20140368891A1 (en) 2014-12-18
CN105339951B (zh) 2017-05-31
CN105339951A (zh) 2016-02-17
EP3008661A2 (en) 2016-04-20
US9122921B2 (en) 2015-09-01
WO2014200982A2 (en) 2014-12-18
WO2014200982A3 (en) 2015-04-16

Similar Documents

Publication Publication Date Title
JP6216871B2 (ja) 文書バウンダリ検知方法
US11694456B2 (en) Object detection and image cropping using a multi-detector approach
EP3241182B1 (en) System and method for measuring mobile document image quality
TWI467495B (zh) 利用全彩像素映射邊緣
US8422788B2 (en) Automatic image straightening
US6985631B2 (en) Systems and methods for automatically detecting a corner in a digitally captured image
US8805077B2 (en) Subject region detecting apparatus
TWI430184B (zh) 結合全色像素之邊緣映射
US20060280363A1 (en) Image processing apparatus and method, computer program, and storage medium
US8923610B2 (en) Image processing apparatus, image processing method, and computer readable medium
EP2974261A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
JP2007504719A (ja) 組み込みアプリケーションに適した、画像における赤目の検出と補正を行うシステム及び方法
US20180184012A1 (en) Image processing apparatus, control method, and storage medium
CN108965646B (zh) 图像处理装置、图像处理方法
US20120250105A1 (en) Method Of Analyzing Digital Document Images
WO2024016791A1 (zh) 处理图形符号的方法、装置和计算机可读存储介质
JP5397468B2 (ja) パタンノイズ除去装置、パタンノイズ除去方法、パタンノイズ除去プログラム
KR102054747B1 (ko) 이미지에서 기울어진 사각 영역 인식 방법 및 장치
US12026862B2 (en) Apparatus and methods for preprocessing images having elements of interest
WO2015049392A1 (en) A method and system for improving the quality of colour images
JP6194677B2 (ja) 画像処理装置およびプログラム
CN112132141A (zh) 字符合并方法、装置、电子设备及存储介质
JP2007328467A (ja) 画像処理装置、画像処理手法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170607

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170607

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170822

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170925

R150 Certificate of patent or registration of utility model

Ref document number: 6216871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250