JP2016517587A - モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類 - Google Patents
モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類 Download PDFInfo
- Publication number
- JP2016517587A JP2016517587A JP2016502178A JP2016502178A JP2016517587A JP 2016517587 A JP2016517587 A JP 2016517587A JP 2016502178 A JP2016502178 A JP 2016502178A JP 2016502178 A JP2016502178 A JP 2016502178A JP 2016517587 A JP2016517587 A JP 2016517587A
- Authority
- JP
- Japan
- Prior art keywords
- digital image
- image
- extraction model
- mobile device
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 208
- 238000000605 extraction Methods 0.000 claims abstract description 112
- 238000004590 computer program Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 64
- 238000009826 distribution Methods 0.000 claims description 60
- 238000012015 optical character recognition Methods 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 description 155
- 238000004458 analytical method Methods 0.000 description 89
- 230000007704 transition Effects 0.000 description 56
- 238000012545 processing Methods 0.000 description 55
- 238000005192 partition Methods 0.000 description 50
- 238000004422 calculation algorithm Methods 0.000 description 38
- 238000001514 detection method Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 31
- 230000008569 process Effects 0.000 description 31
- 238000012360 testing method Methods 0.000 description 19
- 230000015654 memory Effects 0.000 description 16
- 238000005286 illumination Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000002829 reductive effect Effects 0.000 description 12
- 238000013075 data extraction Methods 0.000 description 11
- 230000001976 improved effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 238000003908 quality control method Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- WYWHKKSPHMUBEB-UHFFFAOYSA-N 6-Mercaptoguanine Natural products N1C(N)=NC(=S)C2=C1N=CN2 WYWHKKSPHMUBEB-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- WYTGDNHDOZPMIW-RCBQFDQVSA-N alstonine Natural products C1=CC2=C3C=CC=CC3=NC2=C2N1C[C@H]1[C@H](C)OC=C(C(=O)OC)[C@H]1C2 WYTGDNHDOZPMIW-RCBQFDQVSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000005282 brightening Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011496 digital image analysis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 229940095374 tabloid Drugs 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含む。関連するシステムおよびコンピュータプログラムプロダクトも開示される。
Description
発明の分野
本発明は、モバイル画像取込みおよび画像処理に関し、より具体的には、モバイル装置を用いてデジタル画像を取込んで処理しこのようなデジタル画像内で検出されたオブジェクトを分類することに関する。
本発明は、モバイル画像取込みおよび画像処理に関し、より具体的には、モバイル装置を用いてデジタル画像を取込んで処理しこのようなデジタル画像内で検出されたオブジェクトを分類することに関する。
発明の背景
書簡、勘定書、請求書、納品伝票等の文書を含むオブジェクトが描かれているデジタル画像は、従来、ラップトップまたはデスクトップコンピュータ等のコンピュータワークステーションに接続されたスキャナまたは多機能周辺装置を用いて取込まれて処理されてきた。このような取込みおよび処理を実行することが可能な方法およびシステムは、当該技術では周知であり、これら方法およびシステムが採用されるタスクによく適応している。
書簡、勘定書、請求書、納品伝票等の文書を含むオブジェクトが描かれているデジタル画像は、従来、ラップトップまたはデスクトップコンピュータ等のコンピュータワークステーションに接続されたスキャナまたは多機能周辺装置を用いて取込まれて処理されてきた。このような取込みおよび処理を実行することが可能な方法およびシステムは、当該技術では周知であり、これら方法およびシステムが採用されるタスクによく適応している。
しかしながら、日々の活動、計算、および仕事をモバイル装置を用いて行なうことが増している時代においては、スマートフォン、デジタルカメラ、タブレットコンピュータ等のモバイルプラットフォームに導入して使用するための、同様の文書取込みおよび処理システムを提供することが、非常に有益であろう。
従来、デジタル画像は、ほぼ無限の多様なアプリケーションの貴重なデータリソースである。ビジネスとの関連では、典型的には文書および/または関連する画像データ(保険給付支払請求、車両登録、売買証書等のデジタル画像に付随する車両のデジタル画像など)に示される情報の伝達および処理のために、デジタル画像が広範囲にわたって使用されてきた。ますます高性能化しているモバイル装置は、デジタル画像処理をモバイルの領域に拡張する機会を提供し、かつ、モバイル技術を用いてリアルタイムでデジタル画像データを取込んで処理する改良された能力を提供する。
既存のモバイル装置および非モバイル装置で使用される従来のデータ抽出方法は、典型的には専門家のユーザによって作成および/または管理されるオブジェクトテンプレートに依拠して、抽出エンジンに情報を与え、このエンジンに抽出の情報がどこにあるか指示する。文書という特定のケースにおいては、従来の抽出技術は、文書の1つ以上の(典型的には矩形)領域の位置が与えられその領域に対して光学式文字認識(OCR)を実行するよう指示され、判定した文字を別のプロセスまたはファイルに出力する。
従来の抽出エンジンおよび方法は、テンプレートが予め定められているオブジェクトから情報を確実に抽出することはできるが、テンプレートが存在しないオブジェクトから情報を動的に抽出することは不可能である。このことは、現代社会で遭遇する、多様化している文書配列に対してユーザが高性能の抽出技術を使用することを制限する、望ましくない制約である。
さらに、従来の抽出エンジンでは、オブジェクトクラスの発展に伴いテンプレートを規定しテンプレート規定を維持するための広範な入力が専門の管理者からなされることが必要である。このため、テンプレートに基づく抽出の性能は、適切にテンプレートを規定する管理者の能力と、どの情報が抽出するに「値する」かという管理者の判断との、一次関数である。したがって、専門の管理者は、抽出の正確さおよび精度ならびにデータの抽出元となり得るオブジェクトの範囲という点で、データ抽出のロバストネスにとって望ましくない障害である。
またさらに、従来の抽出方法は、主としてまたは全面的に画像データからのテキスト文字抽出をOCR技術に頼っている。OCRエンジンは、テキスト文字の識別に関する推定を行なうことを強いられ、そのため、必然的に、画質が悪いとき、文字が予め規定された一組の「既知の」文字と一致しないとき、文字の外観が曖昧でOCRエンジンが複数の候補文字間の区別を確実に行なうことができないとき(たとえばピリオド「.」とカンマ「,」、または文字「l」と数字の「1」)は、文字を間違って報告することになる。専門の管理者は、これらの問題を、何らかの既知の文字パターンが予測されるときは正しい判断をするようにOCRエンジンを促すことによって緩和することができるが、この緩和でさえ範囲が限定され、最終的には誤りのためにエンドユーザの望ましくない対話が必要になる。
したがって、モバイル装置を用いてデジタル画像データから情報を抽出するための、新たな方法、システム、および/またはコンピュータプログラムプロダクト技術を提供することが、非常に有益であろう。テンプレートに頼らずに情報を抽出できるようにして、専門の管理者の必要性をなくし、かつ、ユーザが抽出モデルを動的に作成および修正して多様で変わりやすいオブジェクトのクラスからデータを抽出できるようにすることが、さらに有益であろう。OCR技術に頼らずにデータを抽出する方法を提供して、予め規定された文字クラスおよび低画質の制約を克服し、ユーザがOCRの誤りを訂正する必要を減じるかまたは排除することが、一層有益であろう。
発明の概要
ある実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識を含まない。
ある実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識を含まない。
別の実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける1つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含み、抽出は光学式文字認識(OCR)を含まない。
他の実施形態において、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能/実行可能であり、プロセッサは、プログラムコードを読取る/実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求め、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出し、データを抽出するように構成されたコンピュータ読取可能なプログラムコードは、光学式文字認識(OCR)を利用するように構成されたコンピュータ読取可能なプログラムコードを含まない。
ここで開示される発明の概念の他の局面および特徴は、本質的に例示であり本開示を制限しないと理解されるべき以下の詳細な説明から明らかになるであろう。
詳細な説明
以下の説明は、本発明の一般的な原理を例示することを目的としてなされ、本明細書においてクレームされる発明の概念を限定することを意図しているのではない。さらに、本明細書に記載の特定の特徴は、可能なさまざまな組合せおよび置換え各々において、記載されている他の特徴と組み合わせて使用することができる。
以下の説明は、本発明の一般的な原理を例示することを目的としてなされ、本明細書においてクレームされる発明の概念を限定することを意図しているのではない。さらに、本明細書に記載の特定の特徴は、可能なさまざまな組合せおよび置換え各々において、記載されている他の特徴と組み合わせて使用することができる。
本明細書において特に指定しない限り、すべての用語は、明細書において示される意味および当業者によって理解されるおよび/または辞書、論文等において定義される意味を含む、可能な最も広い解釈が与えられるべきものである。
また、本明細書およびそれに続く請求項において使用される単数形「a」、「an」および「the」は、特に指定しない限り複数のものを含むことに注意しなければならない。
本願は、カメラ、特にモバイル装置のカメラによって取込まれた画像(たとえば絵、数字、図形、映画、動画、フィルム、クリップの1コマ等)の画像処理に関する。本明細書では、モバイル装置が、物理的な接続(たとえばワイヤ、コード、ケーブル等)を介した電力供給なしでデータを受信することが可能で、かつ、物理的なデータ接続(たとえばワイヤ、コード、ケーブル等)なしでデータを受信することが可能な任意の装置であることが理解される。本開示の範囲に含まれるモバイル装置は、携帯電話、スマートフォン、タブレット、携帯情報端末、iPod(登録商標)、iPad(登録商標)、BLACKBERRY(登録商標)装置等の代表的な装置を含む。
しかしながら、さまざまな機能の説明から明らかになるように、ここで開示されているモバイル画像処理アルゴリズムは、時には何らかの修正が施されて、スキャナおよび多機能周辺装置(MFP)からの画像に適用することができる。同様に、いくつかのアプローチでは、ここで開示されている処理アルゴリズムを用いて処理された画像を、従来のスキャナ処理アルゴリズムを用いてさらに処理してもよい。
当然、本明細書において今まで述べてきたさまざまな実施形態は、ハードウェア、ソフトウェア、またはその所望の組合せを用いて実現し得る。そのために、本明細書に記載のさまざまな機能を実現することが可能な何らかの種類のロジックを使用してもよい。
モバイル装置の使用における1つの利点は、データプランを用いて、取込まれた画像に基づく画像処理および情報処理を、スキャナの存在に頼る以前の方法よりも、一層便利で能率的で統合されたやり方で、行なうことができる点である。しかしながら、モバイル装置を文書取込みおよび/または処理装置として使用することは、さまざまな理由から今までは不可能であると考えられてきた。
あるアプローチでは、画像をモバイル装置のカメラによって取込んでもよい。「カメラ」という用語は、一枚の紙等の装置の外部にある物理的なオブジェクトの画像を取込むことができるいずれの種類の装置も含むものとして広く解釈されねばならない。「カメラ」という用語は、周辺装置としてのスキャナまたは多機能装置は包含しない。どのような種類のカメラを使用してもよい。好ましい実施形態は、解像度が高い、たとえば8MP以上、理想的には12MP以上のカメラを使用することがある。画像の取込みは、カラーでも、無彩色でも、白黒でも、またはそれ以外の光学効果を伴っていてもよい。本明細書に記載の「画像」という用語は、生のデータ、処理済みのデータ等を含む、カメラの出力に相当するどの種類のデータも包含することを意図している。
本発明の局面はシステム、方法、またはコンピュータプログラムプロダクトとして実現し得ることが当業者に理解されるであろう。したがって、本発明の局面は、全体がハードウェアである実施形態、全体がソフトウェアである実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、または、本明細書において一般的に「ロジック」、「回路」、「モジュール」または「システム」と呼ぶことがあるソフトウェアの側面とハードウェアの側面を組み合わせた実施形態の形態を取り得る。さらに、本発明の局面は、コンピュータ読取可能なプログラムコードが組込まれた1つ以上のコンピュータ読取可能な媒体において実現されるコンピュータプログラムプロダクトの形態を取り得る。
1つ以上のコンピュータ読取可能な媒体を組み合わせたものを使用してもよい。コンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体であってもコンピュータ読取可能な記録媒体であってもよい。コンピュータ読取可能な記録媒体は、たとえば、電子、磁気、光、電磁、赤外線、または半導体システム、装置、またはデバイスであってもよく、これらを適切に組み合わせたものであってもよいが、これらに限定される訳ではない。コンピュータ読取可能な記録媒体のより具体的な例(非網羅的なリスト)は以下のものを含むであろう。ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能プログラマブル読取専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読取専用メモリ(CD‐ROM)、光記憶装置、磁気記憶装置、またはこれらを適切に組み合わせたものである。この文書の文脈において、コンピュータ読取可能な記録媒体は、命令実行システム、装置、プロセッサ、またはデバイスによってまたはこれとの関連で使用するためのプログラムを含むまたは格納することが可能な有形媒体であってもよい。
コンピュータ読取可能な信号媒体は、たとえばベースバンドにおける、搬送波の一部として、コンピュータ読取可能なプログラムコードが組込まれた伝搬データ信号を含み得るものであり、一本以上のワイヤを有する電気的接続、光ファイバ等である。このような伝搬信号は、電磁、光、またはこれを適切に組み合わせたものを含むがこれらに限定されないさまざまな形態のうちのいずれかを取り得る。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記録媒体ではなくかつ命令実行システム、装置、またはデバイスによってまたはこれとの関連で使用するためのプログラムを伝達、伝搬、または搬送することが可能なコンピュータ読取可能な媒体であればよい。
コンピュータ読取可能な媒体上で実現されるプログラムコードは、無線、ワイヤライン、光ファイバケーブル、RF等またはこれらを適切に組み合わせたものを含むがこれらに限定されない適切な媒体を用いて送信し得る。
本発明の局面の動作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk(登録商標)、C++等のオブジェクト指向プログラミング言語、および、「C」プログラミング言語等の従来の手続き型プログラミング言語、または同様のプログラミング言語を含む、1つ以上のプログラミング言語を組み合わせたもので記述されてもよい。プログラムコードは、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立ソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部が遠隔コンピュータ上で実行されてもよく、または全体が遠隔コンピュータもしくはサーバ上で実行されてもよい。後者のシナリオの場合、遠隔コンピュータは、ユーザのコンピュータに、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む何らかの種類のネットワークを通して接続されてもよく、または、この接続が外部コンピュータに対して(たとえばインターネットサーバプロバイダを用いてインターネットを通して)なされてもよい。
以下、本発明の局面を、本発明の実施形態に従う方法、装置(システム)およびコンピュータプログラムプロダクトのフローチャートの図および/またはブロック図を参照しながら説明する。フローチャートの図および/またはブロック図の各ブロック、および、フローチャートの図および/またはブロック図のブロックを組み合わせたものは、コンピュータプログラム命令によって実現可能であることが理解されるであろう。これらコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または、他のプログラム可能なデータ処理装置のプロセッサに与えられてマシンを構成し、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよびブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現するための手段を作成してもよい。
これらコンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置に特定のやり方で機能するよう指示することが可能な、コンピュータ読取可能な媒体に格納されたものであってもよく、それにより、コンピュータ読取可能な媒体に格納された命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する命令を含む製品を構成するようにしてもよい。
コンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置にロードされて、一連の動作ステップをこのコンピュータ、他のプログラム可能な装置、または他の装置上で実行させることにより、コンピュータによって実現されるプロセスを生成してもよく、それにより、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現するためのプロセスを提供するようにしてもよい。
図面におけるフローチャートおよびブロック図は、本発明のさまざまな実施形態に従うシステム、方法、およびコンピュータプログラムプロダクトの可能な実装例のアーキテクチャ、機能、および動作を示す。この点に関し、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための1つ以上の実行可能命令を含むモジュール、セグメント、またはコードの一部を表わし得る。なお、いくつかの代替実装例においては、ブロックに示される機能が、図面に示される順序と異なる順序で発生してもよい。たとえば、関係する機能に応じて、連続して示されている2つのブロックが実際はほぼ同時に実行されてもよく、または、これらのブロックが逆の順序で実行されることがあってもよい。また、ブロック図および/またはフローチャートの図の各ブロック、および、ブロック図および/またはフローチャートの図におけるブロックを組み合わせたものは、指定された機能もしくは動作、または、専用ハードウェアおよびコンピュータ命令を組み合わせたものを実行する専用ハードウェアに基づいたシステムによって実現することができる。
図1は、ある実施形態に従うアーキテクチャ100を示す。図1に示されるように、第1の遠隔ネットワーク104および第2の遠隔ネットワーク106を含む複数の遠隔ネットワーク102が与えられている。ゲートウェイ101は、遠隔ネットワーク102と近接ネットワーク108との間に接続されていてもよい。このアーキテクチャ100に関して、ネットワーク104、106は各々、インターネット、公衆電話交換網(PSTN)、内部電話網等のLAN、WANを含むがこれに限定されない形態を取り得る。
使用時、ゲートウェイ101は、遠隔ネットワーク102から近接ネットワーク108への入口のポイントとして機能する。このため、ゲートウェイ101は、ゲートウェイ101に到達した所与のデータパケットを導くことができるルータとして、および、所与のパケットに対してゲートウェイ101に出入りする実際の経路を与えるスイッチとして機能し得る。
ゲートウェイ101を介して遠隔ネットワーク102からアクセスすることが可能な、近接ネットワーク108に接続された少なくとも1つのデータサーバ114がさらに含まれる。なお、データサーバ114は、いずれかの種類の計算装置/グループウェアを含み得る。各データサーバ114に接続されているのは複数のユーザ装置116である。このようなユーザ装置116は、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、プリンタ、またはその他の種類のロジックを含み得る。なお、ある実施形態において、ユーザ装置111もネットワークのいずれかに直接接続されていてもよい。
1つの周辺装置120または一連の周辺装置120、たとえば、ファクシミリ機、プリンタ、ネットワークされたおよび/またはローカル記憶ユニットまたはシステム等が、ネットワーク104、106、108のうちの1つ以上に接続されてもよい。なお、データベースおよび/またはその他構成要素が、ネットワーク104、106、108に接続された何らかの種類のネットワーク要素とともに使用されてもよく、またはこれに組込まれてもよい。本明細書の文脈において、ネットワーク要素は、ネットワークのいずれかの構成要素を意味し得る。
いくつかのアプローチに従うと、本明細書に記載の方法およびシステムは、仮想システム、および/または1つ以上の他のシステムをエミュレートするシステム、たとえばIBMのz/OS環境をエミュレートするUNIX(登録商標)システム、MICROSOFT WINDOWS(登録商標)環境を事実上ホストするUNIXシステム、IBMのz/OS環境をエミュレートするMICROSOFT WINDOWSシステム等とともに実現されてもよく、および/またはそのシステム上で実現されてもよい。この仮想化および/またはエミュレートは、いくつかの実施形態ではVMWAREのソフトウェアの使用を通して向上させてもよい。
さらに多くのアプローチにおいて、1つ以上のネットワーク104、106、108は、一般的に「クラウド」と呼ばれているシステムのクラスタを表わしていてもよい。クラウドコンピューティングでは、処理能力、周辺機器、ソフトウェア、データ、サーバ等の共有リソースが、クラウド内のシステムに、オンデマンドの関係で与えられることにより、多数の計算システム全体におけるアクセスおよびサービスの分配が行なえるようにしている。クラウドコンピューティングは、典型的にはクラウド内で動作するシステム間のインターネット接続を必要とするが、システムの他の接続技術を使用してもよい。
図2は、ある実施形態に従う、図1のユーザ装置116および/またはサーバ114に関連する代表的なハードウェア環境を示す。この図は、システムバス212を介して相互に接続されたマイクロプロセッサ等の中央処理装置210およびそれ以外の多数の装置を有するワークステーションの典型的なハードウェア構成を示す。
図2に示されるワークステーションは、ランダムアクセスメモリ(RAM)214と、読取専用メモリ(ROM)216と、ディスク記憶ユニット220等の周辺装置をバス212に接続するためのI/Oアダプタ218と、キーボード224、マウス226、スピーカ228、マイク232、および/またはタッチスクリーンおよびデジタルカメラ(図示せず)等の他のユーザインターフェイス装置をバス212に接続するためのユーザインターフェイスアダプタ222と、ワークステーションを通信ネットワーク235(たとえばデータ処理ネットワーク)に接続するための通信アダプタ234と、バス212をディスプレイ装置238に接続するためのディスプレイアダプタ236とを含む。
ワークステーションには、Microsoft Windows(登録商標)のオペレーティングシステム(OS)、MACのOS、UNIXのOS等のオペレーティングシステムが常駐していてもよい。好ましい実施形態は、上記のもの以外プラットフォームおよびオペレーティングシステム上でも実現し得ることが理解されるであろう。好ましい実施形態は、オブジェクト指向プログラミング技法とともに、JAVA、XML、C、および/またはC++言語、またはその他のプログラム言語を用いて記述されてもよい。複雑なアプリケーションの開発のために使用されることが増えているオブジェクト指向プログラミング(OOP)を用いてもよい。
アプリケーションがモバイル装置にインストールされてもよい、たとえば、装置の不揮発性メモリに格納されてもよい。あるアプローチにおいて、アプリケーションは、モバイル装置上で画像処理を実行させる命令を含む。別のアプローチにおいて、アプリケーションは、ネットワークサーバ等の遠隔サーバへ画像を送信させる命令を含む。さらに他のアプローチにおいて、アプリケーションは、モバイル装置上で処理のうちの一部またはすべてを実行するのか、および/または画像を遠隔サイトに送信するのかを決定させる命令を含み得る。
さまざまな実施形態において、ここに開示されている方法、システムおよび/またはコンピュータプログラムプロダクトは、ページ検出、矩形化、不均一な照明の検出、照明の正規化、解像度の推定、不鮮明検出等の機能を利用し得るおよび/または含み得る。
ページ検出のさまざまな実施形態
次に、ページ検出を実行するための代表的な技法を示す、ある代表的な実施形態について説明する。
次に、ページ検出を実行するための代表的な技法を示す、ある代表的な実施形態について説明する。
あるアプローチでは、エッジ検出アルゴリズムが、デジタル画像の境界からこの画像の中心領域に向かって実行され、背景のプロパティに関してわかっているものと十分に異なるポイントを探す。
特に、画像内の背景は、同じモバイル装置によって取込まれても、毎回異なることがあるので、画像内の文書を識別する新たな技術を提供する。
本開示に従いカメラによって取込まれた画像の中のページエッジを発見することは、たとえばスキャナではなくモバイル装置を用いて取込まれた画像のプロパティの重要な相違に対処するのに役立つ。たとえば、射影効果が原因で、写真の中の矩形文書の画像は正確な矩形に見えない場合があり、画像内の文書の対向する辺は同一の長さでないことがある。第2に、最高のレンズであっても何らかの非線形性はあり、結果として、オブジェクト内の直線、たとえば実質的に矩形の文書の直線の辺が、取込まれたこのオブジェクトの画像ではわずかに曲がって見える。第3に、カメラを用いて取込まれた画像は、不均一な照明の効果を取込まれた画像に導入する傾向が非常に強い。照明が不均一である場合、文書を置くことができる面の背景は、完全に均一的であっても、画像の中では明るさに変動があるように見え、特にページが完全に平坦でない場合はページのエッジ周辺に影が出ることが多い。
代表的なアプローチでは、背景の中のこの変動をページエッジと間違えることを避けるために、現在のアルゴリズムは以下の機能のうちの1つ以上を利用する。
さまざまな実施形態において、画像のフレームは、周囲の背景を余白とする文書のデジタル表現を含む。好ましい実装例において、個々のページエッジの探索を、画像の行と列を外側から中に向かって解析するステップオーバーという手法で行なってもよい。ある実施形態では、このステップオーバー手法により、デジタル画像内に複数の解析ウィンドウを定めてもよい。本明細書で理解される解析ウィンドウは、1つ以上の「背景ウィンドウ」、すなわちデジタル画像の背景を描く画素のみを含むウィンドウと、1つ以上の「テストウィンドウ」、すなわちデジタル画像の背景、文書のデジタル表現、またはこれら双方を描く画素を含むウィンドウとを含み得る。
好ましい実施形態において、デジタル画像内の、文書のデジタル表現を、文書が置かれている表面の背景に対応する画像の余白の中に、第1の解析ウィンドウ、すなわち背景解析ウィンドウを定めることにより、検出してもよい。第1の解析ウィンドウの中では、複数の小さな解析ウィンドウ(たとえばテストウィンドウ)を第1の解析ウィンドウ内に定めてもよい。複数のテストウィンドウを用いて、背景を描写する1つ以上の統計的プロパティの1つ以上の分布を推定してもよい。
直前に述べた好ましい実施形態を引続き参照して、文書のデジタル表現の境界の検出における次のステップは、デジタル画像内の複数のテストウィンドウを定めることと、このデジタル画像の対応する領域を解析することとを含み得る。テストウィンドウごとに、画像の対応する領域を描写する1つ以上の統計値を計算してもよい。さらに、これら統計値を、背景を描写する統計値の対応する分布と比較してもよい。
好ましいアプローチにおいて、複数のテストウィンドウは、経路、特に直線経路に沿って定めてもよい。特に好ましいアプローチにおいて、複数のテストウィンドウは、たとえばデジタル画像の行と列に沿って、水平方向および/または垂直方向において定めてもよい。加えて、1ステップずつ進めることを採用することにより、テストウィンドウを、経路に沿って定め、および/または、行の間および/または列の間で定めてもよい。いくつかの実施形態において、1ステップずつ進めることを利用することで、文書検出プロセスの計算効率を有利に高め得ることは、当業者が本明細書を読めばわかるであろう。
加えて、最初の1ステップの大きさは、いくつかの実施形態では画像の解像度または画素サイズに基づいて推定してもよいが、このステップは、以下でさらに説明するように、文書の辺の確実な検出に有利であれば小さくしてもよい。
他の実施形態では、このアルゴリズムは、文書を囲む背景内に位置する大きな解析ウィンドウ内で発見された画像プロパティを描写するいくつかの統計値の分布を推定する。あるアプローチでは、複数の小さなウィンドウをこの大きな解析ウィンドウの中に定めてもよく、この小さなテストウィンドウを描写する統計値の分布を推定してもよい。ある実施形態において、大きな解析ウィンドウを、画像の左上の角等の、デジタル画像の背景領域内に定めてもよい。
背景画素を描写する統計値は、最小値、最大値、中央値、平均値、値の広がりすなわち範囲、分散、標準偏差等の、デジタル画像データから生成することができる何らかの統計値を含み得る。このことは、当業者が本明細書を読めばわかるであろう。たとえば赤‐緑‐青すなわちRGB、シアン‐マゼンタ、黄色、黒すなわちCMYK、色相、彩度、明度すなわちHSV等の、1つ以上の色チャネル内の明度の値といったデジタル画像を描写するデータから、値をサンプリングしてもよい。このことは、当業者が本明細書を読めばわかるであろう。
小さな解析ウィンドウは各々、大きな解析ウィンドウ内の複数の画素のサブセットを含み得る。加えて、小さな解析ウィンドウは、大きな解析ウィンドウの境界内に収まることができるのであればどのような大きさおよび/または形状であってもよい。好ましい実施形態において、小さな解析ウィンドウは、矩形形状を特徴としてもよく、さらに好ましくは、第1の方向(たとえば高さ)は3画素の長さで第2の方向(たとえば幅)は7画素の長さであることを特徴とする矩形を特徴としてもよい。当然ながら、これ以外の小さな解析ウィンドウのサイズ、形状、および寸法も今回開示される処理アルゴリズムの実現に適する。
ある実施形態において、テストウィンドウを用いて画像を解析しこの画像内に描かれた文書のデジタル表現の境界を検出してもよい。背景ウィンドウは、背景の元の統計的プロパティの推定および/または背景の局所統計的プロパティの再推定に使用される。再推定は、不均一な照明および/または背景のテクスチャのばらつき等のアーティファクトに対処するために必要および/または有利であろう。
好ましくは、いくつかのアプローチにおいて、統計的推定を、文書ページの外側の余白内の大きな解析ウィンドウの中にある複数の小さな解析ウィンドウのうちのいくつかまたはすべてに対して行なってもよい。このような推定は、大きな解析ウィンドウ内の小さな解析ウィンドウを1ステップずつ移動させることを利用して行なってもよく、1ステップずつの移動は、所与の1画素に対して取るサンプル数を変えるために適切に増分して行なってもよい。たとえば、計算効率を高めるために、解析プロセスにより、各画素が一回サンプリングされることを保証するのに十分な数の小さな解析ウィンドウを大きな解析ウィンドウの中に定めてもよい。よって、この計算上効率的なアプローチにおいて定められる複数の小さな解析ウィンドウは、境界を共有するが重なり合わない。
統計的推定のロバスト性を高めるために設計された別のアプローチでは、解析プロセスにより、たとえば連続して定められている小さな解析ウィンドウ間で所与の方向に1つの画素シフトのみが生じるように1ステップを小さくすることによって、各画素が最大回数サンプリングされることを保証するのに十分な数の小さな解析ウィンドウを大きな解析ウィンドウの中に定めてもよい。当然ながら、ここで開示されている処理アルゴリズムのさまざまな実施形態において1ステップのどのような増分量を用いてもよい。このことは当業者が本明細書を読めばわかるであろう。
デジタル画像内の局所的背景の統計値を再推定するのに使用される大きな解析ウィンドウと、テストウィンドウは、所望の方法でデジタル画像内に配置すればよい。
たとえば、ある実施形態に従うと、所与の行iにおける左側のエッジの探索は、所与の行iを中心とする画像の左辺上のフレーム境界に隣接する大きな解析ウィンドウ内の上記統計値の計算から始まる。
さらに他の実施形態では、このアルゴリズムが画像の外側領域からその内側領域に向かって進むときに存在し得る背景ではないテストウィンドウ(たとえば、推定統計値が最後にわかった局所的背景の統計的特性の分布と似ていないテストウィンドウ)に遭遇したとき、このアルゴリズムは、いくつかの実施形態では、以前に求めた背景領域に戻り、新たな大きな解析ウィンドウを形成し、小さな解析ウィンドウ内の選択された統計値と大きな解析ウィンドウ内の対応する統計値の局所的分布との差の妥当性を再評価するために、背景統計値の分布を再度推定してもよい。
当業者が本明細書を読めばわかるように、このアルゴリズムは、さまざまなやり方で、画像の外側領域から画像の内側領域に進み得る。たとえば、あるアプローチでは、このアルゴリズムはテストウィンドウを実質的に螺旋パターンで定める。他のアプローチでは、このパターンは、垂直方向または水平方向いずれかに沿い実質的に蛇行していてもよい。さらに他のアプローチでは、このパターンは実質的に屋根板状のパターンであってもよい。このパターンはまた、チェックボードパターン、垂直方向、水平方向、または対角線方向のストライプパターン、同心形状等の、デジタル画像の一部またはすべての上に置かれた「連続マスク」によって定めてもよい。このことは当業者が本明細書を読めばわかるであろう。他の実施形態では、大きな解析ウィンドウおよび/または小さな解析ウィンドウ等の解析ウィンドウを、デジタル画像全体において、何らかの規定された手順に従い、ランダムに、疑似ランダムに、総計的に等のやり方で、定めてもよい。このことは当業者が本明細書を読めばわかるであろう。アルゴリズムは、経路によって既知の背景に戻ることができかつ経路が所望の粒度の画像全体をカバーする限り、所望のやり方で一連のテストウィンドウを続けることができる。
好都合なことに、このようにして統計値を再計算することは、さもなければ画像内の非背景ポイント(たとえば外れた候補エッジポイント)の間違った識別につながり得る、デジタル画像および/または背景に固有の照明ドリフトに対処するのに役立つ。
さらに他の実施形態において、相違が統計的に妥当であるとき、アルゴリズムは、木目、表面上の擦り傷、表面のパターン、小さな影等の、背景のテクスチャの小さなばらつきを再度調べてバイパスするために、その経路にさらに沿って一定の距離ジャンプしてもよい。このことを当業者は本明細書を読めば理解するであろう。
その他のおよび/または代替の実施形態において、潜在的な非背景ポイントが発見された後、このアルゴリズムは、ポイントが影のエッジにあるか否か判断し(特にページのエッジが背景面よりも高い場合の可能性)、実際のページエッジに到達しようとする。このプロセスは、影は通常実際のエッジに向かって濃くなり続いて画像が突然明るくなるという観察に依拠する。
上記ページエッジ検出のためのアプローチが利用されていた理由は、標準的なエッジ検出器がいくつかの理由から不要であり望ましくないものでさえある場合があるからである。第1に、ほとんどの標準エッジ検出器は、時間のかかる作業を必要としており、第2に、このアルゴリズムは、エッジがどれほど細いか、エッジがどの方向に沿っているか等のモニタリングのような他の要件には関係していない。さらに重要なのは、ページエッジを探すことは、必ずしもエッジ検出そのものを伴わない、すなわち、本開示に従うページエッジ検出は、文書境界(たとえばページエッジ)を探索するのではなく背景から文書への移行に関連する画像特性を探索するやり方で行なえばよいことである。たとえば、この移行は、光沢紙内のオフホワイトの明度レベルが平坦になること、すなわち、平均グレーまたはカラーレベルではなくテクスチャの変化を特徴とし得る。
結果として、本質的に格子上の各行および列における最初と最後の非背景画素である候補エッジポイント(たとえば候補エッジポイント)を得ることが可能である。ランダムな外れ値を取除くために(たとえば外れ候補エッジポイント)、かつ、どの候補エッジポイントがページの各辺に対応するか判断するために、あるアプローチでは近傍の候補エッジポイントを解析することが有用である。
ある実施形態において、「ポイント」は、当業者が本明細書を読めばわかるように、画素、画素と画素の間の位置(たとえば2画素×2画素の正方形の中心等のフラクショナル座標を有するポイント)、画素の小さなウィンドウ等の、デジタル画像内のある領域とみなし得る。好ましい実施形態において、候補エッジポイントは、局所的背景を描写する統計値の分布と異なると判断された統計値によって特徴付けられることがわかっているテストウィンドウ(たとえば3画素×7画素のウィンドウ)の中心と関連付けられる。
本明細書においてわかるように、「近傍の」候補エッジポイントまたは「近傍の」画素はそれぞれ、対象ポイントまたは画素(たとえば画素)に近いまたは隣接するポイントまたは画素であるとみなされる。これはたとえば、対象ポイントまたは画素の境界に少なくとも一部沿って位置するポイントまたは画素、対象ポイントまたは画素のしきい値距離内(所与の方向における2、10、64画素以内等、対象ポイントまたは画素から1行以内、対象ポイントまたは画素から1列以内等)に位置するポイントまたは画素等である。これは当業者が本明細書を読めば理解するであろう。好ましいアプローチにおいて、「近傍」ポイントまたは画素は、特定の方向、たとえば水平方向および/または垂直方向に沿って対象ポイントに最も近い候補エッジポイントであってもよい。
各「優良」エッジポイントは、理想的には真隣に少なくとも2つのポイント(両側に1つずつ)があり、これら隣のポイントをつなぐ直線の線分から遠く外れていない。この「優良」エッジポイント、たとえば候補エッジポイントと真隣の少なくとも2つのポイントは、線形回帰に適合していてもよく、その結果が0.95以上の決定係数(R2)によって特徴付けられてもよい。この線分の、デジタル画像の1以上の境界に対する角度は、その相対的な位置とともに、ページの上辺、左辺、右辺、および左辺のいずれにこのエッジポイントが割当てられるかを決める。好ましい実施形態において、候補エッジポイントおよび2つの近傍エッジポイントは、三角形の角それぞれ割当てられてもよい。候補エッジポイントおける三角形の角度が180度に近ければ、この候補エッジポイントは「優良」エッジポイントとみなし得る。候補エッジポイントにおける三角形の角度がしきい値(20度以上等)よりも大きい角度分180度から大きく外れていれば、この候補エッジポイントは一組の「優良」エッジポイントから除外してもよい。この発見的方法(heuristic)の背後にある原理は、マトリクス内の最初と最後の非背景画素の判断におけるランダム誤差をなくしたいという要望に基づいている。これらの画素が同じラインに存在することは起こりにくいので、距離と方向という観点から近傍のものを調べることは、いくつかのアプローチにおいて特に好都合である。
速度のために、格子のマス目の数は、32等の大きな数から始めてもよいが、2分の1にしてエッジポイントの探索を、ページの辺の最小二乗平均(LMS)ベースの等式を求めるのに十分になるまで繰返す(下記参照)。このプロセスが、画像内のすべての行と列を用いた後でも辺を確実に求めることができない場合は、あきらめて画像全体をページとして扱う。
ページの辺の等式は、ある実施形態では下記のように求められる。第1に、アルゴリズムは、最良のLMS直線を、LMS線から短い距離の中にサポートしている残りのエッジすべてが入るまで最悪の外れ値を除外するという手法を用いて、辺各々に適用する。たとえば、文書の特定の境界に沿う複数の候補エッジポイントをつなぐ実質的に真直ぐな線から最大距離にあるポイントを、「最悪」の外れ値と指定してもよい。この手順を反復して繰返すことにより、複数の候補エッジポイントから1つ以上の「最悪」外れ値を指定および/または排除してもよい。いくつかのアプローチにおいて、複数の候補エッジポイントをつなぐ線から候補エッジポイントが外れているであろう距離は、少なくとも一部、デジタル画像のサイズおよび/または解像度に基づく。
この線がこの線の範囲全体に沿って十分にサポートされていない場合、アルゴリズムは、最良の二次多項式(放物線)を、同じ元の候補ポイントに適用しようとしてもよい。最良の放物線を発見することと、最良の直線を発見することとのアルゴリズム的な差は、重要ではなく、直線の方向およびオフセットを決める2つの未知の係数の代わりに、放物線の曲率、方向、およびオフセットを決める3つの係数があるが、ある実施形態では、他の点についてはプロセスは実質的に同一である。
特に候補エッジの範囲の両端により近い場所で、放物線のサポートが直線のサポートよりも強力であれば、結論として、アルゴリズムは、画像内のページの辺のより優れたモデルとして放物線の方が好ましいとみなすはずである。そうでなければ、さまざまなアプローチにおいて線形モデルを採用する。
発見された文書の4辺の交点を、ページの四角形(たとえば以下で詳細に説明する四角形)の角(わずかに湾曲している可能性がある)を発見するために計算してもよい。好ましい実装例では、これらの角を発見するために、3つのケースを考慮する必要がある。すなわち、二本の直線の交点の計算、一本の直線と放物線との交点の計算、および二本の放物線の交点の計算である。
第1のケースでは、(ページの上辺と下辺は大抵の場合水平方向に延びておりページの右辺と左辺は大抵の場合垂直方向に延びているので)解は1つであり、この解によって、対応するページの角の座標が決まる。
第2のケースの、直線と放物線の交点の計算は、少しだけより複雑であり、結果として得られる二次方程式の解は、ゼロ、1つ、または2つである可能性がある。交点がないということは、ページ検出の致命的な問題を示している可能性があり、その結果を不採用にしてもよい。解が1つというのは起こりにくいが、さらに他の問題はない。2つの交点は、選択肢を示し、この場合、フレームの対応する角により近い交点が、より優れた候補であり、実際、この式の他方の解は、画像フレームの座標範囲から非常に大きく離れている可能性がある。
第3のケースの、二本の放物線の計算は、結果として、(原則的に)分析的に解くことができる四次の多項式となる。しかしながら、実際、解を得るのに必要な計算の数は、所望のサブ画素精度をも保証する近似反復アルゴリズムの場合よりも多いかもしれない。
以下、この目的のために使用されるある代表的な手順について、あるアプローチに従う文書のデジタル表現の矩形化を参照しながら詳細に説明する。
結果として得られる、目標四角形(たとえば以下で詳細に説明する四角形)の妥当性には、いくつかの制約がある。すなわち、この四角形は小さすぎる(たとえば画像の総面積の25%等の所望の値の予め定められたしきい値を下回る)ことがないのが好ましく、この四角形の角は、画像のフレームの外側のより遠いところにないことが好ましく(たとえば100画素以内)、角自体、好ましくは、四角形の内側で対角線が交差する状態等で、左上、右上、左下、および右下の角として解釈できることが好ましいはずである。これらの制約が満たされていなければ、ある実施形態において、所与のページ検出結果は採用されないかもしれない。
文書のデジタル表現の、検出された四角形が妥当である、ある代表的な実施形態において、アルゴリズムは目標とする矩形を求めてもよい。目標とする矩形の幅および高さは、四角形の上辺と下辺の平均値および左辺と右辺の平均値にそれぞれ設定してもよい。
ある実施形態において、スキュー補正を実行する場合、目標とする矩形のスキュー角をゼロに設定してページの辺が水平方向と垂直方向になるようにしてもよい。そうでなければ、スキュー角を、水平軸に対する上辺と下辺の角度および垂直軸に対する左辺と右辺の角度の平均に設定してもよい。
同様のやり方で、クロップ補正を実行しない場合は、目標とする矩形の中心を、四角形の4つの角の座標の平均値に一致するように設計してもよい。他の実施形態では、そうでなければ、この中心を、目標とする矩形が最終的に画像フレームの左上に収まるように、計算してもよい。
いくつかのアプローチにおいて、ページ検出結果が何らかの理由で採用されない場合、上記プロセスのいくつかまたはすべてのステップを、ステップの増分をより小さくして繰返し、より多くの候補エッジポイントを取得し、好都合にはより信頼できる結果を得てもよい。最悪のケースのシナリオではステップを最小にしても問題はなくならず、検出されたページを画像フレーム全体に設定して元の画像を手つかずの状態のままにしてもよい。
次に、本明細書に記載の発明のページ検出の実施形態の代表的な実装例を特に参照すると、あるアプローチにおいて、ページ検出はこのような方法を実行することを含む。当業者が本明細書を読めば理解するように、この方法は、本明細書に記載され本開示とともに与えられる図面のうちのいずれかに示される環境を含むいずれの環境でも実施し得る。
ある実施形態において、デジタル画像の背景から文書のデジタル表現への移行部に対応する、複数の候補エッジポイントを定める。
さまざまな実施形態において、動作時に複数の候補エッジポイントを定めることは、以下で述べる動作等の1つ以上の他の動作を含み得る。
ある実施形態に従うと、大きな解析ウィンドウ(たとえば大きな解析ウィンドウ)が、デジタル画像の中に定められる。好ましくは、第1の大きな解析ウィンドウが、デジタル画像背景の複数の画素を示すが非背景(たとえば文書のデジタル表現)は示さない領域の中に定められる。これは、デジタル画像背景の特性を示す情報を、非背景(たとえば、以下でより詳細に説明する背景統計値等の、文書のデジタル表現)の特性を示す情報との比較対象を目的として取得するためである。たとえば、第1の大きな解析ウィンドウをデジタル画像の角(左上の角等)に定めてもよい。当然ながら、第1の大きな解析ウィンドウを、本開示の範囲から逸脱することなく、デジタル画像のどの部分に定めてもよい。
加えて、当業者が本明細書を読めば理解するように、この大きな解析ウィンドウはどのようなサイズであってもよく、および/または適切などのような寸法で特徴付けられてもよいが、好ましい実施形態において、大きな解析ウィンドウは、高さがおよそ40画素で幅がおよそ40画素である。
特に好ましいアプローチにおいて、大きな解析ウィンドウは、デジタル画像の角領域に定めてもよい。たとえば、デジタル画像は、複数の辺を有する文書のデジタル表現と、背景とを含む。上記のように、大きな分析ウィンドウは、複数の背景画素を含むが文書のデジタル表現に対応する画素は含まない領域に定めてもよい。加えて、大きな分析ウィンドウは、いくつかのアプローチではデジタル画像の角に定めてもよい。
ある実施形態に従うと、複数の小さな解析ウィンドウを、大きな解析ウィンドウの中等、デジタル画像の中に定めてもよい。この小さな解析ウィンドウは、1つ以上の他の小さな解析ウィンドウと少なくとも一部重なり合って、1つ以上の重なり合う領域を含むことを特徴としてもよい。好ましいアプローチにおいて、可能なすべての小さな解析ウィンドウが大きな解析ウィンドウの中に定められる。当然ながら、小さな解析ウィンドウは、デジタル画像のいずれか一部分の中に定めてもよく、好ましくは、小さな解析ウィンドウは、小さな解析ウィンドウ各々が1つの中心画素を特徴とするように定めてもよい。
動作時、ある実施形態に従うと、1つ以上の統計値が、1つ以上の小さな解析ウィンドウ(たとえば大きな解析ウィンドウ内の1つ以上の小さな解析ウィンドウ)について計算されて、対応する統計値の1つ以上の分布(たとえば複数の小さな解析ウィンドウ全体における推定された統計値の分布)が推定される。別の実施形態では、統計値の分布を、1つ以上の大きな解析ウィンドウ全体で推定して任意で併合してもよい。
加えて、値は、当業者が本明細書を読めば理解するように、背景明度値、背景色チャネル値、背景テクスチャ値、背景濃淡値、背景コントラスト値、背景鮮明値等の、デジタル画像の背景に関連する特徴を描写するものであればよい。加えて、さらに、統計値は、大きな解析ウィンドウの中の複数の小さなウィンドウ上のデジタル画像背景を描く複数の画素からなる1つ以上の色チャネルにおける最小値、最大値および/または明度値の範囲を、含み得る。
動作時、ある実施形態に従うと、背景統計値の1つ以上の分布が推定される。統計値の分布を推定することにより、たとえば大きな解析ウィンドウの中のデジタル画像の背景のプロパティを特徴付ける記述的分布を得ることができる。
この分布は、好ましくは、小さな解析ウィンドウ各々について計算された背景統計値に対応し、たとえば、明度最小値の分布、明度最大値の分布等を含み得る。当業者が本明細書を読めば理解するように、この分布から、最小明度値の最小値および/または最大値、最小明度値の最小値および/または最大値、明度値の最小および/または最大の広がり、最小色チャネル値の最小値および/または最大値、最大色チャネル値の最小値および/または最大値、色チャネル値の最小および/または最大の広がり等の分布統計記述子を得ることができる。当然ながら、計算された背景統計値(たとえば明度値、色チャネル値、コントラスト値、テクスチャ値、濃淡値、鮮明値等)のうちのいずれかをまとめて分布にし、この分布を描写する何らかの値を、本開示の範囲から逸脱することなく採用してもよい。
動作時、ある実施形態に従うと、解析ウィンドウ等の大きな解析ウィンドウがデジタル画像の中に定められる。
加えて、ウィンドウの形状は、デジタル画像の一部としてウィンドウの境界を陽画的に設定することによって定めてもよく、たとえばデジタル画像にマスクを適用しマスクされていないデジタル画像の領域を解析ウィンドウとして定めることによって陰画的に定めてもよい。加えて、特にデジタル画像にマスクを適用することによって陰画的にウィンドウを定める実施形態では、ウィンドウをパターンに従って定めてもよい。当然ながら、本開示の範囲から逸脱することなく、ウィンドウを定める他のやり方を採用してもよい。
動作時、ある実施形態に従うと、解析ウィンドウに対して1つ以上の統計値を計算する。加えて、好ましい実施形態では、各解析ウィンドウ統計値は、大きな解析ウィンドウついて推定された背景統計値の分布に対応する。たとえば、ある実施形態において、最大明度は、背景明度の最大値の分布に対応し、最小明度は、背景明度の最小値の分布に対応し、明度の広がりは背景明度の広がりの分布に対応する等であり、このことは、当業者が本明細書を読めば理解するであろう。
動作時、ある実施形態に従うと、少なくとも1つの解析ウィンドウ統計値と、対応する背景統計値の分布との間に、統計学的に有意である相違があるか否か判断する。当業者が本明細書を読めば理解するように、統計学的に有意である相違があるか否かの判断は、当業者が本明細書を読めば理解するように、p値、z検定、カイ二乗分布等の周知の統計学的有意性の評価方法または基準を用いて実施すればよい。
動作時、ある実施形態に従うと、画素を表わす値と対応する背景統計値の分布との間に統計的に有意である相違が存在する解析ウィンドウ内の1つ以上のポイント(たとえば中心画素またはポイント)を、候補エッジポイントとして指定する。この指定は、画素に対応するフラグを設定する、画素の座標を格納する、画素座標のアレイを作成する、画素を表わす1つ以上の値(明度、色相、コントラスト等)を変更する、またはそれ以外の適切な手段等の、当該技術では周知の何らかの方法によって行なえばよい。
ある実施形態に従うと、1つ以上の動作を一回以上繰返してもよい。好ましい実施形態において、複数のこのような繰返しを行なってもよく、各繰返しは、デジタル画像の異なる部分に対して行なう。好ましくは、この繰返しを、文書のデジタル表現の各辺が評価されるまで行ってもよい。さまざまなアプローチにおいて、解析ウィンドウを定めると、結果として、1つ以上の境界を共有する複数の解析ウィンドウ、全体または一部が重なり合う複数の解析ウィンドウ、および/または共有する境界がなく重なり合ってもいない複数の解析ウィンドウ等が、得られるであろう。このことは、当業者が本明細書を読めば理解するであろう。
特に好ましい実施形態において、この複数の繰返しは、潜在的な非背景ウィンドウ(たとえば候補エッジポイントを含むウィンドウまたは不均一な照明、背景テクスチャのばらつき等のアーティファクトを含むウィンドウ等)を検出したときに、局所的背景の統計値を再推定することに関連するやり方で行なってもよい。
動作時、ある実施形態に従うと、四角形の四辺を、複数の候補エッジポイントに基づいて定める。好ましくは、四角形の辺は、デジタル画像内の文書のデジタル表現のエッジを含む。四角形の辺を定めることは、いくつかのアプローチにおいて、1以上の最小二乗平均(LMS)近似を実行することを含み得る。
他のアプローチにおいて、四角形の辺を定めることは、1つ以上の外れ候補エッジポイントを識別することと、複数の候補エッジポイントから1つ以上の外れ候補エッジポイントを取除くこととを含み得る。さらに、四角形の辺を定めることは、1つ以上の外れ候補エッジポイントを除外する少なくとも1つの他のLMS近似を実行することを含み得る。
さらに、ある実施形態において、四角形の各辺は、一クラスの関数から選択された等式によって特徴付けられ、少なくとも1つのLMS近似を実行することは、好ましい実装例における二次多項式の最良の係数等の1つ以上の係数を各等式について求めることを含む。これらアプローチに従うと、四角形の辺を定めることは、文書のデジタル表現の各辺が、二次多項式、または二次多項式ではなく線形関数等のより単純な関数のような、所与の一クラスの関数に含まれるか否か判断することを含み得る。
好ましいアプローチにおいて、方法を実行することにより、文書の主要な四辺の周りに四角形を正確に定める一方で、裂け目および/または出っ張り等の文書の主要な四辺から外れている1つ以上の部分を無視してもよい。
ここで開示されている四角形のその他のおよび/または代替の実施形態は、四辺を有することによって特徴付けられてもよく、各辺は上記多項式関数等の1つ以上の等式によって特徴付けられる。たとえば、四角形の辺が2以上の等式によって特徴付けられる実施形態は、1つ以上の辺を複数の線分に分割することを含んでいてもよく、各線分は、上記多項式関数等の等式によって特徴付けられる。
四角形を定めることは、さまざまな実施形態において、代替的におよび/またはさらに、四角形の1つ以上の角を定めることを含み得る。たとえば、四角形の角は、四角形の隣合う辺の1つ以上の交点を計算し、複数の交点が計算された場合は計算された複数の交点から適切な交点を指定することによって定めてもよい。他の実施形態において、角を定めることは、1つ以上の等式を解くことを含み得る。各等式は、N次多項式等の選択されたクラスの関数に属することによって特徴付けられる。このことは当業者が本明細書を読めば理解するであろう。
さまざまな実施形態において、四角形の角は、四角形の二本の湾曲した隣合う辺の交点、二本の実質的に直線の交点、および一本の実質的に直線と一本の実質的に曲線との交点のうちの1つ以上によって定められてもよい。
動作時、ある実施形態に従うと、文書のデジタル表現と四角形とがモバイル装置のディスプレイに出力される。出力は、どのようなやり方で行なわれてもよく、モバイル装置のハードウェアおよび/またはソフトウェアの構成に依存していてもよい。
加えて、出力は、さらなる処理および/または出力とユーザとの対話を簡単にするように、さまざまなアプローチで行ない得る。たとえば、ある実施形態において、たとえば四角形の辺を特定の色、パターン、照明モチーフで表示する、動画として表示する等により、この四角形をデジタル画像の他の特徴から区別するように設計されたやり方で、四角形を表示してもよい。このことは当業者が本明細書を読めば理解するであろう。
さらに、いくつかの実施形態において、四角形と文書のデジタル表現とを出力すると、ユーザは適切なやり方で四角形を手動で調整および/または規定し易くなるであろう。たとえば、ユーザは、モバイル装置のディスプレイと対話することによって、四角形のアスペクト比、形状、エッジの長さ、面積等を維持しながら、四角形を移動させてもよい、すなわち四角形の位置を1以上の方向に動かしてもよい。加えておよび/または代替的に、ユーザはモバイル装置のディスプレイと対話することによって、四角形の角の位置を手動で規定または調整してもよく、たとえば、四角形の角を叩きこの角をデジタル画像内の所望の位置、たとえば文書のデジタル表現の角等にドラッグしてもよい。
ページ検出の理想的な結果の具体的な一例を再び参照すると、デジタル画像内に文書のデジタル表現があり、四角形がこの文書のデジタル表現のエッジを囲んでいる。
いくつかのアプローチにおいて、上記のようなページ検出は、以下で説明するような1つ以上の追加のおよび/または代替の動作を含み得る。
あるアプローチにおいて、方法は、文書のデジタル表現を含む画像データおよびこの文書のデジタル表現に関連する音声データのうちの1つ以上を取込むことをさらに含み得る。取込みは、当業者が本明細書を読めば理解するように、マイク、カメラ、加速度計、センサ等の、モバイル装置に接続された1つ以上の取込み部品を用いて行なってもよい。
別のアプローチにおいて、方法は、新たな大きな解析ウィンドウを定めることと、統計学的に有意である相違が存在すると判断すると、この新たな大きな解析ウィンドウの背景統計値の分布を再推定することとを含み得る。すなわち、本質的には動作を繰返す、および/または文書のエッジに近いポイント等の潜在的な非背景ポイントが識別されたポイントに近いデジタル画像の異なる領域において動作を繰返す。
いくつかの代表的な実施形態において、大きな解析ウィンドウを、1つの行における左端の非背景画素の近くまたはこの画素に配置してもよく、または、1つの行における右端の非背景画素の近くまたはこの画素に配置してもよく、1つの列における上端の非背景画素の近くまたはこの画素に配置してもよく、または、1つの列における下端の非背景画素の近くまたはこの画素に配置してもよい。
このような再推定を含むアプローチはさらに、少なくとも1つの小さな解析ウィンドウ(たとえばテストウィンドウ)の統計値と対応する大きな解析ウィンドウの統計値の再推定された分布との間に統計学的に有意である相違があるか否か判断することを含み得る。このようにして、統計学的に有意である相違が存在するか否かをより信頼性高く判断することが可能であり、したがって、デジタル画像背景から文書のデジタル表現への真の移行と、たとえばデジタル画像内のテクスチャのばらつき、照明の以上、および/またはその他のアーティファクトとを、より明確に区別することが可能である。
加えて、上記の再推定を実行してもしなくても、方法においてデジタル画像内の照明および/またはテクスチャ等のばらつきといった1つ以上のアーティファクトを回避し易くすることができる。このアーティファクトは、デジタル画像背景から文書のデジタル表現への真の移行に対応するものではない。いくつかのアプローチにおいて、アーティファクトの回避は、デジタル画像の1つ以上の領域(たとえばテクスチャ、ばらつき等によって特徴付けられる領域であって真の背景と区別される領域)をバイパスするという形態で行なってもよい。
いくつかのアプローチにおいて、大きな解析ウィンドウについて推定された統計学的分布と、小さな解析ウィンドウについて計算された対応する統計値との間に統計学的に有意である相違があると判断され、小さな解析ウィンドウの近くに新たな大きな解析ウィンドウを定め、この新たな大きな解析ウィンドウについて統計値の分布を再推定し、再推定された統計学的分布と小さな解析ウィンドウについて計算された対応する統計値との間には統計学的に有意な相違はないと判断されたときに、1つ以上の領域をバイパスしてもよい。
他のアプローチにおいて、バイパスを、さらに経路に沿って別の解析ウィンドウを検査し、たとえば統計学的有意性の検定によって示される、検査されたウィンドウの統計値が背景の既知の統計学的プロパティと大きな相違がないという判断がなされたときに、非背景部への移行の探索を再開することによって、行なってもよい。
当業者が本明細書を読めば理解するように、バイパスは、さらに経路に沿って別の解析ウィンドウを検査することによって行なってもよい。
さらに他のアプローチにおいて、ページ検出は、さらにおよび/または代替的に、四角形が1つ以上の品質管理メトリクスを満たすか否か判断することと、四角形が品質管理基準のうちの1つ以上を満たさないと判断されるとこの四角形を採用しないこととを含み得る。加えて、品質管理メトリクスは、LMSサポートメトリクス、最小の四角形の面積のメトリクス、四角形の角の位置のメトリクス、および四角形の対角線の交点の位置のメトリクス等の尺度を含み得る。
実際、四角形がこれらメトリクスのうちの1つ以上を満たすか否かの判断は、方法の実施についての検査の役割を果たす。たとえば、検査は、四角形がデジタル画像全体の面積の少なくともしきい値をカバーするか否か、たとえば、四角形が画像の総面積の少なくとも25%を含むか否かの判断を含み得る。さらに、検査は、四角形の対角線が四角形の境界の内側で交差するか否か判断すること、LMS近似のうちの1つ以上が、そこから得られる統計値のロバストな信頼度を得るのに十分なデータから計算されたか否かを判断すること、すなわち、LMS近似に十分な「サポート」(さまざまなアプローチにおいて少なくとも5つのデータポイント、または、データポイントの総数の少なくとも四分の一から計算された近似等)があるか否か判断すること、および/または(四角形の各辺を特徴付ける等式によって定められる)四角形の角の位置がデジタル画像のエッジのしきい値距離内に存在するか否か判断すること、たとえば、四角形の角が所与の方向においてデジタル画像のエッジから100画素を超える画素離れているか否か判断することを、含み得る。当然ながら、当業者が本明細書を読めば理解するように、これら開示の範囲から逸脱することなく、他のメトリクスおよび/または検査を使用してもよい。
あるアプローチにおいて、品質メトリクスおび/または検査により、最適ではない四角形の定義を不採用にすることを容易にすることができ、さらに、四角形の辺の定義を改善することを容易にすることができる。たとえば、あるアプローチは、複数の候補エッジポイントに基づいて四角形の四辺を定めたがこれは有効な四角形を定めていない、すなわち品質管理メトリクスのうちの1つ以上を満たさないという表示を受けることと、複数の候補エッジポイントを再度定めることとを含む。特に、この実施形態において、複数の候補エッジポイントを再度定めることは、デジタル画像内の、失敗した先の試みでサンプリングしたポイントの数よりも多い数のポイントをサンプリングすることを含む。これは、あるアプローチでは、デジタル画像の行または列のうちの1つ以上に対するステップを減じ、より多くの数の候補エッジポイントを解析するためにアルゴリズムのステップすべてを繰返すことによって、可能であろう。このステップは、垂直方向において減じてもよく、水平方向において減じてもよく、または両方の方向において減じてもよい。当然ながら、候補エッジポイントを再度定めるおよび/またはデジタル画像内のポイントを再度サンプリングするための他の方法を、本開示の範囲から逸脱することなく利用してもよい。
さらに、特に方法を複数回繰返しデジタル画像解析全体において進行のステップを大幅に小さくしても有効な四角形を定められない場合、ページ検出は、デジタル画像全体を文書のデジタル表現として指定することを含み得る。あるアプローチにおいて、デジタル画像全体を文書のデジタル表現として指定することは、画像の角を文書の角として定めること、画像の辺を文書の辺として定めること等を含み得る。このことは、当業者が本明細書を読めばわかるであろう。
本明細書に記載の、四角形の対角線は、この四角形の計算された左上の角と計算された右下の角とを結ぶ第1の直線と、この四角形の計算された右上の角と計算された左下の角とを結ぶ第2の直線によって特徴付けてもよい。
さまざまなアプローチにおいて、上記動作のうちの1つ以上をプロセッサを用いて実行してもよく、プロセッサは、モバイル装置、特に一体化されたカメラを有するモバイル装置の一部であってもよい。
矩形化
この説明は、デジタル画像内の文書のデジタル表現を矩形化することに関し、そのさまざまなアプローチについて以下で詳細に説明する。
この説明は、デジタル画像内の文書のデジタル表現を矩形化することに関し、そのさまざまなアプローチについて以下で詳細に説明する。
ある実施形態において、矩形化アルゴリズムの目的は、四角形(上記ページ検出方法において定義したもの等)を矩形(同様)にスムーズに変換することである。特に、四角形は複数の等式によって特徴付けられ、各等式は、四角形の一辺に対応し、選ばれたクラスの関数から選択される。たとえば、四角形の各辺は、一次多項式、二次多項式、三次多項式等によって特徴付けられてもよく、このことは当業者が本明細書を読めば理解するであろう。
あるアプローチにおいて、四角形の辺は等式によって説明してもよく、好ましい実施形態において、四角形の左辺は二次多項式x=a2*y2+a1*y+a0によって特徴付けられ、四角形の右辺は二次多項式x=b2*y2+b1*y+b0によって特徴付けられ、四角形の上辺は二次多項式y=c2*x2+c1*x+c0によって特徴付けられ、四角形の下辺は二次多項式y=d2*x2+d1*x+d0によって特徴付けられる。
以下に示すページ矩形化アルゴリズムの説明では、四角形の中の、複数の四角形ベースの固有座標対(p,q)の定義を利用する。各固有座標対(p,q)は、左辺と右辺の等式から、上下方向の曲線の係数比におけるすべての対応する係数p〜1−pを組み合わせることによって得られる等式によって特徴付けられる上下方向の曲線と、上辺と下辺の等式から、左右方向の曲線の係数比におけるすべての対応する係数q〜1−qを組み合わせることによって得られる等式によって特徴付けられる左右方向の曲線との交点に対応し、0≦p≦1、0≦q≦1である。
四角形の辺が二次多項式によって特徴付けられる好ましい実施形態において、固有座標pに対応する上下方向の曲線は、等式x=((1−p)*a2+p*b2)*y2+((1−p)*a1+p*b1)*y+((1−p)*a0+p*b0)によって特徴付けられ、固有座標qに対応する左右方向の曲線は、等式y=((1−q)*c2+q*d2)*y2+((1−q)*c1+q*d1)*y+((1−q)*c0+q*d0)によって特徴付けられる。当然ながら、当業者が本明細書を読めば理解するように、他の等式によって上記辺および/または曲線を特徴付けてもよい。
四角形の特殊なケースである矩形の場合、固有座標は特に単純になる。四角形の中で、各固有座標対(p,q)は、矩形の左辺および矩形の右辺各々に平行な線、たとえばp〜1−pの部分において上辺および下辺双方を分割する線と、矩形の上辺および矩形の下辺各々に平行な辺、たとえばq〜1−qの部分において上辺および下辺双方を分割する辺との交点に対応し、0≦p≦1、0≦q≦1である。
下記矩形化アルゴリズムの目的は、矩形化された画像内の各ポイントを、元の画像内の対応するポイントにマッチングし、このマッチングを、四角形の四辺各々を実質的に真直ぐな線に変換する一方で四角形の対向する辺が互いに平行でかつ他方の辺の対に対して垂直になるようにすることである。すなわち、四角形の上辺と下辺は互いに平行になり、四角形の左辺と右辺は互いに平行になりかつ新たな上辺と下辺に対して垂直になる。このように、四角形は、4つの角によって特徴付けられる真の矩形に変換され、各角は、交差して90度の角度を形成する2本の直線を含む。
下記矩形化アルゴリズムの主な意図は、この目的を、第1に、目標とする矩形化画像内の各ポイント(図示せず)の矩形ベースの固有座標(p,q)を計算し、第2に、これらを、元の画像の四角形ベースの固有座標の同じ対(p,q)にマッチングし、第3に、これら固有座標にそれぞれ対応する左右曲線および上下曲線の交点の座標を計算し、最後に、元の画像において発見されたポイントの色またはグレー値をこのポイントに割当てることによって、達成することである。
次に、ある実施形態に従う、ページ矩形化アルゴリズムの第1の反復を表わすものを参照する。デジタル画像内の各ポイントは、ポイントに関連付けられた(上記のような)固有座標に対応する、上下曲線と左右曲線との交点に対応し得る(曲線は、真直ぐな線、曲がった線、たとえば放物線等を含み得るものであり、このことは当業者が本明細書を読めば理解するであろう)。
この説明から明らかになるように、矩形化は、複数のこのような左右方向の線と上下方向の線を定めることを含み得る。
加えて、矩形化は、目標とする矩形ベースの座標を、文書のデジタル表現の四角形ベースの固有座標にマッチングすることを含み得る。
マッチングは、所与の左右曲線と所与の上下曲線との交点を繰返し探索することを含み得る。以下でさらに詳細に説明するあるアプローチに従うと、反復探索は、座標(x0,y0)を有する起点を指定することを含む。起点は、文書のデジタル表現内のどこに位置していてもよいが、好ましくは目標とする矩形の中心または中心近くに位置する。
反復探索は、交差する2つの曲線のうちの一方の上に起点を射影することを含み得る。起点はこれら曲線のうちいずれに射影してもよいが、あるアプローチにおいて、反復探索における第1の探索の前半は、起点を上下曲線上に射影することにより、次の点のx座標(x1)を得ることを含み、この射影の結果を点で表わすとその座標は(x1,y0)である。同様に、いくつかの実施形態において、反復探索の第1の反復の後半は、この点を左右曲線上に射影することにより、次の点のy座標(y1)を得ることを含み、この射影の結果を点で表わすとその座標は(x1,y1)である。
矩形化は、ページ検出で定められた四角形を真の矩形に変換することを含む。ある実施形態に従うと、このプロセスの結果は、ページ矩形化アルゴリズム実行後の出力の図形表現である。
いくつかの実施形態において、以下でさらに詳細に説明する同様の手法を用いてさらに反復を行なってもよい。
デジタル画像内の文書のデジタル表現の1つ以上の空間特性を修正する方法は、本明細書に記載の技術のいずれかを含み得る。当業者が本明細書を読めば理解するように、方法は、図面および本開示の対応する説明において示されおよび/または記載されるものを含む、何らかの適切な環境で実行得る。
ある実施形態において、(上記ページ検出方法で定めたような)四角形を矩形に変換する。特に、四角形は複数の等式によって特徴付けられ、各等式は四角形の一辺に対応し、選ばれたクラスの関数から選択される。たとえば、四角形の各辺は、当業者が本明細書を読めば理解するように、一次多項式、二次多項式、三次多項式等によって特徴付けられてもよい。
ある実施形態において、四角形の辺は等式によって説明してもよく、好ましい実施形態において、四角形の左辺は二次多項式x=a2*y2+a1*y+a0によって特徴付けられ、四角形の右辺は二次多項式x=b2*y2+b1*y+b0によって特徴付けられ、四角形の上辺は二次多項式y=c2*x2+c1*x+c0によって特徴付けられ、四角形の下辺は二次多項式y=d2*x2+d1*x+d0によって特徴付けられる。加えて、上下曲線の等式はx=((1−p)*a2+p*b2)*y2+((1−p)*a1+p*b1)*y+((1−p)*a0+p*b0)であり、左右曲線の等式はy=((1−q)*c2+q*d2)*y2+((1−q)*c1+q*d1)*y+((1−q)*c0+q*d0)である。当然ながら、当業者が本明細書を読めば理解するように、他の等式によって上記辺および/または曲線のいずれかを特徴付けてもよい。
ある実施形態において、曲線は、以下の一般的な形態のうちの1つ以上に適合する代表的な多項式関数によって説明してもよい。
x1=u2*y0 2+u1*y0+u0
y1=v2*x1 2+v1*x1+v0
式中、ui=(1−p)*ai+p*bi、vi=(1−q)*ci+q*diであり、aiは四角形の左辺の等式における係数であり、biは四角形の右辺の等式における係数であり、ciは四角形の上辺の等式における係数であり、diは四角形の下辺の等式における係数であり、pおよびqは曲線に対応する四角形ベースの固有座標である。いくつかのアプローチにおいて、ai、bi、ci、di等の係数は、上記のようなページ検出法等のページ検出を実行する過程で得られる計算、推定、および/または判断から導出されるものであってもよい。
y1=v2*x1 2+v1*x1+v0
式中、ui=(1−p)*ai+p*bi、vi=(1−q)*ci+q*diであり、aiは四角形の左辺の等式における係数であり、biは四角形の右辺の等式における係数であり、ciは四角形の上辺の等式における係数であり、diは四角形の下辺の等式における係数であり、pおよびqは曲線に対応する四角形ベースの固有座標である。いくつかのアプローチにおいて、ai、bi、ci、di等の係数は、上記のようなページ検出法等のページ検出を実行する過程で得られる計算、推定、および/または判断から導出されるものであってもよい。
当然ながら、当業者が本明細書を読めば理解するように、四角形を矩形に変換することは、以下でより詳細に説明するように1以上の加算演算を含み得る。
ある実施形態において、方法は、さらにおよび/または代替的に、四角形の1つ以上の領域を伸張することにより、より矩形に近いものまたは真の矩形にすることを含む。好ましくは、このような伸張は、アーティファクトを矩形に導入しないように十分スムーズなやり方で行なわれる。
いくつかのアプローチにおいて、四角形を矩形に変換することは、矩形の高さ、矩形の幅、矩形のスキュー角、および/または矩形の中心位置を求めることを含み得る。たとえば、このような変換は、目標矩形の幅を、矩形の上辺の幅と下辺の幅の平均として定めること、目標矩形の高さを、矩形の左辺の高さと右辺の高さの平均として定めること、目標矩形の中心を、画像内における矩形の所望の配置に応じて定めること、および、目標矩形のスキューの角度を、たとえば、ユーザからの文書のデジタル表現のスキュー除去要求に応じて定めることを含み得る。
いくつかのアプローチにおいて、この変換は、さらにおよび/または代替的に、元のデジタル画像から矩形化されたデジタル画像を生成し、矩形化されたデジタル画像内の複数のポイント(たとえば目標矩形の内側および外側双方にあるポイント)のp座標およびq座標を求めることを含み得る。矩形の左側に位置する各ポイントはp座標値p<0を有し、矩形の右側に位置する各ポイントはp座標値を有しp>1、矩形の上側に位置する各ポイントはq座標値q<0を有し、矩形の下側に位置する各ポイントはq座標値q>1を有する。
いくつかのアプローチにおいて、この変換は、さらにおよび/または代替的に、元のデジタル画像から矩形化されたデジタル画像を生成し、矩形化されたデジタル画像内の各ポイントの矩形ベースの固有座標の対を求め、矩形ベースの固有座標の各対を、元のデジタル画像内の四角形ベースの固有座標の対応する対にマッチングすることを含み得る。
好ましいアプローチにおいて、矩形ベースの固有座標を四角形ベースの固有座標にマッチングすることは、上下曲線と左右曲線の交点の反復探索を実行することを含み得る。加えて、この反復探索自体、起点(x0、y0)たとえば目標矩形の中心を指定すること、起点(x0,y0)を左右曲線に射影すること、すなわちx1=u2*y0 2+u1*y0+u0、および、次のポイント(x1,y0)を上下曲線に射影すること、すなわちy1=v2*x1 2+v1*x1+v0、を含み、この式においてui=(1−p)*ai+p*biであり、vi=(1−q)*ci+q*diである。その後、この反復探索は(xk,yk)を左右曲線に繰返し射影すること、すなわちxk+1=u2*yk 2+u1*yk+u0、および、(xk+1、yk)を上下曲線に射影すること、すなわちyk+1=v2*xk+1 2+v1*xk+1+v0を含む。
他の実施形態において、矩形ベースの固有座標を四角形ベースの固有座標にマッチングすることは、(xk,yk)と(xk+1,yk+1)との間の距離を求めることと、この距離が予め定められたしきい値未満であるか否か判断することと、この距離が予め定められたしきい値未満であると判断されると反復探索を終了することとを含み得る。
スキュー角の検出および補正のさまざまな実施形態
いくつかの実施形態において、本明細書に記載の画像処理アルゴリズムはさらにおよび/または代替的に、デジタル画像内の文書のデジタル表現のスキュー角を検出および/または補正するように設計された機能を含み得る。ある好ましいアプローチにおけるスキューの補正について以下で説明する。当然ながら、当業者が本明細書を読めば理解するように、デジタル画像内のスキューを補正する他の方法はこれらの開示の範囲に含まれる。
いくつかの実施形態において、本明細書に記載の画像処理アルゴリズムはさらにおよび/または代替的に、デジタル画像内の文書のデジタル表現のスキュー角を検出および/または補正するように設計された機能を含み得る。ある好ましいアプローチにおけるスキューの補正について以下で説明する。当然ながら、当業者が本明細書を読めば理解するように、デジタル画像内のスキューを補正する他の方法はこれらの開示の範囲に含まれる。
デジタル画像内の文書のデジタル表現は、1つ以上のスキュー角αによって特徴付けられてもよい。当業者が本明細書を読めば理解するように、水平スキュー角αは、文書のデジタル表現の、水平方向の線とエッジとの間の角度を表わし、このエッジの長手方向軸は実質的に水平方向である(すなわち文書のデジタル表現の上側のエッジまたは下側のエッジいずれか)。同様に、αは、文書のデジタル表現の、垂直方向の線とエッジとの間の角度を表わしてもよく、このエッジの長手方向軸は実質的に垂直方向である(すなわち文書のデジタル表現の左側のエッジまたは右側のエッジいずれか)。
加えて、文書のデジタル表現を、上側のエッジ、下側のエッジ、右側のエッジ、および左側のエッジによって定めてもよい。これらエッジは各々、実質的に線形方程式によって特徴付けられてもよく、上側のエッジはy=−tan(α)x+dt、下側のエッジはy=−tan(α)x+db、右側のエッジはx=tan(α)y+dr、左側のエッジはx=tan(α)y+dlとなり、式中、dtおよびdbはそれぞれ、文書のデジタル表現の上側のエッジおよび下側のエッジを説明する線形方程式のy切片であり、drおよびdlはそれぞれ、文書のデジタル表現の右側のエッジおよび左側のエッジを説明する線形方程式のx切片である。
あるアプローチにおいて、文書、たとえば矩形文書のデジタル表現の各辺を説明する線形方程式を定義したが、そのスキュー角を、α=0と設定することにより補正して、上側のエッジではy=dt、下側のエッジではy=db、右側のエッジではx=dr、および左側のエッジではx=dlとなるようにしてもよい。
照明の問題の検出のさまざまな実施形態
さらに他の実施形態において、ここで説明する画像処理アルゴリズムは、文書のデジタル表現が1つ以上の照明の問題を含むか否か検出することに関する特徴を含み得る。
さらに他の実施形態において、ここで説明する画像処理アルゴリズムは、文書のデジタル表現が1つ以上の照明の問題を含むか否か検出することに関する特徴を含み得る。
たとえば、照明の問題は、周囲のおよび/または与えられた照明が不十分な設定で取込まれた画像の特徴のように、画像の背景内において画素ごとに明度の値が大きく異なるときの、デジタル画像の局所的な不飽和領域、および、フラッシュの反射の中の場合のように、画像内のいくつかの領域が褪せているときの、デジタル画像の局所的な過飽和領域を含み得る。
ある実施形態に従い、文書のデジタル表現を含むデジタル画像における照明の問題を検出するためのある代表的なアプローチについて以下で説明する。これは、文書のデジタル表現内に照明の問題が存在するか否か判断する方法を示す。当業者が本明細書を読めば理解するように、方法は、本明細書で説明され添付のさまざまな図面に示されるもののような何らかの適切な環境の中で実施すればよい。当然ながら、当業者が本明細書を読めば理解するように、本開示の範囲に含まれる他の環境も動作方法に適しているであろう。
ある実施形態において、プロセスは(好ましくはモバイル装置のプロセッサを用いて)文書のデジタル表現を含む四角形を複数の区画に分割することを含み、各区画は複数の画素を含む。
他のアプローチにおいて、各区画の明度値の分布を求める。当業者が理解するように、明度値の分布は、周知のやり方でコンパイルおよび/またはアセンブルしてもよく、ガウス分布、2モード分布、歪曲分布等の周知の標準分布モデルに適合させてもよい。
さらに他のアプローチにおいて、各区画の明度値の範囲を求める。当業者が理解するように、範囲は、所与の分布内の最大値と最小値の差であると定義される。ここでは、明度値の範囲を、所与の区画内の特性最大明度値と同じ区画内の特性最小明度値との差であると定義する。たとえば、これら特性値はそれぞれ、全体分布の2番目の百分位数および98番目の百分位数に相当し得る。
多くのアプローチにおいて、各区画の明度値のばらつきを求める。
さまざまなアプローチにおいて、各区画が過飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が過飽和か否か判断することを含み得る。各区画が過飽和か否か判断することは、区画ごとに区画過飽和率を求めることを含み得る。特に、好ましい実施形態において、各区画過飽和率は、この区画内の最大明度値を示す画素の数を、この区画内の画素の総数で割ったものとして定義される。
さまざまなアプローチにおいて、各区画が過飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が過飽和か否か判断することを含み得る。各区画が過飽和か否か判断することは、区画ごとに区画過飽和率を求めることを含み得る。特に、好ましい実施形態において、各区画過飽和率は、この区画内の最大明度値を示す画素の数を、この区画内の画素の総数で割ったものとして定義される。
不均一に照明された画像は、デジタル画像の対応する画素、ポイント、または領域の明度レベルが画像または文書の他の領域よりも低くおよび/または画像または文書の平均明度レベルよりも低い領域のより密度が高いであろう複数のダークスポットを示すまたはこれによって特徴付けられてもよい。いくつかの実施形態において、不均一な照明は、明度の勾配によって特徴付けられてもよく、たとえば、画像(近傍領域)の右上角から画像(近傍領域)の左下角への勾配であり、明度はこの勾配に沿って低下しており、画像(近傍領域)の右上角は比較的明るい領域、画像(近傍領域)の左下角は比較的暗い領域である。
いくつかのアプローチにおいて、各区画が過飽和であるか否か判断することはさらに、区画ごとに、この区画の過飽和レベルが予め定められたしきい値、たとえば10%よりも高いか否か判断することと、この区画の飽和レベルが予め定められたしきい値を超えていると判断されるとこの区画を過飽和であると特徴付けることとを含み得る。ここで説明する実施形態ではしきい値として10%を用いているが、他の予め定められた過飽和しきい値レベルを本明細書の範囲から逸脱することなく用いることができる。特に、正確な値は視覚および専門家の判断の問題であり、さまざまなアプローチにおいてユーザが調整および/または設定してもよい。
他のアプローチにおいて、各区画が不飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が不飽和か否か判断することを含み得る。各区画が不飽和か否か判断することは、各区画の明度値の分布のばらつきの中央値を求めること、各ばらつき中央値が予め定められたばらつきしきい値、たとえば0〜255の整数範囲のうちの18という明度ばらつき中央値、よりも大きいか否か判断すること、および、区画ごとにその区画のばらつき中央値が予め定められたばらつき中央値よりも大きいと判断されるとその区画は不飽和であると判断すること等の、他の動作を含み得る。特に、正確な値は視覚および専門家の判断の問題であり、さまざまなアプローチにおいてユーザが調整および/または設定してもよい。
ある具体的なアプローチにおいて、区画のばらつきを求めることは、複数の画素のうちのターゲット画素の明度値を求めることと、ターゲット画素の明度値と近傍の1つ以上の画素の明度値との差を計算することとを含み得るものであり、この近傍画素は各々ターゲット画素から1画素以上(たとえば2画素)離れており、さらに、この明度値を求めることと計算することを、複数の画素のうちの各画素に対して行なうことにより各ターゲット画素のばらつきを得ることと、ターゲット画素ばらつき値の分布を生成することとを含み、各ターゲット画素明度値およびターゲット画素バラツキ値は0〜255の範囲に含まれる整数である。このアプローチは、たとえば、0〜255の範囲のすべての可能なばらつき値のアレイにおける対応するカウンタを増分してばらつき値のヒストグラムをたとえば生成することによって実現してもよい。
特に、特定の区画のばらつきを求めるときに近傍画素を使用する場合、近傍画素は、垂直方向、水平方向、またはこれらの方向双方(たとえば対角線方向)に沿って、ターゲット画素から約2画素以内にあってもよい。当然ながら、本発明の範囲から逸脱することなく他の画素近接の境界を用いてもよい。
いくつかのアプローチにおいて、方法はさらに、ターゲット画素ばらつき値の分布から1つ以上のターゲット画素ばらつき値を除外することにより、訂正された分布を生成することと、訂正された分布に基づいて特性背景ばらつきを定めることとを含む。たとえば、ある実施形態において、訂正された分布を生成することおよび特性背景ばらつきを定めることは、カウントされたすべての値のうちの上の35%(または背景から前景への移行に関連する大きな明度変化をカバーするのに十分な他の値)を除外し、分布の残りの値、すなわち文書のデジタル表現の比較的平坦な背景領域から取った値に基づいて特性背景ばらつきを定めることを含み得る。
他のアプローチにおいて、過飽和区画の数を求める。この動作は、たとえば、当業者が本明細書を読めば理解するように、画像の処理中にカウンタをインクリメントすること、各過飽和区画にフラグを設定し処理中のある時点でフラグをカウントすること等、何らかの方法で過飽和区画の総数を求めることを含み得る。
他のアプローチにおいて、不飽和区画の数を求める。この動作は、たとえば、当業者が本明細書を読めば理解するように、画像の処理中にカウンタをインクリメントすること、各不飽和区画にフラグを設定し処理中のある時点でフラグをカウントすること等、何らかの方法で不飽和区画の総数を求めることを含み得る。
他のアプローチにおいて、区画の総数に対する過飽和区画の数の比率が過飽和しきい値を超えたと判断されると、デジタル画像は過飽和であると判断される。このしきい値は、当業者が本明細書を読めば理解するように、ユーザによって定められてもよく、予め定められた値等であってもよい。
他のアプローチにおいて、区画の総数に対する不飽和区画の数の比率が不飽和しきい値を超えたと判断されると、デジタル画像は不飽和であると判断される。このしきい値は、当業者が本明細書を読めば理解するように、ユーザによって定められてもよく、予め定められた値等であってもよい。
他のアプローチにおいて、デジタル画像が不飽和または過飽和であると判断されるとこのデジタル画像には照明の問題があると判断される。
さらに他のアプローチにおいて、方法は、以下で詳細に説明する、1つ以上の他のおよび/または代替の動作を含み得る。
ある実施形態において、方法は、区画ごとに以下の動作を実行することを含み得る。文書の高さを予め定められた数の水平区画に分割することにより区画の高さを定め、文書の幅を予め定められた数の垂直区画に分割することにより区画の幅を定める。好ましいアプローチにおいて、区画の高さおよび幅は、一定数の区画を作成しこれら区画を文書の高さを一定数の水平部分に分割し文書の幅を一定(できれば異なる)数の垂直部分に分割することによってこれら区画をほぼ正方形にする目的に基づいて定められる。
したがって、いくつかの実施形態において、各区画は区画の高さと幅によって特徴付けられ、デジタル画像は画像の幅wと画像の高さhによって特徴付けられ、h>=wであり、区画サイズは区画の幅wsと区画の高さhsによって特徴付けられws=w/m、hs=h/nであり、mおよびnは、wsがhsにほぼ等しくなるように定められる。たとえば、好ましい実施形態においてm>=3、n>=4である。
別のアプローチにおいて、文書のデジタル表現内に照明の問題があるか否か判断する方法は、以下の動作を含み、そのうちのいくつかまたはすべてを、本明細書に記載されおよび/またはここで開示されている図面に示される何らかの環境で実行してもよい。
不均一な照明の補正のさまざまな実施形態
いくつかのアプローチにおいて、デジタル画像内の照明の不均一さの補正は、デジタル画像の全体の明度レベルを正規化することを含む。全体的な明度の正規化は、上記のような明度勾配によって特徴付けられるデジタル画像を、デジタル画像全体の明度の比較的平坦で均一な分布によって特徴付けられるデジタル画像に変換することであってもよい。なお、1つの領域は他の領域よりもダークスポットの分布密度が大幅に高いことによって特徴付けられるが、複数の領域は実質的に同様のダークスポット密度プロファイルによって特徴付けられる。
いくつかのアプローチにおいて、デジタル画像内の照明の不均一さの補正は、デジタル画像の全体の明度レベルを正規化することを含む。全体的な明度の正規化は、上記のような明度勾配によって特徴付けられるデジタル画像を、デジタル画像全体の明度の比較的平坦で均一な分布によって特徴付けられるデジタル画像に変換することであってもよい。なお、1つの領域は他の領域よりもダークスポットの分布密度が大幅に高いことによって特徴付けられるが、複数の領域は実質的に同様のダークスポット密度プロファイルによって特徴付けられる。
本開示に従い、照明の不均一さを補正してもよい。特に、当業者が本明細書を読めば理解するように、他の適切な環境のうち、本明細書に記載されさまざまな図面に示されるものを含む、何らかの適切な環境で使用するための、デジタル画像の1つ以上の領域における不均一な照明を補正する方法が、ここで提供される。
ある実施形態において、方法は、デジタル画像から二次元照明モデルが得られるプロセッサを用いる動作を含む。
ある実施形態において、二次元照明モデルは、デジタル画像内の各画素に適用される。
他のアプローチにおいて、当業者が本明細書を読めば理解するように、デジタル画像を複数の区画に分割してもよく、1区画内の画素のうちの一部またはすべてを、色、たとえば1つ以上の色チャネル内の明度値、中央色相値等に基づいてクラスタ化してもよい。加えて、構成要素の数が最も多いクラスタをいくつか解析することにより、1つ以上の可能な局所的背景の特性を求めてもよい。1つのクラスタをその区画の局所的背景として指定するためには、このクラスタに属する画素の数が、区画の総面積のしきい値割合等の特定の予め定められた値を超えていなければならない。
他のアプローチにおいて、当業者が本明細書を読めば理解するように、デジタル画像を複数の区画に分割してもよく、1区画内の画素のうちの一部またはすべてを、色、たとえば1つ以上の色チャネル内の明度値、中央色相値等に基づいてクラスタ化してもよい。加えて、構成要素の数が最も多いクラスタをいくつか解析することにより、1つ以上の可能な局所的背景の特性を求めてもよい。1つのクラスタをその区画の局所的背景として指定するためには、このクラスタに属する画素の数が、区画の総面積のしきい値割合等の特定の予め定められた値を超えていなければならない。
さまざまなアプローチにおいて、クラスタ化は、当業者が本明細書を読めば理解するように、マルコフ連鎖モンテカルロ法、最近傍結合、期待値最大化等の分布ベースのクラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)等の密度ベースのクラスタリング、ポイント順序付けによるクラスタリング構造の特定(OPTICS)等を含む、周知のいずれかの方法を用いて行なってもよい。
ある実施形態において、方法は、背景クラスタ内の色チャネル値の分布ごとに、対応する区画の主背景の平均色、および、対応する区画の副背景の平均色のうちの1つ以上を、その区画内に一方または双方が存在するのであれば、求めることを含み得る。
ある実施形態において、方法は、区画ごとに、文書のデジタル表現の主な背景の局所的表現として、主背景色または副背景色いずれかを指定することを含み、各局所的表現は、対応する区画の主背景の平均色か、対応する区画の副背景の平均色いずれかによって特徴付けられる。
ある実施形態において、方法は、画像背景の選択された局所的表現の複数の平均色チャネル値を、二次元照明モデルに適合させることを含む。いくつかのアプローチにおいて、二次元照明モデルは、等式v=ax2+bxy+cy2+dx+ey+fによって特徴付けられる二次多項式であり、式中、vは複数の色チャネルのうちの1つの平均色チャネル値であり、a、b、c、d、e、およびfは各々、二次元照明モデルの各未知パラメータであり、各未知パラメータa、b、c、d、e、およびfは、最小二乗平均近似を用いて近似され、xは区画内の中間点の画素のx座標であり、yは区画内の中間点の画素のy座標である。
あるアプローチにおいて、二次元照明モデルの導出は、複数の背景クラスタについて、各背景クラスタの平均色チャネル値を計算することと、各背景クラスタの色相比を計算することと、複数の背景クラスタについて中央色相比を計算することとを含み得る。加えて、この導出はまた、各背景クラスタの色相比を複数のクラスタの中央色相比と比較することと、この比較に基づいて、起こり得るこれら2つの背景のうちより可能性が高いものを文書背景の局所的表現として選択することと、少なくとも1つの二次元照明モデルをこの局所的表現の平均チャネル値に適合させることと、複数の局所的表現について複数の平均主背景色チャネル値を計算することとを含み得る。
このモデルの適用は、予測された1つ以上の背景チャネル値と、平均主背景色チャネル値との差を計算することと、この差の分数をデジタル画像内の画素ごとに1つ以上の色チャネル値に加算することとを含み得る。たとえば、この分数の加算は、この差の0から1までの範囲にある値、たとえば好ましい実施形態ではこの差の3/4を、実際の画素値に加算することを含み得る。
さらに他のアプローチにおいて、方法は、以下で説明するもののような追加のおよび/または代替の動作を含み得る。
たとえば、あるアプローチにおいて、方法はさらに、区画ごとに複数の色クラスタを決定すること、構成要素の数が多い複数の色クラスタを決定すること‐構成要素の数が多い色クラスタは各々、区画内の高頻度の表現に相当する(たとえば色クラスタはこの色クラスタに属する画素数が最も多い区画を有するクラスタのうちの1つ)‐、区画の総面積を求めること、複数の部分区画面積を求めること‐各部分区画面積は、構成要素の数が多い複数の色クラスタのうちの1つによって表わされる面積に対応する‐、各部分区画面積を総面積で割ることにより、構成要素の数が多い色クラスタ各々のクラスタ面積率を求めること(たとえば、構成要素の数が多い色クラスタに属する区画内の画素数を、この区画内の画素の総数で割ることにより、対応する、構成要素の数が最も多い色クラスタが住める、区画の総面積に対する割合を得ること)、および、構成要素の数が多い、各色クラスタを、クラスタ面積率に基づいて背景クラスタか非背景クラスタいずれかに分類することのうちの1つ以上を含む。
特に、好ましいアプローチにおいて、分類動作により、区画内に背景がないこと、区画内に、構成要素の数が最も多い背景が1つあること、または区画内に、構成要素の数が最も多い背景が2つあることを、識別する。加えて、この分類は、背景しきい値よりも大きな数の画素を含むクラスタに属するものを各々背景画素として分類することを含む。いくつかのアプローチにおいて、背景しきい値は0〜100%の範囲の中にある(たとえば、好ましいアプローチでは15%)。背景しきい値は、ユーザによって定められてもよく、予め定められた値でもよい。このことは、当業者が本明細書を読めば理解するであろう。
解像度推定のさまざまな実施形態
ここで開示されている発明の実施形態のさらに他の目的として、モバイル画像処理は、文書のデジタル表現の解像度を推定する方法を含み得る。当然ながら、これら方法は、本明細書に記載の環境およびここで示すさまざまな図面に示される環境を含む、何らかの適切な環境において実施してもよい。加えて、この方法は、本明細書に記載の他の方法との関連で使用してもよく、下記の動作に対する追加のおよび/または代替の動作を含み得る。このことは、当業者が本明細書を読めば理解するであろう。
ここで開示されている発明の実施形態のさらに他の目的として、モバイル画像処理は、文書のデジタル表現の解像度を推定する方法を含み得る。当然ながら、これら方法は、本明細書に記載の環境およびここで示すさまざまな図面に示される環境を含む、何らかの適切な環境において実施してもよい。加えて、この方法は、本明細書に記載の他の方法との関連で使用してもよく、下記の動作に対する追加のおよび/または代替の動作を含み得る。このことは、当業者が本明細書を読めば理解するであろう。
ある実施形態において、デジタル画像内において、複数の非背景要素の、接続された複数の構成要素が検出される。いくつかのアプローチにおいて、このデジタル画像は、複調画像、すなわち色調が2つのみの画像、好ましくは黒白画像として特徴付けられてもよい。
別の実施形態において、複数の接続された構成要素に基づいて複数の同様の文字を決定してもよい。同様の文字は、所与の方向の予め定められた数の明から暗への移行部、たとえば大文字「E」を描くデジタル画像の小領域にあるであろう垂直方向の3つの明から暗への移行部によって特徴付けられる、デジタル画像の領域であってもよく、明から暗への各移行部は、文書の背景(明)から文字「E」の水平方向の字画のうちの1つへの移行に対応する。当然ながら、これ以外の数の明から暗への移行部を採用してもよく、たとえば、文字「o」であれば垂直および/または水平方向の明から暗への移行部が2つあってもよく、文字「l」であれば垂直方向の明から暗への移行部が1つあってもよい。このことは、当業者が本明細書を読めば理解するであろう。
他の実施形態において、1つ以上の平均文字寸法は、同様の複数のテキスト文字に基づいて求めてもよい。本明細書において理解されるように、平均文字寸法は、平均文字幅および平均文字高さのうちの1つ以上を含み得るが、当然ながら、他の適切な文字寸法を用いてもよく、このことは、当業者が本明細書を読めば理解するであろう。
さらに他の実施形態において、デジタル画像の解像度は1つ以上の平均文字寸法に基づいて推定される。
他の実施形態において、方法は、任意でおよび/または代替的に、下記のような1つ以上の他の動作を含む。
たとえば、ある実施形態において、方法は、デジタル画像の推定された解像度に基づいて文書のデジタル表現の1つ以上の寸法を推定すること、文書のデジタル表現の1つ以上の推定された寸法を、複数の既知の文書タイプの1つ以上の既知の寸法と比較すること、この比較に基づいて文書のデジタル表現を複数の既知の文書タイプのうちの1つ以上にマッチングすること、このマッチングが1つ以上の品質管理メトリクスを満たすか否か判断すること、および、このマッチングが1つ以上の品質管理メトリクスを満たすと判断されると、既知の文書タイプの既知の寸法に基づいて文書のデジタル表現の推定された解像度を調整すること、のうちの1つ以上をさらに含む。いくつかのアプローチにおいて、推定された解像度は、文書のデジタル表現が既知の文書タイプのうちの1つに十分にマッチングしていることが見出された場合にのみ、調整されるであろう。
いくつかのアプローチにおいて、上記1つ以上の既知の文書タイプは、レターサイズ文書(8.5×11インチ)、リーガルサイズ文書(8.5×14インチ)、A3文書(11.69×16.54インチ)、A4(ヨーロッパレターサイズ)文書(8.27×11.69インチ)、A5文書(5.83×8.27インチ)、帳簿/タブロイド文書(11×17インチ)、運転免許証(2.125×3.375インチ)、名刺(2×3.5インチ)、個人小切手(2.75×6インチ)、業務用小切手(3×7.25インチ)、業務用小切手(3×8.25インチ)、業務用小切手(2.75×8.5インチ)、業務用小切手(3.5×8.5インチ)、業務用小切手(3.66×8.5インチ)、業務用小切手(4×8.5インチ)、2.25インチ幅の領収書、および、3.125インチ幅の領収書を含む。
さらに他のアプローチにおいて、方法は、1つ以上の接続された構成要素について、接続された構成要素内のオン‐オフ移行の数(当業者が本明細書を読めばわかるように、たとえば文字から文書背景への移行、たとえば黒から白への、白から黒への等の移行)、接続された構成要素内の黒画素密度、接続された構成要素のアスペクト比、および、黒画素密度、オン‐オフ移行の数、およびアスペクト比に基づく、接続された構成要素のうちの1つ以上がテキスト文字を表わす見込み、のうちの1つ以上を計算することを、さらにおよび/または任意で含み得る。
さらに他のアプローチにおいて、方法は、複数のテキスト文字のうちの少なくとも2つの文字高さを求めることと、この少なくとも2つのテキスト文字の各文字高さに基づいて平均文字高さを計算することと、複数のテキスト文字のうちの少なくとも2つの文字幅を求めることと、この少なくとも2つのテキスト文字の各文字幅に基づいて平均文字幅を計算することと、少なくとも1つの比較を実行することとを、さらにおよび/または任意で含み得る。特に、この比較は、平均文字高さを基準平均文字高さと比較することと、平均文字幅を基準平均文字幅と比較することから、選択してもよい。
このようなアプローチにおいて、方法はさらに、この少なくとも1つの比較に基づいてデジタル画像の解像度を推定することを含み得る。この場合、基準平均文字高さおよび基準平均文字幅は各々、1つ以上の基準文字に対応し、各基準文字は、既知の平均文字幅および既知の平均文字高さによって特徴付けられる。
さまざまな実施形態において、各基準文字は、300DPI等の、選択された解像度の1つ以上のビジネス文書の代表的なサンプルをスキャンすることによって得た文字のデジタル表現に対応し、各基準文字はさらに、Arial、Times New Roman、Helvetica、Courier、Courier New、Tahoma等の1つ以上の一般的なフォントに対応する。このことは、当業者が本明細書を読めば理解するであろう。当然ながら、ビジネス文書の代表的なサンプルは、文書内の文字を認識するのに適した画像解像度となるのであれば他の解像度でスキャンしてもよい。いくつかのアプローチにおいて、解像度は、ある実施形態では高さが12画素未満の最小文字等の、最小文字サイズを提供するのに十分でなければならない。当然、当業者は、最小文字高さが、画像の性質に応じて変化し得ることを理解するであろう。たとえば、グレースケール画像を処理するときと、2値(たとえば複調)画像を処理するときとでは、異なる文字高さが必要であろう。他のアプローチでは、文字は、光学式文字認識(OCR)で認識するのに十分大きくなければならない。
さらに他の実施形態において、方法は、文書のデジタル表現の推定された解像度に基づいて文書のデジタル表現の1つ以上の寸法を推定すること、平均文字寸法から平均文字幅を計算すること、平均文字寸法から平均文字高さを計算すること、平均文字幅を平均文字高さと比較すること、この比較に基づいて文書のデジタル表現の向きを推定すること、および、推定された寸法と推定された向きに基づいて、この文書のデジタル表現を、既知の文書タイプとマッチングすることのうちの1つ以上を含む。
代替実施形態において、解像度の推定は逆のやり方で行なってもよい。すなわち、当業者が本明細書を読めば理解するように、文書のデジタル表現を処理することにより、請求書のデジタル表現の支払額、書簡の宛先、書式のパターン、バーコード等の、文書の内容を判断する。判断した内容に基づいて、文書のデジタル表現が1つ以上の既知の文書タイプに相当すると判断してもよく、既知の文書タイプに関する情報を用いて、文書のデジタル表現の解像度を判断および/または推定してもよい。
不鮮明(Blur)検出のさまざまな実施形態
さまざまな実施形態に従い、デジタル画像内の1つ以上の不鮮明領域を検出する方法について説明する。当業者が本明細書を読めば理解し認識するように、方法は、本明細書に記載され添付の複数の図面に示されるもの等の、適切な環境において実施すればよい。さらに、方法は、本明細書に記載の他の方法の他の動作から独立しておよび/またはこの動作と関連して実施してもよく、画像を含むが画像に限定される訳ではない。
さまざまな実施形態に従い、デジタル画像内の1つ以上の不鮮明領域を検出する方法について説明する。当業者が本明細書を読めば理解し認識するように、方法は、本明細書に記載され添付の複数の図面に示されるもの等の、適切な環境において実施すればよい。さらに、方法は、本明細書に記載の他の方法の他の動作から独立しておよび/またはこの動作と関連して実施してもよく、画像を含むが画像に限定される訳ではない。
ある実施形態において、方法は、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数の区画に分割する場合に、プロセッサを使用する動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第1の方向において1つ以上の鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第1の方向の鮮明な画素間の移行の総数(SS1)をカウントする場合の動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第1の方向において1つ以上の不鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第1の方向の不鮮明な画素間の移行の総数(SB1)をカウントする場合の動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第2の方向において1つ以上の鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第2の方向の鮮明な画素間の移行の総数(SS2)をカウントする場合の動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第2の方向において1つ以上の不鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第2の方向の不鮮明な画素間の移行の総数(SB2)をカウントする場合の動作を含む。
ある実施形態において、区画ごとに、SS1が予め定められた鮮明移行しきい値よりも小さく、SB1が予め定められた不鮮明移行しきい値よりも小さく、SS2が予め定められた鮮明移行しきい値よりも小さく、SB2が予め定められた不鮮明移行しきい値よりも小さいと判断された場合、この区画は空白であると判断される。
ある実施形態において、空白でない区画ごとに、第1の方向の不鮮明率r1=SS1/SB1が求められる。
ある実施形態において、空白でない区画ごとに、第2の方向の不鮮明率r2=SS2/SB2が求められる。
ある実施形態において、空白でない区画ごとに、r1が予め定められた区画不鮮明率しきい値よりも小さいと判断されると、この空白でない区画は第1の方向において不鮮明であると判断される。
ある実施形態において、空白でない区画ごとに、r2が予め定められた区画不鮮明率しきい値よりも小さいと判断されると、この空白でない区画は第2の方向において不鮮明であると判断される。
いくつかのアプローチにおいて、「第1の方向」および「第2の方向」は、垂直方向、たとえば鉛直方向と水平方向として、または、正方形の直交する対角線として特徴付けてもよい。他のアプローチでは、「第1の方向」および「第2の方向」がデジタル画像を通る任意の経路に対応していてもよいが、好ましくは、各々、デジタル画像を通る線形経路に相当する。当業者が本明細書を読めば理解するように、本明細書に開示される発明の実施形態の範囲は、これらの例にのみ限定されてはならず、当該技術で周知のその均等物を含むものである。
ある実施形態において、空白でない区画ごとに、その区画が第1の方向において不鮮明であること、および、その区画が第2の方向において不鮮明であることの内の1つ以上が判断されると、この空白でない区画は不鮮明であると判断される。
ある実施形態において、不鮮明な区画の総数が求められる。
ある実施形態において、画像不鮮明率Rとして定義される、不鮮明な区画の総数を区画の総数で割ったものが、計算される。
ある実施形態において、画像不鮮明率Rとして定義される、不鮮明な区画の総数を区画の総数で割ったものが、計算される。
ある実施形態において、方法は、画像不鮮明率が予め定められた画像不鮮明しきい値よりも大きいと判断されると、そのデジタル画像は不鮮明であると判断する動作を含む。
さまざまな実施形態において、方法は、以下で説明するような、1つ以上の追加のおよび/または代替的な動作を含み得る。たとえば、ある実施形態において、方法はまた、区画ごとに複数の画素の明度値の分布を求めること、明度値の分布の特性ばらつきυを求めること、υに基づいて顕著な明度の移行しきい値ηを計算すること(たとえばη=3*υであるが16等の特定の値以下)ηに基づいて大きな明度の移行しきい値μを計算すること(たとえばμ=2*ηであるが明度範囲の二分の一等の特定の値以下)複数の画素内の画素ごとに、その画素を囲むウィンドウ内における明度変化の方向性パターンを解析すること(たとえば水平方向、鉛直方向、対角線方向等)、および、この解析に基づいて、鮮明な画素間の移行および不鮮明な画素間の移行のうちの1つ以上を識別することを、含み得る。
別の実施形態において、方法はまた、複数の中心画素を定めること、1つの中心画素を囲む画素、たとえば前後の2画素、からなる1つ以上の小さなウィンドウ内の複数の中心画素各々順次解析すること、中心画素の直近(たとえば直前の画素から次の画素)において大きな明度の移行が存在し、大きな明度の移行の前に第1の小さな(顕著なものよりも小さい)明度変化が存在し、かつ、大きな明度の移行の後に第2の小さな明度変化が存在すると判断されると、鮮明な画素間移行を識別すること、小さなウィンドウのうちの1つ以上において大きな移行が存在し、この大きな移行において明度の単調な変化が存在すると判断されると、鮮明な画素間繊維を検出すること、および、小さなウィンドウ内に顕著な移行が発生し、この顕著な移行において明度の単調な変化が存在すると判断されると、不鮮明な画素間移行を検出することを、含み得る。
さらに他の実施形態において、方法はまた、区画ごとに、選択された1つ以上の方向各々において鮮明な移行の総数をカウントすること、選択された各方向における不鮮明な移行の総数をカウントすること、鮮明な移行の総数が予め定められた鮮明な移行のしきい値(たとえば50)未満であり不鮮明な移行の総数が予め定められた不鮮明な移行のしきい値未満であると判断されると、区画は空白であると判断すること、選択された方向の少なくとも1つにおいて、不鮮明な移行の総数に対する鮮明な移行の総数を含む区画不鮮明率が区画不鮮明率しきい値(たとえば24%)未満であると判断されると、空白でない区画が不鮮明であると判断すること、および、この区画が空白でも不鮮明でもないと判断されるとその区画は鮮明であると判断することを、含み得る。
さらに他の実施形態において、方法はまた、複数の区画のうちの空白区画の総数(Nblank)を求めること、複数の区画のうちの不鮮明区画の総数(Nblur)を求めること、複数の区画のうちの鮮明区画の総数(Nsharp)を求めること、不鮮明率(RB)=Nblur/(Nblur+Nsharp)を求めること、および、Rbが不鮮明しきい値(好ましくは百分率で表わされたとえば30%)未満であればデジタルが層は鮮明であると判断することを、含み得る。
本明細書に示す実施形態は、オンデマンドでサービスを提供するために顧客に代わって導入されるサービスの形態で提供されてもよいことが、さらに理解されるであろう。
本明細書に示す実施形態は、オンデマンドでサービスを提供するために顧客に代わって導入されるサービスの形態で提供されてもよいことが、さらに理解されるであろう。
文書の分類
本開示の範囲に対応する、ある発明の実施形態に従い、図5に示されるように、方法500が示される。方法500は、何らかの所望の環境で実施すればよく、特に図1〜図4Dに関して説明した実施形態および/またはアプローチを含み得る。当然ながら、方法500に従い図5に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。
本開示の範囲に対応する、ある発明の実施形態に従い、図5に示されるように、方法500が示される。方法500は、何らかの所望の環境で実施すればよく、特に図1〜図4Dに関して説明した実施形態および/またはアプローチを含み得る。当然ながら、方法500に従い図5に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。
動作502で、モバイル装置によって取込まれたデジタル画像を受ける。
ある実施形態において、デジタル画像は、固有解像度によって特徴付けられるものでもよい。本明細書において理解される「固有解像度」は、最初に取込まれた画像の元の固有の解像度であってもよいが、上記画像処理動作等のうちのいずれかのような何らかの分類前処理の実行後のデジタル画像の解像度であってもよい。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、固有解像度は、分類を実行する前にVRSの処理を受けた運転免許証のデジタル画像の、約500画素×600画素(すなわち500×600デジタル画像)である。加えて、デジタル画像は、あるアプローチではカラー画像によって特徴付けられてもよく、他のアプローチではトリミングされたカラー画像、すなわち、画像背景を描写せず実質的には分類するオブジェクトのみを描写するカラー画像であってもよい。
ある実施形態において、デジタル画像は、固有解像度によって特徴付けられるものでもよい。本明細書において理解される「固有解像度」は、最初に取込まれた画像の元の固有の解像度であってもよいが、上記画像処理動作等のうちのいずれかのような何らかの分類前処理の実行後のデジタル画像の解像度であってもよい。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、固有解像度は、分類を実行する前にVRSの処理を受けた運転免許証のデジタル画像の、約500画素×600画素(すなわち500×600デジタル画像)である。加えて、デジタル画像は、あるアプローチではカラー画像によって特徴付けられてもよく、他のアプローチではトリミングされたカラー画像、すなわち、画像背景を描写せず実質的には分類するオブジェクトのみを描写するカラー画像であってもよい。
動作504において、デジタル画像の第1の表現がモバイル装置のプロセッサを用いて生成される。この第1の表現は、あるアプローチでは低下させた解像度によって特徴付けられてもよい。本明細書において理解されるように、「低下させた解像度」は、デジタル画像の固有解像度よりも低い解像度であってもよく、より具体的には、本明細書に記載の原理に従う第1の表現の後の解析に適した解像度であってもよい。
好ましい実施形態において、低下させた解像度は、モバイル装置、ホスト装置および/またはサーバプラットフォームそれぞれにおいてアルゴリズムを実行するときの、処理オーバヘッドを最小にし計算効率とロバストネスを最大にするのに十分低い。たとえば、あるアプローチにおいて、第1の表現は、約25画素×25画素という解像度によって特徴付けられ、この解像度は、当業者が本明細書を読めば理解するように、名刺、運転免許証、領収書等の比較的小さな文書を処理するのに特に効率的でロバストな、低下させた解像度であると、実験を通して判断されたものである。
当然ながら、他の実施形態では、本開示の範囲から逸脱することなく他の解像度を採用してもよい。たとえば、より大きな文書またはオブジェクトの分類は、ロバストな分類および最大計算効率のために、より大きな文書またはオブジェクトをより良く表現するよう、50画素×50画素、100画素×100画素等のより高い解像度を利用することから利益を享受してもよい。使用される解像度は、各寸法において同一数の画素を有しても有さなくてもよい。加えて、広い範囲のオブジェクトクラスに含まれるさまざまなオブジェクトを分類するために最も望ましい解像度は、ユーザにとって好ましい計算効率と分類ロバストネスのバランスに従って、実験を通して求めてもよい。さらに他の実施形態では、任意の解像度を用いればよく、好ましくは、この解像度は、第1の寸法において1画素と約1000画素の間、第2の寸法において1画素と約100画素の間であることによって特徴付けられてもよい。
次に、具体的には図3A〜図3Cを参照しながら、第1の表現を生成するためのプロセスフローの入力、出力、および/または結果についての代表的な実施形態を示す。図3A〜図3Cはそれぞれ、区画に分割される前のデジタル画像(たとえば図3Aに示されるデジタル画像300)、区画に分割されたデジタル画像(たとえば図3Bに示される区画304)、および低下させた解像度によって特徴付けられるデジタル画像の第1の表現(たとえば図3Cに示される表現310)を示す。
図3A〜図3Bに示されるように、モバイル装置によって取込まれたデジタル画像300は、複数の区画304に分割されてもよい。各区画は複数の画素306を含み得る。この区画は、水平画素ps(x)(図3Bに示されるps(x)=4)×垂直画素ps(y)(図3Bに示されるps(y)=4)という寸法となるように、実質的に矩形の、画素の格子を含んでいてもよい。
ある一般的な実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含む。
別の一般的な実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける1つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含む。
他の一般的な実施形態において、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能/実行可能であり、プロセッサは、プログラムコードを読取る/実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求め、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。
第1の表現は、デジタル画像R(解像度xR画素×yR画素)をSxの水平区画とSyの垂直区画に分割することによって生成されてもよく、低下させた解像度rとしてSx画素×Sy画素を特徴としてもよい。このように、第1の表現の生成は、本質的に、デジタル画像の、粒度がより低い表現を生成することを含む。
たとえば、あるアプローチにおいて、デジタル画像300はSの区画に分割され、各区画304はs×sの格子302の一部に相当する。第1の表現を生成することは、s画素×s画素の第1の表現310を生成することを含み、第1の表現310の各画素312はデジタル画像のSの区画304のうちの1つに相当し、各画素312は、デジタル画像内の対応する区画304の位置に対応する、第1の表現310の位置にある。すなわち、第1の表現の左上の角の画素312は、デジタル画像の左上の角の区画304に対応する。
当然ながら、第1の表現に対してこれ以外の低下させた解像度を用いてもよく、この解像度は、必然ではないが理想的には、当業者が本明細書を読めば理解するように、この処理を実行するのに使用されるモバイル装置、ホスト装置、および/またはサーバプラットフォームの制限および/または特徴、デジタル画像の特性(解像度、照明、不鮮明部分の存在等)、および/または検出および/または分類対象のオブジェクトの特性(背景と対比されるものであり、テキストまたは他の記号の存在、一般的なテンプレートへの適合の度合い等)に応じたものである。
いくつかのアプローチにおいて、第1の表現を生成することは、デジタル画像を複数の区画に分割すること等、1つ以上の代替的なおよび/または追加のサブ動作を含み得る。デジタル画像は、何らかの適切なやり方で複数の区画に分割されればよく、ある実施形態において、デジタル画像は複数の矩形区画に分割される。当然ながら、区画はどのような形状で特徴付けられてもよく、代替的なアプローチでは、複数の区画は、デジタル画像全体を表わしていてもいなくてもよく、画像のいくつかの領域のオーバサンプリングを表わしてもよく、またはデジタル画像内に描かれた各画素の1サンプリングを表わしてもよい。好ましい実施形態では、図3A〜図3Cに関して先に述べたように、デジタル画像は、Sの実質的に矩形の区画304に分割されてs×sの格子302を形成する。
他のアプローチでは、第1の表現を生成することはまた、デジタル画像の区画ごとに少なくとも1つの特性値を求めることを含み得る。各特性値はその区画を説明する1つ以上の特徴に対応する。本開示の範囲の中で、数値で表わすことができる何らかの特徴が、第1の表現の生成において使用するのに適しており、たとえば、当業者が本明細書を読めば理解するように、その区画内の各画素全体の平均明度または強度(0〜255)、その区画内の各画素の各色チャネルの平均値(0〜255)、たとえば赤緑青(RGB)画像の場合の平均赤チャネル値、平均緑チャネル値、および平均青チャネル値等である。
引続き図3A〜図3Cを参照すると、いくつかの実施形態において、第1の表現310の各画素312は、位置的な対応性だけでなく特徴の対応性についても、Sの区画304のうちの1つに対応する。たとえば、あるアプローチにおいて、第1の表現310を生成することはさらに、区画304内の各画素306の個々の強度値iPの平均値を計算することにより、特性区画強度値iSを求めることを含み得る。次に、第1の表現310の各画素312に、デジタル画像300の対応する区画304について計算された平均強度値iSに等しい強度値が割当てられる。このようにして、第1の表現310は、デジタル画像300に示される特徴の、より粒度が低い正規化表現を反映する。
当然ながら、第1の表現310を含む画素312を、ここで開示される分類法の範囲から逸脱することなく、何らかの特性値または特性値の組合せを用いて表わしてもよい。さらに、特性値を、値の分布から特性値をランダムに選択することにより、平均値、値の広がり、最小値、最大値、値の標準偏差、値の分散等の統計的手段または基準によって、または、当業者が本明細書を読めばわかるであろう他の手段によってというように、適切な手段を用いて計算および/または決定してもよい。
動作506において、第1の表現に基づき第1の特徴ベクトルが生成される。
第1の特徴ベクトルおよび/または基準特徴マトリクスは、複数の特徴ベクトルを含み得る。各特徴ベクトルは、対応するオブジェクトクラスの特性に対応する。たとえば、特性最小、最大、平均値等、特定の場所(画素または区画)における1つ以上のカラーチャネルの明度、特定の場所における特定の記号またはその他基準オブジェクトの存在、寸法、アスペクト比、画素密度(特に黒画素密度であるが他の色チャネルの画素密度の場合もある)等である。
第1の特徴ベクトルおよび/または基準特徴マトリクスは、複数の特徴ベクトルを含み得る。各特徴ベクトルは、対応するオブジェクトクラスの特性に対応する。たとえば、特性最小、最大、平均値等、特定の場所(画素または区画)における1つ以上のカラーチャネルの明度、特定の場所における特定の記号またはその他基準オブジェクトの存在、寸法、アスペクト比、画素密度(特に黒画素密度であるが他の色チャネルの画素密度の場合もある)等である。
当業者が本明細書を読めば理解するように、第1の特徴ベクトルおよび/または基準特徴マトリクスに含めるのに適した特徴ベクトルは、任意の種類、数、および/または長さの特徴ベクトルを含む。
動作508において、第1の特徴ベクトルを複数の基準特徴マトリクスと比較する。
比較動作508は、何らかの適切なマトリクス比較に従って実施すればよい。
比較動作508は、何らかの適切なマトリクス比較に従って実施すればよい。
このように、上記のようなアプローチにおいて、比較することは、N次元の特徴空間比較を含み得る。少なくとも1つのアプローチにおいて、Nは50よりも大きいが、当然ながら、Nは、当業者が本明細書を読めば理解する、オブジェクトを1つの正しいオブジェクトクラスにロバストに分類することを保証するのに十分大きな値であってもよく、これは、オブジェクトの複雑度、オブジェクトクラス間の類似性または相違性、オブジェクトクラスの数等の数多くのファクタに応じて変化する。
本明細書において理解される、「オブジェクト」は、画像内で表現されている有形のものを含み、当業者が本明細書を読めば理解するように、色、サイズ、寸法、形状、テクスチャ、明度、強度、1つ以上の代表的なマークまたはその他の特徴があることまたはないこと、1つ以上の代表的なマークまたはその他の特徴の位置、複数の代表的なマークまたはその他の特徴間の位置関係等、少なくとも1つの独自のオブジェクト特徴または特性に従って説明し得るものである。加えて、オブジェクトは、画像内で表現される何らかの有形のものであり、このような特性の少なくとも1つの独自の組合せに従って分類し得るものである。たとえば、さまざまな実施形態において、オブジェクトは、当業者が本明細書を読めば理解するように、人、動物、乗物、建築物、ランドマーク、文書、家具、植物等を含み得るがこれらに限定されない。
たとえば、ある実施形態において、デジタル画像に描かれたオブジェクトをわずか少数のオブジェクトクラス(たとえば3〜5のオブジェクトクラス)のうちの1つとして分類しようと試みる場合であって各オブジェクトクラスが相当な数の際立って顕著な特徴または特徴ベクトルによって特徴付けられる場合(たとえば、各オブジェクトクラスが大きく異なるサイズ、形状、カラープロファイル、および/または配色によって特徴付けられる1つまたは複数のオブジェクトに対応しており、各オブジェクトクラスの固有の場所に容易に見分けられる基準シンボルが位置している等)、ロバストな分類を保証するのに、比較的小さい数のNは十分に大きいであろう。
一方、デジタル画像に描かれたオブジェクトを多数のオブジェクトクラス(たとえば30以上のオブジェクトクラス)のうちの1つとして分類しようと試みる場合であって各オブジェクトクラスが相当な数の類似する特徴または特徴ベクトルおよびほんの少数の顕著な特徴または特徴ベクトルによって特徴付けられる場合、ロバストな分類を保証するのに、比較的大きな値のNが好ましいであろう。同様に、好ましくは、Nの値は、分類がロバストであるだけでなく計算効率が高くなるように、すなわち分類プロセスが、分類アルゴリズムを実施するのに使用される装置またはシステムに最小の処理オーバヘッドしか導入しないように、選択または決定される。
分類のロバストネスと処理オーバヘッドとの望ましいバランスが得られるNの値は、上述したような要素および当業者が本明細書を読めばわかるであろう他の要素等の多数の要素に依存する。加えて、この望ましいバランスが得られるNの適切な値の決定は、当業者が本明細書を読めば理解する何らかの周知の方法またはそれの均等物を用いて行なえばよい。
運転免許証を州によって分類し運転免許証をその他無数の文書タイプから区別することに関する具体的な実装例では、625寸法比較(N=625)により、多様な現世代のモバイル装置を用いて実行する処理に対して不本意な高いオーバヘッドをもたらすことなく、好ましいロバストな分類となった。
動作510において、デジタル画像に描かれたオブジェクトを、比較動作508に少なくとも一部基づいて、特定のオブジェクトクラスのメンバとして分類する。より具体的には、比較動作508は、特徴ベクトルの各基準リストおよび/または特徴マトリクスの各特徴ベクトルを評価すること、またはその代わりに特定のオブジェクトクラスに属するオブジェクトの複数の特徴マトリクスを評価すること、および、特徴ベクトルの1つの基準リストおよび/または特徴マトリクスの特徴ベクトルをその他の基準特徴マトリクスの特徴ベクトルから分離するN次元特徴空間における超平面を識別することを、含み得る。このようにして、この分類アルゴリズムは、オブジェクトクラス間の正確な超平面境界を定め、特徴ベクトルの、特定のオブジェクトクラスとの類似点および/または特徴ベクトルのその他の基準リストおよび/または特徴マトリクスプロファイルとの相違点に基づいて、未知のオブジェクトを特定のオブジェクトクラスに割当ててもよい。
このような特徴と空間の区別の最も単純な例では、ある特徴が縦軸に沿って示され別の特徴が横軸に沿って示される二次元特徴空間を考えると、ある特定クラスに属するオブジェクトはこの特徴空間の右下部分においてクラスタ化された値の分布を有する特徴ベクトルによって特徴付けられてもよく、一方、別のクラスのオブジェクトはこの特徴空間の左上部分においてクラスタ化された値の分布を示す特徴ベクトルによって特徴付けられてもよく、分類アルゴリズムはこれら2つを、特徴空間を二つのクラス、すなわち「左上」および「右下」に分ける、各クラスタ間のラインを識別することによって、区別し得る。当然ながら、特徴空間において考慮する次元の数が増えると、分類の複雑度は急速に増すが、分類のロバストネスの多大な改善ももたらす。このことは当業者が本明細書を読めば理解するであろう。
その他の処理
いくつかのアプローチにおいて、ここに開示されている方法の実施形態に従う分類は、以下で説明するような1つ以上の追加のおよび/または代替の特徴および/または動作を含み得る。
いくつかのアプローチにおいて、ここに開示されている方法の実施形態に従う分類は、以下で説明するような1つ以上の追加のおよび/または代替の特徴および/または動作を含み得る。
ある実施形態において、上述のような分類は、比較動作(たとえば方法500の動作508で行なわれるもの)に基づいて信頼度値を複数の推定上のオブジェクトクラスに割当てることをさらにおよび/または代替的に含み得る。ここに開示される分類方法、システム、および/またはコンピュータプログラムプロダクトは、さらにおよび/または代替的に、モバイル装置の位置を判断すること、モバイル装置の位置を示す位置情報を受けること等を行なってもよく、判断した位置に基づいて、特定の位置に対応する分類結果の信頼度値を調整してもよい。たとえば、モバイル装置が、GPS信号に基づいて特定の州(たとえばメリーランド州)に位置すると判断された場合は、分類中に、信頼度値を、特定の州に対応するオブジェクトクラス(たとえば、当業者が本明細書を読めば理解するように、メリーランド州の運転免許証、メリーランド州の自動車権利/登録書の管理局、メリーランド州の交通違反チケット等)について調整してもよい。
信頼度値は、特定の位置に対応するオブジェクトクラスについて信頼度値を増す、特定の位置に対応しないオブジェクトクラスについて信頼度値を減じる、特定の場所に対する対応/非対応に基づいて信頼度値を正規化する等、何らかの適切なやり方で調整すればよく、このことは当業者が本明細書を読めば理解するであろう。
モバイル装置の位置は、いずれか周知の方法を用い、モバイル装置のハードウェア構成要素、または、1つ以上の衛星、無線ネットワーク、サーバ等のモバイル装置と通信する他の多数の装置を用いて、判断すればよく、このことは当業者が本明細書を読めば理解するであろう。
たとえば、モバイル装置の位置は、グローバルポジショニングシステム(GPS)信号、無線通信ネットワークとの接続、わかっている位置のデータベース(たとえばコンタクトデータベース、Google Maps(登録商標)等のナビゲーションツールに関連付けられたデータベース)、ソーシャルメディアツール(たとえばFacebook(登録商標)、Google Plus、Yelp(登録商標)等で提供されるもののような「チェックイン」特徴)、IPアドレス等のうちの1つ以上に、全体的または一部基づいて、判断すればよい。このことは当業者が本明細書を読めば理解するであろう。
他の実施形態において、分類はさらにおよび/または代替的に、モバイル装置のディスプレイに、特定のオブジェクトクラスの表示を出力すること、および、この表示の出力に応じたモバイル装置のディスプレイを介するユーザ入力を受けることを含む。ユーザ入力は、周知のいずれかのタイプであればよく、本明細書に記載の特徴および/または動作のうちのいずれかに関連すればよいが、好ましくは、ユーザ入力は、分類アルゴリズムによってオブジェクトが割当てられた特定のオブジェクトクラスの確認、否認、または修正に関連する。
この表示は、当業者によって理解されるであろう、押すことによる通知、テキストメッセージ、モバイル装置のディスプレイ上のディスプレイウィンドウ、電子メール等と介して、適切なやり方でディスプレイに出力すればよい。加えて、ユーザ入力は、どのような形態を取ってもよく、(たとえば、タッチスクリーン装置の抵抗、容量の変化を検出すること、モバイル装置の1つ以上のボタンまたはスイッチとユーザの対話を検出すること等により)ユーザがモバイル装置のディスプレイの一部を軽く叩いたまたは押したことを検出する等、どのような周知のやり方で受けてもよい。
ある実施形態において、分類はさらに、特定のオブジェクトクラスに少なくとも一部基づいて、分類されたオブジェクトの1つ以上のオブジェクト特徴を判断することを含む。このように、分類は、オブジェクトクラス識別コードを受けオブジェクトクラス識別コードをクエリとして用いること、および/またはオブジェクトクラスに従って組織されオブジェクトクラス識別コードに対してキーが付けられた、ハッシュされた、インデックスされたデータベースでルックアップを実行すること等、適切なメカニズムまたはアプローチを用いて、このようなオブジェクト特徴を判断することを含み得る。
本開示の範囲に含まれるオブジェクト特徴は、デジタル画像内で認識されることが可能な何らかの特徴、好ましくは、数値フォーマット(スカラーでもベクトルでもそれ以外でもよい)で表現されることが可能な特徴を含み得る。これは、当業者が本明細書を読めば理解するように、たとえば、基準オブジェクトを含むサブ領域の位置(特に縦置き、横置き等の1つ以上のオブジェクトの向きの状態)、オブジェクトのカラープロファイルまたは配色、オブジェクトサブ領域のカラープロファイルまたは配色、テキストの位置等である。
本開示の範囲に対応する、別の発明の実施形態に従い、図6に示されるように、方法600が示される。方法600は、何らかの所望の環境で実施すればよく、特に図1〜図4Dに関して説明した実施形態および/またはアプローチを含み得る。当然ながら、方法600に従い図6に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。
動作602で、モバイル装置によって取込まれたデジタル画像に基づいて第1の特徴ベクトルを生成する。
動作604で、第1の特徴ベクトルを複数の基準特徴ベクトルと比較する。
動作606で、この比較(たとえば動作604で実施された比較)に少なくとも一部基づいて、デジタル画像に描かれたオブジェクトを特定のオブジェクトクラスのメンバとして分類する。
動作606で、この比較(たとえば動作604で実施された比較)に少なくとも一部基づいて、デジタル画像に描かれたオブジェクトを特定のオブジェクトクラスのメンバとして分類する。
動作608で、この特定のオブジェクトクラスに少なくとも一部基づいて、オブジェクトの1つ以上のオブジェクト特徴を判断する。
動作610において、処理動作を実行する。この処理動作は、以下のサブプロセスのうちの1つ以上を実行することを含む。すなわち、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像に描かれたオブジェクトを検出すること、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像に描かれたオブジェクトを矩形化すること、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像をトリミングすること、および、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像を2値化することである。
当業者が本明細書を読めばさらに理解するように、さまざまな実施形態において、文書の分類を介して判断されたオブジェクト特徴に少なくとも一部基づいて、デジタル画像に対し、動作610を参照して先に述べたサブプロセスのような1つ以上の他の処理動作を実行することが、好都合であろう。
たとえば、文書等のデジタル画像に描かれたオブジェクトの分類後に、他の処理パラメータ、機能等を改良すること、および/または分類されたオブジェクトが属するオブジェクトのクラスについて正しいことがわかっている情報、たとえば、オブジェクトの形状、サイズ、寸法、オブジェクト上および/または内の注目領域、たとえば1つ以上の記号、パターン、テキスト等を示す領域の位置を用いることが、可能であろう。このことは当業者が本明細書を読めば理解するであろう。
分類に基づいてページ検出を実行することに関して、いくつかのアプローチでは、オブジェクト検出能力を改善するために、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用することが好都合であろう。たとえば、当業者が理解するように、デジタル画像内のオブジェクトを識別する可能性があると思われる一組の特性を、1つまたは少数の離散的なわかっている特性に狭めれば、計算コストが低くなり、および/または信頼度がより高いまたは品質がより高い結果をもたらすであろう。
オブジェクト検出を改善するのに利用し得る代表的な特性は、オブジェクトの寸法、オブジェクトの形状、オブジェクトの色、オブジェクトクラスの1つ以上の基準特徴(文書のわかっている位置にある基準記号等)を含み得る。
別のアプローチにおいて、オブジェクトを描いているデジタル画像の領域を、他のオブジェクト、画像背景、アーティファクト等を描いているデジタル画像の領域から区別するオブジェクト検出アルゴリズムを容易にすることにより、1つ以上のわかっている特性に基づいて、オブジェクト検出を改善してもよい。このことは当業者が本明細書を読めば理解するであろう。たとえば、特定のオブジェクトクラスに属するオブジェクトが特定のカラープロファイルまたは配色を示すことがわかっていれば、特に2つのカラープロファイルまたは配色が鮮明な対比を示す特徴によって特徴付けられていない場合は、1つのカラープロファイルまたは配色(たとえば背景のカラープロファイルまたは配色)から別のカラープロファイルまたは配色(たとえばオブジェクトのカラープロファイルまたは配色)への移行を検出するのではなく、デジタル画像内の特定のカラープロファイルまたは配色を検出しようとする方が、より簡単でおよび/またはより確実であろう。
分類に基づいて矩形化を実行することに関して、いくつかのアプローチでは、オブジェクト矩形化能力を改善するために、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用することが、好都合であろう。たとえば、当業者が理解するように、固有の外見から真のオブジェクト構成を推定し固有の外見を推定されたオブジェクト構成に射影しようとするよりも、真のオブジェクト構成を明確に表わす一組のわかっているオブジェクト特性に基づいて、オブジェクトのデジタル表現を、固有の外見から真の構成に変換すれば、計算コストが低くなり、および/または信頼度がより高いまたは品質がより高い結果をもたらすであろう。
あるアプローチにおいて、分類によって、オブジェクトのわかっている寸法を識別してもよく、これらわかっている寸法に基づいて、(たとえば、従来のフラットベッドスキャナ、給紙スキャナまたはその他同様の多機能周辺装置(MFP)ではなくモバイル装置のカメラを用いて画像を取込むプロセスで導入された射影効果を除去することにより)デジタル画像を矩形化してデジタル画像におけるオブジェクトの歪んだ表現を歪のない表現に変換してもよい。
分類に基づいてトリミングを実行することに関して、矩形化に関して先に述べた原理と同様に、いくつかのアプローチでは、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用して、トリミングされた画像すべてまたは実質的にすべてが画像背景(または画像に描かれた他のオブジェクト、アーティファクト等)ではなくオブジェクトを示すように、オブジェクトを示すデジタル画像のトリミングを改善することが、好都合であろう。
単純な例として、オブジェクト分類に基づいてオブジェクトのわかっているサイズ、寸法、構成等を判断しこの情報を利用してオブジェクトを描いていない画像の領域からオブジェクトを描いている画像の領域を識別し、オブジェクトを描いていない画像の領域を除去するようにオブジェクトを囲むトリミングラインを定めることが、好都合であろう。
分類に基づいて2値化を実行することに関して、ここで開示される分類アルゴリズムは、モバイル画像処理にいくつかの有用な改良をもたらす。この改良のいくつかの代表的な実施形態について次に図4A〜図4Dを参照しながら説明する。
たとえば、2値化アルゴリズムは一般的に、多色調のデジタル画像(たとえばグレースケール、カラー、または3つ以上の色調を示す画像400等)を2色調画像すなわち2つの色調のみ(典型的には白と黒)を示す画像に変換する。当業者は、2つ以上の明確に異なるカラープロファイルおよび/または配色を示す領域(たとえば白黒のテキスト領域404を描いた領域と対比されるカラー写真402、カラーテキスト領域406、基準オブジェクト、透かし模様等の記号408、オブジェクト背景領域410等)を有するオブジェクトを描いたデジタル画像を2値化しようとすると、結果は失敗または不満足なものになる場合があることを、理解するであろう。
1つの説明として、こういった難点は、少なくとも一部、1回の2値化変換に悪影響を与えるカラープロファイル、配色等の違いが原因である。したがって、本質的に異なる配色またはカラースキームを有し各々について別々の2値化パラメータを規定するこれら領域各々を区別する能力を与えれば、結果として得られる2色調の画像全体の品質、特に各領域の変換の質が大幅に改善されるであろう。
図4A〜図4Bに示される1つの代表的な実施形態に従うと、改善された2値化は、オブジェクトクラスのカラープロファイルおよび/または配色を判断すること(たとえばオブジェクト背景領域410についてのカラープロファイルおよび/または配色を判断すること)、オブジェクトクラスのカラープロファイルおよび/または配色に基づいて1つ以上の2値化パラメータを調整すること、および、調整された1つ以上の2値化パラメータを用いてデジタル画像をしきい値処理することとを含み得る。
2値化パラメータは、当業者が本明細書を読めば理解するであろう何らかの適切な2値化プロセスの何らかのパラメータを含み得る。また、2値化パラメータは適切な技法に従って調整してもよい。たとえば、オブジェクトクラスのカラープロファイルおよび/または配色に基づく2値化パラメータの調整に関して、2値化パラメータは、オブジェクトクラスのカラープロファイルおよび/または配色に従って、1つ以上の色チャネル、強さ等の寄与度を過度に強調するおよび/または十分に強調しないように、調整してもよい(たとえば赤の色相によって相対的に飽和するオブジェクトクラスのカラープロファイルおよび/または配色について赤チャネルを十分に強調しない)。
同様に、図4B〜図4Dに具体的に示されるような他の実施形態において、改良された2値化は、オブジェクトクラスマスクを決定することと、オブジェクトクラスマスクをデジタル画像に適用しオブジェクトクラスマスクに基づいてデジタル画像のサブ領域をしきい値処理することとを含み得る。オブジェクトクラスマスクが、そのクラスに属するオブジェクトの特徴的な特定の注目領域の位置に関する情報を提供しこのような領域を2値化動作に選択的に含めるおよび/または2値化動作から選択的に除外することを可能にする限り、オブジェクトクラスマスクはどのような種類のものであってもよい。
たとえば、図4Bに示されるように、改良された2値化は、上記のような領域を識別するオブジェクトクラスマスク420を決定し、オブジェクトマスク420を適用して、オブジェクトマスク背景領域410のような1つの注目領域を除いてデジタル画像400すべてを2値化から除外することを含む。これに代えて、デジタル画像全体をマスクアウトしオブジェクト背景領域410等の注目領域をその後マスクインして2値化処理を行なってもよい。加えて、いずれの場合でも、たとえば、オブジェクトクラスマスクとオブジェクトのカラープロファイルおよび/または配色とを双方取得し、オブジェクトクラスマスクを適用してオブジェクト背景領域410以外デジタル画像すべてを2値化の対象外とし、オブジェクト背景領域のカラープロファイルおよび/または配色に基づいて1つ以上の2値化パラメータを調整し、調整された2値化パラメータを用いてオブジェクト背景領域410をしきい値処理することによって、ここで図4Bを参照しながら説明するマスク機能を、上記カラープロファイルおよび/または配色情報機能と、組み合わせてもよい。
図4Bに示す原理を拡張して、オブジェクトクラスマスク420を用いて複数の注目領域をマスクインおよび/またはマスクアウトすることにより、高品質の2色調画像を生成するため設計された層状のアプローチにおいて2値化のための領域および/またはパラメータを選択的に指定してもよい。たとえば、図4Cに示されるように、たとえば、いくつかのアプローチでは、非テキスト領域すべてを2値化から除外するために、オブジェクトクラスマスク420の適用後に複数のテキスト領域404、406を(可能性のあるものとしては調整されたパラメータを用いて)2値化用に保持してもよい。
同様に、パラメータを調整するか否かにかかわらず、画像の一部のみを2値化から単純に除外することが好都合であろう。たとえば、図4Dを参照して、オブジェクトマスク420を用いて、カラー写真402を示す領域等の、デジタル画像400の固有領域をマスクアウトすることが望ましいであろう。次に、特に、デジタル画像400の残りの部分が1つのカラープロファイルおよび/または配色で特徴付けられるかまたは少数(すなわち3以下)の実質的に類似するカラープロファイルおよび/または配色で特徴付けられる場合、2値化を実行することによってデジタル画像400の残りの部分を明確にしてもよい。次に、マスクアウトした固有領域を任意でデジタル画像400に戻すと、結果として、2値化処理を受けたデジタル画像400のすべての領域において2色調画像の質が改善され、それとともに、2値化処理を受けなかった領域のカラー画像402は乱されていない。
さらに他の実施形態において、分類および/または分類結果に少なくとも一部基づいて光学式文字認識(OCR)を実行することが好都合であろう。具体的には、特定のクラスに属するオブジェクトに描かれているテキストの位置、フォーマット、および/または内容に関する情報を求め、予測されるテキスト位置、フォーマットおよび/または内容に基づいて、従来のOCR方法によって判断される予測を修正することが好都合であろう。たとえば、OCR予測が、文書の「日付」フィールドに対応する領域のテキストが「Jan, 14, 201l」と読めると予想する実施形態では、ここに開示されるアルゴリズムは、このテキストについて予想されるフォーマットが「[月の略語][.][##][,][####]」といったフォーマットに従うと判断してもよく、このアルゴリズムは、間違ったOCR予測を、たとえば、「Jan」の後ろのカンマをピリオドに変換しおよび/または201lの最後の文字を1という数字に変換することによって、訂正してもよい。同様に、ここに開示されているアルゴリズムは、同じテキストについて予想されるフォーマットが「[##]/[##]/[####]」であると判断しカンマと空白の各セット「, 」をスラッシュ「/」に変換することにより間違ったOCR予測を訂正してもよい。
当然ながら、当業者が本明細書を読めば理解するであろう、OCR予測の改善および/または修正の他の方法も、その全体が本開示の範囲に含まれる。
データ抽出
オブジェクト分類に基づいて改善された画像処理を実行することに加えて、ユーザはデジタル画像に示された1つ以上のオブジェクトに関する情報を収集することを望む場合がある。いくつかの実施形態において、デジタル画像からデータを抽出するためにオブジェクト分類を活用することが好都合である。以下でより詳しく説明するように、ここに開示されている方法、システム、およびコンピュータプログラムプロダクトはしたがって、オブジェクト分類に基づいてデジタル画像からデータを抽出するための機能を含む。
オブジェクト分類に基づいて改善された画像処理を実行することに加えて、ユーザはデジタル画像に示された1つ以上のオブジェクトに関する情報を収集することを望む場合がある。いくつかの実施形態において、デジタル画像からデータを抽出するためにオブジェクト分類を活用することが好都合である。以下でより詳しく説明するように、ここに開示されている方法、システム、およびコンピュータプログラムプロダクトはしたがって、オブジェクト分類に基づいてデジタル画像からデータを抽出するための機能を含む。
本明細書に記載のデータ抽出の実施形態は、当業者が本明細書を読めば理解するように、サポートベクターマシン(SVM)技術、手本から学ぶ(learn-by-example)(LBE)技術、特徴ベクトル、特徴マトリクス、文書検証技術、データセット編成技術、変換分類技術、最大エントロピー識別(MED)技術等のうちの1つ以上を利用し得る。
次に図7を参照して、ある実施形態に従う方法700が示される。この方法は、さまざまなアプローチにおいて、図1〜図4Dに示されるものを含む、何らかの適切な環境でおよび/または何らかの適切なメカニズムを用いて実行し得る。
あるアプローチにおいて、方法700は、モバイル装置によって取込まれたデジタル画像を受けるという動作702を含む。このデジタル画像は、いくつかの実施形態において、このモバイル装置または別のモバイル装置のメモリに収容されおよび/または格納されてもよい。加えて、このデジタル画像は、当業者が本明細書を読めば理解するように、カメラ、メモリ、無線受信機、アンテナ等を含む、モバイル装置の構成部品といったさまざまなソースから受けてもよい。他のアプローチでは、デジタル画像は、遠隔サーバ、別のモバイル装置、一体化されたデータ送信機能を有するカメラ、ファクシミリ機またはその他多機能プリンタ等といった遠隔装置から受けてもよい。任意で、デジタル画像は、当業者が本開示を読めば理解するように、オンラインサービス、データベース等を介して受けてもよい。
方法700はさらに、以下でさらに詳しく説明するようにモバイル装置のプロセッサを用いて動作704〜710を実行することを含む。当業者が本明細書を読めば理解するように方法700のさまざまな実施形態は、モバイル装置のプロセッサ、サーバのプロセッサ、クラウド計算環境等、およびその任意の組合せを用いて動作704〜710のうちいずれかを実行することを含み得る。
動作704において、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断する。描かれているオブジェクトが特定のオブジェクトクラスに属するか否かの判断は、図5および図6を参照して先に述べたオブジェクト分類方法を特に参照して、本明細書に記載のいずれかの方法を用いて行なえばよい。
動作706において、モバイル装置のプロセッサを用いて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求める。ある実施形態において、オブジェクト特徴は、特徴ベクトル、特徴ベクトルリスト、特徴マトリクス、および/または抽出モデルを用いて求めればよい。オブジェクト特徴を求めることは、オブジェクトが特定のオブジェクトクラスに属するという判断に応じて行なわれる。本明細書に記載のオブジェクト特徴は、可能性がある複数のオブジェクトのうちの1つのオブジェクトを識別するのに十分である独自の特性もしくは特性の独自の組合せ、または、複数のオブジェクトクラスのうちの特定のオブジェクトクラスにオブジェクトが属すると識別するのに十分である独自の特性もしくは特性の独自の組合せを含む。たとえば、さまざまなアプローチにおいて、オブジェクト特徴は、当業者が本明細書を読めば理解するように、オブジェクトの色、サイズ、寸法、形状、テクスチャ、明度、強度、1つ以上の代表的なマークまたはその他の特徴があることまたはないこと、1つ以上の代表的なマークまたはその他の特徴の位置、複数の代表的なマークまたはその他の特徴間の位置関係等を、含み得る。
好ましい実施形態において、1つ以上のオブジェクト特徴は、オブジェクトの1つ以上の注目領域を含む。本明細書で理解される注目領域は、ユーザが抽出したい情報を示す、表現する、含む等の、オブジェクトの一部を含み得る。したがって、いくつかのアプローチにおいて、注目領域のうちの1つ以上は、1つ以上のテキスト文字、記号、写真、画像等を含む。
たとえば、一例において、ユーザが、信用調査、融資または賃貸の申込み等を希望する場合がある。所望の行為を行なうには、ユーザは、申込人の名前、住所、社会保障番号、生年月日等のデータを収集する必要がある。モバイル装置は、公共料金請求書、運転免許証、社会保障カード、パスポート、給与明細書等、信用調査、融資または賃貸の申込み等の実行に関連する情報を含む/示す1つ以上の身分証明文書のデジタル画像を受信してもよい。この場合、注目領域は、申込人の名前、住所、社会保障番号、生年月日等の関連データを示す身分証明文書のいずれかの部分を含み得る。
別の例において、ユーザが、電子送金、定期支払の設定、金融取引の契約等を希望するとする。当業者が本明細書を読めば理解するように、この場合、ユーザは、口座番号、ルーティングナンバー、受取人の名前、住所、請求人の名前および/または住所、サイン、支払額、支払日、および/またはスケジュール等といったデータを収集する必要があるであろう。モバイル装置は、請求書、送金券、小切手、クレジットカード、運転免許証、社会保障カード、パスポート、給与明細書等、信用調査、融資または賃貸の申込み等の実行に関連する情報を含む/示す1つ以上の金融書類のデジタル画像を受信してもよい。この場合、注目領域は、口座番号、ルーティングナンバー、受取人の名前、重症、請求人の名前および/または重慮、サイン、支払額、支払日、および/またはスケジュール等の関連データを示す身分証明文書のいずれかの部分を含み得る。
他の例において、ユーザが、自動車登録または新たな銀行口座等を申込む個人の身元確認を希望するとする。申込人は身分証明として運転免許証を提供する。ユーザは、運転免許証の画像を取込み、名前、住所、運転免許証番号等のテキスト情報を含む画像からデータを抽出することができる。ユーザはまた、画像から免許証の写真を抽出し、抽出した写真を免許証の参照写真と比較してもよい。さまざまなアプローチにおいて、参照写真は、自動車登録事務所や銀行が管理するローカルデータベース、行政機関が管理するデータベース等から取得してもよい。代替的に、参照写真は、以前に取得した免許証写真、たとえば、身元確認が必要であった以前の取引の間に取得した写真であってもよい。ある実施形態では、この比較に基づいて、抽出した写真が参照写真と一致するか否かの表示を任意の信用度スコアとともにユーザに提示してもよい。
動作708は、モバイル装置のプロセッサを用いて、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することを含む。ある実施形態において、オブジェクトクラスは抽出モデルを決定する。本明細書で理解される抽出モデルは、デジタル画像からデータを抽出するためにこのデジタル画像に適用できるものであればよい。好ましいアプローチにおいて、抽出モデルは、デジタル画像からデータを収集するための一組の命令および/またはパラメータを含む。特に好ましい実施形態において、抽出モデルは、特徴ベクトルおよび/または特徴ベクトルのリストおよび/または特徴マトリクスを用いて、デジタル画像からデータを抽出するための命令を生成および/または修正する。
たとえば、あるアプローチにおいて、本明細書に記載の代表的なデータ抽出プロセスは、オブジェクトおよび/またはそのオブジェクト特徴(1つ以上の特徴ベクトルにおいて実現されてもよい)に基づいて、さまざまな形態の身分証明書(ID)からデータを抽出するように構成される。実例としての身分証明書の形態は、たとえば複数の運転免許証フォーマットを含み得る。加えて、実例としてのIDは、そのIDに対応する発行元(州、行政機関等)といった1つ以上の識別基準に従って分類されてもよい。抽出モデルは、IDの予め定められたカテゴリのうちの1つに属する当該IDの判定に基づいて選択されてもよい(たとえば、当該IDはメリーランド州の運転免許証)。好ましくは、選択された抽出モデルは、対応するカテゴリ/クラスからの複数の見本を用いて構築される。
ある代表的なアプローチにおいて、動作708は、注目領域を特定するユーザ入力に基づいて、1つ以上の既存のオブジェクトクラス規定を見直して、求めたオブジェクト特徴が、その既存のオブジェクトクラスに属するオブジェクトの特徴を規定するパターンと一致する、対応する、またはそれと同様のパターンを規定するか否か判断することを含み得る。パターンが一致する、対応する、または同様であると判断した場合、動作708は、一致するオブジェクトクラスについて規定された既存の抽出モデルを選択することを含んでもよく、この抽出モデルを用いてデジタル画像からデータを抽出してもよい。当業者が本明細書を読めば理解するように、既存のオブジェクトクラス規定および/または抽出モデルは、モバイル装置のメモリ、モバイル装置と通信するメモリ、サーバ、ローカルまたはオンラインデータベース等から取得してもよい。
代替的に、動作708は、画像およびその特性を解析することにより、画像特性を示す特徴ベクトルを規定することを含み得る。この新たな特徴ベクトルを用いて、一致する、対応する、または同様の注目領域のパターンを有する、既存のオブジェクトクラスを示す、特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスを修正してもよい。たとえば、抽出モデルを構築することは、オブジェクト特徴を、上記のように新たな特徴ベクトルを介して修正された特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスにマッピングすることを含み得る。結果として得られる抽出モデルは、既存のオブジェクトクラスに属するオブジェクトを示す画像からデータを抽出するように構成される。
加えておよび/または代替的に、いくつかのアプローチにおいて、動作708は、オブジェクト特徴に基づいて新たな抽出モデルを構築することを含み得る。より具体的には、モバイル装置のプロセッサを用いて、画像を解析し、その特性を用いて、画像特性を示す特徴ベクトルおよび/または特徴ベクトルのリストを規定する。たとえば、特徴ベクトルは、1つ以上の色チャネルにおける画素の明度および/または強度、1つ以上の色チャネルにおける1つ以上の近傍画素の明度および/または強度、画像内または画像のサブ領域内の画素の位置関係等の画像特性に対応し得る。画像の解析および特徴ベクトルの規定は、何らかの好ましいやり方で実行すればよく、好ましくは実質的に「文書の分類」および「その他の処理」に関して先に説明したように実施すればよい。動作708は、特徴ベクトルを用いて、注目領域に示された画像特性に対応するデータを抽出するように構成された抽出モデルを構築することを含み得る。
他の実施形態において、抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスをマッピングし、メタデータラベルをマッピングされた各オブジェクト特徴と関連付けることを含み得る。あるアプローチにおいて、特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスをマッピングすることは、特徴ベクトルを処理することによって、そこから、画像について、関連する位置情報、カラープロファイル情報等を求めることを含む。
メタデータラベルは、何らかの種類の情報を含み得るものであり、何らかの種類のオブジェクト特徴と関連付けることができる。たとえば、いくつかの実施形態において、メタデータラベルは、当業者が本明細書を読めば理解するように、テキスト、英数字、記号、数字、絵、背景、前景、フィールド、影、テクスチャ、形状、寸法、カラープロファイルまたは配色等といった、示されるデータの種類に従って、オブジェクト特徴を識別し得る。
たとえば納品伝票の場合、メタデータラベルは、テキストおよび/または相対または絶対位置情報を含み得る。たとえば、メタデータラベルは、テキストを、納品伝票の右下の角という絶対位置にある納品伝票番号として識別してもよい。加えて、別のメタデータラベルは、テキストを、納品伝票上の納品伝票番号アドレスの真下という相対位置にある納品伝票の日付として識別してもよい。
加えておよび/または代替的に、メタデータラベルは、特定のデータフォーマットまたは情報内容を識別する等、後の処理動作において関連性に従ってオブジェクト特徴を識別してもよい。たとえば、当業者が本明細書を読めば理解するように、メタデータラベルは、「名前」、「住所」、「社会保障番号」、「運転免許証番号」、「生年月日」、「クレジットスコア」、「口座番号」、「ルーティングナンバー」、「写真」等の、個人情報ラベルを含み得る。
動作710において、モバイル装置のプロセッサを用いて、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。特に、データの抽出は、光学式文字認識(OCR)技術を利用しない。しかしながら、以下でさらに説明するように、光学式文字認識技術を、動作710で実行されるデータ抽出という状況の範囲外では利用してもよい。
次に図8を参照して、ある実施形態に従う方法800が示される。この方法は、さまざまなアプローチにおいて、図1〜図4Dに示されるものを含む、何らかの適切な環境でおよび/または何らかの適切なメカニズムを用いて実行し得る。ある観点では、方法800は本明細書に記載のデータ抽出プロセスの実装例とみなし得る。この実装例はユーザが契約するモバイルアプリケーションのフォーマットである。
あるアプローチにおいて、方法800は、モバイル装置によって取込まれたデジタル画像を受けるという動作802を含む。このデジタル画像は、いくつかの実施形態において、このモバイル装置または別のモバイル装置のメモリに収容されおよび/または格納されてもよい。加えて、このデジタル画像は、当業者が本明細書を読めば理解するように、カメラ、メモリ、無線受信機、アンテナ等を含む、モバイル装置の構成部品といったさまざまなソースから受けてもよい。他のアプローチでは、デジタル画像は、遠隔サーバ、別のモバイル装置、一体化されたデータ送信機能を有するカメラ、ファクシミリ機またはその他多機能プリンタ等といった遠隔装置から受けてもよい。任意で、デジタル画像は、当業者が本開示を読めば理解するように、オンラインサービス、データベース等を介して受けてもよい。
方法800はさらに、以下でさらに詳しく説明する、モバイル装置のプロセッサ、サーバのプロセッサ、遠隔クラウド計算環境の1つ以上のプロセッサ等のうちの1つ以上を用いて動作804〜812を実行することを含む。
動作804において、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断する。さまざまな実施形態において、オブジェクトが特定のオブジェクトクラスに属するか否かの判断は、何らかの適切な方法に従って実行すればよく、好ましくは、たとえば図5および図6を参照して先に述べた文書の分類に関する説明に対応するやり方で実行すればよい。
動作806において、再びモバイル装置のプロセッサを用いて、デジタル画像をモバイル装置のディスプレイに表示する。デジタル画像は、オブジェクトが複数のオブジェクトクラスのうちいずれの特定のオブジェクトクラスにも属さないという判断に応じて表示される。加えておよび/または代替的に、デジタル画像を、オブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するという判断に応じて表示してもよい。
デジタル画像をモバイル装置のディスプレイに表示することは、プロセッサを用いてデジタル画像からデータを効率的かつロバストに抽出することにつながる、さらなる機能を可能にする。たとえば、さまざまなアプローチにおいて、デジタル画像をモバイル装置のディスプレイに表示することにより、画質、オブジェクト分類(または分類されていないこと)といったデジタル画像に関するフィードバックを提供することができる。同様に、デジタル画像を表示することにより、分類および/または抽出結果に関するユーザフィードバック、デジタル画像に関連付けられたまたは関連付けられるべきメタデータ、デジタル画像に描かれたオブジェクト、および/または描かれているオブジェクトが属すると判断される特定のオブジェクトクラス等、デジタル画像に対する追加処理、抽出、または他の操作の実行命令といった、さらなる入力を、ユーザから受け易くすることができる。このことは当業者が本明細書を読めば理解するであろう。
動作808は、モバイル装置のプロセッサを用いて、ユーザ入力をモバイル装置のディスプレイを介して受けることを含む。より具体的には、ユーザ有力はオブジェクト内の1つ以上の注目領域を特定する。動作808を含む方法800のある実施形態において、身分証明文書の画像を、モバイル装置のディスプレイを介してユーザに提示してもよい。ユーザに、オブジェクト分類に基づいて特定された注目領域を確認、否認、および/または修正するよう促してもよい。さまざまな実施形態において、ユーザに、さらにおよび/または代替的に、分類に基づいて特定されていない1つ以上の注目領域を規定、確認、否認、および/または修正するよう促してもよい。
動作810において、動作808で受けたユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択する。ある代表的なアプローチにおいて、動作810は、注目領域を特定するユーザ入力に基づいて、1つ以上の既存のオブジェクトクラスを見直して、特定された注目領域が、既存のオブジェクトクラスに属するオブジェクトの注目領域を規定するパターンに一致、対応、または類似するか否か判断することを含み得る。パターンが一致、対応、または類似すると判断した場合、動作810は、一致するオブジェクトクラスについて規定された既存の抽出モデルを選択することを含んでいてもよく、その抽出モデルを用いてデータをデジタル画像から抽出してもよい。これに代えて、動作810は、画像およびその特定を解析することにより、画像特性を説明する特徴ベクトルを規定することを含んでいてもよい。この新たな特徴ベクトルを用いて、注目領域の一致、対応、または類似するパターンを有する既存のオブジェクトクラスを説明する特徴ベクトルのリストおよび/または特徴マトリクスを修正してもよい。当業者が本明細書を読めば理解するように、結果として得られる抽出モデルは、生の画像データ、テキスト、画像、写真、記号等に対応するデータを含めて、既存のオブジェクトクラスに属するオブジェクトを示す画像からデータを抽出するように構成されている。
加えておよび/または代替的に、動作810は、いくつかのアプローチでは注目領域を規定するユーザ入力に基づいて新たな抽出モデルを構築することを含んでいてもよい。より具体的には、モバイル装置のプロセッサを用いて、画像を解析し、その特性を用いて画像特性を説明する特徴ベクトルを規定する。たとえば、特徴ベクトルは、1つ以上の色チャネルにおける画素の明度および/または強度、1つ以上の色チャネルにおける1つ以上の近傍画素の明度および/または強度、画像内または画像のサブ領域内の画素の位置関係、テキストを示している可能性が高い文書の領域、写真を示している可能性が高い文書の領域等といった画像特性に対応し得る。画像の解析および特徴ベクトルの規定は、何らかの適切なやり方で実行すればよく、好ましくは実質的に「文書の分類」および「その他の処理」に関して先に説明したように実施すればよい。動作810は、特徴ベクトルを用いて、注目領域に示された画像特性に対応するデータを抽出するように構成された抽出モデルを構築することを含み得る。
動作812において、抽出モデルに少なくとも一部基づいて画像からデータを抽出する。特に、この抽出プロセスはOCR技術を利用しない。むしろ、抽出モデルは、オブジェクトまたはオブジェクトクラスをそれぞれ説明する特徴ベクトルの特徴ベクトルリストおよび/または特徴マトリクスに基づいて規定される。
実例となるある実施形態において、ユーザは、本明細書に記載のデータ分類および/または抽出を実行し易くするように適合させたモバイルアプリケーションを介して、分類動作を実行してデジタル画像に示されたオブジェクトを分類しようとしてもよい。分類アルゴリズムが、あるオブジェクトが特定のオブジェクトクラスに属するか否か認識するよう訓練されてきたか否かに応じて、このアルゴリズムがデジタル画像に描かれた特定のオブジェクトの分類に成功する場合もあれば失敗する場合もある。一回以上の分類の試みが終わった後で、身分証明文書の画像をモバイル装置のディスプレイを介してユーザに提示してもよい。ユーザに、オブジェクト分類に基づいて特性された注目領域を確認、否認、および/または修正するよう促してもよい。さらにおよび/または代替的に、ユーザに、分類に基づいて特定されていない1つ以上の注目領域を規定するよう促してもよい。
同様に、分類を試みてもオブジェクトクラスの特定に失敗した場合は、ユーザに、新たなオブジェクトクラスを規定しモバイル装置のディスプレイと対話することによって新たなオブジェクトクラスに属するオブジェクトにおける1つ以上の注目領域をさらに規定するよう促してもよい。たとえば、ユーザは、モバイル装置のディスプレイを介して触覚によるフィードバックを与えることにより、注目領域の周りに1つ以上の囲みボックスを描いてもよい。次に、ユーザは、デジタル画像からデータを抽出するようアプリケーションに指示してもよく、アプリケーションは任意で、モバイル装置、サーバ等のプロセッサを用いて、ユーザが規定した注目領域に少なくとも一部基づいて抽出モデルを構築および/または選択し、抽出モデルに全面的にまたは一部基づいてデジタル画像からデータを抽出してもよい。
さまざまなアプローチにおいて、方法700および/または800は任意で下記のように1つ以上の他の機能、特徴および/または動作を含み得る。
あるアプローチにおいて、方法700および/または方法800は、抽出モデルを訓練することをさらに含み得る。抽出モデルの訓練は、当業者が本明細書を読めば理解するように、周知の方法、モデル、メカニズム等を用いて行なえばよい。好ましい実施形態において、訓練は、手本から学ぶ(LBE)プロセスを含む。具体的には、特定のオブジェクトクラスについて、複数の代表的なオブジェクトを、関連するメタデータラベルとともにまたはメタデータラベルなしで与えてもよい。与えた代表的なオブジェクトのオブジェクト特徴に少なくとも一部基づいて、抽出モデルを訓練することにより、オブジェクトクラスに属するオブジェクトからデータを抽出するときのロバストネスを修正しそうして改善してもよい。
いくつかのアプローチにおいて、抽出モデルの訓練は、この抽出モデルを構築した対象である特定のオブジェクトクラスに属するオブジェクトからデータを精密にかつ正確に抽出する抽出モデルの能力を改善するように、特に設計されてもよいことを、当業者は理解するであろう。このような訓練は、実質的に同一のオブジェクト特徴によって特徴付けられる一組のオブジェクト、たとえば、標準化された書式、文書の種類、同じオブジェクトの複数の画像等といった同じオブジェクトタイプの複数のコピーを与えることによってモデルを訓練して、抽出の精度および/または正確さを改善してもよい。この訓練セットを用いて、抽出モデルは、クラス内のオブジェクトを表わす特徴ベクトルのリストおよび/または特徴マトリクスを強化し、クラスに属するオブジェクトからデータを抽出するときのロバストネスを改善してもよい。
代替的に、訓練は、可変のオブジェクト特徴によって特徴付けられる1つのオブジェクトクラス内の一組のオブジェクトまたはいくつかのオブジェクトクラスにまたがる一組のオブジェクトからデータを抽出する抽出モデルの能力を改善するように、特に設計されてもよい。このような訓練は、異なるオブジェクトクラスまたはいくつかのオブジェクトクラスからデータを一般的に抽出する抽出モデルの能力を改善するように、異なる特性を有する一組のオブジェクトを与えることを含んでいてもよい。
他のアプローチにおいて、抽出モデルをモバイル装置のプロセッサを用いて訓練してもよい。加えて、訓練された抽出モデルを、たとえばメモリ、バッファ、別のプロセスまたはプロセッサ等に格納および/またはエクスポートしてもよい。訓練された抽出モデルを、好ましくは、モバイル装置のメモリ、モバイル装置のプロセッサ、またはモバイル装置のプロセッサを用いて実行されている別のプロセスに、格納および/またはエクスポートしてもよい。さまざまな実施形態において、モバイル装置または別のモバイル装置による後の使用のために、訓練された抽出モデルにフラグを立ててもよくおよび/または訓練された抽出モデルを検索してもい。同様に、抽出モデルを、別のモバイル装置、サーバ、クラウド計算環境等の別の装置のメモリおよび/またはプロセッサに格納および/または送ってもよい。
好ましくは、本明細書に記載の訓練は、複数のオブジェクトを含む訓練セットを利用し、より好ましくは、訓練セットは5つ以上のオブジェクトを含む。
抽出モデルの訓練に加えて、方法700のいくつかの実施形態は、さらにおよび/または代替的に、デジタル画像の1つ以上の領域に対して少なくとも1つのOCR技術を実施することを含み得る。OCRされた領域は、オブジェクト特徴(たとえばオブジェクトクラス規定および/または抽出モデルを用いて特定されるオブジェクト特徴)および/または他のオブジェクト特徴(たとえばオブジェクトクラス規定および/または抽出モデルを用いて以前に特定されなかった特徴)のうちの1つ以上に対応し得る。
方法700および/または方法800のさらに他の実施形態は、文書等のオブジェクト内の1行以上のテキストを検出することをさらに含み得る。いくつかのアプローチにおいて、テキスト行を検出することは、デジタル画像を一次元に射影することを含む。代表的なアプローチにおいて、射影を、テキスト行の向きの主軸に垂直な次元に沿って行なうことにより、テキストの行およびテキストの行間の領域を暗領域密度(たとえば黒画素密度、数等)に従って容易に区別できるようにしてもよい。したがって、文書が縦置きの向きの場合、テキストの検出は垂直方向(y軸)に沿って射影することを含み、文書が横置きの向きの場合、テキストの検出は水平方向(x軸)に沿って射影することを含む。他のアプローチにおいて、射影を用いることにより、文書の向き(縦置き、横置き、またはその他のスキュー角)を判断および/または操作することもできる。たとえば、運転免許証のような標準的なIDに対応する文書の画像からデータを分類および/または抽出するように構成された代表的な実施形態では、テキストの行等の検出を利用して、可能性のある複数の向き(たとえばあるアプローチでは回転角度0°、90°、180°、または270°)のうちの最も確実な文書の向きを判断してもよい。
テキスト行の検出は、射影に沿う明領域と暗領域の分布を求めること、および複数の暗画素密度を求めることをさらに含み得る。加えて、各暗画素密度は射影に沿う1つの位置に対応し得る。複数の暗画素密度を求めたとき、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することによって、推定されるテキスト行を求めてもよく、このしきい値は、ユーザによって予め定められる、実験で求められる、自動的に求められる等のものであればよい。推定テキスト行しきい値が用いられる実施形態では、テキスト行の検出は、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したときに各位置をテキスト行として指定することをさらに含む。
別の実施形態では、テキスト行の検出は、デジタル画像内の非背景要素の接続された構成要素を検出すること、および、複数の接続された構成要素に基づいて推定される複数の文字を判断することを含み得る。推定される文字は、所与の方向の予め定められた数の明から暗への移行によって特徴付けられるデジタル画像の領域であってもよく、たとえば、大文字「E」を示すデジタル画像の小さな領域においてみられるような垂直方向の3つの明から暗への移行であり、明から暗への各移行は、文書の背景(明)から文字「E」の水平方向の字画のうちの1つへの移行に対応する。当然ながら、他の数の明から暗への移行を用いる場合もあり、たとえば、文字「o」の場合は2つの垂直方向および/または水平方向の明から暗への移行であり、文字「l」の場合は1つの垂直方向の明から暗への移行である。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、文字と推定されるという判断がなされると、テキストの行を、複数の隣合う文字を有する画像の領域を識別することによって求めてもよく、隣合う複数の文字のテキストベースラインに従ってテキスト行を定めてもよい。
いくつかのアプローチにおいて、一次元に沿って画像を射影した結果に基づいて画像の向きを判断および/または操作することが可能である。たとえば、射影によって、低暗画素密度領域を間に挟んで高暗画素密度領域がある一次元パターンが生まれた場合、この射影は、テキスト行の向きの長手方向軸に垂直な軸に沿って行なわれたと考えられる(すなわちテキストの向きが画像のx軸に沿って左から右である「縦置き」の文書の場合、射影はy軸に沿い、テキストの向きが画像のy軸に沿って下から上である「横置き」の文書の場合、射影はx軸に沿う)。この推定による判断に基づいて、射影の結果に従い画像の向きを任意で回転させてもよくおよび/または向きを設定し直してもよい。
一次元射影に沿う暗画素密度に基づいてテキスト行を検出することは、特にカラー画像では難しいことを当業者は理解するであろう。たとえば、文書によっては、テキストのカラーが背景よりも相対的に明るいことがあり、その場合、暗画素密度は、テキストの存在ではなくテキストがないと推定されることを示すであろう。この場合、テキスト行の検出は、ある位置が、暗画素密度が暗画素密度しきい値よりも小さいことによって特徴付けられると判断した場合、射影に沿うその位置の近くにあるテキスト行と推定されるものを指定することを含み得る。
加えて、テキストはさまざまな色で表わされる場合があり、暗画素密度だけでは、テキスト行であると推定されるものを識別するのに不十分な特性かもしれない。この課題に対処するために、カラー画像におけるテキスト行を検出することは、好ましくは、デジタル画像の各色チャネルを、1つの次元に沿う1つのチャネル上に射影することを含む。言い換えると、色チャネルの強度値(たとえば0〜255の整数)を1つの強度値に変換する。この変換は、何らかの適切な機能に従って実施すればよく、好ましい実施形態では、所与の画素または一組の画素の各色チャネルの強度を平均し、画素または一組の画素に、色チャネル強度値の平均値に従って代表的な強度値を割当てる。
別の実施形態において、データ抽出は、オブジェクトクラスを、注目情報を含むオブジェクト領域の1つ以上のリスト、たとえば、テキストを含むまたはテキストおよび予測されるテキストの色を含み得る文書の矩形領域のリストと関連付けることを含み得る。
実例となる1つの例において、モバイル装置のディスプレイを介してユーザにオブジェクトの画像を提示する。ユーザは、モバイル装置のディスプレイを介して画像と対話し、たとえばユーザの名前、住所、免許証番号等を表示している領域を示す、1つ以上の注目領域を規定する。ユーザは、多数の画像に対してこのプロセスを繰返すことができ、そうすることによって、意図的にまたは透明なプロセスの一部として訓練画像を提供する。十分な数の訓練例が規定されたら(たとえば運転免許証のような小さな文書の場合は約5)、訓練アルゴリズムを自動的にまたはユーザの判断で実行してもよい。訓練の結果としての抽出モデルを用いて、その後提示される未知の文書の関連する位置および矩形を、すべてOCR技術を利用することなく、自動的に抽出することができる。
他のアプローチでは、上記方法に従ってデータを抽出した後で、OCR技術を単なるデータ抽出以外の目的で利用してもよい。たとえば、OCRをモバイル装置のプロセッサを用いて実行してもよく、画像全体の小さなサブセットのみにOCRを行なってもよい。これに代えて、OCRをサーバのプロセッサを用いて実施してもよい。モバイル装置とサーバとの通信時間を短縮するために、画像の一部のみをOCRを用いて処理してサーバに送信してもよい。
他の実施形態において、分類および/または抽出結果を、検証のため、たとえば割当てられたクラス等の確認、否認、修正のためにユーザに提示してもよい。たとえば、半自動または全自動プロセスを本明細書で規定するような判別基準とともに用いてオブジェクトを分類したときに、分類とこの分類が関連するデジタル画像とを(たとえばモバイル装置のディスプレイ上で)ユーザ対して表示して、ユーザがその分類を確認または否認できるようにしてもよい。ユーザは、分類を否認したときは、デジタル画像に示されたオブジェクトの「正しい」分類を手作業で示してもよい。好ましいアプローチでは、このユーザ入力を利用して、継続中の「訓練」を分類器に与えてもよい。当然ながら、ユーザ入力は、本開示の範囲から逸脱することなく本明細書に記載のいくつかの動作に関連して与えてもよい。
さらに他の好ましい実施形態において、上記検証を、ユーザ入力を必要とすることなく実行してもよい。たとえば、抽出結果の自動検証を実行することによって、ユーザが抽出結果を見直すおよび/または訂正する必要性を軽減することが可能である。一般的に、この技術は、抽出された値が正しいことがわかっているか否か確認するために外部システムまたはデータベースを参照することを含む。たとえば、名前と住所が抽出されたときは、場合によっては、当該人物が実際その住所に居住していると確認することが可能である。
さらに他の実施形態において、この検証原理は分類に及ぶ。たとえば、いくつかのアプローチにおいて、抽出が正しい場合分類も正しいと推測することが妥当である。この推測は、「正しい」抽出結果を得る方法は1つしかないという仮定に依拠している(たとえば、当業者が本明細書を読めば理解するように、ある値が、基準データソースにおける予測値と一致する、当該値についての予測フォーマットと一致する、予測される記号またはその他の値に関連付けられている等)。
本開示の範囲に含まれるデータ抽出のここでの説明は主として方法との関連で行なってきたが、本明細書に記載の発明の概念はシステムおよび/またはコンピュータプログラムプロダクトにおいても等しく実現し得ることを当業者は理解するであろう。
たとえば、本明細書の範囲に含まれるシステムは、プロセッサと、プロセッサ内のおよび/またはプロセッサによって実行可能なロジックとを含み、このロジックによりプロセッサに方法700および800等の本明細書に記載の方法のステップを実行させてもよい。
同様に、本明細書の範囲に含まれるコンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサによる読取および/または実行が可能であり、このプログラムコードによりプロセッサに方法700および800等の本明細書に記載の方法のステップを実行させてもよい。
あるアプローチにおいて、プロセスは、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識(OCR)機能を含まない。
この1つ以上のオブジェクト特徴はオブジェクトの1つ以上の注目領域を含み、好ましくは、注目領域のうちの1つ以上は1つ以上のテキスト文字を含む。加えて、抽出モデルが構築され、抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上をオブジェクト特徴のうちの1つ以上にマッピングすることと、少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む。さらに、抽出モデルは訓練され、抽出モデルの訓練は、オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他の(たとえば少なくとも4つの)オブジェクト特徴に基づく。抽出モデルは、モバイル装置のプロセッサを用いて訓練され、その後、たとえば、メモリ、別のモバイル装置、サーバ、データベース、ログファイル、出力等に格納および/またはエクスポートされる。抽出モデルからOCRは除外されるが、OCRを抽出モデルを適用した後で実行してもよく、たとえばオブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応するデジタル画像の1つ以上の領域に対してOCRを実行してもよい。オブジェクト内の1行以上のテキストが検出され、この検出は、デジタル画像を一次元に射影し、射影に沿う明領域と暗領域の分布を求め、複数の暗画素密度を求め‐各暗画素密度は射影に沿う1つの位置に対応し‐、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断し、各位置を、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することによって、行なう。デジタル画像の各色チャネルを上記一次元に沿う1つのチャネルに射影してもよい。
別のアプローチにおいて、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける1つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含み、抽出は光学式文字認識(OCR)を含まない。注目領域は1つ以上のテキスト文字を含む。この方法は、ユーザ入力に少なくとも一部基づいて新たなオブジェクトクラスを生成することを含む。抽出モデルは、新たなオブジェクトクラスに属する複数のオブジェクトからデータを抽出するように構成される。ユーザ入力は、任意で、複数のオブジェクトにおける複数の注目領域を含む。抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上をオブジェクト特徴のうちの1つ以上にマッピングすることと、少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む。さらに、このプロセスは、オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他の(たとえば少なくとも4つの)オブジェクトおよび/またはオブジェクト特徴に基づいて抽出モデルを訓練することを含む。この方法は、オブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応するデジタル画像の1つ以上の領域に対してOCRを実行することを含む。この方法は、オブジェクト内の1行以上のテキストを検出することを含み得る。検出は、デジタル画像を一次元に射影することと、射影に沿う明領域と暗領域の分布を求めることと、複数の暗画素密度を求めることとを含み、各暗画素密度は射影に沿う1つの位置に対応し、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、各位置を、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む。この方法は、任意で、デジタル画像の各色チャネルを上記一次元に沿う1つのチャネルに射影することを含み得る。
別のアプローチにおいて、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能/実行可能であり、プロセッサは、プログラムコードを読取る/実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求め、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。データを抽出するように構成されたコンピュータ読取可能なプログラムコードは、光学式文字認識(OCR)を利用するように構成されたコンピュータ読取可能なプログラムコードを含まない。
本明細書に開示される発明の概念を、複数の、説明のためのシナリオ、実施形態、および/または実装例における無数の特徴を説明するために、例示を目的として示してきた。概要が開示されているこれら概念は、モジュール方式とみなされるべきものであり、何らかの組合せ、入替え、または合成の形態で実現し得る。加えて、当業者が本明細書を読めば理解するであろう、ここで開示されている特徴、機能、および概念の修正、改変、または均等物も、この開示の範囲に含まれるとみなさるべきものである。
したがって、本発明の一実施形態は、図面のうちのいずれかに示されそれとの関連で記載されたものを含めて、本明細書に開示されている特徴すべてを含む。他の実施形態は、本明細書に開示されおよび/または図面のうちいずれかに示されそれとの関係で記載された特徴の一部を含む。このような特徴またはその一部は、当業者にとっては本明細書を読めば明らかになるであろう周知の技術を用いて任意のやり方で組み合わせてもよい。
以上さまざまな実施形態が説明されているが、これら実施形態は限定ではなく専ら例示のために示されていることが理解されるはずである。よって、本発明の実施形態の広さおよび範囲は、上記代表的な実施形態のいずれによっても限定されてはならず、以下の請求項およびこれらの均等物に従ってのみ定義されるべきものである。
Claims (26)
- 方法であって、
モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、
前記モバイル装置のプロセッサを用いて、
前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、
前記オブジェクトが前記特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、前記特定のオブジェクトクラスに少なくとも一部基づいて前記オブジェクトの1つ以上のオブジェクト特徴を求めることと、
前記求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、
前記抽出モデルを用いて前記デジタル画像からデータを抽出することとを含む、方法。 - 前記抽出モデルは光学式文字認識(OCR)を実行することをさらに含み、前記OCRは前記受けたまたは取込んだ画像の1つ以上の部分を除く前記デジタル画像の選択された部分に対して実行される、請求項1に記載の方法。
- 前記1つ以上のオブジェクト特徴は、前記オブジェクトの1つ以上の注目領域を含む、請求項1に記載の方法。
- 前記注目領域のうちの1つ以上は1つ以上のテキスト文字を含む、請求項3に記載の方法。
- 前記抽出モデルが構築され、前記抽出モデルを構築することは、
特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上を前記オブジェクト特徴のうちの1つ以上にマッピングすることと、
少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む、請求項1に記載の方法。 - 前記オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他のオブジェクト特徴に基づいて前記抽出モデルを訓練することをさらに含む、請求項1に記載の方法。
- 前記抽出モデルは前記モバイル装置の前記プロセッサを用いて訓練され、前記訓練された抽出モデルを格納および/またはエクスポートすることをさらに含む、請求項6に記載の方法。
- 前記少なくとも1つの他のオブジェクトは、少なくとも4つの他のオブジェクトを含む、請求項7に記載の方法。
- 前記オブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応する前記デジタル画像の1つ以上の領域に対してOCRを実行することをさらに含む、請求項1に記載の方法。
- 前記オブジェクト内の1行以上のテキストを検出することをさらに含む、請求項1に記載の方法。
- 前記検出することは、
前記デジタル画像を一次元に射影することと、
前記射影に沿う明領域と暗領域の分布を求めることと、
複数の暗画素密度を求めることとを含み、各暗画素密度は前記射影に沿う1つの位置に対応し、
各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、
各位置を、対応する暗画素密度が前記推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む、請求項10に記載の方法。 - 前記デジタル画像の各色チャネルを前記一次元に沿う1つのチャネルに射影することをさらに含む、請求項11に記載の方法。
- 方法であって、
モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、
前記モバイル装置のプロセッサを用いて、
前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、
前記オブジェクトが前記複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、前記デジタル画像を前記モバイル装置のディスプレイに表示することと、
前記モバイル装置の前記ディスプレイを介してユーザ入力を受けることとを含み、前記ユーザ入力は前記オブジェクトにおける1つ以上の注目領域を特定し、
前記ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、
前記抽出モデルに少なくとも一部基づいて前記デジタル画像からデータを抽出することとを含む、方法。 - 前記抽出することは光学式文字認識(OCR)を実行することをさらに含み、前記OCRは前記受けたまたは取込んだ画像の1つ以上の部分を除く前記デジタル画像の選択された部分に対して実行される、請求項13に記載の方法。
- 前記注目領域のうちの1つ以上は1つ以上のテキスト文字を含む、請求項13に記載の方法。
- 前記ユーザ入力に少なくとも一部基づいて新たなオブジェクトクラスを生成することをさらに含む、請求項13に記載の方法。
- 前記抽出モデルは、前記新たなオブジェクトクラスに属する複数のオブジェクトからデータを抽出するように構成される、請求項16に記載の方法。
- 前記ユーザ入力は複数のオブジェクト内の複数の注目領域を指定することを含む、請求項16に記載の方法。
- 前記抽出モデルを構築することは、
特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上をオブジェクト特徴のうちの1つ以上にマッピングすることと、
少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む、請求項16に記載の方法。 - 前記オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他のオブジェクト特徴に基づいて前記抽出モデルを訓練することをさらに含む、請求項16に記載の方法。
- 前記少なくとも1つの他のオブジェクトは、少なくとも4つの他のオブジェクトを含む、請求項20に記載の方法。
- オブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応する前記デジタル画像の1つ以上の領域に対してOCRを実行することをさらに含む、請求項16に記載の方法。
- 前記オブジェクト内の1行以上のテキストを検出することをさらに含む、請求項16に記載の方法。
- 前記検出することは、
前記デジタル画像を一次元に射影することと、
前記射影に沿う明領域と暗領域の分布を求めることと、
複数の暗画素密度を求めることとを含み、各暗画素密度は前記射影に沿う1つの位置に対応し、
各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、
各位置を、対応する暗画素密度が前記推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む、請求項16に記載の方法。 - 前記デジタル画像の各色チャネルを前記一次元に沿う1つのチャネルに射影することをさらに含む、請求項24に記載の方法。
- コンピュータプログラムプロダクトであって、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、前記プログラムコードはプロセッサにより読取可能/実行可能であり、前記プロセッサは、前記プログラムコードを読取る/実行することにより、
モバイル装置によって取込まれたデジタル画像を受け、
前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、
前記オブジェクトが前記特定のオブジェクトクラスに属すると判断したとき、前記特定のオブジェクトクラスに少なくとも一部基づいて前記オブジェクトの1つ以上のオブジェクト特徴を求め、
前記1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、
前記抽出モデルに少なくとも一部基づいて前記デジタル画像からデータを抽出する、コンピュータプログラムプロダクト。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361780747P | 2013-03-13 | 2013-03-13 | |
US61/780,747 | 2013-03-13 | ||
US14/209,825 | 2014-03-13 | ||
PCT/US2014/026569 WO2014160426A1 (en) | 2013-03-13 | 2014-03-13 | Classifying objects in digital images captured using mobile devices |
US14/209,825 US9311531B2 (en) | 2013-03-13 | 2014-03-13 | Systems and methods for classifying objects in digital images captured using mobile devices |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016517587A true JP2016517587A (ja) | 2016-06-16 |
Family
ID=51527335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016502178A Pending JP2016517587A (ja) | 2013-03-13 | 2014-03-13 | モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9311531B2 (ja) |
EP (1) | EP2973226A4 (ja) |
JP (1) | JP2016517587A (ja) |
CN (1) | CN105283884A (ja) |
WO (1) | WO2014160426A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018132894A (ja) * | 2017-02-14 | 2018-08-23 | 株式会社Pfu | 日付識別装置、日付識別方法及び日付識別プログラム |
JP2023144246A (ja) * | 2022-03-28 | 2023-10-11 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、制御方法、プログラム |
Families Citing this family (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US8879846B2 (en) | 2009-02-10 | 2014-11-04 | Kofax, Inc. | Systems, methods and computer program products for processing financial documents |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9165188B2 (en) | 2012-01-12 | 2015-10-20 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US10783615B2 (en) * | 2013-03-13 | 2020-09-22 | Kofax, Inc. | Content-based object detection, 3D reconstruction, and data extraction from digital images |
EP2973226A4 (en) | 2013-03-13 | 2016-06-29 | Kofax Inc | CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
EP2992481A4 (en) | 2013-05-03 | 2017-02-22 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
US20160189002A1 (en) * | 2013-07-18 | 2016-06-30 | Mitsubishi Electric Corporation | Target type identification device |
US9661074B2 (en) * | 2013-08-29 | 2017-05-23 | International Business Machines Corporations | Updating de-duplication tracking data for a dispersed storage network |
US11423370B2 (en) * | 2013-09-04 | 2022-08-23 | Raise Marketplace, Llc | Systems and methods for transferring value to and managing user selected accounts |
US11423371B2 (en) * | 2013-09-04 | 2022-08-23 | Raise Marketplace, Llc | Systems and methods for managing prepaid cards in a digital wallet, including transferring value from prepaid cards and managing user selected accounts |
US9386235B2 (en) | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
US9544655B2 (en) | 2013-12-13 | 2017-01-10 | Nant Holdings Ip, Llc | Visual hash tags via trending recognition activities, systems and methods |
US9858502B2 (en) * | 2014-03-31 | 2018-01-02 | Los Alamos National Security, Llc | Classification of multispectral or hyperspectral satellite imagery using clustering of sparse approximations on sparse representations in learned dictionaries obtained using efficient convolutional sparse coding |
US9946931B2 (en) | 2015-04-20 | 2018-04-17 | Los Alamos National Security, Llc | Change detection and change monitoring of natural and man-made features in multispectral and hyperspectral satellite imagery |
US9346168B2 (en) * | 2014-05-20 | 2016-05-24 | International Business Machines Corporation | Information technology asset type identification using a mobile vision-enabled robot |
US9940511B2 (en) * | 2014-05-30 | 2018-04-10 | Kofax, Inc. | Machine print, hand print, and signature discrimination |
CN104023249B (zh) | 2014-06-12 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 电视频道识别方法和装置 |
US9818154B1 (en) | 2014-06-27 | 2017-11-14 | Blinker, Inc. | System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate |
US10515285B2 (en) | 2014-06-27 | 2019-12-24 | Blinker, Inc. | Method and apparatus for blocking information from an image |
US9773184B1 (en) | 2014-06-27 | 2017-09-26 | Blinker, Inc. | Method and apparatus for receiving a broadcast radio service offer from an image |
US9600733B1 (en) | 2014-06-27 | 2017-03-21 | Blinker, Inc. | Method and apparatus for receiving car parts data from an image |
US10572758B1 (en) | 2014-06-27 | 2020-02-25 | Blinker, Inc. | Method and apparatus for receiving a financing offer from an image |
US9754171B1 (en) | 2014-06-27 | 2017-09-05 | Blinker, Inc. | Method and apparatus for receiving vehicle information from an image and posting the vehicle information to a website |
US10733471B1 (en) | 2014-06-27 | 2020-08-04 | Blinker, Inc. | Method and apparatus for receiving recall information from an image |
US9594971B1 (en) | 2014-06-27 | 2017-03-14 | Blinker, Inc. | Method and apparatus for receiving listings of similar vehicles from an image |
US9589202B1 (en) | 2014-06-27 | 2017-03-07 | Blinker, Inc. | Method and apparatus for receiving an insurance quote from an image |
US9607236B1 (en) | 2014-06-27 | 2017-03-28 | Blinker, Inc. | Method and apparatus for providing loan verification from an image |
US10867327B1 (en) | 2014-06-27 | 2020-12-15 | Blinker, Inc. | System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate |
US9558419B1 (en) | 2014-06-27 | 2017-01-31 | Blinker, Inc. | Method and apparatus for receiving a location of a vehicle service center from an image |
US9779318B1 (en) | 2014-06-27 | 2017-10-03 | Blinker, Inc. | Method and apparatus for verifying vehicle ownership from an image |
US9760776B1 (en) | 2014-06-27 | 2017-09-12 | Blinker, Inc. | Method and apparatus for obtaining a vehicle history report from an image |
US9892337B1 (en) | 2014-06-27 | 2018-02-13 | Blinker, Inc. | Method and apparatus for receiving a refinancing offer from an image |
US10579892B1 (en) | 2014-06-27 | 2020-03-03 | Blinker, Inc. | Method and apparatus for recovering license plate information from an image |
US10540564B2 (en) | 2014-06-27 | 2020-01-21 | Blinker, Inc. | Method and apparatus for identifying vehicle information from an image |
US9563814B1 (en) | 2014-06-27 | 2017-02-07 | Blinker, Inc. | Method and apparatus for recovering a vehicle identification number from an image |
US9589201B1 (en) | 2014-06-27 | 2017-03-07 | Blinker, Inc. | Method and apparatus for recovering a vehicle value from an image |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
CN105630817B (zh) * | 2014-11-03 | 2019-06-25 | 航天信息股份有限公司 | 一种电子发票内容解析的方法及系统 |
CN115357818A (zh) * | 2014-12-29 | 2022-11-18 | 创新先进技术有限公司 | 一种信息展示方法及装置 |
US10055672B2 (en) * | 2015-03-11 | 2018-08-21 | Microsoft Technology Licensing, Llc | Methods and systems for low-energy image classification |
US10268886B2 (en) * | 2015-03-11 | 2019-04-23 | Microsoft Technology Licensing, Llc | Context-awareness through biased on-device image classifiers |
EP3283983A4 (en) | 2015-04-16 | 2018-10-31 | Docauthority Ltd. | Structural document classification |
US9390315B1 (en) * | 2015-06-25 | 2016-07-12 | A9.Com, Inc. | Image match for featureless objects |
US10242285B2 (en) * | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US10007898B2 (en) * | 2015-08-25 | 2018-06-26 | Bank Of America Corporation | Database retrieval system |
WO2017058252A1 (en) * | 2015-10-02 | 2017-04-06 | Hewlett-Packard Development Company, L.P. | Detecting document objects |
US9864925B2 (en) * | 2016-02-15 | 2018-01-09 | Ebay Inc. | Digital image presentation |
US12008034B2 (en) | 2016-02-15 | 2024-06-11 | Ebay Inc. | Digital image presentation |
ITUA20161348A1 (it) * | 2016-03-04 | 2017-09-04 | System Spa | Metodo/dispositivo di rotazione di un’immagine e metodo/sistema di stampa comprendente detto metodo/dispositivo di rotazione |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US10235585B2 (en) * | 2016-04-11 | 2019-03-19 | The Nielsen Company (US) | Methods and apparatus to determine the dimensions of a region of interest of a target object from an image using target object landmarks |
JP6690089B2 (ja) * | 2016-04-25 | 2020-04-28 | 富士通株式会社 | 帳票認識方法、帳票認識装置、及び帳票認識プログラム |
EP3610452B1 (en) * | 2016-06-08 | 2024-04-24 | Google LLC | Generating a composite image from a physical item |
US9858476B1 (en) * | 2016-06-30 | 2018-01-02 | Konica Minolta Laboratory U.S.A., Inc. | Method for recognizing table, flowchart and text in document images |
CN106407997A (zh) * | 2016-07-14 | 2017-02-15 | 昆山饰爱阿智能科技有限公司 | 一种使用移动设备识别对象的系统及其识别方法 |
US10169649B2 (en) * | 2016-07-28 | 2019-01-01 | International Business Machines Corporation | Smart image filtering method with domain rules application |
CN106327448A (zh) * | 2016-08-31 | 2017-01-11 | 上海交通大学 | 一种基于深度学习的图片风格化处理方法 |
GB2554435B (en) * | 2016-09-27 | 2019-10-23 | Univ Leicester | Image processing |
US10083353B2 (en) * | 2016-10-28 | 2018-09-25 | Intuit Inc. | Identifying document forms using digital fingerprints |
CN108073927B (zh) * | 2016-11-18 | 2020-05-15 | 深圳怡化电脑股份有限公司 | 一种字符识别方法及装置 |
CN108255862B (zh) * | 2016-12-29 | 2019-09-17 | 北京国双科技有限公司 | 一种裁判文书的检索方法及装置 |
US11042586B2 (en) * | 2016-12-29 | 2021-06-22 | Shutterstock, Inc. | Clustering search results based on image composition |
US11158057B2 (en) | 2016-12-30 | 2021-10-26 | Huawei Technologies Co., Ltd. | Device, method, and graphical user interface for processing document |
US10803013B2 (en) | 2017-02-10 | 2020-10-13 | Smugmug, Inc. | Efficient similarity detection |
CN106919954A (zh) * | 2017-03-02 | 2017-07-04 | 深圳明创自控技术有限公司 | 一种用于商品分类的云计算系统 |
US10733482B1 (en) | 2017-03-08 | 2020-08-04 | Zoox, Inc. | Object height estimation from monocular images |
WO2018179223A1 (ja) * | 2017-03-30 | 2018-10-04 | 株式会社オプティム | 遠隔作業支援システム、遠隔作業支援方法およびプログラム |
KR102444148B1 (ko) * | 2017-04-17 | 2022-09-19 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
US11217344B2 (en) * | 2017-06-23 | 2022-01-04 | Abiomed, Inc. | Systems and methods for capturing data from a medical device |
US11657316B2 (en) * | 2017-07-10 | 2023-05-23 | General Electric Company | Self-feeding deep learning method and system |
US10776903B2 (en) * | 2017-07-17 | 2020-09-15 | Open Text Corporation | Systems and methods for image modification and image based content capture and extraction in neural networks |
US11176363B2 (en) * | 2017-09-29 | 2021-11-16 | AO Kaspersky Lab | System and method of training a classifier for determining the category of a document |
US10679101B2 (en) * | 2017-10-25 | 2020-06-09 | Hand Held Products, Inc. | Optical character recognition systems and methods |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
US10614604B2 (en) * | 2017-12-04 | 2020-04-07 | International Business Machines Corporation | Filling in an entity within an image |
US10636186B2 (en) * | 2017-12-04 | 2020-04-28 | International Business Machines Corporation | Filling in an entity within a video |
WO2019113576A1 (en) * | 2017-12-10 | 2019-06-13 | Walmart Apollo, Llc | Systems and methods for automated classification of regulatory reports |
CN108564099A (zh) * | 2017-12-11 | 2018-09-21 | 徐飞 | 基于标识纤维随机分布的图像识别区分药用植物的方法 |
CA3087070A1 (en) * | 2017-12-30 | 2019-07-04 | Yecheng WU | Backdrop color detection |
US10838968B2 (en) * | 2018-01-10 | 2020-11-17 | International Business Machines Corporation | Recommending exemplars of an unlabeled data-set |
RU2715515C2 (ru) | 2018-03-30 | 2020-02-28 | Акционерное общество "Лаборатория Касперского" | Система и способ выявления изображения, содержащего идентификационный документ |
DE102018109392A1 (de) | 2018-04-19 | 2019-10-24 | Beckhoff Automation Gmbh | Verfahren zum erfassen optischer codes, automatisierungssystem und computerprogrammprodukt zum durchführen des verfahrens |
US10366293B1 (en) * | 2018-04-24 | 2019-07-30 | Synapse Technology Corporation | Computer system and method for improving security screening |
KR102154393B1 (ko) * | 2018-06-20 | 2020-09-09 | 에임시스템 주식회사 | 기계 학습 기반의 자동 결함 분류 방법 |
CN110647603B (zh) * | 2018-06-27 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 图像标注信息的处理方法、装置和系统 |
WO2020056148A1 (en) * | 2018-09-12 | 2020-03-19 | PlantSnap, Inc. | Systems and methods for electronically identifying plant species |
CN109190594A (zh) * | 2018-09-21 | 2019-01-11 | 广东蔚海数问大数据科技有限公司 | 光学字符识别系统及信息提取方法 |
CN109670507B (zh) * | 2018-11-27 | 2020-11-06 | 维沃移动通信有限公司 | 图片处理方法、装置及移动终端 |
CN109557109B (zh) * | 2018-12-29 | 2021-07-30 | 中国肉类食品综合研究中心 | 冷冻肉品包装状态的检测方法及装置 |
US11462037B2 (en) | 2019-01-11 | 2022-10-04 | Walmart Apollo, Llc | System and method for automated analysis of electronic travel data |
CN111435432B (zh) * | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
CN109977832B (zh) * | 2019-03-19 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及存储介质 |
US10755062B1 (en) * | 2019-03-19 | 2020-08-25 | Cognex Corporation | System and method for evaluating symbols |
US11113838B2 (en) * | 2019-03-26 | 2021-09-07 | Nec Corporation | Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing |
US11501548B2 (en) * | 2019-04-02 | 2022-11-15 | Edgeverve Systems Limited | Method and system for determining one or more target objects in an image |
PL3921801T3 (pl) * | 2019-04-18 | 2023-07-24 | Alma Mater Studiorum - Università di Bologna | Tworzenie zmienności danych do szkolenia w uczeniu maszynowym do znakowania obiektów z obrazów |
US11055528B2 (en) * | 2019-06-06 | 2021-07-06 | Bank Of America Corporation | Real-time image capture correction device |
DE102019119138B4 (de) * | 2019-07-15 | 2022-01-20 | Deutsche Post Ag | Bestimmen einer Verteil- und/oder Sortierinformation zum automatisierten Verteilen und/oder Sortieren einer Sendung |
CN110705382A (zh) * | 2019-09-12 | 2020-01-17 | 武汉儒松科技有限公司 | 基于发票类别的电子发票管理方法、装置、设备及介质 |
CN111445433B (zh) * | 2019-10-14 | 2021-07-06 | 北京华宇信息技术有限公司 | 一种电子卷宗的空白页和模糊页的检测方法及装置 |
WO2021086988A1 (en) * | 2019-10-29 | 2021-05-06 | Healthpointe Solutions, Inc. | Image and information extraction to make decisions using curated medical knowledge |
CN111026937B (zh) * | 2019-11-13 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 提取poi名称的方法、装置、设备和计算机存储介质 |
CN111311550B (zh) * | 2020-01-20 | 2024-01-05 | 支付宝实验室(新加坡)有限公司 | 伪造证件的识别方法、装置及电子设备 |
CN111310426B (zh) * | 2020-01-22 | 2024-10-15 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
US11328170B2 (en) * | 2020-02-19 | 2022-05-10 | Toyota Research Institute, Inc. | Unknown object identification for robotic device |
CN111369923B (zh) * | 2020-02-26 | 2023-09-29 | 歌尔光学科技有限公司 | 显示屏幕异常点检测方法、检测设备和可读存储介质 |
US11513669B2 (en) | 2020-02-28 | 2022-11-29 | Micron Technology, Inc. | User interface for modifying pictures |
US11494886B2 (en) * | 2020-05-29 | 2022-11-08 | Adobe Inc. | Hierarchical multiclass exposure defects classification in images |
RU2739059C1 (ru) * | 2020-06-30 | 2020-12-21 | Анатолий Сергеевич Гавердовский | Способ проверки подлинности маркировки |
CN113761249B (zh) * | 2020-08-03 | 2024-10-22 | 北京沃东天骏信息技术有限公司 | 一种确定图片类型的方法和装置 |
JP7019007B1 (ja) * | 2020-09-28 | 2022-02-14 | 楽天グループ株式会社 | 照合システム、照合方法及びプログラム |
US11295483B1 (en) * | 2020-10-01 | 2022-04-05 | Bank Of America Corporation | System for immersive deep learning in a virtual reality environment |
JP2022146125A (ja) * | 2021-03-22 | 2022-10-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11816909B2 (en) | 2021-08-04 | 2023-11-14 | Abbyy Development Inc. | Document clusterization using neural networks |
CN114581786B (zh) * | 2021-12-28 | 2022-11-25 | 深圳市城市产业发展集团有限公司 | 一种根据地面图像估测建筑面积的方法和装置 |
CN114882040B (zh) * | 2022-07-12 | 2022-09-06 | 山东中治环境工程设备有限公司 | 一种基于模板匹配的污水处理检测方法 |
WO2024028450A1 (en) * | 2022-08-03 | 2024-02-08 | Amadeus S.A.S. | Data extraction system and method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298702A (ja) * | 1999-04-15 | 2000-10-24 | Canon Inc | 画像処理装置及びその方法、コンピュータ可読メモリ |
JP2011118513A (ja) * | 2009-12-01 | 2011-06-16 | Toshiba Corp | 文字認識装置および帳票識別方法 |
US20130004076A1 (en) * | 2011-06-29 | 2013-01-03 | Qualcomm Incorporated | System and method for recognizing text information in object |
Family Cites Families (529)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US1660102A (en) | 1923-06-04 | 1928-02-21 | William H Smyth | High-speed tracklaying tractor |
US3069654A (en) | 1960-03-25 | 1962-12-18 | Paul V C Hough | Method and means for recognizing complex patterns |
US3696599A (en) | 1971-07-16 | 1972-10-10 | Us Navy | Cable fairing system |
US4558461A (en) * | 1983-06-17 | 1985-12-10 | Litton Systems, Inc. | Text line bounding system |
US4836026A (en) | 1984-06-01 | 1989-06-06 | Science Applications International Corporation | Ultrasonic imaging system |
US4656665A (en) | 1985-01-15 | 1987-04-07 | International Business Machines Corporation | Thresholding technique for graphics images using histogram analysis |
DE3716787A1 (de) | 1986-05-19 | 1987-11-26 | Ricoh Kk | Zeichenerkennungsverfahren |
US4992863A (en) | 1987-12-22 | 1991-02-12 | Minolta Camera Kabushiki Kaisha | Colored image reading apparatus |
US5101448A (en) | 1988-08-24 | 1992-03-31 | Hitachi, Ltd. | Method and apparatus for processing a document by utilizing an image |
JPH02311083A (ja) | 1989-05-26 | 1990-12-26 | Ricoh Co Ltd | 原稿読取装置 |
US5159667A (en) | 1989-05-31 | 1992-10-27 | Borrey Roland G | Document identification by characteristics matching |
JP2940960B2 (ja) | 1989-10-31 | 1999-08-25 | 株式会社日立製作所 | 画像の傾き検出方法および補正方法ならびに画像情報処理装置 |
US5020112A (en) | 1989-10-31 | 1991-05-28 | At&T Bell Laboratories | Image recognition method using two-dimensional stochastic grammars |
US5063604A (en) | 1989-11-08 | 1991-11-05 | Transitions Research Corporation | Method and means for recognizing patterns represented in logarithmic polar coordinates |
IT1237803B (it) | 1989-12-21 | 1993-06-17 | Temav Spa | Procedimento per la preparazione di polveri fini di alluminio nitruro |
US5344132A (en) | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
JP2708263B2 (ja) | 1990-06-22 | 1998-02-04 | 富士写真フイルム株式会社 | 画像読取装置 |
JPH0488489A (ja) | 1990-08-01 | 1992-03-23 | Internatl Business Mach Corp <Ibm> | 一般化ハフ変換を用いた文字認識装置および方法 |
JPH04287290A (ja) | 1990-11-20 | 1992-10-12 | Imra America Inc | ハフ変換画像処理装置 |
KR930010845B1 (ko) | 1990-12-31 | 1993-11-12 | 주식회사 금성사 | 화상정보의 그림/문자 자동분리방법 |
JPH04270565A (ja) | 1991-02-20 | 1992-09-25 | Fuji Xerox Co Ltd | 画像圧縮装置 |
US5313527A (en) | 1991-06-07 | 1994-05-17 | Paragraph International | Method and apparatus for recognizing cursive writing from sequential input information |
US5293429A (en) * | 1991-08-06 | 1994-03-08 | Ricoh Company, Ltd. | System and method for automatically classifying heterogeneous business forms |
US5680525A (en) | 1991-08-08 | 1997-10-21 | Hitachi, Ltd. | Three-dimensional graphic system with an editor for generating a textrue mapping image |
US5586199A (en) | 1991-10-02 | 1996-12-17 | Fujitsu Limited | Method for determining orientation of contour line segment in local area and for determining straight line and corner |
US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
JP3191057B2 (ja) | 1991-11-22 | 2001-07-23 | 株式会社日立製作所 | 符号化画像データの処理方法および装置 |
US5359673A (en) | 1991-12-27 | 1994-10-25 | Xerox Corporation | Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities |
DE9202508U1 (de) | 1992-02-27 | 1992-04-09 | Georg Karl geka-brush GmbH, 8809 Bechhofen | Zahnreinigungsbürste |
US5317646A (en) | 1992-03-24 | 1994-05-31 | Xerox Corporation | Automated method for creating templates in a forms recognition and processing system |
DE4310727C2 (de) | 1992-04-06 | 1996-07-11 | Hell Ag Linotype | Verfahren und Einrichtung zur Analyse von Bildvorlagen |
US5268967A (en) | 1992-06-29 | 1993-12-07 | Eastman Kodak Company | Method for automatic foreground and background detection in digital radiographic images |
US5596655A (en) | 1992-08-18 | 1997-01-21 | Hewlett-Packard Company | Method for finding and classifying scanned information |
US5594815A (en) | 1992-10-19 | 1997-01-14 | Fast; Bruce B. | OCR image preprocessing method for image enhancement of scanned documents |
US5848184A (en) | 1993-03-15 | 1998-12-08 | Unisys Corporation | Document page analyzer and method |
JPH06274680A (ja) | 1993-03-17 | 1994-09-30 | Hitachi Ltd | 文書認識方法およびシステム |
US6002489A (en) | 1993-04-02 | 1999-12-14 | Fujitsu Limited | Product catalog having image evaluation chart |
JPH06314339A (ja) | 1993-04-27 | 1994-11-08 | Honda Motor Co Ltd | 画像の直線成分抽出装置 |
US5602964A (en) | 1993-05-21 | 1997-02-11 | Autometric, Incorporated | Automata networks and methods for obtaining optimized dynamically reconfigurable computational architectures and controls |
US7082426B2 (en) | 1993-06-18 | 2006-07-25 | Cnet Networks, Inc. | Content aggregation method and apparatus for an on-line product catalog |
US5353673A (en) | 1993-09-07 | 1994-10-11 | Lynch John H | Brass-wind musical instrument mouthpiece with radially asymmetric lip restrictor |
JP2720924B2 (ja) | 1993-09-21 | 1998-03-04 | 富士ゼロックス株式会社 | 画像信号の符号化装置 |
US6219773B1 (en) | 1993-10-18 | 2001-04-17 | Via-Cyrix, Inc. | System and method of retiring misaligned write operands from a write buffer |
EP0654746B1 (en) | 1993-11-24 | 2003-02-12 | Canon Kabushiki Kaisha | Form identification and processing system |
US5546474A (en) | 1993-12-21 | 1996-08-13 | Hewlett-Packard Company | Detection of photo regions in digital images |
US5671463A (en) | 1993-12-28 | 1997-09-23 | Minolta Co., Ltd. | Image forming apparatus capable of forming a plurality of images from different originals on a single copy sheet |
US5473742A (en) | 1994-02-22 | 1995-12-05 | Paragraph International | Method and apparatus for representing image data using polynomial approximation method and iterative transformation-reparametrization technique |
US5699244A (en) | 1994-03-07 | 1997-12-16 | Monsanto Company | Hand-held GUI PDA with GPS/DGPS receiver for collecting agronomic and GPS position data |
JP3163215B2 (ja) | 1994-03-07 | 2001-05-08 | 日本電信電話株式会社 | 直線抽出ハフ変換画像処理装置 |
JP3311135B2 (ja) | 1994-03-23 | 2002-08-05 | 積水化学工業株式会社 | 検査範囲認識方法 |
EP0677818B1 (en) | 1994-04-15 | 2000-05-10 | Canon Kabushiki Kaisha | Image pre-processor for character recognition system |
US5652663A (en) | 1994-07-29 | 1997-07-29 | Polaroid Corporation | Preview buffer for electronic scanner |
US5563723A (en) | 1994-08-31 | 1996-10-08 | Eastman Kodak Company | Method of calibration of image scanner signal processing circuits |
US5757963A (en) | 1994-09-30 | 1998-05-26 | Xerox Corporation | Method and apparatus for complex column segmentation by major white region pattern matching |
JP3494326B2 (ja) | 1994-10-19 | 2004-02-09 | ミノルタ株式会社 | 画像形成装置 |
US5696611A (en) | 1994-11-08 | 1997-12-09 | Matsushita Graphic Communication Systems, Inc. | Color picture processing apparatus for reproducing a color picture having a smoothly changed gradation |
EP0723247B1 (en) | 1995-01-17 | 1998-07-29 | Eastman Kodak Company | Document image assessment system and method |
US5822454A (en) | 1995-04-10 | 1998-10-13 | Rebus Technology, Inc. | System and method for automatic page registration and automatic zone detection during forms processing |
US5857029A (en) | 1995-06-05 | 1999-01-05 | United Parcel Service Of America, Inc. | Method and apparatus for non-contact signature imaging |
DK71495A (da) | 1995-06-22 | 1996-12-23 | Purup Prepress As | Fremgangsmåde og apparat til korrektion af farvestik i digitalt billede |
JPH0962826A (ja) | 1995-08-22 | 1997-03-07 | Fuji Photo Film Co Ltd | 画像読取装置 |
US5781665A (en) | 1995-08-28 | 1998-07-14 | Pitney Bowes Inc. | Apparatus and method for cropping an image |
US5825915A (en) | 1995-09-12 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Object detecting apparatus in which the position of a planar object is estimated by using hough transform |
EP0870246B1 (en) | 1995-09-25 | 2007-06-06 | Adobe Systems Incorporated | Optimum access to electronic documents |
DE69620533T2 (de) | 1995-10-04 | 2002-10-02 | Canon K.K., Tokio/Tokyo | Bildverarbeitungsverfahren |
JPH09116720A (ja) | 1995-10-20 | 1997-05-02 | Matsushita Graphic Commun Syst Inc | Ocrファクシミリ装置とこの通信システム |
US6009196A (en) | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US5987172A (en) | 1995-12-06 | 1999-11-16 | Cognex Corp. | Edge peak contour tracker |
US6009191A (en) | 1996-02-15 | 1999-12-28 | Intel Corporation | Computer implemented method for compressing 48-bit pixels to 16-bit pixels |
US5937084A (en) | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
SE510310C2 (sv) | 1996-07-19 | 1999-05-10 | Ericsson Telefon Ab L M | Förfarande jämte anordning för rörelse-esimering och segmentering |
US6038348A (en) | 1996-07-24 | 2000-03-14 | Oak Technology, Inc. | Pixel image enhancement system and method |
US5696805A (en) | 1996-09-17 | 1997-12-09 | Eastman Kodak Company | Apparatus and method for identifying specific bone regions in digital X-ray images |
JP3685421B2 (ja) | 1996-09-18 | 2005-08-17 | 富士写真フイルム株式会社 | 画像処理装置 |
US5899978A (en) | 1996-10-07 | 1999-05-04 | Title America | Titling system and method therefor |
JPH10117262A (ja) | 1996-10-09 | 1998-05-06 | Fuji Photo Film Co Ltd | 画像処理装置 |
JP2940496B2 (ja) | 1996-11-05 | 1999-08-25 | 日本電気株式会社 | パタンマッチング符号化装置及び方法 |
US6104840A (en) | 1996-11-08 | 2000-08-15 | Ricoh Company, Ltd. | Method and system for generating a composite image from partially overlapping adjacent images taken along a plurality of axes |
US6512848B2 (en) | 1996-11-18 | 2003-01-28 | Canon Kabushiki Kaisha | Page analysis system |
JP3748141B2 (ja) | 1996-12-26 | 2006-02-22 | 株式会社東芝 | 画像形成装置 |
US6098065A (en) | 1997-02-13 | 2000-08-01 | Nortel Networks Corporation | Associative search engine |
US6233059B1 (en) | 1997-02-19 | 2001-05-15 | Canon Kabushiki Kaisha | Scanner device and control method thereof, and image input system |
JP2927350B2 (ja) | 1997-03-27 | 1999-07-28 | 株式会社モノリス | 多重解像度フィルタ処理方法およびその方法を利用することのできる画像マッチング方法 |
SE511242C2 (sv) | 1997-04-01 | 1999-08-30 | Readsoft Ab | Förfarande och anordning för automatisk datafångst hos formulär |
US6154217A (en) | 1997-04-15 | 2000-11-28 | Software Architects, Inc. | Gamut restriction of color image |
US6005958A (en) | 1997-04-23 | 1999-12-21 | Automotive Systems Laboratory, Inc. | Occupant type and position detection system |
US6067385A (en) | 1997-05-07 | 2000-05-23 | Ricoh Company Limited | System for aligning document images when scanned in duplex mode |
US6433896B1 (en) | 1997-06-10 | 2002-08-13 | Minolta Co., Ltd. | Image processing apparatus |
KR100420819B1 (ko) | 1997-06-25 | 2004-04-17 | 마쯔시다덴기산교 가부시키가이샤 | 휘도계조표시방법 |
JP3877385B2 (ja) | 1997-07-04 | 2007-02-07 | 大日本スクリーン製造株式会社 | 画像処理パラメータ決定装置およびその方法 |
JP3061019B2 (ja) | 1997-08-04 | 2000-07-10 | トヨタ自動車株式会社 | 内燃機関 |
US5953388A (en) | 1997-08-18 | 1999-09-14 | George Mason University | Method and apparatus for processing data from a tomographic imaging system |
JP3891654B2 (ja) | 1997-08-20 | 2007-03-14 | 株式会社東芝 | 画像形成装置 |
US6005968A (en) | 1997-08-29 | 1999-12-21 | X-Rite, Incorporated | Scanner calibration and correction techniques using scaled lightness values |
JPH1178112A (ja) | 1997-09-09 | 1999-03-23 | Konica Corp | 画像形成装置及び画像形成方法 |
JPH1186021A (ja) | 1997-09-09 | 1999-03-30 | Fuji Photo Film Co Ltd | 画像処理装置 |
US6011595A (en) | 1997-09-19 | 2000-01-04 | Eastman Kodak Company | Method for segmenting a digital image into a foreground region and a key color region |
JPH1191169A (ja) | 1997-09-19 | 1999-04-06 | Fuji Photo Film Co Ltd | 画像処理装置 |
US6480624B1 (en) | 1997-09-30 | 2002-11-12 | Minolta Co., Ltd. | Color discrimination apparatus and method |
JP3608920B2 (ja) | 1997-10-14 | 2005-01-12 | 株式会社ミツトヨ | 非接触画像計測システム |
US6434620B1 (en) | 1998-08-27 | 2002-08-13 | Alacritech, Inc. | TCP/IP offload network interface device |
US5867264A (en) | 1997-10-15 | 1999-02-02 | Pacific Advanced Technology | Apparatus for image multispectral sensing employing addressable spatial mask |
US6243722B1 (en) | 1997-11-24 | 2001-06-05 | International Business Machines Corporation | Method and system for a network-based document review tool utilizing comment classification |
US6222613B1 (en) | 1998-02-10 | 2001-04-24 | Konica Corporation | Image processing method and apparatus |
DE19809790B4 (de) | 1998-03-09 | 2005-12-22 | Daimlerchrysler Ag | Verfahren zur Ermittlung einer Drallstruktur in der Oberfläche eines feinbearbeiteten zylindrischen Werkstücks |
JPH11261821A (ja) | 1998-03-12 | 1999-09-24 | Fuji Photo Film Co Ltd | 画像処理方法 |
JP3457562B2 (ja) | 1998-04-06 | 2003-10-20 | 富士写真フイルム株式会社 | 画像処理装置及び方法 |
US6327581B1 (en) | 1998-04-06 | 2001-12-04 | Microsoft Corporation | Methods and apparatus for building a support vector machine classifier |
US7194471B1 (en) | 1998-04-10 | 2007-03-20 | Ricoh Company, Ltd. | Document classification system and method for classifying a document according to contents of the document |
US6393147B2 (en) | 1998-04-13 | 2002-05-21 | Intel Corporation | Color region based recognition of unidentified objects |
US8955743B1 (en) | 1998-04-17 | 2015-02-17 | Diebold Self-Service Systems Division Of Diebold, Incorporated | Automated banking machine with remote user assistance |
US6789069B1 (en) | 1998-05-01 | 2004-09-07 | Biowulf Technologies Llc | Method for enhancing knowledge discovered from biological data using a learning machine |
US7617163B2 (en) | 1998-05-01 | 2009-11-10 | Health Discovery Corporation | Kernels and kernel methods for spectral data |
JPH11328408A (ja) | 1998-05-12 | 1999-11-30 | Advantest Corp | データ処理装置および方法、情報記憶媒体 |
US6748109B1 (en) | 1998-06-16 | 2004-06-08 | Fuji Photo Film Co., Ltd | Digital laboratory system for processing photographic images |
US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6161130A (en) | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6831755B1 (en) | 1998-06-26 | 2004-12-14 | Sony Corporation | Printer having image correcting capability |
US7253836B1 (en) | 1998-06-30 | 2007-08-07 | Nikon Corporation | Digital camera, storage medium for image signal processing, carrier wave and electronic camera |
US6456738B1 (en) | 1998-07-16 | 2002-09-24 | Ricoh Company, Ltd. | Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document |
FR2781475B1 (fr) | 1998-07-23 | 2000-09-08 | Alsthom Cge Alcatel | Utilisation d'un creuset en graphite poreux pour traiter des granules de silice |
US6219158B1 (en) | 1998-07-31 | 2001-04-17 | Hewlett-Packard Company | Method and apparatus for a dynamically variable scanner, copier or facsimile secondary reflective surface |
US6385346B1 (en) | 1998-08-04 | 2002-05-07 | Sharp Laboratories Of America, Inc. | Method of display and control of adjustable parameters for a digital scanner device |
US6292168B1 (en) | 1998-08-13 | 2001-09-18 | Xerox Corporation | Period-based bit conversion method and apparatus for digital image processing |
JP2000067065A (ja) | 1998-08-20 | 2000-03-03 | Ricoh Co Ltd | 文書画像識別方法および記録媒体 |
US6373507B1 (en) | 1998-09-14 | 2002-04-16 | Microsoft Corporation | Computer-implemented image acquistion system |
US7017108B1 (en) | 1998-09-15 | 2006-03-21 | Canon Kabushiki Kaisha | Method and apparatus for reproducing a linear document having non-linear referential links |
US6263122B1 (en) | 1998-09-23 | 2001-07-17 | Hewlett Packard Company | System and method for manipulating regions in a scanned image |
US6223223B1 (en) | 1998-09-30 | 2001-04-24 | Hewlett-Packard Company | Network scanner contention handling method |
US6575367B1 (en) | 1998-11-05 | 2003-06-10 | Welch Allyn Data Collection, Inc. | Image data binarization methods enabling optical reader to read fine print indicia |
US6370277B1 (en) | 1998-12-07 | 2002-04-09 | Kofax Image Products, Inc. | Virtual rescanning: a method for interactive document image quality enhancement |
US6480304B1 (en) | 1998-12-09 | 2002-11-12 | Scansoft, Inc. | Scanning system and method |
US6396599B1 (en) | 1998-12-21 | 2002-05-28 | Eastman Kodak Company | Method and apparatus for modifying a portion of an image in accordance with colorimetric parameters |
US6765685B1 (en) | 1999-01-22 | 2004-07-20 | Ricoh Company, Ltd. | Printing electronic documents with automatically interleaved separation sheets |
US7003719B1 (en) | 1999-01-25 | 2006-02-21 | West Publishing Company, Dba West Group | System, method, and software for inserting hyperlinks into documents |
US6614930B1 (en) | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
JP2000227316A (ja) | 1999-02-04 | 2000-08-15 | Keyence Corp | 検査装置 |
US6646765B1 (en) | 1999-02-19 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Selective document scanning method and apparatus |
JP2000251012A (ja) | 1999-03-01 | 2000-09-14 | Hitachi Ltd | 帳票処理方法およびシステム |
EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US6590676B1 (en) | 1999-05-18 | 2003-07-08 | Electronics For Imaging, Inc. | Image reconstruction architecture |
EP1054331A3 (en) | 1999-05-21 | 2003-11-12 | Hewlett-Packard Company, A Delaware Corporation | System and method for storing and retrieving document data |
JP2000354144A (ja) | 1999-06-11 | 2000-12-19 | Ricoh Co Ltd | 文書読取装置 |
JP4626007B2 (ja) | 1999-06-14 | 2011-02-02 | 株式会社ニコン | 画像処理方法、画像処理プログラムを記録した機械読み取り可能な記録媒体、および画像処理装置 |
US7051274B1 (en) | 1999-06-24 | 2006-05-23 | Microsoft Corporation | Scalable computing system for managing annotations |
JP4114279B2 (ja) | 1999-06-25 | 2008-07-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置 |
US6501855B1 (en) | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
IL131092A (en) | 1999-07-25 | 2006-08-01 | Orbotech Ltd | Optical inspection system |
US6628808B1 (en) | 1999-07-28 | 2003-09-30 | Datacard Corporation | Apparatus and method for verifying a scanned image |
US6628416B1 (en) | 1999-10-13 | 2003-09-30 | Umax Data Systems, Inc. | Method and user interface for performing a scan operation for a scanner coupled to a computer system |
JP3501031B2 (ja) | 1999-08-24 | 2004-02-23 | 日本電気株式会社 | 画像領域判定装置、画像領域判定方法及びそのプログラムを記憶した記憶媒体 |
JP3587506B2 (ja) | 1999-08-30 | 2004-11-10 | 富士重工業株式会社 | ステレオカメラの調整装置 |
US6633857B1 (en) | 1999-09-04 | 2003-10-14 | Microsoft Corporation | Relevance vector machine |
US6601026B2 (en) | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
JP2001103255A (ja) | 1999-09-30 | 2001-04-13 | Minolta Co Ltd | 画像処理システム |
US6839466B2 (en) | 1999-10-04 | 2005-01-04 | Xerox Corporation | Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding |
US7430066B2 (en) | 1999-10-13 | 2008-09-30 | Transpacific Ip, Ltd. | Method and user interface for performing an automatic scan operation for a scanner coupled to a computer system |
JP4377494B2 (ja) | 1999-10-22 | 2009-12-02 | 東芝テック株式会社 | 情報入力装置 |
JP4094789B2 (ja) | 1999-11-26 | 2008-06-04 | 富士通株式会社 | 画像処理装置及び画像処理方法 |
US6751349B2 (en) | 1999-11-30 | 2004-06-15 | Fuji Photo Film Co., Ltd. | Image processing system |
US7735721B1 (en) | 1999-11-30 | 2010-06-15 | Diebold Self-Service Systems Division Of Diebold, Incorporated | Method of evaluating checks deposited into a cash dispensing automated banking machine |
US7337389B1 (en) | 1999-12-07 | 2008-02-26 | Microsoft Corporation | System and method for annotating an electronic document independently of its content |
US6665425B1 (en) | 1999-12-16 | 2003-12-16 | Xerox Corporation | Systems and methods for automated image quality based diagnostics and remediation of document processing systems |
US20010027420A1 (en) | 1999-12-21 | 2001-10-04 | Miroslav Boublik | Method and apparatus for capturing transaction data |
US6724916B1 (en) | 2000-01-05 | 2004-04-20 | The United States Of America As Represented By The Secretary Of The Navy | Composite hough transform for multitarget multisensor tracking |
US6778684B1 (en) | 2000-01-20 | 2004-08-17 | Xerox Corporation | Systems and methods for checking image/document quality |
JP2001218047A (ja) | 2000-02-04 | 2001-08-10 | Fuji Photo Film Co Ltd | 画像処理装置 |
JP2001309128A (ja) | 2000-02-24 | 2001-11-02 | Xerox Corp | 画像取得制御システム |
US7149347B1 (en) | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US6859909B1 (en) | 2000-03-07 | 2005-02-22 | Microsoft Corporation | System and method for annotating web-based documents |
US6643413B1 (en) | 2000-03-27 | 2003-11-04 | Microsoft Corporation | Manifold mosaic hopping for image-based rendering |
US6757081B1 (en) | 2000-04-07 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Methods and apparatus for analyzing and image and for controlling a scanner |
SE0001312D0 (sv) | 2000-04-10 | 2000-04-10 | Abb Ab | Industrirobot |
US6337925B1 (en) | 2000-05-08 | 2002-01-08 | Adobe Systems Incorporated | Method for determining a border in a complex scene with applications to image masking |
US20020030831A1 (en) | 2000-05-10 | 2002-03-14 | Fuji Photo Film Co., Ltd. | Image correction method |
US6469801B1 (en) | 2000-05-17 | 2002-10-22 | Heidelberger Druckmaschinen Ag | Scanner with prepress scaling mode |
US6763515B1 (en) | 2000-06-05 | 2004-07-13 | National Instruments Corporation | System and method for automatically generating a graphical program to perform an image processing algorithm |
US6701009B1 (en) | 2000-06-06 | 2004-03-02 | Sharp Laboratories Of America, Inc. | Method of separated color foreground and background pixel improvement |
US20030120653A1 (en) | 2000-07-05 | 2003-06-26 | Sean Brady | Trainable internet search engine and methods of using |
JP4023075B2 (ja) | 2000-07-10 | 2007-12-19 | 富士ゼロックス株式会社 | 画像取得装置 |
US6463430B1 (en) | 2000-07-10 | 2002-10-08 | Mohomine, Inc. | Devices and methods for generating and managing a database |
JP4171574B2 (ja) | 2000-07-21 | 2008-10-22 | 富士フイルム株式会社 | 画像処理条件決定装置および画像処理条件決定プログラム記憶媒体 |
US7624337B2 (en) | 2000-07-24 | 2009-11-24 | Vmark, Inc. | System and method for indexing, searching, identifying, and editing portions of electronic multimedia files |
US6675159B1 (en) | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
AU2001280929A1 (en) | 2000-07-28 | 2002-02-13 | Raf Technology, Inc. | Orthogonal technology for multi-line character recognition |
US6850653B2 (en) | 2000-08-08 | 2005-02-01 | Canon Kabushiki Kaisha | Image reading system, image reading setting determination apparatus, reading setting determination method, recording medium, and program |
US6901170B1 (en) | 2000-09-05 | 2005-05-31 | Fuji Xerox Co., Ltd. | Image processing device and recording medium |
JP3720740B2 (ja) | 2000-09-12 | 2005-11-30 | キヤノン株式会社 | 分散印刷システム、分散印刷制御方法、記憶媒体、及びプログラム |
US7002700B1 (en) | 2000-09-14 | 2006-02-21 | Electronics For Imaging, Inc. | Method and system for merging scan files into a color workflow |
US7738706B2 (en) | 2000-09-22 | 2010-06-15 | Sri International | Method and apparatus for recognition of symbols in images of three-dimensional scenes |
DE10047219A1 (de) | 2000-09-23 | 2002-06-06 | Adolf Wuerth Gmbh & Co Kg | Blechklammer |
JP4472847B2 (ja) | 2000-09-28 | 2010-06-02 | キヤノン電子株式会社 | 画像処理装置及びその制御方法、画像入力装置及びその制御方法、並びに記憶媒体 |
US6621595B1 (en) | 2000-11-01 | 2003-09-16 | Hewlett-Packard Development Company, L.P. | System and method for enhancing scanned document images for color printing |
US20050060162A1 (en) | 2000-11-10 | 2005-03-17 | Farhad Mohit | Systems and methods for automatic identification and hyperlinking of words or other data items and for information retrieval using hyperlinked words or data items |
US7043080B1 (en) | 2000-11-21 | 2006-05-09 | Sharp Laboratories Of America, Inc. | Methods and systems for text detection in mixed-context documents using local geometric signatures |
US6788308B2 (en) | 2000-11-29 | 2004-09-07 | Tvgateway,Llc | System and method for improving the readability of text |
EP1211594A3 (en) | 2000-11-30 | 2006-05-24 | Canon Kabushiki Kaisha | Apparatus and method for controlling user interface |
US6921220B2 (en) | 2000-12-19 | 2005-07-26 | Canon Kabushiki Kaisha | Image processing system, data processing apparatus, data processing method, computer program and storage medium |
US6826311B2 (en) | 2001-01-04 | 2004-11-30 | Microsoft Corporation | Hough transform supporting methods and arrangements |
US7266768B2 (en) | 2001-01-09 | 2007-09-04 | Sharp Laboratories Of America, Inc. | Systems and methods for manipulating electronic information using a three-dimensional iconic representation |
US6522791B2 (en) | 2001-01-23 | 2003-02-18 | Xerox Corporation | Dynamic user interface with scanned image improvement assist |
US6909805B2 (en) * | 2001-01-31 | 2005-06-21 | Matsushita Electric Industrial Co., Ltd. | Detecting and utilizing add-on information from a scanned document image |
US6882983B2 (en) | 2001-02-05 | 2005-04-19 | Notiva Corporation | Method and system for processing transactions |
US6950555B2 (en) | 2001-02-16 | 2005-09-27 | Parascript Llc | Holistic-analytical recognition of handwritten text |
JP2002247371A (ja) | 2001-02-21 | 2002-08-30 | Ricoh Co Ltd | 画像処理装置および画像処理プログラムを記録した記録媒体 |
US6944602B2 (en) | 2001-03-01 | 2005-09-13 | Health Discovery Corporation | Spectral kernels for learning machines |
JP2002300386A (ja) | 2001-03-30 | 2002-10-11 | Fuji Photo Film Co Ltd | 画像処理方法 |
US7145699B2 (en) | 2001-03-30 | 2006-12-05 | Sharp Laboratories Of America, Inc. | System and method for digital document alignment |
US20020165717A1 (en) | 2001-04-06 | 2002-11-07 | Solmer Robert P. | Efficient method for information extraction |
US6658147B2 (en) | 2001-04-16 | 2003-12-02 | Parascript Llc | Reshaping freehand drawn lines and shapes in an electronic document |
JP3824209B2 (ja) | 2001-04-18 | 2006-09-20 | 三菱電機株式会社 | 文書自動分割装置 |
US7023447B2 (en) | 2001-05-02 | 2006-04-04 | Eastman Kodak Company | Block sampling based method and apparatus for texture synthesis |
US7006707B2 (en) | 2001-05-03 | 2006-02-28 | Adobe Systems Incorporated | Projecting images onto a surface |
AU2002305652A1 (en) | 2001-05-18 | 2002-12-03 | Biowulf Technologies, Llc | Methods for feature selection in a learning machine |
US6944357B2 (en) | 2001-05-24 | 2005-09-13 | Microsoft Corporation | System and process for automatically determining optimal image compression methods for reducing file size |
FR2825817B1 (fr) | 2001-06-07 | 2003-09-19 | Commissariat Energie Atomique | Procede de traitement d'images pour l'extraction automatique d'elements semantiques |
US20030030638A1 (en) | 2001-06-07 | 2003-02-13 | Karl Astrom | Method and apparatus for extracting information from a target area within a two-dimensional graphical object in an image |
US7403313B2 (en) | 2001-09-27 | 2008-07-22 | Transpacific Ip, Ltd. | Automatic scanning parameter setting device and method |
US7154622B2 (en) | 2001-06-27 | 2006-12-26 | Sharp Laboratories Of America, Inc. | Method of routing and processing document images sent using a digital scanner and transceiver |
US7298903B2 (en) * | 2001-06-28 | 2007-11-20 | Microsoft Corporation | Method and system for separating text and drawings in digital ink |
US7013047B2 (en) | 2001-06-28 | 2006-03-14 | National Instruments Corporation | System and method for performing edge detection in an image |
CA2457639C (en) | 2001-08-13 | 2014-07-22 | Accenture Global Services Gmbh | A computer system for managing accounting data |
US7506062B2 (en) | 2001-08-30 | 2009-03-17 | Xerox Corporation | Scanner-initiated network-based image input scanning |
JP5002099B2 (ja) | 2001-08-31 | 2012-08-15 | 株式会社東芝 | 磁気共鳴イメージング装置 |
US20030044012A1 (en) | 2001-08-31 | 2003-03-06 | Sharp Laboratories Of America, Inc. | System and method for using a profile to encrypt documents in a digital scanner |
JP4564693B2 (ja) | 2001-09-14 | 2010-10-20 | キヤノン株式会社 | 文書処理装置及び方法 |
US7515313B2 (en) | 2001-09-20 | 2009-04-07 | Stone Cheng | Method and system for scanning with one-scan-and-done feature |
US6732046B1 (en) | 2001-10-03 | 2004-05-04 | Navigation Technologies Corp. | Application of the hough transform to modeling the horizontal component of road geometry and computing heading and curvature |
US7430002B2 (en) | 2001-10-03 | 2008-09-30 | Micron Technology, Inc. | Digital imaging system and method for adjusting image-capturing parameters using image comparisons |
US6667774B2 (en) | 2001-11-02 | 2003-12-23 | Imatte, Inc. | Method and apparatus for the automatic generation of subject to background transition area boundary lines and subject shadow retention |
US6922487B2 (en) * | 2001-11-02 | 2005-07-26 | Xerox Corporation | Method and apparatus for capturing text images |
US6898316B2 (en) | 2001-11-09 | 2005-05-24 | Arcsoft, Inc. | Multiple image area detection in a digital image |
US6944616B2 (en) | 2001-11-28 | 2005-09-13 | Pavilion Technologies, Inc. | System and method for historical database training of support vector machines |
EP1317133A1 (en) | 2001-12-03 | 2003-06-04 | Kofax Image Products, Inc. | Virtual rescanning a method for interactive document image quality enhancement |
US7937281B2 (en) | 2001-12-07 | 2011-05-03 | Accenture Global Services Limited | Accelerated process improvement framework |
US7286177B2 (en) | 2001-12-19 | 2007-10-23 | Nokia Corporation | Digital camera |
US7053953B2 (en) | 2001-12-21 | 2006-05-30 | Eastman Kodak Company | Method and camera system for blurring portions of a verification image to show out of focus areas in a captured archival image |
JP2003196357A (ja) | 2001-12-27 | 2003-07-11 | Hitachi Software Eng Co Ltd | 文書ファイリング方法及びシステム |
US7346215B2 (en) | 2001-12-31 | 2008-03-18 | Transpacific Ip, Ltd. | Apparatus and method for capturing a document |
US7054036B2 (en) | 2002-01-25 | 2006-05-30 | Kabushiki Kaisha Toshiba | Image processing method and image forming apparatus |
US20030142328A1 (en) | 2002-01-31 | 2003-07-31 | Mcdaniel Stanley Eugene | Evaluation of image processing operations |
JP3891408B2 (ja) | 2002-02-08 | 2007-03-14 | 株式会社リコー | 画像補正装置、プログラム、記憶媒体及び画像補正方法 |
US7362354B2 (en) | 2002-02-12 | 2008-04-22 | Hewlett-Packard Development Company, L.P. | Method and system for assessing the photo quality of a captured image in a digital still camera |
US6985631B2 (en) | 2002-02-20 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for automatically detecting a corner in a digitally captured image |
US7020320B2 (en) | 2002-03-06 | 2006-03-28 | Parascript, Llc | Extracting text written on a check |
AU2003227310A1 (en) | 2002-04-05 | 2003-10-20 | Lisa Seeman | Networked accessibility enhancer system |
JP4185699B2 (ja) | 2002-04-12 | 2008-11-26 | 日立オムロンターミナルソリューションズ株式会社 | 帳票読み取りシステム、帳票読み取り方法及びそのためのプログラム |
US20030210428A1 (en) | 2002-05-07 | 2003-11-13 | Alex Bevlin | Non-OCR method for capture of computer filled-in forms |
WO2003100631A1 (en) | 2002-05-23 | 2003-12-04 | Phochron, Inc. | System and method for digital content processing and distribution |
US7636455B2 (en) | 2002-06-04 | 2009-12-22 | Raytheon Company | Digital image edge detection and road network tracking method and system |
US7409092B2 (en) | 2002-06-20 | 2008-08-05 | Hrl Laboratories, Llc | Method and apparatus for the surveillance of objects in images |
US7197158B2 (en) | 2002-06-28 | 2007-03-27 | Microsoft Corporation | Generation of metadata for acquired images |
US20040143547A1 (en) | 2002-07-02 | 2004-07-22 | Dean Mersky | Automated accounts payable using image typing and type specific processing |
US7209599B2 (en) | 2002-07-12 | 2007-04-24 | Hewlett-Packard Development Company, L.P. | System and method for scanned image bleedthrough processing |
JP2004054640A (ja) | 2002-07-19 | 2004-02-19 | Sharp Corp | 画像情報配信方法、画像情報配信システム、中央装置、端末装置、スキャナ装置、コンピュータプログラム、及び記録媒体 |
US7031525B2 (en) | 2002-07-30 | 2006-04-18 | Mitsubishi Electric Research Laboratories, Inc. | Edge detection based on background change |
US7365881B2 (en) | 2002-08-19 | 2008-04-29 | Eastman Kodak Company | Halftone dot-growth technique based on morphological filtering |
US7123387B2 (en) | 2002-08-23 | 2006-10-17 | Chung-Wei Cheng | Image scanning method |
US20040083119A1 (en) | 2002-09-04 | 2004-04-29 | Schunder Lawrence V. | System and method for implementing a vendor contract management system |
JP3741090B2 (ja) | 2002-09-09 | 2006-02-01 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置 |
US7349888B1 (en) | 2003-11-10 | 2008-03-25 | Zxibix, Inc. | System and method to customize the facilitation of development of user thinking about and documenting of an arbitrary problem |
US20040090458A1 (en) | 2002-11-12 | 2004-05-13 | Yu John Chung Wah | Method and apparatus for previewing GUI design and providing screen-to-source association |
DE10253903A1 (de) | 2002-11-19 | 2004-06-17 | OCé PRINTING SYSTEMS GMBH | Verfahren, Anordnung und Computersoftware zum Bedrucken eines Trennblattes mit Hilfe eines elektrofotografischen Druckers oder Kopierers |
EP1422920B1 (en) | 2002-11-19 | 2013-01-23 | Canon Denshi Kabushiki Kaisha | Network scanning system |
KR100446538B1 (ko) | 2002-11-21 | 2004-09-01 | 삼성전자주식회사 | 디지털 카메라 대여 시스템을 위한 온라인 디지털 사진처리 시스템 |
US7386527B2 (en) | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
AU2003303208A1 (en) | 2002-12-16 | 2004-07-14 | King Pharmaceuticals, Inc. | Methods and dosage forms for reducing heart attacks in a hypertensive individual with a diuretic or a diuretic and an ace inhibitor combination |
US7181082B2 (en) | 2002-12-18 | 2007-02-20 | Sharp Laboratories Of America, Inc. | Blur detection system |
WO2004061702A1 (en) | 2002-12-26 | 2004-07-22 | The Trustees Of Columbia University In The City Of New York | Ordered data compression system and methods |
US20070128899A1 (en) | 2003-01-12 | 2007-06-07 | Yaron Mayer | System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows |
US7174043B2 (en) | 2003-02-25 | 2007-02-06 | Evernote Corp. | On-line handwriting recognizer |
US20040169889A1 (en) | 2003-02-27 | 2004-09-02 | Toshiba Tec Kabushiki Kaisha | Image processing apparatus and controller apparatus using thereof |
US20040169873A1 (en) | 2003-02-28 | 2004-09-02 | Xerox Corporation | Automatic determination of custom parameters based on scanned image data |
US7765155B2 (en) | 2003-03-13 | 2010-07-27 | International Business Machines Corporation | Invoice processing approval and storage system method and apparatus |
US7639392B2 (en) | 2003-03-28 | 2009-12-29 | Infoprint Solutions Company, Llc | Methods, systems, and media to enhance image processing in a color reprographic system |
US7665061B2 (en) | 2003-04-08 | 2010-02-16 | Microsoft Corporation | Code builders |
US7251777B1 (en) | 2003-04-16 | 2007-07-31 | Hypervision, Ltd. | Method and system for automated structuring of textual documents |
US7406183B2 (en) | 2003-04-28 | 2008-07-29 | International Business Machines Corporation | System and method of sorting document images based on image quality |
JP4864295B2 (ja) | 2003-06-02 | 2012-02-01 | 富士フイルム株式会社 | 画像表示システム、画像表示装置およびプログラム |
AU2004248608A1 (en) | 2003-06-09 | 2004-12-23 | Greenline Systems, Inc. | A system and method for risk detection, reporting and infrastructure |
US7389516B2 (en) | 2003-06-19 | 2008-06-17 | Microsoft Corporation | System and method for facilitating interaction between a computer and a network scanner |
US20040263639A1 (en) | 2003-06-26 | 2004-12-30 | Vladimir Sadovsky | System and method for intelligent image acquisition |
US7616233B2 (en) | 2003-06-26 | 2009-11-10 | Fotonation Vision Limited | Perfecting of digital image capture parameters within acquisition devices using face detection |
JP4289040B2 (ja) | 2003-06-26 | 2009-07-01 | 富士ゼロックス株式会社 | 画像処理装置及び方法 |
JP2005018678A (ja) | 2003-06-30 | 2005-01-20 | Casio Comput Co Ltd | 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム |
US7362892B2 (en) | 2003-07-02 | 2008-04-22 | Lockheed Martin Corporation | Self-optimizing classifier |
US20060242180A1 (en) | 2003-07-23 | 2006-10-26 | Graf James A | Extracting data from semi-structured text documents |
US20050030602A1 (en) | 2003-08-06 | 2005-02-10 | Gregson Daniel P. | Scan templates |
US20050050060A1 (en) | 2003-08-27 | 2005-03-03 | Gerard Damm | Data structure for range-specified algorithms |
US8937731B2 (en) | 2003-09-01 | 2015-01-20 | Konica Minolta Business Technologies, Inc. | Image processing apparatus for receiving a request relating to image processing from an external source and executing the received request |
JP3951990B2 (ja) | 2003-09-05 | 2007-08-01 | ブラザー工業株式会社 | 無線ステーション,プログラムおよび動作制御方法 |
JP4725057B2 (ja) | 2003-09-09 | 2011-07-13 | セイコーエプソン株式会社 | 画質調整情報の生成および画質調整情報を用いた画質調整 |
JP2005085173A (ja) | 2003-09-10 | 2005-03-31 | Toshiba Corp | データ管理システム |
US7797381B2 (en) | 2003-09-19 | 2010-09-14 | International Business Machines Corporation | Methods and apparatus for information hyperchain management for on-demand business collaboration |
US7844109B2 (en) | 2003-09-24 | 2010-11-30 | Canon Kabushiki Kaisha | Image processing method and apparatus |
JP4139760B2 (ja) | 2003-10-10 | 2008-08-27 | 富士フイルム株式会社 | 画像処理方法および装置ならびに画像処理プログラム |
US20050080844A1 (en) | 2003-10-10 | 2005-04-14 | Sridhar Dathathraya | System and method for managing scan destination profiles |
EP1530357A1 (en) | 2003-11-06 | 2005-05-11 | Ricoh Company, Ltd. | Method, computer program, and apparatus for detecting specific information included in image data of original image with accuracy, and computer readable storing medium storing the program |
US20050193325A1 (en) | 2003-11-12 | 2005-09-01 | Epstein David L. | Mobile content engine with enhanced features |
US7553095B2 (en) | 2003-11-27 | 2009-06-30 | Konica Minolta Business Technologies, Inc. | Print data transmitting apparatus, image forming system, printing condition setting method and printer driver program |
JP4347677B2 (ja) | 2003-12-08 | 2009-10-21 | 富士フイルム株式会社 | 帳票ocrプログラム、方法及び装置 |
US8693043B2 (en) | 2003-12-19 | 2014-04-08 | Kofax, Inc. | Automatic document separation |
US7184929B2 (en) | 2004-01-28 | 2007-02-27 | Microsoft Corporation | Exponential priors for maximum entropy models |
US9229540B2 (en) | 2004-01-30 | 2016-01-05 | Electronic Scripting Products, Inc. | Deriving input from six degrees of freedom interfaces |
US7298897B1 (en) | 2004-02-11 | 2007-11-20 | United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Optimal binarization of gray-scaled digital images via fuzzy reasoning |
US7379587B2 (en) | 2004-02-12 | 2008-05-27 | Xerox Corporation | Systems and methods for identifying regions within an image having similar continuity values |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
JP2005267457A (ja) | 2004-03-19 | 2005-09-29 | Casio Comput Co Ltd | 画像処理装置、撮影装置、画像処理方法及びプログラム |
FR2868185B1 (fr) | 2004-03-23 | 2006-06-30 | Realeyes3D Sa | Procede d'extraction de donnees brutes d'une image resultant d'une prise de vue |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
JP5238249B2 (ja) | 2004-04-01 | 2013-07-17 | グーグル インコーポレイテッド | レンダリングされた文書からのハンドヘルド装置を用いたデータ取得 |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
TWI240067B (en) | 2004-04-06 | 2005-09-21 | Sunplus Technology Co Ltd | Rapid color recognition method |
US7366705B2 (en) | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
US20050246262A1 (en) | 2004-04-29 | 2005-11-03 | Aggarwal Charu C | Enabling interoperability between participants in a network |
CN101493830A (zh) * | 2004-04-29 | 2009-07-29 | Nec软件有限公司 | 结构化自然语言查询和知识系统 |
JP3800227B2 (ja) | 2004-05-17 | 2006-07-26 | コニカミノルタビジネステクノロジーズ株式会社 | 画像形成装置及びそれに用いる情報処理方法並びに情報処理プログラム |
US7430059B2 (en) | 2004-05-24 | 2008-09-30 | Xerox Corporation | Systems, methods and graphical user interfaces for interactively previewing a scanned document |
US7492937B2 (en) | 2004-05-26 | 2009-02-17 | Ramsay Thomas E | System and method for identifying objects of interest in image data |
CN1977261B (zh) | 2004-05-28 | 2010-05-05 | 新加坡科技研究局 | 用于字序列处理的方法和系统 |
US7272261B2 (en) | 2004-06-04 | 2007-09-18 | Xerox Corporation | Method and system for classifying scanned-media |
US7392426B2 (en) | 2004-06-15 | 2008-06-24 | Honeywell International Inc. | Redundant processing architecture for single fault tolerance |
US20060219773A1 (en) | 2004-06-18 | 2006-10-05 | Richardson Joseph L | System and method for correcting data in financial documents |
JP2006031379A (ja) | 2004-07-15 | 2006-02-02 | Sony Corp | 情報提示装置及び情報提示方法 |
US7339585B2 (en) | 2004-07-19 | 2008-03-04 | Pie Medical Imaging B.V. | Method and apparatus for visualization of biological structures with use of 3D position information from segmentation results |
US20060023271A1 (en) | 2004-07-30 | 2006-02-02 | Boay Yoke P | Scanner with color profile matching mechanism |
WO2006015379A2 (en) | 2004-08-02 | 2006-02-09 | Cornell Research Foundation, Inc. | Electron spin resonance microscope for imaging with micron resolution |
US7515772B2 (en) | 2004-08-21 | 2009-04-07 | Xerox Corp | Document registration and skew detection system |
US7299407B2 (en) | 2004-08-24 | 2007-11-20 | International Business Machines Corporation | Marking and annotating electronic documents |
US7643665B2 (en) | 2004-08-31 | 2010-01-05 | Semiconductor Insights Inc. | Method of design analysis of existing integrated circuits |
JP2008511366A (ja) | 2004-09-02 | 2008-04-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 距離座標を使った特徴重み付け医療オブジェクト輪郭検出 |
US20070118794A1 (en) | 2004-09-08 | 2007-05-24 | Josef Hollander | Shared annotation system and method |
US7739127B1 (en) | 2004-09-23 | 2010-06-15 | Stephen Don Hall | Automated system for filing prescription drug claims |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US7639387B2 (en) | 2005-08-23 | 2009-12-29 | Ricoh Co., Ltd. | Authoring tools using a mixed media environment |
US8005831B2 (en) | 2005-08-23 | 2011-08-23 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment with geographic location information |
US8332401B2 (en) | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US7991778B2 (en) | 2005-08-23 | 2011-08-02 | Ricoh Co., Ltd. | Triggering actions with captured input in a mixed media environment |
JP4477468B2 (ja) * | 2004-10-15 | 2010-06-09 | 富士通株式会社 | 組み立て図面の装置部品イメージ検索装置 |
US20060089907A1 (en) | 2004-10-22 | 2006-04-27 | Klaus Kohlmaier | Invoice verification process |
US7464066B2 (en) | 2004-10-26 | 2008-12-09 | Applied Intelligence Solutions, Llc | Multi-dimensional, expert behavior-emulation system |
US7492943B2 (en) | 2004-10-29 | 2009-02-17 | George Mason Intellectual Properties, Inc. | Open set recognition using transduction |
US20060095374A1 (en) | 2004-11-01 | 2006-05-04 | Jp Morgan Chase | System and method for supply chain financing |
US20060095372A1 (en) | 2004-11-01 | 2006-05-04 | Sap Aktiengesellschaft | System and method for management and verification of invoices |
US7782384B2 (en) | 2004-11-05 | 2010-08-24 | Kelly Douglas J | Digital camera having system for digital image composition and related method |
KR100653886B1 (ko) | 2004-11-05 | 2006-12-05 | 주식회사 칼라짚미디어 | 혼합코드 및 혼합코드 인코딩 방법과 장치 |
US20060112340A1 (en) | 2004-11-22 | 2006-05-25 | Julia Mohr | Portal page conversion and annotation |
JP4345651B2 (ja) | 2004-11-29 | 2009-10-14 | セイコーエプソン株式会社 | 画像情報の評価方法、画像情報の評価プログラム及び画像情報評価装置 |
US7428331B2 (en) | 2004-11-30 | 2008-09-23 | Seiko Epson Corporation | Page background estimation using color, texture and edge features |
US7742641B2 (en) | 2004-12-06 | 2010-06-22 | Honda Motor Co., Ltd. | Confidence weighted classifier combination for multi-modal identification |
JP2006190259A (ja) | 2004-12-06 | 2006-07-20 | Canon Inc | 手ぶれ判定装置及び画像処理装置及びその制御方法及びプログラム |
US7201323B2 (en) | 2004-12-10 | 2007-04-10 | Mitek Systems, Inc. | System and method for check fraud detection using signature validation |
US7168614B2 (en) | 2004-12-10 | 2007-01-30 | Mitek Systems, Inc. | System and method for check fraud detection using signature validation |
US7249717B2 (en) | 2004-12-10 | 2007-07-31 | Mitek Systems, Inc. | System and method for check fraud detection using signature validation |
KR100670003B1 (ko) | 2004-12-28 | 2007-01-19 | 삼성전자주식회사 | 적응형 문턱치를 이용한 영상의 평탄 영역 검출장치 및 그방법 |
WO2006077481A1 (en) | 2005-01-19 | 2006-07-27 | Truecontext Corporation | Policy-driven mobile forms applications |
JP2006209588A (ja) | 2005-01-31 | 2006-08-10 | Casio Electronics Co Ltd | 証憑書類発行装置、及び証憑書類情報のデータベース化装置 |
US20060195491A1 (en) | 2005-02-11 | 2006-08-31 | Lexmark International, Inc. | System and method of importing documents into a document management system |
GB0503970D0 (en) | 2005-02-25 | 2005-04-06 | Firstondemand Ltd | Method and apparatus for authentication of invoices |
US7487438B1 (en) | 2005-03-08 | 2009-02-03 | Pegasus Imaging Corporation | Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form |
US7822880B2 (en) | 2005-03-10 | 2010-10-26 | Konica Minolta Systems Laboratory, Inc. | User interfaces for peripheral configuration |
US20070002348A1 (en) | 2005-03-15 | 2007-01-04 | Kabushiki Kaisha Toshiba | Method and apparatus for producing images by using finely optimized image processing parameters |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
US8749839B2 (en) | 2005-03-24 | 2014-06-10 | Kofax, Inc. | Systems and methods of processing scanned data |
US7545529B2 (en) | 2005-03-24 | 2009-06-09 | Kofax, Inc. | Systems and methods of accessing random access cache for rescanning |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US7570816B2 (en) | 2005-03-31 | 2009-08-04 | Microsoft Corporation | Systems and methods for detecting text |
US7412425B2 (en) | 2005-04-14 | 2008-08-12 | Honda Motor Co., Ltd. | Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps |
EP1872253A4 (en) | 2005-04-18 | 2008-12-10 | Research In Motion Ltd | SYSTEM AND METHOD FOR PERMITTING VISUAL DEVELOPMENT WITH WORKSTREAM FOR APPLICATION TASKS |
JP2006301835A (ja) | 2005-04-19 | 2006-11-02 | Fuji Xerox Co Ltd | 取引書類管理方法及びシステム |
AU2005201758B2 (en) | 2005-04-27 | 2008-12-18 | Canon Kabushiki Kaisha | Method of learning associations between documents and data sets |
US20060256392A1 (en) | 2005-05-13 | 2006-11-16 | Microsoft Corporation | Scanning systems and methods |
US7636883B2 (en) | 2005-05-18 | 2009-12-22 | International Business Machines Corporation | User form based automated and guided data collection |
JP4561474B2 (ja) | 2005-05-24 | 2010-10-13 | 株式会社日立製作所 | 電子化文書保管システム |
US20060282762A1 (en) | 2005-06-10 | 2006-12-14 | Oracle International Corporation | Collaborative document review system |
US7957018B2 (en) | 2005-06-10 | 2011-06-07 | Lexmark International, Inc. | Coversheet manager application |
US20060282463A1 (en) | 2005-06-10 | 2006-12-14 | Lexmark International, Inc. | Virtual coversheet association application |
US20060288015A1 (en) | 2005-06-15 | 2006-12-21 | Schirripa Steven R | Electronic content classification |
JP4756930B2 (ja) | 2005-06-23 | 2011-08-24 | キヤノン株式会社 | ドキュメント管理システム、ドキュメント管理方法、画像形成装置および情報処理装置 |
US7937264B2 (en) | 2005-06-30 | 2011-05-03 | Microsoft Corporation | Leveraging unlabeled data with a probabilistic graphical model |
US7515767B2 (en) | 2005-07-01 | 2009-04-07 | Flir Systems, Inc. | Image correction across multiple spectral regimes |
US20070035780A1 (en) | 2005-08-02 | 2007-02-15 | Kabushiki Kaisha Toshiba | System and method for defining characteristic data of a scanned document |
US8643892B2 (en) | 2005-08-29 | 2014-02-04 | Xerox Corporation | User configured page chromaticity determination and splitting method |
US7801382B2 (en) | 2005-09-22 | 2010-09-21 | Compressus, Inc. | Method and apparatus for adjustable image compression |
US7831107B2 (en) | 2005-10-17 | 2010-11-09 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and program |
US8176004B2 (en) | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
US7495784B2 (en) | 2005-11-14 | 2009-02-24 | Kabushiki Kiasha Toshiba | Printer with print order calculation based on print creation time and process ratio |
US7720206B2 (en) | 2006-01-18 | 2010-05-18 | Teoco Corporation | System and method for intelligent data extraction for telecommunications invoices |
US8385647B2 (en) | 2006-01-25 | 2013-02-26 | Kofax, Inc. | Method of image analysis using sparse Hough transform |
US7738730B2 (en) | 2006-01-25 | 2010-06-15 | Atalasoft, Inc. | Method of image analysis using sparse hough transform |
JP4341629B2 (ja) | 2006-01-27 | 2009-10-07 | カシオ計算機株式会社 | 撮像装置、画像処理方法及びプログラム |
US7657091B2 (en) | 2006-03-06 | 2010-02-02 | Mitek Systems, Inc. | Method for automatic removal of text from a signature area |
US7562060B2 (en) | 2006-03-31 | 2009-07-14 | Yahoo! Inc. | Large scale semi-supervised linear support vector machines |
US8775277B2 (en) | 2006-04-21 | 2014-07-08 | International Business Machines Corporation | Method, system, and program product for electronically validating invoices |
US8213687B2 (en) | 2006-04-28 | 2012-07-03 | Hewlett-Packard Development Company, L.P. | Image processing methods, image processing systems, and articles of manufacture |
TWI311679B (en) | 2006-04-28 | 2009-07-01 | Primax Electronics Ltd | A method of evaluating minimum sampling steps of auto focus |
US20070260588A1 (en) | 2006-05-08 | 2007-11-08 | International Business Machines Corporation | Selective, contextual review for documents |
JP2007306259A (ja) | 2006-05-10 | 2007-11-22 | Sony Corp | 設定画面表示制御装置、サーバー装置、画像処理システム、印刷装置、撮像装置、表示装置、設定画面表示制御方法、プログラム及びデータ構造 |
WO2007140237A2 (en) | 2006-05-24 | 2007-12-06 | 170 Systems, Inc. | System for and method of providing a user interface for a computer-based software application |
US7787695B2 (en) | 2006-06-06 | 2010-08-31 | Mitek Systems, Inc. | Method for applying a signature simplicity analysis for improving the accuracy of signature validation |
US20080005081A1 (en) | 2006-06-28 | 2008-01-03 | Sun Microsystems, Inc. | Method and apparatus for searching and resource discovery in a distributed enterprise system |
US20080086432A1 (en) | 2006-07-12 | 2008-04-10 | Schmidtler Mauritius A R | Data classification methods using machine learning techniques |
US7958067B2 (en) | 2006-07-12 | 2011-06-07 | Kofax, Inc. | Data classification methods using machine learning techniques |
WO2008008142A2 (en) | 2006-07-12 | 2008-01-17 | Kofax Image Products, Inc. | Machine learning techniques and transductive data classification |
US7761391B2 (en) | 2006-07-12 | 2010-07-20 | Kofax, Inc. | Methods and systems for improved transductive maximum entropy discrimination classification |
US7937345B2 (en) | 2006-07-12 | 2011-05-03 | Kofax, Inc. | Data classification methods using machine learning techniques |
US8073263B2 (en) | 2006-07-31 | 2011-12-06 | Ricoh Co., Ltd. | Multi-classifier selection and monitoring for MMR-based image recognition |
US20080235766A1 (en) | 2006-09-01 | 2008-09-25 | Wallos Robert | Apparatus and method for document certification |
JP2008134683A (ja) | 2006-11-27 | 2008-06-12 | Fuji Xerox Co Ltd | 画像処理装置および画像処理プログラム |
US8081227B1 (en) | 2006-11-30 | 2011-12-20 | Adobe Systems Incorporated | Image quality visual indicator |
US20080133388A1 (en) | 2006-12-01 | 2008-06-05 | Sergey Alekseev | Invoice exception management |
US7416131B2 (en) | 2006-12-13 | 2008-08-26 | Bottom Line Technologies (De), Inc. | Electronic transaction processing server with automated transaction evaluation |
US9282446B2 (en) | 2009-08-06 | 2016-03-08 | Golba Llc | Location-aware content and location-based advertising with a mobile device |
US20080147561A1 (en) | 2006-12-18 | 2008-06-19 | Pitney Bowes Incorporated | Image based invoice payment with digital signature verification |
US20080177643A1 (en) | 2007-01-22 | 2008-07-24 | Matthews Clifton W | System and method for invoice management |
US7899247B2 (en) | 2007-01-24 | 2011-03-01 | Samsung Electronics Co., Ltd. | Apparatus and method of segmenting an image according to a cost function and/or feature vector and/or receiving a signal representing the segmented image in an image coding and/or decoding system |
US7673799B2 (en) | 2007-01-26 | 2010-03-09 | Magtek, Inc. | Card reader for use with web based transactions |
US20080183576A1 (en) | 2007-01-30 | 2008-07-31 | Sang Hun Kim | Mobile service system and method using two-dimensional coupon code |
EP1956517A1 (en) | 2007-02-07 | 2008-08-13 | WinBooks s.a. | Computer assisted method for processing accounting operations and software product for implementing such method |
US8320683B2 (en) | 2007-02-13 | 2012-11-27 | Sharp Kabushiki Kaisha | Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus |
US20080201617A1 (en) | 2007-02-16 | 2008-08-21 | Brother Kogyo Kabushiki Kaisha | Network device and network system |
JP4123299B1 (ja) | 2007-02-21 | 2008-07-23 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
GB2459223B (en) | 2007-03-09 | 2012-07-11 | Cummins Allison Corp | Document imaging and processing system |
JP4877013B2 (ja) | 2007-03-30 | 2012-02-15 | ブラザー工業株式会社 | スキャナ |
US8244031B2 (en) | 2007-04-13 | 2012-08-14 | Kofax, Inc. | System and method for identifying and classifying color regions from a digital image |
CN101295305B (zh) * | 2007-04-25 | 2012-10-31 | 富士通株式会社 | 图像检索装置 |
US8279465B2 (en) | 2007-05-01 | 2012-10-02 | Kofax, Inc. | Systems and methods for routing facsimiles based on content |
US8265393B2 (en) | 2007-05-01 | 2012-09-11 | Compulink Management Center, Inc. | Photo-document segmentation method and system |
KR101157654B1 (ko) | 2007-05-21 | 2012-06-18 | 삼성전자주식회사 | 화상형성장치에서 전자메일을 전송하는 방법 및 전자메일의전송이 가능한 화상형성장치 |
JP2009014836A (ja) | 2007-07-02 | 2009-01-22 | Canon Inc | アクティブマトリクス型表示装置及びその駆動方法 |
JP4363468B2 (ja) | 2007-07-12 | 2009-11-11 | ソニー株式会社 | 撮像装置及び撮像方法並びに映像信号処理プログラム |
EP2183703A1 (en) | 2007-08-01 | 2010-05-12 | Yeda Research And Development Company Limited | Multiscale edge detection and fiber enhancement using differences of oriented means |
US8503797B2 (en) | 2007-09-05 | 2013-08-06 | The Neat Company, Inc. | Automatic document classification using lexical and physical features |
US8218887B2 (en) * | 2007-09-28 | 2012-07-10 | Abbyy Software, Ltd. | Enhanced method of multilayer compression of PDF (image) files using OCR systems |
US9811849B2 (en) | 2007-09-28 | 2017-11-07 | Great-Circle Technologies, Inc. | Contextual execution of automated workflows |
US8094976B2 (en) | 2007-10-03 | 2012-01-10 | Esker, Inc. | One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data |
US8244062B2 (en) | 2007-10-22 | 2012-08-14 | Hewlett-Packard Development Company, L.P. | Correction of distortion in captured images |
US7655685B2 (en) | 2007-11-02 | 2010-02-02 | Jenrin Discovery, Inc. | Cannabinoid receptor antagonists/inverse agonists useful for treating metabolic disorders, including obesity and diabetes |
US8194965B2 (en) | 2007-11-19 | 2012-06-05 | Parascript, Llc | Method and system of providing a probability distribution to aid the detection of tumors in mammogram images |
US8311296B2 (en) | 2007-11-21 | 2012-11-13 | Parascript, Llc | Voting in mammography processing |
US8103048B2 (en) * | 2007-12-04 | 2012-01-24 | Mcafee, Inc. | Detection of spam images |
US8194933B2 (en) * | 2007-12-12 | 2012-06-05 | 3M Innovative Properties Company | Identification and verification of an unknown document according to an eigen image process |
US7953268B2 (en) | 2008-01-18 | 2011-05-31 | Mitek Systems, Inc. | Methods for mobile image capture and processing of documents |
US9298979B2 (en) | 2008-01-18 | 2016-03-29 | Mitek Systems, Inc. | Systems and methods for mobile image capture and content processing of driver's licenses |
US10528925B2 (en) | 2008-01-18 | 2020-01-07 | Mitek Systems, Inc. | Systems and methods for mobile automated clearing house enrollment |
US8379914B2 (en) | 2008-01-18 | 2013-02-19 | Mitek Systems, Inc. | Systems and methods for mobile image capture and remittance processing |
US8577118B2 (en) | 2008-01-18 | 2013-11-05 | Mitek Systems | Systems for mobile image capture and remittance processing |
US10102583B2 (en) | 2008-01-18 | 2018-10-16 | Mitek Systems, Inc. | System and methods for obtaining insurance offers using mobile image capture |
US8582862B2 (en) | 2010-05-12 | 2013-11-12 | Mitek Systems | Mobile image quality assurance in mobile document image processing applications |
US8483473B2 (en) | 2008-01-18 | 2013-07-09 | Mitek Systems, Inc. | Systems and methods for obtaining financial offers using mobile image capture |
US20130297353A1 (en) | 2008-01-18 | 2013-11-07 | Mitek Systems | Systems and methods for filing insurance claims using mobile imaging |
US9292737B2 (en) | 2008-01-18 | 2016-03-22 | Mitek Systems, Inc. | Systems and methods for classifying payment documents during mobile image processing |
US20090204530A1 (en) | 2008-01-31 | 2009-08-13 | Payscan America, Inc. | Bar coded monetary transaction system and method |
US9082080B2 (en) | 2008-03-05 | 2015-07-14 | Kofax, Inc. | Systems and methods for organizing data sets |
US8135656B2 (en) | 2008-04-22 | 2012-03-13 | Xerox Corporation | Online management service for identification documents which prompts a user for a category of an official document |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
US7949167B2 (en) | 2008-06-12 | 2011-05-24 | Siemens Medical Solutions Usa, Inc. | Automatic learning of image features to predict disease |
US8520979B2 (en) | 2008-08-19 | 2013-08-27 | Digimarc Corporation | Methods and systems for content processing |
US9177218B2 (en) | 2008-09-08 | 2015-11-03 | Kofax, Inc. | System and method, and computer program product for detecting an edge in scan data |
JP4623388B2 (ja) | 2008-09-08 | 2011-02-02 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
WO2010030056A1 (en) | 2008-09-10 | 2010-03-18 | Bionet Co., Ltd | Automatic contour detection method for ultrasonic diagnosis appartus |
US8306327B2 (en) | 2008-12-30 | 2012-11-06 | International Business Machines Corporation | Adaptive partial character recognition |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8879846B2 (en) | 2009-02-10 | 2014-11-04 | Kofax, Inc. | Systems, methods and computer program products for processing financial documents |
US8345981B2 (en) | 2009-02-10 | 2013-01-01 | Kofax, Inc. | Systems, methods, and computer program products for determining document validity |
US8406480B2 (en) | 2009-02-17 | 2013-03-26 | International Business Machines Corporation | Visual credential verification |
WO2010096191A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Automatically capturing information, such as capturing information using a document-aware device |
US8498486B2 (en) | 2009-03-12 | 2013-07-30 | Qualcomm Incorporated | Response to detection of blur in an image |
US20100280859A1 (en) | 2009-04-30 | 2010-11-04 | Bank Of America Corporation | Future checks integration |
RS51531B (en) | 2009-05-29 | 2011-06-30 | Vlatacom D.O.O. | MANUAL PORTABLE DEVICE FOR VERIFICATION OF PASSENGERS AND PERSONAL DOCUMENTS, READING BIOMETRIC DATA |
US20100331043A1 (en) | 2009-06-23 | 2010-12-30 | K-Nfb Reading Technology, Inc. | Document and image processing |
JP5397059B2 (ja) | 2009-07-17 | 2014-01-22 | ソニー株式会社 | 画像処理装置および方法、プログラム、並びに記録媒体 |
JP4772894B2 (ja) | 2009-08-03 | 2011-09-14 | シャープ株式会社 | 画像出力装置、携帯端末装置、撮像画像処理システム、画像出力方法、プログラムおよび記録媒体 |
JP4856263B2 (ja) | 2009-08-07 | 2012-01-18 | シャープ株式会社 | 撮像画像処理システム、画像出力方法、プログラムおよび記録媒体 |
US8819172B2 (en) | 2010-11-04 | 2014-08-26 | Digimarc Corporation | Smartphone-based methods and systems |
KR101611440B1 (ko) | 2009-11-16 | 2016-04-11 | 삼성전자주식회사 | 이미지 처리 방법 및 장치 |
US9183224B2 (en) * | 2009-12-02 | 2015-11-10 | Google Inc. | Identifying matching canonical documents in response to a visual query |
US8406554B1 (en) | 2009-12-02 | 2013-03-26 | Jadavpur University | Image binarization based on grey membership parameters of pixels |
US8532419B2 (en) | 2010-01-13 | 2013-09-10 | iParse, LLC | Automatic image capture |
US20110249905A1 (en) | 2010-01-15 | 2011-10-13 | Copanion, Inc. | Systems and methods for automatically extracting data from electronic documents including tables |
US8600173B2 (en) * | 2010-01-27 | 2013-12-03 | Dst Technologies, Inc. | Contextualization of machine indeterminable information based on machine determinable information |
JP5426422B2 (ja) | 2010-02-10 | 2014-02-26 | 株式会社Pfu | 画像処理装置、画像処理方法及び画像処理プログラム |
US8515208B2 (en) | 2010-04-05 | 2013-08-20 | Kofax, Inc. | Method for document to template alignment |
US8600167B2 (en) | 2010-05-21 | 2013-12-03 | Hand Held Products, Inc. | System for capturing a document in an image signal |
US9047531B2 (en) | 2010-05-21 | 2015-06-02 | Hand Held Products, Inc. | Interactive user interface for capturing a document in an image signal |
EP3324350A1 (de) | 2010-06-08 | 2018-05-23 | Deutsche Post AG | Navigationssystem für optimierte liefer oder abholfahrten |
US8548201B2 (en) | 2010-09-02 | 2013-10-01 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing identifier of vehicle |
US20120116957A1 (en) | 2010-11-04 | 2012-05-10 | Bank Of America Corporation | System and method for populating a list of transaction participants |
US8995012B2 (en) | 2010-11-05 | 2015-03-31 | Rdm Corporation | System for mobile image capture and processing of financial documents |
US8754988B2 (en) | 2010-12-22 | 2014-06-17 | Tektronix, Inc. | Blur detection with local sharpness map |
US20120194692A1 (en) | 2011-01-31 | 2012-08-02 | Hand Held Products, Inc. | Terminal operative for display of electronic record |
US8811711B2 (en) | 2011-03-08 | 2014-08-19 | Bank Of America Corporation | Recognizing financial document images |
US8533595B2 (en) | 2011-04-19 | 2013-09-10 | Autodesk, Inc | Hierarchical display and navigation of document revision histories |
WO2012168942A1 (en) | 2011-06-08 | 2012-12-13 | Hewlett-Packard Development Company | Image triggered transactions |
US20130027757A1 (en) | 2011-07-29 | 2013-01-31 | Qualcomm Incorporated | Mobile fax machine with image stitching and degradation removal processing |
US8559766B2 (en) | 2011-08-16 | 2013-10-15 | iParse, LLC | Automatic image capture |
US8660943B1 (en) | 2011-08-31 | 2014-02-25 | Btpatent Llc | Methods and systems for financial transactions |
CN102982396B (zh) | 2011-09-06 | 2017-12-26 | Sap欧洲公司 | 通用过程建模框架 |
US9710821B2 (en) | 2011-09-15 | 2017-07-18 | Stephan HEATH | Systems and methods for mobile and online payment systems for purchases related to mobile and online promotions or offers provided using impressions tracking and analysis, location information, 2D and 3D mapping, mobile mapping, social media, and user behavior and |
US8768834B2 (en) | 2011-09-20 | 2014-07-01 | E2Interactive, Inc. | Digital exchange and mobile wallet for digital currency |
US9123005B2 (en) | 2011-10-11 | 2015-09-01 | Mobiwork, Llc | Method and system to define implement and enforce workflow of a mobile workforce |
US9087262B2 (en) | 2011-11-10 | 2015-07-21 | Fuji Xerox Co., Ltd. | Sharpness estimation in document and scene images |
US8701166B2 (en) | 2011-12-09 | 2014-04-15 | Blackberry Limited | Secure authentication |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9165188B2 (en) | 2012-01-12 | 2015-10-20 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9275281B2 (en) | 2012-01-12 | 2016-03-01 | Kofax, Inc. | Mobile image capture, processing, and electronic form generation |
TWI588778B (zh) * | 2012-01-17 | 2017-06-21 | 國立臺灣科技大學 | 動作辨識方法 |
JP5914045B2 (ja) | 2012-02-28 | 2016-05-11 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US8990112B2 (en) | 2012-03-01 | 2015-03-24 | Ricoh Company, Ltd. | Expense report system with receipt image processing |
JP5734902B2 (ja) | 2012-03-19 | 2015-06-17 | 株式会社東芝 | 建設工程管理システムおよびその管理方法 |
US20130268430A1 (en) | 2012-04-05 | 2013-10-10 | Ziftit, Inc. | Method and apparatus for dynamic gift card processing |
US20130268378A1 (en) | 2012-04-06 | 2013-10-10 | Microsoft Corporation | Transaction validation between a mobile communication device and a terminal using location data |
US8639621B1 (en) | 2012-04-25 | 2014-01-28 | Wells Fargo Bank, N.A. | System and method for a mobile wallet |
US8441548B1 (en) | 2012-06-15 | 2013-05-14 | Google Inc. | Facial image quality assessment |
US8781229B2 (en) * | 2012-06-29 | 2014-07-15 | Palo Alto Research Center Incorporated | System and method for localizing data fields on structured and semi-structured forms |
US9092773B2 (en) | 2012-06-30 | 2015-07-28 | At&T Intellectual Property I, L.P. | Generating and categorizing transaction records |
US20140012754A1 (en) | 2012-07-06 | 2014-01-09 | Bank Of America Corporation | Financial document processing system |
US8705836B2 (en) | 2012-08-06 | 2014-04-22 | A2iA S.A. | Systems and methods for recognizing information in objects using a mobile device |
US9928406B2 (en) | 2012-10-01 | 2018-03-27 | The Regents Of The University Of California | Unified face representation for individual recognition in surveillance videos and vehicle logo super-resolution system |
EP2973226A4 (en) | 2013-03-13 | 2016-06-29 | Kofax Inc | CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US9384566B2 (en) | 2013-03-14 | 2016-07-05 | Wisconsin Alumni Research Foundation | System and method for simulataneous image artifact reduction and tomographic reconstruction |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
EP2992481A4 (en) | 2013-05-03 | 2017-02-22 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
RU2541353C2 (ru) | 2013-06-19 | 2015-02-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Автоматическая съемка документа с заданными пропорциями |
US20150120564A1 (en) | 2013-10-29 | 2015-04-30 | Bank Of America Corporation | Check memo line data lift |
US20150161765A1 (en) | 2013-12-06 | 2015-06-11 | Emc Corporation | Scaling mobile check photos to physical dimensions |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
-
2014
- 2014-03-13 EP EP14775259.6A patent/EP2973226A4/en not_active Withdrawn
- 2014-03-13 CN CN201480013621.1A patent/CN105283884A/zh active Pending
- 2014-03-13 JP JP2016502178A patent/JP2016517587A/ja active Pending
- 2014-03-13 WO PCT/US2014/026569 patent/WO2014160426A1/en active Application Filing
- 2014-03-13 US US14/209,825 patent/US9311531B2/en active Active
-
2015
- 2015-08-04 US US14/818,196 patent/US9754164B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298702A (ja) * | 1999-04-15 | 2000-10-24 | Canon Inc | 画像処理装置及びその方法、コンピュータ可読メモリ |
JP2011118513A (ja) * | 2009-12-01 | 2011-06-16 | Toshiba Corp | 文字認識装置および帳票識別方法 |
US20130004076A1 (en) * | 2011-06-29 | 2013-01-03 | Qualcomm Incorporated | System and method for recognizing text information in object |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018132894A (ja) * | 2017-02-14 | 2018-08-23 | 株式会社Pfu | 日付識別装置、日付識別方法及び日付識別プログラム |
US10380416B2 (en) | 2017-02-14 | 2019-08-13 | Pfu Limited | Date identifying apparatus, date identifying method, and computer-readable recording medium |
JP2023144246A (ja) * | 2022-03-28 | 2023-10-11 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、制御方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20140270536A1 (en) | 2014-09-18 |
US20150339526A1 (en) | 2015-11-26 |
EP2973226A4 (en) | 2016-06-29 |
EP2973226A1 (en) | 2016-01-20 |
WO2014160426A1 (en) | 2014-10-02 |
US9754164B2 (en) | 2017-09-05 |
CN105283884A (zh) | 2016-01-27 |
US9311531B2 (en) | 2016-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016517587A (ja) | モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類 | |
US11087407B2 (en) | Systems and methods for mobile image capture and processing | |
JP2016516245A (ja) | モバイル装置を用いた画像内のオブジェクトの分類 | |
US9275281B2 (en) | Mobile image capture, processing, and electronic form generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181218 |