JP7108061B2 - 歪んだドキュメント画像の矯正方法及び装置 - Google Patents

歪んだドキュメント画像の矯正方法及び装置 Download PDF

Info

Publication number
JP7108061B2
JP7108061B2 JP2021007302A JP2021007302A JP7108061B2 JP 7108061 B2 JP7108061 B2 JP 7108061B2 JP 2021007302 A JP2021007302 A JP 2021007302A JP 2021007302 A JP2021007302 A JP 2021007302A JP 7108061 B2 JP7108061 B2 JP 7108061B2
Authority
JP
Japan
Prior art keywords
image
deformation
parameter prediction
distorted document
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021007302A
Other languages
English (en)
Other versions
JP2021100247A (ja
Inventor
チュンイー シエ
シアメン チン
ユイリン リー
ジュンユー ハン
シェンシャン チュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021100247A publication Critical patent/JP2021100247A/ja
Application granted granted Critical
Publication of JP7108061B2 publication Critical patent/JP7108061B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T5/80
    • G06T3/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • G06T5/60
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Geometry (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

本発明の実施例は、ビッグデータ処理技術分野に関し、特に、歪んだドキュメント画像の矯正方法及び装置に関する。
ドキュメント画像矯正は、画像中のしわ又はカールされたドキュメントを平らな状態に復元する過程であり、ドキュメント矯正と略称できる。
ドキュメント矯正は、通常、グローバル変形パラメータ予測和ピクセルごとの変形パラメータ予測という2種類の方法を採ることができる。前者によっては、唯一の変形パラメータを一組しか得られないから、ピクセルポイントの変形が一致でないシーンには適用できなく、後者によっては、ピクセルポイントのすべてに対して変形パラメータの予測が可能であるが、変形パラメータ予測と画像復元とは、2つの独立したステップである。稠密な変形パラメータと、変形の逆演算を用い、変形パラメータの種類によって異なる方法を用いて画像復元を行うため、画像復元中に大量の計算が発生し、ドキュメント画像矯正は、ステップが煩雑であり、誤差が高く、矯正効果が劣っている。
本発明の実施例では、歪んだドキュメント画像の矯正方法及び装置が提供され、ドキュメント画像矯正の正確率の向上、ドキュメント画像矯正の応用シーンの拡大につながる。
第1の態様では、本発明の実施例は、歪んだドキュメント画像の矯正方法を提供し、
歪んだドキュメント画像を取得するステップと、
前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得るステップと、を含み、そのうち、前記矯正モデルは、画像サンプルセットを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、前記画像サンプルに歪みが存在する。
選択的に、前記矯正モデルは、直列接続された変形パラメータ予測モジュールと変形矯正モジュールを含み、そのうち、前記変形パラメータ予測モジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、前記変形矯正モジュールは、前記画像サンプルセットと前記変形パラメータ予測モジュールの出力結果を入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、
前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得る前記ステップは、
前記歪んだドキュメント画像を前記矯正モデルに入力し、前記変形パラメータ予測モジュールによって中間結果を出力し、前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得るステップを含み、前記中間結果は、前記歪んだドキュメント画像におけるピクセルごとの変形パラメータを含む。
選択的に、前記変形パラメータ予測モジュールは、少なくとも二段の直列接続された変形パラメータ予測サブモジュールを含み、そのうち、第1段の変形パラメータ予測サブモジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、第2段の変形パラメータ予測サブモジュールは、前記画像サンプルセットと前記第1段の変形パラメータ予測サブモジュールの出力結果を入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、これによって類推し、
前記中間結果は、前記少なくとも二段の変形パラメータ予測サブモジュールにおける最終段の変形パラメータ予測サブモジュールの出力結果である。
選択的に、前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得る前記ステップは、
矯正操作が並行して行われるピクセルの個数を指示する動作パラメータを取得するステップと、
前記動作パラメータに基づいて前記歪んだドキュメント画像で複数のピクセルを取得するステップと、
前記複数のピクセルのそれぞれに対応する変形パラメータに基づいて前記変形矯正モジュールにより、前記複数のピクセルを並行して矯正し、矯正された複数のピクセルを得るステップと、を含む。
選択的に、前記U型畳み込みニューラルネットワークモデルは、コーディングユニットとデコーディングユニットを含み、前記コーディングユニットと前記デコーディングユニットは、いずれも複数の畳み込み層を含み、前記コーディングユニットにおける畳み込み層は複数回の拡張畳み込み操作を含む。
選択的に、前記コーディングユニットにおける畳み込み層に含まれる複数回の拡張畳み込み操作の間の拡張比率は徐々に増大し、且つ互いに素である。
選択的に、前記U型畳み込みニューラルネットワークモデルにおける前記コーディングユニットと前記デコーディングユニットの間には、並行畳み込みユニットをさらに含み、前記並行畳み込みユニットは、前記コーディングユニットにおける最終の畳み込み層から出力される特徴図に対して拡張畳み込み操作を並行して複数回実行するためのものであり、前記並行して実行する複数回の拡張畳み込み操作の間の拡張比率は、異なるものである。
選択的に、前記デコーディングユニットにおける畳み込み層は、畳み込み操作と再編成操作を含み、前記畳み込み操作は、特徴図に対してアップサンプリングするために使用され、前記再編成操作は、アップサンプリングされた特徴図に対してマトリックスの行数と、列数と、次元数を再構築するために使用される。
第2の態様では、本発明の実施例は、歪んだドキュメント画像の矯正装置を提供し、
歪んだドキュメント画像を取得するための取得モジュールと、
前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得るための矯正モジュールと、を含み、そのうち、前記矯正モデルは、画像サンプルセットを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、前記画像サンプルに歪みが存在する。
選択的に、前記矯正モデルは、直列接続された変形パラメータ予測モジュールと変形矯正モジュールとを含み、そのうち、前記変形パラメータ予測モジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、前記変形矯正モジュールは、前記画像サンプルセットと前記変形パラメータ予測モジュールの出力結果とを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、
前記矯正モジュールは、具体的に、
前記歪んだドキュメント画像を前記矯正モデルに入力し、前記変形パラメータ予測モジュールによって中間結果を出力し、前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得、前記中間結果は、前記歪んだドキュメント画像におけるピクセルごとの変形パラメータを含む。
選択的に、前記変形パラメータ予測モジュールは、少なくとも二段の直列接続された変形パラメータ予測サブモジュールを含み、そのうち、第1段の変形パラメータ予測サブモジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、第2段の変形パラメータ予測サブモジュールは、前記画像サンプルセットと前記第1段の変形パラメータ予測サブモジュールの出力結果とを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、これによって類推し、
前記中間結果は、前記少なくとも二段の変形パラメータ予測サブモジュールにおける最終段の変形パラメータ予測サブモジュールの出力結果である。
選択的に、前記矯正モジュールは、具体的に、
矯正操作が並行して行われるピクセルの個数を指示する動作パラメータを取得し、
前記動作パラメータに基づいて前記歪んだドキュメント画像で複数のピクセルを取得し、
前記複数のピクセルのそれぞれに対応する変形パラメータに基づいて前記変形矯正モジュールにより、前記複数のピクセルを並行して矯正し、矯正された複数のピクセルを得るためのものである。
選択的に、前記U型畳み込みニューラルネットワークモデルは、コーディングユニットとデコーディングユニットを含み、前記コーディングユニットと前記デコーディングユニットは、いずれも複数の畳み込み層を含み、前記コーディングユニットにおける畳み込み層は複数回の拡張畳み込み操作を含む。
選択的に、前記コーディングユニットにおける畳み込み層に含まれる複数回の拡張畳み込み操作の間の拡張比率は徐々に増大し、且つ互いに素である。
選択的に、前記U型畳み込みニューラルネットワークモデルにおける前記コーディングユニットと前記デコーディングユニットとの間には、また並行畳み込みユニットを含み、前記並行畳み込みユニットは、前記コーディングユニットにおける最終の畳み込み層から出力される特徴図に対して拡張畳み込み操作を並行して複数回実行するためのものであり、前記並行して実行される複数回の拡張畳み込み操作の間の拡張比率は、異なるものである。
選択的に、前記デコーディングユニットにおける畳み込み層は、畳み込み操作と再編成操作を含み、前記畳み込み操作は、特徴図に対してアップサンプリングするために使用され、前記再編成操作は、アップサンプリングされた特徴図に対してマトリックスの行数と、列数と、次元数を再構築するために使用される。
第3の態様では、本発明の実施例は、歪んだドキュメント画像の矯正装置を提供し、メモリとプロセッサを含み、
前記メモリは、プログラム命令を記憶するためのものであり、
前記プロセッサは、前記メモリに記憶された前記プログラム命令を呼び出して本発明の第1の態様のいずれか1つの実施形態で提供される方法を実現するためのものである。
第4の態様では、本発明の実施例は、コンピュータ可読記憶媒体を提供し、可読記憶媒体とコンピュータプログラムとを含み、前記コンピュータプログラムは、本発明の第1の態様のいずれか1つの実施形態で提供される方法を実現するためのものである。
第5の態様では、本発明の実施例は、コンピュータプログラム製品を提供し、該コンピュータプログラム製品は、コンピュータプログラム(即ち、実行命令)を含み、該コンピュータプログラムは、可読記憶媒体に記憶される。プロセッサは、該コンピュータプログラムを可読記憶媒体から読み取ることができ、プロセッサは、該コンピュータプログラムを実行して本発明の第1の態様のいずれか1つの実施形態で提供される方法を実現する。
第6の態様では、本発明の実施例は、コンピュータプログラムを提供し、該コンピュータプログラムは、可読記憶媒体に記憶される。プロセッサは、該コンピュータプログラムを可読記憶媒体から読み取ることができ、プロセッサは、該コンピュータプログラムを実行して本発明の第1の態様のいずれか1つの実施形態で提供される方法を実現する。
本発明の実施例は、歪んだドキュメント画像の矯正方法及び装置を提供し、矯正対象である歪んだドキュメント画像を矯正モデルに入力し、矯正モデルによって、歪んだドキュメント画像に対応する矯正された画像を取得することができ、端末から端末へのドキュメント画像矯正が実現されるようになった。大量のサンプルに基づいて訓練された矯正モデルであるため、応用シーンがより広く、ドキュメント画像矯正の正確率や効果が向上するようになった。
本発明の実施例又は従来技術における技術的解決手段をより明確に説明するため、以下、実施例又は従来技術の記述に使用する必要がある図面を簡単に説明するが、当然ながら、以下に記載する図面は本発明のいくつかの実施例であり、当業者にとって、創造的な労力なしにこれらの図面に基づいて他の図面を取得することもできる。
本発明の実施例で提供される歪んだドキュメント画像の矯正方法のフローチャートである。 本発明の実施例で提供される矯正モデルの一概略構造図である。 本発明の実施例で提供される変形パラメータ予測モジュールの概略構造図である。 本発明の実施例で提供されるU型畳み込みニューラルネットワークモデルの概略構造図である。 本発明の実施例で提供される歪んだドキュメント画像の矯正装置の概略構造図である。 本発明の実施例で提供される歪んだドキュメント画像の矯正装置の他の概略構造図である。
本発明の実施例の目的、技術的解決手段及び利点をより明瞭にするために、以下、本発明の実施例に係る図面を参照しながら、本発明の実施例における技術的解決手段を明瞭で、且つ完全に説明し、当然ながら、記載される実施例は本発明の実施例の一部にすぎず、すべての実施例ではない。当業者が本発明における実施例に基づいて創造的な労働なしに取得されたその他のすべての実施例は、いずれも本発明の保護範囲に属する。
図1は、本発明の実施例で提供される歪んだドキュメント画像の矯正方法のフローチャートである。本実施例で提供される歪んだドキュメント画像の矯正方法は、実行主体が歪んだドキュメント画像の矯正装置であってもよい。図1に示すように、本実施例で提供される歪んだドキュメント画像の矯正方法は、以下のステップを含むことができる。
S101、歪んだドキュメント画像を取得する。
そのうち、歪んだドキュメント画像の内容に歪みの現象、例えば、しわ現象、カール現象等が存在する。
説明する必要があるものとして、本実施例では、歪んだドキュメント画像の具体的な内容に対して限定しない。選択的に、歪んだドキュメント画像の内容は、テーブル、様々な言語符号(中国語、英語、韓国語、フランス語等の文字符号)、数字、ハンコ、バーコード、二次元コード又は様々な手形(タクシーのチケット、飛行機のチケット、オイルチケット、様々な商品の税金の請求書等)を含んでもよいが、それらの少なくとも1項に限定されない。
S102、歪んだドキュメント画像を矯正モデルに入力し、歪んだドキュメント画像に対応する矯正された画像を得る。
そのうち、矯正モデルは、画像サンプルセットを入力とし、画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、画像サンプルに歪みが存在する。
具体的に、矯正モデルは、歪みの現象が存在する大量の画像サンプルを入力とし、画像サンプルごとに対応する矯正された画像を出力として訓練して得られたものである。選択的に、矯正モデルの正確性を向上するために、画像サンプルに対応する矯正された画像に歪みの現象が存在しない。選択的に、画像サンプルセットにおける画像サンプルに対応する矯正された画像に歪みの現象が存在しない比率は、プリセットの比率より大きくてもよく、本実施例では、プリセットの比率の具体的な値取りに対して限定しない。矯正モデルは大量のサンプルを訓練してきた端末から端末へのモデルであるため、歪みが存在する画像における個々のピクセルポイントに異なる変形があっても、矯正効果が優れ、グローバル変形パラメータ予測の方法を用いてドキュメント画像の矯正を実現する従来の技術に比べ、矯正効果が著しく向上し、応用シーンがより広い。そして、端末から端末への矯正モデルであるため、ピクセルごとの変形パラメータ予測と変形の逆演算との組み合わせでドキュメント画像の矯正を実現する従来の技術に比べ、矯正ステップの煩雑さ、アルゴリズムモデリングマッチングおよび多大な計算量という問題が免れ、ドキュメント画像矯正の効率や効果が向上するようになった。
説明する必要があるものとして、本実施例では、矯正モデルのタイプに対して限定しない。選択的に、矯正モデルのタイプは、ニューラルネットワークモデル、ディープアルゴリズムモデル及び機械アルゴリズムモデルのいずれか1つであってもよい。選択的に、ニューラルネットワークモデルは、完全畳み込みネットワーク(Fully Convolutional Networks、FCN)モデル、生物医学画像分割における畳み込みネットワークの応用(Convolutional Networks for Biomedical Image Segmentation、U-net)モデルを含んでもよいが、それらに限定されない。
説明する必要があるものとして、本実施例では、矯正モデルの訓練方法に対して限定しないが、モデルタイプに応じて異なってもよい。
本実施例は、歪んだドキュメント画像の矯正方法を提供し、矯正対象である歪んだドキュメント画像を矯正モデルに入力し、矯正モデルによって、歪んだドキュメント画像に対応する矯正された画像を取得することができ、端末から端末へのドキュメント画像矯正が実現されるようになったことがわかれる。矯正モデルは大量のサンプルに基づいて訓練されたモデルであるため、本実施例で提供される歪んだドキュメント画像の矯正方法は、応用シーンがより広く、ドキュメント画像矯正の正確率や効果が向上するようになった。
上記図1に示すような実施例を基にして図2を参照すると、図2は、本発明の実施例で提供される矯正モデルの概略構造図である。矯正モデルは、直列接続された変形パラメータ予測モジュール21と変形矯正モジュール22を含むことができる。そのうち、変形パラメータ予測モジュール21は、画像サンプルセットを入力とし、画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルである。変形矯正モジュール22は、画像サンプルセットと変形パラメータ予測モジュール21の出力結果を入力とし、画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルである。
具体的に、矯正モデルは、機能的に変形パラメータ予測モジュールと変形矯正モジュールとに分けられている。変形パラメータ予測モジュールと変形矯正モジュールは、いずれも訓練によって得られたモデルである。そのうち、変形パラメータ予測モジュールにより、画像におけるピクセルごとの変形パラメータを得ることができる。変形パラメータは、ピクセルごとの変形の程度を指示するためのものである。変形矯正モジュールは、変形パラメータ予測モジュールによって出力されたピクセルレベルの変形パラメータに基づき、画像に対する歪みの矯正を実現することができる。
図2で示された矯正モデルに基づき、S102では、歪んだドキュメント画像を矯正モデルに入力し、歪んだドキュメント画像に対応する矯正された画像を得るステップは、
歪んだドキュメント画像を矯正モデルに入力し、変形パラメータ予測モジュールによって中間結果を出力し、中間結果に基づいて変形矯正モジュールにより、歪んだドキュメント画像に対応する矯正された画像を得るステップを含むことができる。そのうち、中間結果は、歪んだドキュメント画像におけるピクセルごとの変形パラメータを含む。
変形パラメータ予測モジュールと変形矯正モジュールとは、いずれも訓練によって得られたモデルであり、学習可能なものであるため、変形の逆演算を用いて画像を復元する従来の技術に比べ、アルゴリズムモデリングマッチングおよび多大な計算量という問題が免れ、学習可能な変形矯正モジュールにより、ピクセルの変形パラメータに基づいて画像を矯正することは、矯正の誤差を低下させ、矯正の効果を向上させるようになった。
以下、双線形補間アルゴリズムを用いる変形矯正モジュールを例として、画像矯正の原理について説明する。説明する必要があるものとして、変形矯正モジュールは、双線形補間アルゴリズムを使用することに限らず、他の学習可能なアルゴリズムを用いてもよい。
歪んだドキュメント画像Sにおけるピクセルの座標を
Figure 0007108061000001
と表記し、歪んだドキュメント画像Sが矯正を経た画像Dにおけるピクセル
Figure 0007108061000002
に対応するピクセルの座標を
Figure 0007108061000003
と表記すると仮定する。ドキュメント画像矯正は、矯正された画像Dにおけるピクセル
Figure 0007108061000004
ごとに対して、歪んだドキュメント画像Sにおいて対応するピクセル
Figure 0007108061000005
を見つけられるように、歪んだドキュメント画像Sと矯正された画像Dとの間に1つの座標マッピング関係を構築すると理解することができ、即ち、
Figure 0007108061000006
を満たす。
変形パラメータ予測モジュールによって得られた中間結果では、ピクセルの変形パラメータを
Figure 0007108061000007
と表記すると仮定する。そのうち、
Figure 0007108061000008
は、u方向でのピクセルのオフセットを表し、
Figure 0007108061000009
は、v方向でのピクセルのオフセットを表す。ピクセル
Figure 0007108061000010
とピクセル
Figure 0007108061000011
は、
Figure 0007108061000012
を満たす。
ピクセル
Figure 0007108061000013
は、フローティングポイントピタイプであると仮定すると、歪んだドキュメント画像Sにおいては、その対応するピクセル値を直接に取得することができないため、双線形補間の方法を用いて目標のピクセル値を得る。即ち、
Figure 0007108061000014
且つ、
Figure 0007108061000015
双線形補間アルゴリズムは導出可能であるため、双線形補間アルゴリズムを用いる変形矯正モジュールは学習可能であり、これは、端末から端末への矯正モデルの勾配リターンを確保し、矯正の誤差を低下させ、矯正の効果を向上させるようになった。
選択的に、変形パラメータ予測モジュールは、少なくとも二段の直列接続された変形パラメータ予測サブモジュールを含んでもよい。そのうち、第1段の変形パラメータ予測サブモジュール211は、画像サンプルセットを入力とし、画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、第2段の変形パラメータ予測サブモジュール212は、画像サンプルセットと第1段の変形パラメータ予測サブモジュール211の出力結果とを入力とし、画像サンプルに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、これによって類推する。
中間結果は、少なくとも二段の変形パラメータ予測サブモジュールにおける最終段の変形パラメータ予測サブモジュールの出力結果である。
具体的に、変形パラメータ予測モジュールは、複数の変形パラメータ予測サブモジュールを含み、変形パラメータ予測サブモジュールごとは、いずれも訓練によって得られたモデルである。第1段の変形パラメータ予測サブモジュールは、画像サンプルセットを入力とし、画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルである。第2段の変形パラメータ予測サブモジュール以降は、画像サンプルセットと前の段の変形パラメータ予測サブモジュールの出力結果とを入力とし、画像サンプルに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルである。
複数の変形パラメータ予測サブモジュールを設定することにより、よりきめ細かい回帰を段階的に行うことができるようになり、得られたピクセルの変形パラメータをより正確的にし、端末から端末への矯正モデルの画像矯正効果を向上させるようになった。
選択的に、変形パラメータ予測サブモジュールごとは、訓練した後に同じ監視情報で回帰検証を行ってもよい。本実施例において、歪んだ画像と歪んでいない画像に対応するピクセルポイントの座標オフセットや、歪んでいない画像という2種類の監視情報を含んでもよい。2種類の監視情報により、変形パラメータ予測サブモジュールがピクセル座標ペアの間の差値を学習するように監視することができる。実際応用中には、互に対応する歪んだ画像と歪んでいない画像のペアを取得する難易度が大きいため、歪んでいない画像に対して画像処理の方法を用いて歪んだ画像と合成し、両者の座標オフセットを保存して訓練や監視に使用してもよい。
説明する必要があるものとして、本実施例では、変形パラメータ予測サブモジュールの個数に対して限定しない。例えば、2つであってもよい。
選択的に、中間結果に基づいて変形矯正モジュールにより、歪んだドキュメント画像に対応する矯正された画像を得るステップは、
矯正操作が並行して行われるピクセルの個数を指示する動作パラメータを取得するステップと、
動作パラメータに基づいて歪んだドキュメント画像で複数のピクセルを取得するステップと、
複数のピクセルのそれぞれに対応する変形パラメータに基づいて変形矯正モジュールにより、複数のピクセルを並行して矯正し、矯正された複数のピクセルを得るステップと、を含む。
変形矯正モジュールを利用し、複数のピクセルに対して矯正操作を並行して実行することにより、ドキュメント画像矯正の効率が向上した。
説明する必要があるものとして、本実施例では、動作パラメータの値取りに対して限定しないが、プロセッサの能力によって異なってもよい。
以下、図2で示された矯正モデルに基づき、図4に合わせ、そのうちのU型畳み込みニューラルネットワークモデルに対して例示的に説明する。図4は、本発明の実施例で提供されるU型畳み込みニューラルネットワークモデルの概略構造図である。例示的に、図4でのU型畳み込みニューラルネットワークモデルは、Unetモデルであってもよい。説明する必要があるものとして、個々の例における具体的なパラメータの値取りによってU型畳み込みニューラルネットワークモデルの実現は制限されない。
選択的に、U型畳み込みニューラルネットワークモデルは、コーディングユニットとデコーディングユニットを含んでもよく、コーディングユニットとデコーディングユニットは、いずれも複数の畳み込み層を含み、コーディングユニットにおける畳み込み層は複数回の拡張畳み込み操作を含んでよい。
図4を参照すると、図4の左側はコーディングユニットを示しており、右側はデコーディングユニットを示している。コーディングユニットとデコーディングユニットとは、いずれも4つの畳み込み層を含む。そのうち、コーディングユニットにおける畳み込み層は3回の拡張畳み込み(Dilation Conv)操作を含んでもよい。選択的に、拡張畳み込み操作の畳み込みカーネルは3*3であってもよい。
U型畳み込みニューラルネットワークモデルにおける畳み込み操作を拡張畳み込み操作として設定することにより、モデルのその他のパラメータを変更せずに、モデルの受容野を倍率に増やすことができ、それによりモデル動作の正確性を向上させる。例えば、畳み込みカーネルが3*3であり、拡張畳み込み操作の拡張比率(Dilation Ratio)が1であるとき、その受容野は3*3であるが、拡張畳み込み操作の拡張比率が2であるとき、その受容野は5*5まで広げるように、これによって類推する。
説明する必要があるものとして、本実施例では、コーディングユニットとデコーディングユニットとに含有される畳み込み層の個数や、畳み込み層ごとに含まれる拡張畳み込み操作の個数に対して限定しない。
説明する必要があるものとして、本実施例では、畳み込み層の名称に対して限定しない。例えば、畳み込み層はブロック(block)と呼ばれてもよい。
選択的に、コーディングユニットにおける畳み込み層に含まれる複数回の拡張畳み込み操作の間の拡張比率は徐々に増大し、且つ互いに素である。
畳み込み層での複数回の拡張畳み込み操作の間の拡張比率は徐々に増大し、且つ互いに素であるように設定することにより、モデルの受容野をさらに広げ、モデル動作の正確性をさらに向上させた。
説明する必要があるものとして、本実施例では、畳み込み層にある拡張畳み込み操作の個数および個々の拡張畳み込み操作の拡張比率の数値に対して限定しない。例えば、コーディングユニットにおける畳み込み層は、3回の拡張畳み込み操作を含み、3回の拡張畳み込み操作の間の拡張比率は順次に1、2、3である。
選択的に、U型畳み込みニューラルネットワークモデルにおけるコーディングユニットとデコーディングユニットの間には、また並行畳み込みユニットを含み、並行畳み込みユニットは、コーディングユニットにおける最終の畳み込み層から出力される特徴図に対して複数回の拡張畳み込み操作を並行して実行し、並行して実行される複数回の拡張畳み込み操作の間の拡張比率は異なるものである。
並行畳み込みユニットを設定することにより、拡張比率が異なる複数回の拡張畳み込み操作を並行して実行した後に、特徴図が複数のスケールの受容野を有するようになり、モデル全体の受容野をさらに広げ、モデル動作の正確性を向上させた。
説明する必要があるものとして、本実施例では、並行畳み込みユニットに含まれる並行して実行された拡張畳み込み操作の個数および個々の拡張畳み込み操作の拡張比率の数値に対して限定しない。例えば、並行して実行される拡張畳み込み操作は4回、拡張比率は順次に3、6、9、12である。
選択的に、デコーディングユニットにおける畳み込み層は、畳み込み操作と再編成操作を含み、畳み込み操作は、特徴図に対してアップサンプリングするために使用され、再編成操作は、アップサンプリングされた特徴図に対してマトリックスの行数と、列数と、次元数を再構築するために使用される。
具体的に、U型畳み込みニューラルネットワークモデルのコーディングユニットにおいて、モデルは、通常ダウンサンプリングによって入力された画像(オリジナル画像とも呼ばれる)を特徴図にコーディングしており、例えば、4つの2倍ダウンサンプリングblockによって入力された画像を1つの1/16の特徴図にコーディングするが、U型畳み込みニューラルネットワークモデルのデコーディングユニットにおいて、モデルは、通常対応するアップサンプル(又はアップサンプリングとも呼ばれる)によってコーディングユニットによって出力された特徴図をオリジナル画像サイズの特徴図に復元する。この過程では、アップサンプリングblockの構造設計により、復元して得られた特徴図の品質が直接に決められる。本実施例において、デコーディングユニットにおける畳み込み層は、畳み込み操作と再編成操作を含み、アップサンプリングblockは学習可能モジュールである。畳み込み操作によって特徴図に対するアップサンプリングを実現し、例えば、解像度がH*Wである特徴図を畳み込み操作によって解像度が(r*H)*(r*W)である特徴図を得てから、再編成操作(reshape操作とも呼ばれる)により、アップサンプリングされた特徴図に対するマトリックスの行数と、列数と、次元数の再構築を実現する。
デコーディングユニットにおける畳み込み層が学習可能であるため、モデル動作の正確性が向上するようになった。
図5は、本発明の実施例で提供される歪んだドキュメント画像の矯正装置の概略構造図である。本実施例で提供される歪んだドキュメント画像の矯正装置は、図1~図4に示すような実施例で提供される歪んだドキュメント画像の矯正方法を実行ためのものである。図5に示すように、本実施例で提供される歪んだドキュメント画像の矯正装置は、
歪んだドキュメント画像を取得するための取得モジュール51と、
前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得るための矯正モジュール52と、を含むことができ、そのうち、前記矯正モデルは、画像サンプルセットを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、前記画像サンプルに歪みが存在する。
選択的に、前記矯正モデル52は、直列接続された変形パラメータ予測モジュールと変形矯正モジュールとを含み、そのうち、前記変形パラメータ予測モジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、前記変形矯正モジュール52は、前記画像サンプルセットと前記変形パラメータ予測モジュールの出力結果を入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、
前記矯正モジュール52は、具体的に、
前記歪んだドキュメント画像を前記矯正モデルに入力し、前記変形パラメータ予測モジュールによって中間結果を出力し、前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得、前記中間結果は、前記歪んだドキュメント画像におけるピクセルごとの変形パラメータを含むものである。
選択的に、前記変形パラメータ予測モジュールは、少なくとも二段の直列接続された変形パラメータ予測サブモジュールを含み、そのうち、第1段の変形パラメータ予測サブモジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、第2段の変形パラメータ予測サブモジュールは、前記画像サンプルセットと前記第1段の変形パラメータ予測サブモジュールの出力結果とを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、これによって類推し、
前記中間結果は、前記少なくとも二段の変形パラメータ予測サブモジュールにおける最終段の変形パラメータ予測サブモジュールの出力結果である。
選択的に、前記矯正モジュール52は、具体的に、
矯正操作が並行して行われるピクセルの個数を指示する動作パラメータを取得し、
前記動作パラメータに基づいて前記歪んだドキュメント画像で複数のピクセルを取得し、
前記複数のピクセルのそれぞれに対応する変形パラメータに基づいて前記変形矯正モジュールにより、前記複数のピクセルを並行して矯正し、矯正された複数のピクセルを得るためのものである。
選択的に、前記U型畳み込みニューラルネットワークモデルは、コーディングユニットとデコーディングユニットを含み、前記コーディングユニットと前記デコーディングユニットは、いずれも複数の畳み込み層を含み、前記コーディングユニットにおける畳み込み層は複数回の拡張畳み込み操作を含む。
選択的に、前記コーディングユニットにおける畳み込み層に含まれる複数回の拡張畳み込み操作の間の拡張比率は徐々に増大し、且つ互いに素である。
選択的に、前記U型畳み込みニューラルネットワークモデルにおいて前記コーディングユニットと前記デコーディングユニットの間には、また並行畳み込みユニットを含み、前記並行畳み込みユニットは、前記コーディングユニットにおける最終の畳み込み層から出力される特徴図に対して拡張畳み込み操作を並行して複数回実行するためのものであり、前記並行して実行される複数回の拡張畳み込み操作の間の拡張比率は、異なるものである。
選択的に、前記デコーディングユニットにおける畳み込み層は、畳み込み操作と再編成操作を含み、前記畳み込み操作は、特徴図に対してアップサンプリングするために使用され、前記再編成操作は、アップサンプリングされた特徴図に対してマトリックスの行数と、列数と、次元数を再構築するために使用される。
本実施例で提供される歪んだドキュメント画像の矯正装置は、図1~図4に示すような実施例で提供される歪んだドキュメント画像の矯正方法を実行するためのものであり、その技術的原理や技術的効果が類似するため、ここは繰り返して説明しない。
図6は、本発明の実施例で提供される歪んだドキュメント画像の矯正装置の他の概略構造図である。図6に示すように、歪んだドキュメント画像の矯正装置は、プロセッサ61とメモリ62を含むことができる。前記メモリ62は、命令を記憶するためのものであり、前記プロセッサ61は、前記メモリ62に記憶される命令を実行し、前記歪んだドキュメント画像の矯正装置がこれにより、図1~図4に示すような実施例で提供される歪んだドキュメント画像の矯正方法を実行するようになり、技術的原理や技術的効果が類似するため、ここは繰り返して説明しない。
選択的に、プロセッサは、グラフィックスプロセッシングユニット(Graphics Processing Unit、GPU)であってもよい。
当業者であれば、上記各方法の実施例を実現するためのステップのすべて又は一部は、プログラム命令に関連するハードウェアによって完了させることができると理解すべきである。前述したプログラムは、1つのコンピュータ可読取記憶媒体に記憶されることができる。該プログラムが実行されるとき、上記各方法の実施例を含むステップが実行される。前述した記憶媒体は、ROM、RAM、磁気ディスクまたはコンパクトディスク等の様々なプログラムコードを記憶可能な媒体を含む。
本願の1つの実施例では、本願は、コンピュータプログラム製品をさらに提供し、該コンピュータプログラム製品はコンピュータプログラム(即ち、実行命令)を含み、該コンピュータプログラムは可読記憶媒体に記憶される。プロセッサは、該コンピュータプログラムを可読記憶媒体から読み取ることができ、プロセッサは該コンピュータプログラムを実行して上記のいずれか1つの実施形態で提供される手段を実現する。
本願の1つの実施例では、本願は、コンピュータプログラムを提供し、該コンピュータプログラムは可読記憶媒体に記憶される。プロセッサは該コンピュータプログラムを可読記憶媒体から読み取ることができ、プロセッサは該コンピュータプログラムを実行して上記のいずれか1つの実施形態で提供される手段を実現する。
最後に説明すべきなのは、以上の各実施例は、本発明の実施例の技術的解決手段を説明するためのものだけであり、これを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明したが、当業者であれば、依然として前述の各実施例に記載の技術的解決手段を修正するか、又はそのうちの一部又はすべての技術的特徴に対して等価置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の主旨から逸脱しないと理解すべきである。

Claims (12)

  1. 歪んだドキュメント画像を取得するステップと、
    前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得るステップと、を含む歪んだドキュメント画像の矯正方法であって、そのうち、前記矯正モデルは、画像サンプルセットを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、前記画像サンプルに歪みが存在し、
    前記矯正モデルは、直列接続された変形パラメータ予測モジュールと変形矯正モジュールを含み、そのうち、前記変形パラメータ予測モジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、前記変形矯正モジュールは、前記画像サンプルセットと前記変形パラメータ予測モジュールの出力結果を入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、
    前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得る前記ステップは、
    前記歪んだドキュメント画像を前記矯正モデルに入力し、前記変形パラメータ予測モジュールによって中間結果を出力し、前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得るステップを含み、前記中間結果は、前記歪んだドキュメント画像におけるピクセルごとの変形パラメータを含む、歪んだドキュメント画像の矯正方法。
  2. 前記変形パラメータ予測モジュールは、少なくとも二段の直列接続された変形パラメータ予測サブモジュールを含み、そのうち、第1段の変形パラメータ予測サブモジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、第2段の変形パラメータ予測サブモジュールは、前記画像サンプルセットと前記第1段の変形パラメータ予測サブモジュールの出力結果を入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、これによって類推し、
    前記中間結果は、前記少なくとも二段の変形パラメータ予測サブモジュールにおける最終段の変形パラメータ予測サブモジュールの出力結果である、請求項に記載の歪んだドキュメント画像の矯正方法。
  3. 前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得る前記ステップは、
    矯正操作が並行して行われるピクセルの個数を指示する動作パラメータを取得するステップと、
    前記動作パラメータに基づいて前記歪んだドキュメント画像で複数のピクセルを取得するステップと、
    前記複数のピクセルのそれぞれに対応する変形パラメータに基づいて前記変形矯正モジュールにより、前記複数のピクセルを並行して矯正し、矯正された複数のピクセルを得るステップと、を含む、請求項に記載の歪んだドキュメント画像の矯正方法。
  4. 前記U型畳み込みニューラルネットワークモデルは、コーディングユニットとデコーディングユニットを含み、前記コーディングユニットと前記デコーディングユニットは、いずれも複数の畳み込み層を含み、前記コーディングユニットにおける畳み込み層は複数回の拡張畳み込み操作を含む、請求項のいずれか1項に記載の歪んだドキュメント画像の矯正方法。
  5. 前記コーディングユニットにおける畳み込み層に含まれる複数回の拡張畳み込み操作の間の拡張比率は徐々に増大し、且つ互いに素である、請求項に記載の歪んだドキュメント画像の矯正方法。
  6. 前記U型畳み込みニューラルネットワークモデルにおける前記コーディングユニットと前記デコーディングユニットの間には、並行畳み込みユニットをさらに含み、前記並行畳み込みユニットは、前記コーディングユニットにおける最終の畳み込み層から出力される特徴図に対して拡張畳み込み操作を並行して複数回実行するためのものであり、並行して実行する複数回の前記拡張畳み込み操作の間の拡張比率は異なるものである、請求項に記載の歪んだドキュメント画像の矯正方法。
  7. 前記デコーディングユニットにおける畳み込み層は、畳み込み操作と再編成操作を含み、前記畳み込み操作は、特徴図に対してアップサンプリングするために使用され、前記再編成操作は、アップサンプリングされた特徴図に対してマトリックスの行数と、列数と、次元数を再構築するために使用される、請求項に記載の歪んだドキュメント画像の矯正方法。
  8. 歪んだドキュメント画像を取得するための取得モジュールと、
    前記歪んだドキュメント画像を矯正モデルに入力して、前記歪んだドキュメント画像に対応する矯正された画像を得るための矯正モジュールと、を含む歪んだドキュメント画像の矯正装置であって、そのうち、前記矯正モデルは、画像サンプルセットを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、前記画像サンプルに歪みが存在し、
    前記矯正モデルは、直列接続された変形パラメータ予測モジュールと変形矯正モジュールを含み、そのうち、前記変形パラメータ予測モジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、前記変形矯正モジュールは、前記画像サンプルセットと前記変形パラメータ予測モジュールの出力結果とを入力とし、前記画像サンプルセットにおける画像サンプルごとに対応する矯正された画像を出力として訓練して得られたモデルであり、
    前記矯正モジュールは、
    前記歪んだドキュメント画像を前記矯正モデルに入力し、前記変形パラメータ予測モジュールによって中間結果を出力し、前記中間結果に基づいて前記変形矯正モジュールにより、前記歪んだドキュメント画像に対応する矯正された画像を得、前記中間結果は、前記歪んだドキュメント画像におけるピクセルごとの変形パラメータを含む、歪んだドキュメント画像の矯正装置。
  9. 前記変形パラメータ予測モジュールは、少なくとも二段の直列接続された変形パラメータ予測サブモジュールを含み、そのうち、第1段の変形パラメータ予測サブモジュールは、前記画像サンプルセットを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、第2段の変形パラメータ予測サブモジュールは、前記画像サンプルセットと前記第1段の変形パラメータ予測サブモジュールの出力結果とを入力とし、前記画像サンプルセットに含まれる画像サンプルごとにおけるピクセルごとの変形パラメータを出力として訓練して得られたU型畳み込みニューラルネットワークモデルであり、これによって類推し、
    前記中間結果は、前記少なくとも二段の変形パラメータ予測サブモジュールにおける最終段の変形パラメータ予測サブモジュールの出力結果である、請求項に記載の歪んだドキュメント画像の矯正装置。
  10. メモリとプロセッサを含み、
    前記メモリは、プログラム命令を記憶するためのものであり、
    前記プロセッサは、前記メモリに記憶された前記プログラム命令を呼び出して請求項1~のいずれか1項に記載の方法を実現するためのものである、歪んだドキュメント画像の矯正装置。
  11. コンピュータ可読記憶媒体であって、可読記憶媒体とコンピュータプログラムを含み、前記コンピュータプログラムは、請求項1~のいずれか1項に記載の方法を実現するためものである、コンピュータ可読記憶媒体。
  12. プロセッサによって実行されるとき、請求項1~請求項のいずれか1項に記載の歪んだドキュメント画像の矯正方法を実現する、コンピュータプログラム。
JP2021007302A 2020-01-20 2021-01-20 歪んだドキュメント画像の矯正方法及び装置 Active JP7108061B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010066508.7 2020-01-20
CN202010066508.7A CN111260586B (zh) 2020-01-20 2020-01-20 扭曲文档图像的矫正方法和装置

Publications (2)

Publication Number Publication Date
JP2021100247A JP2021100247A (ja) 2021-07-01
JP7108061B2 true JP7108061B2 (ja) 2022-07-27

Family

ID=70952492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021007302A Active JP7108061B2 (ja) 2020-01-20 2021-01-20 歪んだドキュメント画像の矯正方法及び装置

Country Status (5)

Country Link
US (1) US11756170B2 (ja)
EP (1) EP3839875B1 (ja)
JP (1) JP7108061B2 (ja)
KR (1) KR102428176B1 (ja)
CN (1) CN111260586B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783778A (zh) * 2020-08-18 2020-10-16 山东旗帜信息有限公司 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法
CN112597998A (zh) * 2021-01-07 2021-04-02 天津师范大学 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
CN113011144B (zh) * 2021-03-30 2024-01-30 中国工商银行股份有限公司 表单信息的获取方法、装置和服务器
WO2022239907A1 (ko) * 2021-05-10 2022-11-17 아주대학교산학협력단 이미지의 편위 수정 방법 및 시스템
KR102440898B1 (ko) * 2021-05-10 2022-09-06 아주대학교산학협력단 이미지의 편위 수정 방법 및 시스템
CN113792730B (zh) * 2021-08-17 2022-09-27 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN113591832B (zh) * 2021-08-20 2024-04-05 杭州数橙科技有限公司 图像处理模型的训练方法、文档图像处理方法及设备
CN114202648B (zh) * 2021-12-08 2024-04-16 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114937271B (zh) * 2022-05-11 2023-04-18 中维建通信技术服务有限公司 一种通信数据智能录入校对方法
CN115497112B (zh) * 2022-09-20 2023-10-13 北京百度网讯科技有限公司 表单识别方法、装置、设备以及存储介质
CN116453131B (zh) * 2023-06-15 2023-10-20 荣耀终端有限公司 文档图像矫正方法、电子设备及存储介质
CN117468084A (zh) * 2023-12-27 2024-01-30 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067154A (ja) 2016-10-19 2018-04-26 ソニーセミコンダクタソリューションズ株式会社 演算処理回路および認識システム
JP2018201146A (ja) 2017-05-29 2018-12-20 地方独立行政法人東京都立産業技術研究センター 画像補正装置、画像補正方法、注目点認識装置、注目点認識方法及び異常検知システム
WO2019046003A1 (en) 2017-08-30 2019-03-07 Verily Life Sciences Llc GRANULARITY CONTRAST ANALYSIS USING AUTOMATIC LEARNING TO VISUALIZE A FLOW
JP2019097055A (ja) 2017-11-24 2019-06-20 キヤノン株式会社 制御装置、撮像装置およびプログラム
US20200005034A1 (en) 2018-07-02 2020-01-02 Capital One Services, Llc Systems and methods for image data processing

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093869B2 (ja) * 1992-04-28 2000-10-03 オリンパス光学工業株式会社 画像取り込み装置
JPH118763A (ja) 1997-04-24 1999-01-12 Sharp Corp 画像読取装置
US9953246B2 (en) * 2014-12-16 2018-04-24 The Regents Of The University Of California Feature-preserving noise removal
CN105118040B (zh) * 2015-09-18 2017-12-01 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
CN106952236B (zh) * 2017-03-13 2020-04-24 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于bp神经网络的鱼眼镜头拍摄图像畸变矫正方法
CN108335266B (zh) * 2017-04-14 2022-08-05 陈思远 一种文档图像畸变的矫正方法
CN107749048B (zh) * 2017-07-31 2021-06-08 中国银联股份有限公司 图像矫正系统及方法、色盲图像矫正系统及方法
CN107609549B (zh) * 2017-09-20 2021-01-08 北京工业大学 一种自然场景下证件图像的文本检测方法
CN109753971B (zh) * 2017-11-06 2023-04-28 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN108510467B (zh) * 2018-03-28 2022-04-08 西安电子科技大学 基于深度可变形卷积神经网络的sar图像目标识别方法
CN108968916B (zh) * 2018-06-19 2021-04-16 艾瑞迈迪医疗科技(北京)有限公司 呼吸运动校正方法、装置、计算机设备和存储介质
US11004183B2 (en) * 2018-07-10 2021-05-11 The Board Of Trustees Of The Leland Stanford Junior University Un-supervised convolutional neural network for distortion map estimation and correction in MRI
CN109598270B (zh) * 2018-12-04 2020-05-05 龙马智芯(珠海横琴)科技有限公司 扭曲文字的识别方法及装置、存储介质及处理器
CN109635714B (zh) * 2018-12-07 2023-05-30 光典信息发展有限公司 文档扫描图像的矫正方法及装置
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
US11024002B2 (en) * 2019-03-14 2021-06-01 Intel Corporation Generating gaze corrected images using bidirectionally trained network
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN114037620A (zh) * 2019-04-04 2022-02-11 阿波罗智联(北京)科技有限公司 车载平视显示系统图像畸变矫正方法和装置
CN110060313B (zh) * 2019-04-19 2023-12-19 上海联影医疗科技股份有限公司 一种图像伪影校正方法和系统
CN110136069B (zh) * 2019-05-07 2023-05-16 语联网(武汉)信息技术有限公司 文本图像矫正方法、装置与电子设备
CN110211048B (zh) * 2019-05-28 2020-06-16 国家电网有限公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN110287960B (zh) * 2019-07-02 2021-12-10 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110427938A (zh) * 2019-07-26 2019-11-08 中科视语(北京)科技有限公司 一种基于深度学习的不规则文字识别装置和方法
CN110570373A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 畸变校正方法和装置、计算机可读的存储介质及电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067154A (ja) 2016-10-19 2018-04-26 ソニーセミコンダクタソリューションズ株式会社 演算処理回路および認識システム
JP2018201146A (ja) 2017-05-29 2018-12-20 地方独立行政法人東京都立産業技術研究センター 画像補正装置、画像補正方法、注目点認識装置、注目点認識方法及び異常検知システム
WO2019046003A1 (en) 2017-08-30 2019-03-07 Verily Life Sciences Llc GRANULARITY CONTRAST ANALYSIS USING AUTOMATIC LEARNING TO VISUALIZE A FLOW
JP2019097055A (ja) 2017-11-24 2019-06-20 キヤノン株式会社 制御装置、撮像装置およびプログラム
US20200005034A1 (en) 2018-07-02 2020-01-02 Capital One Services, Llc Systems and methods for image data processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, Dimitris Samaras,DocUNet: Document Image Unwarping via A Stacked U-Net,IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION,2018年06月18日,4700-4707,インターネット:<URL:https://openaccess.thecvf.com/content_cvpr_2018/papers/Ma_DocUNet_Document_Image_CVPR_2018_paper.pdf>,[検索日2022年3月3日]

Also Published As

Publication number Publication date
KR20210037620A (ko) 2021-04-06
US20210192696A1 (en) 2021-06-24
KR102428176B1 (ko) 2022-08-02
CN111260586B (zh) 2023-07-04
EP3839875A1 (en) 2021-06-23
US11756170B2 (en) 2023-09-12
JP2021100247A (ja) 2021-07-01
EP3839875B1 (en) 2022-06-29
CN111260586A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
JP7108061B2 (ja) 歪んだドキュメント画像の矯正方法及び装置
KR102640237B1 (ko) 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及系统
CN112070670A (zh) 全局-局部分离注意力机制的人脸超分辨率方法及系统
JP2017500651A (ja) 入力低解像度(lr)画像を処理して出力高解像度(hr)画像にする方法
CN111951167B (zh) 超分辨率图像重建方法、装置、计算机设备和存储介质
CN112215755B (zh) 一种基于反投影注意力网络的图像超分辨率重建方法
CN103985085A (zh) 图像超分辨率放大的方法和装置
CN111951164B (zh) 一种图像超分辨率重建网络结构及图像重建效果分析方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
JP2017505951A (ja) 画像の品質を高める方法及びデバイス
US11669943B2 (en) Dual-stage system for computational photography, and technique for training same
CN114612289A (zh) 风格化图像生成方法、装置及图像处理设备
Zhang et al. Multi-branch networks for video super-resolution with dynamic reconstruction strategy
CN112419152A (zh) 一种图像超分辨率方法、装置、终端设备和存储介质
CN115953303A (zh) 结合通道注意力的多尺度图像压缩感知重构方法及系统
CN117575915A (zh) 一种图像超分辨率重建方法、终端设备及存储介质
CN109996085B (zh) 模型训练方法、图像处理方法、装置及电子设备
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
CN116797456A (zh) 图像超分辨率重建方法、系统、设备和存储介质
CN109064435B (zh) 一种基于多光谱影像的Gram-Schmdit融合快速处理方法
CN114022363A (zh) 图像超分辨率重建方法、装置以及计算机可读存储介质
CN113850852A (zh) 一种基于多尺度上下文的内窥镜图像配准方法及设备
Liu et al. Image super-resolution using progressive residual multi-dilated aggregation network
CN117557447B (zh) 图像还原方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220714

R150 Certificate of patent or registration of utility model

Ref document number: 7108061

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150