JP7689439B2 - 画像処理システム、画像処理方法、及びプログラム - Google Patents

画像処理システム、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP7689439B2
JP7689439B2 JP2021067356A JP2021067356A JP7689439B2 JP 7689439 B2 JP7689439 B2 JP 7689439B2 JP 2021067356 A JP2021067356 A JP 2021067356A JP 2021067356 A JP2021067356 A JP 2021067356A JP 7689439 B2 JP7689439 B2 JP 7689439B2
Authority
JP
Japan
Prior art keywords
handwritten characters
image
document image
document
handwritten
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021067356A
Other languages
English (en)
Other versions
JP2022162474A (ja
JP2022162474A5 (ja
Inventor
悠貴 鳴海
剛 大石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021067356A priority Critical patent/JP7689439B2/ja
Priority to US17/716,084 priority patent/US12183101B2/en
Publication of JP2022162474A publication Critical patent/JP2022162474A/ja
Publication of JP2022162474A5 publication Critical patent/JP2022162474A5/ja
Application granted granted Critical
Publication of JP7689439B2 publication Critical patent/JP7689439B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Description

本発明は、手書き文字と活字が混在する文書画像に対して、傾き補正を実施する技術に関する画像処理システム、画像処理方法及びプログラムに関する。
従来、画像形成装置でスキャンした文書画像データに光学文字認識処理(以下、OCR処理とする)を行うことで、画像データ内の文字列をデジタルデータとして抽出する技術が存在する。しかしながら、スキャンした文書画像が傾いている場合、正しいOCR処理が実施できない場合がある。そこで、OCR処理の前処理として、文書画像の傾き角度を推定し、正しい角度になるよう補正を行う技術(以下、傾き補正)が存在する(例えば、特許文献1、特許文献2、特許文献3)。
特許文献1に記載の技術では、文書画像の回転角の関数として画素の分散を測定し、分散が最大である文書回転角度(傾き角度)で、傾き補正を実施している。また、特許文献2に記載の技術では、表領域を検出後、罫線の傾きに基づいて入力画像の傾き補正を実施する。また、特許文献3に記載の技術では、文書画像のエッジを検出することで、画像の中身を確認することなく、傾き補正を実施する。
特開平3-268189号公報 特開平8-44822号公報 特開2020-53931号公報
しかしながら、特許文献1では、行間隔やピッチ、角度にバラつきのある手書き文字が多く混在する場合、正確な傾き角度を推定することが困難である。特に、活字に対して、手書き文字数の割合が多い場合、または、手書き文字の濃度が濃い(活字に対して輝度差が大きい)場合に、正確な傾き角度を推定できないおそれがある。また、特許文献2では、原稿画像に罫線情報がない場合、傾き補正が実施できないおそれがある。また、特許文献3では、エッジの検出ができない場合や、文書原稿が四角くない場合(やぶれ等)、正確な傾き補正が実施できないおそれがある。
本発明は、上記事情に鑑みてなされたものであり、手書き文字と活字が混在する文書画像に対する、傾き補正の精度を向上させた画像処理システムを提供することを目的とする。
上記の目的を達成するために、本発明における画像処理システムは、文書画像に対して、傾き補正を実施する画像処理システムにおいて、手書き文字と活字とが混在する文書画像を取得する文書画像取得部と、手書き文字を含む画像により手書き文字の特徴を学習させたニューラルネットワークを用いて、前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する分離部と、前記生成された手書き文字以外の画像を用いて、傾き角度を推定する傾き角度推定部と、前記推定された傾き角度に基づいて、前記手書き文字と前記活字とが混在する前記文書画像の傾きを補正する傾き補正部と、を有する
ことを特徴とする。
本発明によれば、手書き文字と活字が混在する文書画像に対する、傾き補正の精度を向上させることができる。
本発明の実施形態における画像処理システムの一例を示すブロック図。 第1実施形態における画像処理の手順を示すフローチャート。 第1実施形態における文書画像と処理結果の一例を示す図。 第2実施形態における画像処理の手順を示すフローチャート。 第2実施形態における手書き文字分離のための学習データの一例を示す図。
以下、添付図面を参照して本発明の実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成要素には同一の参照番号を付して、説明を省略する。
<画像形成システム概要>
図1は、本発明の実施形態における画像処理システムの一例を示すブロック図である。図1に示すように、画像処理システムは、画像形成装置100と、ホストコンピュータ170と、サーバー191(クラウドサーバーであってもよい)を含む。
本実施形態では、画像形成装置100として、印刷機能、読取機能、FAX機能等、複数の機能が一体化された複合機(MFP:Multi Function Printer)が用いられるものとして説明する。また、サーバー191は、文書管理機能を有するものとして説明する。画像形成装置100とホストコンピュータ170とサーバー191は、LAN(Local Area Network)190等のネットワークを相互に通信可能に接続されている。画像形成装置100とホストコンピュータ170とサーバー191は、複数台接続されていてもよく、他の装置が接続されていてもよい。また、ネットワークは、本実施形態ではLAN190を例示して説明するが、有線ネットワークや無線ネットワーク、もしくは、それらが組み合わされた構成の場合がある。
画像形成装置100は、制御装置110、リーダー装置120、プリンタ装置130、操作部140、記憶装置150を含む。制御装置110は、リーダー装置120、プリンタ装置130、操作部140、記憶装置150のそれぞれと接続される。
制御装置110は、画像形成装置100を統括的に制御する制御基板(コントローラ)である。制御装置110は、CPU111、ROM112、RAM113、画像処理部114を含む。
CPU111は、システムバス(不図示)を介して、制御装置110内の各ブロックを制御する。例えば、CPU111は、ROM112やRAM113、記憶装置150、又は、他の記憶媒体に記憶されたプログラムを読み出して実行することにより、画像形成装置100の機能を実行する。
ROM112は、例えば、制御プログラムや、画像形成装置100の機能を実行する上で必要なテーブルや設定データ等を記憶する。RAM113は、例えば、CPU111のワークメモリとして用いられる。
画像処理部114は、リーダー装置120によって生成された読取画像データや、外部から受信した画像データに対して、変換、補正、編集、圧縮/解凍など、種々の画像処理を実行する。画像処理部114は、ハードウェアで構成される場合があれば、ソフトウェアで実現される場合もある。
リーダー装置120は、スキャナエンジンの構成を有し、原稿を光学的に読み取る原稿スキャン処理をし、光学的に読み取った原稿から読取画像データ(文書画像)を生成する。原稿スキャン処理は、原稿台にセットされた原稿を光学的に読み取る方法でもよいし、自動原稿給送装置(ADF:Automatic Document Feeder)から給送された原稿を光学的に読み取る方法でもよい。
プリンタ装置130は、インクジェット記録方式や電子写真方式等、各種の記録方式に対応したプリンタエンジンの構成を有する。これにより、プリンタ装置130は、記録媒体上に画像を形成する。
操作部140は、ユーザーの操作を受付けるための操作キー、及び、各種設定やユーザーインターフェース画面の表示などを行う液晶パネルを備える。操作部140は、ユーザー操作等によって受け付けた情報を制御装置110へ出力する。
記憶装置150は、ユーザー情報を記憶する。ユーザー情報としては、例えば、画像データや、モードやライセンスなどの機器情報や、アドレス帳やカスタマイズなどがある。
なお、画像形成装置100は、図1に示す構成に限られず、画像形成装置100の実行可能な機能に応じて他の構成を含む。例えば、FAX機能の実行に必要な構成や、近距離無線通信を可能とする構成を含む場合もある。
サーバー191は、制御装置198、操作部195、記憶装置196、表示部197を含む。制御装置198は、操作部195、記憶装置196、表示部197のそれぞれと接続される。
制御装置198は、サーバー191を統括的に制御する制御基板(コントローラ)である。制御装置198は、CPU192、ROM193、RAM194を含む。
CPU192は、システムバス(不図示)を介して、制御装置198内の各ブロックを制御する。例えば、CPU192は、ROM193やRAM194、記憶装置196、又は、他の記憶媒体に記憶されたプログラムを読み出して実行することにより、サーバー191の機能を実行する。
ROM193は、例えば、オペレーティングシステムプログラム(OS)等の各種制御プログラムや、サーバー191の機能を実行する上で必要なテーブルや設定データ等を記憶する。RAM194は、例えば、CPU192のワークメモリとして用いられる。
操作部195は、ユーザーの操作を受付けるためのキーボードやポインティングデバイス等を備え、受け付けたユーザー操作等の情報を制御装置198へ出力する。記憶装置196は、例えば、各種アプリケーションプログラムや、データ、ユーザー情報、機器情報などを記憶する。表示部197は、例えば液晶ディスプレイであり、各種ユーザーインターフェース画面や情報の表示を行う。
ホストコンピュータ170は、LAN190を介して、画像形成装置100やサーバー191のそれぞれと接続される。この構成により、ホストコンピュータ170による操作や指示に基づいて、画像形成装置100やサーバー191を操作することもできる。
上述のような構成の画像処理システムを例に挙げ、具体的な実施形態を以下に述べる。なお、下記の実施形態で用いる「手書き文字」とは、人の手によって手書き入力された文字を指す。
[第1実施形態]
手書き文字と活字が混在する文書の場合、文字間隔やピッチが不均一な手書き文字の影響により、従来の傾き補正が失敗する可能性がある。本実施形態では、手書き文字がある場合、手書き文字の影響を除外した傾き角度推定用の画像を生成して、傾き角度推定を実施する。
図2は、第1実施形態における画像処理の手順を示すフローチャートである。図3は、第1実施形態における入力文書画像と処理結果の一例を示す図である。なお、以下の説明で、「傾き」とは、傾きの基準となる左右方向に延びる基準線L(図3参照)に対する入力文書画像の傾き角度をいう。
以下、図2を用いて画像処理の手順の説明を進めるが、必要に応じて、図3を参照して、画像処理の手順を説明する。図2の処理は、例えば、CPU111が、ROM112に記憶されたプログラムをRAM113に読みだして実行することで実現される。
ステップS201において、入力文書画像の取得処理を行う。入力文書画像とは、画像処理システムに入力される文書画像300のことである。入力文書画像の取得処理において、CPU111は、操作部140を介してユーザーからの原稿スキャン処理の指示を受け付けると、リーダー装置120にスキャン指示を行い、スキャンを実施する。これにより、原稿に対応した読取画像データ(文書画像)を取得する。図3に示す文書画像300は、ステップS201の文書画像取得処理で取得した入力文書画像の一例である。原稿が原稿台に斜めにセットされる場合には、リーダー装置120により取得された文書画像300にも傾きが生じる。また、ADFを用いて原稿を読み込んだ場合であっても、原稿のセットの仕方や搬送用モータの左右の速度差等により、取得された文書画像に傾きが生じる場合がある。そのため、取得した文書画像の傾きを識別し、補正することが必要である。このように、CPU111は、画像処理システムにおいて、文書画像を取得する文書画像取得部として機能する。
ステップS202において、手書き文字分離処理を行う。手書き文字の分離処理において、CPU111は、ステップS201で生成した読取画像データに対して、手書き文字の記載個所を分離する処理を行う。これにより、手書き文字の画像と手書き文字以外の画像を生成する。ここで生成した手書き文字以外の画像を、本分離処理の後、傾き角度推定のために用いる。このように、CPU111は、画像処理システムにおいて、手書き文字と判断された手書き文字の画像と、手書き文字と判断されない手書き文字以外の画像とに分離する手書き文字分離部として機能する。
本実施形態の手書き文字分離手法では、まず、画像内の手書き文字領域とそれ以外の背景領域を、ニューラルネットワーク(NN)に学習させる。次に、ニューラルネットワークの学習に基づいて、画素ごとに手書きか手書きでないかを判断する。これにより、手書き文字の画像特徴と一致する場合に手書き文字と判断し、画素を抽出することが可能である。例えば、図3の文書画像300の読取画像データに対して本処理を行うことで、画素310~312に示すような画素を手書き文字と判断する。次に、手書き文字と判断された画素310~312を除去することで、手書き文字以外の文書画像301が得られる。なお、本実施形態の手書き文字分離手法は一例であって、手書き文字を分離する手法を本実施形態の手法に限定するものではない。
従来の手書き文字分離は、文字種別に特化したOCR処理への投入を目的としていた。なお、OCR処理とは、光学的文字認識(OCR:Optical Character Recognition)による文字データの抽出処理のことをいう。
これに対し、本実施形態では、傾き認識の妨げにならないよう手書き文字を分離する。つまり、本分離処理により手書き文字を除外して、以後の傾き角度推定に用いる画像を生成している。手書き文字以外の文書画像301のような、手書き文字を除外した画像を用いることで、傾き角度の推定精度を向上させることが期待できる。
ステップS211で、CPU111は、読み取った文書画像300に手書き文字が混在するかを判断する。ステップS202において、手書き文字として抽出できた画素が一定量以上の場合、手書き文字がある(Yes)と判断し、ステップS202の処理へ進む。一方、ステップS202において、手書き文字として抽出できた画素が一定量を下回る場合、手書き文字がない(No)と判断し、ステップS212の処理へ進む。
本実施形態では、ステップS211において手書き文字があるかないかの判断において、ステップS202で画像分離した手書き文字の画像の画素と手書き文字以外の画像の画素の割合に基づいて、手書き文字の有無を判断した。手書き文字として抽出した画素が一定量を下回る場合、画像ノイズ等の可能性が高く、傾き角度推定に及ぼす影響はほとんど無い。あるいは、真に手書き文字を抽出した場合であっても、対する活字など手書き文字以外の画素の方が一定割合以上あれば、傾き角度推定に影響を与えることはほとんど無い。従って、手書き文字の有無を判断する際には、ステップS202で画像分離した手書き文字の画像の画素が、手書き文字以外の画像の画素よりも一定割合以上多い場合に、手書き文字あり(Yes)という判断を行った。
ステップS203において、傾き角度推定処理を行う。傾き角度推定処理では、CPU111は、ステップS202で生成した手書き文字以外の文書画像301を用いて傾き角度推定を行う。行間隔やピッチ、角度にバラつきのある手書き文字を除外し、手書き文字以外の文書画像301を用いて傾き角度推定を行うことで、傾き角度推定の精度が向上する。このように、CPU111は、画像処理システムにおいて、手書き文字以外の画像の傾き角度を推定する傾き角度推定部として機能する。
本実施形態で用いた傾き角度(回転角度)を推定する手法は、文書画像内の文字列や線が印字前のデータ上では水平方向に並んでいることを利用する。例えば、様々な方向への射影ヒストグラムを取り、ヒストグラムのピークとボトムが短い周期で大きく振動するヒストグラムに対応する角度を選択することにより、傾き角度の推定が可能である。これは、正しい方向への射影であれば、同一ラインの文字列や、同一方向の罫線等の水平の線が、ヒストグラム上の同一のビンに投票され、行間にあたる部分には何も投票されないため、大きな振幅が文字間の周期で生じるためである。
ここまでの手法で推定した角度は、文字の向きが考慮されておらず、180度の不確実性が存在する。文字の向きについては、簡易的な文字認識処理を行った際の文字の確からしさ情報を用いて、判定することが可能である。これにより、文字の向きも考慮した角度情報を算出することが可能になる。この傾き角度推定手法は、行間隔が均一で行間隙間が所定の隙間以上に空いており、横ストロークが水平となる活字や罫線主体の文書において有効な手法である。従って、手書き文字以外の文書画像301のような、活字ベースの文書においては、傾き角度を正確に判断することができる。なお、上述の水平方向とは、図3における基準線Lと平行な方向であることをいう。基準線Lは、紙面における左右方向に延びる線であり、紙面における上下方向と直交する線である。
本実施形態で、手書き文字以外の文書画像301に対して、傾き角度推定処理を実施することで、基準線Lに対する傾き角度αを得ることができる。ただし、画像の傾き角度を識別する手法については特定の手法に限定するものではない。
ステップS212において、CPU111は、ステップS211で手書き文字がないと判断された文書画像について、傾き角度推定処理を実施する。傾き角度推定処理は、ステップS203で行った処理と同様である。
ステップS213において、ステップS203およびステップS212で推定した傾き角度に基づいて、文書画像に傾きがあるかを判断する。傾き角度が一定角度以上ある場合、傾きがある(Yes)と判断し、ステップS204の傾き補正処理へ進む。一方、傾き角度が一定角度に満たない場合、傾きがない(No)と判断し、傾き補正をスキップし、ステップS205のOCR処理へ進む。
ステップS204で、CPU111は、ステップS203またはステップS212で推定した傾き角度を用いて、S201で取得した文書画像に対して傾き補正処理を実施する。本実施形態における傾き補正は、ステップS203およびステップS212で推定した傾き角度による回転座標変換を行った。なお、補正手段はこれに限定するものではない。本実施形態では、図3に示す傾き角度αを用いて、手書き文字以外の文書画像301に対して本傾き補正処理を行うことで、傾き補正後の補正画像302を得ることができる。傾き補正処理の後、ステップS205のOCR処理へ進む。このように、CPU111は、画像処理システムにおいて、傾き角度αに基づいて文書画像300を補正する傾き補正部として機能する。
ステップS205で、CPU111は、ステップS204で補正した補正画像302に対してOCR処理を行う。本実施形態においては、ステップS202で分離した手書き文字と、手書き文字以外の文書画像301について、それぞれ、手書き用、活字用に特化したOCR処理を実施する。その後、手書き文字のOCR結果と、手書き文字以外の文書画像301のOCR結果とを、マージする処理を行った。
また本実施形態においては、OCR処理の前に文字列領域を判定し、文字列領域となった各領域についてOCR処理を実施し、文字列領域における文字列の文字コードを取得する。この領域判定により、文字列領域以外の領域を処理しなくて済む。この結果、処理負荷の軽減や文字認識の精度を向上することができる。なお、OCR処理については、様々な手法が考案されており、本実施形態の手法に限定するものではない。
ステップS206で、CPU111は、文書画像300や補正画像302にステップS205で得たテキスト情報を付加したものを、記憶装置150にデータを登録して、本処理を終了する。データを登録する際に、文書画像を画像データのままではなく、OCR処理結果を用いて、全文検索可能なPDFなどの文書フォーマットに変換してもよい。
本実施形態では、画像形成装置100上で全ての処理を行ったが、これに限るものではない。例えば、処理負荷を分散するために、LAN190を介して、ステップS201で生成した読取画像データを、サーバー191に送信し、サーバー191でユーザーからの操作受付以外の処理を行ってもよい。
[第2実施形態]
本実施形態では、第1実施形態における手書き文字を分離する処理(図2のステップS202の処理)において、傾きの大きい文書画像に対しても、手書き文字の分離精度を高く維持できる手法について説明する。傾きの大きい文書画像に対しては、手書き文字の分離精度を維持する処理を実行し、傾きの小さい文書画像に対しては、十分な精度が発揮できるだけのシンプルな処理を実行する。図4は、第2実施形態における画像処理の手順を示すフローチャートである。以下、第2実施形態について、第1実施形態と異なる点を主に説明する。
ステップS410で、CPU111は、ステップS201で取得した文書画像の傾きの範囲を判断する。傾きの範囲とは、どの程度傾いた画像が入力される可能性があるか、その取り得る傾きの程度の幅を指す。例えば、ADFで取得した文書画像より、原稿台にセットして取得した文書画像の方が置き方の自由度が高いため、傾きの範囲は大きいと言える。また、ADFであっても、原稿のセットの仕方や搬送用モータの左右の速度差等により文書画像に傾きが生じる可能性がある。特に、マルチサイズの原稿に対応可能なADFを利用する場合は、特定原稿サイズ対応のADFを利用する場合と比べて、傾きの範囲が大きくなる。このように、CPU111は、画像処理システムにおいて、傾き角度が取り得る範囲を判断する傾き角度範囲判断部として機能する。
例えば、本実施形態で用いる画像形成装置100におけるADFは、小サイズ(はがき、領収書など)などの原稿サイズを自動で検知する。この検知した原稿サイズが、給送可能な最大原稿サイズより小さい場合、セット位置のずれなどで原稿が傾き易い。この場合は、傾きの範囲が規定以上である(Yes)と判断する。また、原稿台から原稿を読み取って取得した場合も、傾きの範囲が規定以上である(Yes)と判断する。対して、ADFで検知した原稿サイズが、給送可能な最大原稿サイズである場合は、傾きの範囲は小さく、規定を下回る(No)と判断する。このように、ステップS410においては、文書画像が傾く可能性が大きく、傾きの範囲が規定以上の場合(Yes)、ステップS401に進む。一方、傾きの範囲が規定を下回る場合(No)、ステップS402に進む。
本実施形態で用いた手書き文字の分離手法は、画像内の手書き文字領域とそれ以外の背景領域をニューラルネットワーク(NN)に学習させて、画素ごとに手書きかそうでないかを判断する、といった手法である。以下、入力文書画像の傾き角度の範囲が規定以上であるか否かによって、場合分けをして説明する。
ステップS401において、ステップS410で入力文書画像の傾き角度の範囲が規定以上と判断されているため、CPU111は、その範囲に対応可能な、傾き角度の大きい文書用の手書き文字分離処理を行う。ステップS401の処理で用いるニューラルネットワークには、手書き文字の画像データとして、手書き文字の傾き角度を異ならせた複数通りのパターン画像を学習させる。図5は、第2実施形態における手書き文字分離のための学習データの一例を示す図である。図5に示すように、様々な角度で手書き文字を学習させることで、傾き角度の大きい入力文書画像に対しても、手書き文字の抽出精度を維持することが可能である。
なお、本実施形態では、手書き文字の傾き角度を異ならせることとしたが、これに限るものではない。例えば、ニューラルネットワークの学習画像の傾き角度の範囲を制限して、本処理において、入力文書画像の傾き角度が異なるようにしながら手書き文字の抽出を行い、取り得る傾き角度を網羅することとしてもよい。
ステップS402において、ステップS410で入力文書画像の傾きの範囲が規定を下回ると判断されているため、CPU111は、その範囲に対応可能な、傾きが小さい文書用の手書き文字分離処理を行う。ステップS402の処理で用いるニューラルネットワークには、手書き文字分離のための画像データとして、ステップS401の処理で用いるニューラルネットワークよりも少ない数の回転パターンの画像を学習させる。学習パターンの少ないシンプルなネットワーク構造のニューラルネットワークを利用した方が、同一精度を目指した場合に、推論のコストを低減することが可能である。そのため、傾き範囲が小さいと思われる場合には、十分な精度が見込めるシンプルなネットワーク構造を用いる。本処理で用いるニューラルネットワークには、図5の画像501に示すような、正常の向きの画像のみを学習に使用する。
このように、本実施形態においては、傾きの範囲が大きい文書画像に対して、回転した複数パターンの手書き文字を学習したニューラルネットワークを用いて手書き文字の分離処理を行う。このため、手書き文字の分離精度を高く維持することが可能である。また、傾きの範囲が小さい文書画像に対しては、学習パターンを減らしたニューラルネットワークを用いて、手書き文字の分離処理を行う。このため、シンプルな処理で十分な精度を発揮することが可能である。
[その他の実施形態]
以上、本発明をその好適な実施形態に基づいて詳述したが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。また、上述の実施形態の一部を適宜組み合わせてもよい。特に、上述の実施形態においては、画像処理をするCPUとして、画像形成装置100のCPU111を例示したが、サーバー191のCPU192を用いてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100…画像形成装置
110…制御装置
120…リーダー装置
191…サーバー
198…制御装置


Claims (7)

  1. 文書画像に対して、傾き補正を実施する画像処理システムにおいて、
    手書き文字と活字とが混在する文書画像を取得する文書画像取得部と、
    手書き文字を含む画像により手書き文字の特徴を学習させたニューラルネットワークを用いて、前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する分離部と、
    前記生成された手書き文字以外の画像を用いて、傾き角度を推定する傾き角度推定部と、
    前記推定された傾き角度に基づいて、前記手書き文字と前記活字とが混在する前記文書画像の傾きを補正する傾き補正部と、を有する
    ことを特徴とする画像処理システム。
  2. 前記分離部は、前記文書画像の傾き角度の範囲に対応する手法を適用して、前記文書画像から手書き文字を除外することにより、前記手書き文字以外の画像を生成する
    ことを特徴とする請求項1に記載の画像処理システム。
  3. 前記分離部は、
    前記文書画像の傾き角度の範囲が規定値以上であれば、第1のニューラルネットワークを用いて前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する一方、
    前記文書画像の傾き角度の範囲が前記規定値より小さければ、第2のニューラルネットワークを用いて前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成するものであり、
    前記第2のニューラルネットワークの学習に用いた文書画像の傾きは、前記第1のニューラルネットワークの学習に用いた文書画像の傾きより小さい、
    ことを特徴とする請求項1に記載の画像処理システム。
  4. 前記分離部は、
    傾き角度が異なる複数通りの手書き文字の画像により手書き文字の特徴を学習させた前記ニューラルネットワークを用いて、前記手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する
    ことを特徴とする請求項1に記載の画像処理システム。
  5. 前記分離部は、
    傾き角度が異なる複数通りの手書き文字を含む文書画像により手書き文字の特徴を学習させた前記ニューラルネットワークを用いて、前記手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する
    ことを特徴とする請求項1に記載の画像処理システム。
  6. 文書画像に対して、傾き補正を実施する画像処理方法において、
    手書き文字と活字とが混在する文書画像を取得する文書画像取得工程と、
    手書き文字を含む画像により手書き文字の特徴を学習させたニューラルネットワークを用いて、前記文書画像内に含まれる手書き文字の画素を判断し、当該判断された手書き文字の画素を前記文書画像から除去することにより、前記手書き文字以外の画像を生成する分離工程と、
    前記生成された手書き文字以外の画像を用いて、傾き角度を推定する傾き角度推定工程と、
    前記推定された傾き角度に基づいて、前記手書き文字と前記活字とが混在する前記文書画像の傾きを補正する傾き補正工程と、を有する
    ことを特徴とする画像処理方法。
  7. コンピュータを、請求項1乃至のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2021067356A 2021-04-12 2021-04-12 画像処理システム、画像処理方法、及びプログラム Active JP7689439B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021067356A JP7689439B2 (ja) 2021-04-12 2021-04-12 画像処理システム、画像処理方法、及びプログラム
US17/716,084 US12183101B2 (en) 2021-04-12 2022-04-08 Image processing system, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021067356A JP7689439B2 (ja) 2021-04-12 2021-04-12 画像処理システム、画像処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2022162474A JP2022162474A (ja) 2022-10-24
JP2022162474A5 JP2022162474A5 (ja) 2024-04-19
JP7689439B2 true JP7689439B2 (ja) 2025-06-06

Family

ID=83602701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021067356A Active JP7689439B2 (ja) 2021-04-12 2021-04-12 画像処理システム、画像処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US12183101B2 (ja)
JP (1) JP7689439B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7689439B2 (ja) * 2021-04-12 2025-06-06 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215136A1 (en) 2002-05-17 2003-11-20 Hui Chao Method and system for document segmentation

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5187753A (en) 1989-12-08 1993-02-16 Xerox Corporation Method and apparatus for identification and correction of document skew
JPH0844822A (ja) 1994-08-03 1996-02-16 Matsushita Electric Ind Co Ltd 文字認識装置
JP2006092027A (ja) * 2004-09-21 2006-04-06 Fuji Xerox Co Ltd 文字認識装置、文字認識方法および文字認識プログラム
US8139897B2 (en) * 2007-03-15 2012-03-20 Ricoh Company, Limited Detecting tilt in an image having different resolutions in different directions
TW201223239A (en) * 2010-11-23 2012-06-01 Cal Comp Electronics & Comm Co Method for image correction and scanner using the same
US10056083B2 (en) * 2016-10-18 2018-08-21 Yen4Ken, Inc. Method and system for processing multimedia content to dynamically generate text transcript
US10783400B2 (en) * 2018-04-06 2020-09-22 Dropbox, Inc. Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
JP2020053931A (ja) 2018-09-28 2020-04-02 日本電産サンキョー株式会社 画像処理装置、イメージスキャナ、及び画像処理方法
US11302108B2 (en) * 2019-09-10 2022-04-12 Sap Se Rotation and scaling for optical character recognition using end-to-end deep learning
US11315351B2 (en) * 2020-01-08 2022-04-26 Kabushiki Kaisha Genial Technology Information processing device, information processing method, and information processing program
JP7689439B2 (ja) * 2021-04-12 2025-06-06 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215136A1 (en) 2002-05-17 2003-11-20 Hui Chao Method and system for document segmentation

Also Published As

Publication number Publication date
JP2022162474A (ja) 2022-10-24
US20220335738A1 (en) 2022-10-20
US12183101B2 (en) 2024-12-31

Similar Documents

Publication Publication Date Title
US8619278B2 (en) Printed matter examination apparatus, printed matter examination method, and printed matter examination system
US9088673B2 (en) Image registration
US8792128B2 (en) Apparatus, system, and method of inspecting image, and recording medium storing image inspection control program
US8131081B2 (en) Image processing apparatus, and computer program product
US20200202155A1 (en) Method for image processing, and image-processing system
US20170142274A1 (en) Information processing device, image processing system and non-transitory computer readable medium storing program
JP6427964B2 (ja) 画像処理システム、情報処理装置及びプログラム
JP6066108B2 (ja) 電子文書生成システムおよびプログラム
US9858513B2 (en) Document file output apparatus, document file output method, and computer readable medium
US20150324954A1 (en) Methods and systems for automated orientation detection and correction
JP7689439B2 (ja) 画像処理システム、画像処理方法、及びプログラム
US20110216337A1 (en) Image processing apparatus, image processing system, and computer readable medium
US10834281B2 (en) Document size detecting by matching between image of entire document and read size image
US9886648B2 (en) Image processing device generating arranged image data representing arranged image in which images are arranged according to determined relative position
JP2023158554A (ja) 文字画質調整システム、文字画質調整装置とその制御方法及びプログラム
US20180260363A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2005316550A (ja) 画像処理装置、画像読取装置、画像検査装置、およびプログラム
US10356276B2 (en) Image processing apparatus, image forming apparatus, and computer readable medium
JP6394579B2 (ja) 画像読取装置及び画像形成装置
JP7171269B2 (ja) 画像照合システム、画像照合方法、及びプログラム
JP2017208655A (ja) 情報処理装置、情報処理方法及びプログラム
US12260569B2 (en) Information processing device, information processing system, and non-transitory computer readable medium
US20230245298A1 (en) Inspection apparatus, method of controlling the same, printing system, and storage medium
US20250022303A1 (en) Image processing system and non-transitory computer-readable storage medium
US20220301326A1 (en) Ocr target area position acquisition system, computer-readable non-transitory recording medium storing ocr target area position acquisition program, hard copy, hard copy generation system, and computer-readable non-transitory recording medium storing hard copy generation program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250527

R150 Certificate of patent or registration of utility model

Ref document number: 7689439

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150