JP2023092869A - 画像形成装置、方法、およびプログラム - Google Patents
画像形成装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP2023092869A JP2023092869A JP2021208134A JP2021208134A JP2023092869A JP 2023092869 A JP2023092869 A JP 2023092869A JP 2021208134 A JP2021208134 A JP 2021208134A JP 2021208134 A JP2021208134 A JP 2021208134A JP 2023092869 A JP2023092869 A JP 2023092869A
- Authority
- JP
- Japan
- Prior art keywords
- image
- binary
- neural network
- scanner
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 52
- 230000015572 biosynthetic process Effects 0.000 title abstract 2
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 238000003672 processing method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 72
- 238000006243 chemical reaction Methods 0.000 description 31
- 238000012937 correction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000009792 diffusion process Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000010023 transfer printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Control Or Security For Electrophotography (AREA)
- Editing Of Facsimile Originals (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
【課題】画像の認識の精度を向上させる。【解決手段】本発明の一実施形態である画像形成装置は、スキャナで読み取られた画像から、面積階調性を有する2値画像を生成する2値画像生成部と、前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と、を備える。【選択図】図11
Description
本発明は、画像形成装置、方法、およびプログラムに関する。
従来、スキャナで原稿を読み取る際に、原稿の天地が上下逆の状態で、もしくは、原稿が横向きの状態で読み取られることがある(例えば、図1の"north"で読み取られるべきものが、"south"で(つまり、原稿の天地が上下逆の状態で)読み取られる、もしくは、"east"または"west"で(つまり、原稿が横向きの状態で)読み取られることがある)。
例えば、このような状態で読み取られた原稿の天地を自動で判別して、天地が正常となる向きに補正する技術(以下、「天地識別」とも呼ぶ)がある(特許文献1)。従来の手法として、OCR(Optical character recognition)を使って天地識別を行う手法が知られている。
しかしながら、OCRを使う手法は、文字が含まれている原稿には強いが、文字がほとんど含まれていない写真等の原稿には対応が難しいという問題があった。
そこで、本発明では、画像の認識の精度を向上させることを目的とする。
本発明の一実施形態である画像形成装置は、スキャナで読み取られた画像から、面積階調性を有する2値画像を生成する2値画像生成部と、前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と、を備える。
本発明によれば、画像の認識の精度を向上させることができる。
以下、図面に基づいて本開示の実施の形態を説明する。
なお、本明細書では、天地識別の場合(つまり、原稿の天地を自動で判別して、天地が正常となる向きに補正する場合)を一例として説明するが、本発明は、天地識別だけでなく、帳票識別や原稿種識別等の任意の識別・分類に適用することができる。
<概要>
従来のOCRを使って天地識別を行う手法は、文字が含まれている原稿には強いが、文字がほとんど含まれていない写真等の原稿には対応が難しいという問題があった。そこで、本発明の一実施形態では、DeepLearning技術を使って天地識別を行う。
従来のOCRを使って天地識別を行う手法は、文字が含まれている原稿には強いが、文字がほとんど含まれていない写真等の原稿には対応が難しいという問題があった。そこで、本発明の一実施形態では、DeepLearning技術を使って天地識別を行う。
DeepLearning技術を使って天地識別を行う手法は、OCRを使用しないことから文字のない写真等の原稿に対する優位性がある。図2は、これらの関係性を示す。図2に示されるように、OCRを使用した天地識別に適した画像は、文字画像(文字が含まれている画像)であり、DeepLearningを使用した天地識別に適した画像は、文字画像および自然画像(文字が含まれていない画像、もしくは、文字がほとんど含まれていない画像)である。
OCRは2値画像を使用することを前提とした手法であるが、DeepLearningの画像認識では多値画像を使用することが一般的である。図3は、これらの関係性を示す。図3に示されているように、OCRを使用した天地識別に適した画像は、2値画像であり、DeepLearningを使用した天地識別に適した画像は、多値画像である。
しかし、多値画像を使用する場合、2値画像を使用する場合よりも消費メモリ等が増える傾向にあり、DeepLearningで学習したモデルを搭載するデバイスの条件次第では多値画像を用意することが難しい場合もある。
このように、DeepLearningを使用する場合は多値画像が好ましいが、デバイスの制約上、難しい場合も多い(つまり、2値画像で処理できる方が望ましい)。しかし、単純な処理(2値化、変倍(縮小変倍および拡大変倍))ではCNN(Convolutional Neural Network)をベースとするようなモデルでは演算の過程で画像の特徴を失いやすく、認識率は低くなりがちである。
ここで上記CNNは、一般にフィルタと間引きを繰り返すような構成であり、当該フィルタは2値画像を入力しても多値画像を出力する。つまり、CNNのようなフィルタを使うDNN(Deep Neural Network)の場合、入力が2値画像でも、その後の画像は多値となって後段の処理がなされる。よって、入力画像が2値でも、フィルタ後の多値画像が、あたかも最初から多値画像を入力したようなものにできれば理想である。
また、NNに直接2値画像を入力せずに、その前段に変倍(縮小変倍および拡大変倍)等の加工を入れるような場合でも、やはりフィルタ後の多値画像が、あたかも最初から多値画像を入力したようなものにできれば理想である。
そこで、本発明では、多値画像のように(可能な限り)階調性を残す処理を施していくことで、2値画像を使用した場合でも多値画像と同等の認識率を実現する。
図4~7に階調性を維持した画像の例を、階調性を維持しない単純な処理を実施した画像と合わせて示している。図4は、本発明の一実施形態に係る入力画像(多値画像)の一例であり、図5は、本発明の一実施形態に係る階調性を維持していない2値画像の一例であり、図6は、本発明の一実施形態に係る階調性を維持した2値画像の一例であり、図7は、本発明の一実施形態に係る階調性を維持した変倍画像(縮小画像)の一例である。
図8は、本発明の一実施形態に係る処理の流れを説明するための図である。
<学習側>
・前処理として、(1)において、2値化する(面積階調性を考慮した2値画像を作る(例えば、誤差拡散法等))。なお、図8では、学習側の処理も合わせて示しており、推論時と同様の前処理を適用した場合の例である。しかし、本発明の場合、グレースケール画像の入力であれば任意の事前学習済みモデルを使用することもできる。
・次に、(2)において、ビット深度を8bit/pixelにする(1bit/pixelの場合)。なお、(1)と(3)は、同時に実施されてもよい。
・次に、(3)において、縮小変倍する(階調性のある縮小変倍画像を作る(例えば、面積平均法、ガウシアンフィルタ+バイキュービック法等))。
・次に、(4)において、(多値画像として)学習する。
・前処理として、(1)において、2値化する(面積階調性を考慮した2値画像を作る(例えば、誤差拡散法等))。なお、図8では、学習側の処理も合わせて示しており、推論時と同様の前処理を適用した場合の例である。しかし、本発明の場合、グレースケール画像の入力であれば任意の事前学習済みモデルを使用することもできる。
・次に、(2)において、ビット深度を8bit/pixelにする(1bit/pixelの場合)。なお、(1)と(3)は、同時に実施されてもよい。
・次に、(3)において、縮小変倍する(階調性のある縮小変倍画像を作る(例えば、面積平均法、ガウシアンフィルタ+バイキュービック法等))。
・次に、(4)において、(多値画像として)学習する。
<推論側>
・前処理として、(1)において、2値化する(面積階調性を考慮した2値画像を作る(例えば、誤差拡散法等))。なお、図8では、学習側の処理も合わせて示しており、推論時と同様の前処理を適用した場合の例である。しかし、本発明の場合、グレースケール画像の入力であれば任意の事前学習済みモデルを使用することもできる。
・次に、(2)において、ビット深度を8bit/pixelにする(1bit/pixelの場合)。なお、(1)と(3)は、同時に実施されてもよい。
・次に、(3)において、縮小変倍する(階調性のある縮小変倍画像を作る(例えば、面積平均法、ガウシアンフィルタ+バイキュービック法等))。
・次に、(4)において、(多値画像として)推論する。
・前処理として、(1)において、2値化する(面積階調性を考慮した2値画像を作る(例えば、誤差拡散法等))。なお、図8では、学習側の処理も合わせて示しており、推論時と同様の前処理を適用した場合の例である。しかし、本発明の場合、グレースケール画像の入力であれば任意の事前学習済みモデルを使用することもできる。
・次に、(2)において、ビット深度を8bit/pixelにする(1bit/pixelの場合)。なお、(1)と(3)は、同時に実施されてもよい。
・次に、(3)において、縮小変倍する(階調性のある縮小変倍画像を作る(例えば、面積平均法、ガウシアンフィルタ+バイキュービック法等))。
・次に、(4)において、(多値画像として)推論する。
図9および図10は、本発明の一実施形態に係る処理の流れを説明するための図である。
まず、各画像について説明する。
・本明細書において、「2値画像(8bit/pixel)」とは、画像の各ピクセルの値が2色(つまり、白黒の2色)かつ色が複数の階調を有する画像である。
・本明細書において、「2値画像(8bit/pixel)」とは、画像の各ピクセルの値が2色(つまり、白黒の2色)かつ色が複数の階調を有する画像である。
図9の分岐(1)は、図10の開始より数えて1つ目の分岐「入力された画像データは2値画像か?」を指す。図9の分岐(2)は、図10の開始より数えて2つ目の分岐「入力された画像のビット深度は1bit/pixelか?」を指す。図9の分岐(3)は、図10の開始より数えて3つ目の分岐「入力された画像データのサイズは事前に設定されたサイズか?」を指す。
図9のNo1に示されるように、分岐(1)の入力画像が多値画像(8bit/pixel)(つまり、カラー画像、グレースケール画像)の場合、2値化処理により2値画像(1bit/pixel)を出力して分岐(2)へ進む。分岐(2)において、2値画像(1bit/pixel)であるので、2値画像(8bit/pixel)に変換して分岐(3)へ進む。
図9のNo2に示されるように、文献(1)の入力画像が2値画像(8bit/pixel)の場合、そのまま分岐(2)へ進む。分岐(2)において、2値画像(8bit/pixel)であるので、そのまま分岐(3)へ進む。
図9のNo3に示されるように、分岐(1)の入力画像が2値画像(1bit/pixel)の場合、そのまま分岐(2)へ進む。分岐(2)において、2値画像(1bit/pixel)であるので、2値画像(8bit/pixel)に変換して分岐(3)へ進む。
このように、DeepLearning技術を天地識別に採用する際に多値画像を用意することが好ましいが、デバイス等の制約上2値画像しか用意できない環境下でも多値画像と同等の天地識別の精度を実現することができる。CNN(Convolutional Neural Network)で使用されるようなフィルタを構成要素とするDNN(Deep Neural Network)は入力が2値画像でも、その後の画像は多値となって後段の処理がなされる、という特徴を持つ。その特徴を利用して、2値化処理や変倍処理等のDNNに入力する前処理で、多値画像のように(可能な限り)階調性を残るような処理を施す。これにより、DNNの入力画像としてはあたかも最初から多値画像を入力したような画像となり、多値画像と同等の認識の精度が期待できる。
<機能ブロック>
図11は、本発明の一実施形態に係る画像形成装置(デジタル式のカラー画像形成装置)100の機能ブロック図である。デジタル式のカラー画像形成装置100は、スキャナ1と、画像処理装置2と、HDD3と、プロッタ4と、画像ファイルフォーマット変換装置5と、を備える。また、デジタル式のカラー画像形成装置100は、プログラムを実行することで、スキャナ1、画像処理装置2、HDD3、プロッタ4、画像ファイルフォーマット変換装置5として機能する。
図11は、本発明の一実施形態に係る画像形成装置(デジタル式のカラー画像形成装置)100の機能ブロック図である。デジタル式のカラー画像形成装置100は、スキャナ1と、画像処理装置2と、HDD3と、プロッタ4と、画像ファイルフォーマット変換装置5と、を備える。また、デジタル式のカラー画像形成装置100は、プログラムを実行することで、スキャナ1、画像処理装置2、HDD3、プロッタ4、画像ファイルフォーマット変換装置5として機能する。
スキャナ1は、原稿から画像データを読み取る装置である。スキャナ1は、読み取った画像データを画像処理装置2へ送る。
画像処理装置2は、スキャナ1が読み取った画像の注目画素あるいは画素ブロックが、文字領域であるか非文字領域(すなわち、絵柄)であるかを判定する文字判定部と、有彩色か無彩色かを判定する色判定部と、を領域検出部22で保持し、その結果に応じて原稿に適した色再現処理を色処理/UCR部24で行う。
プロッタ4は、転写印字ユニットである。プロッタ4は、画像処理装置2で出力した画像データを転写する。
画像処理装置2は、ガンマ補正部21、領域検出部22、データインターフェース部23、色処理/UCR部24、プリンタ補正部25で構成され、コピー画像を得る処理を実行する。
ガンマ補正部21は、スキャナ1が読み取ったデータ(A/D変換後のr,g,b各色8ビット)を、色毎の階調バランスを揃えるために各信号に一次元変換を施す手段である。ここでは説明のため、変換後は濃度リニア信号(RGB信号:白を意味する信号値を0とする)とする。ガンマ補正部21の出力は、領域検出部22と、そのままデータインターフェース部23へ送られる。
データインターフェース部23は、領域検出部22からの判定結果およびガンマ補正部21での処理後の画像データをHDD3へ一時保存する際のHDD管理インタフェースである。一方、データインターフェース部23から色処理/UCR部24へは、ガンマ補正部21での処理後の画像データと領域検出部22からの判定結果が送られる。
色処理/UCR部24は、画素あるいは画素ブロックごとの判定結果に基づいて、色処理やUCR処理を選択する手段である。
プリンタ補正部25は、色処理/UCR部24からのc,m,y,Bkの画像信号を受け、プリンタ特性を考慮したガンマ補正処理とディザ処理を施しプロッタ4へ送る。
画像ファイルフォーマット変換装置5は、HDD3へ一時保存された、ガンマ補正部21での処理後の画像データを受けて、天地識別を行う。画像ファイルフォーマット変換装置5は、天地識別で得られた結果を用いて、PDFやMicrosoft Wordで採用されているOffice Open XML Document形式のファイルフォーマット(形式)等に変換する。
画像ファイルフォーマット変換装置5は、画像加工部51、天地識別部52、ファイルフォーマット変換部53で構成され、天地識別を行うための処理を実行する(厳密には天地識別を行い、その天地識別結果を用いてファイルフォーマットを変換するための処理である)。
画像加工部51は、ガンマ補正部21での処理後の画像データに対して、2値化処理や変倍処理を適用する。画像加工部51の処理で変換された画像データは、天地識別部52に出力される。
天地識別部(画像認識部ともいう)52は、画像加工部51より出力された画像を、事前に学習された認識モデルに入力することで天地識別を行う。推論(認識)結果(天地識別結果)は、北(north)と東(east)と西(west)と南(south)とのうちのいずれかとなる。天地識別部52で得られた天地識別結果は、ファイルフォーマット変換部53に出力される。
ここで、認識モデルについて説明する。本発明の一実施形態では、認識モデルは、複数のフィルタで多段構成されたニューラルネットワークモデルである。また、本発明の一実施形態では、認識モデルは、グレースケール画像を入力として学習されたニューラルネットワークモデルである。
なお、正解ラベルを北(north)、東(east)、西(west)、南(south)としたときの例(つまり、画像の天地の方角)で示しているが、向きとラベルの関係が一致していれば、0~3等のインデックスでも良く、制限はない。また、画像と正解ラベルには相関があり、画像と正解ラベルの関係は対象者によって変わるものではない。
ファイルフォーマット変換部53は、天地識別部52より出力された天地識別結果を活用して、PDFやMicrosoft Wordで採用されているOffice Open XML Document形式のファイルフォーマット(形式)等に変換する。
図12は、本発明の一実施形態に係る画像加工部51の機能ブロック図である。
画像加工部51は、2値画像生成部511と、グレースケール変換部512と、変倍画像生成部513で構成される。
画像加工部51は、HDD3より入力された画像データに対して、2値化や変倍処理等の画像の加工(変換)処理を実施して、変換された画像データが天地識別部52に入力される。
2値画像生成部511は、HDD3より入力された画像に対して、面積階調性を考慮した2値化アルゴリズム(誤差拡散法等)に基づいた2値化処理を行う。HDD3より入力された画像が多値画像(カラー画像やグレースケール画像)である場合、2値化処理によって生成された2値画像が出力されて、グレースケール変換部512に入力される。HDD3より入力された画像が2値画像である場合、2値画像生成部511では入力された画像に対して処理は行われず、HDD3より入力された画像がそのままグレースケール変換部512に入力される。
グレースケール変換部512は、2値画像生成部511より入力された2値画像(1bit/pixel)を後段の処理に適したフォーマットとして2値画像(8bits/pixel)に変換する。グレースケール変換部512で変換された2値画像(8bits/pixel)は、変倍画像生成部513に入力される。2値画像生成部511より入力された画像がすでに2値画像(8bits/pixel)である場合、特に変換処理が行われることなく、変倍画像生成部513に入力される。
変倍画像生成部513は、グレースケール変換部512より入力された2値画像に対して、後段の認識モデル(例えば、天地識別部52で使用する天地識別の認識モデル)が要求する入力サイズとなるように面積階調性を考慮した変倍アルゴリズム(面積平均法、ガウシアンフィルタ+バイキュービック法等)に基づいた変倍処理を行う。このとき、変倍処理は、グレースケール変換部512より入力された2値画像の画像サイズが、後段の認識モデルが要求する入力サイズより大きい場合は縮小変倍処理となり、後段の認識モデルが要求する入力サイズより小さい場合は拡大変倍処理となる(そのため、変倍率は入力画像の画像サイズによって一意に決まる)。変倍処理によって、後段の認識モデルが要求する入力サイズとなった、グレースケール変換部512より入力された2値画像の変倍後の画像(変倍画像)は天地識別部52に入力される。ただし、グレースケール変換部512より入力された2値画像の画像サイズが、後段の認識モデルが要求する入力サイズと等しい場合は変倍処理を実施せず、グレースケール変換部512より入力された画像がそのまま天地識別部52に入力される。
ここで、2値化処理の方式と変倍処理の方式について説明する。上述したように、2値画像生成部511は、スキャナで読み取られた画像において周辺画素を参照して2値化を実施する2値化処理方式で、面積階調性を有する2値画像を生成することができる。また、変倍画像生成部513は、スキャナで読み取られた画像において周辺画素を参照して変倍を実施する変倍処理方式で、面積階調性を有する変倍画像を生成することができる。
<処理方法>
図13は、本発明の一実施形態に係る画像加工処理と天地識別処理のフローチャートである。画像ファイルフォーマット変換装置5にHDD3からの画像データが入力されると、図13の処理が開始される。
図13は、本発明の一実施形態に係る画像加工処理と天地識別処理のフローチャートである。画像ファイルフォーマット変換装置5にHDD3からの画像データが入力されると、図13の処理が開始される。
ステップ601(S601)において、2値画像生成部511は、画像データが2値画像であるかを確認する。入力された画像データが2値画像である場合(Yesの場合)には、S603へ進む。一方、入力された画像データが2値画像ではない(つまり、多値画像)場合(Noの場合)には、S602へ進む。
ステップ602(S602)において、2値画像生成部511は、S601の画像データ(つまり、多値画像)に対して、面積階調性を考慮した2値化アルゴリズムに基づき、2値画像を生成する。S602の処理が終了すると、S603へ進む。
ステップ603(S603)において、グレースケール変換部512は、S601またS602の画像データ(つまり、2値画像)が8bits/pixelの画像であるかを確認する。画像データが8bits/pixelである場合(Yesの場合)には、S605へ進む。一方、画像データが8bits/pixelではない場合(Noの場合)には、S604へ進む。
ステップ604(S604)において、グレースケール変換部512は、画像データ(つまり、2値画像)のビット深度を8bits/pixelに変換する(0→0、1→255に変換(グレースケール変換))する。S604の処理が終了すると、S605へ進む。
ステップ605(S605)において、変倍画像生成部513は、S603またはS604の画像データ(つまり、2値画像かつ8bits/pixel)の画像サイズが事前に設定された画像サイズであるかを確認する。画像データが事前に設定された画像サイズと一致する場合(Yesの場合)には、S607へ進む。画像データが事前に設定された画像サイズと一致しない場合(Noの場合)には、S606へ進む。
ステップ606(S606)において、変倍画像生成部513は、画像データに対して、面積階調性を考慮した変倍アルゴリズム(面積平均法等)に基づき、事前に設定された画像サイズになるように変倍処理を行う。このとき、画像データが事前に設定された画像サイズよりも大きい画像サイズであった場合、縮小変倍処理が適用される。逆に、画像データが事前に設定された画像サイズよりも小さい画像サイズであった場合、拡大変倍処理が適用される。S606の処理が終了すると、S607へ進む。
ステップ607(S607)において、天地識別部52は、画像データ(事前に設定された画像サイズ(例えば、認識モデルに入力する画像サイズ))を、事前に学習済みの認識モデルに入力して推論を行う。本実施例の場合、認識モデルは入力画像データに対して、北(north)と東(east)と西(west)と南(south)とのうちのいずれかを出力する天地識別モデルである。
図14は、画像データの2値化処理に関して説明するための図である。
図13のS601の処理で2値画像ではないと判定された画像データに対して、面積階調性を考慮した2値化アルゴリズムに基づいた2値化処理が適用される。代表的な面積階調性を考慮した2値化アルゴリズムとしては、誤差拡散法等が挙げられる。
例えば、図14の(1)のような入力画像(多値画像)に対して、画像ファイルフォーマット変換装置5の処理を実施しようとする場合、画像加工部51内の2値画像生成部511において、図14(3)のような階調性を維持した2値画像が生成される(なお、参考として、面積階調性を考慮しない2値画像を図14の(2)に示す)。
図15は、画像データの変倍処理に関して説明するための図である。
図13のS605の処理で事前に設定された画像サイズではないと判定された画像データに対して、事前に設定された画像サイズとなるように、面積階調性を考慮した変倍アルゴリズムに基づいた変倍処理が適用される。代表的な面積階調性を考慮した変倍アルゴリズムとしては、面積平均法やガウシアンフィルタ+バイキュービック法等が挙げられる。
例えば、図15の(1)のような入力画像(多値画像)の場合、図13のS601~S604の処理で階調性を維持した2値画像(図15の(2))が生成され、図13のS606の処理で、図15の(3)のような事前に設定された画像サイズの変倍画像が生成される。図15の例では縮小変倍であるが、入力画像の画像サイズが事前に設定された画像サイズよりも小さい場合は拡大変倍処理となる。生成された変倍画像は天地識別部52に入力されて、天地識別としての推論が実施される。
<ハードウェア構成>
図16は、本発明の一実施形態に係る画像形成装置100のハードウェア構成図である。
図16は、本発明の一実施形態に係る画像形成装置100のハードウェア構成図である。
図16に示されているように、画像形成装置100は、コントローラ1010、近距離通信回路1020、エンジン制御部1030、操作パネル1040、ネットワークI/F1050を備えている。
これらのうち、コントローラ1010は、コンピュータの主要部であるCPU1001、システムメモリ(MEM-P)1002、ノースブリッジ(NB)1003、サウスブリッジ(SB)1004、ASIC(Application Specific Integrated Circuit) 1005、記憶部であるローカルメモリ(MEM-C)1006、HDDコントローラ1007、及び、記憶部であるHD1008を有し、NB1003とASIC1005との間をAGP(Accelerated Graphics Port)バス1021で接続した構成となっている。
これらのうち、CPU1001は、画像形成装置100の全体制御を行う制御部である。NB1003は、CPU1001と、MEM-P1002、SB1004、及びAGPバス1021とを接続するためのブリッジであり、MEM-P1002に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタ及びAGPターゲットとを有する。
MEM-P1002は、コントローラ1010の各機能を実現させるプログラムやデータの格納用メモリであるROM1002a、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるRAM1002bとからなる。なお、RAM1002bに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、CD-R、DVD等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
SB1004は、NB1003とPCIデバイス、周辺デバイスとを接続するためのブリッジである。ASIC1005は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス1021、PCIバス1022、HDD1007およびMEM-C1006をそれぞれ接続するブリッジの役割を有する。このASIC1005は、PCIターゲットおよびAGPマスタ、ASIC1005の中核をなすアービタ(ARB)、MEM-C1006を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、並びに、スキャナ部1031及びプリンタ部1032との間でPCIバス1022を介したデータ転送を行うPCIユニットとからなる。なお、ASIC1005には、USB(Universal Serial Bus)のインターフェースや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェースを接続するようにしてもよい。
MEM-C1006は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。HD1008は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。HD1008は、CPU1001の制御にしたがってHD1008に対するデータの読出又は書込を制御する。AGPバス1021は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、MEM-P1002に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。
また、近距離通信回路1020には、近距離通信回路1020aが備わっている。近距離通信回路1020は、NFC、Bluetooth等の通信回路である。
更に、エンジン制御部1030は、スキャナ部1031及びプリンタ部1032によって構成されている。また、操作パネル1040は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部1040a、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキー及びコピー開始指示を受け付けるスタートキー等からなる操作パネル1040bを備えている。コントローラ1010は、画像形成装置100全体の制御を行い、例えば、描画、通信、操作パネル1040からの入力等を制御する。スキャナ部1031又はプリンタ部1032には、誤差拡散やガンマ変換などの画像処理部分が含まれている。
なお、画像形成装置100は、操作パネル1040のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能、およびファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。
また、ネットワークI/F1050は、通信ネットワークを利用してデータ通信をするためのインターフェースである。近距離通信回路1020及びネットワークI/F1050は、PCIバス1022を介して、ASIC1005に電気的に接続されている。
<効果>
このように、本発明の一実施形態では、DeepLearning技術を使った天地識別手法において、2値画像を入力した場合においても、多値画像を入力した場合と同等の天地識別精度を実現させることができる。具体的には、従来のOCRを使った天地識別手法よりも写真等の原稿に対する天地識別精度を上げることができる。また、2値画像しか用意できない環境下でも多値画像と同等の天地識別精度を実現することができる。
このように、本発明の一実施形態では、DeepLearning技術を使った天地識別手法において、2値画像を入力した場合においても、多値画像を入力した場合と同等の天地識別精度を実現させることができる。具体的には、従来のOCRを使った天地識別手法よりも写真等の原稿に対する天地識別精度を上げることができる。また、2値画像しか用意できない環境下でも多値画像と同等の天地識別精度を実現することができる。
つまり、OCRを使用しないことから文字のない写真等の原稿に対する優位性を保ち、そのうえで、多値画像ではなく2値画像しか用意できない環境下でも多値画像と同等の天地識別精度を達成することができる。また、多値画像ではなく2値画像でしか用意できない場合や2値画像が用意できた場合でも2値画像での天地識別の認識率を上げることができる。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
1 スキャナ
2 画像処理装置
3 HDD
4 プロッタ
5 画像ファイルフォーマット変換装置
21 ガンマ補正部
22 領域検出部
23 データインターフェース部
24 色処理/UCR部
25 プリンタ補正部
51 画像加工部
52 天地識別部
53 ファイルフォーマット変換部
100 画像形成装置
511 2値画像生成部
512 グレースケール変換部
513 変倍画像生成部
2 画像処理装置
3 HDD
4 プロッタ
5 画像ファイルフォーマット変換装置
21 ガンマ補正部
22 領域検出部
23 データインターフェース部
24 色処理/UCR部
25 プリンタ補正部
51 画像加工部
52 天地識別部
53 ファイルフォーマット変換部
100 画像形成装置
511 2値画像生成部
512 グレースケール変換部
513 変倍画像生成部
Claims (11)
- スキャナで読み取られた画像から、面積階調性を有する2値画像を生成する2値画像生成部と、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と
を備えた画像形成装置。 - スキャナで読み取られた画像から、面積階調性を有する変倍画像を生成する変倍画像生成部と、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と
を備えた画像形成装置。 - 前記2値画像生成部は、前記スキャナで読み取られた画像において周辺画素を参照して2値化を実施する2値化処理方式で、面積階調性を有する2値画像を生成する、請求項1に記載の画像形成装置。
- 前記変倍画像生成部は、前記スキャナで読み取られた画像において周辺画素を参照して変倍を実施する変倍処理方式で、面積階調性を有する変倍画像を生成する、請求項2に記載の画像形成装置。
- 前記ニューラルネットワークモデルは、複数のフィルタで多段構成されたニューラルネットワークモデルである、請求項1から4のいずれか一項に記載の画像形成装置。
- 前記ニューラルネットワークモデルは、グレースケール画像を入力として学習されたニューラルネットワークモデルである、請求項1から5のいずれか一項に記載の画像形成装置。
- 前記画像認識部は、前記生成された画像の天地の方角を出力する、請求項1から6のいずれか一項に記載の画像形成装置。
- 画像形成装置が実行する方法であって、
スキャナで読み取られた画像から、面積階調性を有する2値画像を生成するステップと、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力するステップと
を含む方法。 - 画像形成装置が実行する方法であって、
スキャナで読み取られた画像から、面積階調性を有する変倍画像を生成するステップと、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力するステップと
を含む方法。 - 画像形成装置を
スキャナで読み取られた画像から、面積階調性を有する2値画像を生成する2値画像生成部、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部、として機能させるためのプログラム。 - 画像形成装置を
スキャナで読み取られた画像から、面積階調性を有する変倍画像を生成する変倍画像生成部、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部、として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021208134A JP2023092869A (ja) | 2021-12-22 | 2021-12-22 | 画像形成装置、方法、およびプログラム |
US17/936,436 US20230196711A1 (en) | 2021-12-22 | 2022-09-29 | Image forming apparatus, image forming method, and non-transitory computer-readable recording medium |
EP22202242.8A EP4202851A1 (en) | 2021-12-22 | 2022-10-18 | Image forming apparatus, image forming method, and carrier medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021208134A JP2023092869A (ja) | 2021-12-22 | 2021-12-22 | 画像形成装置、方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023092869A true JP2023092869A (ja) | 2023-07-04 |
Family
ID=83902817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021208134A Pending JP2023092869A (ja) | 2021-12-22 | 2021-12-22 | 画像形成装置、方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230196711A1 (ja) |
EP (1) | EP4202851A1 (ja) |
JP (1) | JP2023092869A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12028499B2 (en) | 2022-11-21 | 2024-07-02 | Ricoh Company, Ltd. | Image processing apparatus, image processing method, and non-transitory recording medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05217022A (ja) | 1992-02-06 | 1993-08-27 | Ricoh Co Ltd | レイアウト判断に基づく画像方向認識方法および画像方向認識装置 |
US11302108B2 (en) * | 2019-09-10 | 2022-04-12 | Sap Se | Rotation and scaling for optical character recognition using end-to-end deep learning |
-
2021
- 2021-12-22 JP JP2021208134A patent/JP2023092869A/ja active Pending
-
2022
- 2022-09-29 US US17/936,436 patent/US20230196711A1/en active Pending
- 2022-10-18 EP EP22202242.8A patent/EP4202851A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12028499B2 (en) | 2022-11-21 | 2024-07-02 | Ricoh Company, Ltd. | Image processing apparatus, image processing method, and non-transitory recording medium |
Also Published As
Publication number | Publication date |
---|---|
EP4202851A1 (en) | 2023-06-28 |
US20230196711A1 (en) | 2023-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4604100B2 (ja) | 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体 | |
US8050501B2 (en) | Image matching apparatus, image matching method, and image data output processing apparatus | |
JPH1169150A (ja) | 像域識別方法および画像処理装置および画像形成装置 | |
JP2005094740A (ja) | 画像処理装置、画像形成装置及び画像処理方法 | |
JP4362538B2 (ja) | 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体 | |
US11811992B2 (en) | Image processing apparatus, image processing method, and recording medium, considering top-bottom determination | |
JP2006014331A (ja) | 文書圧縮方法、文書を圧縮するためのシステム、及び画像処理装置 | |
JP2000175031A (ja) | 画像処理装置、画像処理方法および画像入力装置 | |
CN104054047A (zh) | 图像处理装置、图像形成装置、程序以及记录介质 | |
US8180159B2 (en) | Image processing apparatus, image forming apparatus, image processing system, and image processing method | |
JPH07168948A (ja) | 文書イメージ品質改善方法 | |
US8184912B2 (en) | Image processing apparatus, image forming apparatus, image processing system, and image processing method | |
JP4362537B2 (ja) | 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体 | |
JPH09186877A (ja) | 画像処理装置 | |
JP2023092869A (ja) | 画像形成装置、方法、およびプログラム | |
JP4213112B2 (ja) | 画像検索装置、画像形成装置、画像検索装置の制御方法、画像検索プログラムおよびコンピュータ読取り可能な記録媒体 | |
JP4442651B2 (ja) | 画像処理装置およびプログラム | |
JP2015015599A (ja) | 画像処理装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 | |
JP4393556B2 (ja) | 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及びコンピュータでの読み取りが可能な記録媒体 | |
JP4525916B2 (ja) | 画像形成装置及び画像形成方法、画像処理装置、画像処理方法 | |
JPH0818785A (ja) | 画像出力装置 | |
JP6163244B2 (ja) | 画像処理装置、画像形成装置、画像処理プログラム及び記録媒体 | |
JP4080252B2 (ja) | 画像処理装置、画像形成装置、画像処理方法、プログラムおよび記録媒体 | |
JP2871570B2 (ja) | 文字認識装置およびその方法 | |
JP2014165540A (ja) | 画像処理装置、画像処理方法、およびプログラム |