JP2023092869A

JP2023092869A - 画像形成装置、方法、およびプログラム

Info

Publication number: JP2023092869A
Application number: JP2021208134A
Authority: JP
Inventors: 真也伊藤; Shinya Ito; 宏幸作山; Hiroyuki Sakuyama
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-07-04
Also published as: EP4202851A1; US20230196711A1

Abstract

【課題】画像の認識の精度を向上させる。【解決手段】本発明の一実施形態である画像形成装置は、スキャナで読み取られた画像から、面積階調性を有する２値画像を生成する２値画像生成部と、前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と、を備える。【選択図】図１１

Description

本発明は、画像形成装置、方法、およびプログラムに関する。

従来、スキャナで原稿を読み取る際に、原稿の天地が上下逆の状態で、もしくは、原稿が横向きの状態で読み取られることがある（例えば、図１の"north"で読み取られるべきものが、"south"で（つまり、原稿の天地が上下逆の状態で）読み取られる、もしくは、"east"または"west"で（つまり、原稿が横向きの状態で）読み取られることがある）。

例えば、このような状態で読み取られた原稿の天地を自動で判別して、天地が正常となる向きに補正する技術（以下、「天地識別」とも呼ぶ）がある（特許文献１）。従来の手法として、ＯＣＲ（Optical character recognition）を使って天地識別を行う手法が知られている。

しかしながら、ＯＣＲを使う手法は、文字が含まれている原稿には強いが、文字がほとんど含まれていない写真等の原稿には対応が難しいという問題があった。

そこで、本発明では、画像の認識の精度を向上させることを目的とする。

本発明の一実施形態である画像形成装置は、スキャナで読み取られた画像から、面積階調性を有する２値画像を生成する２値画像生成部と、前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と、を備える。

本発明によれば、画像の認識の精度を向上させることができる。

原稿のスキャン方向の一例である。各方式に適した入力画像（カテゴリ）である。各方式に適した入力画像（２値画像または多値画像）である。本発明の一実施形態に係る入力画像の一例である。本発明の一実施形態に係る階調性を維持していない２値画像の一例である。本発明の一実施形態に係る階調性を維持した２値画像の一例である。本発明の一実施形態に係る階調性を維持した変倍画像（縮小画像）の一例である。本発明の一実施形態に係る処理の流れを説明するための図である。本発明の一実施形態に係る処理の流れを説明するための図である。本発明の一実施形態に係る処理の流れを説明するための図である。本発明の一実施形態に係る画像形成装置の機能ブロック図である。本発明の一実施形態に係る画像加工部の機能ブロック図である。本発明の一実施形態に係る画像加工処理と天地識別処理のフロー図である。本発明の一実施形態に係る画像データの２値化処理に関して説明するための図である。本発明の一実施形態に係る画像データの変倍処理に関して説明するための図である。本発明の一実施形態に係る画像形成装置のハードウェア構成図である。

以下、図面に基づいて本開示の実施の形態を説明する。

なお、本明細書では、天地識別の場合（つまり、原稿の天地を自動で判別して、天地が正常となる向きに補正する場合）を一例として説明するが、本発明は、天地識別だけでなく、帳票識別や原稿種識別等の任意の識別・分類に適用することができる。

＜概要＞
従来のＯＣＲを使って天地識別を行う手法は、文字が含まれている原稿には強いが、文字がほとんど含まれていない写真等の原稿には対応が難しいという問題があった。そこで、本発明の一実施形態では、DeepLearning技術を使って天地識別を行う。

DeepLearning技術を使って天地識別を行う手法は、ＯＣＲを使用しないことから文字のない写真等の原稿に対する優位性がある。図２は、これらの関係性を示す。図２に示されるように、ＯＣＲを使用した天地識別に適した画像は、文字画像（文字が含まれている画像）であり、DeepLearningを使用した天地識別に適した画像は、文字画像および自然画像（文字が含まれていない画像、もしくは、文字がほとんど含まれていない画像）である。

ＯＣＲは２値画像を使用することを前提とした手法であるが、DeepLearningの画像認識では多値画像を使用することが一般的である。図３は、これらの関係性を示す。図３に示されているように、ＯＣＲを使用した天地識別に適した画像は、２値画像であり、DeepLearningを使用した天地識別に適した画像は、多値画像である。

しかし、多値画像を使用する場合、２値画像を使用する場合よりも消費メモリ等が増える傾向にあり、DeepLearningで学習したモデルを搭載するデバイスの条件次第では多値画像を用意することが難しい場合もある。

このように、DeepLearningを使用する場合は多値画像が好ましいが、デバイスの制約上、難しい場合も多い（つまり、２値画像で処理できる方が望ましい）。しかし、単純な処理（２値化、変倍（縮小変倍および拡大変倍））ではＣＮＮ（Convolutional Neural Network）をベースとするようなモデルでは演算の過程で画像の特徴を失いやすく、認識率は低くなりがちである。

ここで上記ＣＮＮは、一般にフィルタと間引きを繰り返すような構成であり、当該フィルタは２値画像を入力しても多値画像を出力する。つまり、ＣＮＮのようなフィルタを使うＤＮＮ（Deep Neural Network）の場合、入力が２値画像でも、その後の画像は多値となって後段の処理がなされる。よって、入力画像が２値でも、フィルタ後の多値画像が、あたかも最初から多値画像を入力したようなものにできれば理想である。

また、ＮＮに直接２値画像を入力せずに、その前段に変倍（縮小変倍および拡大変倍）等の加工を入れるような場合でも、やはりフィルタ後の多値画像が、あたかも最初から多値画像を入力したようなものにできれば理想である。

そこで、本発明では、多値画像のように（可能な限り）階調性を残す処理を施していくことで、２値画像を使用した場合でも多値画像と同等の認識率を実現する。

図４～７に階調性を維持した画像の例を、階調性を維持しない単純な処理を実施した画像と合わせて示している。図４は、本発明の一実施形態に係る入力画像（多値画像）の一例であり、図５は、本発明の一実施形態に係る階調性を維持していない２値画像の一例であり、図６は、本発明の一実施形態に係る階調性を維持した２値画像の一例であり、図７は、本発明の一実施形態に係る階調性を維持した変倍画像（縮小画像）の一例である。

図８は、本発明の一実施形態に係る処理の流れを説明するための図である。

＜学習側＞
・前処理として、（１）において、２値化する（面積階調性を考慮した２値画像を作る（例えば、誤差拡散法等））。なお、図８では、学習側の処理も合わせて示しており、推論時と同様の前処理を適用した場合の例である。しかし、本発明の場合、グレースケール画像の入力であれば任意の事前学習済みモデルを使用することもできる。
・次に、（２）において、ビット深度を8bit/pixelにする（1bit/pixelの場合）。なお、（１）と（３）は、同時に実施されてもよい。
・次に、（３）において、縮小変倍する（階調性のある縮小変倍画像を作る（例えば、面積平均法、ガウシアンフィルタ＋バイキュービック法等））。
・次に、（４）において、（多値画像として）学習する。

＜推論側＞
・前処理として、（１）において、２値化する（面積階調性を考慮した２値画像を作る（例えば、誤差拡散法等））。なお、図８では、学習側の処理も合わせて示しており、推論時と同様の前処理を適用した場合の例である。しかし、本発明の場合、グレースケール画像の入力であれば任意の事前学習済みモデルを使用することもできる。
・次に、（２）において、ビット深度を8bit/pixelにする（1bit/pixelの場合）。なお、（１）と（３）は、同時に実施されてもよい。
・次に、（３）において、縮小変倍する（階調性のある縮小変倍画像を作る（例えば、面積平均法、ガウシアンフィルタ＋バイキュービック法等））。
・次に、（４）において、（多値画像として）推論する。

図９および図１０は、本発明の一実施形態に係る処理の流れを説明するための図である。

まず、各画像について説明する。
・本明細書において、「２値画像（8bit/pixel）」とは、画像の各ピクセルの値が２色（つまり、白黒の２色）かつ色が複数の階調を有する画像である。

図９の分岐（１）は、図１０の開始より数えて１つ目の分岐「入力された画像データは２値画像か？」を指す。図９の分岐（２）は、図１０の開始より数えて２つ目の分岐「入力された画像のビット深度は1bit/pixelか？」を指す。図９の分岐（３）は、図１０の開始より数えて３つ目の分岐「入力された画像データのサイズは事前に設定されたサイズか？」を指す。

図９のＮｏ１に示されるように、分岐（１）の入力画像が多値画像（8bit/pixel）（つまり、カラー画像、グレースケール画像）の場合、２値化処理により２値画像（1bit/pixel）を出力して分岐（２）へ進む。分岐（２）において、２値画像（1bit/pixel）であるので、２値画像（8bit/pixel）に変換して分岐（３）へ進む。

図９のＮｏ２に示されるように、文献（１）の入力画像が２値画像（8bit/pixel）の場合、そのまま分岐（２）へ進む。分岐（２）において、２値画像（8bit/pixel）であるので、そのまま分岐（３）へ進む。

図９のＮｏ３に示されるように、分岐（１）の入力画像が２値画像（1bit/pixel）の場合、そのまま分岐（２）へ進む。分岐（２）において、２値画像（1bit/pixel）であるので、２値画像（8bit/pixel）に変換して分岐（３）へ進む。

このように、DeepLearning技術を天地識別に採用する際に多値画像を用意することが好ましいが、デバイス等の制約上２値画像しか用意できない環境下でも多値画像と同等の天地識別の精度を実現することができる。ＣＮＮ（Convolutional Neural Network）で使用されるようなフィルタを構成要素とするＤＮＮ（Deep Neural Network）は入力が２値画像でも、その後の画像は多値となって後段の処理がなされる、という特徴を持つ。その特徴を利用して、２値化処理や変倍処理等のＤＮＮに入力する前処理で、多値画像のように（可能な限り）階調性を残るような処理を施す。これにより、ＤＮＮの入力画像としてはあたかも最初から多値画像を入力したような画像となり、多値画像と同等の認識の精度が期待できる。

＜機能ブロック＞
図１１は、本発明の一実施形態に係る画像形成装置（デジタル式のカラー画像形成装置）１００の機能ブロック図である。デジタル式のカラー画像形成装置１００は、スキャナ１と、画像処理装置２と、ＨＤＤ３と、プロッタ４と、画像ファイルフォーマット変換装置５と、を備える。また、デジタル式のカラー画像形成装置１００は、プログラムを実行することで、スキャナ１、画像処理装置２、ＨＤＤ３、プロッタ４、画像ファイルフォーマット変換装置５として機能する。

スキャナ１は、原稿から画像データを読み取る装置である。スキャナ１は、読み取った画像データを画像処理装置２へ送る。

画像処理装置２は、スキャナ１が読み取った画像の注目画素あるいは画素ブロックが、文字領域であるか非文字領域（すなわち、絵柄）であるかを判定する文字判定部と、有彩色か無彩色かを判定する色判定部と、を領域検出部２２で保持し、その結果に応じて原稿に適した色再現処理を色処理／ＵＣＲ部２４で行う。

プロッタ４は、転写印字ユニットである。プロッタ４は、画像処理装置２で出力した画像データを転写する。

画像処理装置２は、ガンマ補正部２１、領域検出部２２、データインターフェース部２３、色処理／ＵＣＲ部２４、プリンタ補正部２５で構成され、コピー画像を得る処理を実行する。

ガンマ補正部２１は、スキャナ１が読み取ったデータ（Ａ／Ｄ変換後のr,g,b各色８ビット）を、色毎の階調バランスを揃えるために各信号に一次元変換を施す手段である。ここでは説明のため、変換後は濃度リニア信号（ＲＧＢ信号：白を意味する信号値を０とする）とする。ガンマ補正部２１の出力は、領域検出部２２と、そのままデータインターフェース部２３へ送られる。

データインターフェース部２３は、領域検出部２２からの判定結果およびガンマ補正部２１での処理後の画像データをＨＤＤ３へ一時保存する際のＨＤＤ管理インタフェースである。一方、データインターフェース部２３から色処理／ＵＣＲ部２４へは、ガンマ補正部２１での処理後の画像データと領域検出部２２からの判定結果が送られる。

色処理／ＵＣＲ部２４は、画素あるいは画素ブロックごとの判定結果に基づいて、色処理やＵＣＲ処理を選択する手段である。

プリンタ補正部２５は、色処理／ＵＣＲ部２４からのc,m,y,Bkの画像信号を受け、プリンタ特性を考慮したガンマ補正処理とディザ処理を施しプロッタ４へ送る。

画像ファイルフォーマット変換装置５は、ＨＤＤ３へ一時保存された、ガンマ補正部２１での処理後の画像データを受けて、天地識別を行う。画像ファイルフォーマット変換装置５は、天地識別で得られた結果を用いて、PDFやMicrosoft Wordで採用されているOffice Open XML Document形式のファイルフォーマット（形式）等に変換する。

画像ファイルフォーマット変換装置５は、画像加工部５１、天地識別部５２、ファイルフォーマット変換部５３で構成され、天地識別を行うための処理を実行する（厳密には天地識別を行い、その天地識別結果を用いてファイルフォーマットを変換するための処理である）。

画像加工部５１は、ガンマ補正部２１での処理後の画像データに対して、２値化処理や変倍処理を適用する。画像加工部５１の処理で変換された画像データは、天地識別部５２に出力される。

天地識別部（画像認識部ともいう）５２は、画像加工部５１より出力された画像を、事前に学習された認識モデルに入力することで天地識別を行う。推論（認識）結果（天地識別結果）は、北（north）と東（east）と西（west）と南（south）とのうちのいずれかとなる。天地識別部５２で得られた天地識別結果は、ファイルフォーマット変換部５３に出力される。

ここで、認識モデルについて説明する。本発明の一実施形態では、認識モデルは、複数のフィルタで多段構成されたニューラルネットワークモデルである。また、本発明の一実施形態では、認識モデルは、グレースケール画像を入力として学習されたニューラルネットワークモデルである。

なお、正解ラベルを北（north）、東（east）、西（west）、南（south）としたときの例（つまり、画像の天地の方角）で示しているが、向きとラベルの関係が一致していれば、０～３等のインデックスでも良く、制限はない。また、画像と正解ラベルには相関があり、画像と正解ラベルの関係は対象者によって変わるものではない。

ファイルフォーマット変換部５３は、天地識別部５２より出力された天地識別結果を活用して、PDFやMicrosoft Wordで採用されているOffice Open XML Document形式のファイルフォーマット（形式）等に変換する。

図１２は、本発明の一実施形態に係る画像加工部５１の機能ブロック図である。

画像加工部５１は、２値画像生成部５１１と、グレースケール変換部５１２と、変倍画像生成部５１３で構成される。

画像加工部５１は、ＨＤＤ３より入力された画像データに対して、２値化や変倍処理等の画像の加工（変換）処理を実施して、変換された画像データが天地識別部５２に入力される。

２値画像生成部５１１は、ＨＤＤ３より入力された画像に対して、面積階調性を考慮した２値化アルゴリズム（誤差拡散法等）に基づいた２値化処理を行う。ＨＤＤ３より入力された画像が多値画像（カラー画像やグレースケール画像）である場合、２値化処理によって生成された２値画像が出力されて、グレースケール変換部５１２に入力される。ＨＤＤ３より入力された画像が２値画像である場合、２値画像生成部５１１では入力された画像に対して処理は行われず、ＨＤＤ３より入力された画像がそのままグレースケール変換部５１２に入力される。

グレースケール変換部５１２は、２値画像生成部５１１より入力された２値画像（１bit/pixel）を後段の処理に適したフォーマットとして２値画像（8bits/pixel）に変換する。グレースケール変換部５１２で変換された２値画像（8bits/pixel）は、変倍画像生成部５１３に入力される。２値画像生成部５１１より入力された画像がすでに２値画像（8bits/pixel）である場合、特に変換処理が行われることなく、変倍画像生成部５１３に入力される。

変倍画像生成部５１３は、グレースケール変換部５１２より入力された２値画像に対して、後段の認識モデル（例えば、天地識別部５２で使用する天地識別の認識モデル）が要求する入力サイズとなるように面積階調性を考慮した変倍アルゴリズム（面積平均法、ガウシアンフィルタ＋バイキュービック法等）に基づいた変倍処理を行う。このとき、変倍処理は、グレースケール変換部５１２より入力された２値画像の画像サイズが、後段の認識モデルが要求する入力サイズより大きい場合は縮小変倍処理となり、後段の認識モデルが要求する入力サイズより小さい場合は拡大変倍処理となる（そのため、変倍率は入力画像の画像サイズによって一意に決まる）。変倍処理によって、後段の認識モデルが要求する入力サイズとなった、グレースケール変換部５１２より入力された２値画像の変倍後の画像（変倍画像）は天地識別部５２に入力される。ただし、グレースケール変換部５１２より入力された２値画像の画像サイズが、後段の認識モデルが要求する入力サイズと等しい場合は変倍処理を実施せず、グレースケール変換部５１２より入力された画像がそのまま天地識別部５２に入力される。

ここで、２値化処理の方式と変倍処理の方式について説明する。上述したように、２値画像生成部５１１は、スキャナで読み取られた画像において周辺画素を参照して２値化を実施する２値化処理方式で、面積階調性を有する２値画像を生成することができる。また、変倍画像生成部５１３は、スキャナで読み取られた画像において周辺画素を参照して変倍を実施する変倍処理方式で、面積階調性を有する変倍画像を生成することができる。

＜処理方法＞
図１３は、本発明の一実施形態に係る画像加工処理と天地識別処理のフローチャートである。画像ファイルフォーマット変換装置５にＨＤＤ３からの画像データが入力されると、図１３の処理が開始される。

ステップ６０１（Ｓ６０１）において、２値画像生成部５１１は、画像データが２値画像であるかを確認する。入力された画像データが２値画像である場合（Yesの場合）には、Ｓ６０３へ進む。一方、入力された画像データが２値画像ではない（つまり、多値画像）場合（Noの場合）には、Ｓ６０２へ進む。

ステップ６０２（Ｓ６０２）において、２値画像生成部５１１は、Ｓ６０１の画像データ（つまり、多値画像）に対して、面積階調性を考慮した２値化アルゴリズムに基づき、２値画像を生成する。Ｓ６０２の処理が終了すると、Ｓ６０３へ進む。

ステップ６０３（Ｓ６０３）において、グレースケール変換部５１２は、Ｓ６０１またＳ６０２の画像データ（つまり、２値画像）が8bits/pixelの画像であるかを確認する。画像データが8bits/pixelである場合（Yesの場合）には、Ｓ６０５へ進む。一方、画像データが8bits/pixelではない場合（Noの場合）には、Ｓ６０４へ進む。

ステップ６０４（Ｓ６０４）において、グレースケール変換部５１２は、画像データ（つまり、２値画像）のビット深度を8bits/pixelに変換する（０→０、１→２５５に変換（グレースケール変換））する。Ｓ６０４の処理が終了すると、Ｓ６０５へ進む。

ステップ６０５（Ｓ６０５）において、変倍画像生成部５１３は、Ｓ６０３またはＳ６０４の画像データ（つまり、２値画像かつ8bits/pixel）の画像サイズが事前に設定された画像サイズであるかを確認する。画像データが事前に設定された画像サイズと一致する場合（Yesの場合）には、Ｓ６０７へ進む。画像データが事前に設定された画像サイズと一致しない場合（Noの場合）には、Ｓ６０６へ進む。

ステップ６０６（Ｓ６０６）において、変倍画像生成部５１３は、画像データに対して、面積階調性を考慮した変倍アルゴリズム（面積平均法等）に基づき、事前に設定された画像サイズになるように変倍処理を行う。このとき、画像データが事前に設定された画像サイズよりも大きい画像サイズであった場合、縮小変倍処理が適用される。逆に、画像データが事前に設定された画像サイズよりも小さい画像サイズであった場合、拡大変倍処理が適用される。Ｓ６０６の処理が終了すると、Ｓ６０７へ進む。

ステップ６０７（Ｓ６０７）において、天地識別部５２は、画像データ（事前に設定された画像サイズ（例えば、認識モデルに入力する画像サイズ））を、事前に学習済みの認識モデルに入力して推論を行う。本実施例の場合、認識モデルは入力画像データに対して、北（north）と東（east）と西（west）と南（south）とのうちのいずれかを出力する天地識別モデルである。

図１４は、画像データの２値化処理に関して説明するための図である。

図１３のＳ６０１の処理で２値画像ではないと判定された画像データに対して、面積階調性を考慮した２値化アルゴリズムに基づいた２値化処理が適用される。代表的な面積階調性を考慮した２値化アルゴリズムとしては、誤差拡散法等が挙げられる。

例えば、図１４の（１）のような入力画像（多値画像）に対して、画像ファイルフォーマット変換装置５の処理を実施しようとする場合、画像加工部５１内の２値画像生成部５１１において、図１４（３）のような階調性を維持した２値画像が生成される（なお、参考として、面積階調性を考慮しない２値画像を図１４の（２）に示す）。

図１５は、画像データの変倍処理に関して説明するための図である。

図１３のＳ６０５の処理で事前に設定された画像サイズではないと判定された画像データに対して、事前に設定された画像サイズとなるように、面積階調性を考慮した変倍アルゴリズムに基づいた変倍処理が適用される。代表的な面積階調性を考慮した変倍アルゴリズムとしては、面積平均法やガウシアンフィルタ＋バイキュービック法等が挙げられる。

例えば、図１５の（１）のような入力画像（多値画像）の場合、図１３のＳ６０１～Ｓ６０４の処理で階調性を維持した２値画像（図１５の（２））が生成され、図１３のＳ６０６の処理で、図１５の（３）のような事前に設定された画像サイズの変倍画像が生成される。図１５の例では縮小変倍であるが、入力画像の画像サイズが事前に設定された画像サイズよりも小さい場合は拡大変倍処理となる。生成された変倍画像は天地識別部５２に入力されて、天地識別としての推論が実施される。

＜ハードウェア構成＞
図１６は、本発明の一実施形態に係る画像形成装置１００のハードウェア構成図である。

図１６に示されているように、画像形成装置１００は、コントローラ１０１０、近距離通信回路１０２０、エンジン制御部１０３０、操作パネル１０４０、ネットワークＩ／Ｆ１０５０を備えている。

これらのうち、コントローラ１０１０は、コンピュータの主要部であるＣＰＵ１００１、システムメモリ（ＭＥＭ－Ｐ）１００２、ノースブリッジ（ＮＢ）１００３、サウスブリッジ（ＳＢ）１００４、ＡＳＩＣ(Application Specific Integrated Circuit) １００５、記憶部であるローカルメモリ（ＭＥＭ－Ｃ）１００６、ＨＤＤコントローラ１００７、及び、記憶部であるＨＤ１００８を有し、ＮＢ１００３とＡＳＩＣ１００５との間をＡＧＰ(Accelerated Graphics Port)バス１０２１で接続した構成となっている。

これらのうち、ＣＰＵ１００１は、画像形成装置１００の全体制御を行う制御部である。ＮＢ１００３は、ＣＰＵ１００１と、ＭＥＭ－Ｐ１００２、ＳＢ１００４、及びＡＧＰバス１０２１とを接続するためのブリッジであり、ＭＥＭ－Ｐ１００２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ(Peripheral Component Interconnect)マスタ及びＡＧＰターゲットとを有する。

ＭＥＭ－Ｐ１００２は、コントローラ１０１０の各機能を実現させるプログラムやデータの格納用メモリであるＲＯＭ１００２ａ、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるＲＡＭ１００２ｂとからなる。なお、ＲＡＭ１００２ｂに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

ＳＢ１００４は、ＮＢ１００３とＰＣＩデバイス、周辺デバイスとを接続するためのブリッジである。ＡＳＩＣ１００５は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ(Integrated Circuit)であり、ＡＧＰバス１０２１、ＰＣＩバス１０２２、ＨＤＤ１００７およびＭＥＭ－Ｃ１００６をそれぞれ接続するブリッジの役割を有する。このＡＳＩＣ１００５は、ＰＣＩターゲットおよびＡＧＰマスタ、ＡＳＩＣ１００５の中核をなすアービタ（ＡＲＢ）、ＭＥＭ－Ｃ１００６を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のＤＭＡＣ(Direct Memory Access Controller)、並びに、スキャナ部１０３１及びプリンタ部１０３２との間でＰＣＩバス１０２２を介したデータ転送を行うＰＣＩユニットとからなる。なお、ＡＳＩＣ１００５には、ＵＳＢ(Universal Serial Bus)のインターフェースや、ＩＥＥＥ１３９４(Institute of Electrical and Electronics Engineers 1394）のインターフェースを接続するようにしてもよい。

ＭＥＭ－Ｃ１００６は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。ＨＤ１００８は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。ＨＤ１００８は、ＣＰＵ１００１の制御にしたがってＨＤ１００８に対するデータの読出又は書込を制御する。ＡＧＰバス１０２１は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、ＭＥＭ－Ｐ１００２に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。

また、近距離通信回路１０２０には、近距離通信回路１０２０ａが備わっている。近距離通信回路１０２０は、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ等の通信回路である。

更に、エンジン制御部１０３０は、スキャナ部１０３１及びプリンタ部１０３２によって構成されている。また、操作パネル１０４０は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部１０４０ａ、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキー及びコピー開始指示を受け付けるスタートキー等からなる操作パネル１０４０ｂを備えている。コントローラ１０１０は、画像形成装置１００全体の制御を行い、例えば、描画、通信、操作パネル１０４０からの入力等を制御する。スキャナ部１０３１又はプリンタ部１０３２には、誤差拡散やガンマ変換などの画像処理部分が含まれている。

なお、画像形成装置１００は、操作パネル１０４０のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能、およびファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。

また、ネットワークＩ／Ｆ１０５０は、通信ネットワークを利用してデータ通信をするためのインターフェースである。近距離通信回路１０２０及びネットワークＩ／Ｆ１０５０は、ＰＣＩバス１０２２を介して、ＡＳＩＣ１００５に電気的に接続されている。

＜効果＞
このように、本発明の一実施形態では、DeepLearning技術を使った天地識別手法において、２値画像を入力した場合においても、多値画像を入力した場合と同等の天地識別精度を実現させることができる。具体的には、従来のＯＣＲを使った天地識別手法よりも写真等の原稿に対する天地識別精度を上げることができる。また、２値画像しか用意できない環境下でも多値画像と同等の天地識別精度を実現することができる。

つまり、ＯＣＲを使用しないことから文字のない写真等の原稿に対する優位性を保ち、そのうえで、多値画像ではなく２値画像しか用意できない環境下でも多値画像と同等の天地識別精度を達成することができる。また、多値画像ではなく２値画像でしか用意できない場合や２値画像が用意できた場合でも２値画像での天地識別の認識率を上げることができる。

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１スキャナ
２画像処理装置
３ＨＤＤ
４プロッタ
５画像ファイルフォーマット変換装置
２１ガンマ補正部
２２領域検出部
２３データインターフェース部
２４色処理／ＵＣＲ部
２５プリンタ補正部
５１画像加工部
５２天地識別部
５３ファイルフォーマット変換部
１００画像形成装置
５１１２値画像生成部
５１２グレースケール変換部
５１３変倍画像生成部

特開平０５－２１７０２２号公報

Claims

スキャナで読み取られた画像から、面積階調性を有する２値画像を生成する２値画像生成部と、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と
を備えた画像形成装置。
スキャナで読み取られた画像から、面積階調性を有する変倍画像を生成する変倍画像生成部と、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部と
を備えた画像形成装置。
前記２値画像生成部は、前記スキャナで読み取られた画像において周辺画素を参照して２値化を実施する２値化処理方式で、面積階調性を有する２値画像を生成する、請求項１に記載の画像形成装置。
前記変倍画像生成部は、前記スキャナで読み取られた画像において周辺画素を参照して変倍を実施する変倍処理方式で、面積階調性を有する変倍画像を生成する、請求項２に記載の画像形成装置。
前記ニューラルネットワークモデルは、複数のフィルタで多段構成されたニューラルネットワークモデルである、請求項１から４のいずれか一項に記載の画像形成装置。
前記ニューラルネットワークモデルは、グレースケール画像を入力として学習されたニューラルネットワークモデルである、請求項１から５のいずれか一項に記載の画像形成装置。
前記画像認識部は、前記生成された画像の天地の方角を出力する、請求項１から６のいずれか一項に記載の画像形成装置。
画像形成装置が実行する方法であって、
スキャナで読み取られた画像から、面積階調性を有する２値画像を生成するステップと、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力するステップと
を含む方法。
画像形成装置が実行する方法であって、
スキャナで読み取られた画像から、面積階調性を有する変倍画像を生成するステップと、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力するステップと
を含む方法。
画像形成装置を
スキャナで読み取られた画像から、面積階調性を有する２値画像を生成する２値画像生成部、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部、として機能させるためのプログラム。
画像形成装置を
スキャナで読み取られた画像から、面積階調性を有する変倍画像を生成する変倍画像生成部、
前記生成された画像に対して、事前に学習したニューラルネットワークモデルに応じたクラス分類を出力する画像認識部、として機能させるためのプログラム。