JP2004038482A - Method and apparatus for recognizing image, computer program, and computer readable recording medium - Google Patents

Method and apparatus for recognizing image, computer program, and computer readable recording medium Download PDF

Info

Publication number
JP2004038482A
JP2004038482A JP2002193622A JP2002193622A JP2004038482A JP 2004038482 A JP2004038482 A JP 2004038482A JP 2002193622 A JP2002193622 A JP 2002193622A JP 2002193622 A JP2002193622 A JP 2002193622A JP 2004038482 A JP2004038482 A JP 2004038482A
Authority
JP
Japan
Prior art keywords
image
data
target
partial
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002193622A
Other languages
Japanese (ja)
Other versions
JP2004038482A5 (en
JP4078136B2 (en
Inventor
Shigeru Mizoguchi
溝口 茂
Naohisa Suzuki
鈴木 尚久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002193622A priority Critical patent/JP4078136B2/en
Priority to US10/608,001 priority patent/US7356190B2/en
Publication of JP2004038482A publication Critical patent/JP2004038482A/en
Publication of JP2004038482A5 publication Critical patent/JP2004038482A5/ja
Priority to US11/970,359 priority patent/US7542615B2/en
Application granted granted Critical
Publication of JP4078136B2 publication Critical patent/JP4078136B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To detect an image of interest in an image file using a method that imposes little processing load, by making a determination using the characteristics of a quantization table. <P>SOLUTION: For each predetermined block, spatial frequency information, chromaticity information and a quantization table are obtained from image data recorded by compressed recording, and are used in combination to search for an image of interest in the image data, whereby information including ac component information for each image data block is obtained, without advanced calculations, to enable search for the image of interest in the image file. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は画像認識方法、画像認識装置、コンピュータプログラム及びコンピュータ読み取り可能な記録媒体に係わり、特に、圧縮された画像データ形式であるJpegファイル画像を認識するために用いて好適なものである。
【0002】
【従来の技術】
デジタルカメラなどで撮影したJpegファイル画像を、PCプリンタもしくはダイレクトプリンタなどから印刷を行う場合や、DPEでプリントを行う場合がある。この時に、撮影画像データが良質な場合は忠実にプリントすればよいので問題は生じない。
【0003】
しかしながら、撮影画像データによっては色被り、コントラスト不足、露出の不適切などがあり、良質な印刷結果を得るためには画像補正を施す必要がある。特に、人物を撮影した画像の場合には、一般に、人の顔の色が適正になるようにプリントすると写真を見た人に与える感じが良くなり、写真の質を高めることになる。
【0004】
銀塩写真の場合、質の良い写真を得るためには原画像ごとに焼き付け時の露光量を変更することが好ましく、この焼付け時の露光量を決めるのに、人物が入った写真の場合には、人の顔の色に着目するのが便利である。何故ならば、人の顔は肌色であることが分かっているために、焼き付けられた写真における人の顔の色が肌色になるように露光量を決めることが可能であるからである。
【0005】
また、デジタルデータの画像ファイルから画像認識する方法としては、例えば“特開平8−161497号”、“特開2000−48036”、“特開平11−238067号”などが知られている。
【0006】
これらの方法は、指定画像との類似度や一致度を検出するもので、“特開平8−161497号”の場合は、直流成分によるブロック単位での粗一致を求め、その後、候補画像領域に対して復元処理を行い、非圧縮データとして微一致を求める方式である。
【0007】
また、“特開2000−48036”の場合は、検索データを入力作成し、このデータと複数の画像データの類似度を判定する画像処理装置である。さらに、“特開平11−238067号”の場合は、検索対象画像をウェーブレット変換して圧縮画像を作成する。また、指定された画像にもウェーブレット変換を施し、各々の特徴データを比較することで、類似度を判定するようにしている。
【0008】
また、デジタルカメラで撮影した画像をプリントする際に、アプリケーションやプリンタドライバのアプリケーションにより、撮影データをヒストグラムなどで解析し、コントラスト、ホワイトバランス、露出補正、シャープネスなど画像補正を一様に施すものが知られている。
【0009】
また、先願として提出したIPシリアルNo.1761421(n−PGA20010004)とIPシリアルNo.1764996(n−PGA20010007)においては、ダイレクトプリント環境など処理能力の低い機器でも簡単に人物など注目画像を検出することで、その注目画像を中心とした画像補正を行える仕組みを提供した。
【0010】
【発明が解決しようとする課題】
デジタルカメラなどで撮影したJpegファイル画像をプリントする場合に、銀塩写真のプリントのように、人物など注目画像が、より良くプリント出来るように必要に応じて補正を行えるように、上記Jpegファイル画像の中に注目画像を見つけ出す方法を決める必要がある。
【0011】
また、デジタルカメラからプリンタへ直接プリントを行うダイレクトプリントなどデータ処理能力の低い機器でも使用出来るように、検出処理は出来うるだけ軽く済む方法が求められていた。
【0012】
また、先願に対しては、JPEGによる圧縮画像の圧縮比率に関わる量子化テーブルの値が、撮影時やアプリケーションによる編集後の再保存により一様ではなく、高圧縮の量子化テーブルを使用すると、画像中の空間周波数が極端に変化してしまい、注目画像における周波数特徴量も影響を受け、検出精度が落ちてしまう可能性があった。
【0013】
本発明は上述の問題点にかんがみ、画像ファイルの中の注目画像を検出する際に量子化テーブルの特性を利用した判定を行うようにして、処理負荷の少ない方法で注目画像を検出できるようにすることを目的とする。
【0014】
【課題を解決するための手段】
本発明の画像認識方法は、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法であって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、上記抽出工程によって抽出された量子化テーブルが適応範囲に対応する時に、抽出された部分領域の交流周波数成分の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とを有することを特徴としている。
また、本発明の他の特徴とするところは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法であって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された部分領域の交流周波数成分の各値と色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とを有することを特徴としている。
また、本発明のその他の特徴とするところは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法であって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された交流周波数成分の特徴量により画像領域を複数に分割する分割工程と、上記分割工程によって分割された各画像領域の範囲における色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて部分領域が注目画像対象部分に入っているか否かを判定する判定工程とを有することを特徴としている。
【0015】
本発明の画像認識装置は、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識装置であって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出手段と、上記抽出手段によって抽出された量子化テーブルが適応範囲に対応する時に、抽出された部分領域の交流周波数成分の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定手段とを有することを特徴としている。
また、本発明の他の特徴とするところは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識装置であって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出手段と、上記抽出手段で抽出された量子化テーブルが適応範囲に対応する時には、抽出された部分領域の交流周波数成分の各値と色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定手段とを有することを特徴としている。
また、本発明のその他の特徴とするところは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識装置であって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出手段と、上記抽出手段で抽出された量子化テーブルが適応範囲に対応する時には、抽出された交流周波数成分の特徴量により画像領域を複数に分割する分割手段と、上記分割手段によって分割された各画像領域の範囲における色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて部分領域が注目画像対象部分に入っているか否かを判定する判定手段とを有することを特徴としている。
【0016】
本発明のコンピュータプログラムは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法を実行可能なコンピュータプログラムであって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、上記抽出工程によって抽出された量子化テーブルが適応範囲に対応する時に、抽出された部分領域の交流周波数成分の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とをコンピュータに実行させることを特徴としている。
また、本発明の他の特徴とするところは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法を実行可能なコンピュータプログラムであって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された部分領域の交流周波数成分の各値と色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とをコンピュータに実行させることを特徴としている。
また、本発明のその他の特徴とするところは、2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法を実行可能なコンピュータプログラムであって、上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された交流周波数成分の特徴量により画像領域を複数に分割する分割工程と、上記分割工程によって分割された各画像領域の範囲における色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて部分領域が注目画像対象部分に入っているか否かを判定する判定工程とをコンピュータに実行させることを特徴としている。
【0017】
本発明のコンピュータ読み取り可能な記録媒体は、上記の何れかに記載のコンピュータプログラムを記録したことを特徴としている。
【0018】
【発明の実施の形態】
次に、添付図面を参照しながら本発明の画像認識方法、画像認識装置、コンピュータプログラム及びコンピュータ読み取り可能な記録媒体の実施の形態を説明する。最初に、一般的なデジタルカメラのデータ圧縮記録形式であるJpegファイル形式の画像データを印刷する際に、非圧縮データへ復元する前に、ブロック(8*8画素)ごとに輝度、色度ベースのDCT(離散コサイン変換)されたデータも取得し、注目画像検索のために利用する。
【0019】
この時、画像圧縮に利用している量子化テーブルの特性が適応範囲に入っているものは、画像データブロックごとの周波数(交流)成分情報等を取得することにより、入力画像ごとに用意された部分領域の特徴量との比較を通じて利用可能となり、高度な計算をする必要をなくすことが可能となる。また、出力サイズとの関係で効果に対する処理効率を高めることが可能となる。
【0020】
「第1の実施の形態」
最初に、現在、最も一般的な画像圧縮ファイルの“Jpegファイル”の情報省略と符号化・復号化について説明する。
【0021】
まず、符号化であるが、通常、デジタルカメラやデジタルビデオなどでは、静止画をJpeg ファイルにて保存することが一般的になっている。この場合、入力機器の受光素子であるCCDなどの入った信号をA/D変換した後、フレームメモリーに取り込み、RGBもしくはCMYフィルタの情報を輝度と色度情報とに変換する。その後、8*8(64個)正方画素ブロックに分割する。
【0022】
図3の▲1▼は、輝度データのビットマップを8*8ブロックに分割したうちの1ブロックのデータ例を示している。また、図3の▲2▼においては、0〜255の画素値をレベルシフトして−128〜127の信号に変換する例を示している。さらに、図3の▲3▼においては、DCT(離散コサイン変換)によりDCT係数を求める例を示している。
【0023】
また、図3の▲4▼は、視覚特性を考慮した高周波成分の省略を大きくした量子化テーブルであり、このテーブルを用いて、上記図3の▲3▼の結果であるDCT係数に対して量子化する例を示している。
【0024】
図3の▲5▼は、量子化を行った結果である。この値をエントロピー符号化してハフマン符号で表すことにより符号化信号である圧縮データを生成する。
【0025】
次に、復号化においては、上述した符号化の逆の工程を行う。つまり、符号化信号を復号して、量子化DCT係数の値を復号する。次に、逆量子化を行うために量子化テーブルを乗ずることでDCT係数を得る。その後、逆DCTを行うことでレベルシフトした画像が復元され、更に逆レベルシフトの値128を加算することで1ブロックの画像が復号される。
【0026】
上記の説明では、輝度情報と色度情報とに分割したデータを合成してRGB画像に変換することを省略したが、符号化における流れとしては、図2に示すように、カラー画像を輝度成分(Y)と2つの色度成分(Cb、Cr)とに変換し、その各々を符号化して合成することで、圧縮画像データを生成している。
【0027】
以上のような、圧縮された画像データファイルであるJpeg画像をプリントする方法としては、入力機器からの圧縮画像データをUSBや記憶メディアによって、パーソナルコンピュータ(以下、PCとする)に取り込んで画像を展開し、必要に応じて画像補正を加えた後プリンタへデータを送る場合や、入力機器からの画像データを直接プリンタへ入力し、プリンタの中で、画像を解凍し、必要に応じて画像補正を加えた後で印刷を行うなど、幾種類かの選択肢がある。
【0028】
いずれにしても、良好な画像をプリントするためには、撮影画像データが良質な撮影画像であるか、あるいは補正が必要な画像であるのかを判断して、忠実に印刷すべき良質な画像と、補正を行うことにより良質な画像に近付けた後に印刷を行うもとをより分ける必要がある。
【0029】
良好な画像とは、下記のようなことが考えられる。
1)ホワイトバランスが良好である。
2)コントラストが適切である。
3)必要な部分の階調が割り当てられている。つまり、露出設定が良好である。
4)彩度が適正である。
5)銀塩写真のような仕上がりである。
6)人物など注目される画像が中心に補正されている。
【0030】
現在市販のPCプリンタやPCを経由しないダイレクトプリンタなどにおいても上記1)〜5)の項目においては、程度の差も有るが行われている。また、上記6)の注目画像に対する補正が行われていないのは、その検出に多大な処理が必要であることと、その方法が確立されていないことによる。
【0031】
特に、処理能力のひ弱なダイレクトプリンタなどにおいては実施が難しいとされているが、本発明はこれを解決するものである。その手段としては、Jpeg画像ファイルに注目画像の存在の検出と、その検出した画像に対する補正の必要等の確認を経て、全体画像補正へ受け渡す方法となる。
【0032】
図1は、Jpeg ファイルを解凍する過程とその際に取得する情報について表したブロック図である。
Jpeg ファイルをRGBのビットマップデータへ変換する過程においては、まず、符号テーブル2を用いてエントロピー復号化手段1にてエントロピー復号を行う。次に、逆量子化手段3において、逆量子化に使用する量子化テーブル4を、逆量子化を行う他にデータとして記憶する。
【0033】
この逆量子化されたデータは、ブロック単位のデータとして周波数変換されたものであり、このデータを、画像周波数特性を得るためのデータとして取得する。その後、逆DCT手段5において、逆DCT処理と逆レベルシフトとを行いYcc−RGB変換することで、通常のRGBビットマップデータに展開する。
【0034】
次に、この画像において、最も重要と思われる注目画像検出である人物検出のフローチャートを図6に示す。
最初のステップS601において、8*8画素のブロック単位のDCTデータと量子化テーブルとを取得すると同時に、画像ファイルはRGBビットマップデータに展開する。
次に、ステップS602に進んで、RGBビットマップデータにおいて、8*8画素のブロック単位に本実施の形態における注目画像である人の肌色の色度に対応するか検索を行う。
【0035】
この場合、入力画像サイズにより8*8画素ブロックの画像が全画像に対して占める割合が違うので、入力画像サイズに比例した端部の設定を行う。例えばVGA(640*480)では8ブロック分で、UXGA(1600*1200)画像においては20ブロック分とする。
【0036】
色度の検索方法としては、複数の方法がある。知られているものとしては、
1)B(青)/G(緑)の比率が0.7〜0.8の範囲に収まり、R(赤)/G(緑)の比率が1.4〜1.8の範囲に収まる色度を持つもの。
2)図5の概念図に示すように、肌色を確率楕円にて表すことができる。求める式としては下記の式(1)〜式(3)になる。
【0037】
【数1】

Figure 2004038482
【0038】
本実施の形態においては、処理の簡便さを考慮に入れた下記式(4)である色度分布範囲を肌色の色度範囲とした。この範囲を表したのが図20である。
【0039】
【数2】
Figure 2004038482
【0040】
本実施の形態においては、画像における周波数成分の特徴を検出する単位として8*8画素単位のブロックで行っている関係で、構造的論理的な簡単さより色度判定においても8*8画素単位にて実行する。
【0041】
図7は、本実施の形態で用いている色度検出ポイントを図示したものである。これによると「8*8画素」単位のブロックの四隅の色度の全てが色度範囲に入っているか否かを確認し、全てが範囲に入っている時は、そのブロックを適合色度と判定している。
【0042】
図7においては、上段の左から2番目と下段の左から1,2,3ブロックが該当する。上段の一番左のブロックは4ポイントのうち左上の式度は非肌色ピクセルと判定されるので、これを含むブロックは肌色の範囲外と判定される。同じように上段の右側1,2ブロックと下段の一番右のブロックが範囲外となる。
【0043】
図8は、「8*8画素」単位のブロック全体の平均色度による判定である。このブロック内の平均色度の求め方としては、8*8ブロック全ての画素値の平均値を取る方法の他に、解凍中の逆DCTを行う前の色度データ(Cb,Cr)の中のDC成分から求めることも可能である。この方式の利点としては、ブロック全体の色調にて判定できるので、検出点の少ないものに比べて精度が高い期待ができる。ここで、自然画における色度のみの検出についての内容を見ることにする。
【0044】
図9は、図7と同じ考えの中ではあるが、全体画像における検出間隔を等分化するためのものである。
【0045】
図10は、一般的なポートレート写真であり、図14は人物の肌色色度と同様な色度範囲を有する枯木の林の写真である。図10と図14に対して、それぞれの画素に色度の適合だけで検出を行った結果を図11と図15に示す。
【0046】
図11のポートレートでの検出結果としては人物の肌色部分をよく検出しているが、その他に柵や背景の中で、ごみのような細かい部分においても適合色度を満たすものが検出されていることがわかる。このため、色度のみでは注目画像を特定できないことがわかる。
【0047】
図14においては、人物の肌色を検出する目的にもかかわらず同じ色度を持つ枯れ木の林が全面検出されている。このように、画素レベルでの色度判定を行った場合、注目画像を特定することは不可能である。
【0048】
検出をブロックレベルにすることにより、特定のまとまりを持った状態が対象になるので、外来ノイズの影響は受けずらくなる。しかしながら、8*8画素のブロックが適正なまとまりの大きさとは言えず、色度によるブロック検出においても縦方向及び横方向に隣接したブロックの連続検出という、制約を付けた検出を行うことで更に精度を上げることになる。
【0049】
ここにおいて、人の肌色であってもプリントにおいて顔を認識できるデータ量を満たさないものにおいても適応外としてはじいてもよいと言う概念でノイズと判定する連続範囲を設定する。
【0050】
この部分を表したのが、図6のステップS603以降の処理である。すなわち、ステップS603においては、画像に対して長手方向にブロックごとに色度検出を行い、連続検出ブロック数の多い順に候補を策定する。
【0051】
次に、ステップS604において、その連続量が、注目画像としての適応する連続量に入っているか否かを比較する。この比較の結果、該当する連続ブロックがある場合はステップS605に進み、短い方向のブロック連続検出設定を満たすデータが画像に存在するか否かを検索を行う。
【0052】
次に、ステップS606において、検出データが有るか否かを判断し、検出データが有る場合にはステップS608に進んで、この過程で残ったものの中から長手方向の連続ブロック量が大きいデータから順に候補番号を付ける。
【0053】
また、ステップS606の判断の結果、検出データが無い場合にはステップS607に進み、「目的領域無し」をセットして処理を終了する。
【0054】
ここで、話は少し戻るが、連続ブロックにて色度判定を施した場合の効果については、図12と図16で示す。
図12においては、図10のポートレート画像に対して検出を行った結果である。図12において、検出候補の優先順位が高い方から(検出ブロック長が長い方から)カラーコード(1=茶、2=赤、3=橙、4=黄、5=緑、6=青、7=紫、8=灰)順に配置され、それ以外で検出されているのは色度のみ適性範囲に入っているものである。連続ブロック検出により画素レベルの色度検出と比べるとかなりの背景などの非該当候補を削除できていることが判る。
【0055】
図16においては、図14の枯木の林に対して検出を行った結果で、連続ブロック検出においても注目画像以外を検出してしまうことがわかる。
【0056】
次に、VGA(video graphics array)サイズ(640*480画素)の複数の画像サンプルを用いて人物肌と枯れ木の林の部分において、検出された適合色度連続ブロックにおける周波数特性を算出した。
【0057】
図18は、画像内に撮影されている人物肌の連続ブロック検出されたブロックのDCTデータを周波数の低い順に並べたものを、周波数の低い方から10個単位で加算し、連続ブロック数で除したもので、連続検出されたブロックの1個あたりの平均周波数成分をまとめたものである。
【0058】
したがって、図面において横軸は、AC成分63個の周波数成分をまとめたもので、10個単位のまとまりが6グループと最も周波数の高いデータは3個分のデータとなる。縦軸は、各周波数成分の要素を加算した値である。
【0059】
これにより、値が大きいほどそのブロックにおいて、該当周波数成分が高いことがわかる。また、検出した連続ブロック数ごとに色分けしたデータ線で表されている。例えば“B2”は連続ブロックが2個検出されているデータの平均した値を表し、“B15”は連続ブロックが15個検出されているデータの平均した値を表している。以下同じで、“B2〜B15”までの複数画像からの平均的な人物肌色部分の連続検出値ごとの空間周波数特性を表している。
【0060】
検出結果を見ると、
1)低い周波数成分の値が大きく低い周波数成分の下から3グループ以降は、連続ブロック数に係わり無く50以下となっている。
2)連続ブロックの連続値が大きいほど周波数特性が低くなっている。
【0061】
これらの結果から言えることは、人物の肌色部分の周波数特性は比較的低い周波数で構成されていることと、検出された連続ブロックの値が大きいことは、被写体の撮影された大きさが大きいことを示していて、この連続ブロックとしての平均値を出すことによって周波数成分が下がっていることがわかる。
【0062】
連続ブロックの連続値により、同じ注目画像の色度を持っているものでも、その連続ブロックを1つの代表値にすること(例えば、B6のブロックの時は検出した6個のブロックの値を、各々周波数の低い順に10個単位のグループとして加算したものをグループごとに加算した後、その連続値である6で除して平均を出している。)により、空間周波数特性の値が変わるので、連続検出値により適当な該当周波数特性が違うことが判る。
【0063】
図19は、人物の肌色色度と同様な色度範囲を有する枯木の林の写真を複数用意して、検出を行った結果を図18と同じように表したものである。
【0064】
検出結果を見ると、
1)人物の肌の空間周波数特性と比べると高い周波数成分にデータ多くあることが確認できる。
2)一番低い周波数成分のグループは人物の肌の結果と大きくは違わない。
【0065】
これらのことから、連続ブロックにおける周波数成分を検出することで、同じ色度を持った検出物体を周波数特性により区別することが可能であることがわかる。
【0066】
図4は、本実施の形態において使用したもので、注目画像である人物肌の空間周波数特性を表したものである。上の段がVGA(640*480)画像における周波数特性の適正範囲である。
【0067】
連続ブロック値を2〜8個のグループ(〜L8)と9〜20個のグループ(L9 ̄20)と21個以上のグループ(L21 ̄)の3グループにまとめて、グループごとに周波数の適正範囲を設定したものである。周波数の適正範囲も先に示した10個単位の7グループによる周波数特性を用いた。これは、処理の簡略化と検出精度のバランスで行ったもので、これに縛られる必要は無い。
【0068】
次に、画像サイズがデジタルカメラで普及している200万画素相当のUXGA(1600*1200)画像について同じ撮影条件でVGA画像と比較してみる。
図25は、図18で使用したデータと同じシーンを対象にUXGAサイズにて撮影したものを検出した結果を、図18と同じように周波数特性量と各レンジにおけるデータ量の平均を用いて表したものである。
【0069】
VGA画像との検出特性の差を見ると、
1)連続検出ブロックの検出範囲が大きくなっている。具体的にはVGA画像検出での連続値は2から15ブロックの連続検出である。それに対して、UXGA画像検出では検出値が4から40の連続ブロックを検出している。
2)UXGAの方がブロック内の周波数特性が低い。例えば、1〜10のブロック平均を見ると、VGA画像では300〜100のデータ量に分布しているのに対し、UXGA画像では200〜30の範囲にデータが分布している。一枚の画像に収まる中で、注目画像になりうるものは、全画像に対する大きさとしては、特定の比率の範囲に入っているのが一般的な考え方である。
【0070】
例えば、画像全体の中で注目画像が長手方向で100分の1しか占めない場合はどうであろうか、一般のプリントを考えた場合、その注目画像に対して最適な補正を掛けても、出力後の補正を行われた注目画像は、ほとんど紙面を占めておらず、特定の注目画像を補正するよりは画像全体を補正する方がその画像においては効果的と考えられ、注目の定義から外れると考えられる。
【0071】
本実施の形態においても、各画像サイズに適したそれぞれの注目画像の適正範囲を持っている、この範囲以下でも以上でも補正対象とする注目画像の検出候補から外れる。
【0072】
したがって、この例においては、UXGA画像における長手方向の100分の1は1600割る100なので、16pixelで2ブロック(8*8)分になり、色度と周波数成分が合致してもレングスの意味合いから候補の対象から外している。ちなみに、UXGA画像においては、検出連続範囲としては4〜62ブロックと設定している。
【0073】
VGA画像においては、同じ考えで100分の1は6.4pixel となり、1ブロック分にも満たない。VGA画像においては、検出連続範囲としては2〜25ブロックと設定している。この違いは、画像サイズによる1ブロック(8*8)分の全画像に対する占有比率の差によるものが発生している。
【0074】
画像全体中の一定の比率範囲に注目画像が入っていると考えると、画像サイズにより8*8画素のブロックの空間周波数における意味合いは変わる。このため、同じ撮影画像でも画像サイズにより検出ロック数も違えば周波数特性も違ってくる。
【0075】
本実施の形態では画像ごとに検出連続範囲を上記のように設定しているが、数式に置き換えることも可能である。 例えば、下記式(5)の様に最低連続数を設定することができる。
【0076】
【数3】
Figure 2004038482
【0077】
次に、図26を示す。図26は、人物の肌色色度と同様な色度範囲を有する枯木の林の写真であり、図19においてはVGA画像としてのデータをしましたが、UXGAの画像としてデータをまとめたものである。
【0078】
図19との比較においては、先述の図18と図25の比較と同じ傾向がある。AC成分の20以上のグループではかなり高周波成分が低減していることがわかる。しかしながら、人物肌とのデータとは分布が極端に違うので、周波数帯域ごとに適応範囲を設定することで、分離することが可能である。
【0079】
このために設定したものが図27のUXGA画像用判定テーブルである。構成は図4のVGA画像用判定テーブルと同じであり、画像サイズの違いによる平均ブロックの空間周波数特性の違いのみである。
【0080】
次に、量子化テーブルによる画像への特性を説明する。
図28〜図30は、代表的画像アプリケーションがJpegファイルを作成する時の画像圧縮比率を決定する為の13種類の量子化テーブルである。図28〜図30において、テーブル“00”は最も画像圧縮率を高めたものであり、テーブル“12”は保存画質を高め、画像圧縮率を低めたものである。
【0081】
テーブルについて説明すると、図3の▲3▼〜▲4▼で説明した8*8画像のDCT後のデータをさらに圧縮するために使用するもので、画像における64個の各空間周波数に対応した値に対して、同じ位置の位の値で量子化を行う。
【0082】
テーブル“00”の場合で、図3の▲3▼を量子化する時は、例えば8*8ブロックの左上の“224”の値をテーブル“00”の同じ位置の左上の値“32”で量子化し“7”となす。また、最も周波数成分の高い8*8ブロックの右下では“−1”を“12”で量子化し“0”となる。
【0083】
図31に、図28,29,30のテーブル“00”〜“12”の特性及び市販のデジタルスチルカメラの記憶部で使用している量子化テーブルを示す。
横軸は、量子化テーブルAC分64個を10個単位でまとめたものであり、縦軸は、その10個単位の値の平均値である。したがって、どの空間周波数成分を多く量子化しているかを確認することができる。
【0084】
テーブル“00”〜“04”においては、低周波成分の量子化比率が大きくなっている。市販のデジタルスチルカメラでは、低周波成分での量子化量は少なく、高周波成分域においても“15”未満である。これに対応する量子化比率は、アプリケーションにおけるテーブル“10”以上であり、画像の量子化としては低圧縮率の分類になる。
【0085】
ポートレートである図10と、人物肌色度に一致する枯れ林である図14の画像に対して、上記テーブルを1個飛びに用いて量子化を行った後の画像に対して、それぞれ注目画像検出を行った結果を、図32及び図33に示す。
【0086】
図32の場合、テーブル“00”を使用した時は低周波成分の量子化の大きさにより判定テーブル(図4)による人物特性から外れてしまっている。テーブル“02”では、人物を検出したが、検出ポイントは低い。テーブル“06”以上で安定した検出ができている。
【0087】
図33の場合、テーブル“00”を使用した時は、本来人物肌判定テーブル(図4)より高周波域で、外れてしまう検出値が量子化による誤差で、“検出判定”となり、誤判定になってしまっている。こちらの場合でも、テーブル“08”以上で安定した検出ができている。
【0088】
したがって、量子化テーブルの値により、判定の精度が変わるので、このための量子化テーブル判定を行う。本実施の形態においては、判定を簡単化するために量子化テーブルの各項目を加算し、その合計が“630”以下の場合のみ判定への使用を可能とする、対応画像と判断することとした。
【0089】
量子化テーブルの判定方法は、この他に、低周波成分での値などに注目する方法、低域30までの総和を“150”とする方法など、検出する注目画像の空間周波数特性により幾つも考えることができるが、量子化テーブルの特性を使用するようにしてもよい。
【0090】
図6の説明に戻る。上述したように、色度により検出された長手方向の連続量が大きいデータから順に注目画像の候補番号1〜n(本実施の形態においてはn=8)を付ける(ステップS608)。n以降の検出したものについては候補番号を付けられない。
【0091】
次に、取得した量子化テーブルから図34のフローチャートに示した処理を行い、AC成分特性判定テーブルを設定する。
処理としては、まず量子化テーブル内のすべての値を加算する。この値が、量子化の程度をあらわすことになる。この値が、630以上である場合は、注目画像の空間周波数特性が変わってしまっていると考えられるので、注目画像検出は中断する。630未満の場合は、注目画像の空間周波数特性に影響は無いと判断され、入力画像サイズによるAC成分特性判定用テーブルの選択を行う。
【0092】
次に、ステップS609に進み、上記候補1〜nに対して、図4で示した連続ブロック数に対する空間周波数特性適正範囲判定表の範囲に適合するか逐次比較する。この結果、適合する候補が存在しない場合は注目画像が存在しないと判断する。
【0093】
この候補1〜nに対して、画像サイズがVGA(640*480)である時は、図4で示した連続ブロック数に対する空間周波数特性適正範囲判定表の範囲に適合するか逐次比較する。最初の連続検出ブロックから周波数特性の特徴量について、適合範囲内であるか比較を行う。この時、上述したように入力画像サイズが違う画像、例えばUXGA(1600*1200)画像においては適合判定に図27のUXGAテーブルを使用して比較判定を行う。
【0094】
本実施の形態においては、画像サイズごと、もしくは、画像サイズ範囲(例えばVGA ̄XGAとSXGA ̄QXGAまでなど特定の画像範囲において共通のテーブル)ごとに設定した適応周波数特性判別テーブルにて周波数特性の比較判定を行ったが、数式を用いた判定基準を代わりに用意してもよい。
【0095】
例えば、下記数式の作成方法としては、既に適正化テーブルがあるVGAとUXGAのテーブルを元にこの2点間の画像のサイズと周波数成分の値による変化量を対応付け、1次式にて近似して使用することができる。
【0096】
この結果、適合する候補が存在しない場合は注目画像が存在しないと判断する。また、適合する候補が存在する場合においては以下に説明を行う。
図22に、そのフローチャートを示す。
最初のステップS2201において、候補の数を確認する(1〜m)。
次に、ステップS2202に進み、候補グループを形成する。この場合、候補に隣接する色度適合ブロックを候補グループとする。
【0097】
次に、ステップS2203に進み、候補グループが複数であるか否かをを判断する。この判断の結果、候補グループの中に複数の候補が含まれた場合は、ステップS2204に進み、候補番号の若い方の番号を用いたグループとする。
【0098】
そして、検出された各グループに対して、どちらのグループが補正対象となる注目画像としての重みが大きいかを判断するために、グループ内の確からしさをポイント換算で、比較を行い、よりポイントが高いグループが最終注目画像と設定される。
【0099】
ポイントの方法としては、候補が“m”個存在する場合、候補1のポイントは“m”。候補2のポイントは“m−1”以下同様に候補mのポイントは“1”となる。
【0100】
このようにして、候補グループ間の優位性を判断した結果の実例を図23に示す。検出した候補グループは2グループあり、そのうち右のグループのポイントが左の候補グループのポイントを上回ったので、最終候補となっている。
【0101】
また、ポイント数の絶対値は、対象となる候補グループの注目画像としての信頼度を表しているので、このポイントにより注目画像に対する補正強度を決定する。補正強度決定方法としては、ポイントによる閾値を設け、閾値の上下関係で強度の指定を行う。
【0102】
但し、このようなポイントによる注目画像の検出ではなく、より軽い処理として、一番長い検出値の候補が入るグループもしくは、検出値そのものを注目画像としてもよい。この場合、本実施の形態より検出確率に多少の差は発生するが、処理能力の低い機器ではこの方式のほうが適合する場合もある。
【0103】
先の、図10と図14に対する結果を図13と図17に示す。
図13においては、注目画像である人物の顔の肌を検出している。また、図17においては、各候補が周波数特性に適合せず候補部分が黒塗りの状態で表している。これは、注目画像が検出されなかった状態を表し、注目画像に重みを置いた画像補正の対象にならないことを示し意している。
【0104】
こうして注目画像を検出することができる。通常の画像補正は、画像全体のバランスに亘って補正が行われるので、逆光などで本来注目したい画像の画質を落としてしまう場合が存在しているが、本実施の形態による注目画像検出により、補正項目として輝度の最適化のための露出、及び好ましい肌色のための色バランスや彩度補正を注目画像のデータを基に補正を行うことで、より高品質な画像を得ることができる。
【0105】
図24に、一般画像補正を行った結果と、本実施の形態の注目画像検出を利用して画像補正を行った結果の一例を示す。図24に示したように、本実施の形態の注目画像検出を利用して画像補正を行った場合は、人物などの注目画像をより良くプリントすることができる。
【0106】
本実施の形態においては、プリントのための最適画像処理用に注目画像を検出する方法を示しているが、表示用などにも使用できることは言うまでも無い。
【0107】
また、本実施の形態においては、検出画像の周波数成分特性を見るために周波数情報を10個単位で加算して周波数成分の63個を7グループとして、画像の特性を判断したが、グループ化という発想をなくし、63個全ての周波数をそのまま利用してもよいことは言うまでも無い。
【0108】
更に、画像の長手方向からの連続量の検出後短い方向の検出を行ったが、この順序も逆になっても可能であり、この他、検出ブロックを一列のグループとして検出する方法以外にも色度で検出したグループにおける全ての方向に隣接したブロックグループという、とらえ方で空間周波数特性を確認する方法など、色度と周波数特性を組み合わせた検出方法はいくらでもあり、これら一連の検出方法は本発明に含まれることは言うまでも無い。
【0109】
本実施の形態においては、図4や図27のように、連続検出値を3グループに分け周波数特性の適正範囲との比較を行い周波数特性の合否を判定したが、連続検出を3グループ化したのは、実施形態を簡単化するためで、連続値ごとに適正範囲を設定してもよいし、連続値には相関関係が有るので、テーブル方式ではなく理論式による方法を用いてもよい。また、周波数特性も7グループ値を使用したが、63個の周波数のすべてにて行ってもよいし、更には特定の周波数に注目して判定してもよい。
【0110】
本実施の形態においては、検出の目的になっている注目画像は人物の肌の領域に設定して説明しているが、周波数成分、もしくは周波数成分と色度により検出可能なものは、人物の肌色に限らず、空、海、木々の緑なども存在する。
【0111】
本実施の形態においては、8*8ブロック単位データの周波数成分を周波数の低い順から10個単位でまとめた値を用いて、その10個の和によるグループ(最も高い周波数グループは3個の和)の特性から周波数特性を代表させているが、Jpeg ファイルの場合、DC成分1個に対し、AC成分63個の構成で、周波数特性を表しているので、10個の集合体として特性を見なくてもよい。
【0112】
また、63個の個々の特性より判断してもよいし、もっとグループ化してもよい。また、特定の周波数成分のみの利用により特性を導き出してもよい。このように、周波数特性を利用した特性を導くのにAC成分の利用方法はいくらでもある。
【0113】
更に、本実施の形態では8*8ブロックの連結と言う概念で縦方向と横方向について注目画像を検出するために色度該当ブロックの連続性において、候補を抽出しているが、この時のブロック集合体の判定方法も、この方法に限られてものではないことは言うまでも無い。
【0114】
本実施の形態では連続検出した色度ブロックに対して検出した連続値により、端のブロックを削除した値を特性利用しているが、周波数成分による適合から色度ブロックの境界を設定したり(図21)、予め特定以上の周波数特性のあるブロックを、色度検索を行う前に除外してから行うようにしたりなど、ブロックの集合体を決定するための色度と周波数成分による分離の仕方は、複数の方法と組み合わせがあるが、本願特許の範囲に包含される。
【0115】
上記図21について説明する。図21の左側は元画像であり、このJpeg ファイル画像の圧縮単位である8*8画素ブロックの周波成分における高周波成分の総データ値が閾値を超えるか超えないかで判定したのが右側の画像になる。明るい部分が高周波成分を持つ領域で、暗い部分が高周波成分の少ない領域である。この領域を境に設けた色度判定による注目画像検出も可能である。
【0116】
また、本実施の形態は、画像圧縮ファイルとして、“Jpegファイル”を利用した方法を開示したが、“Jpeg2000 ファイル“など、周波数成分への変換を利用した他のファイルに対しても同様な考え方で、注目画像の検出を簡単な処理で実現できることは、言うまでもない。
【0117】
上記実施の形態においては、周波数成分と色度を中心に配置情報などを入れて注目画像検出を行ったが、このねらいは、注目画像を中心とした画像補正を行う為である。したがって、検出された注目画像領域の輝度を含むデータが補正を行うことが有効でない状態として検出された時、例えば暗過ぎる値でつぶれている時などは、補正として無理に諧調性を持たそうとすると、ノイズだらけになってしまう場合がある。
【0118】
この不都合を回避するために、図6の検出結果に対して、検出された部分領域の各ブロック直流成分データを利用して輝度平均を出し、補正に適した輝度範囲に入っているかを比較することで、更に精度の良い注目画像における画像補正を行うことができる。
【0119】
(本発明の他の実施の形態)
なお、以上に説明した本実施形態の画像認識装置は、コンピュータのCPUあるいはMPU、RAM、ROMなどで構成されるものであり、RAMやROMに記憶されたプログラムが動作することによって実現できる。
【0120】
したがって、コンピュータが上記機能を果たすように動作させるプログラムを、例えばCD−ROMのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等を用いることができる。
【0121】
また、コンピュータが供給されたプログラムを実行することにより上述の実施形態の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等と共同して上述の実施形態の機能が実現される場合や、供給されたプログラムの処理の全てあるいは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて上述の実施形態の機能が実現される場合も、かかるプログラムは本発明の実施形態に含まれる。
【0122】
また、本発明をネットワーク環境で利用するべく、全部あるいは一部のプログラムが他のコンピュータで実行されるようになっていてもよい。例えば、画面入力処理は、遠隔端末コンピュータで行われ、各種判断、ログ記録等は他のセンターコンピュータ等で行われるようにしてもよい。
【0123】
【発明の効果】
上述したように、本発明によれば、画像圧縮ファイルを解凍する過程で空間周波数データと量子化テーブルとを取得し、上記空間周波数データ及び量子化データ特性を組み合わせて画像ファイル中の注目画像を検索するために利用するようにしたので、高度な計算をすることなく画像データブロックごとの交流成分情報を含む情報を取得して、画像ファイルの中の注目画像を検索することができる。
【0124】
また、本発明の他の特徴によれば、デジタルカメラから直接プリントする場合などのように、パーソナルコンピュータと比べて処理能力が低い組み込み式の機器においても、製品として使用可能な範囲の処理で、印刷する圧縮画像ファイルに補正の対象となる注目画像の有無、及びその値の適正度を検出することができ、必要に応じて注目画像を重視した画像補正を施すようにすることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係わるJpeg画像解凍時に必要なデータを取得する流れを示す概念図である。
【図2】実施の形態の画像データをJpeg形式へ変換する処理過程の流れを示す概念図である。
【図3】実施の形態のJpegの画像圧縮単位である8*8ブロックを例にしたJpeg形式へ変換する処理過程を示す図である。
【図4】実施の形態のJpegファイル画像圧縮単位である8*8ブロックのAC成分特性を利用した判別テーブルを示す図である。
【図5】実施の形態の他にある肌色のRG色度分布例を示す図である。
【図6】実施の形態のJpeg画像解凍からの注目画像検出フローチャートである。
【図7】実施の形態のJpegファイル画像圧縮単位である8*8ブロックにおける、色度検出方法を示す図である。
【図8】実施の形態のJpegファイル画像圧縮単位である8*8ブロックでのDC成分を利用した色度検出方法を示す図である。
【図9】実施の形態の色度検出において、3ビット間引きを利用して検出をした場合の8*8ブロックにおける検出状況を示す図である。
【図10】実施の形態の検出用Jpeg画像サンプルの第1の例を示す図である。
【図11】第1の画像サンプルを色度のみによる検出を行った結果のBMP ファイルの一例を示す図である。
【図12】第1の画像サンプルを8*8ブロック単位の色度検出を元に配置と連続ブロック検出を行った結果のBMP ファイルの一例を示す図である。
【図13】実施の形態の注目画像検出により、第1の画像サンプルを8*8ブロック単位の色度検出を元に配置と連続ブロックとAC成分による検出を行った結果のBMPファイルの一例を示す図である。
【図14】実施の形態の検出用Jpeg画像サンプルの第2の例を示す図である。
【図15】第2の画像サンプルを色度のみによる検出を行った結果のBMPファイルの一例を示す図である。
【図16】第2の画像サンプルを8*8ブロック単位の色度検出を元に配置と連続ブロック検出を行った結果のBMP ファイルの一例を示す図である。
【図17】実施の形態の注目画像検出により、第2の画像サンプルを8*8ブロック単位の色度検出を元に配置と連続ブロックとAC成分による検出を行った結果のBMP ファイルの一例を示す図である。
【図18】実施の形態の人物肌検出において、人物肌検出データの連続色度検出値におけるAC成分の周波数特性を示す図である。
【図19】実施の形態の人物肌検出において、枯れ林の検出データの連続色度検出値におけるAC成分の周波数特性の表を示す図である。
【図20】実施の形態の肌色のRG色度分布を示す図である。
【図21】周波数特性による境界作成のための検出方法の一例を示す図である。
【図22】実施の形態の候補グループの判定手順を示すフローチャートである。
【図23】実施の形態の候補グループ判定の検出結果画像の一例を示す図である。
【図24】実施の形態の注目画像検出を利用した画像補正の比較結果の一例を示す図である。
【図25】本発明の人物肌検出において、UXGA(1600*1200)画像における人物肌検出データの連続色度検出値におけるAC成分の周波数特性を示す特性図である。
【図26】本発明の人物肌検出において、UXGA(1600*1200)画像における枯れ林の検出データの連続色度検出値におけるAC成分の周波数特性の表を示す図である。
【図27】本発明のJpegファイル画像圧縮単位である8*8ブロックのAC成分特性を利用したUXGA(1600*1200)画像に対する判別テーブルの一例を示す図である。
【図28】既存のアプリケーションで使用している量子化テーブルの一例を示す図である。
【図29】既存のアプリケーションで使用している量子化テーブルの一例を示す図である。
【図30】既存のアプリケーションで使用している量子化テーブルの一例を示す図である。
【図31】量子化テーブルにおける圧縮比率と周波数特性との関係を示す図である。
【図32】注目画像検出を行った結果の一例を示す図である。
【図33】注目画像検出を行った結果の一例を示す図である。
【図34】取得した量子化テーブルからAC成分特性判定テーブルを設定する手順の一例を示すフローチャートである。
【符号の説明】
1 エントロピー復号化手段
2 符号テーブル
3 逆量子化手段
4 量子化テーブル
5 逆DCT手段[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image recognition method, an image recognition apparatus, a computer program, and a computer-readable recording medium, and is particularly suitable for use in recognizing a JPEG file image that is a compressed image data format.
[0002]
[Prior art]
A Jpeg file image taken with a digital camera or the like may be printed from a PC printer or a direct printer, or may be printed by a DPE. At this time, if the photographed image data is of good quality, there is no problem because it is sufficient to print it faithfully.
[0003]
However, depending on the photographed image data, there are color covering, insufficient contrast, improper exposure, etc., and it is necessary to perform image correction in order to obtain a high-quality print result. In particular, in the case of an image obtained by photographing a person, in general, if the image is printed so that the color of the person's face is appropriate, the feeling given to the person who viewed the photograph is improved, and the quality of the photograph is improved.
[0004]
In the case of a silver halide photograph, it is preferable to change the exposure amount at the time of printing for each original image in order to obtain a high-quality photo, and in the case of a photograph containing a person to determine the exposure amount at the time of printing. It is convenient to focus on the color of a person's face. This is because, since it is known that the human face has a skin color, it is possible to determine the exposure amount so that the color of the human face in the printed photograph becomes a skin color.
[0005]
As methods for recognizing an image from an image file of digital data, for example, “JP-A-8-161497”, “JP-A-2000-48036”, “JP-A-11-238067” and the like are known.
[0006]
These methods detect the degree of similarity and the degree of coincidence with the designated image. In the case of “JP-A-8-161497”, a rough coincidence in units of blocks by a DC component is obtained, and then a candidate image region is obtained. On the other hand, a restoration process is performed on the data to obtain a fine match as uncompressed data.
[0007]
In the case of “Japanese Patent Laid-Open No. 2000-48036”, this is an image processing apparatus that inputs and creates search data and determines the similarity between this data and a plurality of image data. Further, in the case of “Japanese Patent Laid-Open No. 11-238067”, a search target image is wavelet transformed to generate a compressed image. Also, the degree of similarity is determined by subjecting the designated image to wavelet transform and comparing each feature data.
[0008]
Also, when printing an image shot with a digital camera, the application or printer driver application analyzes the shot data with a histogram and performs image correction such as contrast, white balance, exposure correction, and sharpness uniformly. Are known.
[0009]
In addition, the IP serial number submitted as the prior application 1761421 (n-PGA20010004) and IP serial No. 1764996 (n-PGA20010007) provides a mechanism that enables image correction centered on a target image by easily detecting a target image such as a person even in a device with low processing capability such as a direct print environment.
[0010]
[Problems to be solved by the invention]
When printing a Jpeg file image taken with a digital camera or the like, the above Jpeg file image can be corrected as necessary so that a target image such as a person can be printed better like a silver halide photograph print. It is necessary to decide how to find the image of interest in the.
[0011]
In addition, there has been a demand for a method that can perform detection processing as lightly as possible so that it can be used in devices with low data processing capabilities such as direct printing from a digital camera directly to a printer.
[0012]
For the prior application, the quantization table value related to the compression ratio of the compressed image by JPEG is not uniform due to re-save after shooting or after editing by the application, and a high compression quantization table is used. The spatial frequency in the image changes drastically, and the frequency feature amount in the image of interest is also affected, which may reduce the detection accuracy.
[0013]
In view of the above-described problems, the present invention makes it possible to detect a target image by a method with a low processing load by performing determination using characteristics of a quantization table when detecting a target image in an image file. The purpose is to do.
[0014]
[Means for Solving the Problems]
An image recognition method according to the present invention is an image recognition method for restoring compressed data compressed by including an alternating current component in units of a plurality of pixels into non-compressed data using orthogonal transformation to a two-dimensional spatial frequency domain, For a plurality of partial pixel areas that are units when compressing the data, an extraction process for extracting data and quantization tables including AC frequency components, and when the quantization table extracted by the extraction process corresponds to the adaptive range, It is determined whether or not the feature value of the AC frequency component of the extracted partial region is within a predetermined range of the target image feature amount, and whether the partial region is included in the target image target portion based on the determination result And a determination step of determining whether or not.
Another feature of the present invention is an image recognition method that restores compressed data that includes an alternating current component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain to uncompressed data. In addition, for a plurality of partial pixel areas, which are units when compressing the data, an extraction step for extracting data and quantization tables including AC frequency components, and a quantization table extracted in the extraction step are applicable ranges. Is determined whether each value of the AC frequency component of the extracted partial region and the chromaticity feature amount are within a predetermined range of the target image feature amount, and based on the determination result, And a determination step of determining whether or not the partial region is included in the target image target portion.
Another feature of the present invention is an image recognition method that restores compressed data that includes an alternating current component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain to uncompressed data. In addition, for a plurality of partial pixel areas, which are units when compressing the data, an extraction step for extracting data and quantization tables including AC frequency components, and a quantization table extracted in the extraction step are applicable ranges. Is divided into a plurality of image regions based on the extracted AC frequency component feature amount, and the chromaticity feature amount in the range of each image region divided by the division step is the image feature amount of interest. A determination step of determining whether or not the partial region is included in the target image target portion based on the determination result. It is characterized by a door.
[0015]
An image recognition apparatus according to the present invention is an image recognition apparatus that restores compressed data that includes an alternating current component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain into uncompressed data. For a plurality of partial pixel areas that are units when compressing the data, the extraction means for extracting the data including the AC frequency component and the quantization table, and when the quantization table extracted by the extraction means corresponds to the adaptive range, It is determined whether or not the feature value of the AC frequency component of the extracted partial region is within a predetermined range of the target image feature amount, and whether the partial region is included in the target image target portion based on the determination result And determining means for determining whether or not.
Another feature of the present invention is an image recognition apparatus that restores compressed data, which includes an AC component in units of a plurality of pixels, to non-compressed data using orthogonal transformation to a two-dimensional spatial frequency domain. In addition, with respect to a plurality of partial pixel areas that are units when the data is compressed, an extraction unit that extracts data including an AC frequency component and a quantization table, and a quantization table extracted by the extraction unit are within an applicable range. Is determined whether each value of the AC frequency component of the extracted partial region and the chromaticity feature amount are within a predetermined range of the target image feature amount, and based on the determination result, And determining means for determining whether or not the partial region is included in the target image target portion.
Another feature of the present invention is an image recognition device that restores compressed data that includes an AC component in units of a plurality of pixels to non-compressed data using orthogonal transformation to a two-dimensional spatial frequency domain. In addition, with respect to a plurality of partial pixel areas that are units when the data is compressed, an extraction unit that extracts data including an AC frequency component and a quantization table, and a quantization table extracted by the extraction unit are within an applicable range. , A dividing unit that divides the image region into a plurality of regions based on the extracted AC frequency component feature amount, and a chromaticity feature amount in the range of each image region divided by the dividing unit is a target image feature amount. Determining means for determining whether or not the partial area is in the target image target portion based on the determination result. It is characterized by a door.
[0016]
The computer program according to the present invention is a computer program capable of executing an image recognition method for restoring compressed data including an AC component in units of a plurality of pixels into non-compressed data using orthogonal transformation to a two-dimensional spatial frequency domain. In addition, for a plurality of partial pixel areas which are units when compressing the data, an extraction process for extracting data and quantization tables including AC frequency components, and a quantization table extracted by the extraction process are applicable ranges. Is determined whether or not the feature value of the AC frequency component of the extracted partial region is within the predetermined range of the target image feature amount. Based on the determination result, the partial region is the target image target. It is characterized by causing a computer to execute a determination step of determining whether or not a portion is included.
Another feature of the present invention is an image recognition method for restoring compressed data including an AC component in units of a plurality of pixels to non-compressed data using orthogonal transformation to a two-dimensional spatial frequency domain. An executable computer program that extracts data including a frequency component and a quantization table for a plurality of partial pixel regions that are units when the data is compressed, and is extracted in the extraction step. When the quantization table corresponds to the adaptive range, it is determined whether each value of the extracted AC frequency component of the partial region and the chromaticity feature amount are within the predetermined range of the target image feature amount, The computer is caused to execute a determination step of determining whether or not the partial region is included in the target image target portion based on the determination result.
According to another aspect of the present invention, there is provided an image recognition method for restoring compressed data including an AC component in units of a plurality of pixels to non-compressed data using orthogonal transformation to a two-dimensional spatial frequency domain. An executable computer program that extracts data including a frequency component and a quantization table for a plurality of partial pixel regions that are units when the data is compressed, and is extracted in the extraction step. When the quantization table corresponds to the adaptive range, a division step for dividing the image region into a plurality of features based on the extracted AC frequency component feature amount, and a chromaticity feature amount in the range of each image region divided by the division step Is within the predetermined range of the target image feature quantity, and the partial area is included in the target image target part based on the determination result. It is characterized in that to execute a determination step of determining whether the computer.
[0017]
A computer-readable recording medium of the present invention is characterized by recording any one of the computer programs described above.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of an image recognition method, an image recognition apparatus, a computer program, and a computer-readable recording medium according to the present invention will be described with reference to the accompanying drawings. First, when printing image data in the JPEG file format, which is a general digital camera data compression recording format, before restoring to uncompressed data, the luminance and chromaticity bases for each block (8 * 8 pixels) The DCT (Discrete Cosine Transform) data is also acquired and used for the attention image search.
[0019]
At this time, those whose quantization table characteristics used for image compression are within the applicable range are prepared for each input image by acquiring frequency (alternating current) component information for each image data block. It can be used through comparison with the feature quantity of the partial region, and it is possible to eliminate the need for advanced calculations. In addition, the processing efficiency for the effect can be increased in relation to the output size.
[0020]
“First Embodiment”
First, the omission of information and encoding / decoding of the “Jpeg file” of the most common image compression file will be described.
[0021]
First, with regard to encoding, it is common for digital cameras and digital videos to store still images as JPEG files. In this case, a signal entering a CCD or the like that is a light receiving element of the input device is A / D converted and then taken into a frame memory, and RGB or CMY filter information is converted into luminance and chromaticity information. Then, it is divided into 8 * 8 (64) square pixel blocks.
[0022]
(1) in FIG. 3 shows an example of data of one block among the luminance data bitmap divided into 8 * 8 blocks. In addition, (2) in FIG. 3 shows an example in which the pixel value of 0 to 255 is level-shifted and converted to a signal of −128 to 127. Further, (3) in FIG. 3 shows an example in which the DCT coefficient is obtained by DCT (Discrete Cosine Transform).
[0023]
Further, (4) in FIG. 3 is a quantization table in which omission of high-frequency components in consideration of visual characteristics is increased. Using this table, the DCT coefficient as a result of (3) in FIG. An example of quantization is shown.
[0024]
(5) in FIG. 3 is the result of quantization. This value is entropy encoded and expressed by a Huffman code to generate compressed data that is an encoded signal.
[0025]
Next, in decoding, the reverse process of the above encoding is performed. That is, the encoded signal is decoded and the value of the quantized DCT coefficient is decoded. Next, a DCT coefficient is obtained by multiplying the quantization table to perform inverse quantization. Thereafter, the image subjected to the level shift is restored by performing inverse DCT, and the image of one block is decoded by adding the value 128 of the inverse level shift.
[0026]
In the above description, it is omitted to combine the data divided into luminance information and chromaticity information and convert it into an RGB image. However, as shown in FIG. (Y) and two chromaticity components (Cb, Cr) are converted, and each of them is encoded and combined to generate compressed image data.
[0027]
As a method for printing a JPEG image, which is a compressed image data file as described above, the compressed image data from the input device is imported to a personal computer (hereinafter referred to as a PC) by USB or storage medium, and the image is then captured. Expand and apply image correction as necessary, then send the data to the printer, or input the image data from the input device directly to the printer, decompress the image in the printer, and correct the image as necessary There are several options, such as printing after adding.
[0028]
In any case, in order to print a good image, it is determined whether the photographed image data is a good quality photographed image or an image that needs to be corrected. Therefore, it is necessary to further separate the source from which printing is performed after approaching a high-quality image by performing correction.
[0029]
The following can be considered as a good image.
1) White balance is good.
2) The contrast is appropriate.
3) Necessary gradations are assigned. That is, the exposure setting is good.
4) The saturation is appropriate.
5) The finish looks like a silver halide photograph.
6) The image of interest such as a person is corrected mainly.
[0030]
Even in a commercially available PC printer or a direct printer that does not pass through a PC, the items 1) to 5) are performed to some extent. In addition, the reason that the image of interest 6) is not corrected is that a large amount of processing is necessary for the detection and that the method has not been established.
[0031]
In particular, it is difficult to implement a direct printer having a weak processing capability, but the present invention solves this problem. As a means for this, there is a method of passing to the whole image correction after detecting the presence of the image of interest in the Jpeg image file and confirming the necessity of correction for the detected image.
[0032]
FIG. 1 is a block diagram showing a process of decompressing a Jpeg file and information acquired at that time.
In the process of converting a Jpeg file into RGB bitmap data, first, entropy decoding means 1 performs entropy decoding using code table 2. Next, the inverse quantization means 3 stores the quantization table 4 used for inverse quantization as data in addition to performing inverse quantization.
[0033]
This inverse quantized data is frequency-converted as block unit data, and this data is acquired as data for obtaining image frequency characteristics. Thereafter, the inverse DCT means 5 performs inverse DCT processing and inverse level shift, and performs Ycc-RGB conversion to develop normal RGB bitmap data.
[0034]
Next, FIG. 6 shows a flowchart of person detection which is attention image detection considered to be the most important in this image.
In the first step S601, DCT data and a quantization table of 8 * 8 pixel block units are acquired, and at the same time, the image file is developed into RGB bitmap data.
Next, the process proceeds to step S602, and a search is performed in the RGB bitmap data to determine whether the 8 * 8 pixel block unit corresponds to the chromaticity of the skin color of the person who is the target image in the present embodiment.
[0035]
In this case, since the ratio of the 8 * 8 pixel block image to the entire image differs depending on the input image size, the end portion proportional to the input image size is set. For example, it is 8 blocks for VGA (640 * 480) and 20 blocks for UXGA (1600 * 1200) images.
[0036]
There are a plurality of chromaticity search methods. As known,
1) A color in which the ratio of B (blue) / G (green) falls within the range of 0.7 to 0.8, and the ratio of R (red) / G (green) falls within the range of 1.4 to 1.8. Have a degree.
2) As shown in the conceptual diagram of FIG. 5, the skin color can be represented by a probability ellipse. The following equations (1) to (3) are obtained as equations to be obtained.
[0037]
[Expression 1]
Figure 2004038482
[0038]
In the present embodiment, the chromaticity distribution range represented by the following formula (4) taking into account the simplicity of processing is set as the skin color chromaticity range. This range is shown in FIG.
[0039]
[Expression 2]
Figure 2004038482
[0040]
In the present embodiment, since the block is a unit of 8 * 8 pixels as a unit for detecting the characteristics of the frequency component in the image, the chromaticity determination is performed in units of 8 * 8 pixels from the structural logical simplicity. And execute.
[0041]
FIG. 7 illustrates the chromaticity detection points used in the present embodiment. According to this, it is checked whether or not all the chromaticities at the four corners of the block of “8 * 8 pixel” are within the chromaticity range, and when all are within the range, the block is regarded as the appropriate chromaticity. Judgment.
[0042]
In FIG. 7, the second block from the left in the upper row and the 1, 2, and 3 blocks from the left row in the lower row correspond. In the upper leftmost block, the expression level at the upper left of the four points is determined to be a non-skin color pixel, and therefore a block including this is determined to be outside the skin color range. Similarly, the upper right block 1, 2 and the lower right block are out of range.
[0043]
FIG. 8 shows the determination based on the average chromaticity of the entire block in the unit of “8 * 8 pixels”. As a method of obtaining the average chromaticity in this block, in addition to the method of taking the average value of the pixel values of all the 8 * 8 blocks, the chromaticity data (Cb, Cr) before performing the inverse DCT during decompression is included. It is also possible to obtain from the DC component. As an advantage of this method, since the determination can be made based on the color tone of the entire block, it can be expected that the accuracy is higher than that with a small number of detection points. Here, the content about the detection of only the chromaticity in the natural image will be seen.
[0044]
FIG. 9 is for the purpose of equalizing the detection intervals in the entire image, although in the same idea as FIG.
[0045]
FIG. 10 is a general portrait photograph, and FIG. 14 is a photograph of a forest of dead trees having a chromaticity range similar to the skin color chromaticity of a person. FIG. 11 and FIG. 15 show the results obtained by performing detection only by matching chromaticity to each pixel with respect to FIG. 10 and FIG.
[0046]
As a result of detection in the portrait of FIG. 11, the skin color portion of the person is well detected. However, in the fence or background, those that satisfy the matching chromaticity are detected even in fine portions such as dust. I understand that. For this reason, it turns out that an attention image cannot be specified only with chromaticity.
[0047]
In FIG. 14, the forest of dead trees having the same chromaticity is entirely detected regardless of the purpose of detecting the skin color of the person. As described above, when the chromaticity determination is performed at the pixel level, it is impossible to specify the target image.
[0048]
By setting the detection to the block level, a state having a specific unit is targeted, so that it is difficult to be affected by external noise. However, an 8 * 8 pixel block cannot be said to be an appropriate group size, and even in block detection based on chromaticity, by performing detection with restrictions such as continuous detection of blocks adjacent in the vertical and horizontal directions, further detection is possible. Increase accuracy.
[0049]
Here, a continuous range for determining noise is set based on the concept that even a human skin color that does not satisfy the amount of data capable of recognizing a face in printing may be rejected.
[0050]
This portion is represented by the processing after step S603 in FIG. That is, in step S603, chromaticity detection is performed for each block in the longitudinal direction of the image, and candidates are formulated in descending order of the number of continuously detected blocks.
[0051]
Next, in step S604, it is compared whether or not the continuous amount is included in an adaptive continuous amount as the target image. As a result of the comparison, if there is a corresponding continuous block, the process proceeds to step S605, and a search is performed to determine whether data satisfying the block continuous detection setting in the short direction exists in the image.
[0052]
Next, in step S606, it is determined whether or not there is detection data. If there is detection data, the process proceeds to step S608, and from the data remaining in this process, the data having the largest continuous block amount in the longitudinal direction is sequentially ordered. Give candidate numbers.
[0053]
If the result of determination in step S606 is that there is no detected data, processing proceeds to step S607, where “no target area” is set, and the processing is terminated.
[0054]
Here, the story will return a little, but the effect of performing chromaticity determination in continuous blocks is shown in FIGS.
FIG. 12 shows the result of detecting the portrait image of FIG. In FIG. 12, color codes (1 = brown, 2 = red, 3 = orange, 4 = yellow, 5 = green, 6 = blue, 7 from the higher detection candidate priority (from the longer detection block length). = Purple, 8 = Gray) are arranged in this order, and the others detected are those in which only the chromaticity is within the appropriate range. It can be seen that a considerable number of non-corresponding candidates such as backgrounds can be deleted by continuous block detection compared to chromaticity detection at the pixel level.
[0055]
In FIG. 16, as a result of detecting the forest of dead trees in FIG. 14, it can be seen that other than the target image is detected even in the continuous block detection.
[0056]
Next, the frequency characteristics of the detected continuous chromaticity continuous blocks were calculated in human skin and dead tree forest using a plurality of image samples having a VGA (video graphics array) size (640 * 480 pixels).
[0057]
FIG. 18 is a diagram in which DCT data of blocks detected in consecutive blocks of human skin captured in an image are arranged in ascending order of frequency, added in units of 10 from the lowest frequency, and divided by the number of consecutive blocks. This is a summary of the average frequency components per block of continuously detected blocks.
[0058]
Accordingly, in the drawing, the horizontal axis is a collection of 63 frequency components of AC components, and the group of 10 units is 6 groups, and the data with the highest frequency is the data for 3 units. The vertical axis represents a value obtained by adding elements of each frequency component.
[0059]
Thus, it can be seen that the larger the value, the higher the corresponding frequency component in that block. Also, the data lines are color-coded for each detected number of consecutive blocks. For example, “B2” represents an average value of data in which two consecutive blocks are detected, and “B15” represents an average value of data in which 15 consecutive blocks are detected. The same applies to the following, and represents the spatial frequency characteristics for each continuous detection value of the average human skin color portion from a plurality of images from “B2 to B15”.
[0060]
Looking at the detection results,
1) The value of the low frequency component is large, and after the third group from the bottom of the low frequency component, the value is 50 or less regardless of the number of continuous blocks.
2) The larger the continuous value of the continuous block, the lower the frequency characteristics.
[0061]
From these results, it can be said that the frequency characteristic of the human skin color part is composed of a relatively low frequency, and that the detected continuous block value is large, the photographed size of the subject is large. It can be seen that the frequency component is lowered by obtaining the average value as this continuous block.
[0062]
Even if the continuous block has the same chromaticity of the image of interest, the continuous block is made one representative value (for example, when the block is B6, the values of the detected six blocks are After adding each group as a group of 10 units in ascending order of frequency, the average value is obtained by dividing by 6 which is the continuous value. It can be seen that the appropriate frequency characteristics differ depending on the continuous detection value.
[0063]
FIG. 19 shows the result of preparing a plurality of photographs of dead trees having a chromaticity range similar to the skin color chromaticity of a person and performing the detection in the same manner as FIG.
[0064]
Looking at the detection results,
1) It can be confirmed that there is a lot of data in a high frequency component as compared with the spatial frequency characteristics of human skin.
2) The group of the lowest frequency component is not significantly different from the result of human skin.
[0065]
From these facts, it can be seen that detection objects having the same chromaticity can be distinguished by frequency characteristics by detecting frequency components in the continuous block.
[0066]
FIG. 4 is used in the present embodiment, and represents the spatial frequency characteristics of human skin, which is the image of interest. The upper level is an appropriate range of frequency characteristics in the VGA (640 * 480) image.
[0067]
Consecutive block values are grouped into 3 groups: 2 to 8 groups (L8), 9 to 20 groups (L9 to 20), and 21 or more groups (L21 to L). Is set. The frequency characteristics of 7 groups of 10 units as described above were also used for the appropriate frequency range. This is performed with a balance between simplification of processing and detection accuracy, and there is no need to be bound by this.
[0068]
Next, a UXGA (1600 * 1200) image equivalent to 2 million pixels, which is widely used in digital cameras, will be compared with a VGA image under the same shooting conditions.
FIG. 25 shows the result of detecting a UXGA-size image of the same scene as the data used in FIG. 18, using the frequency characteristic amount and the average of the data amount in each range as in FIG. It is a thing.
[0069]
Looking at the difference in detection characteristics from the VGA image,
1) The detection range of the continuous detection block is large. Specifically, the continuous value in VGA image detection is continuous detection of 2 to 15 blocks. On the other hand, in the UXGA image detection, a continuous block having a detection value of 4 to 40 is detected.
2) UXGA has lower frequency characteristics in the block. For example, when the block average of 1 to 10 is viewed, the data amount is distributed in the range of 300 to 100 in the VGA image, whereas the data is distributed in the range of 200 to 30 in the UXGA image. It is a general idea that what can become a noticed image within a single image falls within a specific ratio range as the size of all images.
[0070]
For example, what if the image of interest occupies only 1/100 of the entire image in the longitudinal direction? When considering a general print, even if the optimum correction is applied to the image of interest, output The attention image that has undergone later correction occupies almost no space, and it is considered that it is more effective to correct the entire image than to correct a specific attention image, and it is out of the definition of attention. it is conceivable that.
[0071]
Also in the present embodiment, there is an appropriate range of each image of interest suitable for each image size, and even if it is within this range or above, it is out of the target image detection candidates to be corrected.
[0072]
Therefore, in this example, 1/100 in the longitudinal direction of the UXGA image is 1600 divided by 100. Therefore, 16 pixels is equivalent to 2 blocks (8 * 8), and even if the chromaticity and the frequency component match, the length is implications. Removed from candidates. Incidentally, in the UXGA image, the detection continuous range is set to 4 to 62 blocks.
[0073]
In the VGA image, 1/100 is 6.4 pixels with the same idea, which is less than one block. In the VGA image, the detection continuous range is set to 2 to 25 blocks. This difference is caused by a difference in occupation ratio with respect to all the images for one block (8 * 8) depending on the image size.
[0074]
If it is considered that the image of interest is in a certain ratio range in the entire image, the meaning of the 8 * 8 pixel block in the spatial frequency varies depending on the image size. For this reason, even with the same photographed image, the frequency characteristics differ depending on the number of detected locks depending on the image size.
[0075]
In the present embodiment, the detection continuous range is set for each image as described above, but it can be replaced by a mathematical expression. For example, the minimum continuous number can be set as in the following formula (5).
[0076]
[Equation 3]
Figure 2004038482
[0077]
Next, FIG. 26 is shown. FIG. 26 is a picture of a forest of dead trees having a chromaticity range similar to the skin color chromaticity of a person. In FIG. 19, the data is a VGA image, but the data is compiled as a UXGA image. .
[0078]
The comparison with FIG. 19 has the same tendency as the comparison between FIG. 18 and FIG. 25 described above. It can be seen that the high frequency component is considerably reduced in the group of 20 or more AC components. However, since the distribution is extremely different from the data of human skin, it can be separated by setting an adaptive range for each frequency band.
[0079]
What is set for this purpose is the UXGA image determination table of FIG. The configuration is the same as that of the VGA image determination table of FIG. 4, and only the difference in the spatial frequency characteristics of the average block due to the difference in image size.
[0080]
Next, characteristics of the image by the quantization table will be described.
28 to 30 are 13 types of quantization tables for determining the image compression ratio when a typical image application creates a Jpeg file. In FIG. 28 to FIG. 30, the table “00” has the highest image compression rate, and the table “12” has the higher stored image quality and the lower image compression rate.
[0081]
The table is used to further compress the data after DCT of the 8 * 8 image described in (3) to (4) in FIG. 3, and is a value corresponding to each of the 64 spatial frequencies in the image. On the other hand, quantization is performed with the value at the same position.
[0082]
In the case of table “00”, when (3) in FIG. 3 is quantized, for example, the value of “224” in the upper left of the 8 * 8 block is changed to the value “32” in the upper left of the same position in the table “00”. It is quantized to “7”. In the lower right of the 8 * 8 block having the highest frequency component, “−1” is quantized by “12” to become “0”.
[0083]
FIG. 31 shows the characteristics of the tables “00” to “12” in FIGS. 28, 29 and 30 and the quantization table used in the storage unit of a commercially available digital still camera.
The horizontal axis represents 64 quantization tables AC in units of 10, and the vertical axis represents the average value of the 10 units. Therefore, it can be confirmed which spatial frequency component is quantized more.
[0084]
In the tables “00” to “04”, the quantization ratio of the low frequency component is large. In a commercially available digital still camera, the amount of quantization in the low frequency component is small, and it is less than “15” in the high frequency component region. The quantization ratio corresponding to this is a table “10” or more in the application, and the image quantization is classified as a low compression ratio.
[0085]
The image shown in FIG. 10 which is a portrait and the image shown in FIG. 14 which is a dead forest matching the human skin chromaticity, and the image after performing quantization using the above table one by one, respectively, The results of detection are shown in FIGS. 32 and 33. FIG.
[0086]
In the case of FIG. 32, when the table “00” is used, it is deviated from the human characteristics by the determination table (FIG. 4) due to the magnitude of the quantization of the low frequency component. In the table “02”, a person is detected, but the detection point is low. Stable detection is possible with the table "06" or higher.
[0087]
In the case of FIG. 33, when the table “00” is used, the detection value that deviates from the original human skin determination table (FIG. 4) in the high frequency range is an error due to quantization and becomes “detection determination”. It has become. Even in this case, stable detection is possible with the table "08" or higher.
[0088]
Therefore, since the accuracy of determination varies depending on the value of the quantization table, the quantization table determination for this is performed. In the present embodiment, each item of the quantization table is added to simplify the determination, and it is determined as a corresponding image that can be used for determination only when the total is “630” or less. did.
[0089]
In addition to this, there are various quantization table determination methods depending on the spatial frequency characteristics of the target image to be detected, such as a method that focuses on the value in the low frequency component, a method that sets the sum up to the low frequency 30 to “150”, and the like. Although it can be considered, the characteristics of the quantization table may be used.
[0090]
Returning to the description of FIG. As described above, candidate numbers 1 to n (n = 8 in the present embodiment) of the target image are assigned in order from the data with the largest continuous amount detected in the longitudinal direction (step S608). Candidate numbers cannot be assigned to those detected after n.
[0091]
Next, the processing shown in the flowchart of FIG. 34 is performed from the acquired quantization table to set the AC component characteristic determination table.
As processing, first, all values in the quantization table are added. This value represents the degree of quantization. When this value is 630 or more, it is considered that the spatial frequency characteristic of the target image has changed, and therefore the target image detection is interrupted. If it is less than 630, it is determined that there is no effect on the spatial frequency characteristics of the image of interest, and the AC component characteristic determination table is selected based on the input image size.
[0092]
Next, proceeding to step S609, the candidates 1 to n are sequentially compared to see if they match the range of the spatial frequency characteristic appropriate range determination table for the number of continuous blocks shown in FIG. As a result, when there is no suitable candidate, it is determined that there is no image of interest.
[0093]
For these candidates 1 to n, when the image size is VGA (640 * 480), it is sequentially compared whether it matches the range of the spatial frequency characteristic appropriate range determination table for the number of continuous blocks shown in FIG. The feature value of the frequency characteristic from the first continuous detection block is compared to determine whether it is within the applicable range. At this time, as described above, for an image having a different input image size, for example, a UXGA (1600 * 1200) image, the comparison determination is performed using the UXGA table of FIG.
[0094]
In the present embodiment, the frequency characteristic is determined by an adaptive frequency characteristic determination table set for each image size or for each image size range (for example, a common table in a specific image range such as VGA ̄XGA and SXGA ̄QXGA). Although the comparison determination is performed, a determination criterion using a mathematical expression may be prepared instead.
[0095]
For example, as a method of creating the following mathematical formula, based on the VGA and UXGA tables that already have an optimization table, the image size between these two points is associated with the amount of change due to the value of the frequency component, and approximated by a linear expression Can be used.
[0096]
As a result, when there is no suitable candidate, it is determined that there is no image of interest. Moreover, when there exists a suitable candidate, it demonstrates below.
FIG. 22 shows the flowchart.
In the first step S2201, the number of candidates is confirmed (1 to m).
Next, proceeding to step S2202, a candidate group is formed. In this case, a chromaticity matching block adjacent to the candidate is set as a candidate group.
[0097]
Next, proceeding to step S2203, it is determined whether there are a plurality of candidate groups. As a result of the determination, if a plurality of candidates are included in the candidate group, the process proceeds to step S2204, and the group using the smaller candidate number is set.
[0098]
Then, for each detected group, in order to determine which group has the higher weight as the target image to be corrected, the probability within the group is compared in terms of points, and the points are compared. The higher group is set as the final attention image.
[0099]
As a method of points, when there are “m” candidates, the point of candidate 1 is “m”. The point of candidate 2 is “m−1” and below, and the point of candidate m is “1”.
[0100]
An example of the result of determining the superiority between candidate groups in this way is shown in FIG. There are two candidate groups detected, and since the point of the right group exceeds the point of the left candidate group, it is the final candidate.
[0101]
Further, since the absolute value of the number of points represents the reliability of the candidate group as a target image as the target image, the correction strength for the target image is determined based on this point. As a correction strength determination method, a threshold value by points is provided, and the strength is designated by the vertical relationship of the threshold value.
[0102]
However, instead of detecting the target image using such points, as a lighter process, the group containing the longest detection value candidate or the detection value itself may be used as the target image. In this case, a slight difference occurs in the detection probability compared to the present embodiment, but this method may be more suitable for a device having a low processing capability.
[0103]
The results for FIG. 10 and FIG. 14 are shown in FIG. 13 and FIG.
In FIG. 13, the skin of the face of the person, which is the attention image, is detected. In FIG. 17, each candidate does not match the frequency characteristic and the candidate portion is shown in black. This represents a state in which the target image has not been detected, and indicates that the target image is not subjected to image correction with a weight.
[0104]
In this way, the target image can be detected. Since normal image correction is performed over the balance of the entire image, there is a case where the image quality of the image that is originally desired to be noticed is deteriorated due to backlight or the like, but by the attention image detection according to the present embodiment, By correcting exposure for brightness optimization and color balance and saturation correction for preferable skin color as correction items based on the data of the target image, a higher quality image can be obtained.
[0105]
FIG. 24 shows an example of the result of performing the general image correction and the result of performing the image correction using the attention image detection of the present embodiment. As shown in FIG. 24, when the image correction is performed using the attention image detection of the present embodiment, the attention image such as a person can be printed better.
[0106]
In the present embodiment, a method for detecting an image of interest for optimum image processing for printing is shown, but it goes without saying that it can also be used for display.
[0107]
In the present embodiment, in order to see the frequency component characteristics of the detected image, the frequency information is added in units of 10 and 63 frequency components are grouped into 7 groups. Needless to say, the idea may be lost and all 63 frequencies may be used as they are.
[0108]
Furthermore, although the short direction was detected after detecting the continuous amount from the longitudinal direction of the image, it is possible to reverse this order, and besides this method, the detection blocks are detected as a group of one row. There are a number of detection methods that combine chromaticity and frequency characteristics, such as the method of checking the spatial frequency characteristics in terms of how to capture block groups adjacent in all directions in the group detected by chromaticity. It goes without saying that it is included in the invention.
[0109]
In this embodiment, as shown in FIGS. 4 and 27, the continuous detection values are divided into three groups and compared with the appropriate range of the frequency characteristics to determine whether the frequency characteristics pass or fail, but the continuous detection is divided into three groups. This is to simplify the embodiment, and an appropriate range may be set for each continuous value. Since continuous values have a correlation, a method based on a theoretical formula instead of a table method may be used. Moreover, although the 7 group value was used for the frequency characteristics, it may be performed at all 63 frequencies, or may be determined by paying attention to a specific frequency.
[0110]
In the present embodiment, the target image that is the object of detection is described as being set in a human skin region. However, what can be detected by the frequency component or the frequency component and chromaticity is Not only the skin color, but also the sky, the sea, the green of the trees, etc. exist.
[0111]
In the present embodiment, using a value obtained by collecting the frequency components of 8 * 8 block unit data in units of 10 from the lowest frequency, a group of 10 sums (the highest frequency group is 3 sums). However, in the case of a Jpeg file, the frequency characteristics are represented by 63 AC components for one DC component, so the characteristics can be viewed as 10 aggregates. It does not have to be.
[0112]
Further, it may be judged from 63 individual characteristics or may be further grouped. Further, the characteristics may be derived by using only a specific frequency component. As described above, there are any number of methods for using the AC component to derive the characteristics using the frequency characteristics.
[0113]
Furthermore, in this embodiment, candidates are extracted in the continuity of chromaticity corresponding blocks in order to detect the image of interest in the vertical direction and the horizontal direction based on the concept of 8 * 8 block concatenation. It goes without saying that the block aggregate determination method is not limited to this method.
[0114]
In the present embodiment, the value obtained by deleting the end block is used based on the continuous value detected for the continuously detected chromaticity block. However, the boundary of the chromaticity block is set from the adaptation by the frequency component ( FIG. 21), a method of separation based on chromaticity and frequency components for determining a block aggregate, such as excluding a block having a frequency characteristic higher than a specific value in advance before performing a chromaticity search. Although there are a plurality of methods and combinations, these are included in the scope of the present patent.
[0115]
The above FIG. 21 will be described. The left side of FIG. 21 is the original image, and the right side image is determined based on whether the total data value of the high frequency component in the frequency component of the 8 * 8 pixel block which is the compression unit of the Jpeg file image exceeds the threshold value. become. The bright portion is a region having a high frequency component, and the dark portion is a region having a low high frequency component. It is also possible to detect an image of interest by chromaticity determination provided with this region as a boundary.
[0116]
Further, although the present embodiment discloses a method using a “Jpeg file” as an image compression file, the same concept is applied to other files using conversion to frequency components such as a “Jpeg2000 file”. Thus, it goes without saying that the detection of the target image can be realized by a simple process.
[0117]
In the above-described embodiment, attention image detection is performed by including arrangement information and the like centering on frequency components and chromaticity. This aim is to perform image correction centering on the attention image. Therefore, when the data including the brightness of the detected image area of interest is detected as a state where it is not effective to perform the correction, for example, when it is crushed with a value that is too dark, it tends to have a tonality as a correction. Then, it may be full of noise.
[0118]
In order to avoid this inconvenience, a luminance average is obtained from the detection result of FIG. 6 using each block DC component data of the detected partial area, and it is compared whether it is within a luminance range suitable for correction. Thus, it is possible to perform image correction on the target image with higher accuracy.
[0119]
(Another embodiment of the present invention)
The image recognition apparatus according to the present embodiment described above is configured by a computer CPU or MPU, RAM, ROM, and the like, and can be realized by operating a program stored in the RAM or ROM.
[0120]
Therefore, a program that causes a computer to perform the above functions can be realized by recording the program on a recording medium such as a CD-ROM and causing the computer to read the program. As a recording medium for recording the program, a flexible disk, a hard disk, a magnetic tape, a magneto-optical disk, a nonvolatile memory card, and the like can be used in addition to the CD-ROM.
[0121]
In addition, the functions of the above-described embodiments are realized by executing a program supplied by a computer, and the program is used in cooperation with an OS (operating system) or other application software running on the computer. When the functions of the above-described embodiment are realized, or when all or part of the processing of the supplied program is performed by a function expansion board or a function expansion unit of the computer, the function of the above-described embodiment is realized. Such a program is included in the embodiment of the present invention.
[0122]
In order to use the present invention in a network environment, all or a part of the program may be executed by another computer. For example, the screen input process may be performed by a remote terminal computer, and various determinations, log recording, and the like may be performed by another center computer or the like.
[0123]
【The invention's effect】
As described above, according to the present invention, the spatial frequency data and the quantization table are acquired in the process of decompressing the compressed image file, and the target image in the image file is obtained by combining the spatial frequency data and the quantized data characteristics. Since it is used for searching, information including AC component information for each image data block can be acquired without performing advanced calculations, and a target image in an image file can be searched.
[0124]
Further, according to another feature of the present invention, even in an embedded device having a processing capacity lower than that of a personal computer, such as when printing directly from a digital camera, the processing within a range that can be used as a product, The presence or absence of the target image to be corrected and the appropriateness of the value can be detected in the compressed image file to be printed, and image correction can be performed with emphasis on the target image as necessary.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram showing a flow of acquiring data necessary for decompressing a Jpeg image according to an embodiment of the present invention.
FIG. 2 is a conceptual diagram illustrating a flow of a process for converting image data according to an embodiment into a Jpeg format.
FIG. 3 is a diagram illustrating a process of conversion into a Jpeg format taking an 8 * 8 block as an example of a Jpeg image compression unit according to the embodiment;
FIG. 4 is a diagram illustrating a discrimination table using AC component characteristics of 8 * 8 blocks that are Jpeg file image compression units according to the embodiment;
FIG. 5 is a diagram showing an example of skin color RG chromaticity distribution in addition to the embodiment;
FIG. 6 is an attention image detection flowchart from Jpeg image decompression according to the embodiment;
FIG. 7 is a diagram illustrating a chromaticity detection method in an 8 * 8 block that is a Jpeg file image compression unit according to the embodiment;
FIG. 8 is a diagram illustrating a chromaticity detection method using a DC component in an 8 * 8 block which is a Jpeg file image compression unit according to the embodiment.
FIG. 9 is a diagram illustrating a detection state in an 8 * 8 block when detection is performed using 3-bit thinning in the chromaticity detection according to the embodiment.
FIG. 10 is a diagram illustrating a first example of a detection Jpeg image sample according to the embodiment;
FIG. 11 is a diagram illustrating an example of a BMP file obtained as a result of detecting a first image sample based only on chromaticity.
FIG. 12 is a diagram showing an example of a BMP file obtained as a result of arranging the first image sample based on chromaticity detection in units of 8 * 8 blocks and performing continuous block detection.
FIG. 13 shows an example of a BMP file obtained as a result of detecting the first image sample based on chromaticity detection in units of 8 * 8 blocks and detecting by continuous blocks and AC components based on the target image detection according to the embodiment. FIG.
FIG. 14 is a diagram illustrating a second example of the detection Jpeg image sample according to the embodiment.
FIG. 15 is a diagram illustrating an example of a BMP file obtained as a result of detecting a second image sample based only on chromaticity.
FIG. 16 is a diagram illustrating an example of a BMP file obtained as a result of arranging the second image sample based on chromaticity detection in units of 8 * 8 blocks and performing continuous block detection.
FIG. 17 shows an example of a BMP file obtained as a result of detecting the second image sample based on chromaticity detection in units of 8 * 8 blocks and detecting by continuous blocks and AC components based on attention image detection according to the embodiment. FIG.
FIG. 18 is a diagram illustrating frequency characteristics of an AC component in a continuous chromaticity detection value of human skin detection data in human skin detection according to the embodiment.
FIG. 19 is a diagram illustrating a frequency characteristic table of AC components in continuous chromaticity detection values of dead forest detection data in human skin detection according to the embodiment;
FIG. 20 is a diagram illustrating a skin color RG chromaticity distribution according to the embodiment;
FIG. 21 is a diagram illustrating an example of a detection method for creating a boundary based on frequency characteristics.
FIG. 22 is a flowchart illustrating a candidate group determination procedure according to the embodiment;
FIG. 23 is a diagram illustrating an example of a detection result image of candidate group determination according to the embodiment.
FIG. 24 is a diagram illustrating an example of a comparison result of image correction using attention image detection according to the embodiment.
FIG. 25 is a characteristic diagram showing frequency characteristics of AC components in continuous chromaticity detection values of human skin detection data in a UXGA (1600 * 1200) image in human skin detection of the present invention.
FIG. 26 is a diagram showing a table of frequency characteristics of AC components in continuous chromaticity detection values of dead forest detection data in a UXGA (1600 * 1200) image in human skin detection according to the present invention.
FIG. 27 is a diagram illustrating an example of a discrimination table for a UXGA (1600 * 1200) image using AC component characteristics of 8 * 8 blocks which are Jpeg file image compression units according to the present invention.
FIG. 28 is a diagram illustrating an example of a quantization table used in an existing application.
FIG. 29 is a diagram illustrating an example of a quantization table used in an existing application.
FIG. 30 is a diagram illustrating an example of a quantization table used in an existing application.
FIG. 31 is a diagram illustrating a relationship between a compression ratio and a frequency characteristic in a quantization table.
FIG. 32 is a diagram illustrating an example of a result of attention image detection.
FIG. 33 is a diagram illustrating an example of a result of attention image detection.
FIG. 34 is a flowchart illustrating an example of a procedure for setting an AC component characteristic determination table from an acquired quantization table.
[Explanation of symbols]
1 Entropy decoding means
2 Code table
3 Inverse quantization means
4 Quantization table
5 Reverse DCT means

Claims (32)

2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法であって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、
上記抽出工程によって抽出された量子化テーブルが適応範囲に対応する時に、抽出された部分領域の交流周波数成分の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とを有することを特徴とする画像認識方法。
An image recognition method for reconstructing compressed data compressed by including an alternating current component in units of a plurality of pixels into a two-dimensional spatial frequency domain into non-compressed data,
For a plurality of partial pixel areas that are units when compressing the data, an extraction step of extracting data including an AC frequency component and a quantization table;
When the quantization table extracted by the extraction step corresponds to the adaptive range, it is determined whether or not the feature amount of the AC frequency component of the extracted partial region is within a predetermined range of the target image feature amount, And a determination step of determining whether or not the partial region is included in the target image target portion based on the determination result.
2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法であって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、
上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された部分領域の交流周波数成分の各値と色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とを有することを特徴とする画像認識方法。
An image recognition method for reconstructing compressed data compressed by including an alternating current component in units of a plurality of pixels into a two-dimensional spatial frequency domain into non-compressed data,
For a plurality of partial pixel areas that are units when compressing the data, an extraction step of extracting data including an AC frequency component and a quantization table;
When the quantization table extracted in the extraction step corresponds to the adaptive range, whether the extracted value of the AC frequency component and the chromaticity feature amount of the partial region are within the predetermined range of the target image feature amount A determination step of determining whether or not the partial region is included in the target image target portion based on the determination result.
2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法であって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、
上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された交流周波数成分の特徴量により画像領域を複数に分割する分割工程と、
上記分割工程によって分割された各画像領域の範囲における色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて部分領域が注目画像対象部分に入っているか否かを判定する判定工程とを有することを特徴とする画像認識方法。
An image recognition method for reconstructing compressed data compressed by including an alternating current component in units of a plurality of pixels into a two-dimensional spatial frequency domain into non-compressed data,
For a plurality of partial pixel areas that are units when compressing the data, an extraction step of extracting data including an AC frequency component and a quantization table;
When the quantization table extracted in the extraction step corresponds to an adaptive range, a dividing step of dividing the image region into a plurality of features based on the extracted AC frequency component features;
It is determined whether or not the chromaticity feature amount in the range of each image region divided by the dividing step is within a predetermined range of the target image feature amount, and the partial region is the target image target based on the determination result An image recognition method comprising: a determination step of determining whether or not the portion is included.
上記抽出された部分領域の周波数成分の特徴量特性を上記量子化テーブルの特性により変更してから、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて、判定対象の部分領域が注目画像対象部分に入っているか否かを判定するようにしたことを特徴とする請求項1〜3の何れか1項に記載の画像認識方法。After determining the characteristic amount characteristic of the frequency component of the extracted partial region according to the characteristic of the quantization table, it is determined whether or not it is within a predetermined range of the target image characteristic amount, and based on the determination result 4. The image recognition method according to claim 1, wherein it is determined whether or not the determination target partial region is included in the target image target portion. 上記圧縮画像データはJpegファイルデータであることを特徴とする請求項1〜4の何れか1項に記載の画像認識方法。5. The image recognition method according to claim 1, wherein the compressed image data is Jpeg file data. 上記判定対象の部分領域が注目画像対象部分に入っている否かの判定は、画像全体における抽出された部分領域の配置情報を加えて行うことを特徴とする請求項1〜5の何れか1項に記載の画像認識方法。The determination as to whether or not the partial region to be determined is included in the target image target portion is performed by adding arrangement information of the extracted partial regions in the entire image. The image recognition method according to item. 上記判定対象の部分領域が注目画像対象部分に入っている否かの判定は、抽出された部分領域の隣接した連続性情報を縦と横方向に加えて行うことを特徴とする請求項1〜5の何れか1項に記載の画像認識方法。The determination as to whether or not the partial region to be determined is included in the target image target portion is performed by adding continuity information adjacent to the extracted partial regions in the vertical and horizontal directions. 6. The image recognition method according to any one of 5 above. 上記判定対象の部分領域が注目画像対象部分に入っている否かの判定は、抽出された部分領域の直流成分を加えて行うことを特徴とする請求項1〜7の何れか1項に記載の画像認識方法。The determination as to whether or not the partial region to be determined is in the target image target portion is performed by adding a DC component of the extracted partial region. Image recognition method. 上記注目画像の候補が所定の設定範囲の中で複数個検出された場合には、検出された部分領域の隣接した連続が一番多いものを注目画像に該当すると判定することを特徴とする請求項6〜8の何れか1項に記載の画像認識方法。When a plurality of candidates for the target image are detected within a predetermined setting range, it is determined that an image having the largest number of adjacent adjacent partial regions corresponds to the target image. Item 9. The image recognition method according to any one of Items 6 to 8. 上記検出した部分領域の隣接した連続が一番多いものを含む部分領域に連続で隣接している部分領域において、色度が適正範囲に入っているものを含めて注目画像とするようにしたことを特徴とする請求項9に記載の画像認識方法。In the partial area that is continuously adjacent to the partial area that includes the most consecutive adjacent partial areas, the image that includes the chromaticity within the appropriate range is selected as the target image. The image recognition method according to claim 9. 上記検出した注目画像領域内において、部分領域連続が2番目以降に長いものの含有率で上記検出した注目画像の検出の確からしさを求めるようにしたことを特徴とする請求項10に記載の画像認識方法。11. The image recognition according to claim 10, wherein in the detected target image area, the probability of detection of the detected target image is obtained with a content rate of the second longest partial region. Method. 上記検出した確からしさを用いて画像補正強度を決定するようにしたことを特徴とする請求項11に記載の画像認識方法。12. The image recognition method according to claim 11, wherein the image correction intensity is determined using the detected probability. 上記検出した注目画像領域内の輝度情報を作成し、上記輝度情報を元にして画像全体への露出補正を行うようにしたことを特徴とする請求項11または12に記載の画像認識方法。13. The image recognition method according to claim 11, wherein brightness information in the detected image area of interest is created, and exposure correction is performed on the entire image based on the brightness information. 上記注目画像の検出長と出力プリントサイズとの関係により、注目画像サイズが出力プリントサイズ上一定の長さの許容に入らない場合は画像補正を行わないことを特徴とする請求項1〜13の何れか1項に記載の画像認識方法。14. The image correction according to claim 1, wherein image correction is not performed when the image size of interest does not fall within a certain length of the output print size due to the relationship between the detected length of the image of interest and the output print size. The image recognition method according to any one of the above. 2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識装置であって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出手段と、
上記抽出手段によって抽出された量子化テーブルが適応範囲に対応する時に、抽出された部分領域の交流周波数成分の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定手段とを有することを特徴とする画像認識装置。
An image recognition apparatus that restores compressed data that is compressed by including an alternating current component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain into uncompressed data,
Extraction means for extracting data including an alternating frequency component and a quantization table for a plurality of partial pixel areas which are units when the data is compressed,
When the quantization table extracted by the extraction means corresponds to the adaptive range, it is determined whether or not the feature amount of the AC frequency component of the extracted partial region is within a predetermined range of the target image feature amount, An image recognition apparatus comprising: a determination unit that determines whether or not the partial region is included in a target image target portion based on the determination result.
2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識装置であって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出手段と、
上記抽出手段で抽出された量子化テーブルが適応範囲に対応する時には、抽出された部分領域の交流周波数成分の各値と色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定手段とを有することを特徴とする画像認識装置。
An image recognition apparatus that restores compressed data that is compressed by including an alternating current component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain into uncompressed data,
Extraction means for extracting data including an alternating frequency component and a quantization table for a plurality of partial pixel areas which are units when the data is compressed,
When the quantization table extracted by the extraction means corresponds to the adaptive range, whether each value of the extracted AC frequency component and the feature amount of chromaticity are within the predetermined range of the target image feature amount An image recognition apparatus comprising: a determination unit configured to determine whether or not the partial region is included in the target image target portion based on the determination result.
2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識装置であって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出手段と、
上記抽出手段で抽出された量子化テーブルが適応範囲に対応する時には、抽出された交流周波数成分の特徴量により画像領域を複数に分割する分割手段と、
上記分割手段によって分割された各画像領域の範囲における色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて部分領域が注目画像対象部分に入っているか否かを判定する判定手段とを有することを特徴とする画像認識装置。
An image recognition apparatus that restores compressed data that is compressed by including an alternating current component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain into uncompressed data,
Extraction means for extracting data including an alternating frequency component and a quantization table for a plurality of partial pixel areas which are units when the data is compressed,
When the quantization table extracted by the extraction unit corresponds to the adaptive range, a dividing unit that divides the image region into a plurality of features based on the extracted characteristic amount of the AC frequency component;
It is determined whether or not the chromaticity feature amount in each image region range divided by the dividing means is within a predetermined range of the target image feature amount, and the partial region is the target image target based on the determination result An image recognition apparatus comprising: a determination unit that determines whether or not a part is included.
上記抽出された部分領域の周波数成分の特徴量特性を上記量子化テーブルの特性により変更してから、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて、判定対象の部分領域が注目画像対象部分に入っているか否かを判定するようにしたことを特徴とする請求項15〜17の何れか1項に記載の画像認識装置。After determining the characteristic amount characteristic of the frequency component of the extracted partial region according to the characteristic of the quantization table, it is determined whether or not it is within a predetermined range of the target image characteristic amount, and based on the determination result The image recognition apparatus according to claim 15, wherein it is determined whether or not the determination target partial region is included in the target image target portion. 上記圧縮画像データはJpegファイルデータであることを特徴とする請求項15〜18の何れか1項に記載の画像認識装置。The image recognition apparatus according to claim 15, wherein the compressed image data is Jpeg file data. 上記判定対象の部分領域が注目画像対象部分に入っている否かの判定は、画像全体における抽出された部分領域の配置情報を加えて行うことを特徴とする請求項15〜19の何れか1項に記載の画像認識装置。20. The determination as to whether or not the partial region to be determined is included in the target image target portion is performed by adding arrangement information of the extracted partial regions in the entire image. The image recognition apparatus according to item. 上記判定対象の部分領域が注目画像対象部分に入っている否かの判定は、抽出された部分領域の隣接した連続性情報を縦と横方向に加えて行うことを特徴とする請求項15〜19の何れか1項に記載の画像認識装置。16. The determination as to whether or not the determination target partial area is included in the target image target section is performed by adding adjacent continuity information of the extracted partial areas in the vertical and horizontal directions. The image recognition device according to any one of 19. 上記判定対象の部分領域が注目画像対象部分に入っている否かの判定は、抽出された部分領域の直流成分を加えて行うことを特徴とする請求項15〜21の何れか1項に記載の画像認識装置。The determination as to whether or not the partial region to be determined is in the target image target portion is performed by adding a DC component of the extracted partial region. Image recognition device. 上記注目画像の候補が所定の設定範囲の中で複数個検出された場合には、検出された部分領域の隣接した連続が一番多いものを注目画像に該当すると判定することを特徴とする請求項20〜22の何れか1項に記載の画像認識装置。When a plurality of candidates for the target image are detected within a predetermined setting range, it is determined that an image having the largest number of adjacent adjacent partial regions corresponds to the target image. Item 23. The image recognition device according to any one of Items 20 to 22. 上記検出した部分領域の隣接した連続が一番多いものを含む部分領域に連続で隣接している部分領域において、色度が適正範囲に入っているものを含めて注目画像とするようにしたことを特徴とする請求項23に記載の画像認識装置。In the partial area that is continuously adjacent to the partial area that includes the most consecutive adjacent partial areas, the image that includes the chromaticity within the appropriate range is selected as the target image. The image recognition apparatus according to claim 23. 上記検出した注目画像領域内において、部分領域連続が2番目以降に長いものの含有率で上記検出した注目画像の検出の確からしさを求めるようにしたことを特徴とする請求項24に記載の画像認識装置。25. The image recognition according to claim 24, wherein the certainty of detection of the detected image of interest is obtained with a content ratio of the second longest partial region in the detected image of interest region. apparatus. 上記検出した確からしさを用いて画像補正強度を決定するようにしたことを特徴とする請求項25に記載の画像認識装置。26. The image recognition apparatus according to claim 25, wherein the image correction intensity is determined using the detected probability. 上記検出した注目画像領域内の輝度情報を作成し、上記輝度情報を元にして画像全体への露出補正を行うようにしたことを特徴とする請求項25または26に記載の画像認識装置。27. The image recognition apparatus according to claim 25, wherein brightness information in the detected image area of interest is created, and exposure correction for the entire image is performed based on the brightness information. 上記注目画像の検出長と出力プリントサイズとの関係により、注目画像サイズが出力プリントサイズ上一定の長さの許容に入らない場合は画像補正を行わないことを特徴とする請求項15〜27の何れか1項に記載の画像認識装置。28. The image correction according to claim 15, wherein image correction is not performed when the image size of interest does not fall within a certain length of the output print size due to the relationship between the detected length of the image of interest and the output print size. The image recognition device according to any one of the above. 2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法を実行可能なコンピュータプログラムであって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、
上記抽出工程によって抽出された量子化テーブルが適応範囲に対応する時に、抽出された部分領域の交流周波数成分の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とをコンピュータに実行させることを特徴とするコンピュータプログラム。
A computer program capable of executing an image recognition method for restoring compressed data, which includes an AC component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain, into uncompressed data,
For a plurality of partial pixel areas that are units when compressing the data, an extraction step of extracting data including an AC frequency component and a quantization table;
When the quantization table extracted by the extraction step corresponds to the adaptive range, it is determined whether or not the feature amount of the AC frequency component of the extracted partial region is within a predetermined range of the target image feature amount, A computer program for causing a computer to execute a determination step of determining whether or not the partial area is included in a target image target portion based on the determination result.
2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法を実行可能なコンピュータプログラムであって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、
上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された部分領域の交流周波数成分の各値と色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて上記部分領域が注目画像対象部分に入っているか否かを判定する判定工程とをコンピュータに実行させることを特徴とするコンピュータプログラム。
A computer program capable of executing an image recognition method for restoring compressed data, which includes an AC component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain, into uncompressed data,
For a plurality of partial pixel areas that are units when compressing the data, an extraction step of extracting data including an AC frequency component and a quantization table;
When the quantization table extracted in the extraction step corresponds to the adaptive range, whether the extracted value of the AC frequency component and the chromaticity feature amount of the partial region are within the predetermined range of the target image feature amount A computer program for causing a computer to execute a determination step of determining whether or not the partial region is included in a target image target portion based on the determination result.
2次元空間周波数領域へ直交変換を用いて複数画素単位で交流成分を含んで圧縮された圧縮データを非圧縮データへと復元する画像認識方法を実行可能なコンピュータプログラムであって、
上記データを圧縮する時の単位である複数の部分画素領域について、交流周波数成分を含むデータ及び量子化テーブルを抽出する抽出工程と、
上記抽出工程で抽出された量子化テーブルが適応範囲に対応する時には、抽出された交流周波数成分の特徴量により画像領域を複数に分割する分割工程と、
上記分割工程によって分割された各画像領域の範囲における色度の特徴量が、注目画像特徴量の所定範囲内に収まっているか否かを判断し、その判断結果に基づいて部分領域が注目画像対象部分に入っているか否かを判定する判定工程とをコンピュータに実行させることを特徴とするコンピュータプログラム。
A computer program capable of executing an image recognition method for restoring compressed data, which includes an AC component in units of a plurality of pixels using orthogonal transformation to a two-dimensional spatial frequency domain, into uncompressed data,
For a plurality of partial pixel areas that are units when compressing the data, an extraction step of extracting data including an AC frequency component and a quantization table;
When the quantization table extracted in the extraction step corresponds to an adaptive range, a dividing step of dividing the image region into a plurality of features based on the extracted AC frequency component features;
It is determined whether or not the chromaticity feature amount in the range of each image region divided by the dividing step is within a predetermined range of the target image feature amount, and the partial region is the target image target based on the determination result A computer program for causing a computer to execute a determination step of determining whether or not a portion is included.
上記請求項29〜31の何れか1項に記載のコンピュータプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。32. A computer-readable recording medium on which the computer program according to any one of claims 29 to 31 is recorded.
JP2002193622A 2002-07-02 2002-07-02 Image recognition method, image recognition apparatus, and computer program Expired - Fee Related JP4078136B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002193622A JP4078136B2 (en) 2002-07-02 2002-07-02 Image recognition method, image recognition apparatus, and computer program
US10/608,001 US7356190B2 (en) 2002-07-02 2003-06-30 Image area extraction method, image reconstruction method using the extraction result and apparatus thereof
US11/970,359 US7542615B2 (en) 2002-07-02 2008-01-07 Image area extraction method, image reconstruction method using the extraction result and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002193622A JP4078136B2 (en) 2002-07-02 2002-07-02 Image recognition method, image recognition apparatus, and computer program

Publications (3)

Publication Number Publication Date
JP2004038482A true JP2004038482A (en) 2004-02-05
JP2004038482A5 JP2004038482A5 (en) 2006-08-10
JP4078136B2 JP4078136B2 (en) 2008-04-23

Family

ID=31702546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002193622A Expired - Fee Related JP4078136B2 (en) 2002-07-02 2002-07-02 Image recognition method, image recognition apparatus, and computer program

Country Status (1)

Country Link
JP (1) JP4078136B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7869659B2 (en) 2005-03-31 2011-01-11 Sony Corporation Image-comparing apparatus, image-comparing method, image-retrieving apparatus and image-retrieving method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7869659B2 (en) 2005-03-31 2011-01-11 Sony Corporation Image-comparing apparatus, image-comparing method, image-retrieving apparatus and image-retrieving method

Also Published As

Publication number Publication date
JP4078136B2 (en) 2008-04-23

Similar Documents

Publication Publication Date Title
US7542615B2 (en) Image area extraction method, image reconstruction method using the extraction result and apparatus thereof
Kee et al. Digital image authentication from JPEG headers
TWI426774B (en) A method for classifying an uncompressed image respective to jpeg compression history, an apparatus for classifying an image respective to whether the image has undergone jpeg compression and an image classification method
US7903888B2 (en) Image encoding apparatus and image decoding apparatus
US8452112B2 (en) Image encoding apparatus and method of controlling the same
US20170339430A1 (en) Encoder, decoder, method of encoding data, method of decoding data, utilizing data format transformations
US8660345B1 (en) Colorization-based image compression using selected color samples
US9014468B2 (en) Image processing apparatus, computer-readable storage medium storing computer-readable instructions and associated method
JP2004537220A (en) Equipment for processing digital images
JP2019092027A (en) Image processing apparatus, image processing method, and image processing program
WO2003010716A2 (en) Image block classification based on entropy of pixel differences
US7315652B2 (en) Image processing apparatus
US7027646B2 (en) Scaled image generating apparatus and method, image feature calculating apparatus and method, computer programs therefor, and image data structure
US7106908B2 (en) Method and apparatus for selecting a format in which to re-encode a quantized image
US8275198B2 (en) Image processing apparatus, image processing method and computer readable medium with compression processing for each color
CN106717006B (en) Method for selecting a compression algorithm according to the type of image
JP3977291B2 (en) Image reproduction method and image processing apparatus
JP4078136B2 (en) Image recognition method, image recognition apparatus, and computer program
JP4006276B2 (en) Image recognition method, image recognition apparatus, and computer program
JP4078135B2 (en) Image recognition method, image recognition apparatus, and computer program
US8213713B2 (en) Image processing apparatus and computer readable medium
JP2003224868A (en) Image compression apparatus, image compression method, image compression program, and image expansion program
JP2024064449A (en) IMAGE PROCESSING METHOD, IMAGE PROCESSING APPARATUS, AND PROGRAM
JPH08307666A (en) Data processing unit for multi-gradation image with document and photograph in existence in mixture
Krasilnikov et al. Preliminary logical filtering of images to increase the degree of their compression by entropy encoders

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080204

R150 Certificate of patent or registration of utility model

Ref document number: 4078136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140208

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees