JP4081745B2 - Decoding device and decoding method, learning device and learning method, program, and recording medium - Google Patents

Decoding device and decoding method, learning device and learning method, program, and recording medium Download PDF

Info

Publication number
JP4081745B2
JP4081745B2 JP2002061419A JP2002061419A JP4081745B2 JP 4081745 B2 JP4081745 B2 JP 4081745B2 JP 2002061419 A JP2002061419 A JP 2002061419A JP 2002061419 A JP2002061419 A JP 2002061419A JP 4081745 B2 JP4081745 B2 JP 4081745B2
Authority
JP
Japan
Prior art keywords
data
dct
tap
image
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002061419A
Other languages
Japanese (ja)
Other versions
JP2003264837A (en
JP2003264837A5 (en
Inventor
哲二郎 近藤
俊彦 浜松
丈晴 西片
秀樹 大塚
威 國弘
孝文 森藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002061419A priority Critical patent/JP4081745B2/en
Publication of JP2003264837A publication Critical patent/JP2003264837A/en
Publication of JP2003264837A5 publication Critical patent/JP2003264837A5/ja
Application granted granted Critical
Publication of JP4081745B2 publication Critical patent/JP4081745B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、復号装置および復号方法、学習装置および学習方法、並びにプログラムおよび記録媒体に関し、特に、例えば、画像データを符号化した符号化データを、高品質(高画質)の画像に復号することができるようにする復号装置および復号方法、学習装置および学習方法、並びにプログラムおよび記録媒体に関する。
【0002】
【従来の技術】
画像(動画像)データの高能率符号化方式としては、例えば、MPEG(Moving Picture Experts Group)方式が知られており、MPEG方式では、画像データが、横×縦が8×8画素のブロック単位で、水平および垂直の2方向についてDCT(Discrete Cosine Transform)変換され、さらに量子化される。
【0003】
このように、MPEG方式では、画像データがDCT変換されるが、例えば、MPEG2方式では、DCT変換の対象となるブロックのDCTタイプを、マクロブロック単位で、フレームDCTモードとフィールドDCTモードに切り替えることができる。フレームDCTモードでは、ブロックが、同一フレームの画素から構成され、そのようなブロックの画素値がDCT変換される。また、フィールドDCTモードでは、ブロックが、同一フィールドの画素から構成され、そのようなブロックの画素値がDCT変換される。
【0004】
DCTタイプを、フレームDCTモードまたはフィールドDCTモードのうちのいずれとするかは、基本的には、例えば、画像の動きや、周辺のマクロブロックとの連続性等の画像の特性に基づき、復号画像におけるブロック歪みモスキートノイズ等を低減するように決定される。即ち、例えば、動きの大きい画像については、フィールドDCTモードが選択され、動きのほとんどない画像(静止している画像)については、フレームDCTモードが選択される。
【0005】
【発明が解決しようとする課題】
ところで、MPEG2方式においては、デコーダ側においてオーバーフローおよびアンダーフローが生じないように、符号化データのデータレートが制限される。そして、この符号化データのデータレートを制限するために、本来、フレームDCTモードまたはフィールドDCTモードに設定すべきDCTタイプが、フィールドDCTモードまたはフレームDCTモードに、いわば不適切に設定されることがある。
【0006】
即ち、DCTタイプとしては、一般には、フィールドを構成する画素間の相関(例えば、フィールドを構成する、隣接する画素どうしの差分の自乗和の逆数など)(以下、適宜、フィールド画素相関という)が、フレームを構成する画素間の相関(例えば、フレームを構成する、隣接する画素どうしの差分の自乗和の逆数など)(以下、適宜、フレーム画素相関という)より大であれば、フィールドDCTモードが設定され、フレーム画素相関が、フィールド画素相関より大であれば、フレームDCTモードが設定される。
【0007】
しかしながら、符号化データが、データレートの制限を受ける場合には、DCTタイプは、フィールド画素相関とフレーム画素相関の大小に関係なく、その制限されたデータレートに基づいて設定され、従って、例えば、動きの大きい画像について、フィールドDCTモードではなく、フレームDCTモードが設定されるような、不適切なDCTタイプが設定されることがある。
【0008】
このような不適切なDCTタイプが設定された場合であっても、デコーダ側では、その不適切なDCTタイプにしたがって、符号化データを復号しなければならず、復号画像の画質が劣化する課題があった。
【0009】
また、動きのある画像が、高圧縮率でMPEG2符号化された場合には、データレートの制限に起因して、あるフレームのマクロブロックと、次のフレームの対応するマクロブロックとにおいて、同一の動き物体が表示されているのにもかかわらず、異なるDCTタイプが設定されることがあり、その結果、動きが不自然な復号画像が得られることがあった。
【0010】
一方、復号側において、復号画像から、フレームDCTモードとフィールドDCTモードのうちのいずれを設定するのが適切であったのかを判定することは困難である。
【0011】
本発明は、このような状況に鑑みてなされたものであり、符号化データを、高品質(高画質)の画像に復号することができるようにするものである。
【0012】
【課題を解決するための手段】
本発明の復号装置は、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算手段とを有する復号手段とを備え、予測タップ抽出手段は、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0013】
本発明の復号方法は、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップとを含む復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0014】
本発明の第1のプログラムは、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップとを含む復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0015】
本発明の第1の記録媒体は、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップとを含む復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出するプログラムが記録されていることを特徴とする。
【0016】
本発明の学習装置は、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化手段と、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算手段とを有する学習手段と、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算手段を有する復号手段とを備え、予測タップ抽出手段は、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0017】
本発明の学習方法は、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップとを有する学習ステップと、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップを有する復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0018】
本発明の第2のプログラムは、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップとを有する学習ステップと、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップを有する復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0019】
本発明の第2の記録媒体は、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップとを有する学習ステップと、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップを有する復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出するプログラムが記録されていることを特徴とする。
【0020】
本発明の復号装置および復号方法、並びに第1のプログラムおよび第1の記録媒体においては、符号化データに含まれるDCTタイプの正しさが、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報を出力される。そして、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。
【0021】
本発明の学習装置および学習方法、並びに第2のプログラムおよび第2の記録媒体においては、学習用の画像データから、タップ係数の学習の教師となる教師データが生成されるとともに、生徒となる生徒データが生成される。また、学習用の画像データが符号化され、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれるDCTタイプの正しさが、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報が出力される。そして、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数が求められ、タップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。
【0022】
【発明の実施の形態】
図1は、本発明を適用した復号装置の一実施の形態の構成例を示している。
【0023】
復号装置には、図示せぬ記録媒体(例えば、光ディスクや、光磁気ディスク、相変化ディスク、磁気テープ、半導体メモリ等)から再生された符号化データ、または伝送媒体(例えば、インターネットや、CATV網、衛星回線、地上波等)を介して伝送されてくる符号化データが、復号対象として入力されるようになっている。ここで、符号化データは、画像(動画像)データを所定の符号化方式で符号化して得られるもので、少なくとも、その復号を制御するための復号制御情報を含んでいる。
【0024】
なお、符号化データとしては、例えば、画像データをMPEG2方式で符号化したもの等を採用することができる。
【0025】
ここで、MPEG2方式では、符号化側において、画像データ(原画像)がブロック単位でDCT変換され、さらに量子化される。また、符号化側では、符号化対象の画像データについて、動きベクトルが検出されるとともに、符号化データがローカルデコードされ、そのローカルデコードされた画像データを参照画像として、その参照画像について、検出された動きベクトルを用いて動き補償が施されることにより、予測画像が生成される。そして、符号化対象の画像と予測画像との差分が演算されることにより、残差画像が求められ、その残差画像が、上述のようにDCT変換、量子化される。さらに、符号化側では、ブロック単位でのDCT変換にあたって、DCTタイプ(フレームDCTモードまたはフィールドDCTモード)が、マクロブロック単位で設定される。
【0026】
一方、画像データ(原画像または残差画像)をDCT変換し、さらに量子化して得られるDCT係数を、量子化DCT係数というものとすると、復号側では、量子化DCT係数が、逆量子化され、DCT係数とされる。さらに、復号側では、そのDCT係数が逆DCT変換され、その結果得られる画素が、DCTタイプにしたがい、フレーム構造に並べ替えられることで、画像データが復号され、あるいは残差画像データが求められる。そして、残差画像データについては、既に復号された画像データを参照画像として、その参照画像について、動きベクトルを用いて動き補償が施されることにより、予測画像データが生成される。そして、残差画像データと予測画像データとが加算されることにより、画像データが復号される。
【0027】
従って、画像データをMPEG2方式で符号化して得られる符号化データには、画像データ(原画像または残差画像)をDCT変換し、さらに量子化して得られるDCT係数、つまり、画像データの直接の符号化結果の他、復号側において、そのDCT係数を画像に復号するのに必要な情報、即ち、動きベクトルや、DCTタイプなどの復号を制御する情報(以下、適宜、復号制御情報という)も含まれる。なお、符号化データには、動きベクトルやDCTタイプの他、ピクチャタイプや、テンポラルリファレンス、その他の復号制御情報も含まれる。
【0028】
復号装置に入力された符号化データは、ミスマッチ検出部1と復号処理部2に供給されるようになっている。
【0029】
ミスマッチ検出部1は、符号化データからミスマッチ情報を検出する。即ち、ミスマッチ検出部1は、符号化データに含まれる復号制御情報の正しさを判定し、その判定結果を表すミスマッチ情報を、復号処理部2に出力する。復号処理部2は、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、符号化データを復号し、その結果得られる復号データを出力する。
【0030】
次に、図2のフローチャートを参照して、図1の復号装置の処理(復号処理)について説明する。
【0031】
ミスマッチ検出部1と復号処理部2には、符号化データが供給され、ミスマッチ検出部1は、まず最初に、ステップS1において、符号化データからミスマッチ情報を検出し、復号処理部2に供給して、ステップS2に進む。ステップS2では、復号処理部2が、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、そのミスマッチ情報が検出された符号化データを復号し、復号画像データを出力して、ステップS3に進む。ステップS3では、ミスマッチ検出部1または復号処理部2が、復号すべき符号化データが、まだ存在するかどうかを判定する。ステップS3において、復号すべき符号化データが、まだ存在すると判定された場合、ステップS1に戻り、以下、同様の処理が繰り返される。
【0032】
また、ステップS3において、復号すべき符号化データが存在しないと判定された場合、処理を終了する。
【0033】
次に、図3は、本発明を適用した復号装置の他の実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図3の復号装置は、パラメータ記憶部3が、新たに設けられている他は、基本的に、図1の復号装置と同様に構成されている。
【0034】
パラメータ記憶部3は、後述する学習装置による学習によって得られたパラメータを記憶しており、復号処理部2は、パラメータ記憶部3に記憶されたパラメータを用いて、そこに供給される符号化データを復号する。
【0035】
従って、図3の復号装置では、復号処理部2において、符号化データの復号が、パラメータ記憶部3に記憶されたパラメータを用いて行われる他は、図1の復号装置と同様の処理が行われるため、その処理についての説明は省略する。
【0036】
次に、図4は、図3のパラメータ記憶部3に記憶させるパラメータを学習する学習装置の一実施の形態の構成例を示している。
【0037】
学習用データ記憶部11は、パラメータの学習に用いられる画像(動画像)データである学習用データを記憶している。
【0038】
符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出し、図3の復号装置で復号対象とする符号化データと同一の符号化方式で、学習用データを符号化する。学習用データを符号化することにより得られる符号化データ(以下、適宜、学習用符号化データという)は、符号化部12からミスマッチ検出部13に供給されるようになっている。
【0039】
ミスマッチ検出部13は、図3のミスマッチ検出部1と同様に構成され、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給する。
【0040】
学習処理部14は、学習用データ記憶部11に記憶されている学習用データを読み出し、その学習用データから、パラメータについての学習の教師となる教師データと、その学習の生徒となる生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、生徒データを教師データに変換するパラメータを学習する。
【0041】
次に、図5のフローチャートを参照して、図4の学習装置の処理(学習処理)について説明する。
【0042】
まず最初に、ステップS11において、符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出して符号化し、その結果得られる学習用符号化データを、ミスマッチ検出部13に供給して、ステップS12に進む。ステップS12では、ミスマッチ検出部13が、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給して、ステップS13に進む。
【0043】
ステップS13では、学習処理部14が、学習用データ記憶部11から、学習用データを読み出し、その学習用データから、教師データと生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、パラメータを学習する。
【0044】
即ち、学習処理部14は、ミスマッチ情報に基づき、生徒データから、対応する教師データを得ることができるようにするのに最適なパラメータを算出することができるようにするための処理(学習)を行う。
【0045】
そして、ステップS14に進み、符号化部12または学習処理部14が、まだ処理していない学習用データが、学習用データ記憶部11に記憶されているかどうかを判定する。ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていると判定された場合、ステップS11に戻り、その、まだ処理していない学習用データを対象に、以下、同様の処理が繰り返される。
【0046】
また、ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていないと判定された場合、即ち、学習用データ記憶部11に記憶された学習用データすべてを用いて学習を行った場合、ステップS15に進み、学習処理部14は、ステップS13の学習結果に基づき、パラメータを算出し、処理を終了する。
【0047】
次に、図6は、図3の復号装置の詳細構成例を示している。
【0048】
復号制御情報抽出部21には、画像データを、例えばMPEG2方式で符号化して得られる符号化データが、復号対象として供給されるようになっており、復号制御情報抽出部21は、符号化データから、その符号化データに含まれる複数(複数種類)の復号制御情報、即ち、本実施の形態では、例えば、DCTタイプ、ピクチャタイプ、動きベクトルを抽出して、判定部22に供給する。
【0049】
判定部22は、復号制御情報抽出部21から供給される複数の復号制御情報のうちの1つの(1つの種類の)復号制御情報の正しさを、他の(他の種類の)復号制御情報に基づいて判定する。そして、判定部22は、その1つの復号制御情報の正しさの判定結果としてのミスマッチ情報を、復号処理部2に出力する。
【0050】
なお、以上の復号制御情報抽出部21および判定部22が、図3のミスマッチ検出部1を構成している。
【0051】
前処理部31には、復号対象の符号化データが供給されるようになっており、前処理部31は、符号化データに対して、所定の前処理を施し、その結果得られる前処理データを、クラス分類適応処理部32に供給する。
【0052】
クラス分類適応処理部32は、前処理部31から供給される前処理データから、後述する予測タップおよびクラスタップを構成し、係数メモリ41に記憶されたパラメータを用いて、後述するクラス分類適応処理を行う。そして、クラス分類適応処理部32は、クラス分類適応処理を行うことによって得られるデータ(以下、適宜、適応処理データという)を、後処理部33に出力する。
【0053】
また、クラス分類適応処理部32には、ミスマッチ検出部1の判定部22が出力するミスマッチ情報が供給されるようになっており、クラス分類適応処理部32は、このミスマッチ情報に基づき、クラス分類適応処理を行う。
【0054】
後処理部33は、クラス分類適応処理部32が出力するデータに対して、所定の後処理を施し、これにより、符号化データを、高画質の画像データに復号して出力する。
【0055】
なお、以上の前処理部31、クラス分類適応処理部32、および後処理部33が、図3の復号処理部2を構成している。
【0056】
係数メモリ41は、クラス分類適応処理部32がクラス分類適応処理を行うのに用いる、後述するクラスごとのタップ係数を記憶している。
【0057】
なお、この係数メモリ41によって、図3のパラメータ記憶部3が構成されている。
【0058】
次に、図7および図8を参照して、図6のミスマッチ検出部1の処理について説明する。
【0059】
図7は、MPEG2方式において、フレームDCTモードでDCT変換されるブロック(図7A)と、フィールドDCTモードでDCT変換されるブロック(図7B)を示している。
【0060】
なお、図7の実施の形態では、輝度信号のブロックを示してある。また、図7において(後述する図8においても同様)、影を付してあるラインは、奇数ライン(トップフィールド)を表し、影を付していないラインは、偶数ライン(ボトムフィールド)を表す。
【0061】
フレームDCTモードでは、横×縦が16×16画素で構成されるマクロブロックが、図7Aに示すように、左上、左下、右上、または右下の4つの8×8画素のブロックに分割され、各ブロックがDCT変換される。
【0062】
一方、フィールドDCTモードでは、マクロブロックは、図7Bに示すように、上側の8ラインが奇数ライン(トップフィールド)で構成され、下側の8ラインが偶数ライン(ボトムフィールド)で構成されるように、画素の位置が並べ替えられる。そして、その並べ替え後のマクロブロックが、左上、左下、右上、または右下の4つの8×8画素のブロックに分割され、各ブロックがDCT変換される。
【0063】
以上のように、フレームDCTモードでは、同一フレームを構成する8×8画素のブロック単位で、DCT変換が行われ、フィールドDCTモードでは、同一フィールドを構成する8×8画素のブロック単位で、DCT変換が行われる。
【0064】
ところで、例えば、いま、円形の動き物体が、水平方向に移動している画像を考えた場合、あるフレームを構成するトップフィールドとボトムフィールドにおいて、円形の動き物体は、例えば、図8Aに示すように、その動きに対応して、少しずれた位置に表示される。このため、このような動き物体が表示された画像については、フレーム画素相関よりも、フィールド画素相関の方が大になり、フィールドDCTモードでDCT変換を行うことにより、滑らかな動きの復号画像を得ることができる。
【0065】
しかしながら、MPEG方式では、前述したように、動き物体が表示された画像について、データレートの制限に起因して、符号化データのデータ量を低減するために、フィールドDCTモードではなく、フレームDCTモードで、画像データがDCT変換される場合がある。
【0066】
いま、円形の動き物体が表示されている部分の一部のマクロブロックについて、フレームDCTモードが設定されるとともに、他のマクロブロックについて、フィールドDCTモードが設定され、DCT変換が行われたとすると、フレームDCTモードが設定されたマクロブロックについては、例えば、図8Bに示すように、円形の動き物体のエッジ部分がぼやけた復号画像が得られる。
【0067】
ここで、図8Bは、2×2個のマクロブロックのうち、右上のマクロブロックのDCTタイプがフレームDCTモードとされ、他の3つのマクロブロックのDCTタイプがフィールドDCTモードとされた場合の復号画像を示している。
【0068】
DCTタイプを、フレームDCTモードまたはフィールドDCTモードのうちのいずれとするかは、マクロブロック単位で設定されることから、異なるフレームの対応するマクロブロック(同一位置のマクロブロック)であっても、DCTタイプが異なる場合がある。そして、動き物体が表示されている、ある位置のマクロブロックのDCTタイプが、フレーム単位で変化すると、復号画像における動き物体の動きは、不自然なものとなる。
【0069】
このような復号画像におけるエッジ部分のぼけ(ぶれ)や、不自然な動きは、フィールドDCTモードでDCT変換すべきマクロブロックが、データレートの制限から、フレームDCTモードでDCT変換されたこと、即ち、動きのある部分は、フィールドDCTモードでDCT変換すべきであるのに、フレームDCTモードでDCT変換されたことに起因する。従って、フィールドDCTモードでDCT変換すべきマクロブロックを、フレームDCTモードでDCT変換したことは、復号画像の画質を向上させる観点からは、正しくない(適切でない)ということができ、符号化データに含まれる復号制御情報の1つである、そのようなフレームDCTモードを表すDCTタイプも正しくないということができる。
【0070】
そこで、ミスマッチ検出部1は、例えば、符号化データに含まれるDCTタイプの正しさを判定し、その判定結果を表すミスマッチ情報を出力する。
【0071】
即ち、ミスマッチ検出部1は、例えば、動きのある画像が表示されているマクロブロックのDCTタイプが、フレームDCTモードとなっている場合、そのマクロブロックのDCTタイプが正しくないと判定する。一方、ミスマッチ検出部1は、例えば、動きのある画像が表示されているマクロブロックのDCTタイプが、フィールドDCTモードとなっている場合と、マクロブロックに動きがない画像が表示されている場合は、そのマクロブロックのDCTタイプが正しいと判定する。
【0072】
なお、ミスマッチ検出部1は、マクロブロック(に表示された画像)に動きがあるかどうかを、符号化データに含まれる復号制御情報の他の1つである、例えば、そのマクロブロックの動きベクトルに基づいて判定する。
【0073】
次に、図9は、図6のクラス分類適応処理部32の構成例を示している。
【0074】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データが、その性質に基づいてクラス分けされ、各クラスごとに適応処理が施される。
【0075】
ここで、適応処理について、低画質の画像(以下、適宜、低画質画像という)を、高画質の画像(以下、適宜、高画質画像という)に変換する場合を例に説明する。
【0076】
この場合、適応処理では、低画質画像を構成する画素(以下、適宜、低画質画素という)と、所定のタップ係数との線形結合により、その低画質画像の画質を向上させた高画質画像の画素の予測値を求めることで、その低画質画像の画質を高画質化した画像が得られる。
【0077】
具体的には、例えば、いま、ある高画質画像データを教師データとするとともに、その高画質画像の画質を劣化させた低画質画像データを生徒データとして、高画質画像を構成する画素(以下、適宜、高画質画素という)yの予測値E[y]を、幾つかの低画質画素(低画質画像を構成する画素の画素値)x1,x2,・・・の集合と、所定のタップ係数w1,w2,・・・の線形結合により規定される線形1次結合モデルにより求めることを考える。この場合、予測値E[y]は、次式で表すことができる。
【0078】
E[y]=w11+w22+・・・・・・(1)
【0079】
式(1)を一般化するために、タップ係数wjの集合でなる行列W、生徒データxijの集合でなる行列X、および予測値E[yj]の集合でなる行列Y’を、
【数1】

Figure 0004081745
で定義すると、次のような観測方程式が成立する。
【0080】
XW=Y’・・・(2)
【0081】
ここで、行列Xの成分xijは、i件目の生徒データの集合(i件目の教師データyiの予測に用いる生徒データの集合)の中のj番目の生徒データを意味し、行列Wの成分wjは、生徒データの集合の中のj番目の生徒データとの積が演算されるタップ係数を表す。また、yiは、i件目の教師データを表し、従って、E[yi]は、i件目の教師データの予測値を表す。なお、式(1)の左辺におけるyは、行列Yの成分yiのサフィックスiを省略したものであり、また、式(1)の右辺におけるx1,x2,・・・も、行列Xの成分xijのサフィックスiを省略したものである。
【0082】
式(2)の観測方程式に最小自乗法を適用して、高画質画素(の画素値)yに近い予測値E[y]を求めることを考える。この場合、教師データとなる高画質画素の真値yの集合でなる行列Y、および高画質画素yの予測値E[y]の残差(真値yに対する誤差)eの集合でなる行列Eを、
【数2】
Figure 0004081745
で定義すると、式(2)から、次のような残差方程式が成立する。
【0083】
XW=Y+E・・・(3)
【0084】
この場合、高画質画素yに近い予測値E[y]を求めるためのタップ係数wjは、自乗誤差
【数3】
Figure 0004081745
を最小にすることで求めることができる。
【0085】
従って、上述の自乗誤差をタップ係数wjで微分したものが0になる場合、即ち、次式を満たすタップ係数wjが、高画質画素yに近い予測値E[y]を求めるため最適値ということになる。
【0086】
【数4】
Figure 0004081745
Figure 0004081745
【0087】
そこで、まず、式(3)を、タップ係数wjで微分することにより、次式が成立する。
【0088】
【数5】
Figure 0004081745
Figure 0004081745
【0089】
式(4)および(5)より、式(6)が得られる。
【0090】
【数6】
Figure 0004081745
Figure 0004081745
【0091】
さらに、式(3)の残差方程式における生徒データxij、タップ係数wj、教師データyi、および残差eiの関係を考慮すると、式(6)から、次のような正規方程式を得ることができる。
【0092】
【数7】
Figure 0004081745
Figure 0004081745
【0093】
なお、式(7)に示した正規方程式は、行列(共分散行列)Aおよびベクトルvを、
【数8】
Figure 0004081745
で定義するとともに、ベクトルWを、数1で示したように定義すると、式
AW=v・・・(8)
で表すことができる。
【0094】
式(7)における各正規方程式は、生徒データxijおよび教師データyiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数wjの数Jと同じ数だけたてることができ、従って、式(8)を、ベクトルWについて解くことで(但し、式(8)を解くには、式(8)における行列Aが正則である必要がある)、最適なタップ係数wjを求めることができる。なお、式(8)を解くにあたっては、例えば、掃き出し法(Gauss-Jordanの消去法)などを用いることが可能である。
【0095】
以上のように、生徒データと教師データを用いて、最適なタップ係数(ここでは、生徒データから教師データの予測値を求めた場合に、その予測値の自乗誤差の総和を最小にするタップ係数)wjを求める学習をしておき、さらに、そのタップ係数wjを用い、式(1)により、教師データyに近い予測値E[y]を求めるのが適応処理である。
【0096】
なお、適応処理は、低画質画像には含まれていないが、高画質画像に含まれる成分が再現される点で、単なる補間とは異なる。即ち、適応処理では、式(1)だけを見る限りは、いわゆる補間フィルタを用いての単なる補間と同一に見えるが、その補間フィルタのタップ係数に相当するタップ係数wが、教師データと生徒データを用いての学習により求められるため、教師データとしての高画質画像に含まれる成分を再現することができる。このことから、適応処理は、いわば画像の創造作用がある処理ということができる。
【0097】
ここで、生徒データとしては、例えば、教師データとしての高画質の画像データをMPEG符号化し、さらにMPEG復号して得られる復号画像データを用いることができる。この場合、MPEG符号化における量子化に起因して生じるブロック歪み等を低減した高画質の画像を求めることのできるタップ係数を得ることができる。
【0098】
さらに、例えば、教師データとして、高画質の画像データを用いるとともに、生徒データとして、教師データとしての画像データをDCT変換し、さらに量子化、逆量子化して得られるDCT係数を用いるようにすることも可能である。この場合、DCT係数を、高画質の画像(の予測値)に変換するタップ係数を得ることができる。
【0099】
また、上述の場合には、高画質画像の予測値を、線形1次予測するようにしたが、その他、高画質画像の予測値は、2次以上の式によって予測することも可能である。
【0100】
図9のクラス分類適応処理部32は、上述のようなクラス分類適応処理を行うようになっている。
【0101】
即ち、前処理部31(図6)が出力する前処理データは、タップ抽出部51および52に供給されるようになっている。
【0102】
タップ抽出部51は、得ようとしている適応処理データを、注目データとし、さらに、その注目データを予測するのに用いる前処理データの幾つかを、予測タップとして抽出する。また、タップ抽出部52は、注目データをクラス分類するのに用いる前処理データの幾つかを、クラスタップとして抽出する。
【0103】
ここで、タップ抽出部51および52には、判定部22(図6)が出力するミスマッチ情報も供給されるようになっている。そして、タップ抽出部51と52は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0104】
なお、ここでは、説明を簡単にするために、予測タップとクラスタップは、同一のタップ構造を有するものとする。但し、予測タップとクラスタップとは、異なるタップ構造とすることが可能である。
【0105】
タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0106】
クラス分類部53には、クラスタップの他、ミスマッチ情報も供給されるようになっており、クラス分類部53は、タップ抽出部52からのクラスタップとミスマッチ情報に基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、係数メモリ41に供給する。
【0107】
係数メモリ41は、各クラスコードに対応するアドレスに、そのクラスコードに対応するクラスのタップ係数を記憶しており、クラス分類部53から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を、予測部54に供給する。
【0108】
予測部54は、タップ抽出部51が出力する予測タップと、係数メモリ41が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、適応処理データ(の予測値)を求めて出力する。
【0109】
次に、図10のフローチャートを参照して、図6の復号装置の処理(復号処理)について説明する。
【0110】
クラス分類適応処理部32(図9)のタップ抽出部51では、得ようとしている適応処理データが、注目データとされ、ステップS21において、ミスマッチ検出部1が、その注目データに対応する符号化データ(以下、適宜、注目符号化データという)から、ミスマッチ情報を生成する。
【0111】
即ち、ミスマッチ検出部1では、復号制御情報抽出部21が、注目符号化データから、複数の復号制御情報としての、例えば、動きベクトルやDCTタイプなどを抽出し、判定部22に供給する。そして、判定部22は、例えば、復号制御情報抽出部21から供給される動きベクトルなどに基づいて、同じく復号制御情報抽出部21から供給されるDCTタイプの正しさを判定し、その判定結果としてのミスマッチ情報を、クラス分類適応処理部32に供給する。
【0112】
そして、ステップS22に進み、前処理部31は、注目データについての予測タップとクラスタップを構成するのに必要な前処理データを得るための符号化データに対して、前処理を施し、その結果得られる前処理データを、クラス分類適応処理部32に供給する。
【0113】
クラス分類適応処理部32(図9)では、ステップS23において、タップ抽出部51と52が、前処理部31から供給される前処理データを用い、例えば、ミスマッチ検出部1からのミスマッチ情報に基づくタップ構造の予測タップとクラスタップを、それぞれ構成する。そして、予測タップは、タップ抽出部51から予測部54に供給され、クラスタップは、タップ抽出部52からクラス分類部53に供給される。
【0114】
クラス分類部53は、タップ抽出部52から、注目データについてのクラスタップを受信し、ステップS24において、そのクラスタップと、ミスマッチ検出部1から供給されるミスマッチ情報に基づき、注目データをクラス分類し、注目データのクラスを表すクラスコードを、係数メモリ41に出力する。
【0115】
係数メモリ41は、クラス分類部53から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を読み出して出力する。予測部54は、ステップS25において、係数メモリ41が出力するタップ係数を取得し、ステップS26に進む。
【0116】
ステップS26では、予測部54が、タップ抽出部51が出力する予測タップと、係数メモリ41から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データとしての適応処理データ(の予測値)を求め、後処理部33に供給する。
【0117】
後処理部33(図6)は、ステップS27において、クラス分類適応処理部32(の予測部54)からの注目データに対して、所定の後処理を施し、これにより、復号画像データを得て出力する。
【0118】
その後、ステップS28に進み、まだ、注目データとしていない適応処理データがあるかどうかが判定される。ステップS28において、まだ、注目データとしていない適応処理データがあると判定された場合、その、まだ注目データとされていない適応処理データのうちの1つが、新たに注目データとされ、ステップS21に戻り、以下、同様の処理が繰り返される。
【0119】
また、ステップS28において、まだ、注目データとされていない適応処理データがないと判定された場合、処理を終了する。
【0120】
次に、図11は、図6の係数メモリ41に記憶させるタップ係数を学習する場合の、図4の学習装置の詳細構成例を示している。
【0121】
図11の実施の形態において、ミスマッチ検出部13は、復号制御情報抽出部71および判定部72から構成されており、符号化部12が出力する符号化データは、復号制御情報抽出部71に供給されるようになっている。復号制御情報抽出部71または判定部72は、図6の復号制御情報抽出部21または判定部22とそれぞれ同様に構成されており、図6で説明した場合と同様に、後述する注目教師データに対応する符号化データから、ミスマッチ情報を求めて、学習処理部14に供給する。
【0122】
学習処理部14は、適応学習部60、教師データ生成部61、および生徒データ生成部63から構成されている。
【0123】
適応学習部60は、教師データ記憶部62、生徒データ記憶部64、タップ抽出部65および66、クラス分類部67、足し込み部68、およびタップ係数算出部69から構成され、教師データ生成部61は、逆後処理部61Aから構成され、生徒データ生成部63は、符号化部63Aおよび前処理部63Bから構成されている。
【0124】
逆後処理部61Aは、学習用データ記憶部11から学習用データを読み出し、図6の後処理部33が行う処理と相補的な関係にある処理(以下、適宜、逆後処理という)を行う。即ち、例えば、学習用データをyとするとともに、図6の後処理部33が、適応処理データxに対して施す後処理を、関数f(x)で表すとすると、逆後処理部61Aは、学習用データyに対して、関数f-1(y)(f-1()は、関数f()の逆関数を表す)で表される処理を逆後処理として施し、その結果得られるデータを、教師データとして、適応学習部60に出力する。なお、逆後処理部61Aが出力する教師データは、図6のクラス分類適応処理部32から後処理部33に供給される適応処理データに相当する。
【0125】
教師データ記憶部62は、教師データ生成部61(の逆後処理部61A)が出力する教師データを一時記憶する。
【0126】
符号化部63Aは、学習用データ記憶部11から学習用データを読み出し、符号化部12と同一の符号化方式、即ち、本実施の形態では、例えば、MPEG2方式で符号化して出力する。従って、符号化部63Aは、符号化部12が出力するのと同一の符号化データを出力する。なお、符号化部12と63Aとは、1つの符号化部で共用することが可能である。
【0127】
前処理部63Bは、符号化部63Aが出力する符号化データに対して、図6の前処理部31が行うのと同一の前処理を施し、その結果得られる前処理データを、生徒データとして、適応学習部60に出力する。なお、前処理部63Bが出力する生徒データは、図6の前処理部31からクラス分類適応処理部32に供給される前処理データに相当する。
【0128】
生徒データ記憶部64は、生徒データ生成部63(の前処理部63B)が出力する生徒データを一時記憶する。
【0129】
タップ抽出部65は、教師データ記憶部62に記憶された教師データを、順次、注目教師データとし、その注目教師データについて、生徒データ記憶部64に記憶された生徒データを抽出することにより、図9のタップ抽出部51が構成するのと同一のタップ構造の予測タップを構成して出力する。なお、タップ抽出部65には、ミスマッチ検出部13(の判定部72)が出力するミスマッチ情報が供給されるようになっており、タップ抽出部65は、図9のタップ抽出部51と同様に、注目教師データについてのミスマッチ情報に基づいて、予測タップのタップ構造を変更するようになっている。
【0130】
タップ抽出部66は、注目教師データについて、生徒データ記憶部64に記憶された生徒データを抽出することにより、図9のタップ抽出部52が構成するのと同一のタップ構造のクラスタップを構成して出力する。なお、タップ抽出部66には、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっており、タップ抽出部66は、図9のタップ抽出部52と同様に、注目教師データについてのミスマッチ情報に基づいて、クラスタップのタップ構造を変更するようになっている。
【0131】
クラス分類部67には、タップ抽出部66が出力するクラスタップと、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっている。クラス分類部67は、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図9のクラス分類部53と同一のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部68に出力する。
【0132】
足し込み部68は、教師データ記憶部62から、注目教師データを読み出し、その注目教師データと、タップ抽出部65から供給される注目教師データについて構成された予測タップを構成する生徒データを対象とした足し込みを、クラス分類部67から供給されるクラスコードごとに行う。
【0133】
即ち、足し込み部68は、クラス分類部67から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(8)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinim)と、サメーション(Σ)に相当する演算を行う。
【0134】
さらに、足し込み部68は、やはり、クラス分類部67から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)および教師データを用い、式(8)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xini)と、サメーション(Σ)に相当する演算を行う。
【0135】
即ち、足し込み部68は、前回、注目教師データとされた教師データについて求められた式(8)における行列Aのコンポーネントと、ベクトルvのコンポーネントを、その内蔵するメモリ(図示せず)に記憶しており、その行列Aまたはベクトルvの各コンポーネントに対して、新たに注目教師データとされた教師データについて、その教師データyiおよび生徒データxin(xim)を用いて計算される、対応するコンポーネントxinimまたはxiniを足し込む(行列A、ベクトルvにおけるサメーションで表される加算を行う)。
【0136】
そして、足し込み部68は、教師データ記憶部62に記憶された教師データすべてを注目教師データとして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてると、その正規方程式を、タップ係数算出部69に供給する。
【0137】
タップ係数算出部69は、足し込み部68から供給されるクラスごとの正規方程式を解くことにより、各クラスごとのタップ係数を求めて出力する。
【0138】
次に、図12のフローチャートを参照して、図11の学習装置の処理(学習処理)について、説明する。
【0139】
まず最初に、ステップS31において、教師データ生成部61と生徒データ生成部63が、学習用データ記憶部11に記憶された学習用データから、教師データと生徒データを、それぞれ生成する。教師データは、教師データ生成部61から教師データ記憶部62に供給されて記憶され、生徒データは、生徒データ生成部63から生徒データ記憶部64に供給されて記憶される。
【0140】
その後、タップ抽出部65は、教師データ記憶部62に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとする。そして、ステップS32において、符号化部12は、学習用データ記憶部11に記憶された学習用データを符号化し、これにより、注目教師データに対応する符号化データ(注目教師データに対応する学習用データを符号化したもの)を得て、ミスマッチ検出部13に供給する。
【0141】
ミスマッチ検出部13は、符号化部12から供給される符号化データから、注目教師データについてのミスマッチ情報を生成し、学習処理部14のタップ抽出部65および66、並びにクラス分類部67に供給する。
【0142】
そして、ステップS34に進み、タップ抽出部65が、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部64に記憶された生徒データを読み出して予測タップを構成し、足し込み部68に供給するとともに、タップ抽出部66が、やはり、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部64に記憶された生徒データを読み出してクラスタップを構成し、クラス分類部67に供給する。
【0143】
クラス分類部67は、ステップS35において、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについてクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部68に出力する。
【0144】
足し込み部68は、ステップS36において、教師データ記憶部62から注目教師データを読み出し、その注目教師データと、タップ抽出部65からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部68は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部67からのクラスコードに対応するものに対して、注目データと予測タップから求められた行列Aとベクトルvのコンポーネントをそれぞれ足し込み、ステップS37に進む。
【0145】
ステップS37では、タップ抽出部65が、教師データ記憶部62に、まだ、注目教師データとしていない教師データが記憶されているかどうかを判定する。ステップS37において、注目教師データとしていない教師データが、まだ、教師データ記憶部62に記憶されていると判定された場合、タップ抽出部65は、まだ注目教師データとしていない教師データを、新たに、注目教師データとして、ステップS32に戻り、以下、同様の処理が繰り返される。
【0146】
また、ステップS37において、注目教師データとしていない教師データが、教師データ記憶部62に記憶されていないと判定された場合、足し込み部68は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部69に供給し、ステップS38に進む。
【0147】
ステップS38では、タップ係数算出部69は、足し込み部68から供給される各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力し、処理を終了する。
【0148】
なお、学習用データ記憶部11に記憶されている学習用データの数が十分でないこと等に起因して、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じることがあり得るが、そのようなクラスについては、タップ係数算出部69は、例えば、デフォルトのタップ係数を出力するようになっている。
【0149】
次に、図13は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図6の復号装置の第1の詳細構成例を示している。
【0150】
図13の実施の形態では、復号制御情報抽出部21は、逆VLC部111で構成されている。逆VLC部111は、例えば、後述するMPEGデコーダ116を構成する逆VLC部121(図14)と同様に構成されており、符号化データから、複数の復号制御情報としての、例えば、DCTタイプ、ピクチャタイプ、マクロブロック(MB)タイプ、動きベクトルを抽出し、判定部22に供給する。
【0151】
判定部22は、フィールド/フレーム判定部112、イントラ/ノンイントラ判定部113、静動判定部114、およびミスマッチ情報生成部115から構成されている。
【0152】
フィールド/フレーム判定部112は、逆VLC部111が出力するDCTタイプに基づいて、注目データに対応する画素を有するブロック(以下、適宜、注目ブロックという)が、フレームDCTモードとフィールドDCTモードのうちのいずれでDCT変換されたかを判定し、その判定結果を、ミスマッチ情報生成部115に供給する。
【0153】
イントラ/ノンイントラ判定部113は、逆VLC部111が出力するピクチャタイプとマクロブロックタイプに基づいて、注目ブロック(を含むマクロブロック)が、イントラ符号化とノンイントラ符号化のうちのいずれで符号化されているのかを判定し、その判定結果を、ミスマッチ情報生成部115に供給する。
【0154】
静動判定部114は、逆VLC部111が出力する動きベクトルに基づいて、注目ブロックの動きの有無(注目ブロックに表示された画像の動きの有無)を判定し、その判定結果を、ミスマッチ情報生成部115に供給する。
【0155】
ミスマッチ情報生成部115は、フィールド/フレーム判定部112、イントラ/ノンイントラ判定部113、および静動判定部114の出力に基づいて、逆VLC部111が出力する注目ブロック(を含むマクロブロック)のDCTタイプの正しさを判定し、その判定結果としてのミスマッチ情報を生成して、クラス分類適応処理部32に供給する。
【0156】
ここで、図13の実施の形態では、前処理部31は、MPEGデコーダ116で構成されており、MPEGデコーダ116は、符号化データをMPEG2方式で復号し、その結果得られる復号画像データを、前処理データとして、クラス分類適応処理部32に供給する。
【0157】
次に、図14は、図13のMPEGデコーダ116の構成例を示している。
【0158】
符号化データは、逆VLC部121に供給される。逆VLC部121は、符号化データから、量子化DCT係数(量子化されたDCT係数)のVLCコード(量子化DCT係数を可変長符号化したもの)を分離するとともに、量子化ステップ、動きベクトル、ピクチャタイプ、テンポラルリファレンス、その他の復号制御情報を分離する。
【0159】
そして、逆VLC部121は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部122に供給する。さらに、逆VLC部121は、量子化ステップを逆量子化部122に、動きベクトルを動き補償部125に、ピクチャタイプをメモリ126に、テンポラルリファレンスをピクチャ選択部127に、それぞれ供給する。
【0160】
逆量子化部122は、逆VLC部121から供給される量子化DCT係数を、同じく逆VLC部121から供給される量子化ステップで逆量子化し、その結果得られるDCT係数を、逆DCT変換部123に供給する。逆DCT変換部123は、逆量子化部122から供給されるDCT係数を、逆DCT変換し、演算部124に供給する。
【0161】
演算部124には、逆DCT変換部123の出力の他、動き補償部125の出力も供給されるようになっており、演算部124は、逆DCT変換部123の出力に対して、動き補償部125の出力を、必要に応じて加算することにより、復号画像データを得て出力する。
【0162】
即ち、MPEG符号化では、ピクチャタイプとして、I,P,Bの3つが定義されており、各ピクチャは、横×縦が8×8画素のブロック単位で、DCT変換されるが、その際、Iピクチャのブロックは、他のフレームまたはフィールドを参照せずに(予測画像との差分が計算されずに)イントラ(intra)符号化され、Pピクチャのブロックは、イントラ符号化、または前方予測符号化され、Bピクチャのブロックは、イントラ符号化、前方予測符号化、後方予測符号化、または両方向予測符号化される。
【0163】
ここで、前方予測符号化では、符号化対象のブロックのフレーム(またはフィールド)より時間的に先行するフレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値、即ち、残差画像がDCT変換される。
【0164】
また、後方予測符号化では、符号化対象のブロックのフレームより時間的に後行するフレームの画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)がDCT変換される。
【0165】
さらに、両方向予測符号化では、符号化対象のブロックのフレームより時間的に先行するフレームと後行するフレームの2フレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)がDCT変換される。
【0166】
従って、ブロックが、ノンイントラ(non-intra)符号化(前方予測符号化、後方予測符号化、または両方向予測符号化)されている場合、逆DCT変換部123の出力は、残差画像(元の画像と、その予測画像との差分値)を復号したものとなっており、演算部124は、この残差画像の復号結果(以下、適宜、復号残差画像という)と、動き補償部125から供給される予測画像とを加算することで、ノンイントラ符号化されたブロックを復号し、その結果得られる復号画像データを出力する。
【0167】
一方、逆DCT変換部123が出力するブロックが、イントラ符号化されたものであった場合には、逆DCT変換部123の出力は、元の画像を復号したものとなっており、演算部124は、逆DCT変換部123の出力を、そのまま、復号画像データとして出力する。
【0168】
演算部124が出力する復号画像データは、メモリ126とピクチャ選択部127に供給される。
【0169】
メモリ126は、演算部124から供給される復号画像データが、IピクチャまたはPピクチャの画像データである場合、その復号画像データを、その後に復号される符号化データの参照画像として一時記憶する。ここで、MPEG2では、Bピクチャは参照画像とされないことから、演算部124から供給される復号画像が、Bピクチャの画像である場合には、メモリ126では、Bピクチャの復号画像は記憶されない。なお、メモリ126は、演算部124から供給される復号画像が、I,P,Bのうちのいずれのピクチャであるかは、逆VLC部121から供給されるピクチャタイプを参照することにより判断する。
【0170】
ピクチャ選択部127は、演算部124が出力する復号画像、またはメモリ126に記憶された復号画像のフレーム(またはフィールド)を、表示順に選択して出力する。即ち、MPEG2方式では、画像のフレーム(またはフィールド)の表示順と復号順(符号化順)とが一致していないため、ピクチャ選択部127は、復号順に得られる復号画像のフレーム(またはフィールド)を表示順に並べ替えて出力する。なお、ピクチャ選択部127は、表示順を、逆VLC部121から供給されるテンポラルリファレンスを参照することにより判断する。
【0171】
一方、動き補償部125は、逆VLC部121が出力する動きベクトルを受信するとともに、参照画像となるフレーム(またはフィールド)を、メモリ126から読み出し、その参照画像に対して、逆VLC部121からの動きベクトルにしたがった動き補償を施し、その結果得られる予測画像を、演算部124に供給する。演算部124では、上述したように、動き補償部125からの予測画像と、逆DCT変換部123が出力する残差画像と加算され、これにより、ノンイントラ符号化(予測符号化)されたブロックが復号される。
【0172】
次に、図15のフローチャートを参照して、図13のミスマッチ情報生成部115の処理について説明する。
【0173】
ミスマッチ情報生成部115は、まず最初に、ステップS41において、注目ブロック(を含むマクロブロック)が、イントラ符号化されたものであるか、またはノンイントラ符号化されたものであるかを、イントラ/ノンイントラ判定部113の出力に基づいて判定する。
【0174】
ここで、イントラ/ノンイントラ判定部113は、注目ブロックのフレームのピクチャタイプが、Iピクチャを表している場合、注目ブロックがイントラ符号化されていると判定する。また、イントラ/ノンイントラ判定部113は、注目ブロックのフレームのピクチャタイプが、PまたはBピクチャを表している場合には、注目ブロックを含むマクロブロック(以下、適宜、注目マクロブロックという)のマクロブロックタイプに基づいて、注目ブロックがイントラ符号化またはノンイントラ符号化されているかを判定する。
【0175】
ステップS41において、注目ブロックがノンイントラ符号化されていると判定された場合、ステップS42に進み、ミスマッチ情報生成部115は、注目ブロックが、動いている画像を表示しているブロック(以下、適宜、動きブロックという)であるか、または静止している画像を表示しているブロック(以下、適宜、静止ブロックという)であるかを、静動判定部114の出力に基づいて判定する。
【0176】
ここで、静動判定部114は、ノンイントラ符号化されているブロックについては、そのブロックを含むマクロブロックの動きベクトルの大きさが、所定の閾値εより大(または以上)である場合、そのノンイントラ符号化されているブロックが動きブロックであると判定する。また、静動判定部114は、ノンイントラ符号化されているブロックを含むマクロブロックの動きベクトルの大きさが、所定の閾値ε以下(または未満)である場合、そのノンイントラ符号化されているブロックが静止ブロックであると判定する。
【0177】
ステップS42において、注目ブロックが動きブロックであると判定された場合、ステップS45に進み、後述する処理が行われる。
【0178】
また、ステップS42において、注目ブロックが静止ブロックであると判定された場合、ステップS43に進み、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプ(注目マクロブロックのDCTタイプ)が正しいことを表す、例えば、1ビットの0を生成して出力し、処理を終了する。
【0179】
一方、ステップS41において、注目ブロックがイントラ符号化されていると判定された場合、ステップS44に進み、ミスマッチ情報生成部115は、注目ブロックが、動きブロックまたは静止ブロックのうちのいずれであるかを、静動判定部114の出力に基づいて判定する。
【0180】
ここで、静動判定部114は、イントラ符号化されているブロックについては、例えば、そのブロックの、1フレーム前のフレームにおける対応するブロック(以下、適宜、対応前ブロックという)と、1フレーム後のフレームにおける対応するブロック(以下、適宜、対応後ブロックという)のうちのいずれか一方、または両方の動きベクトルと、所定の閾値εとの大小関係によって、ノンイントラ符号化されているブロックにおける場合と同様に、動きブロックまたは静止ブロックの別を判定する。あるいは、静動判定部114は、例えば、イントラ符号化されているブロックについての対応前ブロックと対応後ブロックのうちのいずれか一方、または両方が動きブロックである場合、そのイントラ符号化されているブロックも動きブロックであると判定し、対応前ブロックと対応後ブロックのうちの両方またはいずれか一方が静止ブロックである場合、そのイントラ符号化されているブロックも静止ブロックであると判定する。
【0181】
ステップS44において、注目ブロックが静止ブロックであると判定された場合、ステップS43に進み、上述したように、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプが正しいことを表す1ビットの0を生成して出力し、処理を終了する。
【0182】
また、ステップS44において、注目ブロックが動きブロックであると判定された場合、ステップS45に進み、ミスマッチ情報生成部115は、注目ブロックのDCTタイプが、フレームDCTモードまたはフィールドDCTモードのうちのいずれであるかを、フィールド/フレーム判定部112の出力に基づいて判定する。
【0183】
ステップS45において、注目ブロックのDCTタイプが、フィールドDCTモードであると判定された場合、ステップS43に進み、上述したように、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプが正しいことを表す1ビットの0を生成して出力し、処理を終了する。
【0184】
また、ステップS45において、注目ブロックのDCTタイプが、フレームDCTモードであると判定された場合、ステップS46に進み、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプ(注目マクロブロックのDCTタイプ)が正しくないことを表す、例えば、1ビットの1を生成して出力し、処理を終了する。
【0185】
図15の実施の形態によれば、例えば、図16に示すように、隣接する2×2個のマクロブロックMB#1,#2,#3,#4において、水平方向に移動している円形の物体が表示されている場合において、右上のマクロブロックMB#2のDCTタイプがフレームDCTモードであり、他の3つのマクロブロックMB#1,#3、および#4のDCTタイプがフィールドDCTモードであるときには、ミスマッチ情報生成部115において、以下のようなミスマッチ情報が生成される。
【0186】
即ち、マクロブロックMB#1,#2,#3,#4それぞれを構成するブロックは、いずれも、動きブロックであり、フィールドDCTモードでDCT変換すべきである。従って、DCTタイプがフィールドDCTモードになっているマクロブロックMB#1,#3,#4それぞれを構成するブロックのデータが注目データとされた場合には、ミスマッチ情報として、DCTタイプが正しいことを表す1ビットの0が生成される。また、DCTタイプがフレームDCTモードになっているマクロブロックMB#2を構成するブロックのデータが注目データとされた場合には、ミスマッチ情報として、DCTタイプが正しくないことを表す1ビットの1が生成される。
【0187】
なお、図15の実施の形態では、注目ブロックが動きブロックであり、かつそのDCTタイプがフレームDCTモードになっている場合にのみ、DCTタイプが正しくないことを表すミスマッチ情報を生成し、他の場合には、DCTタイプが正しいことを表すミスマッチ情報を生成するようにしたが、その他、例えば、注目ブロックが動きブロックであり、かつそのDCTタイプがフレームDCTモードになっている場合と、注目ブロックが静止ブロックであり、かつそのDCTタイプがフィールドDCTモードになっている場合に、DCTタイプが正しくないことを表すミスマッチ情報を生成し、注目ブロックが動きブロックであり、かつそのDCTタイプがフィールドDCTモードになっている場合と、注目ブロックが静止ブロックであり、かつそのDCTタイプがフレームDCTモードになっている場合に、DCTタイプが正しいことを表すミスマッチ情報を生成するようにすることなども可能である。
【0188】
また、図15の実施の形態では、説明を簡単にするために、DCTタイプが正しいか、正しくないかを表す1ビットのミスマッチ情報を生成するようにしたが、ミスマッチ情報としては、その他、例えば、注目データのDCTタイプと、その注目データを含むブロック(注目ブロック)が、本来、フレームDCTモードまたはフィールドDCTモードのうちのいずれでDCT変換すべきものであるかを表す情報(以下、適宜、ブロックタイプという)とのセットを生成するようにすることも可能である。
【0189】
ここで、ブロックタイプは、例えば、注目ブロックが動きブロックである場合には、フィールドDCTモードを表すものとし、注目ブロックが静止ブロックである場合には、フレームDCTモードを表すものとするようにすることが可能である。
【0190】
次に、図13の実施の形態におけるクラス分類適応処理部32(図9)の処理について説明する。
【0191】
クラス分類適応処理部32では、前処理部31を構成する図14で説明したMPEGデコーダ116が出力する復号画像データを対象に、クラス分類適応処理が行われ、その結果得られる適応処理データが、後処理部33に出力される。後処理部33は、クラス分類適応処理部32からの適応処理データを、そのまま、高画質の画像データ(高画質画像データ)として出力する。
【0192】
従って、図13の実施の形態では、クラス分類適応処理部32においてクラス分類適応処理が行われることにより、前処理部31のMPEGデコーダ116が出力する、符号化データをMPEG方式で復号した復号画像データが、高画質画像データに変換されて出力される。
【0193】
即ち、クラス分類適応処理部32(図9)では、前処理部31のMPEGデコーダ116が出力する復号画像データが、タップ抽出部51と52に供給される。
【0194】
タップ抽出部51は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データ(の画素値)を予測するのに用いる復号画像データの幾つか(の画素)を、予測タップとして抽出する。タップ抽出部52も、注目データをクラス分類するのに用いる復号画像データの幾つかを、クラスタップとして抽出する。
【0195】
ここで、上述したように、タップ抽出部51および52には、判定部22からミスマッチ情報も供給されるようになっており、タップ抽出部51と52は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0196】
即ち、例えば、いま、上述したような、注目ブロックのDCTタイプとブロックタイプとのセットが、注目データについてのミスマッチ情報として、判定部22(のミスマッチ情報生成部115(図13))からクラス分類適応処理部32に供給されるものとすると、タップ抽出部51は、ミスマッチ情報としての、注目ブロックのDCTタイプとブロックタイプとのセットを受信し、MPEGデコーダ116から供給される復号画像データから、例えば、図17に示すようなタップ構造設定テーブルにしたがったタップ構造の予測タップを抽出する。
【0197】
即ち、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、いずれもフィールドDCTモードである場合、後述するフィールドタップのみからなるパターンAのタップ構造の予測タップを構成する。また、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、それぞれフィールドDCTモードとフレームDCTモードである場合、フィールドタップの数が、後述するフレームタップの数より多いパターンBのタップ構造の予測タップを構成する。さらに、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、それぞれフレームDCTモードとフィールドDCTモードである場合、フレームタップの数が、フィールドタップの数より多いパターンCのタップ構造の予測タップを構成する。また、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、いずれもフレームDCTモードである場合、フレームタップのみからなるパターンDのタップ構造の予測タップを構成する。
【0198】
ここで、図18は、パターンA乃至Dのタップ構造を示している。なお、図18において、○印が、復号画像データの画素を表している。また、斜線を付してある○印は、フィールドタップとなっている画素を表し、●印は、フレームタップとなっている画素を表している。
【0199】
図18Aは、パターンAのタップ構造を示している。パターンAのタップ構造は、例えば、注目データに対応する復号画像データの画素(以下、適宜、注目画素という)、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素の合計25画素で構成される。
【0200】
ここで、フィールドタップとは、例えば、その上下に隣接する2画素が、いずれもタップ(ここでは、予測タップまたはクラスタップ)となっていない画素を意味する。図18AのパターンAのタップ構造では、いずれのタップも、その上下に隣接する画素がタップになっていないので、すべてフィールドタップである。
【0201】
図18Bは、パターンBのタップ構造を示している。パターンBのタップ構造は、例えば、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の上に隣接する4画素、注目画素の下に隣接する4画素の合計25画素で構成される。
【0202】
ここで、フレームタップとは、その上または下に隣接する画素のうちの少なくとも一方がタップとなっている画素を意味する。図18BのパターンBのタップ構造では、注目画素と、注目画素の上下それぞれに隣接する4画素の合計9画素がフレームタップとなっており、残りの16画素がフィールドタップとなっている。
【0203】
図18Cは、パターンCのタップ構造を示している。パターンCのタップ構造は、例えば、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上下それぞれに隣接する4画素、注目画素の上に隣接する画素の左右それぞれに隣接する1画素、注目画素の下に隣接する画素の左右それぞれに隣接する1画素の合計25画素で構成される。
【0204】
パターンCのタップ構造では、注目画素、注目画素の上下それぞれに隣接する4画素、注目画素の左に隣接する画素、その画素の上下それぞれに隣接する2画素、注目画素の右に隣接する画素、その画素の上下それぞれに隣接する2画素の合計19画素がフレームタップとなっており、残りの6画素がフィールドタップになっている。
【0205】
図18Dは、パターンDのタップ構造を示している。パターンDのタップ構造は、例えば、注目画素を中心として隣接する、横×縦が5×5画素の合計25画素で構成される。
【0206】
パターンDのタップ構造では、いずれのタップも、その上または下の少なくとも一方の画素がタップとなっているので、すべてフレームタップである。
【0207】
タップ抽出部51(図9)は、ミスマッチ情報に基づき、注目データについて、図18に示したパターンA乃至Dのうちのいずれかのタップ構造の予測タップを構成する。
【0208】
タップ抽出部52も、タップ抽出部51と同様に、ミスマッチ情報に基づくタップ構造のクラスタップを構成する。
【0209】
なお、ここでは、ミスマッチ情報に基づいて、予測タップとして抽出する復号画像データの画素の位置を変更するだけで、予測タップを構成する画素数は、25画素のまま変更しないようにしたが、タップ抽出部51では、ミスマッチ情報に基づいて、予測タップを構成する復号画像データの画素の数を変更するようにすることも可能である。
【0210】
また、前処理部31のMPEGデコーダ116では、符号化データにおける量子化DCT係数が、その符号化データに含まれる動きベクトルや、DCTタイプ、量子化ステップ、ピクチャタイプ、その他の復号制御情報を用いて、画像に復号されるが、タップ抽出部51では、このような復号制御情報も、予測タップに含めることが可能である。さらに、この場合、ミスマッチ情報に基づいて、予測タップとする復号制御情報を変更することも可能である。さらに、タープ抽出部51では、符号化データに含まれる量子化DCT係数や、その量子化DCT係数を逆量子化して得られるDCT係数も、予測タップに含めるようにすることが可能である。
【0211】
タップ抽出部52でも、タップ抽出部51における場合と同様にして、クラスタップを構成することができる。
【0212】
タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0213】
クラス分類部53には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部53では、上述したように、クラスタップとミスマッチ情報に基づき、注目データがクラス分類される。
【0214】
即ち、クラス分類部53は、例えば、注目データについてのクラスタップに対して、例えば、ADRC(Adaptive Dynamic Range Coding)処理等の圧縮処理を施すことによりクラス分類を行い、クラスコードを求める。
【0215】
ここで、ADRC処理を用いたクラス分類では、クラスタップを構成するデータ(ここでは、画素値)が、ADRC処理され、例えば、その結果得られるADRCコードが、クラスコードとされる。
【0216】
なお、KビットADRCにおいては、例えば、クラスタップを構成するデータの最大値MAXと最小値MINが検出され、DR=MAX-MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成するデータがKビットに再量子化される。即ち、クラスタップを構成する各データから、最小値MINが減算され、その減算値がDR/2Kで除算(量子化)される。そして、以上のようにして得られる、クラスタップを構成するKビットの各データを、所定の順番で並べたビット列が、ADRCコードとして出力される。従って、クラスタップが、例えば、1ビットADRC処理された場合には、そのクラスタップを構成する各データは、最小値MINが減算された後に、最大値MAXと最小値MINとの平均値で除算され(小数点以下切り捨て)、これにより、各データが1ビットとされる(2値化される)。そして、その1ビットのデータを所定の順番で並べたビット列が、ADRCコードとして出力される。
【0217】
なお、クラス分類部53には、例えば、クラスタップを構成するデータのレベル分布のパターンを、そのままクラスコードとして出力させることも可能である。しかしながら、この場合、クラスタップが、N個のデータで構成され、各データに、Kビットが割り当てられているとすると、クラス分類部24が出力するクラスコードの場合の数は、(2NK通りとなり、データのビット数Kに指数的に比例した膨大な数となる。
【0218】
従って、クラス分類部53においては、クラスタップの情報量を、上述のADRC処理や、あるいはベクトル量子化等によって圧縮することにより、クラス分類を行うのが好ましい。
【0219】
ここで、クラスタップを用いてクラス分類を行うことにより得られるクラスコードを、以下、適宜、クラスタップコードという。
【0220】
クラス分類部53は、上述のようにしてクラスタップコードを求める他、注目データについてのミスマッチ情報としての、例えば、DCTタイプとブロックタイプのセットを用いてクラス分類を行うことにより、2ビットのクラスコードを求める。
【0221】
即ち、いま、ミスマッチ情報を用いたクラス分類によって得られるクラスコードを、ミスマッチコードというものとすると、クラス分類部53は、ミスマッチ情報としてのDCTタイプとブロックタイプが、いずれもフィールドDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「00」とする。また、クラス分類部53は、DCTタイプとブロックタイプが、それぞれフィールドDCTモードとフレームDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「01」とする。さらに、クラス分類部53は、DCTタイプとブロックタイプが、それぞれフレームDCTモードとフィールドDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「10」とする。また、クラス分類部53は、DCTタイプとブロックタイプが、いずれもフレームDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「11」とする。
【0222】
その後、クラス分類部53は、例えば、注目データについて得られたクラスタップコードの上位ビットとして、注目データについて得られたミスマッチコードを付加し、このクラスタップコードとミスマッチコードとで構成されるコードを、注目データについての最終的なクラスコードとして出力する。
【0223】
なお、クラス分類部53では、その他、例えば、DCTタイプ以外の復号制御情報にも基づいて、クラス分類を行うようにすることが可能である。
【0224】
クラス分類部53が出力するクラスコードは、係数メモリ41に供給される。係数メモリ41では、そのクラスコードに対応するタップ係数が読み出され、予測部54に供給される。
【0225】
予測部54は、タップ抽出部51が出力する予測タップと、係数メモリ41から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部33に供給する。
【0226】
後処理部33では、上述したように、クラス分類適応処理部32(の予測部54)の出力、即ち、高画質画像データが、そのまま出力される。
【0227】
なお、上述の場合には、注目ブロックのDCTタイプが正しいか、正しくないかを表す1ビットの情報や、注目ブロックのDCTタイプとブロックタイプのセットを、ミスマッチ情報とするようにしたが、ミスマッチ情報としては、その他、例えば、注目ブロックのDCTタイプが、どの程度正しいかを表す評価値などを採用することが可能である。
【0228】
注目ブロックのDCTタイプの正しいの程度を表す評価値としては、例えば、注目ブロックのDCTタイプがフィールドDCTモードである場合には、注目ブロック(注目マクロブロック)の動きベクトルの大きさを採用し、注目ブロックのDCTタイプがフレームDCTモードである場合には、動きベクトルの最大の大きさから、注目ブロックの動きベクトルの大きさを減算して得られる減算値を採用することが可能である。この場合、注目ブロックのDCTタイプがフィールドDCTモードであるときには、注目ブロックの動きベクトルの大きさが大きいほど、また、注目ブロックのDCTタイプがフレームDCTモードであるときには、注目ブロックの動きベクトルの大きさが小さいほど、評価値が大きくなる。
【0229】
そして、この場合、タップ抽出部51や52では、例えば、ミスマッチ情報としての評価値を、1つ以上の閾値と比較し、その比較結果に基づいて、予測タップやクラスタップのタップ構造を変更するようにすることが可能である。また、クラス分類部53では、例えば、ミスマッチ情報としての評価値を量子化し、その量子化値を、ミスマッチコードとして用いることが可能である。
【0230】
さらに、上述の場合には、注目ブロックが動きブロックか、または静止ブロックであるかを、注目ブロックの動きベクトル、あるいは対応前ブロックまたは対応後ブロックの動きベクトルや、静止ブロックもしくは動きブロックの別に基づいて判定するようにしたが、注目ブロックが動きブロックまたは静止ブロックのうちのいずれであるかの判定は、その他、例えば、注目ブロックや、対応前ブロックまたは対応後ブロックの周辺のブロックの動きベクトル等にも基づいて判定するようにすることが可能である。
【0231】
次に、図19は、図13の係数メモリ41に記憶させるタップ係数を学習する場合の、図11の学習装置の詳細構成例を示している。
【0232】
図19の実施の形態では、学習用データ記憶部11に、学習用データとして、高画質の画像データ(学習用画像データ)が記憶されている。
【0233】
図19の実施の形態において、符号化部12は、MPEGエンコーダ131で構成されており、MPEGエンコーダ131は、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果得られる符号化データを出力する。
【0234】
即ち、図20は、図19のMPEGエンコーダ131の構成例を示している。
【0235】
学習用画像データは、動きベクトル検出部141と演算部143に供給される。動きベクトル検出部141は、学習用画像データを対象に、例えば、ブロックマッチングを行うことにより、学習用画像データの動きベクトルを検出し、動き補償部142に供給する。
【0236】
また、演算部143は、必要に応じて、学習用画像データ(原画像)から、動き補償部142から供給される予測画像を減算し、その結果得られる残差画像を、DCT変換部144に供給する。DCT変換部144は、演算部143からの残差画像をDCT変換し、その結果得られるDCT係数を、量子化部145に供給する。量子化部145は、DCT変換部144から供給されるDCT係数を、所定の量子化ステップで量子化することにより、量子化DCT係数を得て、VLC部146および逆量子化部147に供給する。
【0237】
VLC部146は、量子化部145から供給される量子化DCT係数をVLCコードに可変長符号化し、さらに、必要な復号制御情報(例えば、動きベクトル検出部141で検出された動きベクトルや、量子化部145で用いられた量子化ステップなど)を多重化することで、符号化データを得て出力する。
【0238】
一方、逆量子化部147では、量子化部145が出力する量子化DCT係数が逆量子化され、DCT係数が求められて、逆DCT変換部148に供給される。逆DCT変換部148は、逆量子化部147からのDCT係数を、逆DCT変換することにより、残差画像に復号し、演算部149に供給する。
【0239】
演算部149には、逆DCT変換部148から、残差画像が供給される他、動き補償部142から、その残差画像を求めるのに演算部143で用いられたのと同一の予測画像が供給されるようになっており、演算部149は、残差画像と予測画像とを加算することで、元の画像を復号(ローカルデコード)する。この復号画像は、メモリ150に供給され、参照画像として記憶される。
【0240】
そして、動き補償部142では、メモリ150に記憶された参照画像が読み出され、動きベクトル検出部141から供給される動きベクトルにしたがって動き補償が施されることにより、予測画像が生成される。この予測画像は、動き補償部142から演算部143および149に供給される。
【0241】
上述したように、演算部143では、動き補償部142からの予測画像を用いて、残差画像が求められ、また、演算部149では、動き補償部142からの予測画像を用いて、元の画像が復号される。
【0242】
図19に戻り、MPEGデコーダ131が出力する符号化データは、復号制御情報抽出部71に供給される。
【0243】
復号制御情報抽出部71は、逆VLC部132で構成されている。逆VLC部132は、図13の逆VLC部111と同様の処理を行い、これにより、符号化データから、複数の復号制御情報としてのDCTタイプ、ピクチャタイプ、マクロブロックタイプ、動きベクトルを抽出し、判定部72に供給する。
【0244】
判定部72は、フィールド/フレーム判定部133、イントラ/ノンイントラ判定部134、静動判定部135、およびミスマッチ情報生成部136で構成されている。そして、フィールド/フレーム判定部133、イントラ/ノンイントラ判定部134、静動判定部135、またはミスマッチ情報生成部136では、復号制御情報抽出部71から供給される複数の復号制御情報としてのDCTタイプ、ピクチャタイプ、マクロブロックタイプ、および動きベクトルを用いて、図13のフィールド/フレーム判定部112、イントラ/ノンイントラ判定部113、静動判定部114、またはミスマッチ情報生成部115における場合とそれぞれ同様の処理が行われ、これにより、適応学習部60において注目教師データとされている教師データについてのミスマッチ情報が生成される。このミスマッチ情報は、ミスマッチ情報生成部136から適応学習部60に供給される。
【0245】
図19の実施の形態では、逆後処理部61Aは、学習用データ記憶部11から学習用画像データを読み出し、そのまま、教師データとして、適応学習部60に出力する。適応学習部60(図11)では、教師データ記憶部62において、逆後処理部61Aからの教師データが記憶される。
【0246】
符号化部63Aは、MPEGエンコーダ137で構成され、MPEGエンコーダ137は、MPEGエンコーダ131と同様に、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果得られる符号化データを、前処理部63Bに出力する。
【0247】
前処理部63Bは、図14のMPEGデコーダ116と同様に構成されるMPEGデコーダ138で構成され、MPEGデコーダ138は、MPEGエンコーダ137からの符号化データを、MPEG2方式で復号し、その結果得られる復号画像データを、生徒データとして、適応学習部60に出力する。適応学習部60(図11)では、生徒データ記憶部64において、MPEGデコーダ138からの生徒データが記憶される。
【0248】
そして、適応学習部60では、教師データおよび生徒データを用い、生徒データから抽出される予測タップから、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われる。
【0249】
即ち、適応学習部60(図11)では、タップ抽出部65が、教師データ記憶部62に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとし、注目教師データについて、生徒データ記憶部64に記憶された生徒データから予測タップを構成して、足し込み部68に供給する。さらに、タップ抽出部66が、注目教師データについて、生徒データ記憶部64に記憶された生徒データからクラスタップを構成し、クラス分類部67に供給する。
【0250】
ここで、タップ抽出部65および66には、ミスマッチ情報が供給されるようになっており、タップ抽出部65または66それぞれは、ミスマッチ情報に基づき、注目教師データについて、図13で説明したクラス分類適応処理部32のタップ抽出部51または52(図9)が構成するのと同一のタップ構造の予測タップまたはクラスタップを構成する。
【0251】
従って、例えば、タップ抽出部51または52において、図13で説明したように、符号化データに含まれる復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される場合には、図19の学習装置でも、タップ抽出部65または66(図11)において、復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される。
【0252】
その後、クラス分類部67(図11)では、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図13で説明したクラス分類部53における場合と同様のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部68に出力する。
【0253】
足し込み部68は、教師データ記憶部62から注目教師データを読み出し、その注目教師データと、タップ抽出部65からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部68は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部67からのクラスコードに対応するものに対して、注目教師データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込む。
【0254】
以上の処理が、教師データ記憶部62に記憶された教師データすべてを、注目教師データとして行われると、足し込み部68は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部69に供給し、タップ係数算出部69は、その各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力する。
【0255】
なお、図19の学習装置では、例えば、符号化部63AのMPEGエンコーダ137において学習用画像データをMPEG符号化する前に、その学習用画像データの画素数を,1/Nに間引くようにすることで、適応学習部60において、MPEG復号された画像データを、高画質で、かつ画素数をN倍にする(解像度を高くする)タップ係数を得ることができる。
【0256】
次に、図21は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図6の復号装置の第2の詳細構成例を示している。なお、図中、図13における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0257】
図21の実施の形態では、前処理部31が、逆VLC部161、逆量子化部162、演算部163、MPEGデコーダ164、メモリ165、動き補償部166、およびDCT変換部167で構成されている。
【0258】
前処理部31において、符号化データは、逆VLC部161とMPEGデコーダ164に供給される。
【0259】
逆VLC部161は、符号化データから、量子化DCT係数のVLCコードを分離するとともに、量子化ステップ、動きベクトル、その他の復号制御情報を分離する。そして、逆VLC部161は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部162に供給する。さらに、逆VLC部161は、量子化ステップを、逆量子化部162に、動きベクトルを、動き補償部166に、それぞれ供給する。
【0260】
逆量子化部162は、逆VLC部161から供給される量子化DCT係数を、同じく逆VLC部161から供給される量子化ステップで逆量子化し、その結果得られる8×8画素のブロックのDCT係数を、演算部163に供給する。
【0261】
一方、MPEGデコーダ164では、符号化データが、MPEG方式で復号され、復号画像データが出力される。MPEGデコーダ164が出力する復号画像のうち、参照画像とされ得るIピクチャとPピクチャは、メモリ165に供給されて記憶される。
【0262】
そして、動き補償部166は、メモリ165に記憶された復号画像を参照画像として読み出し、その参照画像に対して、逆VLC部161から供給される動きベクトルにしたがい、動き補償を施すことで、逆量子化部162から演算部163に供給されたブロックの予測画像を生成し、DCT変換部167に供給する。DCT変換部167は、動き補償部166から供給される予測画像をDCT変換し、その結果得られるDCT係数を、演算部163に供給する。
【0263】
演算部163は、逆量子化部162から供給されるブロックの各DCT係数と、DCT変換部167から供給される、対応するDCT係数とを、必要に応じて加算することで、そのブロックの画素値をDCT変換したDCT係数を求める。
【0264】
即ち、逆量子化部162から供給されるブロックがイントラ符号化されているものである場合、逆量子化部162から供給されるブロックのDCT係数は、元の画素値をDCT変換したものとなっているから、演算部163は、逆量子化部162から供給されるブロックのDCT係数を、そのまま出力する。
【0265】
また、逆量子化部162から供給されるブロックがノンイントラ符号化されているものである場合、逆量子化部162から供給されるブロックのDCT係数は、元の画素値と予測画像との差分値(残差画像)をDCT変換したものとなっているから、演算部163は、逆量子化部162から供給されるブロックの各DCT係数と、DCT変換部167から供給される、予測画像をDCT変換して得られるDCT係数の対応するものとを加算することにより、元の画素値をDCT変換して得られるDCT係数を求めて出力する。
【0266】
演算部163が出力するブロックのDCT係数は、前処理データとして、クラス分類適応処理部32に供給される。
【0267】
図21の実施の形態では、クラス分類適応処理部32において、前処理部31が出力するDCT係数を対象に、クラス分類適応処理が行われ、これにより、高画質画像データ(の予測値)が、適応処理データとして求められる。
【0268】
即ち、クラス分類適応処理部32(図9)では、前処理部31が出力するDCT係数が、タップ抽出部51と52に供給される。
【0269】
タップ抽出部51は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データを予測するのに用いる前処理データとしてのDCT係数の幾つかを、予測タップとして抽出する。タップ抽出部52も、注目データをクラス分類するのに用いる前処理データとしてのDCT係数の幾つかを、クラスタップとして抽出する。
【0270】
なお、タップ抽出部51または52は、注目データについてのミスマッチ情報に基づいて、予測タップまたはクラスタップのタップ構造を、それぞれ変更する。
【0271】
即ち、タップ抽出部51は、例えば、注目データのブロック(注目ブロック)のDCT係数すべての他、注目ブロックの上下左右それぞれに隣接するブロックにおける必要なDCT係数を、ミスマッチ情報に応じて抽出して、予測タップを構成する。タップ抽出部51も、タップ抽出部51と同様にして、クラスタップを構成する。
【0272】
そして、タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0273】
クラス分類部53では、クラスタップと、注目データについてのミスマッチ情報に基づき、図13で説明した場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ41に供給される。係数メモリ41では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部54に供給される。
【0274】
予測部54は、係数メモリ41から供給されるタップ係数を取得し、そのタップ係数と、タップ抽出部51が出力する予測タップとを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部33に供給する。
【0275】
後処理部33では、クラス分類適応処理部32からの高画質画像データが、そのまま出力される。
【0276】
従って、図21の実施の形態では、クラス分類適応処理部32において、DCT係数が高画質画像データに変換される。
【0277】
次に、図22は、図21の復号装置の係数メモリ41に記憶させるタップ係数を学習する場合の、図11の学習装置の詳細構成例を示している。なお、図中、図19における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0278】
図22の実施の形態では、前処理部63Bが、逆VLC部171、逆量子化部172、演算部173、MPEGデコーダ174、メモリ175、動き補償部176、およびDCT変換部177で構成されており、これらの逆VLC部171乃至DCT変換部177は、図21の逆VLC部161乃至DCT変換部167とそれぞれ同様に構成されている。
【0279】
従って、前処理部63Bでは、符号化部63AのMPEGエンコーダ137が出力する符号化データに対して、図21の前処理部31における場合と同様の処理が施され、これにより得られるDCT係数が、生徒データとして、適応学習部60に供給される。
【0280】
適応学習部60(図11)では、生徒データ記憶部64において、前処理部63Bから供給されるDCT係数が、生徒データとして記憶され、図19で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップから、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしてのDCT係数を、高画質画像データに変換するクラスごとのタップ係数が求められる。
【0281】
但し、図22の実施の形態において、適応学習部60(図11)では、そのタップ抽出部65または66それぞれにおいて、図21のクラス分類適応処理部32(図9)におけるタップ抽出部51または52が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図22の適応学習部60(図11)におけるクラス分類部67でも、図21のクラス分類適応処理部32(図9)におけるクラス分類部53と同様のクラス分類が行われる。
【0282】
次に、図23は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図6の復号装置の第3の詳細構成例を示している。なお、図中、図21における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0283】
図23の復号装置は、後処理部33が、逆DCT変換部181で構成されていることを除いて、図21における場合と同様に構成されている。
【0284】
図23の実施の形態では、クラス分類適応処理部32において、前処理部31が出力するDCT係数を対象に、クラス分類適応処理が行われ、これにより、逆DCT変換を行った場合に、高画質画像データを得ることのできるDCT係数(以下、適宜、高画質DCT係数という)(の予測値)が、適応処理データとして求められる。
【0285】
即ち、クラス分類適応処理部32(図9)では、前処理部31が出力する前処理データとしてのDCT係数が、タップ抽出部51と52に供給される。
【0286】
タップ抽出部51は、まだ、注目データとしていない高画質DCT係数を注目データとして、その注目データを予測するのに用いる前処理データとしてのDCT係数の幾つかを、予測タップとして抽出する。即ち、タップ抽出部51は、ミスマッチ情報に基づき、注目データについて、例えば、図21における場合と同様のタップ構造の予測タップを構成する。タップ抽出部52も、ミスマッチ情報に基づき、注目データについて、例えば、図21における場合と同様のタップ構造のクラスタップを構成する。
【0287】
そして、タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0288】
クラス分類部53では、クラスタップと、注目データについてのミスマッチ情報に基づき、図21における場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ41に供給される。係数メモリ41では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部54に供給される。
【0289】
予測部54は、係数メモリ41が出力するタップ係数を取得し、そのタップ係数と、タップ抽出部51が出力する予測タップとを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データ(の予測値)、即ち、高画質DCT係数を求め、後処理部33に供給する。
【0290】
後処理部33では、逆DCT変換部181において、クラス分類適応処理部32が出力する高画質DCT係数が、ブロック単位で逆DCT変換され、これにより、高画質画像データが求められて出力される。
【0291】
次に、図24は、図23の復号装置の係数メモリ41に記憶させるタップ係数を学習する場合の、図11の学習装置の詳細構成例を示している。なお、図中、図22における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0292】
図24の学習装置は、逆後処理部61Aが、DCT変換部191で構成されていることを除いて、図22における場合と同様に構成されている。
【0293】
従って、逆後処理部61Aでは、DCT変換部191において、学習用データ記憶部11から読み出された学習用画像データとしての高画質画像データが、ブロック単位でDCT変換され、その結果得られるDCT係数である高画質DCT係数が、教師データとして、適応学習部60に供給される。
【0294】
適応学習部60(図11)では、教師データ記憶部62において、逆後処理部61Aから供給される高画質DCT係数が、教師データとして記憶され、その教師データと、生徒データ記憶部64に記憶された生徒データとしてのDCT係数(このDCT係数は、画像データをMPEG符号化した符号化データから得たもの)とを用い、生徒データから抽出される予測タップから、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしてのDCT係数を、高画質DCT係数に変換するクラスごとのタップ係数が求められる。
【0295】
即ち、いまの場合、生徒データされているDCT係数は、前処理部63Bにおいて、符号化データから求められたものであり、量子化誤差を含んでいるため、そのDCT係数を逆DCT変換して得られる画像は、いわゆるブロック歪み等を有する低画質のものとなる。
【0296】
そこで、適応学習部60では、上述のように、式(1)の線形予測演算を行うことにより得られる教師データ(学習用画像データをDCT変換して得られる高画質DCT係数)の予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われることにより、生徒データされているDCT係数を、高画質DCT係数に変換するクラスごとのタップ係数が求められる。
【0297】
なお、図24の実施の形態において、適応学習部60(図11)では、そのタップ抽出部65または66それぞれにおいて、図23のクラス分類適応処理部32(図9)におけるタップ抽出部51または52が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図24の適応学習部60(図11)におけるクラス分類部67でも、図23のクラス分類適応処理部32(図9)におけるクラス分類部53と同様のクラス分類が行われる。
【0298】
以上のように、符号化データに含まれる復号制御情報の正しさを判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号、およびその復号に用いるタップ係数の学習を行うようにしたので、学習においては、復号制御情報の正しさを考慮して、原画像に近い予測値を求めるためのタップ係数を求めることができ、その結果、そのようなタップ係数を用いて、符号化データの復号を行うことで、高画質の画像を得ることが可能となる。
【0299】
即ち、本実施の形態では、DCTタイプの正しさを判定し、その判定結果を考慮して、タップ係数の学習を行うようにしたので、MPEG2方式で復号すれば、自然な動きになる部分については、その部分を、原画像に近い予測値に復号するためのタップ係数を得ることができる他、MPEG2方式で復号すれば、不自然な動きになる部分についても、その部分を、原画像に近い予測値に復号するためのタップ係数を得ることができる。そして、そのようなタップ係数を用い、やはり、DCTタイプの正しさを考慮して、符号化データの復号を行うことにより、高画質の画像を得ることができる。
【0300】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0301】
そこで、図25は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0302】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
【0303】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体411に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。
【0304】
なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部408で受信し、内蔵するハードディスク405にインストールすることができる。
【0305】
コンピュータは、CPU(Central Processing Unit)402を内蔵している。CPU402には、バス401を介して、入出力インタフェース410が接続されており、CPU402は、入出力インタフェース410を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部407が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、また、CPU402は、ハードディスク405に格納されているプログラム、衛星若しくはネットワークから転送され、通信部408で受信されてハードディスク405にインストールされたプログラム、またはドライブ409に装着されたリムーバブル記録媒体411から読み出されてハードディスク405にインストールされたプログラムを、RAM(Random Access Memory)404にロードして実行する。これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
【0306】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0307】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0308】
なお、本実施の形態では、画像データをMPEG2方式で符号化した場合について説明したが、本発明は、MPEG2方式に限定されるものではなく、その他の非可逆圧縮方式で符号化された画像を復号する場合に適用可能である。
【0309】
また、本実施の形態では、符号化データに含まれる複数の復号制御情報のうちの1つであるDCTタイプの正しさ(適切さ)を、その複数の復号制御情報のうちの他の1つである動きベクトルに基づいて判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号およびタップ係数の学習を行うようにしたが、その他、符号化データに含まれる複数の復号制御情報のうちのDCTタイプ以外の正しさ(適切さ)を、その複数の復号制御情報のうちの他の1以上に基づいて判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号およびタップ係数の学習を行うようにすることが可能である。
【0310】
【発明の効果】
本発明の復号装置および復号方法、並びに第1のプログラムおよび第1の記録媒体によれば、符号化データに含まれるDCTタイプの正しさが、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報を出力される。そして、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。従って、符号化データを、高画質の画像データに復号することが可能となる。
【0311】
本発明の学習装置および学習方法、並びに第2のプログラムおよび第2の記録媒体によれば、学習用の画像データから、タップ係数の学習の教師となる教師データが生成されるとともに、生徒となる生徒データが生成される。また、学習用の画像データが符号化され、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれるDCTタイプの正しさが、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報が出力される。さらに、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数が求められ、タップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。従って、そのタップ係数により、符号化データを、高画質の画像データに復号することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した復号装置の一実施の形態の構成例を示すブロック図である。
【図2】復号装置の処理を説明するフローチャートである。
【図3】本発明を適用した復号装置の他の一実施の形態の構成例を示すブロック図である。
【図4】本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。
【図5】学習装置の処理を説明するフローチャートである。
【図6】本発明を適用した復号装置のより詳細な構成例を示すブロック図である。
【図7】フレームDCTモードとフィールドDCTモードを説明する図である。
【図8】動き物体が表示されたマクロブロックを、フレームDCTモードとフィールドDCTモードで符号化した場合の復号画像を模式的に示す図である。
【図9】クラス分類適応処理部32の構成例を示すブロック図である。
【図10】復号装置の処理を説明するフローチャートである。
【図11】本発明を適用した学習装置のより詳細な構成例を示すブロック図である。
【図12】学習装置の処理を説明するフローチャートである。
【図13】MPEG方式で符号化された符号化データを復号する復号装置の第1の構成例を示すブロック図である。
【図14】MPEGデコーダ116の構成例を示すブロック図である。
【図15】ミスマッチ情報生成部115の処理を説明するフローチャートである。
【図16】動き物体が表示されたマクロブロックを、フレームDCTモードとフィールドDCTモードで符号化した場合の復号画像を模式的に示す図である。
【図17】タップ構造設定テーブルを示す図である。
【図18】パターンA乃至Dのタップ構造を示す図である。
【図19】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第1の構成例を示すブロック図である。
【図20】MPEGエンコーダ131の構成例を示すブロック図である。
【図21】MPEG方式で符号化された符号化データを復号する復号装置の第2の構成例を示すブロック図である。
【図22】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第2の構成例を示すブロック図である。
【図23】MPEG方式で符号化された符号化データを復号する復号装置の第3の構成例を示すブロック図である。
【図24】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第3の構成例を示すブロック図である。
【図25】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 ミスマッチ検出部, 2 復号処理部, 3 パラメータ記憶部, 11学習用データ記憶部, 12 符号化部, 13 ミスマッチ検出部, 14学習処理部, 21 復号制御情報抽出部, 22 判定部, 31 前処理部, 32 クラス分類適応処理部, 33 後処理部, 41 係数メモリ,51,52 タップ抽出部, 53 クラス分類部, 54 予測部, 60適応学習部, 61 教師データ生成部, 61A 逆後処理部, 62 教師データ記憶部, 63 生徒データ生成部, 63A 符号化部, 63B 前処理部, 64 生徒データ記憶部, 65,66 タップ抽出部, 67 クラス分類部, 68 足し込み部, 69 タップ係数算出部, 71 復号制御情報抽出部, 72 判定部, 111 逆VLC部, 112 フィールド/フレーム判定部, 113 イントラ/ノンイントラ判定部, 114 静動判定部, 115 ミスマッチ情報生成部, 116 MPEGデコーダ, 121 逆VLC部, 122 逆量子化部, 123 逆DCT変換部, 124 演算部, 125 動き補償部, 126 メモリ, 127 ピクチャ選択部, 131 MPEGエンコーダ, 132 逆VLC部, 133 フィールド/フレーム判定部, 134 イントラ/ノンイントラ判定部, 135 静動判定部, 136 ミスマッチ情報生成部, 137 MPEGエンコーダ, 138 MPEGデコーダ, 141 動きベクトル検出部, 142動き補償部, 143 演算部, 144 DCT変換部, 145 量子化部, 146 VLC部, 147 逆量子化部, 148 逆DCT変換部,149 演算部, 150 メモリ, 161 逆VLC部, 162 逆量子化部, 163 演算部, 164 MPEGデコーダ, 165 メモリ,166 動き補償部, 167 DCT変換部, 171 逆VLC部, 172 逆量子化部, 173 演算部, 174 MPEGデコーダ, 175メモリ, 176 動き補償部, 177 DCT変換部, 181 逆DCT変換部, 191 DCT変換部, 401 バス, 402 CPU, 403 ROM, 404 RAM, 405 ハードディスク, 406 出力部, 407 入力部, 408 通信部, 409 ドライブ, 410 入出力インタフェース, 411 リムーバブル記録媒体[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a decoding device and a decoding method, a learning device and a learning method, and a program and a recording medium, and in particular, for example, decoding encoded data obtained by encoding image data into a high-quality (high-quality) image. The present invention relates to a decoding device and a decoding method, a learning device and a learning method, a program, and a recording medium.
[0002]
[Prior art]
For example, MPEG (Moving Picture Experts Group) method is known as a high-efficiency encoding method for image (moving image) data. In MPEG method, image data is a block unit of 8 × 8 pixels in horizontal × vertical. Thus, DCT (Discrete Cosine Transform) transformation is performed in two directions, horizontal and vertical, and further quantized.
[0003]
As described above, in the MPEG system, the image data is DCT converted. For example, in the MPEG2 system, the DCT type of the block to be DCT converted is switched between the frame DCT mode and the field DCT mode in units of macroblocks. Can do. In the frame DCT mode, a block is composed of pixels of the same frame, and pixel values of such a block are DCT transformed. In the field DCT mode, a block is composed of pixels in the same field, and pixel values of such a block are DCT converted.
[0004]
Whether the DCT type is the frame DCT mode or the field DCT mode is basically determined based on the characteristics of the image such as the motion of the image and continuity with the surrounding macroblocks. Is determined so as to reduce block distortion mosquito noise and the like. That is, for example, the field DCT mode is selected for an image with a large motion, and the frame DCT mode is selected for an image with little motion (a still image).
[0005]
[Problems to be solved by the invention]
By the way, in the MPEG2 system, the data rate of encoded data is limited so that overflow and underflow do not occur on the decoder side. In order to limit the data rate of the encoded data, the DCT type that should originally be set to the frame DCT mode or the field DCT mode may be inappropriately set to the field DCT mode or the frame DCT mode. is there.
[0006]
That is, as a DCT type, there is generally a correlation between pixels constituting a field (for example, the reciprocal of the sum of squares of differences between adjacent pixels constituting a field) (hereinafter referred to as field pixel correlation as appropriate). If the correlation between the pixels constituting the frame (for example, the reciprocal of the sum of squares of differences between adjacent pixels constituting the frame) (hereinafter referred to as frame pixel correlation as appropriate) is greater than the field DCT mode, If set and the frame pixel correlation is greater than the field pixel correlation, the frame DCT mode is set.
[0007]
However, if the encoded data is subject to data rate limitations, the DCT type is set based on the limited data rate regardless of the magnitude of the field pixel correlation and frame pixel correlation, and thus, for example, An improper DCT type may be set such that the frame DCT mode is set instead of the field DCT mode for an image with large motion.
[0008]
Even when such an inappropriate DCT type is set, the decoder side must decode the encoded data in accordance with the inappropriate DCT type, and the image quality of the decoded image deteriorates. was there.
[0009]
Also, when a moving image is MPEG2 encoded at a high compression rate, the same macroblock in one frame and the corresponding macroblock in the next frame are caused by the data rate limitation. Although a moving object is displayed, a different DCT type may be set, and as a result, a decoded image with unnatural motion may be obtained.
[0010]
On the other hand, on the decoding side, it is difficult to determine which one of the frame DCT mode and the field DCT mode is appropriate from the decoded image.
[0011]
The present invention has been made in view of such a situation, and enables encoded data to be decoded into a high-quality (high-quality) image.
[0012]
[Means for Solving the Problems]
The decoding device of the present invention determines the correctness of the DCT type included in the encoded data based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, Among the high-quality data of the high-quality image than the low-quality image obtained by decoding the encoded data and the determination means for outputting the mismatch information representing the determination result, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Prediction tap extracting means for extracting some of the low quality data as prediction taps, student data to be learning students corresponding to the low quality data, teacher data to be learning teachers corresponding to the high quality data, and The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding means having a prediction calculation means for obtaining the attention data. The prediction tap extraction means is based on the mismatch information, and when the mismatch information indicates that the DCT type is correct, the DCT type is When in the field DCT mode, a prediction tap is extracted from the low quality data in the field of interest data, and the mismatch information is D In the case where the T type represents correctness, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information indicates that the DCT type is incorrect. The prediction tap is extracted from the low quality data of both the field and the frame of the target data.
[0013]
In the decoding method of the present invention, the correctness of the DCT type included in the encoded data is determined based on the motion vector of the image data included in the encoded data based on the presence / absence of motion of the image data in block units. Of the high-quality data of the high-quality image than the low-quality image obtained by decoding the encoded data and the determination step that outputs mismatch information representing the determination result, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel A prediction tap extraction step for extracting some of the low quality data as prediction taps, student data for learning students corresponding to the low quality data, and teacher data for learning teacher corresponding to the high quality data; The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding step including a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type When is in the field DCT mode, the prediction tap is extracted from the low quality data in the field of the target data. When the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. In the case where it indicates that there is no data, a prediction tap is extracted from the low quality data of both the field and the frame of the data of interest.
[0014]
The first program of the present invention determines the correctness of the DCT type included in the encoded data based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data. A determination step of outputting mismatch information representing the determination result, and high-quality data of a higher-quality image than a low-quality image obtained by decoding the encoded data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel A prediction tap extraction step for extracting some of the low quality data as prediction taps, student data for learning students corresponding to the low quality data, and teacher data for learning teacher corresponding to the high quality data; The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding step including a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type When is in the field DCT mode, the prediction tap is extracted from the low quality data in the field of the target data. When the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. In the case where it indicates that there is no data, a prediction tap is extracted from the low quality data of both the field and the frame of the data of interest.
[0015]
According to the first recording medium of the present invention, the correctness of the DCT type included in the encoded data is determined based on the presence or absence of the motion of the image data in block units based on the motion vector of the image data included in the encoded data. A determination step of outputting mismatch information representing the determination result, and high quality data of a higher quality image than a low quality image obtained by decoding the encoded data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel A prediction tap extraction step for extracting some of the low quality data as prediction taps, student data for learning students corresponding to the low quality data, and teacher data for learning teacher corresponding to the high quality data; The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding step including a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type When is in the field DCT mode, the prediction tap is extracted from the low quality data in the field of the target data. When the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. In the case of the absence of data, a program for extracting prediction taps from low quality data of both the field and frame of the data of interest is recorded.
[0016]
The learning device of the present invention includes teacher data generation means for generating and outputting teacher data to be a teacher for learning tap coefficients from image data for learning, and a student for learning tap coefficients from image data for learning. Student data generating means for generating and outputting student data, encoding means for encoding learning image data, and outputting learning encoded data including a DCT type and a motion vector of the image data, and learning data The correctness of the DCT type included in the encoded data is determined on the basis of the motion vector of the image data included in the encoded data for learning based on the presence or absence of motion of the image data in block units, and the determination result is Among the high-quality data of the high-quality image than the low-quality image obtained by decoding the encoded data and the determination means that outputs the mismatch information that represents, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel The product sum of student data and tap coefficients using prediction tap extraction means for extracting some of the low quality data as prediction taps, student data corresponding to the low quality data, and teacher data corresponding to the high quality data By performing a product-sum operation with a learning means having a tap coefficient calculation means for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, and the tap coefficient and the prediction tap, And a predicting tap extracting means based on the mismatch information, when the mismatch information indicates that the DCT type is correct, the DCT type is the field DCT mode. When the prediction tap is extracted from the low quality data in the field of attention data, the mismatch information is When the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information indicates that the DCT type is not correct. In this case, the prediction tap is extracted from the low quality data of both the field and the frame of the attention data.
[0017]
The learning method of the present invention includes a teacher data generation step for generating and outputting teacher data to be a teacher for learning tap coefficients from image data for learning, and a student for learning tap coefficients from image data for learning. A student data generation step for generating and outputting student data, an encoding step for encoding image data for learning, and outputting encoded data for learning including a DCT type and a motion vector of the image data, and for learning The correctness of the DCT type included in the encoded data is determined on the basis of the motion vector of the image data included in the encoded data for learning based on the presence or absence of motion of the image data in block units, and the determination result is A decision step that outputs mismatch information to represent, and high quality data of a higher quality image than a lower quality image obtained by decoding the encoded data Of out, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Using a prediction tap extraction step for extracting some of the low quality data as prediction taps, student data corresponding to the low quality data, and teacher data corresponding to the high quality data, the product sum of the student data and the tap coefficient By performing a product-sum operation of the tap coefficient and the prediction tap, a learning step having a tap coefficient calculation step for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, And a decoding step having a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type is the field DCT mode. At one time, the prediction tap is extracted from the low quality data of the field of attention data In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is the DCT type In the case where it is not correct, a prediction tap is extracted from the low quality data of both the field and the frame of the target data.
[0018]
A second program of the present invention includes a teacher data generation step for generating and outputting teacher data to be a teacher for learning tap coefficients from image data for learning, and learning of tap coefficients from the image data for learning. A student data generation step for generating and outputting student data to be a student; an encoding step for encoding learning image data and outputting encoded data for learning including a DCT type and a motion vector of the image data; The correctness of the DCT type included in the learning encoded data is determined based on the motion vector of the image data included in the learning encoded data based on the presence or absence of motion of the image data in units of blocks, and the determination Judgment step that outputs mismatch information indicating the result, and high quality image with higher quality than low quality image obtained by decoding encoded data Of the data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Using the prediction tap extraction step for extracting some of the low quality data as prediction taps, the student data corresponding to the low quality data, and the teacher data corresponding to the high quality data, the product sum of the student data and the tap coefficient By performing a product-sum operation of the tap coefficient and the prediction tap, a learning step having a tap coefficient calculation step for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, And a decoding step having a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type is the field DCT mode. At one time, the prediction tap is extracted from the low quality data of the field of attention data In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is the DCT type In the case where it is not correct, a prediction tap is extracted from the low quality data of both the field and the frame of the target data.
[0019]
The second recording medium of the present invention includes a teacher data generation step for generating and outputting teacher data serving as a teacher for learning tap coefficients from image data for learning, and learning of tap coefficients from the image data for learning. A student data generation step for generating and outputting student data to be a student, an encoding step for encoding learning image data and outputting encoded data for learning including a DCT type and a motion vector of the image data; The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the learning encoded data, A decision step that outputs mismatch information indicating the decision result, and a higher quality image than a lower quality image obtained by decoding the encoded data Of the over data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Using a prediction tap extraction step for extracting some of the low quality data as prediction taps, student data corresponding to the low quality data, and teacher data corresponding to the high quality data, the product sum of the student data and the tap coefficient By performing a product-sum operation of the tap coefficient and the prediction tap, a learning step having a tap coefficient calculation step for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, And a decoding step having a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type is the field DCT mode. At one time, the prediction tap is extracted from the low quality data of the field of attention data In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is the DCT type If it is not correct, a program for extracting prediction taps from low quality data of both the field and frame of the data of interest is recorded.
[0020]
In the decoding apparatus and decoding method, and the first program and the first recording medium of the present invention, the correctness of the DCT type included in the encoded data is based on the motion vector of the image data included in the encoded data. Thus, determination is made based on the presence or absence of movement of the image data in block units, and mismatch information indicating the determination result is output. Of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the student data is the student data that corresponds to the low-quality data and becomes the learning student, and the teacher data that corresponds to the high-quality data and becomes the learning teacher. By performing the product-sum operation on the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation between the tap coefficient and the tap coefficient, Data is required. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame.
[0021]
In the learning apparatus and the learning method, the second program, and the second recording medium of the present invention, teacher data serving as a teacher for learning the tap coefficient is generated from learning image data, and a student serving as a student Data is generated. Further, learning image data is encoded, and encoded learning data including a DCT type and a motion vector of the image data is output. Then, the correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the learning encoded data. Mismatch information representing the determination result is output. Of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the teacher is obtained by multiplying the student data by the tap coefficient using the student data corresponding to the low-quality data and the teacher data corresponding to the high-quality data. A tap coefficient that statistically minimizes the prediction error of the predicted value of data is obtained, and attention data is obtained by performing a product-sum operation on the tap coefficient and the prediction tap. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of interest data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 shows a configuration example of an embodiment of a decoding device to which the present invention is applied.
[0023]
The decoding apparatus includes encoded data reproduced from a recording medium (not shown) (for example, an optical disk, a magneto-optical disk, a phase change disk, a magnetic tape, a semiconductor memory, etc.) or a transmission medium (for example, the Internet or a CATV network). Encoded data transmitted via a satellite line, terrestrial wave, etc.) is input as a decoding target. Here, the encoded data is obtained by encoding image (moving image) data by a predetermined encoding method, and includes at least decoding control information for controlling the decoding.
[0024]
As the encoded data, for example, image data encoded by the MPEG2 method can be employed.
[0025]
Here, in the MPEG2 system, on the encoding side, image data (original image) is subjected to DCT conversion in units of blocks and further quantized. On the encoding side, a motion vector is detected for the image data to be encoded, the encoded data is locally decoded, and the local decoded image data is used as a reference image to detect the reference image. A predicted image is generated by performing motion compensation using the obtained motion vector. Then, by calculating the difference between the image to be encoded and the predicted image, a residual image is obtained, and the residual image is DCT transformed and quantized as described above. Further, on the encoding side, in DCT conversion in units of blocks, a DCT type (frame DCT mode or field DCT mode) is set in units of macroblocks.
[0026]
On the other hand, assuming that the DCT coefficient obtained by DCT transforming and further quantizing the image data (original image or residual image) is called a quantized DCT coefficient, on the decoding side, the quantized DCT coefficient is dequantized. , DCT coefficients. Further, on the decoding side, the DCT coefficients are subjected to inverse DCT transform, and the resulting pixels are rearranged into a frame structure according to the DCT type, whereby image data is decoded or residual image data is obtained. . As for the residual image data, predicted image data is generated by performing motion compensation on the reference image using the already decoded image data as a reference image using a motion vector. Then, the image data is decoded by adding the residual image data and the predicted image data.
[0027]
Therefore, the encoded data obtained by encoding the image data by the MPEG2 system is subjected to DCT conversion of the image data (original image or residual image) and further quantized, that is, the direct data of the image data. In addition to the encoding result, information necessary for decoding the DCT coefficient into an image on the decoding side, that is, information for controlling decoding such as a motion vector and a DCT type (hereinafter referred to as decoding control information as appropriate) is also included. included. The encoded data includes a picture type, a temporal reference, and other decoding control information in addition to a motion vector and a DCT type.
[0028]
The encoded data input to the decoding device is supplied to the mismatch detection unit 1 and the decoding processing unit 2.
[0029]
The mismatch detection unit 1 detects mismatch information from the encoded data. That is, the mismatch detection unit 1 determines the correctness of the decoding control information included in the encoded data, and outputs mismatch information indicating the determination result to the decoding processing unit 2. The decoding processing unit 2 decodes the encoded data based on the mismatch information supplied from the mismatch detection unit 1, and outputs decoded data obtained as a result.
[0030]
Next, processing (decoding processing) of the decoding device in FIG. 1 will be described with reference to the flowchart in FIG.
[0031]
Encoded data is supplied to the mismatch detection unit 1 and the decoding processing unit 2, and the mismatch detection unit 1 first detects mismatch information from the encoded data and supplies it to the decoding processing unit 2 in step S1. Then, the process proceeds to step S2. In step S2, the decoding processing unit 2 decodes the encoded data in which the mismatch information is detected based on the mismatch information supplied from the mismatch detection unit 1, outputs decoded image data, and proceeds to step S3. . In step S3, the mismatch detection unit 1 or the decoding processing unit 2 determines whether there is still encoded data to be decoded. If it is determined in step S3 that encoded data to be decoded still exists, the process returns to step S1, and the same processing is repeated thereafter.
[0032]
If it is determined in step S3 that there is no encoded data to be decoded, the process ends.
[0033]
Next, FIG. 3 shows a configuration example of another embodiment of a decoding device to which the present invention is applied. In the figure, portions corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate. That is, the decoding apparatus in FIG. 3 is basically configured in the same manner as the decoding apparatus in FIG. 1 except that the parameter storage unit 3 is newly provided.
[0034]
The parameter storage unit 3 stores parameters obtained by learning by a learning device, which will be described later, and the decoding processing unit 2 uses the parameters stored in the parameter storage unit 3 and supplies encoded data supplied thereto. Is decrypted.
[0035]
Therefore, in the decoding device of FIG. 3, the decoding processing unit 2 performs the same processing as the decoding device of FIG. 1 except that the encoded data is decoded using the parameters stored in the parameter storage unit 3. Therefore, the description of the process is omitted.
[0036]
Next, FIG. 4 shows a configuration example of an embodiment of a learning device that learns parameters to be stored in the parameter storage unit 3 of FIG.
[0037]
The learning data storage unit 11 stores learning data which is image (moving image) data used for parameter learning.
[0038]
The encoding unit 12 reads the learning data stored in the learning data storage unit 11 and encodes the learning data with the same encoding method as the encoded data to be decoded by the decoding device in FIG. To do. Encoded data obtained by encoding the learning data (hereinafter referred to as learning encoded data as appropriate) is supplied from the encoding unit 12 to the mismatch detection unit 13.
[0039]
The mismatch detection unit 13 is configured in the same manner as the mismatch detection unit 1 in FIG. 3, detects mismatch information from the encoded data supplied from the encoding unit 12, and supplies the mismatch information to the learning processing unit 14.
[0040]
The learning processing unit 14 reads out the learning data stored in the learning data storage unit 11 and, from the learning data, the teacher data serving as a learning teacher about the parameters and the student data serving as the learning student. Generate. Further, the learning processing unit 14 learns parameters for converting student data into teacher data using the generated teacher data and student data based on the mismatch information supplied from the mismatch detection unit 13.
[0041]
Next, processing (learning processing) of the learning device in FIG. 4 will be described with reference to the flowchart in FIG.
[0042]
First, in step S <b> 11, the encoding unit 12 reads and encodes the learning data stored in the learning data storage unit 11, and sends the learning encoded data obtained as a result to the mismatch detection unit 13. Then, the process proceeds to step S12. In step S12, the mismatch detection unit 13 detects mismatch information from the encoded data supplied from the encoding unit 12, supplies the mismatch information to the learning processing unit 14, and proceeds to step S13.
[0043]
In step S13, the learning processing unit 14 reads the learning data from the learning data storage unit 11, and generates teacher data and student data from the learning data. Further, the learning processing unit 14 learns parameters using the generated teacher data and student data based on the mismatch information supplied from the mismatch detection unit 13.
[0044]
That is, the learning processing unit 14 performs a process (learning) for calculating an optimum parameter for enabling the corresponding teacher data to be obtained from the student data based on the mismatch information. Do.
[0045]
In step S14, the encoding unit 12 or the learning processing unit 14 determines whether learning data that has not yet been processed is stored in the learning data storage unit 11. If it is determined in step S14 that learning data that has not yet been processed is stored in the learning data storage unit 11, the process returns to step S11, and the learning data that has not yet been processed is targeted. Thereafter, the same processing is repeated.
[0046]
If it is determined in step S14 that the learning data not yet processed is not stored in the learning data storage unit 11, that is, all the learning data stored in the learning data storage unit 11 are stored. When learning is performed using the learning process, the process proceeds to step S15, where the learning processing unit 14 calculates parameters based on the learning result of step S13, and ends the process.
[0047]
Next, FIG. 6 shows a detailed configuration example of the decoding device of FIG.
[0048]
The decoding control information extraction unit 21 is supplied with encoded data obtained by encoding image data, for example, in the MPEG2 format, as a decoding target. Therefore, a plurality of (plural types) of decoding control information included in the encoded data, that is, in the present embodiment, for example, a DCT type, a picture type, and a motion vector are extracted and supplied to the determination unit 22.
[0049]
The determination unit 22 determines the correctness of one (one type) of decoding control information among the plurality of decoding control information supplied from the decoding control information extraction unit 21, and determines the other (other types) of decoding control information. Determine based on. Then, the determining unit 22 outputs mismatch information as a determination result of the correctness of the one decoding control information to the decoding processing unit 2.
[0050]
The decoding control information extraction unit 21 and the determination unit 22 described above constitute the mismatch detection unit 1 in FIG.
[0051]
The preprocessing unit 31 is supplied with encoded data to be decoded. The preprocessing unit 31 performs predetermined preprocessing on the encoded data, and the preprocessed data obtained as a result thereof. Is supplied to the class classification adaptive processing unit 32.
[0052]
The class classification adaptive processing unit 32 configures a prediction tap and a class tap, which will be described later, from the preprocessing data supplied from the preprocessing unit 31, and uses a parameter stored in the coefficient memory 41 to perform a class classification adaptive processing described later. I do. Then, the class classification adaptive processing unit 32 outputs data obtained by performing the class classification adaptive processing (hereinafter referred to as adaptive processing data as appropriate) to the post-processing unit 33.
[0053]
The class classification adaptation processing unit 32 is supplied with mismatch information output from the determination unit 22 of the mismatch detection unit 1, and the class classification adaptation processing unit 32 performs class classification based on the mismatch information. Perform adaptive processing.
[0054]
The post-processing unit 33 performs predetermined post-processing on the data output from the class classification adaptation processing unit 32, thereby decoding the encoded data into high-quality image data and outputting it.
[0055]
The above preprocessing unit 31, class classification adaptation processing unit 32, and postprocessing unit 33 constitute the decoding processing unit 2 in FIG.
[0056]
The coefficient memory 41 stores a tap coefficient for each class, which will be described later, used by the class classification adaptation processing unit 32 to perform the class classification adaptation process.
[0057]
The coefficient memory 41 constitutes the parameter storage unit 3 shown in FIG.
[0058]
Next, processing of the mismatch detection unit 1 in FIG. 6 will be described with reference to FIGS. 7 and 8.
[0059]
FIG. 7 shows a block (FIG. 7A) subjected to DCT conversion in the frame DCT mode and a block (FIG. 7B) subjected to DCT conversion in the field DCT mode in the MPEG2 system.
[0060]
In the embodiment of FIG. 7, a block of luminance signals is shown. In FIG. 7 (the same applies to FIG. 8 described later), a shaded line represents an odd line (top field), and a non-shadowed line represents an even line (bottom field). .
[0061]
In the frame DCT mode, a macro block composed of 16 × 16 pixels in horizontal and vertical directions is divided into four 8 × 8 pixel blocks in the upper left, lower left, upper right, or lower right, as shown in FIG. Each block is DCT transformed.
[0062]
On the other hand, in the field DCT mode, as shown in FIG. 7B, in the macroblock, the upper 8 lines are configured by odd lines (top field), and the lower 8 lines are configured by even lines (bottom field). The pixel positions are rearranged. Then, the rearranged macroblock is divided into four 8 × 8 pixel blocks in the upper left, lower left, upper right, or lower right, and each block is DCT transformed.
[0063]
As described above, in the frame DCT mode, DCT conversion is performed in units of 8 × 8 pixels constituting the same frame, and in the field DCT mode, DCT is performed in units of blocks of 8 × 8 pixels constituting the same field. Conversion is performed.
[0064]
By the way, for example, when an image in which a circular moving object is moving in the horizontal direction is considered, the circular moving object is, for example, as shown in FIG. In addition, it is displayed at a slightly shifted position corresponding to the movement. For this reason, for an image in which such a moving object is displayed, the field pixel correlation is larger than the frame pixel correlation, and a smooth motion decoded image is obtained by performing DCT conversion in the field DCT mode. Obtainable.
[0065]
However, in the MPEG system, as described above, the frame DCT mode is used instead of the field DCT mode in order to reduce the data amount of the encoded data due to the data rate limitation for the image on which the moving object is displayed. Thus, the image data may be DCT transformed.
[0066]
Assuming that the frame DCT mode is set for some of the macroblocks where the circular moving object is displayed, and the field DCT mode is set for the other macroblocks, and DCT conversion is performed. For a macroblock in which the frame DCT mode is set, for example, as illustrated in FIG. 8B, a decoded image in which the edge portion of a circular moving object is blurred is obtained.
[0067]
Here, FIG. 8B shows the decoding when the DCT type of the upper right macroblock among the 2 × 2 macroblocks is set to the frame DCT mode and the DCT types of the other three macroblocks are set to the field DCT mode. An image is shown.
[0068]
Whether the DCT type is the frame DCT mode or the field DCT mode is set in units of macroblocks. Therefore, even if the corresponding macroblocks (macroblocks at the same position) in different frames are used, The type may be different. When the DCT type of a macroblock at a certain position where a moving object is displayed changes in units of frames, the movement of the moving object in the decoded image becomes unnatural.
[0069]
Such blurring (blurring) and unnatural motion in the decoded image is caused by the fact that a macroblock to be DCT-converted in the field DCT mode has been DCT-converted in the frame DCT mode due to data rate limitations. The moving part is caused by DCT conversion in the frame DCT mode, which should be DCT converted in the field DCT mode. Therefore, it can be said that the macroblock to be DCT-converted in the field DCT mode is DCT-converted in the frame DCT mode from the viewpoint of improving the image quality of the decoded image. It can be said that the DCT type representing such a frame DCT mode, which is one of the included decoding control information, is also incorrect.
[0070]
Therefore, for example, the mismatch detection unit 1 determines the correctness of the DCT type included in the encoded data, and outputs mismatch information indicating the determination result.
[0071]
That is, the mismatch detection unit 1 determines that the DCT type of the macroblock is not correct, for example, when the DCT type of the macroblock on which a moving image is displayed is in the frame DCT mode. On the other hand, the mismatch detection unit 1, for example, when the DCT type of the macroblock on which the moving image is displayed is in the field DCT mode, or when the image on which the macroblock does not move is displayed. , It is determined that the DCT type of the macroblock is correct.
[0072]
Note that the mismatch detection unit 1 determines whether or not there is motion in the macroblock (the image displayed in it), which is another one of the decoding control information included in the encoded data. For example, the motion vector of the macroblock Determine based on.
[0073]
Next, FIG. 9 shows a configuration example of the class classification adaptation processing unit 32 of FIG.
[0074]
The class classification adaptation process includes a class classification process and an adaptation process. By the class classification process, data is classified based on its property, and the adaptation process is performed for each class.
[0075]
Here, the adaptive processing will be described by taking as an example the case of converting a low-quality image (hereinafter, appropriately referred to as a low-quality image) into a high-quality image (hereinafter, appropriately referred to as a high-quality image).
[0076]
In this case, in the adaptive processing, a high-quality image that has improved the image quality of the low-quality image by linear combination of pixels constituting the low-quality image (hereinafter referred to as low-quality pixels as appropriate) and a predetermined tap coefficient. By obtaining the predicted value of the pixel, an image in which the image quality of the low-quality image is improved can be obtained.
[0077]
Specifically, for example, a certain high-quality image data is used as teacher data, and low-quality image data with degraded image quality of the high-quality image is used as student data. The predicted value E [y] of y (referred to as a high-quality pixel, as appropriate) 1 , X 2 , ... and a predetermined tap coefficient w 1 , W 2 Consider a linear primary combination model defined by the linear combination of. In this case, the predicted value E [y] can be expressed by the following equation.
[0078]
E [y] = w 1 x 1 + W 2 x 2 + ・ ・ ・ (1)
[0079]
To generalize equation (1), tap coefficient w j A matrix W consisting of ij And a predicted value E [y j ] A matrix Y ′ consisting of a set of
[Expression 1]
Figure 0004081745
Then, the following observation equation holds.
[0080]
XW = Y ′ (2)
[0081]
Here, the component x of the matrix X ij Is a set of i-th student data (i-th teacher data y i The j-th student data in the set of student data used for the prediction of j Represents a tap coefficient by which a product with the jth student data in the student data set is calculated. Y i Represents the i-th teacher data, and thus E [y i ] Represents the predicted value of the i-th teacher data. Note that y on the left side of Equation (1) is the component y of the matrix Y. i The suffix i is omitted, and x on the right side of Equation (1) 1 , X 2 ,... Are also components x of the matrix X ij The suffix i is omitted.
[0082]
Consider that the least square method is applied to the observation equation of Expression (2) to obtain a predicted value E [y] close to (a pixel value of) high-quality pixel (y). In this case, a matrix Y composed of a set of true values y of high-quality pixels to be teacher data, and a matrix E composed of sets of residuals (errors relative to the true value y) e of predicted values E [y] of the high-quality pixels y. The
[Expression 2]
Figure 0004081745
From the equation (2), the following residual equation is established.
[0083]
XW = Y + E (3)
[0084]
In this case, the tap coefficient w for obtaining the predicted value E [y] close to the high-quality pixel y j Is the square error
[Equation 3]
Figure 0004081745
Can be obtained by minimizing.
[0085]
Therefore, the above square error is converted to the tap coefficient w. j When the value differentiated by 0 is 0, that is, the tap coefficient w satisfying the following equation: j However, this is the optimum value for obtaining the predicted value E [y] close to the high-quality pixel y.
[0086]
[Expression 4]
Figure 0004081745
Figure 0004081745
[0087]
Therefore, first, the equation (3) is changed to the tap coefficient w. j Is differentiated by the following equation.
[0088]
[Equation 5]
Figure 0004081745
Figure 0004081745
[0089]
From equations (4) and (5), equation (6) is obtained.
[0090]
[Formula 6]
Figure 0004081745
Figure 0004081745
[0091]
Furthermore, the student data x in the residual equation of equation (3) ij , Tap coefficient w j , Teacher data y i And residual e i Considering this relationship, the following normal equation can be obtained from the equation (6).
[0092]
[Expression 7]
Figure 0004081745
Figure 0004081745
[0093]
In addition, the normal equation shown in Expression (7) has a matrix (covariance matrix) A and a vector v,
[Equation 8]
Figure 0004081745
And the vector W is defined as shown in Equation 1,
AW = v (8)
Can be expressed as
[0094]
Each normal equation in equation (7) is the student data x ij And teacher data y i By preparing a certain number of sets, a tap coefficient w to be obtained j Therefore, by solving equation (8) with respect to vector W (however, to solve equation (8), matrix A in equation (8) is regular). Necessary), the optimal tap coefficient w j Can be requested. In solving the equation (8), for example, a sweeping method (Gauss-Jordan elimination method) or the like can be used.
[0095]
As described above, the optimum tap coefficient using the student data and the teacher data (in this case, when the predicted value of the teacher data is obtained from the student data, the tap coefficient that minimizes the sum of the square errors of the predicted values) ) W j And learning the tap coefficient w j The adaptive process is to obtain the predicted value E [y] close to the teacher data y by using the equation (1).
[0096]
The adaptive processing is not included in the low-quality image, but differs from simple interpolation in that the component included in the high-quality image is reproduced. That is, in the adaptive processing, as long as only Expression (1) is seen, it looks the same as simple interpolation using a so-called interpolation filter, but the tap coefficient w corresponding to the tap coefficient of the interpolation filter is the teacher data and student data. Therefore, the components included in the high-quality image as teacher data can be reproduced. From this, it can be said that the adaptive process is a process having an image creating action.
[0097]
Here, as the student data, for example, decoded image data obtained by MPEG-encoding high-quality image data as teacher data and further MPEG decoding can be used. In this case, it is possible to obtain a tap coefficient that can obtain a high-quality image with reduced block distortion or the like caused by quantization in MPEG encoding.
[0098]
Further, for example, high-quality image data is used as teacher data, and DCT coefficients obtained by DCT transforming image data as teacher data and further quantizing and dequantizing are used as student data. Is also possible. In this case, a tap coefficient for converting the DCT coefficient into a high-quality image (predicted value thereof) can be obtained.
[0099]
In the above case, the prediction value of the high-quality image is linearly linearly predicted, but the prediction value of the high-quality image can also be predicted by a quadratic or higher formula.
[0100]
The class classification adaptation processing unit 32 in FIG. 9 performs the class classification adaptation process as described above.
[0101]
That is, the preprocessing data output from the preprocessing unit 31 (FIG. 6) is supplied to the tap extraction units 51 and 52.
[0102]
The tap extraction unit 51 extracts the adaptive processing data to be obtained as attention data, and further extracts some of the preprocessing data used for predicting the attention data as prediction taps. Further, the tap extraction unit 52 extracts some of the preprocess data used for classifying the attention data as class taps.
[0103]
Here, mismatch information output from the determination unit 22 (FIG. 6) is also supplied to the tap extraction units 51 and 52. And the tap extraction parts 51 and 52 change the structure of a prediction tap and a class tap, respectively based on mismatch information.
[0104]
Here, in order to simplify the description, it is assumed that the prediction tap and the class tap have the same tap structure. However, the prediction tap and the class tap can have different tap structures.
[0105]
The prediction tap obtained by the tap extraction unit 51 is supplied to the prediction unit 54, and the class tap obtained by the tap extraction unit 52 is supplied to the class classification unit 53.
[0106]
In addition to the class tap, mismatch information is also supplied to the class classification unit 53. The class classification unit 53 classifies the data of interest based on the class tap and the mismatch information from the tap extraction unit 52. The class code corresponding to the class obtained as a result is supplied to the coefficient memory 41.
[0107]
The coefficient memory 41 stores the tap coefficient of the class corresponding to the class code at the address corresponding to each class code, and the tap stored at the address corresponding to the class code supplied from the class classification unit 53. The coefficient is supplied to the prediction unit 54.
[0108]
The prediction unit 54 acquires the prediction tap output from the tap extraction unit 51 and the tap coefficient output from the coefficient memory 41, and uses the prediction tap and the tap coefficient to perform the linear prediction calculation shown in Expression (1). I do. Thereby, the prediction unit 54 obtains and outputs the adaptive processing data (predicted value thereof).
[0109]
Next, processing (decoding processing) of the decoding device in FIG. 6 will be described with reference to the flowchart in FIG.
[0110]
In the tap extraction unit 51 of the class classification adaptive processing unit 32 (FIG. 9), the adaptive processing data to be obtained is the attention data. In step S21, the mismatch detection unit 1 encodes the encoded data corresponding to the attention data. Mismatch information is generated from (hereinafter, referred to as encoded data of interest as appropriate).
[0111]
That is, in the mismatch detection unit 1, the decoding control information extraction unit 21 extracts, for example, a motion vector or a DCT type as a plurality of decoding control information from the encoded data of interest, and supplies the extracted information to the determination unit 22. And the determination part 22 determines the correctness of the DCT type similarly supplied from the decoding control information extraction part 21, for example based on the motion vector etc. which are supplied from the decoding control information extraction part 21, As the determination result Is supplied to the class classification adaptation processing unit 32.
[0112]
And it progresses to step S22 and the pre-processing part 31 performs pre-processing with respect to the encoding data for obtaining the pre-processing data required in order to comprise the prediction tap and class tap about attention data, and the result The obtained preprocessing data is supplied to the class classification adaptation processing unit 32.
[0113]
In the class classification adaptive processing unit 32 (FIG. 9), in step S23, the tap extraction units 51 and 52 use the preprocessing data supplied from the preprocessing unit 31, for example, based on the mismatch information from the mismatch detection unit 1. Each of the tap structure prediction tap and the class tap is configured. The prediction tap is supplied from the tap extraction unit 51 to the prediction unit 54, and the class tap is supplied from the tap extraction unit 52 to the class classification unit 53.
[0114]
The class classification unit 53 receives the class tap for the data of interest from the tap extraction unit 52, and classifies the data of interest based on the class tap and the mismatch information supplied from the mismatch detection unit 1 in step S24. The class code representing the class of the data of interest is output to the coefficient memory 41.
[0115]
The coefficient memory 41 reads out and outputs the tap coefficient stored at the address corresponding to the class code supplied from the class classification unit 53. In step S25, the prediction unit 54 acquires the tap coefficient output from the coefficient memory 41, and proceeds to step S26.
[0116]
In step S <b> 26, the prediction unit 54 performs the linear prediction calculation shown in Expression (1) using the prediction tap output from the tap extraction unit 51 and the tap coefficient acquired from the coefficient memory 41. Thereby, the prediction unit 54 obtains (predicted value) of adaptive processing data as attention data, and supplies it to the post-processing unit 33.
[0117]
In step S27, the post-processing unit 33 (FIG. 6) performs predetermined post-processing on the attention data from the class classification adaptive processing unit 32 (prediction unit 54 thereof), thereby obtaining decoded image data. Output.
[0118]
Thereafter, the process proceeds to step S28, where it is determined whether there is any adaptive processing data that has not yet been set as the data of interest. If it is determined in step S28 that there is adaptation processing data that has not yet been set as attention data, one of the adaptation processing data that has not yet been set as attention data is newly set as attention data, and the process returns to step S21. Thereafter, the same processing is repeated.
[0119]
If it is determined in step S28 that there is no adaptive process data that has not yet been set as attention data, the process ends.
[0120]
Next, FIG. 11 shows a detailed configuration example of the learning device in FIG. 4 when learning tap coefficients to be stored in the coefficient memory 41 in FIG.
[0121]
In the embodiment of FIG. 11, the mismatch detection unit 13 includes a decoding control information extraction unit 71 and a determination unit 72, and the encoded data output from the encoding unit 12 is supplied to the decoding control information extraction unit 71. It has come to be. The decoding control information extraction unit 71 or the determination unit 72 is configured in the same manner as the decoding control information extraction unit 21 or the determination unit 22 in FIG. 6, and in the same way as described with reference to FIG. Mismatch information is obtained from the corresponding encoded data and supplied to the learning processing unit 14.
[0122]
The learning processing unit 14 includes an adaptive learning unit 60, a teacher data generation unit 61, and a student data generation unit 63.
[0123]
The adaptive learning unit 60 includes a teacher data storage unit 62, a student data storage unit 64, tap extraction units 65 and 66, a class classification unit 67, an addition unit 68, and a tap coefficient calculation unit 69, and a teacher data generation unit 61. Is composed of a reverse post-processing unit 61A, and the student data generation unit 63 is composed of an encoding unit 63A and a pre-processing unit 63B.
[0124]
The reverse post-processing unit 61A reads the learning data from the learning data storage unit 11, and performs a process complementary to the process performed by the post-processing unit 33 in FIG. 6 (hereinafter referred to as reverse post-processing as appropriate). . That is, for example, if the learning data is y and the post-processing unit 33 shown in FIG. 6 performs post-processing performed on the adaptive processing data x by a function f (x), the reverse post-processing unit 61A , The function f for the learning data y -1 (Y) (f -1 () Represents the inverse function of the function f ()), and the resultant data is output to the adaptive learning unit 60 as teacher data. The teacher data output from the reverse post-processing unit 61A corresponds to the adaptive processing data supplied from the class classification adaptive processing unit 32 to the post-processing unit 33 in FIG.
[0125]
The teacher data storage unit 62 temporarily stores the teacher data output from the teacher data generation unit 61 (the reverse post-processing unit 61A).
[0126]
The encoding unit 63A reads the learning data from the learning data storage unit 11, encodes the same encoding method as that of the encoding unit 12, that is, the MPEG2 method in the present embodiment, and outputs the encoded data. Therefore, the encoding unit 63A outputs the same encoded data that the encoding unit 12 outputs. Note that the encoding units 12 and 63A can be shared by one encoding unit.
[0127]
The preprocessing unit 63B performs the same preprocessing as that performed by the preprocessing unit 31 in FIG. 6 on the encoded data output from the encoding unit 63A, and uses the preprocessed data obtained as a result as student data. And output to the adaptive learning unit 60. Note that the student data output by the preprocessing unit 63B corresponds to preprocessing data supplied from the preprocessing unit 31 of FIG. 6 to the class classification adaptive processing unit 32.
[0128]
The student data storage unit 64 temporarily stores the student data output from the student data generation unit 63 (preprocessing unit 63B).
[0129]
The tap extraction unit 65 sequentially uses the teacher data stored in the teacher data storage unit 62 as attention teacher data, and extracts the student data stored in the student data storage unit 64 for the attention teacher data. The prediction taps having the same tap structure as the nine tap extraction units 51 are configured and output. The tap extraction unit 65 is supplied with mismatch information output from the mismatch detection unit 13 (the determination unit 72), and the tap extraction unit 65 is similar to the tap extraction unit 51 of FIG. The tap structure of the prediction tap is changed based on the mismatch information about the attention teacher data.
[0130]
The tap extraction unit 66 extracts the student data stored in the student data storage unit 64 for the teacher data of interest, thereby configuring a class tap having the same tap structure as the tap extraction unit 52 of FIG. Output. Note that the tap extraction unit 66 is supplied with mismatch information output from the mismatch detection unit 13, and the tap extraction unit 66 is similar to the tap extraction unit 52 of FIG. The tap structure of the class tap is changed based on the mismatch information.
[0131]
The class classification unit 67 is supplied with the class tap output from the tap extraction unit 66 and the mismatch information output from the mismatch detection unit 13. The class classification unit 67 performs the same class classification on the attention teacher data as the class classification unit 53 of FIG. 9 based on the class tap and mismatch information regarding the attention teacher data, and obtains a class code corresponding to the class obtained as a result. , And output to the adding unit 68.
[0132]
The adding unit 68 reads attention teacher data from the teacher data storage unit 62, and targets the attention teacher data and the student data constituting the prediction tap configured for the attention teacher data supplied from the tap extraction unit 65. The addition is performed for each class code supplied from the class classification unit 67.
[0133]
That is, the adding unit 68 uses the prediction tap (student data) for each class corresponding to the class code supplied from the class classification unit 67, and is a component in the matrix A of the equation (8). Multiplication of data (x in x im ) And a calculation corresponding to summation (Σ).
[0134]
Further, the adding unit 68 uses the prediction tap (student data) and the teacher data for each class corresponding to the class code supplied from the class classification unit 67, and uses each component in the vector v in the equation (8) Multiplication of student data and teacher data (x in y i ) And a calculation corresponding to summation (Σ).
[0135]
In other words, the adding unit 68 stores the component of the matrix A and the component of the vector v in the formula (8) obtained for the teacher data that was previously regarded as the teacher data of interest in its built-in memory (not shown). For each of the components of the matrix A or the vector v, the teacher data i And student data x in (x im ) To calculate the corresponding component x in x im Or x in y i (Addition represented by summation in matrix A and vector v is performed).
[0136]
Then, the addition unit 68 performs the above addition using all the teacher data stored in the teacher data storage unit 62 as the attention teacher data, thereby obtaining the normal equation shown in Expression (8) for each class. Then, the normal equation is supplied to the tap coefficient calculation unit 69.
[0137]
The tap coefficient calculation unit 69 obtains and outputs the tap coefficient for each class by solving the normal equation for each class supplied from the adding unit 68.
[0138]
Next, processing (learning processing) of the learning device in FIG. 11 will be described with reference to the flowchart in FIG.
[0139]
First, in step S31, the teacher data generation unit 61 and the student data generation unit 63 generate teacher data and student data from the learning data stored in the learning data storage unit 11, respectively. The teacher data is supplied from the teacher data generation unit 61 to the teacher data storage unit 62 and stored therein, and the student data is supplied from the student data generation unit 63 to the student data storage unit 64 and stored therein.
[0140]
Thereafter, the tap extraction unit 65 sets the teacher data stored in the teacher data storage unit 62 as attention teacher data that has not yet been regarded as attention teacher data. In step S 32, the encoding unit 12 encodes the learning data stored in the learning data storage unit 11, thereby encoding data corresponding to the attention teacher data (the learning data corresponding to the attention teacher data). (Encoded data) is obtained and supplied to the mismatch detection unit 13.
[0141]
The mismatch detection unit 13 generates mismatch information about the teacher data of interest from the encoded data supplied from the encoding unit 12 and supplies the mismatch information to the tap extraction units 65 and 66 and the class classification unit 67 of the learning processing unit 14. .
[0142]
In step S 34, the tap extraction unit 65 reads out the student data stored in the student data storage unit 64 for the teacher data of interest based on the mismatch information, configures a prediction tap, and supplies the prediction tap to the addition unit 68. At the same time, the tap extraction unit 66 also reads out student data stored in the student data storage unit 64 for the teacher data of interest based on the mismatch information, forms a class tap, and supplies the class tap to the class classification unit 67.
[0143]
In step S35, the class classification unit 67 performs class classification for the attention teacher data based on the class tap and mismatch information regarding the attention teacher data, and outputs the class code corresponding to the resulting class to the addition unit 68. To do.
[0144]
In step S 36, the adding unit 68 reads the attention teacher data from the teacher data storage unit 62, and uses the attention teacher data and the prediction tap from the tap extraction unit 65, and uses the matrix A and the vector v of Expression (8). Calculate the component. Further, the adding unit 68 applies the matrix A obtained from the attention data and the prediction tap to the component corresponding to the class code from the class classification unit 67 among the components of the matrix A and the vector v already obtained. And the component of the vector v are added, respectively, and the process proceeds to step S37.
[0145]
In step S <b> 37, the tap extraction unit 65 determines whether or not teacher data that has not yet been set as the teacher data of interest is stored in the teacher data storage unit 62. If it is determined in step S37 that the teacher data that is not the attention teacher data is still stored in the teacher data storage unit 62, the tap extraction unit 65 newly adds the teacher data that is not yet the attention teacher data. As attention teacher data, the process returns to step S32, and the same processing is repeated thereafter.
[0146]
If it is determined in step S37 that the teacher data that is not the attention teacher data is not stored in the teacher data storage unit 62, the adding unit 68 uses the matrix A for each class obtained by the processing so far. And the normal equation of the equation (8) composed of the components of the vector v is supplied to the tap coefficient calculation unit 69, and the process proceeds to step S38.
[0147]
In step S38, the tap coefficient calculation unit 69 finds and outputs a tap coefficient for each class by solving the normal equation for each class supplied from the adding unit 68, and ends the process.
[0148]
There may be a class in which the number of normal equations necessary for obtaining tap coefficients cannot be obtained due to an insufficient number of learning data stored in the learning data storage unit 11. However, for such classes, the tap coefficient calculation unit 69 outputs, for example, default tap coefficients.
[0149]
Next, FIG. 13 shows a first detailed configuration example of the decoding device of FIG. 6 when the encoded data is obtained by encoding image data by the MPEG2 system.
[0150]
In the embodiment of FIG. 13, the decoding control information extraction unit 21 includes an inverse VLC unit 111. The inverse VLC unit 111 is configured, for example, in the same manner as the inverse VLC unit 121 (FIG. 14) that configures an MPEG decoder 116 described later, and from the encoded data, for example, a DCT type, as a plurality of decoding control information, The picture type, macroblock (MB) type, and motion vector are extracted and supplied to the determination unit 22.
[0151]
The determination unit 22 includes a field / frame determination unit 112, an intra / non-intra determination unit 113, a static motion determination unit 114, and a mismatch information generation unit 115.
[0152]
Based on the DCT type output from the inverse VLC unit 111, the field / frame determination unit 112 determines whether a block having pixels corresponding to the data of interest (hereinafter referred to as the block of interest as appropriate) is a frame DCT mode or a field DCT mode. The DCT conversion is performed and the determination result is supplied to the mismatch information generation unit 115.
[0153]
Based on the picture type and macroblock type output from the inverse VLC unit 111, the intra / non-intra determination unit 113 encodes the block of interest (including the macroblock) in either intra coding or non-intra coding. And the determination result is supplied to the mismatch information generation unit 115.
[0154]
The static motion determination unit 114 determines the presence / absence of the motion of the block of interest (presence / absence of the motion of the image displayed in the block of interest) based on the motion vector output from the inverse VLC unit 111, and uses the determination result as mismatch information. This is supplied to the generation unit 115.
[0155]
Based on the outputs of the field / frame determination unit 112, the intra / non-intra determination unit 113, and the static motion determination unit 114, the mismatch information generation unit 115 outputs the target block (including the macro block) output by the inverse VLC unit 111. The correctness of the DCT type is determined, mismatch information as a determination result is generated, and supplied to the class classification adaptive processing unit 32.
[0156]
Here, in the embodiment of FIG. 13, the preprocessing unit 31 is configured by an MPEG decoder 116, and the MPEG decoder 116 decodes the encoded data by the MPEG2 system, and obtains the decoded image data obtained as a result, The pre-processed data is supplied to the class classification adaptive processing unit 32.
[0157]
Next, FIG. 14 shows a configuration example of the MPEG decoder 116 of FIG.
[0158]
The encoded data is supplied to the inverse VLC unit 121. The inverse VLC unit 121 separates a VLC code (quantized DCT coefficient obtained by variable length coding) of a quantized DCT coefficient (quantized DCT coefficient) from the encoded data, a quantization step, a motion vector , Picture type, temporal reference, and other decoding control information.
[0159]
Then, the inverse VLC unit 121 performs inverse VLC processing on the VLC code of the quantized DCT coefficient, thereby decoding the quantized DCT coefficient and supplies the decoded DCT coefficient to the inverse quantization unit 122. Further, the inverse VLC unit 121 supplies the quantization step to the inverse quantization unit 122, the motion vector to the motion compensation unit 125, the picture type to the memory 126, and the temporal reference to the picture selection unit 127, respectively.
[0160]
The inverse quantization unit 122 inversely quantizes the quantized DCT coefficient supplied from the inverse VLC unit 121 in the quantization step similarly supplied from the inverse VLC unit 121, and converts the resulting DCT coefficient into an inverse DCT transform unit. 123. The inverse DCT conversion unit 123 performs inverse DCT conversion on the DCT coefficient supplied from the inverse quantization unit 122 and supplies the DCT coefficient to the calculation unit 124.
[0161]
The calculation unit 124 is supplied with the output of the motion compensation unit 125 in addition to the output of the inverse DCT conversion unit 123. The calculation unit 124 performs motion compensation on the output of the inverse DCT conversion unit 123. The output of the unit 125 is added as necessary to obtain and output decoded image data.
[0162]
That is, in MPEG encoding, three picture types of I, P, and B are defined, and each picture is DCT-converted in units of blocks of 8 × 8 pixels in width × length. The I picture block is intra-coded without referring to other frames or fields (the difference from the predicted image is not calculated), and the P picture block is intra-coded or forward-predicted code. The B picture block is subjected to intra coding, forward prediction coding, backward prediction coding, or bidirectional prediction coding.
[0163]
Here, in forward predictive coding, an image of a frame (or field) temporally preceding the frame (or field) of the block to be coded is used as a reference image, and the reference image is obtained by motion compensation. The difference between the prediction image of the encoding target block and the encoding target block is obtained, and the difference value, that is, the residual image is DCT transformed.
[0164]
Further, in backward predictive coding, a predicted image of a block to be encoded, which is obtained by performing motion compensation on the reference image using a frame image temporally following the frame of the block to be encoded as a reference image. And the difference from the block to be encoded are obtained, and the difference value (residual image) is DCT transformed.
[0165]
Furthermore, in bi-directional predictive coding, two frames (or fields) of a frame temporally preceding and following a frame of a block to be encoded are used as reference images, and the reference image is subjected to motion compensation. The obtained difference between the prediction image of the encoding target block and the encoding target block is obtained, and the difference value (residual image) is subjected to DCT transform.
[0166]
Therefore, when the block is non-intra coded (forward prediction coding, backward prediction coding, or bidirectional prediction coding), the output of the inverse DCT transform unit 123 is a residual image (original The difference between the image and the predicted image is decoded. The calculation unit 124 decodes the residual image (hereinafter, referred to as a decoded residual image as appropriate) and the motion compensation unit 125. Are added to the prediction image supplied from the non-intra-coded block, and the decoded image data obtained as a result is output.
[0167]
On the other hand, when the block output from the inverse DCT transform unit 123 is an intra-coded block, the output from the inverse DCT transform unit 123 is obtained by decoding the original image, and the computation unit 124. Outputs the output of the inverse DCT transform unit 123 as it is as decoded image data.
[0168]
The decoded image data output from the calculation unit 124 is supplied to the memory 126 and the picture selection unit 127.
[0169]
When the decoded image data supplied from the calculation unit 124 is I picture or P picture image data, the memory 126 temporarily stores the decoded image data as a reference image of encoded data to be decoded thereafter. Here, in MPEG2, since the B picture is not a reference image, when the decoded image supplied from the calculation unit 124 is a B picture image, the memory 126 does not store the B picture decoded image. Note that the memory 126 determines whether the decoded image supplied from the calculation unit 124 is a picture of I, P, or B by referring to the picture type supplied from the inverse VLC unit 121. .
[0170]
The picture selection unit 127 selects and outputs the decoded image output from the calculation unit 124 or the frame (or field) of the decoded image stored in the memory 126 in the display order. That is, in the MPEG2 system, since the display order of the frame (or field) of the image does not match the decoding order (encoding order), the picture selection unit 127 obtains the frame (or field) of the decoded image obtained in the decoding order. Are output in the order of display. The picture selection unit 127 determines the display order by referring to the temporal reference supplied from the reverse VLC unit 121.
[0171]
On the other hand, the motion compensation unit 125 receives the motion vector output from the inverse VLC unit 121, reads out a frame (or field) serving as a reference image from the memory 126, and outputs the reference image from the inverse VLC unit 121. The motion compensation according to the motion vector is performed, and the predicted image obtained as a result is supplied to the calculation unit 124. In the calculation unit 124, as described above, the prediction image from the motion compensation unit 125 and the residual image output from the inverse DCT conversion unit 123 are added, whereby non-intra coding (prediction coding) is performed. Is decrypted.
[0172]
Next, processing of the mismatch information generation unit 115 in FIG. 13 will be described with reference to the flowchart in FIG.
[0173]
First, in step S41, the mismatch information generation unit 115 determines whether the target block (including the macroblock) is intra-coded or non-intra-coded. The determination is made based on the output of the non-intra determination unit 113.
[0174]
Here, the intra / non-intra determination unit 113 determines that the block of interest is intra-coded if the picture type of the frame of the block of interest represents an I picture. Also, the intra / non-intra determination unit 113, when the picture type of the frame of the target block represents a P or B picture, the macro of the macro block including the target block (hereinafter referred to as the target macro block as appropriate). Based on the block type, it is determined whether the block of interest is intra-coded or non-intra-coded.
[0175]
When it is determined in step S41 that the target block is non-intra coded, the process proceeds to step S42, and the mismatch information generation unit 115 displays the block in which the target block displays a moving image (hereinafter referred to as appropriate). Or a block displaying a still image (hereinafter, referred to as a stationary block as appropriate) based on the output of the static motion determination unit 114.
[0176]
Here, the static motion determination unit 114, for a non-intra coded block, if the size of a motion vector of a macroblock including the block is greater than (or greater than) a predetermined threshold ε, It is determined that the non-intra coded block is a motion block. The static motion determination unit 114 performs non-intra coding when the magnitude of a motion vector of a macroblock including a non-intra coded block is equal to or smaller than (or less than) a predetermined threshold ε. Determine that the block is a static block.
[0177]
If it is determined in step S42 that the block of interest is a motion block, the process proceeds to step S45, and processing described later is performed.
[0178]
If it is determined in step S42 that the target block is a still block, the process proceeds to step S43, and the mismatch information generation unit 115 uses the DCT type of the target data (DCT type of the target macroblock as mismatch information of the target data). ) Is correct, for example, 1 bit of 0 is generated and output, and the process ends.
[0179]
On the other hand, when it is determined in step S41 that the block of interest is intra-encoded, the process proceeds to step S44, and the mismatch information generation unit 115 determines whether the block of interest is a motion block or a stationary block. The determination is made based on the output of the static motion determination unit 114.
[0180]
Here, for the block that has been intra-encoded, the static motion determination unit 114, for example, a block corresponding to the previous frame of the block (hereinafter referred to as a pre-corresponding block as appropriate) and a post-frame In the case of a non-intra coded block based on the magnitude relationship between one or both of the corresponding blocks (hereinafter referred to as post-corresponding blocks as appropriate) in the frame of the frame and a predetermined threshold ε In the same manner as above, it is determined whether a motion block or a stationary block is different. Alternatively, for example, when one or both of the pre-corresponding block and the post-corresponding block for the block that is intra-encoded, or both are motion blocks, the static motion determination unit 114 is intra-encoded. It is determined that the block is also a motion block, and when both or one of the pre-corresponding block and the post-corresponding block is a static block, it is determined that the intra-coded block is also a static block.
[0181]
When it is determined in step S44 that the target block is a still block, the process proceeds to step S43, and as described above, the mismatch information generation unit 115 confirms that the DCT type of the target data is correct as the mismatch information of the target data. The 1-bit 0 that represents is generated and output, and the process ends.
[0182]
If it is determined in step S44 that the target block is a motion block, the process proceeds to step S45, and the mismatch information generation unit 115 determines whether the DCT type of the target block is either the frame DCT mode or the field DCT mode. It is determined based on the output of the field / frame determination unit 112.
[0183]
If it is determined in step S45 that the DCT type of the target block is the field DCT mode, the process proceeds to step S43, and as described above, the mismatch information generation unit 115 uses the DCT of the target data as the mismatch information of the target data. A 1-bit 0 indicating that the type is correct is generated and output, and the process ends.
[0184]
If it is determined in step S45 that the DCT type of the block of interest is the frame DCT mode, the process proceeds to step S46, and the mismatch information generation unit 115 uses the DCT type of the data of interest (attention) as the mismatch information of the data of interest. For example, 1 bit 1 is generated and output indicating that the DCT type of the macro block is not correct, and the process is terminated.
[0185]
According to the embodiment of FIG. 15, for example, as shown in FIG. 16, in the adjacent 2 × 2 macroblocks MB # 1, # 2, # 3, and # 4, a circular moving in the horizontal direction When the object is displayed, the DCT type of the upper right macro block MB # 2 is the frame DCT mode, and the DCT types of the other three macro blocks MB # 1, # 3, and # 4 are the field DCT mode. When this is the case, the mismatch information generation unit 115 generates the following mismatch information.
[0186]
That is, all the blocks constituting the macroblocks MB # 1, # 2, # 3, and # 4 are motion blocks and should be DCT transformed in the field DCT mode. Therefore, if the data of the blocks constituting each of the macro blocks MB # 1, # 3, and # 4 in which the DCT type is in the field DCT mode is set as the attention data, it is confirmed that the DCT type is correct as mismatch information. A 1-bit representing 0 is generated. Further, when the data of the block constituting the macro block MB # 2 in which the DCT type is in the frame DCT mode is set as the attention data, 1 bit 1 indicating that the DCT type is not correct is used as mismatch information. Generated.
[0187]
In the embodiment of FIG. 15, only when the target block is a motion block and the DCT type is in the frame DCT mode, mismatch information indicating that the DCT type is incorrect is generated, In this case, mismatch information indicating that the DCT type is correct is generated. However, for example, when the target block is a motion block and the DCT type is in the frame DCT mode, Is a static block and the DCT type is in field DCT mode, mismatch information indicating that the DCT type is incorrect is generated, the target block is a motion block, and the DCT type is a field DCT. Mode and when the block of interest is a static block And that when the DCT type is in the frame DCT mode, it is also such that to generate a mismatch information indicating that DCT type is correct.
[0188]
Further, in the embodiment of FIG. 15, in order to simplify the description, 1-bit mismatch information indicating whether the DCT type is correct or incorrect is generated. However, as the mismatch information, for example, , DCT type of the data of interest, and information indicating whether the block including the data of interest (target block) is to be subjected to DCT conversion in the frame DCT mode or the field DCT mode (hereinafter referred to as a block as appropriate) It is also possible to generate a set with a type).
[0189]
Here, the block type represents, for example, the field DCT mode when the target block is a motion block, and represents the frame DCT mode when the target block is a stationary block. It is possible.
[0190]
Next, processing of the class classification adaptation processing unit 32 (FIG. 9) in the embodiment of FIG. 13 will be described.
[0191]
In the class classification adaptation processing unit 32, class classification adaptation processing is performed on the decoded image data output from the MPEG decoder 116 described in FIG. 14 constituting the preprocessing unit 31, and the adaptive processing data obtained as a result is It is output to the post-processing unit 33. The post-processing unit 33 outputs the adaptive processing data from the class classification adaptive processing unit 32 as it is as high-quality image data (high-quality image data).
[0192]
Therefore, in the embodiment of FIG. 13, the class classification adaptation processing unit 32 performs the class classification adaptation processing, so that the decoded image output from the MPEG decoder 116 of the preprocessing unit 31 and decoded from the encoded data in the MPEG system. The data is converted into high-quality image data and output.
[0193]
That is, in the class classification adaptive processing unit 32 (FIG. 9), the decoded image data output from the MPEG decoder 116 of the preprocessing unit 31 is supplied to the tap extraction units 51 and 52.
[0194]
The tap extraction unit 51 predicts some (pixels) of decoded image data used for predicting the attention data (pixel value thereof) using the pixels of the high-quality image data that are not yet the attention data as the attention data. Extract as a tap. The tap extraction unit 52 also extracts some of the decoded image data used for classifying the data of interest as class taps.
[0195]
Here, as described above, mismatch information is also supplied from the determination unit 22 to the tap extraction units 51 and 52, and the tap extraction units 51 and 52 are configured to use the prediction tap and the class based on the mismatch information. Each tap structure is changed.
[0196]
That is, for example, as described above, the set of the DCT type and block type of the block of interest is classified into the class classification from the determination unit 22 (the mismatch information generation unit 115 (FIG. 13)) as mismatch information about the data of interest. Assuming that the tap extraction unit 51 is supplied to the adaptive processing unit 32, the tap extraction unit 51 receives a set of the DCT type and block type of the target block as mismatch information, and from the decoded image data supplied from the MPEG decoder 116, For example, a prediction tap having a tap structure according to a tap structure setting table as shown in FIG. 17 is extracted.
[0197]
That is, when both the DCT type and the block type as mismatch information are in the field DCT mode, the tap extracting unit 51 configures a prediction tap having a pattern A tap structure including only field taps to be described later. Further, when the DCT type and the block type as mismatch information are the field DCT mode and the frame DCT mode, the tap extraction unit 51 has a tap structure of the pattern B in which the number of field taps is larger than the number of frame taps described later. Configure prediction taps for. Further, when the DCT type and the block type as mismatch information are the frame DCT mode and the field DCT mode, respectively, the tap extraction unit 51 predicts the tap structure of the pattern C in which the number of frame taps is larger than the number of field taps. Configure taps. Further, when both the DCT type and the block type as mismatch information are the frame DCT mode, the tap extraction unit 51 configures a prediction tap having a tap structure of a pattern D including only frame taps.
[0198]
Here, FIG. 18 shows a tap structure of patterns A to D. In FIG. 18, the ◯ marks represent the pixels of the decoded image data. In addition, a circle mark with a hatched line represents a pixel that is a field tap, and a mark ● represents a pixel that is a frame tap.
[0199]
FIG. 18A shows a tap structure of pattern A. The tap structure of the pattern A includes, for example, a pixel of decoded image data corresponding to the target data (hereinafter referred to as the target pixel as appropriate), two pixels adjacent to the left and right of the target pixel, and one pixel above the target pixel. Adjacent pixels, 2 pixels adjacent to the left and right of the pixel, 3 pixels above the pixel of interest adjacent to each other, 2 pixels adjacent to the left and right of the pixel, and 1 pixel below the pixel of interest A total of 25 pixels are composed of adjacent pixels, two pixels adjacent to the left and right of the pixel, pixels adjacent to each other in the downward direction of the pixel of interest, and two pixels adjacent to the left and right of the pixel.
[0200]
Here, the field tap means, for example, a pixel in which none of the two adjacent pixels above and below is a tap (in this case, a prediction tap or a class tap). In the tap structure of the pattern A in FIG. 18A, all the taps are field taps because the adjacent pixels above and below the taps are not taps.
[0201]
FIG. 18B shows a tap structure of pattern B. The tap structure of the pattern B includes, for example, the target pixel, two pixels adjacent to the left and right of the target pixel, two pixels adjacent to the left and right of the adjacent pixel in the upper direction of the target pixel, and the upward direction of the target pixel 1 pixel adjacent to the left and right of the adjacent pixels in 3 pixels, 2 pixels adjacent to the left and right of each adjacent pixel in the downward direction of the target pixel, and 3 pixels in the downward direction of the target pixel 1 pixel adjacent to the left and right of each pixel, 4 pixels adjacent above the target pixel, and 4 pixels adjacent below the target pixel, for a total of 25 pixels.
[0202]
Here, the frame tap means a pixel in which at least one of the adjacent pixels above or below is a tap. In the tap structure of the pattern B in FIG. 18B, a total of 9 pixels of the target pixel and the four pixels adjacent to the top and bottom of the target pixel are frame taps, and the remaining 16 pixels are field taps.
[0203]
FIG. 18C shows a tap structure of pattern C. The tap structure of the pattern C is, for example, the target pixel, two pixels adjacent to the left and right of the target pixel, two pixels adjacent to the left and right of the adjacent pixel in the upper direction of the target pixel, and the downward direction of the target pixel 2 pixels adjacent to the left and right of each adjacent pixel, 4 pixels adjacent to the top and bottom of the target pixel, one pixel adjacent to the left and right of the adjacent pixel above the target pixel, below the target pixel It is composed of a total of 25 pixels, one adjacent to the left and right of adjacent pixels.
[0204]
In the tap structure of pattern C, the pixel of interest, four pixels adjacent to the top and bottom of the pixel of interest, the pixel adjacent to the left of the pixel of interest, two pixels adjacent to the top and bottom of the pixel, the pixel adjacent to the right of the pixel of interest, A total of 19 pixels, which are two adjacent pixels above and below the pixel, are frame taps, and the remaining 6 pixels are field taps.
[0205]
FIG. 18D shows a tap structure of the pattern D. The tap structure of the pattern D includes, for example, a total of 25 pixels, which are adjacent to each other with the pixel of interest at the center and are 5 × 5 pixels in horizontal × vertical.
[0206]
In the tap structure of the pattern D, all the taps are frame taps because at least one pixel above or below is a tap.
[0207]
Based on the mismatch information, the tap extraction unit 51 (FIG. 9) configures a prediction tap having a tap structure of any one of the patterns A to D shown in FIG.
[0208]
Similarly to the tap extraction unit 51, the tap extraction unit 52 also configures a class tap having a tap structure based on mismatch information.
[0209]
Here, based on the mismatch information, only the pixel position of the decoded image data extracted as the prediction tap is changed, and the number of pixels constituting the prediction tap remains 25 pixels, but the tap is not changed. The extraction unit 51 can change the number of pixels of the decoded image data constituting the prediction tap based on the mismatch information.
[0210]
In addition, in the MPEG decoder 116 of the preprocessing unit 31, the quantized DCT coefficient in the encoded data uses a motion vector, DCT type, quantization step, picture type, and other decoding control information included in the encoded data. The tap extraction unit 51 can also include such decoding control information in the prediction tap. Further, in this case, it is also possible to change the decoding control information used as the prediction tap based on the mismatch information. Further, the tarp extraction unit 51 can include the quantized DCT coefficient included in the encoded data and the DCT coefficient obtained by inverse quantization of the quantized DCT coefficient in the prediction tap.
[0211]
In the tap extraction unit 52, class taps can be configured in the same manner as in the tap extraction unit 51.
[0212]
The prediction tap obtained by the tap extraction unit 51 is supplied to the prediction unit 54, and the class tap obtained by the tap extraction unit 52 is supplied to the class classification unit 53.
[0213]
In addition to the class tap, mismatch information about the attention data is also supplied to the class classification unit 53. As described above, the class classification unit 53 classifies the attention data based on the class tap and the mismatch information.
[0214]
That is, for example, the class classification unit 53 performs class classification by performing compression processing such as ADRC (Adaptive Dynamic Range Coding) processing on the class tap for the data of interest, and obtains a class code.
[0215]
Here, in class classification using ADRC processing, data (here, pixel values) constituting a class tap is subjected to ADRC processing, and for example, an ADRC code obtained as a result is used as a class code.
[0216]
In the K-bit ADRC, for example, the maximum value MAX and the minimum value MIN of the data constituting the class tap are detected, and DR = MAX-MIN is set as the local dynamic range of the set, and based on this dynamic range DR Thus, the data constituting the class tap is requantized to K bits. That is, the minimum value MIN is subtracted from each data constituting the class tap, and the subtracted value is DR / 2. K Divide by (quantize). A bit string obtained by arranging the K-bit data constituting the class tap in a predetermined order is output as an ADRC code. Therefore, for example, when a class tap is subjected to 1-bit ADRC processing, each data constituting the class tap is divided by the average value of the maximum value MAX and the minimum value MIN after the minimum value MIN is subtracted. Thus, each data is made 1 bit (binarized). Then, a bit string in which the 1-bit data is arranged in a predetermined order is output as an ADRC code.
[0217]
Note that the class classification unit 53 can output, for example, the level distribution pattern of the data constituting the class tap as a class code as it is. However, in this case, if the class tap is composed of N pieces of data and K bits are assigned to each data, the number of class codes output by the class classification unit 24 is (2 N ) K As a result, the number is exponentially proportional to the number of bits K of data.
[0218]
Therefore, the class classification unit 53 preferably performs class classification by compressing the information amount of the class tap by the above-described ADRC processing or vector quantization.
[0219]
Here, a class code obtained by classifying using a class tap is hereinafter referred to as a class tap code as appropriate.
[0220]
In addition to obtaining the class tap code as described above, the class classification unit 53 performs class classification using, for example, a set of a DCT type and a block type as mismatch information for the data of interest, thereby generating a 2-bit class. Ask for code.
[0221]
That is, if a class code obtained by class classification using mismatch information is referred to as a mismatch code, the class classification unit 53 indicates that both the DCT type and the block type as mismatch information indicate the field DCT mode. If there is, the 2-bit mismatch code is set to “00”, for example. Also, the class classification unit 53 sets the 2-bit mismatch code to “01”, for example, when the DCT type and the block type represent the field DCT mode and the frame DCT mode, respectively. Furthermore, the class classification unit 53 sets the 2-bit mismatch code to, for example, “10” when the DCT type and the block type represent the frame DCT mode and the field DCT mode, respectively. Further, the class classification unit 53 sets the 2-bit mismatch code to, for example, “11” when the DCT type and the block type both represent the frame DCT mode.
[0222]
Thereafter, the class classification unit 53 adds, for example, the mismatch code obtained for the noticed data as the upper bits of the class tap code obtained for the noticed data, and generates a code composed of the class tap code and the mismatch code. , And output as the final class code for the data of interest.
[0223]
The class classification unit 53 can perform class classification based on other decoding control information other than the DCT type, for example.
[0224]
The class code output from the class classification unit 53 is supplied to the coefficient memory 41. In the coefficient memory 41, the tap coefficient corresponding to the class code is read and supplied to the prediction unit 54.
[0225]
The prediction unit 54 performs the linear prediction calculation shown in Expression (1) using the prediction tap output from the tap extraction unit 51 and the tap coefficient acquired from the coefficient memory 41. Accordingly, the prediction unit 54 obtains attention data (predicted value thereof), that is, high-quality image data, and supplies it to the post-processing unit 33.
[0226]
As described above, the post-processing unit 33 outputs the output of the class classification adaptive processing unit 32 (prediction unit 54 thereof), that is, the high-quality image data as it is.
[0227]
In the above case, 1-bit information indicating whether the DCT type of the target block is correct or incorrect, or a set of the DCT type and block type of the target block is used as mismatch information. As the information, for example, an evaluation value indicating how much the DCT type of the block of interest is correct can be adopted.
[0228]
As an evaluation value representing the correctness of the DCT type of the target block, for example, when the DCT type of the target block is the field DCT mode, the size of the motion vector of the target block (target macroblock) is adopted. When the DCT type of the block of interest is the frame DCT mode, it is possible to employ a subtraction value obtained by subtracting the size of the motion vector of the block of interest from the maximum size of the motion vector. In this case, when the DCT type of the block of interest is the field DCT mode, the larger the motion vector of the block of interest is, and when the DCT type of the block of interest is the frame DCT mode, the size of the motion vector of the block of interest is large. The smaller the value, the larger the evaluation value.
[0229]
In this case, for example, the tap extraction unit 51 or 52 compares the evaluation value as mismatch information with one or more threshold values, and changes the tap structure of the prediction tap or the class tap based on the comparison result. It is possible to do so. In the class classification unit 53, for example, an evaluation value as mismatch information can be quantized, and the quantized value can be used as a mismatch code.
[0230]
Further, in the above-described case, whether the target block is a motion block or a still block is determined based on the motion vector of the target block, the motion vector of the pre-corresponding block or the post-corresponding block, and the static block or the motion block. However, the determination of whether the target block is a motion block or a still block is performed in addition to, for example, a motion vector of a block around the target block, a pre-corresponding block, or a post-corresponding block, etc. It is also possible to make a determination based on the above.
[0231]
Next, FIG. 19 shows a detailed configuration example of the learning device of FIG. 11 when learning the tap coefficients to be stored in the coefficient memory 41 of FIG.
[0232]
In the embodiment of FIG. 19, high-quality image data (learning image data) is stored in the learning data storage unit 11 as learning data.
[0233]
In the embodiment of FIG. 19, the encoding unit 12 includes an MPEG encoder 131. The MPEG encoder 131 reads learning image data from the learning data storage unit 11, encodes it using the MPEG2 method, and Output the resulting encoded data.
[0234]
That is, FIG. 20 shows a configuration example of the MPEG encoder 131 of FIG.
[0235]
The image data for learning is supplied to the motion vector detection unit 141 and the calculation unit 143. The motion vector detection unit 141 detects the motion vector of the learning image data, for example, by performing block matching on the learning image data, and supplies the motion vector to the motion compensation unit 142.
[0236]
In addition, the calculation unit 143 subtracts the prediction image supplied from the motion compensation unit 142 from the learning image data (original image) as necessary, and sends the residual image obtained as a result to the DCT conversion unit 144. Supply. The DCT conversion unit 144 DCT-transforms the residual image from the calculation unit 143 and supplies the DCT coefficient obtained as a result to the quantization unit 145. The quantization unit 145 obtains a quantized DCT coefficient by quantizing the DCT coefficient supplied from the DCT transform unit 144 at a predetermined quantization step, and supplies the quantized DCT coefficient to the VLC unit 146 and the inverse quantization unit 147. .
[0237]
The VLC unit 146 variable-length-encodes the quantized DCT coefficient supplied from the quantization unit 145 into a VLC code, and further performs necessary decoding control information (for example, the motion vector detected by the motion vector detection unit 141, the quantum The quantizing step used in the converting unit 145 is multiplexed to obtain and output encoded data.
[0238]
On the other hand, in the inverse quantization unit 147, the quantized DCT coefficient output from the quantization unit 145 is inversely quantized, and a DCT coefficient is obtained and supplied to the inverse DCT transform unit 148. The inverse DCT transform unit 148 decodes the DCT coefficient from the inverse quantization unit 147 into a residual image by performing inverse DCT transform, and supplies the residual image to the computation unit 149.
[0239]
The arithmetic unit 149 is supplied with the residual image from the inverse DCT transform unit 148, and also receives the same predicted image used in the arithmetic unit 143 to obtain the residual image from the motion compensation unit 142. The calculation unit 149 decodes the original image (local decoding) by adding the residual image and the predicted image. This decoded image is supplied to the memory 150 and stored as a reference image.
[0240]
Then, the motion compensation unit 142 reads the reference image stored in the memory 150 and performs motion compensation according to the motion vector supplied from the motion vector detection unit 141, thereby generating a predicted image. This predicted image is supplied from the motion compensation unit 142 to the calculation units 143 and 149.
[0241]
As described above, the calculation unit 143 obtains a residual image using the prediction image from the motion compensation unit 142, and the calculation unit 149 uses the prediction image from the motion compensation unit 142 to obtain the original image. The image is decoded.
[0242]
Returning to FIG. 19, the encoded data output from the MPEG decoder 131 is supplied to the decoding control information extraction unit 71.
[0243]
The decoding control information extraction unit 71 includes an inverse VLC unit 132. The inverse VLC unit 132 performs the same processing as the inverse VLC unit 111 in FIG. 13, and thereby extracts a DCT type, a picture type, a macroblock type, and a motion vector as a plurality of decoding control information from the encoded data. To the determination unit 72.
[0244]
The determination unit 72 includes a field / frame determination unit 133, an intra / non-intra determination unit 134, a static motion determination unit 135, and a mismatch information generation unit 136. In the field / frame determination unit 133, the intra / non-intra determination unit 134, the static motion determination unit 135, or the mismatch information generation unit 136, DCT types as a plurality of decoding control information supplied from the decoding control information extraction unit 71 , Picture type, macroblock type, and motion vector, respectively, the same as in the field / frame determination unit 112, intra / non-intra determination unit 113, static motion determination unit 114, or mismatch information generation unit 115 of FIG. As a result, mismatch information is generated for the teacher data that is the attention teacher data in the adaptive learning unit 60. This mismatch information is supplied from the mismatch information generation unit 136 to the adaptive learning unit 60.
[0245]
In the embodiment of FIG. 19, the reverse post-processing unit 61A reads the learning image data from the learning data storage unit 11 and outputs it as it is to the adaptive learning unit 60 as teacher data. In the adaptive learning unit 60 (FIG. 11), the teacher data from the inverse post-processing unit 61A is stored in the teacher data storage unit 62.
[0246]
The encoding unit 63A is composed of an MPEG encoder 137, and the MPEG encoder 137 reads learning image data from the learning data storage unit 11 and encodes it by the MPEG2 system, as in the case of the MPEG encoder 131, and is obtained as a result. The encoded data is output to the preprocessing unit 63B.
[0247]
The pre-processing unit 63B includes an MPEG decoder 138 configured in the same manner as the MPEG decoder 116 in FIG. 14. The MPEG decoder 138 decodes encoded data from the MPEG encoder 137 using the MPEG2 method, and is obtained as a result. The decoded image data is output to the adaptive learning unit 60 as student data. In the adaptive learning unit 60 (FIG. 11), the student data from the MPEG decoder 138 is stored in the student data storage unit 64.
[0248]
Then, the adaptive learning unit 60 uses the teacher data and the student data, and statistically calculates the prediction error of the predicted value of the teacher data obtained by performing the linear prediction calculation of Expression (1) from the prediction tap extracted from the student data. Learning to obtain a tap coefficient that is minimized is performed.
[0249]
That is, in the adaptive learning unit 60 (FIG. 11), the tap extraction unit 65 sets the teacher data stored in the teacher data storage unit 62 as not-notice teacher data as attention teacher data, and attention teacher data. Is configured from the student data stored in the student data storage unit 64 and supplied to the adding unit 68. Further, the tap extraction unit 66 configures class taps from the student data stored in the student data storage unit 64 for the teacher data of interest, and supplies the class taps to the class classification unit 67.
[0250]
Here, mismatch information is supplied to the tap extraction units 65 and 66, and each of the tap extraction units 65 and 66 uses the class classification described in FIG. 13 for the attention teacher data based on the mismatch information. A prediction tap or a class tap having the same tap structure as that formed by the tap extraction unit 51 or 52 (FIG. 9) of the adaptive processing unit 32 is configured.
[0251]
Therefore, for example, in the case where the tap extraction unit 51 or 52 configures each prediction tap or class tap using the decoding control information included in the encoded data as described with reference to FIG. Also in the learning device, the tap extraction unit 65 or 66 (FIG. 11) also uses the decoding control information to form a prediction tap or a class tap, respectively.
[0252]
Thereafter, in the class classification unit 67 (FIG. 11), based on the class tap and mismatch information for the attention teacher data, the same class classification as that in the class classification unit 53 described in FIG. The class code corresponding to the resulting class is output to the adding unit 68.
[0253]
The adding unit 68 reads the attention teacher data from the teacher data storage unit 62, and calculates the components of the matrix A and the vector v in Expression (8) using the attention teacher data and the prediction tap from the tap extraction unit 65. . Furthermore, the adding unit 68 is a matrix obtained from the attention teacher data and the prediction tap for the components corresponding to the class code from the class classification unit 67 among the components of the matrix A and the vector v that have already been obtained. Add the components of A and vector v.
[0254]
When the above processing is performed on all the teacher data stored in the teacher data storage unit 62 as attention teacher data, the adding unit 68 adds the matrix A and the vector v for each class obtained by the above processing. The normal equation of the equation (8) composed of components is supplied to the tap coefficient calculation unit 69, and the tap coefficient calculation unit 69 solves the normal equation for each class, thereby obtaining the tap coefficient for each class. Find and output.
[0255]
In the learning device of FIG. 19, for example, the number of pixels of the learning image data is thinned out to 1 / N before the MPEG image 137 of the encoding unit 63A encodes the learning image data. As a result, the adaptive learning unit 60 can obtain a tap coefficient of the MPEG decoded image data with high image quality and N-times the number of pixels (higher resolution).
[0256]
Next, FIG. 21 shows a second detailed configuration example of the decoding device of FIG. 6 when the encoded data is obtained by encoding image data by the MPEG2 system. In the figure, portions corresponding to those in FIG. 13 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0257]
In the embodiment of FIG. 21, the preprocessing unit 31 includes an inverse VLC unit 161, an inverse quantization unit 162, a calculation unit 163, an MPEG decoder 164, a memory 165, a motion compensation unit 166, and a DCT conversion unit 167. Yes.
[0258]
In the preprocessing unit 31, the encoded data is supplied to the inverse VLC unit 161 and the MPEG decoder 164.
[0259]
The inverse VLC unit 161 separates the VLC code of the quantized DCT coefficient from the encoded data, and also separates the quantization step, the motion vector, and other decoding control information. Then, the inverse VLC unit 161 performs inverse VLC processing on the VLC code of the quantized DCT coefficient to decode the quantized DCT coefficient, and supplies the quantized DCT coefficient to the inverse quantization unit 162. Further, the inverse VLC unit 161 supplies the quantization step to the inverse quantization unit 162 and the motion vector to the motion compensation unit 166, respectively.
[0260]
The inverse quantization unit 162 inversely quantizes the quantized DCT coefficient supplied from the inverse VLC unit 161 in the quantization step also supplied from the inverse VLC unit 161, and the DCT of the 8 × 8 pixel block obtained as a result The coefficient is supplied to the calculation unit 163.
[0261]
On the other hand, in the MPEG decoder 164, the encoded data is decoded by the MPEG method, and decoded image data is output. Of the decoded images output from the MPEG decoder 164, I and P pictures that can be used as reference images are supplied to the memory 165 and stored therein.
[0262]
Then, the motion compensation unit 166 reads the decoded image stored in the memory 165 as a reference image, and performs reverse motion compensation on the reference image according to the motion vector supplied from the inverse VLC unit 161, thereby A prediction image of the block supplied from the quantization unit 162 to the calculation unit 163 is generated and supplied to the DCT conversion unit 167. The DCT conversion unit 167 performs DCT conversion on the prediction image supplied from the motion compensation unit 166 and supplies the DCT coefficient obtained as a result to the calculation unit 163.
[0263]
The calculation unit 163 adds each DCT coefficient of the block supplied from the inverse quantization unit 162 and the corresponding DCT coefficient supplied from the DCT conversion unit 167 as necessary, thereby adding a pixel of the block. A DCT coefficient obtained by DCT transforming the value is obtained.
[0264]
That is, when the block supplied from the inverse quantization unit 162 is intra-coded, the DCT coefficient of the block supplied from the inverse quantization unit 162 is obtained by DCT transforming the original pixel value. Therefore, the calculation unit 163 outputs the DCT coefficient of the block supplied from the inverse quantization unit 162 as it is.
[0265]
Further, when the block supplied from the inverse quantization unit 162 is non-intra coded, the DCT coefficient of the block supplied from the inverse quantization unit 162 is the difference between the original pixel value and the predicted image. Since the value (residual image) is obtained by DCT transform, the calculation unit 163 calculates each DCT coefficient of the block supplied from the inverse quantization unit 162 and the predicted image supplied from the DCT transform unit 167. By adding the corresponding DCT coefficients obtained by DCT conversion, the DCT coefficients obtained by DCT conversion of the original pixel values are obtained and output.
[0266]
The DCT coefficient of the block output from the calculation unit 163 is supplied to the class classification adaptive processing unit 32 as preprocessing data.
[0267]
In the embodiment of FIG. 21, the class classification adaptation processing unit 32 performs the class classification adaptation processing for the DCT coefficients output from the preprocessing unit 31, whereby high-quality image data (predicted value thereof) is obtained. Is obtained as adaptive processing data.
[0268]
That is, in the class classification adaptive processing unit 32 (FIG. 9), the DCT coefficients output from the preprocessing unit 31 are supplied to the tap extraction units 51 and 52.
[0269]
The tap extraction unit 51 extracts, as prediction taps, some DCT coefficients as preprocessing data used for predicting the attention data using pixels of high-quality image data that are not yet attention data as attention data. The tap extraction unit 52 also extracts some of the DCT coefficients as preprocessing data used for classifying the data of interest as class taps.
[0270]
The tap extraction unit 51 or 52 changes the tap structure of the prediction tap or the class tap based on the mismatch information about the data of interest.
[0271]
That is, for example, the tap extraction unit 51 extracts all the DCT coefficients of the block of attention data (target block) and the necessary DCT coefficients in the blocks adjacent to the top, bottom, left, and right of the target block according to the mismatch information. Configure the prediction tap. The tap extraction unit 51 also forms a class tap in the same manner as the tap extraction unit 51.
[0272]
The prediction tap obtained by the tap extraction unit 51 is supplied to the prediction unit 54, and the class tap obtained by the tap extraction unit 52 is supplied to the class classification unit 53.
[0273]
Based on the class tap and mismatch information about the data of interest, the class classification unit 53 classifies the data of interest in the same manner as described with reference to FIG. 13 and supplies the class code of the data of interest to the coefficient memory 41. Is done. In the coefficient memory 41, the tap coefficient corresponding to the class code for the data of interest is read and supplied to the prediction unit 54.
[0274]
The prediction unit 54 acquires the tap coefficient supplied from the coefficient memory 41, and performs the linear prediction calculation shown in Expression (1) using the tap coefficient and the prediction tap output from the tap extraction unit 51. Accordingly, the prediction unit 54 obtains attention data (predicted value thereof), that is, high-quality image data, and supplies it to the post-processing unit 33.
[0275]
In the post-processing unit 33, the high-quality image data from the class classification adaptation processing unit 32 is output as it is.
[0276]
Therefore, in the embodiment of FIG. 21, the class classification adaptation processing unit 32 converts the DCT coefficients into high-quality image data.
[0277]
Next, FIG. 22 shows a detailed configuration example of the learning device in FIG. 11 when learning tap coefficients to be stored in the coefficient memory 41 of the decoding device in FIG. In the figure, portions corresponding to those in FIG. 19 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0278]
In the embodiment of FIG. 22, the preprocessing unit 63B includes an inverse VLC unit 171, an inverse quantization unit 172, a calculation unit 173, an MPEG decoder 174, a memory 175, a motion compensation unit 176, and a DCT conversion unit 177. The inverse VLC unit 171 through DCT conversion unit 177 are configured in the same manner as the inverse VLC unit 161 through DCT conversion unit 167 in FIG.
[0279]
Therefore, in the preprocessing unit 63B, the same processing as in the preprocessing unit 31 in FIG. 21 is performed on the encoded data output from the MPEG encoder 137 of the encoding unit 63A, and the DCT coefficient obtained thereby is converted. , And supplied to the adaptive learning unit 60 as student data.
[0280]
In the adaptive learning unit 60 (FIG. 11), the DCT coefficients supplied from the preprocessing unit 63B are stored as student data in the student data storage unit 64, and teacher data and student data are the same as described with reference to FIG. Is used to learn the tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by performing the linear prediction calculation of Equation (1) from the prediction tap extracted from the student data. Thus, the tap coefficient for each class for converting the DCT coefficient as the student data into the high-quality image data is obtained.
[0281]
However, in the embodiment of FIG. 22, in the adaptive learning unit 60 (FIG. 11), the tap extraction unit 51 or 52 in the class classification adaptation processing unit 32 (FIG. 9) in FIG. A prediction tap or a class tap having the same tap structure as that configured by is configured based on the mismatch information. Furthermore, the class classification unit 67 in the adaptive learning unit 60 (FIG. 11) in FIG. 22 performs the same class classification as the class classification unit 53 in the class classification adaptation processing unit 32 (FIG. 9) in FIG.
[0282]
Next, FIG. 23 shows a third detailed configuration example of the decoding device of FIG. 6 when the encoded data is obtained by encoding image data by the MPEG2 system. In the figure, portions corresponding to those in FIG. 21 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0283]
The decoding apparatus in FIG. 23 is configured in the same manner as in FIG. 21 except that the post-processing unit 33 is configured by an inverse DCT transform unit 181.
[0284]
In the embodiment of FIG. 23, in the class classification adaptation processing unit 32, class classification adaptation processing is performed on the DCT coefficients output from the preprocessing unit 31, and as a result, when inverse DCT transformation is performed, A DCT coefficient (hereinafter appropriately referred to as a high image quality DCT coefficient) (predicted value) from which image quality image data can be obtained is obtained as adaptive processing data.
[0285]
That is, in the class classification adaptive processing unit 32 (FIG. 9), the DCT coefficient as the preprocessing data output from the preprocessing unit 31 is supplied to the tap extraction units 51 and 52.
[0286]
The tap extraction unit 51 extracts, as prediction taps, some DCT coefficients as preprocessing data used for predicting the attention data using high-quality DCT coefficients that are not yet attention data as attention data. That is, the tap extraction unit 51 configures, for example, a prediction tap having the same tap structure as that in FIG. 21 for the attention data based on the mismatch information. Based on the mismatch information, the tap extraction unit 52 also configures class taps having the same tap structure as that in FIG.
[0287]
The prediction tap obtained by the tap extraction unit 51 is supplied to the prediction unit 54, and the class tap obtained by the tap extraction unit 52 is supplied to the class classification unit 53.
[0288]
Based on the class tap and mismatch information about the data of interest, the class classification unit 53 classifies the data of interest in the same manner as in FIG. 21, and supplies the class code for the data of interest to the coefficient memory 41. . In the coefficient memory 41, the tap coefficient corresponding to the class code for the data of interest is read and supplied to the prediction unit 54.
[0289]
The prediction unit 54 acquires the tap coefficient output from the coefficient memory 41, and performs the linear prediction calculation shown in Expression (1) using the tap coefficient and the prediction tap output from the tap extraction unit 51. As a result, the prediction unit 54 obtains attention data (predicted value thereof), that is, a high-quality DCT coefficient, and supplies it to the post-processing unit 33.
[0290]
In the post-processing unit 33, in the inverse DCT conversion unit 181, the high-quality DCT coefficients output from the class classification adaptation processing unit 32 are subjected to inverse DCT conversion in units of blocks, whereby high-quality image data is obtained and output. .
[0291]
Next, FIG. 24 illustrates a detailed configuration example of the learning device in FIG. 11 when learning tap coefficients to be stored in the coefficient memory 41 of the decoding device in FIG. In the figure, portions corresponding to those in FIG. 22 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0292]
The learning device in FIG. 24 is configured in the same manner as in FIG. 22 except that the reverse post-processing unit 61A is configured by a DCT conversion unit 191.
[0293]
Accordingly, in the reverse post-processing unit 61A, the DCT conversion unit 191 DCT-converts the high-quality image data as the learning image data read from the learning data storage unit 11 in units of blocks, and the resulting DCT A high-quality DCT coefficient that is a coefficient is supplied to the adaptive learning unit 60 as teacher data.
[0294]
In the adaptive learning unit 60 (FIG. 11), the high-quality DCT coefficient supplied from the inverse post-processing unit 61A is stored as teacher data in the teacher data storage unit 62 and stored in the teacher data and student data storage unit 64. Using the DCT coefficient as the student data (the DCT coefficient is obtained from the encoded data obtained by MPEG-coding the image data), the linear prediction of Expression (1) is performed from the prediction tap extracted from the student data. Learning is performed to obtain a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by performing the calculation, thereby converting the DCT coefficient as student data into a high-quality DCT coefficient Each tap coefficient is determined.
[0295]
That is, in this case, the DCT coefficient that is student data is obtained from the encoded data in the pre-processing unit 63B and includes a quantization error. Therefore, the DCT coefficient is subjected to inverse DCT conversion. The obtained image has a low image quality having a so-called block distortion or the like.
[0296]
Therefore, as described above, the adaptive learning unit 60 calculates the prediction value of the teacher data (high-quality DCT coefficient obtained by DCT conversion of learning image data) obtained by performing the linear prediction calculation of Expression (1). By performing learning for obtaining a tap coefficient that statistically minimizes the prediction error, a tap coefficient for each class that converts the DCT coefficient that is student data into a high-quality DCT coefficient is obtained.
[0297]
24, in the adaptive learning unit 60 (FIG. 11), the tap extraction unit 51 or 52 in the class classification adaptive processing unit 32 (FIG. 9) in FIG. A prediction tap or a class tap having the same tap structure as that configured by is configured based on the mismatch information. Furthermore, the class classification unit 67 in the adaptive learning unit 60 (FIG. 11) in FIG. 24 performs the same class classification as the class classification unit 53 in the class classification adaptation processing unit 32 (FIG. 9) in FIG.
[0298]
As described above, the correctness of the decoding control information included in the encoded data is determined, and based on the mismatch information representing the determination result, the encoded data is decoded and the tap coefficients used for the decoding are learned. Therefore, in learning, it is possible to obtain a tap coefficient for obtaining a prediction value close to the original image in consideration of the correctness of the decoding control information, and as a result, using such a tap coefficient, By decoding the digitized data, a high-quality image can be obtained.
[0299]
In other words, in the present embodiment, the correctness of the DCT type is determined, and the tap coefficient is learned in consideration of the determination result. In addition to obtaining a tap coefficient for decoding the part into a predicted value close to the original image, if the MPEG2 method is used for decoding, the part that becomes unnatural motion is converted into the original image. A tap coefficient for decoding to a close prediction value can be obtained. A high-quality image can be obtained by using such a tap coefficient and decoding the encoded data in consideration of the correctness of the DCT type.
[0300]
Next, the series of processes described above can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is installed in a general-purpose computer or the like.
[0301]
Therefore, FIG. 25 illustrates a configuration example of an embodiment of a computer in which a program for executing the above-described series of processes is installed.
[0302]
The program can be recorded in advance on a hard disk 405 or a ROM 403 as a recording medium built in the computer.
[0303]
Alternatively, the program is stored temporarily on a removable recording medium 411 such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, or a semiconductor memory. It can be stored permanently (recorded). Such a removable recording medium 411 can be provided as so-called package software.
[0304]
The program is installed in the computer from the removable recording medium 411 as described above, or transferred from the download site to the computer wirelessly via a digital satellite broadcasting artificial satellite, LAN (Local Area Network), The program can be transferred to a computer via a network such as the Internet, and the computer can receive the program transferred in this way by the communication unit 408 and install it in the built-in hard disk 405.
[0305]
The computer includes a CPU (Central Processing Unit) 402. An input / output interface 410 is connected to the CPU 402 via the bus 401, and the CPU 402 operates the input unit 407 including a keyboard, a mouse, a microphone, and the like by the user via the input / output interface 410. When a command is input by the equalization, a program stored in a ROM (Read Only Memory) 403 is executed accordingly. Alternatively, the CPU 402 may be a program stored in the hard disk 405, a program transferred from a satellite or a network, received by the communication unit 408, installed in the hard disk 405, or a removable recording medium 411 installed in the drive 409. The program read and installed in the hard disk 405 is loaded into a RAM (Random Access Memory) 404 and executed. Thereby, the CPU 402 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 402 outputs the processing result from the output unit 406 configured with an LCD (Liquid Crystal Display), a speaker, or the like via the input / output interface 410, or from the communication unit 408 as necessary. Transmission and further recording on the hard disk 405 are performed.
[0306]
Here, in this specification, the processing steps for describing a program for causing a computer to perform various types of processing do not necessarily have to be processed in time series according to the order described in the flowchart, but in parallel or individually. This includes processing to be executed (for example, parallel processing or processing by an object).
[0307]
Further, the program may be processed by one computer or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
[0308]
In the present embodiment, the case where the image data is encoded by the MPEG2 system has been described. However, the present invention is not limited to the MPEG2 system, and an image encoded by another lossy compression system is used. Applicable when decrypting.
[0309]
Further, in the present embodiment, the correctness (appropriateness) of the DCT type, which is one of the plurality of decoding control information included in the encoded data, is set as another one of the plurality of decoding control information. Is determined based on the motion vector, and decoding of the encoded data and learning of the tap coefficient are performed based on the mismatch information representing the determination result. In addition, a plurality of decoding controls included in the encoded data are performed. The correctness (adequacy) of information other than the DCT type is determined based on one or more of the plurality of decoding control information, and based on the mismatch information representing the determination result, the encoded data It is possible to perform decoding and learning of tap coefficients.
[0310]
【The invention's effect】
According to the decoding apparatus and the decoding method, the first program, and the first recording medium of the present invention, the correctness of the DCT type included in the encoded data is converted into the motion vector of the image data included in the encoded data. Based on the presence / absence of motion of image data in units of blocks, mismatch information representing the determination result is output. Of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the student data is the student data that corresponds to the low-quality data and becomes the learning student, and the teacher data that corresponds to the high-quality data and becomes the learning teacher. By performing the product-sum operation on the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation between the tap coefficient and the tap coefficient, Data is required. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame. Therefore, the encoded data can be decoded into high-quality image data.
[0311]
According to the learning device, the learning method, the second program, and the second recording medium of the present invention, teacher data serving as a teacher for learning tap coefficients is generated from the learning image data, and the student becomes a student. Student data is generated. Further, learning image data is encoded, and encoded learning data including a DCT type and a motion vector of the image data is output. Then, the correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the learning encoded data. Mismatch information representing the determination result is output. Furthermore, of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the teacher is obtained by multiplying the student data by the tap coefficient using the student data corresponding to the low-quality data and the teacher data corresponding to the high-quality data. A tap coefficient that statistically minimizes the prediction error of the predicted value of data is obtained, and attention data is obtained by performing a product-sum operation on the tap coefficient and the prediction tap. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame. Therefore, encoded data can be decoded into high-quality image data by the tap coefficient.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a decoding device to which the present invention has been applied.
FIG. 2 is a flowchart illustrating processing of a decoding device.
FIG. 3 is a block diagram illustrating a configuration example of another embodiment of a decoding device to which the present invention has been applied.
FIG. 4 is a block diagram illustrating a configuration example of an embodiment of a learning device to which the present invention has been applied.
FIG. 5 is a flowchart illustrating processing of the learning device.
FIG. 6 is a block diagram illustrating a more detailed configuration example of a decoding device to which the present invention has been applied.
FIG. 7 is a diagram for explaining a frame DCT mode and a field DCT mode.
FIG. 8 is a diagram schematically illustrating a decoded image when a macroblock on which a moving object is displayed is encoded in a frame DCT mode and a field DCT mode.
9 is a block diagram illustrating a configuration example of a class classification adaptation processing unit 32. FIG.
FIG. 10 is a flowchart illustrating processing of a decoding device.
FIG. 11 is a block diagram showing a more detailed configuration example of a learning apparatus to which the present invention is applied.
FIG. 12 is a flowchart illustrating processing of the learning device.
FIG. 13 is a block diagram illustrating a first configuration example of a decoding device that decodes encoded data encoded by the MPEG method.
14 is a block diagram illustrating a configuration example of an MPEG decoder 116. FIG.
FIG. 15 is a flowchart for explaining processing of the mismatch information generation unit 115;
FIG. 16 is a diagram schematically illustrating a decoded image when a macroblock on which a moving object is displayed is encoded in a frame DCT mode and a field DCT mode.
FIG. 17 is a diagram illustrating a tap structure setting table.
FIG. 18 is a diagram illustrating a tap structure of patterns A to D;
FIG. 19 is a block diagram illustrating a first configuration example of a learning device that learns tap coefficients used to decode encoded data encoded by the MPEG method;
20 is a block diagram illustrating a configuration example of an MPEG encoder 131. FIG.
FIG. 21 is a block diagram illustrating a second configuration example of a decoding device that decodes encoded data encoded by the MPEG method.
FIG. 22 is a block diagram illustrating a second configuration example of a learning device that learns tap coefficients used to decode encoded data encoded by the MPEG method.
FIG. 23 is a block diagram illustrating a third configuration example of a decoding device that decodes encoded data encoded by the MPEG method.
FIG. 24 is a block diagram illustrating a third configuration example of a learning device that learns tap coefficients used to decode encoded data encoded by the MPEG method.
FIG. 25 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present invention has been applied.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Mismatch detection part, 2 Decoding processing part, 3 Parameter storage part, 11 Learning data storage part, 12 Encoding part, 13 Mismatch detection part, 14 Learning processing part, 21 Decoding control information extraction part, 22 Determination part, 31 Before Processing unit, 32 class classification adaptive processing unit, 33 post-processing unit, 41 coefficient memory, 51, 52 tap extraction unit, 53 class classification unit, 54 prediction unit, 60 adaptive learning unit, 61 teacher data generation unit, 61A reverse post-processing Unit, 62 teacher data storage unit, 63 student data generation unit, 63A encoding unit, 63B preprocessing unit, 64 student data storage unit, 65, 66 tap extraction unit, 67 class classification unit, 68 addition unit, 69 tap coefficient Calculation unit, 71 decoding control information extraction unit, 72 determination unit, 111 inverse VLC unit, 112 field / frame determination unit, 113 intra / Non-intra decision unit, 114 static motion decision unit, 115 mismatch information generation unit, 116 MPEG decoder, 121 inverse VLC unit, 122 inverse quantization unit, 123 inverse DCT conversion unit, 124 operation unit, 125 motion compensation unit, 126 memory , 127 picture selection unit, 131 MPEG encoder, 132 inverse VLC unit, 133 field / frame determination unit, 134 intra / non-intra determination unit, 135 still motion determination unit, 136 mismatch information generation unit, 137 MPEG encoder, 138 MPEG decoder, 141 motion vector detection unit, 142 motion compensation unit, 143 calculation unit, 144 DCT conversion unit, 145 quantization unit, 146 VLC unit, 147 inverse quantization unit, 148 inverse DCT conversion unit, 149 calculation unit, 150 memory, 161 inverse VLC section, 16 Inverse quantization unit, 163 calculation unit, 164 MPEG decoder, 165 memory, 166 motion compensation unit, 167 DCT conversion unit, 171 inverse VLC unit, 172 inverse quantization unit, 173 calculation unit, 174 MPEG decoder, 175 memory, 176 motion Compensation unit, 177 DCT conversion unit, 181 inverse DCT conversion unit, 191 DCT conversion unit, 401 bus, 402 CPU, 403 ROM, 404 RAM, 405 hard disk, 406 output unit, 407 input unit, 408 communication unit, 409 drive, 410 I / O interface, 411 removable recording media

Claims (24)

画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号する復号装置において、
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算手段と
を有する復号手段と
を備え、
前記予測タップ抽出手段は、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする復号装置。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a decoding device for decoding encoded data,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result Judgment means for outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the higher-quality image than the low-quality image obtained by decoding the encoded data. Prediction tap extraction means for extracting some of the low-quality data in pixel units of the low-quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decoding means comprising:
The prediction tap extraction means is based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is incorrect, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
前記判定手段は、
前記ブロック単位の画像データに動きがある場合において、そのブロックについてのDCTタイプがフレームDCTモードであるとき、そのDCTタイプが正しくないと判定する
ことを特徴とする請求項1に記載の復号装置。
The determination means includes
2. The decoding device according to claim 1, wherein when there is a motion in the image data of the block unit, when the DCT type for the block is a frame DCT mode, it is determined that the DCT type is not correct.
前記符号化データは、前記ブロック単位の画像データを対象に、ノンイントラ符号化、または前記予測画像を用いない符号化であるイントラ符号化を行うことにより得られたものであり、
前記判定手段は、
イントラ符号化されたブロックについては、そのブロックのフレームの前または後のフレームのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定し、
ノンイントラ符号化されたブロックについては、そのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定する
ことを特徴とする請求項2に記載の復号装置。
The encoded data is obtained by performing non-intra encoding or intra encoding that is encoding that does not use the predicted image for the block-unit image data.
The determination means includes
For an intra-coded block, the presence or absence of motion of image data is determined based on the motion vector in a block of a frame before or after the frame of the block;
The decoding apparatus according to claim 2, wherein the presence or absence of motion of image data is determined for a non-intra coded block based on the motion vector in the block.
前記復号手段は、
前記注目データを、複数のクラスのうちのいずれかのクラスにクラス分類するのに用いる画素単位の前記低品質データの幾つかを、クラスタップとして抽出するクラスタップ抽出手段と、
前記注目データを、前記クラスタップを構成する前記低品質データの値に対応するクラスにクラス分類し、前記注目データのクラスを表すクラスコードを出力するクラス分類手段と、
前記クラスごとの前記タップ係数から、前記クラスコードに対応するタップ係数を取得するタップ係数取得手段と
をさらに有し、
前記予測演算手段は、前記予測タップ抽出手段が出力する予測タップと、前記タップ係数取得手段において得られたタップ係数との積和演算を行うことにより、前記注目データを求める
ことを特徴とする請求項1に記載の復号装置。
The decoding means includes
Class tap extraction means for extracting some of the low quality data in pixel units used as a class tap for classifying the attention data into any one of a plurality of classes;
Classifying means for classifying the attention data into classes corresponding to values of the low quality data constituting the class tap, and outputting a class code representing the class of the attention data;
Tap coefficient acquisition means for acquiring a tap coefficient corresponding to the class code from the tap coefficient for each class; and
The prediction calculation means obtains the attention data by performing a product-sum operation on the prediction tap output by the prediction tap extraction means and the tap coefficient obtained by the tap coefficient acquisition means. Item 4. A decoding device according to Item 1.
前記クラスタップ抽出手段は、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記クラスタップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記クラスタップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記クラスタップを抽出する
ことを特徴とする請求項4に記載の復号装置。
The class tap extraction means is based on the mismatch information,
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the class tap is extracted from the low quality data in the field of the target data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the class tap is extracted from the low quality data of the frame of the target data;
The class tap is extracted from the low quality data of both the field and the frame of the data of interest when the mismatch information indicates that the DCT type is not correct. Decoding device.
前記クラス分類手段は、前記ミスマッチ情報にも基づいて、前記クラスタップを構成する前記低品質データの値と、前記ミスマッチ情報の値とに対応するクラスに、前記注目データをクラス分類する
ことを特徴とする請求項4に記載の復号装置。
The class classification means classifies the data of interest into a class corresponding to a value of the low quality data constituting the class tap and a value of the mismatch information based on the mismatch information. The decoding device according to claim 4.
前記符号化データは、画像データを、MPEG(Moving Picture Experts Group)方式によって符号化することにより得られたものである
ことを特徴とする請求項1に記載の復号装置。
The decoding apparatus according to claim 1, wherein the encoded data is obtained by encoding image data according to an MPEG (Moving Picture Experts Group) method.
前記低品質データは、前記符号化データをMPEG(Moving Picture Experts Group)方式にしたがって復号して得られる画像データであり、
前記高品質データは、前記低品質データである画像データよりも高画質の画像データである
ことを特徴とする請求項1に記載の復号装置。
The low-quality data is image data obtained by decoding the encoded data according to the MPEG (Moving Picture Experts Group) system,
The decoding apparatus according to claim 1, wherein the high quality data is image data with higher image quality than image data that is the low quality data.
前記低品質データは、前記符号化データをMPEG(Moving Picture Experts Group)方式にしたがって復号して得られる画像データのDCT係数であり、
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データである
ことを特徴とする請求項1に記載の復号装置。
The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The decoding apparatus according to claim 1, wherein the high-quality data is image data with higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
前記低品質データは、前記符号化データをMPEG(Moving Picture Experts Group)方式にしたがって復号して得られる画像データのDCT係数であり、
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データのDCT係数である
ことを特徴とする請求項1に記載の復号装置。
The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The decoding apparatus according to claim 1, wherein the high-quality data is a DCT coefficient of image data having higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号する復号方法において、
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップと
を含む復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする復号方法。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a decoding method for decoding encoded data,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result A determination step of outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decryption step comprising:
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号する復号処理を、コンピュータに行わせるプログラムにおいて、
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップと
を含む復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とするプログラム。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a program for causing a computer to perform a decoding process for decoding encoded data,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result A determination step of outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decryption step comprising:
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号する復号処理を、コンピュータに行わせるプログラムが記録されている記録媒体において、
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップと
を含む復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
プログラムが記録されている
ことを特徴とする記録媒体。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT conversion is performed in a predetermined block unit in a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a recording medium on which a program for causing a computer to perform a decoding process for decoding encoded data is recorded,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result A determination step of outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decryption step comprising:
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, a program for extracting the prediction tap from the low-quality data of both the field and frame of the data of interest is recorded. Recording media to be used.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号するのに用いられるタップ係数を学習する学習装置において、
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化手段と、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算手段と
を有する学習手段と、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算手段
を有する復号手段と
を備え、
前記予測タップ抽出手段は、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする学習装置。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a learning device that learns tap coefficients used to decode encoded data,
Teacher data generation means for generating and outputting teacher data serving as a teacher for learning the tap coefficient from image data for learning;
Student data generation means for generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
Encoding means for encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. Determining means for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the higher-quality image than the low-quality image obtained by decoding the encoded data. Prediction tap extraction means for extracting some of the low-quality data in pixel units of the low-quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of the predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning means having a tap coefficient calculating means for obtaining a statistically minimum tap coefficient;
Decoding means having prediction calculation means for obtaining the data of interest by performing the product-sum calculation of the tap coefficient and the prediction tap;
The prediction tap extraction means is based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
前記判定手段は、
前記ブロック単位の画像データに動きがある場合において、そのブロックについてのDCTタイプがフレームDCTモードであるとき、そのDCTタイプが正しくないと判定する
ことを特徴とする請求項14に記載の学習装置。
The determination means includes
The learning apparatus according to claim 14, wherein when there is a motion in the block-unit image data and the DCT type for the block is a frame DCT mode, the DCT type is determined to be incorrect.
前記符号化データは、前記ブロック単位の画像データを対象に、ノンイントラ符号化、または前記予測画像を用いない符号化であるイントラ符号化を行うことにより得られたものであり、
前記判定手段は、
イントラ符号化されたブロックについては、そのブロックのフレームの前または後のフレームのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定し、
ノンイントラ符号化されたブロックについては、そのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定する
ことを特徴とする請求項15に記載の学習装置。
The encoded data is obtained by performing non-intra encoding or intra encoding that is encoding that does not use the predicted image for the block-unit image data.
The determination means includes
For an intra-coded block, the presence or absence of motion of image data is determined based on the motion vector in a block of a frame before or after the frame of the block;
The learning apparatus according to claim 15, wherein the presence or absence of motion of image data is determined for a non-intra coded block based on the motion vector in the block.
前記学習手段は、
前記注目データを、複数のクラスのうちのいずれかのクラスにクラス分類するのに用いる画素単位の前記低品質データの幾つかを、クラスタップとして抽出するクラスタップ抽出手段と、
前記注目データを、前記クラスタップを構成する前記低品質データの値に対応するクラスにクラス分類し、前記注目データのクラスを表すクラスコードを出力するクラス分類手段と
をさらに有し、
前記タップ係数演算手段は、前記予測タップとタップ係数とを用いて積和演算を行うことにより得られる前記教師データの予測値の予測誤差が統計的に最小になる前記タップ係数を、前記クラスごとに求める
ことを特徴とする請求項14に記載の学習装置。
The learning means includes
Class tap extraction means for extracting some of the low quality data in pixel units used as a class tap for classifying the attention data into any one of a plurality of classes;
Classifying means for classifying the attention data into classes corresponding to values of the low quality data constituting the class tap, and classifying means for outputting a class code representing the class of the attention data; and
The tap coefficient calculation means, for each class, the tap coefficient for which the prediction error of the predicted value of the teacher data obtained by performing a product-sum operation using the prediction tap and the tap coefficient is statistically minimized. The learning device according to claim 14, characterized in that:
前記符号化手段は、学習用の画像データを、MPEG(Moving Picture Experts Group)方式によって符号化して、前記学習用の符号化データを出力する
ことを特徴とする請求項14に記載の学習装置。
15. The learning apparatus according to claim 14, wherein the encoding means encodes learning image data by an MPEG (Moving Picture Experts Group) method and outputs the learning encoded data.
前記低品質データは、前記符号化データをMPEG(Moving Picture Experts Group)方式にしたがって復号して得られる画像データであり、
前記高品質データは、前記低品質データである画像データよりも高画質の画像データである
ことを特徴とする請求項14に記載の学習装置。
The low-quality data is image data obtained by decoding the encoded data according to the MPEG (Moving Picture Experts Group) system,
The learning apparatus according to claim 14, wherein the high quality data is image data with higher image quality than image data that is the low quality data.
前記低品質データは、前記符号化データをMPEG(Moving Picture Experts Group)方式にしたがって復号して得られる画像データのDCT係数であり、
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データである
ことを特徴とする請求項14に記載の学習装置。
The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The learning device according to claim 14, wherein the high-quality data is image data with higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
前記低品質データは、前記符号化データをMPEG(Moving Picture Experts Group)方式にしたがって復号して得られる画像データのDCT係数であり、
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データのDCT係数である
ことを特徴とする請求項14に記載の学習装置。
The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The learning apparatus according to claim 14, wherein the high-quality data is a DCT coefficient of image data having higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号するのに用いられるタップ係数を学習する学習方法において、
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップと
を有する学習ステップと、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップ
を有する復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする学習方法。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a learning method for learning tap coefficients used to decode encoded data,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the image data for learning; and
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
An encoding step of encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. And a determination step for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of a predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning step having a tap coefficient calculation step for obtaining a tap coefficient that is statistically minimized;
A decoding step including a prediction calculation step for obtaining the data of interest by performing the product-sum operation on the tap coefficient and the prediction tap,
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号するのに用いられるタップ係数を学習する学習処理を、コンピュータに行わせるプログラムにおいて、
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップと
を有する学習ステップと、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップ
を有する復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とするプログラム。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a program for causing a computer to perform a learning process for learning a tap coefficient used to decode encoded data,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the image data for learning; and
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
An encoding step of encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. And a determination step for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of a predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning step having a tap coefficient calculation step for obtaining a tap coefficient that is statistically minimized;
A decoding step including a prediction calculation step for obtaining the data of interest by performing the product-sum operation on the tap coefficient and the prediction tap,
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
画像データを符号化した符号化データであって、少なくとも、前記画像データから動きベクトルを検出し、その動きベクトルを用いて動き補償を行うことにより予測画像を生成し、前記画像データと予測画像との差分を、所定のブロック単位で、フィールドDCT(Discrete Cosine Transform)モードまたはフレームDCTモードによりDCT変換したときのフィールドDCTモードまたはフレームDCTモードを表すDCTタイプと、前記画像データの動きベクトルとを含む符号化データを復号するのに用いられるタップ係数を学習する学習処理を、コンピュータに行わせるプログラムが記録されている記録媒体において、
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップと
を有する学習ステップと、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップ
を有する復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
プログラムが記録されている
ことを特徴とする記録媒体。
Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a recording medium on which a program for causing a computer to perform a learning process for learning a tap coefficient used for decoding encoded data is recorded,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the image data for learning; and
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
An encoding step of encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. And a determination step for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of a predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning step having a tap coefficient calculation step for obtaining a tap coefficient that is statistically minimized;
A decoding step including a prediction calculation step for obtaining the data of interest by performing the product-sum operation on the tap coefficient and the prediction tap,
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, a program for extracting the prediction tap from the low-quality data of both the field and frame of the data of interest is recorded. Recording media to be used.
JP2002061419A 2002-03-07 2002-03-07 Decoding device and decoding method, learning device and learning method, program, and recording medium Expired - Fee Related JP4081745B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002061419A JP4081745B2 (en) 2002-03-07 2002-03-07 Decoding device and decoding method, learning device and learning method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002061419A JP4081745B2 (en) 2002-03-07 2002-03-07 Decoding device and decoding method, learning device and learning method, program, and recording medium

Publications (3)

Publication Number Publication Date
JP2003264837A JP2003264837A (en) 2003-09-19
JP2003264837A5 JP2003264837A5 (en) 2005-09-02
JP4081745B2 true JP4081745B2 (en) 2008-04-30

Family

ID=29195737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002061419A Expired - Fee Related JP4081745B2 (en) 2002-03-07 2002-03-07 Decoding device and decoding method, learning device and learning method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4081745B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6499060B1 (en) 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
US8634413B2 (en) 2004-12-30 2014-01-21 Microsoft Corporation Use of frame caching to improve packet loss recovery
ES2586946T3 (en) * 2010-07-30 2016-10-19 Deutsche Telekom Ag Method and apparatus for evaluating the quality of a video sequence by temporarily synchronizing the encrypted bit stream of a video encoder with the processed video sequence obtained by an external video decoder

Also Published As

Publication number Publication date
JP2003264837A (en) 2003-09-19

Similar Documents

Publication Publication Date Title
US20210258579A1 (en) Method and device for encoding or decoding image
JP6336438B2 (en) Method, program, and computer system
US8687711B2 (en) Encoding filter coefficients
US8553768B2 (en) Image encoding/decoding method and apparatus
US7289671B2 (en) Data processing apparatus and method and recording medium
US7782955B2 (en) Transcoder and transcoding method operating in a transform domain for video coding schemes possessing different transform kernels
US20090232207A1 (en) Method and apparatus for encoding/decoding image based on intra prediction
US20080232705A1 (en) Method and apparatus for image encoding and image decoding
JPWO2009084340A1 (en) Moving picture coding apparatus and moving picture decoding apparatus
US20060093041A1 (en) Intra-frame prediction for high-pass temporal-filtered frames in wavelet video coding
KR20120116936A (en) Method for coding and method for reconstruction of a block of an image
JP4847076B2 (en) Method and transcoder for estimating output macroblocks and motion vectors for transcoding
KR20060128596A (en) Video encoding method, video decoding method, video encoder, and video decoder, which use smoothing prediction
CN1695381A (en) Sharpness enhancement in post-processing of digital video signals using coding information and local spatial features
JP2010534015A (en) Image processing method and corresponding electronic device
MX2014015293A (en) Encoding device, decoding device, and program.
KR20130129418A (en) Compression of pictures
JP4494803B2 (en) Improved noise prediction method and apparatus based on motion compensation, and moving picture encoding method and apparatus using the same
US20040005077A1 (en) Anti-compression techniques for visual images
JP4081745B2 (en) Decoding device and decoding method, learning device and learning method, program, and recording medium
JP2003061091A (en) Method and apparatus for up-sampling compressed bitstream
US20090279610A1 (en) Method and apparatus for encoding/decoding with interlace scanning based motion vector transformation
JP4784618B2 (en) Moving picture encoding apparatus, moving picture decoding apparatus, moving picture encoding program, and moving picture decoding program
JP4752088B2 (en) Data processing apparatus, data processing method, and recording medium
JP4517448B2 (en) Data processing apparatus, data processing method, and recording medium

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050303

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080131

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140222

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees