JP2008136001A

JP2008136001A - 符号化方式変換装置

Info

Publication number: JP2008136001A
Application number: JP2006320918A
Authority: JP
Inventors: Hiroshi Arakawa; 博荒川; Tatsuro Shigesato; 達郎重里; Kazuo Saigo; 賀津雄西郷; Hideyuki Okose; 秀之大古瀬; Koji Arimura; 耕治有村; Hiroshi Tasaka; 啓田坂; Hisaki Maruyama; 悠樹丸山
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-11-28
Filing date: 2006-11-28
Publication date: 2008-06-12

Abstract

【課題】変換後の動画像データの再生時の画質を向上させ、かつ、安定的に再生されるように変換する符号化方式変換装置を提供すること。
【解決手段】第１の符号化方式で符号化された第１の動画像データの符号化方式を、第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換する符号化方式変換装置であって、第１の動画像データを復号化する動画像復号化部１０１と、第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する遅延時間抽出部１０３と、抽出された情報に示されるバッファ初期遅延時間が入力されると、バッファ初期遅延時間より大きな値を、変換後のバッファ初期遅延時間として決定する遅延時間決定部１０４と、復号化された第１の動画像データを第２の符号化方式で符号化し、第２の動画像データを得るとともに、第２の動画像データに、決定された変換後のバッファ初期遅延時間を設定する動画像符号化部１０２とを備える。
【選択図】図１

Description

本発明は、デジタル放送などで用いられている圧縮画像データをより少ない符号量に再圧縮する符号化方式変換装置に関する。

従来、動画像データの圧縮方式として、デジタル衛星放送やＤＶＤ−Ｖｉｄｅｏなど高画質の動画像に適用されるＭＰＥＧ−２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐｐｈａｓｅ２）がある。

このＭＰＥＧ−２等の動画像符号化方式では、復号化を行うデコーダ側の、圧縮画像データを蓄積するバッファにおいてオーバーフローおよびアンダーフローを発生させないように圧縮画像データを作成するよう規格で定められている。

このことについて、ＭＰＥＧ−２では、規格書（ＩＳＯ／ＩＥＣ１３８１８−２）のＡｎｎｅｘＣ（ＶｉｄｅｏＢｕｆｆｅｒＶｅｒｉｆｉｅｒ）節に記載されており、そこでの模式図を図８（ａ）に示す。

図８（ａ）は、ＭＰＥＧ−２の圧縮画像データのデコーダ側バッファにおける占有量の時間変化の一例を示す図である。

図８（ａ）に示すように、デコーダに入力された圧縮画像データは、バッファへの蓄積が開始された時刻０から、所定の時間“ｖｂｖ＿ｄｅｌａｙ”の経過後に、最初のフレームを構成するデータが、バッファから瞬時に引き抜かれる。また、その後、１／Ｔ秒ごとに、各フレームを構成するデータが、バッファから引き抜かれる。

ここで、“ｖｂｖ＿ｄｅｌａｙ”は、圧縮画像データのバッファへの蓄積の開始から、バッファに蓄積されたデータのバッファからの引き抜きの開始までの時間であり、「バッファ初期遅延時間」または単に「初期遅延時間」と呼ぶ。なお、バッファから引き抜かれた圧縮画像データは復号を行う処理部で復号化され、再生等される。

また、“Ｔ”は、一般にフレームレートと呼ばれる数値であり、1秒間にどれだけの数のフレームが更新されるか、という値である。

また、このような圧縮画像データについて、データ量を削減する符号化方式変換技術（トランスコード技術）がある（例えば、特許文献１参照）。

特許文献１記載のトランスコード技術によれば、入力されたＭＰＥＧ−２トランスポートストリーム（ＴＳ）から圧縮画像データのストリームであるビデオＴＳと、圧縮音声データのストリームであるオーディオＴＳとを分離する。

さらに、上記分離により得られたビデオＴＳに対し、符号量削減のためのトランスコードを行う。また、このトランスコードの前後で、ＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）およびＤＴＳ（ＤｅｃｏｄｉｎｇＴｉｍｅＳｔａｍｐ）は同じ値とする（第２０頁、段落番号［０１６５］）。

最後に、トランスコード後のビデオＴＳと上記分離で得られたオーディオＴＳとを多重化し出力する。

ここで、ＰＴＳおよびＤＴＳは、画像と音声とを同期して再生させるための時刻情報である。具体的には、ＰＴＳは、いつ再生を行うかを示す時刻情報であり、ＤＴＳは、いつ復号化を行うかを示す時刻情報である。また、これらは、ストリームを構成する各ＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）のヘッダ部分に含まれている。

すなわち、上記従来の技術では、バッファ初期遅延時間である“ｖｂｖ＿ｄｅｌａｙ”をトランスコードの前後で同じにすることを意味している。

これにより、トランスコードに係る処理を簡易化しつつ、入力されたデータの符号量を削減して出力することができる。
特開２００１―２５１６１６号公報

ここで、上記従来の技術を用い、入力データのビットレートを半分にする場合を想定する。この場合、デコーダ側バッファにおける圧縮画像データの占有量の推移は、図８（ｂ）に示すようになる。

図８（ｂ）は、従来のトランスコード技術によりビットレートを半分にした場合のデコーダ側バッファにおける圧縮画像データの占有量の推移の一例を示す図である。

具体的には、入力された圧縮画像データが、ビットレートが２４Ｍｂｐｓである図８（ａ）に示す圧縮画像データであり、トランスコード後のビットレートが１２Ｍｂｐｓである場合を想定している。

このようにビットレートを半分にし、かつ、“ｖｂｖ＿ｄｅｌａｙ”はトランスコード前と等しくした場合、先頭フレームの再生のためにバッファから引き抜かれる符号量は、理論上、図８（ａ）に示す符号量Ｖ₁の半分である符号量Ｖ₂になる。

このような場合でも、トランスコード後の先頭フレームを構成するデータの符号量がＶ₂以下であれば、デコーダは先頭フレームを正常に復号化することができる。

しかし、トランスコード後の先頭フレームを構成するデータの符号量がＶ₂を超える場合、復号化により得られる画像の画質が低下する、または、復号化自体が行えない等の不具合が発生することになる。

例えば、近年、ＭＰＥＧ−２よりも符号化効率の高い符号化方式であるＭＰＥＧ−４／ＡＶＣが動画像の圧縮符号化に用いられている。

このＭＰＥＧ−４／ＡＶＣにより圧縮符号化された動画像データにおいては、動きベクトルの精度が高く、また、１６×１６画素から４×４画素までの動き補償サイズを選択できるため、ＰフレームおよびＢフレームに対する符号化効率が高い。そのため、先頭フレームであるＩフレームに、より多くの符号量を割当てることが可能である。

ここで、Ｉフレームは、圧縮画像データの復号化の際に複数のＰフレームおよびＢフレームから参照されるフレームである。つまり、Ｉフレームの符号量が大きい場合、複数のフレームから共通して参照される画像の画質が高いことを意味する。

そのため、Ｉフレームの符号量を大きくすることで、当該圧縮画像データが再生された際の画質を、Ｉフレームの符号量大を大きくする前の画質よりも高いものとすることが可能である。

特に動きの少ないシーケンスにおいて、Ｉフレームにより多くの符号量を割り当てることにより、画質を改善することが可能となる。

つまり、ＭＰＥＧ−４／ＡＶＣに規定される符号化方式は、Ｉフレームの符号量が、符号化効率と比して比較的大きい、または大きくすることができるという特性を有している。そして、この特性を生かし、Ｉフレームの符号量を大きくし、ＰフレームおよびＢフレームの符号量を小さくすることで全体の符号量を増加させずに再生時の画質を向上させることができるという特徴がある。

そこで、例えば、ＭＰＥＧ−２の圧縮画像データ（ビットレート：２４Ｍｂｐｓ）を、ＭＰＥＧ−４／ＡＶＣ（ビットレート：１２Ｍｂｐｓ）の圧縮画像データに変換する場合を想定する。

この場合、上記従来の技術のように、バッファ初期遅延時間を、トランスコードの前後で同じにした場合、例えば、画質の向上等を目的として先頭フレームであるＩフレームの符号量を大きくすると、当該符号量がＶ₂を超える場合がある。

この場合、先頭フレームの再生に本来的に必要な符号量がバッファに蓄積されていない状態で、バッファに蓄積されたデータが引き抜かれることになる。そのため、上述のように先頭フレームを正常に復号化できないという不具合が発生することになる。

一方で、このような不具合の発生を防ぐためには、先頭フレームの符号量をＶ₂以下に制限することも考えられるが、このように先頭フレームの符号量を制限するということは、画質を向上させることが困難となることを意味する。

また、先頭フレームであるＩフレームだけでなく、先頭以降のＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）毎に挿入されるＩフレームにおいても、おおむねバッファ初期遅延時間に相当する符号量（Ｖ₂）に制限され、上述の不具合が発生することになる。

本発明は、前記従来の課題を考慮し、符号化された動画像データの符号化方式を符号化効率の高い符号化方式に変換する際に、変換後の動画像データの再生時の画質を向上させ、かつ、安定的に再生されるように変換する符号化方式変換装置を提供することを目的とする。

上記従来の課題を解決するために、本発明の符号化方式変換装置は、第１の符号化方式で符号化された第１の動画像データの符号化方式を、前記第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換する符号化方式変換装置であって、前記第１の動画像データを復号化する復号化手段と、前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出手段と、抽出された前記情報に示される前記バッファ初期遅延時間が入力されると、前記バッファ初期遅延時間より大きな値を変換後のバッファ初期遅延時間として決定する決定手段と、復号化された前記第１の動画像データを前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化手段とを備える。

このように、本発明の符号化方式変換装置は、入力される動画像データに符号化方式変換処理を行う際、変換後のバッファ初期遅延時間の値を変換前よりも大きくすることができる。

これにより、変換後の先頭フレームの符号量を増やすことができ、結果として第２の動画像データが再生された際の画質を向上させ、かつ、安定的に再生させることができる。

また、さらに、（ａ）前記第２の動画像データのビットレートとしてとりうる複数の値と、（ｂ）前記複数の値それぞれに応じて予め決定された、前記第２の動画像データが再生された場合の画質を向上させるために必要なフレームあたりの符号量とが記録された算出表を備え、前記決定手段は、（ｃ）前記符号化手段により得られる前記第２の動画像データのビットレートと、（ｄ）前記算出表を参照することで得られる、前記ビットレートに対応する前記フレームあたりの符号量とを用いて前記変換後のバッファ初期遅延時間を決定するとしてもよい。

これにより、変換後のバッファ初期遅延時間を容易に決定することができる。また、出力する第２の動画像データのビットレートが変更になった場合でも、変更後のビットレートに適したバッファ初期遅延時間を決定することができる。つまり、第２の動画像データのビットレートが変更になった場合でも、第２の動画像データが再生された際の画質を向上させ、かつ、安定的に再生させることができる。

また、さらに、前記抽出手段により抽出された情報に示されるバッファ初期遅延時間を、外部からの指示に従って、前記決定手段および前記符号化手段のいずれか一方にのみ入力する選択手段を備え、前記符号化手段は、前記バッファ初期遅延時間が前記符号化手段に入力された場合、入力された前記バッファ初期遅延時間を前記第２の動画像データに設定し、前記バッファ初期遅延時間が前記決定手段に入力された場合、前記決定手段により決定された前記変換後のバッファ初期遅延時間を前記第２の動画像データに設定するとしてもよい。

これにより、必要に応じて、変換後のバッファ初期遅延時間を変換前より大きくするか、または変換の前後で維持するかを選択することができる。また、バッファ初期遅延時間を変換の前後で維持する場合、つまり、符号化手段に、抽出手段から得られるバッファ初期遅延時間を入力する場合、遅延時間決定手段は何ら処理を行う必要がないため、符号化方式変換装置全体としての処理負荷が軽減する。

また、本発明のＡＶデータ変換装置は、画像ストリームと音声ストリームとが多重化された圧縮ＡＶデータの符号化方式を変換するＡＶデータ変換装置であって、前記圧縮ＡＶデータから前記画像ストリームと前記音声ストリームとを分離する分離手段と、前記分離手段により得られる前記画像ストリームと前記音声ストリームのそれぞれから、画像と音声とを同期して再生させるための時刻情報を取得する時刻情報取得手段と、前記画像ストリームを前記第１の動画像データとして受け取り、前記第２の動画像データである変換後の画像ストリームを出力する本発明の符号化方式変換装置と、前記符号化方式変換装置から前記変換後のバッファ初期遅延時間における遅延増加量を示す情報を受け取り、前記遅延増加量を前記変換後の画像ストリームおよび前記音声ストリームに含まれるそれぞれの前記時刻情報に示される値に加算することでそれぞれの時刻情報を修正する修正手段と、それぞれ前記修正手段により修正された時刻情報を含む画像ストリームと音声ストリームとを多重化する多重化手段とを備える。

これにより、第２の動画像データ、すなわち、ＡＶデータ変換装置から出力される圧縮ＡＶデータに含まれる動画像データの画質を向上させ、かつ、安定して再生させることができる。また、音声データにおいても動画像データと同様に時刻情報が修正されることから、音声と動画との同期を正しく保つことができる。

また、さらに、前記分離手段により得られる前記音声ストリームの符号化方式を変換する音声変換手段を備え、前記修正手段は、符号化方式が変換された後の前記音声ストリームの時刻情報を修正するとしてもよい。

これにより、音声データについてもビットレートを削減しつつ、上記と同様に、音声と動画との同期を正しく保つことができる。

なお、本発明の符号化方式変換装置は、集積回路として実現することもできる。

さらに、本発明は、本発明の符号化方式変換装置の特徴的な構成部の動作をステップとする方法として実現したり、それらステップをコンピュータに実行させるためのプログラムとして実現したり、そのプログラムが記録された記録媒体として実現することもできる。そして、そのプログラムをインターネット等の伝送媒体又はＤＶＤ等の記録媒体を介して配信することもできる。

以上のように、本発明の符号化方式変換装置によれば、符号化方式の変換後のバッファ初期遅延時間の値を変換前よりも大きくすることができる。これにより符号化方式変換装置から出力された動画像データの画質を向上させ、かつ、当該動画像データを安定的に再生させることができる。

以下、本発明の実施の形態について図面を参照しながら説明する。

（実施の形態１）
まず、本発明の実施の形態１における符号化方式変換装置の構成を図１および図２を用いて説明する。

図１は、本発明の実施の形態１における符号化方式変換装置の機能的な構成を示す機能ブロック図である。

図１に示す符号化方式変換装置１は、第１の符号化方式で符号化された第１の動画像データの符号化方式を、第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換する装置である。

実施の形態１および後述する実施の形態２においては、具体的には、第１の符号化方式はＭＰＥＧ−２の規格に準拠した符号化方式であり、第２の符号化方式は、ＭＰＥＧ−４／ＡＶＣの規格に準拠した符号化方式である。

なお、以下、「ＭＰＥＧ−２により符号化される」という場合、ＭＰＥＧ−２の規格に準拠した符号化方式により符号化されることを意味する。また、同様に「ＭＰＥＧ−４／ＡＶＣにより符号化される」という場合、ＭＰＥＧ−４／ＡＶＣの規格に準拠した符号化方式により符号化されることを意味する。

符号化方式変換装置１は、動画像復号化部１０１と、動画像符号化部１０２と、遅延時間抽出部１０３と、遅延時間決定部１０４と、算出表１０５とを備える。

動画像復号化部１０１は、符号化方式変換装置１に入力された動画像データを復号化する処理部である。本実施の形態においては、ＭＰＥＧ−２により符号化されている圧縮画像データの復号化を行う。なお、符号化方式変換装置１に入力される圧縮画像データは、本発明の符号化方式変換装置における第１の動画像データの一例である。

遅延時間抽出部１０３は、動画像復号化部１０１に入力された圧縮画像データに含まれるバッファ初期遅延時間を示す情報を抽出する処理部である。

ＭＰＥＧ−２の場合、シーケンス先頭フレームのピクチャヘッダに“ｖｂｖ＿ｄｅｌａｙ”が含まれており、この“ｖｂｖ＿ｄｅｌａｙ”に示される値を取り出し、この値を用いてバッファ初期遅延時間を算出する。

具体的には、“ｖｂｖ＿ｄｅｌａｙ”は１／９０ミリ秒が基準単位であるため、バッファ初期遅延時間は以下の（式１）により求まる。

バッファ初期遅延時間（ミリ秒）＝ｖｂｖ＿ｄｅｌａｙ／９０（式１）

遅延時間決定部１０４は、遅延時間抽出部１０３により得られたバッファ初期遅延時間が入力されると、当該バッファ初期遅延時間より大きな値を、変換後のバッファ初期遅延時間として決定する処理部である。

具体的には、動画像符号化部１０２による符号化後の圧縮画像データのビットレートと、算出表１０５から得られる数値とを用いて算出した値を、遅延時間抽出部１０３から得られるバッファバッファ初期遅延時間に加算し、加算後の値をトランスコード後の圧縮画像データにおけるバッファ初期遅延時間（以下、「トランスコード後のバッファ初期遅延時間」という。）として出力する。算出表１０５については、図２を用いて後述する。

動画像符号化部１０２は、動画像復号化部１０１が出力するデータをＭＰＥＧ−４／ＡＶＣにより符号化する処理部である。なお、動画像符号化部１０２から出力される圧縮画像データは、本発明の符号化方式変換装置における第２の動画像データの一例である。

また、動画像符号化部１０２は、この符号化の際、遅延時間決定部１０４が出力するバッファ初期遅延時間を符号化後の圧縮画像データに設定する。つまり、当該バッファ初期遅延時間を示す情報をトランスコード後の圧縮画像データに含ませる処理を行う。

また、当該バッファ初期遅延時間に応じて、トランスコード後の圧縮画像データがＭＰＥＧ−４／ＡＶＣの規格を遵守するデータとなるように符号化処理を行う。

具体的には、ＭＰＥＧ−４／ＡＶＣの規格において、バッファ初期遅延時間は、圧縮画像データの“ＢｕｆｆｅｒｉｎｇｐｅｒｉｏｄＳＥＩ”の、“ｉｎｉｔｉａｌ＿ｃｐｂ＿ｒｅｍｏｖａｌ＿ｄｅｌａｙ”に格納される。

また、この格納された値を用いてデコーダ仮想バッファ（ＣＰＢ）がアンダーフローしないように、各フレームの符号量制御が行われる。

なお、遅延時間決定部１０４は、動画像符号化部１０２が採用する符号化方式の標準規格に応じて自身の出力値の上限値を設けてもよい。つまり、遅延時間決定部１０４は、その規格で許されているバッファ初期遅延時間の最大値を超えないように、自身の出力値に対し上限を設けクリップ処理後に出力するようにしてもよい。

図２は、実施の形態１における算出表のデータ構成例を示す図である。

算出表１０５は、符号化方式変換装置１が備える記憶媒体（図示せず）に保持されており、遅延時間決定部１０４は、算出表１０５に基づいてトランスコード後のバッファ初期遅延時間を決定する。

算出表１０５の左側の列はトランスコード後の圧縮画像データのビットレートである目標ビットレートであり、目標ビットレートとしてとりうる複数の値が記録されている。

また、右側の列は、トランスコード後の圧縮画像データの再生時の画質を向上させるために必要となるフレームあたりの符号量であり、それぞれ目標ビットレートと対応付けられている。

例えば、算出表１０５に示すように、目標ビットレートが８Ｍｂｐｓであれば、そのビットレートの圧縮画像データが再生された際の画質の向上に必要となる符号量は４Ｍビットである。

つまり、当該圧縮画像データを再生するために復号化するデコーダにおいて、当該圧縮画像データがバッファに蓄積され始め４Ｍビット蓄積された時点以降であれば、先頭フレームを構成する全データを一括してバッファから引き抜くことができ、先頭フレームを正常に復号化できる。また、復号化後のデータが再生された際の画質もある一定のレベルに達したものになる。

なお、算出表１０５の右側の列の値は、例えば、実験により求められる値である。

遅延時間決定部１０４は、この算出表１０５を用いて遅延増加量を算出する。また、遅延時間抽出部１０３から出力されるトランスコード前の圧縮画像データにおけるバッファ初期遅延時間（以下、「トランスコード前のバッファ初期遅延時間」という。）に、当該遅延増加量を加算することでトランスコード後のバッファ初期遅延時間を決定する。

この遅延増加量は、具体的には、算出表１０５から得る値を用いて、以下の（式２）により算出される。

遅延増加量＝（フレームあたり必要な符号量／目標ビットレート）−遅延時間抽出部１０３の出力するバッファ初期遅延時間（式２）

例えば、目標ビットレートが８Ｍｂｐｓ、抽出されたバッファ初期遅延時間が０．３秒の場合、遅延増加量は、（４／８）−０．３＝０．２秒となる。

このようにして算出された値が、バッファ初期遅延時間の増加分となる。つまり、遅延時間抽出部１０３の出力するバッファ初期遅延時間に、算出された値が加算され、トランスコード後のバッファ初期遅延時間として動画像符号化部１０２へ出力される。

符号化方式変換装置１は、このような算出表１０５を有することにより、容易にトランスコード後のバッファ初期遅延時間を決定することができる。また、目標ビットレートが変更された場合であっても、変更後の目標ビットレートに適したバッファ初期遅延時間を決定することができる。

次に、以上のように構成された符号化方式変換装置１の動作の流れを、図３を用いて説明する。

図３は、実施の形態１の符号化方式変換装置１の動作の流れを示すフロー図である。

動画像復号化部１０１は、符号化方式変換装置１に入力された、ＭＰＥＧ−２により符号化されている圧縮画像データを復号化する（Ｓ１）。

遅延時間抽出部１０３は入力データからバッファ初期遅延時間を抽出する（Ｓ２）。具体的には、シーケンス先頭フレームのピクチャヘッダに含まれる“ｖｂｖ＿ｄｅｌａｙ”に示される値を取り出し、この値を用いてバッファ初期遅延時間を算出する。

ここで、入力データにおけるバッファ初期遅延時間、つまりトランスコード前の圧縮画像データのバッファ初期遅延時間を“Ｄ₁”とする。

遅延時間決定部１０４は、トランスコード後の圧縮画像データのビットレートと、算出表１０５を参照することで得られる当該ビットレートに対応するフレームあたりの符号量とを用いて、トランスコード後のバッファ初期遅延時間を決定する（Ｓ３）。

なお、トランスコード後の圧縮画像データのビットレートは、例えば、動画像符号化部１０２から取得することができる。

遅延時間決定部１０４により決定されたバッファ初期遅延時間を“Ｄ₂”とすると、Ｄ₁とＤ₂との関係は、“Ｄ₁＜Ｄ₂”となる。

つまり、トランスコード前の圧縮画像データにおけるバッファ初期遅延時間（以下、「トランスコード前のバッファ初期遅延時間」という。）よりも大きな値を、トランスコード後のバッファ初期遅延時間として決定する。

動画像符号化部１０２は、遅延時間決定部１０４により決定されたバッファ初期遅延時間を用い、動画像復号化部１０１により復号化されたデータを、ＭＰＥＧ−４／ＡＶＣにより符号化する（Ｓ４）。

つまり、動画像符号化部１０２から得られる圧縮画像データにはバッファ初期遅延時間として“Ｄ₂”を示す情報が含まれている。

これにより、このようにトランスコード処理が行われた後の圧縮画像データを再生する装置においては、バッファへの当該圧縮画像データの蓄積の開始後、Ｄ₂が経過した後に先頭フレームを構成するデータがバッファから引き抜かれることになる。

図４は、実施の形態１における、圧縮画像データが再生される際のデコーダ側バッファにおける占有量の時間変化を、従来の技術を用いた場合の時間変化と比較する図である。

図４（ａ）は、符号化方式変換装置１への入力データであるＭＰＥＧ−２の圧縮画像データのデコーダ側バッファにおける占有量の時間変化の一例を示す図である。

つまり、トランスコード前の圧縮画像データが再生装置等で再生される場合の、当該再生装置等のバッファにおける占有量の時間変化の一例を示している。

また、この圧縮画像データはバッファ初期遅延時間として“Ｄ₁”が設定されており、ビットレートは２４Ｍｂｐｓであると想定する。

この圧縮画像データは、バッファへ蓄積され始めてからＤ₁が経過し、蓄積量がＶ₁₀となった時点で先頭フレームを構成するデータがバッファから引き抜かれ復号化される。

図４（ｂ）は、このような入力データに対し、トランスコード前後でバッファ初期遅延時間を維持した場合の、デコーダ側バッファにおける占有量の時間変化の一例を示す図である。

また、このトランスコード後の圧縮画像データのビットレートは１２Ｍｂｐｓであると想定する。

この場合、バッファ初期遅延時間は、トランスコード前と同じく“Ｄ₁”であるため、バッファへ蓄積され始めてからＤ₁が経過した時点での蓄積量Ｖ₂₀は、おおよそＶ₁₀の１／２である。

ここで、上述のように、ＭＰＥＧ−４／ＡＶＣにおいては、Ｉフレームの符号量を大きくすることで画質の向上を図ることができる。つまり、画質の向上を考慮してＩフレームの符号量が符号化効率と比して比較的大きくされている場合、先頭フレームであるＩフレームの符号量が１／２まで小さくなっていない場合がある。

そのため、この状態で、蓄積開始からＤ₁経過後にバッファに蓄積されているデータが引き抜かれた場合、先頭フレームの正常な復号化に必要なデータが揃っていない状態で、先頭フレームの復号化が行われようとすることになる。

結果として、画質が劣悪な状態で再生されたり、復号化自体が行われなかったりすることになる。

図４（ｃ）は、実施の形態１の符号化方式変換装置１によるトランスコード後の圧縮画像データの、デコーダ側バッファにおける占有量の時間変化の一例を示す図である。

図４（ｃ）に示すように、符号化方式変換装置１では、トランスコード後のバッファ初期遅延時間“Ｄ₂”を、トランスコード前のバッファ初期遅延時間“Ｄ₁”よりも大きなものとする。

これにより、遅延増加量に対応し、圧縮画像データのバッファへの蓄積開始から、最初にバッファから圧縮画像データが引き抜かれるまでの間に蓄積される符号量（以下、「初期符号量」という。）が増加する。

この初期符号量における増加量は、図４（ｃ）では“Ｖ₃₀”で示されている。つまり、初期符号量は、“Ｖ₂₀＋Ｖ₃₀”となる。

また、この増加量は図４（ｃ）に示すように、遅延増加量に比例する値であり、遅延増加量は、図２の算出表１０５に記録されている実験等によって求められた数値を用いて遅延時間決定部１０４によって算出される値である。

そのため、初期符号量“Ｖ₂₀＋Ｖ₃₀”は、ＭＰＥＧ−４／ＡＶＣにより符号化され、ビットレートが１２Ｍｂｐｓである圧縮画像データが復号化され再生される際の画質が向上される符号量であり、当該符号量を蓄積可能となるバッファ初期遅延時間が当該圧縮画像データに設定される。

従って、当該圧縮画像データを再生する装置では、先頭フレームを構成する全てのデータがバッファに蓄積された後に、バッファからこれら全データが引き抜かれ、復号化される。さらに、復号化されたデータの再生時の画質はある一定のレベルに達したものになる。

すなわち、先頭フレームの画質が不用に劣化する等の不具合が発生することなく、先頭フレームは正常に符号化され再生され、画質も一定のレベルに達したものとなる。

以上のように、実施の形態１の符号化方式変換装置１は、入力される圧縮画像データにトランスコード処理を行う際、トランスコード後のバッファ初期遅延時間の値をトランスコード前よりも大きくすることができる。

これにより、トランスコード後の先頭フレームの符号量を増やすことができ、結果として符号化画像の画質を向上させ、かつ、安定的に再生させることができる。

（実施の形態１の変形例）
実施の形態１の符号化方式変換装置１は、上述のようにトランスコード後のバッファ初期遅延時間の値をトランスコード前よりも大きくすることができる。しかし、Ｉフレームの符号量が大きくない、または大きくする必要がない場合など、トランスコード後のバッファ初期遅延時間の値をトランスコード前よりも大きくする必要のない場合も考えられる。

そこで、トランスコード後のバッファ初期遅延時間の値をトランスコード前よりも大きくするか、維持するかを選択可能な構成の符号化方式変換装置について実施の形態１の変形例として説明する。

図５は、バッファ初期遅延時間の増加または維持の選択が可能な符号化方式変換装置２の機能的な構成を示す機能ブロック図である。

図５に示すように、本変形例の符号化方式変換装置２は、実施の形態１の符号化方式変換装置２が備える各処理部に加え、選択部１０６を備えている。

選択部１０６は、遅延時間抽出部１０３から出力されるバッファ初期遅延時間を、遅延時間決定部１０４および動画像符号化部１０２のいずれか一方に入力する処理部である。

また、選択部１０６は、符号化方式変換装置２の外部からの指示に従って入力先の選択を行う。外部からの指示とは、例えば、符号化方式変換装置２のユーザによる指示である。

遅延時間抽出部１０３から出力されるバッファ初期遅延時間の入力先として遅延時間決定部１０４が選択された場合、実施の形態１の符号化方式変換装置１と同じ処理の流れになり、トランスコード後のバッファ初期遅延時間の値は、トランスコード前よりも大きなものになる。

また、入力先として、動画像符号化部１０２が選択された場合は、トランスコード前のバッファ初期遅延時間が、そのままトランスコード後のバッファ初期遅延時間として採用される。つまり、トランスコードの前後でバッファ初期遅延時間が維持される。

このように、遅延時間抽出部１０３から出力されるバッファ初期遅延時間の入力先を選択可能とすることで、必要に応じて、トランスコード後のバッファ初期遅延時間の値をトランスコード前よりも大きなものにするか否かを選択できる。

また、バッファ初期遅延時間の入力先として動画像符号化部１０２が選択された場合、遅延時間決定部１０４が何らかの処理を行う必要がないため、符号化方式変換装置２全体としての処理負荷が軽減する。

（実施の形態２）
実施の形態２として、実施の形態１の符号化方式変換装置１が組み込まれたＡＶデータ変換装置について説明する。

まず、図６を用いて、実施の形態２のＡＶデータ変換装置３の構成を説明する。

図６は、実施の形態２のＡＶデータ変換装置３の構成を示すブロック図である。

図６に示すＡＶデータ変換装置３は、画像ストリームおよび音声ストリームが多重化された圧縮ＡＶデータを入力データとし、入力データに対しトランスコード処理を行うことにより符号量が削減された圧縮ＡＶデータを出力する装置である。

ＡＶデータ変換装置３が備える各構成部について以下に説明する。

ＭＰＥＧ−２ＴＳ分離器３０１は、入力されたＭＰＥＧ−２ＴＳからビデオＴＳとオーディオＴＳとを分離し出力する構成部である。

ビデオＴＳ復号器３０２は、入力されたビデオＴＳを復号化し、ビデオＰＥＳを出力する構成部である。ビデオＰＥＳ復号器３０３は、入力されたビデオＰＥＳを復号化し、ＰＴＳ、ＤＴＳおよびビデオエレメンタリーストリーム（ＥＳ）を出力する構成部である。

符号化方式変換装置１は、入力されるビデオＥＳに対し、実施の形態１で説明した処理と同様の動作を行う。

具体的には、入力されるビデオＥＳに対し、ＭＰＥＧ−４／ＡＶＣによるトランスコード処理を行うことでビットレートを削減させ、トランスコード後のビデオＥＳを出力する。

また、トランスコード後のビデオＥＳには、トランスコード前よりも大きな値のバッファ初期遅延時間が設定されている。

つまり、実施の形態２においては、符号化方式変換装置１に入力されるビデオＥＳは、本発明の符号化方式変換装置における第１の動画像データであり、符号化方式変換装置１から出力されるビデオＥＳは、本発明の符号化方式変換装置における第２の動画像データである。

また、トランスコード後のバッファ初期遅延時間を決定する際に算出した遅延増加量を示す情報が、符号化方式変換装置１からＰＴＳ・ＤＴＳ修正器３１３および３１４に供給される。

ビデオＰＥＳ生成器３０５は、入力されるＰＴＳ、ＤＴＳおよびビデオＥＳからビデオＰＥＳを生成し出力する構成部である。ビデオＴＳ生成器３０６は、入力されるビデオＰＥＳからビデオＴＳを生成し出力する構成部である。

また、オーディオＴＳ復号器３０８〜オーディオＴＳ生成器３１２の各構成部は、処理の対象がオーディオＴＳ等の音声に関連するデータであり、上述のビデオＴＳ復号器３０２〜ビデオＴＳ生成器３０６とはデータの種類が異なるだけで、これら各構成部と同様の処理を行う構成部である。

なお、ビデオＰＥＳ復号器３０３およびオーディオＰＥＳ復号器３０９により、本発明のＡＶデータ変換装置における時刻情報取得手段が実現される。

また、オーディオ変換装置３１０は、本発明のＡＶデータ変換装置における音声変換手段の一例であり、入力された圧縮音声データの符号化方式を変換し、符号量を削減した音声圧縮データを出力する装置である。

ＰＴＳ・ＤＴＳ修正器３１３は、ビデオＰＥＳに含まれる時刻情報であるＰＴＳおよびＤＴＳに遅延増加量を加算することで、ＰＴＳおよびＤＴＳを修正する構成部である。

具体的には、符号化方式変換装置１から遅延増加量を示す情報を受け取り、その遅延増加量を、ビデオＰＥＳ復号器３０３から受け取るＰＴＳおよびＤＴＳに加算し、ビデオＰＥＳ生成器３０５に出力する。これにより、ビデオＰＥＳに含まれるＰＴＳおよびＤＴＳが修正される。

ＰＴＳ・ＤＴＳ修正器３１４も同様に、符号化方式変換装置１から遅延増加量を示す情報を受け取り、その遅延増加量をオーディオＰＥＳ復号器３０９から受け取るＰＴＳおよびＤＴＳに加算する。また、加算後のＰＴＳおよびＤＴＳをオーディオＰＥＳ生成器３１１に出力する。これにより、オーディオＰＥＳに含まれるＰＴＳおよびＤＴＳが修正される。

ＭＰＥＧ−２ＴＳ多重化器３０７は、ＭＰＥＧ−２規格の多重化方式により入力されるビデオＴＳとオーディオＴＳとを多重化しＭＰＥＧ−２ＴＳとして出力する構成部である。

次に、図７を用いて、実施の形態２のＡＶデータ変換装置３の動作の流れを、時刻情報の修正に係る処理を中心に説明する。

図７は、実施の形態２のＡＶデータ変換装置３の動作の流れの概要を示すフロー図である。

ＭＰＥＧ−２ＴＳ分離器３０１は、ＡＶデータ変換装置３に入力された、ＭＰＥＧ−２ＴＳからビデオＴＳとオーディオＴＳとを分離する（Ｓ１０）。

その後、ビデオＰＥＳ復号器３０３はビデオＰＥＳを復号化し、ＰＴＳおよびＤＴＳを取得する。また、オーディオＰＥＳ復号器３０９はオーディオＰＥＳを復号化し、ＰＴＳおよびＤＴＳを取得する（Ｓ１１）。

ＰＴＳ・ＤＴＳ修正器３１３は、ビデオＰＥＳ復号器３０３からＰＴＳとＤＴＳとを受け取る。また、ＰＴＳ・ＤＴＳ修正器３１４は、オーディオＰＥＳ復号器３０９からＰＴＳとＤＴＳとを受け取る。

符号化方式変換装置１の遅延時間決定部１０４は遅延増加量を算出する（Ｓ１２）。算出された遅延増加量はＰＴＳ・ＤＴＳ修正器３１３および３１４に出力される。

ＰＴＳ・ＤＴＳ修正器３１３および３１４は、符号化方式変換装置１から受け取る遅延増加量を用い、それぞれ受け取ったＰＴＳおよびＤＴＳを修正する（Ｓ１３）。

それぞれＰＴＳおよびＤＴＳが修正されたビデオＰＥＳとオーディオＰＥＳとから、ビデオＴＳとオーディオＴＳとが生成される。生成されたビデオＴＳとオーディオＴＳとはＭＰＥＧ−２ＴＳ多重化器３０７により多重化されＭＰＥＧ−２ＴＳとして出力される（Ｓ１４）。

以上のように、実施の形態２のＡＶデータ変換装置３は、実施の形態１の符号化方式変換装置１を備え、符号化方式変換装置１によりビデオＥＳの符号化方式を変換することで符号量を削減することができる。

また、オーディオ変換装置３１０によりオーディオＥＳの符号化方式を変換することで符号量を削減することができる。

また、符号化方式変換装置１において決定されたトランスコード後のバッファ初期遅延時間を反映するように、ＭＰＥＧ−２ＴＳにおける、画像と音声とを同期して再生させるための時刻情報を修正する。

具体的には、ビデオＴＳだけでなくオーディオＴＳに対しても、トランスコード後のバッファ初期遅延時間を反映するように時刻情報を修正する。

これにより、ＡＶデータ変換装置３から出力されるＭＰＥＧ−２ＴＳが再生された際の画質を向上させ、かつ、安定して再生させることができる。

また、オーディオＴＳにおいてもビデオＴＳと同様に時刻情報が修正されることから、音声と動画との同期を正しく保つことができる。

なお、音声以外のデータが時刻情報を有する場合には、同様に、音声以外のデータのＰＴＳおよびＤＴＳを修正するようにしてもよい。また、オーディオＥＳについてトランスコードしない場合には、オーディオ変換装置３１０を取り外し、オーディオＰＥＳ復号器３０９とオーディオＰＥＳ生成器３１１とを直結してもよい。

また、実施の形態１および２において、符号化効率が高くなる方向に符号化方式を変換する例として、入力されたデータの符号化方式をＭＰＥＧ−２からＭＰＥＧ−４／ＡＶＣに変換し出力する場合について説明した。

しかし、変換前後の符号化方式は、ＭＰＥＧ−２およびＭＰＥＧ−４／ＡＶＣに限られるものではない。出力データの符号化方式の符号化効率が、入力データの符号化方式の符号化効率より高いものであればよい。

また、例えば、変換前後の符号化方式が同じ規格に基づく符号化方式であってもよい。例えば、変換前後の符号化方式が、ともにＭＰＥＧ−４／ＡＶＣに規定される符号化方式であっても、変換後の動画像データのビットレートが変換前よりも小さいものであれば、変換前の符号化方式よりも変換後の符号化方式の方が符号化効率が高いということができる。

なお、ＭＰＥＧ−２からＭＰＥＧ−４／ＡＶＣに変換する場合のように、先頭フレームとなるフレームの符号量が符号化効率と比して比較的大きくなる符号化方式に変換する場合に本発明の効果は最も顕著なものとなる。

また、実施の形態１およびその変形例の符号化方式変換装置１および２、並びに、実施の形態２のＡＶデータ変換装置３の各構成部は、ＣＰＵ、ＲＡＭ、ＲＯＭ、不揮発性メモリ等のハードウェア資源との組み合わせにより、集積回路であるＬＳＩとして実現される場合がある。これら各装置における各構成部は、個別に１チップ化されても良いし、一部又はすべてを含むように１チップ化されても良い。

本発明の符号化方式変換装置は、符号化された動画像データを、符号化効率の高い符号化方式に変換する際に、バッファ初期遅延時間を変更しない従来の方式に比べ、Ｉフレームでの符号量をより多く割当可能である。

そのため、符号化後の画質をより改善することができる。特に、時間相関をより効果的に用いる最新の動画像符号化方式であるＭＰＥＧ−４／ＡＶＣに変換するにおいて効果が顕著である。

したがって、本発明は、このような符号化方式の変換を行う、デジタルコンテンツの再生装置、録画装置、送信装置、および受信装置等に有用である。

実施の形態１における符号化方式変換装置の機能的な構成を示す機能ブロック図である。実施の形態１における算出表のデータ構成例を示す図である。実施の形態１の符号化方式変換装置の動作の流れを示すフロー図である。実施の形態１における、圧縮画像データが再生される際のデコーダ側バッファにおける占有量の時間変化を、従来の技術を用いた場合の時間変化と比較する図である。バッファ初期遅延時間の増加または維持の選択が可能な符号化方式変換装置の機能的な構成を示す機能ブロック図である。実施の形態２のＡＶデータ変換装置の構成を示すブロック図である。実施の形態２のＡＶデータ変換装置の動作の流れの概要を示すフロー図である。従来の技術における、デコーダ側バッファにおける圧縮画像データの占有量の推移の例を示す図である。

符号の説明

１、２符号化方式変換装置
３ＡＶデータ変換装置
１０１動画像復号化部
１０２動画像符号化部
１０３遅延時間抽出部
１０４遅延時間決定部
１０５算出表
１０６選択部
３０１ＭＰＥＧ−２ＴＳ分離器
３０２ビデオＴＳ復号器
３０３ビデオＰＥＳ復号器
３０５ビデオＰＥＳ生成器
３０６ビデオＴＳ生成器
３０７ＭＰＥＧ−２ＴＳ多重化器
３０８オーディオＴＳ復号器
３０９オーディオＰＥＳ復号器
３１０オーディオ変換装置
３１１オーディオＰＥＳ生成器
３１２オーディオＴＳ生成器
３１３、３１４ＰＴＳ・ＤＴＳ修正器

Claims

第１の符号化方式で符号化された第１の動画像データの符号化方式を、前記第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換する符号化方式変換装置であって、
前記第１の動画像データを復号化する復号化手段と、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出手段と、
抽出された前記情報に示される前記バッファ初期遅延時間が入力されると、前記バッファ初期遅延時間より大きな値を変換後のバッファ初期遅延時間として決定する決定手段と、
復号化された前記第１の動画像データを前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化手段と
を備える符号化方式変換装置。
さらに、（ａ）前記第２の動画像データのビットレートとしてとりうる複数の値と、（ｂ）前記複数の値それぞれに応じて予め決定された、前記第２の動画像データが再生された場合の画質を向上させるために必要なフレームあたりの符号量とが記録された算出表を備え、
前記決定手段は、（ｃ）前記符号化手段により得られる前記第２の動画像データのビットレートと、（ｄ）前記算出表を参照することで得られる、前記ビットレートに対応する前記フレームあたりの符号量とを用いて前記変換後のバッファ初期遅延時間を決定する
請求項１記載の符号化方式変換装置。
さらに、前記抽出手段により抽出された情報に示されるバッファ初期遅延時間を、外部からの指示に従って、前記決定手段および前記符号化手段のいずれか一方にのみ入力する選択手段を備え、
前記符号化手段は、
前記バッファ初期遅延時間が前記符号化手段に入力された場合、入力された前記バッファ初期遅延時間を前記第２の動画像データに設定し、
前記バッファ初期遅延時間が前記決定手段に入力された場合、前記決定手段により決定された前記変換後のバッファ初期遅延時間を前記第２の動画像データに設定する
請求項１記載の符号化方式変換装置。
画像ストリームと音声ストリームとが多重化された圧縮ＡＶデータの符号化方式を変換するＡＶデータ変換装置であって、
前記圧縮ＡＶデータから前記画像ストリームと前記音声ストリームとを分離する分離手段と、
前記分離手段により得られる前記画像ストリームと前記音声ストリームのそれぞれから、画像と音声とを同期して再生させるための時刻情報を取得する時刻情報取得手段と、
前記画像ストリームを前記第１の動画像データとして受け取り、前記第２の動画像データである変換後の画像ストリームを出力する請求項１記載の符号化方式変換装置と、
前記符号化方式変換装置から前記変換後のバッファ初期遅延時間における遅延増加量を示す情報を受け取り、前記遅延増加量を前記変換後の画像ストリームおよび前記音声ストリームに含まれるそれぞれの前記時刻情報に示される値に加算することでそれぞれの時刻情報を修正する修正手段と、
それぞれ前記修正手段により修正された時刻情報を含む画像ストリームと音声ストリームとを多重化する多重化手段と
を備えるＡＶデータ変換装置。
さらに、前記分離手段により得られる前記音声ストリームの符号化方式を変換する音声変換手段を備え、
前記修正手段は、符号化方式が変換された後の前記音声ストリームの時刻情報を修正する
請求項４記載のＡＶデータ変換装置。
第１の符号化方式で符号化された動画像データである第１の動画像データの符号化方式を、前記第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換する方法であって、
前記第１の動画像データを復号化する復号化ステップと、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された前記情報に示される前記バッファ初期遅延時間より大きな値を、変換後のバッファ初期遅延時間として決定する決定ステップと、
復号化された前記第１の動画像データを前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化ステップと
を含む符号化方式変換方法。
第１の符号化方式で符号化された動画像データである第１の動画像データの符号化方式を、前記第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換するためのプログラムであって、
前記第１の動画像データを復号化する復号化ステップと、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された前記情報に示される前記バッファ初期遅延時間より大きな値を、変換後のバッファ初期遅延時間として決定する決定ステップと、
復号化された前記第１の動画像データを前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化ステップと
をコンピュータに実行させるためのプログラム。
第１の符号化方式で符号化された動画像データである第１の動画像データの符号化方式を、前記第１の符号化方式よりも符号化効率の高い第２の符号化方式に変換する集積回路であって、
前記第１の動画像データを復号化する復号化手段と、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出手段と、
抽出された前記情報に示される前記バッファ初期遅延時間が入力されると、前記バッファ初期遅延時間より大きな値を、変換後のバッファ初期遅延時間として決定する決定手段と、
復号化された前記第１の動画像データを前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化手段と
を備える集積回路。