JP2008148137A

JP2008148137A - 画像符号化装置

Info

Publication number: JP2008148137A
Application number: JP2006334801A
Authority: JP
Inventors: Hiroshi Arakawa; 博荒川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2008-06-26

Abstract

【課題】変換後の動画像データの再生開始時における遅延時間の更なる削減を可能とし、当該削減に係る処理を効率よく行う符号化方式変換装置を提供すること。
【解決手段】第１の動画像データを復号化する動画像復号化部１０１と、第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する遅延時間抽出部１０３と、第１の動画像データがフレーム毎に符号化されているか否かを判断する判断部１０５と、フレーム毎に符号化されていると判断された場合、抽出されたバッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する遅延時間決定部１０４と、復号化された第１の動画像データを、フィールド毎に第２の符号化方式で符号化し、決定された変換後のバッファ初期遅延時間を設定する動画像符号化部１０２とを備える。
【選択図】図１

Description

本発明は、デジタル放送などで用いられている圧縮画像データをより少ない符号量に再圧縮し長時間の記録を可能にする符号化方式変換装置に関する。

従来、動画像データの圧縮方式として、デジタル衛星放送やＤＶＤ−Ｖｉｄｅｏなど高画質の動画像に適用されるＭＰＥＧ−２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐｐｈａｓｅ２）がある。

このＭＰＥＧ−２等の動画像符号化方式では、復号化を行うデコーダ側の、圧縮画像データを蓄積するバッファにおいてオーバーフローおよびアンダーフローを発生させないように圧縮画像データを作成するよう規格で定められている。

このことについて、ＭＰＥＧ−２では、規格書（ＩＳＯ／ＩＥＣ１３８１８−２）のＡｎｎｅｘＣ（ＶｉｄｅｏＢｕｆｆｅｒＶｅｒｉｆｉｅｒ）節に記載されており、そこでの模式図を図７に示す。

図７は、ＭＰＥＧ−２の圧縮画像データのデコーダ側バッファにおける占有量の時間変化の一例を示す図である。

図７に示すように、デコーダに入力された圧縮画像データは、バッファへの蓄積が開始された時刻０から、所定の時間“ｖｂｖ＿ｄｅｌａｙ”の経過後に、最初のフレームを構成するデータが、バッファから瞬時に引き抜かれる。また、その後、１／Ｔ秒ごとに、各フレームを構成するデータが、バッファから引き抜かれる。

ここで、“ｖｂｖ＿ｄｅｌａｙ”は、圧縮画像データがバッファに蓄積され始めてから、最初にバッファから引き抜かれるまでの時間であり、「バッファ初期遅延時間」または単に「初期遅延時間」と呼ぶ。なお、バッファから引き抜かれた圧縮画像データは復号を行う処理部で復号化され、再生等される。

また、“Ｔ”は、一般にフレームレートと呼ばれる数値であり、１秒間にどれだけのフレームが更新されるか、という値である。

また、このような圧縮画像データについて、データ量を削減する符号化方式変換技術（トランスコード技術）がある（例えば、特許文献１参照）。

特許文献１記載のトランスコード技術によれば、入力されたＭＰＥＧ−２トランスポートストリーム（ＴＳ）から得られるビデオＴＳに対し、符号量削減のためのトランスコードを行う。また、このトランスコードの前後で、ＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）およびＤＴＳ（ＤｅｃｏｄｉｎｇＴｉｍｅＳｔａｍｐ）は同じ値としている。

すなわち、上記従来のトランスコード技術では、バッファ初期遅延時間であるｖｂｖ＿ｄｅｌａｙをトランスコードの前後で同じにすることを意味している。

これにより、トランスコードに係る処理を簡易化しつつ、入力されたデータの符号量を削減して出力することができる。

ここで、トランスコード後の圧縮画像データをネットワークなどを通じて伝送し、再生装置で再生させる場合を考える。このとき、バッファ初期遅延時間により送信側での伝送開始から再生装置側での映像の再生開始までに要する遅れ、つまり再生開始時における遅延時間がほぼ決まる。

従ってユーザの利便性を考慮すると、バッファ初期遅延時間の値は小さいほど良い値であるといえる。そこで、バッファ初期遅延時間を削減する技術も開示されている（例えば、特許文献２参照）。

図８は、バッファ初期遅延時間を削減する従来の技術を説明するための図である。
この技術によれば、トランスコード前の圧縮画像データでの発生符号量のゆらぎ（ジッタ（ｊｉｔｔｅｒ））を考慮して、バッファ占有量がアンダーフローしない範囲で、バッファ初期遅延時間の削減可能量を算出するものである。

具体的には、図８に示すバッファ占有量の下限値Ｖ₁を算出し、その下限値Ｖ₁に対応する時間Ｒ₁を求める。この場合、バッファ初期遅延時間Ｄ₁を、Ｄ₁−Ｒ₁まで削減することが可能である。

このようにして、バッファ占有量の下限値を算出し、Ｄ₁−Ｒ₁以上Ｄ₁未満のバッファ初期遅延時間を決定する。また、決定したバッファ初期遅延時間をトランスコード後の圧縮画像データに設定する。

このような処理を行うことにより、当該トランスコード後の圧縮画像データを再生する再生装置等では再生開始時における遅延時間が処理前よりも短くなる。
特開２００１―２５１６１６号公報特表平８―５０８３７８号公報

しかしながら、上記従来のバッファ初期遅延時間を削減する技術では、入力される圧縮画像データの時間変化を将来にわたって観察しないと、バッファ占有量の下限値を算出できない。

つまり、精度よく下限値を算出するためには、ある程度の時間が必ず必要である。
また、この技術を採用する装置では、入力され続ける圧縮画像データを当該観察の間保持しておくためのバッファが必要となる。

さらに、入力された圧縮画像データが、バッファ占有量の下限値がほとんどゼロとなるようなデータである場合には、再生までの遅れを小さくする術はない。

本発明は、前記従来の課題を考慮し、動画像データの符号化方式を変換する符号化方式変換装置であって、変換後の動画像データの再生開始時における遅延時間の更なる削減を可能とし、当該削減に係る処理を効率よく行う符号化方式変換装置を提供することを目的とする。

上記従来の課題を解決するために、本発明の符号化方式変換装置は、第１の符号化方式で符号化された第１の動画像データの符号化方式を第２の符号化方式に変換する符号化方式変換装置であって、前記第１の動画像データを復号化する復号化手段と、前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出手段と、前記第１の動画像データがフレーム毎に符号化されているか否かを判断する判断手段と、前記第１の動画像データがフレーム毎に符号化されていると判断された場合、抽出された前記バッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する決定手段と、復号化された前記第１の動画像データを、フレームを構成する２枚のフィールドそれぞれ毎に前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化手段とを備える。

このように、本発明の符号化方式変換装置は、入力される動画像データがフレーム毎に符号化されている場合、符号化方式変換処理を行う際にフィールド符号化を行うことができる。

また、このフィールド符号化により、変換後のバッファ初期遅延時間の値を変換前よりも小さくすることができる。

すなわち、入力される動画像データについての観察、および当該観察のためのバッファは不要であり、効率的に再生開始時における遅延時間を短くすることができる。

また、前記決定手段は、抽出された前記バッファ初期遅延時間から、前記第１の動画像データにおけるフィールドの周期であるフィールド期間を減算した値を前記変換後のバッファ初期遅延時間として決定するとしてもよい。

これにより、入力された動画像データにおけるフィールド期間に応じて、当該動画像データに適切なバッファ初期遅延時間を決定することができる。

また、本発明のＡＶデータ変換装置は、画像ストリームと音声ストリームとが多重化された圧縮ＡＶデータの符号化方式を変換するＡＶデータ変換装置であって、前記圧縮ＡＶデータから前記画像ストリームと前記音声ストリームとを分離する分離手段と、前記分離手段により得られる前記画像ストリームと前記音声ストリームのそれぞれから、画像と音声とを同期して再生させるための時刻情報を取得する時刻情報取得手段と、前記画像ストリームを前記第１の動画像データとして受け取り、前記第２の動画像データである変換後の画像ストリームを出力する請求項１記載の符号化方式変換装置と、前記符号化方式変換装置から前記変換後のバッファ初期遅延時間における遅延削減量を示す情報を受け取り、前記遅延削減量を、前記変換後の画像ストリームおよび前記音声ストリームに含まれるそれぞれの前記時刻情報に示される値から減算することでそれぞれの時刻情報を修正する修正手段と、それぞれ前記修正手段により修正された時刻情報を含む画像ストリームと音声ストリームとを多重化する多重化手段とを備える。

これにより、第２の動画像データ、すなわち、ＡＶデータ変換装置から出力される圧縮ＡＶデータの再生開始時における遅延時間を効率的に短くすることができる。また、音声データにおいても動画像データと同様に時刻情報が修正されることから、音声と動画との同期を正しく保つことができる。

また、さらに、前記分離手段により得られる前記音声ストリームの符号化方式を変換する音声変換手段を備え、前記修正手段は、符号化方式が変換された後の前記音声ストリームの時刻情報を修正するとしてもよい。

これにより、音声データについてもビットレートを削減しつつ、上記と同様に、音声と動画との同期を正しく保つことができる。

なお、本発明は、本発明の符号化方式変換装置は、集積回路として実現することもできる。

さらに、本発明は、本発明の符号化方式変換装置の特徴的な構成部の動作をステップとする方法として実現したり、それらステップをコンピュータに実行させるためのプログラムとして実現したり、そのプログラムが記録された記録媒体として実現することもできる。そして、そのプログラムをインターネット等の伝送媒体又はＤＶＤ等の記録媒体を介して配信することもできる。

本発明によれば、出力する動画像データをフィールド符号化することにより、バッファ占有量の下限値を上昇させることができる。これにより、少なくとも当該上昇分に対応する時間だけ削減されたバッファ初期遅延時間を決定することができる。

またこの決定のために、入力される動画像データの時間変化を将来に渡って観察することは不要であり、入力される動画像データを当該観察の間保持しておくバッファも不要である。

従って、本発明は、動画像データの再生開始時における遅延時間の削減に係る処理を効率よく行う符号化方式変換装置を提供することができる。

また、本発明の符号化方式変換装置により、バッファ初期遅延時間を従来より短くすることが可能となる。

以下、本発明の実施の形態について図面を参照しながら説明する。

（実施の形態１）
まず、本発明の実施の形態１における符号化方式変換装置の構成を図１を用いて説明する。

図１は、本発明の実施の形態１における符号化方式変換装置の機能的な構成を示す機能ブロック図である。

図１に示す符号化方式変換装置１は、第１の符号化方式で符号化された第１の動画像データの符号化方式を、第２の符号化方式に変換する装置である。

実施の形態１および後述する実施の形態２においては、具体的には、第１の符号化方式はＭＰＥＧ−２の規格に準拠した符号化方式であり、第２の符号化方式は、ＭＰＥＧ−４／ＡＶＣの規格に準拠した符号化方式である。

なお、以下、「ＭＰＥＧ−２により符号化される」という場合、ＭＰＥＧ−２の規格に準拠した符号化方式により符号化されることを意味する。また、同様に「ＭＰＥＧ−４／ＡＶＣにより符号化される」という場合、ＭＰＥＧ−４／ＡＶＣの規格に準拠した符号化方式により符号化されることを意味する。

符号化方式変換装置１は、動画像復号化部１０１と、動画像符号化部１０２と、遅延時間抽出部１０３と、遅延時間決定部１０４と、判断部１０５とを備える。

動画像復号化部１０１は、符号化方式変換装置１に入力された動画像データを復号化する処理部である。本実施の形態においては、ＭＰＥＧ−２により符号化されている圧縮画像データの復号化を行う。なお、符号化方式変換装置１に入力される圧縮画像データは、本発明の符号化方式変換装置における第１の動画像データの一例である。

また、動画像復号化部１０１は、さらに、入力された圧縮画像データがフレーム符号化されたものであるかフィールド符号化されたものであるかを示す情報を抽出し、符号化情報として出力する。

ここで、フレーム符号化とは、動画像データをフレーム毎に符号化することであり、１つのフレームをフレームとして符号化することである。また、フィールド符号化とは、動画像データをフィールド毎に符号化することであり、１つのフレームを２枚のフィールドそれぞれ毎に符号化することである。

具体的には、ＭＰＥＧ−２の場合、圧縮画像データ中の“ｐｉｃｔｕｒｅ＿ｓｔｒｕｃｔｕｒｅ”の値が抽出される。この値により当該圧縮画像データがフレーム符号化されたものであるのかフィールド符号化されたものであるのかを判断することができる。この判断は後述する判断部１０５が行う。

なお、２枚のフィールドとは、奇数フィールドおよび偶数フィールドのことであり、図２に示すように、１枚のフレームを構成する画素ラインのうちの奇数ラインのみの集合が奇数フィールドであり、偶数ラインのみの集合が偶数フィールドである。

遅延時間抽出部１０３は、動画像復号化部１０１に入力された圧縮画像データに含まれるバッファ初期遅延時間を示す情報を抽出する処理部である。

ＭＰＥＧ−２の場合、シーケンス先頭フレームのピクチャヘッダに“ｖｂｖ＿ｄｅｌａｙ”が含まれており、この“ｖｂｖ＿ｄｅｌａｙ”に示される値を取り出し、この値を用いてバッファ初期遅延時間を算出する。

具体的には、“ｖｂｖ＿ｄｅｌａｙ”は１／９０ミリ秒が基準単位であるため、バッファ初期遅延時間は以下の（式１）により求まる。

バッファ初期遅延時間（ミリ秒）＝ｖｂｖ＿ｄｅｌａｙ／９０（式１）

判断部１０５は、動画像復号化部１０１に入力された圧縮画像データがフレーム符号化されたものであるか否かを判断する処理部である。

具体的には、判断部１０５は、動画像復号化部１０１から受け取る符号化情報から、当該圧縮画像データがフレーム符号化されたものであるか否かを判断することができる。

遅延時間決定部１０４は、遅延時間抽出部１０３から得られるバッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する処理部である。

具体的には、遅延時間決定部１０４は、判断部１０５による判断結果がフレーム符号化であることを示す場合に、バッファ初期遅延時間から所定の値を減算し、減算後の値をトランスコード後の圧縮画像データにおけるバッファ初期遅延時間（以下、「トランスコード後のバッファ初期遅延時間」という。）として出力する。

なお、バッファ初期遅延時間から減算する所定の値、つまり遅延削減量がどのような値であるかは、図４を用いて後述する。

動画像符号化部１０２は、動画像復号化部１０１が出力するデータをＭＰＥＧ−４／ＡＶＣにより符号化する処理部である。なお、動画像符号化部１０２から出力される圧縮画像データは、本発明の符号化方式変換装置における第２の動画像データの一例である。

また、動画像符号化部１０２は、この符号化の際、遅延時間決定部１０４が出力するバッファ初期遅延時間を符号化後の圧縮画像データに設定する。つまり、当該バッファ初期遅延時間を示す情報をトランスコード後の圧縮画像データに含ませる処理を行う。

また、当該バッファ初期遅延時間に応じて、トランスコード後の圧縮画像データがＭＰＥＧ−４／ＡＶＣの規格を遵守するデータとなるように符号化処理を行う。

具体的には、ＭＰＥＧ−４／ＡＶＣの規格において、バッファ初期遅延時間は、圧縮画像データの“ＢｕｆｆｅｒｉｎｇｐｅｒｉｏｄＳＥＩ”の、“ｉｎｉｔｉａｌ＿ｃｐｂ＿ｒｅｍｏｖａｌ＿ｄｅｌａｙ”に格納される。

また、この格納された値を用いてデコーダ仮想バッファ（ＣＰＢ）がアンダーフローしないように、各フレームの符号量制御が行われる。

なお、遅延時間決定部１０４は、動画像符号化部１０２が採用する符号化方式の標準規格に応じて自身の出力値の上限値を設けてもよい。つまり、遅延時間決定部１０４は、その規格で許されているバッファ初期遅延時間の最大値を超えないように、自身の出力値に対し上限を設けクリップ処理後に出力するようにしてもよい。

図３は、実施の形態１の符号化方式変換装置１の動作の流れを示すフロー図である。
動画像復号化部１０１は、符号化方式変換装置１に入力された、ＭＰＥＧ−２により符号化されている圧縮画像データを復号化する（Ｓ１）。

遅延時間抽出部１０３は入力データからバッファ初期遅延時間を抽出する（Ｓ２）。具体的には、シーケンス先頭フレームのピクチャヘッダに含まれる“ｖｂｖ＿ｄｅｌａｙ”に示される値を取り出し、この値を用いてバッファ初期遅延時間を算出する。

ここで、入力データにおけるバッファ初期遅延時間、つまりトランスコード前の圧縮画像データのバッファ初期遅延時間を“Ｄ₁”とする。

また、動画像復号化部１０１は、入力された圧縮画像データから符号化情報を抽出する（Ｓ３）。具体的には、上述のように、圧縮画像データ中の“ｐｉｃｔｕｒｅ＿ｓｔｒｕｃｔｕｒｅ”の値を抽出し、符号化情報として判断部１０５に出力する。

判断部１０５は、符号化情報を受け取ると、その符号化情報がフレーム符号化を示すものであるか否かを判断する。つまり、動画像復号化部１０１に入力された圧縮画像データが、フレーム毎に符号化されたものであるか否かを判断する（Ｓ４）。この判断結果は、遅延時間決定部１０４に通知される。

遅延時間決定部１０４は、判断部１０５による判断結果が“フレーム符号化”を示す場合（Ｓ４でＹｅｓ）、遅延時間抽出部１０３から得られるバッファ初期遅延時間から、所定の値を減算した値をトランスコード後のバッファ初期遅延時間として決定する（Ｓ５）。

この決定されたバッファ初期遅延時間を“Ｄ₂”とすると、Ｄ₁とＤ₂との関係は、“Ｄ₁＞Ｄ₂”となる。

つまり、トランスコード前の圧縮画像データにおけるバッファ初期遅延時間（以下、「トランスコード前のバッファ初期遅延時間」という。）よりも小さな値を、トランスコード後のバッファ初期遅延時間として決定する。

動画像符号化部１０２は、遅延時間決定部１０４により決定されたバッファ初期遅延時間を用い、動画像復号化部１０１により復号化されたデータを、ＭＰＥＧ−４／ＡＶＣにより符号化する（Ｓ６）。

つまり、動画像符号化部１０２から得られる圧縮画像データにはバッファ初期遅延時間として“Ｄ₂”を示す情報が含まれている。

これにより、このようにトランスコード処理が行われた後の圧縮画像データを再生する装置においては、バッファへの当該圧縮画像データの蓄積の開始後、Ｄ₂が経過した後に先頭フレームを構成するデータがバッファから引き抜かれ、当該圧縮画像データの復号化および再生が開始される。

なお、判断部１０５による判断結果が、“フレーム符号化”を示さない場合（Ｓ４でＮｏ）、つまり、符号化方式変換装置１に入力された圧縮符号化データがフィールド符号化されたものである場合、遅延時間抽出部１０３から得られるバッファ初期遅延時間をそのままトランスコード後のバッファ初期遅延時間として決定する。また、動画像符号化部１０２は、決定されたバッファ初期遅延時間を用いて、動画像復号化部１０１から出力されるデータを符号化する。

図４は、実施の形態１における、圧縮画像データが再生される際のデコーダ側バッファにおける占有量の時間変化を、従来の技術を用いた場合の時間変化と比較する図である。

図４（ａ）は、フレーム符号化されている圧縮画像データのデコーダ側バッファにおける占有量の時間変化の一例を示す図である。

また、この圧縮画像データはバッファ初期遅延時間として“Ｄ₁”が設定されていると想定する。

従来の技術であれば、当該圧縮画像データの時間変化を観察することで、バッファ占有量の下限値Ｖ₁₀に対応する遅延削減量Ｒ₁₀を求めることが可能である。つまり、Ｄ₁−Ｒ₁₀までバッファ初期遅延時間を小さくすることが可能である。

これに対し、本実施の形態の符号化方式変換装置１は、フレーム符号化されている圧縮画像データを復号化し、復号化後のデータをＭＰＥＧ−４／ＡＶＣにより符号化する際にフィールドごとに符号化する。これにより、バッファ初期遅延時間を更に小さくすることが可能である。

図４（ｂ）は、符号化方式変換装置１から出力された圧縮画像データが再生される場合の、デコーダ側バッファにおける占有量の時間変化の一例を示す図である。

符号化方式変換装置１は、入力された圧縮画像データがフレーム符号化されたものである場合、ＭＰＥＧ−４／ＡＶＣにより符号化する際にフィールドごとに符号化する。つまり、フィールド符号化された圧縮画像データを出力する。

ここで、フィールド符号化された圧縮画像データは、図４（ｂ）に示すように、再生される際、フレーム符号化された圧縮画像データに比べると短い時間間隔でバッファから引き抜かれて順次復号化されていく。

具体的には、復号化され再生される圧縮画像データのフレームレートＴが３０フレーム／秒である場合を想定すると、当該圧縮画像データがフレーム符号化されたものである場合、図４（ａ）に示すように、１／Ｔつまり（１／３０）秒ごとにフレーム単位でバッファからデータが引き抜かれることになる。

これに対し、当該圧縮画像データがフィールド符号化されたものである場合、１フレームは２枚のフィールドで構成（図２参照）されていることから、図４（ｂ）に示すように１／２Ｔ、つまり（１／６０）秒ごとにフィールド単位でバッファからデータが引き抜かれることになる。

なお、動画像データにおけるフィールドの周期をフィールド期間といい、本例のようにＴ＝３０フレーム／秒である圧縮画像データのフィールド期間は（１／６０）秒である。

このように、フィールド符号化された圧縮画像データは、フレーム符号化されたものより短い時間間隔でバッファから引き抜かれるため、バッファ占有量の下限値は上昇する。この上昇分は、図４（ｂ）ではＶ₂₀で表されている。

そこで、本実施の形態の符号化方式変換装置１は、この上昇分Ｖ₂₀に対応する時間Ｒ₂₀を、もともとの初期遅延時間Ｄ₁から減算する。

ここで、このＶ₂₀は、フィールド期間である１／２Ｔの間にバッファに蓄積される符号量であり、この符号量Ｖ₂₀に対応する時間Ｒ₂₀とは、すなわちフィールド期間である。

つまり、本実施の形態の符号化方式変換装置１は、入力された圧縮画像データのフレームレートからフィールド期間に相当する時間Ｒ₂₀を算出する。なお、このフレームレートは、例えば、動画像復号化部１０１が復号化対象の圧縮画像データから取得または算出し、遅延時間決定部１０４が受け取ればよい。

符号化方式変換装置１は、このようにして得られるＲ₂₀を、もともとの初期遅延時間Ｄ₁から減算し、減算後の値（Ｄ₁−Ｒ₂₀）をトランスコード後のバッファ初期遅延時間として決定することができる。

なお、フィールド符号化を伴うトランスコードの前、つまり、フレーム符号化されている状態の圧縮画像データにおけるバッファ占有量の下限値Ｖ₁₀に相当する時間Ｒ₁₀とフィールド期間に相当する時間Ｒ₂₀との合算値を削減してもアンダーフローを引き起こすことはない。

そのため、符号化方式変換装置１を用いることにより、トランスコード後のバッファ初期遅延時間をＤ₁−（Ｒ₁₀＋Ｒ₂₀）まで小さくすることが可能となる。

また、Ｖ₂₀の大きさはＶ₁₀の大きさに依存しない。例えば、仮に、符号化方式変換装置１に入力された圧縮画像データが、バッファ占有量の下限値がほとんどゼロとなる圧縮画像データである場合、つまり、図４（ａ）においてＶ₁₀がほぼゼロとなる圧縮画像データが入力された場合、出力する圧縮画像データにおいても、図４（ｂ）におけるＶ₁₀はほぼゼロとなる。

しかし、フィールド期間に相当する時間Ｒ₂₀は、フィールド符号化を行うことにより得られた値であり、Ｖ₁₀の有無や大きさにかかわらず確保される。これにより、バッファ初期遅延時間を少なくともＲ₂₀だけ削減することは可能である。

従って、従来の技術では再生までの遅れを小さくすることができないような圧縮画像データが符号化方式変換装置１に入力された場合であっても、バッファ初期遅延時間を削減することが可能であり、再生開始時における遅延時間を短くすることができる。

このように、本実施の形態の符号化方式変換装置１は、フレーム符号化されている圧縮画像データに対してフィールド符号化を伴うトランスコードを行うことにより、バッファ占有量の下限値を上昇させることができる。

バッファ占有量の下限値を上昇させることで、図４（ｂ）に示すように、少なくとも上昇分（Ｖ₂₀）に相当する時間（Ｒ₂₀）だけバッファ初期遅延時間を短くすることが可能となる。

そこで、符号化方式変換装置１は、トランスコード前のバッファ初期遅延時間よりも小さな値を、トランスコード後のバッファ初期遅延時間として決定する。

具体的には、トランスコード前のバッファ初期遅延時間から、少なくともフィールド期間を減算した値をトランスコード後のバッファ初期遅延時間として決定する。

また、このフィールド期間は、もともとのフレームレートから容易に算出される値である。つまり、入力データの観察等のある程度時間を要する処理や、その処理のためのバッファ等も不要である。

以上のように、本発明は、動画像データの符号化方式を変換する符号化方式変換装置であって、当該動画像データの再生開始時における遅延時間の更なる削減を可能とし、当該削減に係る処理を効率よく行う符号化方式変換装置を提供することができる。

（実施の形態２）
実施の形態２として、実施の形態１の符号化方式変換装置１が組み込まれたＡＶデータ変換装置について説明する。

まず、図５を用いて、実施の形態２のＡＶデータ変換装置２の構成を説明する。
図５は、実施の形態２のＡＶデータ変換装置２の構成を示すブロック図である。

図５に示すＡＶデータ変換装置２は、画像ストリームおよび音声ストリームが多重化された圧縮ＡＶデータを入力データとし、入力データに対しトランスコード処理を行うことにより符号量が削減された圧縮ＡＶデータを出力する装置である。

ＡＶデータ変換装置２が備える各構成部について以下に説明する。
ＭＰＥＧ−２ＴＳ分離器３０１は、入力されたＭＰＥＧ−２ＴＳからビデオＴＳとオーディオＴＳとを分離し出力する構成部である。

ビデオＴＳ復号器３０２は、入力されたビデオＴＳを復号化し、ビデオＰＥＳを出力する構成部である。ビデオＰＥＳ復号器３０３は、入力されたビデオＰＥＳを復号化し、ＰＴＳ、ＤＴＳおよびビデオエレメンタリーストリーム（ＥＳ）を出力する構成部である。

符号化方式変換装置１は、入力されるビデオＥＳに対し、実施の形態１で説明した処理と同様の動作を行う。

具体的には、入力されるビデオＥＳに対し、ＭＰＥＧ−４／ＡＶＣによるトランスコード処理を行うことでビットレートを削減させ、トランスコード後のビデオＥＳを出力する。また、トランスコード後のビデオＥＳには、トランスコード前よりも小さな値のバッファ初期遅延時間が設定されている。

つまり、実施の形態２においては、符号化方式変換装置１に入力されるビデオＥＳは、第１の動画像データであり、符号化方式変換装置１から出力されるビデオＥＳは、第２の動画像データである。

また、トランスコード後のバッファ初期遅延時間を決定する際に算出した遅延削減量を示す情報が、符号化方式変換装置１からＰＴＳ・ＤＴＳ修正器３１３および３１４に供給される。

具体的には、上述のフィールド期間に相当する時間（図４（ｂ）に示すＲ₂₀）を示す情報が遅延削減量としてＰＴＳ・ＤＴＳ修正器３１３および３１４に供給される。

ビデオＰＥＳ生成器３０５は、入力されるＰＴＳ、ＤＴＳおよびビデオＥＳからビデオＰＥＳを生成し出力する構成部である。ビデオＴＳ生成器３０６は、入力されるビデオＰＥＳからビデオＴＳを生成し出力する構成部である。

また、オーディオＴＳ復号器３０８〜オーディオＴＳ生成器３１２の各構成部は、処理の対象がオーディオＴＳ等の音声に関連するデータであり、上述のビデオＴＳ復号器３０２〜ビデオＴＳ生成器３０６とはデータの種類が異なるだけで、これら各構成部と同様の処理を行う構成部である。

なお、ビデオＰＥＳ復号器３０３およびオーディオＰＥＳ復号器３０９により、本発明のＡＶデータ変換装置における時刻情報取得手段が実現される。

また、オーディオ変換装置３１０は、本発明のＡＶデータ変換装置における音声変換手段の一例であり、入力された圧縮音声データの符号化方式を変換し、符号量を削減した音声圧縮データを出力する装置である。

ＰＴＳ・ＤＴＳ修正器３１３は、ビデオＰＥＳに含まれる時刻情報であるＰＴＳおよびＤＴＳから遅延削減量を減算することで、ＰＴＳおよびＤＴＳを修正する構成部である。

具体的には、符号化方式変換装置１から遅延削減量を示す情報を受け取り、ビデオＰＥＳ復号器３０３から受け取るＰＴＳおよびＤＴＳからその遅延削減量を減算し、ビデオＰＥＳ生成器３０５に出力する。これにより、ビデオＰＥＳに含まれるＰＴＳおよびＤＴＳが修正される。

ＰＴＳ・ＤＴＳ修正器３１４も同様に、符号化方式変換装置１から遅延削減量を示す情報を受け取り、オーディオＰＥＳ復号器３０９から受け取るＰＴＳおよびＤＴＳからその遅延削減量を減算する。また、減算後のＰＴＳおよびＤＴＳをオーディオＰＥＳ生成器３１１に出力する。これにより、オーディオＰＥＳに含まれるＰＴＳおよびＤＴＳが修正される。

ＭＰＥＧ−２ＴＳ多重化器３０７は、入力されるビデオＴＳとオーディオＴＳとを多重化し出力する構成部である。

次に、図６を用いて、実施の形態２のＡＶデータ変換装置２の動作の流れを、時刻情報の修正に係る処理を中心に説明する。

図６は、実施の形態２のＡＶデータ変換装置２の動作の流れの概要を示すフロー図である。

ＭＰＥＧ−２ＴＳ分離器３０１は、ＡＶデータ変換装置２に入力された、ＭＰＥＧ−２ＴＳからビデオＴＳとオーディオＴＳとを分離する（Ｓ１０）。

その後、ビデオＰＥＳ復号器３０３はビデオＰＥＳを復号化し、ＰＴＳおよびＤＴＳを取得する。また、オーディオＰＥＳ復号器３０９はオーディオＰＥＳを復号化し、ＰＴＳおよびＤＴＳを取得する（Ｓ１１）。

ＰＴＳ・ＤＴＳ修正器３１３は、ビデオＰＥＳ復号器３０３からＰＴＳとＤＴＳとを受け取る。また、ＰＴＳ・ＤＴＳ修正器３１４は、オーディオＰＥＳ復号器３０９からＰＴＳとＤＴＳとを受け取る。

符号化方式変換装置１の遅延時間決定部１０４は遅延削減量を算出する（Ｓ１２）。ここで、この遅延削減量とは、例えば、図４（ｂ）に示すバッファ占有量の時間変化のグラフにおけるＲ₂₀である。

算出された遅延削減量はＰＴＳ・ＤＴＳ修正器３１３および３１４に出力される。
ＰＴＳ・ＤＴＳ修正器３１３および３１４は、符号化方式変換装置１から受け取る遅延増加量を用い、それぞれ受け取ったＰＴＳおよびＤＴＳを修正する（Ｓ１３）。

それぞれＰＴＳおよびＤＴＳが修正されたビデオＰＥＳとオーディオＰＥＳとから、ビデオＴＳとオーディオＴＳとが生成される。生成されたビデオＴＳとオーディオＴＳとはＭＰＥＧ−２ＴＳ多重化器３０７により多重化されＭＰＥＧ−２ＴＳとして出力される（Ｓ１４）。

以上のように、実施の形態２のＡＶデータ変換装置２は、実施の形態１の符号化方式変換装置１を備え、符号化方式変換装置１によりビデオＥＳの符号化方式を変換することができる。

また、符号化方式変換装置１において決定されたトランスコード後のバッファ初期遅延時間を反映するように、ＭＰＥＧ−２ＴＳにおける、画像と音声とを同期して再生させるための時刻情報を修正する。

さらに、ビデオＴＳだけでなくオーディオＴＳに対しても、トランスコード後のバッファ初期遅延時間を反映するように時刻情報を修正する。

これにより、ＡＶデータ変換装置２から出力される圧縮ＡＶデータの再生が指示された際の再生までの遅延時間を短くすることができる。

また、この再生開始時の遅延時間の削減のための処理において、入力データであるビデオＥＳのバッファ占有量の時間変化を観察する必要はなく、入力されるビデオＥＳを当該観察の間保持しておくバッファも不要である。

また、オーディオＴＳにおいてもビデオＴＳと同様に時刻情報が修正されることから、音声と動画との同期を正しく保つことができる。

なお、音声以外のデータが時刻情報を有する場合には、同様に、音声以外のデータのＰＴＳおよびＤＴＳを修正するようにしてもよい。また、オーディオＥＳについてトランスコードしない場合には、オーディオ変換装置３１０を取り外し、オーディオＰＥＳ復号器３０９とオーディオＰＥＳ生成器３１１とを直結してもよい。

また、実施の形態１および２において、入力されたデータの符号化方式をＭＰＥＧ−２からＭＰＥＧ−４／ＡＶＣに変換し出力する場合について説明した。

しかし、変換前後の符号化方式は、ＭＰＥＧ−２およびＭＰＥＧ−４／ＡＶＣに限られるものではない。変換前の符号化方式が、フレーム符号化が可能な符号化方式であり、変換後の符号化方式が、フィールド符号化が可能な符号化方式であれば、本発明の効果である、符号化方式の変換後の動画像データの再生開始時における遅延時間の効率的な削減が実現可能である。

本発明の符号化方式変換装置は、効率的に動画像データの再生開始時における遅延時間を削減することができ、従来よりも遅延時間を短くすることも可能である。

したがって、本発明は、このような符号化方式の変換を行う、デジタルコンテンツの再生装置、録画装置、送信装置、および受信装置等に有用である。

実施の形態１における符号化方式変換装置の機能的な構成を示す機能ブロック図である。１枚のフレームが偶数フィールドと奇数フィールドとにより構成されていることを示す模式図である。実施の形態１の符号化方式変換装置の動作の流れを示すフロー図である。実施の形態１における、圧縮画像データが再生される際のデコーダ側バッファにおける占有量の時間変化を、従来の技術を用いた場合の時間変化と比較する図である。実施の形態２のＡＶデータ変換装置の構成を示すブロック図である。実施の形態２のＡＶデータ変換装置の動作の流れの概要を示すフロー図である。従来の技術における、デコーダ側バッファにおける圧縮画像データの占有量の推移の例を示す図である。バッファ初期遅延時間を削減する従来の技術を説明するための図である。

符号の説明

１符号化方式変換装置
２ＡＶデータ変換装置
１０１動画像復号化部
１０２動画像符号化部
１０３遅延時間抽出部
１０４遅延時間決定部
１０５判断部
３０１ＭＰＥＧ−２ＴＳ分離器
３０２ビデオＴＳ復号器
３０３ビデオＰＥＳ復号器
３０５ビデオＰＥＳ生成器
３０６ビデオＴＳ生成器
３０７ＭＰＥＧ−２ＴＳ多重化器
３０８オーディオＴＳ復号器
３０９オーディオＰＥＳ復号器
３１０オーディオ変換装置
３１１オーディオＰＥＳ生成器
３１２オーディオＴＳ生成器
３１３、３１４ＰＴＳ・ＤＴＳ修正器

Claims

第１の符号化方式で符号化された第１の動画像データの符号化方式を第２の符号化方式に変換する符号化方式変換装置であって、
前記第１の動画像データを復号化する復号化手段と、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出手段と、
前記第１の動画像データがフレーム毎に符号化されているか否かを判断する判断手段と、
前記第１の動画像データがフレーム毎に符号化されていると判断された場合、抽出された前記バッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する決定手段と、
復号化された前記第１の動画像データを、フレームを構成する２枚のフィールドそれぞれ毎に前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化手段と
を備える符号化方式変換装置。
前記決定手段は、抽出された前記バッファ初期遅延時間から、前記第１の動画像データにおけるフィールドの周期であるフィールド期間を減算した値を前記変換後のバッファ初期遅延時間として決定する
請求項１記載の符号化方式変換装置。
画像ストリームと音声ストリームとが多重化された圧縮ＡＶデータの符号化方式を変換するＡＶデータ変換装置であって、
前記圧縮ＡＶデータから前記画像ストリームと前記音声ストリームとを分離する分離手段と、
前記分離手段により得られる前記画像ストリームと前記音声ストリームのそれぞれから、画像と音声とを同期して再生させるための時刻情報を取得する時刻情報取得手段と、
前記画像ストリームを前記第１の動画像データとして受け取り、前記第２の動画像データである変換後の画像ストリームを出力する請求項１記載の符号化方式変換装置と、
前記符号化方式変換装置から前記変換後のバッファ初期遅延時間における遅延削減量を示す情報を受け取り、前記遅延削減量を、前記変換後の画像ストリームおよび前記音声ストリームに含まれるそれぞれの前記時刻情報に示される値から減算することでそれぞれの時刻情報を修正する修正手段と、
それぞれ前記修正手段により修正された時刻情報を含む画像ストリームと音声ストリームとを多重化する多重化手段と
を備えるＡＶデータ変換装置。
さらに、前記分離手段により得られる前記音声ストリームの符号化方式を変換する音声変換手段を備え、
前記修正手段は、符号化方式が変換された後の前記音声ストリームの時刻情報を修正する
請求項３記載のＡＶデータ変換装置。
第１の符号化方式で符号化された第１の動画像データの符号化方式を第２の符号化方式に変換する方法であって、
前記第１の動画像データを復号化する復号化ステップと、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出ステップと、
前記第１の動画像データがフレーム毎に符号化されているか否かを判断する判断ステップと、
前記第１の動画像データがフレーム毎に符号化されていると判断された場合、抽出された前記バッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する決定ステップと、
復号化された前記第１の動画像データを、フレームを構成する２枚のフィールドそれぞれ毎に前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化ステップと
を含む符号化方式変換方法。
第１の符号化方式で符号化された第１の動画像データの符号化方式を第２の符号化方式に変換するためのプログラムであって、
前記第１の動画像データを復号化する復号化ステップと、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出ステップと、
前記第１の動画像データがフレーム毎に符号化されているか否かを判断する判断ステップと、
前記第１の動画像データがフレーム毎に符号化されていると判断された場合、抽出された前記バッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する決定ステップと、
復号化された前記第１の動画像データを、フレームを構成する２枚のフィールドそれぞれ毎に前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化ステップと
をコンピュータに実行させるためのプログラム。
第１の符号化方式で符号化された第１の動画像データの符号化方式を第２の符号化方式に変換する集積回路であって、
前記第１の動画像データを復号化する復号化手段と、
前記第１の動画像データに含まれる、バッファ初期遅延時間を示す情報を抽出する抽出手段と、
前記第１の動画像データがフレーム毎に符号化されているか否かを判断する判断手段と、
前記第１の動画像データがフレーム毎に符号化されていると判断された場合、抽出された前記バッファ初期遅延時間より小さな値を、変換後のバッファ初期遅延時間として決定する決定手段と、
復号化された前記第１の動画像データを、フレームを構成する２枚のフィールドそれぞれ毎に前記第２の符号化方式で符号化し、第２の動画像データを得るとともに、前記第２の動画像データに、決定された前記変換後のバッファ初期遅延時間を設定する符号化手段と
を備える集積回路。