JP3825615B2

JP3825615B2 - 動画像符号化装置および動画像符号化方法およびプログラムを記録した媒体

Info

Publication number: JP3825615B2
Application number: JP2000245026A
Authority: JP
Inventors: 昇山口; 理恵子古川; 義浩菊池
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-08-11
Filing date: 2000-08-11
Publication date: 2006-09-27
Anticipated expiration: 2020-08-11
Also published as: US20020024999A1; JP2002058029A

Description

【０００１】
【発明の属する技術分野】
本発明は、インターネットなどによる動画像伝送システムや画像データベースシステムに使用されるＭＰＥＧ方式などの動画像圧縮符号化装置技術に係り、特に２パス符号化と呼ばれる手法によりシーンの内容に応じた符号化パラメータに従った符号化を行う動画像符号化装置および動画像符号化方法に関する。
【０００２】
【従来の技術】
動画像符号化の国際標準方式としてＭＰＥＧ１(Motion Picture Experts Group-1)，ＭＰＥＧ２(Motion Picture Experts Group-2)およびＭＰＥＧ４(Motion Picture Experts Group-4)があり、実用化されている。そして、これらにおいては、符号化の基本方式としてＭＣ＋ＤＣＴ方式が採用されている。以下、参考文献（文献１：三木編著、“ＭＰＥＧ−４のすべて”第３章、工業調査会、１９９８）を参照して、ＭＰＥＧ４検証(Verification）モデルに従って説明する。
【０００３】
＜ＭＣ＋ＤＣＴ方式の概要＞
図１３を用いてＭＣ＋ＤＣＴ方式の符号化法を説明する。ＭＣ（動き補償予測）＋ＤＣＴ（Discrete Cosine Transform；離散コサイン変換（直交変換））方式は、図１３に示されるように、差分値算出部１０１、動き補償予測部（ＭＣ）１０２、フレーム内／フレーム間（Intra / inter）切り替え部１０３、フレームメモリ(ＦＭ)１０４、動きベクトル検出部（ＭＥ）１０５、離散コサイン変換部（ＤＣＴ）１０６、量子化部（Ｑ）１０７、可変長符号化部（ＶＬＣ）１０８、逆量子化部（ＩＱ）１０９、逆離散コサイン変換部（ＩＤＣＴ）１１０、加算部１１１、出力バッファ（Buffer）１１２、レート制御部（Rate Control）１１３とから構成される。
【０００４】
差分値算出部１０１において、画像信号入力線１１を介して供給される画像信号と、信号線１２を介して供給される動き補償予測信号との差分が計算され、この差分信号は信号線１３を介して離散コサイン変換部１０６に供給される。
【０００５】
信号線１２には、フレーム内符号化（Inter）モードの場合には、動き補償予測部１０２で生成される動き補償予測信号がフレーム内／フレーム間切り替え部１０３を介して供給され、一方、フレーム間符号化（Intra）モードの場合には、信号が供給されない。つまり、フレーム間符号化（Intra）モードの場合には、信号線１３には差分信号ではなく画像信号入力線１１の信号がそのまま供給される。
【０００６】
Intra / Inter モードの切り替えは、後述するように動きベクトル検出部１０５で判定され、信号線１４を介してフレーム内／フレーム間切り替え部１０３に供給される。動き補償予測部１０２で生成される動き補償予測信号は、フレームメモリ１０４に蓄積されている既に符号化済みのフレームの信号から、動きベクトル検出部１０５で検出された動きベクトル情報にしたがって生成される。
【０００７】
離散コサイン変換部１０６では、信号線１３を介して供給される信号を離散コサイン変換し、その変換結果としてのＤＣＴ変換係数（離散コサイン変換係数）出力を、量子化部１０７に供給する。量子化部１０７ではこのＤＣＴ変換係数を所定の量子化幅で量子化する。
【０００８】
後述するように、量子化部１０７と逆量子化部１０９は、与えられる量子化パラメータに従って量子化幅、逆量子化幅が定まる構成であり、量子化部１０７で量子化されたＤＣＴ変換係数は、可変長符号化処理するために可変長符号化部１０８に供給されると共に、また、逆量子化部１０９にも供給されて逆量子化される。そして、逆量子化部１０９により逆量子化された変換係数は、逆離散コサイン変換部１１０に供給されて信号線１３に対する再生信号が生成され、この生成された再生信号は加算部１１１に供給される。
【０００９】
加算部１１１では、逆離散コサイン変換部１１０から供給される信号と、信号線１２を介して供給される信号とを加算して画像信号を再生した後、フレームメモリ１０４に蓄積する。
【００１０】
一方、可変長符号化部１０８では、量子化部１０７で量子化されて与えられたＤＣＴ変換係数や、動きベクトル情報（図示せず）などを受けて、これらを可変長符号化処理した後、多重化してビットストリームを生成し、出力バッファ１１２に供給する。
【００１１】
出力バッファ１１２は保持しているビットストリームの蓄積量情報を出力できる構成であり、ビットストリームを供給された当該出力バッファ１１２ではこれを一時保持し、ネットワークや蓄積媒体へ、その特性に応じてレートを制御しながら当該ビットストリームを信号線１５を介して出力する。
【００１２】
レート制御部１１３では、信号線１６を介して供給される出力バッファ１１２のビットストリーム蓄積量に応じて、量子化パラメータを決定し、信号線１７を介して量子化部１０７と逆量子化部１０９に供給する。
【００１３】
ここで、出力バッファ１１２内のビットストリーム蓄積量が大きくなってきた場合は、量子化パラメータを大きくして量子化部１０７での発生符号量を少なくし、出力バッファ１１２内の蓄積量が小さくなってきた場合は、量子化パラメータを小さくすることで、発生符号量が一定になるように制御される。
【００１４】
ここのように、レート制御は量子化幅を変更することにより行うが、画像の変化の激しいシーンでは、符号量が増大することから、それにあわせて量子化幅を大きくすることとなるので、その結果、量子化幅が適切でなくなることもあり、このような場合に、画像が歪むなど、画質劣化の問題を引き起こす。このことを少し詳しく説明する。
【００１５】
ＭＰＥＧ方式に基づく従来の動画像符号化方式では、圧縮動画像データを伝送レートが規定されている伝送路によって伝送したり、記録容量に限りがある蓄積媒体に記録するために、出力される符号化ビットストリームのビットレートが指定された値となるようにフレームレートや量子化幅などの符号化パラメータを設定して符号化を行うというレート制御という処理が行われている。
【００１６】
多くのレート制御では、前フレームの発生符号量に応じて次のフレームまでの間隔と次フレームの量子化幅を決める方法がとられている。
【００１７】
そのため、発生符号量が増大することとなる画面の動きが大きいシーンになると、符号量増大に対応するめに量子化幅を大きくする方向に制御されることから、画質が急に劣化する。図１４、図１５は従来のレート制御について示す図である。図１４の（ａ）に示す［Ｉ］のグラフは、ビットレートの推移の例を示しており、４０１が目標のビットレート（ビットレート目標値）、４０２が実際のビットレートを示している。時刻ｔ１１からｔ１２の期間に動きの激しいシーンが発生してこれに伴って発生ビットレートが大きくなると、バッファが溢れるので、フレームレートを低くしようとする制御がかかる。これが図１４（ｂ）に示す[II]のグラフであり、ビットレートが急増した時刻ｔ１１において、フレームレートを抑えるべくレート制御が働く結果、実際のフレームレート４０４が急激に低下している様子が示されている。
【００１８】
そして、一方、レート制御では、予め設定されたフレームスキップ閾値のバッファサイズと現時点でのバッファレベルとの差（余裕度）を基に、フレームレートを決め（図１５（ａ）参照）、現時点でのバッファが閾値よりも小さい時には一定のフレームレートで符号化を行い、現時点でのバッファが閾値を上回るとフレームレートを下げるように制御する。
【００１９】
このような制御を行う結果、発生符号量が大きいフレームｆｍではフレームレートが低くなって、例えば図１５（ｂ）に示すように、ｆ２１，ｆ２２と今まで等間隔で来た発生フレームが、ｆ２２とｆ２３の間のように、フレームの間隔が広がるという現象が生じることとなる。つまり、フレームのスキップが生じるわけである。
【００２０】
これは従来のレート制御が、画像内容に無関係に次フレームの符号量を定めていることに起因するものであって、そのため、画面の動きが大きくなるシーンでは、このように、フレーム間隔が広くなり過ぎて画像の動きが不自然になったり、量子化幅が適切でないために画像が歪んで見づらさを感じさせることがあった。
【００２１】
そこで、このような問題点を解決する必要が生じるが、そのための手法として、既にいくつかのものが知られている。その中の２パス符号化と呼ばれる方法によりレート制御を行う方式（文献２：特開平０８−１８６８２１号公報参照）を除くと、他の多くは符号量の変化のみに着目する方法が主体であり、画像内容と符号量の関係を考慮したものは、例えばフェードイン・フェードアウトなど（文献３：特開平１０−３３６６４１号公報参照）の特別な場合に限られていた。
【００２２】
そこで、本件発明者らは、２パス符号化の一つとして、解析されたシーン内容に応じてビットレートを配分し、全体的なビットレートが予め指定されたビットレートを満たすように効率良く符号化パラメータを配分する動画像符号化方法および装置を提案した（文献４：特願２０００−０５３８２３号）。
【００２３】
また、シーンの内容を解析して、シーン毎に映像に対して撮影者の意図を代表する見出しを自動的に作成して提示することで、一般の人でも容易に編集が可能となる動画像編集システムの提案もある（文献５：堀他，“映像解析技術年利用した映像メデイアのためのＧＵＩ”，ヒューマンインタフェース７２−７ｐｐ．３７−４２，１９９７）。但し、この編集システムではシーン内容を符号化に反映することは無かった。
【００２４】
一方、蓄積メディア向けに符号化データを作成する場合に、編集装置により予め動画像を編集して符号化している。従来、編集操作の結果を符号化に利用したとしても、編集時のカット点を考慮する程度であった。
【００２５】
【発明が解決しようとする課題】
上述のように、従来の動画像符号化装置では、画像の内容に無関係にフレームレートや量子化幅が決められていたために、オブジェクトの動きが激しいシーンにおいて急激にフレームレートが低下したり、量子化幅が適切でないために画像が歪むなど、画質劣化が目立ち易いという問題点があった。
【００２６】
また、動画像信号をパソコンなどを使用してカット＆ペースト等を行い、所望の映像展開となるように編集して動画を完成させるようにするが、この編集操作で、シーンの内容を把握していても、その情報を動画像信号の符号化時に活かす仕組みを持っていなかった。そのため、ビットレートの配分なども無駄の多いものとなっていた。
【００２７】
そこで、本発明の目的とするところは、動画像を解析し、シーンの内容を編集操作に活用すると共に、シーンの内容に応じてビットレートを適正に配分し、全体的なビットレートが予め指定されたビットレートを満たすように効率良く符号化パラメータを配分することができるようにした動画像符号化方法および動画像編集方法を提供することにある。
【００２８】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、画像信号を符号化するにあたり、第１パス（最適化準備モード）でパラメータの最適化を実施し、第２パス（実行モード）ではこの最適化したパラメータを用いて符号化処理をする。
【００２９】
すなわち、本発明においては、まず入力動画像信号を時間的に連続した少なくとも一つのフレームからなるシーンに分割して、各シーン毎に統計的特徴量（シーン毎の全フレームについての、フレーム内のマクロブロックの動きベクトルと動き補償残差、輝度値の平均・分散）を算出し、この統計的特徴量に基づいてシーンの内容を推定する。シーンの内容は編集操作にも活用され、編集によりシーンのカットアンドペーストが発生してもシーン毎の統計的特徴量の相対的な関係を利用して目標ビットレートに対し、最適な符号化パラメータを決定する。そして、この符号化パラメータを用いて入力画像信号を符号化するようにし、これによって、同じデータサイズでも視覚的に見易い復号画像を得ることを基本的な特徴とする。
【００３０】
ここで、統計的特徴量は、例えば、入力動画像信号の各フレーム内に存在する動きベクトルや輝度値をシーン毎に集計することにより算出される。加えて、特徴量から入力動画像信号を得るときに使用したカメラの動きおよび画像内のオブジェクトの動きを推定した結果を用いて、それらを符号化パラメータに反映させる。また、マクロブロック毎に輝度値の分布を調べることで、モスキートノイズが発生しやすいマクロブロックやオブジェクトのエッジが存在するマクロブロックの量子化幅を他のマクロブロックに比して相対的に小さくし、画質の向上を図る。
【００３１】
そして、第２パス目における符号化では、前記算出されたシーン毎に適切なビットレートとフレームレートを与えることで、従来のレート制御機構を大きく変更することなくシーン内容に応じた符号化が行える。
【００３２】
上記のような２パスの手法を用いて、目標符号量と同じデータサイズで良好な復号画像を得る符号化を実現することができる。
【００３３】
【発明の実施の形態】
本発明は、画像信号を符号化するにあたり、第１パス（最適化準備モード）でパラメータの最適化を実施し、第２パス（実行モード）ではこの最適化したパラメータを用いて符号化処理をする。具体的には、まず入力動画像信号を時間的に連続した少なくとも一つのフレームからなるシーンに分割して、各シーン毎に統計的特徴量を算出し、この統計的特徴量に基づいてシーンの内容を推定する。シーンの内容は編集操作にも活用され、編集によりシーンのカットアンドペーストが発生してもシーン毎の統計的特徴量の相対的な関係を利用して目標ビットレートに対し、最適な符号化パラメータを決定する。これが第１パスの処理である。そして、第２パスでは、この符号化パラメータを用いて入力画像信号を符号化するようにする。これにより、同じデータサイズでも視覚的に見易い復号画像を得ることができるようにする。
【００３４】
以下、図面を参照して本発明の実施の形態を説明する。
【００３５】
（第１の実施形態）
図１は本発明の一実施形態に係る動画像編集・符号化装置の構成を示すブロック図である。図において、１００はエンコーダ、１２０はサイズ変換部、２００はソースデータ、２１０はデコーダ、２２０は特徴量計算部、２３０は構造化情報蓄積部、２４０は構造化情報提示装置、２５０は最適パラメータ計算部、２６０は最適パラメータ蓄積部である。
【００３６】
これらのうち、エンコーダ１００は、サイズ変換部１２０を介して与えられる動画像信号を符号化して出力するためのであって、最適パラメータ蓄積部２６０の蓄積しているパラメータ（各シーン別の最適なフレームレートと量子化幅の情報）を用いて動画像信号の符号化をするものである。
【００３７】
デコーダ２１０は、入力されるソースデータ２００のフォーマットに対応しており、信号線２０を介して入力されるソースデータ２００を復号処理して元の動画像信号を再生するものである。このデコーダ２１０で再生された動画像信号は信号線２１を介して特徴量計算部２２０とサイズ変換部１２０とに供給されるようになっている。
【００３８】
なお、ソースデータ２００は、同じ信号を繰り返し複数回再生可能なディジタルＶＴＲやＤＶＤシステムのようなビデオ記録再生装置に記録されている動画像のデータである。
【００３９】
特徴量計算部２２０は、デコーダ２１０から与えられた動画像信号についてシーン分割を行うと同時に動画像信号の各フレームに対し画像特徴量を計算する機能を有している。ここで云う画像特徴量とは、例えば、“動きベクトルの数”、“分布”、“ノルムの大きさ”、“動き補償後の残差”、“輝度・色差の分散”等である。特徴量計算部２２０はこの算出した特徴量およびシーンの代表フレーム画像を前記分割されたシーン毎に集計し、信号線２２を介して構造化情報蓄積部２３０に供給するように構成されている。
【００４０】
構造化情報蓄積部２３０は、各シーン毎の代表フレーム画像や特徴量の情報をシーン毎に構造化した情報として蓄積するものである。なお、代表フレーム画像のサイズが大きい場合には、その縮小画像（サムネール画像）を代わりに蓄積しても良い。
【００４１】
構造化情報提示装置２４０は、キーボード等の入力装置およびマウス等のポインティングデバイスを少なくとも有し、また、ディスプレイを有したマンマシンインターフェースであって、入力装置を用いての編集操作をはじめとする各種操作入力や指示入力をしたり、構造化情報蓄積部２３０に蓄積されている各シーン毎の代表フレーム画像や特徴量を信号線２３を介して受けることにより、これらを図２のような提示形態でディスプレイに表示して、動画像信号の内容をユーザに提示するものである。
【００４２】
なお、本発明システムでは、第２パス目の処理においては、信号線２１を介して供給される動画像信号は、信号線２４を介して構造化情報呈示装置２４０から供給される編集情報に対応して編集されたソースデータを、デコーダ２１０で再生して得た動画像信号である。
【００４３】
サイズ変換部１２０は、信号線２１を介して供給される動画像信号の画面サイズと、エンコーダ１００で符号化して出力する動画像信号の画面サイズが異なる場合に、画面サイズを変換する処理をするものであって、エンコーダ１００はこのサイズ変換部１２０の出力を信号線１１を介して受けて符号化処理をするものである。
【００４４】
また、最適パラメータ計算部２５０は、構造化情報蓄積部２３０から与えられる特徴量の情報の供給を信号線２５を介して受け、各シーンに対して最適なフレームレートと量子化幅を算出するものであり、構造化情報蓄積部２３０から読み出す特徴量の情報は、信号線２４を介して供給される構造化情報呈示装置２４０からの編集情報に従って、構造化情報蓄積部２３０が該当するシーンの特徴量の情報を読み出し、供給する構成である。
【００４５】
また、最適パラメータ蓄積部２６０はこの最適パラメータ計算部２５０の計算した各シーン別の最適なフレームレートと量子化幅の情報を蓄積するためのものである。
【００４６】
次に、このような構成の本システムの作用を説明する。本発明システムでは、最初に第１パスの処理（最適化準備モード）を実施し、次に第２パスの処理（実行モード）を実施する２段階処理で実施する方式である。そのため、本システムでは、何回でも繰り返し同一の動画像信号を再生して供給できるディジタルＶＴＲやＤＶＤシステムのようなビデオ記録再生装置を用い、このビデオ記録再生装置に記録されているデータを再生してこれをソースデータ２００として、信号線２０よりデコーダ２１０に供給する。
【００４７】
このビデオ記録再生装置からソースデータ２００を受けたデコーダ２１０は、当該ソースデータを復号処理し、動画像信号として出力する。そして、このデコーダ２１０で再生された動画像信号は、第１パスにおいては信号線２１を介して特徴量計算部２２０に供給される。
【００４８】
特徴量計算部２２０では、この動画像信号を用いてまず動画像信号のシーン分割を行う。同時に動画像信号の各フレームに対し、画像特徴量を計算する。ここで云う画像特徴量とは、例えば動きベクトルの数、分布、ノルムの大きさ、動き補償後の残差、輝度・色差の分散等である。
【００４９】
そして、この特徴量算出部２２０では、シーンの代表フレーム画像および算出したこのような特徴量を、前記分割されたシーン毎に集計し、信号線２２を介して構造化情報蓄積部２３０に供給する。
【００５０】
そして、構造化情報蓄積部２３０は、これらの情報を蓄積する。その結果、第１パスにおいては、構造化情報蓄積部２３０には、供給動画像信号を解析して得たシーン毎に構造化した情報が蓄積されることになる。なお、分割したシーン毎の代表フレーム画像を蓄積するに当たり、当該代表フレーム画像のサイズが大きい場合には、その縮小画像（サムネール画像）を代わりに蓄積しても良い。
【００５１】
このようにして構造化情報蓄積部２３０に動画像信号の各シーン毎の特徴量、代表フレーム画像が蓄積されると、次に、構造化情報蓄積部２３０は蓄積してある各シーン毎の代表フレーム画像や特徴量を読み出し、信号線２３を介して構造化情報提示装置２４０に供給する。これを受けた構造化情報提示装置２４０では、図２のような提示形態により、動画像信号の内容をユーザに提示する。
【００５２】
図２の例は、前述の文献５で開示されている例であり、各シーン毎の代表フレーム画像ｆａ，ｆｂ，ｆｃ，ｆｄと、これらそれぞれの画像ｆａ，ｆｂ，ｆｃ，ｆｄの動きの内容情報ｍａ，ｍｂ，ｍｃ，ｍｄを、画面に表示することでユーザに提示し、以て各シーンの内容をユーザに容易に想起させることができるようにしている。
【００５３】
構造化情報提示装置２４０には、代表フレーム画像を画面上でカット＆ペーストしたり、ドラッグ＆ドロップ操作することなどで、位置の移動やシーンの削除、コピーなど言った編集操作を自由に行うことができる動画像の編集機能を備えており、従って、上述したように、動画像信号の代表フレーム画像と構造化情報をユーザに提示することで、ユーザは動画像信号の内容を容易に把握できるようになり、図３に示される如く、シーンのカット＆ぺーストなどの編集操作が容易に行えるようになる。もちろん、複数の動画像信号の構造化情報をユーザに提示し、編集することも可能である。
【００５４】
図３の例は、オリジナルでは（ａ）の如く配置されていた図２の表示状態のものについて、代表フレームｆｃをカットし、代表フレームｆｃとｆｄを入れ替えて代表フレームｆａで代表されるシーンの次に代表フレームｆｄで代表されるシーンが入り、その次に代表フレームｆｂで代表されるシーンに移っていくといった内容に編集されたことを示している（図３（ｂ））。
【００５５】
例えば、このようにしてユーザの編集操作により編集された編集情報は、信号線２４を介して構造化情報蓄積部２３０とソースデータ２００に供給される。ここで編集情報とは、どのシーンが選択されたかの情報と、選択されたシーンのソースデータ２００におけるタイムスタンプや、編集後のシーン配置などの情報である。
【００５６】
ユーザが構造化情報提示装置２４０を使用して上述の如き編集を行うと、その情報は編集情報として信号線２４を介して構造化情報蓄積部２３０に供給され、当該構造化情報蓄積部２３０はこの編集情報を蓄積すると同時に、最適パラメータ計算部２５０にも与える。
【００５７】
最適パラメータ計算部２５０では、供給された編集情報に従って、構造化情報蓄積部２３０に蓄積されている該当するシーンの特徴量の情報の供給を受け、各シーンに対して最適なフレームレートと量子化幅を算出して、最適パラメータ蓄積部２６０に与える。これにより最適パラメータ蓄積部２６０には各シーン毎に、最適なフレームレートと量子化幅の情報が蓄積されることになる。
【００５８】
最適パラメータ計算部２５０の具体的例を図４を用いて説明する。
【００５９】
＜最適パラメータ計算部２５０の構成＞
最適パラメータ計算部２５０は、ユーザが構造化情報呈示装置２４０を編集操作することにより、当該構造化情報呈示装置２４０から与えられる編集情報に従って、構造化情報蓄積部２３０から該当するシーンの特徴量を受け、各シーンに対して最適なフレームレートと量子化幅を算出するものであるが、当該最適パラメータ計算部２５０は、図４に示す如く、符号化パラメータ生成部２５１、発生符号量予測部２５２、符号化パラメータ修正部２５３より構成される。
【００６０】
これらのうち、符号化パラメータ生成部２５１は、構造化情報蓄積部２３０から受けた特徴量をもとに、各シーンの特徴量の相対的な関係から、各シーンに適切なフレームレートと量子化幅を算出するものであり、発生符号量予測部２５２は、この符号化パラメータ生成部２５１により算出されたフレームレートと量子化幅で動画像信号を符号化した際の発生符号量を予測するものである。
【００６１】
また、符号化パラメータ修正部２５３は、パラメータの修正を行うためのものであって、予測した符号量がユーザ設定の符号量を満たすようにパラメータの修正を行うことで最適なパラメータを求めるものである。
【００６２】
このような構成の最適パラメータ計算部２５０においては、信号線２５を介して構造化情報蓄積部２３０から供給されたシーン毎の特徴量は、符号化パラメータ生成部２５１で各シーンの特徴量の相対的な関係から、各シーンに適切なフレームレートと量子化幅を算出する。そして、発生符号量予測部２５２では、これらを入力とし、この算出されたフレームレートと量子化幅で動画像信号の符号化を行った際の発生符号量を予測する。
【００６３】
その際に、予測した発生符号量がユーザが設定した目標符号量２５４と大きく異なる場合には、予測した符号量がユーザが設定した符号量を満たすように符号化パラメータ修正部２５３においてパラメータの修正を行うことで最適なパラメータを求めている。
【００６４】
以上、動画像信号を再生し、シーン毎に特徴量の情報と代表フレーム画像を求め、保存し、これを用いて動画像信号の編集操作をすると、その編集情報に従って対応するシーンの特徴量を読み出し、これを用いて各シーン毎に最適なフレームレートと量子化幅を算出してその情報をパラメータとして蓄積するというのが１パス目の処理である。
【００６５】
このような第１パスの処理が終わると、ユーザは構造化情報提示装置２４０を操作して、モードを実行モード、すなわち、第２パスでの処理モードに切り替える。すると、構造化情報提示装置２４０は動画像信号を最適パラメータ蓄積部２６０に蓄積された各シーン毎の最適なフレームレートと量子化幅の情報を用いてエンコーダ１００により符号化処理させるべくシステムを駆動させるコマンドを発生する。
【００６６】
これにより、システムは第２パスの処理（実行モード）を開始する。
【００６７】
第２パス目の処理においては、信号線２１を介して供給される動画像信号は、信号線２４を介して供給される編集情報により、ソースデータ２００を編集した編集処理済みのソースデータを、デコーダ２１０で再生した動画像信号である。
【００６８】
この動画像信号は、エンコーダ１００に送られ、その各シーン毎に、最適パラメータ蓄積部２６０に蓄積されているそのシーン対応の最適パラメータを用いて符号化処理される。その結果、エンコーダ１００からは、シーンの内容に応じて適切に符号量が配分されたビットストリーム１５が出力される。
【００６９】
このように、第２パス目の処理は、信号線２１を介して供給される動画像信号をエンコーダ１００で符号化するが、その符号化には前記最適パラメータ蓄積部２６０に蓄積されている最適パラメータを用いて符号化することで、シーンの内容に応じて適切に符号量が配分されたビットストリームにすると言う処理である。この結果、動画像を解析し、シーンの内容を編集操作に活用すると共に、シーンの内容に応じてビットレートを配分し、全体的なビットレートが予め指定されたビットレートを満たすように効率良く符号化パラメータを配分する動画像符号化が行えることになり、スキップが生じることがなく、また、同じデータサイズでも視覚的に見易い復号画像を得ることができる符号化方法を提供できる。
【００７０】
なお、第２パスにおいて、信号線２１を介して供給される動画像信号の画面サイズと、エンコーダ１００で符号化する画面サイズが異なる場合には、サイズ変換部１２０において画面サイズを変換した後、その動画像信号を信号線１１を介してエンコーダ１００に供給する。これにより、画面サイズの不整合による問題も生じなくなる。
【００７１】
次に、本実施形態のシステムにおける特徴量計算部２２０での個々の処理についてさらに詳しく説明する。画像特徴量を算出処理する特徴量計算部２２０での画像特徴量算出処理の対象は、入力される動画像信号に対してのシーン分割の処理、入力動画像信号の全フレームについて、フレーム内のマクロブロックの動きベクトルと動き補償残差、輝度値の平均・分散等を計算する処理である。そして、これによって得られたシーン毎の入力動画像信号の全フレームについての、フレーム内のマクロブロックの動きベクトルと動き補償残差、輝度値の平均・分散等が画像特徴量である。
【００７２】
＜特徴量計算部でのシーン分割処理＞
特徴量計算部２２０において、入力動画像信号２１は、隣接するフレーム間の差分によりフラッシュフレームや雑音フレームなどのフレームを除いて複数のシーンに分割される。ここで、フラッシュフレームとは、例えば、ニュース番組でのインタビューシーンで、フラッシュ（ストロボ）が発光した瞬間のように、輝度が急激に高くなるフレームである。また、雑音フレームとはカメラの振れ等により画像が大きく劣化したフレームである。
【００７３】
例えば、シーン分割は以下の様に行う。
【００７４】
図５のように隣接したｉ番目のフレームと（ｉ＋１）番目のフレームの間の差分値が、予め定められた閾値を超え、かつ、ｉ番目のフレームと（ｉ＋２）番目のフレームの間の差分値も同様に閾値を超えているならば、（ｉ＋１）番目のフレームはシーンの区切りと判定する。
【００７５】
ｉ番目のフレームと（ｉ＋１）番目のフレームの間の差分値が予め定められたしきい値を超えていても、ｉ番目のフレームと（ｉ＋２）番目のフレームの間の差分値がしきい値を超えていなければ、（ｉ＋１）番目のフレームはシーンの区切りとしない。
【００７６】
＜特徴量計算部での動きベクトルの計算＞
特徴量計算部２２０においては、上述のようなシーン分割の処理の他に、入力動画像信号２１の全フレームについて、フレーム内のマクロブロックの動きベクトルと動き補償残差、輝度値の平均・分散等を計算する。なお、特徴量の計算は全フレームに対してでも良いし、画像の性質を解析できる範囲で数フレームおきに計算しても良い。
【００７７】
ｉ番目のフレームについての動領域のマクロブロックの数を“ＭｖＮｕｍ（ｉ）”、動き補償残差を“ＭｅＳａｄ（ｉ）”、輝度値の分散を“Ｙｖａｒ（ｉ）”とする。ここで、動領域とは１フレーム中で前フレームからの動きベクトル≠０であるマクロブロックの領域を指す。ｊ番目のシーンに対して、そのシーンに含まれるフレームすべてのＭｖＮｕｍ（ｉ）、ＭｅＳａｄ（ｉ）、Ｙｖａｒ（ｉ）の平均値をそれぞれＭｖｎｕｍ_ｊ、ＭｅＳａｄ_j、Ｙｖａｒ_ｊとし、それらをｊ番目のシーンの特徴量の代表値とする。
【００７８】
＜特徴量計算部でのシーン分類処理＞
さらに本実施形態では、特徴量計算部２２０においては、動きベクトルを用いて次のようなシーンの分類を行い、シーン内容を推定する。
【００７９】
すなわち、各々のフレームに対する動きベクトルを算出した後、動きベクトルの分布を調べ、シーンを分類する。具体的には、まずフレーム中の動きベクトルの分布を計算して、各フレームが図６（ａ）〜（ｅ）に示す５つのタイプのいずれに属するかを調べる。
【００８０】
タイプ〔１〕：図６（ａ）に示すタイプであって、フレーム中に動きベクトルがほとんど存在しないタイプ（動領域のマクロブロック数がＭｍｉｎ以下）。
【００８１】
タイプ〔２〕：図６（ｂ）のタイプであって、同じ向き・大きさの動きベクトルが画面全体に分布しているタイプ（動領域のマクロブロック数がＭｍａｘ以上で大きさと方向がある範囲内にある）。
【００８２】
タイプ〔３〕：図６（ｃ）に示すタイプであって、フレーム中で特定の部分にだけ動きベクトルが現れているタイプ（動領域のマクロブロックの位置が特定の部分に集中している）
タイプ〔４〕：図６（ｄ）に示すタイプであって、フレーム中に放射状に動きベクトルが分布しているタイプ。
【００８３】
タイプ〔５〕：図６（ｅ）に示すタイプであって、フレーム中の動きベクトルの数が多く、方向も不揃いのタイプ。
【００８４】
これらタイプ〔１〕〜タイプ〔５〕のパターンは、いずれも処理対象となる動画像信号を得るときに使用したカメラや、撮影された画像内のオブジェクトの動きと密接に関係している。すなわち、タイプ〔１〕のパターンではカメラもオブジェクトもいずれも静止している状態にある。また、タイプ〔２〕のパターンは、カメラの平行移動時、タイプ〔３〕のパターンは静止している背景の中でオブジェクトが動いている場合に得られる。また、タイプ〔４〕のパターンは、カメラがズーミングを行っている場合に得られる。また、タイプ〔５〕のパターンはカメラとオブジェクトが共に動いている場合に得られる。
【００８５】
以上のように各フレーム毎に分類した結果をシーン毎にまとめ、シーンが図６（ａ）〜（ｅ）のどのタイプに属するかを判定する。判定されたシーンのタイプと前記算出された特徴量を用いて後述の符号化パラメータ生成部で符号化パラメータであるフレームレートとビットレートをシーン毎に決定する。
【００８６】
このようにして、特徴量計算部２２０においては、動きベクトルを用いてシーンの分類を行い、シーン内容を推定する。
【００８７】
次に最適パラメータ計算部２５０での構成要素の一つである符号化パラメータ生成部２５１における符号化パラメータ生成に当たっての個々の処理について詳しく説明する。
【００８８】
符号化パラメータ生成部２５１では、（i）フレームレート算出処理、（ii）量子化幅算出処理、（iii）フレームレートと量子化幅の修正処理、（iv）マクロブロック毎の量子化幅の設定処理、の４種の処理を実施する。そして、これにより、フレームレート、量子化幅およびマクロブロック毎の量子化幅、といった符号化パラメータを生成する。
【００８９】
＜符号化パラメータ生成部でのフレームレート算出処理＞
符号化パラメータ生成部２５１では、まずフレームレートを算出する。
【００９０】
このとき、前述の特徴量計算部２２０においては、シーン毎の特徴量の代表値を既に算出しているものとする。これに対して、ｊ番目のシーンのフレームレートＦＲ（ｊ）を
ＦＲ（ｊ）＝ａ×ＭＶnum_j＋ｂ＋ｗ_ＦＲ …式（１）
により算出する。ただし、ＭＶnum_jはｊ番目のシーンの代表値、ａ，ｂはユーザが指定したビットレートと画像サイズに関係する係数、Ｗ_ＦＲは後述する重みパラメータである。式（１）は、動きベクトルの代表値ＭＶnum_jが大きくなるほどフレームレートＦＲ（ｊ）が高くなることを意味している。すなわち、動きの大きいシーンほどフレームレートが高くなる。
【００９１】
また、動きベクトルの代表値ＭＶnum_jは、前述のフレーム中の動きベクトルの数の他にフレーム中の動きベクトルの大きさの絶対値和、密度なども用いることもある。
【００９２】
以上が、符号化パラメータ生成部２５１におけるフレームレート算出処理である。
【００９３】
＜符号化パラメータ生成部での量子化幅の算出処理＞
符号化パラメータ生成部２５１では、量子化幅の算出に当たり、各々のシーンに対するフレームレートを算出した後、次に各々のシーンに対する量子化幅を計算する。ｊ番目のシーンに対する量子化幅Ｑｐ（ｊ）はフレームレートＦＲ（ｊ）と同様、シーンの動きベクトルの代表値ＭＶnum_jを用いて以下の式で算出する。
【００９４】
Ｑｐ（ｊ）＝ｃ×ＭＶnum_j＋ｄ＋ｗ_Ｑｐ …式（２）
ここで、ｃ，ｄはユーザが指定したビットレートと画像サイズに対する係数であり、ｗ_Ｑｐは後述する重みパラメータである。
【００９５】
式（２）は動きベクトルの代表値ＭＶnum_jが大きくなるほど量子化幅ＱP（ｊ）が大きくなることを意味している。すなわち、動きの大きいシーンほど量子化幅は大きくなり、逆に動きの小さいシーンほど量子化幅は小さくなり、画像は鮮明になる。
【００９６】
＜符号化パラメータ生成部でのフレームレートと量子化幅の修正＞
符号化パラメータ生成部２５１では、フレームレートと量子化幅の修正に当たり、まず、式（１）、式（２）を用いてフレームレートと量子化幅を決める際、上述のシーンの分類の処理で得られたシーンの分類結果（シーンを構成するフレームのタイプ）を用いて式（１）に重みパラメータｗ_ＦＲを、式（２）に重みパラメータｗ_ＱPを加え、フレームレートと量子化幅の修正を行う。
【００９７】
具体的には、フレーム中に動きベクトルがほとんど存在しないタイプ〔１〕の場合（図６（ａ）の場合）にはフレームレートを下げて、量子化幅を小さく取る（ｗ_ＦＲ，ｗ_Ｑｐともに小さくする）。
【００９８】
図６（ｂ）の如きタイプ〔２〕では、カメラの動きが不自然にならないようになるべくフレームレートを上げ、量子化幅は大きくする（ｗ_ＦＲ，ｗ_Ｑｐともに大きくする）。
【００９９】
図６（ｃ）の如きタイプ〔３〕では、動いているオブジェクトの動き、すなわち動きベクトルの大きさが大きい場合にはフレームレートを修正する（ＷＦＲを大きくする）。
【０１００】
図６（ｄ）の如きタイプ〔４〕では、ズームの際にほとんどオブジェクトについては注目されていないと思われることから、量子化幅は大きく取り、フレームレートをできる限り上げる（ｗ_ＦＲを大きくし、ｗ_Ｑｐも大きくする）。
【０１０１】
図６（ｅ）の如きタイプ〔５〕もフレームレートを上げ、量子化幅を大きくとる（ｗｊＲ，ｗ_Ｑｐともに大きくする）。
【０１０２】
このようにして設定された重みパラメータｗ_ＦＲ，ｗ_Ｑｐをそれぞれ加えることにより、フレームレートと量子化幅の調整を行う。
【０１０３】
符号化パラメータ生成部２５１でのフレームレートおよび量子化幅修正処理のは以上の如きである。
【０１０４】
画質を維持するための仕組みとして、符号化パラメータ生成部２５１では、ユーザ指定によるマクロブロック単位での量子化幅変更が可能である（（iv）マクロブロック毎の量子化幅の設定処理）。マクロブロック単位で量子化幅を可変させることが出来るわけである。その処理の詳細を説明する。
【０１０５】
＜符号化パラメータ生成部でのマクロブロック毎の量子化幅の設定＞
本発明システムにおいては、符号化パラメータ生成部２５１は、マクロブロック毎の量子化幅の変更指示を受けるとマクロブロック単位で量子化幅を可変するように機能させることができる。
【０１０６】
ＭＰＥＧ−４などでは、画像を１６×１６画素のブロックに分けて、このブロック単位で処理を進めるが、このブロック単位をマクロブロックと呼ぶ。符号化パラメータ生成部２５１では、ユーザからマクロブロック毎に量子化幅を変化するように指定された場合には、フレーム中にモスキートノイズがで出易いと判定されたマクロブロックやテロップ文字のように、強いエッジが存在すると判定されたマクロブロックに対して、他のマクロブロックよりも量子化幅を小さく設定することで画質改善を図ることもできる。
【０１０７】
符号化対象フレームに対して、図７のようにマクロブロックＭＢｍをさらに４つに分けた小ブロック毎に輝度値の分散を計算する。このとき、輝度値の分散が大きい小ブロック（ｂ２）と分散の小さい小ブロック（ｂ１，ｂ３）が隣り合う場合に、量子化幅が大きいと、そのマクロブロックＭＢｍではモスキートノイズが発生し易い。つまり、マクロブロックＭＢｍ内でテクスチャが複雑な部分にテクスチャの平坦な部分が隣接するような場合に、モスキートノイズが出易くなる。
【０１０８】
そこで、輝度値の分散が大きい小ブロックに分散が小さい小ブロックが隣接している場合をマクロブロック毎に判定し、モスキートノイズが出易いと判定されたマクロブロックについては、他のマクロブロックよりも相対的に量子化幅を小さくする。逆に、テクスチャが平坦でモスキートノイズが出にくいと判定されたマクロブロックに対しては他のマクロブロックよりも相対的に量子化幅を大きくし、発生符号量の増加を防ぐようにする。
【０１０９】
例えば、ｊ番目のフレーム内のｍ番目のマクロブロックについて、マクロブロック内に小さな４つのブロックがあるとき、図７に示すように
（ブロックｋの分散）≧ＭＢVarTre１
かつ
（ブロックｋに隣接するブロックの分散）＜ＭＢVarThre２
…式（３）
という組み合わせを満たす小さなブロックがあるならば、このｍ番目のマクロブロックをモスキートノイズがで易いマクロブロックであると判定する（ＭＢVarThre１、ＭＢVarThre２はユーザが定義する閾値）。このようなｍ番目のマクロブロックに対して
ＱＰ（ｊ）_ｍ＝ＱＰ（ｊ）−ｑ１ …式（４）
のようにマクロブロックの量子化幅Ｑｐ（ｊ）_ｍを小さくする。これに対してモスキートノイズが出にくいと判定されたｍ′番目のマクロブロックに対しては、
ＱｐＣ）_ｍ＝ＱｐＣ）＋ｑ２ …式（５）
のように、マクロブロックの量子化幅ＱｐＣ）_ｍ′を上げることで、符号量の増加を防ぐ（ｑ１，ｑ２は正の数で・ＱｐＣ）−ｑ１≧（量子化幅の最小値）、ＱｐＯ）＋ｑ２≦（量子化幅の最大値）を満たす）。
【０１１０】
その際、前述したカメラパラメータの判定で図６（ｂ）の平行移動シーン、図６（ｄ）のカメラズームのシーンと判定されたシーンについては、カメラの動きに支配されるために画像中のオブジェクトに対する視覚的注目度が低いと思われることからｑ１，ｑ２は小さくとる。
【０１１１】
逆に、図６（ａ）の静止シーン、図６（ｃ）の動いている部分が集中しているシーンでは、画像中のオブジェクトに対する視覚的注目度が高いと思われることからｑ１，ｑ２は大きくとる。
【０１１２】
また、文字のようなエッジが存在するマクロブロックについても、量子化幅を小さくすることで文字の部分を明瞭にさせることもできる。フレームの輝度値データに対してエッジ強調フィルタを施し、マクロブロック毎に濃淡値の勾配が強い画素を調べる。画素の位置を集計し、勾配の大きい画素が部分的に集中しているブロックをエッジが存在するマクロブロックであると判断し、式（４）に従いそのブロックについて量子化幅を小さくし、式（５）によりその他のマクロブロックの量子化幅を大きくする。
【０１１３】
このようにしてマクロブロック単位で量子化幅を変更することで、画質を保証できる仕組みが確保できるようになる。
【０１１４】
以上が、符号化パラメータ生成部２５１における符号化パラメータ生成に当たって実施する（i）フレームレート算出処理、（ii）量子化幅算出処理、（iii）フレームレートと量子化幅の修正処理、（iv）マクロブロック毎の量子化幅の設定処理、の４種の処理の詳細である。
【０１１５】
次に、このようにして算出された符号化パラメータを、ユーザ指定のビットレートを満たすように修正する符号化パラメータ修正部２５３での処理について詳しく説明する。
【０１１６】
＜符号化パラメータ修正部での発生符号量の予測＞
符号化パラメータ修正部２５３での発生符号量の予測は次のようにして行う。符号化パラメータ生成部２５１により、上述のように算出された各シーン毎のフレームレートと量子化幅を用いて符号化すると、シーンのビットレートの割合が許容されるビットレートの上限値あるいは下限値を超える場合がある。そのため、限界値を超えるシーンのパラメータについてはそれを調整して上限値あるいは下限値内に収まるようにする必要がある。
【０１１７】
例えば、前記算出された符号化パラメータのフレームレートと量子化幅で符号化し、ユーザが設定したビットレートに対する各シーンのビットレートの割合を算出したとき、図８（ａ）のようにビットレートの上限値あるいは下限値を超えるようなシーン（Ｓ３，Ｓ６，Ｓ７）が出てくる場合がある。
【０１１８】
そこで本発明では、符号化パラメータ修正部２５３により、次のような処理を実施して、それぞれのシーンのビットレートの割合が、許容されるビットレートの上限値あるいは下限値を超えないように修正する処理を施す。
【０１１９】
すなわち、ユーザが設定したビットレートに対する割合を算出したとき、ビットレートの上限値を超えるようなシーン（Ｓ３，Ｓ６）では図８（ｂ）のようにビットレートを上限値に設定し直す。同様に下限値を下回るシーン（Ｓ７）では図８（ｂ）のようにビットレートの割合を下限値に設定し直す。
【０１２０】
この操作により、過剰、あるいは不足となった符号量は、図８（ｃ）のように修正しなかった他のシーンに再分配し、全体の符号量は変えないように操作する。
【０１２１】
そのためには、発生符号量の予測が必要である。ここでは、発生符号量は例えば次のようにして予測する。
【０１２２】
符号化パラメータ修正部２５３は、各シーンの最初のフレームをＩピクチャ、その他をＰピクチャにすると仮定し、それぞれの符号量を算出する。まずＩピクチャの発生符号量を推定する。Ｉピクチャの発生符号量については一般的に量子化幅ＱＰと符号量の間に、図９のような関係があることから、１フレームあたりの発生符号量ＣｏｄｅＩを例えば次のように算出する。
【０１２３】
ＣｏｄｅＩ＝Ｉａ×ＱＰ＾Ｉｂ＋Ｉｃ … 式（６）
ここでＩａ，Ｉｂ，Ｉｃは画像サイズ等により定められる定数とする。また、＾はべき乗を表す。
【０１２４】
さらに、Ｐピクチャについては、動き補償残差ＭｅＳａｄと符号量の間に、ほぼ図１０に示す如きの関係があることから、１フレームあたりの発生符号量ＣｏｄｅＰを例えば次のように算出する。
【０１２５】
ＣｏｄｅＰ＝Ｐａ×ＭｅＳａｄ＋Ｐｂ …式（７）
ここで、Ｐａ，Ｐｂは画像サイズ、量子化幅Ｑｐ等により定められる定数とする。画像特徴量計算部２２０において、式（７）に用いるＭｅＳａｄは、既に求められているものとし、これらの式から各シーン毎に発生する符号量の割合を算出する。Ｊ番目のシーンの発生符号量は
Ｃｏｄｅ（ｊ）＝ＣｏｄｅＩ＋（符号化する予定のフレームのＣｏｄｅＰの和）
…式（８）
上記の式により算出されたシーン毎の符号量Ｃｏｄｅ（ｊ）を、そのシーンの長さＴ（ｊ）で除算するとそのシーンの平均ビットレートＢＲ（ｊ）が算出される。
【０１２６】
ＢＲ（ｊ）＝Ｃｏｄｅ（ｊ）／Ｔ（ｊ） …式（９）
このように算出されたビットレートをもとに、符号化パラメータの修正を行う。また、上記のようなビットレートの修正により予測された符号量を大幅に変更するような場合、各シーンのフレームレートを修正してもよい。すなわち、ビットレートを低くしたシーンではフレームレートも低くし、ビットレートを高めたシーンではフレームレートも高めることにより画質を保つようにする。
【０１２７】
以上が、符号化パラメータ修正部２５３での個々の処理の詳細である。
【０１２８】
以上のように、本発明は、動画像信号の符号化をするに当たり、状態を把握して調整するための予備処理（第１パス）を実施し、得られた結果を用いて符号化を実施する（第２パス）の２段階処理形態としたものであって、動画像信号についてシーン毎のフレームレートとビットレートを求める第１パスの処理を実施し、当該第１パス目で算出されたシーン毎のフレームレートとビットレートを第２パス目で符号化部に渡し、動画像信号を符号化することにより、フレームスキップや画質の劣化の劣化のない動画像符号化を実施できるようにしたものである。符号化部では、１パス目で得られた符号化パラメータをもとに、シーン毎に目標ビットレートとフレームレートを切り替えながら、従来からのレート制御を用いて符号化する。また、第１パス目で得られたマクロブロックの情報を用いて、レート制御により算出された量子化幅に対して相対的にマクロブロックの量子化幅を変化させる。これにより、まとまったひとつのシーンの中ではビットレートが保たれるので、符号化されたビットストリームのサイズは目標データサイズを満たすことができるようになる。
【０１２９】
比較のために、図１１に、本発明の手法と従来法を用いて符号化した際のビットレートとフレームレートの推移の例を示しておく。
【０１３０】
図１１の（ａ）が従来法におけるビットレートとフレームレートの推移の例であり、図１１の（ｂ）が本発明手法におけるビットレートとフレームレートの推移の例である。
【０１３１】
従来法では、図１１（ａ）の〔Ｉ〕に示すように、一定の目標ビットレート４０１が定められており、これに対して４０３のように一定のフレームレートが設定されている。また、実際のビットレートとフレームレートは図１１（ｂ）の〔Ｉ〕に示すように、４０２（実際のビットレート）および４０４（実際のフレームレート）の如きとなる。このとき、動画像が動きの激しいシーンに切り替わると（ｔ１１〜ｔ１２区間参照）、このような動画像では発生符号量が急増するために、図１５（ｂ）のようなフレームスキップが起こり、図１１（ｂ）の〔II〕に符号４０４で示すように、フレームレートが落ちてしまう。
【０１３２】
これに対して本発明の手法（図１１（ｂ））では、シーンに応じて最適な値になるように４０５の如く目標ビットレートを定めており、また、シーンに応じて最適な値になるように、４０７の如く目標フレームレートを定めている。
【０１３３】
これにより、動画像が動きの激しいシーンに切り替わったときは、増大する符号量対応に目標値が変わることから、そのシーンに割り当てられたビットレートが多くなるためにフレームスキップは起こりにくくなり、また、フレームレートは目標値を満たすことができる。
【０１３４】
（第２の実施形態）
次に、ソースデータがＭＰＥＧストリーム（ＤＶＤの場合はＭＰＥＧ−２ストリーム）である場合に、１パス目にビットストリームを全て再生するのではなく、必要な信号のみを部分的に再生することで１パス目の処理量を削減する例について説明する。
【０１３５】
ここでの構成例は、第１の実施形態で用いたものと基本的には同じでよい。
【０１３６】
ソースデータがＭＰＥＧストリームの場合、そのビットストリームの構成は図１２の如きである。図１２に示す例のように、ＭＰＥＧストリームは、フレーム内符号化／フレーム間符号化等を切り替えたりするためのモード情報と、フレーム間符号化する際の動きベクトル情報と、輝度や色差信号を再生するためのテクスチャ情報に大別される。
【０１３７】
ここで、モード情報によりフレーム内符号化するブロックの数が多い場合には、シーンチェンジが発生していると想定されるため、特徴量計算部２２０（図１参照）でのシーン区切りの判定に利用できる。
【０１３８】
また、ＭＰＥＧストリームには動きベクトル情報が含まれているので、このＭＰＥＧストリーム中の動きベクトル情報を抽出して特徴量計算部２２０で利用すれば良い。
【０１３９】
すなわち、特徴量計算部２２０では、動画像信号のシーン分割、動画像信号の各フレームにおける画像特徴量（動きベクトルの数、分布、ノルムの大きさ、動き補償後の残差、輝度・色差の分散等）を求める処理をするわけであるが、第１の実施形態のように、これら全てを演算処理により求めるのではなく、ここでは、ＭＰＥＧストリーム中の“モード”の情報により、フレーム内符号化するブロックの数の大小を知り、これよりシーン区切りの判定してシーン分割処理に代え、また、ＭＰＥＧストリームの“動きベクトル”の情報を抽出してそのまま流用することで動きベクトル演算処理を省略する。
【０１４０】
このように、ＭＰＥＧストリームは、全てのデータを再生せずとも、一部の情報を再生するだけで特徴量計算部２２０で利用できるデータを、ＭＰＥＧストリーム中から取得できることを利用して処理を簡素化することができる。
【０１４１】
このような部分的に再生された信号を利用する場合は、図１の構成において、デコーダ２１０によりデコードされた信号から上記“モード”の情報と、“動きベクトル”の情報を得てこれを信号線２７を介して特徴量計算部２２０に供給する構成とし、特徴量計算部２２０には、動画像信号のシーン分割、動画像信号の各フレームにおける画像特徴量の演算処理のうち、“モード”の情報を用いたフレーム内符号化するブロックの数の大小からシーン区切りの判定してシーン分割処理を行う構成とし、ＭＰＥＧストリームの“動きベクトル”の情報をそのまま流用して動きベクトルの数を取得する構成とし、他の演算（動きベクトルの分布、ノルムの大きさ、動き補償後の残差、輝度・色差の分散等）については第１の実施の形態と同様の処理をする構成とする。
【０１４２】
この構成により、特徴量計算部２２０の処理は一部を簡略化した構成として実現できることになる。
【０１４３】
なお、本発明において、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題の少なくとも１つが解決でき、発明の効果の欄で述べられている効果の少なくとも１つが得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【０１４４】
また、本発明における実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ、ＭＯなど）、半導体メモリなどの記録媒体に格納して頒布することもでき、また、ネットワークを介しての伝送により、頒布することもできる。
【０１４５】
【発明の効果】
以上記述した如く、本発明によれば、動画像を解析し、シーン内容を編集操作に活用すると共に、編集操作により作成された新たな動画像に対してもシーン毎の統計的特徴量の相対的関係から最適な符号化パラメータが算出されるため、編集操作が容易になると共に、シーン毎にまとまりのある画像が得られ画質改善効果が得られる。
【図面の簡単な説明】
【図１】本発明を説明するための図であって、本発明の一実施形態に係る動画像符号化装置の構成を示すブロック図である。
【図２】本発明を説明するための図であって、構造化情報提示手段の表示例を説明する図である。
【図３】本発明を説明するための図であって、符号化するシーンを部分的に選択する場合の説明図である。
【図４】本発明を説明するための図であって、本発明システムにおける最適パラメータ計算部の構成例を示すブロック図である。
【図５】本発明を説明するための図であって、本発明の実施形態におけるシーン分割の処理手順の例を示すフローチャートである。
【図６】本発明を説明するための図であって、本発明の実施形態における動きベクトルによるフレームのタイプ分けについて説明する図である。
【図７】本発明を説明するための図であって、本発明システムにおけるモスキートノイズの発生し易いマクロブロックの判定について説明する図である。
【図８】本発明を説明するための図であって、本発明システムにおける発生符号量調整の処理手順を示す図である。
【図９】本発明を説明するための図であって、本発明システムにおけるＩピクチャに関する発生符号量の推移を示す図である。
【図１０】本発明を説明するための図であって、本発明システムにおけるＰピクチャに関する発生符号量の推移を示す図である。
【図１１】本発明システムにおけるビットレートとフレームレートの推移を従来法と比較した図である。
【図１２】ＭＰＥＧビットストリームの例である。
【図１３】検証モデルのエンコーダブロック図である。
【図１４】従来のレート制御について示す図である。
【図１５】従来のレート制御を説明する図である。
【符号の説明】
１００…エンコーダ
１２０…サイズ変換部
２００…ソースデータ
２１０…デコーダ
２２０…特徴量計算部
２３０…構造化情報蓄積部
２４０…構造化情報提示装置
２５０…最適パラメータ計算部
２５１…符号化パラメータ生成部
２５２…発生符号量予測部
２５３…符号化パラメータ修正部
２６０…最適パラメータ蓄積部。

Claims

入力された動画像信号を解析してフレーム毎の動きベクトルの情報を含む特徴量を算出する特徴量算出手段と、
前記動画像信号を時間的に連続した複数のフレームからなる複数のシーンに分割するシーン分割手段と、
前記特徴量算出手段により算出された特徴量から前記シーン分割手段により分割された各シーンに含まれる全フレームの特徴量の平均値をシーン毎の特徴量の代表値として算出する代表値算出手段と、
前記各シーンの代表フレーム画像あるいは代表フレームの縮小画像及び前記代表値をユーザに提示する提示手段と、
前記シーン分割手段により分割された複数シーンのうちから前記ユーザによる編集操作により選択されたシーンに対応する前記代表値に基づいて、該代表値が大きくなるほど大きくなるように算出されるフレームレート及び量子化幅の情報を含むシーン毎の符号化パラメータを生成する符号化パラメータ生成手段と、
前記符号化パラメータ生成手段により生成されたシーン毎の符号化パラメータに従って前記動画像信号を符号化する手段と、
を備えることを特徴とする動画像符号化装置。
動画像符号化データを復号して動画像信号を出力する復号手段と、
前記動画像符号化データから動きベクトルの情報を含む特徴量を抽出する特徴量抽出手段と、
前記動画像信号を時間的に連続した複数のフレームからなる複数のシーンに分割するシーン分割手段と、
前記特徴量抽出手段により抽出された特徴量から前記シーン分割手段により分割された各シーンに含まれる全フレームの特徴量の平均値をシーン毎の特徴量の代表値として算出する代表値算出手段と、
前記各シーンの代表フレーム画像あるいは代表フレームの縮小画像及び前記代表値をユーザに提示する提示手段と、
前記シーン分割手段により分割された複数シーンのうちから前記ユーザによる編集操作により選択されたシーンに対応する前記代表値に基づいて、該代表値が大きくなるほど大きくなるように算出されるフレームレート及び量子化幅の情報を含むシーン毎の符号化パラメータを生成する符号化パラメータ生成手段と、
前記符号化パラメータ生成手段により生成されたシーン毎の符号化パラメータに従って前記動画像信号を符号化する手段と、
を備えることを特徴とする動画像符号化装置。
入力された動画像信号を解析してフレーム毎の動きベクトルの情報を含む特徴量を算出する特徴量算出ステップと、
前記動画像信号を時間的に連続した複数のフレームからなる複数のシーンに分割するシーン分割ステップと、
前記特徴量算出ステップにより算出された特徴量から前記シーン分割ステップにより分割された各シーンに含まれる全フレームの特徴量の平均値をシーン毎の特徴量の代表値として算出する代表値算出ステップと、
前記各シーンの代表フレーム画像あるいは代表フレームの縮小画像及び前記代表値をユーザに提示する提示ステップと、
前記シーン分割ステップにより分割された複数シーンのうちから前記ユーザによる編集操作により選択されたシーンに対応する前記代表値に基づいて、該代表値が大きくなるほど大きくなるように算出されるフレームレート及び量子化幅の情報を含むシーン毎の符号化パラメータを生成する符号化パラメータ生成ステップと、
前記符号化パラメータ生成ステップにより生成されたシーン毎の符号化パラメータに従って前記動画像信号を符号化するステップと、
を備えることを特徴とする動画像符号化方法。
動画像符号化データを復号して動画像信号を出力する復号ステップと、
前記動画像符号化データから動きベクトルの情報を含む特徴量を抽出する特徴量抽出ステップと、
前記動画像信号を時間的に連続した複数のフレームからなる複数のシーンに分割するシーン分割ステップと、
前記特徴量抽出ステップにより抽出された特徴量から前記シーン分割ステップにより分割された各シーンに含まれる全フレームの特徴量の平均値をシーン毎の特徴量の代表値として算出する代表値算出ステップと、
前記各シーンの代表フレーム画像あるいは代表フレームの縮小画像及び前記代表値をユーザに提示する提示ステップと、
前記シーン分割ステップにより分割された複数シーンのうちから前記ユーザによる編集操作により選択されたシーンに対応する前記代表値に基づいて、該代表値が大きくなるほど大きくなるように算出されるフレームレート及び量子化幅の情報を含むシーン毎の符号化パラメータを生成する符号化パラメータ生成ステップと、
前記符号化パラメータ生成ステップにより生成されたシーン毎の符号化パラメータに従って前記動画像信号を符号化するステップと、
を備えることを特徴とする動画像符号化方法。
入力された動画像信号を解析してフレーム毎の動きベクトルの情報を含む特徴量を算出する特徴量算出ステップと、
前記動画像信号を時間的に連続した複数のフレームからなる複数のシーンに分割するシーン分割ステップと、
前記特徴量算出ステップにより算出された特徴量から前記シーン分割ステップにより分割された各シーンに含まれる全フレームの特徴量の平均値をシーン毎の特徴量の代表値として算出する代表値算出ステップと、
前記各シーンの代表フレーム画像あるいは代表フレームの縮小画像及び前記代表値をユーザに提示する提示ステップと、
前記シーン分割ステップにより分割された複数シーンのうちから前記ユーザによる編集操作により選択されたシーンに対応する前記代表値に基づいて、該代表値が大きくなるほど大きくなるように算出されるフレームレート及び量子化幅の情報を含むシーン毎の符号化パラメータを生成する符号化パラメータ生成ステップと、
前記符号化パラメータ生成ステップにより生成されたシーン毎の符号化パラメータに従って前記動画像信号を符号化するステップと、からなるコンピュータ読み取りおよび実行可能なプログラムを記録した媒体。
動画像符号化データを復号して動画像信号を出力する復号ステップと、
前記動画像符号化データから動きベクトルの情報を含む特徴量を抽出する特徴量抽出ステップと、
前記動画像信号を時間的に連続した複数のフレームからなる複数のシーンに分割するシーン分割ステップと、
前記特徴量抽出ステップにより抽出された特徴量から前記シーン分割ステップにより分割された各シーンに含まれる全フレームの特徴量の平均値をシーン毎の特徴量の代表値として算出する代表値算出ステップと、
前記各シーンの代表フレーム画像あるいは代表フレームの縮小画像及び前記代表値をユーザに提示する提示ステップと、
前記シーン分割ステップにより分割された複数シーンのうちから前記ユーザによる編集操作により選択されたシーンに対応する前記代表値に基づいて、該代表値が大きくなるほど大きくなるように算出されるフレームレート及び量子化幅の情報を含むシーン毎の符号化パラメータを生成する符号化パラメータ生成ステップと、
前記符号化パラメータ生成ステップにより生成されたシーン毎の符号化パラメータに従って前記動画像信号を符号化するステップと、からなるコンピュータ読み取りおよび実行可能なプログラムを記録した媒体。