JP5132789B2

JP5132789B2 - 動画像符号化装置及び方法

Info

Publication number: JP5132789B2
Application number: JP2011013796A
Authority: JP
Inventors: 昌明島田; 功大塚; 和彦中根
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-01-26
Filing date: 2011-01-26
Publication date: 2013-01-30
Anticipated expiration: 2025-06-02
Also published as: JP2011109703A

Description

本発明は例えば、ハードディスクドライブ（ＨＤＤ）内蔵ＤＶＤレコーダなどの映像記録再生装置でマルチメディアデータファイルの記録、およびダビングを行う場合に適用可能な動画像符号化装置及び方法に関する。

ここで、マルチメディアデータファイルとは、例えばＭＰＥＧ−２方式などで符号化圧縮された映像情報と、ＡＣ−３方式などで符号化圧縮された音声情報を多重化した単一ファイルを示す。またダビングとは、映像記録再生装置に備えている第一の記録媒体に記録されたマルチメディアデータファイルを、第二の記録媒体へコピー（または移動）する処理と定義する。

一般的なダビング手法としては、大別すると「高速ダビング」と「リエンコードダビング」という２つの手法が広く知られている。「高速ダビング」は、ファイルコピーを基本原則としたダビング手法であり、高速にダビング処理を実施できるが、符号化レートの再配分や符号化パラメータの再設定など、エンコード条件を変更することができない。一方、「リエンコードダビング」は、第一の記録媒体に記録されたマルチメディアデータファイルに含まれる符号化圧縮された映像音声情報を一旦復号化した後に、所望の符号化レートや符号化パラメータに基づいて再度符号化圧縮を行って第二の記録媒体に記録するものである。よって多くの場合ではダビング処理に通常再生と同じ時間が必要となるが、符号化レートの再配分および符号化パラメータの再設定などのエンコード条件を変更することができる。すなわちリエンコードダビングでは、映像シーンに合わせて符号化レートを再配分することができる。

従来からのリエンコードダビングでは、マルチメディアデータファイルを第一の記録媒体に通常記録する際に、ある一定区間毎に入力映像の符号必要量（符号化困難度とも言う）を解析しておき、ダビング時には解析した符号必要量に基づいて、符号量を再配分する動画像符号化装置（２パスエンコード方式とも呼ばれる）がある（例えば特許文献１参照）。同様に、符号必要量に基づいて、符号化パラメータを再設定する動画像符号化装置もある（例えば特許文献２参照）。

特開２００２−２３２８８２号公報（第５−６頁、第１図）特開２００１−２４５３０３号公報（第３−４頁、第２図）

上述の特許文献に開示されている動画像符号化方式によるリエンコードダビング（或いは２パスエンコード方式）では、膨大な情報量を持つ映像から特徴情報を抽出するため、特徴抽出ハードウェアには高い情報処理能力が必要であり、回路規模および特徴抽出アルゴリズムが複雑になるという問題があった。また視聴者にとっての内容的な重要さの度合いには関係なく、画像の符号化困難度だけから符号量の再配分および符号化パラメータの再設定が行われていた。そのためスポーツの得点シーンや、映画のクライマックスのような視聴者にとって内容的に重要なシーンであっても、符号量が多く割り当てられず、当該箇所でブロックノイズが発生したり、画像が歪んだりなどの画像劣化を引き起こすといった問題点があった。なお、このように視聴者にとって内容的な重要さの度合いを「視聴価値（重要度レベルとも言う）」と呼ぶことにする。

そこで、本発明では、音声情報から符号化する動画像の意味的内容の重要さの度合いを算出し、再符号化時に視聴価値に応じて適切な符号配分を行えるようにし、視聴価値の高い重要なシーンには符号量を多く割り振ることが可能な動画像符号化装置を提供することを目的とする。

本発明の動画像符号化装置は、
放送番組の映像信号及び音声信号をストリームファイルとして第１の記録媒体に記録し、前記第１の記録媒体に記録された番組の映像信号及び音声信号を第２の記録媒体にダビングする手段と、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出手段と、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第１の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成部と、
前記ダビングを行う際に、前記第１の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析部とを備え、
前記メタデータ分析部は、当該重要度レベルが所定の閾値以下の値である場合、前記第１の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第２の記録媒体への記録をスキップして、前記ダビングを継続し、
前記閾値は、ダビングする範囲を変更するために設定されるものである
ことを特徴とする。

本発明によれば、音声信号の特徴に基づいて視聴価値の高い重要なシーンには符号量を多く割り振るようにしたので、重要なシーンを高精細な映像で符号化することができる。

この発明の実施の形態１を示すシステム構成ブロック図である。この発明の実施の形態１を示すファイル構成図である。この発明の実施の形態１を示すメタデータ構成図である。この発明の実施の形態１を示すデータ同期概念図である。この発明の実施の形態１を示すメタデータから得られる重要度マップ、および再符号化レートマップである。この発明の実施の形態２に示す符号化レートマップ修正の一例の説明図である。この発明の実施の形態２を示す符号化レートマップ修正の別の一例の説明図である。この発明の実施の形態３を示す要約ダビング概念図である。

実施の形態１．
図１はこの発明に係る実施の形態１のシステム構成ブロック図を示すものである。同図において、システム制御部１０１は、動画像符号化装置１００全体を統合制御している。
実施の形態１では、ハードディスクドライブ１０２及び光ディスク１０３は、ともに記録手段であるが、本実施の形態では、ハードディスクドライブ１０２は、ダビング元の記録媒体（第１次記録媒体）として、マルチメディアデータファイルおよびメタデータファイルの記録のために用いられており、光ディスク１０３は、ダビング先の記録媒体（第２次記録媒体）として、再符号化されたマルチメディアデータファイルの記録のために用いられる。
ディスク１０３へのファイルの記録再生は、記録再生ドライブ１０４を通じて行われる。

動画像符号化装置１００は、バッファメモリ１１５、デマルチプレクサ１３０、ビデオデコーダ１３１、オーディオデコーダ１３３、ビデオエンコーダ１１２、オーディオエンコーダ１１３、マルチプレクサ１１４、映像特徴抽出部１４２、音声特徴抽出部１４３、メタデータ生成部１２０、メタデータ分析部１２１、記録レートマップ保持部１２２、及び記録レート変更手段１２３を備えている。

バッファメモリ１１５は、ハードディスクドライブ１０２および光ディスク１０３から読み出したデータや書き込み対象データを一時的に保持するために使用される。
バッファメモリ１１５で保持されるデータには、ＭＰＥＧ−２などで符号化された映像ストリーム、ＡＣ−３などで符号化された音声ストリームを含むマルチメディアデータのほかにメタデータが含まれる。

デマルチプレクサ１３０は、バッファメモリ１１５に取りこまれたマルチメディアデータファイルを逐次取り込んだ後に、符号化圧縮された映像ストリームまたは音声ストリームへ分離して出力する。

ビデオデコーダ１３１は、デマルチプレクサ１３０から出力された、ＭＰＥＧ−２などで符号化された映像ストリームを復号化処理して、出力映像信号１３２を出力する。
オーディオデコーダ１３３は、デマルチプレクサ１３０から出力された、ＡＣ−３などで符号化された音声ストリームを復号化処理して、出力音声信号１３４を出力する。
モニタ１４０は、ビデオデコーダ１３１から出力される出力映像信号１３２及びオーディオデコーダ１３３から出力された出力音声信号１３４を受けて、映像の表示及び音声の出力を行う。

ビデオエンコーダ１１２は、動画像符号化装置１００への入力映像信号１１０、或いはハードディスクドライブ１０２から再生され、ビデオデコーダ１３１で復号化された映像信号を、ＭＰＥＧ−２などで符号化して映像ストリームを生成する。即ち、ビデオエンコーダ１１２は、後述のように、ハードディスクドライブ１０２への番組の録画の際に、入力映像信号１１０をＭＰＥＧ−２などで符号化圧縮し映像ストリームを生成する。一方、ダビングの際には、ハードディスクドライブ１０２から再生され、ビデオデコーダ１３１で復号化された映像信号を受けて再符号化する。
映像特徴抽出部１４２は、録画の際、或いは録画の後であって、ダビングの前に、ビデオエンコーダ１１２で符号化される映像信号について、フレーム間の動きベクトル量やカラーヒストグラムの変化量や画像認識手法を用いた人物や顔などの検出など、特徴量の抽出を行う。

オーディオエンコーダ１１３は、動画像符号化装置１００への入力音声信号１１１、或いはハードディスクドライブ１０２から再生され、オーディオデコーダ１３３で復号化された音声信号を、ＡＣ−３などで符号化して音声ストリームを生成する。即ち、オーディオエンコーダ１１３は、後述のように、ハードディスクドライブ１０２への番組の録画の際に、入力音声信号１１１をＡＣ−３などで符号化して音声ストリームを生成する。一方、ダビングの際には、ハードディスクドライブ１０２から再生され、オーディオデコーダ１３３で復号化された音声信号を受けて再符号化する。
音声特徴抽出部１４３は、ハードディスクドライブ１０２への録画の際、或いは録画の後であって、ダビングの前に、オーディオエンコーダ１１３で符号化される音声信号について、デジタルサンプリング後の係数値や周波数情報の変化、あるいは音声レベルの変化または音声認識手法を用いた話者の変化や拍手シーンの検出など、特徴量の抽出を行う。
映像特徴抽出部１４２は、ビデオエンコーダ１１２の一部として構成することができ、同様に音声特徴抽出部１４３は、オーディオエンコーダ１１３の一部として構成することができる。

映像特徴抽出部１４２及び音声特徴抽出部１４３における特徴量の抽出は、互いに同期した所定の区分毎に行われる。この所定の区分は、前記映像信号または前記音声信号の所定の時間間隔あるいはデータ容量に基づいたセグメントに対応するものである。
この時間間隔は、例えば、ビデオショットに対応する。ビデオショットは、所定時間で区分された連続的なフレームから成るものである。

マルチプレクサ１１４は、ビデオエンコーダ１１２における符号化で生成された映像ストリームとオーディオエンコーダ１１３における符号化で生成された音声ストリームをパケット化して再生時間情報と共に多重化して、順次バッファメモリ１１５へ記録する。

メタデータ生成部１２０は、映像特徴抽出部１４２及び音声特徴抽出部１４３から出力される特徴情報に基づいてメタデータを生成する。生成されたメタデータ１１５は、バッファメモリ１１５に書込まれ、さらに、ハードディスクドライブ１０２に書込まれる。
また、必要に応じて、ハードディスクドライブ１０２から読み出されて、バッファメモリ１１５に書込まれ、さらに後述のメタデータ分析部１２１に供給される。
メタデータとしては、上記の区間、例えばビデオショット毎の重要度レベルが記述され、これとともに再生時間情報が記述されている。

メタデータ分析部１２１は、バッファメモリ１１５に取り込まれたメタデータを逐次取り込んだ後に、メタデータに記述された上記の区間毎の、例えばビデオショット毎の再生時間情報と重要度レベルを取得し、ダビングなどの再符号化に際して再生時間情報に対応した再符号化レート情報を生成する。

記録レートマップ保持部１２２は、メタデータ分析部１２１にて生成された再符号化レート情報を保持する。
記録レート変更手段１２３は、ダビングなどの再符号化に際して、記録レートマップ保持部１２２に記録されている再符号化レート情報をもとに、さらに再生時間情報に応じて、ビデオエンコーダ１１２及びオーディオエンコーダ１１３のそれぞれの符号化レートを定めて出力する。
ビデオエンコーダ１１２およびオーディオエンコーダ１１３は、記録レート変更手段１２３から供給される符号化レートで動作する。

メタデータ生成部１２０、メタデータ分析部１２１、記録レートマップ保持部１２２、および記録レート変更手段１２３は、その一部あるいは全体をソフトウェアで構成することも可能であり、そのソフトウェアはシステム制御部１０１に組み込まれていても構わない。またメタデータの生成や記録レートマップの生成の処理には、適宜メモリ（図示しない）が利用されるものとする。

図２はこの発明の実施の形態１におけるファイル構成図を示すものである。図２は、ダビング元であるハードディスクドライブ１０２内の論理ファイル構造を示したものであり、２０は論理的に階層構造を成すファイル構造の最上位階層のディレクトリ構造であるルートディレクトリ、２１はルートディレクトリ２０の下位階層に配置されるディレクトリ構造であるマルチメディアディレクトリ、２２はマルチメディアディレクトリ２１と同じくルートディレクトリ２０の下位階層に配置されるディレクトリ構造であるメタデータディレクトリ、２３はハードディスクドライブ１０２に記録されている番組の管理情報（属性情報及び再生時間情報を含む）を記述した情報管理ファイル、２４は番組の映像信号または音声信号を符号化圧縮した映像ストリームまたは音声ストリームの少なくとも一方を含んで再生時間情報と共に多重化したマルチメディアデータファイル、２５は情報管理ファイル２３などのバックアップファイル、２６はマルチメディアデータファイル２４と関連付けされた特徴データを含み且つ当該マルチメディアデータファイル２４とは独立した論理ファイルで成るメタデータファイルである。

マルチメディアデータファイル２４とメタデータファイル２６は別個のディレクトリ内に配置する例を示したが、同一のディレクトリ内に配置されていたり、メタデータファイル２６がルートディレクトリに直接配置されていたりしても構わない。
またマルチメディアデータファイル２４およびメタデータファイル２６は番組の数に応じて分割したり、ファイル容量の制限によって複数に分割されていたりしても構わない。

さらに、本実施の形態におけるメタデータファイル２６は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であっても構わない。また第三者による改ざんや情報の流出を阻む為に暗号化処理を施すこととしても良い。

管理情報ファイル２３にメタデータまたはメタデータファイル２６が存在しているか否か、もしくはメタデータまたはメタデータファイル２６が記述されている場合に、それが有効な値であるか否かの情報を記述しておく方法もあり、これにより蓄積メディアも記述されている当該情報を参照することで素早くメタデータまたはメタデータファイル２６の有無もしくは有効であるか否かを判断することが可能となる。

図３はこの発明の実施の形態１におけるメタデータ構造図である。図３は第１次記録媒体であるハードディスクドライブ１０２に記録するメタデータファイル２６のデータ構造を示すものである。以下、同図に示す階層構造を参照して説明する。図３（Ａ）に示すようにメタデータ３０は、データ構造の最上位の階層に位置する。

次に、図３（Ｂ）に示すように、メタデータ３０は、メタデータ全体の情報を統括的に記述するメタデータ管理情報３１ａと、Ｎ個（Ｎは１以上の整数）のビデオオブジェクト（以降、ＶＯＢと記す）メタデータ情報サーチポインタ３１ｂ−１〜３１ｂ−Ｎと、Ｎ個のＶＯＢメタデータ情報３１ｃ−１〜３１ｃ−Ｎとを含む。

図２のマルチメディアデータファイル２４に記録されたデータは１つ以上の複数のＶＯＢに分割されている。各ＶＯＢは一つの番組に対応する場合もあり、各ＶＯＢがファイル容量の制限によって分割された単位である場合もある。ＶＯＢメタデータ情報３１ｂ−ｎ（３１ｂ−１乃至３１ｂ−Ｎのうちの任意のもの）は、図３（Ｂ）に示すように、マルチメディアデータファイル２４内に、個々のＶＯＢに対応して用意される。すなわちｎ番目のＶＯＢｎには、対応するｎ番目のＶＯＢｎメタデータ情報３１ｃ−ｎが存在する。なお、ＶＯＢの番号とＶＯＢメタデータ情報３１ｃ−ｎの番号の対応関係を示すテーブルやオフセット量が用意されている場合には、必ずしも双方の番号が一致している必要も無く、また１つのＶＯＢに対するＶＯＢメタデータ情報（３１ｃ−ｎなど）が複数用意されていても良く、１つのＶＯＢメタデータ情報３１ｃ−ｎが複数のＶＯＢに関連乃至対応するものであっても構わない。なお関連するメタデータを持たないＶＯＢには、対応するＶＯＢメタデータ情報（３１ｃ−ｎに相当するもの）が存在しない場合もあり得る。

図３（Ｂ）に示されるｎ番目のＶＯＢｎメタデータ情報サーチポインタ３１ｂ−ｎには、ｎ番目のＶＯＢｎメタデータ情報３１ｃ−ｎの開始アドレス情報が記されている。また、ＶＯＢメタデータ情報３１ｃ−１乃至３１ｃ−Ｎの総数Ｎは、メタデータ管理情報３１ａに記されている。

次に、図３（Ｃ）に示すように、ＶＯＢメタデータ情報３１ｃ−ｎの各々はメタデータ一般情報３２ａとビデオショットマップ情報３２ｂとを含む。

メタデータ一般情報３２ａには、上位階層のＶＯＢメタデータ情報３１ｃ−ｎが対応しているＶＯＢのコンテンツ情報、および対応するビデオショットマップ情報３２ｂの開始アドレス情報などが記述されている。ここでメタデータ一般情報３２ａに記述されるＶＯＢのコンテンツ情報とは、番組名や制作者名、出演者名、内容説明、録画した番組の放送日時やチャンネルなどである。

ビデオショットマップ情報３２ｂの詳細は図３（Ｄ）に示されるように、ビデオショットマップ一般情報３３ａ、とＭ個（Ｍは１以上の整数）ビデオショットエントリ３３ｂ−１乃至３３ｂ−Ｍを含む。図２に示すマルチメディアデータファイル２４に記録した映像ストリームまたは音声ストリームを再生時間軸で複数に断片化したものはそれぞれビデオショットとなる。ビデオショットエントリ３３ｂ−１乃至３３ｂ−Ｍは、参照するＶＯＢにおけるビデオショットの総数Ｍに対応してＭ個用意される。すなわちｍ番目のビデオショットには、対応するｍ番目のビデオショットｍエントリ３３ｂ−ｍが存在する。
なおビデオショットの番号とビデオショットエントリ３３ｂ−ｍの番号の対応関係を示すテーブルやオフセット量が用意されている場合には、必ずしも双方の番号が一致している必要も無く、また１つのビデオショットに対するビデオショットエントリ（３３ｂ−ｍなど)が複数用意されていてもよく、１つのビデオショットエントリ３３ｂ−ｍが複数のビデオショットを包括する（ビデオショットに対応する）ものであても良い。ビデオショットエントリ３３ｂ−１乃至３３ｂ−Ｍの総数Ｍは、ビデオショットマップ一般情報３３ａに記述されている。

ビデオショットエントリ３３ｂ−ｍは図３（Ｅ）に示すように、ビデオショット開始時間情報３４ａと、ビデオショット終了時間情報３４ｂと、ビデオショット重要度レベル３４ｃとを含む。
ビデオショット開始時間情報３４ａは、マルチメディアデータファイル２４に記録した映像ストリームまたは音声ストリームを再生時間軸で複数に断片化したビデオショットの再生開始時間（プレゼンテーションタイム）あるいは開始フレーム位置情報である。
ビデオショット終了時間情報３４ｂは当該ビデオショットの再生終了時間（プレゼンテーションタイム）あるいは終了フレーム位置情報である。
ビデオショット重要度レベル３４ｃは当該ビデオショットに対して付与された数値であってコンテンツの重要度合いを示す数値である。
ビデオショット終了時間情報３４ｂは、ビデオショット再生時間情報３４ａに対するビデオショット個々の時間間隔が別途取得できる場合には省略しても良い。

なお、ビデオショット重要度レベル３４ｃに付した重要度とは便宜上の名称であり、必ず
（ａ）ビデオショットの内容が主観評価に基づくコンテンツの内容における重要度（例えばハイライトシーンでは高くなる）であってもよく、
（ｂ）ビデオショットに対応する音声の、歓声の持続時間の長さに対応した値であってもよく、
（ｃ）ビデオショットの画面内の動きの激しさの度合いに対応した値であってもよく、
（ｄ）主観評価に拠らない物理的な計測値や指標に基づく数値であってもよい。
以上のうち、（ａ）及び（ｂ）は主観評価に基づく重要度と言い、（ｃ）及び（ｄ）は物理変化量に対応する重要度と言う。ここで「物理的変化量」とは、画像符号化における動きベクトルや、カラーヒストグラム、音量など映像データや音声データから直接取得可能な物理的な指標を指している。一方主観評価に基づく重要度は、映像や音声の面白さ（例えば観客の熱狂具合）のように、映像データや音声データから直接取得された物理的指標を意味付けをした特徴量を指す。

図４はこの発明の実施の形態１におけるデータ同期概念図である。ここではＤＶＤ−ＲやＤＶＤ−ＲＷメディアに適用されるビデオレコーディング（ＶｉｄｅｏＲｅｃｏｒｄｉｎｇ）フォーマットの基本的な概念を例にして説明しているが、本発明はビデオレコーディングフォーマットに限ったものではなく、マルチメディアデータファイルとメタデータファイルとが再生時間情報に基づいて同期し得る蓄積メディアフォーマットに幅広く適用できるものである。

図４において、４０は管理情報ファイル２３に記述されていてマルチメディアデータファイル２４のマルチメディアデータの再生順序を記述するプログラムチェーン情報、４１はプログラムチェーン情報４０によって定義された再生単位であってＮ個（Ｎは１以上の整数）のプログラム（そのうち２個のみが図示されている）、４２ａおよび４２ｂはプログラム４１によって定義された再生単位であって１つ以上のセル（「セル１」、「セル２」）、４３ａおよび４３ｂは管理情報ファイル２３に記述されていてセル４２で指定された再生時間情報（プレゼンテーションタイム）に相当する実際の映像データまたは音声データの参照先を記述するためのビデオオブジェクト（ＶＯＢ）情報（「ＶＯＢ１情報」、「ＶＯＢ２情報」）、４４ａおよび４４ｂはＶＯＢ情報４３によって定義された再生時間情報（プレゼンテーションタイム）をオフセットして実際の映像データまたは音声データのアドレス情報に変換するためのタイムマップテーブル、４５ａおよび４５ｂはマルチメディアデータファイル２４に記述されている実際の映像データまたは音声データを再生時間情報と共にパケット構造にて多重化して映像音声再生システムがアクセスする為の最小単位に細分化されているビデオオブジェクトユニット（以下、ＶＯＢＵと記す）であり、図示の例では、ＶＯＢ１のためのタイムマップテーブル４４ａにＶＯＢＵ１〜ＶＯＢＵＰが含まれ、ＶＯＢ２のためのタイムテーブル４４ｂにＶＢＵ１〜ＶＯＢＵＱが含まれる。
符号３３ｂ−１〜３３ｂ−Ｒ、３３ｂ−１〜３３ｂ−Ｓで示されるビデオショット１エントリ〜ビデオショットＲエントリ、ビデオショットエントリ１〜ビデオショットＳエントリは、それぞれ図３のＶＯＢ１用メタデータ３１ｃ−１、ＶＯＢ２用メタデータ３１ｃ−１の一部をなすものであり、図３のビデオショット１エントリ３３ｂ−１〜ビデオショットＭエントリ３３ｂ−Ｍに対応する。

図５はこの発明の実施の形態１におけるメタデータ分析部１２１で生成する重要度マップと符号化レートマップの一例を示す。同図（ａ）は、ビデオオブジェクトに関して、再生時間に対する重要度レベルの推移を示す重要度マップの一例を示している。また同図（ｂ）は、ビデオオブジェクトに関して、再生時間に対するダビング（再符号化）時に設定する符号化レート参照値の推移を示す符号化レートマップの一例を示す。

重要度マップ（図５（ａ））は、横軸５１に再生時間を示し、縦軸５０は重要度レベルを示す。同図中に示すように、重要度レベルグラフ５２は、所定の範囲（例えば［０，１］または［０，１００］）において連続的に変化する。重要度マップ上限値５３は当該所定の範囲の上限値を示し、重要度マップ下限値５４は当該所定の範囲の下限値を示す。すなわち重要度レベルグラフ５２は、重要度マップ上限値５３から重要度マップ下限値５４の範囲内を変化する。

なお、横軸５１に示した時間の単位は、図３のビデオショット開始時間情報３４ａおよびビデオショット終了時間情報３４ｂに示す値に基づいたものあり、重要度レベルはビデオショット重要度レベル３４ｃの値に基づくものとする。言換えると、図５のグラフは、ビデオショット開始時間情報３４ａで表されるビデオショット開始時間からビデオショット終了時間情報３４ｂで表されるビデオショット終了時間までの一つのビデオショット（シーン)に対して１つの重要度レベル（ビデオショット重要度レベル３４ｃで表されたもの）をプロットしたものである。

重要度レベルが高い値で設定されている箇所は、ある基準に基づいたコンテンツ中のハイライトシーン（ビデオショット）を意味しており、ユーザーにとって視聴価値が高い箇所と言える。

符号化レートマップ（図５（ｂ））は、横軸５６に再生時間を示し、縦軸５５はダビング時における再符号化レートの設定参照値を示している。同図中に示すように、符号化レート設定グラフ５７は、符号化レート変換上限値５８から符号化レート変換下限値５９までの間で、連続的に変化する。符号化レート変換上限値５８及び符号化レート変換下限値５９を表すデータは、予めシステム制御部１０１からメタデータ分析部１２１に供給され、メタデータ分析部１２１に記憶されている。

上記のように、重要度レベルから映像シーンに適した符号化レートを求める際に、動画像符号化装置が設定した上限・下限値内で、シーン毎にビットレートを効率よく配分することで、指定された符号化レートの範囲内で記録されたマルチメディアデータファイルを生成することができる。また上限値・下限値を操作することで、マルチメディアデータファイルの平均符号化レートおよび重要度レベルの影響度を制御することができる。

再符号化レートが高い値で設定されている箇所では、リエンコードダビングの際に高い符号化レートが割り当てられることで、ブロックノイズや画像歪みが発生しにくい高精細な映像が記録することができる。

以下に上記の動画像符号化装置１００の動作を説明する。
まず、図１、図２、図３、図４を用いて、ビデオレコーディングフォーマット等における一般的な録画過程（通常の録画と同様の処理）の概要を説明する。本実施の形態１では、ダビング元の記録媒体（第１次記録媒体）としてハードディスクドライブ１０２に録画する場合について記載しているが、もちろんダビング元の記録媒体（第１次記録媒体）が光ディスク１０３であっても構わない。

外部から入力された入力映像信号１１０は、ビデオエンコーダ１１２によりＭＰＥＧ−２などの符号化圧縮方式に符号化され、映像ストリームが生成される。入力音声信号１１１も同様に、オーディオエンコーダ１１３により、ＡＣ−３などの符号化圧縮手法により符号化され、音声ストリームが生成される。これらの映像ストリームと音声ストリームは、マルチプレクサ１１４にて多重化され、マルチメディアデータファイル２４が生成される。その後、マルチメディアデータファイル２４は、順次バッファメモリ１１５に書き込まれ、システム制御部１０１からの指示のもと、ハードディスクドライブ１０２に記録される。

マルチメディアデータファイル２４は、図２に示すディレクトリ構造で記録される。マルチメディアデータファイル２４を記録する際には、マルチメディアデータファイル２４の属性情報および再生時間情報を情報管理ファイル２３に記録する。その後、バックアップファイル２５に、情報管理ファイル２３と同一の情報が保持できるようにファイルの生成、もしくはデータの更新が行われる。

次に、図１から図５を用いて、実施の形態１の動画像符号化装置１００における録画過程についてより詳細に説明する。ここでもハードディスクドライブ１０２への録画について記載するが、もちろん光ディスク１０３へ録画しても構わない。

本実施の形態によるダビングを行う場合、まず一次記録媒体であるハードディスクドライブ１０２へ番組の録画を行う。録画の際には、
ビデオエンコーダ１１２にて入力映像信号１１０をＭＰＥＧ−２などに符号化圧縮する際に、映像特徴抽出部１４２において、フレーム間の動きベクトル量やカラーヒストグラムの変化量や画像認識手法を用いた人物や顔などの検出など、特徴量の抽出が行われる。
同じくオーディオエンコーダ１１３にて入力音声信号１１１をＡＣ−３などに符号化圧縮する際に、音声特徴抽出部１４３において、デジタルサンプリング後の係数値や周波数情報の変化、あるいは音声レベルの変化または音声認識手法を用いた話者の変化や拍手シーンの検出など、特徴量の抽出が行われる。

映像特徴抽出部１４２または音声特徴抽出部１４３で抽出された特徴量は、メタデータ生成部１２０に供給されて分析され、メタデータ生成部１２０で、ビデオショット重要度レベル３４ｃが算出される。
例えば音声特徴抽出部１４３で得られた特徴量として、音声認識手法によって拍手や歓声と識別された音声信号が長時間継続した場合、その継続時間に応じた数値を重要度として割り当てる。また映像特徴抽出部１４２で得られた得た特徴量として、動きベクトル量が大きな箇所、すなわち動きが激しい映像信号があった場合、その動きベクトル量の度合いに応じた数値を重要度として割り当てる。当該重要度はビデオショット重要度レベル３４ｃ（図３（Ｅ））となり、また特徴量が観測された箇所の再生時間情報はビデオショット開始時間情報３４ａおよびビデオショット終了時間情報３４ｂ（図３（Ｅ））となる。
以上の処理を繰り返して複数のビデオショットエントリ３３ｂ−１乃至３３ｂ−Ｍを生成してメタデータ３０を形成し、これをメタデータファイル２６としてバッファメモリ１１５を介してハードディスクドライブ１０２のメタデータディレクトリ２２など所定の論理位置に配置されるように書き込む。

メタデータファイル２６の生成は、マルチメディアデータファイル２４の記録に対して必ずしもリアルタイムで同時に処理されなくても良く、メタデータ生成部１２０またはシステム制御部１０１のメモリ領域に少なくともビデオショット重要度レベル３４ｃを含む必要データを保持しておき、後からメタデータファイル２６を生成して、ハードディスクドライブ１０２に記録する方法であっても良い。
また、ビデオショット重要度レベル３４ｃを含む必要データを一旦ハードディスクドライブ１０２に記録し、後に（後述のダビングの前に）ハードディスクドライブ１０２から読み出して、メタデータファイル２６を生成し、生成されたメタデータファイル２６をハードディスクドライブ１０２に書込んでおくようにしても良い。

さらに、本実施の形態１におけるメタデータファイル２６は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であっても構わない。また第三者による改ざんや情報の流出を阻む為に暗号化処理を施すこととしても良い。

次に、図１から図５を用いて、実施の形態１の動画像符号化装置１００におけるダビング処理の過程を説明する。ここではハードディスクドライブ１０２に記録されているマルチメディアデータファイル２４内のＶＯＢを、光ディスク１０３へ、リエンコードダビングする際の処理について記載するが、もちろん光ディスク１０３からハードディスクドライブ１０２へダビングしても構わない。

まず図１及び図２を用いて、一般的なリエンコードダビング処理(通常のリエンコーディングと同様の処理）の概要について記載する。
ハードディスクドライブ１０２に記録された所望のＶＯＢ（番組）を、光ディスク１０３へリエンコードダビングを行う場合、まずハードディスクドライブ１０２内にマルチメディアデータファイル２４として記録されている番組を、デマルチプレクサ１３０、ビデオデコーダ１３１、オーディオデコーダ１３３により、復号化する。その後、復号化された出力映像信号１３２および出力音声信号１３４は、ビデオエンコーダ１１２、オーディオエンコーダ１１３により、符号化され、マルチプレクサ１１４により多重化され、バッファメモリ１１５、記録再生ドライブ１０４を経由し、マルチメディアデータファイル２４として、光ディスク１０３に書き込まれる。

次に図１から図５を用いて、実施の形態１のダビング処理過程を詳細に記載する。まずハードディスクドライブ１０２内の当該番組を構成するプログラム４１および当該プログラム４１を構成するセル４２がプログラムチェーン情報４０によって分かるので、参照すべきＶＯＢの番号および当該セルの再生開始時間と再生終了時間の各プレゼンテーションタイム（ＰＴＭ）が確定する。

動画像符号化装置１００は、視聴者がダビング処理を指示する前、またはダビング対象として所望の番組を選択した後のいずれかのタイミングにおいてハードディスクドライブ１０２に記録されたメタデータファイル２６を読み出してバッファメモリ１１５を介してメタデータ分析部１２１に取り込むことで、メタデータ３０に記述したデータ構造を適宜参照できるようにしておく。

ここではメタデータファイル２６とマルチメディアデータファイル２４とは独立した論理ファイルで構成する例について説明しているが、例えばメタデータ３０は情報管理ファイル２３のデータ構造中に記述されていたり、マルチメディアデータファイル２４に多重化して記述されていたりしても良い。

なおメタデータファイル２６はマルチメディアデータファイル２４と独立した論理ファイルで構成することで、マルチメディアデータファイル２４を全て読み出す必要が無く、メタデータファイル２６のみを読み出して解析するだけで番組の重要なシーン箇所を素早く検出することができる。

メタデータ分析部１２１では、メタデータ３０に記述されているデータ構造から、ダビング対象の番組に関して、ビデオショット毎のビデオショット開始時間情報３４ａ、ビデオショット終了時間情報３４ｂ、ビデオショット重要度レベル３４ｃを読み出す。これらの情報から、各単位時間における重要度レベルを取得することができるため、図５（ａ）に示す重要度マップを生成できる。

その後、メタデータ分析部１２１では、得られた重要度マップ（図５（ａ））より、ダビング時のレート設定の参照値である符号化レートマップ（図５（ｂ））を生成する。符号化レートマップ（図５（ｂ））は、ダビングによって再符号化する際に記録レート設定の参照値を示すものであり、重要度マップ（図５（ａ））の重要度レベルが高いシーンには、符号化レートマップ（図５（ｂ））に高い符号化レート値を設定する。

重要度マップ（図５（ａ））から符号化レートマップ（図５（ｂ））を生成する際には、数値変換が必要となる。例えば、重要度レベルは、[０．０〜１．０]といった範囲で設定されるのに対して、一般的に符号化レート設定値は[３Ｍｂｐｓ〜８Ｍｂｐｓ]といった範囲で設定される。数値の次元および設定範囲が異なるため、メタデータ分析部１２１では、符号化レート上限値５８から符号化レート下限値５９の範囲内で、重要度レベルを反映した符号化レートマップ（図５（ｂ））を設計しなければならない。

あらかじめ動画像符号化装置１００では、符号化レート変換上限値５８と符号化レート変換下限値５９が設定されているものとして説明を進めるが、これらの設定値は、ビデオエンコーダ１１２のエンコード可能な範囲内において、ユーザーが手動で決定しても良いし、動画像符号化装置１００が自動的に決定しても良い。

符号化レート設定グラフ５７の値を決定する際には、重要度マップ（図５（ａ））で規定されている重要度上限値５３から重要度下限値５４の範囲を、符号化レート変換上限値５８から符号化レート変換下限値５９にスケールを変換する形態などで値を確定する。

例えば、図５（ａ）中で、重要度上限値５３は１．０の値を、重要度下限値５４は０．０の値が設定しているものとする。また符号化レートマップ（図５（ｂ））の符号化レート変換上限値５８には８．０Ｍｂｐｓが、符号化レート変換下限値５９には３．０Ｍｂｐｓが設定しているものとする。その場合、重要度レベル範囲である０．０から１．０の範囲が、符号化レートマップの３．０Ｍｂｐｓから８．０Ｍｂｐｓまでの範囲に射影するなどといった形態でスケール変更が行われる。すなわちビデオショット[ｉ]における記録レート設定値（Ｘ[ｉ]）は、「ビデオショット［ｉ］の重要度レベル×（符号化レート上限値５８−符号化レート下限値５９）／（重要度レベル上限値５３−重要度レベル下限値５４）などの算式によって求めることができる。上述した算式により、例えば、重要度レベルが０．８のシーンの場合、符号化レート設定値は７．０Ｍｂｐｓに変換されることとなる。

図５では、符号化レートマップ（同図（ｂ））の符号化レート変換上限値５８と符号化レート変換下限値５９の範囲を狭く設定し、特に下限値を大きく引き上げた場合について示した。同図のように符号化レート変換上限値５８と符号化レート変換下限値５９を設定すると、符号化レート設定グラフ５７は同図中のように縦方向に圧縮した設定値を持つ曲線となる。また符号化レート変換下限値５９を大きく引き上げているため、高いビットレートで遷移する符号化レート設定グラフ５７となる。

このように、符号化レート変換上限値５８と符号化レート変換下限値５９の設定値を変更することにより、符号化レート設計時において、重要度レベルの影響度や符号化レートの平均値を操作することができる。これにより、図５に示すような重要度レベルを縦方向に圧縮した場合には、重要度レベルがダイナミックが大幅に変化する場合であっても、重要度レベルの影響が少ない符号化レート値が設定できる。逆に、重要度レベルを縦方向に伸張した場合は、重要度レベルのちの変化の幅が小さい場合であっても、符号化レートにダイナミックに反映することができる。

なお符号化レートマップ（図５（ｂ））を作成する際には、上述した物理変化量を元に視聴価値の有無を示す情報を生成し、これに基づいてレート設計をおこなっても良いし、映像の物理変化量（動きベクトルやカラーヒストグラムなど）と組み合わせて符号化レート設計を行っても良い。そのように構成することで、画像符号化困難度の影響を加味した効率的な符号化を行うことができる。

このようにメタデータ分析部１２１によって、符号化レートマップ（図５（ｂ））を作成できる。ここで生成した符号化レートマップ（図５（ｂ））は、記録レートマップ保持部１２２に格納する。

ダビング対象ＶＯＢに関して、符号化レートマップ（図５（ｂ））が確定した段階で、実際のダビング処理を開始する。ハードディスクドライブ１０２から読み出されたマルチメディアデータファイル２４内に保持しているＶＯＢは、バッファメモリ１１５を経由し、デマルチプレクサ１３０に供給される。デマルチプレクサ１３０では、マルチメディアデータを映像ストリームと音声ストリームに分離し、それぞれビデオデコーダ１３１およびオーディオデコーダ１３３に供給し、符号化された映像ストリームと音声ストリームを復号化する。

復号化された出力映像信号１３２と出力音声信号１３４は、ビデオエンコーダ１１２およびオーディオエンコーダ１１３に供給される。その際に、記録レート変更手段１２３は、記録レートマップ保持部１２２に保持している符号化レートマップ（図５（ｂ））から、映像シーン毎の符号化レートの参照値を用いて、ビデオエンコーダ１１２とオーディオエンコーダ１１３の符号量設定を行う。そのため、シーンの意味的重要度に応じて、適切に符号量が配分された映像ストリームおよび音声ストリームが生成できる。その後は、通常の録画と同様に、マルチプレクサ１１４で多重化され、バッファメモリ１１５、記録再生ドライブ１０４を経由し、光ディスク１０３にマルチメディアデータファイル２４として記録される。また光ディスク１０３にマルチメディアデータファイル２４を書き込む際には、バッファメモリ１１５に保持しているメタデータファイル２６を一緒に書き込んでも構わない。

実施の形態２．
図６は、実施の形態２に示す符号化レートマップ修正の一例の説明図である。図６において、６０は符号化レート修正前の符号化レート設定情報を保持する符号化レート設定グラフ（修正前）、６１は符号化レート設定グラフ（修正前）６０全体の平均符号化レートを示す平均符号化レート（修正前）を示す。また６２は符号化レート修正後の符号化レート設定情報を保持する符号化レート設定グラフ（修正後）、６３は符号化レート修正を行った後の平均符号化レートを示す目標平均符号化レートを示す。

図７は、実施の形態２における符号化レートマップ修正の他の例の説明図である。図７中で、７０は符号化レート修正前の符号化レート設定情報を保持する符号化レート設定グラフ（修正前）、７１は符号化レート設定グラフ（修正前）７０全体の平均符号化レートを示す平均符号化レート（修正前）を示す。また７２は符号化レート修正後の符号化レート設定情報を保持する符号化レート設定グラフ（修正後）、７３は符号化レート修正を行った後の平均符号化レートを示す目標平均符号化レート、７４はビデオエンコーダ１１２が設定可能な記録レートの上限値などを示す符号化レート上限値である。

なお図６、図７において、実施の形態１において説明した構成と同様の構成については同一の符号を付記する。実施の形態２においては、ダビング先の記録媒体の容量に応じて、符号化レートマップの情報を再修正する方法について記載する。その他の処理は、実施の形態１と同様の処理を行う。

図１、図２、図３、図４、及び図６を用いて、実施の形態２における符号化レートマップの記録レート修正の一例（図６）を詳細に説明する。実施の形態２においては、ダビング先空き容量に応じて、符号化レートマップを再修正することを特徴としている。

通常、光ディスクなどの固定容量である記録媒体へダビングを行う場合、ダビング先記録媒体の空き容量に対して適切な平均レートで符号化しなければならない。なぜならばダビング先の空き容量を超過する記録レートで符号化されたマルチメディアデータファイルは、最終的にダビング先記録媒体の空き容量に収録することができないからである。一方、記録レートを低く設定しすぎると、記録メディアを有効に使用することができず、高画質・高音質で記録することができなくなる。

ダビング開始前に、あらかじめ記録レートマップ保持部１２２には、ダビング対象マルチメディアデータファイル２４中に保持されているＶＯＢに関しての符号化レートマップ（図６）を保持しているものとする。ダビング実施時において、システム制御部１０１は、ダビング先記録媒体である光ディスク１０３の空き容量を取得する。そして、マルチメディアデータファイル２４中からダビング対象ＶＯＢの記録時間と、ダビング先空き容量から光ディスク１０３の空き容量に納まるサイズで、最も大きくビットレートを割り振ることができる目標平均符号化レート６３を決定する。

図６を用いて、目標平均符号化レート６３の算出方法について具体的に説明する。平均符号化レート（修正前）６１が６．０Ｍｂｐｓ、ダビング先記録媒体空き容量が４．５ＧＢ（ギガバイト）、マルチメディアデータファイル２４中のダビング対象ＶＯＢの再生時間が２時間と仮定して説明を進める。目標平均符号化レート６３は、ダビング先記録媒体の空き容量を記録時間で割ることで算出することができる。すなわち目標平均符号化レート６３は、（４．５Ｇ×８バイト）／（２時間×６０分×６０秒）＝５．０Ｍｂｐｓと算出される。
この計算は、システム制御部１０１で行われ、計算の結果得られた目標平均符号化レート６３がシステム制御部１０１から記録レート変更手段１２３に伝えられる。

平均符号化レート６１で設定された記録レートのまま符号化を行うと、ダビング先記録媒体である光ディスク１０２の容量を超過するため、符号化レート設定曲線６０の平均レートが、目標平均符号化レート６３と等しくなるように全体を引き下げる必要がある。符号化レート設定曲線６０は、全体を下方向にシフトすることにより符号化レート設定曲線６２のように修正する。上述したように、全体を均等にシフトさせても構わないし、重要度に応じて変化割合に重み付けをしながらレート設計をしても構わない。この修正は、記録レート変更手段１２３で行われる。即ち、記録レート変更手段１２３では、システム制御部１０１から供給される目標平均符号化レート６３を用いて、記録レートマップ保持部１２２に保持されている記録レートを修正する。

本例では、ダビング先の空き容量に応じて、自動的に平均レートの再設定を行う手法について示したが、手動で目標平均符号化レート６３を決定しても構わない。

次に、図１、図２、図３、図４、及び図７を用いて、実施の形態２における符号化レートマップの記録レート修正の他の例（図７）を詳細に説明する。本例では、ダビング先空き容量が十分に大きい場合に、目標平均符号化レートを引き上げる場合について記載する。これにより、より高品質な動画像にてディスク記録容量を効率的に使用した符号化を行うことができる。

実施の形態２における符号化レートマップの記録レート修正の一例（図６）で説明したように、システム制御部１０１及び記録レート変更手段１２３の動作により、符号化レート設定グラフ（修正前）７０を、目標平均符号化レート７３に従って、符号化レート設定グラフ（修正後）７２に修正することができる。しかし上述した符号化レート設定の修正を行うと、ある映像シーンの符号化レートが符号化レート上限値７４を超える場合がある。その場合には、符号化レート上限値７４を超える映像シーンの符号化レートを調整して、符号化レート上限値７４以内におさめる必要がある。そこで本例では、修正後の符号化レート値が、符号化レート上限値７４を超えないように、再度符号化レート曲線７２を修正する処理を行っている。

符号化レート設定グラフ（修正後）７２に関して、符号化レート上限値７４を超えるような映像シーンでは、図７に示すように符号化レート上限値７４と等価の値に設定しなおす。この操作によって過剰となった符号量は、修正を行わなかった他の映像シーンに再分配し、全体の符号量は変更しないように調整する。このような上限値７４による制限を含む修正も記録レート変更手段１２３で行われる。そのため、記録レート変更手段１２３には、上限値７４を表すデータがシステム制御部１０１から供給され、記憶されている。

本例では、符号化レート上限値７４が存在する場合について記載しているが、同様に記録レート下限値があった場合にも適用しても良い。

このように構成することで、ビデオエンコーダ１１２が符号化を実施できる範囲内で、符号化レートを制御することができる。本実施の形態２ではビデオエンコーダ１１２のハードウェア特性の制約により、符号化レート上限値７４を決定しているが、光ディスク１０３に記録するアプリケーション規格の制約に基づいて、符号化レート上限値７４が決定されても良い。

また、ダビング先の記録メディアの容量に合わせて、重要度から算出されたリエンコード時の符号化レート参照値を再修正することができるため、ダビング先メディア容量に合わせた効率的な符号量制御を実施したダビングを行うことができる。

実施の形態３．
図８は、実施の形態３における要約ダビング概念図を示したものである。同図において、８０は重要度レベルグラフ８１を評価するための値である閾値、８２は閾値８０に基づいて特定の値以下のシーンの重要度レベルを修正した後の重要度レベルグラフ、８３は閾値８０によって映像シーンのダビング対象区間とスキップ対象区間を示す。なお上記以外については、実施の形態１で説明したものと同じであり、ここでは説明を省略する。

実施の形態３においては、図８（ａ）に示す重要度マップに従い、ダビング実施区間を決定することを特徴としている。具体的には重要度マップ中で、ある閾値以下の値が設定されていた場合、当該区間のダビングを行わず、次のダビング区間開始点にジャンプしダビングを継続する。

図８を用いて、実施の形態３の動画像符号化装置１００のダビング制御シーケンスについて説明する。ダビング対象のＶＯＢに関連するビデオショットのビデオショット重要度レベル３４ｃが重要度レベルグラフ８１となる場合、閾値８０を下回るビデオショットはａ１からａ２の区間、およびｂ１からｂ２の区間となっている。メタデータ分析部１２１もしくはシステム制御部１０１では、当該区間において重要度レベルを特定の値（例えば、図８では０を示す）に再設定した重要度レベルグラフ８２のように再設計を行う。その後、ダビングを行う際には、重要度レベルが特定の値（例えば、０）を示している区間はダビングを実施せず、次のダビング対象区間の開始点にジャンプし、ダビングを継続する。なお実施の形態１と同様の方法で、ダビング処理を行うものとする。重要度レベルが特定の値（例えば０）である場合、記録レート変更手段１２３から符号化レートがゼロであることを表すデータが出力され、この結果ビデオデコーダ１１２及びオーディオデコーダ１１３では符号化が行われず、結果として、ダビングがスキップされる。

このようにダビング処理をスキップするよう構成することにより、リエンコードダビング時に、視聴価値の低い部分を除外したマルチメディアデータファイルを生成することができる。例えば、テレビジョン放送におけるＣＭ（コマーシャルメッセージ）区間など、番組本編と関連性が低い部分での重要度レベルが低く設定されるように重要度レベルグラフが作成されている場合には、当該重要度レベルを参照することでＣＭ区間を除外して番組本編部分だけを選択的にダビングすることができる。

なお、上記の実施の形態では、ダビングを行う方法及び装置に関するものであるが、一つの記録媒体の一つの領域から読み出して、復号化、符号化を行って、同じ記録媒体の別の領域に記録する場合、又は同じ記録媒体の同じ領域に記録する（上書きする）場合にも本発明を適用することができる。

また、上記の実施の形態では、映像の特徴と、音声の特徴の双方に基づいて、符号量の割当てを行っており、このようにすることにより、映像の内容的な重要さの度合いや、画像符号化困難度の影響を加味した効率的な符号化を行うことができるが、このようにする代わりに、音声の特徴の抽出のみを行って、これに基づいて、符号量の割当てを行うようにしても良い。
音声の特徴のみによって符号量の割当てを行う構成とすれば、情報量が比較的小さい音声の特徴を表すデータから、再符号化時の符号化レートを決定する指標を生成できるため、回路規模が小さくても特徴情報を反映した再符号化を行うことができる。
さらに、上記の実施の形態では、特徴量の抽出を、１以上のフレームから成るシーン乃至はビデオショットのように所定の時間区分毎に行っているが、所定のデータ量から成るセグメント（データ量により定義された区分）毎に特徴量の抽出を行うようにしても良い。

２０ルートディレクトリ、２１マルチメディアディレクトリ、２２メタデータディレクトリ、２３情報管理ファイル、２４マルチメディアデータファイル、２５バックアップファイル、２６メタデータファイル、３０メタデータ、３１ａメタデータ管理情報、３１ｂ−１〜３１ｂ−ＮＶＯＢメタデータ情報サーチポインタ、３１ｃ−１〜３１ｃ−ＮＶＯＢメタデータ情報、３２ａメタデータ一般情報、３２ｂビデオショットマップ情報、３３ａビデオショットマップ一般情報、３３ｂ−１〜３３ｂ−Ｍビデオショットエントリ、３４ａビデオショット開始時間情報、３４ｂビデオショット終了時間情報、３４ｃビデオショット重要度レベル、４０プログラムチェーン情報、４１プログラム、４２セル、４３ビデオオブジェクト情報、４４タイムマップテーブル、４５映像データおよび音声データ、５０重要度マップ縦軸、５１重要度マップ横軸、５２重要度レベルグラフ、５３重要度マップ上限値、５４重要度マップ下限値、５５符号化レートマップ縦軸、５６符号化レートマップ横軸、５７符号化レート設定グラフ、５８符号化レート変換上限値、５９符号化レート変換下限値、６０符号化レート設定グラフ（修正前）、６１平均符号化レート（修正前）、６２符号化レート設定グラフ（修正後）、６３目標平均符号化レート、７０符号化レート設定グラフ（修正前）、７１平均符号化レート（修正前）、７２符号化レート設定グラフ（修正後）、７３目標平均符号化レート、７４符号化レート上限値、８０重要度レベルグラフ、８１閾値、８２重要度レベルグラフ、８３ダビング制御シーケンス図、１００動画像符号化装置、１０１システム制御部、１０２ハードディスクドライブ、１０３光ディスク、１０４記録再生ドライブ、１１０入力映像信号、１１１入力音声信号、１１２ビデオエンコーダ、１１３オーディオエンコーダ、１１４マルチプレクサ、１１５バッファメモリ、１２０メタデータ生成部、１２１メタデータ分析部、１２２記録レートマップ保持部、１２３記録レート変更手段、１３０デマルチプレクサ、１３１ビデオデコーダ、１３２出力映像信号、１３３オーディオデコーダ、１３４出力音声信号、１４０モニタ、１４２映像特徴抽出部、１４３音声特徴抽出部。

Claims

放送番組の映像信号及び音声信号をストリームファイルとして第１の記録媒体に記録し、前記第１の記録媒体に記録された番組の映像信号及び音声信号を第２の記録媒体にダビングする手段と、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出手段と、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第１の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成部と、
前記ダビングを行う際に、前記第１の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析部とを備え、
前記メタデータ分析部は、当該重要度レベルが所定の閾値以下の値である場合、前記第１の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第２の記録媒体への記録をスキップして、前記ダビングを継続し、
前記閾値は、ダビングする範囲を変更するために設定されるものである
ことを特徴とする動画像符号化装置。
前記第１の記録媒体には、前記ストリームファイル及び前記メタデータファイルとは別に、前記ストリームファイルの制御情報である管理情報ファイルが記録されており、
前記管理情報ファイルに前記メタデータファイルが有効な値であるか否かの情報が記録されている
ことを特徴とする請求項１に記載の動画像符号化装置。
放送番組の映像信号及び音声信号をストリームファイルとして第１の記録媒体に記録し、前記第１の記録媒体に記録された番組の映像信号及び音声信号を第２の記録媒体にダビングするステップと、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出ステップと、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第１の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成ステップと、
前記ダビングを行う際に、前記第１の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析ステップとを備え、
前記メタデータ分析ステップは、当該重要度レベルが所定の閾値以下の値である場合、前記第１の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第２の記録媒体への記録をスキップして、前記ダビングを継続する
ことを特徴とする動画像符号化方法。
前記第１の記録媒体には、前記ストリームファイル及び前記メタデータファイルとは別に、前記ストリームファイルの制御情報である管理情報ファイルが記録されており、
前記管理情報ファイルに前記メタデータファイルが有効な値であるか否かの情報を記録するステップをさらに有する
ことを特徴とする請求項３に記載の動画像符号化方法。