JP5132789B2 - 動画像符号化装置及び方法 - Google Patents

動画像符号化装置及び方法 Download PDF

Info

Publication number
JP5132789B2
JP5132789B2 JP2011013796A JP2011013796A JP5132789B2 JP 5132789 B2 JP5132789 B2 JP 5132789B2 JP 2011013796 A JP2011013796 A JP 2011013796A JP 2011013796 A JP2011013796 A JP 2011013796A JP 5132789 B2 JP5132789 B2 JP 5132789B2
Authority
JP
Japan
Prior art keywords
video
recording medium
metadata
recording
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011013796A
Other languages
English (en)
Other versions
JP2011109703A (ja
Inventor
昌明 島田
功 大塚
和彦 中根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011013796A priority Critical patent/JP5132789B2/ja
Publication of JP2011109703A publication Critical patent/JP2011109703A/ja
Application granted granted Critical
Publication of JP5132789B2 publication Critical patent/JP5132789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は例えば、ハードディスクドライブ(HDD)内蔵DVDレコーダなどの映像記録再生装置でマルチメディアデータファイルの記録、およびダビングを行う場合に適用可能な動画像符号化装置及び方法に関する。
ここで、マルチメディアデータファイルとは、例えばMPEG−2方式などで符号化圧縮された映像情報と、AC−3方式などで符号化圧縮された音声情報を多重化した単一ファイルを示す。またダビングとは、映像記録再生装置に備えている第一の記録媒体に記録されたマルチメディアデータファイルを、第二の記録媒体へコピー(または移動)する処理と定義する。
一般的なダビング手法としては、大別すると「高速ダビング」と「リエンコードダビング」という2つの手法が広く知られている。「高速ダビング」は、ファイルコピーを基本原則としたダビング手法であり、高速にダビング処理を実施できるが、符号化レートの再配分や符号化パラメータの再設定など、エンコード条件を変更することができない。一方、「リエンコードダビング」は、第一の記録媒体に記録されたマルチメディアデータファイルに含まれる符号化圧縮された映像音声情報を一旦復号化した後に、所望の符号化レートや符号化パラメータに基づいて再度符号化圧縮を行って第二の記録媒体に記録するものである。よって多くの場合ではダビング処理に通常再生と同じ時間が必要となるが、符号化レートの再配分および符号化パラメータの再設定などのエンコード条件を変更することができる。すなわちリエンコードダビングでは、映像シーンに合わせて符号化レートを再配分することができる。
従来からのリエンコードダビングでは、マルチメディアデータファイルを第一の記録媒体に通常記録する際に、ある一定区間毎に入力映像の符号必要量(符号化困難度とも言う)を解析しておき、ダビング時には解析した符号必要量に基づいて、符号量を再配分する動画像符号化装置(2パスエンコード方式とも呼ばれる)がある(例えば特許文献1参照)。同様に、符号必要量に基づいて、符号化パラメータを再設定する動画像符号化装置もある(例えば特許文献2参照)。
特開2002−232882号公報(第5−6頁、第1図) 特開2001−245303号公報(第3−4頁、第2図)
上述の特許文献に開示されている動画像符号化方式によるリエンコードダビング(或いは2パスエンコード方式)では、膨大な情報量を持つ映像から特徴情報を抽出するため、特徴抽出ハードウェアには高い情報処理能力が必要であり、回路規模および特徴抽出アルゴリズムが複雑になるという問題があった。また視聴者にとっての内容的な重要さの度合いには関係なく、画像の符号化困難度だけから符号量の再配分および符号化パラメータの再設定が行われていた。そのためスポーツの得点シーンや、映画のクライマックスのような視聴者にとって内容的に重要なシーンであっても、符号量が多く割り当てられず、当該箇所でブロックノイズが発生したり、画像が歪んだりなどの画像劣化を引き起こすといった問題点があった。なお、このように視聴者にとって内容的な重要さの度合いを「視聴価値(重要度レベルとも言う)」と呼ぶことにする。
そこで、本発明では、音声情報から符号化する動画像の意味的内容の重要さの度合いを算出し、再符号化時に視聴価値に応じて適切な符号配分を行えるようにし、視聴価値の高い重要なシーンには符号量を多く割り振ることが可能な動画像符号化装置を提供することを目的とする。
本発明の動画像符号化装置は、
放送番組の映像信号及び音声信号をストリームファイルとして第1の記録媒体に記録し、前記第1の記録媒体に記録された番組の映像信号及び音声信号を第2の記録媒体にダビングする手段と、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出手段と、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第1の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成部と、
前記ダビングを行う際に、前記第1の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析部とを備え、
前記メタデータ分析部は、当該重要度レベルが所定の閾値以下の値である場合、前記第1の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第2の記録媒体への記録をスキップして、前記ダビングを継続し、
前記閾値は、ダビングする範囲を変更するために設定されるものである
ことを特徴とする。
本発明によれば、音声信号の特徴に基づいて視聴価値の高い重要なシーンには符号量を多く割り振るようにしたので、重要なシーンを高精細な映像で符号化することができる。
この発明の実施の形態1を示すシステム構成ブロック図である。 この発明の実施の形態1を示すファイル構成図である。 この発明の実施の形態1を示すメタデータ構成図である。 この発明の実施の形態1を示すデータ同期概念図である。 この発明の実施の形態1を示すメタデータから得られる重要度マップ、および再符号化レートマップである。 この発明の実施の形態2に示す符号化レートマップ修正の一例の説明図である。 この発明の実施の形態2を示す符号化レートマップ修正の別の一例の説明図である。 この発明の実施の形態3を示す要約ダビング概念図である。
実施の形態1.
図1はこの発明に係る実施の形態1のシステム構成ブロック図を示すものである。同図において、システム制御部101は、動画像符号化装置100全体を統合制御している。
実施の形態1では、ハードディスクドライブ102及び光ディスク103は、ともに記録手段であるが、本実施の形態では、ハードディスクドライブ102は、ダビング元の記録媒体(第1次記録媒体)として、マルチメディアデータファイルおよびメタデータファイルの記録のために用いられており、光ディスク103は、ダビング先の記録媒体(第2次記録媒体)として、再符号化されたマルチメディアデータファイルの記録のために用いられる。
ディスク103へのファイルの記録再生は、記録再生ドライブ104を通じて行われる。
動画像符号化装置100は、バッファメモリ115、デマルチプレクサ130、ビデオデコーダ131、オーディオデコーダ133、ビデオエンコーダ112、オーディオエンコーダ113、マルチプレクサ114、映像特徴抽出部142、音声特徴抽出部143、メタデータ生成部120、メタデータ分析部121、記録レートマップ保持部122、及び記録レート変更手段123を備えている。
バッファメモリ115は、ハードディスクドライブ102および光ディスク103から読み出したデータや書き込み対象データを一時的に保持するために使用される。
バッファメモリ115で保持されるデータには、MPEG−2などで符号化された映像ストリーム、AC−3などで符号化された音声ストリームを含むマルチメディアデータのほかにメタデータが含まれる。
デマルチプレクサ130は、バッファメモリ115に取りこまれたマルチメディアデータファイルを逐次取り込んだ後に、符号化圧縮された映像ストリームまたは音声ストリームへ分離して出力する。
ビデオデコーダ131は、デマルチプレクサ130から出力された、MPEG−2などで符号化された映像ストリームを復号化処理して、出力映像信号132を出力する。
オーディオデコーダ133は、デマルチプレクサ130から出力された、AC−3などで符号化された音声ストリームを復号化処理して、出力音声信号134を出力する。
モニタ140は、ビデオデコーダ131から出力される出力映像信号132及びオーディオデコーダ133から出力された出力音声信号134を受けて、映像の表示及び音声の出力を行う。
ビデオエンコーダ112は、動画像符号化装置100への入力映像信号110、或いはハードディスクドライブ102から再生され、ビデオデコーダ131で復号化された映像信号を、MPEG−2などで符号化して映像ストリームを生成する。即ち、ビデオエンコーダ112は、後述のように、ハードディスクドライブ102への番組の録画の際に、入力映像信号110をMPEG−2などで符号化圧縮し映像ストリームを生成する。一方、ダビングの際には、ハードディスクドライブ102から再生され、ビデオデコーダ131で復号化された映像信号を受けて再符号化する。
映像特徴抽出部142は、録画の際、或いは録画の後であって、ダビングの前に、ビデオエンコーダ112で符号化される映像信号について、フレーム間の動きベクトル量やカラーヒストグラムの変化量や画像認識手法を用いた人物や顔などの検出など、特徴量の抽出を行う。
オーディオエンコーダ113は、動画像符号化装置100への入力音声信号111、或いはハードディスクドライブ102から再生され、オーディオデコーダ133で復号化された音声信号を、AC−3などで符号化して音声ストリームを生成する。即ち、オーディオエンコーダ113は、後述のように、ハードディスクドライブ102への番組の録画の際に、入力音声信号111をAC−3などで符号化して音声ストリームを生成する。一方、ダビングの際には、ハードディスクドライブ102から再生され、オーディオデコーダ133で復号化された音声信号を受けて再符号化する。
音声特徴抽出部143は、ハードディスクドライブ102への録画の際、或いは録画の後であって、ダビングの前に、オーディオエンコーダ113で符号化される音声信号について、デジタルサンプリング後の係数値や周波数情報の変化、あるいは音声レベルの変化または音声認識手法を用いた話者の変化や拍手シーンの検出など、特徴量の抽出を行う。
映像特徴抽出部142は、ビデオエンコーダ112の一部として構成することができ、同様に音声特徴抽出部143は、オーディオエンコーダ113の一部として構成することができる。
映像特徴抽出部142及び音声特徴抽出部143における特徴量の抽出は、互いに同期した所定の区分毎に行われる。この所定の区分は、前記映像信号または前記音声信号の所定の時間間隔あるいはデータ容量に基づいたセグメントに対応するものである。
この時間間隔は、例えば、ビデオショットに対応する。ビデオショットは、所定時間で区分された連続的なフレームから成るものである。
マルチプレクサ114は、ビデオエンコーダ112における符号化で生成された映像ストリームとオーディオエンコーダ113における符号化で生成された音声ストリームをパケット化して再生時間情報と共に多重化して、順次バッファメモリ115へ記録する。
メタデータ生成部120は、映像特徴抽出部142及び音声特徴抽出部143から出力される特徴情報に基づいてメタデータを生成する。生成されたメタデータ115は、バッファメモリ115に書込まれ、さらに、ハードディスクドライブ102に書込まれる。
また、必要に応じて、ハードディスクドライブ102から読み出されて、バッファメモリ115に書込まれ、さらに後述のメタデータ分析部121に供給される。
メタデータとしては、上記の区間、例えばビデオショット毎の重要度レベルが記述され、これとともに再生時間情報が記述されている。
メタデータ分析部121は、バッファメモリ115に取り込まれたメタデータを逐次取り込んだ後に、メタデータに記述された上記の区間毎の、例えばビデオショット毎の再生時間情報と重要度レベルを取得し、ダビングなどの再符号化に際して再生時間情報に対応した再符号化レート情報を生成する。
記録レートマップ保持部122は、メタデータ分析部121にて生成された再符号化レート情報を保持する。
記録レート変更手段123は、ダビングなどの再符号化に際して、記録レートマップ保持部122に記録されている再符号化レート情報をもとに、さらに再生時間情報に応じて、ビデオエンコーダ112及びオーディオエンコーダ113のそれぞれの符号化レートを定めて出力する。
ビデオエンコーダ112およびオーディオエンコーダ113は、記録レート変更手段123から供給される符号化レートで動作する。
メタデータ生成部120、メタデータ分析部121、記録レートマップ保持部122、および記録レート変更手段123は、その一部あるいは全体をソフトウェアで構成することも可能であり、そのソフトウェアはシステム制御部101に組み込まれていても構わない。またメタデータの生成や記録レートマップの生成の処理には、適宜メモリ(図示しない)が利用されるものとする。
図2はこの発明の実施の形態1におけるファイル構成図を示すものである。図2は、ダビング元であるハードディスクドライブ102内の論理ファイル構造を示したものであり、20は論理的に階層構造を成すファイル構造の最上位階層のディレクトリ構造であるルートディレクトリ、21はルートディレクトリ20の下位階層に配置されるディレクトリ構造であるマルチメディアディレクトリ、22はマルチメディアディレクトリ21と同じくルートディレクトリ20の下位階層に配置されるディレクトリ構造であるメタデータディレクトリ、23はハードディスクドライブ102に記録されている番組の管理情報(属性情報及び再生時間情報を含む)を記述した情報管理ファイル、24は番組の映像信号または音声信号を符号化圧縮した映像ストリームまたは音声ストリームの少なくとも一方を含んで再生時間情報と共に多重化したマルチメディアデータファイル、25は情報管理ファイル23などのバックアップファイル、26はマルチメディアデータファイル24と関連付けされた特徴データを含み且つ当該マルチメディアデータファイル24とは独立した論理ファイルで成るメタデータファイルである。
マルチメディアデータファイル24とメタデータファイル26は別個のディレクトリ内に配置する例を示したが、同一のディレクトリ内に配置されていたり、メタデータファイル26がルートディレクトリに直接配置されていたりしても構わない。
またマルチメディアデータファイル24およびメタデータファイル26は番組の数に応じて分割したり、ファイル容量の制限によって複数に分割されていたりしても構わない。
さらに、本実施の形態におけるメタデータファイル26は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であっても構わない。また第三者による改ざんや情報の流出を阻む為に暗号化処理を施すこととしても良い。
管理情報ファイル23にメタデータまたはメタデータファイル26が存在しているか否か、もしくはメタデータまたはメタデータファイル26が記述されている場合に、それが有効な値であるか否かの情報を記述しておく方法もあり、これにより蓄積メディアも記述されている当該情報を参照することで素早くメタデータまたはメタデータファイル26の有無もしくは有効であるか否かを判断することが可能となる。
図3はこの発明の実施の形態1におけるメタデータ構造図である。図3は第1次記録媒体であるハードディスクドライブ102に記録するメタデータファイル26のデータ構造を示すものである。以下、同図に示す階層構造を参照して説明する。図3(A)に示すようにメタデータ30は、データ構造の最上位の階層に位置する。
次に、図3(B)に示すように、メタデータ30は、メタデータ全体の情報を統括的に記述するメタデータ管理情報31aと、N個(Nは1以上の整数)のビデオオブジェクト(以降、VOBと記す)メタデータ情報サーチポインタ31b−1〜31b−Nと、N個のVOBメタデータ情報31c−1〜31c−Nとを含む。
図2のマルチメディアデータファイル24に記録されたデータは1つ以上の複数のVOBに分割されている。各VOBは一つの番組に対応する場合もあり、各VOBがファイル容量の制限によって分割された単位である場合もある。VOBメタデータ情報31b−n(31b−1乃至31b−Nのうちの任意のもの)は、図3(B)に示すように、マルチメディアデータファイル24内に、個々のVOBに対応して用意される。すなわちn番目のVOBnには、対応するn番目のVOBnメタデータ情報31c−nが存在する。なお、VOBの番号とVOBメタデータ情報31c−nの番号の対応関係を示すテーブルやオフセット量が用意されている場合には、必ずしも双方の番号が一致している必要も無く、また1つのVOBに対するVOBメタデータ情報(31c−nなど)が複数用意されていても良く、1つのVOBメタデータ情報31c−nが複数のVOBに関連乃至対応するものであっても構わない。なお関連するメタデータを持たないVOBには、対応するVOBメタデータ情報(31c−nに相当するもの)が存在しない場合もあり得る。
図3(B)に示されるn番目のVOBnメタデータ情報サーチポインタ31b−nには、n番目のVOBnメタデータ情報31c−nの開始アドレス情報が記されている。また、VOBメタデータ情報31c−1乃至31c−Nの総数Nは、メタデータ管理情報31aに記されている。
次に、図3(C)に示すように、VOBメタデータ情報31c−nの各々はメタデータ一般情報32aとビデオショットマップ情報32bとを含む。
メタデータ一般情報32aには、上位階層のVOBメタデータ情報31c−nが対応しているVOBのコンテンツ情報、および対応するビデオショットマップ情報32bの開始アドレス情報などが記述されている。ここでメタデータ一般情報32aに記述されるVOBのコンテンツ情報とは、番組名や制作者名、出演者名、内容説明、録画した番組の放送日時やチャンネルなどである。
ビデオショットマップ情報32bの詳細は図3(D)に示されるように、ビデオショットマップ一般情報33a、とM個(Mは1以上の整数)ビデオショットエントリ33b−1乃至33b−Mを含む。図2に示すマルチメディアデータファイル24に記録した映像ストリームまたは音声ストリームを再生時間軸で複数に断片化したものはそれぞれビデオショットとなる。ビデオショットエントリ33b−1乃至33b−Mは、参照するVOBにおけるビデオショットの総数Mに対応してM個用意される。すなわちm番目のビデオショットには、対応するm番目のビデオショットmエントリ33b−mが存在する。
なおビデオショットの番号とビデオショットエントリ33b−mの番号の対応関係を示すテーブルやオフセット量が用意されている場合には、必ずしも双方の番号が一致している必要も無く、また1つのビデオショットに対するビデオショットエントリ(33b−mなど)が複数用意されていてもよく、1つのビデオショットエントリ33b−mが複数のビデオショットを包括する(ビデオショットに対応する)ものであても良い。ビデオショットエントリ33b−1乃至33b−Mの総数Mは、ビデオショットマップ一般情報33aに記述されている。
ビデオショットエントリ33b−mは図3(E)に示すように、ビデオショット開始時間情報34aと、ビデオショット終了時間情報34bと、ビデオショット重要度レベル34cとを含む。
ビデオショット開始時間情報34aは、マルチメディアデータファイル24に記録した映像ストリームまたは音声ストリームを再生時間軸で複数に断片化したビデオショットの再生開始時間(プレゼンテーションタイム)あるいは開始フレーム位置情報である。
ビデオショット終了時間情報34bは当該ビデオショットの再生終了時間(プレゼンテーションタイム)あるいは終了フレーム位置情報である。
ビデオショット重要度レベル34cは当該ビデオショットに対して付与された数値であってコンテンツの重要度合いを示す数値である。
ビデオショット終了時間情報34bは、ビデオショット再生時間情報34aに対するビデオショット個々の時間間隔が別途取得できる場合には省略しても良い。
なお、ビデオショット重要度レベル34cに付した重要度とは便宜上の名称であり、必ず
(a) ビデオショットの内容が主観評価に基づくコンテンツの内容における重要度(例えばハイライトシーンでは高くなる)であってもよく、
(b) ビデオショットに対応する音声の、歓声の持続時間の長さに対応した値であってもよく、
(c) ビデオショットの画面内の動きの激しさの度合いに対応した値であってもよく、
(d) 主観評価に拠らない物理的な計測値や指標に基づく数値であってもよい。
以上のうち、(a)及び(b)は主観評価に基づく重要度と言い、(c)及び(d)は物理変化量に対応する重要度と言う。ここで「物理的変化量」とは、画像符号化における動きベクトルや、カラーヒストグラム、音量など映像データや音声データから直接取得可能な物理的な指標を指している。一方主観評価に基づく重要度は、映像や音声の面白さ(例えば観客の熱狂具合)のように、映像データや音声データから直接取得された物理的指標を意味付けをした特徴量を指す。
図4はこの発明の実施の形態1におけるデータ同期概念図である。ここではDVD−RやDVD−RWメディアに適用されるビデオレコーディング(Video Recording)フォーマットの基本的な概念を例にして説明しているが、本発明はビデオレコーディングフォーマットに限ったものではなく、マルチメディアデータファイルとメタデータファイルとが再生時間情報に基づいて同期し得る蓄積メディアフォーマットに幅広く適用できるものである。
図4において、40は管理情報ファイル23に記述されていてマルチメディアデータファイル24のマルチメディアデータの再生順序を記述するプログラムチェーン情報、41はプログラムチェーン情報40によって定義された再生単位であってN個(Nは1以上の整数)のプログラム(そのうち2個のみが図示されている)、42aおよび42bはプログラム41によって定義された再生単位であって1つ以上のセル(「セル1」、「セル2」)、43aおよび43bは管理情報ファイル23に記述されていてセル42で指定された再生時間情報(プレゼンテーションタイム)に相当する実際の映像データまたは音声データの参照先を記述するためのビデオオブジェクト(VOB)情報(「VOB1情報」、「VOB2情報」)、44aおよび44bはVOB情報43によって定義された再生時間情報(プレゼンテーションタイム)をオフセットして実際の映像データまたは音声データのアドレス情報に変換するためのタイムマップテーブル、45aおよび45bはマルチメディアデータファイル24に記述されている実際の映像データまたは音声データを再生時間情報と共にパケット構造にて多重化して映像音声再生システムがアクセスする為の最小単位に細分化されているビデオオブジェクトユニット(以下、VOBUと記す)であり、図示の例では、VOB1のためのタイムマップテーブル44aにVOBU1〜VOBUPが含まれ、VOB2のためのタイムテーブル44bにVBU1〜VOBUQが含まれる。
符号33b−1〜33b−R、33b−1〜33b−Sで示されるビデオショット1エントリ〜ビデオショットRエントリ、ビデオショットエントリ1〜ビデオショットSエントリは、それぞれ図3のVOB1用メタデータ31c−1、VOB2用メタデータ31c−1の一部をなすものであり、図3のビデオショット1エントリ33b−1〜ビデオショットMエントリ33b−Mに対応する。
図5はこの発明の実施の形態1におけるメタデータ分析部121で生成する重要度マップと符号化レートマップの一例を示す。同図(a)は、ビデオオブジェクトに関して、再生時間に対する重要度レベルの推移を示す重要度マップの一例を示している。また同図(b)は、ビデオオブジェクトに関して、再生時間に対するダビング(再符号化)時に設定する符号化レート参照値の推移を示す符号化レートマップの一例を示す。
重要度マップ(図5(a))は、横軸51に再生時間を示し、縦軸50は重要度レベルを示す。同図中に示すように、重要度レベルグラフ52は、所定の範囲(例えば[0,1]または[0,100])において連続的に変化する。重要度マップ上限値53は当該所定の範囲の上限値を示し、重要度マップ下限値54は当該所定の範囲の下限値を示す。すなわち重要度レベルグラフ52は、重要度マップ上限値53から重要度マップ下限値54の範囲内を変化する。
なお、横軸51に示した時間の単位は、図3のビデオショット開始時間情報34aおよびビデオショット終了時間情報34bに示す値に基づいたものあり、重要度レベルはビデオショット重要度レベル34cの値に基づくものとする。言換えると、図5のグラフは、ビデオショット開始時間情報34aで表されるビデオショット開始時間からビデオショット終了時間情報34bで表されるビデオショット終了時間までの一つのビデオショット(シーン)に対して1つの重要度レベル(ビデオショット重要度レベル34cで表されたもの)をプロットしたものである。
重要度レベルが高い値で設定されている箇所は、ある基準に基づいたコンテンツ中のハイライトシーン(ビデオショット)を意味しており、ユーザーにとって視聴価値が高い箇所と言える。
符号化レートマップ(図5(b))は、横軸56に再生時間を示し、縦軸55はダビング時における再符号化レートの設定参照値を示している。同図中に示すように、符号化レート設定グラフ57は、符号化レート変換上限値58から符号化レート変換下限値59までの間で、連続的に変化する。符号化レート変換上限値58及び符号化レート変換下限値59を表すデータは、予めシステム制御部101からメタデータ分析部121に供給され、メタデータ分析部121に記憶されている。
上記のように、重要度レベルから映像シーンに適した符号化レートを求める際に、動画像符号化装置が設定した上限・下限値内で、シーン毎にビットレートを効率よく配分することで、指定された符号化レートの範囲内で記録されたマルチメディアデータファイルを生成することができる。また上限値・下限値を操作することで、マルチメディアデータファイルの平均符号化レートおよび重要度レベルの影響度を制御することができる。
再符号化レートが高い値で設定されている箇所では、リエンコードダビングの際に高い符号化レートが割り当てられることで、ブロックノイズや画像歪みが発生しにくい高精細な映像が記録することができる。
以下に上記の動画像符号化装置100の動作を説明する。
まず、図1、図2、図3、図4を用いて、ビデオレコーディングフォーマット等における一般的な録画過程(通常の録画と同様の処理)の概要を説明する。本実施の形態1では、ダビング元の記録媒体(第1次記録媒体)としてハードディスクドライブ102に録画する場合について記載しているが、もちろんダビング元の記録媒体(第1次記録媒体)が光ディスク103であっても構わない。
外部から入力された入力映像信号110は、ビデオエンコーダ112によりMPEG−2などの符号化圧縮方式に符号化され、映像ストリームが生成される。入力音声信号111も同様に、オーディオエンコーダ113により、AC−3などの符号化圧縮手法により符号化され、音声ストリームが生成される。これらの映像ストリームと音声ストリームは、マルチプレクサ114にて多重化され、マルチメディアデータファイル24が生成される。その後、マルチメディアデータファイル24は、順次バッファメモリ115に書き込まれ、システム制御部101からの指示のもと、ハードディスクドライブ102に記録される。
マルチメディアデータファイル24は、図2に示すディレクトリ構造で記録される。マルチメディアデータファイル24を記録する際には、マルチメディアデータファイル24の属性情報および再生時間情報を情報管理ファイル23に記録する。その後、バックアップファイル25に、情報管理ファイル23と同一の情報が保持できるようにファイルの生成、もしくはデータの更新が行われる。
次に、図1から図5を用いて、実施の形態1の動画像符号化装置100における録画過程についてより詳細に説明する。ここでもハードディスクドライブ102への録画について記載するが、もちろん光ディスク103へ録画しても構わない。
本実施の形態によるダビングを行う場合、まず一次記録媒体であるハードディスクドライブ102へ番組の録画を行う。録画の際には、
ビデオエンコーダ112にて入力映像信号110をMPEG−2などに符号化圧縮する際に、映像特徴抽出部142において、フレーム間の動きベクトル量やカラーヒストグラムの変化量や画像認識手法を用いた人物や顔などの検出など、特徴量の抽出が行われる。
同じくオーディオエンコーダ113にて入力音声信号111をAC−3などに符号化圧縮する際に、音声特徴抽出部143において、デジタルサンプリング後の係数値や周波数情報の変化、あるいは音声レベルの変化または音声認識手法を用いた話者の変化や拍手シーンの検出など、特徴量の抽出が行われる。
映像特徴抽出部142または音声特徴抽出部143で抽出された特徴量は、メタデータ生成部120に供給されて分析され、メタデータ生成部120で、ビデオショット重要度レベル34cが算出される。
例えば音声特徴抽出部143で得られた特徴量として、音声認識手法によって拍手や歓声と識別された音声信号が長時間継続した場合、その継続時間に応じた数値を重要度として割り当てる。また映像特徴抽出部142で得られた得た特徴量として、動きベクトル量が大きな箇所、すなわち動きが激しい映像信号があった場合、その動きベクトル量の度合いに応じた数値を重要度として割り当てる。当該重要度はビデオショット重要度レベル34c(図3(E))となり、また特徴量が観測された箇所の再生時間情報はビデオショット開始時間情報34aおよびビデオショット終了時間情報34b(図3(E))となる。
以上の処理を繰り返して複数のビデオショットエントリ33b−1乃至33b−Mを生成してメタデータ30を形成し、これをメタデータファイル26としてバッファメモリ115を介してハードディスクドライブ102のメタデータディレクトリ22など所定の論理位置に配置されるように書き込む。
メタデータファイル26の生成は、マルチメディアデータファイル24の記録に対して必ずしもリアルタイムで同時に処理されなくても良く、メタデータ生成部120またはシステム制御部101のメモリ領域に少なくともビデオショット重要度レベル34cを含む必要データを保持しておき、後からメタデータファイル26を生成して、ハードディスクドライブ102に記録する方法であっても良い。
また、ビデオショット重要度レベル34cを含む必要データを一旦ハードディスクドライブ102に記録し、後に(後述のダビングの前に)ハードディスクドライブ102から読み出して、メタデータファイル26を生成し、生成されたメタデータファイル26をハードディスクドライブ102に書込んでおくようにしても良い。
さらに、本実施の形態1におけるメタデータファイル26は、そのデータ形式は問わず、テキスト形式であってもバイナリ形式であっても構わない。また第三者による改ざんや情報の流出を阻む為に暗号化処理を施すこととしても良い。
次に、図1から図5を用いて、実施の形態1の動画像符号化装置100におけるダビング処理の過程を説明する。ここではハードディスクドライブ102に記録されているマルチメディアデータファイル24内のVOBを、光ディスク103へ、リエンコードダビングする際の処理について記載するが、もちろん光ディスク103からハードディスクドライブ102へダビングしても構わない。
まず図1及び図2を用いて、一般的なリエンコードダビング処理(通常のリエンコーディングと同様の処理)の概要について記載する。
ハードディスクドライブ102に記録された所望のVOB(番組)を、光ディスク103へリエンコードダビングを行う場合、まずハードディスクドライブ102内にマルチメディアデータファイル24として記録されている番組を、デマルチプレクサ130、ビデオデコーダ131、オーディオデコーダ133により、復号化する。その後、復号化された出力映像信号132および出力音声信号134は、ビデオエンコーダ112、オーディオエンコーダ113により、符号化され、マルチプレクサ114により多重化され、バッファメモリ115、記録再生ドライブ104を経由し、マルチメディアデータファイル24として、光ディスク103に書き込まれる。
次に図1から図5を用いて、実施の形態1のダビング処理過程を詳細に記載する。まずハードディスクドライブ102内の当該番組を構成するプログラム41および当該プログラム41を構成するセル42がプログラムチェーン情報40によって分かるので、参照すべきVOBの番号および当該セルの再生開始時間と再生終了時間の各プレゼンテーションタイム(PTM)が確定する。
動画像符号化装置100は、視聴者がダビング処理を指示する前、またはダビング対象として所望の番組を選択した後のいずれかのタイミングにおいてハードディスクドライブ102に記録されたメタデータファイル26を読み出してバッファメモリ115を介してメタデータ分析部121に取り込むことで、メタデータ30に記述したデータ構造を適宜参照できるようにしておく。
ここではメタデータファイル26とマルチメディアデータファイル24とは独立した論理ファイルで構成する例について説明しているが、例えばメタデータ30は情報管理ファイル23のデータ構造中に記述されていたり、マルチメディアデータファイル24に多重化して記述されていたりしても良い。
なおメタデータファイル26はマルチメディアデータファイル24と独立した論理ファイルで構成することで、マルチメディアデータファイル24を全て読み出す必要が無く、メタデータファイル26のみを読み出して解析するだけで番組の重要なシーン箇所を素早く検出することができる。
メタデータ分析部121では、メタデータ30に記述されているデータ構造から、ダビング対象の番組に関して、ビデオショット毎のビデオショット開始時間情報34a、ビデオショット終了時間情報34b、ビデオショット重要度レベル34cを読み出す。これらの情報から、各単位時間における重要度レベルを取得することができるため、図5(a)に示す重要度マップを生成できる。
その後、メタデータ分析部121では、得られた重要度マップ(図5(a))より、ダビング時のレート設定の参照値である符号化レートマップ(図5(b))を生成する。符号化レートマップ(図5(b))は、ダビングによって再符号化する際に記録レート設定の参照値を示すものであり、重要度マップ(図5(a))の重要度レベルが高いシーンには、符号化レートマップ(図5(b))に高い符号化レート値を設定する。
重要度マップ(図5(a))から符号化レートマップ(図5(b))を生成する際には、数値変換が必要となる。例えば、重要度レベルは、[0.0〜1.0]といった範囲で設定されるのに対して、一般的に符号化レート設定値は[3Mbps〜8Mbps]といった範囲で設定される。数値の次元および設定範囲が異なるため、メタデータ分析部121では、符号化レート上限値58から符号化レート下限値59の範囲内で、重要度レベルを反映した符号化レートマップ(図5(b))を設計しなければならない。
あらかじめ動画像符号化装置100では、符号化レート変換上限値58と符号化レート変換下限値59が設定されているものとして説明を進めるが、これらの設定値は、ビデオエンコーダ112のエンコード可能な範囲内において、ユーザーが手動で決定しても良いし、動画像符号化装置100が自動的に決定しても良い。
符号化レート設定グラフ57の値を決定する際には、重要度マップ(図5(a))で規定されている重要度上限値53から重要度下限値54の範囲を、符号化レート変換上限値58から符号化レート変換下限値59にスケールを変換する形態などで値を確定する。
例えば、図5(a)中で、重要度上限値53は1.0の値を、重要度下限値54は0.0の値が設定しているものとする。また符号化レートマップ(図5(b))の符号化レート変換上限値58には8.0Mbpsが、符号化レート変換下限値59には3.0Mbpsが設定しているものとする。その場合、重要度レベル範囲である0.0から1.0の範囲が、符号化レートマップの3.0Mbpsから8.0Mbpsまでの範囲に射影するなどといった形態でスケール変更が行われる。すなわちビデオショット[i]における記録レート設定値(X[i])は、「ビデオショット[i]の重要度レベル×(符号化レート上限値58−符号化レート下限値59)/(重要度レベル上限値53−重要度レベル下限値54)などの算式によって求めることができる。上述した算式により、例えば、重要度レベルが0.8のシーンの場合、符号化レート設定値は7.0Mbpsに変換されることとなる。
図5では、符号化レートマップ(同図(b))の符号化レート変換上限値58と符号化レート変換下限値59の範囲を狭く設定し、特に下限値を大きく引き上げた場合について示した。同図のように符号化レート変換上限値58と符号化レート変換下限値59を設定すると、符号化レート設定グラフ57は同図中のように縦方向に圧縮した設定値を持つ曲線となる。また符号化レート変換下限値59を大きく引き上げているため、高いビットレートで遷移する符号化レート設定グラフ57となる。
このように、符号化レート変換上限値58と符号化レート変換下限値59の設定値を変更することにより、符号化レート設計時において、重要度レベルの影響度や符号化レートの平均値を操作することができる。これにより、図5に示すような重要度レベルを縦方向に圧縮した場合には、重要度レベルがダイナミックが大幅に変化する場合であっても、重要度レベルの影響が少ない符号化レート値が設定できる。逆に、重要度レベルを縦方向に伸張した場合は、重要度レベルのちの変化の幅が小さい場合であっても、符号化レートにダイナミックに反映することができる。
なお符号化レートマップ(図5(b))を作成する際には、上述した物理変化量を元に視聴価値の有無を示す情報を生成し、これに基づいてレート設計をおこなっても良いし、映像の物理変化量(動きベクトルやカラーヒストグラムなど)と組み合わせて符号化レート設計を行っても良い。そのように構成することで、画像符号化困難度の影響を加味した効率的な符号化を行うことができる。
このようにメタデータ分析部121によって、符号化レートマップ(図5(b))を作成できる。ここで生成した符号化レートマップ(図5(b))は、記録レートマップ保持部122に格納する。
ダビング対象VOBに関して、符号化レートマップ(図5(b))が確定した段階で、実際のダビング処理を開始する。ハードディスクドライブ102から読み出されたマルチメディアデータファイル24内に保持しているVOBは、バッファメモリ115を経由し、デマルチプレクサ130に供給される。デマルチプレクサ130では、マルチメディアデータを映像ストリームと音声ストリームに分離し、それぞれビデオデコーダ131およびオーディオデコーダ133に供給し、符号化された映像ストリームと音声ストリームを復号化する。
復号化された出力映像信号132と出力音声信号134は、ビデオエンコーダ112およびオーディオエンコーダ113に供給される。その際に、記録レート変更手段123は、記録レートマップ保持部122に保持している符号化レートマップ(図5(b))から、映像シーン毎の符号化レートの参照値を用いて、ビデオエンコーダ112とオーディオエンコーダ113の符号量設定を行う。そのため、シーンの意味的重要度に応じて、適切に符号量が配分された映像ストリームおよび音声ストリームが生成できる。その後は、通常の録画と同様に、マルチプレクサ114で多重化され、バッファメモリ115、記録再生ドライブ104を経由し、光ディスク103にマルチメディアデータファイル24として記録される。また光ディスク103にマルチメディアデータファイル24を書き込む際には、バッファメモリ115に保持しているメタデータファイル26を一緒に書き込んでも構わない。
実施の形態2.
図6は、実施の形態2に示す符号化レートマップ修正の一例の説明図である。図6において、60は符号化レート修正前の符号化レート設定情報を保持する符号化レート設定グラフ(修正前)、61は符号化レート設定グラフ(修正前)60全体の平均符号化レートを示す平均符号化レート(修正前)を示す。また62は符号化レート修正後の符号化レート設定情報を保持する符号化レート設定グラフ(修正後)、63は符号化レート修正を行った後の平均符号化レートを示す目標平均符号化レートを示す。
図7は、実施の形態2における符号化レートマップ修正の他の例の説明図である。図7中で、70は符号化レート修正前の符号化レート設定情報を保持する符号化レート設定グラフ(修正前)、71は符号化レート設定グラフ(修正前)70全体の平均符号化レートを示す平均符号化レート(修正前)を示す。また72は符号化レート修正後の符号化レート設定情報を保持する符号化レート設定グラフ(修正後)、73は符号化レート修正を行った後の平均符号化レートを示す目標平均符号化レート、74はビデオエンコーダ112が設定可能な記録レートの上限値などを示す符号化レート上限値である。
なお図6、図7において、実施の形態1において説明した構成と同様の構成については同一の符号を付記する。実施の形態2においては、ダビング先の記録媒体の容量に応じて、符号化レートマップの情報を再修正する方法について記載する。その他の処理は、実施の形態1と同様の処理を行う。
図1、図2、図3、図4、及び図6を用いて、実施の形態2における符号化レートマップの記録レート修正の一例(図6)を詳細に説明する。実施の形態2においては、ダビング先空き容量に応じて、符号化レートマップを再修正することを特徴としている。
通常、光ディスクなどの固定容量である記録媒体へダビングを行う場合、ダビング先記録媒体の空き容量に対して適切な平均レートで符号化しなければならない。なぜならばダビング先の空き容量を超過する記録レートで符号化されたマルチメディアデータファイルは、最終的にダビング先記録媒体の空き容量に収録することができないからである。一方、記録レートを低く設定しすぎると、記録メディアを有効に使用することができず、高画質・高音質で記録することができなくなる。
ダビング開始前に、あらかじめ記録レートマップ保持部122には、ダビング対象マルチメディアデータファイル24中に保持されているVOBに関しての符号化レートマップ(図6)を保持しているものとする。ダビング実施時において、システム制御部101は、ダビング先記録媒体である光ディスク103の空き容量を取得する。そして、マルチメディアデータファイル24中からダビング対象VOBの記録時間と、ダビング先空き容量から光ディスク103の空き容量に納まるサイズで、最も大きくビットレートを割り振ることができる目標平均符号化レート63を決定する。
図6を用いて、目標平均符号化レート63の算出方法について具体的に説明する。平均符号化レート(修正前)61が6.0Mbps、ダビング先記録媒体空き容量が4.5GB(ギガバイト)、マルチメディアデータファイル24中のダビング対象VOBの再生時間が2時間と仮定して説明を進める。目標平均符号化レート63は、ダビング先記録媒体の空き容量を記録時間で割ることで算出することができる。すなわち目標平均符号化レート63は、(4.5G×8バイト)/(2時間×60分×60秒)= 5.0Mbpsと算出される。
この計算は、システム制御部101で行われ、計算の結果得られた目標平均符号化レート63がシステム制御部101から記録レート変更手段123に伝えられる。
平均符号化レート61で設定された記録レートのまま符号化を行うと、ダビング先記録媒体である光ディスク102の容量を超過するため、符号化レート設定曲線60の平均レートが、目標平均符号化レート63と等しくなるように全体を引き下げる必要がある。符号化レート設定曲線60は、全体を下方向にシフトすることにより符号化レート設定曲線62のように修正する。上述したように、全体を均等にシフトさせても構わないし、重要度に応じて変化割合に重み付けをしながらレート設計をしても構わない。この修正は、記録レート変更手段123で行われる。即ち、記録レート変更手段123では、システム制御部101から供給される目標平均符号化レート63を用いて、記録レートマップ保持部122に保持されている記録レートを修正する。
本例では、ダビング先の空き容量に応じて、自動的に平均レートの再設定を行う手法について示したが、手動で目標平均符号化レート63を決定しても構わない。
次に、図1、図2、図3、図4、及び図7を用いて、実施の形態2における符号化レートマップの記録レート修正の他の例(図7)を詳細に説明する。本例では、ダビング先空き容量が十分に大きい場合に、目標平均符号化レートを引き上げる場合について記載する。これにより、より高品質な動画像にてディスク記録容量を効率的に使用した符号化を行うことができる。
実施の形態2における符号化レートマップの記録レート修正の一例(図6)で説明したように、システム制御部101及び記録レート変更手段123の動作により、符号化レート設定グラフ(修正前)70を、目標平均符号化レート73に従って、符号化レート設定グラフ(修正後)72に修正することができる。しかし上述した符号化レート設定の修正を行うと、ある映像シーンの符号化レートが符号化レート上限値74を超える場合がある。その場合には、符号化レート上限値74を超える映像シーンの符号化レートを調整して、符号化レート上限値74以内におさめる必要がある。そこで本例では、修正後の符号化レート値が、符号化レート上限値74を超えないように、再度符号化レート曲線72を修正する処理を行っている。
符号化レート設定グラフ(修正後)72に関して、符号化レート上限値74を超えるような映像シーンでは、図7に示すように符号化レート上限値74と等価の値に設定しなおす。この操作によって過剰となった符号量は、修正を行わなかった他の映像シーンに再分配し、全体の符号量は変更しないように調整する。このような上限値74による制限を含む修正も記録レート変更手段123で行われる。そのため、記録レート変更手段123には、上限値74を表すデータがシステム制御部101から供給され、記憶されている。
本例では、符号化レート上限値74が存在する場合について記載しているが、同様に記録レート下限値があった場合にも適用しても良い。
このように構成することで、ビデオエンコーダ112が符号化を実施できる範囲内で、符号化レートを制御することができる。本実施の形態2ではビデオエンコーダ112のハードウェア特性の制約により、符号化レート上限値74を決定しているが、光ディスク103に記録するアプリケーション規格の制約に基づいて、符号化レート上限値74が決定されても良い。
また、ダビング先の記録メディアの容量に合わせて、重要度から算出されたリエンコード時の符号化レート参照値を再修正することができるため、ダビング先メディア容量に合わせた効率的な符号量制御を実施したダビングを行うことができる。
実施の形態3.
図8は、実施の形態3における要約ダビング概念図を示したものである。同図において、80は重要度レベルグラフ81を評価するための値である閾値、82は閾値80に基づいて特定の値以下のシーンの重要度レベルを修正した後の重要度レベルグラフ、83は閾値80によって映像シーンのダビング対象区間とスキップ対象区間を示す。なお上記以外については、実施の形態1で説明したものと同じであり、ここでは説明を省略する。
実施の形態3においては、図8(a)に示す重要度マップに従い、ダビング実施区間を決定することを特徴としている。具体的には重要度マップ中で、ある閾値以下の値が設定されていた場合、当該区間のダビングを行わず、次のダビング区間開始点にジャンプしダビングを継続する。
図8を用いて、実施の形態3の動画像符号化装置100のダビング制御シーケンスについて説明する。ダビング対象のVOBに関連するビデオショットのビデオショット重要度レベル34cが重要度レベルグラフ81となる場合、閾値80を下回るビデオショットはa1からa2の区間、およびb1からb2の区間となっている。メタデータ分析部121もしくはシステム制御部101では、当該区間において重要度レベルを特定の値(例えば、図8では0を示す)に再設定した重要度レベルグラフ82のように再設計を行う。その後、ダビングを行う際には、重要度レベルが特定の値(例えば、0)を示している区間はダビングを実施せず、次のダビング対象区間の開始点にジャンプし、ダビングを継続する。なお実施の形態1と同様の方法で、ダビング処理を行うものとする。重要度レベルが特定の値(例えば0)である場合、記録レート変更手段123から符号化レートがゼロであることを表すデータが出力され、この結果ビデオデコーダ112及びオーディオデコーダ113では符号化が行われず、結果として、ダビングがスキップされる。
このようにダビング処理をスキップするよう構成することにより、リエンコードダビング時に、視聴価値の低い部分を除外したマルチメディアデータファイルを生成することができる。例えば、テレビジョン放送におけるCM(コマーシャルメッセージ)区間など、番組本編と関連性が低い部分での重要度レベルが低く設定されるように重要度レベルグラフが作成されている場合には、当該重要度レベルを参照することでCM区間を除外して番組本編部分だけを選択的にダビングすることができる。
なお、上記の実施の形態では、ダビングを行う方法及び装置に関するものであるが、一つの記録媒体の一つの領域から読み出して、復号化、符号化を行って、同じ記録媒体の別の領域に記録する場合、又は同じ記録媒体の同じ領域に記録する(上書きする)場合にも本発明を適用することができる。
また、上記の実施の形態では、映像の特徴と、音声の特徴の双方に基づいて、符号量の割当てを行っており、このようにすることにより、映像の内容的な重要さの度合いや、画像符号化困難度の影響を加味した効率的な符号化を行うことができるが、このようにする代わりに、音声の特徴の抽出のみを行って、これに基づいて、符号量の割当てを行うようにしても良い。
音声の特徴のみによって符号量の割当てを行う構成とすれば、情報量が比較的小さい音声の特徴を表すデータから、再符号化時の符号化レートを決定する指標を生成できるため、回路規模が小さくても特徴情報を反映した再符号化を行うことができる。
さらに、上記の実施の形態では、特徴量の抽出を、1以上のフレームから成るシーン乃至はビデオショットのように所定の時間区分毎に行っているが、所定のデータ量から成るセグメント(データ量により定義された区分)毎に特徴量の抽出を行うようにしても良い。
20 ルートディレクトリ、 21 マルチメディアディレクトリ、 22 メタデータディレクトリ、 23 情報管理ファイル、 24 マルチメディアデータファイル、 25 バックアップファイル、 26 メタデータファイル、 30 メタデータ、 31a メタデータ管理情報、 31b−1〜31b−N VOBメタデータ情報サーチポインタ、 31c−1〜31c−N VOBメタデータ情報、 32a メタデータ一般情報、 32b ビデオショットマップ情報、 33a ビデオショットマップ一般情報、 33b−1〜33b−M ビデオショットエントリ、 34a ビデオショット開始時間情報、 34b ビデオショット終了時間情報、 34c ビデオショット重要度レベル、 40 プログラムチェーン情報、 41 プログラム、 42 セル、 43 ビデオオブジェクト情報、 44 タイムマップテーブル、 45 映像データおよび音声データ、 50 重要度マップ縦軸、 51 重要度マップ横軸、 52 重要度レベルグラフ、 53 重要度マップ上限値、 54 重要度マップ下限値、 55 符号化レートマップ縦軸、 56 符号化レートマップ横軸、 57 符号化レート設定グラフ、 58 符号化レート変換上限値、 59 符号化レート変換下限値、 60 符号化レート設定グラフ(修正前)、 61 平均符号化レート(修正前)、 62 符号化レート設定グラフ(修正後)、 63 目標平均符号化レート、 70 符号化レート設定グラフ(修正前)、 71 平均符号化レート(修正前)、 72 符号化レート設定グラフ(修正後)、 73 目標平均符号化レート、 74 符号化レート上限値、 80 重要度レベルグラフ、 81 閾値、 82 重要度レベルグラフ、 83 ダビング制御シーケンス図、 100 動画像符号化装置、 101 システム制御部、 102 ハードディスクドライブ、 103 光ディスク、 104 記録再生ドライブ、 110 入力映像信号、 111 入力音声信号、 112 ビデオエンコーダ、 113 オーディオエンコーダ、 114 マルチプレクサ、 115 バッファメモリ、 120 メタデータ生成部、 121 メタデータ分析部、 122 記録レートマップ保持部、 123 記録レート変更手段、 130 デマルチプレクサ、 131 ビデオデコーダ、 132 出力映像信号、 133 オーディオデコーダ、 134 出力音声信号、 140 モニタ、 142 映像特徴抽出部、 143 音声特徴抽出部。

Claims (4)

  1. 放送番組の映像信号及び音声信号をストリームファイルとして第1の記録媒体に記録し、前記第1の記録媒体に記録された番組の映像信号及び音声信号を第2の記録媒体にダビングする手段と、
    番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出手段と、
    前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第1の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成部と、
    前記ダビングを行う際に、前記第1の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析部とを備え、
    前記メタデータ分析部は、当該重要度レベルが所定の閾値以下の値である場合、前記第1の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第2の記録媒体への記録をスキップして、前記ダビングを継続し、
    前記閾値は、ダビングする範囲を変更するために設定されるものである
    ことを特徴とする動画像符号化装置。
  2. 前記第1の記録媒体には、前記ストリームファイル及び前記メタデータファイルとは別に、前記ストリームファイルの制御情報である管理情報ファイルが記録されており、
    前記管理情報ファイルに前記メタデータファイルが有効な値であるか否かの情報が記録されている
    ことを特徴とする請求項1に記載の動画像符号化装置。
  3. 放送番組の映像信号及び音声信号をストリームファイルとして第1の記録媒体に記録し、前記第1の記録媒体に記録された番組の映像信号及び音声信号を第2の記録媒体にダビングするステップと、
    番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出ステップと、
    前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第1の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成ステップと、
    前記ダビングを行う際に、前記第1の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析ステップとを備え、
    前記メタデータ分析ステップは、当該重要度レベルが所定の閾値以下の値である場合、前記第1の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第2の記録媒体への記録をスキップして、前記ダビングを継続する
    ことを特徴とする動画像符号化方法。
  4. 前記第1の記録媒体には、前記ストリームファイル及び前記メタデータファイルとは別に、前記ストリームファイルの制御情報である管理情報ファイルが記録されており、
    前記管理情報ファイルに前記メタデータファイルが有効な値であるか否かの情報を記録するステップをさらに有する
    ことを特徴とする請求項3に記載の動画像符号化方法。
JP2011013796A 2011-01-26 2011-01-26 動画像符号化装置及び方法 Active JP5132789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011013796A JP5132789B2 (ja) 2011-01-26 2011-01-26 動画像符号化装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011013796A JP5132789B2 (ja) 2011-01-26 2011-01-26 動画像符号化装置及び方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005162627A Division JP2006340066A (ja) 2005-06-02 2005-06-02 動画像符号化装置、動画像符号化方法及び記録再生方法

Publications (2)

Publication Number Publication Date
JP2011109703A JP2011109703A (ja) 2011-06-02
JP5132789B2 true JP5132789B2 (ja) 2013-01-30

Family

ID=44232609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011013796A Active JP5132789B2 (ja) 2011-01-26 2011-01-26 動画像符号化装置及び方法

Country Status (1)

Country Link
JP (1) JP5132789B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314728A (ja) * 1992-05-06 1993-11-26 Sharp Corp 磁気記録媒体の自動編集システムおよび部分再生システム
JP3550509B2 (ja) * 1999-05-26 2004-08-04 松下電器産業株式会社 画像記録再生装置と画像再生装置と不正利用防止方法
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4828785B2 (ja) * 2003-04-09 2011-11-30 ソニー株式会社 情報処理装置及び携帯端末装置
JP2006340066A (ja) * 2005-06-02 2006-12-14 Mitsubishi Electric Corp 動画像符号化装置、動画像符号化方法及び記録再生方法

Also Published As

Publication number Publication date
JP2011109703A (ja) 2011-06-02

Similar Documents

Publication Publication Date Title
US6920181B1 (en) Method for synchronizing audio and video streams
JP4081120B2 (ja) 記録装置、記録再生装置
JP4321518B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JPWO2005069172A1 (ja) 要約再生装置および要約再生方法
JP4450021B2 (ja) 記録再生装置、記録装置、再生装置、記録方法、再生方法およびコンピュータプログラム
JP6647162B2 (ja) 映像記録装置、映像再生装置、記録方法、及び再生方法
TW450007B (en) Information recording system and information recording method
WO2006054590A1 (ja) データ処理装置
KR20090012152A (ko) 기록 장치, 재생 장치, 기록 재생 장치, 촬상 장치, 기록방법 및 프로그램
JP2006340066A (ja) 動画像符号化装置、動画像符号化方法及び記録再生方法
JP4840325B2 (ja) 映像音声記録装置
JP2012170054A (ja) 映像記録装置、映像再生装置および映像復旧装置
JP5132789B2 (ja) 動画像符号化装置及び方法
JP6742515B2 (ja) 符号化映像再生装置および符号化映像再生方法
US8208791B2 (en) Authoring device, authoring method, authoring program, and recording medium containing the program
JP2004312743A (ja) デジタルデータ複製装置及びその方法
JP4725675B2 (ja) 記録再生装置、記録装置、再生装置、記録方法、再生方法およびコンピュータプログラム
JP2008500762A (ja) スライドショーへの連続的音声発生方法及び装置
JP2021052302A (ja) 映像再生装置および映像再生方法
JP2021166363A (ja) 映像再生装置および映像再生方法
JP2019067481A (ja) 記録媒体
JP2010278815A (ja) 映像圧縮符号化データの編集方法、編集装置及び編集用プログラム
JP2009200567A (ja) 映像記録再生装置
JP2005276439A (ja) 情報記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5132789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250