JP5132789B2 - 動画像符号化装置及び方法 - Google Patents
動画像符号化装置及び方法 Download PDFInfo
- Publication number
- JP5132789B2 JP5132789B2 JP2011013796A JP2011013796A JP5132789B2 JP 5132789 B2 JP5132789 B2 JP 5132789B2 JP 2011013796 A JP2011013796 A JP 2011013796A JP 2011013796 A JP2011013796 A JP 2011013796A JP 5132789 B2 JP5132789 B2 JP 5132789B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- recording medium
- metadata
- recording
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Description
放送番組の映像信号及び音声信号をストリームファイルとして第1の記録媒体に記録し、前記第1の記録媒体に記録された番組の映像信号及び音声信号を第2の記録媒体にダビングする手段と、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出手段と、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第1の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成部と、
前記ダビングを行う際に、前記第1の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析部とを備え、
前記メタデータ分析部は、当該重要度レベルが所定の閾値以下の値である場合、前記第1の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第2の記録媒体への記録をスキップして、前記ダビングを継続し、
前記閾値は、ダビングする範囲を変更するために設定されるものである
ことを特徴とする。
図1はこの発明に係る実施の形態1のシステム構成ブロック図を示すものである。同図において、システム制御部101は、動画像符号化装置100全体を統合制御している。
実施の形態1では、ハードディスクドライブ102及び光ディスク103は、ともに記録手段であるが、本実施の形態では、ハードディスクドライブ102は、ダビング元の記録媒体(第1次記録媒体)として、マルチメディアデータファイルおよびメタデータファイルの記録のために用いられており、光ディスク103は、ダビング先の記録媒体(第2次記録媒体)として、再符号化されたマルチメディアデータファイルの記録のために用いられる。
ディスク103へのファイルの記録再生は、記録再生ドライブ104を通じて行われる。
バッファメモリ115で保持されるデータには、MPEG−2などで符号化された映像ストリーム、AC−3などで符号化された音声ストリームを含むマルチメディアデータのほかにメタデータが含まれる。
オーディオデコーダ133は、デマルチプレクサ130から出力された、AC−3などで符号化された音声ストリームを復号化処理して、出力音声信号134を出力する。
モニタ140は、ビデオデコーダ131から出力される出力映像信号132及びオーディオデコーダ133から出力された出力音声信号134を受けて、映像の表示及び音声の出力を行う。
映像特徴抽出部142は、録画の際、或いは録画の後であって、ダビングの前に、ビデオエンコーダ112で符号化される映像信号について、フレーム間の動きベクトル量やカラーヒストグラムの変化量や画像認識手法を用いた人物や顔などの検出など、特徴量の抽出を行う。
音声特徴抽出部143は、ハードディスクドライブ102への録画の際、或いは録画の後であって、ダビングの前に、オーディオエンコーダ113で符号化される音声信号について、デジタルサンプリング後の係数値や周波数情報の変化、あるいは音声レベルの変化または音声認識手法を用いた話者の変化や拍手シーンの検出など、特徴量の抽出を行う。
映像特徴抽出部142は、ビデオエンコーダ112の一部として構成することができ、同様に音声特徴抽出部143は、オーディオエンコーダ113の一部として構成することができる。
この時間間隔は、例えば、ビデオショットに対応する。ビデオショットは、所定時間で区分された連続的なフレームから成るものである。
また、必要に応じて、ハードディスクドライブ102から読み出されて、バッファメモリ115に書込まれ、さらに後述のメタデータ分析部121に供給される。
メタデータとしては、上記の区間、例えばビデオショット毎の重要度レベルが記述され、これとともに再生時間情報が記述されている。
記録レート変更手段123は、ダビングなどの再符号化に際して、記録レートマップ保持部122に記録されている再符号化レート情報をもとに、さらに再生時間情報に応じて、ビデオエンコーダ112及びオーディオエンコーダ113のそれぞれの符号化レートを定めて出力する。
ビデオエンコーダ112およびオーディオエンコーダ113は、記録レート変更手段123から供給される符号化レートで動作する。
またマルチメディアデータファイル24およびメタデータファイル26は番組の数に応じて分割したり、ファイル容量の制限によって複数に分割されていたりしても構わない。
なおビデオショットの番号とビデオショットエントリ33b−mの番号の対応関係を示すテーブルやオフセット量が用意されている場合には、必ずしも双方の番号が一致している必要も無く、また1つのビデオショットに対するビデオショットエントリ(33b−mなど)が複数用意されていてもよく、1つのビデオショットエントリ33b−mが複数のビデオショットを包括する(ビデオショットに対応する)ものであても良い。ビデオショットエントリ33b−1乃至33b−Mの総数Mは、ビデオショットマップ一般情報33aに記述されている。
ビデオショット開始時間情報34aは、マルチメディアデータファイル24に記録した映像ストリームまたは音声ストリームを再生時間軸で複数に断片化したビデオショットの再生開始時間(プレゼンテーションタイム)あるいは開始フレーム位置情報である。
ビデオショット終了時間情報34bは当該ビデオショットの再生終了時間(プレゼンテーションタイム)あるいは終了フレーム位置情報である。
ビデオショット重要度レベル34cは当該ビデオショットに対して付与された数値であってコンテンツの重要度合いを示す数値である。
ビデオショット終了時間情報34bは、ビデオショット再生時間情報34aに対するビデオショット個々の時間間隔が別途取得できる場合には省略しても良い。
(a) ビデオショットの内容が主観評価に基づくコンテンツの内容における重要度(例えばハイライトシーンでは高くなる)であってもよく、
(b) ビデオショットに対応する音声の、歓声の持続時間の長さに対応した値であってもよく、
(c) ビデオショットの画面内の動きの激しさの度合いに対応した値であってもよく、
(d) 主観評価に拠らない物理的な計測値や指標に基づく数値であってもよい。
以上のうち、(a)及び(b)は主観評価に基づく重要度と言い、(c)及び(d)は物理変化量に対応する重要度と言う。ここで「物理的変化量」とは、画像符号化における動きベクトルや、カラーヒストグラム、音量など映像データや音声データから直接取得可能な物理的な指標を指している。一方主観評価に基づく重要度は、映像や音声の面白さ(例えば観客の熱狂具合)のように、映像データや音声データから直接取得された物理的指標を意味付けをした特徴量を指す。
符号33b−1〜33b−R、33b−1〜33b−Sで示されるビデオショット1エントリ〜ビデオショットRエントリ、ビデオショットエントリ1〜ビデオショットSエントリは、それぞれ図3のVOB1用メタデータ31c−1、VOB2用メタデータ31c−1の一部をなすものであり、図3のビデオショット1エントリ33b−1〜ビデオショットMエントリ33b−Mに対応する。
まず、図1、図2、図3、図4を用いて、ビデオレコーディングフォーマット等における一般的な録画過程(通常の録画と同様の処理)の概要を説明する。本実施の形態1では、ダビング元の記録媒体(第1次記録媒体)としてハードディスクドライブ102に録画する場合について記載しているが、もちろんダビング元の記録媒体(第1次記録媒体)が光ディスク103であっても構わない。
ビデオエンコーダ112にて入力映像信号110をMPEG−2などに符号化圧縮する際に、映像特徴抽出部142において、フレーム間の動きベクトル量やカラーヒストグラムの変化量や画像認識手法を用いた人物や顔などの検出など、特徴量の抽出が行われる。
同じくオーディオエンコーダ113にて入力音声信号111をAC−3などに符号化圧縮する際に、音声特徴抽出部143において、デジタルサンプリング後の係数値や周波数情報の変化、あるいは音声レベルの変化または音声認識手法を用いた話者の変化や拍手シーンの検出など、特徴量の抽出が行われる。
例えば音声特徴抽出部143で得られた特徴量として、音声認識手法によって拍手や歓声と識別された音声信号が長時間継続した場合、その継続時間に応じた数値を重要度として割り当てる。また映像特徴抽出部142で得られた得た特徴量として、動きベクトル量が大きな箇所、すなわち動きが激しい映像信号があった場合、その動きベクトル量の度合いに応じた数値を重要度として割り当てる。当該重要度はビデオショット重要度レベル34c(図3(E))となり、また特徴量が観測された箇所の再生時間情報はビデオショット開始時間情報34aおよびビデオショット終了時間情報34b(図3(E))となる。
以上の処理を繰り返して複数のビデオショットエントリ33b−1乃至33b−Mを生成してメタデータ30を形成し、これをメタデータファイル26としてバッファメモリ115を介してハードディスクドライブ102のメタデータディレクトリ22など所定の論理位置に配置されるように書き込む。
また、ビデオショット重要度レベル34cを含む必要データを一旦ハードディスクドライブ102に記録し、後に(後述のダビングの前に)ハードディスクドライブ102から読み出して、メタデータファイル26を生成し、生成されたメタデータファイル26をハードディスクドライブ102に書込んでおくようにしても良い。
ハードディスクドライブ102に記録された所望のVOB(番組)を、光ディスク103へリエンコードダビングを行う場合、まずハードディスクドライブ102内にマルチメディアデータファイル24として記録されている番組を、デマルチプレクサ130、ビデオデコーダ131、オーディオデコーダ133により、復号化する。その後、復号化された出力映像信号132および出力音声信号134は、ビデオエンコーダ112、オーディオエンコーダ113により、符号化され、マルチプレクサ114により多重化され、バッファメモリ115、記録再生ドライブ104を経由し、マルチメディアデータファイル24として、光ディスク103に書き込まれる。
図6は、実施の形態2に示す符号化レートマップ修正の一例の説明図である。図6において、60は符号化レート修正前の符号化レート設定情報を保持する符号化レート設定グラフ(修正前)、61は符号化レート設定グラフ(修正前)60全体の平均符号化レートを示す平均符号化レート(修正前)を示す。また62は符号化レート修正後の符号化レート設定情報を保持する符号化レート設定グラフ(修正後)、63は符号化レート修正を行った後の平均符号化レートを示す目標平均符号化レートを示す。
この計算は、システム制御部101で行われ、計算の結果得られた目標平均符号化レート63がシステム制御部101から記録レート変更手段123に伝えられる。
図8は、実施の形態3における要約ダビング概念図を示したものである。同図において、80は重要度レベルグラフ81を評価するための値である閾値、82は閾値80に基づいて特定の値以下のシーンの重要度レベルを修正した後の重要度レベルグラフ、83は閾値80によって映像シーンのダビング対象区間とスキップ対象区間を示す。なお上記以外については、実施の形態1で説明したものと同じであり、ここでは説明を省略する。
音声の特徴のみによって符号量の割当てを行う構成とすれば、情報量が比較的小さい音声の特徴を表すデータから、再符号化時の符号化レートを決定する指標を生成できるため、回路規模が小さくても特徴情報を反映した再符号化を行うことができる。
さらに、上記の実施の形態では、特徴量の抽出を、1以上のフレームから成るシーン乃至はビデオショットのように所定の時間区分毎に行っているが、所定のデータ量から成るセグメント(データ量により定義された区分)毎に特徴量の抽出を行うようにしても良い。
Claims (4)
- 放送番組の映像信号及び音声信号をストリームファイルとして第1の記録媒体に記録し、前記第1の記録媒体に記録された番組の映像信号及び音声信号を第2の記録媒体にダビングする手段と、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出手段と、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第1の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成部と、
前記ダビングを行う際に、前記第1の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析部とを備え、
前記メタデータ分析部は、当該重要度レベルが所定の閾値以下の値である場合、前記第1の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第2の記録媒体への記録をスキップして、前記ダビングを継続し、
前記閾値は、ダビングする範囲を変更するために設定されるものである
ことを特徴とする動画像符号化装置。 - 前記第1の記録媒体には、前記ストリームファイル及び前記メタデータファイルとは別に、前記ストリームファイルの制御情報である管理情報ファイルが記録されており、
前記管理情報ファイルに前記メタデータファイルが有効な値であるか否かの情報が記録されている
ことを特徴とする請求項1に記載の動画像符号化装置。 - 放送番組の映像信号及び音声信号をストリームファイルとして第1の記録媒体に記録し、前記第1の記録媒体に記録された番組の映像信号及び音声信号を第2の記録媒体にダビングするステップと、
番組録画時に音声信号を所定の区間毎に分割し、該区分毎に前記音声信号から音声認識手法を用いて映像シーンの特徴を示し、拍手又は歓声として識別される音声特微量を抽出する音声特徴抽出ステップと、
前記拍手又は歓声として識別される音声特微量で示す映像シーンの特徴の持続時間に対応して重要度レベルを算出し、区間毎の当該重要度レベルを表す情報を前記第1の記録媒体に前記ストリームファイルとは別の改ざんを防ぐために暗号化処理を施したメタデータファイルとして記録するメタデータ生成ステップと、
前記ダビングを行う際に、前記第1の記録媒体から前記メタデータファイルに記録された前記重要度レベルを表す情報を、バッファメモリを介して読み出し、前記区分毎の重要度レベルを取得するメタデータ分析ステップとを備え、
前記メタデータ分析ステップは、当該重要度レベルが所定の閾値以下の値である場合、前記第1の記録媒体に記録されている当該区間の前記映像信号及び音声信号の前記第2の記録媒体への記録をスキップして、前記ダビングを継続する
ことを特徴とする動画像符号化方法。 - 前記第1の記録媒体には、前記ストリームファイル及び前記メタデータファイルとは別に、前記ストリームファイルの制御情報である管理情報ファイルが記録されており、
前記管理情報ファイルに前記メタデータファイルが有効な値であるか否かの情報を記録するステップをさらに有する
ことを特徴とする請求項3に記載の動画像符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011013796A JP5132789B2 (ja) | 2011-01-26 | 2011-01-26 | 動画像符号化装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011013796A JP5132789B2 (ja) | 2011-01-26 | 2011-01-26 | 動画像符号化装置及び方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005162627A Division JP2006340066A (ja) | 2005-06-02 | 2005-06-02 | 動画像符号化装置、動画像符号化方法及び記録再生方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011109703A JP2011109703A (ja) | 2011-06-02 |
JP5132789B2 true JP5132789B2 (ja) | 2013-01-30 |
Family
ID=44232609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011013796A Active JP5132789B2 (ja) | 2011-01-26 | 2011-01-26 | 動画像符号化装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5132789B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314728A (ja) * | 1992-05-06 | 1993-11-26 | Sharp Corp | 磁気記録媒体の自動編集システムおよび部分再生システム |
JP3550509B2 (ja) * | 1999-05-26 | 2004-08-04 | 松下電器産業株式会社 | 画像記録再生装置と画像再生装置と不正利用防止方法 |
US20040167767A1 (en) * | 2003-02-25 | 2004-08-26 | Ziyou Xiong | Method and system for extracting sports highlights from audio signals |
JP4828785B2 (ja) * | 2003-04-09 | 2011-11-30 | ソニー株式会社 | 情報処理装置及び携帯端末装置 |
JP2006340066A (ja) * | 2005-06-02 | 2006-12-14 | Mitsubishi Electric Corp | 動画像符号化装置、動画像符号化方法及び記録再生方法 |
-
2011
- 2011-01-26 JP JP2011013796A patent/JP5132789B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011109703A (ja) | 2011-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6920181B1 (en) | Method for synchronizing audio and video streams | |
JP4081120B2 (ja) | 記録装置、記録再生装置 | |
JP4321518B2 (ja) | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 | |
JP4442585B2 (ja) | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 | |
JPWO2005069172A1 (ja) | 要約再生装置および要約再生方法 | |
JP4450021B2 (ja) | 記録再生装置、記録装置、再生装置、記録方法、再生方法およびコンピュータプログラム | |
JP6647162B2 (ja) | 映像記録装置、映像再生装置、記録方法、及び再生方法 | |
TW450007B (en) | Information recording system and information recording method | |
WO2006054590A1 (ja) | データ処理装置 | |
KR20090012152A (ko) | 기록 장치, 재생 장치, 기록 재생 장치, 촬상 장치, 기록방법 및 프로그램 | |
JP2006340066A (ja) | 動画像符号化装置、動画像符号化方法及び記録再生方法 | |
JP4840325B2 (ja) | 映像音声記録装置 | |
JP2012170054A (ja) | 映像記録装置、映像再生装置および映像復旧装置 | |
JP5132789B2 (ja) | 動画像符号化装置及び方法 | |
JP6742515B2 (ja) | 符号化映像再生装置および符号化映像再生方法 | |
US8208791B2 (en) | Authoring device, authoring method, authoring program, and recording medium containing the program | |
JP2004312743A (ja) | デジタルデータ複製装置及びその方法 | |
JP4725675B2 (ja) | 記録再生装置、記録装置、再生装置、記録方法、再生方法およびコンピュータプログラム | |
JP2008500762A (ja) | スライドショーへの連続的音声発生方法及び装置 | |
JP2021052302A (ja) | 映像再生装置および映像再生方法 | |
JP2021166363A (ja) | 映像再生装置および映像再生方法 | |
JP2019067481A (ja) | 記録媒体 | |
JP2010278815A (ja) | 映像圧縮符号化データの編集方法、編集装置及び編集用プログラム | |
JP2009200567A (ja) | 映像記録再生装置 | |
JP2005276439A (ja) | 情報記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121106 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5132789 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |