以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
図1を参照して、本発明の実施の形態に係る映像蓄積再生装置100の構成について説明する。図1は、映像蓄積再生装置100により実現される機能を表わすブロック図である。映像蓄積再生装置100は、学習部110と、記録部120と、再生部130と、入力部140と、映像入力部150と、出力部160とを備える。
映像入力部150は、映像音声信号の入力を受け付ける。入力部140は、映像蓄積再生装置100の使用者による操作を受け付ける。当該操作は、操作情報として、学習部110に送出される。当該操作情報は、たとえば、映像を通常の動作モードで再生する指示を表わす情報、要約再生モードで再生する指示を表わす情報等を含む。
学習部110は、入力された映像データと映像データに関連した付属情報と、ユーザの操作情報とに基づいて、映像の要約再生に用いるパラメータのための変換規則を学習する。学習部110は、具体的には、後述する各処理を実行する回路素子により、あるいはCPU(Central Processing Unit)その他の演算処理装置に当該各処理を実現する各プログラムを実行させることにより実現される。なお、映像データとは、映像信号に係るデータをいう。
記録部120は、入力された映像データ、付属情報および変換規則を不揮発的に記録する。記録部120は、具体的には、ハードディスク装置、フラッシュメモリその他の記憶装置により実現される。なお、映像データと付属情報と変換規則とは、同一の記憶装置に格納されてもよいし、別個の記憶装置に格納されてもよい。
再生部130は、上記付属情報および変換規則を用いて、記録部120に記録された映像データの適宜再生(要約再生)を行なう。再生部130は、たとえば映像データを読み出す光ピックアップと当該光ピックアップの記憶装置に対する位置を制御するための制御装置とによって実現される。制御装置は、上記の演算処理装置によって実現されてもよい。
学習部110は、サンプル分別部101と、映像パラメータ抽出部102と、要約再生パラメータ推定部103と、変換規則生成部104とを含む。サンプル分別部101は、属性情報として映像に付属されている付属情報を用いて、入力された映像データを分別し、分別の結果(映像データサンプル)を出力する。映像パラメータ抽出部102は、サンプル分別部101によって分別された個々の映像データサンプルから映像パラメータを抽出する。要約再生パラメータ推定部103は、ユーザがサンプルの映像データに対して行う操作情報を収集し、サンプルの映像データに対応した要約再生パラメータの推定値を算出する。変換規則生成部104は、要約再生パラメータ推定部103により算出された要約再生パラメータの推定値と、映像パラメータ抽出部102によって抽出された映像パラメータとのマッピングを行ない、映像パラメータから要約再生パラメータへの変換規則を求める。
記録部120は、映像データ121と、付属情報122と、学習部110で求められた変換規則123とを媒体に記録する。媒体は、たとえばハードディスク、DVD、フラッシュメモリ等である。なお、記録部120は、映像データ121と付属情報122と変換規則123とを、別個の媒体に記録してもよい。また、説明を簡単にするために、映像データ121、付属情報122、変換規則123は、それぞれ1つずつ示されているが、実際には、複数の各情報が媒体に記録されてもよい。
再生部130は、再生制御部105と映像パラメータ抽出部106と変換部107と再生表示部108とを含む。再生制御部105は、付属情報122およびユーザ指示に基づいて、映像データ121の再生処理を制御する。映像パラメータ抽出部106は、要約再生しようとする映像データ121から映像パラメータを抽出する。変換部107は、学習部110で得られた変換規則123にしたがって映像パラメータから要約再生パラメータを求める。再生表示部108は、再生速度の制御あるいは表示のオン/オフの制御などによりダイジェスト再生あるいはハイライト再生を行う。
一般に、映像コンテンツは複雑な文法を用いて製作されており、映像信号のみからその映像の文法を導き出すのは困難である。一方で、映像を適切にダイジェスト再生あるいはハイライト再生するためには、製作者の意図した映像の文法にしたがって忠実に映像のシナリオやメリハリを把握し、要約できることが望ましい。したがって、理想的な要約再生を行うためには、映像の文法を基準とした要約再生パラメータが必要となる。
これに対し、本発明の実施の形態に係る映像蓄積再生装置100は、ユーザによる視聴に先立って、あるいは視聴と共に、映像データのサンプルを分別し、分別した映像サンプルに対して行ったユーザの操作情報から映像の文法を類推する。映像蓄積再生装置100は、こうして推定された映像の文法に対して、同じく映像サンプルから得られる映像パラメータとの相関を求め、映像パラメータから映像の文法を基準とした要約再生パラメータへの変換規則を求める。最後に、映像蓄積再生装置100は、このようにして求められた変換規則にしたがって、サンプル以外の蓄積された映像データについても、適切な要約再生を実行できる。これらの処理の具体的な内容は、後述する。
なお、本実施の形態においては、入力、蓄積および/または再生処理される映像データのそれぞれは、符号化されていてもよいし、符号化されていなくてもよい。したがって、上記映像データが符号化されている場合には、映像蓄積再生装置100は、映像データを符号化するための符号化部(図示しない)、符号化されている映像データを復号するための復号部(図示しない)を有していてもよい。
たとえば、入力される映像データが符号化されていない映像データであり、記録部120で蓄積される映像データが符号化された映像データであるとすれば、符号化部が映像入力部150と記録部120との間に配置される。また、入力される映像データおよび/または蓄積される映像データが符号化された映像データであるとすれば、映像蓄積再生装置100の要約再生パラメータ推定部103および/または再生表示部108は、内部に復号部(図示しない)を含むものとする。
本実施の形態では、入力される映像データが符号化された映像データである場合について説明する。
次に、図1に示される映像蓄積再生装置の各構成要素の動作について説明する。
(学習部110の動作)
まず、学習部110の動作は、以下のとおりである。学習部110は、映像データから直接または間接に得られる映像パラメータを用いて、要約再生パラメータを求めるために必要な変換規則を、学習によって取得する。後述するように、映像蓄積再生装置100の再生部130は、上記学習によって獲得された変換規則にしたがって、蓄積された映像データの映像パラメータからその映像データに対応する要約再生パラメータを求め、蓄積された映像データの要約再生(ダイジェスト再生あるいはハイライト再生)を行なう。
サンプル分別部101は、映像データに関連して入力される付属情報を使って、入力された映像データをジャンル別などに分別して出力する。付属情報は、映像データの属性情報として、送信される映像データに合わせて送信される。
映像蓄積再生装置100は、入力された映像データの一部の映像データをサンプルとして変換規則の学習に利用する。このため、サンプル分別部101は、入力された映像データをサンプルとして利用するか否かを決めるスイッチの機能も有する。サンプル分別部101で分別されたサンプル映像データは、後述する映像パラメータ抽出部102および要約再生パラメータ推定部103に、それぞれ出力される。
サンプル分別部101で利用される付属情報として、たとえば、EPG(Electrical Program Guide:電子番組表)として与えられるような、映像コンテンツの属性を表す属性情報があげられる。また、その映像データは、コンテンツ属性情報以外に、たとえば、記録部120に対する映像の録画を指示したユーザ、あるいは誰がその映像データを視聴しようとしているか(または、誰にその映像データを視聴させようとしているか)を表わすユーザ識別情報等を含む。ユーザ識別情報には、上記情報に加えて、そのユーザの視聴時間帯、視聴環境(映像蓄積再生装置100の映像再生処理能力、映像蓄積再生装置が接続される表示装置の解像度等)に関する情報が添付されてもよい。
サンプル分別部101は、コンテンツ属性情報に含まれるジャンル情報にしたがって、ジャンル別にサンプル映像データを分別する。サンプル分別部101は、ユーザ識別情報にしたがって、ユーザ別にサンプル映像データを分別する。サンプル分別部101は、ユーザグループ別にサンプル映像データを分別する。サンプル分別部101によって分別されたサンプル映像データは、映像パラメータ抽出部102および要約再生パラメータ推定部103に対してそれぞれ出力される。
ここで、図2を参照して、サンプル分別部101による分別についてさらに説明する。図2は、分別のためのカテゴリ(カテゴリ11〜カテゴリ43)を有するテーブル200の一態様を表わす図である。テーブル200は、記録部120に格納される。テーブル200は、ジャンルを識別するジャンル情報とユーザを識別するユーザ識別情報とによって構成される。ジャンル情報は、領域210、220、230に示されるように予め規定されている。ユーザ識別情報は、領域250〜256に示されるように予め登録されている。
たとえば、ユーザAには、カテゴリ11、カテゴリ12、カテゴリ13がそれぞれ対応付けられている。領域254、256に示されるように、ユーザCには、複数の視聴環境、すなわち、視聴環境α、βの各々に応じて異なるカテゴリが設けられている。
ダイジェスト再生あるいはハイライト再生のような要約再生では、映像のジャンルによって、ダイジェストあるいはハイライトで見たいシーンの属性が異なる。たとえば、スポーツ映像が再生される場合、ユーザは、好プレーで盛り上がったシーン(ハイライト)の視聴を希望し、ニュース映像などが再生される場合、ユーザは、その日のトピックを少しずつ抽出した映像(ダイジェスト)の視聴を希望する。
また、ダイジェストやハイライトとして視聴が求められる映像シーンが視聴するユーザによって異なることも容易に想定される。たとえば、映画やドラマのような映像では、盛り上がりのシーン(ハイライト)の視聴を希望するユーザもいれば、あらすじ(ダイジェスト)の概観を求める別のユーザもいる。加えて、どのような要約再生が望まれるかはユーザ個々の嗜好に依存するため、予め決められた方法を与えることができない。
このため、映像蓄積再生装置100は、変換規則を推定するためのサンプル映像データを必要に応じてジャンル別、ユーザ別などに細かく分別し、分別されたサンプル映像データによって、各々異なる複数の変換規則を適宜生成する。変換規則の生成処理は、後述する。これにより、個々の変換規則の精度が高められる。
また、ユーザグループ別によるサンプルデータの収集では、グループの定義に応じて、家族内の嗜好特性、サークルメンバ間の共通な嗜好特性、地域の嗜好特性等が得られる。また、サンプルデータは、不特定多数のユーザに対しても適用され、たとえば、今流行している要約形式、といった収集も可能となる。
なお、ユーザを識別(区別)するための具体的手法として、映像蓄積再生装置100の操作時における指紋認証、顔認識認証、ログイン認証、あるいは単純に個々のユーザ専用の起動ボタンを用意すること等が考えられる。顔認識認証では、操作時に複数人がいた場合には、認証結果に応じて実行される処理の無効化のような例外処理が加えられてもよい。ログイン認証は、起動時に常に認証処理を行う態様に限られず、ユーザが替わる時においてのみ認証する態様であってもよい。そこで、このような処理を実現するために、映像蓄積再生装置100は、ユーザ識別のためのインターフェイス装置(図示しない)を別途備えてもよい。インターフェイス装置は、たとえば、CCD(Charge Coupled Device)カメラその他の撮像装置、画像解析装置、認証時の基準となるテンプレートデータを格納するメモリ等によって実現される。
なお、認証処理は、当業者にとって容易に理解できるものである。したがって、ここでは認証処理の詳細は述べない。
ユーザグループに関する情報や、上記したユーザの視聴時間帯や視聴環境に関する情報などは、映像蓄積再生装置100に予め登録しておき、ユーザの識別と共に呼び出されるようにしておく。これらの情報は、たとえば記録部120に格納される。なお、ユーザ識別のための具体的手法は、上記のものに限られず、同等の機能を実現する他の如何なる手法であってもよい。
また、コンテンツ属性情報から得られる分別用の情報の一例として、上記ではジャンル情報が挙げられている。しかしながら、分別用の情報はこれに限られず、たとえば、製作者(または製作社)情報や、撮影者情報などが分別用の情報として利用可能である。これは、製作者(または製作社)や撮影者によって、独自の製作および/または撮影時の映像の文法があることが想定できるからである。
図1を再び参照して、映像パラメータ抽出部102は、サンプル分別部101で分別した個々のサンプル映像データから映像パラメータを抽出する。抽出される映像パラメータには、たとえば、MPEG(Moving Picture Experts Group:エムペグ)形式で符号化された符号化映像データから得られるDCT(Discrete Cosine Transformation:離散コサイン変換)係数のビット符号量、マクロブロック予測モードの頻度情報、動きベクトルの平均値、分散値および/または標準偏差値で表される動き変動量などが含まれる。あるいは、符号化されていない(あるいは復号後の)映像データから得られる代表色や色頻度情報など、映像パラメータとして用いられてもよい。また、映像データから得られるパラメータ以外にも、符号化されたあるいは元のオーディオデータから得られる情報、たとえば、音量、音圧、パワースペクトル、音色、無音区間情報等が、映像パラメータとして用いられてもよい。
上記した各種の映像パラメータは、フレームまたはシーンを単位として抽出される。また、シーンを単位として抽出される場合に、それぞれのシーンは予め定められた一定の長さで与えられるものであってもよいし、あるいはシーンチェンジ検出などにより得られるシーンであってもよい。この場合には、当該シーンの長さは、一定の長さになるとは限らない。ただし、後述するように、映像パラメータ抽出部102で抽出される映像パラメータは、変換規則生成部104において、要約再生パラメータ推定部103から出力される要約再生パラメータの推定値とマッピングした上で相関を求めるのに利用される。このため、映像パラメータ抽出部102における映像パラメータと、後述する要約再生パラメータ推定部103における要約再生パラメータの推定値とは、シーンの区切り位置などを合わせた上で求めるのが好ましい。
フレーム1枚1枚について、映像パラメータと要約再生パラメータの推定値とをマッピングすることにより相関を求める場合には、映像パラメータおよび要約再生パラメータのサンプル数が膨大になるため、適当に間引き処理などを行なうのが好ましい。
また、上記相関に基づいて、映像パラメータと要約再生パラメータとの変換規則を精度良く得るためには、抽出された映像パラメータと要約再生パラメータの推定値とのいずれも、ある程度以上の精度が必要とされる。このため、本実施の形態に係る映像蓄積再生装置100においては、映像パラメータ抽出部102および要約再生パラメータ推定部103で扱うシーンとして、自動で、すなわちシーンチェンジ検出機能を実行させることによりシーンチェンジ検出を行ない、あるいは手動で、すなわちシーンの区切りを特定する指示としてユーザにより入力される指示に基づいてシーンチェンジ検出を行ない、厳密に得られたシーンを用いることが望ましい。
一方、後述するように、変換部107で変換規則を用いて映像パラメータから要約再生パラメータを算出する時点では、シーン区切りに前述したような制限はなく、映像パラメータ抽出部106は、どのシーン区切りを利用してもよい。すなわち、映像パラメータ抽出部102と映像パラメータ抽出部106とは、同じ機能を実現する必要はない。
要約再生パラメータ推定部103は、入力されたサンプル映像データに対して、その映像データに対応する要約再生パラメータの推定値を導出する。要約再生パラメータ推定部103は、サンプル映像データを再生する際、ユーザが行う操作、たとえば、通常の再生/早送り/巻き戻し操作等の履歴、あるいは、ブックマーク書込み等のユーザ操作情報を収集し、これらの情報を用いて類推することにより、サンプル映像データに対応する要約再生パラメータの推定を行う。
次に、ユーザ操作情報から要約再生パラメータの推定値を得るまでの処理について説明する。
まず、映像には、その映像の内容に応じて固有の文法があり、その固有の文法にしたがってシーン毎あるいはフレーム毎にハイライト再生あるいはダイジェスト再生するための理想的な重要度が設定されると考えられる。そこで、その映像固有の文法を知ることにより理想的な重要度を取得し、当該重要度を要約再生パラメータとして用いることが望ましい。
しかしながら、実際には、全ての映像について固有の文法を知り、理想的な重要度を得ることは困難である。そこで、要約再生パラメータ推定部103は、ユーザの操作情報に基づいて重要度、すなわち要約再生パラメータの推定値を導出する。
そこで、図3および図4を参照して、要約再生パラメータの導出の概念について説明する。図3は、映像の固有の文法にしたがって与えられるべき理想的な重要度を表わす図である。図4は、ユーザの操作情報によって推定された重要度を表わす図である。
図3に示されるように、映像コンテンツ300に対して、時間(t)方向に対して理想的な重要度が規定されている。この重要度は、フレーム310のように一画面の映像ごとに導出されている。
図4では、シーンの再生回数が、そのシーンの再生が望まれている度合い、すなわち重要度として示されている。具体的には、図4には、ユーザ操作情報の一例として、ユーザが映像の各々のシーン410を再生した回数を基準として、シーン毎の重要度が設定された例が示されている。図4のユーザ操作(例)として示される矢印(群)402−1から402−9に含まれる各矢印は、映像データ420−1〜420−9に対する再生指示を表わす。
たとえば、先頭のシーンは、5回の再生(矢印群402−1に含まれる5本の矢印)がなされているため、重要度はレベル「5」に設定される。当該再生は、映像データ420−1に対する指示である。また、矢印420−2は、映像データ420−2に対する再生の指示を表わす。当該指示は1回だけであるため、重要度はレベル「1」に設定される。一方、矢印群402−5、402−6は、映像データ420−5、420−6に対してそれぞれ6回の再生指示が出力されたことを表わしている。したがって、重要度は、レベル「6」に設定される。
なお、図3では、理想的な重要度がフレーム単位で与えられているのに対し、図4には、推定された重要度はシーン単位で与えられている。このような相違は、ユーザ操作情報がシーン単位毎に得られていることによる相違であって、このような相違が常に存在するわけではない。映像蓄積再生装置100が用いる推定の手法によっては、重要度はフレーム単位で推定され得る。逆に、理想的な重要度がシーン単位で定義され、与えられてもよい。
重要度、すなわち要約再生パラメータを推定するために使用されるユーザ操作情報は、上記再生回数に限られない。たとえば、マニュアル操作、たとえば早送り/巻き戻し操作とそれらの操作の履歴、および早送り再生、逆送り再生その他の特殊な再生と通常再生との間の切替操作の回数/頻度などが使用されてもよいし、これらの情報に限られるものではない。映像蓄積再生装置100のユーザが早送り/巻き戻しの操作を行なう場合には、たとえば、早送り/巻き戻しによって飛ばされたシーンの重要度は低く推定され、早送り/巻き戻しを止めて通常再生されたシーンの重要度は高く見積もられる。
また、HMD(Head Mount Display:ヘッドマウントディスプレイ)などのデバイスと組み合わせた人体情報(脈波、脳波、瞳孔変化、視線等)が用いられてもよい。また、重要度の推定は、これらの情報に応じて重要度が映像蓄積再生装置100によって推定されるものに限られない。すなわち、ユーザが視聴しているシーンの重要/非重要を直接判定し、判定の結果を表わすデータを重要度として入力してもよい。たとえば、ユーザが重要と判断したシーンにユーザ自身がブックマークを設定し映像蓄積再生装置100に登録する。映像蓄積再生装置100は、ブックマーク設定を重要度として各処理の制御に使用してもよい。
図1を再び参照して、変換規則生成部104は、映像パラメータ抽出部102から出力された映像パラメータと、要約再生パラメータ推定部103から出力された要約再生パラメータの推定値とのマッピングを行い、映像パラメータから要約再生パラメータへの変換規則を導出する。
映像には、その映像の内容にしたがって固有の文法があり、その固有の文法にしたがって理想的な重要度が設定されることは、前述のとおりである。このことに加えて、各映像は、その固有の文法にしたがって製作されることから、映像の信号的な特性(および/または特性の変化の度合い)も上記映像固有の文法にしたがって左右されているものと考えられる。たとえば、映像の盛り上がりに合わせてカメラワークがダイナミックに変動するような特性を持った映像であれば、映像の重要度とカメラワークによる映像内の動きの変動量との間に相関関係が認められる。映像の重要度は、すなわち、要約再生パラメータ推定部103で言及された要約再生パラメータ(の推定値)である。映像の信号的な特性とは、すなわち、映像パラメータ抽出部102で言及された映像パラメータに相当する。つまり、映像パラメータと要約再生パラメータとは映像固有の文法を通して相関があるため、映像パラメータから要約再生パラメータへの変換規則を求めることが可能である。
なお、前述したように、要約再生パラメータ推定部103は、映像データに対応する要約再生パラメータの推定値を、収集したユーザ操作情報に基づいて推定する。この場合、蓄積された全ての映像データについて、映像蓄積再生装置100が当該映像データを全て再生して、ユーザが再生された映像を視聴しつつブックマークの入力のような操作を逐一行なうことは、およそ現実的でない。このため、本実施の形態に係る映像蓄積再生装置100は、入力された映像データのうち一部の映像データ、すなわち、サンプル映像データのみについて重要度、すなわち、要約再生パラメータの推定値を推定する。映像蓄積再生装置100は、そのサンプル映像データから得られた要約再生パラメータの推定値とそのサンプル映像データの映像パラメータとの相関を求め、映像パラメータから要約再生パラメータへの変換規則を求める。
そして、映像蓄積再生装置100は、サンプル映像データ以外の映像データの再生時には、既に得られた、その映像データが属するカテゴリに対応する変換規則に基づいて、その映像データの映像パラメータから要約再生パラメータに変換することにより、ダイジェスト再生、ハイライト再生を行なうものである。そのため、前述したように、サンプル分別部101は、ジャンル別、ユーザ別、あるいはユーザグループ別にサンプル映像データを分別する以外に、入力された映像データをサンプル映像データとして使用するか否かを決めるスイッチの機能を持たせてもよい。このスイッチ機能によって、たとえば、映像録画時における動作モードとして、「通常モード」と別に「学習モード」が設けられてもよい。この場合、学習モードとして動作する時に入力された映像データのみがサンプル映像データとして活用されてもよい。この場合、映像蓄積再生装置100は、ユーザに、自身が学習動作を実行していることを明示的に示すことができるという顕著な効果を示すことができる。
あるいは、学習モードが一定期間のみ継続する態様が映像蓄積再生装置100に適用されてもよい。たとえば、映像蓄積再生装置100の初回起動時には、学習モードがデフォルト設定される。ユーザが映像蓄積再生装置100を用いて映像を視聴するにつれて、映像蓄積再生装置は学習を行なう。その後、一定期間を過ぎたら、映像蓄積再生装置100は、学習モードに基づく動作を行なわず、通常モードに基づく動作のみを行なうものであってもよい。
次に、図5および図6を参照して、要約再生パラメータ推定部103および変換規則生成部104による処理について説明する。図5は、要約再生パラメータ推定部103が、第1〜第3のサンプル映像データのシーン1つ1つに対し、要約再生パラメータの推定値を1つずつ与える場合の処理を表わす図である。当該処理は、たとえば、ユーザ別にサンプル映像データを分別した場合が該当する。ここでは、映像パラメータ抽出部102において2種類の映像パラメータa、b(たとえば、「動き変動量」と「音量」等)が抽出されるものとした。図5において、第1のサンプル映像データ500は、分別の結果、関係510として、要約再生パラメータと各映像パラメータとの関係が示される。第2のサンプル映像データについても同様にして、関係520、530として当該関係が示される。
変換規則生成部104は、得られた映像パラメータ(のセット)と、要約再生パラメータの推定値とのマッピングを行なうことにより、変換規則を求める。
図5で、シーンi(i=1,2,・・・)をある時間(たとえば、Δt)で与えられるシーンとし、シーンiにおける映像パラメータ(のセット)をxi={xai,xbi}、シーンiにおける要約再生パラメータの推定値をyiとすると、図5に示されるように、変換規則540は、関数yi=f(xi)として表現される。
また、変換規則が線形の関数として表現される場合には、映像パラメータa、bそれぞれの重み係数をwa、wbとすると、変換規則540は、さらに、yi=f(xi)=wa×xai+wb×xbiとして表わされる。このようにして示される式が全てのサンプル映像データの全てのシーンiについて与えられるため、この式が全てのシーンiにおいて最も確からしくなるように、関数f(x)、あるいは係数wa、wbの値が決定される。そして、得られた関数f(x)、あるいは係数wa、wbの値は、記録部120に対して、そのカテゴリに対応する変換規則として記録される。
具体的には、関数の各係数wa、wbは、各映像パラメータの値と、各要約再生パラメータの推定値との組を上記算式に代入した上で、たとえば、ニューラルネットワークによる最適解の算出手法等を用いて算出される。あるいは他の適切な方式を用いて算出してもよく、関数の各係数の算出の方式は、特に限られない。
図5には、2つの映像パラメータa、bを利用する例が示されているが、さらに多くの映像パラメータが用いられてもよい。すなわち、関数f(x)は、任意のK個の映像パラメータak(k=1〜K)について、yi=f(xi)=Σk(wak×xaki)のように与えることができる。また、関数f(x)は上記のような一次多項式でなく、より一般的に高次多項式yi=f(xi)=ΣkΣn{wakn×(xaki)^n}の形で与えられるものであってもよい。ここで「x^n」は「xのn乗」を表している。あるいは、上記した関数f(x)において、映像パラメータ抽出部102が抽出した全ての映像パラメータが用いられ、要約再生パラメータとの間に相関のない映像パラメータの重み係数wを0に設定するとすれば、上記した関数f(x)は、実質的に、いずれの映像パラメータの組み合わせも表現した変換規則を表わす関数と捉えることができる。さらに、与えられる変換規則は、上記のような線形の関数の関係にあるものでなくてもよく、たとえば、映像パラメータから要約再生パラメータへの変換を示す適当な形式の関数、たとえば非線形関数や不連続の関数等が設定されてもよい。
図6は、要約再生パラメータ推定部103が、1つのサンプル映像データ600(の各シーン)に対して複数の要約再生パラメータの推定値が与えられる場合の処理を表わす図である。たとえば、ユーザグループ別にサンプルが分別された場合に、1つのサンプル映像データ600に対して複数のユーザに対応した推定値が与えられる場合が該当する。
図6に示される例では、ユーザA、B、C、Dに対して推定値610、620、630、640がそれぞれ得られている。要約再生パラメータ推定部103は、さらに、得られた複数の要約再生パラメータの推定値610〜640から、各推定値を代表する代表推定値として、推定値650を決定する。
変換規則生成部104は、上記した要約再生パラメータの代表推定値650と、映像データの映像パラメータa、bとを用いて、図5に示される変換規則540と同様の変換規則660として、関数yi=f(xi)を求める。
図6には、複数の要約再生パラメータの推定値610〜640から決定される代表推定値650として、各シーンで平均値を算出した値が示されている。ただし、各推定値610〜640から代表推定値650を算出する方式はこれに限られない。たとえば、各シーンにおける最尤値を求めて、当該最尤値を代表推定値としてもよい。
また、変換規則660の算出方式は、図5に示される変換規則540の算出方式と同様の方式が適用され、関数yi=f(xi)に含まれる各係数が算出される。したがって、ここでは同じ説明は、繰り返さない。
なお、図5および図6に示される2つの処理は相反するものではない。たとえば、図6に示される処理を図5に示される処理の前処理として用いてもよい。すなわち、図6に示される処理で、各サンプル映像データの各シーンに対する代表推定値を求めた上で、図5に示される処理を適用して変換規則540を求める構成であってもよい。あるいは、図6の各推定値610〜640から代表推定値650を求めずに、図6に示された各推定値610〜640をそのまま図5に示された要約再生パラメータの各推定値とみなして、図5に示される処理を直接適用して変換規則540を求める構成とすることも可能である。
(記録部120の動作)
映像蓄積再生装置100が備える記録部120は、映像データと、学習部110で得られた映像パラメータから要約再生パラメータへの変換規則、すなわち、関数f(x)の係数を記録媒体(図示しない)に記録する。また、映像蓄積再生装置100に入力された映像データあるいは付属情報も、記録媒体に記録される。映像データと付属情報とは、関連付けられて当該記録媒体に記録される。また、付属情報および変換規則も、必要に応じて関連付けられて記録される。ただし、映像データ、付属情報および変換規則(関数を構成する変数の係数)は、同一の記録媒体に記録されなくてもよい。記録部120が複数の記録媒体に接続されている場合には、それぞれが別の記録媒体に記録され、蓄積されてもよい。
記録媒体は、映像蓄積再生装置が内蔵する内部メモリおよび着脱可能な外部メモリのいずれであってもよい。内部メモリは、たとえば、HDD、RAM(Random Access Memory)、フラッシュメモリ等により実現される。外部メモリは、たとえば、フレキシブルディスク、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/CD(Compact Disc)/DVD−ROM(ReadOnlyMemory)/RAM(Random Access Memory)/R(Recordable)/RW(Rewritable))、SD(Secure Digital)メモリカード、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、半導体メモリ等により実現される。
(再生部130の動作)
図1を再び参照して、再生制御部105は、記録部120で記録された映像データに関連付けられる付属情報を参照しつつ、ユーザからの指示を受け付け、対応する映像データを呼び出して再生するまでの処理を制御する。
再生が指示されたコンテンツに含まれる全ての映像データが再生される通常再生の場合には、再生表示部108が、対応する映像データを直接再生する。一方、要約再生が指示された場合には、再生制御部105が、付属情報に基づいて映像データに対応する(映像データの属するカテゴリに対応して生成、記録されている)変換規則を呼び出し、以下に説明する要約再生までの処理を管理する。なお、記録媒体に蓄積されている映像データが符号化されたデータである場合、映像を再生するためには復号が必要である。映像蓄積再生装置100における復号処理は、周知の技術が適用可能であるため、当該復号処理の説明は、繰り返さない。
映像パラメータ抽出部106は、再生制御部105で指示された映像データの入力を受け付ける。映像パラメータ抽出部106は、当該映像データから、変換部107が要約再生パラメータを算出するための入力として使用される各種映像パラメータを抽出する。
本実施の形態に係る映像蓄積再生装置100では、再生部130が映像パラメータ抽出部106を含み、映像パラメータ抽出部106は、要約再生に先立って、映像データから映像パラメータを抽出する。このような機能および構成に代えて、他の局面における映像蓄積再生装置の構成としては、映像パラメータ抽出部106を有さない構成のものであってもよい。たとえば、映像蓄積再生装置100が、要約再生に用いられる映像パラメータを別途事前に生成し、映像データと共に記録部120で記録し、再生部130は記録された映像パラメータを参照するものであってもよい。
変換部107は、記録部120で記録された変換規則を用いて、すなわち、図5あるいは図6に示される関数yi=f(xi)にしたがって、映像パラメータ抽出部106が抽出した映像パラメータから、要約再生パラメータを算出する。
上述のように、映像蓄積再生装置100の再生部130において映像パラメータおよび要約再生パラメータを算出するために用いるシーンの区切りは、自由に設定できるものである。たとえば、映像蓄積再生装置100がシーンチェンジ検出処理を別途行なうことにより各シーンを求め、各シーンから定まる区切りが用いられてもよい。あるいは、映像蓄積再生装置100が、ユーザによる操作に応答して、指定されたあるいは予め規定された一定の長さで映像を区切り、当該区切りが行なわれて生成された各サブ映像をシーンとして、上記変換規則を適用して、映像パラメータから要約再生パラメータを求めてもよい。
また、一定の長さでシーンを区切る場合に、区切られたシーンの中に本来のシーンチェンジ点が含まれることがある。このようにして区切られたシーンが変換規則に適用されると、その一定長さのシーンには本来異なる複数のシーンの映像データが含まれているために、そのシーンの映像データから計算される映像パラメータの値の信頼性が落ちることになる。そこで、そのようなシーン、すなわち、算出された映像パラメータの値が異常と判断されるシーンでは、例外処理が加えられてもよい。例外処理は、たとえば、当該シーンを用いた要約再生パラメータの導出処理を禁止し、直前のシーンの要約再生パラメータを継承して用いる、といった処理である。
再生表示部108は、再生制御部105で指示された再生対象である映像データと、変換部107で得られた要約再生パラメータとを入力として受け付け、映像を要約再生(ダイジェスト再生あるいはハイライト再生)する。
そこで、図7を参照して、要約再生パラメータを用いて要約再生する手順について説明する。図7は、要約再生パラメータを用いて、映像の各シーン(または各フレーム)の再生速度を制御することによって要約再生(ハイライト再生あるいはダイジェスト再生)する処理を表わす図である。
図7(A)に示されるように、元映像710は、時間(t)の方向に再生される。各シーンは、たとえば、時間Δt(1)、Δt(2)の単位で区切られている。図7(B)に示されるように、このような元映像710に対して、各シーンについて得られた要約再生パラメータの値は、閾値720、730により3段階にレベル分けされる。
具体的には、図7(C)に示されるように、閾値720を上回る値を有する要約再生パラメータには、最も高いレベルとしてレベル3が与えられる。閾値730を上回り閾値720を下回る値を有する要約再生パラメータには、レベル3に次ぐレベルとしてレベル2が与えられる。閾値730を下回る値を有する要約再生パラメータには、最も低いレベルとしてレベル1が与えられる。なお、レベルの区分は、3つに限られず2レベルあるいは4レベル以上であってもよい。
そして、図7(D)に示されるように、再生表示部108は、レベル3の付されたシーンを1倍速で再生し、中間のレベルであるレベル2の付されたシーンを2倍速で再生し、レベル1の付されたシーンを4倍速で再生する。これにより要約再生のための映像信号が再生表示部108から出力部160に送出される。
出力部160は映像信号および音声信号を外部に出力する。出力部160は、たとえば、映像音声信号の出力インターフェイスとして実現される。映像蓄積再生装置100がHDDレコーダとして実現される場合には、出力部160には、テレビその他の映像表示装置がケーブルによりあるいは無線により接続される。したがって、出力部160は、再生表示部108から送出された上記映像信号を、当該映像表示装置に送信する。これにより、映像表示装置100は、要約された映像を表示する。
要約再生の態様は、図7に示されるものに限られない。そこで、図8を参照して、他の局面における要約再生の態様について説明する。図8は、要約再生パラメータを用いて、映像の各シーン(または各フレーム)の表示のオン/オフを制御することによって要約再生(ハイライト再生あるいはダイジェスト再生)する処理を表わす図である。
具体的には、図8(A)に示されるように、記録部120に記録されている元映像810は、時間(t)の方向に再生される。各シーンは、たとえば、時間Δt(1)、Δt(2)の単位で区切られている。
図8(B)に示されるように、このような元映像810に対して、各シーンについて得られた要約再生パラメータの値は、閾値820、830により3段階にレベル分けされる。
具体的には、図8(C)に示されるように、閾値820を上回る値を有する要約再生パラメータには、最も高いレベルとしてレベル3が与えられる。閾値830を上回り閾値820を下回る値を有する要約再生パラメータには、レベル3に次ぐレベルとしてレベル2が与えられる。閾値830を下回る値を有する要約再生パラメータには、最も低いレベルとしてレベル1が与えられる。
そして、図8(D)に示されるように、再生表示部108は、レベル3が付されたシーンのみを再生し、レベル1および2が付されたシーンは再生しない。図8に示される例では、元映像810に含まれる17のシーンには、レベル3が付された5つのシーンが存在する。すなわち、時間Δt(1)、Δ(9)、Δ(10)、Δ(16)、Δ(17)に対応するシーンにレベル3が付されている。したがって、これらのシーンのみが再生されることになる。このときの映像の表示は、通常の速度に基づいて行なわれる。したがって、映像蓄積再生装置100のユーザは、再生される映像の内容によっては、図7に示されるように映像が早送りで再生される場合に比べて、要約再生されている内容を理解し易くなる。
ここで、図9を参照して、本実施の形態に係る要約再生との比較の対象となり得る要約再生について説明する。図9は、本発明に係る技術思想を適用しない場合に考えられる要約再生の概念を表わす図である。具体的には、フレーム毎の重要度が与えられた場合に、重要度を基準として行う要約再生の概念が示されている。
すなわち、図9(A)に示されるように、元の映像コンテンツ910は、一画面の映像に対応するフレーム920を映像コンテンツ910の時間に応じた数だけ有する。図9(B)に示されるように、重要度が閾値930を超えた3つのフレーム940−1、940−2、940−3のみが選択される。その結果、図9(C)に示されるように、フレーム940−1〜940−3に対応する映像のみが表示される。
以上詳述した本実施の形態に係る映像蓄積再生装置100は、HDDレコーダのように特定の映像記録再生装置として実現される場合もあれば、上述の各処理を実現するプログラムを周知のコンピュータに実行させることにより、ソフトウェアとハードウェアとが協働する構成としても実現できる。
そこで、図10を参照して、映像蓄積再生装置100として機能するコンピュータシステム1000について説明する。図10は、コンピュータシステム1000のハードウェア構成を表わすブロック図である。
コンピュータシステム1000は、CPU1010と、コンピュータシステム1000の使用者による指示の入力を受けるマウス1020およびキーボード1030と、CPU1010によるプログラムの実行により生成されたデータ、又はマウス1020若しくはキーボード1030を介して入力されたデータを揮発的に格納するRAM1040と、データを不揮発的に格納するハードディスク1050と、CD−ROM駆動装置1060と、モニタ1080と、通信IF(Interface)1090とを含む。各ハードウェアは、データバスによって相互に接続されている。CD−ROM駆動装置1060には、CD−ROM1062が装着される。
コンピュータシステム1000における処理は、各ハードウェアおよびCPU1010により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク1050に予め記憶されている場合がある。また、ソフトウェアは、CD−ROM1062その他の記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、ソフトウェアは、いわゆるインターネットに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、CD−ROM駆動装置1060その他の読取装置によりその記録媒体から読み取られて、あるいは、通信IF1090を介してダウンロードされた後、ハードディスク1050に一旦格納される。そのソフトウェアは、CPU1010によってハードディスク1050から読み出され、RAM1040に実行可能なプログラムの形式で格納される。CPU1010は、そのプログラムを実行する。
図10に示されるコンピュータシステム1000を構成する各ハードウェアは、一般的なものである。したがって、本発明の本質的な部分は、RAM1040、ハードディスク1050、CD−ROM1062その他の記録媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。ここで、記録媒体としては、CD−ROM、FD、ハードディスクに限られず、前述した他の媒体も含まれる。
なお、コンピュータシステム1000の各ハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
また、図11を参照して、映像蓄積再生装置100の一局面における具体的構成について説明する。図11は、映像蓄積再生装置100の一態様であるHDD内蔵DVDレコーダ1100のハードウェア構成を表わすブロック図である。
HDD内蔵DVDレコーダ1100は、データを格納するためのメモリ1112と、格納されているデータおよび外部から入力される指示に基づいて予め定められた処理を実行するためのシステム制御回路1110と、外部からユーザの指示の入力を受付けるための操作部1122と、リモコン信号を受信して所定の制御信号をシステム制御回路1110に出力するための受光部1124と、時刻を計測して信号をシステム制御回路1110に出力するための計時回路1126と、HDD内蔵DVDレコーダ1100の作動状態を表わす情報を表示するための表示部1128とを備える。ここで、作動状態とは、たとえば、DVD内蔵DVDレコーダ1100における時刻情報、後述するチューナによる受信状態、番組の録画状態等である。
HDD内蔵DVDレコーダ1100はさらに、アンテナ1180と、受信された電波から所定の電波を選択するためのチューナ1130と、外部から映像および音声信号の入力を受け付けるための外部入力部1132と、入力される信号を所定の処理に基づいて圧縮するためのMPEGエンコーダ1152と、システム制御回路1110からの指示に基づいてデジタルデータを格納するためのハードディスク装置1140と、DVD1172を駆動して、映像音声データの記録と再生とを行なうDVD駆動装置1170と、圧縮されている映像音声信号を復号するためのMPEGデコーダ1154と、映像の表示画面にHDD内蔵DVDレコーダ1100の作動状態その他の情報を表示する信号を生成するためのOSD(On Screen Display)画像生成回路1114と、OSD画像生成回路1114により生成された信号とMPEGデコーダ1154からの出力信号とを合成して出力するための合成回路1158と、入力されるデジタル信号をアナログ信号に変換して出力するためのD/A(Digital to Analog)変換部1160と、伝送ケーブル1192が接続可能であり映像音声信号を出力するための出力部1168とを備える。
ハードディスク装置1140は、データを格納するハードディスク1144と、ハードディスクへのデータの書き込みおよびハードディスク1144からのデータの読み出しを行なうデータ記録再生ヘッド1142とを含む。HDD内蔵DVDレコーダ1100は、伝送ケーブル1192を介して、テレビ1190に接続されている。
システム制御回路1110は、図1に示される学習部110の機能を実現する。ハードディスク装置1140、DVD1172が装着されたDVD駆動装置1170、あるいはメモリ1112は、記録部120として機能する。システム制御回路1110と、データ記録再生ヘッド1142あるいはDVD駆動装置1170が備えるピックアップ(図示しない)とは、再生部130として機能する。
以上詳述したように、本発明の実施の形態に係る映像蓄積再生装置100は、学習部110を備える。学習部110は、ダイジェスト再生またはハイライト再生を行うために必要な要約再生パラメータを映像パラメータから算出するための変換規則を自動で生成し、記録部120に記録する。映像蓄積再生装置100は、ジャンル別、ユーザ別、あるいはユーザグループ別に映像データのサンプル(サンプル映像データ)を集めて、それぞれ対応する変換規則を複数生成し、記録する。複数の変換規則によって同一の映像データに対しても複数の要約再生パラメータが生成されるため、映像のダイジェスト再生あるいはハイライト再生が、より適切に実現される。また、ダイジェスト再生あるいはハイライト再生のような要約再生を、記録媒体に蓄積された映像の管理や検索に用いることもできる。この場合、より適切に、効率よく映像データの管理あるいは検索が可能となる。
なお、上述の実施の形態では、要約再生パラメータが、映像の各シーンの重要度に直接対応するものとして説明した。このため、上記説明では、要約再生パラメータはその値が大きくなる程重要であり、シーンを再生する必要性が高いことを示すとしていた。
しかしながら、要約再生パラメータのとらえ方はこのような態様に限られない。他の局面において、たとえば、要約再生パラメータの値を、重要度を直接表すものではなく、単に異なる属性を示した値とみなすこともできる。その場合、たとえば、要約再生パラメータの値を5つの範囲にレベル分けして、それぞれに1から5までのラベルを付けて表し、ある要約再生ではラベル1とされたシーンのみを再生し、また別の要約再生ではラベル3が付されたシーンのみを再生する、といった形で要約再生を実現することができる。これにより、1つの要約再生パラメータであっても、さまざまなダイジェスト再生あるいはハイライト再生を行うことができる。
また、本実施の形態に係る映像蓄積再生装置100は、学習部110、記録部120、再生部130を全て備える1つの装置として示されているが、映像蓄積再生装置100の構成は、学習部110、記録部120、再生部130を全て備えている必要はない。たとえば、学習部110と記録部120とが第1の装置に含まれ、第1の装置とは別の第2の装置が再生部130を含み、第1の装置と第2の装置とが協働することによりシステムを構成し、当該システムが全体として映像蓄積再生装置100によって実現される機能を実現するものでもよい。
さらに、上記した本実施の形態に係る映像蓄積再生装置100によれば、学習部110における映像パラメータから要約再生パラメータへの変換規則の学習を行うタイミングは、映像データが映像蓄積再生装置100に入力されて蓄積される時点である。しかしながら、当該タイミングは、上記時点に限らない。たとえば、映像蓄積再生装置100が、入力された映像データおよび付属情報を記録部120に蓄積する一方、既に蓄積された映像データについて、当該映像データを呼び出して学習部110のサンプル分別部101に入力し、変換規則の学習を行ってもよい。すなわち、図1において入力される映像データおよび付属情報が、記録部120で既に蓄積されたデータであってもよい。なお、この時には、当該映像データおよび付属情報は、記録部120に再度記録される必要はない。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
100 映像蓄積再生装置、300 映像コンテンツ、310 フレーム、410 シーン、1000 コンピュータシステム、1062 CD−ROM、1100 HDD内蔵DVDレコーダ、1162 CD−ROM。