JP2008294722A - 動画再生装置および動画再生方法 - Google Patents

動画再生装置および動画再生方法 Download PDF

Info

Publication number
JP2008294722A
JP2008294722A JP2007137819A JP2007137819A JP2008294722A JP 2008294722 A JP2008294722 A JP 2008294722A JP 2007137819 A JP2007137819 A JP 2007137819A JP 2007137819 A JP2007137819 A JP 2007137819A JP 2008294722 A JP2008294722 A JP 2008294722A
Authority
JP
Japan
Prior art keywords
data
video
audio
person
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007137819A
Other languages
English (en)
Inventor
Satoru Haneda
哲 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2007137819A priority Critical patent/JP2008294722A/ja
Publication of JP2008294722A publication Critical patent/JP2008294722A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】映像を表示できなくなった場合であっても、ユーザがコンテンツの内容を理解することを補助することができる動画再生装置を提供する。
【解決手段】少なくとも音声データを含むコンテンツデータを保持するデータ受信部11と、コンテンツデータに映像データが含まれているか否かを判定する判定部15と、コンテンツデータに映像データが含まれている場合、映像データに基づく画像データと映像データに対応する音声データとを対応させて記録するデータベース14と、コンテンツデータに映像データが含まれていない場合、データベース14を参照し、データ受信部11に保持された音声データに対応する映像データを補うための補間映像データを生成する補間映像生成部16と、コンテンツデータに映像データが含まれていない場合、補間映像データを映像データとして対応する音声データとともに出力する出力部17、18とを有する構成とした。
【選択図】 図1

Description

本発明は、動画再生装置および動画再生方法に関し、特に、デジタルテレビ放送や動画ストリーミング受信中に受信環境の影響等によりデータが欠落もしくは遅延して映像が表示できなくなった場合に、音声だけでなく補間映像を表示し、ユーザがコンテンツの内容を理解することを補助することができる動画再生装置および動画再生方法に関する。
デジタルテレビ、ワンセグなどネットワークを介して動画データ及び広告データなどを配信するデータ配信システムにおいて、受信状況が悪いときに音声データのみを受信し、映像データを受信できない場合がある。この場合、音声データのみ再生する、あるいは代替画像を挿入するものが知られている。
例えば、動画配信中、回線品質が劣化した場合に付加データ(コンテンツのダイジェスト、広告、ドラマ予告等)を代替映像として再生するものがある(例えば、特許文献1参照)。また、デジタルテレビ放送のデジタルデータの受信中に映像の表示が中断されたときに、音声のみを再生するものがある(例えば、特許文献2参照)。
特願2003−037964号公報 特願2003−404562号公報
しかしながら、特許文献1に記載された従来技術の代替画像では別コンテンツの映像を表示して紛らわせる効果しかなく、ストーリー自体は中断されてしまう。また、特許文献2に記載された従来技術では音声出力のみとなり、映像は表示されないためユーザの利便性が損なわれる。
本発明は、上記従来の事情に鑑みてなされたものであって、映像を表示できなくなった場合であっても、ユーザがコンテンツの内容を理解することを補助することができる動画再生装置および動画再生方法を提供することを目的としている。
上記目的を達成するために、本発明の第1の動画再生装置は、少なくとも音声データを含むコンテンツデータを保持するデータ保持部と、前記コンテンツデータに映像データが含まれているか否かを判定する判定部と、前記コンテンツデータに映像データが含まれている場合、前記データ保持部に保持された前記映像データに基づく画像データと前記映像データに対応する前記音声データとを対応させて記録する映像音声記録部と、前記コンテンツデータに映像データが含まれていない場合、前記映像音声記録部を参照し、前記データ保持部に保持された前記音声データに対応する前記映像データを補うための補間映像データを生成する補間映像生成部と、前記コンテンツデータに映像データが含まれていない場合、前記補間映像データを前記映像データとして対応する音声データとともに出力する出力部と、を有する構成としている。
この構成により、映像データが欠落して映像を表示できない場合であっても、コンテンツに含まれる音声と直前までコンテンツに含まれていた映像を元に補間映像を生成し、音声とともにその補間映像を表示することにより、ユーザがコンテンツの内容を理解することを補助することができる。
また、本発明の第2の動画再生装置は、前記コンテンツデータを受信するデータ受信部を有する。
これによれば、デジタルテレビ放送や動画ストリーミング受信中に受信環境の影響等によりデータが欠落もしくは遅延して映像が表示できなくなった場合に、ユーザがコンテンツの内容を理解することを補助することができる。
また、本発明の第3の動画再生装置は、前記映像音声記録部が、前記コンテンツデータに前記映像データが含まれている場合、前記画像データおよび前記音声データを、前記映像データおよび前記音声データに基づいて第1のデータ区分毎に分類し、前記音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記第1のデータ区分における第2のデータ区分毎に分類し、記録する構成としている。
この構成により、映像に基づく画像データと映像に対応する音声データとを関連付けて保存するので、音声データに対応する適切な補間映像データを必要時に生成することができるようになる。
また、本発明の第4の動画再生装置は、更に、前記音声データに対応する人物の映像データを前記映像データから抽出する人物抽出部を有し、前記映像音声記録部が、前記人物抽出部によって前記人物の映像データが抽出された場合、前記人物の画像データおよび前記人物の音声データを、前記人物の映像データおよび前記人物の音声データに基づいて人物毎に分類し、前記人物の音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記人物における特徴毎に分類し、記録する構成としている。
この構成により、例えば唇が動作している人物(発話者)を抽出し、抽出された人物の音声データの音量や周波数などの特徴によってデータを分類するので、発話者の発話時の感情(通常、楽しい、悲しい、怒り等)毎に画像サンプルと音声サンプルを保存することができる。したがって、音声データに対応する適切な補間映像データを必要時に生成することができるようになる。
また、本発明の第5の動画再生装置は、前記映像音声記録部が、前記人物抽出部によって前記人物の映像データが抽出されなかった場合、前記画像データおよび前記音声データを、前記人物のデータを代替するための代替画像データ区分として分類し、前記音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記代替画像データにおける特徴毎に分類し、記録する構成としている。
この構成により、例えば唇が動作している人物(発話者)を抽出できないため発話者が存在しないと判断された場合、代替画像データとして音声データの音量や周波数などの特徴によってデータを分類するので、代替画像の特徴(音楽、騒音、無音等)毎に画像サンプルと音声サンプルを保存することができる。したがって、音声データに対応する適切な補間映像データを必要時に生成することができるようになる。
また、本発明の第6の動画再生装置は、前記補間映像生成部が、前記コンテンツデータに前記映像データが含まれない場合、前記音声データに基づいて前記第1のデータ区分および前記第2のデータ区分を特定し、前記映像音声記録部における前記第2のデータ区分に記録された画像データに基づいて前記補間映像データを生成する構成としている。
この構成により、映像データが中断したときに、音声データの特徴によって最適な画像データを選択し、補間映像データとして音声データと同期させて出力することができ、ユーザがコンテンツの内容を理解することを補助することができる。
また、本発明の第7の動画再生装置は、前記コンテンツデータに含まれる音声データと前記映像音声記録部の前記第1のデータ区分毎に記録された音声データを平均化した平均化音声データとを比較し、前記音声データの音声を発する人物を特定する人物特定部を有し、前記補間映像生成部が、前記人物特定部によって人物が特定された場合、前記人物の音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記人物における特徴を特定し、前記映像音声記録部において前記人物における特徴毎に記録された人物の画像データに基づいて前記補間映像データを生成する構成としている。
この構成により、映像音声記録部に記録された人物毎の音声サンプルの平均値と音声データとに基づいて発話者を抽出でき、さらに音声データの特徴解析によって発話者の感情を分析して最適な画像データを選択し、補間映像データとして利用することができるため、ユーザがコンテンツの内容を理解することを補助することができる。
また、本発明の第8の動画再生装置は、前記補間映像生成部が、前記人物特定部によって前記人物が特定されなかった場合、前記音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記代替画像データにおける特徴を特定し、前記映像音声記録部において前記代替画像データにおける特徴毎に記録された画像データに基づいて前記補間映像データを生成する構成としている。
この構成により、発話者が存在しない場合、音声データの特徴解析によって代替画像の特徴を分析して最適な画像データを選択し、補間映像データとして利用することができるため、ユーザがコンテンツの内容を理解することを補助することができる。
また、本発明の第9の動画再生装置は、前記補間映像生成部が、前記画像データに対応する音声データの音声の音量および周波数の少なくとも一方に基づいて前記画像データを加工し、前記補間映像データを生成する構成としている。
この構成により、例えば音声データの解析結果に基づいて補間映像データに利用する画像データのズームインやズームアウトを行うことができ、音声を発する人物や音声の特徴に基づいて画像データの加工を行うことができるため、ユーザがコンテンツの内容を理解することがさらに容易になる。
また、本発明の第10の動画再生装置は、前記映像データおよび前記音声データが、デジタルテレビ放送の映像データおよびデジタルテレビ放送の音声データである構成としている。
この構成により、デジタルテレビ放送の映像データが欠落して映像が表示できなくなった場合であっても、ユーザがコンテンツの内容を理解することを補助することができる。
また、本発明の第1の動画再生方法は、動画を再生するための動画再生方法であって、動画再生装置において、前記コンテンツデータに映像データが含まれているか否かを判定する判定ステップと、前記コンテンツデータに映像データが含まれている場合、前記映像データに基づく画像データと前記映像データに対応する前記音声データとを対応させて記録する映像音声記録ステップと、前記コンテンツデータに映像データが含まれていない場合、前記映像音声記録ステップにおいて記録された情報を参照し、前記音声データに対応する前記映像データを補うための補間映像データを生成するステップと、前記コンテンツデータに映像データが含まれていない場合、前記補間映像データを前記映像データとして対応する音声データとともに出力するステップとを有する方法としている。
この方法により、映像データが欠落して映像を表示できない場合であっても、コンテンツに含まれる音声と直前までコンテンツに含まれていた映像を元に補間映像を生成し、音声とともにその補間映像を表示することにより、ユーザがコンテンツの内容を理解することを補助することができる。
本発明にかかる動画再生装置および動画再生方法によれば、音声データに対応して映像データを補うための補間映像データを生成し、コンテンツデータに映像データが含まれていない場合、補間映像データを対応する音声データとともに出力するので、映像データが欠落して映像が表示できなくなった場合に、音声だけでなく補間映像データを表示して、ユーザがコンテンツの内容を理解することを補助することができる。
また、デジタルテレビ放送または動画ストリーミング受信中に、受信環境の影響により映像データが欠落もしくは遅延して映像が表示できなくなった場合に、音声データと直前までに受信した映像データとに基づいて補間映像データを生成するので、受信状況が悪化しても映像の表示を中断することなく、ユーザがコンテンツデータの内容を理解することを補助することができる。
以下、本発明の実施形態における動画再生装置および動画再生方法について、図面を用いて説明する。
図1は、本発明の実施形態にかかる動画再生装置100の構成の一例を示すブロック図である。デジタルテレビ、ワンセグなど放送ネットワークを介して映像データおよび音声データなどを配信するデータ配信システムや、ストリーミング配信など通信ネットワークを介して映像データおよび音声データを配信するデータ配信システムにおいて、放送局やストリーミングサービス提供者などが保持するコンテンツサーバ200は、パケット単位で音声・映像が多重化されているコンテンツデータを送信する。
動画再生装置100は、データ受信部11、データ分離部12、データベース生成部13、映像音声関連データベース14A、代替画像関連データベース14B、判定部15、補間映像生成部16、映像表示部17、および音声出力部18を有する。
データ受信部11は、コンテンツサーバ200から送信されるコンテンツデータを受信し、コンテンツデータを保持する。尚、データ受信部11は「データ保持部」としての機能を有する。
データ分離部12は、パケット単位で音声・映像が多重化されている(ただし、音声データのみの場合もある)コンテンツデータを音声データと映像データに分離する。コンテンツデータに映像データが含まれない場合は、単に音声データのみを取り出す。尚、ここでは、「音声データ」には、人物が発話する音声データの他に、人物以外のものから発せられる音や音楽のデータも含むものとする。
データベース生成部13は、映像音声関連データベース14Aおよび代替画像関連データベース14Bの生成および更新処理を行う。尚、データベース生成部13は「人物抽出部」としての機能を有する。
映像音声関連データベース14Aは、コンテンツデータに映像データが含まれており、かつ、コンテンツデータに含まれる音声データを発話している人物を特定できる場合に、コンテンツデータに含まれる特定された人物の映像データとその人物が発話する音声データとを関連付けて記録する。
代替画像関連データベース14Bは、コンテンツデータに映像データが含まれており、かつ、コンテンツデータに含まれる音声データを発話している人物を特定できない場合に、あらかじめ用意された代替画像とコンテンツデータに含まれるその代替画像に対応させる音声データとを関連付けて記録する。
尚、映像音声関連データベース14Aおよび代替画像関連データベース14Bは「映像音声記録部」としての機能を有する。
判定部15は、コンテンツデータに映像データが含まれているか否かを判定する。
補間映像生成部16は、コンテンツデータに映像データが含まれていない場合、映像音声関連データベース14Aまたは代替画像関連データベース14Bを参照し、データベース14に保持された音声データに対応する映像データを補うための補間映像データを生成する。尚、補間映像生成部16は「人物特定部」としての機能を有する。
映像表示部17は、映像データや補間映像データをもとに映像を出力する。
音声出力部18は、音声データをもとに音声を出力する。
尚、映像表示部17および音声出力部18は「出力部」としての機能を有する。
次に、映像音声関連データベース14Aについて詳細に説明する。
図2は、映像音声関連データベース14Aの一例を示した図である。映像音声関連データベース14Aはデータベース生成部13によって生成される。
映像音声関連データベース14Aには、音声認証、または音量や音声から抽出した感情等の特徴によって、通常受信中(音声データと映像データとを含むコンテンツデータを正常に受信しているとき)に人物が発話している音声データと、その際に唇が動作している人物画像とが関連付けられ、各人物ごとに人物画像が振り分けられて保存される。
たとえば、映像中に人物A、人物B、人物Cが映っている場合に、音声の大小またはピッチから推定した喜怒哀楽などの感情が平均的な通常(ニュートラル)状態における人物Aの画像と音声サンプル、人物Bの画像と音声サンプル、人物Cの画像と音声サンプルが分類される。同様に、音声の大小またはピッチから人物の感情が推定され、たとえば「楽しい」、「悲しい」、「怒り」等の特徴に区分され、それぞれ人物Aの画像と音声サンプル、人物Bの画像と音声サンプル、人物Cの画像と音声サンプルが振り分けられて保存される。
この場合、同一の感情に区分される画像であっても、より感情の特徴がでている画像が補間映像生成時に使用されるよう、優先順位(スコア)がつけられる。なお、映像音声関連データベース14Aの容量が限定されている場合は、より特徴的な画像と音声サンプル、またはより新しく記録された画像と音声サンプルが優先され、優先度の低い画像と音声サンプルが映像音声関連データベース14Aから削除される。
映像音声関連データベース14Aを備えることで、音声データと唇が動作している人物の画像データを関連付けて保存するので、音声データに対応する適切な補間映像データを生成することができる。また、各人物の画像データを、音声データの音量または音声データから抽出した特徴によって分類して保存するので、音声データに対応する適切な補間映像データを生成することができる。
次に、代替画像関連データベース14Bについて詳細に説明する。
図3は、代替画像関連データベース14Bの一例を示した図である。代替画像関連データベース14Bはデータベース生成部13によって生成される。
代替画像関連データベース14Bには、例えば、映像と共にBGM等の音楽が流れる場合に対応させるための風景画像と音楽サンプル、映像中の人物の会話が聞き取れない場合を連想させるような駅の改札口の画像と雑音サンプル、映像中の人物が発声しない場合などに対応させるための植物の画像などが分類されて保存される。また、図示はしないが、例えば映像中に人物が存在しないナレーションに対応させるための画像が保存されてもよい。保存された画像(代替画像)は補間映像が生成される際に補間映像として利用される。
代替画像関連データベース14Bを備えることで、映像と共に音楽が流れる場合、映像中の人物の会話が聞き取れない場合、または映像中の人物が発声しない場合等に対応する代替画像候補を有するので、例えば、映像データが欠落もしくは遅延して表示できなくなったときに、コンテンツデータに含まれる音声データから人物の音声を抽出することが難しい場合であっても、補間映像を生成して表示することができる。
次に、動画再生装置100の動作について詳細に説明する。
図4は、動画再生装置100の動作(全体処理フロー)の一例を示したフローチャートである。
データ受信部11が、コンテンツサーバ200からコンテンツデータを受信すると(ステップS11)、データ分離部12は、パケット単位で音声・映像が多重化されている(ただし、音声データのみの場合もある)コンテンツデータを音声データと映像データに分離する(ステップS12)。
判定部15は、映像データの表示が可能かどうか、つまりコンテンツデータに映像データが含まれているか否かを判断する(ステップS13)。映像データの表示が可能な場合(YES)は、データベース生成部13が映像音声関連データベース14Aもしくは代替画像関連データベース14Bを構築し(ステップS14)、映像表示部17が通常の映像(コンテンツデータに含まれる映像データ)を表示するとともに(ステップS15)、音声出力部18が音声を出力する(ステップS18)。
一方、ステップS13において、判定部15が映像データの表示が可能でないと判定した場合(NO)は、補間映像生成部16は補間映像を生成し(ステップS16)、映像表示部17が補間映像を表示するとともに(ステップS17)、音声出力部18が音声を出力する(ステップS18)。例えば、映像データが中断したときに、映像音声関連データベース14Aから音声データの発話者及び音声の特徴によって最適な補間画像が選択され、補間映像として音声と同期して出力される。
そして、図示しない制御部によってデータ受信部11による受信を終了するかどうかを判断し(ステップS19)、受信を終了しない場合(NO)は、ステップS11に戻る。受信を終了するか否かは、例えば受信可能なコンテンツデータが残っているか否かを判断する。
このような動画再生装置100の動作によれば、音声データに対応して映像データを補うための補間映像データを生成し、再生候補データに映像データが含まれていない場合、補間映像データを対応する音声データとともに出力するので、映像データが欠落して映像が表示できなくなった場合に、音声だけでなく補間映像データを表示して、ユーザがコンテンツの内容を理解することを補助することができる。
次に、動画再生装置がデータベース14を構築する際(ステップS14)の動作について、さらに詳細に説明する。図5は、動画再生装置100がデータベース14を構築する処理の一例を示したフローチャートである。尚、ここでは、映像音声関連データベース14Aと代替画像関連データベース14Bとをまとめて説明する際にはデータベース14として説明する。
データベース14を構築するには、まず、データベース生成部13は、映像データにおける映像中の顔を検出し(ステップS21)、唇の動作を検出する(ステップS22)ことによって、発話者を特定する(ステップS23)。たとえば、映像音声関連データベース14Aを参照する場合は、人物A、人物B、人物Cを特定する。
次いで、データベース生成部13は、発話者が存在するかどうか、つまりステップS23で発話者を特定できたかどうかを判断し(ステップS24)、発話者が存在すると判断した場合(YES)には、映像データから発話者の顔画像を抽出するとともに(ステップS25)、顔画像に対応する音声データから所定時間分の音声サンプルデータを抽出する(ステップS27)。
一方、ステップS24において、発話者が存在しないと判断した場合(NO)には、データベース生成部13は、映像データから代替画像候補を抽出し(ステップS26)、音声データから音声サンプルデータを抽出する(ステップS27)。
この発話者の顔画像および音声サンプルデータに基づいて、映像音声関連データベース14Aの人物を特定することができ、また、顔画像を抽出できない場合には、代替画像関連データベース14Bの代替画像であると特定することできる。
そして、データベース生成部13は、音声等の大小やピッチ等に基づいて、映像中の人物の特徴、例えば映像音声関連データベース14Aの「楽しい、悲しい、怒り」などの特徴や、映像中の音の特徴、例えば代替画像関連データベース14Bの「音楽、騒音、無音」などの特徴を抽出し(ステップS28)、映像音声関連データベース14Aまたは代替画像関連データベース14Bに保存された画像と音声サンプルを更新する(ステップS29)。この更新処理は、データ受信部11によって同一のコンテンツデータが受信されている間、所定の期間毎に実施される。
このように動画再生装置100が映像音声関連データベース14Aを構築することによって、音声データと、唇が動作している人物の画像データを関連付けて保存するので、音声データに対応する適切な補間映像データを生成することができる。また、各人物の画像データを、音声データの音量または音声データから抽出した特徴によって分類して保存するので、音声データに対応する適切な補間映像データを生成することができる。また、代替画像関連データベース14Bを構築することによって、各人物以外の画像データを、音データの音量または音データから抽出した特徴によって分類して保存するので、音データに対応する適切な補間映像データを生成することができる。さらに、データベース14は所定期間毎に更新されるので、コンテンツデータにおける最新の情報を反映したデータベース14を構築することができる。
次に、動画再生装置100が補間映像を生成する際(ステップS16)の動作について、さらに詳細に説明する。図6は、動画再生装置100が補間映像を生成する処理の一例を示したフローチャートである。
補間映像を生成するために、補間映像生成部16は、音声認証、音声データの音量または音声データから抽出した特徴から発話者を特定し(ステップS31)、映像音声関連データベース14に対応する発話者が存在するかどうか判断する(ステップS32)。例えば、各感情「通常、楽しい、悲しい、怒り」における人物毎の音声サンプルを平均化し、平均化された音声サンプルの人物に対応する発話者が存在するか否かを判断する。また、平均化された音声サンプルとして、映像音声関連データベース14Aに記録された人物毎の通常(ニュートラル)時の音声サンプルを用いてもよい。
発話者が存在すると判断した場合(YES)には、補間映像生成部16は、音声データの特徴を解析し(ステップS33)、解析結果に基づいて発話者の画像を補間画像として選択するとともに(ステップS34)、補間映像を加工し(ステップS37)、処理を終了する。補間映像の具体的な加工方法については後述する。音声データの特徴解析の方法として、例えばステップS28において説明した方法がある。
一方、ステップS32において、発話者が存在しないと判断した場合(NO)には、補間映像生成部16は、音声データの特徴を解析し(ステップS35)、代替画像関連データベース14Bから「音楽」等に分類された代替画像を補間画像として選択するとともに(ステップS36)、補間映像を加工し(ステップS37)、処理を終了する。
次に、動画再生装置100が補間映像を加工する際(ステップS37)の動作について、詳細に説明する。図7は、動画再生装置100が補間映像を加工する際の加工方法の一例を示した図である。
例えば、図7(a)に示すように、補間映像生成部16が選択した発話者画像を、映像表示部17がそのまま一定時間表示する。これはその発話者が同じ特徴(たとえば「楽しい」)で発音を続けている場合に有効である。
図7(b)は、補間映像生成部16が顔画像をモーフィング(目や口の変形)させて、喋っているように見せる例である。これにより補間映像が実際の映像に近くなり映像の展開をスムーズにすることができる。
図7(c)は、補間画像生成部16が音声データにおける音量に合わせて、顔画像のズームイン/アウトを行う例である。たとえば、音量小でズームアウト、音量大でズームインすることにより、人物の感情に合わせて補間映像を出力することができる。
以上説明したような動画再生装置100について、実際に動画再生装置100を利用する際の実施イメージを説明する。図8は、動画再生装置100が各種処理を行う際の実施イメージを示す図である。
動画再生装置100は、例えば、映像表示部17によって表示された通常再生時の映像に人物81〜83が三人映っており、そのうちの発話者81が発声している場合に、発話者81の顔画像と音声サンプルを映像音声関連データベース14Aに、発話者81と対応させて分類する。
そして、データ受信部11によるコンテンツデータの受信中に、映像データが中断し音声データが再生可能な場合に、発話者81の音声に対応させて発話者81の補間映像を表示することができる。この場合、発話者81の顔画像をアップして表示したり、音量や感情等によって顔画像を選択したりすることができる。また、音声に応じたカメラワーク、たとえばパン(ズーム)などにより補間映像を加工することにより、補間映像を実際の映像に近づけることができる。
このような動画再生装置100によれば、音声データに対応して映像データを補うための補間映像データを生成し、再生候補データに映像データが含まれていない場合、補間映像データを対応する音声データとともに出力するので、映像データが欠落して映像が表示できなくなった場合に、音声だけでなく補間映像データを表示して、ユーザがコンテンツの内容を理解することを補助することができる。
また、デジタルテレビ放送または動画ストリーミング受信中に、受信環境の影響により映像データが欠落もしくは遅延して映像が表示できなくなった場合に、音声データと直前までに受信した映像データとから、補間映像データを生成するので、受信状況が悪化しても映像の表示を中断することなく、ユーザがコンテンツデータの内容を理解することを補助することができる。
なお、本発明の実施の形態において、映像音声関連データベース14A、または代替画像関連データベース14Bに記録される画像および音声サンプルデータは、データ受信部11により受信したコンテンツデータから抽出すると説明したが、これに限るものではなく、予め放送局やストリーミングサービス提供者側で準備した画像(各感情に対応する人物画像、風景画像など)や音声サンプルデータをコンテンツサーバ200から視聴開始前、または視聴開始時(チャンネル選択時など)に自動的に取得し、映像音声関連データベース14A、または代替画像関連データベース14Bに記録しておいてもよい。
これにより、映像データが欠落もしくは遅延して映像が表示できなくなった場合に、コンテンツデータの配信元が意図した補間映像データを表示させることができる。また、視聴開始直後に映像データが欠落もしくは遅延して映像が表示できなくなった場合であっても、映像音声関連データベース14A、または代替画像関連データベース14Bに予め記録された音声サンプルデータを用いて、コンテンツデータに含まれる音声データとの比較をすることができ、視聴開始直後から最適な補間映像データを表示することができる。
また、以前視聴したコンテンツデータで作成した映像音声関連データベース、代替画像関連データベースを利用してもよい。例えば、毎週放送される番組に対して、視聴開始時に先週分の映像音声関連データベース、代替画像関連データベースを映像音声関連データベース14A、または代替画像関連データベース14Bに記録することで、視聴開始直後に映像データが欠落した場合でも、補間映像データを表示することができる。
なお、デジタルテレビ放送やストリーミング配信などの映像と音声とを含むコンテンツデータを受信する動画再生装置について説明したが、これに限られるものではなく、デジタルラジオ放送といった音声のみのコンテンツデータを受信する動画再生装置であってもよい。例えば、映像音声関連データベース14A、または代替画像関連データベース14Bに過去に記録された画像および音声サンプルデータを用いて、デジタルラジオ放送で受信した音声データとの比較を行い、補間映像データを生成する。
これにより、音声のみのコンテンツデータから補間映像データを生成して表示することができ、ユーザに対して音声だけでなく視覚的な情報も同時に提供することでコンテンツの内容を理解することを補助することができる。
本発明は、デジタルテレビ放送や動画ストリーミング受信中に受信環境の影響等によりデータが欠落もしくは遅延して映像が表示できなくなった場合に、音声だけでなく補間映像を表示し、ユーザがコンテンツの内容を理解することを補助することができる動画再生装置等として利用可能である。
本発明の実施形態にかかる動画再生装置の構成の一例を示したブロック図 本発明の実施形態にかかる映像音声関連データベースの一例を示した図 本発明の実施形態にかかる代替画像関連データベースの一例を示した図 本発明の実施形態にかかる動画再生装置の動作の一例を示したフローチャート 本発明の実施形態にかかる動画再生装置においてデータベースを構築する処理の一例を示したフローチャート 本発明の実施形態にかかる動画再生装置において補間映像を生成する処理の一例を示したフローチャート 本発明の実施形態にかかる動画再生装置において補間映像を加工する処理の一例を示した図 本発明の実施形態にかかる動画再生装置の実施イメージを示す図
符号の説明
11 データ受信部
12 データ分離部
13 データベース生成部
14A 映像音声関連データベース
14B 代替画像関連データベース
15 判定部
16 補間映像生成部
17 映像表示部
18 音声出力部
100 動画再生装置
200 コンテンツサーバ

Claims (11)

  1. 少なくとも音声データを含むコンテンツデータを保持するデータ保持部と、
    前記コンテンツデータに映像データが含まれているか否かを判定する判定部と、
    前記コンテンツデータに映像データが含まれている場合、前記データ保持部に保持された前記映像データに基づく画像データと前記映像データに対応する前記音声データとを対応させて記録する映像音声記録部と、
    前記コンテンツデータに映像データが含まれていない場合、前記映像音声記録部を参照し、前記データ保持部に保持された前記音声データに対応する前記映像データを補うための補間映像データを生成する補間映像生成部と、
    前記コンテンツデータに映像データが含まれていない場合、前記補間映像データを前記映像データとして対応する音声データとともに出力する出力部と、
    を有する動画再生装置。
  2. 請求項1に記載の動画再生装置であって、更に、
    前記コンテンツデータを受信するデータ受信部を有する動画再生装置。
  3. 請求項1または2に記載の動画再生装置であって、
    前記映像音声記録部は、前記コンテンツデータに前記映像データが含まれている場合、前記画像データおよび前記音声データを、前記映像データおよび前記音声データに基づいて第1のデータ区分毎に分類し、前記音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記第1のデータ区分における第2のデータ区分毎に分類し、記録する動画再生装置。
  4. 請求項3に記載の動画再生装置であって、更に、
    前記音声データに対応する人物の映像データを前記映像データから抽出する人物抽出部を有し、
    前記映像音声記録部は、前記人物抽出部によって前記人物の映像データが抽出された場合、前記人物の画像データおよび前記人物の音声データを、前記人物の映像データおよび前記人物の音声データに基づいて人物毎に分類し、前記人物の音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記人物における特徴毎に分類し、記録する動画再生装置。
  5. 請求項4に記載の動画再生装置であって、
    前記映像音声記録部は、前記人物抽出部によって前記人物の映像データが抽出されなかった場合、前記画像データおよび前記音声データを、前記人物のデータを代替するための代替画像データ区分として分類し、前記音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記代替画像データにおける特徴毎に分類し、記録する動画再生装置。
  6. 請求項3ないし5のいずれか1項に記載の動画再生装置であって、
    前記補間映像生成部は、前記コンテンツデータに前記映像データが含まれない場合、前記音声データに基づいて前記第1のデータ区分および前記第2のデータ区分を特定し、前記映像音声記録部における前記第2のデータ区分に記録された画像データに基づいて前記補間映像データを生成する動画再生装置。
  7. 請求項6に記載の動画再生装置であって、更に、
    前記コンテンツデータに含まれる音声データと前記映像音声記録部の前記第1のデータ区分毎に記録された音声データを平均化した平均化音声データとを比較し、前記音声データの音声を発する人物を特定する人物特定部を有し、
    前記補間映像生成部は、前記人物特定部によって人物が特定された場合、前記人物の音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記人物における特徴を特定し、前記映像音声記録部において前記人物における特徴毎に記録された人物の画像データに基づいて前記補間映像データを生成する動画再生装置。
  8. 請求項7に記載の動画再生装置であって、
    前記補間映像生成部は、前記人物特定部によって前記人物が特定されなかった場合、前記音声データの示す音声の音量および周波数の少なくとも一方に基づいて前記代替画像データにおける特徴を特定し、前記映像音声記録部において前記代替画像データにおける特徴毎に記録された画像データに基づいて前記補間映像データを生成する動画再生装置。
  9. 請求項6ないし8のいずれか1項に記載の動画再生装置であって、
    前記補間映像生成部は、前記画像データに対応する音声データの音声の音量および周波数の少なくとも一方に基づいて前記画像データを加工し、前記補間映像データを生成する動画再生装置。
  10. 請求項1ないし9のいずれか1項に記載の動画再生装置であって、
    前記映像データおよび前記音声データは、デジタルテレビ放送の映像データおよびデジタルテレビ放送の音声データである動画再生装置。
  11. 動画を再生するための動画再生方法であって、
    動画再生装置において、
    前記コンテンツデータに映像データが含まれているか否かを判定する判定ステップと、
    前記コンテンツデータに映像データが含まれている場合、前記映像データに基づく画像データと前記映像データに対応する前記音声データとを対応させて記録する映像音声記録ステップと、
    前記コンテンツデータに映像データが含まれていない場合、前記映像音声記録ステップにおいて記録された情報を参照し、前記音声データに対応する前記映像データを補うための補間映像データを生成するステップと、
    前記コンテンツデータに映像データが含まれていない場合、前記補間映像データを前記映像データとして対応する音声データとともに出力するステップと
    を有する動画再生方法。
JP2007137819A 2007-05-24 2007-05-24 動画再生装置および動画再生方法 Withdrawn JP2008294722A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007137819A JP2008294722A (ja) 2007-05-24 2007-05-24 動画再生装置および動画再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007137819A JP2008294722A (ja) 2007-05-24 2007-05-24 動画再生装置および動画再生方法

Publications (1)

Publication Number Publication Date
JP2008294722A true JP2008294722A (ja) 2008-12-04

Family

ID=40169004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007137819A Withdrawn JP2008294722A (ja) 2007-05-24 2007-05-24 動画再生装置および動画再生方法

Country Status (1)

Country Link
JP (1) JP2008294722A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010251841A (ja) * 2009-04-10 2010-11-04 Nikon Corp 画像抽出プログラムおよび画像抽出装置
JP2011039658A (ja) * 2009-08-07 2011-02-24 Konica Minolta Business Technologies Inc 画像処理システム
JP2014195267A (ja) * 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010251841A (ja) * 2009-04-10 2010-11-04 Nikon Corp 画像抽出プログラムおよび画像抽出装置
JP2011039658A (ja) * 2009-08-07 2011-02-24 Konica Minolta Business Technologies Inc 画像処理システム
JP2014195267A (ja) * 2014-05-02 2014-10-09 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US11386932B2 (en) Audio modification for adjustable playback rate
US10244291B2 (en) Authoring system for IPTV network
JP5173337B2 (ja) 要約コンテンツ生成装置およびコンピュータプログラム
US20160066055A1 (en) Method and system for automatically adding subtitles to streaming media content
JP5237174B2 (ja) 携帯端末によって原コンテンツを編集するコンテンツ編集方法、コンテンツサーバ、システム及びプログラム
KR20130029055A (ko) 청각 장애인을 위해 음성 언어를 수화로 번역하기 위한 시스템
US20100142925A1 (en) Data processing device, data processing method, and program
US7518656B2 (en) Signal processing apparatus, signal processing method, signal processing program, program reproducing apparatus, image display apparatus and image display method
JP2008294722A (ja) 動画再生装置および動画再生方法
JP2020027984A (ja) コンテンツ配信装置及びプログラム
JP2002344871A (ja) 字幕放送記録装置および記録方法
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP5213630B2 (ja) 映像信号再生装置
JP3970080B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
US11665392B2 (en) Methods and systems for selective playback and attenuation of audio based on user preference
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム
US20240177483A1 (en) System and method for producing a video stream
US20220264193A1 (en) Program production apparatus, program production method, and recording medium
JP3979566B2 (ja) 動画像付帯時変テキスト情報分割装置
US20090307725A1 (en) Method for providing contents information in vod service and vod system implemented with the same
JP2006033562A (ja) 擬声語受信装置
KR20170060202A (ko) 동기화된 폐쇄 자막을 생성하는 시스템 및 방법
JP2004128849A (ja) 字幕多重装置
JP2014067292A (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100803