JP2006287319A - 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム - Google Patents
番組ダイジェスト作成装置および番組ダイジェスト作成プログラム Download PDFInfo
- Publication number
- JP2006287319A JP2006287319A JP2005101003A JP2005101003A JP2006287319A JP 2006287319 A JP2006287319 A JP 2006287319A JP 2005101003 A JP2005101003 A JP 2005101003A JP 2005101003 A JP2005101003 A JP 2005101003A JP 2006287319 A JP2006287319 A JP 2006287319A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- program
- data
- structure data
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 不要な部分を少なくし、重要なシーンが欠落することなく、番組の制作者の意図や番組の視聴者の嗜好を反映させ、手間をかけることなく番組のダイジェストを作成することができる番組ダイジェスト作成装置および番組ダイジェスト作成プログラムを提供する。
【解決手段】 番組ダイジェスト作成装置1は、入力した番組のダイジェストを作成したり、予告編を作成したりするものであって、シーン構造データ蓄積手段13と、シーン構造解析手段5と、シーン構造データ照合手段7と、シーン連結手段9と、を備えた。
【選択図】 図1
【解決手段】 番組ダイジェスト作成装置1は、入力した番組のダイジェストを作成したり、予告編を作成したりするものであって、シーン構造データ蓄積手段13と、シーン構造解析手段5と、シーン構造データ照合手段7と、シーン連結手段9と、を備えた。
【選択図】 図1
Description
本発明は、番組からダイジェストを自動的に作成する番組ダイジェスト作成装置および番組ダイジェスト作成プログラムに関する。
従来、映画、テレビドラマ、ドキュメンタリー等の番組(動画像)から、当該番組の重要部分(みどころ)等を盛り込んだダイジェストを自動的に作成する番組ダイジェスト自動作成方法は、番組の内容や番組の構造(各シーンのつながり方)を考慮せずに、番組に含まれている映像の類似度等を基準にしてダイジェストを作成しているものが多く見られる(例えば、特許文献1参照)。
特許文献1で開示されている「ビデオ画像の分割、分類、および要約のための方法およびシステム」では、映像を分割し、クラスタリングする方法が記載されている。
また、番組の制作者が意図する重要なシーンをダイジェストに含めるようにした(重要度を考慮した)番組ダイジェスト自動作成方法として、例えば、特許文献2が開示されている。この特許文献2で開示されている「動画像の優先度自動選択方法および動画像ダイジェスト自動表示装置」では、被写体等をカメラマン等が撮影する際のカメラ操作から、撮影した映像に含まれているシーンの重要度を求める方法が記載されている。
また、番組の制作者が意図する重要なシーンをダイジェストに含めるようにした(重要度を考慮した)番組ダイジェスト自動作成方法として、例えば、特許文献2が開示されている。この特許文献2で開示されている「動画像の優先度自動選択方法および動画像ダイジェスト自動表示装置」では、被写体等をカメラマン等が撮影する際のカメラ操作から、撮影した映像に含まれているシーンの重要度を求める方法が記載されている。
さらに、番組の視聴者にとって、番組のすべてを視聴するか否かを判断する際の判断材料と成り得る重要なシーンをダイジェストに含めるようにした(視聴者の嗜好を反映された)番組ダイジェスト自動作成方法として、例えば、特許文献3が開示されている。この特許文献3で開示されている「映像の要約方法及び装置」では、視聴者が番組を視聴した視聴履歴に基づいて、当該番組(映像)から抽出した数値データから重要度を算出し、算出された重要度に基づいてダイジェストを作成するように強化学習し、更新する方法が記載されている。
さらにまた、番組の構造に着目した番組ダイジェスト自動作成方法として、例えば、非特許文献1が開示されている。この非特許文献1で開示されている方法では、番組に含まれている映像や音声の編集情報(例えば、映像であれば、カット、ワイプ等)から番組の構造を推定し、この編集情報に、番組の制作者の意図(重要度)が反映されているとして、ダイジェストを作成することが記載されている。
同様に、番組の構造に着目した番組ダイジェスト自動作成方法として、例えば、特許文献4、特許文献5および特許文献6が開示されている。これら特許文献4、特許文献5および特許文献6で開示されている方法では、番組に付加されている(付随している)文字情報およびメタデータを利用して、番組の構造を推定し、これら文字情報およびメタデータからダイジェストを作成することが記載されている。
特許第3568117号公報
特許第3230858号公報
特許第3323842号公報
特許第3592194号公報
特許第3566896号公報
特許第3176893号公報
T.Moriyama and M.Sakauchi,"Video summarization based on the psychological content in the track structure",Proc.of ACM Multimedia 2000 workshops,pp.191−pp.194
しかしながら、特許文献1で開示されている方法では、番組の内容、例えば、重要なシーンやクライマックス等の番組が盛り上がる部分がダイジェストに反映されなかったり、逆に、単調な会話が繰り返される等の番組が盛り上がらない部分等がダイジェストに反映されたりする。つまり、この方法で作成されたダイジェストには、番組の制作者が必ず視聴して欲しいと考えている(制作者が意図する)重要なシーンや、番組の視聴者にとって、番組のすべてを視聴するか否かを判断する際の判断材料と成り得る重要なシーンを含んでいるとは限らないということが生じる。
すなわち、この方法では、番組に含まれている重要なシーンを示す重要度が考慮されずに、映像の分割、クラスタリングが行われている。要約すると、作成されたダイジェストに不要な部分(カット)が多かったり、重要なシーンが欠落してしまうという問題がある。
また、特許文献2で開示されている方法で求められる重要度は、撮影時のカメラマンの意図だけが反映されたもので、番組を構成したり、編集したりする際の編集者の意図が反映されていない。
さらに、特許文献3で開示されている方法で求められた重要度は、番組の構成や内容に起因せずに決定してしまうため、視聴者個人の嗜好に合致したダイジェストを作成するには適しているが、汎用的な(多数の視聴者の嗜好に合う)ダイジェストを作成しようとした場合には、何らかの補助情報(セマンティックデータ等)が必要になる。
つまり、従来の番組ダイジェスト自動作成方法において、番組に含まれている映像を撮影するカメラマンの意図を反映させたもの(特許文献2)や、視聴者の嗜好のみを反映させたもの(特許文献3)では、作成されたダイジェストに、番組の制作者(編集者等)の意図や、番組の視聴者の一般的な嗜好が反映されていないという問題がある。
さらにまた、非特許文献1で開示されている方法では、番組の中で重要部分を検出する際に、「BGMの直前に重要部分がある」「カット切替の頻度の高い部分が重要部分である」といった規則を予め決定する必要があり、場合によっては、小数の番組の制作者にのみ通用する偏った規則が適用されてしまうことが生じる。
そしてまた、特許文献4、特許文献5および特許文献6で開示されている方法では、番組の中で重要部分を検出する際に用いる規則を、ある程度、予め決定する必要があり、規則決定が簡単に行えるスポーツ番組に用途が限定されている。
つまり、従来の番組ダイジェスト自動作成方法において、番組の中で重要部分を検出する際に、規則を設定するもの(非特許文献1、特許文献4〜特許文献6)では、番組に応じて規則を設定するのには手間がかかるという問題がある。そして、番組の制作者や番組の視聴者の心理情報を反映させたダイジェストの作成が望まれている。
そこで、本発明では、前記した問題を解決し、不要な部分を少なくし、重要なシーンが欠落することなく、番組の制作者の意図や番組の視聴者の嗜好を反映させ、手間をかけることなく番組のダイジェストを作成することができる番組ダイジェスト作成装置および番組ダイジェスト作成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の番組ダイジェスト作成装置は、蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成する番組ダイジェスト作成装置であって、シーン構造データ蓄積手段と、シーン構造解析手段と、シーン構造データ照合手段と、シーン連結手段と、を備える構成とした。
かかる構成によれば、番組ダイジェスト作成装置は、シーン構造データ蓄積手段に重要構造データを蓄積している。なお、蓄積番組シーン構造データは、番組をシーン構造解析手段によって、予め解析したものである。また、ここでいう番組とは、映画、テレビドラマ、ドキュメンタリー等を含むものとしており、主に動画像と音声とを含むものとしている。
まず、番組ダイジェスト作成装置は、シーン構造解析手段によって、入力した番組(入力番組)に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析して、入力番組シーン構造データとする。ここで、シーンとは、動画像である番組の映像や音声から、予め設定した条件、例えば、各時刻ごとの特徴量を求め、この特徴量に基づいて、番組を分割したものである。シーンそれぞれに共通している特徴をクラスタリングした結果とは、シーン同士のつながり方、つまり、シーン同士の依存関係(因果関係)を指しており、例えば、テレビドラマの場合、複数の登場人物の出会いに関するシーンAと、それぞれの登場人物がどのような生い立ちを負っているのかを説明するシーンBとがあるとすると、これらシーンAとシーンBとがどういった順番で、番組のどの時点で表れるのかといったことを指している。
なお、番組によっては、シーンAからシーンBにつながるものも想定できるし、シーンBからシーンAにつながるものも想定できる。そして、例えば、シーンAからシーンBにつながる場合に、番組に含まれているシーンAの映像・音声とシーンBの映像・音声とがどのように変化するのかについて調べていくことが、番組の構造を調べていくことになる。番組の構造として、例えば、どのような番組でも普遍的に表れる構造や、テレビドラマ(例えば、恋愛ドラマ)に特有に表れる構造、スポーツ番組に特有に表れる構造が挙げられる。
そして、番組ダイジェスト作成装置は、シーン構造データ照合手段によって、シーン構造解析手段で解析した入力番組シーン構造データと、シーン構造データ蓄積手段に蓄積されている蓄積番組シーン構造データの重要構造データとを照合し、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとする。このシーン構造データ照合手段では、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとの一致している部分が検索され、重要部分データとされる。
そして、番組ダイジェスト作成装置は、シーン連結手段によって、シーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結する。なお、シーン連結手段では、シーンを連結する際に、番組の進行に沿うように連結することも可能であるし、ランダムに連結することも可能である。
請求項2に記載の番組ダイジェスト作成装置は、請求項1に記載の番組ダイジェスト作成装置において、番組について、前記シーン構造解析手段が、前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析し、この解析結果を統計処理することで、連続する前記シーンの纏まりの頻出度を求め、この頻出度に基づいて、前記重要構造データを学習する重要構造学習手段と、を備えることを特徴とする。
かかる構成によれば、番組ダイジェスト作成装置は、ダイジェストを作成する番組以外の番組、例えば、以前に放送された番組を、シーン構造解析手段によって、当該番組に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析する。そして、番組ダイジェスト作成装置は、重要構造学習手段によって、解析結果を統計処理し、シーンの纏まりの頻出度を求め、シーンの纏まりの中で、頻繁に出現する纏まり(番組の構造)を、重要構造データとして学習する(記憶する)。つまり、この番組ダイジェスト作成装置では、番組の構造を学習する学習機能が備えられている。
請求項3に記載の番組ダイジェスト作成装置は、請求項1または請求項2に記載の番組ダイジェスト作成装置において、前記シーン構造解析手段が、特徴量算出手段と、シーン切り出し手段と、構造解析手段と、を備えていることを特徴とする。
かかる構成によれば、番組ダイジェスト作成装置は、特徴量算出手段によって、番組に含まれている映像および音声に関するメタデータと、予め付加した任意の数値である設定値とに基づいて、当該番組の各時刻における特徴量を算出する。メタデータは、映像中にどのような出演者や背景が映っているかということや、音声にどのような効果音やBGMが使用されているかといったことが記述されているものである。設定値は、予め番組の制作者や番組の視聴者が番組の経過時刻に対応して付加した数値であり、番組の中で、例えば、感動するシーンに対して、“感動ポイント5”といったように設定したものである。設定値の例として、理解重要度(番組の制作者が番組の視聴者に理解して欲しい重要な度合い)、感動度、衝撃度等が挙げられ、例えば、それぞれの度合いを1から10までの10段階で設定する。特徴量は、番組の各時刻(番組の経過時刻ごと)における当該番組に含まれている映像や音声について、被写体の動き(出演者の動作)や、カットやワイプ等に編集情報、出演者の台詞、効果音、BGM等、様々な要素を盛り込んで、設定値と共に表現されるものである。
そして、番組ダイジェスト作成装置は、シーン切り出し手段によって、特徴量算出手段で算出した特徴量に基づいて、番組から各シーンを切り出す。このシーン切り出し手段では、いろいろな切り出し方が可能であり、例えば、特徴量に含まれている被写体の有無に応じて、各シーンを切り出すことができる。この場合、シーン切り出し手段は、被写体(出演者)Aが含まれているシーン、被写体Bが含まれているシーンといったように、各シーンを切り出していく。なお、被写体Aと被写体Bとが同時に映っている映像がある場合、シーン切り出し手段で切り出されるシーンは重複していることになる。
そして、番組ダイジェスト作成装置は、構造解析手段によって、シーン切り出し手段で切り出された各シーンの開始時刻と終了時刻とに基づいて、番組の時系列に沿って、開始時刻が早いシーンと開始時刻が遅いシーンとに従ったシーンの順序と、開始時刻の早いシーンの終了時刻が開始時刻の遅いシーンの終了時刻よりも遅い場合におけるシーンの包含関係とを示すシーン構造を解析する。シーン構造は、各シーンのつながり方を小数のシーンからなるグループに分類し、これらのグループ同士がどのように連携しているのかをシーンベクトルとして表現したものである。
請求項4に記載の番組ダイジェスト作成装置は、請求項3に記載の番組ダイジェスト作成装置において、前記特徴量算出手段が、前記特徴量を、前記番組の各時刻における複数の要素から成る特徴ベクトルとして表し、前記シーン切り出し手段が、前記特徴ベクトルの各要素の値を変更する複数の重み付けパターンを備えることを特徴とする。
かかる構成によれば、番組ダイジェスト作成装置は、特徴量を、番組の各時刻における複数の要素から成る特徴ベクトルとして表し、各要素の値を変更する複数の重み付けパターンを備えるので、シーンを切り出す際に、重み付けパターンを変えることで、様々な要素を重視した(様々な着目点による)シーンの切り出しが可能になる。
請求項5に記載の番組ダイジェスト作成装置は、請求項3に記載の番組ダイジェスト作成装置において、前記設定値が、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め規定したポイントに換算して設定したことを特徴とする。
かかる構成によれば、番組ダイジェスト作成装置は、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め規定したポイントに換算した設定値にすることで、特徴量を算出する際に、ポイント化(数値化)された心理情報が反映されることになる。
請求項6に記載の番組ダイジェスト作成装置は、請求項1から請求項5までのいずれか一項に記載の番組ダイジェスト作成装置において、前記シーン連結手段が、前記重要部分データに関連するシーンを連結する際に、予め設定した特定のつながり方をする重要部分データを除く特定重要部分データ削除手段を備えることを特徴する。
かかる構成によれば、番組ダイジェスト作成装置は、特定重要部分データ削除手段によって、予め設定した特定のつながり方をする重要部分データを除くことができ、番組のダイジェストだけではなく、番組の制作者の意向を反映させて、特定のつながり方をする重要部分データ、例えば、番組がサスペンス等のテレビドラマであれば、エンディング直前で、謎が解明されるシーンのみを削除した予告編を作成することができる。
請求項7に記載の番組ダイジェスト作成プログラムは、蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成するために、コンピュータを、シーン構造解析手段、シーン構造データ照合手段、シーン連結手段、として機能させる構成とした。
かかる構成によれば、番組ダイジェスト作成プログラムは、シーン構造解析手段によって、入力した番組に含まれているデータの特徴が共通している纏まりをシーンとし、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した入力番組シーン構造データとし、シーン構造データ照合手段によって、シーン構造解析手段で解析した入力番組シーン構造データと、重要構造データとが一致したデータを重要部分データとする。そして、番組ダイジェスト作成プログラムは、シーン連結手段によって、シーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結する。
請求項1または請求項7に記載の発明によれば、入力番組シーン構造データと、蓄積番組シーン構造データの重要構造データとを照合して、照合した結果、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致する部分を重要部分データとし、この重要部分データに関連するシーンを連結する。このため、不要な部分が含まれることなく、重要部分(重要なシーン)が欠落することのない番組のダイジェストを作成することができる。
請求項2に記載の発明によれば、番組に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析し、重要構造データを学習することができ、この学習した結果がダイジェスト作成に反映されるので、手間をかけることなく、高品質のダイジェストを作成することができる。
請求項3に記載の発明によれば、特徴量を算出し、この特徴量に基づいて各シーンを切り出して、シーン構造を解析しているので、普遍的、客観的な基準によって、番組のダイジェストを作成することができる。
請求項4に記載の発明によれば、特徴ベクトル、各要素の値を変更する複数の重み付けパターンを備えるので、シーンを切り出す際に、重み付けパターンを変えることで、様々な要素を重視した(様々な着目点による)シーンの切り出しが可能になり、様々なダイジェストを作成することができる。
請求項5に記載の発明によれば、心理情報を予め規定したポイントに換算して設定した設定値を、特徴量に含めることで、番組の制作者の意図や番組の視聴者の嗜好を反映させたダイジェストを作成することができる。
請求項6に記載の発明によれば、番組の内容全体を把握することができるダイジェストから予め特定したつながり方をする重要部分データを除くことで、番組の制作者の意向に沿った番組の予告編を作成することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈番組ダイジェスト作成装置の構成〉
図1は番組ダイジェスト作成装置のブロック図である。この図1に示すように、番組ダイジェスト作成装置1は、入力された番組(入力番組)のダイジェストや予告編を作成するもので、番組蓄積手段3と、シーン構造解析手段5と、シーン構造データ照合手段7と、シーン連結手段9と、重要構造学習手段11と、シーン構造データ蓄積手段13とを備えている。なお、ここでいう番組は、映画、テレビドラマ、ドキュメンタリー等を含むものとしており、主に動画像と音声とを含むものとしている。つまり、この番組ダイジェスト作成装置1で作成されるものは、映画のダイジェストや予告編、テレビドラマのダイジェストや予告編といったようになる。
〈番組ダイジェスト作成装置の構成〉
図1は番組ダイジェスト作成装置のブロック図である。この図1に示すように、番組ダイジェスト作成装置1は、入力された番組(入力番組)のダイジェストや予告編を作成するもので、番組蓄積手段3と、シーン構造解析手段5と、シーン構造データ照合手段7と、シーン連結手段9と、重要構造学習手段11と、シーン構造データ蓄積手段13とを備えている。なお、ここでいう番組は、映画、テレビドラマ、ドキュメンタリー等を含むものとしており、主に動画像と音声とを含むものとしている。つまり、この番組ダイジェスト作成装置1で作成されるものは、映画のダイジェストや予告編、テレビドラマのダイジェストや予告編といったようになる。
番組蓄積手段3は、一般的なハードディスク等の記録媒体によって構成されており、予め放送(配信)された番組を蓄積するものである。この番組蓄積手段3には、各ジャンルごとに、所定数以上の番組が蓄積されている。例えば、映画やテレビドラマの場合、アクション映画(アクションドラマ)、恋愛映画(恋愛ドラマ)、ホラー映画(ホラードラマ)、サスペンス映画(サスペンスドラマ)等にジャンル分けされており、この実施形態では、1つのジャンルについて統計量を得るのに十分な数の番組が蓄積されている。
シーン構造解析手段5は、入力番組と番組蓄積手段3に蓄積されている番組(蓄積番組)とに含まれているデータ(映像データ、音声データ、テキストデータ等)の特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した入力番組シーン構造データと蓄積番組シーン構造データとを出力するもので、特徴量算出部(特徴量算出手段)5aと、シーン切り出し部(シーン切り出し手段)5bと、構造解析部(構造解析手段)5cとを備えている。
予め設定した条件とは、番組の映像であれば、例えば、カット等の編集情報や、同一の被写体が含まれているといったものであり、番組の音声であれば、例えば、話者、BGM、効果音や、同一のセリフが含まれているといったものでえある。この予め設定した条件とは、具体的には、特徴量算出部5aで扱われる特徴ベクトルの要素に該当している。
なお、この実施形態では、シーン構造解析手段5に入力番組と蓄積番組とが別々のデータライン(データバス)を介して入力され、入力番組シーン構造データと蓄積番組シーン構造データとが別々のデータライン(データバス)に出力されるような構成をしているが、これら入力および出力する部分に切替スイッチを設け、1つのデータラインを流れる情報(入力番組または蓄積番組)を制御することで、入力番組のシーン構造を解析してダイジェストを作成するダイジェスト作成時と、蓄積番組のシーン構造を解析して、シーン構造データ蓄積手段13に蓄積する蓄積番組シーン構造データを更新していく学習時とを切り替えることができる。
特徴量算出部5aは、入力番組または蓄積番組に予め付加されている映像や音声に関するメタデータに基づいて、入力番組または蓄積番組の開始から終了までの各時刻における特徴量を、特徴ベクトルとして算出するものである。この特徴量は、メタデータによって記述されている、番組に含まれている映像(動画像データ)や音声(音声データ)がどのようなものかということと、これらが制作された際の編集情報と、予め番組の制作者と番組の視聴者との少なくとも一方によって設定された設定値とに基づいて算出されたものである。
なお、設定値は、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め設定したポイント(任意の数)に換算して設定したものである。例えば、楽しい、悲しい、面白い等の心理情報と、当該ポイントとを関連付けた換算テーブルを予め用意しておいて、設定値を決定する。ここで、図2を参照して、特徴量について、より具体的に説明する。
図2は、横軸に時間軸をとって、番組の開始時刻から終了時刻までを示して、特徴量の概略を説明した図である。図2に示すように、特徴量は、映像(a)、音声(b)および心理情報(c)の3つに分類される。これら映像(a)、音声(b)および心理情報(c)の特徴量は、各時刻における特徴ベクトルを結合したものである。つまり、映像(a)の特徴量は、映像特徴ベクトルve1、映像特徴ベクトルve2、映像特徴ベクトルve3、・・・、映像特徴ベクトルvenからなる。また、音声(b)の特徴量は、音声特徴ベクトルvo1、音声特徴ベクトルvo2、音声特徴ベクトルvo3、・・・、音声特徴ベクトルvomからなる。さらに、心理情報(c)の特徴量は、心理情報特徴ベクトルvs1、心理情報特徴ベクトルvs2、心理情報特徴ベクトルvs3、・・・、心理情報特徴ベクトルvslからなる。
映像(a)の特徴量を構成している映像特徴ベクトルは、どのような出演者やキーオブジェクトが含まれているか否かによって異なるように設定することや、出演者の動作やキーオブジェクトの動きの違いによって異なるように設定することや、カットやワイプやドリー等の編集情報によって異なるように設定することが可能である。つまり、映像特徴ベクトルを構成する要素としては、出演者、key object(キーオブジェクト)、出演者の動作、キーオブジェクトの動き、カットやワイプやドリー等の編集情報などが挙げられる。
音声(b)の特徴量を構成している音声特徴ベクトルは、音声を発している話者(出演者)の違いによって異なるように設定することや、音声の中に所定の台詞やキーワードが含まれているか否かによって異なるように設定することや、効果音やBGMの違いによって異なるように設定することが可能である。つまり、音声特徴ベクトルを構成する要素としては、話者、セリフ(台詞)、キーワード、効果音、BGMなどが挙げられる。
心理情報(c)の特徴量を構成している心理情報特徴ベクトルは、番組の制作者が是非理解して欲しいと考えている理解重要度によって異なるように設定することや、番組の視聴者が視聴した結果、感動した度合い(感動度合い)によって異なるように設定することが可能である。なお、この心理情報特徴ベクトルの中で、ハッチングを施してある箇所が、番組の制作者および番組の視聴者が最も重要な部分(最も感動できる部分)と設定したところである。つまり、心理情報特徴ベクトルを構成する要素としては、理解重要度、感動度合い等が挙げられる。
図2に示した映像(a)、音声(b)および心理情報(c)の特徴量を比べてみると、映像特徴ベクトルve1と心理情報特徴ベクトルvs1とがほぼ同じ長さで対応しているのに対して、これらに比べ音声特徴ベクトルvo1が短いのがわかる。これはどういったことを示しているかというと、例えば、出演者Aが映っている部分(映像特徴ベクトルve1)では、BGM等が変わっても(音声特徴ベクトルvo1から音声特徴ベクトルvo2に)、視聴者に与える感動度合い(心理情報特徴ベクトルvs1)が変化しないということであり、或いは、海が映っている部分(映像特徴ベクトルve1)では、台詞を発している話者(音声)が変わっても(音声特徴ベクトルvo1から音声特徴ベクトルvo2に)、理解重要度(心理情報特徴ベクトルvs1)が変化しないことを示している。
また、映像特徴ベクトルve3に着目してみると、同じ時刻には、音声特徴ベクトルvo2、音声特徴ベクトルvo3および音声特徴ベクトルvo4が対応していると共に、心理情報特徴ベクトルvs3および心理情報特徴ベクトルvs4が対応している。これはどういったことを示しているかというと、例えば、サスペンス映画(ドラマ)等で、犯人を解明するのに何らかの伏線を張る場合等、ある風景が特定方向から一定の画角で表示されていて編集情報(映像特徴ベクトルve3)は変化していないのに、効果音が変化した(音声特徴ベクトルvo2、音声特徴ベクトルvo3、音声特徴ベクトルvo4)ために、視聴者に与える印象が徐々に変化して心理情報特徴ベクトル(心理情報特徴ベクトルvs3および心理情報特徴ベクトルvs4)が変化したことを示している。
これらの映像特徴ベクトルを構成する要素、音声特徴ベクトルを構成する要素および心理情報特徴ベクトルを構成する要素には、当該要素が存在していることを示す“1”と、当該要素が存在していないことを示す“0”とのいずれかが設定されている。または、当該要素の存在している時間(秒)が設定されている。例えば、映像特徴ベクトルを構成する要素の1つである出演者に対して、出演者Aには“0”を、出演者Bには“1”を、出演者Cには“0”を設定する。また、映像特徴ベクトルを構成する要素の1つである出演者に対して存在している時間をそれぞれ、出演者Aには“0.2”(秒)を、出演者Bには“0.3”(秒)を、出演者Cには“0”(秒)のように設定する。
また、例えば、音声特徴ベクトルを構成する要素の1つである効果音に対して、効果音Aには“0”を、効果音Bには“0”を、効果音Cには“1”を設定する。また、音声特徴ベクトルを構成する要素の1つである効果音に対して存在している(出力されている)時間をそれぞれ、効果音Aには“0.3”を、効果音Bには“0.4”を、効果音Cには“0.1”のように設定する。
これらの例を、一般的なベクトルの記述形式で示すと、以下に示すようになる。
これらの例を、一般的なベクトルの記述形式で示すと、以下に示すようになる。
このように数式(1)では、映像特徴ベクトルvenを構成する要素の1つである出演者しか示していないが、映像特徴ベクトルvenには、これ以外にも、キーオブジェクトや、出演者の動作等の要素が含まれている。また、数式(2)では、音声特徴ベクトルvomを構成する要素の1つである効果音しか示していないが、音声特徴ベクトルvomには、これ以外にも、話者やBGM等の要素が含まれている。
図1に戻って、番組ダイジェスト作成装置1の構成の説明を続ける。
シーン切り出し部5bは、特徴量算出部5aで算出された特徴量を構成する特徴ベクトル(映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトル)の各要素の値を変更する複数の重み付けパターンを備えており、この重み付けパターンを当該特徴ベクトルに乗算して、特定の要素の値を残すようにして、この残された要素に基づいて、番組から各シーンを切り出すものである。つまり、シーン切り出し部5bでは、所定時間ごとに任意の特徴ベクトルを抽出した際に、同じ特徴ベクトルが連続して抽出された場合に、同じシーンであるとみなして、連続した時間分だけを切り出している。
シーン切り出し部5bは、特徴量算出部5aで算出された特徴量を構成する特徴ベクトル(映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトル)の各要素の値を変更する複数の重み付けパターンを備えており、この重み付けパターンを当該特徴ベクトルに乗算して、特定の要素の値を残すようにして、この残された要素に基づいて、番組から各シーンを切り出すものである。つまり、シーン切り出し部5bでは、所定時間ごとに任意の特徴ベクトルを抽出した際に、同じ特徴ベクトルが連続して抽出された場合に、同じシーンであるとみなして、連続した時間分だけを切り出している。
重み付けパターンは、例えば、音声特徴ベクトルに着目すると、“話者が連続する”、“BGMが流れ続けている”といった場合、音声特徴ベクトルを構成する要素の一つである話者やBGMの値が変化するように設定されたもので、ここでは、特徴ベクトルの要素数(次元数)に対応したベクトルとして設定されている。
重み付けパターンの一例を一般的なベクトルの記述形式で示すと、以下のようになる。
重み付けパターンの一例を一般的なベクトルの記述形式で示すと、以下のようになる。
このように数式(3)では、最も重み付けを多くしたい所に“0.9”が設定されており、それ以外の所では“0.2”や“0.1”や“0”が設定されている。なお、重み付けを“0”とした場合、この重み付けに係る要素は無いものとみなされる。この数式(3)が、数式(1)や数式(2)に乗算されることで、それぞれの特徴ベクトルの要素の値が変更される。なお、重み付けパターンは、映像特徴ベクトル、音声特徴ベクトル、心理情報特徴ベクトルごとに複数備えられている。
ここで、シーン切り出し部5bで切り出される各シーンについて図3を参照して説明する。図3は、図2と同様に、映像(a)、音声(b)および心理情報(c)の特徴量を示しており、シーン切り出し部5bによって切り出された各シーンの概略を説明した図である。この図3において図示した楕円が各シーンに該当している。
図3に示すように、番組の開始時刻から終了時刻まで、シーン1からシーン11までの11個のシーンが、シーン切り出し部5bによって切り出されている。シーン1は番組のオープニングであるといえ、シーン11は番組のエンディングであるといえる。そして、シーン切り出し部5bによって切り出された各シーンには、オーバーラップするところや、包含関係にあるところが存在する。
例えば、シーン1とシーン2とがオーバーラップすると共に、シーン1とシーン3ともオーバーラップしている。また、シーン2とシーン4とは接している。さらに、シーン7はシーン6に包含されている。
また、シーン切り出し部5bによる各シーンの切り出し方を見てみると、それぞれの特徴ベクトルと各シーンとの対応関係が明確なものとして、シーン1は音声特徴ベクトルvo1を基準に切り出されたものであり、シーン4は音声特徴ベクトルvo2を基準に切り出されたものであり、シーン5は映像特徴ベクトルve3を基準に切り出されたものであり、シーン10は映像特徴ベクトルve7、映像特徴ベクトルve8および映像特徴ベクトルve9を基準に切り出されたものである。
なお、それ以外の特徴ベクトルと各シーンとの対応関係は、この図からは不明確であるが、例えば、シーン2の場合、映像特徴ベクトルve1および心理情報特徴ベクトルvs1が変化していなくて、音声特徴ベクトルvo1から音声特徴ベクトルvo2に変化しているシーンである。具体的な例を想定してみると、出演者Aと出演者Bとが映っている映像(映像特徴ベクトルve1)において、出演者Aと出演者Bとが口論をしていて(当初から出演者Aと出演者Bとが話者)、はじめ出演者Aの方が優勢(音声特徴ベクトルvo1)であったが、途中から出演者Bの方が優勢(音声特徴ベクトルvo2)になった場合で、番組の視聴者の感動度が変化しない(心理情報特徴ベクトルvs1)シーンが想定される。
図1に戻って、番組ダイジェスト作成装置1の構成の説明を続ける。
構造解析部5cは、シーン切り出し部5bによって切り出された各シーンを特徴付けるシーンベクトルを、各特徴ベクトル(映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトル)から求めて、このシーンベクトルに基づいて、各シーンの経過時間に伴った関連性(つながり方)を示すシーン構造(番組の構造)を解析するものである。
構造解析部5cは、シーン切り出し部5bによって切り出された各シーンを特徴付けるシーンベクトルを、各特徴ベクトル(映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトル)から求めて、このシーンベクトルに基づいて、各シーンの経過時間に伴った関連性(つながり方)を示すシーン構造(番組の構造)を解析するものである。
すなわち、構造解析部5cは、番組の時系列に沿ったシーンベクトルのつながり、つまり、開始時刻が早いシーンと開始時刻が遅いシーンとに従ったシーンの順序と、開始時刻の早いシーンの終了時刻が前記開始時刻の遅いシーンの終了時刻よりも遅い場合におけるシーンの包含関係とを示すシーン構造を解析するものである。
そして、この構造解析部5cは、解析したシーン構造が、入力番組を解析した結果であれば、入力番組シーン構造データとして、シーン構造データ照合手段7に出力し、番組蓄積手段3に蓄積されている蓄積番組であれば、蓄積番組シーン構造データとして、重要構造学習手段11に出力する。
なお、この構造解析部5cが解析したシーンベクトルは、各シーン中の映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトルの平均値、または、これらの特徴ベクトルを主成分分析して得られた主成分の値を含むものである。
ここで、構造解析部5cによるシーン構造の解析について、図4を参照して説明する。図4は、シーン構造の解析を模式的に示した図である。この図4に示すように、構造解析部5cでは、まず、シーンベクトルをクラスタリング(グループ化、分類)して、クラスタリングしたシーン同士のつながりを抽出する。ここでは、構造解析部5cによって、6個のシーン同士のつながりa、b、c、d、e、f(点線で囲まれている部分)が抽出されている。
この図4に示したシーン同士のつながりa、b、c、d、e、fに含まれる各シーンは、図3に示したシーン1からシーン11までに対応しており、シーン同士のつながりaには、シーン1とシーン2とが含まれている。また、シーン同士のつながりbには、シーン3とシーン4とシーン6とが含まれており、シーン同士のつながりcには、シーン2とシーン5とシーン7とが含まれている。さらに、シーン同士のつながりdには、シーン7とシーン9とシーン10とが含まれており、シーン同士のつながりfには、シーン10とシーン11とが含まれている。なお、シーン8はグループ化されていないが便宜上、シーン同士のつながりeとしている。
そして、構造解析部5cでは、これらシーンの依存関係(つまり、各シーンの因果関係)およびシーンのつながりa、b、c、d、e、fそれぞれの依存関係(因果関係)を求める。図4において、この依存関係は、各シーン同士を結ぶ矢印として示しており、矢印の元が因果関係でいう原因に該当し、矢印の先が因果関係でいう結果に該当している。この依存関係は、番組の中で表示された時刻の順序に従っている。さらに、この矢印には、クラスタおよびクラスタリング作成時に使用した特徴ベクトルの中の重みが記述されている。なお、この図4の記載の仕方は、図5〜図7も同様である。
なお、シーン9とシーン10とは依存関係があって、シーン8とシーン9とは依存関係がないのは、クラスタリングを行った結果、シーン9とシーン10とのクラスタリングおよびシーン8とシーン10とのクラスタリングは出来たが、シーン8とシーン9とのクラスタリングが出来なかった場合に生じたものである。すなわち、シーン同士の依存関係は、クラスタリング内のみで考えられることだからである。
図1に戻って、番組ダイジェスト作成装置1の構成の説明を続ける。
シーン構造データ照合手段7は、シーン構造解析手段5で解析された入力番組シーン構造データと、シーン構造データ蓄積手段13に蓄積されている蓄積番組シーン構造データ(ここでは、リファレンス構造データとも呼ぶ)の重要構造データとを照合し、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとするものである。
シーン構造データ照合手段7は、シーン構造解析手段5で解析された入力番組シーン構造データと、シーン構造データ蓄積手段13に蓄積されている蓄積番組シーン構造データ(ここでは、リファレンス構造データとも呼ぶ)の重要構造データとを照合し、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとするものである。
ここで、入力番組シーン構造データ(図4参照)と蓄積番組シーン構造データ(リファレンス構造データ:図5参照)の重要構造データとが一致したデータ(重要部分データ)とは、構造解析部5cで求められた依存関係の中で、リファレンス構造データに記述されたすべての依存関係(図5中の矢印)を内包する部分であり、且つ、リファレンス構造データに記述された依存関係を導き出した特徴ベクトルの重み(クラスタリング時に使用した重み)がすべて同一(若しくは類似)している部分である。なお、図5は、重要部分データの例を示した図である。
具体的には、図4に示したすべてのシーン同士のつながりに、図5に示した重要構造データを当てはめ、図5に示した各シーンと矢印とが一致する部分を見つけ、矢印に記述されている特徴ベクトルの重みが一致しているとき(特徴ベクトル間距離の総和が一定値以下のとき)に、構造が一致しているとして検出する。
または、入力番組シーン構造データと蓄積番組シーン構造データ(リファレンス構造データ)の重要構造データとが一致したデータとは、依存しているシーンが最も多いシーン(依存度最大シーンとする、図4を例にすると、シーン10)を中心にして、この依存度最大シーンにつながる第一所定数のシーンの中で、第二所定数のシーン同士が依存関係にあり、第三所定数のシーンが独立していると定義することができる。例えば、第一所定数は第二所定数と第三所定数との和と定義することができる。つまり、一致する部分とは、依存度最大シーン+この依存度最大シーンにつながると共に、依存関係にある第二所定数のシーン+この依存度最大シーンにつながると共に、独立している第三所定数のシーンとなる。
この場合、シーン構造データ照合手段7で照合された重要部分データは、この図5に示すように、シーン5とシーン7とが依存関係にあり、シーン6が独立しており、これらシーン5、シーン7およびシーン6が依存度最大シーンであるシーン10につながっている。この場合、第一所定数が3であり、第二所定数が1であり、第三所定数が1である。
また、例えば、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータとは、依存しているシーンが2番目に多いシーン(依存度第二大シーンとする、図4を例にすると、シーン4とシーン6)からつながるシーンの数が第四所定数であると定義することができる。つまり、一致する部分とは、依存度第二大シーン+この依存度第二大シーンからつながる第四所定数のシーンとなる。
図1に戻って、番組ダイジェスト作成装置1の構成の説明を続ける。
シーン連結手段9は、シーン構造データ照合手段7で照合した結果である重要部分データに関連するシーンを連結するもので、特定重要部分削除部(特定重要部分データ削除手段)9aと、時間調整部(時間調整手段)9bとを備えている。
シーン連結手段9は、シーン構造データ照合手段7で照合した結果である重要部分データに関連するシーンを連結するもので、特定重要部分削除部(特定重要部分データ削除手段)9aと、時間調整部(時間調整手段)9bとを備えている。
特定重要部分削除部9aは、重要部分を連結する際に、予め設定した特定のつながり方をする重要部分データ(特定重要部分データ)を除くものである。この特定重要部分データを除くことで、番組の制作者が意図する当該番組の予告編を作成することができる。つまり、番組の視聴者が最も見たがると想定されるシーン、例えば、出演者(主人公)が他の出演者(敵役)と競争した結果、その結末に関するシーンを除くように特定重要部分データを設定することで、視聴者の視聴意欲をかきたてる予告編を作成することができる。
なお、この特定重要部分データは、依存度最大シーンや依存度第二大シーンや、被依存度最大シーン(他のシーンから依存されている数が最も多いシーン)や被依存度第二大シーン(他のシーンから依存されている数が2番目に多いシーン)や、番組の開始時刻から所定時間経過したところにあるシーンを設定することが可能である。
時間調整部9bは、重要部分データに関するシーンを連結する際に、予め設定した所定時間に収まるように、連結するシーンの取捨選択を行って、番組のダイジェストまたは予告編の時間を調整するものである。所定時間は、例えば、番組の宣伝用として、CM等で使用する予告編を作成する場合、このCMに収まる時間、15秒、30秒等が想定される。
この時間調整部9bでは、重要部分データに関するシーンがシーンAとシーンBとシーンCとされた際に、シーンAの所要時間が8秒であり、シーンBの所要時間が12秒であり、シーンCの所要時間が6秒であり、番組のダイジェストが15秒であると設定されていたとすると、合計時間が15秒に収まるものが選択されることになる。つまり、シーンAとシーンCとを連結したものが番組のダイジェストとして出力されることになる。
ここで、図6、図7を参照して、シーン連結手段9で連結したシーン同士の概略について説明する。図6はシーン連結手段9によって番組のダイジェストを作成した場合のシーン同士のつながりの概略を示した図であり、図7はシーン連結手段9によって番組の予告編を作成した場合のシーン同士のつながりの概略を示した図である。
図6に示すように、番組のダイジェストは、シーン1からシーン2に連結され、シーン2からシーン4およびシーン5が連結され、シーン4からシーン6が連結され、シーン5からシーン7が連結され、そして、シーン5、シーン6およびシーン7が依存度最大シーンであるシーン10に連結され、このシーン10がエンディングとなるシーン11に連結されている。
図7に示すように、番組の予告編は、オープニングといえるシーン1と、シーン4からシーン6に連結された部分と、シーン5からシーン7に連結された部分と、エンディングといえるシーン11とから成っている。つまり、番組の予告編は、番組のダイジェストと比べて、特定重要部分であるシーン2(番組の開始時刻から所定時間経過したところにあるシーン)とシーン10(依存度最大シーン)とが、特定重要部分削除手段9aによって削除されている。
図1に戻って、番組ダイジェスト作成装置1の構成の説明を続ける。
重要構造学習手段11は、シーン構造解析手段5の構造解析部5cから出力された複数の蓄積番組シーン構造データを統計処理することで、連続するシーンの纏まり(つながり)について頻出度を求め、この頻出度に基づいて、シーン同士の経過時間に伴った関連性の中で重要なもの(重要構造データ)を学習するもので、解析結果統計処理部11aと、重要構造設定部11bとを備えている。
重要構造学習手段11は、シーン構造解析手段5の構造解析部5cから出力された複数の蓄積番組シーン構造データを統計処理することで、連続するシーンの纏まり(つながり)について頻出度を求め、この頻出度に基づいて、シーン同士の経過時間に伴った関連性の中で重要なもの(重要構造データ)を学習するもので、解析結果統計処理部11aと、重要構造設定部11bとを備えている。
解析結果統計処理部11aは、複数の蓄積番組シーン構造データについて、高頻出で観測されるものを得る、つまり、度数分布をとり、頻出度数が予め設定した閾値より高いものを計算するものである。なお、予め設定した閾値は、例えば、1つのジャンル(アクション映画(ドラマ)、恋愛映画(ドラマ)、ホラー映画(ドラマ)、サスペンス映画(ドラマ)等)について、蓄積番組の数が100個程度である場合には、例えば、50個としている。
重要構造設定部11bは、解析結果統計処理部11aで閾値を超えた頻出度が計算された連続するシーンの纏まり(シーン同士のつながり)を、番組の重要構造(重要構造データ)として設定するものである。例えば、1つのジャンルについて蓄積番組の数が100個程度であり、閾値を50個と設定した場合には、1つのジャンルについて、半数以上の番組について、同じようなシーン同士のつながりが観測された場合に、重要構造データと設定している。
シーン構造データ蓄積手段13は、一般的なハードディスク等の記録媒体によって構成されており、シーン構造解析手段5の構造解析部5cから出力された複数の蓄積番組シーン構造データを蓄積すると共に、重要構造学習手段11で学習された重要構造を蓄積している。なお、このシーン構造データ蓄積手段13には、重要構造のみを蓄積しておく形態でもよい。
〈番組ダイジェスト作成装置の動作〉
次に、図8に示すフローチャートを参照して、番組ダイジェスト作成装置1の動作を説明する(適宜、図1参照)。
まず、番組ダイジェスト作成装置1は、シーン構造解析手段5によって、番組蓄積手段3に蓄積されている蓄積番組のシーン構造を解析し(ステップS1)、重要構造学習手段11によって、重要構造(重要構造データ)を学習し、シーン構造データ蓄積手段13に蓄積する(ステップS2)。なお、このステップS1およびステップS2は、入力番組のダイジェストを作成する前の事前処理(準備段階)である。
次に、図8に示すフローチャートを参照して、番組ダイジェスト作成装置1の動作を説明する(適宜、図1参照)。
まず、番組ダイジェスト作成装置1は、シーン構造解析手段5によって、番組蓄積手段3に蓄積されている蓄積番組のシーン構造を解析し(ステップS1)、重要構造学習手段11によって、重要構造(重要構造データ)を学習し、シーン構造データ蓄積手段13に蓄積する(ステップS2)。なお、このステップS1およびステップS2は、入力番組のダイジェストを作成する前の事前処理(準備段階)である。
そして、番組ダイジェスト作成装置1は、シーン構造解析手段5によって、入力された入力番組のシーン構造を解析し(ステップS3)、シーン構造データ照合手段7によって、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとを照合する(ステップS4)。
そして、番組ダイジェスト作成装置1は、シーン連結手段9によって、入力番組シーン構造データと重要構造データとが一致したデータである重要部分データに関連するシーンを連結し、ダイジェストとして出力する(ステップS5)。なお、シーン連結手段9の特定重要部分削除部9aを機能させて、ダイジェストから特定重要部分データに関するシーンを削除した予告編も出力することができる。
このフローチャートでは省略しているが、シーン構造解析手段5では、特徴量算出部5aによって、入力番組または蓄積番組の特徴量が算出されており、シーン切り出し部5bによって、入力番組または蓄積番組から各シーンが切り出され、構造解析部5cによって、シーン同士のつながりが解析されている。また、重要構造学習手段11では、解析結果統計処理部11aによって、複数の蓄積番組シーン構造データについて統計処理がなされ、重要構造設定部11bによって、重要構造データが設定されている。
この番組ダイジェスト作成装置1によれば、シーン構造解析手段5によって、入力番組のシーン同士のつながりを解析した入力番組シーン構造データと、予め、シーン構造解析手段5によって、蓄積番組に含まれているデータの特徴が予め設定した条件に基づいて共通しているシーンとする。続いて、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データから抽出した、連続するシーンの纏まりの頻出度が予め設定した閾値より重要構造データとを、シーン構造データ照合手段7によって照合する。そして、照合した結果、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとし、この重要部分データに関連するシーンを、シーン連結手段9によって連結する。このため、不要な部分が含まれることなく、重要部分(重要なシーン)が欠落することのない番組のダイジェストを作成することができる。
また、番組ダイジェスト作成装置1によれば、番組蓄積手段3に蓄積している蓄積番組について、シーン構造解析手段5によってシーン同士の経過時間に伴った関連性を解析して、重要構造学習手段11によって重要構造データを学習することができ、学習した結果が反映されるので、手間をかけることなく、高品質のダイジェストを作成することができる。
或いは、番組ダイジェスト作成装置1によれば、シーン構造解析手段5の特徴量算出部5aによって特徴量を算出し、シーン切り出し部5bによって特徴量に基づいて各シーンを切り出して、構造解析部5cによってシーン構造を解析しているので、普遍的、客観的な基準によって、番組のダイジェストを作成することができる。
さらに、番組ダイジェスト作成装置1によれば、シーン構造解析手段5のシーン切り出し部5bによって、特徴ベクトル、各要素の値を変更する複数の重み付けパターンを備えることで、シーンを切り出す際に、重み付けパターンを変えることで、様々な要素を重視した(様々な着目点による)シーンの切り出しが可能になり、様々なダイジェストを作成することができる。
さらにまた、番組ダイジェスト作成装置1によれば、シーン構造解析手段5の特徴量算出部5aによって、心理情報を予め規定したポイントに換算して設定した設定値を、特徴量に含めることで、番組の制作者の意図や番組の視聴者の嗜好を反映させたダイジェストを作成することができる。
そしてまた、番組ダイジェスト作成装置1によれば、シーン連結手段9の特定重要部分削除部9aによって、番組の内容全体を把握することができるダイジェストから予め特定したつながり方をする重要部分データを除くことで、番組の制作者の意向に沿った番組の予告編を作成することができる。
或いはまた、番組ダイジェスト作成装置1によれば、シーン連結手段9の時間調整部9bによって、予め設定した所定時間に収まるダイジェストや予告編を作成することができる。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、番組ダイジェスト作成装置1として説明したが、当該装置1の各構成の処理を実現するように、汎用的または特殊なコンピュータ言語で記述した番組ダイジェスト作成プログラムとして構成することも可能である。この場合、番組ダイジェスト作成装置1と同様の効果を得ることができる。
1 番組ダイジェスト作成装置
3 番組蓄積手段
5 シーン構造解析手段
5a 特徴量算出部(特徴量算出手段)
5b シーン切り出し部(シーン切り出し手段)
5c 構造解析部(構造解析手段)
7 シーン構造データ照合手段
9 シーン連結手段
9a 特定重要部分削除部(特定重要部分データ削除手段)
9b 時間調整部(時間調整手段)
11 重要構造学習手段
11a 解析結果統計処理部
11b 重要構造設定部
13 シーン構造データ蓄積手段
3 番組蓄積手段
5 シーン構造解析手段
5a 特徴量算出部(特徴量算出手段)
5b シーン切り出し部(シーン切り出し手段)
5c 構造解析部(構造解析手段)
7 シーン構造データ照合手段
9 シーン連結手段
9a 特定重要部分削除部(特定重要部分データ削除手段)
9b 時間調整部(時間調整手段)
11 重要構造学習手段
11a 解析結果統計処理部
11b 重要構造設定部
13 シーン構造データ蓄積手段
Claims (7)
- 蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成する番組ダイジェスト作成装置であって、
前記重要構造データを蓄積するシーン構造データ蓄積手段と、
前記入力した番組に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析して、入力番組シーン構造データとするシーン構造解析手段と、
このシーン構造解析手段で解析した入力番組シーン構造データと、シーン構造データ蓄積手段に蓄積されている蓄積番組シーン構造データの重要構造データとを照合し、前記入力番組シーン構造データと前記蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとするシーン構造データ照合手段と、
このシーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結するシーン連結手段と、
を備えることを特徴とする番組ダイジェスト作成装置。 - 番組について、前記シーン構造解析手段が、前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析し、この解析結果を統計処理することで、連続する前記シーンの纏まりの頻出度を求め、この頻出度に基づいて、前記重要構造データを学習する重要構造学習手段と、
を備えることを特徴とする請求項1に記載の番組ダイジェスト作成装置。 - 前記シーン構造解析手段は、
前記番組に含まれている映像および音声に関するメタデータと、予め付加した任意の数値である設定値とに基づいて、当該番組の各時刻における特徴量を算出する特徴量算出手段と、
この特徴量算出手段で算出した特徴量に基づいて、前記番組から各シーンを切り出すシーン切り出し手段と、
このシーン切り出し手段によって切り出された各シーンの開始時刻と終了時刻とに基づいて、前記番組の時系列に沿って、前記開始時刻が早いシーンと前記開始時刻が遅いシーンとに従ったシーンの順序と、前記開始時刻の早いシーンの前記終了時刻が前記開始時刻の遅いシーンの前記終了時刻よりも遅い場合における前記シーンの包含関係とを示すシーン構造を解析する構造解析手段と、
を備えていることを特徴とする請求項1または請求項2に記載の番組ダイジェスト作成装置。 - 前記特徴量算出手段は、前記特徴量を、前記番組の各時刻における複数の要素から成る特徴ベクトルとして表し、
前記シーン切り出し手段は、前記特徴ベクトルの各要素の値を変更する複数の重み付けパターンを記憶する重み付けパターン記憶手段を備えることを特徴とする請求項3に記載の番組ダイジェスト作成装置。 - 前記設定値は、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め規定したポイントに換算して設定したことを特徴とする請求項3に記載の番組ダイジェスト作成装置。
- 前記シーン連結手段は、前記重要部分データに関連するシーンを連結する際に、予め設定した重要部分データを除く特定重要部分データ削除手段を備えることを特徴する請求項1から請求項5までのいずれか一項に記載の番組ダイジェスト作成装置。
- 蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成するために、コンピュータを、
前記入力した番組に含まれているデータの特徴が共通している纏まりをシーンとし、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した入力番組シーン構造データとするシーン構造解析手段、
このシーン構造解析手段で解析した入力番組シーン構造データと、前記重要構造データとが一致したデータを重要部分データとするシーン構造データ照合手段、
このシーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結するシーン連結手段、
として機能させることを特徴とする番組ダイジェスト作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101003A JP2006287319A (ja) | 2005-03-31 | 2005-03-31 | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101003A JP2006287319A (ja) | 2005-03-31 | 2005-03-31 | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006287319A true JP2006287319A (ja) | 2006-10-19 |
Family
ID=37408793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005101003A Pending JP2006287319A (ja) | 2005-03-31 | 2005-03-31 | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006287319A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008136466A1 (ja) * | 2007-05-01 | 2008-11-13 | Dep Co., Ltd. | 動画編集装置 |
JPWO2007039994A1 (ja) * | 2005-09-30 | 2009-04-16 | パイオニア株式会社 | ダイジェスト作成装置およびそのプログラム |
JP2011124681A (ja) * | 2009-12-09 | 2011-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 映像編集装置,映像編集方法および映像編集プログラム |
JP2011523821A (ja) * | 2008-06-02 | 2011-08-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 視聴覚システムを視聴者の注目度に合わせる装置及び方法 |
JP2012227645A (ja) * | 2011-04-18 | 2012-11-15 | Nikon Corp | 画像処理プログラム、画像処理方法、画像処理装置、撮像装置 |
WO2014103374A1 (ja) * | 2012-12-28 | 2014-07-03 | 株式会社東芝 | 情報管理装置、サーバ及び制御方法 |
JP2018530847A (ja) * | 2015-08-21 | 2018-10-18 | ヴィリンクス, インク.Vilynx, Inc. | 広告配信のための動画使用情報処理 |
JP2019201310A (ja) * | 2018-05-16 | 2019-11-21 | Tateito株式会社 | 映像編集装置 |
WO2021019645A1 (ja) * | 2019-07-29 | 2021-02-04 | 日本電気株式会社 | 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体 |
WO2021240652A1 (ja) * | 2020-05-26 | 2021-12-02 | 日本電気株式会社 | 情報処理装置、制御方法及び記憶媒体 |
WO2022259530A1 (ja) * | 2021-06-11 | 2022-12-15 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、記録媒体 |
WO2022264365A1 (ja) * | 2021-06-17 | 2022-12-22 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、記録媒体 |
US11842741B2 (en) | 2018-03-15 | 2023-12-12 | Nec Corporation | Signal processing system, signal processing device, signal processing method, and recording medium |
CN117407051A (zh) * | 2023-12-12 | 2024-01-16 | 武汉大学 | 一种基于结构位置感知的代码自动摘要方法 |
-
2005
- 2005-03-31 JP JP2005101003A patent/JP2006287319A/ja active Pending
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2007039994A1 (ja) * | 2005-09-30 | 2009-04-16 | パイオニア株式会社 | ダイジェスト作成装置およびそのプログラム |
JP4757876B2 (ja) * | 2005-09-30 | 2011-08-24 | パイオニア株式会社 | ダイジェスト作成装置およびそのプログラム |
WO2008136466A1 (ja) * | 2007-05-01 | 2008-11-13 | Dep Co., Ltd. | 動画編集装置 |
JP2011523821A (ja) * | 2008-06-02 | 2011-08-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 視聴覚システムを視聴者の注目度に合わせる装置及び方法 |
US9032472B2 (en) | 2008-06-02 | 2015-05-12 | Koninklijke Philips N.V. | Apparatus and method for adjusting the cognitive complexity of an audiovisual content to a viewer attention level |
US9749550B2 (en) | 2008-06-02 | 2017-08-29 | Koninklijke Philips N.V. | Apparatus and method for tuning an audiovisual system to viewer attention level |
JP2011124681A (ja) * | 2009-12-09 | 2011-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 映像編集装置,映像編集方法および映像編集プログラム |
JP2012227645A (ja) * | 2011-04-18 | 2012-11-15 | Nikon Corp | 画像処理プログラム、画像処理方法、画像処理装置、撮像装置 |
WO2014103374A1 (ja) * | 2012-12-28 | 2014-07-03 | 株式会社東芝 | 情報管理装置、サーバ及び制御方法 |
JP2018530847A (ja) * | 2015-08-21 | 2018-10-18 | ヴィリンクス, インク.Vilynx, Inc. | 広告配信のための動画使用情報処理 |
US11842741B2 (en) | 2018-03-15 | 2023-12-12 | Nec Corporation | Signal processing system, signal processing device, signal processing method, and recording medium |
JP2019201310A (ja) * | 2018-05-16 | 2019-11-21 | Tateito株式会社 | 映像編集装置 |
JPWO2021019645A1 (ja) * | 2019-07-29 | 2021-02-04 | ||
JP7268739B2 (ja) | 2019-07-29 | 2023-05-08 | 日本電気株式会社 | 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム |
WO2021019645A1 (ja) * | 2019-07-29 | 2021-02-04 | 日本電気株式会社 | 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体 |
WO2021240652A1 (ja) * | 2020-05-26 | 2021-12-02 | 日本電気株式会社 | 情報処理装置、制御方法及び記憶媒体 |
JP7420243B2 (ja) | 2020-05-26 | 2024-01-23 | 日本電気株式会社 | 情報処理装置、制御方法及びプログラム |
WO2022259530A1 (ja) * | 2021-06-11 | 2022-12-15 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、記録媒体 |
WO2022264365A1 (ja) * | 2021-06-17 | 2022-12-22 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、記録媒体 |
CN117407051A (zh) * | 2023-12-12 | 2024-01-16 | 武汉大学 | 一种基于结构位置感知的代码自动摘要方法 |
CN117407051B (zh) * | 2023-12-12 | 2024-03-08 | 武汉大学 | 一种基于结构位置感知的代码自动摘要方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006287319A (ja) | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム | |
US10733230B2 (en) | Automatic creation of metadata for video contents by in cooperating video and script data | |
CA2924065C (en) | Content based video content segmentation | |
KR102112973B1 (ko) | 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체 | |
JP5010292B2 (ja) | 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法 | |
US8750681B2 (en) | Electronic apparatus, content recommendation method, and program therefor | |
WO2012020668A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP2005514841A (ja) | マルチメディア・コンテンツをリンクするよう複数モードのストーリーをセグメントする方法及び装置 | |
KR20080114786A (ko) | 다수의 이미지들 요약의 자동 생성 방법 및 장치 | |
CN113841418A (zh) | 动态视频精彩场面 | |
JP2006155384A (ja) | 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2010161722A (ja) | データ処理装置、データ処理方法、及び、プログラム | |
WO2010071112A1 (ja) | トピック遷移解析システム、トピック遷移解析方法およびプログラム | |
Bost | A storytelling machine?: automatic video summarization: the case of TV series | |
JPWO2008136466A1 (ja) | 動画編集装置 | |
JP4732418B2 (ja) | メタデータ処理方法 | |
WO2014103374A1 (ja) | 情報管理装置、サーバ及び制御方法 | |
US20160127807A1 (en) | Dynamically determined audiovisual content guidebook | |
Bost | A storytelling machine? | |
JP2005167456A (ja) | Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置 | |
JP4652389B2 (ja) | メタデータ処理方法 | |
JP4731522B2 (ja) | 特徴量生成装置、要約映像検出装置、及びプログラム | |
US20230216909A1 (en) | Systems, method, and media for removing objectionable and/or inappropriate content from media | |
JP5254900B2 (ja) | 映像再構成方法、映像再構成装置および映像再構成プログラム | |
Rehatschek et al. | Cross media aspects in the areas of media monitoring and content production |