JP2006287319A

JP2006287319A - 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム

Info

Publication number: JP2006287319A
Application number: JP2005101003A
Authority: JP
Inventors: Shoe Sato; 庄衛佐藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19

Abstract

【課題】不要な部分を少なくし、重要なシーンが欠落することなく、番組の制作者の意図や番組の視聴者の嗜好を反映させ、手間をかけることなく番組のダイジェストを作成することができる番組ダイジェスト作成装置および番組ダイジェスト作成プログラムを提供する。
【解決手段】番組ダイジェスト作成装置１は、入力した番組のダイジェストを作成したり、予告編を作成したりするものであって、シーン構造データ蓄積手段１３と、シーン構造解析手段５と、シーン構造データ照合手段７と、シーン連結手段９と、を備えた。
【選択図】図１

Description

本発明は、番組からダイジェストを自動的に作成する番組ダイジェスト作成装置および番組ダイジェスト作成プログラムに関する。

従来、映画、テレビドラマ、ドキュメンタリー等の番組（動画像）から、当該番組の重要部分（みどころ）等を盛り込んだダイジェストを自動的に作成する番組ダイジェスト自動作成方法は、番組の内容や番組の構造（各シーンのつながり方）を考慮せずに、番組に含まれている映像の類似度等を基準にしてダイジェストを作成しているものが多く見られる（例えば、特許文献１参照）。

特許文献１で開示されている「ビデオ画像の分割、分類、および要約のための方法およびシステム」では、映像を分割し、クラスタリングする方法が記載されている。
また、番組の制作者が意図する重要なシーンをダイジェストに含めるようにした（重要度を考慮した）番組ダイジェスト自動作成方法として、例えば、特許文献２が開示されている。この特許文献２で開示されている「動画像の優先度自動選択方法および動画像ダイジェスト自動表示装置」では、被写体等をカメラマン等が撮影する際のカメラ操作から、撮影した映像に含まれているシーンの重要度を求める方法が記載されている。

さらに、番組の視聴者にとって、番組のすべてを視聴するか否かを判断する際の判断材料と成り得る重要なシーンをダイジェストに含めるようにした（視聴者の嗜好を反映された）番組ダイジェスト自動作成方法として、例えば、特許文献３が開示されている。この特許文献３で開示されている「映像の要約方法及び装置」では、視聴者が番組を視聴した視聴履歴に基づいて、当該番組（映像）から抽出した数値データから重要度を算出し、算出された重要度に基づいてダイジェストを作成するように強化学習し、更新する方法が記載されている。

さらにまた、番組の構造に着目した番組ダイジェスト自動作成方法として、例えば、非特許文献１が開示されている。この非特許文献１で開示されている方法では、番組に含まれている映像や音声の編集情報（例えば、映像であれば、カット、ワイプ等）から番組の構造を推定し、この編集情報に、番組の制作者の意図（重要度）が反映されているとして、ダイジェストを作成することが記載されている。

同様に、番組の構造に着目した番組ダイジェスト自動作成方法として、例えば、特許文献４、特許文献５および特許文献６が開示されている。これら特許文献４、特許文献５および特許文献６で開示されている方法では、番組に付加されている（付随している）文字情報およびメタデータを利用して、番組の構造を推定し、これら文字情報およびメタデータからダイジェストを作成することが記載されている。
特許第３５６８１１７号公報特許第３２３０８５８号公報特許第３３２３８４２号公報特許第３５９２１９４号公報特許第３５６６８９６号公報特許第３１７６８９３号公報Ｔ．ＭｏｒｉｙａｍａａｎｄＭ．Ｓａｋａｕｃｈｉ，"Ｖｉｄｅｏｓｕｍｍａｒｉｚａｔｉｏｎｂａｓｅｄｏｎｔｈｅｐｓｙｃｈｏｌｏｇｉｃａｌｃｏｎｔｅｎｔｉｎｔｈｅｔｒａｃｋｓｔｒｕｃｔｕｒｅ"，Ｐｒｏｃ．ｏｆＡＣＭＭｕｌｔｉｍｅｄｉａ２０００ｗｏｒｋｓｈｏｐｓ，ｐｐ．１９１−ｐｐ．１９４

しかしながら、特許文献１で開示されている方法では、番組の内容、例えば、重要なシーンやクライマックス等の番組が盛り上がる部分がダイジェストに反映されなかったり、逆に、単調な会話が繰り返される等の番組が盛り上がらない部分等がダイジェストに反映されたりする。つまり、この方法で作成されたダイジェストには、番組の制作者が必ず視聴して欲しいと考えている（制作者が意図する）重要なシーンや、番組の視聴者にとって、番組のすべてを視聴するか否かを判断する際の判断材料と成り得る重要なシーンを含んでいるとは限らないということが生じる。

すなわち、この方法では、番組に含まれている重要なシーンを示す重要度が考慮されずに、映像の分割、クラスタリングが行われている。要約すると、作成されたダイジェストに不要な部分（カット）が多かったり、重要なシーンが欠落してしまうという問題がある。

また、特許文献２で開示されている方法で求められる重要度は、撮影時のカメラマンの意図だけが反映されたもので、番組を構成したり、編集したりする際の編集者の意図が反映されていない。

さらに、特許文献３で開示されている方法で求められた重要度は、番組の構成や内容に起因せずに決定してしまうため、視聴者個人の嗜好に合致したダイジェストを作成するには適しているが、汎用的な（多数の視聴者の嗜好に合う）ダイジェストを作成しようとした場合には、何らかの補助情報（セマンティックデータ等）が必要になる。

つまり、従来の番組ダイジェスト自動作成方法において、番組に含まれている映像を撮影するカメラマンの意図を反映させたもの（特許文献２）や、視聴者の嗜好のみを反映させたもの（特許文献３）では、作成されたダイジェストに、番組の制作者（編集者等）の意図や、番組の視聴者の一般的な嗜好が反映されていないという問題がある。

さらにまた、非特許文献１で開示されている方法では、番組の中で重要部分を検出する際に、「ＢＧＭの直前に重要部分がある」「カット切替の頻度の高い部分が重要部分である」といった規則を予め決定する必要があり、場合によっては、小数の番組の制作者にのみ通用する偏った規則が適用されてしまうことが生じる。

そしてまた、特許文献４、特許文献５および特許文献６で開示されている方法では、番組の中で重要部分を検出する際に用いる規則を、ある程度、予め決定する必要があり、規則決定が簡単に行えるスポーツ番組に用途が限定されている。

つまり、従来の番組ダイジェスト自動作成方法において、番組の中で重要部分を検出する際に、規則を設定するもの（非特許文献１、特許文献４〜特許文献６）では、番組に応じて規則を設定するのには手間がかかるという問題がある。そして、番組の制作者や番組の視聴者の心理情報を反映させたダイジェストの作成が望まれている。

そこで、本発明では、前記した問題を解決し、不要な部分を少なくし、重要なシーンが欠落することなく、番組の制作者の意図や番組の視聴者の嗜好を反映させ、手間をかけることなく番組のダイジェストを作成することができる番組ダイジェスト作成装置および番組ダイジェスト作成プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の番組ダイジェスト作成装置は、蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成する番組ダイジェスト作成装置であって、シーン構造データ蓄積手段と、シーン構造解析手段と、シーン構造データ照合手段と、シーン連結手段と、を備える構成とした。

かかる構成によれば、番組ダイジェスト作成装置は、シーン構造データ蓄積手段に重要構造データを蓄積している。なお、蓄積番組シーン構造データは、番組をシーン構造解析手段によって、予め解析したものである。また、ここでいう番組とは、映画、テレビドラマ、ドキュメンタリー等を含むものとしており、主に動画像と音声とを含むものとしている。

まず、番組ダイジェスト作成装置は、シーン構造解析手段によって、入力した番組（入力番組）に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析して、入力番組シーン構造データとする。ここで、シーンとは、動画像である番組の映像や音声から、予め設定した条件、例えば、各時刻ごとの特徴量を求め、この特徴量に基づいて、番組を分割したものである。シーンそれぞれに共通している特徴をクラスタリングした結果とは、シーン同士のつながり方、つまり、シーン同士の依存関係（因果関係）を指しており、例えば、テレビドラマの場合、複数の登場人物の出会いに関するシーンＡと、それぞれの登場人物がどのような生い立ちを負っているのかを説明するシーンＢとがあるとすると、これらシーンＡとシーンＢとがどういった順番で、番組のどの時点で表れるのかといったことを指している。

なお、番組によっては、シーンＡからシーンＢにつながるものも想定できるし、シーンＢからシーンＡにつながるものも想定できる。そして、例えば、シーンＡからシーンＢにつながる場合に、番組に含まれているシーンＡの映像・音声とシーンＢの映像・音声とがどのように変化するのかについて調べていくことが、番組の構造を調べていくことになる。番組の構造として、例えば、どのような番組でも普遍的に表れる構造や、テレビドラマ（例えば、恋愛ドラマ）に特有に表れる構造、スポーツ番組に特有に表れる構造が挙げられる。

そして、番組ダイジェスト作成装置は、シーン構造データ照合手段によって、シーン構造解析手段で解析した入力番組シーン構造データと、シーン構造データ蓄積手段に蓄積されている蓄積番組シーン構造データの重要構造データとを照合し、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとする。このシーン構造データ照合手段では、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとの一致している部分が検索され、重要部分データとされる。

そして、番組ダイジェスト作成装置は、シーン連結手段によって、シーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結する。なお、シーン連結手段では、シーンを連結する際に、番組の進行に沿うように連結することも可能であるし、ランダムに連結することも可能である。

請求項２に記載の番組ダイジェスト作成装置は、請求項１に記載の番組ダイジェスト作成装置において、番組について、前記シーン構造解析手段が、前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析し、この解析結果を統計処理することで、連続する前記シーンの纏まりの頻出度を求め、この頻出度に基づいて、前記重要構造データを学習する重要構造学習手段と、を備えることを特徴とする。

かかる構成によれば、番組ダイジェスト作成装置は、ダイジェストを作成する番組以外の番組、例えば、以前に放送された番組を、シーン構造解析手段によって、当該番組に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析する。そして、番組ダイジェスト作成装置は、重要構造学習手段によって、解析結果を統計処理し、シーンの纏まりの頻出度を求め、シーンの纏まりの中で、頻繁に出現する纏まり（番組の構造）を、重要構造データとして学習する（記憶する）。つまり、この番組ダイジェスト作成装置では、番組の構造を学習する学習機能が備えられている。

請求項３に記載の番組ダイジェスト作成装置は、請求項１または請求項２に記載の番組ダイジェスト作成装置において、前記シーン構造解析手段が、特徴量算出手段と、シーン切り出し手段と、構造解析手段と、を備えていることを特徴とする。

かかる構成によれば、番組ダイジェスト作成装置は、特徴量算出手段によって、番組に含まれている映像および音声に関するメタデータと、予め付加した任意の数値である設定値とに基づいて、当該番組の各時刻における特徴量を算出する。メタデータは、映像中にどのような出演者や背景が映っているかということや、音声にどのような効果音やＢＧＭが使用されているかといったことが記述されているものである。設定値は、予め番組の制作者や番組の視聴者が番組の経過時刻に対応して付加した数値であり、番組の中で、例えば、感動するシーンに対して、“感動ポイント５”といったように設定したものである。設定値の例として、理解重要度（番組の制作者が番組の視聴者に理解して欲しい重要な度合い）、感動度、衝撃度等が挙げられ、例えば、それぞれの度合いを１から１０までの１０段階で設定する。特徴量は、番組の各時刻（番組の経過時刻ごと）における当該番組に含まれている映像や音声について、被写体の動き（出演者の動作）や、カットやワイプ等に編集情報、出演者の台詞、効果音、ＢＧＭ等、様々な要素を盛り込んで、設定値と共に表現されるものである。

そして、番組ダイジェスト作成装置は、シーン切り出し手段によって、特徴量算出手段で算出した特徴量に基づいて、番組から各シーンを切り出す。このシーン切り出し手段では、いろいろな切り出し方が可能であり、例えば、特徴量に含まれている被写体の有無に応じて、各シーンを切り出すことができる。この場合、シーン切り出し手段は、被写体（出演者）Ａが含まれているシーン、被写体Ｂが含まれているシーンといったように、各シーンを切り出していく。なお、被写体Ａと被写体Ｂとが同時に映っている映像がある場合、シーン切り出し手段で切り出されるシーンは重複していることになる。

そして、番組ダイジェスト作成装置は、構造解析手段によって、シーン切り出し手段で切り出された各シーンの開始時刻と終了時刻とに基づいて、番組の時系列に沿って、開始時刻が早いシーンと開始時刻が遅いシーンとに従ったシーンの順序と、開始時刻の早いシーンの終了時刻が開始時刻の遅いシーンの終了時刻よりも遅い場合におけるシーンの包含関係とを示すシーン構造を解析する。シーン構造は、各シーンのつながり方を小数のシーンからなるグループに分類し、これらのグループ同士がどのように連携しているのかをシーンベクトルとして表現したものである。

請求項４に記載の番組ダイジェスト作成装置は、請求項３に記載の番組ダイジェスト作成装置において、前記特徴量算出手段が、前記特徴量を、前記番組の各時刻における複数の要素から成る特徴ベクトルとして表し、前記シーン切り出し手段が、前記特徴ベクトルの各要素の値を変更する複数の重み付けパターンを備えることを特徴とする。

かかる構成によれば、番組ダイジェスト作成装置は、特徴量を、番組の各時刻における複数の要素から成る特徴ベクトルとして表し、各要素の値を変更する複数の重み付けパターンを備えるので、シーンを切り出す際に、重み付けパターンを変えることで、様々な要素を重視した（様々な着目点による）シーンの切り出しが可能になる。

請求項５に記載の番組ダイジェスト作成装置は、請求項３に記載の番組ダイジェスト作成装置において、前記設定値が、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め規定したポイントに換算して設定したことを特徴とする。

かかる構成によれば、番組ダイジェスト作成装置は、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め規定したポイントに換算した設定値にすることで、特徴量を算出する際に、ポイント化（数値化）された心理情報が反映されることになる。

請求項６に記載の番組ダイジェスト作成装置は、請求項１から請求項５までのいずれか一項に記載の番組ダイジェスト作成装置において、前記シーン連結手段が、前記重要部分データに関連するシーンを連結する際に、予め設定した特定のつながり方をする重要部分データを除く特定重要部分データ削除手段を備えることを特徴する。

かかる構成によれば、番組ダイジェスト作成装置は、特定重要部分データ削除手段によって、予め設定した特定のつながり方をする重要部分データを除くことができ、番組のダイジェストだけではなく、番組の制作者の意向を反映させて、特定のつながり方をする重要部分データ、例えば、番組がサスペンス等のテレビドラマであれば、エンディング直前で、謎が解明されるシーンのみを削除した予告編を作成することができる。

請求項７に記載の番組ダイジェスト作成プログラムは、蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成するために、コンピュータを、シーン構造解析手段、シーン構造データ照合手段、シーン連結手段、として機能させる構成とした。

かかる構成によれば、番組ダイジェスト作成プログラムは、シーン構造解析手段によって、入力した番組に含まれているデータの特徴が共通している纏まりをシーンとし、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した入力番組シーン構造データとし、シーン構造データ照合手段によって、シーン構造解析手段で解析した入力番組シーン構造データと、重要構造データとが一致したデータを重要部分データとする。そして、番組ダイジェスト作成プログラムは、シーン連結手段によって、シーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結する。

請求項１または請求項７に記載の発明によれば、入力番組シーン構造データと、蓄積番組シーン構造データの重要構造データとを照合して、照合した結果、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致する部分を重要部分データとし、この重要部分データに関連するシーンを連結する。このため、不要な部分が含まれることなく、重要部分（重要なシーン）が欠落することのない番組のダイジェストを作成することができる。

請求項２に記載の発明によれば、番組に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析し、重要構造データを学習することができ、この学習した結果がダイジェスト作成に反映されるので、手間をかけることなく、高品質のダイジェストを作成することができる。

請求項３に記載の発明によれば、特徴量を算出し、この特徴量に基づいて各シーンを切り出して、シーン構造を解析しているので、普遍的、客観的な基準によって、番組のダイジェストを作成することができる。

請求項４に記載の発明によれば、特徴ベクトル、各要素の値を変更する複数の重み付けパターンを備えるので、シーンを切り出す際に、重み付けパターンを変えることで、様々な要素を重視した（様々な着目点による）シーンの切り出しが可能になり、様々なダイジェストを作成することができる。

請求項５に記載の発明によれば、心理情報を予め規定したポイントに換算して設定した設定値を、特徴量に含めることで、番組の制作者の意図や番組の視聴者の嗜好を反映させたダイジェストを作成することができる。

請求項６に記載の発明によれば、番組の内容全体を把握することができるダイジェストから予め特定したつながり方をする重要部分データを除くことで、番組の制作者の意向に沿った番組の予告編を作成することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈番組ダイジェスト作成装置の構成〉
図１は番組ダイジェスト作成装置のブロック図である。この図１に示すように、番組ダイジェスト作成装置１は、入力された番組（入力番組）のダイジェストや予告編を作成するもので、番組蓄積手段３と、シーン構造解析手段５と、シーン構造データ照合手段７と、シーン連結手段９と、重要構造学習手段１１と、シーン構造データ蓄積手段１３とを備えている。なお、ここでいう番組は、映画、テレビドラマ、ドキュメンタリー等を含むものとしており、主に動画像と音声とを含むものとしている。つまり、この番組ダイジェスト作成装置１で作成されるものは、映画のダイジェストや予告編、テレビドラマのダイジェストや予告編といったようになる。

番組蓄積手段３は、一般的なハードディスク等の記録媒体によって構成されており、予め放送（配信）された番組を蓄積するものである。この番組蓄積手段３には、各ジャンルごとに、所定数以上の番組が蓄積されている。例えば、映画やテレビドラマの場合、アクション映画（アクションドラマ）、恋愛映画（恋愛ドラマ）、ホラー映画（ホラードラマ）、サスペンス映画（サスペンスドラマ）等にジャンル分けされており、この実施形態では、１つのジャンルについて統計量を得るのに十分な数の番組が蓄積されている。

シーン構造解析手段５は、入力番組と番組蓄積手段３に蓄積されている番組（蓄積番組）とに含まれているデータ（映像データ、音声データ、テキストデータ等）の特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した入力番組シーン構造データと蓄積番組シーン構造データとを出力するもので、特徴量算出部（特徴量算出手段）５ａと、シーン切り出し部（シーン切り出し手段）５ｂと、構造解析部（構造解析手段）５ｃとを備えている。

予め設定した条件とは、番組の映像であれば、例えば、カット等の編集情報や、同一の被写体が含まれているといったものであり、番組の音声であれば、例えば、話者、ＢＧＭ、効果音や、同一のセリフが含まれているといったものでえある。この予め設定した条件とは、具体的には、特徴量算出部５ａで扱われる特徴ベクトルの要素に該当している。

なお、この実施形態では、シーン構造解析手段５に入力番組と蓄積番組とが別々のデータライン（データバス）を介して入力され、入力番組シーン構造データと蓄積番組シーン構造データとが別々のデータライン（データバス）に出力されるような構成をしているが、これら入力および出力する部分に切替スイッチを設け、１つのデータラインを流れる情報（入力番組または蓄積番組）を制御することで、入力番組のシーン構造を解析してダイジェストを作成するダイジェスト作成時と、蓄積番組のシーン構造を解析して、シーン構造データ蓄積手段１３に蓄積する蓄積番組シーン構造データを更新していく学習時とを切り替えることができる。

特徴量算出部５ａは、入力番組または蓄積番組に予め付加されている映像や音声に関するメタデータに基づいて、入力番組または蓄積番組の開始から終了までの各時刻における特徴量を、特徴ベクトルとして算出するものである。この特徴量は、メタデータによって記述されている、番組に含まれている映像（動画像データ）や音声（音声データ）がどのようなものかということと、これらが制作された際の編集情報と、予め番組の制作者と番組の視聴者との少なくとも一方によって設定された設定値とに基づいて算出されたものである。

なお、設定値は、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め設定したポイント（任意の数）に換算して設定したものである。例えば、楽しい、悲しい、面白い等の心理情報と、当該ポイントとを関連付けた換算テーブルを予め用意しておいて、設定値を決定する。ここで、図２を参照して、特徴量について、より具体的に説明する。

図２は、横軸に時間軸をとって、番組の開始時刻から終了時刻までを示して、特徴量の概略を説明した図である。図２に示すように、特徴量は、映像（ａ）、音声（ｂ）および心理情報（ｃ）の３つに分類される。これら映像（ａ）、音声（ｂ）および心理情報（ｃ）の特徴量は、各時刻における特徴ベクトルを結合したものである。つまり、映像（ａ）の特徴量は、映像特徴ベクトルｖ_e1、映像特徴ベクトルｖ_e2、映像特徴ベクトルｖ_e3、・・・、映像特徴ベクトルｖ_enからなる。また、音声（ｂ）の特徴量は、音声特徴ベクトルｖ_o1、音声特徴ベクトルｖ_o2、音声特徴ベクトルｖ_o3、・・・、音声特徴ベクトルｖ_omからなる。さらに、心理情報（ｃ）の特徴量は、心理情報特徴ベクトルｖ_s1、心理情報特徴ベクトルｖ_s2、心理情報特徴ベクトルｖ_s3、・・・、心理情報特徴ベクトルｖ_slからなる。

映像（ａ）の特徴量を構成している映像特徴ベクトルは、どのような出演者やキーオブジェクトが含まれているか否かによって異なるように設定することや、出演者の動作やキーオブジェクトの動きの違いによって異なるように設定することや、カットやワイプやドリー等の編集情報によって異なるように設定することが可能である。つまり、映像特徴ベクトルを構成する要素としては、出演者、ｋｅｙｏｂｊｅｃｔ（キーオブジェクト）、出演者の動作、キーオブジェクトの動き、カットやワイプやドリー等の編集情報などが挙げられる。

音声（ｂ）の特徴量を構成している音声特徴ベクトルは、音声を発している話者（出演者）の違いによって異なるように設定することや、音声の中に所定の台詞やキーワードが含まれているか否かによって異なるように設定することや、効果音やＢＧＭの違いによって異なるように設定することが可能である。つまり、音声特徴ベクトルを構成する要素としては、話者、セリフ（台詞）、キーワード、効果音、ＢＧＭなどが挙げられる。

心理情報（ｃ）の特徴量を構成している心理情報特徴ベクトルは、番組の制作者が是非理解して欲しいと考えている理解重要度によって異なるように設定することや、番組の視聴者が視聴した結果、感動した度合い（感動度合い）によって異なるように設定することが可能である。なお、この心理情報特徴ベクトルの中で、ハッチングを施してある箇所が、番組の制作者および番組の視聴者が最も重要な部分（最も感動できる部分）と設定したところである。つまり、心理情報特徴ベクトルを構成する要素としては、理解重要度、感動度合い等が挙げられる。

図２に示した映像（ａ）、音声（ｂ）および心理情報（ｃ）の特徴量を比べてみると、映像特徴ベクトルｖ_e1と心理情報特徴ベクトルｖ_s1とがほぼ同じ長さで対応しているのに対して、これらに比べ音声特徴ベクトルｖ_o1が短いのがわかる。これはどういったことを示しているかというと、例えば、出演者Ａが映っている部分（映像特徴ベクトルｖ_e1）では、ＢＧＭ等が変わっても（音声特徴ベクトルｖ_o1から音声特徴ベクトルｖ_o2に）、視聴者に与える感動度合い（心理情報特徴ベクトルｖ_s1）が変化しないということであり、或いは、海が映っている部分（映像特徴ベクトルｖ_e1）では、台詞を発している話者（音声）が変わっても（音声特徴ベクトルｖ_o1から音声特徴ベクトルｖ_o2に）、理解重要度（心理情報特徴ベクトルｖ_s1）が変化しないことを示している。

また、映像特徴ベクトルｖ_e3に着目してみると、同じ時刻には、音声特徴ベクトルｖ_o2、音声特徴ベクトルｖ_o3および音声特徴ベクトルｖ_o4が対応していると共に、心理情報特徴ベクトルｖ_s3および心理情報特徴ベクトルｖ_s4が対応している。これはどういったことを示しているかというと、例えば、サスペンス映画（ドラマ）等で、犯人を解明するのに何らかの伏線を張る場合等、ある風景が特定方向から一定の画角で表示されていて編集情報（映像特徴ベクトルｖ_e3）は変化していないのに、効果音が変化した（音声特徴ベクトルｖ_o2、音声特徴ベクトルｖ_o3、音声特徴ベクトルｖ_o4）ために、視聴者に与える印象が徐々に変化して心理情報特徴ベクトル（心理情報特徴ベクトルｖ_s3および心理情報特徴ベクトルｖ_s4）が変化したことを示している。

これらの映像特徴ベクトルを構成する要素、音声特徴ベクトルを構成する要素および心理情報特徴ベクトルを構成する要素には、当該要素が存在していることを示す“１”と、当該要素が存在していないことを示す“０”とのいずれかが設定されている。または、当該要素の存在している時間（秒）が設定されている。例えば、映像特徴ベクトルを構成する要素の１つである出演者に対して、出演者Ａには“０”を、出演者Ｂには“１”を、出演者Ｃには“０”を設定する。また、映像特徴ベクトルを構成する要素の１つである出演者に対して存在している時間をそれぞれ、出演者Ａには“０．２”（秒）を、出演者Ｂには“０．３”（秒）を、出演者Ｃには“０”（秒）のように設定する。

また、例えば、音声特徴ベクトルを構成する要素の１つである効果音に対して、効果音Ａには“０”を、効果音Ｂには“０”を、効果音Ｃには“１”を設定する。また、音声特徴ベクトルを構成する要素の１つである効果音に対して存在している（出力されている）時間をそれぞれ、効果音Ａには“０．３”を、効果音Ｂには“０．４”を、効果音Ｃには“０．１”のように設定する。
これらの例を、一般的なベクトルの記述形式で示すと、以下に示すようになる。

このように数式（１）では、映像特徴ベクトルｖ_enを構成する要素の１つである出演者しか示していないが、映像特徴ベクトルｖ_enには、これ以外にも、キーオブジェクトや、出演者の動作等の要素が含まれている。また、数式（２）では、音声特徴ベクトルｖ_omを構成する要素の１つである効果音しか示していないが、音声特徴ベクトルｖ_omには、これ以外にも、話者やＢＧＭ等の要素が含まれている。

図１に戻って、番組ダイジェスト作成装置１の構成の説明を続ける。
シーン切り出し部５ｂは、特徴量算出部５ａで算出された特徴量を構成する特徴ベクトル（映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトル）の各要素の値を変更する複数の重み付けパターンを備えており、この重み付けパターンを当該特徴ベクトルに乗算して、特定の要素の値を残すようにして、この残された要素に基づいて、番組から各シーンを切り出すものである。つまり、シーン切り出し部５ｂでは、所定時間ごとに任意の特徴ベクトルを抽出した際に、同じ特徴ベクトルが連続して抽出された場合に、同じシーンであるとみなして、連続した時間分だけを切り出している。

重み付けパターンは、例えば、音声特徴ベクトルに着目すると、“話者が連続する”、“ＢＧＭが流れ続けている”といった場合、音声特徴ベクトルを構成する要素の一つである話者やＢＧＭの値が変化するように設定されたもので、ここでは、特徴ベクトルの要素数（次元数）に対応したベクトルとして設定されている。
重み付けパターンの一例を一般的なベクトルの記述形式で示すと、以下のようになる。

このように数式（３）では、最も重み付けを多くしたい所に“０．９”が設定されており、それ以外の所では“０．２”や“０．１”や“０”が設定されている。なお、重み付けを“０”とした場合、この重み付けに係る要素は無いものとみなされる。この数式（３）が、数式（１）や数式（２）に乗算されることで、それぞれの特徴ベクトルの要素の値が変更される。なお、重み付けパターンは、映像特徴ベクトル、音声特徴ベクトル、心理情報特徴ベクトルごとに複数備えられている。

ここで、シーン切り出し部５ｂで切り出される各シーンについて図３を参照して説明する。図３は、図２と同様に、映像（ａ）、音声（ｂ）および心理情報（ｃ）の特徴量を示しており、シーン切り出し部５ｂによって切り出された各シーンの概略を説明した図である。この図３において図示した楕円が各シーンに該当している。

図３に示すように、番組の開始時刻から終了時刻まで、シーン１からシーン１１までの１１個のシーンが、シーン切り出し部５ｂによって切り出されている。シーン１は番組のオープニングであるといえ、シーン１１は番組のエンディングであるといえる。そして、シーン切り出し部５ｂによって切り出された各シーンには、オーバーラップするところや、包含関係にあるところが存在する。

例えば、シーン１とシーン２とがオーバーラップすると共に、シーン１とシーン３ともオーバーラップしている。また、シーン２とシーン４とは接している。さらに、シーン７はシーン６に包含されている。

また、シーン切り出し部５ｂによる各シーンの切り出し方を見てみると、それぞれの特徴ベクトルと各シーンとの対応関係が明確なものとして、シーン１は音声特徴ベクトルｖ_o1を基準に切り出されたものであり、シーン４は音声特徴ベクトルｖ_o2を基準に切り出されたものであり、シーン５は映像特徴ベクトルｖ_e3を基準に切り出されたものであり、シーン１０は映像特徴ベクトルｖ_e7、映像特徴ベクトルｖ_e8および映像特徴ベクトルｖ_e9を基準に切り出されたものである。

なお、それ以外の特徴ベクトルと各シーンとの対応関係は、この図からは不明確であるが、例えば、シーン２の場合、映像特徴ベクトルｖ_e1および心理情報特徴ベクトルｖ_s1が変化していなくて、音声特徴ベクトルｖ_o1から音声特徴ベクトルｖ_o2に変化しているシーンである。具体的な例を想定してみると、出演者Ａと出演者Ｂとが映っている映像（映像特徴ベクトルｖ_e1）において、出演者Ａと出演者Ｂとが口論をしていて（当初から出演者Ａと出演者Ｂとが話者）、はじめ出演者Ａの方が優勢（音声特徴ベクトルｖ_o1）であったが、途中から出演者Ｂの方が優勢（音声特徴ベクトルｖ_o2）になった場合で、番組の視聴者の感動度が変化しない（心理情報特徴ベクトルｖ_s1）シーンが想定される。

図１に戻って、番組ダイジェスト作成装置１の構成の説明を続ける。
構造解析部５ｃは、シーン切り出し部５ｂによって切り出された各シーンを特徴付けるシーンベクトルを、各特徴ベクトル（映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトル）から求めて、このシーンベクトルに基づいて、各シーンの経過時間に伴った関連性（つながり方）を示すシーン構造（番組の構造）を解析するものである。

すなわち、構造解析部５ｃは、番組の時系列に沿ったシーンベクトルのつながり、つまり、開始時刻が早いシーンと開始時刻が遅いシーンとに従ったシーンの順序と、開始時刻の早いシーンの終了時刻が前記開始時刻の遅いシーンの終了時刻よりも遅い場合におけるシーンの包含関係とを示すシーン構造を解析するものである。

そして、この構造解析部５ｃは、解析したシーン構造が、入力番組を解析した結果であれば、入力番組シーン構造データとして、シーン構造データ照合手段７に出力し、番組蓄積手段３に蓄積されている蓄積番組であれば、蓄積番組シーン構造データとして、重要構造学習手段１１に出力する。

なお、この構造解析部５ｃが解析したシーンベクトルは、各シーン中の映像特徴ベクトル、音声特徴ベクトルおよび心理情報特徴ベクトルの平均値、または、これらの特徴ベクトルを主成分分析して得られた主成分の値を含むものである。

ここで、構造解析部５ｃによるシーン構造の解析について、図４を参照して説明する。図４は、シーン構造の解析を模式的に示した図である。この図４に示すように、構造解析部５ｃでは、まず、シーンベクトルをクラスタリング（グループ化、分類）して、クラスタリングしたシーン同士のつながりを抽出する。ここでは、構造解析部５ｃによって、６個のシーン同士のつながりａ、ｂ、ｃ、ｄ、ｅ、ｆ（点線で囲まれている部分）が抽出されている。

この図４に示したシーン同士のつながりａ、ｂ、ｃ、ｄ、ｅ、ｆに含まれる各シーンは、図３に示したシーン１からシーン１１までに対応しており、シーン同士のつながりａには、シーン１とシーン２とが含まれている。また、シーン同士のつながりｂには、シーン３とシーン４とシーン６とが含まれており、シーン同士のつながりｃには、シーン２とシーン５とシーン７とが含まれている。さらに、シーン同士のつながりｄには、シーン７とシーン９とシーン１０とが含まれており、シーン同士のつながりｆには、シーン１０とシーン１１とが含まれている。なお、シーン８はグループ化されていないが便宜上、シーン同士のつながりｅとしている。

そして、構造解析部５ｃでは、これらシーンの依存関係（つまり、各シーンの因果関係）およびシーンのつながりａ、ｂ、ｃ、ｄ、ｅ、ｆそれぞれの依存関係（因果関係）を求める。図４において、この依存関係は、各シーン同士を結ぶ矢印として示しており、矢印の元が因果関係でいう原因に該当し、矢印の先が因果関係でいう結果に該当している。この依存関係は、番組の中で表示された時刻の順序に従っている。さらに、この矢印には、クラスタおよびクラスタリング作成時に使用した特徴ベクトルの中の重みが記述されている。なお、この図４の記載の仕方は、図５〜図７も同様である。

なお、シーン９とシーン１０とは依存関係があって、シーン８とシーン９とは依存関係がないのは、クラスタリングを行った結果、シーン９とシーン１０とのクラスタリングおよびシーン８とシーン１０とのクラスタリングは出来たが、シーン８とシーン９とのクラスタリングが出来なかった場合に生じたものである。すなわち、シーン同士の依存関係は、クラスタリング内のみで考えられることだからである。

図１に戻って、番組ダイジェスト作成装置１の構成の説明を続ける。
シーン構造データ照合手段７は、シーン構造解析手段５で解析された入力番組シーン構造データと、シーン構造データ蓄積手段１３に蓄積されている蓄積番組シーン構造データ（ここでは、リファレンス構造データとも呼ぶ）の重要構造データとを照合し、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとするものである。

ここで、入力番組シーン構造データ（図４参照）と蓄積番組シーン構造データ（リファレンス構造データ：図５参照）の重要構造データとが一致したデータ（重要部分データ）とは、構造解析部５ｃで求められた依存関係の中で、リファレンス構造データに記述されたすべての依存関係（図５中の矢印）を内包する部分であり、且つ、リファレンス構造データに記述された依存関係を導き出した特徴ベクトルの重み（クラスタリング時に使用した重み）がすべて同一（若しくは類似）している部分である。なお、図５は、重要部分データの例を示した図である。

具体的には、図４に示したすべてのシーン同士のつながりに、図５に示した重要構造データを当てはめ、図５に示した各シーンと矢印とが一致する部分を見つけ、矢印に記述されている特徴ベクトルの重みが一致しているとき（特徴ベクトル間距離の総和が一定値以下のとき）に、構造が一致しているとして検出する。

または、入力番組シーン構造データと蓄積番組シーン構造データ（リファレンス構造データ）の重要構造データとが一致したデータとは、依存しているシーンが最も多いシーン（依存度最大シーンとする、図４を例にすると、シーン１０）を中心にして、この依存度最大シーンにつながる第一所定数のシーンの中で、第二所定数のシーン同士が依存関係にあり、第三所定数のシーンが独立していると定義することができる。例えば、第一所定数は第二所定数と第三所定数との和と定義することができる。つまり、一致する部分とは、依存度最大シーン＋この依存度最大シーンにつながると共に、依存関係にある第二所定数のシーン＋この依存度最大シーンにつながると共に、独立している第三所定数のシーンとなる。

この場合、シーン構造データ照合手段７で照合された重要部分データは、この図５に示すように、シーン５とシーン７とが依存関係にあり、シーン６が独立しており、これらシーン５、シーン７およびシーン６が依存度最大シーンであるシーン１０につながっている。この場合、第一所定数が３であり、第二所定数が１であり、第三所定数が１である。

また、例えば、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータとは、依存しているシーンが２番目に多いシーン（依存度第二大シーンとする、図４を例にすると、シーン４とシーン６）からつながるシーンの数が第四所定数であると定義することができる。つまり、一致する部分とは、依存度第二大シーン＋この依存度第二大シーンからつながる第四所定数のシーンとなる。

図１に戻って、番組ダイジェスト作成装置１の構成の説明を続ける。
シーン連結手段９は、シーン構造データ照合手段７で照合した結果である重要部分データに関連するシーンを連結するもので、特定重要部分削除部（特定重要部分データ削除手段）９ａと、時間調整部（時間調整手段）９ｂとを備えている。

特定重要部分削除部９ａは、重要部分を連結する際に、予め設定した特定のつながり方をする重要部分データ（特定重要部分データ）を除くものである。この特定重要部分データを除くことで、番組の制作者が意図する当該番組の予告編を作成することができる。つまり、番組の視聴者が最も見たがると想定されるシーン、例えば、出演者（主人公）が他の出演者（敵役）と競争した結果、その結末に関するシーンを除くように特定重要部分データを設定することで、視聴者の視聴意欲をかきたてる予告編を作成することができる。

なお、この特定重要部分データは、依存度最大シーンや依存度第二大シーンや、被依存度最大シーン（他のシーンから依存されている数が最も多いシーン）や被依存度第二大シーン（他のシーンから依存されている数が２番目に多いシーン）や、番組の開始時刻から所定時間経過したところにあるシーンを設定することが可能である。

時間調整部９ｂは、重要部分データに関するシーンを連結する際に、予め設定した所定時間に収まるように、連結するシーンの取捨選択を行って、番組のダイジェストまたは予告編の時間を調整するものである。所定時間は、例えば、番組の宣伝用として、ＣＭ等で使用する予告編を作成する場合、このＣＭに収まる時間、１５秒、３０秒等が想定される。

この時間調整部９ｂでは、重要部分データに関するシーンがシーンＡとシーンＢとシーンＣとされた際に、シーンＡの所要時間が８秒であり、シーンＢの所要時間が１２秒であり、シーンＣの所要時間が６秒であり、番組のダイジェストが１５秒であると設定されていたとすると、合計時間が１５秒に収まるものが選択されることになる。つまり、シーンＡとシーンＣとを連結したものが番組のダイジェストとして出力されることになる。

ここで、図６、図７を参照して、シーン連結手段９で連結したシーン同士の概略について説明する。図６はシーン連結手段９によって番組のダイジェストを作成した場合のシーン同士のつながりの概略を示した図であり、図７はシーン連結手段９によって番組の予告編を作成した場合のシーン同士のつながりの概略を示した図である。

図６に示すように、番組のダイジェストは、シーン１からシーン２に連結され、シーン２からシーン４およびシーン５が連結され、シーン４からシーン６が連結され、シーン５からシーン７が連結され、そして、シーン５、シーン６およびシーン７が依存度最大シーンであるシーン１０に連結され、このシーン１０がエンディングとなるシーン１１に連結されている。

図７に示すように、番組の予告編は、オープニングといえるシーン１と、シーン４からシーン６に連結された部分と、シーン５からシーン７に連結された部分と、エンディングといえるシーン１１とから成っている。つまり、番組の予告編は、番組のダイジェストと比べて、特定重要部分であるシーン２（番組の開始時刻から所定時間経過したところにあるシーン）とシーン１０（依存度最大シーン）とが、特定重要部分削除手段９ａによって削除されている。

図１に戻って、番組ダイジェスト作成装置１の構成の説明を続ける。
重要構造学習手段１１は、シーン構造解析手段５の構造解析部５ｃから出力された複数の蓄積番組シーン構造データを統計処理することで、連続するシーンの纏まり（つながり）について頻出度を求め、この頻出度に基づいて、シーン同士の経過時間に伴った関連性の中で重要なもの（重要構造データ）を学習するもので、解析結果統計処理部１１ａと、重要構造設定部１１ｂとを備えている。

解析結果統計処理部１１ａは、複数の蓄積番組シーン構造データについて、高頻出で観測されるものを得る、つまり、度数分布をとり、頻出度数が予め設定した閾値より高いものを計算するものである。なお、予め設定した閾値は、例えば、１つのジャンル（アクション映画（ドラマ）、恋愛映画（ドラマ）、ホラー映画（ドラマ）、サスペンス映画（ドラマ）等）について、蓄積番組の数が１００個程度である場合には、例えば、５０個としている。

重要構造設定部１１ｂは、解析結果統計処理部１１ａで閾値を超えた頻出度が計算された連続するシーンの纏まり（シーン同士のつながり）を、番組の重要構造（重要構造データ）として設定するものである。例えば、１つのジャンルについて蓄積番組の数が１００個程度であり、閾値を５０個と設定した場合には、１つのジャンルについて、半数以上の番組について、同じようなシーン同士のつながりが観測された場合に、重要構造データと設定している。

シーン構造データ蓄積手段１３は、一般的なハードディスク等の記録媒体によって構成されており、シーン構造解析手段５の構造解析部５ｃから出力された複数の蓄積番組シーン構造データを蓄積すると共に、重要構造学習手段１１で学習された重要構造を蓄積している。なお、このシーン構造データ蓄積手段１３には、重要構造のみを蓄積しておく形態でもよい。

〈番組ダイジェスト作成装置の動作〉
次に、図８に示すフローチャートを参照して、番組ダイジェスト作成装置１の動作を説明する（適宜、図１参照）。
まず、番組ダイジェスト作成装置１は、シーン構造解析手段５によって、番組蓄積手段３に蓄積されている蓄積番組のシーン構造を解析し（ステップＳ１）、重要構造学習手段１１によって、重要構造（重要構造データ）を学習し、シーン構造データ蓄積手段１３に蓄積する（ステップＳ２）。なお、このステップＳ１およびステップＳ２は、入力番組のダイジェストを作成する前の事前処理（準備段階）である。

そして、番組ダイジェスト作成装置１は、シーン構造解析手段５によって、入力された入力番組のシーン構造を解析し（ステップＳ３）、シーン構造データ照合手段７によって、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとを照合する（ステップＳ４）。

そして、番組ダイジェスト作成装置１は、シーン連結手段９によって、入力番組シーン構造データと重要構造データとが一致したデータである重要部分データに関連するシーンを連結し、ダイジェストとして出力する（ステップＳ５）。なお、シーン連結手段９の特定重要部分削除部９ａを機能させて、ダイジェストから特定重要部分データに関するシーンを削除した予告編も出力することができる。

このフローチャートでは省略しているが、シーン構造解析手段５では、特徴量算出部５ａによって、入力番組または蓄積番組の特徴量が算出されており、シーン切り出し部５ｂによって、入力番組または蓄積番組から各シーンが切り出され、構造解析部５ｃによって、シーン同士のつながりが解析されている。また、重要構造学習手段１１では、解析結果統計処理部１１ａによって、複数の蓄積番組シーン構造データについて統計処理がなされ、重要構造設定部１１ｂによって、重要構造データが設定されている。

この番組ダイジェスト作成装置１によれば、シーン構造解析手段５によって、入力番組のシーン同士のつながりを解析した入力番組シーン構造データと、予め、シーン構造解析手段５によって、蓄積番組に含まれているデータの特徴が予め設定した条件に基づいて共通しているシーンとする。続いて、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データから抽出した、連続するシーンの纏まりの頻出度が予め設定した閾値より重要構造データとを、シーン構造データ照合手段７によって照合する。そして、照合した結果、入力番組シーン構造データと蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとし、この重要部分データに関連するシーンを、シーン連結手段９によって連結する。このため、不要な部分が含まれることなく、重要部分（重要なシーン）が欠落することのない番組のダイジェストを作成することができる。

また、番組ダイジェスト作成装置１によれば、番組蓄積手段３に蓄積している蓄積番組について、シーン構造解析手段５によってシーン同士の経過時間に伴った関連性を解析して、重要構造学習手段１１によって重要構造データを学習することができ、学習した結果が反映されるので、手間をかけることなく、高品質のダイジェストを作成することができる。

或いは、番組ダイジェスト作成装置１によれば、シーン構造解析手段５の特徴量算出部５ａによって特徴量を算出し、シーン切り出し部５ｂによって特徴量に基づいて各シーンを切り出して、構造解析部５ｃによってシーン構造を解析しているので、普遍的、客観的な基準によって、番組のダイジェストを作成することができる。

さらに、番組ダイジェスト作成装置１によれば、シーン構造解析手段５のシーン切り出し部５ｂによって、特徴ベクトル、各要素の値を変更する複数の重み付けパターンを備えることで、シーンを切り出す際に、重み付けパターンを変えることで、様々な要素を重視した（様々な着目点による）シーンの切り出しが可能になり、様々なダイジェストを作成することができる。

さらにまた、番組ダイジェスト作成装置１によれば、シーン構造解析手段５の特徴量算出部５ａによって、心理情報を予め規定したポイントに換算して設定した設定値を、特徴量に含めることで、番組の制作者の意図や番組の視聴者の嗜好を反映させたダイジェストを作成することができる。

そしてまた、番組ダイジェスト作成装置１によれば、シーン連結手段９の特定重要部分削除部９ａによって、番組の内容全体を把握することができるダイジェストから予め特定したつながり方をする重要部分データを除くことで、番組の制作者の意向に沿った番組の予告編を作成することができる。

或いはまた、番組ダイジェスト作成装置１によれば、シーン連結手段９の時間調整部９ｂによって、予め設定した所定時間に収まるダイジェストや予告編を作成することができる。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、番組ダイジェスト作成装置１として説明したが、当該装置１の各構成の処理を実現するように、汎用的または特殊なコンピュータ言語で記述した番組ダイジェスト作成プログラムとして構成することも可能である。この場合、番組ダイジェスト作成装置１と同様の効果を得ることができる。

本発明の実施形態に係る番組ダイジェスト作成装置のブロック図である。特徴量の概略を説明した図である。シーンの切り出し方を説明した図である。シーン同士のつながりについて説明した図である。重要部分の一例について説明した図である。番組のダイジェストを作成した際のシーンのつながり方を説明した図である。番組の予告編を作成した際のシーンのつながり方を説明した図である。図１に示した番組ダイジェスト作成装置の動作を説明したフローチャートである。

符号の説明

１番組ダイジェスト作成装置
３番組蓄積手段
５シーン構造解析手段
５ａ特徴量算出部（特徴量算出手段）
５ｂシーン切り出し部（シーン切り出し手段）
５ｃ構造解析部（構造解析手段）
７シーン構造データ照合手段
９シーン連結手段
９ａ特定重要部分削除部（特定重要部分データ削除手段）
９ｂ時間調整部（時間調整手段）
１１重要構造学習手段
１１ａ解析結果統計処理部
１１ｂ重要構造設定部
１３シーン構造データ蓄積手段

Claims

蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成する番組ダイジェスト作成装置であって、
前記重要構造データを蓄積するシーン構造データ蓄積手段と、
前記入力した番組に含まれている前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析して、入力番組シーン構造データとするシーン構造解析手段と、
このシーン構造解析手段で解析した入力番組シーン構造データと、シーン構造データ蓄積手段に蓄積されている蓄積番組シーン構造データの重要構造データとを照合し、前記入力番組シーン構造データと前記蓄積番組シーン構造データの重要構造データとが一致したデータを重要部分データとするシーン構造データ照合手段と、
このシーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結するシーン連結手段と、
を備えることを特徴とする番組ダイジェスト作成装置。
番組について、前記シーン構造解析手段が、前記シーンそれぞれに共通している特徴をクラスタリングした結果を解析し、この解析結果を統計処理することで、連続する前記シーンの纏まりの頻出度を求め、この頻出度に基づいて、前記重要構造データを学習する重要構造学習手段と、
を備えることを特徴とする請求項１に記載の番組ダイジェスト作成装置。
前記シーン構造解析手段は、
前記番組に含まれている映像および音声に関するメタデータと、予め付加した任意の数値である設定値とに基づいて、当該番組の各時刻における特徴量を算出する特徴量算出手段と、
この特徴量算出手段で算出した特徴量に基づいて、前記番組から各シーンを切り出すシーン切り出し手段と、
このシーン切り出し手段によって切り出された各シーンの開始時刻と終了時刻とに基づいて、前記番組の時系列に沿って、前記開始時刻が早いシーンと前記開始時刻が遅いシーンとに従ったシーンの順序と、前記開始時刻の早いシーンの前記終了時刻が前記開始時刻の遅いシーンの前記終了時刻よりも遅い場合における前記シーンの包含関係とを示すシーン構造を解析する構造解析手段と、
を備えていることを特徴とする請求項１または請求項２に記載の番組ダイジェスト作成装置。
前記特徴量算出手段は、前記特徴量を、前記番組の各時刻における複数の要素から成る特徴ベクトルとして表し、
前記シーン切り出し手段は、前記特徴ベクトルの各要素の値を変更する複数の重み付けパターンを記憶する重み付けパターン記憶手段を備えることを特徴とする請求項３に記載の番組ダイジェスト作成装置。
前記設定値は、番組の制作者と番組の視聴者との少なくとも一方の心理情報を、予め規定したポイントに換算して設定したことを特徴とする請求項３に記載の番組ダイジェスト作成装置。
前記シーン連結手段は、前記重要部分データに関連するシーンを連結する際に、予め設定した重要部分データを除く特定重要部分データ削除手段を備えることを特徴する請求項１から請求項５までのいずれか一項に記載の番組ダイジェスト作成装置。
蓄積した番組に含まれているデータの特徴が予め設定した条件に基づいて共通している纏まりをシーンとして、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した蓄積番組シーン構造データとし、この蓄積番組シーン構造データから抽出した、連続する前記シーンの纏まりの頻出度が予め設定した閾値より高い重要構造データを用いて、入力した番組のダイジェストを作成するために、コンピュータを、
前記入力した番組に含まれているデータの特徴が共通している纏まりをシーンとし、このシーンそれぞれに共通している特徴をクラスタリングした結果を解析した入力番組シーン構造データとするシーン構造解析手段、
このシーン構造解析手段で解析した入力番組シーン構造データと、前記重要構造データとが一致したデータを重要部分データとするシーン構造データ照合手段、
このシーン構造データ照合手段で照合した結果である重要部分データに関連するシーンを連結するシーン連結手段、
として機能させることを特徴とする番組ダイジェスト作成プログラム。