JP4270119B2

JP4270119B2 - 代表画像選定方法及び装置及びプログラム

Info

Publication number: JP4270119B2
Application number: JP2004347279A
Authority: JP
Inventors: 俊和狩塚; 和宮川; 聡嶌田; 正志森本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-30
Filing date: 2004-11-30
Publication date: 2009-05-27
Anticipated expiration: 2024-11-30
Also published as: JP2006157691A

Description

本発明は、映像コンテンツのサムネイル表示機能における代表画像選定方法及び装置及びプログラムに係り、特に、映像を構成するフレームから代表フレームを選出するための代表画像選定方法及び装置及びプログラムに関する。

詳しくは、視聴者が付与したコメント情報から、視聴者間で最も注目度の高いフレーム画像を、ダイナミックに代表画像として自動的に選出するための代表画像選定方法及び装置及びプログラムに関する。

従来の映像コンテンツの代表画像を選定する方法として、映像コンテンツのシーン中に含まれている場面の変わり目（カット）、文字が表れた場面（テロップ）、カメラの動き（カメラワーク）、音楽、人の声（音声）の変化等を検出し、検出された位置を区切り点として、シーンを細かい区間に分割する。そして、その区間の開始フレーム画像や開始から何秒後のフレーム画像を表示するといった、予め設定されたフレームが選定される方法がある（例えば、特許文献１、特許文献２参照）。

また、自動抽出された映像の変わり目や音声や音楽の発生時刻を手掛かりに、シーン分割を行い、事前ルールに従って、シーンの代表画像を出力する方法がある（例えば、非特許文献１参照）。

また、映像フレームを類似画像クラスタリング等を用いて、映像をまずセグメント化し、各セグメントの区間長（時間）などからセグメントの重要度を算出し、重要度が閾値以上のセグメントに含まれるフレーム画像に平均に最も近いフレーム画像を代表画像として出力する方法がある（例えば、非特許文献２参照）。

また、スポーツ映像やニュース映像のようなコンテンツは、点数が獲得されたシーンや、テロップが表示されたシーンというように、映像編集文法を手掛かりにする手法や、経験的な知見を用いる手法などを利用することによって、重要な場面をある程度推察することが可能である。
特開２００３−７６６９９号公報特開平１１−２２４２６６号公報山田一穂、宮川和、森本正志、小島治彦、"映像の構造情報を活用した視聴者間コミュニケーション方法の提案"、情報処理学会研究報告グループウェアとネットワークサービス、No.24-007,2001. Shingo Uchihashi, Jonathan Foote, Andreas Girgensohn, and John Boreczky. Video Manga: Generating semantically meaningful video summaries. In Proceedings of Multimedia’99, pp.383-392. ACM, 1999

しかしながら、上記従来の自動抽出された映像の変わり目や音声や音楽の発生時刻を手掛かりに、シーン分割を行い、事前ルールに従って、シーンの代表画像を出力する方法では、コミュニケーションを活性化させるために、事前に映像を同じ話題のシーンに分割し、各シーンの代表画像を選定する必要がある。各シーンの代表画像を選定するには、映像の内容を把握して手動で設定するか、シーン分割を行う際に手掛かりとするために自動抽出された映像の変わり目や音声や音楽の発生時刻を使用するとしても、それは、事前に決めたルールに従って選出された静的な代表画像であり、視聴者間での注目度の高い場面を代表する代表画像を動的に選出することができないという問題がある。

この問題は、スポーツ映像やニュース映像といった比較的映像中で重要な場面が定義しやすいコンテンツに比べて、ドラマやアニメなどといった視聴者の主観や、コンテンツ全体の物語の流れによって重要な場面が変わってしまうような映像コンテンツから視聴者の注目している場面の代表画像を選択する際に顕著となる問題である。

本発明は、上記の点に鑑みなされたもので、映像視聴者間コミュニケーションシステムにおいて、視聴者が付与したコメントを分析し、視聴者間で最も注目度の高い場面のフレーム画像を、動的に代表画像として表示することが可能な代表画像選定方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理説明図である。

本発明（請求項１）は、映像を視聴している時に、視聴者がコメント付与の指示を行うことで、注目する映像に対してコメントを付与することができ、記憶手段に登録されたコメントを映像と同期させて提示する映像視聴システムにおいて、代表画像を選出する代表画像選出方法において、
代表画像を選択する対象となる映像区間を入力する映像区間入力ステップ（ステップ１）と、
映像区間に含まれるコメント群を、コメントが付与された時刻とコメント文字列を含むコメント群が格納されたコメント蓄積手段から読み出すコメント抽出ステップ（ステップ２）と、
映像区間に含まれるコメント群を分析し、映像の各フレームに対してスコアリングし、各フレーム毎にスコアリングの値をスコア情報格納手段に格納するコメント分析ステップ（ステップ３）と、
スコア情報格納手段の各フレーム毎のスコアリングの値に基づいてフレームから代表画像を決定し、該代表画像を映像情報蓄積手段から抽出して出力装置に出力する代表画像出力ステップ（ステップ４）と、を行う。

また、本発明（請求項２）は、請求項１のコメント分析ステップ（ステップ３）において、
コメントが付与された時刻とコメント文字列を含むコメント群について、映像コンテンツに対して関連性の高い固有名詞を格納するコメント評価辞書記憶手段を参照して、該コメント毎のコメント文字列中の固有名詞の出現回数に基づいて、映像の各フレームにスコアリングする。

また、本発明（請求項３）は、請求項１のコメント分析ステップにおいて、
コメントが付与された時刻よりも△ｔ（予め定めた近傍フレームの範囲）だけ前に幅を持たせてスコアリングする。

図２は、本発明の原理構成図である。

本発明（請求項４）は、映像を視聴している時に、視聴者がコメント付与の指示を行うことで、注目する映像に対してコメントを付与することができ、記憶手段に登録されたコメントを映像と同期させて提示する映像視聴システムにおいて、代表画像を選出する代表画像選出装置であって、
コメントが付与された時刻とコメント文字列を含むコメント群が格納されたコメント蓄積手段２と、
映像が蓄積された映像情報蓄積手段５と、
入力装置１０から入力された代表画像を選択する対象となる映像区間を取得する映像区間入力手段１と、
映像区間に含まれるコメント群を、コメント蓄積手段２から読み出し、該映像区間に含まれるコメント群を分析し、映像の各フレームに対してスコアリングし、スコア情報格納手段に格納するコメント分析手段４と、
スコア情報格納手段に格納されているフレーム毎にスコアリングされた値に基づいて、フレームから代表画像を決定し、該代表画像を映像情報蓄積手段５から抽出して出力装置に出力する代表画像出力手段４と、を有する。

また、本発明（請求項５）の代表画像選出装置は、映像コンテンツに対して関連性の高い固有名詞を格納するコメント評価辞書記憶手段を更に有し、
コメント分析手段３において、
コメントが付与された時刻とコメント文字列を含むコメント群について、コメント評価辞書記憶手段を参照して、該コメント毎のコメント文字列中の固有名詞の出現回数に基づいて、映像の各フレームにスコアリングする手段を含む。

また、本発明（請求項６）の代表画像選出装置は、コメント分析手段３において、コメントが付与された時刻よりも△ｔ（予め定めた近傍フレームの範囲）だけ前に幅を持たせてスコアリングする。

本発明（請求項７）は、請求項４乃至６のいずれか１項に記載の代表画像選定装置を構成する各手段としてコンピュータを機能させるための代表画像選定プログラムである。

上記により、映像視聴と連動したコミュニケーションシステムにおいて、任意の区間において、多数の視聴者が最も注目している場面の代表画像を選出することができる。また、この機能によって、代表画像を手動で選択する手間がなくなるばかりでなく、映像中で多くの視聴者が注目している場面が、代表画像を見ることで簡便に把握することができ、コミュニティの活性化をも期待することができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における代表画像選定装置の構成を示す。

同図に示す代表画像選定装置は、分析対象区間入力部１、コメント蓄積部２、分析対象コメント分析部３、代表画像出力部４及び映像情報蓄積部５から構成され、分析対象区間入力部１にはキーボードやマウス等の入力装置１０が、代表画像出力部４にはディスプレイ装置等の出力装置２０が接続される。

分析対象区間入力部１は、入力装置１０からオペレータにより分析対象となる映像区間が選択入力される。分析対象区間の入力は、入力装置１０からの手動入力や、予め設定しておき半自動的に入力する方法が考えられる。

コメント蓄積部２は、ディスク装置等の記憶媒体であり、多数の視聴者が映像に対して付与したコメント群を格納する。コメント蓄積部２に蓄積される１つのコメントは、少なくともコメント対象となる映像ファイルの識別情報、コメントが付与された時刻及び、コメント文字列が含まれているものとする。

コメント分析部３は、入力された分析対象区間より、当該区間に含まれるコメント群をコメント蓄積部２から抽出し、当該コメント群を分析し、フレーム単位、もしくは任意の区間単位で重要度をスコアリングする
映像情報蓄積部５は、ディスク装置等の記憶媒体であり、映像の全フレームデータが蓄積されている。

代表画像出力部４は、コメント分析部３の分析結果であるスコアを取得し、当該スコアに基づいて代表画像として出力するフレームを決定し、映像情報蓄積部５から当該フレームを抽出して、出力装置２０に出力する。

図４は、本発明の一実施の形態における動作の概要を示すフローチャートである。

分析対象区間入力部１は、入力装置１０から代表画像を選択する映像区間を入力し、分析対象区間をコメント分析部３に出力する（ステップ２０１）。

コメント分析部３は、映像ファイルの識別情報、当該分析対象区間のフレーム番号に対応するコメント付与時刻及び文字列を有するコメントを、コメント蓄積部２から読み出す（ステップ２０２）。さらに、コメント分析部３は、読み出されたコメント群を分析し、フレーム単位、または、任意の区間単位で重要度をスコアリングし、代表画像出力部４に出力する（ステップ２０３）。詳細な分析方法については、実施例において説明する。

代表画像出力部４は、スコアリング結果を取得し、代表画像として出力するフレームを決定し、映像情報蓄積部５から当該フレームの画像を抽出して、出力装置２０に出力する。

次に、上記のステップ２０２及びステップ２０３のコメント分析部３の動作について説明する。

以下で扱うコメントには、他人が付与したコメントに対する返信コメント（レスコメント）も含まれる。この他人が付与したコメントに対して返信するレス機能は、レスコメント自体にさらにレスコメントを付与することが可能である。視聴者がレスコメントを付与する動機として、親コメントの時刻の映像内容に対して注目しているか、その付与されたコメントに対して注目しているか、その両方かのいずれかであると考えられる。そのいずれにしても、親コメントを付与した視聴者が注目した時刻の映像内容に対して何らかの注目をしていると考えられる。よってこのとき、レスコメントが付与された映像時刻（フレーム番号）は、返信対象の親コメントの時刻と同じになる。そのレスコメントが最も多く付与されているフレームは、必然的に視聴者間で最も注目度が高い場面であると判定することができる。

［第１の実施例］
本実施例の代表画像選定装置の構成は、前述の図３の構成と同様である。

本実施例では、上記の図４に示すフローチャートの処理において、分析対象区間入力部１において、分析対象となる区間が入力された以降のコメント分析部３及び代表画像出力部４の動作（ステップ２０２〜ステップ２０４）について説明する。

以下に、コメント分析部３のスコアリング処理（ステップ２０３）の第１の例について説明する。

図５は、本発明の第１の実施例におけるコメント分析処理のフローチャートである。

ステップ３０１）コメント分析部３は、分析対象区間内に付与されているコメント群をコメント蓄積部１より抽出する。

ステップ３０２）抽出されたコメントの総数をカウントし、コメント総数をＮとする。

ステップ３０３）ループカウンタ（ｉ）を初期化する（ｉ＝１）。

ステップ３０４）ｉ番目のコメントが付与された時間を確認し、既に既出の時刻かどうかを判定する。判定は、コメント分析部３内のスコア情報格納メモリ３１に含まれるコメントが付与された時刻（フレーム番号）を参照することにより可能である。

ステップ３０５）スコア情報格納メモリ３１をコメント分析部３内に動的に新たに一つ確保し、スコアを初期化し、ステップ３０７に移行する。スコア情報とは、コメントが付与された時刻（フレーム番号）と、スコアの２つのパラメータを持つものとする。初期化として、コメントが付与された時刻を格納し、スコアを１とする。

ステップ３０６）既出の時刻に付与されたコメントであれば、同時刻に対応するスコア情報格納メモリ３１は既に確保されているはずである。対応するスコア情報格納メモリ３１を、時刻に基づいて検索し、その時刻のスコアをインクリメントする。

ステップ３０７）全てのコメントを処理し終えたかのかを判定する。処理が終了していない場合には、ステップ３０８に移行し、処理が終了していればステップ３０９に移行する。

ステップ３０８）ｉをインクリメントし、次のコメントに処理を移す（ステップ３０４に移行する）。

ステップ３０９）全てのコメントを処理し終えたら、得られたスコア情報を全て代表画像出力部４に出力する。

代表画像出力部４では、入力として受け取ったスコア情報からスコアを昇順にソート処理し、最も高いスコアを獲得したフレーム番号を算出する。もし、最も高いスコアを持つフレームが複数ある場合は、ランダムに選択される。もしくは、フレーム番号が大きなものが優先される等の優先度を予め設定しておく。なぜなら、いずれのフレーム画像も視聴者の注目度としては等価値であると考えられるため、いずれが選ばれても問題はない。しかし、ドラマやアニメのようなコンテンツの場合、コンテンツの後半に、シナリオ的な盛り上がりを設けている場合が多いため、例えば、図６に示すような優先度テーブルにこのような経験則を優先度として事前に当該代表画像出力部４のメモリ内に設定しておいてもよい。図６の優先度テーブルは、コンテンツの終了間際に最も高い優先度が設定されている例である。

なお、上記では、スコア情報格納メモリ３１をコメント分析部３内に設けたが、この例に限定されることなく、代表画像選定装置内に別途設けてもよい。

［第２の実施例］
本実施例の代表画像選定装置の構成は、前述の図３の構成と同様である。

前述の第１の実施例が単純にコメントとそのレスコメントが最も多い時刻のフレームを代表画像として出力するという処理に対して、本実施例では、時間的な幅を持たせてスコアリングする。

なぜなら、他の視聴者が同じ場面に対して注目し、コメントを付与したとしても、正確に同じ時刻に対してコメントせず、若干の散らばりをもってコメントが付与される可能性が考えられるからである。第１の実施例では、親コメント同士の時刻が例え１フレームでも違う場合、それは違った場面に対してコメントされていると判断されるため、同じ場面に対してコメントを付与している可能性をスコアリングに反映されていない。

本実施例では、コメントが付与された時刻を基準に、時間的な幅を持たせてスコアリング処理することで、ある程度近くに付与されているコメントは同じ場面（シーン）に注目している可能性があることをスコアリングに反映させる例を示す。

具体的には、映像全フレーム個別にスコア情報を持つ。事前にコメントが付与された時刻を基準に、その近傍フレームに対して、どのようなスコア加算を行うのかを定義しておく。スコア加算方法の事前設定は任意であるが、この時間的幅を持たせたスコアリング処理の事前設定の例を図７に示す。

図７（ａ）では、コメントが付与された時刻から△ｔだけ前の区間に対して、一様なスコア加算処理を行う。但し、△ｔは予め定めた近傍フレームの範囲を定める値であり、これ以降の説明で使用される△ｔも同意である。コメントが付与された時刻より後ろの近傍フレームにはスコア加算処理は行わない。なぜなら、映像視聴してコメントを付与する場合、視聴した後にコメントを付与する場合はあっても、視聴する前にコメントを付与する可能性は低いからである。

図７（ｂ）は、人間が映像を視聴し、コメントを付与したいと考え、手を動かし映像を止めるまでの時間的誤差を考慮したスコア加算モデルである。つまり、視聴者がコメントを付与したいと考えた時刻と、実際の映像を停止させてコメントを付与する時刻には、若干の誤差が生じると考えられるため、コメントが付与された時刻より、若干前にスコア加算量のピークをずらしてスコア加算するモデルである。人間の反応速度は脳で考えてから動くまでに約０．１秒はかかってしまうことが広く知られている。映像フレームレートを３０ｆｐｓとすると、映像を視聴してから、映像を停止するまでに経験則から最低３フレームの誤差が生じてしまう。この誤差をスコア加算処理の段階で補正するものである。この場合も図７（ａ）と同様に、コメント後のフレームには加算処理は行わない。

本実施例におけるコメント分析部２によるコメント分析処理を図８を用いて説明する。

図８は、本発明の第２の実施例のコメント分析処理のフローチャートである。

ステップ５０１）分析対象区間入力部１により取得した分析対象区間内に付与されているコメント群を、コメント蓄積部１より抽出する。

ステップ５０２）抽出されたコメントの総数をカウントし、コメント総数をＮとする。

ステップ５０３）各フレームに対してスコアリング処理を行うため、コメント総数が分かった時点でスコアを格納するスコア情報格納メモリ３１（Score[N]）をコメント分析部３内に確保する。さらに、Score[N]の値を全て０に初期化する。

ステップ５０４）ループカウンタ（ｉ）を初期化する（ｉ＝１）。

ステップ５０５）上記のスコアリング処理の事前設定に基づいて、ｉ番目のコメントの時刻を前近傍フレーム群に対してスコア加算処理を行う。例として、ｉ番目のコメントの時刻をｔｉ、△ｔ＝５フレームとした場合、スコア加算設定が図７（ａ）の場合、
Score[ti]=Score[ti]+1,
Score[ti-1]=Score[ti-1]+1,
Score[ti-2]=Score[ti-2]+1
Score[ti-3]=Score[ti-3]+1,
Score[ti-4]=Score[ti-4]+1
Score[ti-5]=Score[ti-5]+1,
とする。

また、スコア加算設定が図７（ｂ）の場合、
Score[ti]=Score[ti]+1,
Score[ti-1]=Score[ti-1]+2,
Score[ti-2]=Score[ti-2]+3
Score[ti-3]=Score[ti-3]+4,
Score[ti-4]=Score[ti-4]+3
Score[ti-5]=Score[ti-5]+2,
とする。重要なことは、コメントが付与された時刻よりも、前の時刻（この例では３フレーム前）のフレームに高いスコアを加算するということである。

また、この際、スコア加算の重み付けとして、分析対象のコメントが親コメントのコメントなのか、レスコメントなのかによって重み付けを変化させてもよい。この例において、レスコメントの場合、コメントを付与するトリガとして、映像自体の内容と付与されたコメントの内容という２種類が考えられるため、親コメントよりも、レスコメントの方が付与されやすいという状況があるため、映像内容の代表画像を選択するという観点から、レスコメントの重みを小さく設定することも可能である。このときは、コメント情報は、そのコメントが親コメントなのかレスコメントなのかを識別するフラグ情報が必要となる。

ステップ５０６）全てのコメントを処理したかを判定する。処理した場合には、ステップ５０８に移行し、終了していない場合にはステップ５０７に移行する。

ステップ５０７）ｉをインクリメントして、ステップ５０５に移行し、次のコメントの処理を行う。

ステップ５０８）全てのコメントの処理を終えたので、得られたスコア情報（Score[N]）を全て、代表画像出力部４に出力する。

代表画像出力部４では、コメント分析部３より受け取ったスコア情報（Score[N]）から、スコアを昇順にソート処理し、最も高いスコアを獲得してフレーム番号を算出する。同スコアが生じた場合は、前述の第１の実施例と同様の処理を行う。対応するフレーム番号のフレーム画像を、映像情報蓄積部５から抽出し、出力装置２０に出力する。

［第３の実施例］
本実施例では、スコアリングの加算処理の際に、コメントが付与された時刻のみに基づいたスコアリングを行っている、前述の第１の実施例、第２の実施例に比べて、コメントに含まれる文字数をも評価対象とすることで、コメント毎に重み付けを行いながら、スコア加算処理を実行するコメント分析処理について説明する。

図９は、本発明の第３の実施例の代表画像選定装置の構成を示す。

同図に示す構成は、前述の図３の構成に、コメントを評価するために用いられるコメント評価辞書を格納するコメント評価辞書蓄積部６が付加された構成である。これは、一部のコメントには、的外れな質問や個人的な内容のコメントなど、映像内容には全く関わりのないコメントが付与される場合があり、映像の代表画像を選定する際には雑音となり得る可能性があるため、実際に付与されたコメントに含まれる文字列を評価し、重み付けを行いながらスコア加算処理を行うことで、そのような雑音の影響を下げるために用いる。

コメント評価辞書蓄積部６は、ディスク装置等の記憶媒体であり、コメント評価辞書が格納される。コメント評価辞書に含まれる文字列の定義は任意であるが、例として、映像コンテンツに対して関連性の深い固有名所を辞書として持つものとする。そして、分析対象のコメント内に当該コメント評価辞書に含まれる固有名詞の出現回数を重みとして利用する。

図１０にコメント評価辞書の例を示す。

なお、図９におけるコメント評価辞書蓄積部６以外の構成要素は、前述の図３と同様であるので、その説明は省略する。

次に、本実施例の動作を説明する。

図１１は、本発明の第３の実施例のコメント分析処理のフローチャートである。

ステップ７０１）分析対象区間内に付与されているコメント群を、コメント蓄積部１より抽出する。

ステップ７０２）抽出されたコメントの総数をカウントし、コメント総数をNとする。

ステップ７０３）各フレームに対してスコアリング処理を行うため、コメント総数が分かった時点でスコアを格納するスコア情報格納メモリ３１（Score[N]）を当該コメント分析部３内に確保する。さらに、Score[N]の値を全て０に初期化する。

ステップ７０４）ループカウンタ（ｉ）を初期化（ｉ＝１）する。

ステップ７０５）ｉ番目のコメント内に含まれる文字列とコメント評価辞書蓄積部６のコメント評価辞書に含まれる文字列のマッチングを行う。コメント評価辞書には、映像コンテンツに関連性の高い固有名詞が登録されており、その全ての固有名詞が分析対象コメント内に何回出現するのかをカウントする。固有名詞毎に更に重み付けを行う手法も考えられるが、ここでは、単純にコメント評価辞書に含まれる文字列が、何回出現するかをカウントし、その値＋１をこのコメントに対する重み（Wi）とする。

ステップ７０６）ｉ番目のコメントの時刻の近傍フレームに対して（Wi）の重みを乗算してスコア加算処理を行う。近傍フレームどのような配分で加算するかは、事前設定であるが、前述の第２の実施例で用いた手法を用いてもよい。

ステップ７０７）全てのコメントを処理したかを判定し、終了した場合には、ステップ７０９に移行し、終了していない場合にはステップ７０８に移行する。

ステップ７０８）ｉをインクリメントし、ステップ７０５に移行し、次のコメントに処理を移す。

ステップ７０９）全てのコメントを処理し終えたので、得られたスコア情報（Score[N]）を全て代表画像出力部４に出力する。

代表画像出力部４の処理は、前述の第２の実施例と同様である。

［第４の実施例］
本実施例では、スコア分析部３において、スコア加算処理の重み付けに映像構造化情報を利用する例を説明する。

図１２は、本発明の第４の実施例の代表画像選定装置の構成図である。

同図に示す代表画像選定装置は、前述の図３の構成に、映像コンテンツの映像構造化情報が蓄積されている映像構造化情報蓄積部７が付加された構成であり、他の構成要素は、図３と同様であるので、その説明は省略する。

本実施例で用いる映像構造化情報は、映像コンテンツに登場する登場オブジェクトの出現区間と、台詞を発話している区間とする。

図１３に映像構造化情報蓄積部７に格納されている映像構造化情報の例を示す。同図に示すように、映像構造化情報は、多層構造をしている。つまり、オブジェクト映像Aが登場している区間Oa1、Oa2は、同じ層にあるが、オブジェクト映像Bに登場している区間Ob1、Ob2は違う層で定義されている。オブジェクトAの台詞、オブジェクトBの台詞も同様である。図１３において、ａ〜ｊは、時刻ｔにおいてコメントが付与された時点を示す。

図１４に映像構造化情報を用いた重み付けの例を示す。映像を視聴してコメントする際に、多くの場合は、注目点を視聴し終わった直後に映像を停止してコメントを付加することが多いと思われる。図１４の例では、コメントは、図１３に示すオブジェクト映像Ａの映像中の人物がオブジェクトＡの台詞を発話し、それを聞き終わった後にその台詞に関してのコメントを付与した例である。この場合、図１４のスコア加算区間△tの中で、台詞区間の重みを高く設定し、人物が台詞を発話している部分のフレームが代表画像として選択されやすくスコアリングされることが、適切なスコアリングであると考えられる。この映像構造化情報を利用する手法の場合、コメントと映像構造化情報との対応付けが必要である。

本実施例では、視聴者がコメントを書くときに、何に注目したかの選択（ラベリング）した後、コメントを付与するシステムとする。映像構造化情報を持っていることを想定しているので、視聴者がコメントを付与する際、コメントを付与する対象フレームからスコア加算区間△tの間に含まれる映像構造化情報を提示し、簡便に視聴者が、どの映像情報に注目してコメントを付与するのかを選択できるようにする。ラベルの種類は、映像中の登場オブジェクト、台詞、その他のいずれかとする。よってコメント情報には、付加された時刻とコメント本体に加えて、注目先ラベリング情報が含まれる。この注目先ラベリングを参照することでユーザが映像中の何に注目してコメントしたのかを対応付けることができる。また、以上のように手動でラベリングする手法もあるが、コメントの内容分析と画像認識、音声認識を使うことで、コメントが何に注目されて書かれたものかを自動的に判定してもよい。

以下に具体的なコメント分析部３の動作を示す。

図１５は、本発明の第４の実施例のコメント分析処理のフローチャートである。

ステップ１１０１）分析対象区間内に付与されているコメント群を、コメント蓄積部１より抽出する。

ステップ１１０２）抽出されたコメントの総数をカウントし、コメント総数をＮとする。

ステップ１１０３）各フレームに対してスコアリング処理を行うため、コメント総数がわかった時点でスコアを格納するスコア情報格納メモリ３１（Score[N]）をコメント分析部３内に確保する。さらに、Score[N]の値全てに０を初期化する。

ステップ１１０４）ループカウンタ（ｉ）を初期化（ｉ＝１）する。

ステップ１１０５）ｉ番目のコメントと映像構造化情報蓄積部７の映像構造化情報との対応付けの判定を行う。コメント情報には、そのコメントの注目先として、映像中の登場オブジェクト、台詞、その他のいずれかのラベリング情報が含まれている。それを参照することで、そのコメントが付与された時点付近のどの映像構造化情報に注目したのかを判定することができる。

ステップ１１０６）スコア加算区間△ｔの間に含まれる映像構造化情報に、ステップ１１０５によって判定された注目領域には、高いスコアを、その他の部分には、低いスコアを加算する。つまり、登場オブジェクトに注目している場合は、その登場オブジェクトが出現している区間に高いスコアを設定する。台詞に注目している場合は、その台詞が話されている区間に高いスコアを設定する。その他の場合はスコア加算処理は行わない。

このスコア加算処理を行う場合、前述の第２の実施例や第３の実施例で用いたような重み付け処理を組み合わせてもよい。

ステップ１１０７）全てのコメントの処理が終了していれば、ステップ１１０９に移行し、終了していなければステップ１１０８に移行する。

ステップ１１０８）ｉをインクリメントし、ステップ１１０５に移行し、次のコメント処理を行う。

ステップ１１０９）全てのコメントを処理し終えたので、得られたスコア情報（Score［N］）を代表画像出力部４に出力する。

代表画像出力部の処理は第２の実施例と同様である。

［第５の実施例］
本実施例では、映像構造化情報から多層構造で、映像コンテンツ内において登場オブジェクトが映っている区間や、台詞を言っている区間のサブ区間を定義しておき、視聴者がどのサブ区間に注目してコメントを書いたのかを対応付けることで、サブ区間に対してスコアリングする。その結果、視聴者間で最も注目されているサブ区間を決定し、選択されたサブ区間の種別に応じて代表画像を出力するものである。

ここで、サブ区間とは、前述の第４の実施例の図１３に示す「Oa1」「Oa2」「Ob1」「Ob2」「Va1」「Va2」「Vb1」「Vb2」などのことを指す。

本実施例の代表画像選出装置の構成は、前述の第４の実施例の図１２に示す構成と同様である。

以下に、本実施例の動作を説明する。

図１６は、本発明の第５の実施例のコメント分析処理のフローチャートである。

ステップ１２０１）コメント分析部３は、分析対象区間内の映像構造化情報を映像構造化蓄積部７から抽出する。本実施例では、図１３に示すように、映像構造化情報として、登場オブジェクトが映っている区間と、台詞を発話している区間の２つの映像構造化情報を別々のレイヤでサブ区間として定義していることとする。

ステップ１２０２）各サブ区間のスコアを格納するためのスコア情報格納メモリ３１をコメント分析部３内に確保する。図１３を用いて説明すると、「Oa1」「Oa2」「Ob1」「Ob2」「Va1」「Va2」「Vb1」「Vb2」のそれぞれのサブ区間に対して、スコア情報格納メモリ３１に格納する。その例を図１７に示す。そのスコア情報格納メモリ３１の累積スコア値を全て０に初期化する。

ステップ１２０３）分析対象区間内に付与されているコメント群を、コメント蓄積部１より抽出する。

ステップ１２０４）抽出されたコメントの総数をカウントし、コメント総数をＮとする。

ステップ１２０５）ループカウンタの値ｉを初期化（ｉ＝１）する。

ステップ１２０６）ｉ番目のコメントと映像構造化情報との対応付けの判定を行う。前述の第４の実施例と同様に、コメント情報には、そのコメントの注目先として、映像中のサブ区間に注目してコメントを付与したのかを、視聴者がラベリングしているものとする。このラベリング情報を参照することで、分析対象のコメントがどのサブ区間に注目したのかを判定することができる。

ステップ１２０７）ｉ番目のコメントが注目しているサブ区間に対してスコア加算処理（＋１）を行う。この際、前述の第２・第３の実施例で用いたコメント内容に応じた重み付け処理をして、サブ区間にスコア加算処理をしてもよい。

ステップ１２０８）全てのコメントを処理し終えたかを判定し、終了した場合には、ステップ１２１０に移行し、終了していない場合にはステップ１２０９に移行する。

ステップ１２０９）ｉをインクリメントし、ステップ１２０６に移行し、次のコメント処理を行う。

ステップ１２１０）全てのコメントを処理し終えたので、得られたサブ区間毎のスコア情報を代表画像出力部４に出力する。

代表画像出力部４では、スコア分析部３から受け取ったサブ区間のスコア情報からスコアを昇順にソートし、最も高いスコアを獲得したサブ区間を算出する。図１７に示すようなスコア情報の場合には、最もスコアの高いサブ区間として、「Va1」が選択されることになる。

選択されたサブ区間が、登場オブジェクトの映っている区間の場合、その区間内で、対象の登場オブジェクトが最もよく表れたフレームを代表画像として出力する。実際に選ばれるフレームとしては、事前に手動で選択しておく方法、オブジェクトが人物である場合、既存の顔認識技術を用いて、顔が最も大きく表示されたフレームを出力する手法、また、オブジェクトの動きベクトルを算出し、オブジェクトが最もフレームの中央に位置するフレームを、フレーム画像として選択する方法などが考えられる。

選択されたサブ区間が台詞や音の区間の場合、その区間内での音で最も盛り上がったフレームを出力する。最も盛り上がったフレームは、その区間の音情報のパワーが最も高くなった時点のフレーム画像である。

代表画像出力部４は、対象のフレーム画像を映像情報蓄積部５から抽出し、出力する。

また、他の実施例として、上記の第１〜第５の実施例をいくつか組み合わせてスコアリングする手法が考えられる。例えば、詳述しないが、コメントの重み付け処理に、コメント評価辞書と映像構造化情報を併用する手法等がある。

また、本発明は、上記の図４、図５、図８、図１１、図１５、図１６のフローチャートに示す動作をプログラムとして構築し、代表画像選出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、登録されたコメントと映像とを同期させて提示するシステムに適用可能である。

本発明の原理説明図である。本発明の原理構成図である。本発明の一実施の形態における代表画像選定装置の構成図である。本発明の一実施の形態における動作の概要を示すフローチャートである。本発明の第１の実施例のコメント分析処理のフローチャートである。本発明の第１の実施例の代表画像出力部の優先度テーブル例である。本発明の第２の実施例の時間幅を持たせたスコアリング処理の事前設定例である。本発明の第２の実施例のコメント分析処理のフローチャートである。本発明の第３の実施例の代表画像選定装置の構成図である。本発明の第３の実施例のコメント評価辞書の例である。本発明の第３の実施例のコメント分析処理のフローチャートである。本発明の第４の実施例及び第５の実施例の代表画像選定装置の構成図である。本発明の第４の実施例の映像構造化情報の例である。本発明の第４の実施例の映像構造化情報を用いたスコア加算の例である。本発明の第４の実施例のコメント分析処理のフローチャートである。本発明の第５の実施例のコメント分析処理のフローチャートである。本発明の第５の実施例のスコア情報格納メモリの内容を示す図である。

符号の説明

１分析対象区間入力手段、分析対象区間入力部
２コメント蓄積手段、コメント蓄積部
３コメント分析手段、コメント分析部
４代表画像出力手段、代表画像出力部
５映像情報蓄積手段、映像情報蓄積部
６コメント評価辞書蓄積部
７映像構造化情報蓄積部
１０入力装置
２０出力装置
３１スコア情報格納メモリ

Claims

映像を視聴している時に、視聴者がコメント付与の指示を行うことで、注目する映像に対してコメントを付与することができ、記憶手段に登録されたコメントを映像と同期させて提示する映像視聴システムにおいて、代表画像を選出する代表画像選出方法において、
代表画像を選択する対象となる映像区間を入力する映像区間入力ステップと、
前記映像区間に含まれるコメント群を、コメントが付与された時刻とコメント文字列を含むコメント群が格納されたコメント蓄積手段から読み出すコメント抽出ステップと、
前記映像区間に含まれるコメント群を分析し、映像の各フレームに対してスコアリングし、各フレーム毎にスコアリングの値をスコア情報格納手段に格納するコメント分析ステップと、
前記スコア情報格納手段の各フレーム毎のスコアリングの値に基づいて前記フレームから代表画像を決定し、該代表画像を映像情報蓄積手段から抽出して出力装置に出力する代表画像出力ステップと、
を行うことを特徴とする代表画像選定方法。
前記コメント分析ステップにおいて、
前記コメントが付与された時刻とコメント文字列を含むコメント群について、映像コンテンツに対して関連性の高い固有名詞を格納するコメント評価辞書記憶手段を参照して、該コメント毎のコメント文字列中の固有名詞の出現回数に基づいて、映像の各フレームにスコアリングする請求項１記載の代表映像選定方法。
前記コメント分析ステップにおいて、
前記コメントが付与された時刻よりも△ｔ（予め定めた近傍フレームの範囲）だけ前に幅を持たせてスコアリングする請求項１記載の代表画像選定方法。
映像を視聴している時に、視聴者がコメント付与の指示を行うことで、注目する映像に対してコメントを付与することができ、記憶手段に登録されたコメントを映像と同期させて提示する映像視聴システムにおいて、代表画像を選出する代表画像選出装置であって、
コメントが付与された時刻とコメント文字列を含むコメント群が格納されたコメント蓄積手段と、
映像が蓄積された映像情報蓄積手段と、
入力装置から入力された代表画像を選択する対象となる映像区間を取得する映像区間入力手段と、
前記映像区間に含まれるコメント群を、前記コメント蓄積手段から読み出し、該映像区間に含まれるコメント群を分析し、映像の各フレームに対してスコアリングし、スコア情報格納手段に格納するコメント分析手段と、
前記スコア情報格納手段に格納されているフレーム毎にスコアリングされた値に基づいて、前記フレームから代表画像を決定し、該代表画像を前記映像情報蓄積手段から抽出して出力装置に出力する代表画像出力手段と、
を有することを特徴とする代表画像選定装置。
映像コンテンツに対して関連性の高い固有名詞を格納するコメント評価辞書記憶手段を更に有し、
前記コメント分析手段は、
前記コメントが付与された時刻とコメント文字列を含むコメント群について、前記コメント評価辞書記憶手段を参照して、該コメント毎のコメント文字列中の固有名詞の出現回数に基づいて、映像の各フレームにスコアリングする手段を含む請求項４記載の代表画像選定装置。
前記コメント分析手段は、
前記コメントが付与された時刻よりも△ｔ（予め定めた近傍フレームの範囲）だけ前に幅を持たせてスコアリングする請求項４記載の代表画像選定装置。
請求項４乃至６のいずれか１項に記載の代表画像選定装置を構成する各手段としてコンピュータを機能させるための代表画像選定プログラム。