JP5302855B2

JP5302855B2 - 代表静止画像抽出装置およびそのプログラム

Info

Publication number: JP5302855B2
Application number: JP2009254049A
Authority: JP
Inventors: 雅規佐野; 真人藤井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-11-05
Filing date: 2009-11-05
Publication date: 2013-10-02
Anticipated expiration: 2029-11-05
Also published as: JP2011101173A

Description

本発明は、ニュース番組映像から、ニュース内容の代表となる静止画像を抽出する代表静止画像抽出装置およびそのプログラムに関する。

近年、ニュース番組映像を蓄積装置に蓄積し、当該映像を再利用するため、蓄積されたニュース番組映像から所望の映像を探索するためのニュース閲覧システムが種々提案されている（特許文献１、非特許文献１参照）。

一般に、ニュース番組映像は、スタジオ内のアナウンサとタイトルとからなるシーンで区切られる映像区間で１つのニュース内容を構成している。この区切られた映像区間は、「ストーリ」または「トピック」と呼ばれ、前記したようなニュース閲覧システムにおいては、「ニュース項目」とも呼ばれている。このニュース項目は、ニュースの内容を扱う基本単位であり、ニュースの内容をコンパクトに提示する画像や、ニュースの内容を表すタイトル文字や、関連する映像・画像を含んでいる場合が多い。

従来のニュース閲覧システムでは、ニュース番組映像のニュース項目（トピック）の先頭のフレームを当該ニュース項目の代表の静止画像として、サムネイル形式で提示している。これによって、従来のニュース閲覧システムでは、サムネイル形式で提示された静止画像から、操作者が所望のニュース項目を検索することを可能にしている。

特開２００７−１５０７２３号公報

井出ほか、"大規模ニュース映像コーパスの意味構造解析"、信学技報、ＰＲＭＵ、パターン認識・メディア理解、１０３（２９６）、ｐｐ．１３−１８

前記したように、従来のニュース閲覧システムでは、蓄積装置に蓄積したニュース番組映像から所望の映像を検索するために、ニュース番組映像のニュース項目（トピック）の先頭のフレームを当該ニュース項目の代表の静止画像として提示している。
しかし、このニュース項目の先頭のフレームの画像は、その多くが、スタジオ内のアナウンサとタイトルとからなるシーンである。この場合、アナウンサの画像そのものは、ニュース項目の内容を把握するための指標とはならないため、操作者は、タイトルである文字列のみから、その内容を把握する必要がある。
すなわち、従来のニュース閲覧システムでは、ニュース番組映像から所望の映像を検索する際に、ニュース項目の内容を映像の一シーンとして視覚的に把握することができないという問題がある。

本発明は、以上のような問題点に鑑みてなされたものであり、ニュース番組映像のニュース項目内から、ニュースの内容を視覚的に把握することが可能な画像を代表静止画像として抽出する代表静止画像抽出装置およびそのプログラムを提供することを課題とする。

本発明は、前記課題を解決するために創案されたものであり、まず、請求項１に記載の代表静止画像抽出装置は、映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出する代表静止画像抽出装置であって、ショット境界検出手段と、スタジオ外ショット検出手段と、代表候補ショット検出手段と、静止画像特定手段と、を備え、前記代表候補ショット検出手段が、サイレントショット検出手段を備える構成とした。

かかる構成において、代表静止画像抽出装置は、ショット境界検出手段によって、映像信号の各フレームの画像特徴量、例えば、色や輝度のヒストグラム、エッジ、動きベクトル等の特徴量に基づいて、ニュース番組映像の切り替わりとなるショットの境界を検出する。これによって、ニュース番組映像が、映像の特徴が変化する単位で、複数のシーンの切り替わり等の意味のある内容となるショットに区分されることになる。

そして、代表静止画像抽出装置は、スタジオ外ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出する。すなわち、スタジオ外ショット検出手段は、スタジオが日々変化することがないことを利用し、例えば、スタジオを撮影した画像の予め定めた領域内の色（色分布等）を判定することで、ショットのフレーム画像にスタジオが映っている否かを判定する。そして、スタジオ外ショット検出手段は、ショットに、スタジオが映っている場合に、当該ショットは、スタジオのショットであるとして除外し、他のショットをスタジオ外ショットとして検出する。

そして、代表静止画像抽出装置は、代表候補ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する。すなわち、代表候補ショット検出手段は、サイレントショット検出手段を備えることで、ショットから、音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを代表候補ショットとして検出する。これによって、ニュース番組映像内から、発話がされていない映像のみのショット、すなわち、出来事がどこでどのように発生しているのかを示す状況を撮影したショットが検出されることになる。

そして、代表静止画像抽出装置は、静止画像抽出手段によって、代表候補ショット検出手段で代表候補ショットが１以上検出された場合、当該検出された代表候補ショットから所定番目（例えば、先頭フレーム）のフレーム画像を代表静止画像として抽出し、代表候補ショットが検出されなかった場合、ニュース項目最初のスタジオ外ショットから所定番目（例えば、先頭フレーム）のフレーム画像を代表静止画像として抽出する。
これによって、代表静止画像抽出装置は、出来事がどこでどのように発生しているのかを示す状況を撮影したサイレントショットから、代表静止画像を抽出することができる。

また、請求項２に記載の代表静止画像抽出装置は、請求項１に記載の代表静止画像抽出装置において、代表候補ショット検出手段が、モノローグショット検出手段をさらに備える構成とした。

かかる構成において、代表静止画像抽出装置は、代表候補ショット検出手段のモノローグショット検出手段によって、複数のショットから、映像信号のフレームごとの予め定めた肌色領域の割合と、音声信号の特定人物の音声特徴量とに基づいて、特定人物以外の人物が映像内で発話しているショットであるモノローグショットを代表候補ショットとして検出する。すなわち、代表候補ショット検出手段は、モノローグショット検出手段を備えることで、ショットのフレームごとに、肌色領域の割合によって、フレーム内に人物が映っていることを判定し、当該ショットに対応する音声信号の特徴量と特定人物の音声特徴量とを比較することで、当該人物が特定人物でないことを判定する。これによって、ニュース番組映像内から、特定人物以外の人物が主張等を行っているショットが検出されることになる。

さらに、請求項３に記載の代表静止画像抽出装置は、請求項１または請求項２に記載の代表静止画像抽出装置において、代表候補ショット検出手段が、特徴量により、被写体が主に映っている主被写体ショットを検出する主被写体ショット検出手段をさらに備える構成とした。

かかる構成において、代表静止画像抽出装置は、代表候補ショット検出手段の主被写体ショット検出手段によって、複数のショットから、予め学習した比較的無地の背景に、被写体が映っている画像のブロックごとの特徴量と、映像信号のフレームのブロックごとの特徴量とが類似するか否かにより、当該ショット内の背景に、主に被写体が映っているショットである主被写体ショットを代表候補ショットとして検出する。すなわち、代表候補ショット検出手段は、主被写体ショット検出手段を備えることで、ショットのフレームごとに、比較的無地の背景に、被写体が映っている画像を検出し、当該画像を含んだ主被写体ショットを代表候補ショットとして検出する。

また、請求項４に記載の代表静止画像抽出装置は、請求項１から請求項３のいずれか一項に記載の代表静止画像抽出装置において、静止画像抽出手段が、代表候補ショット検出手段において、代表候補ショットが複数検出された場合、時系列で最先に検出された代表候補ショットから所定番目のフレーム画像を大代表静止画画像として抽出する構成とした。

かかる構成において、代表静止画像抽出装置は、代表候補ショットが複数検出された場合に、ニュース番組映像から、ニュース番組映像の内容を映像の一シーンとして視覚的に把握することが可能なショットから、１つの場面のみを代表静止画像として抽出することができる。

また、請求項５に記載の代表静止画像抽出プログラムは、映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出するために、コンピュータを、ショット境界検出手段、スタジオ外ショット検出手段、代表候補ショット検出手段、静止画像特定手段、として機能させ、前記代表候補ショット検出手段が、複数のショットから、音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを代表候補ショットとして検出する構成とした。
る構成とした。

かかる構成において、代表静止画像抽出プログラムは、ショット境界検出手段によって、映像信号の各フレームの画像特徴量、例えば、色や輝度のヒストグラム、エッジ、動きベクトル等の特徴量に基づいて、ニュース番組映像の切り替わりとなるショットの境界を検出する。

そして、代表静止画像抽出プログラムは、スタジオ外ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出する。

そして、代表静止画像抽出プログラムは、代表候補ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを代表候補ショットとして検出する。

そして、代表静止画像抽出プログラムは、静止画像抽出手段によって、代表候補ショット検出手段で代表候補ショットが１以上検出された場合、当該検出された代表候補ショットから所定番目（例えば、先頭フレーム）のフレーム画像を代表静止画像として抽出し、代表候補ショットが検出されなかった場合、スタジオ外ショットから所定番目（例えば、先頭フレーム）のフレーム画像を代表静止画像として抽出する。

本発明は、以下に示す優れた効果を奏するものである。
請求項１，５に記載の発明によれば、ニュース番組映像から、アナウンサや出演者が発話していないサイレントショットの一部を代表静止画像として抽出することができる。また、本発明は、従来のように、アナウンサの画像やタイトルの文字列を抽出することなく、ニュース番組映像内において、内容を視覚的に把握することが可能な映像のシーンを抽出することができる。これにより、本発明によれば、ニュース番組映像のニュース項目をコンパクトに、しかも分かり易くユーザに提示することが可能な画像を抽出することができる。

請求項２に記載の発明によれば、ニュース番組映像から、特定人物とは異なる人物が映像内で発話しているモノローグショットの一部を代表静止画像として抽出することができる。これによって、本発明は、ニュース番組映像内において、特定人物（例えば、アナウンサ）以外の人物である出演者が、中心となって発話している映像のシーンを、内容を視覚的に把握することが可能な映像のシーンとして抽出することができる。

請求項３に記載の発明によれば、ニュース番組映像から、予め学習した比較的無地の背景に、被写体が映っている主被写体ショットの一部を代表静止画像として抽出することができる。なお、当該ショットは、被写体を際立たせる映像効果の１つであり、そこから抽出した代表静止画像は、内容を視覚的に把握することが可能な映像のシーンに相当する。これによって、本発明は、ニュース番組映像内において、内容を視覚的に把握することが可能な映像のシーンを抽出することができる。

請求項４に記載の発明によれば、ニュース番組映像から、複数の代表静止画像を抽出した場合、さらに、大代表の静止画像を特定することができる。これによって、本発明は、ニュース番組映像から、１枚の大代表静止画像と、複数の代表静止画像とを、階層的に抽出することができ、例えば、ニュース閲覧システムにおいて検索を行う際の画像（サムネイル）を階層的に検索者に提示することができる。さらに、本発明は、端的に内容を表す１枚の大代表静止画像を提示することができるため、大量のニュース番組映像から、効率よく所望のニュース項目を探索することが可能になる。

本発明の実施形態に係る代表静止画像抽出装置が抽出する代表静止画像の内容を説明するための説明図である。本発明の実施形態に係る代表静止画像抽出装置の構成を示すブロック図である。本発明の実施形態に係る代表静止画像抽出装置のサイレントショット検出手段の構成を示すブロック図である。本発明の実施形態に係る代表静止画像抽出装置のモノローグショット検出手段の構成を示すブロック図である。本発明の実施形態に係る代表静止画像抽出装置の主被写体ショット検出装置の構成を示すブロック図である。本発明の実施形態に係る代表静止画像抽出装置の主被写体ショット検出装置の他の構成を示すブロック図である。本発明の実施形態に係る代表静止画像抽出装置の全体動作を示すフローチャートである。本発明の実施形態に係る代表静止画像抽出装置のスタジオ外ショット検出動作を示すフローチャートである。本発明の実施形態に係る代表静止画像抽出装置の代表候補ショット検出動作を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。
［本発明の概要］
まず、本発明の概要について説明する。
通常、ニュース番組映像は、人々の生活に関する出来事を伝えることを役割としており、その出来事がどこでどのように発生しているのかを映像（導入・見せる映像）として伝えている。また、それ以外にも、ニュース番組映像は、伝えるべき対象（主題）が目に見えるものである場合、そのもの（人物、物）を被写体として撮影した映像（主被写体映像）として伝えている。さらに、ニュース番組映像は、伝えるべき対象（主題）が目に見えるものではない場合、人物が主張（訴え）を行っている場面を映像（人物の主張・訴え映像）として伝えている。

例えば、ニュース番組映像（ニュース項目）は、図１に示すような映像で構成されている。図１で示した映像の例は、ニュース項目の一例として、国会に関連するニュース番組映像を示している。

フレームＦ_１の画像は、通常、ニュース項目の先頭に現れるスタジオ内のアナウンサとタイトルとからなるシーンを示す画像である。
フレームＦ_２の画像は、出来事がどこでどのように発生しているのかを示す映像（導入・見せる映像）の１シーンを示す画像の例である。図１では、フレームＦ_２の画像として、出来事の舞台となっている国会議事堂を撮影した映像の１シーンの例を示している。
フレームＦ_３の画像は、被写体を主に撮影した映像（主被写体映像）の１シーンを示す画像の例である。図１では、フレームＦ_３の画像として、テープレコーダにスポットライトを当てて、テープレコーダを再生している映像の１シーンの例を示している。
フレームＦ_４の画像は、人物が主張（訴え）を行っている映像（人物の主張・訴え映像）の１シーンを示す画像の例である。図１では、フレームＦ_４の画像として、国会中継で法案を審議し、国会議員が質疑応答を行っている例を示している。

このように、ニュース番組映像（ニュース項目）内には、簡易、かつ、コンパクトにニュース内容の特徴となるシーンが複数存在する。
そこで、本発明に係る代表静止画像抽出装置は、ニュース項目内において存在する「導入・見せる映像」、「主被写体映像」、「人物の主張・訴え映像」の各ショットの１シーンを当該ニュース項目内の代表静止画像として抽出する。

なお、本発明に係る代表静止画像抽出装置は、「導入・見せる映像」として、誰も発話を行っていない映像（サイレントショット）を利用し、「主被写体映像」として、比較的無地の背景に、被写体が映っている映像（主被写体ショット）を利用し、「人物の主張・訴え映像」として、人物の顔がアップで撮影され、かつ、人物が主として発話している映像（モノローグショット）を利用して、代表静止画像を抽出することとする。
以下、本発明の実施形態に係る代表静止画像抽出装置の構成および動作について説明を行う。

［代表静止画像抽出装置の構成］
最初に、図２を参照して、本発明の実施形態に係る代表静止画像抽出装置の構成について説明を行う。

代表静止画像抽出装置１は、ニュース番組映像（ニュース項目）から当該映像内で代表となる画像を代表静止画像として抽出するものである。ここでは、代表静止画像抽出装置１は、ショット境界検出手段１０と、スタジオ外ショット検出手段２０と、代表候補ショット検出手段３０と、特徴データ記憶手段４０と、静止画像抽出手段５０と、を備えている。

なお、代表静止画像抽出装置１は、予めニュース番組の一部分（トピック）であるニュース項目ごとにファイルデータとして書き込まれた蓄積装置２が接続されているものとする。このニュース項目であるファイルデータは、映像信号、音声信号およびタイムコード等の付随データを含み、例えば、ＭＰＥＧの映像音声ファイルである。

ショット境界検出手段１０は、ニュース番組映像（ニュース項目）を入力し、映像信号の各フレームの画像特徴量に基づいて、ニュース番組映像の切り替わりとなるショットの境界を検出するものである。なお、ここで、ショットとは、映像内の場面が切り替わる１つの映像区間をいう。

このショット境界検出手段１０は、順次、蓄積装置２から入力されるフレームの画像特徴量を求め、近接（隣接）するフレーム間の画像特徴量の類似度により、ショットの境界を求める。例えば、ショット境界検出手段１０は、画像特徴量として、色や輝度のヒストグラム、エッジ、動きベクトル等の特徴量を用いることができる。そして、ショット境界検出手段１０は、フレーム間の画像特徴量の差分が予め定めた閾値よりも大きい場合に、後続するフレームにおいて、ショットが切り替わったと判定し、当該フレームをショットの境界として検出する。

なお、このショットの境界を検出する手法は、一般的な手法を用いることができる。例えば、「河合ほか、“逐次的な特徴算出によるディゾルブ，フェードを含むショット境界の高速検出手法”、電子情報通信学会論文誌Ｄ、Ｖｏｌ．Ｊ９１−Ｄ、Ｎｏ．１０ｐｐ．２５２９−２５３９（２００８）」に記載されている手法を用いることができる。
このように検出されたショットの境界を示す境界情報（例えば、フレーム番号等）は、スタジオ外ショット検出手段２０および代表候補ショット検出手段３０に出力される。

スタジオ外ショット検出手段２０は、ショット境界検出手段１０で検出された境界間の各ショットから、特定人物の顔特徴量に基づいて、当該特定人物が映っていないショットを、スタジオ外ショットとして検出するものである。

このスタジオ外ショットは、後記する代表候補ショット検出手段３０において、当該ニュース項目の代表静止画像を抽出するためのショット（代表候補ショット）が検出されなかった場合に、代表静止画像を抽出するためのショットとなるものである。
ここで、特定人物とは、ニュース番組映像に登場する当該ニュース番組を制作する放送局関係者、例えば、スタジオ内のアナウンサ等である。以下、特定人物の例をアナウンサとして説明する。

このスタジオ外ショット検出手段２０は、ショット境界検出手段１０で検出された境界間の各ショットにおいて、当該ショットのフレームの画像（フレーム画像）ごとに、スタジオが映っているか否かを判定し、スタジオが映っているフレーム画像を有さないショットをスタジオ外ショットとして検出する。

このフレーム画像内にスタジオが映っているか否かの判定は、スタジオが日々変化するものではないため、スタジオを色の特徴量を用いて判定することができる。ここでは、スタジオ外ショット検出手段２０は、後記する特徴データ記憶手段４０に記憶されているスタジオ色特徴量４１（例えば、予め定めた領域の色分布等）に類似する領域をフレーム画像内で探索することで、スタジオが映っているか否かを判定する。

なお、スタジオを映した画像には、アナウンサも映っていることから、スタジオ外ショット検出手段２０は、さらに、フレーム画像内に人物の顔が映っていることを検出することとしてもよい。このフレーム画像内に人物が映っているか否かの判定は、一般的な顔認識技術を用いて行うことができる。ここでは、スタジオ外ショット検出手段２０は、後記する特徴データ記憶手段４０に記憶されている人物の顔特徴量４２（例えば、眼、鼻、口等の特徴点のテンプレート、肌色情報等）に類似する領域をフレーム画像内で探索することで、人物が映っていることを判定する。また、この顔領域の判定は、アナウンサがスタジオ内で固定の位置に存在する場合、フレーム画像内で、予め定めた範囲（例えば、画像の左半分等）で顔領域を検出することとしてもよい。

なお、スタジオ外ショット検出手段２０は、入力されるすべてのショットにおいて、スタジオ外ショットを検出する必要はなく、時系列で最先のスタジオ外ショットを検出した段階で、スタジオ外ショットの検出を中止する。

このように、スタジオ外ショット検出手段２０は、複数のショットから、最先のスタジオ外ショットを検出し、検出したスタジオ外ショットを静止画像抽出手段５０に通知する。例えば、スタジオ外ショット検出手段２０は、検出したスタジオ外ショットの先頭のフレーム番号を静止画像抽出手段５０に出力することで通知を行う。

なお、スタジオ外ショット検出手段２０は、ショット内のすべてのフレーム画像において、スタジオの画像を検出する必要はない。例えば、最大でもショットの先頭フレーム画像から、予め定めたフレーム数分、あるいは、予め定めたフレーム間隔（数フレーム間隔等）で検出処理を行うこととしてもよい。また、スタジオ外ショット検出手段２０は、ショット内で、スタジオが映ったフレーム画像を検出した段階で、検出処理を中止することとする。

代表候補ショット検出手段３０は、ショット境界検出手段１０で検出された境界間の各ショットから、代表静止画像の候補となる画像を抽出するための代表候補ショットを検出するものである。ここでは、代表候補ショット検出手段３０は、サイレントショット検出手段３１と、モノローグショット検出手段３２と、主被写体ショット検出手段３３とを備えている。

サイレントショット検出手段３１は、ショット境界検出手段１０で検出された境界間の各ショットから、音声信号の音声レベルに基づいて、発話がなされていない無発話のショット（サイレントショット）を代表候補ショットとして検出するものである。すなわち、このサイレントショット検出手段３１は、図１で説明した「導入・見せる映像」のショットをニュース番組映像（ニュース項目）内で検出するものである。

ここで、図３を参照（適宜図２参照）して、サイレントショット検出手段３１の構成について説明する。サイレントショット検出手段３１は、音声区間検出手段３１１と、サイレントショット判定手段３１２とを備えている。

音声区間検出手段３１１は、ショット境界検出手段１０で検出された境界間の各ショットの映像区間内において、当該映像区間の音声信号の音声レベルに基づいて人物が発話している音声区間を検出するものである。
この音声信号から、音声区間を検出する手法は、一般的な音声区間検出手法を用いることができる。例えば、音声区間検出手段３１１は、ショットに対応する音声信号において、一定の音声レベル（振幅）を超える音声信号について、振幅の零交差数が予め定めた数を越えるタイミングで音声区間の始点を検出し、零交差数が予め定めた数以下となったタイミングで音声区間の終点を検出する。
この音声区間検出手段３１１における音声区間の検出の有無は、サイレントショット判定手段３１２に出力される。

なお、ここでは、音声区間を音声信号の振幅と零交差数とに基づいて検出したが、その手法は一般的なものでよく、例えば、ガウス混合分布モデル（ＧＭＭ；Gaussian mixture model）を用い、予め定めた音声ＧＭＭおよび非音声ＧＭＭと、音声信号の所定時間当たりのＧＭＭとを比較することで、音声区間を検出することとしてもよい。
また、ここでは、音声区間の終点まで検出したが、始点のみの検出によって、音声区間を検出したと判定してもよい。

サイレントショット判定手段３１２は、音声区間検出手段３１１における音声区間の検出結果に基づいて、当該ショットが、人物が発話していないサイレントショットであるか否かを判定するものである。
すなわち、サイレントショット判定手段３１２は、ショット境界検出手段１０で音声区間が検出されなかった場合、当該ショットを人物が発話していないサイレントショットと判定し、音声区間が検出された場合、当該ショットをサイレントショットではないと判定する。

このサイレントショット判定手段３１２は、サイレントショットとして判定したショットの境界を示す境界情報（例えば、当該ショットの先頭のフレーム番号等）を、サイレントショットが検出された旨を示す検出情報とともに、静止画像抽出手段５０に出力する。
このように、サイレントショット検出手段３１は、人物が発話していないサイレントショットを検出し、代表候補ショットとして、静止画像抽出手段５０に通知する。
図２に戻って、代表静止画像抽出装置１の構成について説明を続ける。

モノローグショット検出手段３２は、ショット境界検出手段１０で検出された境界間の各ショットから、当該ショット内のアナウンサ以外の人物が映像内で発話しているショット（モノローグショット）を代表候補ショットとして検出するものである。すなわち、このモノローグショット検出手段３２は、図１で説明した「人物の主張・訴え映像」のショットをニュース番組映像（ニュース項目）内で検出するものである。

ここで、図４を参照（適宜図２参照）して、モノローグショット検出手段３２の構成について説明する。モノローグショット検出手段３２は、顔画像検出手段３２１と、特定人物外発話判定手段３２２と、モノローグショット判定手段３２３とを備えている。

顔画像検出手段３２１は、ショット境界検出手段１０で検出された境界間の各ショットから、人物の顔が映っているフレーム画像を検出するものである。
この顔画像検出手段３２１は、ショット境界検出手段１０で検出された境界間の各ショットのフレーム画像（例えば、先頭フレーム画像）に、肌色の領域が予め定めた大きさよりも大きく映っている場合に、当該フレーム画像に人物の顔が映っていると判定する。
なお、この顔画像検出手段３２１は、肌色の色情報以外に、後記する特徴データ記憶手段４０に記憶されている人物の顔特徴量４２を参照し、顔領域を探索することで、顔画像の検出精度を高めることとしてもよい。

この顔画像検出手段３２１は、フレーム画像に人物の顔が映っていると判定した場合、その旨を、特定人物外発話判定手段３２２およびモノローグショット判定手段３２３に出力する。一方、フレーム画像に人物の顔が映っていないと判定した場合、顔画像検出手段３２１は、当該ショットの検出処理を終了する。

特定人物外発話判定手段３２２は、顔画像検出手段３２１において人物の顔が映っているフレーム画像が検出された場合に、ショット境界検出手段１０で検出された境界間のショットにおいて、アナウンサ（特定人物）以外の人物が発話しているか否かを判定するものである。

この特定人物外発話判定手段３２２は、ショットの映像区間に対応する音声信号から、当該ショットにおける発話音声の話者が、アナウンサ（特定人物）であるか否かを話者認識し、アナウンサの発話音声ではないと判定した場合に、アナウンサ以外の話者が発話していると判定する。

この音声信号から、話者を認識する話者認識の手法は、一般的な話者認識の技術を用いることができる。ここでは、特定人物外発話判定手段３２２は、ショットの音声信号の音声区間における特徴量と、後記する特徴データ記憶手段４０に記憶されているアナウンサの音声の特徴量（特定人物音声特徴量）４３とを比較することで、ショットの話者がアナウンサであるか否かを判定する。この音声の特徴量は、例えば、音声の周波数のスペクトル包絡（ケプストラム）等である。

この特定人物外発話判定手段３２２は、ショット内において、アナウンサ（特定人物）以外の話者が発話しているか否かを示す判定結果をモノローグショット判定手段３２３に出力する。

モノローグショット判定手段３２３は、顔画像検出手段３２１の検出結果および特定人物外発話判定手段３２２の判定結果に基づいて、当該ショットが、アナウンサ以外の人物が映像内で発話しているモノローグショットであるか否かを判定するものである。
すなわち、モノローグショット判定手段３２３は、顔画像検出手段３２１において、ショット内に人物の顔が映っているフレーム画像が検出され、かつ、特定人物外発話判定手段３２２において、アナウンサ以外の話者が発話していると判定されたショットをモノローグショットであると判定する。

このモノローグショット判定手段３２３は、モノローグショットとして判定したショットの境界を示す境界情報（例えば、当該ショットの先頭のフレーム番号等）を、モノローグショットが検出された旨を示す検出情報とともに、静止画像抽出手段５０に出力する。

このように、モノローグショット検出手段３２は、アナウンサ（特定人物）以外の人物が主に発話しているモノローグショットを検出し、代表候補ショットとして、静止画像抽出手段５０に通知する。

なお、映像からモノローグショットを検出する手法は、一般的な手法を用いることができる。例えば、「せき岡ほか、“ニュース映像中のモノローグシーン検出による発言集の自動作成”、信学技報、ＰＲＭＵ、パターン認識・メディア理解、１０５（６７４）、ｐｐ．２７７−２８２」に記載されている手法を用いることができる。
図２に戻って、代表静止画像抽出装置１の構成について説明を続ける。

主被写体ショット検出手段３３は、ショット境界検出手段１０で検出された境界間の各ショットから、ショット内に被写体（人物、物）が主に撮影されているショット（主被写体ショット）を代表候補ショットとして検出するものである。すなわち、主被写体ショット検出手段３３は、図１で説明した「主被写体映像」のショットをニュース番組映像（ニュース項目）内で検出するものである。

ここで、図５を参照（適宜図２参照）して、主被写体ショット検出手段３３の構成について説明する。主被写体ショット検出手段３３は、ブロック分割手段３３１と、特徴量抽出手段３３２と、主被写体画像判定手段３３３と、人物画像判定手段３３４と、主被写体ショット判定手段３３５とを備えている。

ブロック分割手段３３１は、ショットのフレームごとに、当該フレームの画像（フレーム画像）を、所定の大きさのブロック（ブロック画像）に分割するものである。例えば、このブロックの大きさは、８×８画素とする。また、このブロックは、ＭＰＥＧのマクロブロックを用いてもよい。このブロック分割手段３３１で分割されたブロックは、特徴量抽出手段３３２に出力される。

特徴量抽出手段３３２は、ブロック分割手段３３１で分割されたブロックの特徴量を抽出するものである。この特徴量は、画像の特徴量であれば、色情報、エッジ情報等、特に限定するものではないが、ここでは、周波数成分の大きさを表すＤＣＴ（Discrete Cosine Transform）値を用いることとする。

すなわち、特徴量抽出手段３３２は、入力されたブロック画像を離散コサイン変換（ＤＣＴ）することで、画素値を周波数領域の値に変換する。これによって、ブロックの周波数の特性が特徴量として抽出されることになる。なお、この特徴量は、例えば、フレーム画像の左上から、右下に向かって順に配列したベクトル（特徴量ベクトル）とする。
このように抽出されたブロックの特徴量は、フレーム単位で主被写体画像判定手段３３３に出力される。

主被写体画像判定手段３３３は、特徴量抽出手段３３２で抽出された特徴量に基づいて、フレーム画像が、比較的無地の背景に、被写体が主に映っている画像（主被写体画像）であるか否かを判定するものである。
ここでは、主被写体画像判定手段３３３は、特徴量抽出手段３３２で抽出されたフレーム全体のブロックの特徴量（特徴量ベクトル）と、後記する特徴データ記憶手段４０に予め記憶されている主被写体画像の特徴量（主被写体画像特徴量）４４とが類似するか否かにより、当該フレーム画像が主被写体画像であるか否かを判定する。

この主被写体画像判定手段３３３は、サポートベクターマシン（ＳＶＭ）等で構成し、特徴データ記憶手段４０には、ほぼ無地の背景上に被写体が映っている画像の特徴量（特徴量ベクトル）を主被写体画像特徴量４４として学習しておき、フレーム画像が主被写体画像であるか否かを認識することとしてもよい。
この主被写体画像判定手段３３３における判定結果は、人物画像判定手段３３４および主被写体ショット判定手段３３５に出力される。

人物画像判定手段３３４は、主被写体画像判定手段３３３で主被写体画像と判定されたフレーム画像が、人物（例えば、アナウンサ）が主に映った画像（人物画像）であるか否かを判定するものである。すなわち、この人物画像判定手段３３４は、フレーム画像が、主被写体画像であっても、アナウンサ等が主被写体として映っている画像を除外するための判定を行うものである。

この人物画像判定手段３３４は、スタジオ外ショット検出手段２０において説明した手法と同様の手法により、人物が撮影された主被写体画像を判定することができる。すなわち、人物画像判定手段３３４は、特徴データ記憶手段４０に記憶されている人物の顔特徴量４２に類似する領域をフレーム画像内で探索することで、顔領域を特定する。ここで、人物画像判定手段３３４は、顔領域が検出されたフレーム画像を、人物画像と判定する。
この人物画像判定手段３３４における判定結果は、主被写体ショット判定手段３３５に出力される。

なお、映像から主被写体ショットを検出する手法は、一般的な手法を用いることができる。例えば、「佐野ほか、“蓄積されたニュース番組からの画像付きクイズ生成手法の提案”、電子情報通信学会論文誌Ｄ、Ｖｏｌ．Ｊ９２−Ｄ、Ｎｏ．１ｐｐ．１４１−１５２（２００９）」に記載されているスポットライト画像を選択する手法を用いることができる。

主被写体ショット判定手段３３５は、主被写体画像判定手段３３３の判定結果、および、人物画像判定手段３３４の判定結果に基づいて、当該ショットが、被写体が主に撮影されている主被写体ショットであるか否かを判定するものである。
すなわち、主被写体ショット判定手段３３５は、主被写体画像判定手段３３３において、主被写体画像と判定され、かつ、人物画像判定手段３３４において、当該主被写体画像が人物の画像ではないと判定されたフレーム画像を含んだショットを、主被写体ショットと判定する。

この主被写体ショット判定手段３３５は、主被写体ショットとして判定したショットの境界を示す境界情報（例えば、当該ショットの先頭のフレーム番号等）を、主被写体ショットが検出された旨を示す検出情報とともに、静止画像抽出手段５０に出力する。
このように、主被写体ショット検出手段３３は、人物以外の被写体が主に映っている主被写体ショットを検出し、代表候補ショットとして、静止画像抽出手段５０に通知する。

以上、主被写体ショット検出手段３３の構成について説明したが、ショット内に主被写体が主に映っているか否かを検出するには、ショットの映像信号にズーム値（ズーム情報）を付加しておき、当該ズーム値が予め定めた値よりも大きい場合、被写体を主に撮影したショットであり、当該ズーム値が予め定めた値よりも小さい場合、被写体を主に撮影したショットではないと判定することとしてもよい。

ここで、このズーム情報を用いて主被写体ショットを検出する主被写体ショット検出手段の構成について、図６を参照して説明する。
図６に示した主被写体ショット検出手段３３Ｂは、図５で説明した主被写体ショット検出手段３３のブロック分割手段３３１、特徴量抽出手段３３２および主被写体画像判定手段３３３を、主被写体画像判定手段３３３Ｂに替えて構成している。他の構成については、主被写体ショット検出手段３３と同一の構成であるため、同一の符号を付して説明を省略する。

主被写体画像判定手段３３３Ｂは、ショットのフレーム画像ごとに、当該フレーム画像に対応して付されている映像信号のズーム値（ズーム情報）に基づいて、当該フレーム画像が、被写体（人物、物）を主に撮影した画像であるか否かを判定するものである。なお、このズーム値（ズーム情報）は、ニュース番組映像を撮影カメラで撮影した際のズーム値（レンズ倍率等）であって、映像信号のタイムコードに対応付けてられているものとする。
ここでは、主被写体画像判定手段３３３Ｂは、ズーム値が予め定めた値よりも大きい場合、被写体がアップで撮影されている（ズームＩｎ）と判定し、当該フレーム画像を主被写体画像であると判定する。

一方、主被写体画像判定手段３３３Ｂは、ズーム値が予め定めた値よりも小さい場合、被写体がアップで撮影されていない（ズームＯｕｔ）と判定し、当該フレーム画像を主被写体画像ではないと判定する。

この主被写体画像判定手段３３３Ｂにおける判定結果は、人物画像判定手段３３４および主被写体ショット判定手段３３５に出力される。
このように、主被写体ショット検出手段３３Ｂは、人物以外の被写体が主に映っている主被写体ショットを検出し、代表候補ショットとして、静止画像抽出手段５０に通知する。なお、ズーム情報が映像信号に付されていない場合、主被写体ショット検出手段３３Ｂは、入力されたショット映像を直接解析してズーム量を求めてもよいし、主被写体ショット検出手段３３（図５）で説明したように、映像の特徴によって、ショット内に被写体が主に映っているか否かを切り替えて検出することとしてもよい。
図２に戻って、代表静止画像抽出装置１の構成について説明を続ける。

特徴データ記憶手段４０は、代表静止画像抽出装置１において、各ショットがどのような内容のショットであるのかを判定するための種々の特徴データを記憶するもので、ハードディスク等の一般的な記憶装置である。
ここでは、特徴データ記憶手段４０は、スタジオ色特徴量４１、顔特徴量４２、特定人物音声特徴量４３と、主被写体画像特徴量４４とを予め記憶している。

スタジオ色特徴量４１は、ショットのフレーム画像から、スタジオが映っている画像を検出するためのスタジオの色の特徴を示すデータである。通常、ニュース番組においては、スタジオが固定のものであり、色が変化しないことから、スタジオ色特徴量４１は、スタジオを撮影した画像の予め定めた領域の色情報（色分布等）を用いることとする。
このスタジオ色特徴量４１は、スタジオ外ショット検出手段２０において、スタジオの画像を認識する際に利用される。

顔特徴量４２は、画像（フレーム画像）から、人物の顔を検出するための一般的な人物の顔の特徴を示すデータである。例えば、この顔特徴量４２は、人物の眼、鼻、口等の各種形状の特徴点で構成されるテンプレートや、肌色の色情報となるＲＧＢ（赤、緑、青）値、ＨＳＶ（色相、色彩、明度）値の範囲等である。
この顔特徴量４２は、スタジオ外ショット検出手段２０や人物画像判定手段３３４（図５、図６）において、人物の顔を認識する際に利用される。

特定人物音声特徴量４３は、ショットの音声信号から、アナウンサ（特定人物）の音声区間を検出するためのアナウンサの音声の特徴を示すデータである。例えば、音声の周波数のスペクトル包絡（ケプストラム）等である。
この特定人物音声特徴量４３は、特定人物外発話判定手段３２２（図４）において、音声信号からアナウンサが発話した音声区間を検出する際に利用される。

主被写体画像特徴量４４は、比較的無地の背景に、主に被写体が撮影されている画像の特徴を示すデータである。例えば、画像の無地の度合いを示す所定単位のブロックごとのＤＣＴ係数である。
この主被写体画像特徴量４４は、主被写体画像判定手段３３３（図５）において、フレーム画像が主被写体画像であるか否かを判定する際に利用される。

静止画像抽出手段５０は、代表候補ショット検出手段３０で検出された１以上の代表候補ショットから、所定番目のフレーム画像を代表静止画像（代表静止画像群）として抽出するものである。
なお、静止画像抽出手段５０は、代表候補ショット検出手段３０で代表候補ショットが検出されなかった場合、スタジオ外ショット検出手段２０で検出されたスタジオ外ショットから、第１番目のフレーム画像（先頭のフレーム画像）を代表静止画像として抽出する。これによって、静止画像抽出手段５０は、代表候補ショット検出手段３０において、「導入・見せる映像」、「主被写体映像」、「人物の主張・訴え映像」といったショットが検出されなかった場合であっても、スタジオが映っていないショットから、代表静止画像を抽出することができる。

ここで、静止画像抽出手段５０は、ショットから抽出する所定番目のフレーム画像を、ショット内から任意に抽出してもよい（例えば、中央のフレーム画像）が、処理を簡便化するため、各ショットの先頭（第１番目）のフレーム画像を抽出することとする。

なお、ここでは、静止画像抽出手段５０は、代表候補ショット検出手段３０で検出された複数の代表候補ショットからそれぞれ代表静止画像を代表静止画像群として抽出することとしたが、さらに、代表静止画像を絞り込んで抽出することとしてもよい。

例えば、静止画像抽出手段５０は、代表候補ショット検出手段３０で検出された複数の代表候補ショットにおいて、時系列で最先に検出された代表候補ショットから、代表静止画像（大代表静止画像）を抽出することとしてもよい。この場合、静止画像抽出手段５０は、各代表候補ショットのフレームに付されているタイムコードを参照し、各代表候補ショットの先頭フレームのタイムコードが最先のフレームである代表候補ショットを、時系列で最先に検出された代表候補ショットとする。
なお、静止画像抽出手段５０は、代表静止画像群を抽出するか、あるいは、大代表静止画像のみを抽出するかについては、外部からの指示に応じて切り替えることとする。

このように構成することで、代表静止画像抽出装置１は、複数のショットを含んだニュース番組映像（ニュース項目）から、その内容を視覚的に把握することが可能なフレーム画像を、代表静止画像として抽出することができる。また、大代表静止画像のみを抽出することとした場合、例えば、ニュース項目の内容を１つの代表静止画像により、Ｗｅｂ上で公開する等のアプリケーションに応用することもできる。

また、代表静止画像抽出装置１は、図示を省略したＣＰＵやメモリを搭載した一般的なコンピュータで実現することができる。このとき、代表静止画像抽出装置１は、コンピュータを、前記した各手段として機能させる代表静止画像抽出プログラムによって動作する。

［代表静止画像抽出装置の動作］
次に、図７〜図９を参照（構成については、適宜図２〜図５参照）して、本発明の実施形態に係る代表静止画像抽出装置の動作について説明する。

（全体動作）
まず、図７を参照して、代表静止画像抽出装置１の全体動作について説明する。
代表静止画像抽出装置１は、ショット境界検出手段１０によって、蓄積装置２から入力されるフレームの画像特徴量を求め、近接（隣接）するフレーム間の画像特徴量の類似度により、ショットの境界を検出する（ステップＳ１）。

そして、代表静止画像抽出装置１は、スタジオ外ショット検出手段２０によって、ステップＳ１で検出された境界間のショットから、アナウンサ（特定人物）が映っていないショットを、スタジオ外ショットとして検出する（ステップＳ２）。なお、このステップＳ２の動作（「スタジオ外ショット検出」動作）については、後で、図８を参照して詳細に説明する。

さらに、代表静止画像抽出装置１は、代表候補ショット検出手段３０によって、ステップＳ１で検出された境界間のショットから、代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する（ステップＳ３）。なお、このステップＳ３の動作（「代表候補ショット検出」動作）については、後で、図９を参照して詳細に説明する。

そして、代表静止画像抽出装置１は、次に続くショットが存在する場合（ステップＳ４でＹｅｓ）、ステップＳ２に戻って動作を続ける。
一方、次に続くショットが存在しない場合、すなわち、すべてのショットにおいて、スタジオ外ショットまたは代表候補ショットの検出動作が終了した場合（ステップＳ４でＮｏ）、代表静止画像抽出装置１は、静止画像抽出手段５０によって、ステップＳ３において代表候補ショットが検出された否かを判定する（ステップＳ５）。

ここで、代表候補ショットが検出された場合（ステップＳ５でＹｅｓ）、代表静止画像抽出装置１は、静止画像抽出手段５０によって、ステップＳ３で検出された１以上の代表候補ショットの先頭フレームを代表静止画像（群）として抽出する（ステップＳ６）。なお、このステップＳ６において、静止画像抽出手段５０は、ステップＳ３において、最先に検出された代表候補ショットの先頭フレームを大代表静止画像として抽出することとしてもよい。

一方、代表候補ショットが検出されなかった場合（ステップＳ５でＮｏ）、代表静止画像抽出装置１は、静止画像抽出手段５０によって、ステップＳ２で検出されたスタジオ外ショットの先頭フレームを代表静止画像として抽出する（ステップＳ７）。
以上、代表静止画像抽出装置１の全体動作について説明したが、ステップＳ２およびステップＳ３は、順次動作させる必要はなく、並列動作させることとしてもよい。

（スタジオ外ショット検出動作）
次に、図８を参照して、図７のステップＳ２の「スタジオ外ショット検出」動作について説明する。

ステップＳ２において、代表静止画像抽出装置１は、まず、スタジオ外ショット検出手段２０によって、すでにスタジオ外ショットが検出済みであるか否かを判定する（ステップＳ２１）。なお、この判定はフラグを用いて行うことができる。このフラグは、例えば、予め初期値として、スタジオ外ショットが未検出であることを示す値（例えば、“０”）を設定しておき、後記するステップＳ２４において、スタジオ外ショットが検出された段階で、スタジオ外ショットが検出されたことを示す値（例えば、“１”）を設定する。これによって、スタジオ外ショット検出手段２０は、このフラグを参照することで、スタジオ外ショットが検出済みであるか否かを判定する。
ここで、すでにスタジオ外ショットが検出済みの場合（ステップＳ２１でＹｅｓ）、代表静止画像抽出装置１は、スタジオ外ショットの検出動作を終了する。

一方、スタジオ外ショットがまだ検出されていない場合（ステップＳ２１でＮｏ）、スタジオ外ショット検出手段２０は、当該ショットのフレーム画像ごとに、スタジオの色特徴に基づいて、フレーム画像にスタジオが映っているか否かを判定することで、当該ショットがスタジオ外ショットであるか否かを判定する（ステップＳ２２）。なお、このステップＳ２２では、顔特徴量に基づいて、フレーム画像に人物が映っているか否かの判定をさらに付加することとしてもよい。これによって、アナウンサが映っているスタジオを撮影したショットが除外されることになる。

ここで、当該ショットがスタジオ外ショットであると判定された場合（ステップＳ２３でＹｅｓ）、スタジオ外ショット検出手段２０は、スタジオ外ショットの先頭のフレーム番号を検出情報として設定し（ステップＳ２４）、動作を終了する。なお、このとき、スタジオ外ショット検出手段２０は、スタジオ外ショットが検出されたことを示す値をフラグに設定する。

一方、当該ショットがスタジオ外ショットではないと判定された場合（ステップＳ２３でＮｏ）、スタジオ外ショット検出手段２０は、当該スタジオ外ショット検出動作を終了する。
以上の動作によって、スタジオ外ショット検出手段２０は、最初にスタジオが映っていないと判定された１ショットのみをスタジオ外ショットとして検出する。

（代表候補ショット検出動作）
次に、図９を参照して、図７のステップＳ３の「代表候補ショット検出」動作について説明する。
ステップＳ３において、代表静止画像抽出装置１は、まず、サイレントショット検出手段３１によって、音声信号の音声レベルに基づいて、当該ショットが、発話がなされていない無発話のショット（サイレントショット）であるか否かを判定する（ステップＳ３１）。具体的には、サイレントショット検出手段３１は、音声区間検出手段３１１によって、ショットに対応する音声信号において、一定の音声レベル（振幅）を超える音声信号について、振幅の零交差数が予め定めた数を越えるか否かにより音声区間を検出し、音声区間が検出された場合、サイレントショット判定手段３１２によって、当該ショットをサイレントショットではないと判定する。
ここで、当該ショットがサイレントショットであると判定された場合（ステップＳ３２でＹｅｓ）、代表静止画像抽出装置１は、ステップＳ３７に動作を進める。

一方、当該ショットがサイレントショットではないと判定された場合（ステップＳ３２でＮｏ）、代表静止画像抽出装置１は、モノローグショット検出手段３２によって、当該ショットが、アナウンサ以外の人物が映像内で発話しているショット（モノローグショット）であるか否かを判定する（ステップＳ３３）。

具体的には、モノローグショット検出手段３２は、顔画像検出手段３２１によって、ショットから、肌色の色情報等により人物の顔が映っているフレーム画像を検出し、特定人物外発話判定手段３２２によって、アナウンサ（特定人物）の音声特徴量により、当該ショットが、アナウンサ以外の人物が発話しているか否かを判定する。そして、モノローグショット判定手段３２３が、顔画像検出手段３２１において、ショット内に人物の顔が映っているフレーム画像が検出され、かつ、特定人物外発話判定手段３２２において、アナウンサ以外の話者が発話していると判定されたショットをモノローグショットであると判定する。
ここで、当該ショットが、モノローグショットであると判定された場合（ステップＳ３４でＹｅｓ）、代表静止画像抽出装置１は、ステップＳ３７に動作を進める。

一方、当該ショットがモノローグショットではないと判定された場合（ステップＳ３４でＮｏ）、代表静止画像抽出装置１は、主被写体ショット検出手段３３によって、当該ショットが、被写体が主に映っているショット（主被写体ショット）であるか否かを判定する（ステップＳ３５）。

具体的には、主被写体ショット検出手段３３は、ブロック分割手段３３１によって、フレーム画像を、所定の大きさのブロックに分割し、特徴量抽出手段３３２によって、ブロックごとにＤＣＴ値等の特徴量を抽出する。そして、主被写体画像判定手段３３３によって、この特徴量（フレーム画像全体の特徴量）が、予め学習した主被写体画像の特徴量と比較することで、当該フレーム画像を主被写体画像であるか否かを判定する。さらに、人物画像判定手段３３４によって、主被写体画像と判定されたフレーム画像が、顔特徴量により、人物が主に映った画像（人物画像）であるか否かを判定する。そして、主被写体ショット判定手段３３５が、主被写体画像判定手段３３３において、主被写体画像と判定され、かつ、人物画像判定手段３３４において、当該主被写体画像が人物の画像ではないと判定されたフレーム画像を含んだショットを、主被写体ショットと判定する。

ここで、当該ショットが、主被写体ショットであると判定された場合（ステップＳ３６でＹｅｓ）、代表静止画像抽出装置１は、ステップＳ３７に動作を進める。一方、当該ショットが主被写体ショットではないと判定された場合（ステップＳ３６でＮｏ）、代表候補ショット検出手段３０は、当該代表候補ショット検出動作を終了する。

ステップＳ３２、Ｓ３４またはＳ３６において、当該ショットが、サイレントショット、モノローグショットまたは主被写体ショットであると判定された場合、代表候補ショット検出手段３０は、各ショットの先頭のフレーム番号を代表候補ショットの検出情報として設定し（ステップＳ３７）、動作を終了する。

以上の動作によって、代表候補ショット検出手段３０は、各ショットから、ニュース項目内の内容を把握することが可能なサイレントショット、モノローグショットまたは主被写体ショットを検出することができる。
なお、ここでは、代表候補ショット検出手段３０は、サイレントショット、モノローグショット、主被写体ショットの順番で判定を行ったが、この順番は任意の順番で行うことができる。

以上、本発明に係る代表静止画像抽出装置１の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、代表静止画像抽出装置１を、サイレントショット検出手段３１、モノローグショット検出手段３２および主被写体ショット検出手段３３を含んで構成したが、代表静止画像抽出装置１は、少なくともこれらの１つの手段または２つの手段で構成してもよい。その場合、図９に示した動作において、対応する判定動作を省略すればよい。

また、代表静止画像抽出装置１を、サイレントショット検出手段３１、モノローグショット検出手段３２および主被写体ショット検出手段３３以外にも、種々のショット検出手段を備える構成としてもよい。例えば、特定の色を主に用いた画像（例えば、セピア色の画像）を含むショットを検出したり、音声レベルの強弱のみで、大音響のショットを検出したり等、種々のショット検出手段を備える構成としてもよい。

このように、本発明は、ニュース番組映像から、代表となる静止画像を抽出することができるため、ニュース番組の選択に利用するのみならず、ニュースを題材に、クイズ番組や教育コンテンツに利用する際の画像を抽出する等のアプリケーションに適用することも可能である。

１代表静止画像抽出装置
１０ショット境界検出手段
２０スタジオ外ショット検出手段
３０代表候補ショット検出手段
３１サイレントショット検出手段
３２モノローグショット検出手段
３３主被写体ショット検出手段
４０特徴データ記憶手段
５０静止画像抽出手段
２蓄積装置

Claims

映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出する代表静止画像抽出装置であって、
前記映像信号の各フレームの画像特徴量に基づいて、前記ニュース番組映像の切り替わりとなるショットの境界を検出するショット境界検出手段と、
このショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出するスタジオ外ショット検出手段と、
前記ショット境界検出手段で検出された境界間の各ショットから、前記代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する代表候補ショット検出手段と、
この代表候補ショット検出手段で前記代表候補ショットが１以上検出された場合、当該検出された代表候補ショットから所定番目のフレーム画像を前記代表静止画像として抽出し、前記代表候補ショットが検出されなかった場合、前記スタジオ外ショットから所定番目のフレーム画像を前記代表静止画像として抽出する静止画像抽出手段と、を備え、
前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、前記音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを前記代表候補ショットとして検出するサイレントショット検出手段を備えることを特徴とする代表静止画像抽出装置。
前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、前記映像信号のフレームごとの予め定めた肌色領域の割合と、前記音声信号の特定人物の音声特徴量とに基づいて、前記特定人物以外の人物が映像内で発話しているショットであるモノローグショットを前記代表候補ショットとして検出するモノローグショット検出手段をさらに備えることを特徴とする請求項１に記載の代表静止画像抽出装置。
前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、予め学習した背景に、被写体が映っている画像のブロックごとの特徴量と、前記映像信号のフレームのブロックごとの特徴量とが類似するか否かにより、当該ショット内の前記背景に被写体が映っているショットである主被写体ショットを前記代表候補ショットとして検出する主被写体ショット検出手段をさらに備えることを特徴とする請求項１または請求項２に記載の代表静止画像抽出装置。
前記静止画像抽出手段は、前記代表候補ショット検出手段において、前記代表候補ショットが複数検出された場合、時系列で最先に検出された代表候補ショットから所定番目のフレーム画像を大代表静止画画像として抽出することを特徴とする請求項１から請求項３のいずれか一項に記載の代表静止画像抽出装置。
映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出するために、コンピュータを、
前記映像信号の各フレームの画像特徴量に基づいて、前記ニュース番組映像の切り替わりとなるショットの境界を検出するショット境界検出手段、
このショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出するスタジオ外ショット検出手段、
前記ショット境界検出手段で検出された境界間の各ショットから、前記代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する代表候補ショット検出手段、
この代表候補ショット検出手段で前記代表候補ショットが１以上検出された場合、当該検出された代表候補ショットから所定番目のフレーム画像を前記代表静止画像として抽出し、前記代表候補ショットが検出されなかった場合、前記スタジオ外ショットから所定番目のフレーム画像を前記代表静止画像として抽出する静止画像抽出手段、として機能させ、
前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、前記音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを前記代表候補ショットとして検出することを特徴とする代表静止画像抽出プログラム。