JP5302855B2 - 代表静止画像抽出装置およびそのプログラム - Google Patents

代表静止画像抽出装置およびそのプログラム Download PDF

Info

Publication number
JP5302855B2
JP5302855B2 JP2009254049A JP2009254049A JP5302855B2 JP 5302855 B2 JP5302855 B2 JP 5302855B2 JP 2009254049 A JP2009254049 A JP 2009254049A JP 2009254049 A JP2009254049 A JP 2009254049A JP 5302855 B2 JP5302855 B2 JP 5302855B2
Authority
JP
Japan
Prior art keywords
shot
representative
still image
image
detection means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009254049A
Other languages
English (en)
Other versions
JP2011101173A (ja
Inventor
雅規 佐野
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009254049A priority Critical patent/JP5302855B2/ja
Publication of JP2011101173A publication Critical patent/JP2011101173A/ja
Application granted granted Critical
Publication of JP5302855B2 publication Critical patent/JP5302855B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ニュース番組映像から、ニュース内容の代表となる静止画像を抽出する代表静止画像抽出装置およびそのプログラムに関する。
近年、ニュース番組映像を蓄積装置に蓄積し、当該映像を再利用するため、蓄積されたニュース番組映像から所望の映像を探索するためのニュース閲覧システムが種々提案されている(特許文献1、非特許文献1参照)。
一般に、ニュース番組映像は、スタジオ内のアナウンサとタイトルとからなるシーンで区切られる映像区間で1つのニュース内容を構成している。この区切られた映像区間は、「ストーリ」または「トピック」と呼ばれ、前記したようなニュース閲覧システムにおいては、「ニュース項目」とも呼ばれている。このニュース項目は、ニュースの内容を扱う基本単位であり、ニュースの内容をコンパクトに提示する画像や、ニュースの内容を表すタイトル文字や、関連する映像・画像を含んでいる場合が多い。
従来のニュース閲覧システムでは、ニュース番組映像のニュース項目(トピック)の先頭のフレームを当該ニュース項目の代表の静止画像として、サムネイル形式で提示している。これによって、従来のニュース閲覧システムでは、サムネイル形式で提示された静止画像から、操作者が所望のニュース項目を検索することを可能にしている。
特開2007−150723号公報
井出ほか、"大規模ニュース映像コーパスの意味構造解析"、信学技報、PRMU、パターン認識・メディア理解、103(296)、pp.13−18
前記したように、従来のニュース閲覧システムでは、蓄積装置に蓄積したニュース番組映像から所望の映像を検索するために、ニュース番組映像のニュース項目(トピック)の先頭のフレームを当該ニュース項目の代表の静止画像として提示している。
しかし、このニュース項目の先頭のフレームの画像は、その多くが、スタジオ内のアナウンサとタイトルとからなるシーンである。この場合、アナウンサの画像そのものは、ニュース項目の内容を把握するための指標とはならないため、操作者は、タイトルである文字列のみから、その内容を把握する必要がある。
すなわち、従来のニュース閲覧システムでは、ニュース番組映像から所望の映像を検索する際に、ニュース項目の内容を映像の一シーンとして視覚的に把握することができないという問題がある。
本発明は、以上のような問題点に鑑みてなされたものであり、ニュース番組映像のニュース項目内から、ニュースの内容を視覚的に把握することが可能な画像を代表静止画像として抽出する代表静止画像抽出装置およびそのプログラムを提供することを課題とする。
本発明は、前記課題を解決するために創案されたものであり、まず、請求項1に記載の代表静止画像抽出装置は、映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出する代表静止画像抽出装置であって、ショット境界検出手段と、スタジオ外ショット検出手段と、代表候補ショット検出手段と、静止画像特定手段と、を備え、前記代表候補ショット検出手段が、サイレントショット検出手段を備える構成とした。
かかる構成において、代表静止画像抽出装置は、ショット境界検出手段によって、映像信号の各フレームの画像特徴量、例えば、色や輝度のヒストグラム、エッジ、動きベクトル等の特徴量に基づいて、ニュース番組映像の切り替わりとなるショットの境界を検出する。これによって、ニュース番組映像が、映像の特徴が変化する単位で、複数のシーンの切り替わり等の意味のある内容となるショットに区分されることになる。
そして、代表静止画像抽出装置は、スタジオ外ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出する。すなわち、スタジオ外ショット検出手段は、スタジオが日々変化することがないことを利用し、例えば、スタジオを撮影した画像の予め定めた領域内の色(色分布等)を判定することで、ショットのフレーム画像にスタジオが映っている否かを判定する。そして、スタジオ外ショット検出手段は、ショットに、スタジオが映っている場合に、当該ショットは、スタジオのショットであるとして除外し、他のショットをスタジオ外ショットとして検出する。
そして、代表静止画像抽出装置は、代表候補ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する。すなわち、代表候補ショット検出手段は、サイレントショット検出手段を備えることで、ショットから、音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを代表候補ショットとして検出する。これによって、ニュース番組映像内から、発話がされていない映像のみのショット、すなわち、出来事がどこでどのように発生しているのかを示す状況を撮影したショットが検出されることになる。
そして、代表静止画像抽出装置は、静止画像抽出手段によって、代表候補ショット検出手段で代表候補ショットが1以上検出された場合、当該検出された代表候補ショットから所定番目(例えば、先頭フレーム)のフレーム画像を代表静止画像として抽出し、代表候補ショットが検出されなかった場合、ニュース項目最初のスタジオ外ショットから所定番目(例えば、先頭フレーム)のフレーム画像を代表静止画像として抽出する。
これによって、代表静止画像抽出装置は、出来事がどこでどのように発生しているのかを示す状況を撮影したサイレントショットから、代表静止画像を抽出することができる。
また、請求項2に記載の代表静止画像抽出装置は、請求項1に記載の代表静止画像抽出装置において、代表候補ショット検出手段が、モノローグショット検出手段をさらに備える構成とした。
かかる構成において、代表静止画像抽出装置は、代表候補ショット検出手段のモノローグショット検出手段によって、複数のショットから、映像信号のフレームごとの予め定めた肌色領域の割合と、音声信号の特定人物の音声特徴量とに基づいて、特定人物以外の人物が映像内で発話しているショットであるモノローグショットを代表候補ショットとして検出する。すなわち、代表候補ショット検出手段は、モノローグショット検出手段を備えることで、ショットのフレームごとに、肌色領域の割合によって、フレーム内に人物が映っていることを判定し、当該ショットに対応する音声信号の特徴量と特定人物の音声特徴量とを比較することで、当該人物が特定人物でないことを判定する。これによって、ニュース番組映像内から、特定人物以外の人物が主張等を行っているショットが検出されることになる。
さらに、請求項3に記載の代表静止画像抽出装置は、請求項1または請求項2に記載の代表静止画像抽出装置において、代表候補ショット検出手段が、特徴量により、被写体が主に映っている主被写体ショットを検出する主被写体ショット検出手段をさらに備える構成とした。
かかる構成において、代表静止画像抽出装置は、代表候補ショット検出手段の主被写体ショット検出手段によって、複数のショットから、予め学習した比較的無地の背景に、被写体が映っている画像のブロックごとの特徴量と、映像信号のフレームのブロックごとの特徴量とが類似するか否かにより、当該ショット内の背景に、主に被写体が映っているショットである主被写体ショットを代表候補ショットとして検出する。すなわち、代表候補ショット検出手段は、主被写体ショット検出手段を備えることで、ショットのフレームごとに、比較的無地の背景に、被写体が映っている画像を検出し、当該画像を含んだ主被写体ショットを代表候補ショットとして検出する。
また、請求項4に記載の代表静止画像抽出装置は、請求項1から請求項3のいずれか一項に記載の代表静止画像抽出装置において、静止画像抽出手段が、代表候補ショット検出手段において、代表候補ショットが複数検出された場合、時系列で最先に検出された代表候補ショットから所定番目のフレーム画像を大代表静止画画像として抽出する構成とした。
かかる構成において、代表静止画像抽出装置は、代表候補ショットが複数検出された場合に、ニュース番組映像から、ニュース番組映像の内容を映像の一シーンとして視覚的に把握することが可能なショットから、1つの場面のみを代表静止画像として抽出することができる。
また、請求項5に記載の代表静止画像抽出プログラムは、映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出するために、コンピュータを、ショット境界検出手段、スタジオ外ショット検出手段、代表候補ショット検出手段、静止画像特定手段、として機能させ、前記代表候補ショット検出手段が、複数のショットから、音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを代表候補ショットとして検出する構成とした。
る構成とした。
かかる構成において、代表静止画像抽出プログラムは、ショット境界検出手段によって、映像信号の各フレームの画像特徴量、例えば、色や輝度のヒストグラム、エッジ、動きベクトル等の特徴量に基づいて、ニュース番組映像の切り替わりとなるショットの境界を検出する。
そして、代表静止画像抽出プログラムは、スタジオ外ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出する。
そして、代表静止画像抽出プログラムは、代表候補ショット検出手段によって、ショット境界検出手段で検出された境界間の各ショットから、音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを代表候補ショットとして検出する。
そして、代表静止画像抽出プログラムは、静止画像抽出手段によって、代表候補ショット検出手段で代表候補ショットが1以上検出された場合、当該検出された代表候補ショットから所定番目(例えば、先頭フレーム)のフレーム画像を代表静止画像として抽出し、代表候補ショットが検出されなかった場合、スタジオ外ショットから所定番目(例えば、先頭フレーム)のフレーム画像を代表静止画像として抽出する。
本発明は、以下に示す優れた効果を奏するものである。
請求項1,5に記載の発明によれば、ニュース番組映像から、アナウンサや出演者が発話していないサイレントショットの一部を代表静止画像として抽出することができる。また、本発明は、従来のように、アナウンサの画像やタイトルの文字列を抽出することなく、ニュース番組映像内において、内容を視覚的に把握することが可能な映像のシーンを抽出することができる。これにより、本発明によれば、ニュース番組映像のニュース項目をコンパクトに、しかも分かり易くユーザに提示することが可能な画像を抽出することができる。
請求項2に記載の発明によれば、ニュース番組映像から、特定人物とは異なる人物が映像内で発話しているモノローグショットの一部を代表静止画像として抽出することができる。これによって、本発明は、ニュース番組映像内において、特定人物(例えば、アナウンサ)以外の人物である出演者が、中心となって発話している映像のシーンを、内容を視覚的に把握することが可能な映像のシーンとして抽出することができる。
請求項3に記載の発明によれば、ニュース番組映像から、予め学習した比較的無地の背景に、被写体が映っている主被写体ショットの一部を代表静止画像として抽出することができる。なお、当該ショットは、被写体を際立たせる映像効果の1つであり、そこから抽出した代表静止画像は、内容を視覚的に把握することが可能な映像のシーンに相当する。これによって、本発明は、ニュース番組映像内において、内容を視覚的に把握することが可能な映像のシーンを抽出することができる。
請求項4に記載の発明によれば、ニュース番組映像から、複数の代表静止画像を抽出した場合、さらに、大代表の静止画像を特定することができる。これによって、本発明は、ニュース番組映像から、1枚の大代表静止画像と、複数の代表静止画像とを、階層的に抽出することができ、例えば、ニュース閲覧システムにおいて検索を行う際の画像(サムネイル)を階層的に検索者に提示することができる。さらに、本発明は、端的に内容を表す1枚の大代表静止画像を提示することができるため、大量のニュース番組映像から、効率よく所望のニュース項目を探索することが可能になる。
本発明の実施形態に係る代表静止画像抽出装置が抽出する代表静止画像の内容を説明するための説明図である。 本発明の実施形態に係る代表静止画像抽出装置の構成を示すブロック図である。 本発明の実施形態に係る代表静止画像抽出装置のサイレントショット検出手段の構成を示すブロック図である。 本発明の実施形態に係る代表静止画像抽出装置のモノローグショット検出手段の構成を示すブロック図である。 本発明の実施形態に係る代表静止画像抽出装置の主被写体ショット検出装置の構成を示すブロック図である。 本発明の実施形態に係る代表静止画像抽出装置の主被写体ショット検出装置の他の構成を示すブロック図である。 本発明の実施形態に係る代表静止画像抽出装置の全体動作を示すフローチャートである。 本発明の実施形態に係る代表静止画像抽出装置のスタジオ外ショット検出動作を示すフローチャートである。 本発明の実施形態に係る代表静止画像抽出装置の代表候補ショット検出動作を示すフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。
[本発明の概要]
まず、本発明の概要について説明する。
通常、ニュース番組映像は、人々の生活に関する出来事を伝えることを役割としており、その出来事がどこでどのように発生しているのかを映像(導入・見せる映像)として伝えている。また、それ以外にも、ニュース番組映像は、伝えるべき対象(主題)が目に見えるものである場合、そのもの(人物、物)を被写体として撮影した映像(主被写体映像)として伝えている。さらに、ニュース番組映像は、伝えるべき対象(主題)が目に見えるものではない場合、人物が主張(訴え)を行っている場面を映像(人物の主張・訴え映像)として伝えている。
例えば、ニュース番組映像(ニュース項目)は、図1に示すような映像で構成されている。図1で示した映像の例は、ニュース項目の一例として、国会に関連するニュース番組映像を示している。
フレームFの画像は、通常、ニュース項目の先頭に現れるスタジオ内のアナウンサとタイトルとからなるシーンを示す画像である。
フレームFの画像は、出来事がどこでどのように発生しているのかを示す映像(導入・見せる映像)の1シーンを示す画像の例である。図1では、フレームFの画像として、出来事の舞台となっている国会議事堂を撮影した映像の1シーンの例を示している。
フレームFの画像は、被写体を主に撮影した映像(主被写体映像)の1シーンを示す画像の例である。図1では、フレームFの画像として、テープレコーダにスポットライトを当てて、テープレコーダを再生している映像の1シーンの例を示している。
フレームFの画像は、人物が主張(訴え)を行っている映像(人物の主張・訴え映像)の1シーンを示す画像の例である。図1では、フレームFの画像として、国会中継で法案を審議し、国会議員が質疑応答を行っている例を示している。
このように、ニュース番組映像(ニュース項目)内には、簡易、かつ、コンパクトにニュース内容の特徴となるシーンが複数存在する。
そこで、本発明に係る代表静止画像抽出装置は、ニュース項目内において存在する「導入・見せる映像」、「主被写体映像」、「人物の主張・訴え映像」の各ショットの1シーンを当該ニュース項目内の代表静止画像として抽出する。
なお、本発明に係る代表静止画像抽出装置は、「導入・見せる映像」として、誰も発話を行っていない映像(サイレントショット)を利用し、「主被写体映像」として、比較的無地の背景に、被写体が映っている映像(主被写体ショット)を利用し、「人物の主張・訴え映像」として、人物の顔がアップで撮影され、かつ、人物が主として発話している映像(モノローグショット)を利用して、代表静止画像を抽出することとする。
以下、本発明の実施形態に係る代表静止画像抽出装置の構成および動作について説明を行う。
[代表静止画像抽出装置の構成]
最初に、図2を参照して、本発明の実施形態に係る代表静止画像抽出装置の構成について説明を行う。
代表静止画像抽出装置1は、ニュース番組映像(ニュース項目)から当該映像内で代表となる画像を代表静止画像として抽出するものである。ここでは、代表静止画像抽出装置1は、ショット境界検出手段10と、スタジオ外ショット検出手段20と、代表候補ショット検出手段30と、特徴データ記憶手段40と、静止画像抽出手段50と、を備えている。
なお、代表静止画像抽出装置1は、予めニュース番組の一部分(トピック)であるニュース項目ごとにファイルデータとして書き込まれた蓄積装置2が接続されているものとする。このニュース項目であるファイルデータは、映像信号、音声信号およびタイムコード等の付随データを含み、例えば、MPEGの映像音声ファイルである。
ショット境界検出手段10は、ニュース番組映像(ニュース項目)を入力し、映像信号の各フレームの画像特徴量に基づいて、ニュース番組映像の切り替わりとなるショットの境界を検出するものである。なお、ここで、ショットとは、映像内の場面が切り替わる1つの映像区間をいう。
このショット境界検出手段10は、順次、蓄積装置2から入力されるフレームの画像特徴量を求め、近接(隣接)するフレーム間の画像特徴量の類似度により、ショットの境界を求める。例えば、ショット境界検出手段10は、画像特徴量として、色や輝度のヒストグラム、エッジ、動きベクトル等の特徴量を用いることができる。そして、ショット境界検出手段10は、フレーム間の画像特徴量の差分が予め定めた閾値よりも大きい場合に、後続するフレームにおいて、ショットが切り替わったと判定し、当該フレームをショットの境界として検出する。
なお、このショットの境界を検出する手法は、一般的な手法を用いることができる。例えば、「河合ほか、“逐次的な特徴算出によるディゾルブ,フェードを含むショット境界の高速検出手法”、電子情報通信学会論文誌D、Vol.J91−D、No.10 pp.2529−2539(2008)」に記載されている手法を用いることができる。
このように検出されたショットの境界を示す境界情報(例えば、フレーム番号等)は、スタジオ外ショット検出手段20および代表候補ショット検出手段30に出力される。
スタジオ外ショット検出手段20は、ショット境界検出手段10で検出された境界間の各ショットから、特定人物の顔特徴量に基づいて、当該特定人物が映っていないショットを、スタジオ外ショットとして検出するものである。
このスタジオ外ショットは、後記する代表候補ショット検出手段30において、当該ニュース項目の代表静止画像を抽出するためのショット(代表候補ショット)が検出されなかった場合に、代表静止画像を抽出するためのショットとなるものである。
ここで、特定人物とは、ニュース番組映像に登場する当該ニュース番組を制作する放送局関係者、例えば、スタジオ内のアナウンサ等である。以下、特定人物の例をアナウンサとして説明する。
このスタジオ外ショット検出手段20は、ショット境界検出手段10で検出された境界間の各ショットにおいて、当該ショットのフレームの画像(フレーム画像)ごとに、スタジオが映っているか否かを判定し、スタジオが映っているフレーム画像を有さないショットをスタジオ外ショットとして検出する。
このフレーム画像内にスタジオが映っているか否かの判定は、スタジオが日々変化するものではないため、スタジオを色の特徴量を用いて判定することができる。ここでは、スタジオ外ショット検出手段20は、後記する特徴データ記憶手段40に記憶されているスタジオ色特徴量41(例えば、予め定めた領域の色分布等)に類似する領域をフレーム画像内で探索することで、スタジオが映っているか否かを判定する。
なお、スタジオを映した画像には、アナウンサも映っていることから、スタジオ外ショット検出手段20は、さらに、フレーム画像内に人物の顔が映っていることを検出することとしてもよい。このフレーム画像内に人物が映っているか否かの判定は、一般的な顔認識技術を用いて行うことができる。ここでは、スタジオ外ショット検出手段20は、後記する特徴データ記憶手段40に記憶されている人物の顔特徴量42(例えば、眼、鼻、口等の特徴点のテンプレート、肌色情報等)に類似する領域をフレーム画像内で探索することで、人物が映っていることを判定する。また、この顔領域の判定は、アナウンサがスタジオ内で固定の位置に存在する場合、フレーム画像内で、予め定めた範囲(例えば、画像の左半分等)で顔領域を検出することとしてもよい。
なお、スタジオ外ショット検出手段20は、入力されるすべてのショットにおいて、スタジオ外ショットを検出する必要はなく、時系列で最先のスタジオ外ショットを検出した段階で、スタジオ外ショットの検出を中止する。
このように、スタジオ外ショット検出手段20は、複数のショットから、最先のスタジオ外ショットを検出し、検出したスタジオ外ショットを静止画像抽出手段50に通知する。例えば、スタジオ外ショット検出手段20は、検出したスタジオ外ショットの先頭のフレーム番号を静止画像抽出手段50に出力することで通知を行う。
なお、スタジオ外ショット検出手段20は、ショット内のすべてのフレーム画像において、スタジオの画像を検出する必要はない。例えば、最大でもショットの先頭フレーム画像から、予め定めたフレーム数分、あるいは、予め定めたフレーム間隔(数フレーム間隔等)で検出処理を行うこととしてもよい。また、スタジオ外ショット検出手段20は、ショット内で、スタジオが映ったフレーム画像を検出した段階で、検出処理を中止することとする。
代表候補ショット検出手段30は、ショット境界検出手段10で検出された境界間の各ショットから、代表静止画像の候補となる画像を抽出するための代表候補ショットを検出するものである。ここでは、代表候補ショット検出手段30は、サイレントショット検出手段31と、モノローグショット検出手段32と、主被写体ショット検出手段33とを備えている。
サイレントショット検出手段31は、ショット境界検出手段10で検出された境界間の各ショットから、音声信号の音声レベルに基づいて、発話がなされていない無発話のショット(サイレントショット)を代表候補ショットとして検出するものである。すなわち、このサイレントショット検出手段31は、図1で説明した「導入・見せる映像」のショットをニュース番組映像(ニュース項目)内で検出するものである。
ここで、図3を参照(適宜図2参照)して、サイレントショット検出手段31の構成について説明する。サイレントショット検出手段31は、音声区間検出手段311と、サイレントショット判定手段312とを備えている。
音声区間検出手段311は、ショット境界検出手段10で検出された境界間の各ショットの映像区間内において、当該映像区間の音声信号の音声レベルに基づいて人物が発話している音声区間を検出するものである。
この音声信号から、音声区間を検出する手法は、一般的な音声区間検出手法を用いることができる。例えば、音声区間検出手段311は、ショットに対応する音声信号において、一定の音声レベル(振幅)を超える音声信号について、振幅の零交差数が予め定めた数を越えるタイミングで音声区間の始点を検出し、零交差数が予め定めた数以下となったタイミングで音声区間の終点を検出する。
この音声区間検出手段311における音声区間の検出の有無は、サイレントショット判定手段312に出力される。
なお、ここでは、音声区間を音声信号の振幅と零交差数とに基づいて検出したが、その手法は一般的なものでよく、例えば、ガウス混合分布モデル(GMM;Gaussian mixture model)を用い、予め定めた音声GMMおよび非音声GMMと、音声信号の所定時間当たりのGMMとを比較することで、音声区間を検出することとしてもよい。
また、ここでは、音声区間の終点まで検出したが、始点のみの検出によって、音声区間を検出したと判定してもよい。
サイレントショット判定手段312は、音声区間検出手段311における音声区間の検出結果に基づいて、当該ショットが、人物が発話していないサイレントショットであるか否かを判定するものである。
すなわち、サイレントショット判定手段312は、ショット境界検出手段10で音声区間が検出されなかった場合、当該ショットを人物が発話していないサイレントショットと判定し、音声区間が検出された場合、当該ショットをサイレントショットではないと判定する。
このサイレントショット判定手段312は、サイレントショットとして判定したショットの境界を示す境界情報(例えば、当該ショットの先頭のフレーム番号等)を、サイレントショットが検出された旨を示す検出情報とともに、静止画像抽出手段50に出力する。
このように、サイレントショット検出手段31は、人物が発話していないサイレントショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。
図2に戻って、代表静止画像抽出装置1の構成について説明を続ける。
モノローグショット検出手段32は、ショット境界検出手段10で検出された境界間の各ショットから、当該ショット内のアナウンサ以外の人物が映像内で発話しているショット(モノローグショット)を代表候補ショットとして検出するものである。すなわち、このモノローグショット検出手段32は、図1で説明した「人物の主張・訴え映像」のショットをニュース番組映像(ニュース項目)内で検出するものである。
ここで、図4を参照(適宜図2参照)して、モノローグショット検出手段32の構成について説明する。モノローグショット検出手段32は、顔画像検出手段321と、特定人物外発話判定手段322と、モノローグショット判定手段323とを備えている。
顔画像検出手段321は、ショット境界検出手段10で検出された境界間の各ショットから、人物の顔が映っているフレーム画像を検出するものである。
この顔画像検出手段321は、ショット境界検出手段10で検出された境界間の各ショットのフレーム画像(例えば、先頭フレーム画像)に、肌色の領域が予め定めた大きさよりも大きく映っている場合に、当該フレーム画像に人物の顔が映っていると判定する。
なお、この顔画像検出手段321は、肌色の色情報以外に、後記する特徴データ記憶手段40に記憶されている人物の顔特徴量42を参照し、顔領域を探索することで、顔画像の検出精度を高めることとしてもよい。
この顔画像検出手段321は、フレーム画像に人物の顔が映っていると判定した場合、その旨を、特定人物外発話判定手段322およびモノローグショット判定手段323に出力する。一方、フレーム画像に人物の顔が映っていないと判定した場合、顔画像検出手段321は、当該ショットの検出処理を終了する。
特定人物外発話判定手段322は、顔画像検出手段321において人物の顔が映っているフレーム画像が検出された場合に、ショット境界検出手段10で検出された境界間のショットにおいて、アナウンサ(特定人物)以外の人物が発話しているか否かを判定するものである。
この特定人物外発話判定手段322は、ショットの映像区間に対応する音声信号から、当該ショットにおける発話音声の話者が、アナウンサ(特定人物)であるか否かを話者認識し、アナウンサの発話音声ではないと判定した場合に、アナウンサ以外の話者が発話していると判定する。
この音声信号から、話者を認識する話者認識の手法は、一般的な話者認識の技術を用いることができる。ここでは、特定人物外発話判定手段322は、ショットの音声信号の音声区間における特徴量と、後記する特徴データ記憶手段40に記憶されているアナウンサの音声の特徴量(特定人物音声特徴量)43とを比較することで、ショットの話者がアナウンサであるか否かを判定する。この音声の特徴量は、例えば、音声の周波数のスペクトル包絡(ケプストラム)等である。
この特定人物外発話判定手段322は、ショット内において、アナウンサ(特定人物)以外の話者が発話しているか否かを示す判定結果をモノローグショット判定手段323に出力する。
モノローグショット判定手段323は、顔画像検出手段321の検出結果および特定人物外発話判定手段322の判定結果に基づいて、当該ショットが、アナウンサ以外の人物が映像内で発話しているモノローグショットであるか否かを判定するものである。
すなわち、モノローグショット判定手段323は、顔画像検出手段321において、ショット内に人物の顔が映っているフレーム画像が検出され、かつ、特定人物外発話判定手段322において、アナウンサ以外の話者が発話していると判定されたショットをモノローグショットであると判定する。
このモノローグショット判定手段323は、モノローグショットとして判定したショットの境界を示す境界情報(例えば、当該ショットの先頭のフレーム番号等)を、モノローグショットが検出された旨を示す検出情報とともに、静止画像抽出手段50に出力する。
このように、モノローグショット検出手段32は、アナウンサ(特定人物)以外の人物が主に発話しているモノローグショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。
なお、映像からモノローグショットを検出する手法は、一般的な手法を用いることができる。例えば、「せき岡ほか、“ニュース映像中のモノローグシーン検出による発言集の自動作成”、信学技報、PRMU、パターン認識・メディア理解、105(674)、pp.277−282」に記載されている手法を用いることができる。
図2に戻って、代表静止画像抽出装置1の構成について説明を続ける。
主被写体ショット検出手段33は、ショット境界検出手段10で検出された境界間の各ショットから、ショット内に被写体(人物、物)が主に撮影されているショット(主被写体ショット)を代表候補ショットとして検出するものである。すなわち、主被写体ショット検出手段33は、図1で説明した「主被写体映像」のショットをニュース番組映像(ニュース項目)内で検出するものである。
ここで、図5を参照(適宜図2参照)して、主被写体ショット検出手段33の構成について説明する。主被写体ショット検出手段33は、ブロック分割手段331と、特徴量抽出手段332と、主被写体画像判定手段333と、人物画像判定手段334と、主被写体ショット判定手段335とを備えている。
ブロック分割手段331は、ショットのフレームごとに、当該フレームの画像(フレーム画像)を、所定の大きさのブロック(ブロック画像)に分割するものである。例えば、このブロックの大きさは、8×8画素とする。また、このブロックは、MPEGのマクロブロックを用いてもよい。このブロック分割手段331で分割されたブロックは、特徴量抽出手段332に出力される。
特徴量抽出手段332は、ブロック分割手段331で分割されたブロックの特徴量を抽出するものである。この特徴量は、画像の特徴量であれば、色情報、エッジ情報等、特に限定するものではないが、ここでは、周波数成分の大きさを表すDCT(Discrete Cosine Transform)値を用いることとする。
すなわち、特徴量抽出手段332は、入力されたブロック画像を離散コサイン変換(DCT)することで、画素値を周波数領域の値に変換する。これによって、ブロックの周波数の特性が特徴量として抽出されることになる。なお、この特徴量は、例えば、フレーム画像の左上から、右下に向かって順に配列したベクトル(特徴量ベクトル)とする。
このように抽出されたブロックの特徴量は、フレーム単位で主被写体画像判定手段333に出力される。
主被写体画像判定手段333は、特徴量抽出手段332で抽出された特徴量に基づいて、フレーム画像が、比較的無地の背景に、被写体が主に映っている画像(主被写体画像)であるか否かを判定するものである。
ここでは、主被写体画像判定手段333は、特徴量抽出手段332で抽出されたフレーム全体のブロックの特徴量(特徴量ベクトル)と、後記する特徴データ記憶手段40に予め記憶されている主被写体画像の特徴量(主被写体画像特徴量)44とが類似するか否かにより、当該フレーム画像が主被写体画像であるか否かを判定する。
この主被写体画像判定手段333は、サポートベクターマシン(SVM)等で構成し、特徴データ記憶手段40には、ほぼ無地の背景上に被写体が映っている画像の特徴量(特徴量ベクトル)を主被写体画像特徴量44として学習しておき、フレーム画像が主被写体画像であるか否かを認識することとしてもよい。
この主被写体画像判定手段333における判定結果は、人物画像判定手段334および主被写体ショット判定手段335に出力される。
人物画像判定手段334は、主被写体画像判定手段333で主被写体画像と判定されたフレーム画像が、人物(例えば、アナウンサ)が主に映った画像(人物画像)であるか否かを判定するものである。すなわち、この人物画像判定手段334は、フレーム画像が、主被写体画像であっても、アナウンサ等が主被写体として映っている画像を除外するための判定を行うものである。
この人物画像判定手段334は、スタジオ外ショット検出手段20において説明した手法と同様の手法により、人物が撮影された主被写体画像を判定することができる。すなわち、人物画像判定手段334は、特徴データ記憶手段40に記憶されている人物の顔特徴量42に類似する領域をフレーム画像内で探索することで、顔領域を特定する。ここで、人物画像判定手段334は、顔領域が検出されたフレーム画像を、人物画像と判定する。
この人物画像判定手段334における判定結果は、主被写体ショット判定手段335に出力される。
なお、映像から主被写体ショットを検出する手法は、一般的な手法を用いることができる。例えば、「佐野ほか、“蓄積されたニュース番組からの画像付きクイズ生成手法の提案”、電子情報通信学会論文誌D、Vol.J92−D、No.1 pp.141−152(2009)」に記載されているスポットライト画像を選択する手法を用いることができる。
主被写体ショット判定手段335は、主被写体画像判定手段333の判定結果、および、人物画像判定手段334の判定結果に基づいて、当該ショットが、被写体が主に撮影されている主被写体ショットであるか否かを判定するものである。
すなわち、主被写体ショット判定手段335は、主被写体画像判定手段333において、主被写体画像と判定され、かつ、人物画像判定手段334において、当該主被写体画像が人物の画像ではないと判定されたフレーム画像を含んだショットを、主被写体ショットと判定する。
この主被写体ショット判定手段335は、主被写体ショットとして判定したショットの境界を示す境界情報(例えば、当該ショットの先頭のフレーム番号等)を、主被写体ショットが検出された旨を示す検出情報とともに、静止画像抽出手段50に出力する。
このように、主被写体ショット検出手段33は、人物以外の被写体が主に映っている主被写体ショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。
以上、主被写体ショット検出手段33の構成について説明したが、ショット内に主被写体が主に映っているか否かを検出するには、ショットの映像信号にズーム値(ズーム情報)を付加しておき、当該ズーム値が予め定めた値よりも大きい場合、被写体を主に撮影したショットであり、当該ズーム値が予め定めた値よりも小さい場合、被写体を主に撮影したショットではないと判定することとしてもよい。
ここで、このズーム情報を用いて主被写体ショットを検出する主被写体ショット検出手段の構成について、図6を参照して説明する。
図6に示した主被写体ショット検出手段33Bは、図5で説明した主被写体ショット検出手段33のブロック分割手段331、特徴量抽出手段332および主被写体画像判定手段333を、主被写体画像判定手段333Bに替えて構成している。他の構成については、主被写体ショット検出手段33と同一の構成であるため、同一の符号を付して説明を省略する。
主被写体画像判定手段333Bは、ショットのフレーム画像ごとに、当該フレーム画像に対応して付されている映像信号のズーム値(ズーム情報)に基づいて、当該フレーム画像が、被写体(人物、物)を主に撮影した画像であるか否かを判定するものである。なお、このズーム値(ズーム情報)は、ニュース番組映像を撮影カメラで撮影した際のズーム値(レンズ倍率等)であって、映像信号のタイムコードに対応付けてられているものとする。
ここでは、主被写体画像判定手段333Bは、ズーム値が予め定めた値よりも大きい場合、被写体がアップで撮影されている(ズームIn)と判定し、当該フレーム画像を主被写体画像であると判定する。
一方、主被写体画像判定手段333Bは、ズーム値が予め定めた値よりも小さい場合、被写体がアップで撮影されていない(ズームOut)と判定し、当該フレーム画像を主被写体画像ではないと判定する。
この主被写体画像判定手段333Bにおける判定結果は、人物画像判定手段334および主被写体ショット判定手段335に出力される。
このように、主被写体ショット検出手段33Bは、人物以外の被写体が主に映っている主被写体ショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。なお、ズーム情報が映像信号に付されていない場合、主被写体ショット検出手段33Bは、入力されたショット映像を直接解析してズーム量を求めてもよいし、主被写体ショット検出手段33(図5)で説明したように、映像の特徴によって、ショット内に被写体が主に映っているか否かを切り替えて検出することとしてもよい。
図2に戻って、代表静止画像抽出装置1の構成について説明を続ける。
特徴データ記憶手段40は、代表静止画像抽出装置1において、各ショットがどのような内容のショットであるのかを判定するための種々の特徴データを記憶するもので、ハードディスク等の一般的な記憶装置である。
ここでは、特徴データ記憶手段40は、スタジオ色特徴量41、顔特徴量42、特定人物音声特徴量43と、主被写体画像特徴量44とを予め記憶している。
スタジオ色特徴量41は、ショットのフレーム画像から、スタジオが映っている画像を検出するためのスタジオの色の特徴を示すデータである。通常、ニュース番組においては、スタジオが固定のものであり、色が変化しないことから、スタジオ色特徴量41は、スタジオを撮影した画像の予め定めた領域の色情報(色分布等)を用いることとする。
このスタジオ色特徴量41は、スタジオ外ショット検出手段20において、スタジオの画像を認識する際に利用される。
顔特徴量42は、画像(フレーム画像)から、人物の顔を検出するための一般的な人物の顔の特徴を示すデータである。例えば、この顔特徴量42は、人物の眼、鼻、口等の各種形状の特徴点で構成されるテンプレートや、肌色の色情報となるRGB(赤、緑、青)値、HSV(色相、色彩、明度)値の範囲等である。
この顔特徴量42は、スタジオ外ショット検出手段20や人物画像判定手段334(図5、図6)において、人物の顔を認識する際に利用される。
特定人物音声特徴量43は、ショットの音声信号から、アナウンサ(特定人物)の音声区間を検出するためのアナウンサの音声の特徴を示すデータである。例えば、音声の周波数のスペクトル包絡(ケプストラム)等である。
この特定人物音声特徴量43は、特定人物外発話判定手段322(図4)において、音声信号からアナウンサが発話した音声区間を検出する際に利用される。
主被写体画像特徴量44は、比較的無地の背景に、主に被写体が撮影されている画像の特徴を示すデータである。例えば、画像の無地の度合いを示す所定単位のブロックごとのDCT係数である。
この主被写体画像特徴量44は、主被写体画像判定手段333(図5)において、フレーム画像が主被写体画像であるか否かを判定する際に利用される。
静止画像抽出手段50は、代表候補ショット検出手段30で検出された1以上の代表候補ショットから、所定番目のフレーム画像を代表静止画像(代表静止画像群)として抽出するものである。
なお、静止画像抽出手段50は、代表候補ショット検出手段30で代表候補ショットが検出されなかった場合、スタジオ外ショット検出手段20で検出されたスタジオ外ショットから、第1番目のフレーム画像(先頭のフレーム画像)を代表静止画像として抽出する。これによって、静止画像抽出手段50は、代表候補ショット検出手段30において、「導入・見せる映像」、「主被写体映像」、「人物の主張・訴え映像」といったショットが検出されなかった場合であっても、スタジオが映っていないショットから、代表静止画像を抽出することができる。
ここで、静止画像抽出手段50は、ショットから抽出する所定番目のフレーム画像を、ショット内から任意に抽出してもよい(例えば、中央のフレーム画像)が、処理を簡便化するため、各ショットの先頭(第1番目)のフレーム画像を抽出することとする。
なお、ここでは、静止画像抽出手段50は、代表候補ショット検出手段30で検出された複数の代表候補ショットからそれぞれ代表静止画像を代表静止画像群として抽出することとしたが、さらに、代表静止画像を絞り込んで抽出することとしてもよい。
例えば、静止画像抽出手段50は、代表候補ショット検出手段30で検出された複数の代表候補ショットにおいて、時系列で最先に検出された代表候補ショットから、代表静止画像(大代表静止画像)を抽出することとしてもよい。この場合、静止画像抽出手段50は、各代表候補ショットのフレームに付されているタイムコードを参照し、各代表候補ショットの先頭フレームのタイムコードが最先のフレームである代表候補ショットを、時系列で最先に検出された代表候補ショットとする。
なお、静止画像抽出手段50は、代表静止画像群を抽出するか、あるいは、大代表静止画像のみを抽出するかについては、外部からの指示に応じて切り替えることとする。
このように構成することで、代表静止画像抽出装置1は、複数のショットを含んだニュース番組映像(ニュース項目)から、その内容を視覚的に把握することが可能なフレーム画像を、代表静止画像として抽出することができる。また、大代表静止画像のみを抽出することとした場合、例えば、ニュース項目の内容を1つの代表静止画像により、Web上で公開する等のアプリケーションに応用することもできる。
また、代表静止画像抽出装置1は、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、代表静止画像抽出装置1は、コンピュータを、前記した各手段として機能させる代表静止画像抽出プログラムによって動作する。
[代表静止画像抽出装置の動作]
次に、図7〜図9を参照(構成については、適宜図2〜図5参照)して、本発明の実施形態に係る代表静止画像抽出装置の動作について説明する。
(全体動作)
まず、図7を参照して、代表静止画像抽出装置1の全体動作について説明する。
代表静止画像抽出装置1は、ショット境界検出手段10によって、蓄積装置2から入力されるフレームの画像特徴量を求め、近接(隣接)するフレーム間の画像特徴量の類似度により、ショットの境界を検出する(ステップS1)。
そして、代表静止画像抽出装置1は、スタジオ外ショット検出手段20によって、ステップS1で検出された境界間のショットから、アナウンサ(特定人物)が映っていないショットを、スタジオ外ショットとして検出する(ステップS2)。なお、このステップS2の動作(「スタジオ外ショット検出」動作)については、後で、図8を参照して詳細に説明する。
さらに、代表静止画像抽出装置1は、代表候補ショット検出手段30によって、ステップS1で検出された境界間のショットから、代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する(ステップS3)。なお、このステップS3の動作(「代表候補ショット検出」動作)については、後で、図9を参照して詳細に説明する。
そして、代表静止画像抽出装置1は、次に続くショットが存在する場合(ステップS4でYes)、ステップS2に戻って動作を続ける。
一方、次に続くショットが存在しない場合、すなわち、すべてのショットにおいて、スタジオ外ショットまたは代表候補ショットの検出動作が終了した場合(ステップS4でNo)、代表静止画像抽出装置1は、静止画像抽出手段50によって、ステップS3において代表候補ショットが検出された否かを判定する(ステップS5)。
ここで、代表候補ショットが検出された場合(ステップS5でYes)、代表静止画像抽出装置1は、静止画像抽出手段50によって、ステップS3で検出された1以上の代表候補ショットの先頭フレームを代表静止画像(群)として抽出する(ステップS6)。なお、このステップS6において、静止画像抽出手段50は、ステップS3において、最先に検出された代表候補ショットの先頭フレームを大代表静止画像として抽出することとしてもよい。
一方、代表候補ショットが検出されなかった場合(ステップS5でNo)、代表静止画像抽出装置1は、静止画像抽出手段50によって、ステップS2で検出されたスタジオ外ショットの先頭フレームを代表静止画像として抽出する(ステップS7)。
以上、代表静止画像抽出装置1の全体動作について説明したが、ステップS2およびステップS3は、順次動作させる必要はなく、並列動作させることとしてもよい。
(スタジオ外ショット検出動作)
次に、図8を参照して、図7のステップS2の「スタジオ外ショット検出」動作について説明する。
ステップS2において、代表静止画像抽出装置1は、まず、スタジオ外ショット検出手段20によって、すでにスタジオ外ショットが検出済みであるか否かを判定する(ステップS21)。なお、この判定はフラグを用いて行うことができる。このフラグは、例えば、予め初期値として、スタジオ外ショットが未検出であることを示す値(例えば、“0”)を設定しておき、後記するステップS24において、スタジオ外ショットが検出された段階で、スタジオ外ショットが検出されたことを示す値(例えば、“1”)を設定する。これによって、スタジオ外ショット検出手段20は、このフラグを参照することで、スタジオ外ショットが検出済みであるか否かを判定する。
ここで、すでにスタジオ外ショットが検出済みの場合(ステップS21でYes)、代表静止画像抽出装置1は、スタジオ外ショットの検出動作を終了する。
一方、スタジオ外ショットがまだ検出されていない場合(ステップS21でNo)、スタジオ外ショット検出手段20は、当該ショットのフレーム画像ごとに、スタジオの色特徴に基づいて、フレーム画像にスタジオが映っているか否かを判定することで、当該ショットがスタジオ外ショットであるか否かを判定する(ステップS22)。なお、このステップS22では、顔特徴量に基づいて、フレーム画像に人物が映っているか否かの判定をさらに付加することとしてもよい。これによって、アナウンサが映っているスタジオを撮影したショットが除外されることになる。
ここで、当該ショットがスタジオ外ショットであると判定された場合(ステップS23でYes)、スタジオ外ショット検出手段20は、スタジオ外ショットの先頭のフレーム番号を検出情報として設定し(ステップS24)、動作を終了する。なお、このとき、スタジオ外ショット検出手段20は、スタジオ外ショットが検出されたことを示す値をフラグに設定する。
一方、当該ショットがスタジオ外ショットではないと判定された場合(ステップS23でNo)、スタジオ外ショット検出手段20は、当該スタジオ外ショット検出動作を終了する。
以上の動作によって、スタジオ外ショット検出手段20は、最初にスタジオが映っていないと判定された1ショットのみをスタジオ外ショットとして検出する。
(代表候補ショット検出動作)
次に、図9を参照して、図7のステップS3の「代表候補ショット検出」動作について説明する。
ステップS3において、代表静止画像抽出装置1は、まず、サイレントショット検出手段31によって、音声信号の音声レベルに基づいて、当該ショットが、発話がなされていない無発話のショット(サイレントショット)であるか否かを判定する(ステップS31)。具体的には、サイレントショット検出手段31は、音声区間検出手段311によって、ショットに対応する音声信号において、一定の音声レベル(振幅)を超える音声信号について、振幅の零交差数が予め定めた数を越えるか否かにより音声区間を検出し、音声区間が検出された場合、サイレントショット判定手段312によって、当該ショットをサイレントショットではないと判定する。
ここで、当該ショットがサイレントショットであると判定された場合(ステップS32でYes)、代表静止画像抽出装置1は、ステップS37に動作を進める。
一方、当該ショットがサイレントショットではないと判定された場合(ステップS32でNo)、代表静止画像抽出装置1は、モノローグショット検出手段32によって、当該ショットが、アナウンサ以外の人物が映像内で発話しているショット(モノローグショット)であるか否かを判定する(ステップS33)。
具体的には、モノローグショット検出手段32は、顔画像検出手段321によって、ショットから、肌色の色情報等により人物の顔が映っているフレーム画像を検出し、特定人物外発話判定手段322によって、アナウンサ(特定人物)の音声特徴量により、当該ショットが、アナウンサ以外の人物が発話しているか否かを判定する。そして、モノローグショット判定手段323が、顔画像検出手段321において、ショット内に人物の顔が映っているフレーム画像が検出され、かつ、特定人物外発話判定手段322において、アナウンサ以外の話者が発話していると判定されたショットをモノローグショットであると判定する。
ここで、当該ショットが、モノローグショットであると判定された場合(ステップS34でYes)、代表静止画像抽出装置1は、ステップS37に動作を進める。
一方、当該ショットがモノローグショットではないと判定された場合(ステップS34でNo)、代表静止画像抽出装置1は、主被写体ショット検出手段33によって、当該ショットが、被写体が主に映っているショット(主被写体ショット)であるか否かを判定する(ステップS35)。
具体的には、主被写体ショット検出手段33は、ブロック分割手段331によって、フレーム画像を、所定の大きさのブロックに分割し、特徴量抽出手段332によって、ブロックごとにDCT値等の特徴量を抽出する。そして、主被写体画像判定手段333によって、この特徴量(フレーム画像全体の特徴量)が、予め学習した主被写体画像の特徴量と比較することで、当該フレーム画像を主被写体画像であるか否かを判定する。さらに、人物画像判定手段334によって、主被写体画像と判定されたフレーム画像が、顔特徴量により、人物が主に映った画像(人物画像)であるか否かを判定する。そして、主被写体ショット判定手段335が、主被写体画像判定手段333において、主被写体画像と判定され、かつ、人物画像判定手段334において、当該主被写体画像が人物の画像ではないと判定されたフレーム画像を含んだショットを、主被写体ショットと判定する。
ここで、当該ショットが、主被写体ショットであると判定された場合(ステップS36でYes)、代表静止画像抽出装置1は、ステップS37に動作を進める。一方、当該ショットが主被写体ショットではないと判定された場合(ステップS36でNo)、代表候補ショット検出手段30は、当該代表候補ショット検出動作を終了する。
ステップS32、S34またはS36において、当該ショットが、サイレントショット、モノローグショットまたは主被写体ショットであると判定された場合、代表候補ショット検出手段30は、各ショットの先頭のフレーム番号を代表候補ショットの検出情報として設定し(ステップS37)、動作を終了する。
以上の動作によって、代表候補ショット検出手段30は、各ショットから、ニュース項目内の内容を把握することが可能なサイレントショット、モノローグショットまたは主被写体ショットを検出することができる。
なお、ここでは、代表候補ショット検出手段30は、サイレントショット、モノローグショット、主被写体ショットの順番で判定を行ったが、この順番は任意の順番で行うことができる。
以上、本発明に係る代表静止画像抽出装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、代表静止画像抽出装置1を、サイレントショット検出手段31、モノローグショット検出手段32および主被写体ショット検出手段33を含んで構成したが、代表静止画像抽出装置1は、少なくともこれらの1つの手段または2つの手段で構成してもよい。その場合、図9に示した動作において、対応する判定動作を省略すればよい。
また、代表静止画像抽出装置1を、サイレントショット検出手段31、モノローグショット検出手段32および主被写体ショット検出手段33以外にも、種々のショット検出手段を備える構成としてもよい。例えば、特定の色を主に用いた画像(例えば、セピア色の画像)を含むショットを検出したり、音声レベルの強弱のみで、大音響のショットを検出したり等、種々のショット検出手段を備える構成としてもよい。
このように、本発明は、ニュース番組映像から、代表となる静止画像を抽出することができるため、ニュース番組の選択に利用するのみならず、ニュースを題材に、クイズ番組や教育コンテンツに利用する際の画像を抽出する等のアプリケーションに適用することも可能である。
1 代表静止画像抽出装置
10 ショット境界検出手段
20 スタジオ外ショット検出手段
30 代表候補ショット検出手段
31 サイレントショット検出手段
32 モノローグショット検出手段
33 主被写体ショット検出手段
40 特徴データ記憶手段
50 静止画像抽出手段
2 蓄積装置

Claims (5)

  1. 映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出する代表静止画像抽出装置であって、
    前記映像信号の各フレームの画像特徴量に基づいて、前記ニュース番組映像の切り替わりとなるショットの境界を検出するショット境界検出手段と、
    このショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出するスタジオ外ショット検出手段と、
    前記ショット境界検出手段で検出された境界間の各ショットから、前記代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する代表候補ショット検出手段と、
    この代表候補ショット検出手段で前記代表候補ショットが1以上検出された場合、当該検出された代表候補ショットから所定番目のフレーム画像を前記代表静止画像として抽出し、前記代表候補ショットが検出されなかった場合、前記スタジオ外ショットから所定番目のフレーム画像を前記代表静止画像として抽出する静止画像抽出手段と、を備え、
    前記代表候補ショット検出手段は、
    前記ショット境界検出手段で検出された境界間の各ショットから、前記音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを前記代表候補ショットとして検出するサイレントショット検出手段を備えることを特徴とする代表静止画像抽出装置。
  2. 前記代表候補ショット検出手段は、
    前記ショット境界検出手段で検出された境界間の各ショットから、前記映像信号のフレームごとの予め定めた肌色領域の割合と、前記音声信号の特定人物の音声特徴量とに基づいて、前記特定人物以外の人物が映像内で発話しているショットであるモノローグショットを前記代表候補ショットとして検出するモノローグショット検出手段をさらに備えることを特徴とする請求項1に記載の代表静止画像抽出装置。
  3. 前記代表候補ショット検出手段は、
    前記ショット境界検出手段で検出された境界間の各ショットから、予め学習した背景に、被写体が映っている画像のブロックごとの特徴量と、前記映像信号のフレームのブロックごとの特徴量とが類似するか否かにより、当該ショット内の前記背景に被写体が映っているショットである主被写体ショットを前記代表候補ショットとして検出する主被写体ショット検出手段をさらに備えることを特徴とする請求項1または請求項2に記載の代表静止画像抽出装置。
  4. 前記静止画像抽出手段は、前記代表候補ショット検出手段において、前記代表候補ショットが複数検出された場合、時系列で最先に検出された代表候補ショットから所定番目のフレーム画像を大代表静止画画像として抽出することを特徴とする請求項1から請求項3のいずれか一項に記載の代表静止画像抽出装置。
  5. 映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出するために、コンピュータを、
    前記映像信号の各フレームの画像特徴量に基づいて、前記ニュース番組映像の切り替わりとなるショットの境界を検出するショット境界検出手段、
    このショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出するスタジオ外ショット検出手段、
    前記ショット境界検出手段で検出された境界間の各ショットから、前記代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する代表候補ショット検出手段、
    この代表候補ショット検出手段で前記代表候補ショットが1以上検出された場合、当該検出された代表候補ショットから所定番目のフレーム画像を前記代表静止画像として抽出し、前記代表候補ショットが検出されなかった場合、前記スタジオ外ショットから所定番目のフレーム画像を前記代表静止画像として抽出する静止画像抽出手段、として機能させ、
    前記代表候補ショット検出手段は、
    前記ショット境界検出手段で検出された境界間の各ショットから、前記音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを前記代表候補ショットとして検出することを特徴とする代表静止画像抽出プログラム。
JP2009254049A 2009-11-05 2009-11-05 代表静止画像抽出装置およびそのプログラム Expired - Fee Related JP5302855B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009254049A JP5302855B2 (ja) 2009-11-05 2009-11-05 代表静止画像抽出装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009254049A JP5302855B2 (ja) 2009-11-05 2009-11-05 代表静止画像抽出装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2011101173A JP2011101173A (ja) 2011-05-19
JP5302855B2 true JP5302855B2 (ja) 2013-10-02

Family

ID=44192001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009254049A Expired - Fee Related JP5302855B2 (ja) 2009-11-05 2009-11-05 代表静止画像抽出装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5302855B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4256401B2 (ja) * 2006-03-30 2009-04-22 株式会社東芝 映像情報処理装置およびデジタル情報記録媒体、映像情報処理方法、映像情報処理プログラム
KR20100105596A (ko) * 2007-11-14 2010-09-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오비주얼 신호에서 시맨틱 단위의 시작 포인트를 결정하는 방법

Also Published As

Publication number Publication date
JP2011101173A (ja) 2011-05-19

Similar Documents

Publication Publication Date Title
Kumar et al. Profile view lip reading
US8731307B2 (en) Information processing apparatus, information processing method, and program
US8558952B2 (en) Image-sound segment corresponding apparatus, method and program
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
JP4488091B2 (ja) 電子機器、映像コンテンツ編集方法及びプログラム
US8873861B2 (en) Video processing apparatus and method
WO2012020668A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
KR20140114238A (ko) 오디오와 결합된 이미지 표시 방법
JP2012038239A (ja) 情報処理装置、情報処理方法、及び、プログラム
KR20190137359A (ko) 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
CN110213670A (zh) 视频处理方法、装置、电子设备及存储介质
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
CN109410954A (zh) 一种基于音视频的无监督的多说话人识别装置和方法
JP6046393B2 (ja) 情報処理装置、情報処理システム、情報処理方法および記録媒体
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
CN109376145A (zh) 影视对白数据库的建立方法、建立装置及存储介质
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
JP5302855B2 (ja) 代表静止画像抽出装置およびそのプログラム
CN109688430A (zh) 一种法院庭审文件回放方法、系统及存储介质
JP4270118B2 (ja) 映像シーンに対する意味ラベル付与方法及び装置及びプログラム
CN114495946A (zh) 声纹聚类方法、电子设备和存储介质
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130621

R150 Certificate of patent or registration of utility model

Ref document number: 5302855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees