JP5302855B2 - 代表静止画像抽出装置およびそのプログラム - Google Patents
代表静止画像抽出装置およびそのプログラム Download PDFInfo
- Publication number
- JP5302855B2 JP5302855B2 JP2009254049A JP2009254049A JP5302855B2 JP 5302855 B2 JP5302855 B2 JP 5302855B2 JP 2009254049 A JP2009254049 A JP 2009254049A JP 2009254049 A JP2009254049 A JP 2009254049A JP 5302855 B2 JP5302855 B2 JP 5302855B2
- Authority
- JP
- Japan
- Prior art keywords
- shot
- representative
- still image
- image
- detection means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
しかし、このニュース項目の先頭のフレームの画像は、その多くが、スタジオ内のアナウンサとタイトルとからなるシーンである。この場合、アナウンサの画像そのものは、ニュース項目の内容を把握するための指標とはならないため、操作者は、タイトルである文字列のみから、その内容を把握する必要がある。
すなわち、従来のニュース閲覧システムでは、ニュース番組映像から所望の映像を検索する際に、ニュース項目の内容を映像の一シーンとして視覚的に把握することができないという問題がある。
これによって、代表静止画像抽出装置は、出来事がどこでどのように発生しているのかを示す状況を撮影したサイレントショットから、代表静止画像を抽出することができる。
る構成とした。
請求項1,5に記載の発明によれば、ニュース番組映像から、アナウンサや出演者が発話していないサイレントショットの一部を代表静止画像として抽出することができる。また、本発明は、従来のように、アナウンサの画像やタイトルの文字列を抽出することなく、ニュース番組映像内において、内容を視覚的に把握することが可能な映像のシーンを抽出することができる。これにより、本発明によれば、ニュース番組映像のニュース項目をコンパクトに、しかも分かり易くユーザに提示することが可能な画像を抽出することができる。
[本発明の概要]
まず、本発明の概要について説明する。
通常、ニュース番組映像は、人々の生活に関する出来事を伝えることを役割としており、その出来事がどこでどのように発生しているのかを映像(導入・見せる映像)として伝えている。また、それ以外にも、ニュース番組映像は、伝えるべき対象(主題)が目に見えるものである場合、そのもの(人物、物)を被写体として撮影した映像(主被写体映像)として伝えている。さらに、ニュース番組映像は、伝えるべき対象(主題)が目に見えるものではない場合、人物が主張(訴え)を行っている場面を映像(人物の主張・訴え映像)として伝えている。
フレームF2の画像は、出来事がどこでどのように発生しているのかを示す映像(導入・見せる映像)の1シーンを示す画像の例である。図1では、フレームF2の画像として、出来事の舞台となっている国会議事堂を撮影した映像の1シーンの例を示している。
フレームF3の画像は、被写体を主に撮影した映像(主被写体映像)の1シーンを示す画像の例である。図1では、フレームF3の画像として、テープレコーダにスポットライトを当てて、テープレコーダを再生している映像の1シーンの例を示している。
フレームF4の画像は、人物が主張(訴え)を行っている映像(人物の主張・訴え映像)の1シーンを示す画像の例である。図1では、フレームF4の画像として、国会中継で法案を審議し、国会議員が質疑応答を行っている例を示している。
そこで、本発明に係る代表静止画像抽出装置は、ニュース項目内において存在する「導入・見せる映像」、「主被写体映像」、「人物の主張・訴え映像」の各ショットの1シーンを当該ニュース項目内の代表静止画像として抽出する。
以下、本発明の実施形態に係る代表静止画像抽出装置の構成および動作について説明を行う。
最初に、図2を参照して、本発明の実施形態に係る代表静止画像抽出装置の構成について説明を行う。
このように検出されたショットの境界を示す境界情報(例えば、フレーム番号等)は、スタジオ外ショット検出手段20および代表候補ショット検出手段30に出力される。
ここで、特定人物とは、ニュース番組映像に登場する当該ニュース番組を制作する放送局関係者、例えば、スタジオ内のアナウンサ等である。以下、特定人物の例をアナウンサとして説明する。
この音声信号から、音声区間を検出する手法は、一般的な音声区間検出手法を用いることができる。例えば、音声区間検出手段311は、ショットに対応する音声信号において、一定の音声レベル(振幅)を超える音声信号について、振幅の零交差数が予め定めた数を越えるタイミングで音声区間の始点を検出し、零交差数が予め定めた数以下となったタイミングで音声区間の終点を検出する。
この音声区間検出手段311における音声区間の検出の有無は、サイレントショット判定手段312に出力される。
また、ここでは、音声区間の終点まで検出したが、始点のみの検出によって、音声区間を検出したと判定してもよい。
すなわち、サイレントショット判定手段312は、ショット境界検出手段10で音声区間が検出されなかった場合、当該ショットを人物が発話していないサイレントショットと判定し、音声区間が検出された場合、当該ショットをサイレントショットではないと判定する。
このように、サイレントショット検出手段31は、人物が発話していないサイレントショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。
図2に戻って、代表静止画像抽出装置1の構成について説明を続ける。
この顔画像検出手段321は、ショット境界検出手段10で検出された境界間の各ショットのフレーム画像(例えば、先頭フレーム画像)に、肌色の領域が予め定めた大きさよりも大きく映っている場合に、当該フレーム画像に人物の顔が映っていると判定する。
なお、この顔画像検出手段321は、肌色の色情報以外に、後記する特徴データ記憶手段40に記憶されている人物の顔特徴量42を参照し、顔領域を探索することで、顔画像の検出精度を高めることとしてもよい。
すなわち、モノローグショット判定手段323は、顔画像検出手段321において、ショット内に人物の顔が映っているフレーム画像が検出され、かつ、特定人物外発話判定手段322において、アナウンサ以外の話者が発話していると判定されたショットをモノローグショットであると判定する。
図2に戻って、代表静止画像抽出装置1の構成について説明を続ける。
このように抽出されたブロックの特徴量は、フレーム単位で主被写体画像判定手段333に出力される。
ここでは、主被写体画像判定手段333は、特徴量抽出手段332で抽出されたフレーム全体のブロックの特徴量(特徴量ベクトル)と、後記する特徴データ記憶手段40に予め記憶されている主被写体画像の特徴量(主被写体画像特徴量)44とが類似するか否かにより、当該フレーム画像が主被写体画像であるか否かを判定する。
この主被写体画像判定手段333における判定結果は、人物画像判定手段334および主被写体ショット判定手段335に出力される。
この人物画像判定手段334における判定結果は、主被写体ショット判定手段335に出力される。
すなわち、主被写体ショット判定手段335は、主被写体画像判定手段333において、主被写体画像と判定され、かつ、人物画像判定手段334において、当該主被写体画像が人物の画像ではないと判定されたフレーム画像を含んだショットを、主被写体ショットと判定する。
このように、主被写体ショット検出手段33は、人物以外の被写体が主に映っている主被写体ショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。
図6に示した主被写体ショット検出手段33Bは、図5で説明した主被写体ショット検出手段33のブロック分割手段331、特徴量抽出手段332および主被写体画像判定手段333を、主被写体画像判定手段333Bに替えて構成している。他の構成については、主被写体ショット検出手段33と同一の構成であるため、同一の符号を付して説明を省略する。
ここでは、主被写体画像判定手段333Bは、ズーム値が予め定めた値よりも大きい場合、被写体がアップで撮影されている(ズームIn)と判定し、当該フレーム画像を主被写体画像であると判定する。
このように、主被写体ショット検出手段33Bは、人物以外の被写体が主に映っている主被写体ショットを検出し、代表候補ショットとして、静止画像抽出手段50に通知する。なお、ズーム情報が映像信号に付されていない場合、主被写体ショット検出手段33Bは、入力されたショット映像を直接解析してズーム量を求めてもよいし、主被写体ショット検出手段33(図5)で説明したように、映像の特徴によって、ショット内に被写体が主に映っているか否かを切り替えて検出することとしてもよい。
図2に戻って、代表静止画像抽出装置1の構成について説明を続ける。
ここでは、特徴データ記憶手段40は、スタジオ色特徴量41、顔特徴量42、特定人物音声特徴量43と、主被写体画像特徴量44とを予め記憶している。
このスタジオ色特徴量41は、スタジオ外ショット検出手段20において、スタジオの画像を認識する際に利用される。
この顔特徴量42は、スタジオ外ショット検出手段20や人物画像判定手段334(図5、図6)において、人物の顔を認識する際に利用される。
この特定人物音声特徴量43は、特定人物外発話判定手段322(図4)において、音声信号からアナウンサが発話した音声区間を検出する際に利用される。
この主被写体画像特徴量44は、主被写体画像判定手段333(図5)において、フレーム画像が主被写体画像であるか否かを判定する際に利用される。
なお、静止画像抽出手段50は、代表候補ショット検出手段30で代表候補ショットが検出されなかった場合、スタジオ外ショット検出手段20で検出されたスタジオ外ショットから、第1番目のフレーム画像(先頭のフレーム画像)を代表静止画像として抽出する。これによって、静止画像抽出手段50は、代表候補ショット検出手段30において、「導入・見せる映像」、「主被写体映像」、「人物の主張・訴え映像」といったショットが検出されなかった場合であっても、スタジオが映っていないショットから、代表静止画像を抽出することができる。
なお、静止画像抽出手段50は、代表静止画像群を抽出するか、あるいは、大代表静止画像のみを抽出するかについては、外部からの指示に応じて切り替えることとする。
次に、図7〜図9を参照(構成については、適宜図2〜図5参照)して、本発明の実施形態に係る代表静止画像抽出装置の動作について説明する。
まず、図7を参照して、代表静止画像抽出装置1の全体動作について説明する。
代表静止画像抽出装置1は、ショット境界検出手段10によって、蓄積装置2から入力されるフレームの画像特徴量を求め、近接(隣接)するフレーム間の画像特徴量の類似度により、ショットの境界を検出する(ステップS1)。
一方、次に続くショットが存在しない場合、すなわち、すべてのショットにおいて、スタジオ外ショットまたは代表候補ショットの検出動作が終了した場合(ステップS4でNo)、代表静止画像抽出装置1は、静止画像抽出手段50によって、ステップS3において代表候補ショットが検出された否かを判定する(ステップS5)。
以上、代表静止画像抽出装置1の全体動作について説明したが、ステップS2およびステップS3は、順次動作させる必要はなく、並列動作させることとしてもよい。
次に、図8を参照して、図7のステップS2の「スタジオ外ショット検出」動作について説明する。
ここで、すでにスタジオ外ショットが検出済みの場合(ステップS21でYes)、代表静止画像抽出装置1は、スタジオ外ショットの検出動作を終了する。
以上の動作によって、スタジオ外ショット検出手段20は、最初にスタジオが映っていないと判定された1ショットのみをスタジオ外ショットとして検出する。
次に、図9を参照して、図7のステップS3の「代表候補ショット検出」動作について説明する。
ステップS3において、代表静止画像抽出装置1は、まず、サイレントショット検出手段31によって、音声信号の音声レベルに基づいて、当該ショットが、発話がなされていない無発話のショット(サイレントショット)であるか否かを判定する(ステップS31)。具体的には、サイレントショット検出手段31は、音声区間検出手段311によって、ショットに対応する音声信号において、一定の音声レベル(振幅)を超える音声信号について、振幅の零交差数が予め定めた数を越えるか否かにより音声区間を検出し、音声区間が検出された場合、サイレントショット判定手段312によって、当該ショットをサイレントショットではないと判定する。
ここで、当該ショットがサイレントショットであると判定された場合(ステップS32でYes)、代表静止画像抽出装置1は、ステップS37に動作を進める。
ここで、当該ショットが、モノローグショットであると判定された場合(ステップS34でYes)、代表静止画像抽出装置1は、ステップS37に動作を進める。
なお、ここでは、代表候補ショット検出手段30は、サイレントショット、モノローグショット、主被写体ショットの順番で判定を行ったが、この順番は任意の順番で行うことができる。
例えば、ここでは、代表静止画像抽出装置1を、サイレントショット検出手段31、モノローグショット検出手段32および主被写体ショット検出手段33を含んで構成したが、代表静止画像抽出装置1は、少なくともこれらの1つの手段または2つの手段で構成してもよい。その場合、図9に示した動作において、対応する判定動作を省略すればよい。
10 ショット境界検出手段
20 スタジオ外ショット検出手段
30 代表候補ショット検出手段
31 サイレントショット検出手段
32 モノローグショット検出手段
33 主被写体ショット検出手段
40 特徴データ記憶手段
50 静止画像抽出手段
2 蓄積装置
Claims (5)
- 映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出する代表静止画像抽出装置であって、
前記映像信号の各フレームの画像特徴量に基づいて、前記ニュース番組映像の切り替わりとなるショットの境界を検出するショット境界検出手段と、
このショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出するスタジオ外ショット検出手段と、
前記ショット境界検出手段で検出された境界間の各ショットから、前記代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する代表候補ショット検出手段と、
この代表候補ショット検出手段で前記代表候補ショットが1以上検出された場合、当該検出された代表候補ショットから所定番目のフレーム画像を前記代表静止画像として抽出し、前記代表候補ショットが検出されなかった場合、前記スタジオ外ショットから所定番目のフレーム画像を前記代表静止画像として抽出する静止画像抽出手段と、を備え、
前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、前記音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを前記代表候補ショットとして検出するサイレントショット検出手段を備えることを特徴とする代表静止画像抽出装置。 - 前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、前記映像信号のフレームごとの予め定めた肌色領域の割合と、前記音声信号の特定人物の音声特徴量とに基づいて、前記特定人物以外の人物が映像内で発話しているショットであるモノローグショットを前記代表候補ショットとして検出するモノローグショット検出手段をさらに備えることを特徴とする請求項1に記載の代表静止画像抽出装置。 - 前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、予め学習した背景に、被写体が映っている画像のブロックごとの特徴量と、前記映像信号のフレームのブロックごとの特徴量とが類似するか否かにより、当該ショット内の前記背景に被写体が映っているショットである主被写体ショットを前記代表候補ショットとして検出する主被写体ショット検出手段をさらに備えることを特徴とする請求項1または請求項2に記載の代表静止画像抽出装置。 - 前記静止画像抽出手段は、前記代表候補ショット検出手段において、前記代表候補ショットが複数検出された場合、時系列で最先に検出された代表候補ショットから所定番目のフレーム画像を大代表静止画画像として抽出することを特徴とする請求項1から請求項3のいずれか一項に記載の代表静止画像抽出装置。
- 映像信号および音声信号を含むニュース番組映像から当該映像内で代表となる画像を代表静止画像として抽出するために、コンピュータを、
前記映像信号の各フレームの画像特徴量に基づいて、前記ニュース番組映像の切り替わりとなるショットの境界を検出するショット境界検出手段、
このショット境界検出手段で検出された境界間の各ショットから、予め定めたスタジオの色情報に基づいて、スタジオ以外を撮影したショットを、スタジオ外ショットとして検出するスタジオ外ショット検出手段、
前記ショット境界検出手段で検出された境界間の各ショットから、前記代表静止画像の候補となる画像を抽出するための代表候補ショットを検出する代表候補ショット検出手段、
この代表候補ショット検出手段で前記代表候補ショットが1以上検出された場合、当該検出された代表候補ショットから所定番目のフレーム画像を前記代表静止画像として抽出し、前記代表候補ショットが検出されなかった場合、前記スタジオ外ショットから所定番目のフレーム画像を前記代表静止画像として抽出する静止画像抽出手段、として機能させ、
前記代表候補ショット検出手段は、
前記ショット境界検出手段で検出された境界間の各ショットから、前記音声信号の音声レベルに基づいて、無発話のショットであるサイレントショットを前記代表候補ショットとして検出することを特徴とする代表静止画像抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009254049A JP5302855B2 (ja) | 2009-11-05 | 2009-11-05 | 代表静止画像抽出装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009254049A JP5302855B2 (ja) | 2009-11-05 | 2009-11-05 | 代表静止画像抽出装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011101173A JP2011101173A (ja) | 2011-05-19 |
JP5302855B2 true JP5302855B2 (ja) | 2013-10-02 |
Family
ID=44192001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009254049A Expired - Fee Related JP5302855B2 (ja) | 2009-11-05 | 2009-11-05 | 代表静止画像抽出装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5302855B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4256401B2 (ja) * | 2006-03-30 | 2009-04-22 | 株式会社東芝 | 映像情報処理装置およびデジタル情報記録媒体、映像情報処理方法、映像情報処理プログラム |
KR20100105596A (ko) * | 2007-11-14 | 2010-09-29 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오비주얼 신호에서 시맨틱 단위의 시작 포인트를 결정하는 방법 |
-
2009
- 2009-11-05 JP JP2009254049A patent/JP5302855B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011101173A (ja) | 2011-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Profile view lip reading | |
US8731307B2 (en) | Information processing apparatus, information processing method, and program | |
US8558952B2 (en) | Image-sound segment corresponding apparatus, method and program | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
JP4488091B2 (ja) | 電子機器、映像コンテンツ編集方法及びプログラム | |
US8873861B2 (en) | Video processing apparatus and method | |
WO2012020668A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
KR20140114238A (ko) | 오디오와 결합된 이미지 표시 방법 | |
JP2012038239A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
KR20190137359A (ko) | 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버 | |
CN110213670A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
WO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
JP2006319980A (ja) | イベントを利用した動画像要約装置、方法及びプログラム | |
CN109410954A (zh) | 一种基于音视频的无监督的多说话人识别装置和方法 | |
JP6046393B2 (ja) | 情報処理装置、情報処理システム、情報処理方法および記録媒体 | |
JP2007101945A (ja) | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム | |
JP5096259B2 (ja) | 要約コンテンツ生成装置および要約コンテンツ生成プログラム | |
CN109376145A (zh) | 影视对白数据库的建立方法、建立装置及存储介质 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
JP5302855B2 (ja) | 代表静止画像抽出装置およびそのプログラム | |
CN109688430A (zh) | 一种法院庭审文件回放方法、系统及存储介质 | |
JP4270118B2 (ja) | 映像シーンに対する意味ラベル付与方法及び装置及びプログラム | |
CN114495946A (zh) | 声纹聚类方法、电子设备和存储介质 | |
JP5254900B2 (ja) | 映像再構成方法、映像再構成装置および映像再構成プログラム | |
JP2019213160A (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120321 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5302855 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |