JP2005341138A - 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体 - Google Patents

映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2005341138A
JP2005341138A JP2004156267A JP2004156267A JP2005341138A JP 2005341138 A JP2005341138 A JP 2005341138A JP 2004156267 A JP2004156267 A JP 2004156267A JP 2004156267 A JP2004156267 A JP 2004156267A JP 2005341138 A JP2005341138 A JP 2005341138A
Authority
JP
Japan
Prior art keywords
video
character string
scene
utterance
viewer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004156267A
Other languages
English (en)
Inventor
Makoto Muto
誠 武藤
Satoshi Shimada
聡 嶌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004156267A priority Critical patent/JP2005341138A/ja
Publication of JP2005341138A publication Critical patent/JP2005341138A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】 視聴者の発声の遅延時間の大小によらず正しく重要シーンの抽出が可能で、視聴者の否定的な発言に伴う重要シーンの誤抽出の少ない映像要約を作成する。
【解決手段】 本発明は、視聴者が発声した発声区間を検出し、発声区間に含まれる音声をディクテーションして、該発声区間の開始時刻から一定時間だけ遡った時点から記憶手段から映像に含まれるナレーションの文字列、テロップの文字列、セリフの文字列を抽出し、文字列とディクテーションの結果の照合し、照合した照合文字列が検出された場合に、テロップの文字列または、セリフ、または、ナレーションの存在するシーンを重要シーンと判別し、重要シーンに対応するシーン開始時刻、シーン終了時刻を出力する。
【選択図】 図1

Description

本発明は、映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体に係り、特に、映画やドラマなどの比較的長時間の映像データの内容を要約するための映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体に関する。
映画やドラマなど、比較的長時間の映像を短時間で視聴するための映像要約方法が提案されている。その中の方法に、プレイリストを用いたものがある。これは、図12のように、映像中の複数の重要なシーンだけを部分映像として指定して、再生時にそれらの重要なシーンを続けて再生するというものである。後述する図4のようにそれぞれの重要シーン601は、開始時刻602と終了時刻603によって指定される。一般的に重要なシーンは映像全体と比べて短いので、プレイリストを用いると映像の重要なシーンだけを短時間で視聴することができる。
このようなプレイリストを簡単に作成するために、映像視聴中に押しボタンを押して、その時刻におけるシーンを重要シーンとして登録することによって生成する方法がある(例えば、特許文献1参照)。
しかし、視聴者が映像視聴中に押しボタンを押したり、発声をしたりするのは、視聴者が興味を持った場面から時間的に遅れるので、押しボタンを押したり発声したりした時刻の映像を重要シーンとしたのでは、視聴者が興味を持った場面の後のシーンが重要シーンとして誤って抽出されてしまう。
このような不具合を解消するために、従来は、押しボタンを押した時点から、人間の平均的な反応時間を考慮して、一定時間だけ遡った時点におけるシーンを重要シーンとして抽出する方法が提案されている(例えば、特許文献1参照)。
特開2001−57660号公報
上記の従来の方法では、視聴者が押しボタン操作や発声を行なった時点から一定時間だけ遡った時点の映像を重要シーンとするが、人間の反応時間にはばらつきがあるので、全ての重要シーンについて正しく重要シーンの時刻を特定することができない。例えば、ある映像シーンに対して視聴者が比較的長い時間をかけて考えた後に、押しボタン操作や発声を行なうことが考えられ、また、ある映像シーンに対しては、重要なシーンを見たらすぐに押しボタン操作や発声を行なうことも考えられる。このような場合、前述の手法のように押しボタン・発声の時点から一定時間遡って重要シーンを特定しても、正しく重要シーンを特定することができない。
また、前述の方法では、視聴者が押しボタン操作や発声を行なった全ての映像シーンを重要シーンとして抽出するが、視聴者によっては誤って押しボタンを押したり、興味のないシーンで不平不満等の否定的な発言をする場合も考えられるが、そのような場合でも重要シーンとして誤って抽出されてしまう。
本発明は、上記の点に鑑みなされたもので、視聴者の発声の遅延時間の大小によらず正しく重要シーンの抽出が可能で、視聴者の否定的な発言に伴う重要シーンの誤抽出の少ない映像要約を作成するための映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、映像データの内容を要約する映像要約方法において、
映像視聴中の視聴者が発声した音声が記憶された音声記憶手段から、該視聴者が発声した発声区間を検出する発声区間検出ステップと(ステップ1)、
検出された発声区間に含まれる音声を音声認識(ディクテーション)して、発声区間の開始時刻から一定時間だけ遡った時点から、映像付加情報記憶手段から映像に含まれるナレーションの文字列、テロップの文字列、セリフの文字列を抽出する文字列抽出ステップと(ステップ2)、
文字列とディクテーションの結果の照合を行う照合ステップと(ステップ3)、
照合した照合文字列が検出された場合に、テロップの文字列または、セリフ、または、ナレーションの存在するシーンを、重要シーンと判別する重要シーン判断ステップと(ステップ4)、
重要シーンに対応するシーン開始時刻、シーン終了時刻を映像付加情報記憶手段から取得して、重要シーン情報記憶手段に出力する重要シーン出力ステップと(ステップ5)からなる。
これにより、視聴者は、映像を視聴している最中に、映像に興味を持って映像の内容に共感を覚えると、発声したり、テロップの文字列を読み上げることが多いが、その場合に、興味を持ったシーンを特定することが可能となる。
ここで、従来技術とは、視聴者の発声の遅延時間を考慮して、発声の開始時刻から一定時間だけ遡った時点におけるシーンを重要シーンとする方法を採用していたが、発声の遅延時間のばらつきが大きく、重要シーンの誤抽出が避けられなかったという問題を解決している。
また、本発明(請求項2)は、文字列抽出ステップにおいて、映像視聴中の視聴者が発声した音声をディクテーションした文字列が、否定的発言辞書記憶手段の映像に対して否定的な文字列と一致する場合には、重要シーン出力ステップを行なわない。
これにより、「つまらない」、「面白くない」といった映像に対する否定的な発言による重要シーンの誤抽出を抑止することができる。ここで、従来の手法では、発声の内容が肯定的なものでも否定的なものでも同様に重要シーン抽出を行なう方法を採用していたため、視聴者は否定的な発声をしないように意識する必要があったが、本発明によれば、視聴者は映像視聴中に否定的な語を発声しても重要シーンの抽出処理に支障をきたさないので、より自然に映像を視聴することが可能となる。
本発明は、映像データの内容を要約する映像要約プログラムであって、上記の請求項1または2記載の映像要約方法の実現に用いられる処理をコンピュータに実行させるプログラムである。
本発明は、映像データの内容を要約する映像要約プログラムを格納した記憶媒体であって、上記の請求項1または2記載の映像要約方法の実現に用いられる処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
本発明によれば、視聴者の発声の遅延時間の大小によらずに正しく重要シーンの抽出が可能となる。
また、視聴者の否定的な発言に伴う重要シーンの誤抽出の少ない要約が可能となる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
本実施の形態では、視聴者の発声の遅延時間の大小によらずに正しく重要シーンの抽出する方法について説明する。
図2は、本発明の第1の実施の形態におけるシステム構成を示す。
同図に示すシステムは、モニタ501、マイク502、映像ファイル503、映像付加情報ファイル504、重要シーン情報ファイル505、計算機506及び音声ファイル507から構成される。
モニタ501は、計算機506から送られる映像信号に基づいて映像ファイル503に記録されている映像を映し出す。
マイク502は、視聴者が映像を視聴している最終に発声する音声を取得し、音声信号として計算機506によって音声ファイル507に記録される。
映像ファイル503は、映像要約の対象の映像ファイルである。計算機506によって読込まれ、再生処理等に用いられる。
映像付加情報ファイル504は、図3のように、映像に含まれるナレーション文字列や、テロップの文字列や、セリフの文字列の情報を有する。それぞれの付加情報には、当該情報が発生する映像中の開始時刻301と終了時刻302、情報の内容303、情報の種別304が含まれる。
重要シーン情報ファイル505は、映像中の重要シーンに関する情報が含まれているファイルである。要約作成完了時に計算機506によって書き込まれる。
音声ファイル507は、マイク502によって取得した視聴者の発声を記録したファイルである。
次に、重要シーン情報ファイル505について説明する。
重要シーン情報ファイル505は、図4に示すように、複数の重要シーンの、重要シーン番号601と、シーン開始時刻602と、シーン終了時刻603の情報を有する。映像について、ユーザが重要だと考える複数のシーンがあるとする。それらのシーンを、計算機506から出力される時間順に重要シーン番号601として、「重要シーン1」、「重要シーン2」、「重要シーン3」などとする。この重要シーン情報ファイル505を出力することによって、映像の要約出力とする。
次に、計算機506の処理内容について詳細に説明する。
図5は、本発明の第1の実施の形態における視聴者発声区間抽出処理のフローチャートである。
ステップ101) 視聴者発声抽出処理を行う。図6のようにマイク502から入力された視聴者の発声を記録した音声ファイル507から、音声パワーを計算し、当該パワーが一定閾値以上を一定時間を越えて継続的にとる区間を抽出し、発声区間とする。また、視聴者が重要だと思う場面で、押しボタンを押しながら発声し、当該押しボタンの押下時間を発声区間としてもよい。
ステップ102) 図6のように、ステップ101で抽出した発声区間に対して、音声認識処理(ディクテーション)を行い、視聴者の発声した文字列を得る。
ステップ103) 視聴者の発声区間に基づいて、映像付加情報の照合区間の指定を行う。視聴者が映像に興味を持ってから、発声を行なうための遅延時間の最大値をdmax、発声の開始時刻をt、発声の終了時刻をtとした場合、照合区間を[t−dmax,t]とする。ここで、dmaxは、一般的には30秒程度に設定する。これにより、視聴者が発声した後の映像や、視聴者の記憶が持続すると考えにくいような発声した数分前のような時刻の映像を照合処理の対象外とすることができる。
ステップ104) 映像付加情報の文字列抽出を行なう。図3に示す映像付加情報ファイル504からステップ103で指定した照合区間内に含まれる内容303を抽出する。
ステップ105) ステップ104で抽出した映像付加情報と、ステップ102で得られた視聴者の発声内容の照合を行う。映像付加情報ファイル504の映像付加情報で、時刻が遅いものから順に、発声内容(文字列)の照合を行う。照合の方式は、完全一致で行なう。また、部分一致方式で行なってもよい。また、映像付加情報の文字列と発声内容の形態素解析を行い、その結果の文字列群との間で照合処理を行ってもよい。
視聴者は、映像を視聴している最中に、映像に興味を持って映像の内容に共感を覚えると、映像中の人物が発声したり、テロップの文字列を読み上げることが多いが、前述の照合処理によって照合が確認された場合、視聴者が発声したのは、照合対象の映像付加情報の含まれるシーンに興味を持って発声したことであると推定することができるので、興味を持ったシーンを正しく特定することができる。
ステップ106) ステップ105における照合文字列の有無の判定を行なう。照合できた文字列(完全一致または、部分一致した文字列)がある場合は、ステップ107に移行する。照合文字列がない場合は、ステップ108に移行する。
ステップ107) 図7に示すように、ステップ105で視聴者による発声の文字列との照合がとられた映像付加情報ファイル504の開始時刻、終了時刻を、重要シーン番号を付与して重要シーン情報ファイル505に追加する。このとき、計算機506は、重要シーン情報ファイル505の最終レコードの重要シーン番号を取得してインクリメントした値を重要シーン番号とする方法が考えられる。
ステップ108) 図8に示すように(発声開始時刻−d)の時点が存在するシーンに対応する映像付加情報ファイル504の開始時刻、終了時刻を重要シーン情報ファイル505の重要シーンに追加する。ここで、dの値は、視聴者が映像に興味を持ってから、何らかの発声を行なうまでの、平均的な遅延時間を表す。通常、d値は、2秒程度に設定する。
ステップ109) 最後の発声かどうかを判定する。最後の発声である場合は処理を終了する。最後の発声でない場合は、ステップ103に移行し、次の発声について同様の処理を行う。
[第2の実施の形態]
本実施の形態では、視聴者の否定的な発言に伴う重要シーンの誤抽出の少ない要約を出力する方法について説明する。
図9は、本発明の第2の実施の形態におけるシステム構成を示す。
同図において、図2と同一構成部分には同一符号を付し、その説明を省略する。本実施の形態では、否定的発言辞書ファイル508が図2の構成に付加されたシステムである。
否定的発言辞書ファイル508は、視聴者が映像を視聴中に、映像に対して否定的な感情を抱いた時などに発声する「つまらない」、「面白くない」等の言葉の文字列を含み、計算機506によって読み込まれ、後述の処理に用いられる。
図10を参照して、図9の計算機506の処理内容について詳細に説明する。図10において図5の動作と同様のステップについては同一ステップ番号を付与し、その説明を省略する。
ステップ101からステップ102は、第1の実施の形態と同様である。
ステップ201) 否定的辞書ファイル507から否定的な発言の文字列を読み込む。否定的な発言とは、「つまらない」や「面白くない」など、視聴者が映像視聴中に、映像に対して否定的な感情を抱いた時に発する言葉であり、この辞書ファイル507は予め用意されているものとする。
ステップ202) ステップ201で得られた否定的な発言の文字列と、視聴者の発声内容の照合を行う。照合の方式は、完全一致で行なう。また、部分一致方式で行なってもよい。また、映像付加情報の文字列と発声内容に形態素解析を行い、その結果の文字列群との間で照合処理を行ってもよい。
ステップ203) 否定的な語かどうかの判定を行なう。否定的な語であった場合は、ステップ201へ移行し、次の発声について同様に処理を行う。否定的な語でなかった場合は、ステップ103に移行する。
これにより、図11のように、視聴者が否定的発言辞書ファイル507に含まれる否定的な発言をした場合、当該発言に対しては、重要シーンの追加処理(ステップ107,108)が行なわれず、これにより、視聴者の否定的な発言に伴う重要シーンの誤抽出の少ない要約が可能となる。
ステップ103〜109は、第1の実施の形態と同様である。
また、上記の第1の実施の形態における図5及び、第2の実施の形態における図10のフローチャートの動作をプログラムとして構築し、映像要約装置として利用されるコンピュータにインストールし、CPU等の制御手段に実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを映像要約装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納することも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、映像情報のライブラリ化、動画編集を行なう際の映像要約技術に適用可能である。
本発明の原理を説明するための図である。 本発明の第1の実施の形態におけるシステム構成図である。 本発明の第1の実施の形態における映像付加情報ファイルの例である。 本発明の第1の実施の形態における重要シーン情報ファイルの例である。 本発明の第1の実施の形態における一連の動作のフローチャートである。 本発明の第1の実施の形態における音声認識を説明するための図である。 本発明の第1の実施の形態における付加情報の開始時刻が存在するシーンを重要シーンに追加する例である。 本発明の第1の実施の形態における発声開始時刻−dの時点が存在するシーンを重要シーンに追加する例である。 本発明の第2の実施の形態におけるシステム構成図である。 本発明の第2の実施の形態における一連の動作のフローチャートである。 本発明の第2の実施の形態における否定的発言があった場合の重要シーン追加処理の例である。 映像中の重要シーンの再生を示す図である。
符号の説明
301 開始時刻
302 終了時刻
303 内容
304 種別
501 モニタ
502 マイク
503 映像ファイル
504 映像付加情報ファイル
505 重要シーン情報ファイル
506 計算機
507 音声ファイル
508 否定的発言辞書ファイル
601 重要シーン番号
602 開始時刻
603 終了時刻

Claims (4)

  1. 映像データの内容を要約する映像要約方法において、
    映像視聴中の視聴者が発声した音声が記憶された音声記憶手段から、該視聴者が発声した発声区間を検出する発声区間検出ステップと、
    前記発声区間に含まれる音声を音声認識(ディクテーション)して、該発声区間の開始時刻から一定時間だけ遡った時点から、映像付加情報記憶手段から映像に含まれるナレーションの文字列、テロップの文字列、セリフの文字列を抽出する文字列抽出ステップと、
    前記文字列と前記ディクテーションの結果の照合を行う照合ステップと、
    照合した照合文字列が検出された場合に、テロップの文字列または、セリフ、または、ナレーションの存在するシーンを、重要シーンと判別する重要シーン判断ステップと、
    前記重要シーンに対応するシーン開始時刻、シーン終了時刻を前記映像付加情報記憶手段から取得して、重要シーン情報記憶手段に出力する重要シーン出力ステップと、
    からなることを特徴とする映像要約方法。
  2. 前記文字列抽出ステップにおいて、映像視聴中の視聴者が発声した音声をディクテーションした文字列が、否定的発言辞書記憶手段の映像に対して否定的な文字列と一致する場合には、前記重要シーン出力ステップを行なわない請求項1記載の映像要約方法。
  3. 映像データの内容を要約する映像要約プログラムであって、
    前記請求項1または2記載の映像要約方法の実現に用いられる処理をコンピュータに実行させることを特徴とする映像要約プログラム。
  4. 映像データの内容を要約する映像要約プログラムを格納した記憶媒体であって、
    前記請求項1または2記載の映像要約方法の実現に用いられる処理をコンピュータに実行させることを特徴とする映像要約プログラムを格納した記憶媒体。
JP2004156267A 2004-05-26 2004-05-26 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体 Pending JP2005341138A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004156267A JP2005341138A (ja) 2004-05-26 2004-05-26 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004156267A JP2005341138A (ja) 2004-05-26 2004-05-26 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2005341138A true JP2005341138A (ja) 2005-12-08

Family

ID=35494203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156267A Pending JP2005341138A (ja) 2004-05-26 2004-05-26 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2005341138A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285115A (ja) * 2005-04-05 2006-10-19 Hitachi Ltd 情報提供方法および情報提供装置
JP2007163568A (ja) * 2005-12-09 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> ダイジェストシーン情報の入力装置、入力方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2011109292A (ja) * 2009-11-16 2011-06-02 Canon Inc 撮像装置、その制御方法及びプログラム並びに記憶媒体
JP2012074773A (ja) * 2010-09-27 2012-04-12 Nec Personal Computers Ltd 編集装置、制御方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285115A (ja) * 2005-04-05 2006-10-19 Hitachi Ltd 情報提供方法および情報提供装置
JP4736511B2 (ja) * 2005-04-05 2011-07-27 株式会社日立製作所 情報提供方法および情報提供装置
JP2007163568A (ja) * 2005-12-09 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> ダイジェストシーン情報の入力装置、入力方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP4627717B2 (ja) * 2005-12-09 2011-02-09 日本電信電話株式会社 ダイジェストシーン情報の入力装置、入力方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2011109292A (ja) * 2009-11-16 2011-06-02 Canon Inc 撮像装置、その制御方法及びプログラム並びに記憶媒体
JP2012074773A (ja) * 2010-09-27 2012-04-12 Nec Personal Computers Ltd 編集装置、制御方法及びプログラム

Similar Documents

Publication Publication Date Title
US8966360B2 (en) Transcript editor
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US6505153B1 (en) Efficient method for producing off-line closed captions
US8818803B2 (en) Character-based automated text summarization
US8392183B2 (en) Character-based automated media summarization
US20070168864A1 (en) Video summarization apparatus and method
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
US20100299131A1 (en) Transcript alignment
US20160133251A1 (en) Processing of audio data
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
JP4331217B2 (ja) 映像再生装置および方法
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2007522722A (ja) 先行変更位置からのメディア・ストリームの再生
JP2007328675A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2011253374A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
WO2023029984A1 (zh) 视频生成方法、装置、终端、服务器及存储介质
JP2006339817A (ja) 情報処理装置およびその表示方法
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
Janin et al. Joke-o-Mat HD: browsing sitcoms with human derived transcripts
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法