JP2006339817A - 情報処理装置およびその表示方法 - Google Patents

情報処理装置およびその表示方法 Download PDF

Info

Publication number
JP2006339817A
JP2006339817A JP2005159568A JP2005159568A JP2006339817A JP 2006339817 A JP2006339817 A JP 2006339817A JP 2005159568 A JP2005159568 A JP 2005159568A JP 2005159568 A JP2005159568 A JP 2005159568A JP 2006339817 A JP2006339817 A JP 2006339817A
Authority
JP
Japan
Prior art keywords
information
image
still image
character information
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005159568A
Other languages
English (en)
Inventor
Rinzo Iwamoto
林三 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005159568A priority Critical patent/JP2006339817A/ja
Publication of JP2006339817A publication Critical patent/JP2006339817A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】動画映像コンテンツに対し、その属性情報に基づいて台詞等の文字情報を含む複数の静止画を生成し、「観るコンテンツ」から「読むコンテンツ」に簡便かつ正確に変換することができる情報処理装置を提供する。
【解決手段】本発明に係る情報処理装置は、映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出部と、音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、抽出した静止画と音声関連情報とを合成して文字情報付静止画を生成する画像合成部と、文字情報付静止画を出力する出力部とを備えたことを特徴とする。
【選択図】 図2

Description

本発明は情報処理装置およびその表示方法に係り、特に、各種映像音声信号を視聴可能に構成された情報処理装置およびその表示方法に関する。
従来から、連続する動画像の中から所定の選択基準によってフレーム画像を選択し、静止画を生成する技術がある。この静止画生成技術は、例えば、映画、テレビドラマ、テレビニュース、ドキュメンタリ等の各種動画映像コンテンツを編集したり、管理したりするような場合に用いられる。
動画映像コンテンツの特徴的な内容を示すフレーム画像をピックアップし、ピックアップした複数の静止画をその動画映像コンテンツの代表静止画としてインデックスを付して提供することによって、動画映像の編集作業が簡素化される。
また、膨大な動画映像コンテンツを管理する場合にも、インデックスが付された代表静止画があればデータへのアクセスも容易となり極めて便利である。
特許文献1は、動画の中身を的確に表す代表静止画像を生成する装置に関する技術を開示している。特許文献1が開示する技術は、連続する動画像の中から、例えば、特徴量の相関係数変化率によってカットの変化点を検出し、カットの開始時点から所定時間経過後のフレーム画像を代表静止画として抽出しインデックスを付していくというものである。この他、動画像の中に字幕スーパーやテロップが含まれる場合にはこれを検出して、字幕スーパーやテロップが含まれるフレーム画像を代表静止画とする技術等も開示されている。
特開2003−298983号公報
ところで、今日、動画映像コンテンツの量は、DVD等の記憶媒体の高密度化やデジタル放送の普及等によって急速な増加傾向を示している。また、HDDレコーダや録画機能を備えたパーソナルコンピュータの普及に伴って、視聴者の都合の良い時間に動画映像コンテンツを視聴するスタイル(いわゆるタイムシフトによる視聴)へのニーズが増加し、個人が動画映像コンテンツを「貯める」ことが一般的になってきた。
しかしながら、「貯めた」動画映像コンテンツを「消費」する方法としては、実時間をかけて、或いは少しだけ再生速度を上げて視聴する以外の方法は現時点では存在しない。
一方、コミックや小説等に代表される「読む」コンテンツが、数分程度のわずかな時間があれば少しずつでも読み進めることができるのに対して、映画やドラマ等に代表される動画映像コンテンツ(「観る」コンテンツ)は、数分程度での視聴では概して得られる内容が希薄であり、コンテンツの内容を理解するため(コンテンツを楽しむため)には、ある程度の時間、集中して視聴することが必要である。
また、「読む」コンテンツは、読んでいる途中で何らかの割り込み、例えば人から話しかけられたり、電話の着信を受けたりして中断を余儀なくされた場合であっても、中断した直前をすぐ読み返すことができるため、「読むこと」を再開することは比較的容易である。
これに対して、「観る」コンテンツは時間当たりの内容が希薄であるため、遡る時間が長くなり、「観ること」を再開するためには「読むこと」を再開することに比べて時間を要することになる。このため、例えば作業の合間、電車での移動、待ち合わせの待ち時間等の僅かな余暇時間を利用して動画映像コンテンツを少しずつ視聴する形態には適していない。
このように、コンテンツの内容を理解する方法、或いはコンテンツを楽しむ方法として、「読む」ことは「観る」ことよりも自由度が高いということができる。
動画映像コンテンツを「観るコンテンツ」から「読むコンテンツ」に変換することができれば、動画映像コンテンツの従来の通常の再生時間に比べて短時間で内容を理解し、或いはコンテンツを楽しむことが可能となる。また、僅かな時間があれば、少しずつでもコンテンツの内容を楽しむこともできる。
特許文献1が開示する技術は、編集等の目的のために、連続する動画像の中から、例えば、特徴量の相関係数変化率によってカットの変化点を検出し、カットの開始時点から所定時間経過後のフレーム画像である代表静止画を抽出する技術であり、この他、動画像の中に字幕スーパーやテロップが含まれる場合にはこれを検出して、字幕スーパーやテロップが含まれるフレーム画像を代表静止画とする技術等も開示されているが、これらの技術が抽出する代表静止画には音声情報は含まれていない。即ち、「観るコンテンツ」を「読むコンテンツ」に変換するものではない。
本発明は、上記事情に鑑みてなされたもので、動画映像コンテンツに対し、その属性情報に基づいて台詞等の文字情報を含む複数の静止画を生成し、「観るコンテンツ」から「読むコンテンツ」に簡便かつ正確に変換することができる情報処理装置およびその表示方法を提供することを目的とする。
本発明に係る情報処理装置は、上記課題を解決するため、請求項1に記載したように、映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出部と、前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成部と、前記文字情報付静止画を出力する出力部とを備えたことを特徴とする。
また、本発明に係る情報処理装置の表示方法は、上記課題を解決するため、請求項8に記載したように、映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出ステップと、前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成ステップと、前記文字情報付静止画を出力する出力ステップとを備えたことを特徴とする。
本発明に係る情報処理装置およびその表示方法によれば、動画映像コンテンツに対し、その属性情報に基づいて台詞等の文字情報を含む複数の静止画を生成し、「観るコンテンツ」から「読むコンテンツ」に簡便かつ正確に変換することができる。
本発明に係る情報処理装置およびその表示方法の実施形態について、添付図面を参照して説明する。
(1)情報処理装置1の構成
図1は、本発明に係る情報処理装置の実施形態の一例として、ノートブック型パーソナルコンピュータの外観例を示した図である。
図1に例示した情報処理装置1は、動画映像コンテンツを記録したDVDやハードディスクを再生可能なDVDドライブやHDDを備えた情報処理装置本体2と、動画映像コンテンツを表示可能な映像表示部(出力部)4を備えた表示パネル部3とを具備して構成されている。
情報処理装置本体2には、電源スイッチ6の他、動画映像コンテンツや静止画等の再生或いは表示に関する操作を行う操作部8や、各種情報の入力等を行うキーボード5、タッチパネル7等が設けられている。また、動画映像コンテンツの音声を出力するスピーカ9(音声出力部)も情報処理装置本体2に設けられている。
図2は、本実施形態に係る情報処理装置1のシステム構成例を示すブロック図である。
情報処理装置1は、各種の動画映像コンテンツを入力する入力部10、入力した動画映像コンテンツを復号する復号処理部50、入力した動画映像コンテンツを再生する他、動画映像コンテンツから静止画を抽出し文字情報付静止画を生成する演算処理部30、映像・音声データを出力部20に出力可能な形態に変換する映像・音声データ処理部21、映像・音声データを出力する出力部20を備えて構成されている。
また、情報処理装置1は、動画映像コンテンツや文字情報付静止画等の再生や表示に関する操作を行う操作部8、操作部8と演算処理部30との間のインタフェースとして機能する操作制御部40を備えている。
入力部10は、動画映像コンテンツを情報処理装置1へ取り込む手段であり、具体的な形態を特に限定するものではないが、例えば、動画映像コンテンツを記録したDVDを再生するDVDドライブ11、テレビ放送等から動画映像コンテンツを受信する放送受信部13、テレビ放送等から供給される動画映像コンテンツを記録するHDD12、インターネットやLAN等の通信回線から動画映像コンテンツを入手する通信インタフェース14等の各種動画映像コンテンツ入手手段をひとつ或いは複数備えて構成される。
ここで、入力部10が入力する動画映像コンテンツは、動画や音声の他に属性情報を含むものである。属性情報はメタデータとも呼ばれるもので、その細部については後述するが、動画映像コンテンツの情報量や識別情報等の一般的な属性情報に加えて、コンテンツの内容を所定の言語で具体的に記述した情報を含むものである。
例えば、動画映像コンテンツが映画やドラマである場合には、登場人物の台詞情報(台詞の内容、台詞番号等)、登場人物(発話者)を識別する発話者名(発話者情報)、発話時刻等を含む情報である。
復号処理部50は、入力部10から入力した動画映像コンテンツを復号する。動画データ、音声データは通信情報量削減等の観点から多くの場合圧縮処理が施されている。また、秘匿性や無断複製防止の観点から暗号化されているものも多い。属性情報についても同様の観点から圧縮処理や暗号化が施されている。復号処理部50では、圧縮されているこれらのデータを復号すると共に、暗号化されている場合にはこれを解除する処理等を行う。
演算処理部30は、図示しないCPU、ROM、RAM等を備え、情報処理装置1全体の制御を行っている。また、演算処理部30は、抽出部31、画像合成部32、再生部33を有している。
抽出部31では、動画映像コンテンツに含まれる属性情報から、台詞情報(台詞の内容、台詞毎に付された台詞番号等)、台詞の発話者情報、発話時刻情報、場面情報(場面毎に付された場面番号等)等を抽出する。属性情報とは、MPEG7等に代表される、動画、音声を記述可能な言語で記述した情報である。
画像合成部32では、発話時刻情報等に基づいて動画の中からフレーム画像を抜き出して静止画を生成する。さらに、生成した静止画の例えば下部領域に、その静止画に登場している人物(発話者)の台詞を重ねて合成し、文字情報付静止画を生成する。
再生部33では、DVDドライブ11やHDD12を制御し、動画や音声を再生する。この際、例えば、画像合成部32で生成された文字情報付静止画に基づいて動画や音声の再生開始箇所を決定する、いわゆる頭だしを行う形態としてもよい。
また、複数の文字情報付静止画の間の期間を、早送りによる動画や音声の再生を行う形態としてもよい。文字情報付静止画の間の期間には通常台詞が含まれていないため、この期間を早送りしたとしても重要な情報が欠落する可能性は低く、全体として高速・短期間での映像コンテンツの確認や鑑賞が可能となる。
抽出部31、画像合成部32、再生部33は、それぞれ独立した形態で構成してもよいが、情報処理装置1全体の制御を行うCPU、ROM、RAM等によって所定の機能を実現する形態としてもよい。
出力部20は、映像出力部4と音声出力部9とから構成される。映像出力部4は、例えば、CRT、液晶ディスプレー、プラズマディスプレー等の映像表示装置である。放送受信部13や通信インタフェース14を介して入力された動画、DVDドライブ11、HDD12から再生された動画、或いは画像合成部32で生成された文字情報付静止画を表示する。
また、音声出力部は、スピーカ等の音声出力装置であり、放送受信部13や通信インタフェース14を介して入力された音声、DVDドライブ11、HDD12から再生された音声を出力する。
映像・音声データ処理部21は、復号された映像データや音声データを、出力部20から出力可能な形態に変換するものである。
操作部8は、適宜の操作ボタン等で構成される。操作部8の操作により、例えば、画像合成部32で生成された複数の文字情報付静止画を、順方向、逆方向にコマ送りして選択する。また、文字情報付静止画の表示と動画・音声の再生を組み合わせて、コマ送りの間の期間に動画・音声を高速再生する操作を行う形態としてもよい。さらに、選択した文字情報付静止画を頭だし画像とし、その画像以降の動画・音声を再生する形態としてもよい。
操作制御部40は、操作部8からの操作信号を演算処理部30へ伝達可能な形態に変換するために設けられている。
(2)情報処理装置1の動作
上記のように構成された情報処理装置1の動作について説明する。
情報処理装置1は、動画映像コンテンツを、文字情報(台詞情報)を含んだ複数の静止画に変換するものであるが、以下の説明では動画映像コンテンツとして、図3に示す単純なシナリオ例を用いて説明する。
図3は、動作説明用のシナリオ例を示した表であり、表の縦方向が時間進行方向に相当する。A列には場面番号(或いはカット番号)を示している。B列には動画のフレーム画面を抜粋して示している。図3は、静止画生成の基となる「動画」のシナリオ例を説明するものであり、本来B列の画像は「動画」となるべきものであるが、動画を紙面に表現できないため、後述する静止画と対応した画面としている。
ここで、「場面」とは、登場人物等の動きが少ない、或いは所定の範囲内に収まる複数の画像を1つにまとめた単位をいい、場面毎に場面番号が付されて識別された単位である。場面番号は、後述するように属性情報に含まれている。
C列には、シナリオ開始時点からの経過時間を分(mm)、秒(ss)の単位で示してある。より具体的には、D列に示した台詞の発話のスタート時刻を、シナリオ開始時点からカウントアップした時刻として表示している。
D列には、シナリオ例で発話される総ての台詞の内容とその発話者とを、時系列に並べて示してある。
動画映像コンテンツの音声データには、D列に示した台詞の内容がその発話者によって実際に発話される音声が記録されている。また、動画映像コンテンツの属性情報には、台詞の内容と発話者とが、例えばテキスト情報として記録されている。
図4は、情報処理装置1の画像合成部32が、動画映像コンテンツから生成した文字情報付静止画の一例を示したものである。図4に示した2枚の文字情報付静止画(スライド1およびスライド2)は、図3の場面番号1に対応するものである。
図4(a)は、静止画Sd1と文字情報とを合成した文字情報付静止画Sdc1を示している。文字情報として、台詞sc1“やぁ、B子さん、こんにちは”と、台詞sc1の範囲を示す記号“「”、“」”と、台詞sc1の発話者“A男”とが付されている。
図4(b)は、静止画Sd2と文字情報とを合成した文字情報付静止画Sdc2を示している。文字情報として、台詞sc1の次に発話される台詞sc2 “あ、A男さん。こんにちは、お久しぶりですね。”と、台詞sc2の範囲を示す記号“「”、“」”と、台詞sc2の発話者“B子”とが付されている。
静止画Sd1は、発話者“A男”が台詞sc1“やぁ、B子さん、こんにちは”の発話をスタートした時刻の画像を動画データから抽出したものである。同様に、静止画Sd2は、発話者“B子”が、台詞sc2 “あ、A男さん。こんにちは、お久しぶりですね。”の発話をスタートした時刻の画像を動画データから抽出したものである。
このように、画像合成部32では、動画映像コンテンツから文字情報付静止画(スライド)を生成するが、生成に際しては、動画映像コンテンツに含まれている属性情報を用いることによって、簡便にかつ正確に文字情報付静止画を生成する方法としている。
属性情報の具体的な例を図5を用いて説明する。図5は、図4に示した2枚の文字情報付静止画の生成に関する部分の属性情報を抜粋して示したものである。
属性情報は所定の言語で記述されるもので、例えば、図5に示したようにXML形式の言語で記述される。
図5の左端には説明の便宜上、行番号を付している。また、リストの右側にはリストの意味を簡潔に示すコメントを付している。
第1行は、場面番号(CutNumber)が“1”であることを示している。第1行から第24行の間に、場面番号“1”に関する内容が記述されている。
第2行は、場面番号“1”のスタート時刻が0秒(“0000”)であることを示している。さらに、第3行は、場面番号“1”の継続時間が8秒(“0008”)であることを示している。
第4行から第13行までの範囲は台詞番号1に関する内容を記述している。
第4行には、次に発話される台詞番号(MediaNumber)が“1”であることが示されている。台詞番号は、シナリオ(動画映像コンテンツ)に含まれる総ての台詞に対して時刻順に付されるものである。
第5行には、台詞番号“1”の台詞のスタート時刻(MediaStartTime)が3秒(“0003”)であることが示されている。台詞のスタート時刻は、シナリオ(動画映像コンテンツ)の開始時点から常時カウントアップされていくものである。
本実施形態では、台詞番号と台詞のスタート時刻の情報をキーとして動画映像コンテンツから静止画を抽出する形態としている。
第6行は、台詞番号“1”の継続時間(MediaDuration)が2秒(“0002”)であることを示している。
第7行から第9行は、台詞番号“1”の発話者が“A男”であることを示している。
また、第10行から第12行は、台詞番号“1”の台詞を“やぁ、B子さん、こんにちは”というテキストで示している。
第14行から第23行までの範囲には、台詞番号1と同様の形態で台詞番号2に関する内容が記述されている。
第14行には、次に発話される台詞番号(MediaNumber)が“2”であることが示され、第5行には、台詞番号“2”の台詞のスタート時刻(MediaStartTime)が5秒(“0005”)であることが示されている。
また、第17行から第19行は、台詞番号“2”の発話者が“B子”であることを示し、第20行から第22行は、台詞番号“2”の台詞が“あ、A男さん。こんにちは、お久しぶりですね。”であることを示している。
第26行以降には、場面番号“2”の内容が同様の形態で記述されている。
図5のように記述された属性情報に基づいて、動画映像コンテンツから文字情報付静止画を生成する具体例を、3つの形態を例として説明する。
(3)第1の実施形態
第1の実施形態は、「台詞毎」に文字情報付静止画を生成する形態である。
図6に示したフローチャートは、第1の実施形態に係る処理の具体例を示したものである。
ステップST1では、初期設定を行う。変数OutMediaNumberに初期値1を代入する。また、変数EndMediaNumberに台詞総数を代入する。
変数OutMediaNumberは、台詞番号nを代入する変数であり、台詞番号nは、図5においてMediaNumberとして記述されている数である。また、図5の記述から、台詞番号n(MediaNumber)の最大値がわかるから、これを台詞総数として変数EndMediaNumberに代入する。
ステップST2は、台詞毎に静止画を抽出するステップである。ステップST2におけるMediaStartTime(n)は、注記欄に示したように、台詞番号nのスタート時刻が設定されるものである。従って、MediaStartTime(OutMediaNumber)は、台詞番号nのスタート時刻が設定される。
また、f(t)は、動画データから時刻tにおける画像を抽出し、その画像を静止画として生成する処理を表している。従って、f(MediaStartTime(OutMediaNumber))は、動画データから、台詞番号nのスタート時刻における画像を抽出し、その画像を静止画とする処理である。
変数OutMediaNumberの初期値は、1であるから、最初にステップST2を処理する場合には、台詞番号1のスタート時刻、即ち、図5の記述例では、シナリオ開始から3秒経過後(図5の第5行参照)の画像を抽出して静止画Sd1を生成することになる。
ステップST3では、発話者名とその発話者の台詞を属性情報から抽出し、静止画の画面に出力する。この結果、発話者名とその発話者の台詞が静止画上に合成されることになる。
ステップST3において、Speaker_name(n)は、台詞番号nの発話者を属性情報から抽出し、発話者名をテキスト情報としてSpeaker_name(n)に代入する処理を表す。また、Spoken_text(n)は、台詞番号nの台詞を属性情報から抽出し、台詞の内容をテキスト情報としてSpoken_text(n)に代入する処理を表している。
ステップST3の処理によって、発話者名とその台詞内容がテキストとして静止画上に合成され、1つの文字情報付静止画が生成される。
本例のシナリオでは、台詞番号1の発話者は、“A男”であり、その台詞内容“やぁ、B子さん、こんにちは”が、静止画Sd1に付されて文字情報付静止画Sdc1が生成される。
次に、ステップST4で操作部8の操作を待つ。操作部8は「進む」ボタンと「戻る」ボタンの操作ボタンを備えている。「進む」ボタンを押下することにより、文字情報付静止画を次の文字情報付静止画に進める。また、「戻る」ボタンを押下することによって文字情報付静止画を1つ前の文字情報付静止画に戻す。
「進む」ボタンが押下されると、ステップST5へ進む。ステップST5では、台詞番号(変数OutMediaNumber)を1つ進める。本例では、台詞番号が“1”から“2”に進む。
台詞番号が台詞の総数に達しない限り(ステップST7の判断)、再びステップST2に戻る。ここで、台詞番号2のスタート時刻における画像を抽出し、その画像を静止画Sd2とする。さらにステップST3で、台詞番号2の発話者である“B子”とその台詞内容である、“あ、A男さん。こんにちは、お久しぶりですね。”が静止画Sd2に付されて文字情報付静止画Sdc2が生成される。
「進む」ボタンを順次押下することによって、シナリオの時間経過に沿った文字情報付静止画が順次生成されていくことになる。生成された文字情報付静止画は、情報処理装置1が備える映像出力部4に送られ、映像出力部4の表示画面に順次表示される。
なお、ステップST4において、「戻る」ボタンが押下された場合には、ステップST6において台詞番号をひとつ減らす。この結果、シナリオを過去に遡って文字情報付静止画を生成し、映像出力部4に表示させることもできる。
図7は、図6のフローチャートに基づいて生成され、表示される文字情報付静止画を並べて示したものである。図3に示したシナリオ例では、合計16の台詞が発話者A男、B子、およびC介によって発話されている。これに対応して、16枚の台詞毎の文字情報付静止画(スライド1Sd1ないしスライド16Sd16)が生成されることになる。
図6のフローチャートでは、「進む」ボタンと、「戻る」ボタンによって文字情報付静止画をひとつずつ進めたり或いは戻したりする形態としているが、台詞番号を操作部から入力することによって任意の台詞番号の文字情報付静止画へジャンプする形態としてもよい。
本実施形態に係る情報処理装置1およびその表示方法によれば、動画映像コンテンツから台詞情報(文字情報)つきの静止画を生成することが可能となり、「観るコンテンツ」から「読むコンテンツ」に変換することができる。この結果、従来の動画による「観るコンテンツ」では経験することのなかった新たな形態のコンテンツの鑑賞が可能となる。
例えば、「読むコンテンツ」では、「観るコンテンツ」に比べて短時間でコンテンツの内容を鑑賞することが可能となる。
また、「読むコンテンツ」は、鑑賞の中断を余儀なくされた場合であっても、短時間での鑑賞の再開が可能である。
さらに、「読むコンテンツ」は、短時間ずつ分断して鑑賞することが「観るコンテンツ」に比べて容易である。このため、作業の合間、電車での移動時間、或いは待ち合わせの時間等の僅かな余暇時間を利用して映像コンテンツを少しずつ楽しむことが可能となる。
また、動画データおよび音声データ(「観るコンテンツ」)から、文字情報付静止画(「読むコンテンツ」)への変換は、変換対象である動画映像コンテンツに含まれている属性情報に基づいて行う形態であるため、簡便かつ正確に変換することが可能となる。
ここまでの説明では、動画映像コンテンツから文字情報付静止画を生成し、表示することを主に述べてきたが、文字情報付静止画の生成・表示と動画データ・音声データの再生とを組み合わせる形態としてもよい。
例えば、「進む」ボタンを押下すると、次の文字情報付静止画との間にある動画データ・音声データを高速で再生し、次の文字情報付静止画の時刻に達するとそこで停止して、文字情報付静止画を表示する形態としてもよい。
文字情報付静止画は台詞に基づいて生成するものである。台詞が比較的長い期間発話されないような場合、その間の動画を高速で再生することにより、「読む」コンテンツの利点を享受しつつ、台詞間の動画情報の欠落を回避しコンテンツの連続性を補完することが可能となる。
この他、動画データ・音声データの再生の頭出しに文字情報付静止画を用いる形態としてもよい。操作部8の操作によって所望の文字情報付静止画を選択、表示させ、その後、動画データ・音声データの再生を開始することで、短時間でかつ簡便に頭出しが可能となり、所望の時点から動画映像コンテンツを鑑賞することができる。
(4)第2の実施形態
上述した第1の実施形態は、文字情報付静止画を「台詞毎」に生成する形態であった。これに対して、第2の実施形態では、「場面毎」に文字情報付静止画を生成する形態である。
図3のシナリオ例に示したように、1つの場面で複数の台詞が発話される場合がある。例えば、場面番号“1”では、“A男”と“B子”とで2つの台詞を発話している。通常1つの場面では、登場人物の動きはそれ程大きくないため、場面を代表する1つの画面に複数の台詞を表す文字情報を合成すれば、文字情報付静止画の数を低減することが可能となる。
図8は、この考えに基づいて、「場面毎」に文字情報付静止画を生成した例を示している。例えば、図8の文字情報付静止画c1(スライド1)では、“A男”sp1、その台詞sc1“やぁ、B子さん、こんにちは”、“B子”sp2、その台詞sc2“あ、A男さん。こんにちは、お久しぶりですね。”がひとつの場面番号1を代表する文字情報付静止画c1に合成されている。
この結果、文字情報付静止画の総数は、場面番号の総数の11となり、第1の実施形態(図7)における文字情報付静止画の総数16に比べて削減されている。
図9は、第2の実施形態における、文字情報付静止画の生成方法を説明するフローチャートである。
ステップST10では、初期設定を行っている。変数CurrentCutに初期値1を代入する。また、変数EndMediaNumberに台詞総数を代入する。
変数CurrentCutは、場面番号を代入する変数であり、場面番号は、図5においてCutNumberとして記述されている数である。また、図5の記述から、台詞番号n(MediaNumber)の最大値がわかるから、これを台詞総数として変数EndMediaNumberに代入する。
次にステップST11では、変数OutMediaNumberに、場面番号(変数CurrentCut)の先頭に発話される台詞の台詞番号を代入する。
ステップST12は、場面毎に静止画を抽出するステップである。ステップST12におけるMediaStartTime(n)は、注記欄に示したように、第1の実施形態と同様に台詞番号nのスタート時刻が設定されるものである。ステップST11において、変数OutMediaNumberには場面番号(変数CurrentCut)の先頭に発話される台詞の台詞番号が代入されている。従って、MediaStartTime(OutMediaNumber)は、該当する場面番号の先頭に発話される台詞番号nのスタート時刻が設定される。
また、f(t)は、動画データから時刻tにおける画像を抽出し、その画像を静止画として生成する処理を表している。従って、f(MediaStartTime(OutMediaNumber))は、動画データから、該当する場面番号の先頭に発話される台詞番号nのスタート時刻における画像を抽出し、その画像を静止画とする処理である。
変数OutMediaNumberの初期値は、場面番号1の先頭の台詞番号であるから、1となる。従って、最初にステップST12を処理する場合には、台詞番号1のスタート時刻、即ち、図5の記述例では、シナリオ開始から3秒経過後(図5の第5行参照)の画像を抽出して静止画Sd1を生成することになる。
ステップST13では、発話者名とその発話者の台詞を属性情報から抽出し、静止画の画面に出力する。この結果、最初の発話者名とその発話者の台詞が静止画上に合成されることになる。
ステップST13において、Speaker_name(n)は、台詞番号nの発話者を属性情報から抽出し、発話者名をテキスト情報としてSpeaker_name(n)に代入する処理を表す。また、Spoken_text(n)は、台詞番号nの台詞を属性情報から抽出し、台詞の内容をテキスト情報としてSpoken_text(n)に代入する処理を表している。
ステップST13の処理によって、発話者が複数いる場合には、先頭の発話者名とその台詞内容がテキストとして静止画上に合成・表示される。
次に、ステップST14において、変数OutMediaNumberを1つ増やす。変数OutMediaNumberは台詞番号が代入される変数であるから、ステップST14において台詞番号が1つ進むことになる。
ステップST15におけるCut(n)は、台詞番号nが発話される場面の場面番号が入力される変数である。
ステップST16では、変数CurrentCutとCut(n)とを比較し、一致している場合にはステップST13に戻り、不一致の場合にはステップST16に進む。
最初の段階では、Cut(n)には、台詞番号“2”が発話される場面の場面番号、即ち、場面番号“1”が代入されているため、変数CurrentCutの初期値“1”と一致する。この結果、ステップST13に戻る。
ステップST13では、台詞番号2の発話者“B子”と台詞番号2の台詞内容“あ、A男さん。こんにちは、お久しぶりですね。”が抽出され、場面番号1の静止画上に重ねて合成される。
この結果、文字情報付静止画には、場面番号1の静止画と、“A男”と “B子”の2つの台詞が文字情報として合成されることになる。
ステップST14では、変数OutMediaNumberに1がさらに加算され3となる。この結果、Cut(OutMediaNumber)は、台詞番号3が発話される場面の場面番号、即ち、場面番号2が設定される。
この結果、ステップST15の判定は不一致となり、ステップST16に進み、「進み」ボタン又は「戻り」ボタンが押下されるのを待つ。「進み」ボタンが押下された場合には、さらにステップST17へ進む。
ステップST17では、場面番号を表す変数CurrentCutを1つ進める。
台詞番号が台詞の総数に達しない限り(ステップST19の判断)、再びステップST11に戻る。
ステップST11からは、今度はひとつ進んだ場面番号に対して同様の処理を行う。これらの処理を繰り返すことによって、「場面毎」の文字情報付静止画を順次生成していく。
生成された「場面毎」の文字情報付静止画は、情報処理装置1が備える映像出力部4に送られ、映像出力部4の表示画面に順次表示される。
なお、ステップST16において、「戻る」ボタンが押下された場合には、ステップST18において場面番号をひとつ減らす。この結果、シナリオを場面単位で過去に遡る文字情報付静止画を生成し、映像出力部4に表示させることもできる。
第2の実施形態によれば、第1の実施形態による効果に加えて、生成する文字情報付静止画の数を削減できるため、より短時間で動画映像コンテンツを鑑賞することが可能となる。
なお、ひとつの場面に含まれる台詞の数が多すぎて1枚の文字情報付静止画に収容しきれないような場合には、同一場面を複数に分割する形態としてもよい。
(5)第3の実施形態
図10は、第3の実施形態に係る文字情報付静止画の表示例を示したものである。
第3の実施形態では、第2の実施形態で生成される「場面毎」の文字情報付静止画をHDD等の適宜の記憶装置に複数記憶させ、これらの複数の文字情報付静止画を縮小し、並べて表示する形態としている。
縮小した文字情報付静止画の並べ方は特に限定するものではないが、例えば、いわゆるコミック形式と呼ばれているような、右から左へ繰り返し配列するような形式(図10の矢印で示した順序の配列方法)にすれば、コミック形式に慣れている鑑賞者に対しては、違和感の無い「読むコンテンツ」を提供することができる。
第3の実施形態によれば、第1、第2の実施形態の効果に加えて、さらに短時間でのコンテンツの鑑賞が可能となる。
なお、本発明は上記の各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
本発明に係る情報処理装置の一実施形態の外観例を示す外観図。 本発明に係る情報処理装置の一実施形態のシステム構成例を示すブロック図。 本発明に係る情報処理装置の一実施形態の動作例を説明するための動画映像コンテンツのシナリオ例を示す図。 本発明に係る情報処理装置の第1の実施形態における文字情報付静止画を説明する第1の図。 本発明に係る情報処理装置の一実施形態の動作例を説明するための属性情報の記述例を示す図。 本発明に係る情報処理装置の第1の実施形態における文字情報付静止画の生成方法を説明するフローチャート。 本発明に係る情報処理装置の第1の実施形態における文字情報付静止画を説明する第2の図。 本発明に係る情報処理装置の第2の実施形態における文字情報付静止画を説明する図。 本発明に係る情報処理装置の第2の実施形態における文字情報付静止画の生成方法を説明するフローチャート。 本発明に係る情報処理装置の第3の実施形態における文字情報付静止画を説明する図。
符号の説明
1 情報処理装置
2 情報処理装置本体
4 映像出力部(映像表示部)
8 操作部
9 スピーカ(音声出力部)
10 入力部
11 DVDドライブ
12 HDD
13 放送受信部
14 通信インタフェース
20 出力部
21 映像・音声データ処理部
30 演算処理部
31 抽出部
32 画像合成部
33 再生部
40 操作制御部
50 復号処理部

Claims (14)

  1. 映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出部と、
    前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成部と、
    前記文字情報付静止画を出力する出力部と、
    を備えたことを特徴とする情報処理装置。
  2. 前記画像合成部は、
    前記台詞情報が変わる毎にその台詞の発話時刻に基づいて前記動画から静止画を抽出し、抽出した前記静止画と前記台詞情報および前記台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項1に記載の情報処理装置。
  3. 前記抽出部は、
    前記属性情報から、場面の変化を示す場面情報をさらに抽出し、
    前記画像合成部は、
    前記場面が変わる毎にその場面で最初に発話する発話者の発話時刻に基づいて前記動画から静止画を抽出し、抽出した前記静止画とその場面で発話される1又は複数の発話者の台詞情報およびその台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項1に記載の情報処理装置。
  4. 前記画像合成部は、
    前記文字情報付静止画を縮小し、縮小した複数の前記文字情報付静止画を並べた合成画像をさらに生成し、
    前記出力部は、
    前記合成画像をさらに出力することを特徴とする請求項3に記載の情報処理装置。
  5. 画像を選択する操作部をさらに備え、
    前記画像合成部は、
    前記操作部からの操作に基づいて、前記動画から前記文字情報付静止画を時系列順又は任意の順で生成することを特徴とする請求項2または3に記載の情報処理装置。
  6. 前記動画および音声を再生する再生部をさらに備え、
    前記出力部は、
    前記文字情報付静止画と再生される前記動画および音声とを出力し、
    前記再生部は、
    前記文字情報付静止画の間の期間は、前記動画および音声を早送りで再生する、
    ことを特徴とする請求項2または3に記載の情報処理装置。
  7. 前記動画および音声を再生する再生部をさらに備え、
    前記出力部は、
    前記文字情報付静止画と再生される前記動画および音声とを出力し、
    前記再生部は、
    任意に選択された文字情報付静止画を頭出し画面とし、その頭出し画面から前記動画および音声を再生する、
    ことを特徴とする請求項2ないし4のいずれかに記載の情報処理装置。
  8. 映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出ステップと、
    前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成ステップと、
    前記文字情報付静止画を出力する出力ステップと、
    を備えたことを特徴とする情報処理装置の表示方法。
  9. 前記画像合成ステップは、
    前記台詞情報が変わる毎にその台詞の発話時刻に基づいて前記動画から静止画を抽出し、抽出した前記静止画と前記台詞情報および前記台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項8に記載の表示方法。
  10. 前記抽出ステップは、
    前記属性情報から、場面の変化を示す場面情報をさらに抽出し、
    前記画像合成ステップは、
    前記場面が変わる毎にその場面で最初に発話する発話者の発話時刻に基づいて前記静止画を抽出し、抽出した前記静止画とその場面に発話される1又は複数の発話者の台詞情報およびその台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項8に記載の表示方法。
  11. 前記画像合成ステップは、
    前記文字情報付静止画を縮小し、縮小した複数の前記文字情報付静止画を並べた合成画像をさらに生成し、
    前記出力ステップは、
    前記合成画像をさらに出力することを特徴とする請求項10に記載の表示方法。
  12. 前記画像合成ステップは、
    前記動画から前記文字情報付静止画を、時系列順又は任意の順で生成することを特徴とする請求項9または10に記載の表示方法。
  13. 前記動画および音声を再生する再生ステップをさらに備え、
    前記出力ステップは、
    前記文字情報付静止画と再生する前記動画および音声とを出力し、
    前記再生ステップは、
    前記文字情報付静止画の間の期間は、前記動画および音声を早送りで再生する、
    ことを特徴とする請求項9または10に記載の表示方法。
  14. 前記動画および音声を再生する再生ステップをさらに備え、
    前記出力ステップは、
    前記文字情報付静止画と再生する前記動画および音声とを出力し、
    前記再生ステップは、
    任意に選択した文字情報付静止画を頭出し画面とし、その頭出し画面から前記動画および音声を再生する、
    ことを特徴とする請求項8ないし10のいずれかに記載の表示方法。
JP2005159568A 2005-05-31 2005-05-31 情報処理装置およびその表示方法 Pending JP2006339817A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005159568A JP2006339817A (ja) 2005-05-31 2005-05-31 情報処理装置およびその表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005159568A JP2006339817A (ja) 2005-05-31 2005-05-31 情報処理装置およびその表示方法

Publications (1)

Publication Number Publication Date
JP2006339817A true JP2006339817A (ja) 2006-12-14

Family

ID=37560005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005159568A Pending JP2006339817A (ja) 2005-05-31 2005-05-31 情報処理装置およびその表示方法

Country Status (1)

Country Link
JP (1) JP2006339817A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010021991A (ja) * 2008-06-09 2010-01-28 Sony Corp 情報提示装置および情報提示方法
JP2010154254A (ja) * 2008-12-25 2010-07-08 Kyocera Corp 合成画像作成装置
JP2015135575A (ja) * 2014-01-16 2015-07-27 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム
JP2017005442A (ja) * 2015-06-09 2017-01-05 日本放送協会 コンテンツ生成装置およびプログラム
CN110390242A (zh) * 2018-04-20 2019-10-29 富士施乐株式会社 信息处理装置以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1098684A (ja) * 1996-07-15 1998-04-14 At & T Corp 電子サーチ・検索に適したフォーマットでのビデオプログラム圧縮表現自動提供方法
JP2001045428A (ja) * 1999-07-29 2001-02-16 Canon Inc 動画像処理装置、動画像処理方法および記憶媒体
JP2002335473A (ja) * 2001-05-10 2002-11-22 Webstream:Kk 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
JP2002344871A (ja) * 2001-05-14 2002-11-29 Hitachi Ltd 字幕放送記録装置および記録方法
JP2003085572A (ja) * 2001-09-11 2003-03-20 Nippon Hoso Kyokai <Nhk> 漫画生成装置及び漫画生成プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1098684A (ja) * 1996-07-15 1998-04-14 At & T Corp 電子サーチ・検索に適したフォーマットでのビデオプログラム圧縮表現自動提供方法
JP2001045428A (ja) * 1999-07-29 2001-02-16 Canon Inc 動画像処理装置、動画像処理方法および記憶媒体
JP2002335473A (ja) * 2001-05-10 2002-11-22 Webstream:Kk 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
JP2002344871A (ja) * 2001-05-14 2002-11-29 Hitachi Ltd 字幕放送記録装置および記録方法
JP2003085572A (ja) * 2001-09-11 2003-03-20 Nippon Hoso Kyokai <Nhk> 漫画生成装置及び漫画生成プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010021991A (ja) * 2008-06-09 2010-01-28 Sony Corp 情報提示装置および情報提示方法
JP4618384B2 (ja) * 2008-06-09 2011-01-26 ソニー株式会社 情報提示装置および情報提示方法
US8436941B2 (en) 2008-06-09 2013-05-07 Sony Corporation Information presenting device and information presenting method
JP2010154254A (ja) * 2008-12-25 2010-07-08 Kyocera Corp 合成画像作成装置
JP2015135575A (ja) * 2014-01-16 2015-07-27 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム
JP2017005442A (ja) * 2015-06-09 2017-01-05 日本放送協会 コンテンツ生成装置およびプログラム
CN110390242A (zh) * 2018-04-20 2019-10-29 富士施乐株式会社 信息处理装置以及存储介质
CN110390242B (zh) * 2018-04-20 2024-03-12 富士胶片商业创新有限公司 信息处理装置以及存储介质

Similar Documents

Publication Publication Date Title
JP5528324B2 (ja) スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置
JP2006025422A (ja) オーディオビデオデータストリームの字幕を通じてナビゲートするための方法および装置
KR20080096181A (ko) 동영상 디스플레이 방법 및 이를 적용한 영상재생장치
JP2008205745A (ja) 映像再生装置および方法
JP2008312183A (ja) 情報処理装置および方法、並びにプログラム
JP2007067595A (ja) 番組情報の通知方法
JP2006339817A (ja) 情報処理装置およびその表示方法
JP2006115052A (ja) コンテンツ検索装置とその入力装置、コンテンツ検索システム、コンテンツ検索方法、プログラム及び記録媒体
JP2008160232A (ja) 映像音声再生装置
JP2008048297A (ja) コンテンツ提供方法、コンテンツ提供方法のプログラム、コンテンツ提供方法のプログラムを記録した記録媒体及びコンテンツ提供装置
KR0176961B1 (ko) 캡션지향 화면 검색기능의 비디오cd재생장치 및 캡션지향 화면 검색방법
JPH11184867A (ja) 映像情報検索再生方法ならびに装置及び同方法がプログラムされ記録される記録媒体
JP5033653B2 (ja) 映像記録再生装置及び映像再生装置
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
KR101648711B1 (ko) 스크립트를 기반으로 하는 동영상 부가정보 처리 장치 및방법
JP2008005258A (ja) 記録再生装置、画像信号送信装置、記録再生方法、画像信号送信方法及びデータ構造
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP4230402B2 (ja) サムネイル画像抽出方法、装置、プログラム
JP2006332765A (ja) コンテンツ検索・再生方法、コンテンツ検索・再生装置、並びにプログラムおよび記録媒体
US20070165505A1 (en) Information playback apparatus and recording medium
KR200315952Y1 (ko) 사용자 지향적 자막 재생 장치
JP2002320163A (ja) メタ情報と映像時間位置情報を利用した映像視聴装置
JP4539884B2 (ja) 再生装置、プログラム及び電子画面を構築する方法
JP2003018534A (ja) 再生装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100413