JP2006339817A

JP2006339817A - 情報処理装置およびその表示方法

Info

Publication number: JP2006339817A
Application number: JP2005159568A
Authority: JP
Inventors: Rinzo Iwamoto; 林三岩本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-05-31
Filing date: 2005-05-31
Publication date: 2006-12-14

Abstract

【課題】動画映像コンテンツに対し、その属性情報に基づいて台詞等の文字情報を含む複数の静止画を生成し、「観るコンテンツ」から「読むコンテンツ」に簡便かつ正確に変換することができる情報処理装置を提供する。
【解決手段】本発明に係る情報処理装置は、映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出部と、音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、抽出した静止画と音声関連情報とを合成して文字情報付静止画を生成する画像合成部と、文字情報付静止画を出力する出力部とを備えたことを特徴とする。
【選択図】図２

Description

本発明は情報処理装置およびその表示方法に係り、特に、各種映像音声信号を視聴可能に構成された情報処理装置およびその表示方法に関する。

従来から、連続する動画像の中から所定の選択基準によってフレーム画像を選択し、静止画を生成する技術がある。この静止画生成技術は、例えば、映画、テレビドラマ、テレビニュース、ドキュメンタリ等の各種動画映像コンテンツを編集したり、管理したりするような場合に用いられる。

動画映像コンテンツの特徴的な内容を示すフレーム画像をピックアップし、ピックアップした複数の静止画をその動画映像コンテンツの代表静止画としてインデックスを付して提供することによって、動画映像の編集作業が簡素化される。

また、膨大な動画映像コンテンツを管理する場合にも、インデックスが付された代表静止画があればデータへのアクセスも容易となり極めて便利である。

特許文献１は、動画の中身を的確に表す代表静止画像を生成する装置に関する技術を開示している。特許文献１が開示する技術は、連続する動画像の中から、例えば、特徴量の相関係数変化率によってカットの変化点を検出し、カットの開始時点から所定時間経過後のフレーム画像を代表静止画として抽出しインデックスを付していくというものである。この他、動画像の中に字幕スーパーやテロップが含まれる場合にはこれを検出して、字幕スーパーやテロップが含まれるフレーム画像を代表静止画とする技術等も開示されている。
特開２００３−２９８９８３号公報

ところで、今日、動画映像コンテンツの量は、ＤＶＤ等の記憶媒体の高密度化やデジタル放送の普及等によって急速な増加傾向を示している。また、ＨＤＤレコーダや録画機能を備えたパーソナルコンピュータの普及に伴って、視聴者の都合の良い時間に動画映像コンテンツを視聴するスタイル（いわゆるタイムシフトによる視聴）へのニーズが増加し、個人が動画映像コンテンツを「貯める」ことが一般的になってきた。

しかしながら、「貯めた」動画映像コンテンツを「消費」する方法としては、実時間をかけて、或いは少しだけ再生速度を上げて視聴する以外の方法は現時点では存在しない。

一方、コミックや小説等に代表される「読む」コンテンツが、数分程度のわずかな時間があれば少しずつでも読み進めることができるのに対して、映画やドラマ等に代表される動画映像コンテンツ（「観る」コンテンツ）は、数分程度での視聴では概して得られる内容が希薄であり、コンテンツの内容を理解するため（コンテンツを楽しむため）には、ある程度の時間、集中して視聴することが必要である。

また、「読む」コンテンツは、読んでいる途中で何らかの割り込み、例えば人から話しかけられたり、電話の着信を受けたりして中断を余儀なくされた場合であっても、中断した直前をすぐ読み返すことができるため、「読むこと」を再開することは比較的容易である。

これに対して、「観る」コンテンツは時間当たりの内容が希薄であるため、遡る時間が長くなり、「観ること」を再開するためには「読むこと」を再開することに比べて時間を要することになる。このため、例えば作業の合間、電車での移動、待ち合わせの待ち時間等の僅かな余暇時間を利用して動画映像コンテンツを少しずつ視聴する形態には適していない。

このように、コンテンツの内容を理解する方法、或いはコンテンツを楽しむ方法として、「読む」ことは「観る」ことよりも自由度が高いということができる。

動画映像コンテンツを「観るコンテンツ」から「読むコンテンツ」に変換することができれば、動画映像コンテンツの従来の通常の再生時間に比べて短時間で内容を理解し、或いはコンテンツを楽しむことが可能となる。また、僅かな時間があれば、少しずつでもコンテンツの内容を楽しむこともできる。

特許文献１が開示する技術は、編集等の目的のために、連続する動画像の中から、例えば、特徴量の相関係数変化率によってカットの変化点を検出し、カットの開始時点から所定時間経過後のフレーム画像である代表静止画を抽出する技術であり、この他、動画像の中に字幕スーパーやテロップが含まれる場合にはこれを検出して、字幕スーパーやテロップが含まれるフレーム画像を代表静止画とする技術等も開示されているが、これらの技術が抽出する代表静止画には音声情報は含まれていない。即ち、「観るコンテンツ」を「読むコンテンツ」に変換するものではない。

本発明は、上記事情に鑑みてなされたもので、動画映像コンテンツに対し、その属性情報に基づいて台詞等の文字情報を含む複数の静止画を生成し、「観るコンテンツ」から「読むコンテンツ」に簡便かつ正確に変換することができる情報処理装置およびその表示方法を提供することを目的とする。

本発明に係る情報処理装置は、上記課題を解決するため、請求項１に記載したように、映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出部と、前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成部と、前記文字情報付静止画を出力する出力部とを備えたことを特徴とする。

また、本発明に係る情報処理装置の表示方法は、上記課題を解決するため、請求項８に記載したように、映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出ステップと、前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成ステップと、前記文字情報付静止画を出力する出力ステップとを備えたことを特徴とする。

本発明に係る情報処理装置およびその表示方法によれば、動画映像コンテンツに対し、その属性情報に基づいて台詞等の文字情報を含む複数の静止画を生成し、「観るコンテンツ」から「読むコンテンツ」に簡便かつ正確に変換することができる。

本発明に係る情報処理装置およびその表示方法の実施形態について、添付図面を参照して説明する。

（１）情報処理装置１の構成
図１は、本発明に係る情報処理装置の実施形態の一例として、ノートブック型パーソナルコンピュータの外観例を示した図である。

図１に例示した情報処理装置１は、動画映像コンテンツを記録したＤＶＤやハードディスクを再生可能なＤＶＤドライブやＨＤＤを備えた情報処理装置本体２と、動画映像コンテンツを表示可能な映像表示部（出力部）４を備えた表示パネル部３とを具備して構成されている。

情報処理装置本体２には、電源スイッチ６の他、動画映像コンテンツや静止画等の再生或いは表示に関する操作を行う操作部８や、各種情報の入力等を行うキーボード５、タッチパネル７等が設けられている。また、動画映像コンテンツの音声を出力するスピーカ９（音声出力部）も情報処理装置本体２に設けられている。

図２は、本実施形態に係る情報処理装置１のシステム構成例を示すブロック図である。

情報処理装置１は、各種の動画映像コンテンツを入力する入力部１０、入力した動画映像コンテンツを復号する復号処理部５０、入力した動画映像コンテンツを再生する他、動画映像コンテンツから静止画を抽出し文字情報付静止画を生成する演算処理部３０、映像・音声データを出力部２０に出力可能な形態に変換する映像・音声データ処理部２１、映像・音声データを出力する出力部２０を備えて構成されている。

また、情報処理装置１は、動画映像コンテンツや文字情報付静止画等の再生や表示に関する操作を行う操作部８、操作部８と演算処理部３０との間のインタフェースとして機能する操作制御部４０を備えている。

入力部１０は、動画映像コンテンツを情報処理装置１へ取り込む手段であり、具体的な形態を特に限定するものではないが、例えば、動画映像コンテンツを記録したＤＶＤを再生するＤＶＤドライブ１１、テレビ放送等から動画映像コンテンツを受信する放送受信部１３、テレビ放送等から供給される動画映像コンテンツを記録するＨＤＤ１２、インターネットやＬＡＮ等の通信回線から動画映像コンテンツを入手する通信インタフェース１４等の各種動画映像コンテンツ入手手段をひとつ或いは複数備えて構成される。

ここで、入力部１０が入力する動画映像コンテンツは、動画や音声の他に属性情報を含むものである。属性情報はメタデータとも呼ばれるもので、その細部については後述するが、動画映像コンテンツの情報量や識別情報等の一般的な属性情報に加えて、コンテンツの内容を所定の言語で具体的に記述した情報を含むものである。

例えば、動画映像コンテンツが映画やドラマである場合には、登場人物の台詞情報（台詞の内容、台詞番号等）、登場人物（発話者）を識別する発話者名（発話者情報）、発話時刻等を含む情報である。

演算処理部３０は、図示しないＣＰＵ、ＲＯＭ、ＲＡＭ等を備え、情報処理装置１全体の制御を行っている。また、演算処理部３０は、抽出部３１、画像合成部３２、再生部３３を有している。

抽出部３１では、動画映像コンテンツに含まれる属性情報から、台詞情報（台詞の内容、台詞毎に付された台詞番号等）、台詞の発話者情報、発話時刻情報、場面情報（場面毎に付された場面番号等）等を抽出する。属性情報とは、ＭＰＥＧ７等に代表される、動画、音声を記述可能な言語で記述した情報である。

画像合成部３２では、発話時刻情報等に基づいて動画の中からフレーム画像を抜き出して静止画を生成する。さらに、生成した静止画の例えば下部領域に、その静止画に登場している人物（発話者）の台詞を重ねて合成し、文字情報付静止画を生成する。

再生部３３では、ＤＶＤドライブ１１やＨＤＤ１２を制御し、動画や音声を再生する。この際、例えば、画像合成部３２で生成された文字情報付静止画に基づいて動画や音声の再生開始箇所を決定する、いわゆる頭だしを行う形態としてもよい。

また、複数の文字情報付静止画の間の期間を、早送りによる動画や音声の再生を行う形態としてもよい。文字情報付静止画の間の期間には通常台詞が含まれていないため、この期間を早送りしたとしても重要な情報が欠落する可能性は低く、全体として高速・短期間での映像コンテンツの確認や鑑賞が可能となる。

抽出部３１、画像合成部３２、再生部３３は、それぞれ独立した形態で構成してもよいが、情報処理装置１全体の制御を行うＣＰＵ、ＲＯＭ、ＲＡＭ等によって所定の機能を実現する形態としてもよい。

出力部２０は、映像出力部４と音声出力部９とから構成される。映像出力部４は、例えば、ＣＲＴ、液晶ディスプレー、プラズマディスプレー等の映像表示装置である。放送受信部１３や通信インタフェース１４を介して入力された動画、ＤＶＤドライブ１１、ＨＤＤ１２から再生された動画、或いは画像合成部３２で生成された文字情報付静止画を表示する。

また、音声出力部は、スピーカ等の音声出力装置であり、放送受信部１３や通信インタフェース１４を介して入力された音声、ＤＶＤドライブ１１、ＨＤＤ１２から再生された音声を出力する。

映像・音声データ処理部２１は、復号された映像データや音声データを、出力部２０から出力可能な形態に変換するものである。

操作部８は、適宜の操作ボタン等で構成される。操作部８の操作により、例えば、画像合成部３２で生成された複数の文字情報付静止画を、順方向、逆方向にコマ送りして選択する。また、文字情報付静止画の表示と動画・音声の再生を組み合わせて、コマ送りの間の期間に動画・音声を高速再生する操作を行う形態としてもよい。さらに、選択した文字情報付静止画を頭だし画像とし、その画像以降の動画・音声を再生する形態としてもよい。

操作制御部４０は、操作部８からの操作信号を演算処理部３０へ伝達可能な形態に変換するために設けられている。

（２）情報処理装置１の動作
上記のように構成された情報処理装置１の動作について説明する。

情報処理装置１は、動画映像コンテンツを、文字情報（台詞情報）を含んだ複数の静止画に変換するものであるが、以下の説明では動画映像コンテンツとして、図３に示す単純なシナリオ例を用いて説明する。

図３は、動作説明用のシナリオ例を示した表であり、表の縦方向が時間進行方向に相当する。Ａ列には場面番号（或いはカット番号）を示している。Ｂ列には動画のフレーム画面を抜粋して示している。図３は、静止画生成の基となる「動画」のシナリオ例を説明するものであり、本来Ｂ列の画像は「動画」となるべきものであるが、動画を紙面に表現できないため、後述する静止画と対応した画面としている。

ここで、「場面」とは、登場人物等の動きが少ない、或いは所定の範囲内に収まる複数の画像を１つにまとめた単位をいい、場面毎に場面番号が付されて識別された単位である。場面番号は、後述するように属性情報に含まれている。

Ｃ列には、シナリオ開始時点からの経過時間を分(mm)、秒(ss)の単位で示してある。より具体的には、Ｄ列に示した台詞の発話のスタート時刻を、シナリオ開始時点からカウントアップした時刻として表示している。

Ｄ列には、シナリオ例で発話される総ての台詞の内容とその発話者とを、時系列に並べて示してある。

動画映像コンテンツの音声データには、Ｄ列に示した台詞の内容がその発話者によって実際に発話される音声が記録されている。また、動画映像コンテンツの属性情報には、台詞の内容と発話者とが、例えばテキスト情報として記録されている。

図４は、情報処理装置１の画像合成部３２が、動画映像コンテンツから生成した文字情報付静止画の一例を示したものである。図４に示した２枚の文字情報付静止画（スライド１およびスライド２）は、図３の場面番号１に対応するものである。

図４（ａ）は、静止画Sd１と文字情報とを合成した文字情報付静止画Sdc１を示している。文字情報として、台詞sc1“やぁ、Ｂ子さん、こんにちは”と、台詞sc1の範囲を示す記号“「”、“」”と、台詞sc1の発話者“Ａ男”とが付されている。

図４（ｂ）は、静止画Sd２と文字情報とを合成した文字情報付静止画Sdc２を示している。文字情報として、台詞sc1の次に発話される台詞sc２ “あ、Ａ男さん。こんにちは、お久しぶりですね。”と、台詞sc２の範囲を示す記号“「”、“」”と、台詞sc２の発話者“Ｂ子”とが付されている。

静止画Sd1は、発話者“Ａ男”が台詞sc1“やぁ、Ｂ子さん、こんにちは”の発話をスタートした時刻の画像を動画データから抽出したものである。同様に、静止画Sd2は、発話者“Ｂ子”が、台詞sc２ “あ、Ａ男さん。こんにちは、お久しぶりですね。”の発話をスタートした時刻の画像を動画データから抽出したものである。

このように、画像合成部３２では、動画映像コンテンツから文字情報付静止画（スライド）を生成するが、生成に際しては、動画映像コンテンツに含まれている属性情報を用いることによって、簡便にかつ正確に文字情報付静止画を生成する方法としている。

属性情報の具体的な例を図５を用いて説明する。図５は、図４に示した２枚の文字情報付静止画の生成に関する部分の属性情報を抜粋して示したものである。

属性情報は所定の言語で記述されるもので、例えば、図５に示したようにＸＭＬ形式の言語で記述される。

図５の左端には説明の便宜上、行番号を付している。また、リストの右側にはリストの意味を簡潔に示すコメントを付している。

第１行は、場面番号（CutNumber）が“１”であることを示している。第１行から第２４行の間に、場面番号“１”に関する内容が記述されている。

第２行は、場面番号“１”のスタート時刻が０秒（“００００”）であることを示している。さらに、第３行は、場面番号“１”の継続時間が８秒（“０００８”）であることを示している。

第４行から第１３行までの範囲は台詞番号１に関する内容を記述している。

第４行には、次に発話される台詞番号（MediaNumber）が“１”であることが示されている。台詞番号は、シナリオ（動画映像コンテンツ）に含まれる総ての台詞に対して時刻順に付されるものである。

第５行には、台詞番号“１”の台詞のスタート時刻（MediaStartTime）が３秒（“０００３”）であることが示されている。台詞のスタート時刻は、シナリオ（動画映像コンテンツ）の開始時点から常時カウントアップされていくものである。

本実施形態では、台詞番号と台詞のスタート時刻の情報をキーとして動画映像コンテンツから静止画を抽出する形態としている。

第６行は、台詞番号“１”の継続時間（MediaDuration）が２秒（“０００２”）であることを示している。

第７行から第９行は、台詞番号“１”の発話者が“Ａ男”であることを示している。

また、第１０行から第１２行は、台詞番号“１”の台詞を“やぁ、Ｂ子さん、こんにちは”というテキストで示している。

第１４行から第２３行までの範囲には、台詞番号１と同様の形態で台詞番号２に関する内容が記述されている。

第１４行には、次に発話される台詞番号（MediaNumber）が“２”であることが示され、第５行には、台詞番号“２”の台詞のスタート時刻（MediaStartTime）が５秒（“０００５”）であることが示されている。

また、第１７行から第１９行は、台詞番号“２”の発話者が“Ｂ子”であることを示し、第２０行から第２２行は、台詞番号“２”の台詞が“あ、Ａ男さん。こんにちは、お久しぶりですね。”であることを示している。

第２６行以降には、場面番号“２”の内容が同様の形態で記述されている。

図５のように記述された属性情報に基づいて、動画映像コンテンツから文字情報付静止画を生成する具体例を、３つの形態を例として説明する。

（３）第１の実施形態
第１の実施形態は、「台詞毎」に文字情報付静止画を生成する形態である。

図６に示したフローチャートは、第１の実施形態に係る処理の具体例を示したものである。

ステップＳＴ１では、初期設定を行う。変数OutMediaNumberに初期値１を代入する。また、変数EndMediaNumberに台詞総数を代入する。

変数OutMediaNumberは、台詞番号ｎを代入する変数であり、台詞番号ｎは、図５においてMediaNumberとして記述されている数である。また、図５の記述から、台詞番号ｎ（MediaNumber）の最大値がわかるから、これを台詞総数として変数EndMediaNumberに代入する。

ステップＳＴ２は、台詞毎に静止画を抽出するステップである。ステップＳＴ２におけるMediaStartTime(n)は、注記欄に示したように、台詞番号ｎのスタート時刻が設定されるものである。従って、MediaStartTime(OutMediaNumber)は、台詞番号ｎのスタート時刻が設定される。

また、ｆ(t)は、動画データから時刻ｔにおける画像を抽出し、その画像を静止画として生成する処理を表している。従って、f(MediaStartTime(OutMediaNumber))は、動画データから、台詞番号ｎのスタート時刻における画像を抽出し、その画像を静止画とする処理である。

変数OutMediaNumberの初期値は、１であるから、最初にステップＳＴ２を処理する場合には、台詞番号１のスタート時刻、即ち、図５の記述例では、シナリオ開始から３秒経過後（図５の第５行参照）の画像を抽出して静止画Sd1を生成することになる。

ステップＳＴ３では、発話者名とその発話者の台詞を属性情報から抽出し、静止画の画面に出力する。この結果、発話者名とその発話者の台詞が静止画上に合成されることになる。

ステップＳＴ３において、Speaker_name(n)は、台詞番号ｎの発話者を属性情報から抽出し、発話者名をテキスト情報としてSpeaker_name(n)に代入する処理を表す。また、Spoken_text(n)は、台詞番号ｎの台詞を属性情報から抽出し、台詞の内容をテキスト情報としてSpoken_text(n)に代入する処理を表している。

ステップＳＴ３の処理によって、発話者名とその台詞内容がテキストとして静止画上に合成され、１つの文字情報付静止画が生成される。

本例のシナリオでは、台詞番号１の発話者は、“Ａ男”であり、その台詞内容“やぁ、Ｂ子さん、こんにちは”が、静止画Sd1に付されて文字情報付静止画Sdc１が生成される。

次に、ステップＳＴ４で操作部８の操作を待つ。操作部８は「進む」ボタンと「戻る」ボタンの操作ボタンを備えている。「進む」ボタンを押下することにより、文字情報付静止画を次の文字情報付静止画に進める。また、「戻る」ボタンを押下することによって文字情報付静止画を1つ前の文字情報付静止画に戻す。

「進む」ボタンが押下されると、ステップＳＴ５へ進む。ステップＳＴ５では、台詞番号（変数OutMediaNumber）を1つ進める。本例では、台詞番号が“１”から“２”に進む。

台詞番号が台詞の総数に達しない限り（ステップＳＴ７の判断）、再びステップＳＴ２に戻る。ここで、台詞番号２のスタート時刻における画像を抽出し、その画像を静止画Sd2とする。さらにステップＳＴ３で、台詞番号２の発話者である“Ｂ子”とその台詞内容である、“あ、Ａ男さん。こんにちは、お久しぶりですね。”が静止画Sd2に付されて文字情報付静止画Sdc２が生成される。

「進む」ボタンを順次押下することによって、シナリオの時間経過に沿った文字情報付静止画が順次生成されていくことになる。生成された文字情報付静止画は、情報処理装置１が備える映像出力部４に送られ、映像出力部４の表示画面に順次表示される。

なお、ステップＳＴ４において、「戻る」ボタンが押下された場合には、ステップＳＴ６において台詞番号をひとつ減らす。この結果、シナリオを過去に遡って文字情報付静止画を生成し、映像出力部４に表示させることもできる。

図７は、図６のフローチャートに基づいて生成され、表示される文字情報付静止画を並べて示したものである。図３に示したシナリオ例では、合計１６の台詞が発話者Ａ男、Ｂ子、およびＣ介によって発話されている。これに対応して、１６枚の台詞毎の文字情報付静止画（スライド１Sd1ないしスライド１６Sd16）が生成されることになる。

図６のフローチャートでは、「進む」ボタンと、「戻る」ボタンによって文字情報付静止画をひとつずつ進めたり或いは戻したりする形態としているが、台詞番号を操作部から入力することによって任意の台詞番号の文字情報付静止画へジャンプする形態としてもよい。

本実施形態に係る情報処理装置１およびその表示方法によれば、動画映像コンテンツから台詞情報（文字情報）つきの静止画を生成することが可能となり、「観るコンテンツ」から「読むコンテンツ」に変換することができる。この結果、従来の動画による「観るコンテンツ」では経験することのなかった新たな形態のコンテンツの鑑賞が可能となる。

例えば、「読むコンテンツ」では、「観るコンテンツ」に比べて短時間でコンテンツの内容を鑑賞することが可能となる。

また、「読むコンテンツ」は、鑑賞の中断を余儀なくされた場合であっても、短時間での鑑賞の再開が可能である。

さらに、「読むコンテンツ」は、短時間ずつ分断して鑑賞することが「観るコンテンツ」に比べて容易である。このため、作業の合間、電車での移動時間、或いは待ち合わせの時間等の僅かな余暇時間を利用して映像コンテンツを少しずつ楽しむことが可能となる。

また、動画データおよび音声データ（「観るコンテンツ」）から、文字情報付静止画（「読むコンテンツ」）への変換は、変換対象である動画映像コンテンツに含まれている属性情報に基づいて行う形態であるため、簡便かつ正確に変換することが可能となる。

ここまでの説明では、動画映像コンテンツから文字情報付静止画を生成し、表示することを主に述べてきたが、文字情報付静止画の生成・表示と動画データ・音声データの再生とを組み合わせる形態としてもよい。

例えば、「進む」ボタンを押下すると、次の文字情報付静止画との間にある動画データ・音声データを高速で再生し、次の文字情報付静止画の時刻に達するとそこで停止して、文字情報付静止画を表示する形態としてもよい。

文字情報付静止画は台詞に基づいて生成するものである。台詞が比較的長い期間発話されないような場合、その間の動画を高速で再生することにより、「読む」コンテンツの利点を享受しつつ、台詞間の動画情報の欠落を回避しコンテンツの連続性を補完することが可能となる。

この他、動画データ・音声データの再生の頭出しに文字情報付静止画を用いる形態としてもよい。操作部８の操作によって所望の文字情報付静止画を選択、表示させ、その後、動画データ・音声データの再生を開始することで、短時間でかつ簡便に頭出しが可能となり、所望の時点から動画映像コンテンツを鑑賞することができる。

（４）第２の実施形態
上述した第１の実施形態は、文字情報付静止画を「台詞毎」に生成する形態であった。これに対して、第２の実施形態では、「場面毎」に文字情報付静止画を生成する形態である。

図３のシナリオ例に示したように、1つの場面で複数の台詞が発話される場合がある。例えば、場面番号“１”では、“Ａ男”と“Ｂ子”とで２つの台詞を発話している。通常１つの場面では、登場人物の動きはそれ程大きくないため、場面を代表する１つの画面に複数の台詞を表す文字情報を合成すれば、文字情報付静止画の数を低減することが可能となる。

図８は、この考えに基づいて、「場面毎」に文字情報付静止画を生成した例を示している。例えば、図８の文字情報付静止画c1（スライド１）では、“Ａ男”sp1、その台詞sc1“やぁ、Ｂ子さん、こんにちは”、“Ｂ子”sp2、その台詞sc2“あ、Ａ男さん。こんにちは、お久しぶりですね。”がひとつの場面番号１を代表する文字情報付静止画c1に合成されている。

この結果、文字情報付静止画の総数は、場面番号の総数の１１となり、第１の実施形態（図７）における文字情報付静止画の総数１６に比べて削減されている。

図９は、第２の実施形態における、文字情報付静止画の生成方法を説明するフローチャートである。

ステップＳＴ１０では、初期設定を行っている。変数CurrentCutに初期値１を代入する。また、変数EndMediaNumberに台詞総数を代入する。

変数CurrentCutは、場面番号を代入する変数であり、場面番号は、図５においてCutNumberとして記述されている数である。また、図５の記述から、台詞番号ｎ（MediaNumber）の最大値がわかるから、これを台詞総数として変数EndMediaNumberに代入する。

次にステップＳＴ１１では、変数OutMediaNumberに、場面番号（変数CurrentCut）の先頭に発話される台詞の台詞番号を代入する。

ステップＳＴ１２は、場面毎に静止画を抽出するステップである。ステップＳＴ１２におけるMediaStartTime(n)は、注記欄に示したように、第１の実施形態と同様に台詞番号ｎのスタート時刻が設定されるものである。ステップＳＴ１１において、変数OutMediaNumberには場面番号（変数CurrentCut）の先頭に発話される台詞の台詞番号が代入されている。従って、MediaStartTime(OutMediaNumber)は、該当する場面番号の先頭に発話される台詞番号ｎのスタート時刻が設定される。

また、ｆ(t)は、動画データから時刻ｔにおける画像を抽出し、その画像を静止画として生成する処理を表している。従って、f(MediaStartTime(OutMediaNumber))は、動画データから、該当する場面番号の先頭に発話される台詞番号ｎのスタート時刻における画像を抽出し、その画像を静止画とする処理である。

変数OutMediaNumberの初期値は、場面番号１の先頭の台詞番号であるから、１となる。従って、最初にステップＳＴ１２を処理する場合には、台詞番号１のスタート時刻、即ち、図５の記述例では、シナリオ開始から３秒経過後（図５の第５行参照）の画像を抽出して静止画Sd1を生成することになる。

ステップＳＴ１３では、発話者名とその発話者の台詞を属性情報から抽出し、静止画の画面に出力する。この結果、最初の発話者名とその発話者の台詞が静止画上に合成されることになる。

ステップＳＴ１３において、Speaker_name(n)は、台詞番号ｎの発話者を属性情報から抽出し、発話者名をテキスト情報としてSpeaker_name(n)に代入する処理を表す。また、Spoken_text(n)は、台詞番号ｎの台詞を属性情報から抽出し、台詞の内容をテキスト情報としてSpoken_text(n)に代入する処理を表している。

ステップＳＴ１３の処理によって、発話者が複数いる場合には、先頭の発話者名とその台詞内容がテキストとして静止画上に合成・表示される。

次に、ステップＳＴ１４において、変数OutMediaNumberを１つ増やす。変数OutMediaNumberは台詞番号が代入される変数であるから、ステップＳＴ１４において台詞番号が１つ進むことになる。

ステップＳＴ１５におけるCut(n)は、台詞番号ｎが発話される場面の場面番号が入力される変数である。

ステップＳＴ１６では、変数CurrentCutとCut(n)とを比較し、一致している場合にはステップＳＴ１３に戻り、不一致の場合にはステップＳＴ１６に進む。

最初の段階では、Cut(n)には、台詞番号“２”が発話される場面の場面番号、即ち、場面番号“１”が代入されているため、変数CurrentCutの初期値“１”と一致する。この結果、ステップＳＴ１３に戻る。

ステップＳＴ１３では、台詞番号２の発話者“Ｂ子”と台詞番号２の台詞内容“あ、Ａ男さん。こんにちは、お久しぶりですね。”が抽出され、場面番号１の静止画上に重ねて合成される。

この結果、文字情報付静止画には、場面番号１の静止画と、“Ａ男”と “Ｂ子”の２つの台詞が文字情報として合成されることになる。

ステップＳＴ１４では、変数OutMediaNumberに１がさらに加算され３となる。この結果、Cut(OutMediaNumber)は、台詞番号３が発話される場面の場面番号、即ち、場面番号２が設定される。

この結果、ステップＳＴ１５の判定は不一致となり、ステップＳＴ１６に進み、「進み」ボタン又は「戻り」ボタンが押下されるのを待つ。「進み」ボタンが押下された場合には、さらにステップＳＴ１７へ進む。

ステップＳＴ１７では、場面番号を表す変数CurrentCutを１つ進める。

台詞番号が台詞の総数に達しない限り（ステップＳＴ１９の判断）、再びステップＳＴ１１に戻る。

ステップＳＴ１１からは、今度はひとつ進んだ場面番号に対して同様の処理を行う。これらの処理を繰り返すことによって、「場面毎」の文字情報付静止画を順次生成していく。

生成された「場面毎」の文字情報付静止画は、情報処理装置１が備える映像出力部４に送られ、映像出力部４の表示画面に順次表示される。

なお、ステップＳＴ１６において、「戻る」ボタンが押下された場合には、ステップＳＴ１８において場面番号をひとつ減らす。この結果、シナリオを場面単位で過去に遡る文字情報付静止画を生成し、映像出力部４に表示させることもできる。

第２の実施形態によれば、第１の実施形態による効果に加えて、生成する文字情報付静止画の数を削減できるため、より短時間で動画映像コンテンツを鑑賞することが可能となる。

なお、ひとつの場面に含まれる台詞の数が多すぎて1枚の文字情報付静止画に収容しきれないような場合には、同一場面を複数に分割する形態としてもよい。

（５）第３の実施形態
図１０は、第３の実施形態に係る文字情報付静止画の表示例を示したものである。

第３の実施形態では、第２の実施形態で生成される「場面毎」の文字情報付静止画をＨＤＤ等の適宜の記憶装置に複数記憶させ、これらの複数の文字情報付静止画を縮小し、並べて表示する形態としている。

縮小した文字情報付静止画の並べ方は特に限定するものではないが、例えば、いわゆるコミック形式と呼ばれているような、右から左へ繰り返し配列するような形式（図１０の矢印で示した順序の配列方法）にすれば、コミック形式に慣れている鑑賞者に対しては、違和感の無い「読むコンテンツ」を提供することができる。

第３の実施形態によれば、第１、第２の実施形態の効果に加えて、さらに短時間でのコンテンツの鑑賞が可能となる。

なお、本発明は上記の各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。

本発明に係る情報処理装置の一実施形態の外観例を示す外観図。本発明に係る情報処理装置の一実施形態のシステム構成例を示すブロック図。本発明に係る情報処理装置の一実施形態の動作例を説明するための動画映像コンテンツのシナリオ例を示す図。本発明に係る情報処理装置の第１の実施形態における文字情報付静止画を説明する第１の図。本発明に係る情報処理装置の一実施形態の動作例を説明するための属性情報の記述例を示す図。本発明に係る情報処理装置の第１の実施形態における文字情報付静止画の生成方法を説明するフローチャート。本発明に係る情報処理装置の第１の実施形態における文字情報付静止画を説明する第２の図。本発明に係る情報処理装置の第２の実施形態における文字情報付静止画を説明する図。本発明に係る情報処理装置の第２の実施形態における文字情報付静止画の生成方法を説明するフローチャート。本発明に係る情報処理装置の第３の実施形態における文字情報付静止画を説明する図。

符号の説明

１情報処理装置
２情報処理装置本体
４映像出力部（映像表示部）
８操作部
９スピーカ（音声出力部）
１０入力部
１１ＤＶＤドライブ
１２ＨＤＤ
１３放送受信部
１４通信インタフェース
２０出力部
２１映像・音声データ処理部
３０演算処理部
３１抽出部
３２画像合成部
３３再生部
４０操作制御部
５０復号処理部

Claims

映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出部と、
前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成部と、
前記文字情報付静止画を出力する出力部と、
を備えたことを特徴とする情報処理装置。
前記画像合成部は、
前記台詞情報が変わる毎にその台詞の発話時刻に基づいて前記動画から静止画を抽出し、抽出した前記静止画と前記台詞情報および前記台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項１に記載の情報処理装置。
前記抽出部は、
前記属性情報から、場面の変化を示す場面情報をさらに抽出し、
前記画像合成部は、
前記場面が変わる毎にその場面で最初に発話する発話者の発話時刻に基づいて前記動画から静止画を抽出し、抽出した前記静止画とその場面で発話される１又は複数の発話者の台詞情報およびその台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項１に記載の情報処理装置。
前記画像合成部は、
前記文字情報付静止画を縮小し、縮小した複数の前記文字情報付静止画を並べた合成画像をさらに生成し、
前記出力部は、
前記合成画像をさらに出力することを特徴とする請求項３に記載の情報処理装置。
画像を選択する操作部をさらに備え、
前記画像合成部は、
前記操作部からの操作に基づいて、前記動画から前記文字情報付静止画を時系列順又は任意の順で生成することを特徴とする請求項２または３に記載の情報処理装置。
前記動画および音声を再生する再生部をさらに備え、
前記出力部は、
前記文字情報付静止画と再生される前記動画および音声とを出力し、
前記再生部は、
前記文字情報付静止画の間の期間は、前記動画および音声を早送りで再生する、
ことを特徴とする請求項２または３に記載の情報処理装置。
前記動画および音声を再生する再生部をさらに備え、
前記出力部は、
前記文字情報付静止画と再生される前記動画および音声とを出力し、
前記再生部は、
任意に選択された文字情報付静止画を頭出し画面とし、その頭出し画面から前記動画および音声を再生する、
ことを特徴とする請求項２ないし４のいずれかに記載の情報処理装置。
映像コンテンツに含まれる属性情報に基づいて台詞情報および台詞の発話者情報を含む音声関連情報を抽出する抽出ステップと、
前記音声関連情報に基づいて前記映像コンテンツに含まれる動画から静止画を抽出し、前記抽出した静止画と前記音声関連情報とを合成して文字情報付静止画を生成する画像合成ステップと、
前記文字情報付静止画を出力する出力ステップと、
を備えたことを特徴とする情報処理装置の表示方法。
前記画像合成ステップは、
前記台詞情報が変わる毎にその台詞の発話時刻に基づいて前記動画から静止画を抽出し、抽出した前記静止画と前記台詞情報および前記台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項８に記載の表示方法。
前記抽出ステップは、
前記属性情報から、場面の変化を示す場面情報をさらに抽出し、
前記画像合成ステップは、
前記場面が変わる毎にその場面で最初に発話する発話者の発話時刻に基づいて前記静止画を抽出し、抽出した前記静止画とその場面に発話される１又は複数の発話者の台詞情報およびその台詞の発話者情報とを合成して前記文字情報付静止画を生成することを特徴とする請求項８に記載の表示方法。
前記画像合成ステップは、
前記文字情報付静止画を縮小し、縮小した複数の前記文字情報付静止画を並べた合成画像をさらに生成し、
前記出力ステップは、
前記合成画像をさらに出力することを特徴とする請求項１０に記載の表示方法。
前記画像合成ステップは、
前記動画から前記文字情報付静止画を、時系列順又は任意の順で生成することを特徴とする請求項９または１０に記載の表示方法。
前記動画および音声を再生する再生ステップをさらに備え、
前記出力ステップは、
前記文字情報付静止画と再生する前記動画および音声とを出力し、
前記再生ステップは、
前記文字情報付静止画の間の期間は、前記動画および音声を早送りで再生する、
ことを特徴とする請求項９または１０に記載の表示方法。
前記動画および音声を再生する再生ステップをさらに備え、
前記出力ステップは、
前記文字情報付静止画と再生する前記動画および音声とを出力し、
前記再生ステップは、
任意に選択した文字情報付静止画を頭出し画面とし、その頭出し画面から前記動画および音声を再生する、
ことを特徴とする請求項８ないし１０のいずれかに記載の表示方法。