JP4264028B2 - 要約番組生成装置、及び要約番組生成プログラム - Google Patents

要約番組生成装置、及び要約番組生成プログラム Download PDF

Info

Publication number
JP4264028B2
JP4264028B2 JP2004149972A JP2004149972A JP4264028B2 JP 4264028 B2 JP4264028 B2 JP 4264028B2 JP 2004149972 A JP2004149972 A JP 2004149972A JP 2004149972 A JP2004149972 A JP 2004149972A JP 4264028 B2 JP4264028 B2 JP 4264028B2
Authority
JP
Japan
Prior art keywords
image
program
audio
frame image
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004149972A
Other languages
English (en)
Other versions
JP2005332486A (ja
Inventor
貴裕 望月
眞 蓼沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004149972A priority Critical patent/JP4264028B2/ja
Publication of JP2005332486A publication Critical patent/JP2005332486A/ja
Application granted granted Critical
Publication of JP4264028B2 publication Critical patent/JP4264028B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、要約番組生成装置、及び要約番組生成プログラムに係り、特に、高精度な要約番組を生成するための要約番組生成装置、及び要約番組生成プログラムに関する。
近年では、通常の地上波によるテレビ放送に加えて、BSデジタル放送やケーブルテレビ等、多様や放送ネットワークが普及してきている。このため、視聴者が視聴可能な番組の選択肢が広がると同時に視聴したい番組数も増加する傾向にある。これにより、視聴者は全ての番組を視聴するための時間が不足してしまう。
そこで、放送される番組の大まかな内容を視聴者に把握させるために番組を部分的に抽出して要約番組を生成し視聴者に提供するサービスがある。
このような要約番組の生成手法は、例えば、記録媒体やネットワーク等から得られるドラマ等の番組の映像から複数枚の画像を自動的に抽出し、ドラマの要約画像系列を生成することで、画像を送出することが可能なデジタルラジオ放送サービスとしても用いられている。
ここで、要約番組を生成するにあたり、番組の映像から複数枚の画像を抽出する方法としては、一定の時間間隔で画像を抽出する手法(例えば、特許文献1参照。)や、映像の切り換わりを示すカット点の検出のみに基づいて画像を抽出する手法(例えば、特許文献2参照。)が提案されている。
特開2001−76460号公報 特開平10−327386号公報
しかしながら、特許文献1に示されているように一定間隔で画像を抽出する手法では、例えば、人物がフレームアウトしかけている場合等、要約画像として不適格なものが抽出されてしまったり、同じような画像が2枚続けて抽出されてしまう可能性がある。
また、特許文献2に示されているようにカット点の検出により画像を抽出する手法では、例えば人物が次第にアップになりセリフを喋りだすシーン等の場合は人物がある程度アップになった状態の画像を抽出することが好ましいが、カット点の検出により画像を抽出する手法では、カット点検出直後の画像が抽出されるため、人物のサイズがまだ大きくないタイミングで画像が抽出されてしまう。
したがって、要約番組を生成するには、視聴者が番組の内容を容易に理解しやすい画像や音声を効率的に抽出して要約を生成する必要がある。
本発明は、上述した問題点に鑑みなされたものであり、高精度な要約番組を生成するための要約番組生成装置、及び要約番組生成プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、映像及び音声からなる番組から前記映像に含まれる画像を抽出して番組の要約を生成する要約番組生成装置において、前記映像からフレーム毎に画像データを抽出し、抽出されたフレーム画像の画像データ構造体を生成するフレーム画像抽出手段と、前記フレーム画像抽出手段により得られる画像データ構造体に基づいて音声データを抽出し、抽出された音声データに基づいて設定されるフレーム画像を抽出する音声・画像抽出手段と、前記音声・画像抽出手段により得られる前記フレーム画像の画像データ構造体及び前記音声データを蓄積する蓄積手段とを有し、前記音声・画像抽出手段は、カット点を含むフレーム画像の時間情報と音声レベルとに基づいて、前記カット点を含むフレーム画像に対応する音声データが出力される時間以降で音声の大きさが設定値以上となる音声データを抽出し、抽出された音声データの時間情報に基づいて、要約の出力候補となるフレーム画像を選定することを特徴とする。
請求項1記載の発明によれば、カット点を含むフレーム画像を基準にして、視聴者が番組の内容を容易に理解しやすい画像や音声を効率的に抽出して要約を生成することができる。これにより、高精度な要約番組を生成することができる。
請求項に記載された発明は、前記蓄積手段により蓄積された前記画像データ構造体及び前記音声データに基づいて要約の出力画像を設定する設定手段を有し、前記設定手段は、ユーザに要約の出力画像を設定させるための設定画面を生成し、前記設定画面により設定された画像データ及び該画像データに対応する音声データを出力することを特徴とする。
請求項記載の発明によれば、設定画面により要約に用いられる出力画像をユーザ(利用者)に指定させることで視聴者が番組の内容を容易に理解しやすい画像や音声を抽出して要約を生成することができる。これにより、高精度な要約番組を生成することができる。また、ユーザは、設定画面を用いて容易に要約の出力画像を設定することができる。
請求項に記載された発明は、前記設定手段は、前記設定画面に前記フレーム画像と、前記フレーム画像を要約の出力画像として出力するかを設定するための設定情報とを、予め設定される前記フレーム画像の抽出条件に基づいて、前記時間情報の時間順に配列させて表示させることを特徴とする。
請求項記載の発明によれば、設定画面に表示される画像間の関係を容易に把握することができる。これにより、出力画像を効率的で高精度に設定することができる。
請求項に記載された発明は、前記設定手段により得られる画像データ及び該画像データに対応する音声データから要約番組を生成し、生成された要約番組を再生する再生手段を有することを特徴とする。
請求項記載の発明によれば、設定手段により得られる画像データ及び該画像データに対応する音声データから容易に高精度な要約番組を生成することができる。
請求項に記載された発明は、前記再生手段は、前記フレーム画像に対応する音声データが再生される時間よりも先に前記フレーム画像を再生させることを特徴とする。
請求項記載の発明によれば、音声よりも先にフレーム画像を視聴者に出力させて視聴者に状況をイメージするまでの時間を与えてから音声が表示されるため、違和感を与えずに視聴者が番組の内容を容易に理解しやすい高精度な要約番組を提供することができる。
請求項に記載された発明は、映像及び音声からなる番組から前記映像に含まれる画像を抽出して番組の要約を生成する処理をコンピュータに実行させるための要約番組生成プログラムにおいて、コンピュータを、前記映像からフレーム毎に画像データを抽出し、抽出されたフレーム画像の画像データ構造体を生成するフレーム画像抽出手段、及び、前記フレーム画像抽出手段により得られる画像データ構造体に基づいて音声データを抽出し、抽出された音声データに基づいて設定されるフレーム画像を抽出する音声・画像抽出手段として機能させ、前記音声・画像抽出手段は、カット点を含むフレーム画像の時間情報と音声レベルとに基づいて、前記カット点を含むフレーム画像に対応する音声データが出力される時間以降で音声の大きさが設定値以上となる音声データを抽出し、抽出された音声データの時間情報に基づいて、要約の出力候補となるフレーム画像を選定することを特徴とする。
請求項記載の発明によれば、カット点を含むフレーム画像を基準にして、視聴者が番組の内容を容易に理解しやすい画像や音声を効率的に抽出して要約を生成することができる。これにより、高精度な要約番組を生成することができる。また、カット点を含むフレーム画像を基準にして視聴者が番組の内容を容易に理解しやすい画像や音声を効率的に抽出して要約を生成することができる。これにより、高精度な要約番組を生成することができる。また、特別な装置構成を必要とせず、低コストで要約番組の生成を実現することができる。更に、プログラムをインストールすることにより、容易に要約番組の生成を実現することができる。
本発明によれば、番組の内容を理解しやすい画像及び音声を効率的に抽出することができる。これにより、高精度な要約番組を生成することができる。
<本発明の概要>
本発明は、番組の内容を理解しやすい画像及び音声を効率的に抽出することにより、高精度な要約番組を生成する。具体的に説明すると、例えばドラマ映像及び音声をコンピュータに取り込み、映像の切り替わりを示す部分(以下、「カット点」という。)及びセリフの喋り出し等に基づいて画像を抽出し、抽出した画像及びフレーム情報等からなるデータ(以下「画像データ構造体」)を蓄積する。次に、利用者がグラフィカルユーザインターフェース(以下、GUIという。)上で記録された画像データ構造体の削除あるいは変更等を行い、利用者により設定される画像に対応する画像データ構造体を抽出しドラマの要約を生成する。
<実施形態>
以下に、本発明を適用した実施形態について図を用いて説明する。図1は、本発明における要約番組生成装置の一構成例を示す図である。
図1に示す要約番組生成装置10は、映像・音声分離部11と、画像抽出部12と、最終出力画像設定部(設定手段)13と、要約番組再生部(再生手段)14とを有するよう構成されている。なお、図1に示す要約番組生成装置10では、映像・音声分離部11を有する構成としているが、入力データとしてすでに映像と音声が分離されているデータを用いる場合は、映像・音声分離部11を設けなくてもよい。
映像・音声分離部11は、例えば、入力信号としてドラマの番組が入力された場合に、入力された番組を映像データと音声データとに分離して画像抽出部12に出力する。このとき、分離されるそれぞれのデータには、番組の時間情報(タームテーブル)が含まれている。
画像抽出部12は、入力された映像データから予め設定した時間に基づいてフレーム画像の抽出を行い、抽出されたフレーム画像の中から特徴ベクトル等に基づいて画像の選定を行う。
また、画像抽出部12は、抽出された画像に対応する音声データの抽出を行い、抽出した音声データの音声レベルに基づいて音声データの選定を行う。
なお、画像抽出部12は、最初に音声データの抽出、選定を行い、その選定された音声データに基づいて音声データに対応する映像からフレーム画像の抽出、選定を行ってもよい。
また、画像抽出部12は、選定により得られる出力候補となる画像データ及び音声データを蓄積する。更に、画像抽出部12は、蓄積された画像データ及び音声データを最終出力画像設定部13に出力する。ここで、上述の「画像データ」は、実際に画面に表示する画像の他に、その画像が番組内で表示される際の時間情報(タイムテーブル)が含まれている。同様に「音声データ」は、実際に出力される音声情報の他にその音声が番組内で出力される際の時間情報(タイムテーブル)が含まれている。
最終出力画像設定部13は、画像抽出部12により入力された画像データに基づいて、要約番組として用いられる画像の設定を行う。また、最終出力画像設定部13は、設定された画像データ及び音声データを要約番組再生部14に出力する。
要約番組再生部14は、最終出力画像設定部13により最終的に設定された画像データ及び音声データを予め設定されたタイミングで再生させるようにして要約番組を生成する。また、要約番組再生部14は、生成された要約番組を再生(出力)する。
これにより、番組の内容を理解しやすい画像及び音声を効率的に抽出することができるため、高精度な要約番組を生成することができる。
<画像抽出部12>
次に、本実施形態における画像抽出部12の具体的な機能構成例について図を用いて説明する。図2は、本実施形態における画像抽出部の機能構成の一例を示す図である。図2に示す画像抽出部12は、フレーム画像抽出手段21と、カット点検出手段22と、音声開始点検出・画像抽出手段(音声・画像抽出手段)23と、出力候補画像蓄積手段(蓄積手段)24とを有するよう構成されている。
フレーム画像抽出手段21は、番組から映像データを入力し、フレーム単位の画像データを取得する。具体的には、入力した映像データからリアルタイムでフレーム毎に画像データを切り出して抽出し、抽出したフレーム画像の画像データ構造体を生成する。
ここで、画像データ構造体とは、抽出された画像データと、抽出された画像のフレーム番号と、抽出されたフレームがカット点であるか否かを示すフラグと、現フレームと前フレームの画像データから計算されるカット検出の尺度(例えば、特徴ベクトル情報等のカット検出に用いられる情報)等とからなる。また、フレーム画像抽出手段21は、取得した画像データ構造体をカット点検出手段22に出力する。
カット点検出手段22は、フレーム毎に抽出された画像データ構造体を、従来のカット点検出手法と同様に、現フレームと前フレームとの画像イメージデータからカット点の検出を行う。
ここで、カット点検出の具体例としては、例えば、画像の特徴ベクトルを前後の画像で比較し、その変化量が所定の変化量以上のもの映像の切り替わりであるカット点であるとする手法を用いることができる。
また、特徴ベクトルの例としては、例えば、輝度の画像全体での平均値を特徴ベクトルとする方法や、色の各要素(R,G,B)の画像全体での平均値を特徴ベクトルとする方法、エッジ量、分布から特徴ベクトルを構成する方法、テクスチャの複雑性を表す数値列から特徴ベクトルを構成する方法、又はこれらを幾つか組み合わせて特徴ベクトルを構成する方法等がある。なお、本発明におけるカット点検出の手法や特徴ベクトルの構成方法についてはこの限りではない。
次に、カット点検出手段22は、尺度の値からカット点であると判断した場合は、現フレームのフラグに1をセットする。また、尺度の値からカット点でないと判断した場合は、カット点の尺度の値を最新のカット点の尺度の値に置き換え、更に現フレームのフラグに0をセットする。カット点検出手段22は、上述したようにカット点の尺度及びフラグをセットした画像データ構造体を音声開始点検出・画像抽出手段23に出力する。
音声開始点検出・画像抽出手段23は、カット点検出手段22から入力される画像データ構造体と、映像・音声分離部11等から入力される音声データとに基づいて、出力候補の画像データ構造体とその画像データ構造体に対応する音声データとを選定して出力する。
具体的には、音声開始点検出・画像抽出手段23は、フラグが1である画像データ構造体が入力された場合、時間情報(タイムテーブル)に基づいて、その画像フレームに対応する音声データの出力される時間以降で音声の大きさ(音声レベル)が最初に予め設定された設定値以上となる音声データを検出し、更にその音声データのFフレーム前(F:予め設定されたフレーム数)の画像データに対応する画像データ構造体を抽出し、出力候補の画像データ構造体として選定された画像データ構造体を出力候補画像蓄積手段24に出力する。
また、上述したように設定レベル以上の音声レベルを有する時間から、更に予め設定された時間まで連続した音声データを抽出し、選定された音声データを出力候補画像蓄積手段24に出力する。なお、音声の大きさは、例えば入力される音声データを計測する等の手法により取得することができる。
ここで、要約番組の出力候補として抽出される画像データ構造体を所定の音声レベル以上となる時間に対応する画像フレームより、更にFフレーム前の画像データ構造体としたのは、一般的にドラマ等の番組においては、出演者が最初に喋りだす前に視聴者に状況を容易に把握させるための画像を表示させている。そこで、本実施形態では、視聴者に状況を把握させるために表示させる画像を取得するようにする。これにより、番組の内容を理解しやすい画像及びその画像に対応する音声からなる要約番組を生成することができる。
出力候補画像蓄積手段24は、音声開始点検出・画像検出部23から入力される出力候補の画像データ構造体と、要約番組に出力するための音声データとを蓄積する。
ここで、音声開始点検出・画像検出部23における出力候補の画像の抽出内容について図を用いて具体的に説明する。図3は、出力候補画像の抽出内容を説明するための一例の図である。
ここで、図3において、映像と音声とが同一の時間情報(タイムテーブル)に基づいて設定されている。また、時間t1〜t4において、カット点が検出されたとする。
まず、時間t1において、カット点が抽出された画像データ構造体の時間以降で設定された音声レベル以上の音声データが抽出される時間を検出する。ここで、音声データが時間t1’で検出されたとする。この場合、音声データが検出された時点の画像データ構造体ではなく、そこから予め設定されるフレーム数分(図3においてはFフレーム)前の画像データ構造体31−1が出力候補として出力候補画像蓄積手段24に出力される。
また、カット点が抽出された時間t2,t3,t4についても上述と同様にカット点が検出された時間以降に最初に音声レベルが設定レベル以上となる時間を各々検出し(t2’,t3’,t4’)検出した時間よりFフレーム前に入力した画像データ構造体31−2〜31−4を出力候補画像蓄積手段24に出力する。
なお、例えば、カット点t1からカット点t2の間に予め設定される閾値以上の音声レベルを有する音声データが抽出されなかった場合、カット点t1に関する出力候補が存在しないことになる。
<最終出力画像設定部13>
次に、本実施形態における最終出力画像設定部13について、具体的に説明する。最終出力画像設定部13は、画像抽出部12から得られる画像データ構造体を用いて、予め設定される要約番組に出力する枚数や画像サイズ、生成する要約番組の時間等の出力条件や、画像を抽出する際の抽出条件等に基づいて最終的に要約番組の画像として出力する画像の設定を行う。
ここで、画像の抽出条件としては、画像データ構造体に含まれている尺度に基づいて、前後の画像データ構造体と比較して変化量が予め設定した変化量以上の画像を優先的に抽出する。または、画像データ構造体の時間情報から前後のフレームとの時間間隔が大きい画像を優先的に抽出する。更に、番組のオープニングやエンディング時の対応する時間帯の画像データ構造体については、優先的に抽出したり、画像データ構造体に含まれる時間情報から所定の時間帯のみ画像データ構造体から抽出を行う等の条件に基づいて抽出を行う。
また、抽出される画像については、生成される要約番組の時間や、使用する画像枚数等により出力条件に基づいて優先的に出力される。なお、上述の出力条件、抽出条件については、この限りではない。
例えば、1つの番組中に300の画像データ構造体があり、出力条件として出力画像数を50枚とした場合、300の画像データ構造体から上述した抽出条件に基づいて50の画像が抽出される。
また、最終出力画像設定部13は、画像抽出部12から得られる画像データ構造体を利用者に提示し、利用者に画像を設定させるようなGUIを生成することで、出力条件、又は抽出条件を容易に設定することができる。具体的には、最終出力画像設定部13に備えるディスプレイ等の表示画面に利用者が抽出する画像データ構造体の設定を行うための画面を生成して表示する。また、利用者が最終出力画像設定部13に備えるキーボード等の入力手段により設定し、設定された条件に基づいて最終出力画像を設定する。
<設定画面例>
ここで、最終出力画像設定部13により利用者に表示される設定画面例について図を用いて説明する。図4は、本実施形態における設定画面の一例の図である。図4に示す最終出力設定画面41は、画像設定領域42と、ボタン領域43とを有するよう構成されている。
画像設定領域42は、入力及び表示される画像データ構造体の設定を行うための画面である。具体的には、入力となるデータが格納されている格納先(出力候補画像蓄積手段24)のアドレスやファイル名等を設定したり、一度に表示される最大表示画数を設定したり、画面に表示される表示画サイズ等を設定する。また、入力される格納先は利用者がキーボード等の入力手段により画像設定領域42に設けられるテキストボックス44に直接入力してもよく、コンボボックス45に予め設定される複数の値から選択する等により設定することができる。
また、ボタン領域43は、画像設定領域42により設定された条件により、画像データ構造体の表示を実行するOKボタン46と、実行を中止するキャンセルボタン47とを有する。利用者は、OKボタン46又はキャンセルボタン47を選択することにより、設定の実行及び中止を行うことができる。なお、上述した最終出力設定画面41のレイアウト及び設定できる項目等についてはこの限りではない。
次に、利用者によりOKボタン46が選択された際に表示される画面例について図を用いて説明する。図5は、画像データ構造体を設定するための詳細設定画面の一例を示す図である。図5に示すように詳細設定画面51は、最終出力設定画面41により設定される条件に基づいて、出力候補画像蓄積手段に24に蓄積された画像が表示される。
なお、表示されている画像は、上述した特徴ベクトルや、画像データ構造体の前後のフレームとの時間間隔等に基づいて優先的に表示させることができる。
ここで、詳細設定画面51は、画像表示領域52と、ボタン領域53とを有するよう構成されている。画像表示領域52には、表示される画像毎に画面情報表示領域54を有し、画面情報表示領域54には、詳細情報や出力するか否かをチェックさせるための領域等が表示される。なお、画面情報表示領域54の具体的な内容については後述する。
また、スクロールバー55等を移動させることで、画像表示領域52に設定した枚数迄の画面情報表示領域54を表示させることができる。なお、画像表示領域52に表示される画像の配列は、抽出条件に基づいて表示される画像内で、時間的に連続させて表示される。
また、ボタン領域53は、画像表示領域52により設定された画像の出力を実行するOKボタン56と、実行を中止するキャンセルボタン57とを有する。これにより、利用者は、OKボタン56又はキャンセルボタン57を選択することにより、画像出力の実行及び中止を行うことができる。なお、上述した詳細設定画面51のレイアウト及び表示項目についてはこの限りではない。
次に、上述した画面情報表示領域54に表示される内容について説明する。図6は、画面情報表示領域54に表示される内容を説明するための一例の図である。図6に示す画面情報表示領域54は、画像61と、画像表示領域52により表示される画像のシーケンス番号62と、画像61を出力するか否かを利用者にチェックさせるためのチェックボックス63と、出力候補画像蓄積手段24に蓄積される際に、画像に割り振られている候補番号64と、画像を変更するための移動ボタン(「←」、「→」)65とを有している。
ここで、詳細設定画面51は、画像表示領域52に優先的に表示された画像ではなく、画像表示領域52には表示されていない画像を選択することができる。その場合、移動ボタン65−1,65−2を選択することで、予め画像表示領域52に表示されている画像61の前後にある画像データ構造体であり、上述した出力条件や抽出条件により表示されなかった画像に移動して、他の画像を参照し、設定することができる。
なお、移動ボタン65−1は、現在表示されている画像61より時間的に前にあり、画像表示領域52に表示されていない画像を表示させるための戻りボタンである。また、移動ボタン65−2は、現在表示されている画像61より時間的に後にあり、画像表示領域52に表示されていない画像を表示させるための送りボタンである。
これにより、画面情報表示領域54毎に表示される画像を容易に変更することができる。更に、移動ボタン65−2に示すように、現在表示されている画像61から先に画像表示領域52に表示されていない画像がない場合は、移動ボタン65−2を利用者に選択させないように非表示又はグレー表示にして選択できないようにすることができる。
ここで、上述した表示画像が変更される手順について図を用いて説明する。図7は、表示画像が変更される手順を説明するための一例を示す図である。なお、図7では出力候補の画像71−1〜71−4のうち、画像71−1及び画像71−4が画像表示領域52に表示されているものとする。
利用者は、上述した移動ボタン65を選択することで、表示される画像の変更を行うことができる。例えば、画像71−4を変更する場合、画像71−4を表示している画面情報表示領域54の移動ボタン65−1(「←」)により、画像71−3や画像71−2に移動させることができる。なお、画像71−1は、すでに画像表示領域52に表示されているため移動することはできない。このように、画像を移動させることにより、番組の内容を理解しやすい画像72−1及び画像72−3を表示させることができる。
更に、画像表示領域52されている画像の中から最終的に出力する画像に対してフラグをチェックして最終出力画像お設定を行う。図8は、最終出力される画像の設定を説明するための図である。図8に示すように、各表示画像81−1〜81−4のそれぞれに設けられているチェックボックス82−1〜82−4にフラグをチェックし、図5に示すOKボタン56を選択することにより、出力画像83−1、83−2、83−4が出力される。
上述したように、利用者は、GUIの画面を用いて容易に要約番組に使用する画像の設定を行い、番組の内容を理解しやすい画像を最終出力画像として出力することができる。
また、最終出力画像設定部13は、設定した画像データ構造体及びその画像データ構造体に対応付けられた音声データを要約番組再生部14に出力する。要約番組再生部14は、入力された画像データ構造体及び音声データから要約番組を生成し、生成した要約番組を再生する。
ここで、画像データ及び音声データを再生する場合、画像データ構造体及び音声データの各々の時間情報に基づいて、再生が行われる。しかしながら、画像と音声が同時に再生されると、視聴者が予め画像から状況をイメージするまでの間に音声が表示されてしまうため違和感が生じる可能性がある。
そこで、要約番組再生部14は、音声データ又は画像データを再生する場合、画像の再生時間を時間情報の時間よりも所定の時間だけ早めて出力させるか、音声データを時間情報の時間よりも所定の時間だけ遅らせて出力させるか、又は、その両方の処理を行って要約番組の再生を行う。
また、再生時における画像の表示時間の設定は、上述した最終出力画像設定部13により設定される。具体的には、要約番組全体の時間、画像データ構造体に含まれている時間情報、最終出力画像として出力された画像数、音声データの長さ等に基づいて設定される。これにより、視聴者は、最初にされる画像からある程度の状況をイメージすることができ、その後に対応する音声を聴くことができる。
ここで、要約番組生成装置10は、専用の装置構成により要約番組の生成を行うこともできるが、例えば、要約番組の生成をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にプログラムをインストールすることにより、本発明における要約番組生成を実現することができる。
<ハードウェア構成>
ここで、本発明における要約番組の生成が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図9は、本発明における要約番組生成が実現可能なハードウェア構成の一例を示す図である。
図9におけるコンピュータ本体には、入力装置91と、出力装置92と、ドライブ装置93と、補助記憶装置94と、メモリ装置95と、各種制御を行うCPU(Central Processing Unit)96と、ネットワーク接続装置97とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置91は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置92は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU96が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体98等により提供される。プログラムを記録した記録媒体98は、ドライブ装置93にセット可能であり、記録媒体98に含まれる実行プログラムが、記録媒体98からドライブ装置93を介して補助記憶装置94にインストールされる。
補助記憶装置94は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
CPU96は、OS(Operating System)等の制御プログラム、及びメモリ装置95により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、要約番組の生成における各処理を実現することができる。プログラムの実行中に必要な各種データ等は、補助記憶装置94から取得することができ、また格納することもできる。
ネットワーク接続装置97は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで要約番組の生成を実現することができる。また、プログラムをインストールすることにより、容易に要約番組の生成を実現することができる。
<要約番組生成処理手順>
次に、実行プログラムにおける処理手順について、フローチャートを用いて説明する。図10は、番組生成処理手順の一例を示すのフローチャートである。まず、入力される映像及び音声からなる番組を入力し、映像データと音声データとに分離する(S01)、次に、S01により分離された映像データを用いてフレーム画像抽出処理を行う(S02)。次に、S01にて分離された音声データとS02により抽出された画像データに基づいて音声データ抽出処理を行う(S03)、また、S03の処理により得られる画像データ構造体を出力候補画像として蓄積する(S04)。なお、上述したフレーム画像抽出処理手順(S02)及び音声データ抽出処理手順(S03)の具体的な処理手順については後述する。
次に、蓄積された出力候補画像を用いて最終出力画像の設定を行う(S05)。画像の設定例としては、上述したように、S03の処理により得られる画像データ構造体を用いて予め設定される出力する枚数や画像サイズ、生成する要約番組の時間等の出力条件や抽出する画像を選定する際の抽出条件に基づいて、最終的に要約番組の画像データと対応する音声データを出力する。その後、出力された画像データ構造体に基づいて、再生を行う(S06)。
また、画像データと音声データの再生においては、上述したように画像データを対応する音声データよりも先に再生されるよう再生時間をずらすことで、視聴者に画像から状況をイメージするまでの時間を与えてから音声が表示されるため、違和感を与えずに高精度な要約番組を提供することができる。
次に、上述したフレーム画像抽出処理(S02)及び音声データ抽出処理(S03)の処理手順についてフローチャートを用いて説明する。
<フレーム画像抽出処理>
図11は、フレーム画像抽出処理手順の一例を示すフローチャートである。まず、映像データを入力し(S11)、入力した画像から予め設定された時間Tfのフレーム画像の抽出を行う(S12)。次に、抽出したフレーム画像の特徴ベクトルを算出する(S13)。ここで、S13の処理により算出された特徴ベクトルと、前に抽出したフレーム画像の特徴ベクトルとの距離Dを算出し(S14)、予め設定された閾値と距離との比較を行う。具体的には、例えば距離Dが閾値よりも大きいかを判断する(S15)。なお、判断条件はこの限りではない。
S15の処理において、距離Dが閾値よりも大きい場合(S15において、YES)、フレーム画像を出力する(S16)、また、距離Dが閾値以下である場合(S15において、NO)、フレーム画像の出力は行わずに、抽出したフレーム画像の時間Tfよりも所定の時間(Tfs)先にあるフレーム画像を抽出し、(S17)、S12以降の処理を行う。このとき、時間TfはTf及びTfsの和(Tf←Tf+Tfs)となり、所定の時間Tfsは、フレーム画像を抽出する時間間隔を示している。
また、S16において、フレーム画像を出力した後、処理が終了したかを判断する(S18)。具体的には、入力された映像やある設定された映像の範囲を対象として上述の処理が終了したかを判断する。
ここで、処理が終了した場合(S18において、YES)、フレーム画像抽出処理を終了する。また、処理が終了していない場合(S18において、NO)、上述したS17の処理を行った後、S12以降の処理を行う。
<音声データ抽出処理>
次に、音声データ抽出処理について、フローチャートを用いて説明する。図12は、音声データ抽出処理手順を説明するための一例のフローチャートである。まず、音声データを入力し(S21)、更に、上述したフレーム画像抽出処理により得られるフレーム画像を入力する(S22)。次に、フレーム画像の時間情報に対応する時間Tsから予め設定される時間Tssまでの音声データを抽出する(S23)。
次に、S23にて抽出された音声データの音声レベルと予め設定された閾値(音声レベル)との比較を行う。具体的には、例えば音声レベルが閾値より大きいかを判断する(S24)。なお、判断条件はこの限りではない。
S24の処理において、音声レベルが閾値よりも大きい場合(S24において、YES)、その音声データの時間情報に対応する画像データから予め設定される数フレーム前の画像データ構造体を選定し(S25)、画像データ構造体を出力候補画像として出力する(S26)。また、音声レベルが閾値以下である場合(S24において、NO)、次のフレーム画像を取得し(S27)、S23以降の処理を行う。
また、S26において、画像データ構造体を出力した後、処理が終了したかを判断する(S28)。具体的には、S22にて入力した全てのフレーム画像について上述した処理が終了したかを判断する。
ここで、処理が終了した場合(S28において、YES)、音声データ抽出処理を終了する。また、処理が終了していない場合(S28において、NO)、上述したS27の処理を行った後、S23以降の処理を行う。
このように、要約番組生成処理により番組の内容を理解しやすい画像及び音声を効率的に抽出することができる。これにより、高精度な要約番組を生成することができる。
また、本発明における要約番組を生成する実行プログラムを生成することで、特別な装置構成を必要とせず、低コストで要約番組生成を実現することができる。また、プログラムをインストールすることにより、容易に要約番組の生成を実現することができる。なお、図11及び図12に示す抽出処理のみを実行させるプログラムを生成することで、入力データに対して所定の条件に基づいて画像及び音声を抽出する処理のみを行わせてもよい。
上述したように、本発明によれば、番組の内容を理解しやすい画像及び音声を効率的に抽出することができる。これにより、高精度な要約番組を生成することができる。
具体的には、例えば、例えばドラマ映像及び音声をコンピュータに取り込み、映像のカット点及びセリフの喋り出し等に基づいて画像を抽出し、抽出した画像の画像データ構造体を蓄積し、更にGUIにより画像データ構造体の削除あるいは変更等を行い、利用者により設定される画像に対応する画像データ構造体を抽出しドラマの要約を生成することで、高精度な要約番組を生成することができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における要約番組生成装置の一構成例を示す図である。 本実施形態における画像抽出部の機能構成の一例を示す図である。 出力候補画像の抽出内容を説明するための一例の図である。 本実施形態における設定画面の一例の図である。 画像データ構造体を設定するための詳細設定画面の一例を示す図である。 画面情報表示領域54に表示される内容を説明するための一例の図である。 表示画像が変更される手順を説明するための一例を示す図である。 最終出力される画像の設定を説明するための図である。 本発明における要約番組の生成が実現可能なハードウェア構成の一例を示す図である。 番組生成処理手順の一例を示すのフローチャートである。 フレーム画像抽出処理手順の一例を示すフローチャートである。 音声データ抽出処理手順の一例を示すフローチャートである。
符号の説明
10 要約番組生成装置
11 映像・音声分離部
12 画像抽出部
13 最終出力画像設定部
14 要約番組再生部
21 フレーム画像抽出手段
22 カット点検出手段
23 音声開始点検出・画像抽出手段
24 出力候補画像蓄積手段
31 画像データ構造体
41 最終出力設定画面
42 画像設定領域
43,53 ボタン領域
44 テキストボックス
45 コンボボックス45
46,56 OKボタン
47,57 キャンセルボタン
51 詳細設定画面
52 画像表示領域
54 画面情報表示領域
55 スクロールバー
61,71,72, 画像
62 シーケンス番号
63,82 チェックボックス
64 候補番号
65 移動ボタン
81 表示画像
83 出力画像
91 入力装置
92 出力装置
93 ドライブ装置
94 補助記憶装置
95 メモリ装置
96 CPU
97 ネットワーク接続装置
98 記録媒体

Claims (6)

  1. 映像及び音声からなる番組から前記映像に含まれる画像を抽出して番組の要約を生成する要約番組生成装置において、
    前記映像からフレーム毎に画像データを抽出し、抽出されたフレーム画像の画像データ構造体を生成するフレーム画像抽出手段と、
    前記フレーム画像抽出手段により得られる画像データ構造体に基づいて音声データを抽出し、抽出された音声データに基づいて設定されるフレーム画像を抽出する音声・画像抽出手段と、
    前記音声・画像抽出手段により得られる前記フレーム画像の画像データ構造体及び前記音声データを蓄積する蓄積手段とを有し、
    前記音声・画像抽出手段は、
    カット点を含むフレーム画像の時間情報と音声レベルとに基づいて、前記カット点を含むフレーム画像に対応する音声データが出力される時間以降で音声の大きさが設定値以上となる音声データを抽出し、抽出された音声データの時間情報に基づいて、要約の出力候補となるフレーム画像を選定することを特徴とする要約番組生成装置。
  2. 前記蓄積手段により蓄積された前記画像データ構造体及び前記音声データに基づいて要約の出力画像を設定する設定手段を有し、
    前記設定手段は、ユーザに要約の出力画像を設定させるための設定画面を生成し、前記設定画面により設定された画像データ及び該画像データに対応する音声データを出力することを特徴とする請求項1に記載の要約番組生成装置。
  3. 前記設定手段は、
    前記設定画面に前記フレーム画像と、前記フレーム画像を要約の出力画像として出力するかを設定するための設定情報とを、予め設定される前記フレーム画像の抽出条件に基づいて、前記時間情報の時間順に配列させて表示させることを特徴とする請求項に記載の要約番組生成装置。
  4. 前記設定手段により得られる画像データ及び該画像データに対応する音声データから要約番組を生成し、生成された要約番組を再生する再生手段を有することを特徴とする請求項1乃至の何れか1項に記載の要約番組生成装置。
  5. 前記再生手段は、
    前記フレーム画像に対応する音声データが再生される時間よりも先に前記フレーム画像を再生させることを特徴とする請求項4に記載の要約番組生成装置。
  6. 映像及び音声からなる番組から前記映像に含まれる画像を抽出して番組の要約を生成する処理をコンピュータに実行させるための要約番組生成プログラムにおいて、
    コンピュータを、
    前記映像からフレーム毎に画像データを抽出し、抽出されたフレーム画像の画像データ構造体を生成するフレーム画像抽出手段、及び、
    前記フレーム画像抽出手段により得られる画像データ構造体に基づいて音声データを抽出し、抽出された音声データに基づいて設定されるフレーム画像を抽出する音声・画像抽出手段として機能させ、
    前記音声・画像抽出手段は、
    カット点を含むフレーム画像の時間情報と音声レベルとに基づいて、前記カット点を含むフレーム画像に対応する音声データが出力される時間以降で音声の大きさが設定値以上となる音声データを抽出し、抽出された音声データの時間情報に基づいて、要約の出力候補となるフレーム画像を選定することを特徴とする要約番組生成プログラム。
JP2004149972A 2004-05-20 2004-05-20 要約番組生成装置、及び要約番組生成プログラム Expired - Lifetime JP4264028B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004149972A JP4264028B2 (ja) 2004-05-20 2004-05-20 要約番組生成装置、及び要約番組生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004149972A JP4264028B2 (ja) 2004-05-20 2004-05-20 要約番組生成装置、及び要約番組生成プログラム

Publications (2)

Publication Number Publication Date
JP2005332486A JP2005332486A (ja) 2005-12-02
JP4264028B2 true JP4264028B2 (ja) 2009-05-13

Family

ID=35487029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004149972A Expired - Lifetime JP4264028B2 (ja) 2004-05-20 2004-05-20 要約番組生成装置、及び要約番組生成プログラム

Country Status (1)

Country Link
JP (1) JP4264028B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9948862B2 (en) 2013-11-12 2018-04-17 Casio Computer Co., Ltd. Data display apparatus which controls display of a plurality of data, image display apparatus which individually displays a series of images, data display method, image display method, and storage medium
JP5867907B2 (ja) * 2013-11-12 2016-02-24 カシオ計算機株式会社 データ表示装置、データ表示方法及びプログラム

Also Published As

Publication number Publication date
JP2005332486A (ja) 2005-12-02

Similar Documents

Publication Publication Date Title
JP4170808B2 (ja) 情報表示装置、情報表示方法及びプログラム
KR101958664B1 (ko) 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법
US20130110267A1 (en) Audio reproducton method and apparatus supporting audio thumbnail function
US20160071524A1 (en) Audio Modification for Multimedia Reversal
US10734029B2 (en) Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium
EP1924092A1 (en) Content replay apparatus, content reproducing apparatus, content replay method, content reproducing method, program and recording medium
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
KR101944365B1 (ko) 콘텐츠 싱크 생성 방법, 그 장치 및 이를 위한 인터페이스 모듈
JP2007336593A (ja) 情報表示装置、情報表示方法及びプログラム
JP5109496B2 (ja) データ配信装置、データ配信方法およびプログラム
JP2007213040A (ja) オーディオファイル再生装置およびこれを利用したオーディオファイルナビゲーション方法
JP4264028B2 (ja) 要約番組生成装置、及び要約番組生成プログラム
JP2010109852A (ja) 映像インデクシング方法、映像録画再生装置、及び映像再生装置
JP2005252372A (ja) ダイジェスト映像作成装置及びダイジェスト映像作成方法
JP5213630B2 (ja) 映像信号再生装置
JP4342529B2 (ja) オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム
JP6609795B2 (ja) 映像音声処理装置、映像音声処理方法およびプログラム
JP4929127B2 (ja) Cm検出方法及びこれを用いた動画再生装置
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2008312066A (ja) 字幕付映像再生装置、プログラム
JP2005352330A (ja) 音声分割記録装置
WO2017026387A1 (ja) 映像処理装置、映像処理方法および記録媒体
JP4335175B2 (ja) 情報再生装置、情報再生方法及びコンピュータプログラム
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4264028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250