JP2009065462A

JP2009065462A - 映像を要約する装置、方法およびプログラム

Info

Publication number: JP2009065462A
Application number: JP2007231682A
Authority: JP
Inventors: Yasukazu Higuchi; 靖和樋口; Yasuaki Yamauchi; 康晋山内; Norio Mihara; 功雄三原; Shinko Sekine; 真弘関根
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-09-06
Filing date: 2007-09-06
Publication date: 2009-03-26

Abstract

【課題】映像内容を適切に反映した要約映像を生成する映像要約装置を提供する。
【解決手段】映像データと、映像データのメタデータを記憶するソースデータ管理部１０２と、配置順序が隣り合うコマの略中心点を結合する線であるセグメントを結合したコンテキストラインを算出し、セグメントの端点が存在するコマそれぞれの内容情報の変化量を算出し、算出した変化量に応じて所定量だけセグメントの端点の位置を変更するコンテキストライン算出部１２０と、コマに含まれるセグメントの端点と映像データに含まれるオブジェクトの略中心点との距離が第１閾値より小さく、かつ、コマに含まれるセグメントの方向とオブジェクトの向きとの差が第２閾値より小さい映像データを、要約映像としてソースデータ管理部１０２から選択するオブジェクトレイアウト算出部１３０とを備えた。
【選択図】図２−１

Description

この発明は、コンピュータ、デジタルＡＶ（Audio Visual）装置、および通信装置などで扱われる映像データから、映像要素を空間上にレイアウトした要約映像を生成する装置、方法およびプログラムに関するものである。

近年、コンピュータやデジタルＡＶ機器、通信装置などで映像データの記録、閲覧が一般的に行われるようになった。これに伴い、記録した映像データの検索や内容確認を行うための技術が利用されている。そのような技術の１つとして、映像内のフレームを代表画像として選択し、レイアウトする手法が知られている。これは映像の時間変化に合わせて代表画像を上から下、または左から右にレイアウトする手法である。例えば、チャプター選択におけるサムネイル画像の表示手法はこの手法に該当する。サムネイル画像を表示することで、各チャプターの印象を示して目的のチャプターを選択しやすくすることができる。

また、代表画像をレイアウトすることで映像の内容を表現する手法として、漫画風のレイアウトを行う技術が提案されている（例えば、特許文献１）。特許文献１では、映像データと音声データを解析してカット検出を行い、その代表画像をコマとしてレイアウトすることで、映像を漫画風レイアウトに変換する方法が示されている。

ここで言う漫画風とは、表示領域を枠線で区切られた複数の領域（以下、コマと呼ぶ）に分割し、異なる画像をコマの中に配置することを意味する。漫画風レイアウトは、文章と同様に読み進めるコマの順序がおおよそ決まっており、その連続性により時間変化を表現することができる。漫画風にレイアウトすることで、映像の持つ時間的な変化を表現しつつ、内容の一覧性を向上させることが可能になる。

また、漫画作成のために、コマ割フォーマットを生成する手法として、シナリオなどの内容を記述したデータに基づいてページのコマ割を行う技術が提案されている（例えば、特許文献２）。この技術では、コマごとの注目度合いを表す注目度や、予め保存されたコマ形状の指定、セリフなどを記述したシナリオ情報に基づいて、ページをコマ割りし、吹き出しや擬音などを付加したコマ割フォーマットを生成することで、漫画作成作業の効率化を行っている。

特開２００３−８５５７２号公報特開２００３−２０８６２９号公報

しかしながら、従来の技術では、映像の内容を反映した要約を生成することができないため、要約映像の閲覧者に対して映像の内容を適切に伝えることができない場合があるという問題があった。

例えば、特許文献１の方法は、動画映像からフレーム画像を抜き出し、コマとして時系列に並べただけであり、空間上にレイアウトする際に重要なレイアウト要素間の位置関係に関して映像の内容を反映していない。このため、生成された要約映像は画一的なものになり、元映像の内容を閲覧者に伝えることができない。

また、特許文献２の方法では、映像の内容を表すシナリオ情報に基づいてコマ割を行っているが、コマ毎に独立した情報に基づいてレイアウトを行うことや、コマ内部に配置する映像要素については考慮していない。したがって、コマを並べた際の読みやすさに大きな影響をあたえるコマ間の連続性の考慮や、コマ内部への映像要素のレイアウト作業は人手により行う必要がある。このように、映像の内容を反映した要約映像を容易に生成することができない。

本発明は、上記に鑑みてなされたものであって、映像内容を示すメタデータが付与された映像データから、映像内容を適切に反映し、閲覧性の高い要約映像を生成することができる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、映像データを記憶する映像記憶部と、前記映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含む前記映像データのメタデータを記憶するメタデータ記憶部と、前記メタデータ記憶部から前記配置順序を取得し、取得した前記配置順序が隣り合う前記コマの略中心である中心点を結合する線分を、前記配置順序に従って結合したラインを算出し、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記内容情報を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記内容情報と他方の端点に対して取得した前記内容情報との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更したコンテキストラインを算出する第１算出部と、前記コマそれぞれについて、前記コマに含まれる前記線分の方向と前記映像データに含まれるオブジェクトの向きとの差が予め定められた第１閾値より小さい前記映像データを、前記部分映像として前記映像記憶部から選択する選択部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

また、本発明は、映像データを記憶する映像記憶部と、前記映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序、前記コマの配置位置、および前記コマの大きさを含む前記コマの配置情報と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含むメタデータを記憶するメタデータ記憶部と、前記メタデータ記憶部から前記配置情報および前記内容情報を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記内容情報の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更するレイアウト変更部と、前記配置位置または前記大きさが変更された前記コマそれぞれについて、前記映像記憶部に記憶された前記映像データから前記部分映像を選択する選択部と、を備えたことを特徴とする。

本発明によれば、映像内容を示すメタデータが付与された映像データから、映像内容を適切に反映し、閲覧性の高い要約映像を生成することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる映像を要約する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる映像要約装置は、時系列に並べられた複数のフレーム画像からなる映像データと、その映像データの内容を記述したメタデータであるコンテキストデータとから、時間軸方向に並べられたフレーム画像およびフレーム画像内のオブジェクトを空間上にレイアウトすることにより、映像の内容を表現しつつ、一瞥性を高めた要約映像を生成するものである。

まず、本実施の形態の映像要約装置による映像要約処理の概要について図１を用いて説明する。図１は、映像要約処理の概要を示す説明図である。本実施の形態による映像要約処理では、映像データの持つ時系列の情報を空間上でのレイアウトで表現するための概念として、漫画等で用いられる「コマ」を導入し、コマを用いてレイアウトを行う。図１に示すように、映像データ２００を要約した要約映像の出力領域として順序付けられた複数のページ２２０ａ〜２２０ｃに対し、ページ内を任意の大きさおよび形状に分割した小領域をコマとする。なお、要約映像は、１つ以上のページ２２０と、ページ２２０内の複数のコマに分けて表示される。すなわち、各ページの各コマは、要約映像を構成する部分映像の表示領域に相当する。同図では、例えばページ２００ａに対して、５つのコマ２３０ａ〜２３０ｄが割り当てられている。このように、ページ内に時系列に沿った内容を示すコマを連続して配置することで、映像の持つ時間表現を空間上のレイアウトで表現することができる。

また、漫画では、コマの大きさ・形状と、コマ内の映像の構図により時間変化量や登場人物の感情、場の雰囲気などを表現するのが一般的である。そこで、本実施の形態の映像要約処理では、それら漫画におけるコマのレイアウト、およびコマ内の映像のレイアウトに関する知見を用いて映像データを空間上にレイアウトする。

次に、本実施の形態の映像要約装置の構成について説明する。図２−１は、第１の実施の形態にかかる映像要約装置１０の構成を示すブロック図である。図２−１に示すように、映像要約装置１０は、ソースデータ取得部１００と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０とを備えている。

ソースデータ取得部１００は、外部から入力された映像データや、映像データの内容を表すコンテキストデータを取得するものである。

ソースデータ管理部１０２は、取得された映像データおよびコンテキストデータを管理するものである。図２−２は、ソースデータ管理部１０２の詳細な構成を示す説明図である。図２−２に示すように、ソースデータ管理部１０２は、映像記憶部１０２ａと、映像フレーム群取得部１０２ｂと、メタデータ記憶部１０２ｃと、メタデータ取得部１０２ｄと、を備えている。

映像記憶部１０２ａは、入力された映像データを記憶するものである。映像フレーム群取得部１０２ｂは、映像記憶部１０２ａに記憶された映像データから、指定された任意のフレームを選択して取得するものである。取得されたフレームは、要約映像の生成に用いられる。

メタデータ記憶部１０２ｃは、映像データの内容を記述したメタデータとして入力されたコンテキストデータを記憶するものである。コンテキストデータの詳細については後述する。メタデータ取得部１０２ｄは、メタデータ記憶部１０２ｃに記憶されたコンテキストデータから、指定された任意の項目を選択して取得するものである。取得されたコンテキストデータは、後述するコマレイアウト算出処理、コンテキストライン算出処理、およびオブジェクトレイアウト算出処理で用いられる。

なお、映像記憶部１０２ａおよびメタデータ記憶部１０２ｃは、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

次に、メタデータ記憶部１０２ｃに記憶されるコンテキストデータの詳細について説明する。コンテキストデータには、ページ情報、映像コマ対応情報、映像内容情報および映像内オブジェクト情報が含まれる。

図３−１は、コンテキストデータに含まれるページ情報のデータ構造の一例を示す説明図である。ページ情報には、要約映像の出力様式を表す情報が記述される。図３−１に示すように、ページ情報は、一度に表示できる映像単位をページとして、ページ数と、ページの大きさと、標準のコマ間隔と、ページ内のコマ数を規定するグリッド情報と、コマの配置順序や配置位置を表すコマ配置とを含んでいる。

図３−２は、コンテキストデータに含まれる映像コマ対応情報のデータ構造の一例を示す説明図である。映像コマ対応情報には、各コマに割り当てられた映像のフレームを表す情報が記述される。図３−２に示すように、映像コマ対応情報は、ページ番号と、コマ番号と、各コマに対応づけられているフレーム番号とを含んでいる。

図３−３は、コンテキストデータに含まれる映像内容情報のデータ構造の一例を示す説明図である。映像内容情報には、シナリオやオブジェクトの動きなどの映像の内容を表す情報が記述される。図３−３に示すように、映像内容情報は、コマ番号と、コマ内での映像の内容の盛り上がり度合いを示す盛り上がり度と、シナリオ上の時間位置を表すシナリオ時間と、オブジェクトアクションと、セリフとを含んでいる。

オブジェクトアクションとは、コマ内の映像に含まれるオブジェクトの動作（アクション）に関する情報であり、オブジェクトを識別するオブジェクト名と、アクションの内容と、オブジェクトの向きやアクションの対象となる他のオブジェクト名などを示すプロパティとを含んでいる。セリフは、発話者と、発話内容と、発話者の感情を示すプロパティとを含んでいる。

なお、映像内容情報は上記に限られるものではなく、カメラワーク、オブジェクト間の関係などを記述してもよい。

図３−４は、コンテキストデータに含まれる映像内オブジェクト情報のデータ構造の一例を示す説明図である。映像内オブジェクト情報には、各映像フレーム内のオブジェクトのレイアウトに関する情報が記述される。図３−４に示すように、映像内オブジェクト情報は、オブジェクト名と、フレーム番号と、オブジェクト領域と、オブジェクトの中心座標と、オブジェクトの主軸方向と、オブジェクト種類とを含んでいる。

オブジェクト領域とは、フレーム内のオブジェクトが存在する領域を示す情報であり、オブジェクト境界と、切り抜き情報とを含んでいる。オブジェクト境界とは、オブジェクトを含む矩形領域の境界を示す情報であり、矩形領域の左上点座標と、矩形領域の幅と、矩形領域の高さとを含んでいる。また、切り抜き情報とは、矩形領域内のオブジェクトの輪郭を表す情報である。具体的には、切り抜き情報は、オブジェクトの輪郭上に存在する複数の点の座標によって表される。

主軸方向とは、オブジェクトの姿勢を表す代表的な軸の方向を表す情報である。主軸方向は、例えば主成分分析などの従来から用いられている技術によって算出することができる。本実施の形態では、ベクトル形式で表された３つの軸（第１軸、第２軸、第３軸）を主軸として指定する。図３−４では、第１軸が（０、１．０）、第２軸が（１．０、０）、第３軸が省略された例が示されている。

オブジェクト種類には、オブジェクトの種類を示す情報として、例えば、「人物」、「動物」などの情報が設定される。

なお、これらのコンテキストデータは、人がキーボードなどを用いて手動で入力してもよいし、公知の画像処理手法などを用いて抽出するように構成してもよい。また、図３−１から図３−４に示したテーブル表現は記述の一形態であり、コンテキストデータの記述方式はこれに限定されるものではない。他の例としては、ＸＭＬのようなメタタグを用いたデータで記述してもよい。また、その他のデータ記述方式を用いてもよい。

図１に戻り、コマレイアウト算出部１１０は、ソースデータ管理部１０２で管理されているコンテキストデータを読込み、コマの位置、大きさ、および描画属性を含むコマレイアウト情報を算出するものである。

コンテキストライン算出部１２０は、コマレイアウト情報およびコンテキストデータから、要約映像においてある注目点とその次の注目点を結んだラインとして構成され、コマ内の映像を構成するオブジェクトの位置、大きさ、向きを決定するために用いるコンテキストライン情報を算出するものである。

オブジェクトレイアウト算出部１３０は、コンテキストライン情報、コマレイアウト情報、およびコンテキストデータを参照し、映像データからコマ内にレイアウトするオブジェクト映像を選択し、合成することで要約映像を生成するものである。

次に、コマレイアウト算出部１１０、コンテキストライン算出部１２０、およびオブジェクトレイアウト算出部１３０の詳細について以下に説明する。まず、コマレイアウト算出部１１０の構成および機能の詳細について説明する。

図４は、コマレイアウト算出部１１０の詳細な構成を示すブロック図である。図４に示すように、コマレイアウト算出部１１０は、初期コマレイアウト算出部１１１と、コマレイアウト調整部１１２と、コマ描画属性算出部１１３とを備えている。

まず、コマレイアウト算出部１１０内の各部による処理の概要について説明する。コマレイアウト算出部１１０に読み込まれたコンテキストデータは初期コマレイアウト算出部１１１に入力される。初期コマレイアウト算出部１１１は、入力されたフォーマットに従ってページ領域をコマ単位に分割することで、コマレイアウト情報の初期値（初期コマレイアウト情報）を算出する。算出された初期コマレイアウト情報は、コマレイアウト調整部１１２に入力される。

コマレイアウト調整部１１２は、コンテキストデータを参照してコマの位置、大きさの情報を調整する。さらに、コマ描画属性算出部１１３が、コンテキストデータを参照してコマの外形属性を含むコマの描画属性を算出し、その結果をコマレイアウト情報として出力する。

コマレイアウト情報は、要約映像のコマ単位でのレイアウト処理のために用いられる情報である。コンテキストライン算出部１２０では、コンテキストラインを算出するガイドとしてコマレイアウト情報を利用する。また、オブジェクトレイアウト算出部１３０では、オブジェクトの合成処理で、コマレイアウト情報を利用する。

次に、コマレイアウト算出部１１０内の各部の構成および機能の詳細について説明する。まず、初期コマレイアウト算出部１１１について説明する。

初期コマレイアウト算出部１１１は、映像の内容を反映させるための基準となるコマレイアウトの初期値である初期コマレイアウト情報を算出するものである。具体的には、初期コマレイアウト算出部１１１は、図３−１に示したようなコンテキストデータのページ情報を用いて、全てのコマが均一の大きさになるようにページ領域を分割し、初期コマレイアウト情報を算出する。

例えば、図３−１に示したページ情報から初期コマレイアウト情報を算出する場合、初期コマレイアウト算出部１１１は、まずグリッド情報からページ領域を分割し、コマ順序に合わせて分割した領域に番号を付与する。具体的には、初期コマレイアウト算出部１１１は、ページの縦、横をグリッド情報に記述された行と列の数で等分し、番号を付与する。その際、初期コマレイアウト算出部１１１は、コマレイアウト調整部１１２におけるコマレイアウト情報の調整の際に参照するために、上下左右で隣り合うコマ番号についても記録しておく。

次に、初期コマレイアウト算出部１１１は、平均のコマ間隔に合わせて各コマの上下左右の間隔を調整し初期コマレイアウト情報を算出する。具体的には、初期コマレイアウト算出部１１１は、各コマにおいて、空けるべき間隔に合わせてコマの大きさを小さくすることで間隔を調整する。算出された初期コマレイアウト情報は、コマ毎の位置、大きさ、および近隣のコマ番号により構成される。

例えば、図３−１に示すページ情報からは、図５に示す初期コマレイアウトに対応する初期コマレイアウト情報が得られる。初期コマレイアウト算出部１１１は、まず６ページのページ領域を準備する。そして、各ページをグリッド情報に従い３行２列に等分割する。さらに、図５に示すように、これにより得られた６つのコマのうち右上から左に向かって順に１〜６の番号を付与し、各コマ位置とコマ番号とを保持する。さらに、例えば、コマ番号１については、左のコマのコマ番号２と、下のコマ番号３とをコマ番号１に対応付けて保持する。さらに、コマ間隔５に従い、コマ間隔を縦横上下左右ともに５ｍｍあける。これにより、図５に示す初期コマレイアウトが得られる。

次に、コマレイアウト調整部１１２について説明する。コマレイアウト調整部１１２は、コンテキストデータを参照して初期コマレイアウトを調整することで、映像の内容を空間的なレイアウトとして要約映像に反映させる。例えば、コマレイアウト調整部１１２は、各コマの盛り上がり度、シナリオ時間、およびフレーム数それぞれの変化量を算出し、算出した変化量に応じてコマレイアウトの調整を行う。

まず、コマレイアウト調整部１１２は、各コマにおける盛り上がり度に従ってページの全体的なコマレイアウトを調整する。以下では、図６を用いてページの全体的なコマレイアウトの調整について説明する。図６は、コマごとの盛り上がり度の一例を示した説明図である。

はじめに、コマレイアウト調整部１１２は、ページ内で最も盛り上がり度の高いコマを選択し、その盛り上がり度の大きさに比例してコマを大きくする。具体的には、コマレイアウト調整部１１２は、ページ内のコマの平均盛り上がり度に対する最大盛り上がり度の大きさにより対象のコマの大きさを決定する。図６の例では、コマ番号６のコマの盛り上がり度が最大となっているため、コマ番号６のコマを大きくする。コマを大きくする方法としては、盛り上がり度の大きさに比例して連続的にまたは段階的に大きく方法、盛り上がり度が予め定められた閾値以上である場合に所定の大きさだけ大きくする方法など、あらゆる方法を適用できる。

最大盛り上り度のコマの大きさを変えると、その周囲のコマも配置を変える必要が生じる場合がある。図７は、配置変更の必要が生じるレイアウトの一例を示す説明図である。図７は、コマ番号６のコマをコマ番号５の方向に大きくしたため、コマ番号５のコマの配置を変更する必要が生じた例を示している。

この場合、コマレイアウト調整部１１２は、各コマ間での盛り上がり度の変化量を比較し、最も盛り上がり度の変化量が少ないコマの組を圧縮することで最大盛り上り度のコマの大きさの変更に伴うレイアウト変更を行う。

コマの盛り上がり度は、映像全体におけるそのコマの盛り上がり度合を示すものであるが、局所的な盛り上がり度合いは隣り合ったコマ間での盛り上がり度の変化量に依存する。すなわち、隣り合ったコマ間で盛り上がり度の変化が最も少ないコマの組はそのページ内における盛り上がり度合いが小さく、重要度が低いと考えられる。このため、このようなコマの大きさを小さくする。これらの処理により、ページの全体的なコマレイアウトに対して、映像の内容に基づいた変化をつけることが可能となる。

図８は、レイアウト変更の一例を示す説明図である。上述した図６の例では、コマ番号２、３の２つのコマの盛り上がり度の変化が最も少ない。そこで、図８に示すように、コマレイアウト調整部１１２は、コマ番号２および３のコマの大きさを小さくする。そして、コマ番号５のコマを空いた領域に配置するようにレイアウトを変更する。

なお、コマレイアウトの調整方法は上記に限られるものではない。例えば、隣り合ったコマ間での盛り上がり度の変化量に対して閾値を設けておき、盛り上がり度の変化量がページ内ですべて閾値以上であった場合には、前後のページにコマをずらして配置することも可能である。現在のページにおける先頭、または末尾のコマを別のページにずらした場合のレイアウト調整は、最大盛り上がり度のコマの大きさを変更した場合と同様に行うことができる。

次に、コマレイアウト調整部１１２は、読み込んだ各コマに対応付けられたフレーム数を用いて、各コマに割り当てられた映像再生時間量に基づくコマサイズ調整を行う。以下では、映像再生時間量に基づくコマサイズ調整について図９および図１０を用いて説明する。図９は、コマごとの映像再生時間の一例を模式的に示した説明図である。また、図１０は、図９に示すような映像再生時間に応じたコマサイズ調整の一例を示す説明図である。

対応付けられたフレーム数が多いコマは、そのコマで表現される映像再生時間が多く、逆に対応付けられたフレーム数が少ない場合は、そのコマで表現される映像再生時間が少ないことを示している。そこで、コマレイアウト調整部１１２は、コマ間のフレーム数の差に応じて各コマの大きさを調整する。

具体的には、コマレイアウト調整部１１２は、まず、隣り合うコマ間でフレーム数（時間量）を比較する。そして、コマレイアウト調整部１１２は、時間量が多いコマを大きくし、時間量が少ないコマを小さくする。

要約映像の閲覧者は大きいコマをより長い時間注目すると考えられる。そのため、コマにより表現する映像内容の再生時間に比例してコマの大きさを調整することにより、各コマの注目時間を所望の時間に調整することができる。

例えば、コマ番号１〜６の各コマに対し図９に示す映像再生時間が割り当てられているとする。この場合には、例えばコマ番号１のコマはコマ番号２のコマに比べて映像再生時間が長い。そこで、図１０に示すようにコマ番号１のコマの大きさをより大きくする。さらに、コマ番号４のコマはコマ番号３のコマに比べて映像再生時間が短い。そこで、図１０に示すようにコマ番号４のコマの大きさをより小さくする。また、コマ番号５のコマはコマ番号４のコマに比べて映像再生時間が長い。そこで図１０に示すようにコマ番号５のコマの大きさをより大きくする。

次に、コマレイアウト調整部１１２は、コマとコマの間隔をシナリオ時間の変化量に基づいて決定する。以下では、コマ間隔の調整について図１１〜図１３を用いて説明する。図１１は、コマごとのシナリオ時間の一例を模式的に示した説明図である。また、図１２および図１３は、シナリオ時間に応じたコマ間隔調整の一例を示す説明図である。

コマ間でのシナリオ時間の差が閾値よりも大きい場合には、その大きさに比例して間隔を大きくし、閾値よりも小さい場合はその大きさに比例して小さくする。これは、コマ間隔の広さにより、コマ間の時間的な隔たりを表現するためである。

例えば、コマ番号１〜６の各コマに対し図１１に示すシナリオ時間が割り当てられているとする。この場合には、コマ番号５のコマとコマ番号６のコマの間のシナリオ時間の時間間隔が長いので、図１２に示すように、この分だけコマ番号５のコマとコマ番号６のコマの間のコマ間隔を広くする。また、コマ番号１のコマとコマ番号２のコマの間およびコマ番号２のコマとコマ番号３のコマの間のシナリオ時間の時間間隔が短いので、図１３に示すようにシナリオ時間の時間間隔により定まる長さだけコマ番号１のコマ、コマ番号２のコマおよびコマ番号３のコマの間のコマ間隔を狭くする。

このような処理により、コマレイアウト調整部１１２は、コマの位置、大きさを調整する。

次に、コマ描画属性算出部１１３について説明する。コマ描画属性算出部１１３は、コマレイアウト調整部１１２が位置および大きさを調整したコマのレイアウトに対して、コンテキストデータを参照してコマ描画属性を算出する。本実施の形態では、コマ描画属性には、コマの外形属性、枠線属性、塗りつぶし属性が含まれる。

コマの外形は、例えば矩形や台形などの外形の形状を示す種類と、形状の詳細を示すプロパティとを有している。枠線属性は、枠線の描画色と、枠線の太さと、点線などの線種とを有している。塗りつぶし属性は、塗りつぶし色と、単色、複数色の斜線パターン、および不透明度などを含む塗りつぶしパターンとを有している。

最初に、コマの外形属性の算出について説明する。通常、コマの外形は矩形であるが、コンテキストデータに基づいてコマの形状を変えることで、映像の内容をより強く表現することができる。図１４−１および図１４−２は、コマの外形属性を変更したレイアウトの一例を示す説明図である。図１４−１は、隣り合うコマ間での盛り上がり度の変化が大きいため、隣り合うコマとの境界を斜めにするように変更したコマ描画属性のコマを含むレイアウトの例を示している。

このようにコマの外形を変更することにより、コマの表示状態において、視覚的に動きが感じられるようになり、コマ間での盛り上がり度合いを表現することができる。具体的には、コマ描画属性算出部１１３は、コマ番号が増える方向に向かうように、盛り上がり度の変化量の大きさに比例してコマの境界の角度を決定する。

例えば、コマ番号１のコマとコマ番号２のコマの間の盛り上がり度の変化量が大きい場合には、図１４−１に示すように、コマ番号１のコマとコマ番号２のコマの間の境界線を傾斜させる。また、コマ番号４のコマとコマ番号５のコマの間の盛り上がり度の変化量が大きい場合には、図１４−１に示すように、コマ番号４のコマとコマ番号５のコマの間の境界線を傾斜させる。これにより、視覚的な動きを感じさせることができる。すなわち、コマ間での盛り上がりの程度を表現することができる。

さらに、図１４−１に示す例では、コマ番号１のコマとコマ番号２、３のコマの間の境界線が傾斜している。したがって、コマ番号４のコマとコマ番号５のコマの間の境界線は、コマ番号１のコマとコマ番号２、３のコマの間の境界線とは逆の方向に傾斜させるのが好ましい。これにより、より視覚的な動きを感じさせることができる。

また、コマ描画属性算出部１１３は、コマ間におけるフレーム数の変化量に基づいて、コマ間の境界線を傾斜させる。具体的には、コマ描画属性算出部１１３は、フレーム数の変化が小さい場合にコマの境界を斜めにする。これにより、時間変化の急峻さを表現することができる。

さらに、コマ描画属性算出部１１３は、コマ間における盛り上がり度の変化量に基づいて、コマの外形を予め定められた形状に変更する。具体的には、コマ描画属性算出部１１３は、あるコマの盛り上がり度と、同一ページの他のコマの盛り上がり度との差が所定の閾値より大きい場合は、盛り上がり度が大きいコマの外形を図１４−２に示すようなスパイク状の外形にする。これにより、対象のコマの盛り上がり度が大きいことを視覚的に表現することができる。

次に、コマの枠線属性の算出について説明する。図１５〜図１７は、コマの枠線属性を変更したレイアウトの一例を示す説明図である。枠線属性は、コマ外形をストロークとして描画する際の特徴を表す属性であり、上述のように、描画色、太さ、線種を含む。なお、描画色に透明度の情報を含め、透明度の有無により、枠線描画の有無を表すように構成してもよい。

まず、コマ描画属性算出部１１３は、盛り上がり度に応じて枠線の太さを調整する。具体的には、コマ間の盛り上がり度の差が閾値を超えている場合に、図１５に示すように、盛り上がり度の大きいコマの枠線を太くする。これにより、コマの盛り上がり度の高さを表現することができる。また、他の例として、枠線を太くするのに代えて枠線の描画色を例えば赤など他の枠線と異なる色に変更するように構成してもよい。また、枠線を太くし、かつ枠線の色を変更するように構成してもよい。

また、コマ描画属性算出部１１３は、コンテキストデータの映像内容情報を参照してコマ内に主要なオブジェクトが存在するか否かを判断し、存在しない場合に、図１６に示すように、当該コマの枠線を削除する。これにより、コマが示す内容が映像の時間経過とは無関係の内容であり、例えば、場所、状況などのようにシーンに共通する場面説明を表していることを明示することができる。

また、コマ描画属性算出部１１３は、あるコマのシナリオ時間が前のコマよりも過去であるか否かを判断し、過去である場合に、図１７に示すように、枠線の線種を点線や掠れ線にする。これにより、シナリオ時間が不連続であることを明示することができる。

次に、コマの塗りつぶし属性の算出について説明する。図１８は、コマの塗りつぶし属性を変更したレイアウトの一例を示す説明図である。塗りつぶし属性は、コマの内部領域の描画属性を示す属性である。

例えば、コマ描画属性算出部１１３は、あるコマのシナリオ時間が前のコマよりも過去である場合に、図１８に示すように反転色により塗りつぶすことで、不連続な時間を明示することができる。また、シナリオ時間が前のコマよりも過去である場合に、不透明度を下げるように構成してもよい。これにより、コマ間でのシナリオ上の時間経過が不連続であることを明示できる。

コマ描画属性算出部１１３は、以上のようにコンテキストデータに基づいて、コマ属性を示すコマレイアウト情報を生成する。図１９に示すように、コマレイアウト情報は、出力領域であるページのページ番号と、コマ番号と、コマの位置と、コマの大きさと、コマ描画属性とが含まれる。なお、コマレイアウト情報は、図１９のようにテーブル形式に限られず、ＸＭＬのようなメタタグを用いたデータ形式で記述してもよいし、その他のデータ記述方式を用いてもよい。

次に、コンテキストライン算出部１２０の構成および機能の詳細について説明する。図２０は、コンテキストライン算出部１２０の詳細な構成を示すブロック図である。図２０に示すように、コンテキストライン算出部１２０は、初期コンテキストライン算出部１２１と、コンテキストライン調整部１２２とを備えている。

ここで、コンテキストラインの概念について図２１を用いて説明する。図２１は、コンテキストラインを視覚化した例を示す説明図である。図２１に示すように、コンテキストラインは要約映像における注目点を注目する順に結合したラインである。コンテキストラインは、要約映像の生成処理では、閲覧時における映像内容を反映した理想的な視線移動を表すラインとして用いられる。

漫画風の表現では、閲覧時の視線移動の仕方が閲覧者の受ける印象に大きく影響すると考えられている。このため、本実施の形態では、視線移動の仕方により映像の内容を表現するためにコンテキストラインを導入する。

コンテキストラインは、向きを持つ複数の連続したセグメントにより構成された曲線として表現され、各セグメントの端点は注目点としての情報を持つ。各注目点は、その注目度合いを示す注目度と、映像上で実際の注目対象となるオブジェクト名を持つ。なお、注目点位置はレイアウトされるオブジェクトの中心位置、コンテキストラインの方向はその姿勢、注目度はその大きさにそれぞれ該当する。

コンテキストラインにより、連続する注目点間の視線移動を幾何学的に表現することができる。さらに、コンテキストラインを幾何学的に操作することで、閲覧時の視線移動をデザインすることができる。その際に映像の内容を反映した視線移動となるコンテキストラインに調整することで、空間上のレイアウトにより映像の内容を表現することが可能となる。

図２０に戻り、コンテキストライン算出部１２０内の各部による処理の概要について説明する。読み込まれたコマレイアウト情報は、初期コンテキストライン算出部１２１に入力される。初期コンテキストライン算出部１２１は、コマレイアウト情報から、コンテキストライン情報の初期値である初期コンテキストライン情報を算出する。なお、初期コンテキストライン情報は、コマレイアウト情報のみから算出される。次に、コンテキストライン調整部１２２は、コンテキストデータを読み込み、読込んだコンテキストデータに基づいて初期コンテキストライン情報を調整し、映像の内容を反映した視線移動を表す情報として、コンテキストライン情報を出力する。

次に、コンテキストライン算出部１２０内の各部の構成および機能の詳細について説明する。まず、初期コンテキストライン算出部１２１について説明する。

初期コンテキストライン算出部１２１は、コマレイアウト情報から初期コンテキストラインを算出するものである。具体的には、初期コンテキストライン算出部１２１は、まず、読み込んだコマレイアウト情報から、コマ位置および大きさからコマの略中心である中心点（矩形コマならば対角線の交点）を求め、求めた中心点を各コマでの注目点の位置とする。

また、初期コンテキストライン算出部１２１は、コマの大きさに基づいた値を注目点での注目度として設定する。例えば、各コマを表す矩形の短辺の長さの８０％と一致する直径の円の半径を、当該コマの注目度の値として設定する。注目度をコマの大きさに基づいて決定するのは、コマの大きさがそのコマにおける盛り上がり度を反映しており、盛り上がり度合いが高い場面と注目させる場面がほぼ同一であるためである。

そして、初期コンテキストライン算出部１２１は、各注目点をコマ順序に従って結ぶことにより、初期コンテキストラインを算出する。なお、以下では、初期コンテキストラインを構成する、２つの注目点を結んだ線分それぞれをセグメントという。

図２２は、算出された初期コンテキストラインの一例を示す説明図である。図２２の点２４０は、注目点の位置を示している。円２４２の半径によって注目度の大きさが示される。直線２４４はセグメントを示している。

図２０に戻り、コンテキストライン調整部１２２について説明する。コンテキストライン調整部１２２は、初期コンテキストラインを構成する各セグメントに対して、隣接するセグメントとの間の角度、セグメントの長さ、端点の注目点における注目度をコンテキストデータに基づいて初期コンテキストラインを調整し、コンテキストライン情報を出力する。

具体的には、コンテキストライン調整部１２２は、まずコマ内にレイアウトするオブジェクトと注目点との対応付けを行う。すなわち、コンテキストライン調整部１２２は、コンテキストデータによってアクションが記述されているオブジェクトを注目対象のオブジェクトとして注目点に対応付ける。

初期コンテキストラインでは１つのコマに対して１つの注目点のみを設定している。そこで、注目対象のオブジェクトが複数存在する場合は、コンテキストライン調整部１２２は、コマ内に注目点を追加する。注目点の追加順序および位置は、アクションの記述内容に基づいて決定する。そして、アクションの順序とオブジェクトの位置の記述に基づき、分割したコマを想定して、新たなコンテキストラインを生成する。新たなコンテキストラインの生成は、初期コンテキストラインの生成と同様の方法で行う。

図２３は、図２２のような初期コンテキストラインに対して、オブジェクトと注目点との対応づけを行った例を示す説明図である。図２３は、コマ番号５のコマに複数の注目対象オブジェクトが存在したため、当該コマを分割した例を示している。同図に示すように、コンテキストライン調整部１２２は、左右に２分割したコマを想定し、それぞれの中心点を注目点として新たにコンテキストラインを生成し、アクションの順序に従って注目対象オブジェクトを対応付ける。

また、コンテキストデータにそのコマにおけるアクションが記述されていない場合は、コンテキストライン調整部１２２は、レイアウトするオブジェクトとして、そのコマに割り当てられたフレーム群から任意のフレーム（例えば中央のフレーム）を対応づける。また、この場合、コンテキストライン調整部１２２は、注目度として、取り得る最小値を設定する。

次に、コンテキストライン調整部１２２は、コンテキストデータのうち映像内容情報中の盛り上がり度の変化量に基づいてコンテキストラインの角度を調整する。具体的には、コンテキストライン調整部１２２は、対象のコマ間での盛り上がり度の変化量の大きさに反比例して、１つ前のセグメントとなす角度が小さくなるように、現在対象としているセグメントの終点を垂直方向に移動する。これは、コンテキストラインで示される視線移動方向の変化を大きくすることで、閲覧時に勢いを感じさせ、映像の盛り上がり度合いを表現するためである。

なお、コマ番号１のコマの注目点とコマ番号２のコマの注目点とを結ぶ最初のセグメントについては、例えば、コマ番号１のコマの枠線右上の点とコマ番号１のコマの注目点とを結ぶ線となす角度が小さくなるように、セグメントの終点を垂直方向に移動する。

図２４は、コンテキストラインの角度調整の一例を示す説明図である。図２４では、例えば、コマ番号１のコマとコマ番号２のコマの盛り上がり度の変化量が大きいため、コマ番号２のコマの注目点の位置を上方向に移動することにより、コマ番号１のコマの枠線右上の点とコマ番号１のコマの注目点を結ぶ線と、最初のセグメントとのなす角を小さくした例が示されている。また、コマ番号３のコマとコマ番号４のコマの盛り上がり度の変化量が大きいため、コマ番号４のコマの注目点の位置を上方向に移動することにより、コマ番号３のコマの注目点とコマ番号４のコマの注目点を結ぶセグメントと、１つ前のセグメント、すなわちコマ番号２のコマの注目点とコマ番号３のコマの注目点を結ぶセグメントのなす角を小さくした例が示されている。

なお、両端が同じコマに属しているセグメントに対しては、その前後のセグメントの端点が所属しているコマにおける盛り上がり度と、現在のセグメントが属しているコマの盛り上がり度の平均値を用いて調整を行う。

次に、コンテキストライン調整部１２２は、コンテキストデータのうち映像コマ対応情報で各コマに対応付けられているフレーム数の変化量に基づいてコンテキストラインの長さを調整する。具体的には、コンテキストライン調整部１２２は、対象のコマ間でのフレーム数の差の大きさに比例して、フレーム数が多い側の端点を水平方向に沿って移動することでコンテキストラインの長さを調整する。これは、コンテキストラインで示される視線移動の量を長くすることで、閲覧時にそのコマ間での時間変化の大きさを感じさせるためである。これにより、映像の持っていた時間変化を表現することができる。なお、フレーム数の代わりに、シナリオ時間を用いてコンテキストラインの長さを調整するように構成してもよい。

図２５は、コンテキストラインの長さ調整の一例を示す説明図である。図２５に示す例では、コマ番号３のコマの注目点を左方向に移動し、コマ番号３のコマの注目点からコマ番号４のコマの注目点までのセグメントの長さを長くしている。なお、図２５は、コマ番号１のコマとコマ番号２のコマの間のセグメントから順にすべてのセグメントに対して長さ調整を行った後のコンテキストラインの例を示している。

なお、両端が同じコマに属しているセグメントに対しては、端点の注目点に対応付けられているオブジェクトのアクションのフレーム数の変化量に基づいて終端側の注目点を移動する。

次に、コンテキストライン調整部１２２は、盛り上がり度の変化量に基づいてコンテキストラインの注目度を調整する。コンテキストライン調整部１２２は、まず、最初のセグメントに対しては、そのページの最初のコマの大きさおよび盛り上がり度と、そのページ全体におけるコマの大きさの平均値および盛り上がり度の平均値とのそれぞれの比率を求める。次に、コンテキストライン調整部１２２は、コマの大きさの比率とコマ盛り上がり度の比率とを比較する。そして、コマの盛り上がり度の比率の方が高い値であった場合、コンテキストライン調整部１２２は、その比率の差に応じた分だけ、最初のセグメントの始端の注目点における注目度を大きくする。また、コマの盛り上がり度の比率の方が小さい値であった場合は、コンテキストライン調整部１２２は、その比率の差に応じた分だけ、最初のセグメントの始端の注目点における注目度を小さくする。

次のセグメントからは、セグメントの各端点が所属するコマ間での盛り上がり度の差が大きく、かつ、始端側の注目点における注目度が初期コンテキストラインにおける注目度よりも大きくなっている場合に、コンテキストライン調整部１２２は、セグメントの終端側における注目点の注目度を、コマ間の盛り上がり度の差に反比例して小さくする。

また、セグメントの各端点が所属するコマ間での盛り上がり度の差が大きく、かつ、始端の注目点の注目度が初期コンテキストラインにおける注目度よりも小さい場合に、コンテキストライン調整部１２２は、セグメントの終端における注目点の注目度を、コマ間の盛り上がり度の差に比例して大きくする。

これは、注目度に比例して注目対象オブジェクトのサイズを変化させることで、注目点間の変化を強調し、映像の盛り上がり度合いを表現するためである。

図２６は、注目度調整の一例を示す説明図である。図２６では、コマ間の盛り上がり度の差に応じて、コマ番号１のコマの注目点、コマ番号４のコマの注目点、コマ番号５のコマの右側の注目点、およびコマ番号６のコマの注目点の注目度が、それぞれ大きくされた例が示されている。

コンテキストライン算出部１２０は、以上の処理により算出された注目点の情報を示す注目点情報と、セグメントの情報を示すセグメント情報とを含むコンテキストライン情報を、オブジェクトレイアウト算出部１３０に出力する。

図２７は、注目点情報のデータ構造の一例を示す説明図である。図２７に示すように、注目点情報は、注目点を識別する注目点番号と、注目点が所属するコマを表す所属コマと、注目点の位置と、注目度と、注目対象オブジェクト名とを含んでいる。

図２８は、セグメント情報のデータ構造の一例を示す説明図である。図２８に示すように、セグメント情報は、セグメントを識別するセグメント番号と、セグメントの始端の注目点番号（始点）と、セグメントの終端の注目点番号（終点）と、前後のセグメントのセグメント番号とを含んでいる。

なお、コンテキストライン情報は、上記のようにテーブル表現に限られるものではなく、ＸＭＬのようなメタタグを用いたデータ形式で記述してもよいし、その他のデータ記述方式を用いてもかまわない。

このようにして算出されるコンテキストラインを導入することで得られる効果の例を図２９−１および図２９−２を用いて説明する。図２９−１は、特許文献１のような従来技術によって生成された要約映像の一例を示す説明図である。

特許文献１のように、カット検出等で検出したフレーム、すなわち映像内容が切り替わったフレームを要約映像として選択する方法によると、複数の人物が会話するシーン等では、類似するフレームが交互に選択される可能性が高い。このため、図２９−１に示すように、単調で映像の内容が反映されない要約映像が生成される。

図２９−２は、本実施の形態の方法によって生成された要約映像の一例を示す説明図である。本実施の形態では、コンテキストラインを導入し、映像の内容（コンテキストデータ）を参照して、要約映像に含めるオブジェクトの位置、大きさ、および姿勢を変化させるように調整したコンテキストラインを算出することができる。これにより、図２９−２に示すように、映像の内容を反映した要約映像を生成することができる。

次に、オブジェクトレイアウト算出部１３０の構成および機能の詳細について説明する。図３０は、オブジェクトレイアウト算出部１３０の詳細な構成を示すブロック図である。図３０に示すように、オブジェクトレイアウト算出部１３０は、オブジェクトレイアウト情報算出部１３１と、オブジェクト映像選択部１３２と、オブジェクト映像加工部１３３と、オブジェクト映像合成部１３４とを備えている。

オブジェクトレイアウト情報算出部１３１は、入力されたコンテキストライン情報およびコンテキストデータを読み込み、コンテキストライン情報を参照して各コマで配置すべきオブジェクトの情報を算出し、オブジェクトレイアウト情報として出力する。

オブジェクトレイアウト情報は、オブジェクト名と、オブジェクトの中心座標位置と、オブジェクトの大きさと、オブジェクトの姿勢とを含んでいる。オブジェクトの中心座標位置は、コンテキストラインを構成する各セグメントの始端の座標を利用する。オブジェクトの大きさは、セグメントの始端における注目点の注目度に基づいて決定した値を利用する。例えば、注目度を円の半径で表した場合は、円に外接する矩形の面積を、オブジェクトの大きさとして算出する。オブジェクトの姿勢を表す情報として、各セグメント方向と、その１つ前のセグメント方向を利用する。例えば、ある注目点を終端とするセグメントの方向を示すベクトルと、当該注目点を始端とするセグメントの方向を示すベクトルとによってオブジェクトの姿勢を表すことができる。

オブジェクト映像選択部１３２は、オブジェクトレイアウト情報算出部１３１により算出されたオブジェクトレイアウト情報を読み込み、オブジェクトレイアウト情報と対応する映像フレームを選択し、オブジェクト映像として出力する。本実施の形態におけるオブジェクト映像とは、注目点における注目対象オブジェクトを映像データからフレーム単位または、オブジェクト領域単位で抜き出した映像である。

ここで、オブジェクト映像選択部１３２によるオブジェクト映像の取得方法について説明する。まず、オブジェクト映像選択部１３２は、処理対象となっているオブジェクトを配置すべきコマに割り当てられている映像データのフレーム群から、オブジェクトレイアウト情報に含まれるオブジェクト名と、コンテキストデータに含まれるオブジェクト情報を参照してオブジェクトが含まれるフレームを抜き出す。

次に、オブジェクト映像選択部１３２は、オブジェクトレイアウト情報に含まれるオブジェクトの姿勢および大きさと、コンテキストデータに記述されたオブジェクトの姿勢および大きさとをそれぞれ比較する。そして、オブジェクト映像選択部１３２は、姿勢および大きさの誤差が閾値より小さいフレームをオブジェクト映像として選択する。

具体的には、オブジェクト映像選択部１３２は、まずコンテキストデータに記述されたオブジェクトの主軸方向と、オブジェクトレイアウト情報に含まれる姿勢方向とがなす角度を求め、予め定められた閾値以下であるか否かを判定する。主軸方向と姿勢方向とのなす角度は、例えば、主軸方向を表すベクトルと、オブジェクトの姿勢を表すベクトルとの演算（内積）を利用した方法により算出できる。また、姿勢方向には、オブジェクトに対応する注目点を終端とするセグメントの方向を示すベクトルと、当該注目点を始端とするセグメントの方向を示すベクトルとの２つのベクトルが含まれるため、例えば、前者を主軸方向の第１軸を表すベクトルと比較し、後者を主軸方向の第２軸を表すベクトルと比較することにより角度を算出する。

算出した角度が、閾値以下である場合は、オブジェクト映像選択部１３２は、さらにコンテキストデータに記述されたオブジェクトの大きさとオブジェクトレイアウト情報に含まれるオブジェクトの大きさを比較し、誤差が予め定められた閾値以下であるか否かを判定する。誤差が閾値以下である場合、オブジェクト映像選択部１３２は、比較対象として抜き出したフレームをオブジェクト映像に含める。

なお、コマ内で表現する映像が時間軸を持った映像である場合、オブジェクト映像選択部１３２は、誤差が閾値以下で元映像データにおいて連続しているフレーム群をオブジェクト映像とする。また、コマ内で表現する映像が時間軸を持たない静止画像である場合は、オブジェクト映像選択部１３２は、誤差が最小のフレームをオブジェクト映像とする。

オブジェクト映像加工部１３３は、オブジェクト映像選択部１３２により出力されたオブジェクト映像とオブジェクトレイアウト情報を読み込み、オブジェクト映像をオブジェクトレイアウト情報に基づいて加工して出力する。具体的には、オブジェクト映像加工部１３３は、オブジェクト映像選択部１３２により取得されたオブジェクト映像と、オブジェクトレイアウト情報との誤差量に基づいて、誤差を低減するようにオブジェクト映像を加工する。例えば、オブジェクト映像加工部１３３は、オブジェクト映像内のオブジェクトの主軸方向と、オブジェクトレイアウト情報内のオブジェクトの姿勢方向との角度の誤差が大きい場合は、角度の誤差を低減するようにオブジェクト映像を回転する。また、オブジェクト映像加工部１３３は、オブジェクト映像内のオブジェクトの大きさと、オブジェクトレイアウト情報内のオブジェクトの大きさの誤差が大きい場合は、大きさの誤差を低減するようにオブジェクト映像を拡大または縮小する。また、オブジェクト映像加工部１３３は、オブジェクト映像内のオブジェクトの中心点と、オブジェクトレイアウト情報内のオブジェクトの中心座標位置との誤差が大きい場合は、大きさの誤差を低減するようにオブジェクト映像の位置を変更する。なお、最大の回転量、最大の拡大縮小量、および最大の位置の変更量を定めて変形を制限することで元映像データにおける印象を変えないようにすることができる。

オブジェクト映像合成部１３４は、オブジェクト映像加工部１３３により出力されたオブジェクト映像、オブジェクトレイアウト情報、および入力されたコマレイアウト情報を読み込み、コマごとにオブジェクト映像を配置することで要約映像を生成し、出力する。具体的には、オブジェクト映像合成部１３４は、オブジェクト映像加工部１３３で加工されたオブジェクト映像をオブジェクトレイアウト情報算出部１３１で算出したオブジェクトレイアウト情報に合わせてコマ内に合成する。

次に、このように構成された第１の実施の形態にかかる映像要約装置１０による映像要約処理について図３１を用いて説明する。図３１は、第１の実施の形態における映像要約処理の全体の流れを示すフローチャートである。

図３１に示すように、本実施の形態における映像要約処理は、要約する映像データおよび映像データの内容を記述したコンテキストデータを入力する動作と、入力されたコンテキストデータ基づいてコマレイアウト情報を算出する動作と、算出したコマレイアウト情報およびコンテキストデータに基づいてコンテキストライン情報を算出する動作と、コマレイアウト情報およびコンテキストライン情報に基づいてレイアウトするオブジェクト映像を選択し、合成して要約映像を生成する動作との４つに大別される。

まず、ソースデータ取得部１００が、要約対象となる映像データ、および映像データの内容を記述したコンテキストデータを取得し、ソースデータ管理部１０２に渡す（ステップＳ１０）。ソースデータ管理部１０２では、取得された映像データを映像記憶部１０２ａに記憶し、取得されたコンテキストデータをメタデータ記憶部１０２ｃに記憶する。

次に、コマレイアウト算出部１１０が、コンテキストデータのページ情報、盛り上がり度、フレーム数、シナリオ情報の少なくともいずれか１つに基づいてコマのレイアウトを算出する（ステップＳ２０）。

次に、コンテキストライン算出部１２０が、ステップＳ２０で算出されたコマレイアウト情報と、コンテキストデータの盛り上がり度およびフレーム時間の少なくともいずれか１つとに基づき、コンテキストラインを算出する（ステップＳ３０）。

次に、オブジェクトレイアウト算出部１３０が、映像データ、コンテキストデータ、およびステップＳ３０で算出されたコンテキストライン情報を用いて、各コマ内におけるオブジェクトのレイアウトを算出し、その結果とステップＳ２０で算出されたコマレイアウト情報を用いて要約映像を生成し、要約結果として出力する（ステップＳ４０）。

次に、上記のステップＳ２０〜ステップＳ４０までの各ステップの詳細な動作についてそれぞれフローチャートを参照して説明する。まず、コマレイアウト算出部１１０におけるコマレイアウト算出（ステップＳ２０）の処理フローを、図３２を用いて説明する。図３２は、第１の実施の形態におけるコマレイアウト算出処理の全体の流れを示すフローチャートである。

まず、コマレイアウト算出部１１０は、コンテキストデータに含まれるページ情報、各コマにおける盛り上がり度、シナリオ時間、およびフレーム数を読み込む（ステップＳ２００１）。

次に、初期コマレイアウト算出部１１１が、読み込んだページ情報に基づいて、初期コマレイアウトを算出する（ステップＳ２００２）。次に、コマレイアウト調整部１１２が、読み込んだ各コマにおいて盛り上がり度、シナリオ時間、およびフレーム数のそれぞれの変化量を算出し、算出した変化量に基づいてコマレイアウトの調整を行う。（ステップＳ２００３）。

次に、コマ描画属性算出部１１３が、読み込んだコンテキストデータに基づいてコマの描画属性を算出する（ステップＳ２００４）。以上の処理により、コマレイアウト情報が算出される。

次に、コンテキストライン算出部１２０におけるコンテキストライン算出（ステップＳ３０）の処理フローを、図３３を用いて説明する。図３３は、第１の実施の形態におけるコンテキストライン算出処理の全体の流れを示すフローチャートである。

まず、コンテキストライン算出部１２０は、ステップＳ２０で算出されたコマレイアウト情報と、コンテキストデータに含まれる各コマの盛り上がり度およびフレーム数を読み込む（ステップＳ３００１）。

次に、初期コンテキストライン算出部１２１が、コマレイアウト情報を用いて初期コンテキストラインを算出する（ステップＳ３００２）。次に、コンテキストライン調整部１２２が、ステップＳ３００２で算出された初期コンテキストラインの各セグメントを、コンテキストデータに基づいて調整する（ステップＳ３００３）。以上の処理により、コンテキストライン情報が算出される。

次に、オブジェクトレイアウト算出部１３０におけるオブジェクトレイアウト算出（ステップＳ４０）の処理フローを、図３４を用いて説明する。図３４は、第１の実施の形態におけるオブジェクトレイアウト算出処理の全体の流れを示すフローチャートである。

まず、オブジェクトレイアウト算出部１３０は、コンテキストデータ、映像データ、ステップＳ２０で算出したコマレイアウト情報、およびステップＳ３０で算出したコンテキストライン情報を入力情報として読み込む（ステップＳ４００１）。

次に、オブジェクトレイアウト情報算出部１３１が、コンテキストライン情報に基づいて、配置するオブジェクトのオブジェクトレイアウト情報を算出する（ステップＳ４００２）。次に、オブジェクト映像選択部１３２が、ステップＳ４００２で算出されたオブジェクトレイアウト情報を用いて、入力された映像データから配置すべきオブジェクト映像を選択する（ステップＳ４００３）。

次に、オブジェクト映像加工部１３３が、ステップＳ４００３で選択されたオブジェクト映像に対して、変形、フィルタリングなどの加工を行う（ステップＳ４００４）。次に、オブジェクト映像合成部１３４が、ステップＳ４００４で加工されたオブジェクト映像を出力領域に合成する（ステップＳ４００５）。

以上、ステップＳ４００２〜ステップＳ４００５の処理を、コンテキストラインを構成するすべてのセグメントに対して行い（ステップＳ４００６：ＹＥＳ）、すべてのセグメントに対する処理が終了すると（ステップＳ４００６：ＮＯ）、オブジェクトレイアウト算出処理が終了する。以上の処理により、入力映像を要約した要約映像が生成される。

このように、第１の実施の形態にかかる映像要約装置では、映像内容を記述したメタデータであるコンテキストデータを参照し、映像データをコマ単位で空間上にレイアウトすることで時間情報を要約し、蓄積した映像データの内容を一瞥して把握することのできる要約映像を生成する。

その際、コマレイアウトとコマ内のオブジェクトのレイアウトに処理を分け、コマレイアウトでは、コマ間でのコンテキストデータの変化に応じてコマのレイアウトを変更している。また、コマ内のオブジェクトのレイアウトでは、要約映像における注目点を注目する順に結合したラインであるコンテキストラインの概念を導入し、コンテキストデータの変化に応じて調整したコンテキストラインを算出している。このような処理により、空間レイアウトに映像の内容を反映することが可能となる。

また、コマに対応するフレームを複数指定することで、コマとして並べて表示された際の連続性を考慮して最適なフレームをコマ映像として選択することが可能になり、映像の内容を空間レイアウトに反映することが可能になる。

以上のように、本実施の形態によれば、コマのレイアウトにより、大域的な映像内容を要約映像に反映することができるとともに、コマの連続性を考慮したコマ内のオブジェクトのレイアウトにより、局所的な映像内容を要約映像に反映することができるため、映像の内容を詳細に反映した要約映像を容易に生成することができる。

次に、本実施の形態にかかる映像要約装置１０のハードウェア構成について図３５を用いて説明する。図３５は、本実施の形態にかかる映像要約装置１０のハードウェア構成を示す説明図である。同図に示すように、映像要約装置１０は、ハードウェア構成として、映像要約装置１０における映像要約処理を実行する映像要約プログラムなどが格納されているＲＯＭ（Read Only Memory）５２と、ＲＯＭ５２内のプログラムに従って映像要約装置１０の各部を制御するＣＰＵ（Central Processing Unit）５１と、映像要約装置１０の制御に必要な種々のデータを記憶するＲＡＭ５３と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５７と、各部を接続するバス６２とを備えている。

先に述べた映像要約装置１０における映像要約プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（登録商標）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

この場合には、映像要約プログラムは、映像要約装置１０で上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、本実施の形態の映像要約プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

例えば、コマレイアウト算出部１１０、コンテキストライン算出部１２０、およびオブジェクトレイアウト算出部１３０の各段階で生成される情報をＬＣＤ（Liquid Crystal Display）等の表示装置に表示させて、ユーザがキーボード等の入力装置から情報の変更を行うように構成してもよい。

また、映像記憶部１０２ａおよびメタデータ記憶部１０２ｃは、１つの記憶部として実現し、当該記憶部の内部の領域を映像データおよびメタデータのそれぞれを格納する領域に区画して使用するように構成してもよい。

また、コンテキストデータの内容は上記に限られるものではなく、映像の内容を表現するための他の情報を含むように構成してもよい。同様に、コマレイアウト情報の内容は上記に限られず、コマのレイアウトに関する他の情報を含むように構成してもよい。さらに、コンテキストライン情報の内容についても、上記内容に限定されるものではなく、コンテキストラインによって映像の内容を表現するための他の情報を含むように構成してもよい。

また、コマレイアウト算出およびコンテキストライン算出について、例えば、コンテキストデータ内の任意の項目に対応したルールを予め用意しておき、算出時にそのルールに従ってコマレイアウトの算出や、コンテキストラインの算出を行うように構成してもよい。

（第２の実施の形態）
第１の実施の形態では、コマ描画属性をコンテキストデータから算出していた。これに対し、第２の実施の形態にかかる映像要約装置は、事前に算出または設定されたコマ描画属性をコンテキストデータとして入力するものである。このため、第２の実施の形態の映像要約装置は、コマ描画属性を算出する第１の実施の形態のコマ描画属性算出部１１３を有さない。

図３６は、第２の実施の形態にかかる映像要約装置のコマレイアウト算出部１１４の構成を示すブロック図である。図３６に示すように、第２の実施の形態のコマレイアウト算出部１１４は、初期コマレイアウト算出部１１１と、コマレイアウト調整部１１２と、を備えている。

図３７は、第２の実施の形態で入力されるコンテキストデータの映像コマ対応情報のデータ構造の一例を示す説明図である。図３７に示すように、第２の実施の形態における映像コマ対応情報には、コマ描画属性が含まれている。コンテキストライン算出部１２０は、映像コマ対応情報に含まれる描画属性に基づいて、コンテキストラインを算出する。

なお、第２の実施の形態にかかる映像要約装置のこれ以外の構成および処理は、第１の実施の形態にかかる映像要約装置１０の構成および処理と同様である。

（第３の実施の形態）
第３の実施の形態にかかる映像要約装置は、映像のカット単位で記述されたコンテキストデータを入力し、入力したコンテキストデータをコマ単位の記述に変更した後に、要約映像を生成するものである。

図３８は、第３の実施の形態にかかる映像要約装置１１の構成を示すブロック図である。図３８に示すように、映像要約装置１１は、ソースデータ取得部１０３と、割当部１０４と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０とを備えている。

第３の実施の形態では、ソースデータ取得部１０３の機能および割当部１０４を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる映像要約装置１０の構成を表すブロック図である図２−１と同様であるので、同一符号を付し、ここでの説明は省略する。

ソースデータ取得部１０３は、映像データと、ページ情報、映像データの内容を映像のカット単位で記述した映像内容情報、および映像内オブジェクト情報を含むコンテキストデータとを入力するものである。

割当部１０４は、ソースデータ取得部１０３によって取得されたコンテキストデータを読み込み、コンテキストデータ内のカット単位の記述を、コマに割り当てることにより、コマ単位の記述に再構成するものである。

なお、カット単位で記述したコンテキストデータとは、図３−３で示した映像内容情報で、コマ番号の替わりに、カットを識別するカット番号と、カット開始フレーム番号と、カット終了フレーム番号とを記述したものである。なお、本実施の形態で入力されるページ情報および映像内オブジェクト情報は、それぞれ図３−１および図３−４で示した内容と同様である。

割当部１０４は、ページ情報およびカット単位で記述された映像内容情報を用いて、映像内容情報をコマ単位の記述に再構成するとともに、図３−２で示したような映像コマ対応情報を生成する。

次に、映像コマ対応情報の生成方法について説明する。まず、割当部１０４は、カット単位のコンテキストデータの盛り上がり度に基づいて、コンテキストデータを分割する。図３９は、コンテキストデータを分割する様子を示した模式図である。図３９は、横軸にカット番号、縦軸に盛り上り度を取ったグラフを表している。割当部１０４は、まず、このようなグラフで谷となっている部分を検出し、検出した位置でコンテキストデータを分割したブロックを生成する。

次に、割当部１０４は、分割したブロックをページに割り当てる。具体的には、割当部１０４は、分割数とページ数が同じ場合は、各ブロックを１ページに割り当てる。また、割当部１０４は、分割数がページ数よりも多い場合は、分割したブロック内での盛り上り度の最大値と最小値との差が小さいブロックを近傍のブロックと結合することで分割数とページ数を一致させる。その際、結合先のブロックは、近傍のブロックの中で盛り上り度の最大値と最小値の差が最も小さいブロックとする。これは、盛り上がり度の変化が小さいことから内容が単調であると予想でき、そのようなカットは要約し易いためである。

図４０は、このようにしてブロックを結合した様子を示した模式図である。図４０は、盛り上がり度の最大値と最小値との差が小さいブロックである最も左のブロックを、その隣のブロックと結合した例を示している。

また、割当部１０４は、分割数がページ数よりも少ない場合は、分割したブロックをさらに細分化することで分割数とページ数を一致させる。その際、ページ数が分割数の倍数であれば各ブロックをそれぞれ倍数に相当する分だけ分割してページを割り当てる。また、この場合は、盛り上り度が最大のカット位置で順次分割する。これは、分割位置の前のページで盛り上がりを表現し、分割位置の後のページで盛り下がりを表現するできるためである。

ページ数が分割数の倍数ではない場合、割当部１０４は、盛り上り度の最大値と最小値との差が大きいブロックから優先的に分割していくことでページを割り当てる。これは、盛り上がり度の変化が大きいことから、内容が多いと想定できるためである。

図４１は、このようにしてブロックを分割した様子を示した模式図である。図４１は、盛り上り度の最大値と最小値との差が大きいブロックである左から３つ目のブロックを、盛り上がり度が最大のカット位置で分割した例を示している。

次に、割当部１０４は、ページごとに、カット単位のコンテキストデータをコマに割り当てる。具体的には、割当部１０４は、ページに割り当てられたカット数と、ページのコマ数とを比較し、カット数とコマ数が同じならばカットとコマの順序を合わせて割り当てる。

カット数に対してコマ数が多い場合、割当部１０４は、コンテキストデータに基づいてカットを分割する。例えば、割当部１０４は、セリフ情報に基づき複数話者が存在するカットをセリフの切り替わり部分で分割することができる。コマ数とカット数が同等になるまでカットを分割することでコマにコンテキストデータを割り当てることができる。

カット数に対してコマ数が少ない場合、割当部１０４は、複数のカットを１つのコマに割り当てる。割当部１０４は、ページ単位に分割した際と同様に、盛り上り度の変化が少ないカットを同一のコマに割り当てることにより複数のカットを１つのコマに割り当てる。これにより、情報量が少ないと想定されるカットを要約することができる。

以上のような処理により、各ページのコマごとにカットを割り当てることができる。カットには、上述のようにカット開始フレーム番号およびカット終了フレーム番号が対応づけられているため、割当部１０４は、コマごとに開始フレームおよび終了フレームを対応づけた図３−２のような映像コマ対応情報を生成することができる。

また、カットをコマに割り当てた結果、割当部１０４は、カット単位で記述された映像内容情報を、コマ単位で記述した映像内容情報に再構成することができる。

なお、割当部１０４がコンテキストデータの分割基準をＬＣＤ等の表示装置に表示させて、ユーザがキーボード等の入力装置から指示を行うように構成してもよい。

次に、このように構成された第３の実施の形態にかかる映像要約装置１１による映像要約処理について図４２を用いて説明する。図４２は、第３の実施の形態における映像要約処理の全体の流れを示すフローチャートである。

第３の実施の形態では、映像データおよびコンテキストデータを取得した後（ステップＳ１０）、取得したコンテキストデータが再構成される（ステップＳ５０）。その後、ステップＳ２０からステップＳ４０までの、コマレイアウト算出処理、コンテキストライン算出処理、およびオブジェクトレイアウト算出処理は、第１の実施の形態にかかる映像要約装置１０と同様の処理なので、その説明を省略する。

次に、ステップＳ５０のコンテキストデータ再構成処理の詳細について図４３を用いて説明する。図４３は、コンテキストデータ再構成処理の全体の流れを示すフローチャートである。

まず、割当部１０４は、カット単位で記述されたコンテキストデータとページ情報を読み込む（ステップＳ５００１）。次に、割当部１０４は、読み込んだカット単位コンテキストデータを盛り上り度の変化量に基づいて分割する（ステップＳ５００２）。次に、割当部１０４は、分割したコンテキストデータを、ページ情報に基づいて、ページ単位に割り当てる（ステップＳ５００３）。次に、割当部１０４は、ページ単位に割り当てたコンテキストデータを、コマ単位に割り当てる（ステップＳ５００４）。

このようにしてステップＳ５００４で更新されたコンテキストデータを用いてステップＳ２０以降の処理を行うことで、要約映像が生成される。

このように、第３の実施の形態にかかる映像要約装置は、映像のカット単位で記述されたコンテキストデータを入力し、入力したコンテキストデータをコマ単位の記述に変更した後に、要約映像を生成することができる。これにより、コンテキストデータの映像内容情報とページ情報を個別に扱うことで、出力様式が様々に変わるような場合にも、コンテキストデータの記述変更を最小限に抑えることができる。すなわち、コンテキストデータの再利用性および要約映像生成のスケーラビリティを向上させることができる。

（第４の実施の形態）
第４の実施の形態にかかる映像要約装置は、コンテキストデータに映像内オブジェクト情報が含まれない、または不完全であり、映像データからオブジェクトを抽出した後に、抽出したオブジェクトを含むコンテキストデータを用いて要約映像を生成するものである。

図４４は、第４の実施の形態にかかる映像要約装置１２の構成を示すブロック図である。図４４に示すように、映像要約装置１２は、ソースデータ取得部１００と、オブジェクト抽出部１０５と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０とを備えている。

第４の実施の形態では、オブジェクト抽出部１０５を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる映像要約装置１０の構成を表すブロック図である図２−１と同様であるので、同一符号を付し、ここでの説明は省略する。

なお、本実施の形態では、上述のように、映像要約装置１２は映像データと、その映像データの内容を記述したコンテキストデータを入力するが、コンテキストデータに映像内オブジェクト情報が含まれない、または不完全であるものとする。

オブジェクト抽出部１０５は、入力された映像データを解析し、映像データから映像内オブジェクト情報を抽出する。まず、オブジェクト抽出部１０５は、映像データの連続したフレームから、フレーム間の色情報の差分を求め、フレームを前景領域と背景領域とに分離し、前景領域をオブジェクト領域として抽出する。なおオブジェクト領域の検出方法はこれに限られず、肌色領域を用いて顔領域を検出するなど、従来から用いられているあらゆるオブジェクト抽出技術を用いて映像データからオブジェクト領域を抽出することができる。

次に、オブジェクト抽出部１０５は、抽出したオブジェクト領域に対して、オブジェクト中心点や主軸方向を算出する。オブジェクト抽出部１０５は、例えば、重心計算などの従来から用いられているあらゆる画像処理技術により中心点を算出することができる。また、オブジェクト抽出部１０５は、例えば、主成分分析を用いた手法などの従来から用いられているあらゆる画像処理技術により主軸方向を算出することができる。

さらに、オブジェクト抽出部１０５は、抽出したオブジェクト情報をコンテキストデータに合成する。具体的には、コンテキストデータに映像内オブジェクト情報が含まれない場合、オブジェクト抽出部１０５は、抽出したオブジェクト情報から図３−４に示すような映像内オブジェクト情報を生成する。また、映像内オブジェクト情報がコンテキストデータに含まれている場合、オブジェクト抽出部１０５は、抽出したオブジェクト情報を映像内オブジェクト情報に追加する。

なお、オブジェクト抽出部１０５が、抽出し得る項目をＬＣＤ等の表示装置に表示し、ユーザがキーボード等の入力装置から抽出項目の指示を行うように構成してもよい。

次に、このように構成された第４の実施の形態にかかる映像要約装置１２による映像要約処理について説明する。第４の実施の形態の映像要約処理の全体の流れは、第３の実施の形態の映像要約処理を示すフローチャートである図４２と同様である。ただし、第４の実施の形態では、ステップＳ５０のコンテキストデータ再構成処理の詳細が、第３の実施の形態と異なっている。

以下に、第４の実施の形態におけるコンテキストデータ再構成処理について図４５を用いて説明する。図４５は、第４の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。

まず、オブジェクト抽出部１０５が、映像データおよびコンテキストデータを読み込む（ステップＳ５００５）。次に、オブジェクト抽出部１０５は、映像データを解析し、映像内オブジェクト情報を抽出する（ステップＳ５００６）。次に、オブジェクト抽出部１０５は、抽出した映像内オブジェクト情報を、入力コンテキストデータに合成する（ステップＳ５００７）。

このようにしてステップＳ５００７で更新されたコンテキストデータを用いてステップＳ２０以降の処理を行うことで、要約映像が生成される。

このように、第４の実施の形態にかかる映像要約装置は、映像内オブジェクト情報をコンテキストデータとして記述せずに、映像データから映像要約時に抽出することで、映像内容の記述と映像データを個別に扱うことができる。これにより、ストーリーなどの内容が存在しないホームビデオのような映像データに対して、ストーリー性を持った要約映像を生成することが可能になり、要約映像の利用範囲を広げることができる。

（第５の実施の形態）
第５の実施の形態にかかる映像要約装置は、入力されたコンテキストデータに基づき、吹き出しや擬音、漫画で用いられる記号（漫符）などのオブジェクトを生成し、要約映像生成に用いることで、映像の内容を反映した要約映像を生成するものである。

図４６は、第５の実施の形態にかかる映像要約装置１３の構成を示すブロック図である。図４６に示すように、映像要約装置１３は、ソースデータ取得部１００と、オブジェクト生成部１０６と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０とを備えている。

第５の実施の形態では、オブジェクト生成部１０６を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる映像要約装置１０の構成を表すブロック図である図２−１と同様であるので、同一符号を付し、ここでの説明は省略する。

オブジェクト生成部１０６は、コンテキストデータのセリフ情報を参照して、吹き出し、擬音、および漫符を生成し、オブジェクト情報およびオブジェクト映像として出力する。具体的には、オブジェクト生成部１０６は、「怒り」や「驚き」などを予めキーワードとして設定しておき、セリフ情報中のプロパティにそれらのキーワードが記述されていた場合に、そのキーワードに応じた生成オブジェクトを決定する。

オブジェクト生成部１０６は、セリフ情報内の発話内容が存在する場合に、吹き出し情報を生成する。吹き出し情報は、発話者、発話内容、吹き出し形状からなり、吹き出し形状は、セリフ情報内のプロパティに応じて決定される。

ここで、吹き出し形状の具体例について図４７−１〜図４７−３を用いて説明する。例えば、プロパティが存在しない場合には、図４７−１に示すようなバルーン型の標準の吹き出し形状が用いられる。プロパティが「怒り」および「驚き」の場合には、図４７−２に示すようなスパイク型の吹き出し形状が用いられる。また、プロパティが「独白」の場合には、図４７−３に示すような雲型の吹き出し形状が用いられる。このように、吹き出し形状を変更することによって会話の雰囲気を要約映像に反映することができる。

また、オブジェクト生成部１０６は、セリフ情報内の発話者のオブジェクト種類が人物や動物以外のもので、発話内容が存在する場合に擬音情報を生成する。擬音情報は、吹き出し情報における吹き出し形状の代わりにフォント情報を持つ。フォント情報も吹き出し形状の場合と同様に、セリフ情報のプロパティにより決定される。例えば、プロパティが存在しない場合には、通常の明朝体が用いられ、プロパティが「大音量」ならばボールドのゴシック体が用いられる。このように、擬音のフォントによっても音による映像の雰囲気を要約映像に反映することができる。

また、オブジェクト生成部１０６は、セリフ情報内に発話者およびプロパティのみが記述され、発話内容が存在しない場合に漫符情報を生成する。図４８−１〜図４８−３は、漫符の一例を示す説明図である。漫符情報は、漫符付与対象である発話者および漫符種類を含む。漫符種類も、吹き出しおよび擬音と同様にセリフ情報のプロパティにより決定される。

例えば、プロパティが「怒り」ならば、図４８−１に示すような漫符が用いられる。また、プロパティが「驚き」ならば図４８−２の漫符を、プロパティが「不安」ならば図４８−３の漫符がそれぞれ用いられる。このように、プロパティに応じた漫符を付与することで感情などを要約映像に反映することができる。

オブジェクト生成部１０６により生成された吹き出し情報、擬音情報、および漫符情報などのオブジェクト情報は、コンテキストデータの映像内オブジェクト情報、および映像内容情報におけるオブジェクトアクションに追加される。なお、オブジェクト生成部１０６は、生成されたオブジェクトを含む映像をオブジェクト映像として生成する。

追加されたオブジェクト情報は、事前に設定されたその他のオブジェクト情報と同様に扱われる。すなわち、生成されたオブジェクト情報をオブジェクトアクション情報として追加することで、コンテキストライン算出部１２０は、生成されたオブジェクト情報を他のオブジェクト情報と同様にレイアウトオブジェクトとして扱うことができる。また、ソースデータ管理部１０２は、生成されたオブジェクト映像も、実際にレイアウト対象となる映像として、入力された映像データと同様に扱う。

なお、生成したオブジェクト情報を映像内容情報に追加する際に、オブジェクトアクションとして、吹き出し、擬音、漫符などのオブジェクトの種類を設定し、プロパティとして、例えば吹き出しならば発話者を、漫符ならば付与対象を設定することで、生成したオブジェクト情報に特化したコンテキストライン算出処理、およびオブジェクトレイアウト算出処理を行うように構成してもよい。

例えば、コンテキストライン算出処理では、オブジェクトアクションが吹き出しである場合は、吹き出しに対応する注目点を、吹き出しの前後のコンテキストラインが一直線になるような位置に移動する。また、オブジェクトレイアウト算出処理では、吹き出しの先端部が同一コマに配置された発話者の口に該当する部位に近い位置になるように変形して吹き出しを配置する。発話者の口に該当する部位の検出方法としては、従来から用いられているあらゆる画像処理技術を用いることができる。また、口に該当する部位の位置を予めコンテキストデータに記述しておくように構成してもよい。

図４９は、吹き出しを生成して要約映像に配置した例を示す説明図である。図４９に示すように、中央のコマで、吹き出しの注目点が、発話者を含む前後のオブジェクトと注目点とを結ぶコンテキストラインが一直線になる位置に配置され、吹き出しの先端部は発話者の口に近い位置となるように変形されている。

また、オブジェクトアクションが漫符である場合も同様に、コンテキストライン算出処理では、漫符の前後のセグメントが一直線になる位置に配置する。そして、オブジェクトレイアウト算出処理では、例えば漫符の付与対象が人物等のキャラクターであり、顔領域の領域が閾値よりも大きい場合は、漫符を顔領域内に配置する。また、漫符の付与対象が人物以外である場合、または人物等であるが顔領域が閾値よりも小さい場合はコンテキストラインに沿った付与対象オブジェクト境界の境界付近に配置する。

なお、オブジェクト生成部１０６で生成されたオブジェクト情報をＬＣＤ等の表示装置に表示させて、ユーザがキーボード等の入力装置からオブジェクト情報の変更を行うように構成してもよい。また、生成するオブジェクトの種類および生成ルールは上述の手法に限定されるものではなく、映像の内容を表現するための他の種類および生成ルールを用いてもよい。

次に、このように構成された第５の実施の形態にかかる映像要約装置１３による映像要約処理について説明する。第５の実施の形態の映像要約処理の全体の流れは、第３の実施の形態の映像要約処理を示すフローチャートである図４２と同様である。ただし、第５の実施の形態では、ステップＳ５０のコンテキストデータ再構成処理の詳細が、第３の実施の形態と異なっている。

以下に、第５の実施の形態におけるコンテキストデータ再構成処理について図５０を用いて説明する。図５０は、第５の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。

まず、オブジェクト生成部１０６は、コンテキストデータを読み込む（ステップＳ５００８）。次に、オブジェクト生成部１０６は、コンテキストデータを解析し、新たなオブジェクト情報を生成する（ステップＳ５００９）。次に、オブジェクト生成部１０６は、生成したオブジェクト情報を、入力したコンテキストデータに合成する（ステップＳ５０１０）。

このようにしてステップＳ５０１０で更新されたコンテキストデータを用いてステップＳ２０以降の処理を行うことで、要約映像が生成される。

このように、第５の実施の形態にかかる映像要約装置は、コンテキストデータに記述されたセリフ情報から、吹き出し、擬音、漫符などのオブジェクト情報を生成し、要約映像のオブジェクトとして用いることができる。このため要約映像で失われる映像内容を最小限にすることができ、価値の高い要約映像が得られる。

（第６の実施の形態）
第６の実施の形態にかかる映像要約装置は、マウスやキーボードによる入力などのユーザインタラクションにより、ユーザが優先するオブジェクトの選択を受付け、選択されたオブジェクトを強調するような要約映像を生成するものである。

図５１は、第６の実施の形態にかかる映像要約装置１４の構成を示すブロック図である。図５１に示すように、映像要約装置１４は、ソースデータ取得部１００と、指示受付部１０７と、コンテキストデータ編集部１０８と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０とを備えている。

第６の実施の形態では、指示受付部１０７およびコンテキストデータ編集部１０８を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる映像要約装置１０の構成を表すブロック図である図２−１と同様であるので、同一符号を付し、ここでの説明は省略する。

指示受付部１０７は、マウスやキーボードなどの入力装置によって入力された、映像を要約する際に優先する項目を表すユーザ指示を受付ける。

コンテキストデータ編集部１０８は、受付けられたユーザ指示に応じてコンテキストデータの再構成を行う。例えば、コンテキストデータ編集部１０８は、「オブジェクトＡ」を優先した要約を行うことを表すユーザ指示が入力された場合、コンテキストデータを検索し、「オブジェクトＡ」によるアクションが記述されているコマの盛り上り度を増加する。同時に、コンテキストデータ編集部１０８は、「オブジェクトＡ」によるアクションが記述されていないコマの盛り上がり度を減少する。

なお、複数のオブジェクトのうち、要約映像の生成対象とするオブジェクトを表す主要オブジェクトを指定可能とし、主要オブジェクトを対象として要約映像を生成するように構成してもよい。この場合、複数のオブジェクトによるアクションが記述されている場合で「オブジェクトＡ」が主要オブジェクトではないアクションが存在する場合、そのアクションにおける主要オブジェクトを「オブジェクトＡ」に変更する。また、主要オブジェクトとして指定されたオブジェクトのオブジェクトアクションを新たに生成して映像内容情報に追加するように構成してもよい。

このようなコンテキストデータ再構成を行うことで、「オブジェクトＡ」を主体とした要約映像を生成することができる。

なお、コンテキストデータ編集部１０８が、映像を要約する際に優先する項目をユーザごとに予め統計データとして保存しておき、要約の際に統計データからユーザの優先度の高い項目を選択するように構成してもよい。

次に、このように構成された第６の実施の形態にかかる映像要約装置１４による映像要約処理について説明する。第６の実施の形態の映像要約処理の全体の流れは、第３の実施の形態の映像要約処理を示すフローチャートである図４２と同様である。ただし、第６の実施の形態では、ステップＳ５０のコンテキストデータ再構成処理の詳細が、第３の実施の形態と異なっている。

以下に、第６の実施の形態におけるコンテキストデータ再構成処理について図５２を用いて説明する。図５２は、第６の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。

まず、指示受付部１０７が、コンテキストデータおよび要約映像で強調する項目を指定するユーザ指示を受付ける（ステップＳ５０１１）。次に、コンテキストデータ編集部１０８は、受付けられたユーザ指示に基づいてコンテキストデータを変更する（ステップＳ５０１２）。

このようにしてステップＳ５０１２で更新されたコンテキストデータを用いてステップＳ２０以降の処理を行うことで、要約映像が生成される。

このように、第６の実施の形態にかかる映像要約装置は、ユーザが優先するオブジェクトの選択を受付け、選択されたオブジェクトを強調するような要約映像を生成することができる。これにより、ユーザが興味のある内容に合わせた要約映像を容易に生成することが可能になる。

（第７の実施の形態）
第７の実施の形態にかかる映像要約装置は、生成された要約映像を評価し、評価結果に応じて再レイアウトを行うものである。

図５３は、第７の実施の形態にかかる映像要約装置１５の構成を示すブロック図である。図５３に示すように、映像要約装置１５は、ソースデータ取得部１００と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０と、実コンテキストライン算出部１６１と、コンテキストライン判定部１６０と、修正部１６２と、を備えている。

第７の実施の形態では、実コンテキストライン算出部１６１、コンテキストライン判定部１６０、および修正部１６２を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる映像要約装置１０の構成を表すブロック図である図２−１と同様であるので、同一符号を付し、ここでの説明は省略する。

実コンテキストライン算出部１６１は、要約映像から実際の要約映像におけるコンテキストライン（実コンテキストライン）を算出する。具体的には、実コンテキストライン算出部１６１は、以下のようにして実コンテキストラインを算出する。

まず、実コンテキストライン算出部１６１は、最初のコマに配置されたオブジェクトの中心を最初の注目点とする。次に、実コンテキストライン算出部１６１は、次のコマに向かうオブジェクトの主軸方向に沿ったラインと別のオブジェクトとの交差を求め、そのライン上での交差オブジェクトの中央点を次の注目点とする。実コンテキストライン算出部１６１は、これを全てのコマに対して繰り返し、求められた注目点を順次結合した実コンテキストラインを算出する。すなわち、実コンテキストライン算出部１６１は、オブジェクトレイアウト算出部１３０によって生成された要約映像における隣接するコマの注目点を結合する線分を、さらにコマの順序で結合して実コンテキストラインを算出する。

コンテキストライン判定部１６０は、コンテキストライン算出部１２０により算出されたコンテキストライン（理論コンテキストライン）と、実コンテキストライン算出部１６１により算出された実コンテキストラインとを比較することで、再レイアウトの必要性の有無を判定する。

以下に、実コンテキストラインと理論コンテキストラインとの比較方法について説明する。実コンテキストライン算出部１６１により算出された実コンテキストラインは、映像の内容を反映したコンテキストラインであり、実コンテキストラインが理論コンテキストラインに近い方がよい要約映像であると言える。そこで、コンテキストライン判定部１６０は、実コンテキストラインと理論コンテキストラインとの対応する注目点間の距離を求め、その値が閾値よりも大きい点が存在する場合は、再レイアウトに必要があると判定する。この場合、コンテキストライン判定部１６０は、距離が閾値より大きい注目点の注目点番号と、コンテキストラインの各注目点における実コンテキストラインと理論コンテキストラインとの距離とを含むレイアウト修正箇所情報を出力する。

修正部１６２は、コンテキストライン判定部１６０により出力されたレイアウト修正箇所情報を読み込み、レイアウト修正箇所情報に合わせてコマレイアウト情報、またはコンテキストライン情報を修正する。

ここで、レイアウト修正の具体例について、図５４−１、図５４−１、図５５−１、および図５５−２を参照して説明する。まず、図５４−１に示すように、レイアウト修正箇所における実コンテキストラインが、理論コンテキストラインが向かうコマと別のコマに向かっている場合は、コマレイアウト情報の修正を行う。

図５４−１の例では、第２コマと第３コマとが縦に並んでいるために生じている問題であるため、図５４−２のように第２コマと第３コマとを横に並べることで修正することができる。この場合のようにコマレイアウトを修正した場合は、修正したコマレイアウト情報（修正コマレイアウト情報）をコンテキストライン算出部１２０に入力することで再レイアウト処理を実行する。

また、図５５−１に示すように、注目点の順序が入れ替わってしまう場合は、コンテキストライン情報の修正を行う。なお、この場合は、同一コマ内のオブジェクトであるため、オブジェクトの大きさを変えることでレイアウトを修正することはできない。大きさの相対関係を保たないと映像として破綻が生じるためである。

同図の例では、結果として必ずオブジェクトＣに対して先に視線が移動する。すなわち、注目点の順序を変えない限り、注目順序が前のオブジェクト（オブジェクトＢ）より、注目順序が後のオブジェクト（オブジェクトＣ）に対して、先に視線が移動する。

このため、アクションの順序よりも視線の動きを滑らかにすることを優先して、注目点の順序を変更することでレイアウトを修正する。これにより、閲覧のしづらさを改善することができる。この場合のようにコンテキストライン情報を修正した場合は、修正したコンテキストライン情報（修正コンテキストライン情報）をオブジェクトレイアウト算出部１３０に入力することで再レイアウト処理を実行する。図５５−２は、このようにして注目順序を変更し再レイアウトした要約映像の一例を示している。

なお、実コンテキストライン算出部１６１で生成される情報をＬＣＤ等の表示装置に表示させて、ユーザがキーボード等の入力装置から情報の変更を行うように構成してもよい。

次に、このように構成された第７の実施の形態にかかる映像要約装置１５による映像要約処理について図５６を用いて説明する。図５６は、第７の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。

ステップＳ１０からステップＳ４０までの、映像データ・コンテキストデータ入力処理、コマレイアウト算出処理、コンテキストライン算出処理、およびオブジェクトレイアウト算出処理は、第１の実施の形態にかかる映像要約装置１０と同様の処理なので、その説明を省略する。

オブジェクトレイアウト算出処理の後、実コンテキストライン算出部１６１が、要約映像におけるオブジェクトレイアウトに基づいて、実コンテキストライン情報を算出する（ステップＳ８０）。次に、コンテキストライン判定部１６０が、理論コンテキストライン情報とステップＳ８１で算出された実コンテキストライン情報とを比較し、レイアウト変更の必要があるか否かを判定する（ステップＳ８１）。

変更の必要があると判定された場合は（ステップＳ８１：ＹＥＳ）、コンテキストライン判定部１６０は、レイアウト修正箇所情報を算出する（ステップＳ８２）。

次に、修正部１６２が、レイアウト修正箇所情報を参照し、コマレイアウト情報またはコンテキストライン情報を修正する（ステップＳ８３）。次に、修正部１６２は、コマレイアウト情報を修正したか否かを判断し（ステップＳ８４）、コマレイアウト情報を修正した場合は（ステップＳ８４：ＹＥＳ）、コンテキストライン算出部１２０に修正コマレイアウト情報を出力する。これにより、ステップＳ３０のコンテキストライン算出処理から再度レイアウト処理を実行することができる。

コマレイアウト情報ではなくコンテキストライン情報を修正した場合は（ステップＳ８４：ＮＯ）、修正部１６２は、オブジェクトレイアウト算出部１３０に修正コンテキストライン情報を出力する。これにより、ステップＳ４０のオブジェクトレイアウト算出処理から再度レイアウト処理を実行することができる。

ステップＳ８１で、レイアウト変更の必要がない場合は（ステップＳ８１：ＮＯ）、要約映像を出力して映像要約処理を終了する。

このように、第７の実施の形態にかかる映像要約装置は、算出されたレイアウトの判定を行い、繰り返し処理により要約映像を最適化することができる。これにより、効率的に要約映像の質を向上させることができる。

（第８の実施の形態）
第８の実施の形態にかかる映像要約装置は、生成された要約映像にコンテキストラインを重畳してユーザに提示し、提示されたコンテキストラインを直接操作することによりユーザが指示した編集内容にしたがって要約映像の再レイアウトを行うものである。

図５７は、第８の実施の形態にかかる映像要約装置１６の構成を示すブロック図である。図５７に示すように、映像要約装置１６は、ソースデータ取得部１００と、ソースデータ管理部１０２と、コマレイアウト算出部１１０と、コンテキストライン算出部１２０と、オブジェクトレイアウト算出部１３０と、修正画面提示部１７０と、修正受付部１７２と、レイアウト編集部１７４と、修正部１６２と、を備えている。

第８の実施の形態では、修正画面提示部１７０、修正受付部１７２、レイアウト編集部１７４、および修正部１６２を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる映像要約装置１０の構成を表すブロック図である図２−１と同様であるので、同一符号を付し、ここでの説明は省略する。また、修正部１６２の機能は、第７の実施の形態と同様であるため、同一符号を付し、ここでの説明は省略する。

修正画面提示部１７０は、オブジェクトレイアウト算出部１３０により生成された要約映像にコンテキストライン情報を重畳してＬＣＤ等の表示装置に提示し、コンテキストライン情報を直感的に編集できるようにする。図５８は、修正画面の一例を示す説明図である。図５８に示すように、修正画面提示部１７０は、コンテキストライン情報として、注目点の位置、連続する注目点をつなぐライン、および注目点における注目度の大きさに比例した円を修正画面に表示する。

修正受付部１７２は、ユーザからの修正指示を受け付ける。例えば、図５８に示す修正画面上でマウスによりポインタＰを操作し、ドラッグすることにより、注目点Ｅ１〜Ｅ７の位置を変更することや、注目度を表す円Ｃ１〜Ｃ７の大きさを変更することができる。

レイアウト編集部１７４は、修正受付部１７２が受付けた修正指示に対応するレイアウト修正箇所情報を生成する。具体的には、レイアウト編集部１７４は、受付けた修正指示から注目点の移動量や、注目度の大きさの変化量を求め、求めた移動量や変化量を含むレイアウト修正箇所情報を生成する。

レイアウト修正箇所情報と、コンテキストライン情報を修正部１６２に入力することで、第７の実施の形態と同様に再レイアウトを行い、提示した情報の更新を行う。これにより、ユーザ操作に対してインタラクティブに要約映像の変更が確認できる。

次に、このように構成された第８の実施の形態にかかる映像要約装置１６による映像要約処理について図５９を用いて説明する。図５９は、第８の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。

オブジェクトレイアウト算出処理の後、修正画面提示部１７０が、要約映像にコンテキストラインを重畳して提示し、ユーザの編集操作を待つ（ステップＳ９０）。次に、修正受付部１７２が、再レイアウトが指示されたか否かを判断する（ステップＳ９１）。

再レイアウトが指示されたと判断された場合は（ステップＳ９１：ＹＥＳ）、レイアウト編集部１７４が指示に従ってレイアウト修正箇所情報を算出する（ステップＳ９２）。

ステップＳ９３からステップＳ９４までの、修正処理および修正内容判定処理は、第７の実施の形態のステップＳ８３からステップＳ８４までと同様の処理なので、その説明を省略する。

このように、第８の実施の形態にかかる映像要約装置は、コンテキストラインを要約映像に重畳させ、コンテキストラインを操作することでインタラクティブに変更結果を確認しながら、要約映像の編集を行うことができる。これにより、要約映像の編集が容易になり、効率的に要約映像の質を向上させることができる。

以上のように、本発明にかかる映像を要約する装置、方法およびプログラムは、コンピュータ、デジタルＡＶ（Audio Visual）装置、および通信装置などの映像データを処理する装置、方法およびプログラムに適している。

映像要約処理の概要を示す説明図である。第１の実施の形態にかかる映像要約装置の構成を示すブロック図である。ソースデータ管理部の詳細な構成を示す説明図である。ページ情報のデータ構造の一例を示す説明図である。映像コマ対応情報のデータ構造の一例を示す説明図である。映像内容情報のデータ構造の一例を示す説明図である。映像内オブジェクト情報のデータ構造の一例を示す説明図である。コマレイアウト算出部の詳細な構成を示すブロック図である。初期コマレイアウトの一例を示す図である。コマごとの盛り上がり度の一例を示した説明図である。配置変更の必要が生じるレイアウトの一例を示す説明図である。レイアウト変更の一例を示す説明図である。コマごとの映像再生時間の一例を模式的に示した説明図である。コマサイズ調整の一例を示す説明図である。コマごとのシナリオ時間の一例を模式的に示した説明図である。シナリオ時間に応じたコマ間隔調整の一例を示す説明図である。シナリオ時間に応じたコマ間隔調整の一例を示す説明図である。コマの外形属性を変更したレイアウトの一例を示す説明図である。コマの外形属性を変更したレイアウトの一例を示す説明図である。コマの枠線属性を変更したレイアウトの一例を示す説明図である。コマの枠線属性を変更したレイアウトの一例を示す説明図である。コマの枠線属性を変更したレイアウトの一例を示す説明図である。コマの塗りつぶし属性を変更したレイアウトの一例を示す説明図である。コマレイアウト情報のデータ構成を模式的に示す図である。コンテキストライン算出部の詳細な構成を示すブロック図である。コンテキストラインを視覚化した例を示す説明図である。算出された初期コンテキストラインの一例を示す説明図である。オブジェクトと注目点との対応づけを行った例を示す説明図である。コンテキストラインの角度調整の一例を示す説明図である。コンテキストラインの長さ調整の一例を示す説明図である。注目度調整の一例を示す説明図である。注目点情報のデータ構造の一例を示す説明図である。セグメント情報のデータ構造の一例を示す説明図である。要約映像の一例を示す説明図である。要約映像の一例を示す説明図である。オブジェクトレイアウト算出部の詳細な構成を示すブロック図である。第１の実施の形態における映像要約処理の全体の流れを示すフローチャートである。第１の実施の形態におけるコマレイアウト算出処理の全体の流れを示すフローチャートである。第１の実施の形態におけるコンテキストライン算出処理の全体の流れを示すフローチャートである。第１の実施の形態におけるオブジェクトレイアウト算出処理の全体の流れを示すフローチャートである。映像要約装置のハードウェア構成を示す説明図である。第２の実施の形態にかかる映像要約装置のコマレイアウト算出部の構成を示すブロック図である。第２の実施の形態で入力されるコンテキストデータの映像コマ対応情報のデータ構造の一例を示す説明図である。第３の実施の形態にかかる映像要約装置の構成を示すブロック図である。コンテキストデータを分割する様子を示した模式図である。ブロックを結合した様子を示した模式図である。ブロックを分割した様子を示した模式図である。第３の実施の形態における映像要約処理の全体の流れを示すフローチャートである。コンテキストデータ再構成処理の全体の流れを示すフローチャートである。第４の実施の形態にかかる映像要約装置の構成を示すブロック図である。第４の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。第５の実施の形態にかかる映像要約装置の構成を示すブロック図である。吹き出し形状の一例を示す説明図である。吹き出し形状の一例を示す説明図である。吹き出し形状の一例を示す説明図である。漫符の一例を示す説明図である。漫符の一例を示す説明図である。漫符の一例を示す説明図である。吹き出しを生成して要約映像に配置した例を示す説明図である。第５の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。第６の実施の形態にかかる映像要約装置の構成を示すブロック図である。第６の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。第７の実施の形態にかかる映像要約装置の構成を示すブロック図である。コマの配置を変更する処理を説明するための図である。コマの配置を変更する処理を説明するための図である。オブジェクトの配置を変更する処理を説明するための図である。オブジェクトの配置を変更する処理を説明するための図である。第７の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。第８の実施の形態にかかる映像要約装置の構成を示すブロック図である。修正画面の一例を示す説明図である。第８の実施の形態におけるコンテキストデータ再構成処理の全体の流れを示すフローチャートである。

符号の説明

１０〜１６映像要約装置
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００ソースデータ取得部
１０２ソースデータ管理部
１０２ａ映像記憶部
１０２ｂ映像フレーム群取得部
１０２ｃメタデータ記憶部
１０２ｄメタデータ取得部
１０３ソースデータ取得部
１０４割当部
１０５オブジェクト抽出部
１０６オブジェクト生成部
１０７指示受付部
１０８コンテキストデータ編集部
１１０コマレイアウト算出部
１１１初期コマレイアウト算出部
１１２コマレイアウト調整部
１１３コマ描画属性算出部
１１４コマレイアウト算出部
１２０コンテキストライン算出部
１２１初期コンテキストライン算出部
１２２コンテキストライン調整部
１３０オブジェクトレイアウト算出部
１３１オブジェクトレイアウト情報算出部
１３２オブジェクト映像選択部
１３３オブジェクト映像加工部
１３４オブジェクト映像合成部
１６０コンテキストライン判定部
１６１実コンテキストライン算出部
１６２修正部
１７０修正画面提示部
１７２修正受付部
１７４レイアウト編集部

Claims

映像データを記憶する映像記憶部と、
前記映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含む前記映像データのメタデータを記憶するメタデータ記憶部と、
前記メタデータ記憶部から前記配置順序を取得し、取得した前記配置順序が隣り合う前記コマの略中心である中心点を結合する線分を、前記配置順序に従って結合したラインを算出し、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記内容情報を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記内容情報と他方の端点に対して取得した前記内容情報との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更したコンテキストラインを算出する第１算出部と、
前記コマそれぞれについて、前記コマに含まれる前記線分の方向と前記映像データに含まれるオブジェクトの向きとの差が予め定められた第１閾値より小さい前記映像データを、前記部分映像として前記映像記憶部から選択する選択部と、
を備えたことを特徴とする映像要約装置。
前記メタデータ記憶部は、前記コマにおける前記映像データの盛り上がり度を前記内容情報として含む前記メタデータを記憶し、
前記第１算出部は、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記盛り上がり度を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記盛り上がり度と他方の端点に対して取得した前記盛り上がり度との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更した前記コンテキストラインを算出すること、
を特徴とする請求項１に記載の映像要約装置。
前記第１算出部は、第１コマと前記第１コマの次に配置される第２コマとの間の前記盛り上がり度の変化量を算出し、前記第１コマと前記第２コマとを跨ぐ第１線分の端点のうち前記第２コマに含まれる端点の位置を、前記第１コマの前に配置される第３コマと前記第１コマとを跨ぐ第２線分と、前記第１線分とのなす角度が、算出した変化量に応じた角度だけ変化するように変更した前記コンテキストラインを算出すること、
を特徴とする請求項２に記載の映像要約装置。
前記メタデータ記憶部は、前記コマそれぞれに対応する前記映像データに含まれるフレーム数を前記内容情報として含む前記メタデータを記憶し、
前記第１算出部は、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記フレーム数を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記フレーム数と他方の端点に対して取得した前記フレーム数との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更した前記コンテキストラインを算出すること、
を特徴とする請求項１に記載の映像要約装置。
前記第１算出部は、第１コマと前記第１コマの次に配置される第２コマとの間の前記フレーム数の変化量を算出し、前記第１コマまたは前記第２コマの少なくとも一方に含まれる端点の位置を、前記第１コマと前記第２コマとを跨ぐ前記線分の長さが、算出した変化量に応じた長さだけ変化するように変更した前記コンテキストラインを算出すること、
を特徴とする請求項４に記載の映像要約装置。
前記メタデータ記憶部は、前記コマにおける前記映像データのシナリオ上の時間を表すシナリオ時間を前記内容情報として含む前記メタデータを記憶し、
前記第１算出部は、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記シナリオ時間を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記シナリオ時間と他方の端点に対して取得した前記シナリオ時間との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更した前記コンテキストラインを算出すること、
を特徴とする請求項１に記載の映像要約装置。
前記映像データのカットそれぞれの内容を表すカット情報を取得するカット情報取得部と、
前記カットのうち、対応する前記カット情報が、前後の前記カットの前記カット情報それぞれより小さいまたは大きい前記カットを検出し、検出した前記カットを境界として前記カット情報を分割して少なくとも１つの前記カット情報を含む複数のブロックを生成し、生成したブロックを前記コマに割り当てる割当部と、をさらに備え、
前記メタデータ記憶部は、前記配置順序と、前記コマに割り当てられた前記ブロックに含まれる前記カット情報を含む前記内容情報とを含む前記メタデータを記憶すること、
を特徴とする請求項１に記載の映像要約装置。
前記メタデータ記憶部は、前記配置順序と、前記コマごとの前記映像データに含まれる前記オブジェクトのうち前記要約映像に含める対象となる前記オブジェクトを表す対象オブジェクトを含む前記内容情報とを含む前記メタデータを記憶し、
前記第１算出部は、さらに、前記コマに含まれる前記線分の端点に、前記コマそれぞれに対応する前記内容情報に含まれる前記対象オブジェクトを対応づけ、
前記選択部は、前記コマそれぞれについて、前記コマに含まれる前記線分の端点に対応づけられた前記対象オブジェクトと前記映像データに含まれる前記オブジェクトとが一致し、かつ、前記コマに含まれる前記線分の方向と前記オブジェクトの向きとの差が前記第１閾値より小さい前記映像データを、前記部分映像として前記映像記憶部から選択すること、
を特徴とする請求項１に記載の映像要約装置。
前記選択部は、前記コマそれぞれについて、前記コマに含まれる前記線分の端点に対応づけられた前記対象オブジェクトと前記映像データに含まれる前記オブジェクトとが一致し、かつ、前記コマに含まれる前記線分の端点と前記オブジェクトの略中心である中心点との距離が予め定められた第２閾値より小さく、かつ、前記コマに含まれる前記線分の方向と前記オブジェクトの向きとの差が前記第１閾値より小さい前記映像データを、前記部分映像として前記映像記憶部から選択すること、
を特徴とする請求項８に記載の映像要約装置。
前記映像データから前記対象オブジェクトを抽出する抽出部をさらに備え、
前記メタデータ記憶部は、前記配置順序と、抽出された前記対象オブジェクトを含む前記内容情報とを含む前記メタデータを記憶すること、
を特徴とする請求項８に記載の映像要約装置。
前記映像データに含まれる発話の種類および前記発話の発話者の種類の少なくとも一方に応じて予め定められたオブジェクトを生成する生成部をさらに備え、
前記メタデータ記憶部は、前記配置順序と、生成された前記オブジェクトを前記対象オブジェクトとして含む前記内容情報とを含む前記メタデータを記憶すること、
を特徴とする請求項８に記載の映像要約装置。
前記第１算出部は、さらに、前記コマに含まれる前記線分の端点に対応づけた前記対象オブジェクトが前記生成部により生成された前記オブジェクトであるか否かを判断し、前記生成部により生成された前記オブジェクトが対応づけられた前記線分の端点である第１端点の位置を、前記第１端点を端点とする２つの前記線分が一直線になるように変更した前記コンテキストラインを算出すること、
を特徴とする請求項１１に記載の映像要約装置。
前記対象オブジェクトとする前記オブジェクトの指示を受付ける指示受付部をさらに備え、
前記メタデータ記憶部は、前記配置順序と、指示を受付けた前記オブジェクトを前記対象オブジェクトとして含む前記内容情報とを含む前記メタデータを記憶すること、
を特徴とする請求項８に記載の映像要約装置。
前記第１算出部は、さらに、前記線分の端点ごとに、前記線分の端点に対応づける前記対象オブジェクトを注目する度合いを表す注目度を対応づけた前記ラインを算出し、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記内容情報を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記内容情報と他方の端点に対して取得した前記内容情報との間の変化量を算出し、算出した前記変化量に応じた値だけ前記線分の端点の前記注目度を変更した前記コンテキストラインを算出し、
前記選択部は、前記コマそれぞれについて、前記コマに含まれる前記線分の端点に対応づけられた前記注目度に応じた大きさの基準値と、前記映像データに含まれる前記オブジェクトの大きさとの差が予め定められた第４閾値より小さく、かつ、前記コマに含まれる前記線分の方向と前記オブジェクトの向きとの差が前記第１閾値より小さい前記映像データを、前記部分映像として前記映像記憶部から選択すること、
を特徴とする請求項８に記載の映像要約装置。
前記コマそれぞれについて、前記コマに含まれる前記線分の端点に対応づけられた前記注目度に応じた大きさの基準値と、選択された前記部分映像に含まれる前記オブジェクトの大きさとの差が小さくなるように、前記オブジェクトの大きさを変更して前記部分映像を更新する更新部と、
更新された前記部分映像を前記コマに合成して出力する合成部と、をさらに備えたこと、
を特徴とする請求項１４に記載の映像要約装置。
前記配置順序が隣り合う前記コマについて選択された前記部分映像に含まれる前記オブジェクトの略中心である中心点を結合する線分を、前記配置順序に従って結合する実コンテキストラインを算出する第２算出部と、
前記コンテキストラインに含まれる前記線分と、前記実コンテキストラインに含まれる前記線分とを対応づけ、前記コンテキストラインに含まれる前記線分の端点と、前記コンテキストラインに含まれる前記線分に対応づけた前記実コンテキストラインに含まれる前記線分の端点との距離が予め定められた第３閾値より大きいか否かを判定する判定部と、
前記距離が前記第３閾値より大きいと判定された場合に、大きいと判定された前記端点の位置を修正する修正部と、をさらに備えたこと、
を特徴とする請求項１に記載の映像要約装置。
前記コマに選択された前記部分映像を表示するとともに、前記部分映像と対応づけて前記コンテキストラインを表示部上に移動可能に提示する提示部と、
前記コンテキストラインを前記表示部上で移動させることによって指定された前記コンテキストラインの修正指示を受付ける修正受付部と、
前記修正指示に従い前記コンテキストラインの前記線分の端点の位置を修正する修正部と、をさらに備えたこと、
を特徴とする請求項１に記載の映像要約装置。
前記コマそれぞれについて、前記コマに含まれる前記線分の方向と、選択された前記部分映像に含まれる前記オブジェクトの向きとの差が小さくなるように、前記オブジェクトの向きを変更して前記部分映像を更新する更新部と、
更新された前記部分映像を前記コマに合成して出力する合成部と、をさらに備えたこと、
を特徴とする請求項１に記載の映像要約装置。
前記コマそれぞれについて、前記コマに含まれる前記線分の端点の位置と、選択された前記部分映像に含まれる前記オブジェクトの略中心である中心点との差が小さくなるように、前記オブジェクトの位置を変更して前記部分映像を更新する更新部と、
更新された前記部分映像を前記コマに合成して出力する合成部と、をさらに備えたこと、
を特徴とする請求項１に記載の映像要約装置。
映像データを記憶する映像記憶部と、
前記映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序、前記コマの配置位置、および前記コマの大きさを含む前記コマの配置情報と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含むメタデータを記憶するメタデータ記憶部と、
前記メタデータ記憶部から前記配置情報および前記内容情報を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記内容情報の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更するレイアウト変更部と、
前記配置位置または前記大きさが変更された前記コマそれぞれについて、前記映像記憶部に記憶された前記映像データから前記部分映像を選択する選択部と、
を備えたことを特徴とする映像要約装置。
前記レイアウト変更部は、さらに、算出した前記変化量に応じて前記コマの外形、前記コマの枠線の描画属性、および前記コマの内部の描画属性の少なくとも１つを変更すること、
を特徴とする請求項２０に記載の映像要約装置。
前記メタデータ記憶部は、前記コマにおける前記映像データの盛り上がり度を前記内容情報として含む前記メタデータを記憶し、
前記レイアウト変更部は、前記メタデータ記憶部から前記配置情報および前記盛り上がり度を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記盛り上がり度の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更すること、
を特徴とする請求項２０に記載の映像要約装置。
前記メタデータ記憶部は、前記コマそれぞれに対応する前記映像データに含まれるフレーム数を前記内容情報として含む前記メタデータを記憶し、
前記レイアウト変更部は、前記メタデータ記憶部から前記配置情報および前記フレーム数を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記フレーム数の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更すること、
を特徴とする請求項２０に記載の映像要約装置。
前記メタデータ記憶部は、前記コマにおける前記映像データのシナリオ上の時間を表すシナリオ時間を前記内容情報として含む前記メタデータを記憶し、
前記レイアウト変更部は、前記メタデータ記憶部から前記配置情報および前記シナリオ時間を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記シナリオ時間の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更すること、
を特徴とする請求項２０に記載の映像要約装置。
前記メタデータ記憶部から前記配置順序を取得し、取得した前記配置順序が隣り合う前記コマの略中心である中心点を結合する線分を、前記配置順序に従って結合したラインを算出し、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記内容情報を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記内容情報と他方の端点に対して取得した前記内容情報との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更した前記コンテキストラインを算出する第１算出部と、をさらに備え、
前記選択部は、前記コマそれぞれについて、前記コマに含まれる前記線分の方向と前記映像データに含まれるオブジェクトの向きとの差が予め定められた第１閾値より小さい前記映像データを、前記部分映像として前記映像記憶部から選択すること、
を特徴とする請求項２０に記載の映像要約装置。
前記配置順序が隣り合う前記コマについて選択された前記部分映像に含まれる前記オブジェクトの略中心である中心点を結合する線分を、前記配置順序に従って結合する実コンテキストラインを算出する第２算出部と、
前記コンテキストラインに含まれる前記線分と、前記実コンテキストラインに含まれる前記線分とを対応づけ、前記コンテキストラインに含まれる前記線分の端点と、前記実コンテキストラインに含まれる前記線分に対応づけた前記線分の端点との距離が予め定められた第２閾値より大きいか否かを判定する判定部と、
前記距離が前記第２閾値より大きいと判定された場合に、大きいと判定された前記端点を含む前記コマの前記配置情報を修正する修正部と、をさらに備えたこと、
を特徴とする請求項２５に記載の映像要約装置。
前記コマに選択された前記部分映像を表示するとともに、前記部分映像と対応づけて前記コンテキストラインを表示部上に移動可能に提示する提示部と、
前記コンテキストラインを前記表示部上で移動させることによって指定された前記コンテキストラインの修正指示を受付ける修正受付部と、
前記修正指示に従い前記コンテキストラインの前記線分の端点の位置を修正する修正部と、をさらに備えたこと、
を特徴とする請求項２５に記載の映像要約装置。
第１算出部によって、映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含む前記映像データのメタデータを記憶するメタデータ記憶部から前記配置順序を取得し、取得した前記配置順序が隣り合う前記コマの略中心である中心点を結合する線分を、前記配置順序に従って結合したラインを算出する第１算出ステップと、
第１算出部によって、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記内容情報を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記内容情報と他方の端点に対して取得した前記内容情報との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更した前記コンテキストラインを算出する第２算出ステップと、
選択部によって、前記コマそれぞれについて、前記映像データを記憶する映像記憶部から、前記コマに含まれる前記線分の方向と前記映像データに含まれるオブジェクトの向きとの差が予め定められた第１閾値より小さい前記映像データを前記部分映像として選択する選択ステップと、
を備えたことを特徴とする映像要約方法。
レイアウト変更部によって、映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序、前記コマの配置位置、および前記コマの大きさを含む前記コマの配置情報と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含むメタデータを記憶するメタデータ記憶部から前記配置情報および前記内容情報を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記内容情報の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更するレイアウト変更ステップと、
選択部によって、前記配置位置または前記大きさが変更された前記コマそれぞれについて、映像記憶部に記憶された前記映像データから前記部分映像を選択する選択ステップと、
を備えたことを特徴とする映像要約方法。
映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含む前記映像データのメタデータを記憶するメタデータ記憶部から前記配置順序を取得し、取得した前記配置順序が隣り合う前記コマの略中心である中心点を結合する線分を、前記配置順序に従って結合したラインを算出し、算出された前記ラインに含まれる前記線分それぞれについて、前記線分の端点が存在する前記コマの前記内容情報を前記メタデータ記憶部から取得し、一方の端点に対して取得した前記内容情報と他方の端点に対して取得した前記内容情報との間の変化量を算出し、算出した前記変化量に応じた量だけ前記線分の端点の位置を変更した前記コンテキストラインを算出する算出手順と、
前記コマそれぞれについて、前記映像データを記憶する映像記憶部から、前記コマに含まれる前記線分の方向と前記映像データに含まれるオブジェクトの向きとの差が予め定められた第１閾値より小さい前記映像データを前記部分映像として選択する選択手順と、
をコンピュータに実行させる映像要約プログラム。
映像データを要約した要約映像を構成する部分映像の表示領域であるコマの配置順序、前記コマの配置位置、および前記コマの大きさを含む前記コマの配置情報と、前記コマそれぞれに対応する前記映像データの内容を表す内容情報とを含むメタデータを記憶するメタデータ記憶部から前記配置情報および前記内容情報を取得し、取得した前記配置情報に含まれる配置順序が隣り合う前記コマ間における取得した前記内容情報の変化量を算出し、算出した前記変化量に応じた量だけ取得した前記配置情報に含まれる前記配置位置および前記大きさの少なくとも１つを変更するレイアウト変更手順と、
前記配置位置または前記大きさが変更された前記コマそれぞれについて、映像記憶部に記憶された前記映像データから前記部分映像を選択する選択手順と、
をコンピュータに実行させる映像要約プログラム。