JP6378503B2

JP6378503B2 - 要約映像データ作成システム及び方法並びにコンピュータプログラム

Info

Publication number: JP6378503B2
Application number: JP2014046257A
Authority: JP
Inventors: 雅俊浜中; 星子竹内
Original assignee: University of Tsukuba NUC
Current assignee: University of Tsukuba NUC
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2018-08-22
Anticipated expiration: 2034-03-10
Also published as: JP2015171073A

Description

本発明は、映像を要約して要約映像を生成するための要約映像データを作成する要約映像データ作成システム及び方法並びにコンピュータプログラムに関するものである。

従来、映画の要約技術では、内容の充実度と制約時間のトレードオフと、個人によって生じる要約の目的の違いに着目し、以下の三つの要件のいずれかまたは全てに焦点を当てているものが多かった（非特許文献１乃至４）。
１）映画の内容が理解できる
２）要約映像をユーザの求める時間長に収める
３）ユーザの関心の強い場面をまとめる

オン・コックメン，大野雄也，亀山渉，"瞳孔径・視線と心拍情報を用いた映像要約方法とその評価" 電子情報通信学会論文誌A, vol.J93-A, NO.11, pp.697-707, 2010. 出口嘉紀，吉高淳夫，"映画の文法に基づく要約映像の生成" データベース・システム研究報告DBS-132,pp33-40, 2004. 堀内直明，上原邦明，"ストーリの内容記述に基づく映像の検索と要約" 電子情報通信学会技術研究報告 DE，データ工学97(161),pp73-78，1997. 栗原一貴，佐々木洋子，緒方淳，後藤真孝，"音声区間自動検出技術を用いた変則再生方式による映像の高速鑑賞システムの検討" 情報処理学会研究報告Vol.2012-HCI- 149, No.13,2012.

非特許文献１及び２に記載の技術は、上記の要件の１と２を満たすことを目的としていた。しかしながらこれらの技術では、重要な場面をつなぎ合わせるだけで、各場面同士に因果関係がなく、要件１を十分に満たしてはいなかった。一方、非特許文献３に記載の技術は、上記要件１に焦点を当てた技術であり、ユーザが各場面の内容と連続する場面同士の因果関係を記述する方法を提案している。非特許文献４に記載の技術は、音声箇所と非音声箇所の再生速度を変え、視聴時間を短縮する方法を提案している。しかし、非特許文献３及び４の方法では、映画の内容を正確に把握したり、高速な映像を視聴したりするためのユーザの負担が大きかった。

本発明の目的は、音楽理論Generative Theory of Tonal Music（GTTM）を基礎として、映像を構造化し、要約映像を生成するための要約映像データを作成する要約映像データ作成システム及び方法並びにコンピュータプログラムを提供することにある。

発明者は、GTTMによる楽曲の簡約を応用し、同じように時系列メディアである映画を含む映像を要約することを考えた。楽曲の簡約では、重要な音と装飾的な音の従属関係を表すタイムスパン木（木構造）を用いるが、本発明では、映画を含む映像の大局的構造（シナリオ階層構造）と局所的構造（ショット階層構造）のそれぞれの木構造を用いて、少なくとも上記要件１及び２を満たす要約映像データを作成する。本発明の、映像を要約して要約映像を生成するための要約映像データを作成する要約映像データ作成システムは、シーン階層構造記憶部と、ショット階層構造記憶部と、シーン階層レベル設定部と、シーン区間特定部と、ショット階層レベル設定部と、ショット区間特定部と、要約映像データ作成部とを備えている。シーン階層構造記憶部は、関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存する。ショット階層構造記憶部は、連続して撮影された複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造として保存する。シーン階層レベル設定部は、シーン階層構造に対してシーン階層レベルを設定する。そしてシーン区間特定部は、シーン階層構造から、シーン階層レベル設定部で設定したシーン階層レベル以上にある幹または枝につながる１以上のシーン区間を特定する。またショット階層レベル設定部は、シーン区間特定部によって特定された１以上のシーン区間に含まれるショット階層構造中の１以上の部分木構造に対して個別にショット階層レベルを設定する。そしてショット区間特定部は、１以上の部分木構造ごとに個別に設定したショット階層レベル以上にある幹または枝につながる１以上のショット区間を特定する。要約映像データ作成部は、ショット区間特定部により特定された１以上のショット区間に含まれる映像データに基づいて要約映像データを作成する。

本発明では、映画等の映像において映像の最小単位の映像とされているショットに着目して、局所的構造を表す木構造のショット階層構造を生成して、これをショット階層構造記憶部に記憶する。そして関連する連続したショットであるシーンに着目して、大局的構造を表す木構造のシーン階層構造を生成して、シーン階層構造記憶部に記憶する。ショット階層構造及びショット階層構造の生成は、予め定めた分析構造化ルールに従って作業者が分析作業を行って得ることができる。なおこの分析は、コンピュータを用いて実現することも可能である。

そしてシーン階層構造から、シーン階層レベル設定部で設定したシーン階層レベル以上にある幹または枝につながる１以上のシーン区間を特定することにより、要約に使用するシーン区間が決定されることになる。すなわちシーン階層レベルを最も下げると、シーン階層構造中の全ての幹及び枝は、シーン階層レベルよりも上にあることになるため、全てのシーン区間が要約のためのシーン区間として決定される。そこからシーン階層レベルを上げていくと、シーン階層レベル以上にある幹または枝につながるシーン区間が要約のためのシーン区間として決定される。その結果、シーン階層レベルの調整により、映画のストーリの流れに沿って、要約に使用するシーン区間を決定できる。この決定だけでは、特に意味を持たないが、シーン区間に含まれるショット階層構造中の１以上の部分木構造に対して個別にショット階層レベルを設定して、選択されたシーン区間内にある１以上の部分木構造から、ショット階層レベル以上にある幹または枝につながる１以上のショット区間を特定することにより、要約に使用するショット区間を決定する。ショット階層レベルを最も下げれば、対応するシーン区間内の全てショット区間が要約のために使用されることになる。そしてそこからショット階層レベルを上げると、対応するシーン区間内で要約のために使用するショット区間の数は減ることになる。このようにして決定したシーン区間ごとに、意味のあるショット区間を決定することができる。このようにして決定したショット区間から要約に使用する映像を得れば、映像の内容が理解できる要約映像を簡単に作成することができ且つ要約映像をユーザの求める時間長に収めることが可能になる。

特に、シーン階層レベル設定部及びショット階層レベル設定部を、任意にシーン階層レベルとショット階層レベルとを設定変更可能に構成すれば、各シーン区間に対応したショット階層レベルの調整を適宜に行うことにより、ユーザの関心の強い場面（シーン）の映像を多くし、関心の低い場面（シーン）の映像を少なくした要約を作成することができる。

なお要約作業をより簡易的なものとするために、ショット階層構造に対して１つのショット階層レベルを設定するようにしてもよいのは勿論である。このようにするとショット区間の決定が容易になる。

本発明は、要約映像データ作成方法としても特定することができる。本発明の要約映像データ作成方法は、コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成するために、シーン階層構造保存ステップと、ショット階層構造保存ステップと、シーン階層レベル設定ステップと、シーン区間特定ステップと、ショット階層レベル設定ステップと、ショット区間特定ステップと、要約映像データ作成ステップとを実施する。

シーン階層構造保存ステップでは、関連する内容を持つ、連続して撮影された複数のショットから構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存する。ショット階層構造保存ステップでは、連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存する。シーン階層レベル設定ステップでは、シーン階層構造に対してシーン階層レベルを設定する。シーン区間特定ステップは、シーン階層構造から、シーン階層レベル以上にある幹または枝につながる１以上のシーン区間を特定する。ショット階層レベル設定ステップでは、シーン区間特定ステップによって特定された１以上のシーン区間に含まれるショット階層構造中の１以上の部分木構造に対して個別にショット階層レベルを設定する。ショット区間特定ステップでは、１以上の部分木構造から、対応する部分木構造に対してショット階層レベル設定ステップで設定したショット階層レベル以上にある幹または枝がつながる１以上のショット区間を特定する。要約映像データ作成ステップでは、ショット区間特定ステップにより特定された１以上のショット区間に含まれる映像データに基づいて要約映像データを作成する。

なおショット階層レベル設定ステップにおいて、シーン区間特定ステップによって特定された１以上のシーン区間に含まれるショット階層構造に１つのショット階層レベルを設定するようにしてもよい。

また本発明は、要約映像データ作成方法を実施するための各ステップをコンピュータで実現するためのコンピュータプログラムとしても特定することができる。

本発明の要約映像データ作成システムの実施の形態の一例の構成を示すブロック図である。ショットとシーンの概念を基に、映画と楽曲の構成要素の関係を示す図である。シーン階層構造とショット階層構造を説明するために用いる図である。（Ａ）は要約に必要なシーン区間を特定することを説明するために用いる図であり、（Ｂ）は要約に必要なショット区間を特定することを説明するために用いる図である。（Ａ）及び（Ｂ）は、本発明の理解を容易にするために、ショットの代表画像を用いて、図４（Ａ）及び図４（Ｂ）に示した木構造とシーン区間及びショット区間との関係と同様の関係を示す図である。本発明の要約映像データ作成システムをユーザに負担がかからないようなものとする場合の概念を示す図である。本発明の方法をコンピュータで実施する場合にコンピュータにインストールされるコンピュータプログラムのアルゴリズムの一例を示すフローチャートである。

以下図面を参照して、本発明の要約映像データ作成システムの実施の形態を詳細に説明する。図１は、本発明の要約映像データ作成システムの実施の形態の一例の構成を示すブロック図である。本実施の形態の構成を説明する前に、本発明の実施の形態の前提について説明する。

本実施の形態では、映像の要約の要件を
（ア）ストーリ理解における重要部分の明確化
（イ）部分同士のひも付け
（ウ）内容の充実度と要約の度合いの調節
（エ）ユーザの負担解消
と定義する。ここで本実施の形態では、「（ア）ストーリ理解における重要部分の明確化」と「（イ）部分同士のひも付け」を、映像全体の構造化によって解決し、「（ウ）内容の充実度と要約の度合いの調節」と「（エ）ユーザの負担解消」を、大局的な構造（シーン階層構造）と局所的な構造（ショット階層構造）を表す木構造を操作することで解決する。本実施の形態の特徴は、映像全体を木構造で表現する点である。幹と枝とからなる木構造に関しては、音楽理論Generative Theory of Tonal Music（GTTM）（Lerdah,F.and Jackendoff,R: “ A Generative Theory of Tonal Music“, the MIT Press, Cambredge,1983.）に詳しく開示されている。本実施の形態では、この公知文献に記載された楽曲の構造化を参考にしている。GTTMは、楽曲中の音楽的な構造や関係を専門的に分析し、得られた知識や手順をルールとして記述している。このルールを用いて楽曲の分析を行うことで、幹と枝とから構造木（タイムスパン木）を得ることができ、タイムスパン木によって楽曲を簡約したり、編集したりすることを可能にした。

発明者は、映画を含む映像と音楽の構成要素は類似しており、それぞれの構造化に共通する部分があると考えた。そこで、本発明では、GTTMによる楽曲の構造化を、映像の構造化に応用し、映像のタイムスパン木（木構造からなる階層構造）を要約映像データ作成に用いる。

GTTMの考え方を映像（映画を含む）の要約に応用するためには、映画と楽曲の構成要素が似ている必要がある。楽曲の構造化では最少単位を音符と考え、GTTMのサブ理論によって意味のあるフレーズにグルーピングされる。映像の代表例である映画にも文法的に扱われる単位があり、映画言語（マルセル・マルタン，金子敏男訳 “映画言語”みすず書房 1957．）によって定義されている。映画言語によると映画の最少単位は、切れ目なしに連続して撮影されたショットとなる。ショットは通常１秒以下から数十秒の映像で構成されるため、それだけでは意味を成さないものが多い。そこで、関連する内容を持つ連続したショットをシーンとしてまとめる考え方がある。ショットとシーンの概念を基に、映画と楽曲の構成要素をまとめたものが図２となる。

図１の実施の形態の要約映像データ作成システムは、シーン階層構造記憶部１と、シーン区間特定部２と、シーン階層レベル設定部３と、ショット階層構造記憶部４と、ショット区間特定部５と、ショット階層レベル設定部６と、要約映像データ作成部７とを備えている。

シーン階層構造記憶部１は、関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存する。分析構造化ルールの基本は、重要度が高いものが幹となり、その幹に関連して重要度の低いものが枝となるように、２分木である木構造を作成することである。後に詳しく説明するが、分析構造化ルールとしては、例えば、ストーリが進行する場面、あらすじを説明する情報量の多い場面などを重要とし幹を生成、前のシーンの補足のみ、内容が重複する、かつ情報量が少ない場面などを重要でない場面とし、幹に従属する枝を形成するといったルールを採用することができる。

構造化について具体的に説明すると、例えば２時間の映画を構造化することを考えてみる。２時間の映画には、平均して数秒から十数秒のショットが千から数千ほど存在する。各ショットは独立して映画のストーリに影響を与えることは考えにくく、通常は複数のショットを連結することで意味を成す。また数千のショットを一つずつ分析することは映像制作、編集の知識のないユーザにとっては負担な作業となる。そこで図３のＳｔｅｐ１に示すように複数のショット区間Ｓｔをグルーピングする。そして図３のＳｔｅｐ２に示すように、グルーピングにより複数のシーン区間Ｓｎを特定し、シーンの重要度から木構造からなるシーン階層構造ＳＣ１を作成する。本実施の形態では、GTTMのグルーピング構造分析という理論を参考にして、連像した複数のショット区間を、例えば関連度を基にしたルールに従って複数のシーン区間Ｓｎにグルーピングする。このようにして作成されたシーン階層構造ＳＣ１がデータとして、シーン階層構造記憶部１に保存される。木構造のシーン階層構造ＳＣ１を作成する際には、GTTMのタイムスパン簡約を参考にする。

ショット階層構造記憶部４は、連続して撮影された複数のショット区間Ｓｔを予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造ＳＣ２として保存する。ショット階層構造ＳＣ２は、図３のＳｔｅｐ３に示すような、ショットの重要度から作成したショットの木構造である。木構造のショット階層構造ＳＣ２を作成する際にも、分析構造化ル−ルに従う。

ショットの分析構造化ルールとしては、場所の変化、人物が入退場する場面などを重要として幹を形成し、反応のみの場面などを重要でない場面とし幹に従属する枝を形成するルールを採用することができる。どのような場面を重要とするかによって木構造の形は変化する。たとえば、特定の人物に重点を置きたい場合には、その人物が出てくる木が優先的に幹に選択されるようにする。ルールの定め方によって、ユーザの関心の強い場面をまとめるといった上記要約の要件３を満たすことができる。

ここで分析構造化ルールの実際の例について説明する。なお分析は、最も簡単には作業者が行うことになるが、自動化をすることも可能である。
（グルーピング構成ルール：グループが成立するのに必要な条件）
・連続するショットの集まりをシーンとする。

・連続するシーンの集まりをシークエンスとする。

・シーンはショットを１つ以上含むこととする。

・シークエンスはシーンを２つ以上含むこととする。

・構成要素が連続している場合のみグループを形成できる。

・１つの作品は１つのシークエンスである。

・シークエンスはシーンの一部だけを含むことはできない
・シークエンスは序破急の３部構成または起承転結の４部構成になることが望ましい。
（グルーピング選好ルール：どのグルーピング構造が好ましいかを示すルール）
・BGMが継続している。

・台詞が継続している。

・人物が継続して登場している。

・場所の移動がない。

・大幅な時間経過がない。

・短いショットが連続する。

・非常に小さいグループへの解析は避ける、特に単一ショットをグループにすることは避ける。

・Q&Aで一つのグループが作成できる。

・以下の撮影技法が観られる場合、境界がある場合が高い。

・インサート、空抜け
・フェード・イン（始）、フェード・アウト（終）、ワイプ、トラジション効果
・オーバーラップ（ディゾルブ）
・黒コマ、白コマのインサート
（木構造の構成ルール：木構造が成立するのに必要な条件）
・幹及び枝はそれぞれ内部に最も重要な場面を持つ。

・幹は枝よりも構造的である。

・シーンとショットの２段階に分けられる。

・枝が深いほど重要でなくなる。
（幹の選好ルール：重要か否かを判断するルール）
・より重要度の高い場面が優先的に幹となる。

・シーンが幹となる。

・導入場面は重要である可能性が高い。

・ショット長が長いほうが重要である可能性が高い。

・以下の撮影技法が観られる場合、強調された場面であり、重要である可能性が高い。

・登場時間の長い人物の場面は重要である可能性が高い。

・シーンの開始部分は重要である可能性が高い。

・シーンの開始部より終止部の方が重要である可能性が高い。

・並行的な部分は並行したヘッドとなる。

・特定の人物の台詞が長い場面は重要である可能性が高い。

・情報量が多い場面は重要である可能性が高い。

図１に戻って、シーン階層レベル設定部３は、シーン階層構造ＳＣ１に対するシーン階層レベルＬを設定する。シーン階層レベルＬは、図４（Ａ）に示すように、要約に使用するシーン区間Ｓｎを決定するために、シーン階層構造ＳＣ１に対して設定されるものである。本実施の形態では、シーン階層構造ＳＣ１に対するシーン階層レベルＬの設定位置を任意に設定できるように、シーン階層レベル設定部３が構成されている。シーン区間特定部２は、シーン階層構造ＳＣ１から、シーン階層レベル設定部３で設定したシーン階層レベルＬ以上にある幹Ｔまたは枝Ｂにつながる１以上のシーン区間Ｓｎを特定する。図４（Ａ）の例では、２本の幹Ｔにつながる両端の２つのシーン区間Ｓｎが、要約に使用されるシーン区間として特定される。

また図１のショット階層レベル設定部６は、シーン区間特定部２によって特定された１以上のシーン区間Ｓｎに含まれるショット階層構造ＳＣ２中の１以上の部分木構造［図４（Ｂ）のＰＳＣ1 〜ＰＳＣ4 ］に個別にショット階層レベル［図４（Ｂ）のＬａ〜Ｌｄ］を設定する。図４（Ｂ）に示す例では、シーン階層レベル設定部３で設定したシーン階層レベルＬ以上にある幹Ｔ及び枝Ｂにつながる３つのシーン区間Ｓｎが要約に使用されるシーン区間として特定される。すなわち２本の幹Ｔにつながる両端の２つのシーン区間Ｓｎと、１つの枝Ｂにつながる１つのシーン区間が、要約に使用されるシーン区間として特定される。

ショット区間特定部５は、１以上の部分木構造から、対応するショット階層レベル設定部６で設定したショット階層レベル以上にある幹または枝につながる１以上のショット区間を特定する。具体的には、ショット区間特定部５は、図４（Ｂ）に示すように、２本の幹Ｔにつながる両端の２つのシーン区間Ｓｎと、１つの枝Ｂにつながる１つのシーン区間Ｓｎに対応する３つの部分木構造ＰＳＣ1 ，ＰＳＣ2及びＰＳＣ4から、ショット階層レベル設定部６で設定したショット階層レベル以上にある幹または枝につながる１以上のショット区間Ｓｔを特定する。例えば、部分木構造ＰＳＣ1に対して設定されたショット階層レベルＬａ以上には１本の幹と１本の枝があり、これらにつながる２つのショット区間Ｓｔが要約に使用されるショット区間として特定される。また部分木構造ＰＳＣ2に対して設定されたショット階層レベルＬｂ以上には１本の幹があり、これにつながる１つのショット区間Ｓｔが要約に使用されるショット区間として特定される。さらに部分木構造ＰＳＣ3に対して設定されたショット階層レベルＬｃ以上には１本の幹と１本の枝があり、これらにつながる２つのショット区間Ｓｔが要約に使用されるショット区間として特定される。

要約映像データ作成部７は、ショット区間特定部５により特定された１以上のショット区間Ｓｔに含まれる映像に基づいて要約映像データを作成する。具体的には、要約映像データ作成部７は、全てのショット区間に対応した映像データ８の中からショット区間特定部５により特定されたショット区間Ｓｔに含まれる部分映像データを抽出して、抽出した複数の部分映像データを合成することにより要約映像データを作成する。そしてこの要約映像データは、映像再生部９によって再生される。

図５（Ａ）及び図５（Ｂ）は、本発明の理解を容易にするために、ショットの代表画像を用いて、図４（Ａ）及び図４（Ｂ）に示した木構造とシーン区間及びショット区間との関係と同様の関係を示す図である。なお図５（Ａ）及び図５（Ｂ）には、図４（Ａ）及び図４（Ｂ）示した部分と同様の部分に、図４（Ａ）及び図４（Ｂ）中に付した符号と同じ符号を付して説明を省略する。

本実施の形態において、ショット階層レベルを最も下げれば、対応するシーン区間内の全てショット区間が要約のために使用されることになり、ショット階層レベルを上げると、対応するシーン区間内で要約のために使用するショット区間の数が減ることになる。このようにして決定したショット区間から要約に使用する映像を得れば、映像の内容が理解でき且つ要約映像をユーザの求める時間長に収めることが可能になる。そして本実施の形態では、シーン階層レベル設定部３と１以上のショット階層レベル設定部６とを、シーン階層レベルとショット階層レベルとを設定変更可能に構成したので、各シーン区間に対応したショット階層レベルの調整を適宜に行うことにより、ユーザの関心の強い場面（シーン）の映像を多くし、関心の低い場面（シーン）の映像を少なくした要約を作成することができる。

［変形例］
上記実施の形態では、シーン区間特定部によって特定された１以上のシーン区間に含まれるショット階層構造ＳＣ２中の複数の部分木構造に対して個別にショット階層レベルを設定するようにショット階層レベル設定部６を構成した。しかしながら図４（Ｂ）に示すように、シーン区間特定部２によって特定された１以上のシーン区間に含まれるショット階層構造ＳＣ２に対して（複数の部分木構造ＰＳＣ1 〜ＰＳＣ4 ）に対して１つのショット階層レベルＬｏだけを設定するように、ショット階層レベル設定部６を構成してもよい。このようにすると１つのショット階層レベルＬｏだけを調整すればよいので、要約作業をより簡易的なものとすることができる。

また上記実施の形態では、シーン階層構造とショット階層構造とがそれぞれシーン階層構造記憶部１とショット階層構造記憶部４とに別に保存されている。しかしながら本発明では、シーン階層構造とショット階層構造とが連続して構成される連続階層構造を用いることができる。この場合には、連続階層構造を保存する連続階層構造記憶部からシーン階層構造のデータ部分とショット階層構造のデータ部分とを分割して取り出して、シーン区間特定部２及びショット区間特定部５に与えればよい。なおこのようにした場合には、図１に符号１０で示すように、連続階層構造を保存する連続階層構造記憶部１０の中にシーン階層構造記憶部１及びショット階層構造記憶部４がそれぞれ構成される。

図６は、本発明の要約映像データ作成システムをユーザに負担がかからないようなものとする場合の概念を示す図である。システムへの入力は、ショットに分割された動画ファイルと、ショットの情報が記述されたXMLファイルとすればよい。また出力は選択されたショットをつなぎ合わせた動画データファイルとする。このようにすると例えば、コンピュータ内に本発明の要約映像データ作成システムを実現することができる。図７は、本発明の方法をコンピュータで実施する場合にコンピュータにインストールされるコンピュータプログラムのアルゴリズムを示すフローチャートである。このアルゴリズムでは、コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成するために、シーン階層構造保存ステップＳＴ１と、ショット階層構造保存ステップＳＴ２と、シーン階層レベル設定ステップＳＴ３と、シーン区間特定ステップＳＴ４と、ショット階層レベル設定ステップＳＴ５と、ショット区間特定ステップＳＴ６と、要約映像データ作成ステップＳＴ７とを実施する。シーン階層構造保存ステップＳＴ１では、関連する内容を持つ、連続して撮影された複数のショットから構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存する。ショット階層構造保存ステップＳＴ２では、連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存する。シーン階層レベル設定ステップＳＴ３では、シーン階層構造に対してシーン階層レベルを設定する。シーン区間特定ステップＳＴ４は、シーン階層構造から、シーン階層レベル以上にある幹または枝につながる１以上のシーン区間を特定する。ショット階層レベル設定ステップＳＴ５では、シーン区間特定ステップによって特定された１以上のシーン区間に含まれるショット階層構造中の１以上の部分木構造に対して個別にショット階層レベルを設定する。ショット区間特定ステップＳＴ６では、１以上の部分木構造から、対応する部分木構造に対してショット階層レベル設定ステップで設定したショット階層レベル以上にある幹または枝がつながる１以上のショット区間を特定する。要約映像データ作成ステップＳＴ７では、ショット区間特定ステップにより特定された１以上のショット区間に含まれる映像データに基づいて要約映像データを作成する。なおショット階層レベル設定ステップＳＴ５において、シーン区間特定ステップによって特定された１以上のシーン区間に含まれるショット階層構造に１つのショット階層レベルを設定するようにしてもよいのは勿論である。

本発明によれば、シーン階層構造からシーン階層レベル以上にある幹または枝につながる１以上のシーン区間を特定することにより、要約に使用するシーン区間が決定される。そしてシーン区間に含まれるショット階層構造中の１以上の部分木構造に対して個別にショット階層レベルを設定して、選択されたシーン区間内にある１以上の部分木構造から、ショット階層レベル以上にある幹または枝につながる１以上のショット区間を特定することにより、要約に使用するショット区間を決定する。その結果、決定したシーン区間ごとに、意味のあるショット区間を決定することができる。よって本発明によれば、映像の内容が理解できる要約映像をユーザの求める時間長に収めることが可能になる。

１シーン階層構造記憶部
２シーン区間特定部
３シーン階層レベル設定部
４ショット階層構造記憶部
５ショット区間特定部
６ショット階層レベル設定部
７要約映像データ作成部
８映像データ
９映像再生部

Claims

映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成システムであって、
関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存するシーン階層構造記憶部と、
連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造として保存するショット階層構造記憶部と、
前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定部と、
前記シーン階層構造から、前記シーン階層レベル設定部で設定した前記シーン階層レベル以上にある前記幹または前記枝につながる１以上のシーン区間を特定するシーン区間特定部と、
前記シーン区間特定部によって特定された１以上のシーン区間に含まれる前記ショット階層構造中の１以上の部分木構造に対して個別にショット階層レベルを設定するショット階層レベル設定部と、
前記１以上の部分木構造から、前記ショット階層レベル設定部で前記部分木構造ごとに個別に設定した前記ショット階層レベル以上にある前記幹または前記枝につながる１以上のショット区間を特定するショット区間特定部と、
前記ショット区間特定部により特定された前記１以上のショット区間に含まれる映像データに基づいて前記要約映像データを作成する要約映像データ作成部とからなる要約映像データ作成システム。
前記シーン階層レベル設定部と前記ショット階層レベル設定部とは、任意に前記シーン階層レベルと前記ショット階層レベルとを設定変更可能に構成されている請求項１に記載の要約映像データ作成システム。
映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成システムであって、
関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存するシーン階層構造記憶部と、
連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造として保存するショット階層構造記憶部と、
前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定部と、
前記シーン階層構造から、前記シーン階層レベル設定部で設定した前記シーン階層レベル以上にある前記幹または前記枝につながる１以上のシーン区間を特定するシーン区間特定部と、
前記シーン区間特定部によって特定された１以上のシーン区間に含まれる前記ショット階層構造に対してショット階層レベルを設定するショット階層レベル設定部と、
前記ショット階層構造から、前記ショット階層レベル設定部で設定した前記ショット階層レベル以上にある前記幹または前記枝につながる１以上のショット区間を特定するショット区間特定部と、
前記ショット区間特定部により特定された前記１以上のショット区間に含まれる映像データに基づいて前記要約映像データを生成する要約映像データ作成部とからなる要約映像データ作成システム。
前記シーン階層レベル設定部と前記ショット階層レベル設定部とは、任意に前記シーン階層レベルと前記ショット階層レベルとを設定変更可能に構成されている請求項３に記載の要約映像データ作成システム。
前記予め定めた分析構造化ルールに従って作業者が分析作業を行って得た結果に基づいて、前記シーン階層構造が生成されている請求項１または３に記載の要約映像データ作成システム。
前記予め定めた分析構造化ルールに従って作業者が分析作業を行って得た結果に基づいて、前記ショット階層構造が生成されている請求項１または３に記載の要約映像データ作成システム。
コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成方法であって、
関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存するシーン階層構造保存ステップと、
連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存するショット階層構造保存ステップと、
前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定ステップと、
前記シーン階層構造から、前記シーン階層レベル以上にある前記幹または前記枝につながる１以上のシーン区間を特定するシーン区間特定ステップと、
前記シーン区間特定ステップによって特定された１以上のシーン区間に含まれる前記ショット階層構造中の１以上の部分木構造に個別にショット階層レベルを設定するショット階層レベル設定ステップと、
前記１以上の部分木構造から、前記部分木構造ごとに個別に設定した前記ショット階層レベル以上にある前記幹または前記枝につながる１以上のショット区間を特定するショット区間特定ステップと、
前記ショット区間特定ステップにより特定された前記１以上のショット区間に含まれる映像データに基づいて前記要約映像データを作成する要約映像データ作成ステップとを実施することを特徴とする要約映像データ作成方法。
請求項７に記載の要約映像データ作成方法を実施するための各ステップをコンピュータで実現するためのコンピュータプログラム。
コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成方法であって、
関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存するシーン階層構造保存ステップと、
連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存するショット階層構造保存ステップと、
前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定ステップと、
前記シーン階層構造から、前記シーン階層レベル設定ステップで設定した前記シーン階層レベル以上にある前記幹または前記枝につながる１以上のシーン区間を特定するシーン区間特定ステップと、
前記シーン区間特定ステップによって特定された１以上のシーン区間に含まれる前記ショット階層構造にショット階層レベルを設定するショット階層レベル設定ステップと、
前記ショット階層構造から、前記ショット階層レベル設定ステップで設定した前記ショット階層レベル以上にある前記幹または前記枝につながる１以上のショット区間を特定するショット区間特定ステップと、
前記ショット区間特定ステップにより特定された前記１以上のショット区間に含まれる映像データに基づいて前記要約映像データを作成する要約映像データ作成ステップとを実施することを特徴とする要約映像データ作成方法。
請求項９に記載の要約映像データ作成方法を実施するための各ステップをコンピュータで実現するためのコンピュータプログラム。