JP6378503B2 - 要約映像データ作成システム及び方法並びにコンピュータプログラム - Google Patents

要約映像データ作成システム及び方法並びにコンピュータプログラム Download PDF

Info

Publication number
JP6378503B2
JP6378503B2 JP2014046257A JP2014046257A JP6378503B2 JP 6378503 B2 JP6378503 B2 JP 6378503B2 JP 2014046257 A JP2014046257 A JP 2014046257A JP 2014046257 A JP2014046257 A JP 2014046257A JP 6378503 B2 JP6378503 B2 JP 6378503B2
Authority
JP
Japan
Prior art keywords
shot
scene
hierarchy
video data
hierarchy level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014046257A
Other languages
English (en)
Other versions
JP2015171073A (ja
Inventor
雅俊 浜中
雅俊 浜中
星子 竹内
星子 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tsukuba NUC
Original Assignee
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tsukuba NUC filed Critical University of Tsukuba NUC
Priority to JP2014046257A priority Critical patent/JP6378503B2/ja
Publication of JP2015171073A publication Critical patent/JP2015171073A/ja
Application granted granted Critical
Publication of JP6378503B2 publication Critical patent/JP6378503B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、映像を要約して要約映像を生成するための要約映像データを作成する要約映像データ作成システム及び方法並びにコンピュータプログラムに関するものである。
従来、映画の要約技術では、内容の充実度と制約時間のトレードオフと、個人によって生じる要約の目的の違いに着目し、以下の三つの要件のいずれかまたは全てに焦点を当てているものが多かった(非特許文献1乃至4)。
1)映画の内容が理解できる
2)要約映像をユーザの求める時間長に収める
3)ユーザの関心の強い場面をまとめる
オン・コックメン,大野雄也,亀山渉,"瞳孔径・視線と心拍情報を用いた映像要約方法とその評価" 電子情報通信学会論文誌A, vol.J93-A, NO.11, pp.697-707, 2010. 出口嘉紀,吉高淳夫,"映画の文法に基づく要約映像の生成" データベース・システム研究報告DBS-132,pp33-40, 2004. 堀内直明,上原邦明,"ストーリの内容記述に基づく映像の検索と要約" 電子情報通信学会技術研究報告 DE,データ工学97(161),pp73-78,1997. 栗原一貴,佐々木洋子,緒方淳,後藤真孝,"音声区間自動検出技術を用いた変則再生方式による映像の高速鑑賞システムの検討" 情報処理学会研究報告Vol.2012-HCI- 149, No.13,2012.
非特許文献1及び2に記載の技術は、上記の要件の1と2を満たすことを目的としていた。しかしながらこれらの技術では、重要な場面をつなぎ合わせるだけで、各場面同士に因果関係がなく、要件1を十分に満たしてはいなかった。一方、非特許文献3に記載の技術は、上記要件1に焦点を当てた技術であり、ユーザが各場面の内容と連続する場面同士の因果関係を記述する方法を提案している。非特許文献4に記載の技術は、音声箇所と非音声箇所の再生速度を変え、視聴時間を短縮する方法を提案している。しかし、非特許文献3及び4の方法では、映画の内容を正確に把握したり、高速な映像を視聴したりするためのユーザの負担が大きかった。
本発明の目的は、音楽理論Generative Theory of Tonal Music(GTTM)を基礎として、映像を構造化し、要約映像を生成するための要約映像データを作成する要約映像データ作成システム及び方法並びにコンピュータプログラムを提供することにある。
発明者は、GTTMによる楽曲の簡約を応用し、同じように時系列メディアである映画を含む映像を要約することを考えた。楽曲の簡約では、重要な音と装飾的な音の従属関係を表すタイムスパン木(木構造)を用いるが、本発明では、映画を含む映像の大局的構造(シナリオ階層構造)と局所的構造(ショット階層構造)のそれぞれの木構造を用いて、少なくとも上記要件1及び2を満たす要約映像データを作成する。本発明の、映像を要約して要約映像を生成するための要約映像データを作成する要約映像データ作成システムは、シーン階層構造記憶部と、ショット階層構造記憶部と、シーン階層レベル設定部と、シーン区間特定部と、ショット階層レベル設定部と、ショット区間特定部と、要約映像データ作成部とを備えている。シーン階層構造記憶部は、関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存する。ショット階層構造記憶部は、連続して撮影された複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造として保存する。シーン階層レベル設定部は、シーン階層構造に対してシーン階層レベルを設定する。そしてシーン区間特定部は、シーン階層構造から、シーン階層レベル設定部で設定したシーン階層レベル以上にある幹または枝につながる1以上のシーン区間を特定する。またショット階層レベル設定部は、シーン区間特定部によって特定された1以上のシーン区間に含まれるショット階層構造中の1以上の部分木構造に対して個別にショット階層レベルを設定する。そしてショット区間特定部は、1以上の部分木構造ごとに個別に設定したショット階層レベル以上にある幹または枝につながる1以上のショット区間を特定する。要約映像データ作成部は、ショット区間特定部により特定された1以上のショット区間に含まれる映像データに基づいて要約映像データを作成する。
本発明では、映画等の映像において映像の最小単位の映像とされているショットに着目して、局所的構造を表す木構造のショット階層構造を生成して、これをショット階層構造記憶部に記憶する。そして関連する連続したショットであるシーンに着目して、大局的構造を表す木構造のシーン階層構造を生成して、シーン階層構造記憶部に記憶する。ショット階層構造及びショット階層構造の生成は、予め定めた分析構造化ルールに従って作業者が分析作業を行って得ることができる。なおこの分析は、コンピュータを用いて実現することも可能である。
そしてシーン階層構造から、シーン階層レベル設定部で設定したシーン階層レベル以上にある幹または枝につながる1以上のシーン区間を特定することにより、要約に使用するシーン区間が決定されることになる。すなわちシーン階層レベルを最も下げると、シーン階層構造中の全ての幹及び枝は、シーン階層レベルよりも上にあることになるため、全てのシーン区間が要約のためのシーン区間として決定される。そこからシーン階層レベルを上げていくと、シーン階層レベル以上にある幹または枝につながるシーン区間が要約のためのシーン区間として決定される。その結果、シーン階層レベルの調整により、映画のストーリの流れに沿って、要約に使用するシーン区間を決定できる。この決定だけでは、特に意味を持たないが、シーン区間に含まれるショット階層構造中の1以上の部分木構造に対して個別にショット階層レベルを設定して、選択されたシーン区間内にある1以上の部分木構造から、ショット階層レベル以上にある幹または枝につながる1以上のショット区間を特定することにより、要約に使用するショット区間を決定する。ショット階層レベルを最も下げれば、対応するシーン区間内の全てショット区間が要約のために使用されることになる。そしてそこからショット階層レベルを上げると、対応するシーン区間内で要約のために使用するショット区間の数は減ることになる。このようにして決定したシーン区間ごとに、意味のあるショット区間を決定することができる。このようにして決定したショット区間から要約に使用する映像を得れば、映像の内容が理解できる要約映像を簡単に作成することができ且つ要約映像をユーザの求める時間長に収めることが可能になる。
特に、シーン階層レベル設定部及びショット階層レベル設定部を、任意にシーン階層レベルとショット階層レベルとを設定変更可能に構成すれば、各シーン区間に対応したショット階層レベルの調整を適宜に行うことにより、ユーザの関心の強い場面(シーン)の映像を多くし、関心の低い場面(シーン)の映像を少なくした要約を作成することができる。
なお要約作業をより簡易的なものとするために、ショット階層構造に対して1つのショット階層レベルを設定するようにしてもよいのは勿論である。このようにするとショット区間の決定が容易になる。
本発明は、要約映像データ作成方法としても特定することができる。本発明の要約映像データ作成方法は、コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成するために、シーン階層構造保存ステップと、ショット階層構造保存ステップと、シーン階層レベル設定ステップと、シーン区間特定ステップと、ショット階層レベル設定ステップと、ショット区間特定ステップと、要約映像データ作成ステップとを実施する。
シーン階層構造保存ステップでは、関連する内容を持つ、連続して撮影された複数のショットから構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存する。ショット階層構造保存ステップでは、連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存する。シーン階層レベル設定ステップでは、シーン階層構造に対してシーン階層レベルを設定する。シーン区間特定ステップは、シーン階層構造から、シーン階層レベル以上にある幹または枝につながる1以上のシーン区間を特定する。ショット階層レベル設定ステップでは、シーン区間特定ステップによって特定された1以上のシーン区間に含まれるショット階層構造中の1以上の部分木構造に対して個別にショット階層レベルを設定する。ショット区間特定ステップでは、1以上の部分木構造から、対応する部分木構造に対してショット階層レベル設定ステップで設定したショット階層レベル以上にある幹または枝がつながる1以上のショット区間を特定する。要約映像データ作成ステップでは、ショット区間特定ステップにより特定された1以上のショット区間に含まれる映像データに基づいて要約映像データを作成する。
なおショット階層レベル設定ステップにおいて、シーン区間特定ステップによって特定された1以上のシーン区間に含まれるショット階層構造に1つのショット階層レベルを設定するようにしてもよい。
また本発明は、要約映像データ作成方法を実施するための各ステップをコンピュータで実現するためのコンピュータプログラムとしても特定することができる。
本発明の要約映像データ作成システムの実施の形態の一例の構成を示すブロック図である。 ショットとシーンの概念を基に、映画と楽曲の構成要素の関係を示す図である。 シーン階層構造とショット階層構造を説明するために用いる図である。 (A)は要約に必要なシーン区間を特定することを説明するために用いる図であり、(B)は要約に必要なショット区間を特定することを説明するために用いる図である。 (A)及び(B)は、本発明の理解を容易にするために、ショットの代表画像を用いて、図4(A)及び図4(B)に示した木構造とシーン区間及びショット区間との関係と同様の関係を示す図である。 本発明の要約映像データ作成システムをユーザに負担がかからないようなものとする場合の概念を示す図である。 本発明の方法をコンピュータで実施する場合にコンピュータにインストールされるコンピュータプログラムのアルゴリズムの一例を示すフローチャートである。
以下図面を参照して、本発明の要約映像データ作成システムの実施の形態を詳細に説明する。図1は、本発明の要約映像データ作成システムの実施の形態の一例の構成を示すブロック図である。本実施の形態の構成を説明する前に、本発明の実施の形態の前提について説明する。
本実施の形態では、映像の要約の要件を
(ア)ストーリ理解における重要部分の明確化
(イ)部分同士のひも付け
(ウ)内容の充実度と要約の度合いの調節
(エ)ユーザの負担解消
と定義する。ここで本実施の形態では、「(ア)ストーリ理解における重要部分の明確化」と「(イ)部分同士のひも付け」を、映像全体の構造化によって解決し、「(ウ)内容の充実度と要約の度合いの調節」と「(エ)ユーザの負担解消」を、大局的な構造(シーン階層構造)と局所的な構造(ショット階層構造)を表す木構造を操作することで解決する。本実施の形態の特徴は、映像全体を木構造で表現する点である。幹と枝とからなる木構造に関しては、音楽理論Generative Theory of Tonal Music(GTTM)(Lerdah,F.and Jackendoff,R: “ A Generative Theory of Tonal Music“, the MIT Press, Cambredge,1983.)に詳しく開示されている。本実施の形態では、この公知文献に記載された楽曲の構造化を参考にしている。GTTMは、楽曲中の音楽的な構造や関係を専門的に分析し、得られた知識や手順をルールとして記述している。このルールを用いて楽曲の分析を行うことで、幹と枝とから構造木(タイムスパン木)を得ることができ、タイムスパン木によって楽曲を簡約したり、編集したりすることを可能にした。
発明者は、映画を含む映像と音楽の構成要素は類似しており、それぞれの構造化に共通する部分があると考えた。そこで、本発明では、GTTMによる楽曲の構造化を、映像の構造化に応用し、映像のタイムスパン木(木構造からなる階層構造)を要約映像データ作成に用いる。
GTTMの考え方を映像(映画を含む)の要約に応用するためには、映画と楽曲の構成要素が似ている必要がある。楽曲の構造化では最少単位を音符と考え、GTTMのサブ理論によって意味のあるフレーズにグルーピングされる。映像の代表例である映画にも文法的に扱われる単位があり、映画言語(マルセル・マルタン,金子敏男訳 “映画言語”みすず書房 1957.)によって定義されている。映画言語によると映画の最少単位は、切れ目なしに連続して撮影されたショットとなる。ショットは通常1秒以下から数十秒の映像で構成されるため、それだけでは意味を成さないものが多い。そこで、関連する内容を持つ連続したショットをシーンとしてまとめる考え方がある。ショットとシーンの概念を基に、映画と楽曲の構成要素をまとめたものが図2となる。
図1の実施の形態の要約映像データ作成システムは、シーン階層構造記憶部1と、シーン区間特定部2と、シーン階層レベル設定部3と、ショット階層構造記憶部4と、ショット区間特定部5と、ショット階層レベル設定部6と、要約映像データ作成部7とを備えている。
シーン階層構造記憶部1は、関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存する。分析構造化ルールの基本は、重要度が高いものが幹となり、その幹に関連して重要度の低いものが枝となるように、2分木である木構造を作成することである。後に詳しく説明するが、分析構造化ルールとしては、例えば、ストーリが進行する場面、あらすじを説明する情報量の多い場面などを重要とし幹を生成、前のシーンの補足のみ、内容が重複する、かつ情報量が少ない場面などを重要でない場面とし、幹に従属する枝を形成するといったルールを採用することができる。
構造化について具体的に説明すると、例えば2時間の映画を構造化することを考えてみる。2時間の映画には、平均して数秒から十数秒のショットが千から数千ほど存在する。各ショットは独立して映画のストーリに影響を与えることは考えにくく、通常は複数のショットを連結することで意味を成す。また数千のショットを一つずつ分析することは映像制作、編集の知識のないユーザにとっては負担な作業となる。そこで図3のStep1に示すように複数のショット区間Stをグルーピングする。そして図3のStep2に示すように、グルーピングにより複数のシーン区間Snを特定し、シーンの重要度から木構造からなるシーン階層構造SC1を作成する。本実施の形態では、GTTMのグルーピング構造分析という理論を参考にして、連像した複数のショット区間を、例えば関連度を基にしたルールに従って複数のシーン区間Snにグルーピングする。このようにして作成されたシーン階層構造SC1がデータとして、シーン階層構造記憶部1に保存される。木構造のシーン階層構造SC1を作成する際には、GTTMのタイムスパン簡約を参考にする。
ショット階層構造記憶部4は、連続して撮影された複数のショット区間Stを予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造SC2として保存する。ショット階層構造SC2は、図3のStep3に示すような、ショットの重要度から作成したショットの木構造である。木構造のショット階層構造SC2を作成する際にも、分析構造化ル−ルに従う。
ショットの分析構造化ルールとしては、場所の変化、人物が入退場する場面などを重要として幹を形成し、反応のみの場面などを重要でない場面とし幹に従属する枝を形成するルールを採用することができる。どのような場面を重要とするかによって木構造の形は変化する。たとえば、特定の人物に重点を置きたい場合には、その人物が出てくる木が優先的に幹に選択されるようにする。ルールの定め方によって、ユーザの関心の強い場面をまとめるといった上記要約の要件3を満たすことができる。
ここで分析構造化ルールの実際の例について説明する。なお分析は、最も簡単には作業者が行うことになるが、自動化をすることも可能である。
(グルーピング構成ルール:グループが成立するのに必要な条件)
・連続するショットの集まりをシーンとする。
・連続するシーンの集まりをシークエンスとする。
・シーンはショットを1つ以上含むこととする。
・シークエンスはシーンを2つ以上含むこととする。
・構成要素が連続している場合のみグループを形成できる。
・1つの作品は1つのシークエンスである。
・シークエンスはシーンの一部だけを含むことはできない
・シークエンスは序破急の3部構成または起承転結の4部構成になることが望ましい。
(グルーピング選好ルール:どのグルーピング構造が好ましいかを示すルール)
・BGMが継続している。
・台詞が継続している。
・人物が継続して登場している。
・場所の移動がない。
・大幅な時間経過がない。
・短いショットが連続する。
・非常に小さいグループへの解析は避ける、特に単一ショットをグループにすることは避ける。
・Q&Aで一つのグループが作成できる。
・以下の撮影技法が観られる場合、境界がある場合が高い。
・インサート、空抜け
・フェード・イン(始)、フェード・アウト(終)、ワイプ、トラジション効果
・オーバーラップ(ディゾルブ)
・黒コマ、白コマのインサート
(木構造の構成ルール:木構造が成立するのに必要な条件)
・幹及び枝はそれぞれ内部に最も重要な場面を持つ。
・幹は枝よりも構造的である。
・シーンとショットの2段階に分けられる。
・枝が深いほど重要でなくなる。
(幹の選好ルール:重要か否かを判断するルール)
・より重要度の高い場面が優先的に幹となる。
・シーンが幹となる。
・導入場面は重要である可能性が高い。
・ショット長が長いほうが重要である可能性が高い。
・以下の撮影技法が観られる場合、強調された場面であり、重要である可能性が高い。
・登場時間の長い人物の場面は重要である可能性が高い。
・シーンの開始部分は重要である可能性が高い。
・シーンの開始部より終止部の方が重要である可能性が高い。
・並行的な部分は並行したヘッドとなる。
・特定の人物の台詞が長い場面は重要である可能性が高い。
・情報量が多い場面は重要である可能性が高い。
図1に戻って、シーン階層レベル設定部3は、シーン階層構造SC1に対するシーン階層レベルLを設定する。シーン階層レベルLは、図4(A)に示すように、要約に使用するシーン区間Snを決定するために、シーン階層構造SC1に対して設定されるものである。本実施の形態では、シーン階層構造SC1に対するシーン階層レベルLの設定位置を任意に設定できるように、シーン階層レベル設定部3が構成されている。シーン区間特定部2は、シーン階層構造SC1から、シーン階層レベル設定部3で設定したシーン階層レベルL以上にある幹Tまたは枝Bにつながる1以上のシーン区間Snを特定する。図4(A)の例では、2本の幹Tにつながる両端の2つのシーン区間Snが、要約に使用されるシーン区間として特定される。
また図1のショット階層レベル設定部6は、シーン区間特定部2によって特定された1以上のシーン区間Snに含まれるショット階層構造SC2中の1以上の部分木構造[図4(B)のPSC1 〜PSC4 ]に個別にショット階層レベル[図4(B)のLa〜Ld]を設定する。図4(B)に示す例では、シーン階層レベル設定部3で設定したシーン階層レベルL以上にある幹T及び枝Bにつながる3つのシーン区間Snが要約に使用されるシーン区間として特定される。すなわち2本の幹Tにつながる両端の2つのシーン区間Snと、1つの枝Bにつながる1つのシーン区間が、要約に使用されるシーン区間として特定される。
ショット区間特定部5は、1以上の部分木構造から、対応するショット階層レベル設定部6で設定したショット階層レベル以上にある幹または枝につながる1以上のショット区間を特定する。具体的には、ショット区間特定部5は、図4(B)に示すように、2本の幹Tにつながる両端の2つのシーン区間Snと、1つの枝Bにつながる1つのシーン区間Snに対応する3つの部分木構造PSC1 ,PSC2及びPSC4から、ショット階層レベル設定部6で設定したショット階層レベル以上にある幹または枝につながる1以上のショット区間Stを特定する。例えば、部分木構造PSC1に対して設定されたショット階層レベルLa以上には1本の幹と1本の枝があり、これらにつながる2つのショット区間Stが要約に使用されるショット区間として特定される。また部分木構造PSC2に対して設定されたショット階層レベルLb以上には1本の幹があり、これにつながる1つのショット区間Stが要約に使用されるショット区間として特定される。さらに部分木構造PSC3に対して設定されたショット階層レベルLc以上には1本の幹と1本の枝があり、これらにつながる2つのショット区間Stが要約に使用されるショット区間として特定される。
要約映像データ作成部7は、ショット区間特定部5により特定された1以上のショット区間Stに含まれる映像に基づいて要約映像データを作成する。具体的には、要約映像データ作成部7は、全てのショット区間に対応した映像データ8の中からショット区間特定部5により特定されたショット区間Stに含まれる部分映像データを抽出して、抽出した複数の部分映像データを合成することにより要約映像データを作成する。そしてこの要約映像データは、映像再生部9によって再生される。
図5(A)及び図5(B)は、本発明の理解を容易にするために、ショットの代表画像を用いて、図4(A)及び図4(B)に示した木構造とシーン区間及びショット区間との関係と同様の関係を示す図である。なお図5(A)及び図5(B)には、図4(A)及び図4(B)示した部分と同様の部分に、図4(A)及び図4(B)中に付した符号と同じ符号を付して説明を省略する。
本実施の形態において、ショット階層レベルを最も下げれば、対応するシーン区間内の全てショット区間が要約のために使用されることになり、ショット階層レベルを上げると、対応するシーン区間内で要約のために使用するショット区間の数が減ることになる。このようにして決定したショット区間から要約に使用する映像を得れば、映像の内容が理解でき且つ要約映像をユーザの求める時間長に収めることが可能になる。そして本実施の形態では、シーン階層レベル設定部3と1以上のショット階層レベル設定部6とを、シーン階層レベルとショット階層レベルとを設定変更可能に構成したので、各シーン区間に対応したショット階層レベルの調整を適宜に行うことにより、ユーザの関心の強い場面(シーン)の映像を多くし、関心の低い場面(シーン)の映像を少なくした要約を作成することができる。
[変形例]
上記実施の形態では、シーン区間特定部によって特定された1以上のシーン区間に含まれるショット階層構造SC2中の複数の部分木構造に対して個別にショット階層レベルを設定するようにショット階層レベル設定部6を構成した。しかしながら図4(B)に示すように、シーン区間特定部2によって特定された1以上のシーン区間に含まれるショット階層構造SC2に対して(複数の部分木構造PSC1 〜PSC4 )に対して1つのショット階層レベルLoだけを設定するように、ショット階層レベル設定部6を構成してもよい。このようにすると1つのショット階層レベルLoだけを調整すればよいので、要約作業をより簡易的なものとすることができる。
また上記実施の形態では、シーン階層構造とショット階層構造とがそれぞれシーン階層構造記憶部1とショット階層構造記憶部4とに別に保存されている。しかしながら本発明では、シーン階層構造とショット階層構造とが連続して構成される連続階層構造を用いることができる。この場合には、連続階層構造を保存する連続階層構造記憶部からシーン階層構造のデータ部分とショット階層構造のデータ部分とを分割して取り出して、シーン区間特定部2及びショット区間特定部5に与えればよい。なおこのようにした場合には、図1に符号10で示すように、連続階層構造を保存する連続階層構造記憶部10の中にシーン階層構造記憶部1及びショット階層構造記憶部4がそれぞれ構成される。
図6は、本発明の要約映像データ作成システムをユーザに負担がかからないようなものとする場合の概念を示す図である。システムへの入力は、ショットに分割された動画ファイルと、ショットの情報が記述されたXMLファイルとすればよい。また出力は選択されたショットをつなぎ合わせた動画データファイルとする。このようにすると例えば、コンピュータ内に本発明の要約映像データ作成システムを実現することができる。図7は、本発明の方法をコンピュータで実施する場合にコンピュータにインストールされるコンピュータプログラムのアルゴリズムを示すフローチャートである。このアルゴリズムでは、コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成するために、シーン階層構造保存ステップST1と、ショット階層構造保存ステップST2と、シーン階層レベル設定ステップST3と、シーン区間特定ステップST4と、ショット階層レベル設定ステップST5と、ショット区間特定ステップST6と、要約映像データ作成ステップST7とを実施する。シーン階層構造保存ステップST1では、関連する内容を持つ、連続して撮影された複数のショットから構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存する。ショット階層構造保存ステップST2では、連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存する。シーン階層レベル設定ステップST3では、シーン階層構造に対してシーン階層レベルを設定する。シーン区間特定ステップST4は、シーン階層構造から、シーン階層レベル以上にある幹または枝につながる1以上のシーン区間を特定する。ショット階層レベル設定ステップST5では、シーン区間特定ステップによって特定された1以上のシーン区間に含まれるショット階層構造中の1以上の部分木構造に対して個別にショット階層レベルを設定する。ショット区間特定ステップST6では、1以上の部分木構造から、対応する部分木構造に対してショット階層レベル設定ステップで設定したショット階層レベル以上にある幹または枝がつながる1以上のショット区間を特定する。要約映像データ作成ステップST7では、ショット区間特定ステップにより特定された1以上のショット区間に含まれる映像データに基づいて要約映像データを作成する。なおショット階層レベル設定ステップST5において、シーン区間特定ステップによって特定された1以上のシーン区間に含まれるショット階層構造に1つのショット階層レベルを設定するようにしてもよいのは勿論である。
本発明によれば、シーン階層構造からシーン階層レベル以上にある幹または枝につながる1以上のシーン区間を特定することにより、要約に使用するシーン区間が決定される。そしてシーン区間に含まれるショット階層構造中の1以上の部分木構造に対して個別にショット階層レベルを設定して、選択されたシーン区間内にある1以上の部分木構造から、ショット階層レベル以上にある幹または枝につながる1以上のショット区間を特定することにより、要約に使用するショット区間を決定する。その結果、決定したシーン区間ごとに、意味のあるショット区間を決定することができる。よって本発明によれば、映像の内容が理解できる要約映像をユーザの求める時間長に収めることが可能になる。
1 シーン階層構造記憶部
2 シーン区間特定部
3 シーン階層レベル設定部
4 ショット階層構造記憶部
5 ショット区間特定部
6 ショット階層レベル設定部
7 要約映像データ作成部
8 映像データ
9 映像再生部

Claims (10)

  1. 映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成システムであって、
    関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存するシーン階層構造記憶部と、
    連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造として保存するショット階層構造記憶部と、
    前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定部と、
    前記シーン階層構造から、前記シーン階層レベル設定部で設定した前記シーン階層レベル以上にある前記幹または前記枝につながる1以上のシーン区間を特定するシーン区間特定部と、
    前記シーン区間特定部によって特定された1以上のシーン区間に含まれる前記ショット階層構造中の1以上の部分木構造に対して個別にショット階層レベルを設定するショット階層レベル設定部と、
    前記1以上の部分木構造から、前記ショット階層レベル設定部で前記部分木構造ごとに個別に設定した前記ショット階層レベル以上にある前記幹または前記枝につながる1以上のショット区間を特定するショット区間特定部と、
    前記ショット区間特定部により特定された前記1以上のショット区間に含まれる映像データに基づいて前記要約映像データを作成する要約映像データ作成部とからなる要約映像データ作成システム。
  2. 前記シーン階層レベル設定部と前記ショット階層レベル設定部とは、任意に前記シーン階層レベルと前記ショット階層レベルとを設定変更可能に構成されている請求項1に記載の要約映像データ作成システム。
  3. 映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成システムであって、
    関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造として保存するシーン階層構造記憶部と、
    連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造として保存するショット階層構造記憶部と、
    前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定部と、
    前記シーン階層構造から、前記シーン階層レベル設定部で設定した前記シーン階層レベル以上にある前記幹または前記枝につながる1以上のシーン区間を特定するシーン区間特定部と、
    前記シーン区間特定部によって特定された1以上のシーン区間に含まれる前記ショット階層構造に対してショット階層レベルを設定するショット階層レベル設定部と、
    前記ショット階層構造から、前記ショット階層レベル設定部で設定した前記ショット階層レベル以上にある前記幹または前記枝につながる1以上のショット区間を特定するショット区間特定部と、
    前記ショット区間特定部により特定された前記1以上のショット区間に含まれる映像データに基づいて前記要約映像データを生成する要約映像データ作成部とからなる要約映像データ作成システム。
  4. 前記シーン階層レベル設定部と前記ショット階層レベル設定部とは、任意に前記シーン階層レベルと前記ショット階層レベルとを設定変更可能に構成されている請求項3に記載の要約映像データ作成システム。
  5. 前記予め定めた分析構造化ルールに従って作業者が分析作業を行って得た結果に基づいて、前記シーン階層構造が生成されている請求項1または3に記載の要約映像データ作成システム。
  6. 前記予め定めた分析構造化ルールに従って作業者が分析作業を行って得た結果に基づいて、前記ショット階層構造が生成されている請求項1または3に記載の要約映像データ作成システム。
  7. コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成方法であって、
    関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存するシーン階層構造保存ステップと、
    連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存するショット階層構造保存ステップと、
    前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定ステップと、
    前記シーン階層構造から、前記シーン階層レベル以上にある前記幹または前記枝につながる1以上のシーン区間を特定するシーン区間特定ステップと、
    前記シーン区間特定ステップによって特定された1以上のシーン区間に含まれる前記ショット階層構造中の1以上の部分木構造に個別にショット階層レベルを設定するショット階層レベル設定ステップと、
    前記1以上の部分木構造から、前記部分木構造ごとに個別に設定した前記ショット階層レベル以上にある前記幹または前記枝につながる1以上のショット区間を特定するショット区間特定ステップと、
    前記ショット区間特定ステップにより特定された前記1以上のショット区間に含まれる映像データに基づいて前記要約映像データを作成する要約映像データ作成ステップとを実施することを特徴とする要約映像データ作成方法。
  8. 請求項7に記載の要約映像データ作成方法を実施するための各ステップをコンピュータで実現するためのコンピュータプログラム。
  9. コンピュータを用いて映像を要約した要約映像を生成するための要約映像データを作成する要約映像データ作成方法であって、
    関連する内容を持つ、連続して撮影された複数のショット区間から構成される複数のシーン区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のシーン階層構造としてシーン階層構造記憶部に保存するシーン階層構造保存ステップと、
    連続して撮影された前記複数のショット区間を予め定めた分析構造化ルールに従って分析した結果を、幹と枝とからなる木構造のショット階層構造としてショット階層構造記憶部に保存するショット階層構造保存ステップと、
    前記シーン階層構造に対してシーン階層レベルを設定するシーン階層レベル設定ステップと、
    前記シーン階層構造から、前記シーン階層レベル設定ステップで設定した前記シーン階層レベル以上にある前記幹または前記枝につながる1以上のシーン区間を特定するシーン区間特定ステップと、
    前記シーン区間特定ステップによって特定された1以上のシーン区間に含まれる前記ショット階層構造にショット階層レベルを設定するショット階層レベル設定ステップと、
    前記ショット階層構造から、前記ショット階層レベル設定ステップで設定した前記ショット階層レベル以上にある前記幹または前記枝につながる1以上のショット区間を特定するショット区間特定ステップと、
    前記ショット区間特定ステップにより特定された前記1以上のショット区間に含まれる映像データに基づいて前記要約映像データを作成する要約映像データ作成ステップとを実施することを特徴とする要約映像データ作成方法。
  10. 請求項9に記載の要約映像データ作成方法を実施するための各ステップをコンピュータで実現するためのコンピュータプログラム。
JP2014046257A 2014-03-10 2014-03-10 要約映像データ作成システム及び方法並びにコンピュータプログラム Active JP6378503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014046257A JP6378503B2 (ja) 2014-03-10 2014-03-10 要約映像データ作成システム及び方法並びにコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014046257A JP6378503B2 (ja) 2014-03-10 2014-03-10 要約映像データ作成システム及び方法並びにコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015171073A JP2015171073A (ja) 2015-09-28
JP6378503B2 true JP6378503B2 (ja) 2018-08-22

Family

ID=54203416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014046257A Active JP6378503B2 (ja) 2014-03-10 2014-03-10 要約映像データ作成システム及び方法並びにコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6378503B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6917210B2 (ja) * 2017-06-20 2021-08-11 日本放送協会 要約映像生成装置およびそのプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08163488A (ja) * 1994-12-12 1996-06-21 Matsushita Electric Ind Co Ltd 動画像ダイジェスト生成方法及び動画像ダイジェスト生成装置
JP2000287166A (ja) * 1999-01-29 2000-10-13 Sony Corp データ記述方法及びデータ処理装置
KR100512138B1 (ko) * 2000-03-08 2005-09-02 엘지전자 주식회사 합성 키프레임을 이용한 비디오 브라우징 시스템
US7047494B2 (en) * 2002-05-07 2006-05-16 Hewlett-Packard Development Company, L.P. Scalable video summarization
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
JP5051539B2 (ja) * 2008-02-05 2012-10-17 独立行政法人科学技術振興機構 モーフィング楽曲生成装置及びモーフィング楽曲生成用プログラム
JP5370170B2 (ja) * 2009-01-15 2013-12-18 株式会社Jvcケンウッド 要約映像生成装置および要約映像生成方法
JP2011164162A (ja) * 2010-02-05 2011-08-25 Kwansei Gakuin 演奏表情付け支援装置

Also Published As

Publication number Publication date
JP2015171073A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
WO2022110354A1 (zh) 一种视频翻译方法、系统、装置及存储介质
CN104780388B (zh) 一种视频数据的切分方法和装置
US8422852B2 (en) Automated story generation
US20190278978A1 (en) Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
US9064538B2 (en) Method and system for generating at least one of: comic strips and storyboards from videos
US20160004911A1 (en) Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
Dorai et al. Bridging the semantic gap in content management systems: Computational media aesthetics
KR20070121810A (ko) 복합 뉴스 스토리 합성
KR20080114786A (ko) 다수의 이미지들 요약의 자동 생성 방법 및 장치
US10992902B2 (en) Aspect ratio conversion with machine learning
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
Hori et al. Multimodal attention for fusion of audio and spatiotemporal features for video description
Jantunen How long is the sign?
JP2022160519A (ja) メディア環境駆動型コンテンツ配信プラットフォーム
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
JP2007336106A (ja) 映像編集支援装置
CN112995756A (zh) 短视频的生成方法及装置、短视频生成系统
Xu et al. Text-to-audio grounding: Building correspondence between captions and sound events
Wang et al. Broadcast news story segmentation using conditional random fields and multimodal features
JP6378503B2 (ja) 要約映像データ作成システム及び方法並びにコンピュータプログラム
Yu et al. Text2Video: automatic video generation based on text scripts
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
Kotsakis et al. Feature-based language discrimination in radio productions via artificial neural training
Zlatintsi et al. Quality evaluation of computational models for movie summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180727

R150 Certificate of patent or registration of utility model

Ref document number: 6378503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250