JP5752585B2 - 映像処理装置、方法及びプログラム - Google Patents

映像処理装置、方法及びプログラム Download PDF

Info

Publication number
JP5752585B2
JP5752585B2 JP2011275865A JP2011275865A JP5752585B2 JP 5752585 B2 JP5752585 B2 JP 5752585B2 JP 2011275865 A JP2011275865 A JP 2011275865A JP 2011275865 A JP2011275865 A JP 2011275865A JP 5752585 B2 JP5752585 B2 JP 5752585B2
Authority
JP
Japan
Prior art keywords
video
section
individual
image
common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011275865A
Other languages
English (en)
Other versions
JP2013126233A (ja
Inventor
滋 本井
滋 本井
山本 晃司
晃司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011275865A priority Critical patent/JP5752585B2/ja
Priority to US13/705,399 priority patent/US8873861B2/en
Publication of JP2013126233A publication Critical patent/JP2013126233A/ja
Application granted granted Critical
Publication of JP5752585B2 publication Critical patent/JP5752585B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、映像処理装置、方法及びプログラムに関する。
結婚式や学校行事など多くの人が集まるイベントでは、複数の撮影者がカメラやビデオでイベントの様子や自分の周辺の様子を撮影する。しかし、個人が撮影した映像は、このようなイベントでの撮影に限らず無駄なシーンや失敗シーンを含むので、撮影者および他人が、未編集のまま個人が撮影した映像を見ることは退屈であり、視聴に要する時間も長くなる。
そこで、映像から重要な区間を抽出して短い映像に編集し、同一のイベントに関して複数の撮像装置により撮影された画像を効率的に閲覧する技術がある。
特開2008−312061号公報
しかしながら、上述の技術は、撮影時刻で対応付けられた複数の映像区間のみが要約に重要な区間であるとして、対応付けられた映像区間から要約映像を生成するので、結婚式のスピーチやケーキカットなどイベントの重要シーンだけが含まれる要約となる。結果として、結婚式でテーブルに座っている友人などの映像といったイベントの重要シーンと関係がない個人的なシーンが含まれず、画一的な要約しか生成されない。
本開示は、多様性に富んだ高品質の要約を生成できる映像処理装置、方法及びプログラムを提供することを目的とする。
本実施形態に係る映像処理装置は、取得部、第1抽出部、生成部、第2抽出部、第1算出部、第1選択部、第3抽出部、第2算出部、第2選択部および統合部を含む。取得部は、画像および音響を含む複数の映像を取得する。第1抽出部は、前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出する。生成部は、前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成する。第2抽出部は、対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出する。第1算出部は、前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出する。第1選択部は、前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択する。第3抽出部は、対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出する。第2算出部は、前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出する。第2選択部は、前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択する。統合部は、前記共通要約区間および前記個別要約区間を統合して要約映像を生成する。
第1の実施形態に係る映像処理装置を示すブロック図。 第1の実施形態に係る映像処理装置の動作を示すフローチャート。 共通要約スコアおよび個別要約スコアの算出方法の一例を示す図。 共通映像区間と個別映像区間とにおける要約対象の選択方法を示す概念図。 共通要約区間の選択方法の一例を示す図。 個別要約区間の選択方法の一例を示す図。 要約映像の生成方法の一例を示す図。 第2の実施形態に係る映像処理装置を示すブロック図。
以下、図面を参照しながら本実施形態に係る映像処理装置、方法及びプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
本実施形態に係る映像処理装置について図1のブロック図を参照して説明する。
本実施形態に係る映像処理装置100は、映像取得部101、特徴量抽出部102、対応区間生成部103、共通区間抽出部104、共通区間スコア算出部105、共通要約区間選択部106、個別区間抽出部107、人物選択部108、個別区間スコア算出部109、個別要約区間選択部110、要約区間統合部111および要約映像出力部112を含む。
映像取得部101は、外部から複数の映像を取得する。なお、「映像」は、ここでは画像と音響とを含む動画を想定する。
特徴量抽出部102は、映像取得部101から複数の映像を受け取り、映像ごとに所定の時間単位で映像の特徴量を抽出する。特徴量は、画像から得られる映像の特性(以下、画像特徴という)および音響から得られる映像の特性(以下、音響特徴という)の少なくともどちらか一方から得られる値である。なお、所定の時間単位は、一定の時間間隔でもよいし、一定のフレーム数でもよい。さらに、抽出する特徴量は、画像特徴および音響特徴のどちらか一方でもよいし、両方を抽出してもよい。
また、入力された映像がMPEG(Motion Pictures Expert Group)などで符号化された形式である場合は、特定の圧縮方式が用いられたフレームから特徴量を抽出してもよい。例えば、MPEGではフレーム内予測方式であるIピクチャと、フレーム間予測方式であるPピクチャおよびBピクチャと呼ばれるフレームとが存在するが、このうちのIピクチャだけを用いればよい。PピクチャおよびBピクチャでは、フレーム間予測に用いた他のフレームも含めて復号する必要があるが、Iピクチャではそのフレームだけを復号すればよいので、高速に処理できる。
画像特徴としては例えば、色や輝度などの画像自体から解析を必要としない低レベル特徴がある。さらに、エッジや周波数成分、動きの大きさ、局所特徴など比較的簡単な解析を行うことで得られる中レベル特徴と、顔検出などで得られる顔情報といった複数の解析を合わせて行うことで得られる高レベル特徴とがある。また、画像特徴は、色ヒストグラムなどの統計量を用いてもよい。
同様に音響特徴も、音量および周波数成分などの低レベル特徴と各種認識手法を用いて得られる高レベル特徴とがある。高レベル特徴としては例えば、音声認識で得られる文字情報や人の声、音楽などの音の種別、話者の識別または分類結果がある。
また、入力された映像がMPEGなどの符号化された形式である場合は、符号化されたデータを用いてもよい。符号化されたデータとは、例えば、画像であれば、DC成分情報、動きベクトル情報やその符号長である。また、音声であれば、周波数情報などを復号することなく抽出し、音響特徴とすることができる。
対応区間生成部103は、特徴量抽出部102から特徴量を受け取り、映像ごとに時間単位で抽出した特徴量が大きく変化する位置で、1つの映像を複数の区間に分割する。その後、各区間の特徴量を比較して類似度を算出する。複数の映像間で区間の類似度が閾値以上であれば、それらの区間を対応付けて対応区間を生成する。
共通区間抽出部104は、対応区間生成部103から対応区間を受け取り、対応区間に対応付けられた映像の数が第1閾値以上である場合、この対応区間を共通映像区間として抽出する。
共通区間スコア算出部105は、特徴量抽出部102から特徴量を、共通区間抽出部104から共通映像区間をそれぞれ受け取り、共通映像区間に含まれる映像の特徴量に基づいて、所定の時間単位で共通要約スコアを算出する。共通要約スコアは、どの程度要約映像に含まれるのに適する区間であるかの度合いを示す値であり、例えば画面に登場する顔の大きさや数、笑顔度、鮮明度などを用いて算出される。なお、共通区間スコア算出部105は、後述する人物選択部108から、要約映像の話題の中心となる要約対象に関する情報を受け取り、要約対象を含む映像部分の共通要約スコアが高くなるように重み付けをしてもよい。なお、要約対象は、本実施形態では要約映像の中心となる人物を例に説明するが、動物、施設および風景など各映像において中心的に撮影されるものであれば何でもよい。
共通要約区間選択部106は、共通区間スコア算出部105から共通映像区間および対応する共通要約スコアを受け取り、共通要約スコアに基づいて共通映像区間の中から要約映像として用いる映像部分を示す共通要約区間を選択する。
個別区間抽出部107は、共通区間抽出部104から対応区間を受け取り、対応区間に対応付けられた映像の数が第2閾値以下である場合、この対応区間を個別映像区間として抽出する。なお、第2閾値は、第1閾値未満であり、ゼロでもよい。すなわち、第2閾値がゼロである場合、2つ以上の映像が対応付けられた対応区間が存在すれば、それらの対応区間は共通映像区間として抽出され、その他の映像が個別映像区間として抽出される。
人物選択部108は、共通区間抽出部104から共通映像区間を、個別区間抽出部107から個別映像区間をそれぞれ受け取り、各区間における要約対象を選択する。
個別区間スコア算出部109は、人物選択部108から個別映像区間と要約対象に関する情報とを受け取り、共通区間スコア算出部105と同様に、個別映像区間に含まれる映像の特徴量に基づいて、所定の時間単位で個別要約スコアを算出する。なお、要約対象を含む個別映像区間の個別要約スコアが高くなるように重み付けをしてもよい。
個別要約区間選択部110は、個別区間スコア算出部109から個別映像区間および対応する個別要約スコアを受け取り、個別要約スコアに基づいて個別映像区間の中から要約映像として用いる区間を示す個別要約区間を選択する。
要約区間統合部111は、共通要約区間選択部106から共通要約区間を、個別要約区間選択部110から個別要約区間をそれぞれ受け取り、共通要約区間と個別要約区間とを統合して要約映像を生成する。
要約映像出力部112は、要約区間統合部111から要約映像を受け取り、要約映像を外部へ出力する。なお、要約映像の代わりに、映像と要約映像に対応する区間とを特定する情報だけでもよい。
次に、本実施形態に係る映像処理装置100の動作について図2のフローチャートを参照して説明する。
ステップS201では、映像取得部101が、外部から複数の映像を取得する。
ステップS202では、特徴量抽出部102が、映像ごとに、所定の時間単位で映像の特徴量を算出する。
ステップS203では、対応区間生成部103が、時間単位ごとに抽出した特徴量が大きく変化する位置で、映像を複数の区間に分割する。例えば、画像のフレーム単位に色のヒストグラムを比較し、距離を算出する。そして、距離が大きくなったフレーム間で分割する。距離は、例えば、ヒストグラムのビンごとに頻度の差の絶対値を求め、全ビンの差の絶対値の総和を距離とする。
ステップS204では、対応区間生成部103が、複数の区間の間で、区間の特徴量を比較して類似度を算出する。例えば、区間の特徴量は、区間に含まれる時間単位の特徴量の平均値または特徴量の分布をもとに作成したモデルのパラメータなどを用いればよい。続いて、対応区間生成部103が、複数の映像から、区間の類似度が閾値以上である区間をそれぞれ対応付けることで、対応区間を生成する。
ステップS205では、共通区間抽出部104が、対応区間にN個以上(Nは2以上の自然数)の数の映像が対応付けられているどうかを判定する。映像の数がN個以上である場合はステップS206に進み、映像の数が第1閾値未満である場合は、ステップS209に進む。
ステップS206では、対応区間にN個以上の数の映像が含まれる場合はイベントの重要なシーンを含むと推測されるので、共通区間抽出部104が、それらの対応区間を共通映像区間として抽出する。
ステップS207では、共通区間スコア算出部105が、所定の時間単位における共通映像区間に含まれる映像について、特徴量を用いて共通要約スコアを算出する。なお、所定の時間単位は、上述した一定の時間間隔または一定のフレーム数に加えて、特徴量を算出した区間単位など一定ではない時間間隔でもよい。
ステップS208では、共通要約区間選択部106が、共通映像区間の中から共通要約スコアが閾値以上である映像部分を共通要約区間として選択する。
ステップS209では、個別区間抽出部107が、対応区間に対応付けられた映像の数が、M個以下(Mは整数、但し、0≦M<N)であるかどうかを判定する。映像の数がM個以下である場合は、ステップS210に進み、映像の数がM個より大きい場合は、ステップS213に進む。
ステップS210では、個別区間抽出部107が、それらの対応区間を個別映像区間として抽出する。
ステップS211では、個別区間スコア算出部109が、特徴量を用いて所定の時間単位における個別映像区間に含まれる映像ごとに、個別要約スコアを算出する。
ステップS212では、個別要約区間選択部110が、個別映像区間から個別要約スコアが閾値以上である映像部分を個別要約区間として選択する。
ステップS213では、要約区間統合部111が、共通要約区間および個別要約区間を統合して要約映像を生成する。
ステップS214では、要約映像出力部112が、要約映像を外部に出力する。以上で本実施形態に係る映像処理装置100の動作を終了する。
次に、共通区間スコア算出部105と個別区間スコア算出部109とにおいてそれぞれ算出される共通要約スコアと個別要約スコアとの算出方法の一例について、図3を参照して説明する。
図3では、映像の特性を表わすための要素を、映像から抽出してゼロから1の間でスコア付けした値の時間変化を示す。具体的には、顔の数301、顔の大きさ302、笑顔度303、鮮明度304、発話305、歓声306および中心人物307といった要素のスコアを算出する。
要約スコア308は、上述の要素ごとのスコアを加算して正規化した値である。加算する際に、要素ごとの重要度に応じて重み付けして加算してもよい。例えば、特定の人物が重要なイベントであれば、中心人物307、顔の大きさ302、および発話305のスコアが高くなるように重み付けし、歓声306のスコアが低くなるように重み付けすればよい。
なお、ここでは要約スコアを複数の要素から算出する例を示したが、映像の時間変化とともにスコアの変化があれば、ひとつの要素から要約スコアを算出してもよい。また、算出コスト削減のために適宜要素数を減らしてもよい。また、スコアの変化は画像のフレームを基準として算出してもよく、例えば画像に付した番号(フレーム番号)をもとに算出してもよい。
次に、共通区間スコア算出部105、人物選択部108および個別区間スコア算出部109における処理について図4を参照して説明する。
図4は、撮影者A、撮影者Bおよび撮影者Cのそれぞれが撮影した映像を示し、各映像間で対応する対応区間は、同じ種類の塗りつぶしパターンが用いられている。ここで、共通映像区間401と個別映像区間402とがすでに抽出されているとする。
人物選択部108は、映像ごとに顔検出で得られた複数の顔の特徴量をクラスタリングして人物ごとに分類する。続いて、人物選択部108は、クラスタの要素数が閾値以上である人物を要約対象として選択する。共通区間スコア算出部105および個別区間スコア算出部109ではそれぞれ、共通要約区間および個別要約区間において、要約対象が映像に含まれる映像区間のスコアが高くなるように重み付けして、共通要約スコアおよび個別要約スコアをそれぞれ算出する。
具体的には、例えば結婚式のイベントでは新郎新婦が要約対象となると想定される。従って、新郎新婦の映像を含む映像区間の共通要約スコア、および新郎新婦の映像を含む映像区間の個別要約スコアが高くなるように重み付けをする。また、顔クラスタリングと異なる手法として、音響特徴による話者クラスタリングを行い、人物ごとに分類してもよい。この場合、音響特徴として例えば周波数成分からMFCC(メル周波数ケプストラム係数)などを用いてもよい。
このように、要約対象が多く出現するコンテンツについては、個別要約スコアを算出する際に、要約対象を含む映像区間のスコアを高くすることにより、イベントの中心人物に関連しつつ個別の映像も含めることができるので、要約の主題に沿って多様性に富んだ要約映像を生成することができる。
一方、顔クラスタリングや話者クラスタリングで得られた人物ごとのクラスタの要素数が一定の閾値よりも小さい場合は、全体を通しての要約対象がいないと想定される。この場合は、共通映像区間401および個別映像区間402ごとに顔クラスタリングまたは話者クラスタリングを行い、クラスタの要素数が閾値よりも大きい場合、閾値を超えた要素数を含む映像区間の共通要約スコアまたは個別要約スコアが高くなるように重み付けする。
例えば、セミナーや学会などでは複数の講師、複数の発表者が講演することが想定され、共通映像区間として各講演が抽出されることが想定されるが、共通映像区間全体を通して要約対象として選択される人物はいないと想定される。そこで、共通映像区間ごとの要約対象を算出することで、各講師、および各発表者の映像を含む区間のスコアが高くなり、要約映像として含めることができる。
また、個別区間スコア算出部109は、共通映像区間として選択された区間の特徴量と、個別映像区間として選択された区間の特徴量とを比較し、互いの特徴量が異なる値であるほど個別映像区間の要約スコアが高くなるように重み付けしてもよい。この場合、個別区間スコア算出部109は、人物選択部108から共通映像区間と個別映像区間とを、特徴量抽出部102から共通映像区間と個別映像区間とに対応する特徴量を受け取る。その後、画像特徴として動きベクトルを用いて、共通映像区間の映像の動きベクトルと個別映像区間の映像の動きベクトルとの類似度を計算し、類似度が閾値より低い個別映像区間の要約スコアに対して、要約スコアが高くなるように重み付けを行えばよい。
なお、共通映像区間および個別映像区間の数が増加し、要約スコアの計算に時間がかかる場合は、映像区間における色やエッジ成分をヒストグラム化して比較することで、高速に類似度を求めることができる。また、特徴量が音響特徴である場合にも同様に類似度を計算することができる。
さらに、個別区間スコア算出部109は、共通映像区間と個別映像区間とにおいて特徴量の類似度を計算した場合と同様に、個別映像区間どうしの特徴量を比較した場合に、互いに異なる特徴量を有するほど要約スコアが高くなるように重み付けしてもよい。
また、個別区間スコア算出部109は、個別映像区間の対応付けられた区間の数が少ないほど、この個別映像区間の要約スコアを高く設定してもよい。このようにすることで、個別要約区間としてよりばらけた映像区間を選択することができる。
次に、共通要約区間選択部106における共通要約区間の選択処理について図5を参照して説明する。
一例として図3の要約スコア308に基づいて共通要約区間を選択する場合を示す。図5に示すように、共通要約区間選択部106は、要約スコアが閾値501以上の区間である、区間502−1から区間502−4までを共通要約区間として選択する。なお、閾値501は、予め設定した値でもよいし、要約区間の数または要約区間の時間の総和が所定の値となるように設定されてもよい。例えば要約区間の時間が15分である場合、15分の要約映像となるように閾値以上の映像区間を組み合わせればよい。
次に、個別要約区間選択部110における個別要約区間の選択処理について図6を参照して説明する。
図6は、撮影者A、撮影者Bおよび撮影者Cが撮影した映像の要約スコア601−1、要約スコア601−2および要約スコア601−3をそれぞれ示す。共通要約区間選択部106と同様に個別要約区間選択部110は、各映像から、要約スコアが閾値602以上である区間603−1から区間603−5を個別要約区間として選択する。なお、閾値602は、共通要約区間選択部106における閾値と同じ値でもよいし、異なる値に設定されてもよい。
また、撮影者によって異なる閾値602が設定されてもよい。こうすることで、個別要約区間に、要約対象以外の所望の人物を多く含む要約映像を生成することができる。例えば、結婚式において、新郎新婦の親族が撮影した映像の閾値を低く設定し、友人が撮影した映像の閾値を高く設定する。これによって、要約スコアの閾値が低い映像からは多くの区間が個別要約区間として選択され、要約スコアの閾値が高い映像から選択される区間は少なくなる。結果として、個別要約区間として親族が映る映像区間が多く含まれるので、親族が要約映像を閲覧する際に楽しめる要約映像を生成することができる。
次に、要約区間統合部111の統合処理について図7を参照して説明する。
図7では、共通要約区間選択部106と個別要約区間選択部110とにおいてそれぞれ抽出された共通要約区間と個別要約区間とを、時系列順に統合して要約映像を生成する。具体的には、1番早い時刻である共通要約区間502−1を選択し、2番目に早い時刻である撮影者Aが撮影した映像区間である個別要約区間603−1を選択し、続いて3番目に早い時刻である撮影者Bが撮影した映像区間である個別要約区間603−2を選択するといった手順で各区間を統合して要約映像701を生成する。なお、ここでは時系列順に各要約区間を統合したが、先に共通要約区間502のみを統合し、その後に個別要約区間603のみを統合してもよい。このようにすることで、要約映像701のバリエーションを増やすことができる。
以上に示した第1の実施形態によれば、複数の映像から要約映像を作成する際に、映像に関する特徴量を用いて区間の対応付けを行い、イベントの重要シーンとなる共通要約区間と重要シーンと異なる個別の映像である個別要約区間とを用いて要約映像を生成することにより、重要シーンに加え、個人的な映像も要約映像に含めることができる。よって、重要シーンのみで構成されるような画一的な要約ではなく、多様性に富んだ高品質の要約映像を生成できる。
(第2の実施形態)
第2の実施形態では、典型パターンに対応する映像区間を要約映像に含める点が異なる。典型パターンは、所定の映像構成となるような映像区間の組み合わせを示す。要約映像に典型パターンを含めた構成にすることで、より高品質な要約映像を生成することができる。
第2の実施形態に係る映像処理装置について図8のブロック図を参照して説明する。
第2の実施形態に係る映像処理装置800は、映像取得部101、特徴量抽出部102、対応区間生成部103、共通区間抽出部104、共通区間スコア算出部105、共通要約区間選択部106、個別区間抽出部107、人物選択部108、個別区間スコア算出部109、要約区間統合部111、要約映像出力部112、典型パターン検出部801、スコア補正部802および個別要約区間選択部803を含む。
なお、映像取得部101、特徴量抽出部102、対応区間生成部103、共通区間抽出部104、共通区間スコア算出部105、共通要約区間選択部106、個別区間抽出部107、人物選択部108、個別区間スコア算出部109、要約区間統合部111および要約映像出力部112は、第1の実施形態と同様の動作を行うためここでの説明は省略する。
典型パターン検出部801は、個別区間スコア算出部109から個別映像区間の特徴量を受け取り、典型パターン辞書から典型パターンの特徴量モデルをそれぞれ受け取り、個別映像区間の特徴量と典型パターンの特徴量モデルとを比較して類似度を算出する。特徴量モデルは、典型パターンとしての映像の特徴量をモデル化し、時系列に表したモデルである。なお、典型パターン辞書は、典型パターン検出部801に予め格納してもよいし、外部から参照するようにしてもよい。
スコア補正部802は、典型パターン検出部801から個別映像区間と個別映像区間に対応する類似度とを受け取り、類似度が閾値以上である個別映像区間の要約スコアには補正値を加算し、補正要約スコアを算出する。具体的には、後段の個別要約区間選択部110において個別要約区間として選択されるように、個別要約区間選択部110で設定される閾値よりも高くなるように補正値を設定すればよい。
個別要約区間選択部803は、第1の実施形態とほぼ同様の動作を行い、スコア補正部802から要約スコアまたは補正要約スコアを受け取り、要約スコアおよび補正要約スコアに基づいて個別要約区間を選択する。
以下、典型パターンの具体例について説明する。
複数の映像が撮影されるイベントとしては、例えば、結婚式、学芸会、舞台、演劇、ダンス、運動会、音楽ライブ、セミナー、講演、スポーツ観戦、花火大会、パーティなどが挙げられる。
それぞれのイベントにおいて、個別要約区間となり得るシーンや撮影対象を列挙すると、例えば結婚式では、式場付近のシーン、受付待ちの友人の談話シーン、コース料理、座席の友人の様子、入退場時の会場の様子、また共通要約区間として選択されたシーン(例えば、友人による余興)における会場の雰囲気などが挙げられる。学芸会では、会場付近のシーン、演目の前後のシーン、休憩中の会場の雰囲気、および、家族と友人と特定の演者とのいずれかを大写しにしたシーンが挙げられる。
また、運動会においては、門や校舎、観客席、家族、友人、先生、お弁当、スコアボード、特定の人物を大写しにしたシーンなどが挙げられる。音楽ライブなどにおいては、曲間の会場、演奏時の会場、休憩中の会場の雰囲気などが挙げられる。セミナーなどにおいては、講師と講師との間のシーン、会場の雰囲気、休憩中の会場の雰囲気などが挙げられる。花火大会については、会場のシーン、友人、家族、料理、景色などが挙げられる。パーティなどでは、会場シーン、プレゼント、料理、友人および家族などが挙げられる。
上述の項目のうち、例えば料理を典型パターンとしたい場合は、お皿の色またはエッジ特徴量を典型パターンの特徴量モデルのパラメータとすればよい。また、建物内のシーンを典型パターンとしたい場合は、構図やエッジ特徴量などを典型パターンの特徴量モデルのパラメータとすればよい。なお、典型パターン辞書の代わりに認識技術を用いてもよい。
以上に示した第2の実施形態によれば、個別映像区間の特徴量と典型パターンの特徴量モデルとの類似度を比較し、閾値以上の類似度を有する映像区間を要約映像に含めることで、プロの編集者が編集したような典型パターンに沿った要約映像となり、より高品質な要約映像を生成することができる。
なお、本実施形態では映像として動画を想定しているが、静止画についても同様の処理を行うことができる。1秒間に1枚から10数枚程度の細かい間隔で撮影された静止画であれば、動画を1フレームごとに展開して処理したものと考えられるので、画像特徴のみを用いて上述した処理を行い、要約画像を生成することができる。また、一般的な撮影間隔の写真であっても、撮影時間が近いものをクラスタリングした上で、画像特徴から写真間の類似度を算出して対応付けることで、同様の処理を行うことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した映像処理装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の映像処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,800・・・映像処理装置、101・・・映像取得部、102・・・特徴量抽出部、103・・・対応区間生成部、104・・・共通区間抽出部、105・・・共通区間スコア算出部、106・・・共通要約区間選択部、107・・・個別区間抽出部、108・・・人物選択部、109・・・個別区間スコア算出部、110,803・・・個別要約区間選択部、111・・・要約区間統合部、112・・・要約映像出力部、301・・・顔の数、302・・・顔の大きさ、303・・・笑顔度、304・・・鮮明度、305・・・発話、306・・・歓声、307・・・中心人物、308,601・・・要約スコア、401・・・共通映像区間、402・・・個別映像区間、501,602・・・閾値、503・・・共通要約区間、603・・・個別要約区間、701・・・要約映像、801・・・典型パターン検出部、802・・・スコア補正部。

Claims (9)

  1. 画像および音響を含む複数の映像を取得する取得部と、
    前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出する第1抽出部と、
    前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成する生成部と、
    対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出する第2抽出部と、
    前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出する第1算出部と、
    前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択する第1選択部と、
    対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出する第3抽出部と、
    前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出する第2算出部と、
    前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択する第2選択部と、
    前記共通要約区間および前記個別要約区間を統合して要約映像を生成する統合部と、を具備することを特徴とする映像処理装置。
  2. 前記第2算出部は、前記共通映像区間の特徴量と前記個別映像区間の特徴量とを比較し、互いの特徴量が異なるほど該個別映像区間の第2要約スコアが高くなるように重み付けることを特徴とする請求項1に記載の映像処理装置。
  3. 前記第2算出部は、前記個別映像区間の特徴量どうしを比較し、互いの特徴量が異なるほど互いの第2要約スコアが高くなるように重み付けることを特徴とする請求項1または請求項2に記載の映像処理装置。
  4. 前記第2算出部は、前記個別映像区間として対応付けられた映像の数が少ないほど該個別映像区間の第2要約スコアが高くなるように重み付けることを特徴とする請求項1から請求項3のいずれか1項に記載の映像処理装置。
  5. 所定の映像構成となる映像区間の組み合わせを示す典型パターンの特徴量モデルと、前記個別映像区間の特徴量との類似度を算出し、該類似度が第4閾値以上である第1個別映像区間を検出する検出部と、
    前記第1個別映像区間について、該第1個別映像区間の第2要約スコアに補正値を加算し、補正要約スコアを生成する補正部と、をさらに具備し、
    前記第2選択部は、前記第2要約スコアおよび前記補正要約スコアに基づいて前記個別要約区間を選択することを特徴とする請求項1から請求項4のいずれか1項に記載の映像処理装置。
  6. 前記共通映像区間および前記個別映像区間のそれぞれにおいて、前記要約映像の話題の中心となる要約対象を選択する第3選択部をさらに具備し、
    前記第2算出部は、前記要約対象を含む個別映像区間の第2要約スコアが高くなるように重み付けることを特徴とする請求項1から請求項5のいずれか1項に記載の映像処理装置。
  7. 画像および音響を含む複数の映像を取得し、
    前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出し、
    前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成し、
    対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出し、
    前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出し、
    前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択し、
    対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出し、
    前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出し、
    前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択し、
    前記共通要約区間および前記個別要約区間を統合して要約映像を生成することを具備することを特徴とする映像処理方法。
  8. コンピュータを、
    画像および音響を含む複数の映像を取得する取得手段と、
    前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出する第1抽出手段と、
    前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成する生成手段と、
    対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出する第2抽出手段と、
    前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出する第1算出手段と、
    前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択する第1選択手段と、
    対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出する第3抽出手段と、
    前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出する第2算出手段と、
    前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択する第2選択手段と、
    前記共通要約区間および前記個別要約区間を統合して要約映像を生成する統合手段として機能させるための映像処理プログラム。
  9. 複数の画像を含む1以上の画像群を取得する取得部と、
    前記画像群ごとに、前記画像を解析し、画像の特性を示しかつ前記1以上の画像群の間で共通の特徴を示す1以上の特徴量を抽出する第1抽出部と、
    前記画像群ごとに、前記特徴量の変化に応じて該画像群に含まれる画像同士の特徴量の類似度が第1閾値以上の画像を前記複数の画像間で対応付けて、複数の画像を含む対応画像を生成する生成部と、
    前記対応画像を含んだ前記画像群の数が第2閾値以上であるかどうかを対応画像ごとに判定し、前記画像群の数が該第2閾値以上の対応画像を共通画像として抽出する第2抽出部と、
    前記共通画像の前記特徴量を用いて、共通画像で定義され時間を変数とするスコアであって該共通画像に含まれる画像を要約画像に含める度合いを示す第1要約スコアを算出する第1算出部と、
    前記第1要約スコアに基づいて、前記共通画像から要約画像に用いる画像を第1要約画像として選択する第1選択部と、
    前記対応画像を含んだ前記画像群の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応画像ごとに判定し、前記画像群の数が該第3閾値以下の対応画像を個別画像として抽出する第3抽出部と、
    前記個別画像の前記特徴量を用いて、個別画像で定義され時間を変数とするスコアであって該個別画像に含まれる画像を要約画像に含める度合いを示す第2要約スコアを算出する第2算出部と、
    前記第2要約スコアに基づいて、前記個別画像から要約画像に用いる画像を第2要約画像として選択する第2選択部と、
    前記第1要約画像および前記第2要約画像を統合して要約映像を生成する統合部と、を具備することを特徴とする映像処理装置。
JP2011275865A 2011-12-16 2011-12-16 映像処理装置、方法及びプログラム Expired - Fee Related JP5752585B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011275865A JP5752585B2 (ja) 2011-12-16 2011-12-16 映像処理装置、方法及びプログラム
US13/705,399 US8873861B2 (en) 2011-12-16 2012-12-05 Video processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011275865A JP5752585B2 (ja) 2011-12-16 2011-12-16 映像処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013126233A JP2013126233A (ja) 2013-06-24
JP5752585B2 true JP5752585B2 (ja) 2015-07-22

Family

ID=48610207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011275865A Expired - Fee Related JP5752585B2 (ja) 2011-12-16 2011-12-16 映像処理装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US8873861B2 (ja)
JP (1) JP5752585B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150350622A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Packed i-frames
US9805268B2 (en) * 2014-07-14 2017-10-31 Carnegie Mellon University System and method for processing a video stream to extract highlights
US10452713B2 (en) 2014-09-30 2019-10-22 Apple Inc. Video analysis techniques for improved editing, navigation, and summarization
US20160127807A1 (en) * 2014-10-29 2016-05-05 EchoStar Technologies, L.L.C. Dynamically determined audiovisual content guidebook
US10074015B1 (en) 2015-04-13 2018-09-11 Google Llc Methods, systems, and media for generating a summarized video with video thumbnails
US10229324B2 (en) * 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
US10917703B2 (en) * 2016-11-28 2021-02-09 Rovi Guides, Inc. System and method for generating a custom summary of unconsumed portions of a series of media assets
US10740620B2 (en) 2017-10-12 2020-08-11 Google Llc Generating a video segment of an action from a video
JP6360271B1 (ja) * 2018-04-06 2018-07-18 株式会社Medi Plus 医療動画処理システム
US11222208B2 (en) 2018-07-13 2022-01-11 Futurewei Technologies, Inc. Portrait image evaluation based on aesthetics
CN110798752B (zh) * 2018-08-03 2021-10-15 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN109257545B (zh) * 2018-08-27 2021-04-13 咪咕文化科技有限公司 一种多源视频剪辑方法、装置及存储介质
CN112069952B (zh) * 2020-08-25 2024-10-15 北京小米松果电子有限公司 视频片段提取方法、视频片段提取装置及存储介质
US11144767B1 (en) * 2021-03-17 2021-10-12 Gopro, Inc. Media summary generation
US11610402B2 (en) * 2021-05-11 2023-03-21 CLIPr Co. System and method for crowdsourcing a video summary for creating an enhanced video summary

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045603A1 (fr) * 1999-01-29 2000-08-03 Sony Corporation Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux
JP3617052B2 (ja) * 2001-08-30 2005-02-02 日本電気株式会社 カメラ映像提供システム及びカメラ映像の時刻補正方法
US20100017716A1 (en) * 2006-08-25 2010-01-21 Koninklijke Philips Electronics N.V. Method and apparatus for generating a summary
JP2008178090A (ja) * 2006-12-22 2008-07-31 Victor Co Of Japan Ltd 映像処理装置
JP4360425B2 (ja) * 2007-06-15 2009-11-11 ソニー株式会社 画像処理装置、その処理方法およびプログラム
JP2011155477A (ja) * 2010-01-27 2011-08-11 Canon Inc 映像処理装置、映像処理方法及びプログラム
JP5092000B2 (ja) 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム

Also Published As

Publication number Publication date
US20130156321A1 (en) 2013-06-20
JP2013126233A (ja) 2013-06-24
US8873861B2 (en) 2014-10-28

Similar Documents

Publication Publication Date Title
JP5752585B2 (ja) 映像処理装置、方法及びプログラム
JP5092000B2 (ja) 映像処理装置、方法、及び映像処理システム
US8948515B2 (en) Method and system for classifying one or more images
US9570107B2 (en) System and method for semi-automatic video editing
Hanjalic Adaptive extraction of highlights from a sport video based on excitement modeling
US9189137B2 (en) Method and system for browsing, searching and sharing of personal video by a non-parametric approach
US9554111B2 (en) System and method for semi-automatic video editing
US10541000B1 (en) User input-based video summarization
JP4257615B2 (ja) 画像処理装置および方法、並びにプログラム
US8542982B2 (en) Image/video data editing apparatus and method for generating image or video soundtracks
US20170065889A1 (en) Identifying And Extracting Video Game Highlights Based On Audio Analysis
CN106375674A (zh) 寻找和使用与相邻静态图像相关的视频部分的方法和装置
JP2006148932A (ja) スポーツ動映像の要約方法及び装置
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
US20080260184A1 (en) Virtual Recording Studio
US20230156245A1 (en) Systems and methods for processing and presenting media data to allow virtual engagement in events
JP5209593B2 (ja) 映像編集装置,映像編集方法および映像編集プログラム
JP2020127714A (ja) ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム
JP2006140559A (ja) 画像再生装置及び画像再生方法
JP5658285B2 (ja) 興味区間抽出装置、興味区間抽出方法
JPWO2013132557A1 (ja) コンテンツ加工装置とその集積回路、方法、およびプログラム
KR102550528B1 (ko) 고화질 카메라를 이용한 분할영상 선택 시스템 및 그 방법
US20240112390A1 (en) Video-Generation System WITH STRUCTURED DATA-BASED VIDEO GENERATION FEATURE
US20130151969A1 (en) Content Identification and Linking

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150520

LAPS Cancellation because of no payment of annual fees