JP5752585B2 - 映像処理装置、方法及びプログラム - Google Patents
映像処理装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5752585B2 JP5752585B2 JP2011275865A JP2011275865A JP5752585B2 JP 5752585 B2 JP5752585 B2 JP 5752585B2 JP 2011275865 A JP2011275865 A JP 2011275865A JP 2011275865 A JP2011275865 A JP 2011275865A JP 5752585 B2 JP5752585 B2 JP 5752585B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- section
- individual
- image
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title description 23
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 41
- 230000010354 integration Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000386 athletic effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
そこで、映像から重要な区間を抽出して短い映像に編集し、同一のイベントに関して複数の撮像装置により撮影された画像を効率的に閲覧する技術がある。
本実施形態に係る映像処理装置について図1のブロック図を参照して説明する。
本実施形態に係る映像処理装置100は、映像取得部101、特徴量抽出部102、対応区間生成部103、共通区間抽出部104、共通区間スコア算出部105、共通要約区間選択部106、個別区間抽出部107、人物選択部108、個別区間スコア算出部109、個別要約区間選択部110、要約区間統合部111および要約映像出力部112を含む。
また、入力された映像がMPEG(Motion Pictures Expert Group)などで符号化された形式である場合は、特定の圧縮方式が用いられたフレームから特徴量を抽出してもよい。例えば、MPEGではフレーム内予測方式であるIピクチャと、フレーム間予測方式であるPピクチャおよびBピクチャと呼ばれるフレームとが存在するが、このうちのIピクチャだけを用いればよい。PピクチャおよびBピクチャでは、フレーム間予測に用いた他のフレームも含めて復号する必要があるが、Iピクチャではそのフレームだけを復号すればよいので、高速に処理できる。
同様に音響特徴も、音量および周波数成分などの低レベル特徴と各種認識手法を用いて得られる高レベル特徴とがある。高レベル特徴としては例えば、音声認識で得られる文字情報や人の声、音楽などの音の種別、話者の識別または分類結果がある。
また、入力された映像がMPEGなどの符号化された形式である場合は、符号化されたデータを用いてもよい。符号化されたデータとは、例えば、画像であれば、DC成分情報、動きベクトル情報やその符号長である。また、音声であれば、周波数情報などを復号することなく抽出し、音響特徴とすることができる。
共通区間抽出部104は、対応区間生成部103から対応区間を受け取り、対応区間に対応付けられた映像の数が第1閾値以上である場合、この対応区間を共通映像区間として抽出する。
共通区間スコア算出部105は、特徴量抽出部102から特徴量を、共通区間抽出部104から共通映像区間をそれぞれ受け取り、共通映像区間に含まれる映像の特徴量に基づいて、所定の時間単位で共通要約スコアを算出する。共通要約スコアは、どの程度要約映像に含まれるのに適する区間であるかの度合いを示す値であり、例えば画面に登場する顔の大きさや数、笑顔度、鮮明度などを用いて算出される。なお、共通区間スコア算出部105は、後述する人物選択部108から、要約映像の話題の中心となる要約対象に関する情報を受け取り、要約対象を含む映像部分の共通要約スコアが高くなるように重み付けをしてもよい。なお、要約対象は、本実施形態では要約映像の中心となる人物を例に説明するが、動物、施設および風景など各映像において中心的に撮影されるものであれば何でもよい。
共通要約区間選択部106は、共通区間スコア算出部105から共通映像区間および対応する共通要約スコアを受け取り、共通要約スコアに基づいて共通映像区間の中から要約映像として用いる映像部分を示す共通要約区間を選択する。
人物選択部108は、共通区間抽出部104から共通映像区間を、個別区間抽出部107から個別映像区間をそれぞれ受け取り、各区間における要約対象を選択する。
個別区間スコア算出部109は、人物選択部108から個別映像区間と要約対象に関する情報とを受け取り、共通区間スコア算出部105と同様に、個別映像区間に含まれる映像の特徴量に基づいて、所定の時間単位で個別要約スコアを算出する。なお、要約対象を含む個別映像区間の個別要約スコアが高くなるように重み付けをしてもよい。
要約区間統合部111は、共通要約区間選択部106から共通要約区間を、個別要約区間選択部110から個別要約区間をそれぞれ受け取り、共通要約区間と個別要約区間とを統合して要約映像を生成する。
要約映像出力部112は、要約区間統合部111から要約映像を受け取り、要約映像を外部へ出力する。なお、要約映像の代わりに、映像と要約映像に対応する区間とを特定する情報だけでもよい。
ステップS201では、映像取得部101が、外部から複数の映像を取得する。
ステップS202では、特徴量抽出部102が、映像ごとに、所定の時間単位で映像の特徴量を算出する。
ステップS203では、対応区間生成部103が、時間単位ごとに抽出した特徴量が大きく変化する位置で、映像を複数の区間に分割する。例えば、画像のフレーム単位に色のヒストグラムを比較し、距離を算出する。そして、距離が大きくなったフレーム間で分割する。距離は、例えば、ヒストグラムのビンごとに頻度の差の絶対値を求め、全ビンの差の絶対値の総和を距離とする。
ステップS205では、共通区間抽出部104が、対応区間にN個以上(Nは2以上の自然数)の数の映像が対応付けられているどうかを判定する。映像の数がN個以上である場合はステップS206に進み、映像の数が第1閾値未満である場合は、ステップS209に進む。
ステップS206では、対応区間にN個以上の数の映像が含まれる場合はイベントの重要なシーンを含むと推測されるので、共通区間抽出部104が、それらの対応区間を共通映像区間として抽出する。
ステップS208では、共通要約区間選択部106が、共通映像区間の中から共通要約スコアが閾値以上である映像部分を共通要約区間として選択する。
ステップS209では、個別区間抽出部107が、対応区間に対応付けられた映像の数が、M個以下(Mは整数、但し、0≦M<N)であるかどうかを判定する。映像の数がM個以下である場合は、ステップS210に進み、映像の数がM個より大きい場合は、ステップS213に進む。
ステップS210では、個別区間抽出部107が、それらの対応区間を個別映像区間として抽出する。
ステップS212では、個別要約区間選択部110が、個別映像区間から個別要約スコアが閾値以上である映像部分を個別要約区間として選択する。
ステップS213では、要約区間統合部111が、共通要約区間および個別要約区間を統合して要約映像を生成する。
ステップS214では、要約映像出力部112が、要約映像を外部に出力する。以上で本実施形態に係る映像処理装置100の動作を終了する。
図3では、映像の特性を表わすための要素を、映像から抽出してゼロから1の間でスコア付けした値の時間変化を示す。具体的には、顔の数301、顔の大きさ302、笑顔度303、鮮明度304、発話305、歓声306および中心人物307といった要素のスコアを算出する。
なお、ここでは要約スコアを複数の要素から算出する例を示したが、映像の時間変化とともにスコアの変化があれば、ひとつの要素から要約スコアを算出してもよい。また、算出コスト削減のために適宜要素数を減らしてもよい。また、スコアの変化は画像のフレームを基準として算出してもよく、例えば画像に付した番号(フレーム番号)をもとに算出してもよい。
図4は、撮影者A、撮影者Bおよび撮影者Cのそれぞれが撮影した映像を示し、各映像間で対応する対応区間は、同じ種類の塗りつぶしパターンが用いられている。ここで、共通映像区間401と個別映像区間402とがすでに抽出されているとする。
人物選択部108は、映像ごとに顔検出で得られた複数の顔の特徴量をクラスタリングして人物ごとに分類する。続いて、人物選択部108は、クラスタの要素数が閾値以上である人物を要約対象として選択する。共通区間スコア算出部105および個別区間スコア算出部109ではそれぞれ、共通要約区間および個別要約区間において、要約対象が映像に含まれる映像区間のスコアが高くなるように重み付けして、共通要約スコアおよび個別要約スコアをそれぞれ算出する。
このように、要約対象が多く出現するコンテンツについては、個別要約スコアを算出する際に、要約対象を含む映像区間のスコアを高くすることにより、イベントの中心人物に関連しつつ個別の映像も含めることができるので、要約の主題に沿って多様性に富んだ要約映像を生成することができる。
例えば、セミナーや学会などでは複数の講師、複数の発表者が講演することが想定され、共通映像区間として各講演が抽出されることが想定されるが、共通映像区間全体を通して要約対象として選択される人物はいないと想定される。そこで、共通映像区間ごとの要約対象を算出することで、各講師、および各発表者の映像を含む区間のスコアが高くなり、要約映像として含めることができる。
なお、共通映像区間および個別映像区間の数が増加し、要約スコアの計算に時間がかかる場合は、映像区間における色やエッジ成分をヒストグラム化して比較することで、高速に類似度を求めることができる。また、特徴量が音響特徴である場合にも同様に類似度を計算することができる。
また、個別区間スコア算出部109は、個別映像区間の対応付けられた区間の数が少ないほど、この個別映像区間の要約スコアを高く設定してもよい。このようにすることで、個別要約区間としてよりばらけた映像区間を選択することができる。
一例として図3の要約スコア308に基づいて共通要約区間を選択する場合を示す。図5に示すように、共通要約区間選択部106は、要約スコアが閾値501以上の区間である、区間502−1から区間502−4までを共通要約区間として選択する。なお、閾値501は、予め設定した値でもよいし、要約区間の数または要約区間の時間の総和が所定の値となるように設定されてもよい。例えば要約区間の時間が15分である場合、15分の要約映像となるように閾値以上の映像区間を組み合わせればよい。
図6は、撮影者A、撮影者Bおよび撮影者Cが撮影した映像の要約スコア601−1、要約スコア601−2および要約スコア601−3をそれぞれ示す。共通要約区間選択部106と同様に個別要約区間選択部110は、各映像から、要約スコアが閾値602以上である区間603−1から区間603−5を個別要約区間として選択する。なお、閾値602は、共通要約区間選択部106における閾値と同じ値でもよいし、異なる値に設定されてもよい。
図7では、共通要約区間選択部106と個別要約区間選択部110とにおいてそれぞれ抽出された共通要約区間と個別要約区間とを、時系列順に統合して要約映像を生成する。具体的には、1番早い時刻である共通要約区間502−1を選択し、2番目に早い時刻である撮影者Aが撮影した映像区間である個別要約区間603−1を選択し、続いて3番目に早い時刻である撮影者Bが撮影した映像区間である個別要約区間603−2を選択するといった手順で各区間を統合して要約映像701を生成する。なお、ここでは時系列順に各要約区間を統合したが、先に共通要約区間502のみを統合し、その後に個別要約区間603のみを統合してもよい。このようにすることで、要約映像701のバリエーションを増やすことができる。
第2の実施形態では、典型パターンに対応する映像区間を要約映像に含める点が異なる。典型パターンは、所定の映像構成となるような映像区間の組み合わせを示す。要約映像に典型パターンを含めた構成にすることで、より高品質な要約映像を生成することができる。
第2の実施形態に係る映像処理装置について図8のブロック図を参照して説明する。
第2の実施形態に係る映像処理装置800は、映像取得部101、特徴量抽出部102、対応区間生成部103、共通区間抽出部104、共通区間スコア算出部105、共通要約区間選択部106、個別区間抽出部107、人物選択部108、個別区間スコア算出部109、要約区間統合部111、要約映像出力部112、典型パターン検出部801、スコア補正部802および個別要約区間選択部803を含む。
なお、映像取得部101、特徴量抽出部102、対応区間生成部103、共通区間抽出部104、共通区間スコア算出部105、共通要約区間選択部106、個別区間抽出部107、人物選択部108、個別区間スコア算出部109、要約区間統合部111および要約映像出力部112は、第1の実施形態と同様の動作を行うためここでの説明は省略する。
個別要約区間選択部803は、第1の実施形態とほぼ同様の動作を行い、スコア補正部802から要約スコアまたは補正要約スコアを受け取り、要約スコアおよび補正要約スコアに基づいて個別要約区間を選択する。
以下、典型パターンの具体例について説明する。
複数の映像が撮影されるイベントとしては、例えば、結婚式、学芸会、舞台、演劇、ダンス、運動会、音楽ライブ、セミナー、講演、スポーツ観戦、花火大会、パーティなどが挙げられる。
それぞれのイベントにおいて、個別要約区間となり得るシーンや撮影対象を列挙すると、例えば結婚式では、式場付近のシーン、受付待ちの友人の談話シーン、コース料理、座席の友人の様子、入退場時の会場の様子、また共通要約区間として選択されたシーン(例えば、友人による余興)における会場の雰囲気などが挙げられる。学芸会では、会場付近のシーン、演目の前後のシーン、休憩中の会場の雰囲気、および、家族と友人と特定の演者とのいずれかを大写しにしたシーンが挙げられる。
また、運動会においては、門や校舎、観客席、家族、友人、先生、お弁当、スコアボード、特定の人物を大写しにしたシーンなどが挙げられる。音楽ライブなどにおいては、曲間の会場、演奏時の会場、休憩中の会場の雰囲気などが挙げられる。セミナーなどにおいては、講師と講師との間のシーン、会場の雰囲気、休憩中の会場の雰囲気などが挙げられる。花火大会については、会場のシーン、友人、家族、料理、景色などが挙げられる。パーティなどでは、会場シーン、プレゼント、料理、友人および家族などが挙げられる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した映像処理装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の映像処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (9)
- 画像および音響を含む複数の映像を取得する取得部と、
前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出する第1抽出部と、
前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成する生成部と、
対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出する第2抽出部と、
前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出する第1算出部と、
前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択する第1選択部と、
対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出する第3抽出部と、
前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出する第2算出部と、
前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択する第2選択部と、
前記共通要約区間および前記個別要約区間を統合して要約映像を生成する統合部と、を具備することを特徴とする映像処理装置。 - 前記第2算出部は、前記共通映像区間の特徴量と前記個別映像区間の特徴量とを比較し、互いの特徴量が異なるほど該個別映像区間の第2要約スコアが高くなるように重み付けることを特徴とする請求項1に記載の映像処理装置。
- 前記第2算出部は、前記個別映像区間の特徴量どうしを比較し、互いの特徴量が異なるほど互いの第2要約スコアが高くなるように重み付けることを特徴とする請求項1または請求項2に記載の映像処理装置。
- 前記第2算出部は、前記個別映像区間として対応付けられた映像の数が少ないほど該個別映像区間の第2要約スコアが高くなるように重み付けることを特徴とする請求項1から請求項3のいずれか1項に記載の映像処理装置。
- 所定の映像構成となる映像区間の組み合わせを示す典型パターンの特徴量モデルと、前記個別映像区間の特徴量との類似度を算出し、該類似度が第4閾値以上である第1個別映像区間を検出する検出部と、
前記第1個別映像区間について、該第1個別映像区間の第2要約スコアに補正値を加算し、補正要約スコアを生成する補正部と、をさらに具備し、
前記第2選択部は、前記第2要約スコアおよび前記補正要約スコアに基づいて前記個別要約区間を選択することを特徴とする請求項1から請求項4のいずれか1項に記載の映像処理装置。 - 前記共通映像区間および前記個別映像区間のそれぞれにおいて、前記要約映像の話題の中心となる要約対象を選択する第3選択部をさらに具備し、
前記第2算出部は、前記要約対象を含む個別映像区間の第2要約スコアが高くなるように重み付けることを特徴とする請求項1から請求項5のいずれか1項に記載の映像処理装置。 - 画像および音響を含む複数の映像を取得し、
前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出し、
前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成し、
対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出し、
前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出し、
前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択し、
対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出し、
前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出し、
前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択し、
前記共通要約区間および前記個別要約区間を統合して要約映像を生成することを具備することを特徴とする映像処理方法。 - コンピュータを、
画像および音響を含む複数の映像を取得する取得手段と、
前記映像ごとに、前記画像および前記音響の少なくともどちらか1つを解析し、映像の特性を示しかつ前記複数の映像の間で共通の特徴を示す1以上の特徴量を抽出する第1抽出手段と、
前記映像ごとに、前記特徴量の変化に応じて該映像を分割して時系列に沿った複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて複数の対応区間を生成する生成手段と、
対応区間を含んだ前記映像の数が第2閾値以上であるかどうかを対応区間ごとに判定し、前記映像の数が該第2閾値以上の対応区間を共通映像区間として抽出する第2抽出手段と、
前記共通映像区間の前記特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す第1要約スコアを算出する第1算出手段と、
前記第1要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を共通要約区間として選択する第1選択手段と、
対応区間を含んだ前記映像の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応区間ごとに判定し、前記映像の数が該第3閾値以下の対応区間を個別映像区間として抽出する第3抽出手段と、
前記個別映像区間の前記特徴量のうちの少なくとも1つを用いて、個別映像区間で定義され時間を変数とするスコアであって該個別映像区間に含まれる映像部分を要約映像に含める度合いを示す第2要約スコアを算出する第2算出手段と、
前記第2要約スコアに基づいて、前記個別映像区間から要約映像に用いる映像部分を個別要約区間として選択する第2選択手段と、
前記共通要約区間および前記個別要約区間を統合して要約映像を生成する統合手段として機能させるための映像処理プログラム。 - 複数の画像を含む1以上の画像群を取得する取得部と、
前記画像群ごとに、前記画像を解析し、画像の特性を示しかつ前記1以上の画像群の間で共通の特徴を示す1以上の特徴量を抽出する第1抽出部と、
前記画像群ごとに、前記特徴量の変化に応じて該画像群に含まれる画像同士の特徴量の類似度が第1閾値以上の画像を前記複数の画像間で対応付けて、複数の画像を含む対応画像を生成する生成部と、
前記対応画像を含んだ前記画像群の数が第2閾値以上であるかどうかを対応画像ごとに判定し、前記画像群の数が該第2閾値以上の対応画像を共通画像として抽出する第2抽出部と、
前記共通画像の前記特徴量を用いて、共通画像で定義され時間を変数とするスコアであって該共通画像に含まれる画像を要約画像に含める度合いを示す第1要約スコアを算出する第1算出部と、
前記第1要約スコアに基づいて、前記共通画像から要約画像に用いる画像を第1要約画像として選択する第1選択部と、
前記対応画像を含んだ前記画像群の数が前記第2閾値よりも小さい第3閾値以下であるかどうかを対応画像ごとに判定し、前記画像群の数が該第3閾値以下の対応画像を個別画像として抽出する第3抽出部と、
前記個別画像の前記特徴量を用いて、個別画像で定義され時間を変数とするスコアであって該個別画像に含まれる画像を要約画像に含める度合いを示す第2要約スコアを算出する第2算出部と、
前記第2要約スコアに基づいて、前記個別画像から要約画像に用いる画像を第2要約画像として選択する第2選択部と、
前記第1要約画像および前記第2要約画像を統合して要約映像を生成する統合部と、を具備することを特徴とする映像処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011275865A JP5752585B2 (ja) | 2011-12-16 | 2011-12-16 | 映像処理装置、方法及びプログラム |
US13/705,399 US8873861B2 (en) | 2011-12-16 | 2012-12-05 | Video processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011275865A JP5752585B2 (ja) | 2011-12-16 | 2011-12-16 | 映像処理装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013126233A JP2013126233A (ja) | 2013-06-24 |
JP5752585B2 true JP5752585B2 (ja) | 2015-07-22 |
Family
ID=48610207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011275865A Expired - Fee Related JP5752585B2 (ja) | 2011-12-16 | 2011-12-16 | 映像処理装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8873861B2 (ja) |
JP (1) | JP5752585B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150350622A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Packed i-frames |
US9805268B2 (en) * | 2014-07-14 | 2017-10-31 | Carnegie Mellon University | System and method for processing a video stream to extract highlights |
US10452713B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Video analysis techniques for improved editing, navigation, and summarization |
US20160127807A1 (en) * | 2014-10-29 | 2016-05-05 | EchoStar Technologies, L.L.C. | Dynamically determined audiovisual content guidebook |
US10074015B1 (en) | 2015-04-13 | 2018-09-11 | Google Llc | Methods, systems, and media for generating a summarized video with video thumbnails |
US10229324B2 (en) * | 2015-12-24 | 2019-03-12 | Intel Corporation | Video summarization using semantic information |
US10917703B2 (en) * | 2016-11-28 | 2021-02-09 | Rovi Guides, Inc. | System and method for generating a custom summary of unconsumed portions of a series of media assets |
US10740620B2 (en) | 2017-10-12 | 2020-08-11 | Google Llc | Generating a video segment of an action from a video |
JP6360271B1 (ja) * | 2018-04-06 | 2018-07-18 | 株式会社Medi Plus | 医療動画処理システム |
US11222208B2 (en) | 2018-07-13 | 2022-01-11 | Futurewei Technologies, Inc. | Portrait image evaluation based on aesthetics |
CN110798752B (zh) * | 2018-08-03 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN109257545B (zh) * | 2018-08-27 | 2021-04-13 | 咪咕文化科技有限公司 | 一种多源视频剪辑方法、装置及存储介质 |
CN112069952B (zh) * | 2020-08-25 | 2024-10-15 | 北京小米松果电子有限公司 | 视频片段提取方法、视频片段提取装置及存储介质 |
US11144767B1 (en) * | 2021-03-17 | 2021-10-12 | Gopro, Inc. | Media summary generation |
US11610402B2 (en) * | 2021-05-11 | 2023-03-21 | CLIPr Co. | System and method for crowdsourcing a video summary for creating an enhanced video summary |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000045603A1 (fr) * | 1999-01-29 | 2000-08-03 | Sony Corporation | Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux |
JP3617052B2 (ja) * | 2001-08-30 | 2005-02-02 | 日本電気株式会社 | カメラ映像提供システム及びカメラ映像の時刻補正方法 |
US20100017716A1 (en) * | 2006-08-25 | 2010-01-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating a summary |
JP2008178090A (ja) * | 2006-12-22 | 2008-07-31 | Victor Co Of Japan Ltd | 映像処理装置 |
JP4360425B2 (ja) * | 2007-06-15 | 2009-11-11 | ソニー株式会社 | 画像処理装置、その処理方法およびプログラム |
JP2011155477A (ja) * | 2010-01-27 | 2011-08-11 | Canon Inc | 映像処理装置、映像処理方法及びプログラム |
JP5092000B2 (ja) | 2010-09-24 | 2012-12-05 | 株式会社東芝 | 映像処理装置、方法、及び映像処理システム |
-
2011
- 2011-12-16 JP JP2011275865A patent/JP5752585B2/ja not_active Expired - Fee Related
-
2012
- 2012-12-05 US US13/705,399 patent/US8873861B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20130156321A1 (en) | 2013-06-20 |
JP2013126233A (ja) | 2013-06-24 |
US8873861B2 (en) | 2014-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5752585B2 (ja) | 映像処理装置、方法及びプログラム | |
JP5092000B2 (ja) | 映像処理装置、方法、及び映像処理システム | |
US8948515B2 (en) | Method and system for classifying one or more images | |
US9570107B2 (en) | System and method for semi-automatic video editing | |
Hanjalic | Adaptive extraction of highlights from a sport video based on excitement modeling | |
US9189137B2 (en) | Method and system for browsing, searching and sharing of personal video by a non-parametric approach | |
US9554111B2 (en) | System and method for semi-automatic video editing | |
US10541000B1 (en) | User input-based video summarization | |
JP4257615B2 (ja) | 画像処理装置および方法、並びにプログラム | |
US8542982B2 (en) | Image/video data editing apparatus and method for generating image or video soundtracks | |
US20170065889A1 (en) | Identifying And Extracting Video Game Highlights Based On Audio Analysis | |
CN106375674A (zh) | 寻找和使用与相邻静态图像相关的视频部分的方法和装置 | |
JP2006148932A (ja) | スポーツ動映像の要約方法及び装置 | |
JP2008533580A (ja) | オーディオ及び/又はビジュアルデータの要約 | |
JP6557592B2 (ja) | 映像シーン分割装置及び映像シーン分割プログラム | |
US20080260184A1 (en) | Virtual Recording Studio | |
US20230156245A1 (en) | Systems and methods for processing and presenting media data to allow virtual engagement in events | |
JP5209593B2 (ja) | 映像編集装置,映像編集方法および映像編集プログラム | |
JP2020127714A (ja) | ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム | |
JP2006140559A (ja) | 画像再生装置及び画像再生方法 | |
JP5658285B2 (ja) | 興味区間抽出装置、興味区間抽出方法 | |
JPWO2013132557A1 (ja) | コンテンツ加工装置とその集積回路、方法、およびプログラム | |
KR102550528B1 (ko) | 고화질 카메라를 이용한 분할영상 선택 시스템 및 그 방법 | |
US20240112390A1 (en) | Video-Generation System WITH STRUCTURED DATA-BASED VIDEO GENERATION FEATURE | |
US20130151969A1 (en) | Content Identification and Linking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150520 |
|
LAPS | Cancellation because of no payment of annual fees |