JP5092000B2 - 映像処理装置、方法、及び映像処理システム - Google Patents

映像処理装置、方法、及び映像処理システム Download PDF

Info

Publication number
JP5092000B2
JP5092000B2 JP2010214478A JP2010214478A JP5092000B2 JP 5092000 B2 JP5092000 B2 JP 5092000B2 JP 2010214478 A JP2010214478 A JP 2010214478A JP 2010214478 A JP2010214478 A JP 2010214478A JP 5092000 B2 JP5092000 B2 JP 5092000B2
Authority
JP
Japan
Prior art keywords
video
section
unit
common
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010214478A
Other languages
English (en)
Other versions
JP2012070283A (ja
Inventor
晃司 山本
誠 広畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010214478A priority Critical patent/JP5092000B2/ja
Priority to US13/240,278 priority patent/US8879788B2/en
Publication of JP2012070283A publication Critical patent/JP2012070283A/ja
Application granted granted Critical
Publication of JP5092000B2 publication Critical patent/JP5092000B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/252Processing of multiple end-users' preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、映像処理装置、方法、及び映像処理システムに関する。
同一のイベントにおいて複数の撮像装置により撮影された画像を効率的に閲覧する方法がある。
特開2008−312061号公報
しかしながら、複数の映像区間の対応付けは撮影時刻のみで行っており、撮影時刻情報を持たない映像に対しては、対応付けを行うことはできない。また、撮影時刻情報を有する場合に、偶然同一時刻に撮影された映像であると、イベントの重要なシーンと誤って判定されうるが、必ずしも同一時刻に撮影された映像が視聴する人(ユーザ)の所望の映像とは限らない。
本開示は、重要な区間を含んだ要約を生成できる映像処理装置及び方法を提供することを目的とする。すなわち、撮影時刻情報の有無によらず、複数の映像から区間対応付けを行うことができる映像処理装置を提供する。
本実施形態に係る映像処理装置は、取得部、第1抽出部、生成部、第2抽出部、算出部、及び選択部を含む。取得部は、画像および音響を含む複数の映像を取得する。第1抽出部は、前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する。生成部は、前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する。第2抽出部は、前記対応区間を含んだ前記映像の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する。算出部は、前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する。選択部は、前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する。
第1の実施形態に係る映像処理装置を示すブロック図。 第1の実施形態に係る映像処理装置の動作を示すフローチャート。 第1の実施形態に係る区間対応付けの概念を示す図。 生成部の動作を示すフローチャート。 統計モデルに基づいて対応区間を生成する一例を示す図。 要約スコア算出部における要約スコアの算出方法の一例を示す図。 選択部における要約区間の選択手法の一例を示す図。 選択部における要約区間の選択手法の別例を示す図。 第2の実施形態に係る映像処理システムを示す図。 第2の実施形態に係る映像処理システムの動作を示すフローチャート。 第3の実施形態に係る映像処理装置を示すブロック図。 第3の実施形態に係る映像処理装置の動作を示すフローチャート。 典型ショットパターン辞書に格納される典型ショットパターンの一例を示す図。 第3の実施形態に係る検出部と補正部との処理を示す図。 第4の実施形態に係る映像処理装置を示すブロック図。 管理部と選択部との動作を示すフローチャート。 第5の実施形態に係る映像処理装置を示すブロック図。 第5の実施形態に係る映像処理装置の動作を示すフローチャート。
結婚式や学校行事など、多くの人が集まるイベントでは、複数の撮影者がカメラやビデオでイベントの様子や自分の周辺の様子を撮影する。しかし、このようなイベントでの撮影に限らず、個人が撮影した映像は無駄なシーンや失敗シーンを含む。撮影者以外の他人にとっては、このような低品質な映像を未編集のまま見せられることは退屈で、視聴に要する時間も長くなる。
そこで、映像から重要な区間を抽出して短い映像に編集する技術として、要約技術がある。要約技術のうち、テレビ放送の映像を対象にするものは適用が困難であるものが多い。なぜならば、テレビ放送は専門家によって撮影および編集された映像であり、不要なシーンはカットされた状態で放送されるからである。また、映像全体も番組構成に沿って、ある程度決まった構造を持っている。一方で、個人撮影の映像は内容も雑多であり、撮影者の撮影技術も低いため、個人撮影の映像の要約においては、テレビ放送向けとは異なる要約技術が必要となる。
また、一般的に、複数の撮影者の映像を互いに共有するための手段として、オンラインストレージまたは動画投稿サイトなどがあり、ネットワークを介して映像のやりとりを行うことが想定される。映像データをアップロードするときにはデータサイズの制限や取り扱い易さを考慮して再エンコードされることが多く、撮影情報などのメタデータは失われ、対応付けを行うことができない。
以下、図面を参照しながら本実施形態に係る映像処理装置、方法、及び映像処理システムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
本実施形態に係る映像処理装置について図1のブロック図を参照して説明する。
本実施形態に係る映像処理装置100は、取得部101と、第1抽出部102と、生成部103と、第2抽出部104と、算出部105と、選択部106と、出力部107とを含む。
取得部101は、外部から複数の映像を複数受け取る。なお、映像は、ここでは画像と音響とを含む。
第1抽出部102は、取得部101から複数の映像を受け取り、映像ごとに所定の時間単位で映像の特徴量を抽出する。特徴量は、画像から得られる映像の特性(以下、画像特徴という)または音響から得られる映像の特性(以下、音響特徴という)を示す値である。なお、所定の時間単位は、一定の時間間隔でもよいし、一定のフレーム数でもよい。さらに、抽出する特徴量は、画像特徴および音響特徴のどちらか一方でもよいし、両方を抽出してもよい。
また、入力映像がMPEGなどで符号化された形式である場合は、特定の圧縮方式が用いられたフレームから特徴量を抽出してもよい。例えば、MPEGではフレーム内予測方式であるIピクチャとフレーム間予測方式であるPピクチャ、Bピクチャと呼ばれるフレームが存在するが、このうち、Iピクチャだけを用いる。PピクチャやBピクチャでは、フレーム間予測に用いた他のフレームも含めて復号する必要があるが、Iピクチャではそのフレームだけを復号すればよいので、高速に処理できる。
画像特徴としては例えば、色や輝度などの画像自体から解析を必要としない低レベル特徴と、エッジや周波数成分、動きの大きさ、局所特徴など比較的簡単な解析を行うことで得られる中レベル特徴と、顔検出などで得られる顔情報といった複数の解析を合わせて行うことで得られる高レベル特徴とがある。また、画像特徴を色ヒストグラムなど統計量として扱ってもよい。
同様に音響特徴も、音量や周波数成分などの低レベル特徴と各種認識手法を用いて得られる高レベル特徴とがある。高レベル特徴としては例えば、音声認識で得られる文字情報や人の声、音楽などの音の種別、話者の識別または分類結果がある。
また、入力映像がMPEGなどの符号化された形式である場合は、符号化されたデータを用いてもよい。符号化されたデータとは、例えば、画像であれば、DC成分情報、動きベクトル情報やその符号長である。また、音声であれば、周波数情報などを復号することなく抽出することができる。
生成部103は、第1抽出部102から特徴量を受け取り、映像ごとに時間単位ごとに抽出した特徴量が大きく変化する位置で、1つの映像を複数の区間に分割する。その後、各区間の特徴量を比較して類似度を算出する。複数の映像から、区間の類似度が閾値以上であれば、それらの区間を対応付けて対応区間を生成する。
第2抽出部104は、生成部103から対応区間を受け取り、対応付けられた区間に閾値以上の数の映像が対応付いているかを判定し、閾値以上の数の映像が存在すれば、対応区間を共通映像区間として抽出する。
算出部105は、第1抽出部102から特徴量を、第2抽出部104から共通映像区間をそれぞれ受け取り、共通映像区間に含まれる映像の特徴量ごとに、所定の時間単位で要約スコアを算出する。要約スコアは、例えば画面に登場する顔の大きさや数、笑顔度、鮮明度などを用いて算出される。すなわち、どの程度要約映像に含まれるのに適する区間であるか、要約映像に含める度合いを示す値である。
選択部106は、算出部105から共通映像区間および対応する要約スコアを受け取り、要約スコアに基づいて、共通映像区間の中から要約映像として用いる区間を示す要約区間を選択する。
出力部107は、選択部106から要約区間を受け取り、要約区間を外部へ出力する。出力する要約区間は、映像と対応する区間とを特定する情報だけでもよいし、要約区間の映像を結合した要約映像でもよい。
次に、本実施形態に係る映像処理装置100の動作について図2のフローチャートを参照して説明する。
ステップS201では、取得部101が、外部から複数の映像を受け取る。
ステップS202では、第1抽出部102が、映像ごとに、所定の時間単位で映像の特徴量を抽出する。
ステップS203では、生成部103が、時間単位ごとに抽出した特徴量が大きく変化する位置で、映像を複数の区間に分割する。例えば、画像のフレーム単位に色のヒストグラムを比較し、距離を算出する。そして、距離が大きくなったフレーム間で分割する。距離は、例えば、ヒストグラムのビンごとに頻度の差の絶対値を求め、全ビンの差の絶対値の総和を距離とする。なお、映像区間を分割しない場合は、ステップS202からステップS204に進む。
ステップS204では、生成部103が、複数の区間の間で、区間の特徴量を比較して類似度を算出する。区間の特徴量は、区間に含まれる時間単位の特徴量の平均値または分布をもとに作成したモデルのパラメータなどを用いる。
ステップS205では、生成部103が、複数の映像から、区間の類似度が閾値以上である区間をそれぞれ対応付けることで、対応区間を生成する。
ステップS206では、第2抽出部104が、対応区間に閾値以上の数の映像が含まれているかどうか、すなわち、対応区間を生成する際に用いられた映像の数が閾値以上であるかどうかを判定する。映像の数が閾値以上である場合はステップS207に進み、映像の数が閾値未満である場合は、処理を終了する。
ステップS207では、第2抽出部104が、閾値以上の数の映像が含まれる場合はイベントの重要なシーンを含むと推測されるので、それらの対応区間を共通映像区間として抽出する。
ステップS208では、算出部105が、特徴量を用いて所定の時間単位における共通映像区間に含まれる映像ごとに要約スコアを算出する。なお、所定の時間単位は、上述した一定の時間間隔または一定のフレーム数に加えて、区間単位など一定ではない時間間隔でもよい。
ステップS209では、選択部106が、要約スコアに基づいて共通映像区間の中から要約区間を選択する。要約区間の選択は、例えば要約スコアが高い順でもよいし、要約スコアが閾値以上である共通映像区間を選択してもよい。
ステップS210では、出力部107が、要約区間を外部へ出力する。
次に、区間対応付けの概念について図3を参照して説明する。
なお、図3では、入力される映像として結婚式を撮影した映像を示し、A、B、Cの3つの撮像機器でそれぞれ撮影した映像301、302、303が入力される場合を想定する。区間304から区間306までは、A、B、Cの撮像機器でそれぞれ撮影した新郎新婦の入場シーンであり、始端と終端とをサムネイルで示す。区間307から区間309までは、A、B、Cにおいてそれぞれ撮影された新郎新婦によるケーキカットシーンであり、始端と終端とをサムネイルで示す。新郎新婦の入場シーンおよび新郎新婦によるケーキカットシーンは、このイベントでの重要なシーンであり、A、B、Cの3つ全てで撮影されたシーンである。一方、区間310に示す斜線部分は、イベントの重要なシーンではなく、3つの撮像機器のそれぞれで撮影した映像である。それゆえ、斜線部分の区間は映像301、302、303でそれぞれ内容が異なる。生成部103は、重要なシーンと考えられ、多くの撮像機器で撮影されている、区間304から区間306まで、または、区間307から区間309までのような対応区間を生成する区間対応付け処理を行う。
次に、具体的な生成部103における区間対応付け処理について図4を参照して説明する。
特徴量401および特徴量402は、それぞれ異なるカメラで撮影された映像から抽出された輝度値である。輝度値としては、画面全体の輝度の平均値を与えればよい。ここで、区間403から区間406まで、および、区間408から区間411までは、輝度とは別の特徴量(例えば音響特徴)によって分割された区間である。
このうち、区間404と区間410とは、類似度の高い区間であるため同一区間を撮影した対応区間として抽出する。なお、類似度は、相互相関などを用いて求めればよい。さらに、輝度値ではなく音響のレベルによっても同様の手法で対応区間を生成できる。
別の手法として、フラッシュを用いることができる。例えば、区間407および区間412に示すように、輝度値が大きい部分がある。これは、カメラなどのフラッシュによる影響であり、対応区間が重要なシーンである場合には会場で多くのフラッシュを使用した撮影が行われるので、区間407および区間412に示すような輝度の変化パターンを示す。よって、輝度値が所定の閾値以上となる場合にフラッシュであると判定し、フラッシュのタイミングが同期する区間を対応区間として生成する。フラッシュによる対応区間の判定についても、フラッシュありの場合に1、フラッシュなしの場合に0をとる関数による相互相関を計算すればよい。なお、フラッシュを用いて撮影をしない場合でも、音響特徴など別の特徴量を用いれば同様に対応区間を生成できる。相互相関による対応区間の探索に処理時間がかかる場合、比較する区間の特徴量をヒストグラム化してヒストグラム同士を比較することで、高速に探索することもできる。
さらに別の手法として、ある統計モデルに基づいて対応区間を生成してもよい。
統計モデルに基づいて対応区間を生成する一例について図5を参照して説明する。
グラフ501およびグラフ502はそれぞれ、異なるカメラで撮影された映像から抽出された特徴量に、最も近い音響モデルの尤度である。音響モデルは、音響の周波数成分をもとにMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)を求め、その分布をGMM(Gaussian Mixture Model:ガウス混合モデル)で記述したモデルである。このような音響モデルを音響から複数作成しておく。音響モデルの作成は予め、会話モデル、拍手モデル、歓声モデルなどを用意してもよいし、撮影時の音響をクラスタリングすることで音響モデルを生成してもよい。
撮影時の音響の判定単位ごとに音響モデルとの比較を行い、判定単位区間で最も尤度の高い音響モデルをその区間のモデルとし、その尤度を算出する。
なお、音響モデルを用いることで区間の分割を行うこともできる。区間503から区間506まで、および、区間507から区間510までが分割された区間とする。このとき、区間503から区間504までの分割点では音響モデルが切り替わる。そして、斜線部分の区間505と区間508とが同じ音響モデルであれば、これらの区間は同じ場面を撮影したものと推定することができ、これらの区間を対応付けて対応区間を生成することができる。また、GMMによる混合モデルを用いているため、背景音に音声が重畳しているような場合であっても、背景音の類似度が高ければ同じシーンであると推定することができ、背景音に影響されず対応区間を生成することができる。
次に、算出部105で算出される要約スコアの算出方法の一例について図6を参照して説明する。
スコア601からスコア606まではそれぞれ、顔の数、顔の大きさ、笑顔度、鮮明度、発話、歓声といった映像の特性を表わすための要素を、映像から抽出してゼロから1の間でスコア付けした値の時間変化を示す。要約スコア607は、これらの要素ごとのスコアを加算して正規化した値である。加算する際に、要素ごとの重要度に応じて重み付けして加算してもよい。例えば、特定の人物が重要なイベントであれば、顔の大きさまたは発話のスコアが高くなるよう重み付けし、歓声のスコアが低くなるよう重み付けすればよい。なお、ここでは要約スコアを複数の要素から算出する例を示したが、映像の時間変化とともにスコアの変化があれば、ひとつの要素を用いて行ってもよい。また、算出コスト削減のために適宜要素数を減らしてもよい。また、スコアの変化は画像のフレームを基準に変化を算出してもよく、例えば画像に付した番号(フレーム番号)をもとに算出してもよい。
また、結婚式の新郎新婦のように、イベントでは要約の中心となるべき主役が存在することがある。そこで、顔検出によって得られた複数の顔を顔の特徴量に基づいてクラスタリングして人物ごとに分類し、クラスタ(分類した集合)要素数から主役を決定して高いスコアを与えるようにしてもよい。
次に、選択部106における要約区間の選択手法について図7および図8を参照して説明する。図7は、要約スコアが閾値を超える区間を要約区間として選択する場合を示し、図8は最も高い要約スコアを有する区間を要約区間として選択する場合を示す。
図7は、1つの映像から要約区間を選択する手法であり、まず、要約スコア607に対して閾値701を設定する。次に、閾値701よりも要約スコアが大きい区間である、区間702から区間705までを要約区間として選択する。なお、閾値701は、予め設定した値でもよいし、要約区間の数または要約区間の時間の総和が所定の値となるように設定してもよい。
また、図8に示すように、複数の映像を用いた区間の対応付けが要約スコアの算出単位でなされる場合は、各単位で最も高い要約スコアを持つ映像の区間を選択すればよい。具体例としては、始めに、映像Aから映像Cに対応する要約スコア801から要約スコア803までをそれぞれ算出する。要約スコア801から要約スコア803までは、それぞれ時間が同期するように並べて記述する。また、図8中の斜線部は非撮影区間である。次に、各時刻において最大の要約スコアを持つ映像が切り替わる位置で、区間に分割する。すなわち、最初は、映像A、B、Cの中で映像Cの要約スコア803が一番高いため映像Cが要約区間として選択され、途中で映像Aの要約スコアが映像Cの要約スコアよりも高くなるので、要約区間として映像Aが選択される。この際、映像Cと映像Aとの切り替えが行われる位置を分割位置として、区間805では映像Cが、区間806では映像Aが要約区間の映像として用いられる。上述の処理を繰り返すことにより、要約区間805から要約区間808までを得ることができる。なお、各時間位置における最大の要約スコアを算出して、上述した要約区間により構成された映像が要約映像804となる。
以上に示した第1の実施形態によれば、複数の映像から要約映像を作成する際に、映像に関する特徴量を用いて区間の対応付けを行うことにより、撮影時刻情報がない映像でも同一時刻の映像を対応付けることができ、さらに映像の重要度を示す要約スコアを算出することにより、重要なシーンの判定が可能となる。すなわち、イベントの重要なシーンの誤判定を低減しつつ高品質な要約映像を作成することができる。
(第2の実施形態)
1人の撮影者が複数のカメラを設置して撮影した、同一のイベントに関する映像を1ヶ所に集めて管理および編集を行うことは容易であるが、複数の撮影者が同一のイベントを個々に撮影した場合では、すぐに映像を集めることができない場合が多い。そこで第2の実施形態では、複数の撮影者(クライアント)が個々に映像をサーバに転送し、サーバ上で要約を作成するシステムを想定する。このようにすることで、要約映像を作成する際により多くの映像を用いることができ、さらに高品位な要約映像を作成することができる。
この際、サーバに第1の実施形態に係る映像処理装置の構成を全て含めてもよいし、ネットワークに接続される複数の装置に映像処理装置の構成を分散させて配置することも可能である。映像処理装置を分散させた場合、映像から各処理部において必要な情報を選択的に送信できるため、転送量を低減できる利点がある。例えば、クライアントからサーバへ転送する情報としては、フレームを間引いた画像または縮小した画像を用いればよい。また、MPEG等の符号化データであれば、動きベクトルまたはフレーム内符号化された画像の低周波成分から生成される低解像度画像を用いればよい。あるいは、特徴量抽出時には音響特徴だけを用いてもよい。特に音響特徴は、映像の画像データと比較してデータサイズが小さいため、音響特徴を用いて転送する映像の区間を絞り込めば、全体の転送量を大きく削減できる。
第2の実施形態に係る映像処理システムについて図9を参照して説明する。
第2の実施形態に係る映像処理システム900は、サーバ901、クライアント902−1,902−2,902−3を含む。サーバ901と各クライアント902とは、ネットワーク903を介して接続される。なお、第2の実施形態では、サーバ901を1台、クライアント902を3台として説明するが、これに限らず何台でもよい。但し、サーバ901が複数台存在する場合は、1カ所のサーバに処理に必要なデータを集める必要がある。
第2の実施形態では、図1に示した、取得部101と出力部107とをクライアント902側とし、生成部103、第2抽出部104、算出部105、および選択部106とをサーバ901側とする場合を想定する。各部の動作は、それぞれ第1の実施形態に係る部と同様であるため、ここでの説明は省略する。
次に、映像処理システム900の動作について図10のフローチャートを参照して説明する。
ステップS1001では、クライアント902が1以上の映像を取得する。
ステップS1002では、クライアント902が、映像に含まれる音響をサーバ901に送信する。
ステップS1003では、サーバ901が音響を受信する。このとき、サーバ901は、複数のクライアント902から音響を受信することとなる。
ステップS1004では、サーバ901の第1抽出部102が、音響から音響特徴を抽出する。
ステップS1005では、サーバ901の生成部103が、複数の映像の音響特徴から、区間を対応付けて対応区間を生成する。なお、サーバ901は、全てのクライアント902から音響を受信していない場合は、全てのクライアント902から音響情報を受信するまで区間を対応付ける処理を保留してもよいし、一定数のクライアント902から音響を受信したら区間を対応付ける処理を行ってもよい。
ステップS1006では、サーバ901の第2抽出部104が、第1の実施形態と同様の手法で共通映像区間を抽出する。
ステップS1007では、サーバ901からクライアント902へ共通映像区間を送信する。この際、サーバ901は、全てのクライアント902に対して共通映像区間を送信してもよいし、音響をサーバ901に送信したクライアント902のみに、共通映像区間を送信してもよい。
ステップS1008では、クライアント902は共通映像区間を受信する。
ステップS1009では、クライアント902は、共通映像区間に示された区間の画像(部分画像ともいう)をサーバ901に送信する。このとき、サーバ901は、複数のクライアント902から部分画像を受信することとなる。
ステップS1010では、サーバ901はクライアント902から部分画像を受信する。
ステップS1011では、サーバ901の第1抽出部102が、部分画像から画像特徴を抽出する。
ステップS1012では、サーバ901の算出部105が、画像特徴に基づいて共通映像区間に含まれる映像の要約スコアを算出する。なお、音響特徴を合わせて要約スコアを算出してもよい。
ステップS1013では、サーバ901の選択部106が、要約スコアに基づいて要約区間を選択する。
ステップS1014では、サーバ901からクライアント902へ要約区間を送信する。要約区間としては、具体的には、クライアント902自身から送信した映像に関わる区間の場合は、区間を特定する情報のみでもよいし、映像自体を含んでもよい。また、他のクライアント902から送信された映像を含む場合は、その映像自体を含むようにする。ただし、クライアント902から送信されていない映像であっても、例えば、動画共有サービスなどを用いて視聴が可能な場合は、その場所(URLなど)と区間を特定する情報とであってもよい。
ステップS1015では、クライアント902が要約区間を受信する。
ステップS1016では、クライアント902の出力部107が、要約区間を出力する。なお、出力される要約区間は、映像または区間を特定する情報だけでもよいし、要約区間の映像を結合した要約映像でもよい。
以上に示した第2の実施形態によれば、複数のクライアントからの映像をサーバで処理することにより、複数の映像から効率よく高品位な要約映像を生成することができる。また、特徴量を抽出する際に画像よりもデータサイズが小さい音響を転送することで、クライアントとサーバとの間の転送量を削減することができる。
(第3の実施形態)
同一のイベントを複数のカメラで撮影した映像を編集する際に、しばしば典型ショットパターンが用いられる。典型ショットパターンは、ショットの集合が所定の映像シーンとなるようなショットの組み合わせを示す。具体的には、例えば、乾杯の挨拶の場面を編集する場合を想定すると、初めに挨拶を行う人物を中心としたショットを写し、挨拶のあと、拍手をする会場のショットに切り替わるという映像の遷移パターンである。このように編集するには、予め複数のカメラを用意しておき、典型ショットパターンが撮影できるように、どのタイミングでどの映像を撮影するというような準備が必要であり、プロのカメラマンではない一般の参加者が気軽に撮影することは難しい。しかし、複数の参加者が偶然異なる方向の映像を撮影していれば、それらの映像を合わせることで典型ショットパターンの映像を作成することができる。
第3の実施形態に係る映像処理装置について図11のブロック図を参照して説明する。
第3の実施形態に係る映像処理装置1100は、取得部101と、第1抽出部102と、生成部103と、第2抽出部104と、算出部105と、選択部1103と、出力部107と、検出部1101と、補正部1102とを含む。
取得部101、第1抽出部102、生成部103、第2抽出部104、算出部105、および出力部107は、第1の実施形態と同様の動作を行うためここでの説明は省略する。
検出部1101は、第1抽出部102から特徴量を、後述するショットパターン辞書1104から典型ショットパターンの特徴量モデルをそれぞれ受け取り、特徴量と典型ショットパターンの特徴量モデルとを比較して尤度を算出する。特徴量モデルは、典型ショットパターンとしての映像の特徴量をモデル化し、時系列に表したモデルである。
補正部1102は、検出部1101から尤度を受け取り、尤度に応じて補正値を生成する。
選択部1103は、第1の実施形態とほぼ同様の動作を行い、算出部105から要約スコアを、補正部1102から補正値をそれぞれ受け取り、補正値を要約スコアに加算した補正要約スコアに基づいて、要約区間を選択する。
ショットパターン辞書1104は、複数の典型ショットパターンの特徴量モデルを格納する。なお、典型ショットパターンの特徴量モデルは、予め経験的にパラメータを設定して生成してもよいし、統計データを用いて学習させて生成してもよい。また、webなど外部にある辞書から特徴量モデルを受け取って、適宜格納するようにしてもよい。ショットパターン辞書1104は、図13を参照して後述する。
次に、第3の実施形態に係る映像処理装置1100の動作について図12のフローチャートを参照して説明する。なお、ステップS101からステップS110までは、第1の実施形態と同様の処理を行うので、ここでの説明は省略する。
ステップS1201では、検出部1101が、ショットパターン辞書1104から典型ショットパターンの特徴量モデルを取得する。
ステップS1202では、検出部1101が、ステップS102で算出された特徴量と、1以上の典型ショットパターンの特徴量モデルとを比較し、一致するかどうかの尤度を典型ショットパターンごとに算出する。尤度を算出した結果、閾値以上の尤度を有する典型ショットパターンがある場合、ステップS1203へ進み、閾値以上の尤度を有する典型ショットパターンがない場合、ステップS109へ進む。
ステップS1203では、補正部1102が、尤度によって重み付けされた値を補正値として生成する。補正値は、典型ショットパターンとして用いられる区間が選ばれやすくなるような値として算出されればよい。その後、選択部1103が、典型ショットパターンとして用いられる区間の要約スコアと補正値とを加算して補正要約スコアを生成する。
次に、典型ショットパターン辞書に格納される典型ショットパターンの一例について図13を参照して説明する。
図13に示すように、典型ショットパターンに用いられるショットがどのような要素で構成されるかをそれぞれ対応付けて、ショットごとに格納する。これら複数のショットを組み合わせることで典型ショットパターンを生成することができる。
例えば、乾杯の挨拶を想定すると、挨拶をしているショットではカメラの動きは少なく、画面の中央で比較的大きく人物が撮影されていることが多い。また、会場が拍手をしている場面ではたくさんの人が写っていたり、会場全体を見渡すようなカメラの動き(パン)を伴っていたりする。よって、画像特徴は構図に関わる顔の位置や大きさ、またはカメラの動きの特徴と含むモデルとする。また、音響特徴についても、挨拶をしている区間では人の声が主体で、拍手をしている区間では拍手の音が主体であるので、音響タイプとしては人の声や拍手などの周波数分布をモデルとする。
具体的には、図13に示す「ショット1」では、1人の人物が挨拶をしている場面であるので、パラメータとして「顔の数」が1、「顔の位置」が画面中央、「顔の大きさ」が大、「カメラワーク」は固定、「音響タイプ」は会話モデルとなる特徴量を格納する。一方、「ショット2」では、会場全体を見渡すため、「顔の数」が5以上、「顔の位置」が画面全体、「顔の大きさ」が小、「カメラワーク」はパン、「音響タイプ」は拍手モデルとなる特徴量を格納する。撮影した映像の特徴量に、「ショット1」と「ショット2」との特徴量モデルに対応する組み合わせがあれば、典型ショットパターンを生成することができる。
なお、特徴量モデルは、画像特徴と音響特徴との両方を含む必要はなく、一方だけを含んでもよい。さらに、特徴量モデルは、画像特徴および音響特徴以外の特徴によって生成されてもよい。また、典型ショットパターンのパラメータとして図13に示す他に、イベントの主人公(新郎新婦など)であるかどうかを含めてもよく、顔の向きまたは口の動きなどの詳細な顔のパラメータなどを含めてもよい。これによって、結婚式でスピーチをする者が新郎新婦に問いかけるような典型ショットパターンも作成できる。
次に、検出部1101と補正部1102との処理について図14を参照して説明する。
検出部1101は、映像から算出された特徴量と典型ショットパターンに記述された特徴量モデルとを比較し、どの程度特徴量が一致しているかの尤度を算出する。例えば、時間単位に対応付けられた2つの映像A、Bについて、ある位置を境に映像Aではショット1のパターン、映像Bではショット2のパターンというように、尤度が高い区間を探索する。同様に映像Aに対してショット2の尤度を算出し、映像Bに対してショット1の尤度を算出するように入れ替えて評価する。
全てを探索した後、最も尤度が高いショットを組み合わせて典型ショットパターンを生成できる場合は、補正部1102は、要約区間としてそれぞれのショットが選択されるような補正値を生成する。
以上に示した第3の実施形態によれば、典型ショットパターンの特徴量をモデル化しておき、さらに複数の映像から典型ショットパターンを検出して該当する区間を含む映像を組み合わせることで、典型ショットパターンとして撮影することを意識せずに、典型ショットパターンを含む要約映像を作成することができる。
(第4の実施形態)
第1の実施形態では、要約映像を作成すると、要約映像作成者とは別のユーザが保有する映像が要約区間に含まれる場合があり、ユーザによっては、自分が保有する映像を他者に使われることを望まないことがある。そこで第4の実施形態では、別のユーザが保有する映像が要約区間に含まれたときは、映像を保有するユーザに利用許可を求め、許諾を得られなかった場合にはその区間が含まれないように要約区間を変更する。このようにすることで、ユーザの意思を尊重した要約映像を生成することができる。
第4の実施形態に係る映像処理装置について図15のブロック図を参照して説明する。
第4の実施形態に係る映像処理装置1500は、取得部101と、第1抽出部102と、生成部103と、第2抽出部104と、算出部105と、選択部1502と、出力部107と、管理部1501とを含む。
取得部101、第1抽出部102、生成部103、第2抽出部104、算出部105、および出力部107については、第1の実施形態と同様の動作を行うためここでの説明は省略する。
なお、映像には、映像を他のユーザが利用できるかどうか(例えば、他人が要約映像に利用できるかどうか)を示す可否情報が付与されるとする。
管理部1501は、後述する選択部1502から要約区間を受け取り、要約区間に含まれる映像が、可否情報に基づいて許諾区間であるかまたは未許諾区間であるかを判定する。許諾区間は、要約区間の含まれる映像の可否情報が「可」となっている区間であり、未許諾区間は、要約区間の含まれる映像の可否情報が「不可」となっている区間である。また、管理部1501は、未許諾区間の映像を保有するユーザに利用許可を請求する。
選択部1502は、第1の実施形態に係る選択部106とほぼ同様の動作を行うが、要約区間に未許諾区間が含まれる場合は、未許諾区間の映像を削除するか、または次に要約スコアの高い共通映像区間を要約区間として選択する点が異なる。
次に、管理部1501および選択部1502の動作について図16のフローチャートを参照して説明する。
ステップS1601では、管理部1501が、選択部1502から要約区間を取得する。
ステップS1602では、要約区間に未許諾区間が含まれているかどうかを判定する。要約区間に未許諾区間が含まれる場合は、ステップS1603に進み、要約区間に未許諾区間が含まれない場合は処理を終了し、要約区間には変更を加えない。
ステップS1603では、管理部1501が、未許諾区間の映像を保有するユーザに利用許可を請求する。なお、明示的に許諾を求めるメッセージなどを表示するのではなく、ユーザの登録情報またはユーザが登録しているソーシャル・ネットワーク・サービス(SNS)において、管理部1501が、参加しているコミュニティの映像許諾の有無、映像コンテンツの公開範囲などの各種情報に基づいて、自動的に判定してもよい。また、管理部1501が未許諾区間の映像を保有するユーザに直接的に利用許可を請求せずに、要約映像作成者に、「要約映像に未許諾区間の映像が含まれます。他のユーザに利用許可を取りますか?」という旨のメッセージを表示して、利用許可の請求を行うように促してもよい。さらに、利用許可の請求は、ユーザ間で直接行う代わりに、サーバを介して匿名で行ってもよい。
ステップS1604では、要約区間の全区間の利用許可が得られたかどうかを判定する。要約区間の全区間の利用許可が得られた場合は、要約区間を変更することなく処理を終了する。利用許可を得られなかった区間が存在する場合は、ステップS1605へ進む。
ステップS1605では、利用許可が得られなかった区間を要約映像から除くように要約区間を変更する。要約区間の変更は、例えば、該当する区間を削除したり、該当する区間の要約スコアを小さくして、他の区間が選ばれるように設定すればよい。その後、新しく選ばれた区間に対して同様の処理を行うために、再びステップS1602に戻り、全ての要約区間の許諾が得られるまで処理を繰り返す。
以上に示した第4の実施形態によれば、別のユーザが保有する映像が要約区間に含まれたときは、映像を保有するユーザに利用の許諾を求めることにより、許諾を得られなかった場合にはその区間が含まれないように要約区間が変更することができ、ユーザの意思を尊重した要約映像を生成することができる。
(第5の実施形態)
第5の実施形態では、例えば、複数のユーザが各々のカメラで撮影した映像を共通のサーバ上で保持する環境において、あるユーザAが保有する映像と同じイベントを撮影した映像を別のユーザBが保有しているときに、ユーザBに対して、サーバ上に同じイベントに参加したユーザAがいることを通知する。ユーザBからユーザAに対しても同様に通知することができる。このようにすることで、同じ趣向のユーザまたはコミュニティといったユーザが関心のある情報を提示することができる。
第5の実施形態に係る映像処理装置について図17のブロック図を参照して説明する。
第5の実施形態に係る映像処理装置1700は、取得部101と、第1抽出部102と、生成部103と、算出部1701と、判定部1702と、通知部1703とを含む。
取得部101、第1抽出部102、および生成部103については、第1の実施形態と同様の動作を行うため、ここでの説明は省略する。
算出部1701は、生成部103から複数の対応区間を受け取り、ユーザ関連度スコアを算出する。ユーザ関連度スコアは、入力映像を保有するユーザ間の関連度を示す値であり、スコアが高いほどユーザ間の関連度が高いことを示す。ユーザ関連度スコアは例えば、対応区間の長さを用いる。また、実際に区間として抽出しなくても、区間の対応付けのために算出する特徴量の距離あるいは類似度をユーザ関連度スコアとしてもよい。
判定部1702は、算出部1701からユーザ関連度スコアを受け取り、ユーザ関連度スコアが閾値以上のユーザがいるかどうかを判定する。さらに、ユーザ関連度スコアが閾値以上であるユーザに対して通知許可があるかどうかを判定する。
通知部1703は、判定部1702から判定結果を受け取り、判定結果に基づいてユーザに通知する。
次に、第5の実施形態に係る映像処理装置1700の動作について図18のフローチャートを参照して説明する。
なお、ステップS101からステップS105までは、第1の実施形態と同様の処理を行うためここでの説明は省略する。
ステップS1801では、算出部1701が、対応区間についてユーザ関連度スコアを算出する。
ステップS1802では、判定部1702が、ユーザ関連度スコアが所定の閾値以上であるユーザがいるかどうかを判定する。ユーザ関連度スコアが閾値以上のユーザがいない場合は処理を完了する。ユーザ関連度スコアが閾値以上のユーザがいる場合は、ステップS1803に進む。
ステップS1803では、通知部1703が、他の関連ユーザ(上述の説明ではユーザB)に対して、自身(ユーザA)が関連ユーザであることを通知するかどうかの認証をユーザAに対して通知する。認証は、例えばメッセージをユーザAに表示して、ユーザAが可否を入力することで回答すればよい。また、他の関連ユーザは複数存在する可能性があり、各々の関連ユーザに対して、通知するかどうかの許可をユーザAに求めてもよい。
ステップS1804では、通知部1703が、通知許可をした他の関連ユーザがいるかどうかを判定する。この判定は、例えばステップS1803において自身が関連するユーザであることを通知すると決定したユーザがいるかどうかで判定する。通知許可のある他の関連ユーザがいる場合はステップS1805に進み、通知許可のある他の関連ユーザがいない場合は処理を終了する。
ステップS1805では、通知部1703が、他の関連ユーザに通知を行う。以上で映像処理装置1700の動作を終了する。
なお、ユーザBからユーザAに通知する場合も同様に、他の関連ユーザ(ユーザA)に対して、自身(ユーザB)が関連ユーザであることを通知してもよいか許可をユーザBに求める。許可は、例えばメッセージを表示して、ユーザBが可否を入力することで回答する。また、ユーザAが操作しているときと同時刻にユーザBが操作をしているとは限らないので、メッセージを表示するページへの誘導は電子メールなどを用いてもよい。さらに、関連するユーザが複数存在する場合、各々のユーザがすぐに回答するとは限らない。その場合は、定期的に通知許可のある関連ユーザがいるかチェックを行い、関連するユーザがいる場合に通知を行えばよい。
さらに、自身(ユーザA)が他の関連ユーザ(ユーザB)への通知を常時許可する場合は、他のユーザに対して、他の関連ユーザが自身(ユーザA)を参照するかどうかについての通知をおこなってもよい。例えば、通知部1703が、ユーザBに対して、「新しい関連ユーザがいます。ご覧になりますか?」という旨のメッセージを通知し、ユーザBが可否を入力すればよい。ユーザBが「可(Yes)」を選択すれば、新しい関連ユーザAを参照することができる。
なお、ソーシャル・ネットワーク・サービス(SNS)では関連の深いユーザ同士でコミュニティを作成し、コミュニティ内でメールやブログなどのコミュニケーションを図ることができる。当然、コミュニティに属するユーザは関連度が高いと考えられる。そこで、通知部1703は、関連ユーザより算出されるコミュニティ関連度スコアに基づいて、関連度が高いコミュニティへの参加を促すような通知をユーザに行ってもよい。さらに、自身に関連するコミュニティが既にサービス上に存在するかどうか分からない場合には、保有する映像およびコミュニティ関連度スコアに基づいてコミュニティを探すこともできる。
コミュニティ関連度スコアは例えば、コミュニティに属するユーザの関連度スコアの平均値とする。または、コミュニティに属するユーザのうち、関連ユーザの数の合計値または割合を求めてもよい。
以上に示した第5の実施形態によれば、ユーザ関連度スコアから同じ趣向のユーザまたはコミュニティといったユーザが関心のある情報を提示することができる。
なお、上述した実施形態では動画を用いて記述しているが、同様の処理は静止画についても行うことができる。1秒間に1枚〜10数枚程度の細かい間隔で撮影された静止画であれば、動画を1フレームごとに展開して処理したものと考え、画像特徴のみを用いて上述した処理を行うことができる。また、一般的な撮影間隔の写真であっても、撮影時間が近いものをクラスタリングした上で、画像特徴から写真間の類似度を算出して対応付けることで、同様の処理を行うことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した映像処理装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の映像処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,1100,1500,1700・・・映像処理装置、101・・・取得部、102・・・第1抽出部、103・・・生成部、104・・・第2抽出部、105・・・算出部、106,1103,1502・・・選択部、107・・・出力部、301〜303・・・映像、304〜310,403〜412,503〜510,702〜705,805〜808・・・区間、401,402・・・特徴量、501,502・・・グラフ、601〜606・・・スコア、607,801〜803・・・要約スコア、701・・・閾値、804・・・要約映像、900・・・映像処理システム、901・・・サーバ、902・・・クライアント、903・・・ネットワーク、1101・・・検出部、1102・・・補正部、1104・・・ショットパターン辞書、1501・・・管理部、1701・・・算出部、1702・・・判定部、1703・・・通知部。

Claims (10)

  1. 画像および音響を含む複数の映像を取得する取得部と、
    前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する第1抽出部と、
    前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する生成部と、
    前記対応区間を含んだ前記映像の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する第2抽出部と、
    前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
    前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、
    を具備することを特徴とする映像処理装置。
  2. 前記生成部は、前記音響の特徴量に応じて前記対応区間を生成し、
    前記算出部は、少なくとも前記画像の特徴量に基づいて、前記要約スコアを算出することを特徴とする請求項1に記載の映像処理装置。
  3. ショットの集合が所定の映像シーンとなるような該ショットの組み合わせを示す典型ショットパターンの特徴量モデルと、前記特徴量とが一致するかどうかの尤度を算出し、前記尤度が第3閾値以上である特徴量を検出する検出部と、
    前記尤度が前記第3閾値以上である特徴量から算出された前記要約スコアに対する補正値を生成する補正部と、をさらに具備し、
    前記選択部は、前記補正値が加算された要約スコアに基づいて、前記要約区間を選択することを特徴とする請求項1に記載の映像処理装置。
  4. 前記映像は、さらに該映像を利用できるかどうかを示す可否情報を含み、
    前記要約区間として選択された映像の前記可否情報が利用不可を示す場合、前記映像を保有するユーザに利用許可を請求する管理部をさらに具備し、
    前記選択部は、前記要約区間の利用許可が得られない場合は、該要約区間を削除するか、または前記可否情報が利用許可を示す共通映像区間を要約区間として選択することを特徴とする請求項1に記載の映像処理装置。
  5. 画像および音響を含む複数の映像を取得する取得部と、
    前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する第1抽出部と、
    前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する生成部と、
    前記対応区間の類似度が高いほど映像を保有するユーザ間の関連度が高いことを示す関連度スコアを算出する算出部と、
    前記関連度スコアが第4閾値以上であるかどうかを判定する判定部と、
    前記関連度スコアが前記第4閾値以上であると判定されたユーザに対しメッセージを通知する通知部と、を具備することを特徴とする映像処理装置。
  6. 複数のユーザによって構成されるコミュニティが複数存在する場合、
    前記通知部は、前記関連度スコアが、前記コミュニティに属するユーザの関連度スコアから算出されるコミュニティ関連度スコア以上である場合、前記コミュニティに関するメッセージを通知することを特徴とする請求項5に記載の映像処理装置。
  7. 画像および音響を含む複数の映像のうち、複数の音響を受信する受信部と、
    前記音響ごとに、前記音響を解析し、音響の特性を示す特徴量であって、前記複数の音響の間で共通の特徴を示す第1特徴量を抽出する第1抽出部と、
    前記第1特徴量の変化に応じて前記音響ごとに該音響を分割して複数の区間を生成し、互いに異なる音響に含まれる1以上の区間の第1特徴量の類似度が第1閾値以上の区間を複数の音響間で対応付けて対応区間を生成する生成部と、
    前記対応区間を含む前記音響の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する第2抽出部と、を具備し、
    前記受信部は、前記共通映像区間に含まれる画像をさらに受信し、
    前記第1抽出部は、前記共通映像区間に含まれる画像ごとに、前記共通映像区間に含まれる画像に基づいた画像の特性を示す特徴量であって、前記複数の画像の間で共通の特徴を示す第2特徴量をさらに抽出し、
    前記共通映像区間の第2特徴量を用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
    前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、をさらに具備することを特徴とする映像処理装置。
  8. 第1送受信部を具備する1以上のクライアントと、第2送受信部を具備し該クライアントと通信を行うサーバと、を含む映像処理システムであって、
    前記クライアントは、
    画像および音響を含む複数の映像を取得する取得部をさらに具備し、
    前記第1送受信部は、前記音響を送信し、
    前記サーバは、
    前記第2送受信部は、前記音響を受信し、
    前記音響ごとに、前記音響を解析し、音響の特性を示す特徴量であって、前記複数の音響の間で共通の特徴を示す第1特徴量を抽出する第1抽出部と、
    前記第1特徴量に応じて前記音響ごとに該音響を分割して複数の区間を生成し、互いに異なる音響に含まれる1以上の区間の第1特徴量の類似度が第1閾値以上の区間複数の音響間で対応付けて対応区間を生成する生成部と、
    前記対応区間を含む前記音響の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する第2抽出部と、をさらに具備し、
    前記第2送受信部は、前記共通映像区間を送信し、
    前記クライアントにおいて、
    前記第1送受信部は、前記共通映像区間を受信して、該共通映像区間に含まれる画像を送信し、
    前記サーバは、
    前記第2送受信部は、前記共通映像区間に含まれる画像を受信し、
    前記第1抽出部は、前記共通映像区間に含まれる画像に基づいた画像の特性を示す特徴量であって、前記複数の画像の間で共通の特徴を示す第2特徴量を、さらに抽出し、
    前記共通映像区間の第2特徴量を用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
    前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、をさらに具備し、
    前記第2送受信部は、前記要約区間を送信することを特徴とする映像処理システム。
  9. 複数の画像を含む画像群を1以上取得する取得部と、
    前記画像群ごとに、前記画像群を解析し、該画像群に基づいた画像の特性を示す特徴量であって、前記複数の画像群の間で共通の特徴を示す特徴を抽出する第1抽出部と、
    前記特徴量の変化に応じて前記画像群ごとに該画像群に含まれる画像同士の特徴量の類似度が第1閾値以上の画像を前記複数の画像間で対応付けて、複数の画像を含む対応画像を生成する生成部と、
    前記対応画像を含んだ前記画像群の数が第2閾値以上である場合、該対応画像を共通画像として抽出する第2抽出部と、
    前記共通画像の特徴量を用いて、該共通画像で定義され時間を変数とするスコアであって該共通画像に含まれる画像を要約画像に含める度合いを示す要約スコアを算出する算出部と、
    前記要約スコアに基づいて、前記共通画像から要約画像に用いる部分画像を選択する選択部と、を具備することを特徴とする映像処理装置。
  10. 画像および音響を含む複数の映像を取得し、
    前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出し、
    前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成し、
    前記対応区間を含んだ前記映像の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出し、
    前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出し、
    前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択することを具備することを特徴とする映像処理方法。
JP2010214478A 2010-09-24 2010-09-24 映像処理装置、方法、及び映像処理システム Expired - Fee Related JP5092000B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010214478A JP5092000B2 (ja) 2010-09-24 2010-09-24 映像処理装置、方法、及び映像処理システム
US13/240,278 US8879788B2 (en) 2010-09-24 2011-09-22 Video processing apparatus, method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010214478A JP5092000B2 (ja) 2010-09-24 2010-09-24 映像処理装置、方法、及び映像処理システム

Publications (2)

Publication Number Publication Date
JP2012070283A JP2012070283A (ja) 2012-04-05
JP5092000B2 true JP5092000B2 (ja) 2012-12-05

Family

ID=45870702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010214478A Expired - Fee Related JP5092000B2 (ja) 2010-09-24 2010-09-24 映像処理装置、方法、及び映像処理システム

Country Status (2)

Country Link
US (1) US8879788B2 (ja)
JP (1) JP5092000B2 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9071868B2 (en) 2009-05-29 2015-06-30 Cognitive Networks, Inc. Systems and methods for improving server and client performance in fingerprint ACR systems
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
JP5723446B2 (ja) * 2011-06-02 2015-05-27 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
US9113269B2 (en) 2011-12-02 2015-08-18 Panasonic Intellectual Property Corporation Of America Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
JP5752585B2 (ja) 2011-12-16 2015-07-22 株式会社東芝 映像処理装置、方法及びプログラム
US9204103B1 (en) * 2011-12-30 2015-12-01 Emc Corporation Technique for parallel, distributed video processing
JP2013224983A (ja) * 2012-04-19 2013-10-31 Canon Inc 情報処理装置、通信装置、それらの制御方法、画像表示システム、およびプログラム
US9552124B2 (en) * 2012-04-27 2017-01-24 Mobitv, Inc. Character based search and discovery of media content
JP5994974B2 (ja) * 2012-05-31 2016-09-21 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、プログラム及び情報処理方法
WO2013186958A1 (ja) * 2012-06-13 2013-12-19 日本電気株式会社 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体
JP6024952B2 (ja) * 2012-07-19 2016-11-16 パナソニックIpマネジメント株式会社 画像送信装置、画像送信方法、画像送信プログラム及び画像認識認証システム
JP5993243B2 (ja) * 2012-08-06 2016-09-14 日本放送協会 映像処理装置及びプログラム
US9325930B2 (en) 2012-11-15 2016-04-26 International Business Machines Corporation Collectively aggregating digital recordings
US9712800B2 (en) 2012-12-20 2017-07-18 Google Inc. Automatic identification of a notable moment
EP2939439A4 (en) * 2012-12-31 2016-07-20 Google Inc AUTOMATIC IDENTIFICATION OF A SPECIAL MOMENT
JP2014187687A (ja) * 2013-02-21 2014-10-02 Mitsubishi Electric Corp 動画像のハイライトシーン抽出装置及び方法
KR102025362B1 (ko) * 2013-11-07 2019-09-25 한화테크윈 주식회사 검색 시스템 및 영상 검색 방법
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US9870621B1 (en) 2014-03-10 2018-01-16 Google Llc Motion-based feature correspondence
US10108254B1 (en) 2014-03-21 2018-10-23 Google Llc Apparatus and method for temporal synchronization of multiple signals
US20150348588A1 (en) * 2014-05-27 2015-12-03 Thomson Licensing Method and apparatus for video segment cropping
US9426523B2 (en) 2014-06-25 2016-08-23 International Business Machines Corporation Video composition by dynamic linking
US9600723B1 (en) 2014-07-03 2017-03-21 Google Inc. Systems and methods for attention localization using a first-person point-of-view device
US10225583B2 (en) 2014-08-01 2019-03-05 Realnetworks, Inc. Video-segment identification systems and methods
US10452713B2 (en) 2014-09-30 2019-10-22 Apple Inc. Video analysis techniques for improved editing, navigation, and summarization
CN107005676A (zh) * 2014-12-15 2017-08-01 索尼公司 信息处理方法、影像处理装置和程序
CA2973740C (en) 2015-01-30 2021-06-08 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10095786B2 (en) * 2015-04-09 2018-10-09 Oath Inc. Topical based media content summarization system and method
MX2017013128A (es) 2015-04-17 2018-01-26 Inscape Data Inc Sistemas y metodos para reducir densidad de los datos en grandes conjuntos de datos.
JP6903653B2 (ja) 2015-07-16 2021-07-14 インスケイプ データ インコーポレイテッド 共通メディアセグメントの検出
WO2017011768A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US10080062B2 (en) * 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
WO2017049612A1 (en) * 2015-09-25 2017-03-30 Intel Corporation Smart tracking video recorder
US10229324B2 (en) * 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
US10298646B2 (en) * 2016-04-27 2019-05-21 Google Llc Similar introduction advertising caching mechanism
EP4105822A1 (en) * 2016-09-08 2022-12-21 Goh Soo, Siah Video ingestion framework for visual search platform
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
EP3336746A1 (en) * 2016-12-15 2018-06-20 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO System and method of video content filtering
CN107241644B (zh) 2017-05-31 2018-09-07 腾讯科技(深圳)有限公司 一种视频直播过程中的图像处理方法和装置
JP6917788B2 (ja) * 2017-06-09 2021-08-11 日本放送協会 要約映像生成装置及びプログラム
CN110798752B (zh) * 2018-08-03 2021-10-15 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
US10834452B2 (en) * 2019-01-02 2020-11-10 International Business Machines Corporation Dynamic live feed recommendation on the basis of user real time reaction to a live feed
EP3690674A1 (en) * 2019-02-01 2020-08-05 Moodagent A/S Method for recommending video content
US11039177B2 (en) 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US11102523B2 (en) * 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
CN109889879A (zh) * 2019-03-25 2019-06-14 联想(北京)有限公司 信息控制方法及电子设备
JP7191760B2 (ja) * 2019-04-05 2022-12-19 富士通株式会社 映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法
CN110234037B (zh) * 2019-05-16 2021-08-17 北京百度网讯科技有限公司 视频片段的生成方法及装置、计算机设备及可读介质
CN111246244B (zh) * 2020-02-04 2023-05-23 北京贝思科技术有限公司 集群内快速分析处理音视频的方法、装置及电子设备
WO2021240651A1 (ja) * 2020-05-26 2021-12-02 日本電気株式会社 情報処理装置、制御方法及び記憶媒体
US20230206635A1 (en) * 2020-05-26 2023-06-29 Nec Corporation Information processing device, control method, and recording medium
WO2021240677A1 (ja) * 2020-05-27 2021-12-02 日本電気株式会社 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体
JP7420246B2 (ja) * 2020-05-27 2024-01-23 日本電気株式会社 映像処理装置、映像処理方法、及び、プログラム
US11152031B1 (en) * 2021-05-11 2021-10-19 CLIPr Co. System and method to compress a time frame of one or more videos
WO2022259530A1 (ja) * 2021-06-11 2022-12-15 日本電気株式会社 映像処理装置、映像処理方法、及び、記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1067800A4 (en) * 1999-01-29 2005-07-27 Sony Corp METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS
JP3617052B2 (ja) * 2001-08-30 2005-02-02 日本電気株式会社 カメラ映像提供システム及びカメラ映像の時刻補正方法
US7327885B2 (en) * 2003-06-30 2008-02-05 Mitsubishi Electric Research Laboratories, Inc. Method for detecting short term unusual events in videos
JP4047264B2 (ja) * 2003-09-30 2008-02-13 株式会社東芝 動画像処理装置、動画像処理方法および動画像処理プログラム
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US20070010998A1 (en) * 2005-07-08 2007-01-11 Regunathan Radhakrishnan Dynamic generative process modeling, tracking and analyzing
JP2008178090A (ja) * 2006-12-22 2008-07-31 Victor Co Of Japan Ltd 映像処理装置
JP4728972B2 (ja) 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
JP4360425B2 (ja) * 2007-06-15 2009-11-11 ソニー株式会社 画像処理装置、その処理方法およびプログラム
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法

Also Published As

Publication number Publication date
JP2012070283A (ja) 2012-04-05
US8879788B2 (en) 2014-11-04
US20120076357A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
JP5092000B2 (ja) 映像処理装置、方法、及び映像処理システム
US9189137B2 (en) Method and system for browsing, searching and sharing of personal video by a non-parametric approach
US8995823B2 (en) Method and system for content relevance score determination
US9570107B2 (en) System and method for semi-automatic video editing
US11330316B2 (en) Media streaming
US8948515B2 (en) Method and system for classifying one or more images
US9554111B2 (en) System and method for semi-automatic video editing
US10430664B2 (en) System for automatically editing video
US20170065889A1 (en) Identifying And Extracting Video Game Highlights Based On Audio Analysis
US20140086562A1 (en) Method And Apparatus For Creating A Composite Video From Multiple Sources
JP5752585B2 (ja) 映像処理装置、方法及びプログラム
US20130101162A1 (en) Multimedia System with Processing of Multimedia Data Streams
WO2014001607A1 (en) Video remixing system
US20180232384A1 (en) Methods and apparatus for information capture and presentation
US8896708B2 (en) Systems and methods for determining, storing, and using metadata for video media content
WO2013187796A1 (ru) Способ автоматического монтажа цифровых видеофайлов
JP2014130536A (ja) 情報管理装置、サーバ及び制御方法
KR102462297B1 (ko) 개인미디어 크리에이터를 위한 클라우드 기반 스튜디오 플랫폼 제공 시스템
Duan et al. Meetor: A Human-Centered Automatic Video Editing System for Meeting Recordings
CN117014679A (zh) 一种内容检测的方法、相关装置、设备以及存储介质
WO2013154489A2 (en) Method and system for searches in digital content
DTO et al. Deliverable D6.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120914

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees