JP5092000B2 - 映像処理装置、方法、及び映像処理システム - Google Patents
映像処理装置、方法、及び映像処理システム Download PDFInfo
- Publication number
- JP5092000B2 JP5092000B2 JP2010214478A JP2010214478A JP5092000B2 JP 5092000 B2 JP5092000 B2 JP 5092000B2 JP 2010214478 A JP2010214478 A JP 2010214478A JP 2010214478 A JP2010214478 A JP 2010214478A JP 5092000 B2 JP5092000 B2 JP 5092000B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- section
- unit
- common
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title description 41
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims 6
- 238000003672 processing method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000010187 selection method Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/252—Processing of multiple end-users' preferences to derive collaborative data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
そこで、映像から重要な区間を抽出して短い映像に編集する技術として、要約技術がある。要約技術のうち、テレビ放送の映像を対象にするものは適用が困難であるものが多い。なぜならば、テレビ放送は専門家によって撮影および編集された映像であり、不要なシーンはカットされた状態で放送されるからである。また、映像全体も番組構成に沿って、ある程度決まった構造を持っている。一方で、個人撮影の映像は内容も雑多であり、撮影者の撮影技術も低いため、個人撮影の映像の要約においては、テレビ放送向けとは異なる要約技術が必要となる。
本実施形態に係る映像処理装置について図1のブロック図を参照して説明する。
本実施形態に係る映像処理装置100は、取得部101と、第1抽出部102と、生成部103と、第2抽出部104と、算出部105と、選択部106と、出力部107とを含む。
取得部101は、外部から複数の映像を複数受け取る。なお、映像は、ここでは画像と音響とを含む。
また、入力映像がMPEGなどで符号化された形式である場合は、特定の圧縮方式が用いられたフレームから特徴量を抽出してもよい。例えば、MPEGではフレーム内予測方式であるIピクチャとフレーム間予測方式であるPピクチャ、Bピクチャと呼ばれるフレームが存在するが、このうち、Iピクチャだけを用いる。PピクチャやBピクチャでは、フレーム間予測に用いた他のフレームも含めて復号する必要があるが、Iピクチャではそのフレームだけを復号すればよいので、高速に処理できる。
同様に音響特徴も、音量や周波数成分などの低レベル特徴と各種認識手法を用いて得られる高レベル特徴とがある。高レベル特徴としては例えば、音声認識で得られる文字情報や人の声、音楽などの音の種別、話者の識別または分類結果がある。
また、入力映像がMPEGなどの符号化された形式である場合は、符号化されたデータを用いてもよい。符号化されたデータとは、例えば、画像であれば、DC成分情報、動きベクトル情報やその符号長である。また、音声であれば、周波数情報などを復号することなく抽出することができる。
第2抽出部104は、生成部103から対応区間を受け取り、対応付けられた区間に閾値以上の数の映像が対応付いているかを判定し、閾値以上の数の映像が存在すれば、対応区間を共通映像区間として抽出する。
算出部105は、第1抽出部102から特徴量を、第2抽出部104から共通映像区間をそれぞれ受け取り、共通映像区間に含まれる映像の特徴量ごとに、所定の時間単位で要約スコアを算出する。要約スコアは、例えば画面に登場する顔の大きさや数、笑顔度、鮮明度などを用いて算出される。すなわち、どの程度要約映像に含まれるのに適する区間であるか、要約映像に含める度合いを示す値である。
選択部106は、算出部105から共通映像区間および対応する要約スコアを受け取り、要約スコアに基づいて、共通映像区間の中から要約映像として用いる区間を示す要約区間を選択する。
出力部107は、選択部106から要約区間を受け取り、要約区間を外部へ出力する。出力する要約区間は、映像と対応する区間とを特定する情報だけでもよいし、要約区間の映像を結合した要約映像でもよい。
ステップS201では、取得部101が、外部から複数の映像を受け取る。
ステップS202では、第1抽出部102が、映像ごとに、所定の時間単位で映像の特徴量を抽出する。
ステップS203では、生成部103が、時間単位ごとに抽出した特徴量が大きく変化する位置で、映像を複数の区間に分割する。例えば、画像のフレーム単位に色のヒストグラムを比較し、距離を算出する。そして、距離が大きくなったフレーム間で分割する。距離は、例えば、ヒストグラムのビンごとに頻度の差の絶対値を求め、全ビンの差の絶対値の総和を距離とする。なお、映像区間を分割しない場合は、ステップS202からステップS204に進む。
ステップS204では、生成部103が、複数の区間の間で、区間の特徴量を比較して類似度を算出する。区間の特徴量は、区間に含まれる時間単位の特徴量の平均値または分布をもとに作成したモデルのパラメータなどを用いる。
ステップS206では、第2抽出部104が、対応区間に閾値以上の数の映像が含まれているかどうか、すなわち、対応区間を生成する際に用いられた映像の数が閾値以上であるかどうかを判定する。映像の数が閾値以上である場合はステップS207に進み、映像の数が閾値未満である場合は、処理を終了する。
ステップS207では、第2抽出部104が、閾値以上の数の映像が含まれる場合はイベントの重要なシーンを含むと推測されるので、それらの対応区間を共通映像区間として抽出する。
ステップS208では、算出部105が、特徴量を用いて所定の時間単位における共通映像区間に含まれる映像ごとに要約スコアを算出する。なお、所定の時間単位は、上述した一定の時間間隔または一定のフレーム数に加えて、区間単位など一定ではない時間間隔でもよい。
ステップS209では、選択部106が、要約スコアに基づいて共通映像区間の中から要約区間を選択する。要約区間の選択は、例えば要約スコアが高い順でもよいし、要約スコアが閾値以上である共通映像区間を選択してもよい。
ステップS210では、出力部107が、要約区間を外部へ出力する。
なお、図3では、入力される映像として結婚式を撮影した映像を示し、A、B、Cの3つの撮像機器でそれぞれ撮影した映像301、302、303が入力される場合を想定する。区間304から区間306までは、A、B、Cの撮像機器でそれぞれ撮影した新郎新婦の入場シーンであり、始端と終端とをサムネイルで示す。区間307から区間309までは、A、B、Cにおいてそれぞれ撮影された新郎新婦によるケーキカットシーンであり、始端と終端とをサムネイルで示す。新郎新婦の入場シーンおよび新郎新婦によるケーキカットシーンは、このイベントでの重要なシーンであり、A、B、Cの3つ全てで撮影されたシーンである。一方、区間310に示す斜線部分は、イベントの重要なシーンではなく、3つの撮像機器のそれぞれで撮影した映像である。それゆえ、斜線部分の区間は映像301、302、303でそれぞれ内容が異なる。生成部103は、重要なシーンと考えられ、多くの撮像機器で撮影されている、区間304から区間306まで、または、区間307から区間309までのような対応区間を生成する区間対応付け処理を行う。
特徴量401および特徴量402は、それぞれ異なるカメラで撮影された映像から抽出された輝度値である。輝度値としては、画面全体の輝度の平均値を与えればよい。ここで、区間403から区間406まで、および、区間408から区間411までは、輝度とは別の特徴量(例えば音響特徴)によって分割された区間である。
このうち、区間404と区間410とは、類似度の高い区間であるため同一区間を撮影した対応区間として抽出する。なお、類似度は、相互相関などを用いて求めればよい。さらに、輝度値ではなく音響のレベルによっても同様の手法で対応区間を生成できる。
統計モデルに基づいて対応区間を生成する一例について図5を参照して説明する。
グラフ501およびグラフ502はそれぞれ、異なるカメラで撮影された映像から抽出された特徴量に、最も近い音響モデルの尤度である。音響モデルは、音響の周波数成分をもとにMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)を求め、その分布をGMM(Gaussian Mixture Model:ガウス混合モデル)で記述したモデルである。このような音響モデルを音響から複数作成しておく。音響モデルの作成は予め、会話モデル、拍手モデル、歓声モデルなどを用意してもよいし、撮影時の音響をクラスタリングすることで音響モデルを生成してもよい。
撮影時の音響の判定単位ごとに音響モデルとの比較を行い、判定単位区間で最も尤度の高い音響モデルをその区間のモデルとし、その尤度を算出する。
スコア601からスコア606まではそれぞれ、顔の数、顔の大きさ、笑顔度、鮮明度、発話、歓声といった映像の特性を表わすための要素を、映像から抽出してゼロから1の間でスコア付けした値の時間変化を示す。要約スコア607は、これらの要素ごとのスコアを加算して正規化した値である。加算する際に、要素ごとの重要度に応じて重み付けして加算してもよい。例えば、特定の人物が重要なイベントであれば、顔の大きさまたは発話のスコアが高くなるよう重み付けし、歓声のスコアが低くなるよう重み付けすればよい。なお、ここでは要約スコアを複数の要素から算出する例を示したが、映像の時間変化とともにスコアの変化があれば、ひとつの要素を用いて行ってもよい。また、算出コスト削減のために適宜要素数を減らしてもよい。また、スコアの変化は画像のフレームを基準に変化を算出してもよく、例えば画像に付した番号(フレーム番号)をもとに算出してもよい。
また、結婚式の新郎新婦のように、イベントでは要約の中心となるべき主役が存在することがある。そこで、顔検出によって得られた複数の顔を顔の特徴量に基づいてクラスタリングして人物ごとに分類し、クラスタ(分類した集合)要素数から主役を決定して高いスコアを与えるようにしてもよい。
図7は、1つの映像から要約区間を選択する手法であり、まず、要約スコア607に対して閾値701を設定する。次に、閾値701よりも要約スコアが大きい区間である、区間702から区間705までを要約区間として選択する。なお、閾値701は、予め設定した値でもよいし、要約区間の数または要約区間の時間の総和が所定の値となるように設定してもよい。
1人の撮影者が複数のカメラを設置して撮影した、同一のイベントに関する映像を1ヶ所に集めて管理および編集を行うことは容易であるが、複数の撮影者が同一のイベントを個々に撮影した場合では、すぐに映像を集めることができない場合が多い。そこで第2の実施形態では、複数の撮影者(クライアント)が個々に映像をサーバに転送し、サーバ上で要約を作成するシステムを想定する。このようにすることで、要約映像を作成する際により多くの映像を用いることができ、さらに高品位な要約映像を作成することができる。
第2の実施形態に係る映像処理システム900は、サーバ901、クライアント902−1,902−2,902−3を含む。サーバ901と各クライアント902とは、ネットワーク903を介して接続される。なお、第2の実施形態では、サーバ901を1台、クライアント902を3台として説明するが、これに限らず何台でもよい。但し、サーバ901が複数台存在する場合は、1カ所のサーバに処理に必要なデータを集める必要がある。
第2の実施形態では、図1に示した、取得部101と出力部107とをクライアント902側とし、生成部103、第2抽出部104、算出部105、および選択部106とをサーバ901側とする場合を想定する。各部の動作は、それぞれ第1の実施形態に係る部と同様であるため、ここでの説明は省略する。
ステップS1001では、クライアント902が1以上の映像を取得する。
ステップS1002では、クライアント902が、映像に含まれる音響をサーバ901に送信する。
ステップS1003では、サーバ901が音響を受信する。このとき、サーバ901は、複数のクライアント902から音響を受信することとなる。
ステップS1004では、サーバ901の第1抽出部102が、音響から音響特徴を抽出する。
ステップS1005では、サーバ901の生成部103が、複数の映像の音響特徴から、区間を対応付けて対応区間を生成する。なお、サーバ901は、全てのクライアント902から音響を受信していない場合は、全てのクライアント902から音響情報を受信するまで区間を対応付ける処理を保留してもよいし、一定数のクライアント902から音響を受信したら区間を対応付ける処理を行ってもよい。
ステップS1007では、サーバ901からクライアント902へ共通映像区間を送信する。この際、サーバ901は、全てのクライアント902に対して共通映像区間を送信してもよいし、音響をサーバ901に送信したクライアント902のみに、共通映像区間を送信してもよい。
ステップS1008では、クライアント902は共通映像区間を受信する。
ステップS1009では、クライアント902は、共通映像区間に示された区間の画像(部分画像ともいう)をサーバ901に送信する。このとき、サーバ901は、複数のクライアント902から部分画像を受信することとなる。
ステップS1010では、サーバ901はクライアント902から部分画像を受信する。
ステップS1011では、サーバ901の第1抽出部102が、部分画像から画像特徴を抽出する。
ステップS1012では、サーバ901の算出部105が、画像特徴に基づいて共通映像区間に含まれる映像の要約スコアを算出する。なお、音響特徴を合わせて要約スコアを算出してもよい。
ステップS1014では、サーバ901からクライアント902へ要約区間を送信する。要約区間としては、具体的には、クライアント902自身から送信した映像に関わる区間の場合は、区間を特定する情報のみでもよいし、映像自体を含んでもよい。また、他のクライアント902から送信された映像を含む場合は、その映像自体を含むようにする。ただし、クライアント902から送信されていない映像であっても、例えば、動画共有サービスなどを用いて視聴が可能な場合は、その場所(URLなど)と区間を特定する情報とであってもよい。
ステップS1015では、クライアント902が要約区間を受信する。
ステップS1016では、クライアント902の出力部107が、要約区間を出力する。なお、出力される要約区間は、映像または区間を特定する情報だけでもよいし、要約区間の映像を結合した要約映像でもよい。
同一のイベントを複数のカメラで撮影した映像を編集する際に、しばしば典型ショットパターンが用いられる。典型ショットパターンは、ショットの集合が所定の映像シーンとなるようなショットの組み合わせを示す。具体的には、例えば、乾杯の挨拶の場面を編集する場合を想定すると、初めに挨拶を行う人物を中心としたショットを写し、挨拶のあと、拍手をする会場のショットに切り替わるという映像の遷移パターンである。このように編集するには、予め複数のカメラを用意しておき、典型ショットパターンが撮影できるように、どのタイミングでどの映像を撮影するというような準備が必要であり、プロのカメラマンではない一般の参加者が気軽に撮影することは難しい。しかし、複数の参加者が偶然異なる方向の映像を撮影していれば、それらの映像を合わせることで典型ショットパターンの映像を作成することができる。
第3の実施形態に係る映像処理装置1100は、取得部101と、第1抽出部102と、生成部103と、第2抽出部104と、算出部105と、選択部1103と、出力部107と、検出部1101と、補正部1102とを含む。
取得部101、第1抽出部102、生成部103、第2抽出部104、算出部105、および出力部107は、第1の実施形態と同様の動作を行うためここでの説明は省略する。
補正部1102は、検出部1101から尤度を受け取り、尤度に応じて補正値を生成する。
選択部1103は、第1の実施形態とほぼ同様の動作を行い、算出部105から要約スコアを、補正部1102から補正値をそれぞれ受け取り、補正値を要約スコアに加算した補正要約スコアに基づいて、要約区間を選択する。
ショットパターン辞書1104は、複数の典型ショットパターンの特徴量モデルを格納する。なお、典型ショットパターンの特徴量モデルは、予め経験的にパラメータを設定して生成してもよいし、統計データを用いて学習させて生成してもよい。また、webなど外部にある辞書から特徴量モデルを受け取って、適宜格納するようにしてもよい。ショットパターン辞書1104は、図13を参照して後述する。
ステップS1201では、検出部1101が、ショットパターン辞書1104から典型ショットパターンの特徴量モデルを取得する。
ステップS1202では、検出部1101が、ステップS102で算出された特徴量と、1以上の典型ショットパターンの特徴量モデルとを比較し、一致するかどうかの尤度を典型ショットパターンごとに算出する。尤度を算出した結果、閾値以上の尤度を有する典型ショットパターンがある場合、ステップS1203へ進み、閾値以上の尤度を有する典型ショットパターンがない場合、ステップS109へ進む。
ステップS1203では、補正部1102が、尤度によって重み付けされた値を補正値として生成する。補正値は、典型ショットパターンとして用いられる区間が選ばれやすくなるような値として算出されればよい。その後、選択部1103が、典型ショットパターンとして用いられる区間の要約スコアと補正値とを加算して補正要約スコアを生成する。
図13に示すように、典型ショットパターンに用いられるショットがどのような要素で構成されるかをそれぞれ対応付けて、ショットごとに格納する。これら複数のショットを組み合わせることで典型ショットパターンを生成することができる。
例えば、乾杯の挨拶を想定すると、挨拶をしているショットではカメラの動きは少なく、画面の中央で比較的大きく人物が撮影されていることが多い。また、会場が拍手をしている場面ではたくさんの人が写っていたり、会場全体を見渡すようなカメラの動き(パン)を伴っていたりする。よって、画像特徴は構図に関わる顔の位置や大きさ、またはカメラの動きの特徴と含むモデルとする。また、音響特徴についても、挨拶をしている区間では人の声が主体で、拍手をしている区間では拍手の音が主体であるので、音響タイプとしては人の声や拍手などの周波数分布をモデルとする。
なお、特徴量モデルは、画像特徴と音響特徴との両方を含む必要はなく、一方だけを含んでもよい。さらに、特徴量モデルは、画像特徴および音響特徴以外の特徴によって生成されてもよい。また、典型ショットパターンのパラメータとして図13に示す他に、イベントの主人公(新郎新婦など)であるかどうかを含めてもよく、顔の向きまたは口の動きなどの詳細な顔のパラメータなどを含めてもよい。これによって、結婚式でスピーチをする者が新郎新婦に問いかけるような典型ショットパターンも作成できる。
検出部1101は、映像から算出された特徴量と典型ショットパターンに記述された特徴量モデルとを比較し、どの程度特徴量が一致しているかの尤度を算出する。例えば、時間単位に対応付けられた2つの映像A、Bについて、ある位置を境に映像Aではショット1のパターン、映像Bではショット2のパターンというように、尤度が高い区間を探索する。同様に映像Aに対してショット2の尤度を算出し、映像Bに対してショット1の尤度を算出するように入れ替えて評価する。
全てを探索した後、最も尤度が高いショットを組み合わせて典型ショットパターンを生成できる場合は、補正部1102は、要約区間としてそれぞれのショットが選択されるような補正値を生成する。
第1の実施形態では、要約映像を作成すると、要約映像作成者とは別のユーザが保有する映像が要約区間に含まれる場合があり、ユーザによっては、自分が保有する映像を他者に使われることを望まないことがある。そこで第4の実施形態では、別のユーザが保有する映像が要約区間に含まれたときは、映像を保有するユーザに利用許可を求め、許諾を得られなかった場合にはその区間が含まれないように要約区間を変更する。このようにすることで、ユーザの意思を尊重した要約映像を生成することができる。
第4の実施形態に係る映像処理装置1500は、取得部101と、第1抽出部102と、生成部103と、第2抽出部104と、算出部105と、選択部1502と、出力部107と、管理部1501とを含む。
取得部101、第1抽出部102、生成部103、第2抽出部104、算出部105、および出力部107については、第1の実施形態と同様の動作を行うためここでの説明は省略する。
なお、映像には、映像を他のユーザが利用できるかどうか(例えば、他人が要約映像に利用できるかどうか)を示す可否情報が付与されるとする。
選択部1502は、第1の実施形態に係る選択部106とほぼ同様の動作を行うが、要約区間に未許諾区間が含まれる場合は、未許諾区間の映像を削除するか、または次に要約スコアの高い共通映像区間を要約区間として選択する点が異なる。
ステップS1601では、管理部1501が、選択部1502から要約区間を取得する。
ステップS1602では、要約区間に未許諾区間が含まれているかどうかを判定する。要約区間に未許諾区間が含まれる場合は、ステップS1603に進み、要約区間に未許諾区間が含まれない場合は処理を終了し、要約区間には変更を加えない。
ステップS1603では、管理部1501が、未許諾区間の映像を保有するユーザに利用許可を請求する。なお、明示的に許諾を求めるメッセージなどを表示するのではなく、ユーザの登録情報またはユーザが登録しているソーシャル・ネットワーク・サービス(SNS)において、管理部1501が、参加しているコミュニティの映像許諾の有無、映像コンテンツの公開範囲などの各種情報に基づいて、自動的に判定してもよい。また、管理部1501が未許諾区間の映像を保有するユーザに直接的に利用許可を請求せずに、要約映像作成者に、「要約映像に未許諾区間の映像が含まれます。他のユーザに利用許可を取りますか?」という旨のメッセージを表示して、利用許可の請求を行うように促してもよい。さらに、利用許可の請求は、ユーザ間で直接行う代わりに、サーバを介して匿名で行ってもよい。
ステップS1605では、利用許可が得られなかった区間を要約映像から除くように要約区間を変更する。要約区間の変更は、例えば、該当する区間を削除したり、該当する区間の要約スコアを小さくして、他の区間が選ばれるように設定すればよい。その後、新しく選ばれた区間に対して同様の処理を行うために、再びステップS1602に戻り、全ての要約区間の許諾が得られるまで処理を繰り返す。
第5の実施形態では、例えば、複数のユーザが各々のカメラで撮影した映像を共通のサーバ上で保持する環境において、あるユーザAが保有する映像と同じイベントを撮影した映像を別のユーザBが保有しているときに、ユーザBに対して、サーバ上に同じイベントに参加したユーザAがいることを通知する。ユーザBからユーザAに対しても同様に通知することができる。このようにすることで、同じ趣向のユーザまたはコミュニティといったユーザが関心のある情報を提示することができる。
第5の実施形態に係る映像処理装置1700は、取得部101と、第1抽出部102と、生成部103と、算出部1701と、判定部1702と、通知部1703とを含む。
取得部101、第1抽出部102、および生成部103については、第1の実施形態と同様の動作を行うため、ここでの説明は省略する。
算出部1701は、生成部103から複数の対応区間を受け取り、ユーザ関連度スコアを算出する。ユーザ関連度スコアは、入力映像を保有するユーザ間の関連度を示す値であり、スコアが高いほどユーザ間の関連度が高いことを示す。ユーザ関連度スコアは例えば、対応区間の長さを用いる。また、実際に区間として抽出しなくても、区間の対応付けのために算出する特徴量の距離あるいは類似度をユーザ関連度スコアとしてもよい。
判定部1702は、算出部1701からユーザ関連度スコアを受け取り、ユーザ関連度スコアが閾値以上のユーザがいるかどうかを判定する。さらに、ユーザ関連度スコアが閾値以上であるユーザに対して通知許可があるかどうかを判定する。
通知部1703は、判定部1702から判定結果を受け取り、判定結果に基づいてユーザに通知する。
なお、ステップS101からステップS105までは、第1の実施形態と同様の処理を行うためここでの説明は省略する。
ステップS1801では、算出部1701が、対応区間についてユーザ関連度スコアを算出する。
ステップS1802では、判定部1702が、ユーザ関連度スコアが所定の閾値以上であるユーザがいるかどうかを判定する。ユーザ関連度スコアが閾値以上のユーザがいない場合は処理を完了する。ユーザ関連度スコアが閾値以上のユーザがいる場合は、ステップS1803に進む。
ステップS1803では、通知部1703が、他の関連ユーザ(上述の説明ではユーザB)に対して、自身(ユーザA)が関連ユーザであることを通知するかどうかの認証をユーザAに対して通知する。認証は、例えばメッセージをユーザAに表示して、ユーザAが可否を入力することで回答すればよい。また、他の関連ユーザは複数存在する可能性があり、各々の関連ユーザに対して、通知するかどうかの許可をユーザAに求めてもよい。
ステップS1805では、通知部1703が、他の関連ユーザに通知を行う。以上で映像処理装置1700の動作を終了する。
なお、ユーザBからユーザAに通知する場合も同様に、他の関連ユーザ(ユーザA)に対して、自身(ユーザB)が関連ユーザであることを通知してもよいか許可をユーザBに求める。許可は、例えばメッセージを表示して、ユーザBが可否を入力することで回答する。また、ユーザAが操作しているときと同時刻にユーザBが操作をしているとは限らないので、メッセージを表示するページへの誘導は電子メールなどを用いてもよい。さらに、関連するユーザが複数存在する場合、各々のユーザがすぐに回答するとは限らない。その場合は、定期的に通知許可のある関連ユーザがいるかチェックを行い、関連するユーザがいる場合に通知を行えばよい。
さらに、自身(ユーザA)が他の関連ユーザ(ユーザB)への通知を常時許可する場合は、他のユーザに対して、他の関連ユーザが自身(ユーザA)を参照するかどうかについての通知をおこなってもよい。例えば、通知部1703が、ユーザBに対して、「新しい関連ユーザがいます。ご覧になりますか?」という旨のメッセージを通知し、ユーザBが可否を入力すればよい。ユーザBが「可(Yes)」を選択すれば、新しい関連ユーザAを参照することができる。
コミュニティ関連度スコアは例えば、コミュニティに属するユーザの関連度スコアの平均値とする。または、コミュニティに属するユーザのうち、関連ユーザの数の合計値または割合を求めてもよい。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した映像処理装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の映像処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (10)
- 画像および音響を含む複数の映像を取得する取得部と、
前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する第1抽出部と、
前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する生成部と、
前記対応区間を含んだ前記映像の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する第2抽出部と、
前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、
を具備することを特徴とする映像処理装置。 - 前記生成部は、前記音響の特徴量に応じて前記対応区間を生成し、
前記算出部は、少なくとも前記画像の特徴量に基づいて、前記要約スコアを算出することを特徴とする請求項1に記載の映像処理装置。 - ショットの集合が所定の映像シーンとなるような該ショットの組み合わせを示す典型ショットパターンの特徴量モデルと、前記特徴量とが一致するかどうかの尤度を算出し、前記尤度が第3閾値以上である特徴量を検出する検出部と、
前記尤度が前記第3閾値以上である特徴量から算出された前記要約スコアに対する補正値を生成する補正部と、をさらに具備し、
前記選択部は、前記補正値が加算された要約スコアに基づいて、前記要約区間を選択することを特徴とする請求項1に記載の映像処理装置。 - 前記映像は、さらに該映像を利用できるかどうかを示す可否情報を含み、
前記要約区間として選択された映像の前記可否情報が利用不可を示す場合、前記映像を保有するユーザに利用許可を請求する管理部をさらに具備し、
前記選択部は、前記要約区間の利用許可が得られない場合は、該要約区間を削除するか、または前記可否情報が利用許可を示す共通映像区間を要約区間として選択することを特徴とする請求項1に記載の映像処理装置。 - 画像および音響を含む複数の映像を取得する取得部と、
前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出する第1抽出部と、
前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成する生成部と、
前記対応区間の類似度が高いほど映像を保有するユーザ間の関連度が高いことを示す関連度スコアを算出する算出部と、
前記関連度スコアが第4閾値以上であるかどうかを判定する判定部と、
前記関連度スコアが前記第4閾値以上であると判定されたユーザに対しメッセージを通知する通知部と、を具備することを特徴とする映像処理装置。 - 複数のユーザによって構成されるコミュニティが複数存在する場合、
前記通知部は、前記関連度スコアが、前記コミュニティに属するユーザの関連度スコアから算出されるコミュニティ関連度スコア以上である場合、前記コミュニティに関するメッセージを通知することを特徴とする請求項5に記載の映像処理装置。 - 画像および音響を含む複数の映像のうち、複数の音響を受信する受信部と、
前記音響ごとに、前記音響を解析し、音響の特性を示す特徴量であって、前記複数の音響の間で共通の特徴を示す第1特徴量を抽出する第1抽出部と、
前記第1特徴量の変化に応じて前記音響ごとに該音響を分割して複数の区間を生成し、互いに異なる音響に含まれる1以上の区間の第1特徴量の類似度が第1閾値以上の区間を複数の音響間で対応付けて対応区間を生成する生成部と、
前記対応区間を含む前記音響の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する第2抽出部と、を具備し、
前記受信部は、前記共通映像区間に含まれる画像をさらに受信し、
前記第1抽出部は、前記共通映像区間に含まれる画像ごとに、前記共通映像区間に含まれる画像に基づいた画像の特性を示す特徴量であって、前記複数の画像の間で共通の特徴を示す第2特徴量をさらに抽出し、
前記共通映像区間の第2特徴量を用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、をさらに具備することを特徴とする映像処理装置。 - 第1送受信部を具備する1以上のクライアントと、第2送受信部を具備し該クライアントと通信を行うサーバと、を含む映像処理システムであって、
前記クライアントは、
画像および音響を含む複数の映像を取得する取得部をさらに具備し、
前記第1送受信部は、前記音響を送信し、
前記サーバは、
前記第2送受信部は、前記音響を受信し、
前記音響ごとに、前記音響を解析し、音響の特性を示す特徴量であって、前記複数の音響の間で共通の特徴を示す第1特徴量を抽出する第1抽出部と、
前記第1特徴量に応じて前記音響ごとに該音響を分割して複数の区間を生成し、互いに異なる音響に含まれる1以上の区間の第1特徴量の類似度が第1閾値以上の区間複数の音響間で対応付けて対応区間を生成する生成部と、
前記対応区間を含む前記音響の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出する第2抽出部と、をさらに具備し、
前記第2送受信部は、前記共通映像区間を送信し、
前記クライアントにおいて、
前記第1送受信部は、前記共通映像区間を受信して、該共通映像区間に含まれる画像を送信し、
前記サーバは、
前記第2送受信部は、前記共通映像区間に含まれる画像を受信し、
前記第1抽出部は、前記共通映像区間に含まれる画像に基づいた画像の特性を示す特徴量であって、前記複数の画像の間で共通の特徴を示す第2特徴量を、さらに抽出し、
前記共通映像区間の第2特徴量を用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択する選択部と、をさらに具備し、
前記第2送受信部は、前記要約区間を送信することを特徴とする映像処理システム。 - 複数の画像を含む画像群を1以上取得する取得部と、
前記画像群ごとに、前記画像群を解析し、該画像群に基づいた画像の特性を示す特徴量であって、前記複数の画像群の間で共通の特徴を示す特徴を抽出する第1抽出部と、
前記特徴量の変化に応じて前記画像群ごとに該画像群に含まれる画像同士の特徴量の類似度が第1閾値以上の画像を前記複数の画像間で対応付けて、複数の画像を含む対応画像を生成する生成部と、
前記対応画像を含んだ前記画像群の数が第2閾値以上である場合、該対応画像を共通画像として抽出する第2抽出部と、
前記共通画像の特徴量を用いて、該共通画像で定義され時間を変数とするスコアであって該共通画像に含まれる画像を要約画像に含める度合いを示す要約スコアを算出する算出部と、
前記要約スコアに基づいて、前記共通画像から要約画像に用いる部分画像を選択する選択部と、を具備することを特徴とする映像処理装置。 - 画像および音響を含む複数の映像を取得し、
前記映像ごとに、前記画像および前記音響のうちの少なくとも1つを解析し、映像の特性を示す特徴量であって、前記複数の映像の間で共通の特徴を示す特徴量を抽出し、
前記特徴量の変化に応じて前記映像ごとに該映像を分割して複数の区間を生成し、互いに異なる前記映像に含まれる1以上の区間の特徴量の類似度が第1閾値以上の区間を前記複数の映像間で対応付けて対応区間を生成し、
前記対応区間を含んだ前記映像の数が第2閾値以上である場合、該対応区間を共通映像区間として抽出し、
前記共通映像区間の前記画像の特徴量および前記音響の特徴量のうちの少なくとも1つを用いて、共通映像区間で定義され時間を変数とするスコアであって該共通映像区間に含まれる映像部分を要約映像に含める度合いを示す要約スコアを算出し、
前記要約スコアに基づいて、前記共通映像区間から要約映像に用いる映像部分を要約区間として選択することを具備することを特徴とする映像処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010214478A JP5092000B2 (ja) | 2010-09-24 | 2010-09-24 | 映像処理装置、方法、及び映像処理システム |
US13/240,278 US8879788B2 (en) | 2010-09-24 | 2011-09-22 | Video processing apparatus, method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010214478A JP5092000B2 (ja) | 2010-09-24 | 2010-09-24 | 映像処理装置、方法、及び映像処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012070283A JP2012070283A (ja) | 2012-04-05 |
JP5092000B2 true JP5092000B2 (ja) | 2012-12-05 |
Family
ID=45870702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010214478A Expired - Fee Related JP5092000B2 (ja) | 2010-09-24 | 2010-09-24 | 映像処理装置、方法、及び映像処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8879788B2 (ja) |
JP (1) | JP5092000B2 (ja) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9071868B2 (en) | 2009-05-29 | 2015-06-30 | Cognitive Networks, Inc. | Systems and methods for improving server and client performance in fingerprint ACR systems |
US9449090B2 (en) | 2009-05-29 | 2016-09-20 | Vizio Inscape Technologies, Llc | Systems and methods for addressing a media database using distance associative hashing |
US8769584B2 (en) | 2009-05-29 | 2014-07-01 | TVI Interactive Systems, Inc. | Methods for displaying contextually targeted content on a connected television |
US10949458B2 (en) | 2009-05-29 | 2021-03-16 | Inscape Data, Inc. | System and method for improving work load management in ACR television monitoring system |
JP5723446B2 (ja) * | 2011-06-02 | 2015-05-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 |
US9113269B2 (en) | 2011-12-02 | 2015-08-18 | Panasonic Intellectual Property Corporation Of America | Audio processing device, audio processing method, audio processing program and audio processing integrated circuit |
JP5752585B2 (ja) | 2011-12-16 | 2015-07-22 | 株式会社東芝 | 映像処理装置、方法及びプログラム |
US9204103B1 (en) * | 2011-12-30 | 2015-12-01 | Emc Corporation | Technique for parallel, distributed video processing |
JP2013224983A (ja) * | 2012-04-19 | 2013-10-31 | Canon Inc | 情報処理装置、通信装置、それらの制御方法、画像表示システム、およびプログラム |
US9552124B2 (en) * | 2012-04-27 | 2017-01-24 | Mobitv, Inc. | Character based search and discovery of media content |
JP5994974B2 (ja) * | 2012-05-31 | 2016-09-21 | サターン ライセンシング エルエルシーSaturn Licensing LLC | 情報処理装置、プログラム及び情報処理方法 |
WO2013186958A1 (ja) * | 2012-06-13 | 2013-12-19 | 日本電気株式会社 | 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体 |
JP6024952B2 (ja) * | 2012-07-19 | 2016-11-16 | パナソニックIpマネジメント株式会社 | 画像送信装置、画像送信方法、画像送信プログラム及び画像認識認証システム |
JP5993243B2 (ja) * | 2012-08-06 | 2016-09-14 | 日本放送協会 | 映像処理装置及びプログラム |
US9325930B2 (en) | 2012-11-15 | 2016-04-26 | International Business Machines Corporation | Collectively aggregating digital recordings |
US9712800B2 (en) | 2012-12-20 | 2017-07-18 | Google Inc. | Automatic identification of a notable moment |
EP2939439A4 (en) * | 2012-12-31 | 2016-07-20 | Google Inc | AUTOMATIC IDENTIFICATION OF A SPECIAL MOMENT |
JP2014187687A (ja) * | 2013-02-21 | 2014-10-02 | Mitsubishi Electric Corp | 動画像のハイライトシーン抽出装置及び方法 |
KR102025362B1 (ko) * | 2013-11-07 | 2019-09-25 | 한화테크윈 주식회사 | 검색 시스템 및 영상 검색 방법 |
US9955192B2 (en) | 2013-12-23 | 2018-04-24 | Inscape Data, Inc. | Monitoring individual viewing of television events using tracking pixels and cookies |
US9870621B1 (en) | 2014-03-10 | 2018-01-16 | Google Llc | Motion-based feature correspondence |
US10108254B1 (en) | 2014-03-21 | 2018-10-23 | Google Llc | Apparatus and method for temporal synchronization of multiple signals |
US20150348588A1 (en) * | 2014-05-27 | 2015-12-03 | Thomson Licensing | Method and apparatus for video segment cropping |
US9426523B2 (en) | 2014-06-25 | 2016-08-23 | International Business Machines Corporation | Video composition by dynamic linking |
US9600723B1 (en) | 2014-07-03 | 2017-03-21 | Google Inc. | Systems and methods for attention localization using a first-person point-of-view device |
US10225583B2 (en) | 2014-08-01 | 2019-03-05 | Realnetworks, Inc. | Video-segment identification systems and methods |
US10452713B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Video analysis techniques for improved editing, navigation, and summarization |
CN107005676A (zh) * | 2014-12-15 | 2017-08-01 | 索尼公司 | 信息处理方法、影像处理装置和程序 |
CA2973740C (en) | 2015-01-30 | 2021-06-08 | Inscape Data, Inc. | Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device |
US10095786B2 (en) * | 2015-04-09 | 2018-10-09 | Oath Inc. | Topical based media content summarization system and method |
MX2017013128A (es) | 2015-04-17 | 2018-01-26 | Inscape Data Inc | Sistemas y metodos para reducir densidad de los datos en grandes conjuntos de datos. |
JP6903653B2 (ja) | 2015-07-16 | 2021-07-14 | インスケイプ データ インコーポレイテッド | 共通メディアセグメントの検出 |
WO2017011768A1 (en) | 2015-07-16 | 2017-01-19 | Vizio Inscape Technologies, Llc | Systems and methods for partitioning search indexes for improved efficiency in identifying media segments |
US10080062B2 (en) * | 2015-07-16 | 2018-09-18 | Inscape Data, Inc. | Optimizing media fingerprint retention to improve system resource utilization |
WO2017049612A1 (en) * | 2015-09-25 | 2017-03-30 | Intel Corporation | Smart tracking video recorder |
US10229324B2 (en) * | 2015-12-24 | 2019-03-12 | Intel Corporation | Video summarization using semantic information |
US10298646B2 (en) * | 2016-04-27 | 2019-05-21 | Google Llc | Similar introduction advertising caching mechanism |
EP4105822A1 (en) * | 2016-09-08 | 2022-12-21 | Goh Soo, Siah | Video ingestion framework for visual search platform |
US10535371B2 (en) * | 2016-09-13 | 2020-01-14 | Intel Corporation | Speaker segmentation and clustering for video summarization |
EP3336746A1 (en) * | 2016-12-15 | 2018-06-20 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | System and method of video content filtering |
CN107241644B (zh) | 2017-05-31 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种视频直播过程中的图像处理方法和装置 |
JP6917788B2 (ja) * | 2017-06-09 | 2021-08-11 | 日本放送協会 | 要約映像生成装置及びプログラム |
CN110798752B (zh) * | 2018-08-03 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
US10834452B2 (en) * | 2019-01-02 | 2020-11-10 | International Business Machines Corporation | Dynamic live feed recommendation on the basis of user real time reaction to a live feed |
EP3690674A1 (en) * | 2019-02-01 | 2020-08-05 | Moodagent A/S | Method for recommending video content |
US11039177B2 (en) | 2019-03-19 | 2021-06-15 | Rovi Guides, Inc. | Systems and methods for varied audio segment compression for accelerated playback of media assets |
US11102523B2 (en) * | 2019-03-19 | 2021-08-24 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers |
CN109889879A (zh) * | 2019-03-25 | 2019-06-14 | 联想(北京)有限公司 | 信息控制方法及电子设备 |
JP7191760B2 (ja) * | 2019-04-05 | 2022-12-19 | 富士通株式会社 | 映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 |
CN110234037B (zh) * | 2019-05-16 | 2021-08-17 | 北京百度网讯科技有限公司 | 视频片段的生成方法及装置、计算机设备及可读介质 |
CN111246244B (zh) * | 2020-02-04 | 2023-05-23 | 北京贝思科技术有限公司 | 集群内快速分析处理音视频的方法、装置及电子设备 |
WO2021240651A1 (ja) * | 2020-05-26 | 2021-12-02 | 日本電気株式会社 | 情報処理装置、制御方法及び記憶媒体 |
US20230206635A1 (en) * | 2020-05-26 | 2023-06-29 | Nec Corporation | Information processing device, control method, and recording medium |
WO2021240677A1 (ja) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体 |
JP7420246B2 (ja) * | 2020-05-27 | 2024-01-23 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、プログラム |
US11152031B1 (en) * | 2021-05-11 | 2021-10-19 | CLIPr Co. | System and method to compress a time frame of one or more videos |
WO2022259530A1 (ja) * | 2021-06-11 | 2022-12-15 | 日本電気株式会社 | 映像処理装置、映像処理方法、及び、記録媒体 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1067800A4 (en) * | 1999-01-29 | 2005-07-27 | Sony Corp | METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS |
JP3617052B2 (ja) * | 2001-08-30 | 2005-02-02 | 日本電気株式会社 | カメラ映像提供システム及びカメラ映像の時刻補正方法 |
US7327885B2 (en) * | 2003-06-30 | 2008-02-05 | Mitsubishi Electric Research Laboratories, Inc. | Method for detecting short term unusual events in videos |
JP4047264B2 (ja) * | 2003-09-30 | 2008-02-13 | 株式会社東芝 | 動画像処理装置、動画像処理方法および動画像処理プログラム |
EP1889255A1 (en) * | 2005-05-24 | 2008-02-20 | Loquendo S.p.A. | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition |
US20070010998A1 (en) * | 2005-07-08 | 2007-01-11 | Regunathan Radhakrishnan | Dynamic generative process modeling, tracking and analyzing |
JP2008178090A (ja) * | 2006-12-22 | 2008-07-31 | Victor Co Of Japan Ltd | 映像処理装置 |
JP4728972B2 (ja) | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
JP4360425B2 (ja) * | 2007-06-15 | 2009-11-11 | ソニー株式会社 | 画像処理装置、その処理方法およびプログラム |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
-
2010
- 2010-09-24 JP JP2010214478A patent/JP5092000B2/ja not_active Expired - Fee Related
-
2011
- 2011-09-22 US US13/240,278 patent/US8879788B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012070283A (ja) | 2012-04-05 |
US8879788B2 (en) | 2014-11-04 |
US20120076357A1 (en) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5092000B2 (ja) | 映像処理装置、方法、及び映像処理システム | |
US9189137B2 (en) | Method and system for browsing, searching and sharing of personal video by a non-parametric approach | |
US8995823B2 (en) | Method and system for content relevance score determination | |
US9570107B2 (en) | System and method for semi-automatic video editing | |
US11330316B2 (en) | Media streaming | |
US8948515B2 (en) | Method and system for classifying one or more images | |
US9554111B2 (en) | System and method for semi-automatic video editing | |
US10430664B2 (en) | System for automatically editing video | |
US20170065889A1 (en) | Identifying And Extracting Video Game Highlights Based On Audio Analysis | |
US20140086562A1 (en) | Method And Apparatus For Creating A Composite Video From Multiple Sources | |
JP5752585B2 (ja) | 映像処理装置、方法及びプログラム | |
US20130101162A1 (en) | Multimedia System with Processing of Multimedia Data Streams | |
WO2014001607A1 (en) | Video remixing system | |
US20180232384A1 (en) | Methods and apparatus for information capture and presentation | |
US8896708B2 (en) | Systems and methods for determining, storing, and using metadata for video media content | |
WO2013187796A1 (ru) | Способ автоматического монтажа цифровых видеофайлов | |
JP2014130536A (ja) | 情報管理装置、サーバ及び制御方法 | |
KR102462297B1 (ko) | 개인미디어 크리에이터를 위한 클라우드 기반 스튜디오 플랫폼 제공 시스템 | |
Duan et al. | Meetor: A Human-Centered Automatic Video Editing System for Meeting Recordings | |
CN117014679A (zh) | 一种内容检测的方法、相关装置、设备以及存储介质 | |
WO2013154489A2 (en) | Method and system for searches in digital content | |
DTO et al. | Deliverable D6. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120914 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |