JP2023520631A

JP2023520631A - 視覚認識における資源コストの低減

Info

Publication number: JP2023520631A
Application number: JP2022554600A
Authority: JP
Inventors: ブルシュタイン、エフゲニー; ネヘミアロットマン、ダニエル; ポラート、ドロール; バーズライ、ウディ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-04-12
Filing date: 2021-03-17
Publication date: 2023-05-18
Also published as: US20210319227A1; US11164005B1; GB202216834D0; WO2021209835A1; CN115280378B; DE112021002291T5; CN115280378A; GB2612707A

Abstract

実施形態は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術を提供することができる。例えば、一実施形態では、プロセッサと、プロセッサによってアクセス可能なメモリと、メモリに格納されプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムにおいて、視覚認識処理の方法を実装することができ、この方法は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを含む。

Description

本発明は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術に関する。

インターネット上でビデオ・データが発達しているために、ビデオ・ストリーム内の画像の自動ビデオ分析および認識が一般的となりつつある。典型的には、機械学習（ＭＬ）技術は、コンピュータ視覚タスク、具体的には画像中のオブジェクトを認識するために使用される。しかし、所与の画像の視覚認識は、資源の利用の点で高価である。

したがって、リソース利用の低減を提供することができる画像の識別を提供する技術の必要性が生じている。

実施形態は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術を提供することができる。

一実施形態では、プロセッサと、プロセッサによってアクセス可能なメモリと、メモリに格納されプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムにおいて、視覚認識処理の方法を実装することができ、この方法は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを含む。

実施形態では、ビデオ・ストリームのビデオ・フレームを粗くセグメント化することが、シーンの画像類似度に基づいてもよい。各クラスタの質を決定することが、クラスタの視覚認識結果の類似度に基づいてもよい。複数のビデオ・フレームをサンプリングすることは、最長の類似度距離または最大の非類似度を有するクラスタ内の２つのフレームをサンプリングすることを含むことがある。この方法は、再クラスタリングされたビデオ・フレーム上でのサンプリング、再クラスタリングされたビデオ・フレーム上の各クラスタの質の決定、およびビデオ・ストリームのビデオ・フレームの再クラスタリングを繰り返すことをさらに含み、視覚認識は、クラスタリングの質を改善し、再クラスタリングは、視覚認識の質を改善する。この方法は、最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含むことがある。各クラスタからの選択された代表的な画像の少なくとも一部は、クラスタの中心を表し得る。

一実施形態では、視覚認識処理のためのシステムは、プロセッサと、プロセッサによってアクセス可能なメモリと、コンピュータ・プログラム命令とを含み、コンピュータ・プログラム命令は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを実施するように、メモリに格納されてプロセッサによって実行可能である。

一実施形態では、視覚認識処理のためのコンピュータ・プログラム製品は、それを以て具現化されるプログラム命令を有する非一時的なコンピュータ可読ストレージを有し、プログラム命令は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを含む方法を、コンピュータに実施させるようにコンピュータによって実行可能である。

本発明の詳細は、その構造および動作の両方に関して、添付図面を参照することによって最もよく理解することができ、図面では、同様の参照番号および名称は同様の要素を指す。

本技術の実施形態によるシステムの例示的な図である。本技術の実施形態による視覚認識サンプリングの処理の例示的なフロー図である。本技術の実施形態によるクラスタリングの例示的な図である。本明細書に記載の実施形態に含まれるプロセスを実装し得る、コンピュータ・システムの例示的なブロック図である。

実施形態は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術を提供することができる。実施形態は、画像類似度に基づいてクラスタリングを行うことによって視覚認識（ＶＲ）の使用コストを低減し、ＶＲ結果の類似度に基づいて再クラスタリングを行うことができる。その結果、ＶＲサンプリングを、「１秒当たり１フレーム」のサンプリングと比較して最大６０％低減することができ、「１ショット当たり１フレーム」のサンプリングと比較して最大２０％低減することができる。

本技術を利用する例示的なシステム１００が図１に示されている。図１に示されるように、デジタル・ビデオ・データ１０２は、動きの痕跡を作り出すフレームとして知られるストリームまたは一連の静止画像１０４Ａ～Ｎを含むことができ、さらに、オーディオ・データを含んでもよい。連続するフレームの表示される周波数（速さ）は、フレーム・レートと呼ばれ、秒あたりのフレーム（ｆｐｓ）で表現される。フレーム１０４Ａ～Ｎは、フレーム分析処理１０６によって処理されて、視覚または画像認識、ビデオ注釈などの多数の機能を実施することができる。このような機能は、ビデオ推薦、ビデオ監視、インターネット・プラットフォームなど、大量のビデオ・データの自動要約および編成を可能にし得る。

フレーム分析処理１０６は、ビデオ分析のための機械学習（ＭＬ）技術を使用することができる。１つのアプローチは、ビデオ・フレームを静止画像として扱い、すべてのフレームを分析してフレームの内容の予測を生成することである。しかし、各ビデオが多数のフレームを含むことから、全ビデオ・フレームの処理は、短いビデオ・クリップについても計算的に資源集約的である。また、連続するビデオ・フレームは、コンテンツ内で重複していてもよい。したがって、分析されるフレームをサンプリングすることができる、すなわち、選択されたフレームのみを分析することができる。

分析されるサンプル・フレームを選択するための一般的な技術としては、周期的サンプリングおよびショット検出を挙げることができる。周期的サンプリングは、１秒当たり１フレームなどの固定または調整可能な周期的基準で１つまたは複数のフレームを選択することができる。ショット検出は、ビデオ・ストリームのフレームのコンテンツまたはショットが有意に変化したときを検出するため、およびこのようなショットの変化の発生に基づいて１つまたは複数のフレームを選択するために使用され得る。

図２は、モデル１００の動作のプロセス２００を示し、図１と併せて見るのが最適である。プロセス２００は、ビデオ・ストリーム１０２に存在するシーンに基づいてビデオ・ストリーム１０２が粗くセグメント化され得る２０２から始まる。例えば、ビデオ・ストリーム１０２は、以下に記載されるようなクラスタリング・プロセスではなく、ビデオ・ストリーム１０２のシーンに基づいて、最初の粗いグループまたはクラスタ１１０Ａ、１１０Ｂ、１１０Ｃなどに分割されてもよい。例えば、画像類似度は、画像間の視覚的類似度を測定し得る測定規準を用いて決定されてもよい。例えば、画像は、例えば画素値、色ヒストグラム、記述子などの従来の方法を用いて、または、例えば畳み込みニューラル・ネットワークなどを用いた深層表現などのより高度な方法を用いて、特徴空間で表現されてもよい。表現を生成した後、表現に基づき２つの画像がどの程度類似しているかを測定するために測定規準を適用してもよい。これは、例えば、コサイン類似度を使用して、またはＬ２ノルム上のガウス・カーネルを使用して行われ得る。画像を初期の粗いクラスタにグループ化するために、特徴空間（または次元削減された近似的等価物）に点を描写してもよく、これらをまとめてクラスタにグループ化する際に、点間の「距離」は、非類似度を表すものであると仮定する。

次に、各シーン・セグメントは、別々の粗いまたは粗目のクラスタとして扱うことができ、各クラスタ１１０Ａ、１１０Ｂ、１１０Ｃなどにおけるフレームはおおよそ類似している。２０４では、各クラスタ１１０Ａ、１１０Ｂ、１１０Ｃなどにおいて、例えば、分離または最大距離（非類似度）の大きいフレームを用いてサンプリングを行うようにしてもよい。例えば、各クラスタ内の最初のフレーム（または各クラスタの先頭に近いフレーム）と、各クラスタ内の最後のフレーム（または各クラスタの終わりに近いフレーム）とをサンプリングしてもよい。典型的には、大きな分離または距離を有するこのようなフレームは、クラスタ内の少なくとも類似のフレームである。

２０６では、各クラスタ内のサンプリングされたフレームのＶＲ結果の類似度を決定することによって、サンプリングされたフレームを用いて各クラスタの質を決定してもよい。ＶＲ結果の類似度は、例えば、２つの画像からの概念（「タグ」）がどの程度類似しているかについての測定規準であり得る。実際には、ＶＲ結果の類似度は、画像から生成された単語の２つのグループがどの程度類似しているかを測定することができる。これは、例えばバッグ・オブ・ワーズ（bag of words）、和集合の共通部分（intersection over union）、ワードベクトル表現などの技術を用いて行うことができる。

クラスタの質が良好である場合、すなわち、サンプリングされたフレーム（類似していない可能性が最も高いもの）が十分に類似している場合、サンプリングされたフレームは、クラスタの代表であり得る。例えば、クラスタの質は、クラスタ内の画像が高いＶＲ結果の類似度を有するか否かに基づいてもよい。これにより、初期クラスタリング（画像の類似度に基づいた）が十分に良好であるか、または洗練の必要があるかを判断することが可能になる。次いで、視覚認識は、これらのサンプリングされたフレームに対してのみ実行され得る。サンプリングされたフレームは、クラスタ内の他の画像と少なくとも類似しているため、視覚認識の結果はクラスタ全体を表すものとなるべきである。したがって、ビデオ・ストリーム１０２内のフレームの比較的小さなサンプルに対してのみ実際の視覚認識を実行しながら、質の高い視覚認識を達成し得る。この視覚認識は、サンプリングされたフレームを記述するタグを生成してもよく、これらのタグは、各クラスタの類似度を決定するために使用され得る。例えば、サンプリングされたフレームが、生成されたタグに基づいて十分に類似していない場合、クラスタ内の画像の類似度は十分に高くないことがある。

この場合、２０８で、フレームは再クラスタリングされてもよい。クラスタリングとは、要素（その表現を与えられた画像）をグループに分割する方法である。これは、上記に与えられた類似度に基づいて行われ得る。クラスタリング・アプローチの例としては、Ｋ－Ｍｅａｎｓ、Ｋ－Ｍｅｄｉｏｄｓ、スペクトル・クラスタリング、密度ベースのスペクトル・クラスタリング、ディープ・エンベデッド・クラスタリングなどの高度な方法などが挙げられる。実施形態では、問題に具体的に合わせたクラスタリング方法が使用され得る。このような方法は、最長距離クラスタ・タイリング（ＭＤＣＴ）と呼ばれることがあり、これは例えば、ビデオの効率的な視覚認識のための教師なし学習方法であり得る。実施形態では、ビデオのフレームは、低レベルの色特徴空間で表現されてもよく、最長距離の制約を用いてクラスタに割り当てられてもよい。フレームがクラスタリングされる最長距離を制限すると、ビデオ内の視覚要素が確実に表現されるとともに、冗長性が排除される可能性がある。

従来のクラスタリングとは異なり、ＭＤＣＴは、フレームベースの視覚認識によって同じ視覚タグを返すであろう２つの類似したフレームが、低レベルの色空間では確かに互いに近接するものとなるという事実による動機付けがある。従来のクラスタリングは、共通の特徴を持つ可能性があるものの必ずしも同じ視覚タグを含むとは限らない、大きく散在するポイントのグループをクラスタリングすることがある。

ＭＤＣＴの実施形態は、集合カバー問題から導出された貪欲なクラスタ凝集と呼ばれる手法（Ｓｌａｖｉｋ、１９９７）を使用してもよく、この手法では、フレームは宇宙を表し、集合は、最長よりも小さな距離を有するフレームである。実施形態は、ＮＰ困難集合被覆問題の多項式時間近似のための貪欲アルゴリズムを活用してもよく、この問題は、最適性に関する比較的堅実な境界を特徴とする。例えば、最も被覆されていないフレームを被覆するフレームが、クラスタ中心として選択されてもよく、各クラスタ内のフレームの最長距離からなるコスト関数を考慮して、降順で追加されてもよい。

実施形態は、最大非類似度の制約に基づいてサンプルをクラスタリング（または再クラスタリング）し得る。クラスタ内のすべての画像の概念を推測するという目標を考慮すると、このことは重要であるが、なぜなら、他の方法は大きなクラスタと小さなクラスタとの両方を同時に有する傾向があり、クラスタ内の他の画像に概念を適用するという前提が崩れる可能性があるためである。さらに、実施形態は、サンプリングされたＶＲ結果について合意があるまでいっそう分割を続ける、反復法を実行してもよい。これは、ＭＤＣＴを用いて、最長距離の制約の値を変更するのみで実行され得る。

例えば、この自動的に調整可能なクラスタリングは、サンプリングされたフレーム間の最長距離を基準として用いて、そして例えばタグに基づいて、視覚認識結果の類似度を用いて実行されてもよい。例えば、サンプリングされたフレームが十分に類似していない場合、クラスタは、２つのサンプリングされたフレームの周囲に２つの新しいクラスタに分割されてもよい。同様に、サンプリングされたフレームが、そのクラスタ内の他のサンプリングされたフレームよりも別のクラスタ内のサンプリングされたフレームにより類似しており、そのより類似したフレームが同じクラスタ内にあるように、フレームが再クラスタリングされてもよい。次いで、２０４～２０８は、画像類似度に基づいて、およびクラスタリング中にサンプリングされたフレームの視覚認識に基づいて、すべてまたは十分な数のクラスタの質が十分に高くなるまで繰り返されてもよい。２１０では、クラスタが決定されると、クラスタ中心を表し得る代表的な画像が、視覚認識のために各クラスタから選択されてもよい。

サンプリングされたフレームの視覚認識が、フレームを再クラスタリングするために使用されるため、視覚認識は、クラスタリングの質を改善することができ、また再クラスタリングは、視覚認識の質を改善することができる。

本手法によるクラスタリングの一例を図３に示す。図２と併せて見るのが最適である。この例に示すように、２０２では、初期粗クラスタ３０２、３０４は、例えば、上述した画像類似度を用いて決定され得る。２０４では、各初期クラスタ由来のサンプル・フレームが選択され得る。例えば、サンプル・フレーム３０６、３０８は、クラスタ３０２から選択され、サンプル・フレーム３１０、３１２は、クラスタ３０４から選択され得る。この例では、サンプル・フレーム３０６が犬の画像であってもよいし、サンプル・フレーム３０８が猫の画像であってもよいし、サンプル・フレーム３０６および３０８の両方が鳥の画像であってもよい。２０６では、クラスタ３０２および３０４の質は、上述のように、例えば、ＶＲ結果の類似度を用いて決定され得る。この例では、フレーム３０６および３０８が十分に類似しておらず、フレーム３１０および３１２が十分に類似していると判定され得る。この場合、２０８では、クラスタ３０２は、新しいクラスタ３１４、３１６に分割されてもよく、クラスタ３０４は分割されなくてもよい。次いで、プロセス２００は、ステップ２０４を繰り返して、クラスタ３１４からサンプル・フレーム３１８、３２０を、クラスタ３１６からサンプル・フレーム３２２、３２４を選択し得る。ステップ２０４～２０８は、最終クラスタが決定されるまで繰り返されてもよく、２１０で、代表的なフレームが最終クラスタから選択されてもよい。

本明細書に記載される実施形態に関与するプロセスが実装され得るコンピュータ・システム４００の例示的なブロック図が、図４に示されている。コンピュータ・システム４００は、１つまたは複数のプログラムされた汎用コンピュータ・システム、例えば、組込みプロセッサ、チップ上のシステム、パーソナル・コンピュータ、ワークステーション、サーバ・システム、およびミニコンピュータもしくはメインフレーム・コンピュータを用いて、または分散されたネットワーク化されたコンピューティング環境において、実装されてもよい。コンピュータ・システム４００は、１つまたは複数のプロセッサ（ＣＰＵ）４０２Ａ～４０２Ｎ、入出力回路４０４、ネットワーク・アダプタ４０６、およびメモリ４０８を含むことができる。ＣＰＵ４０２Ａ～４０２Ｎは、現在の通信システムおよび方法の機能を行うためにプログラム命令を実行する。典型的には、ＣＰＵ４０２Ａ～４０２Ｎは、インテルＣＯＲＥ（登録商標）プロセッサなどの１つまたは複数のマイクロプロセッサである。図４は、コンピュータ・システム４００が単一のマルチプロセッサ・コンピュータ・システムとして実装される実施形態を示しており、このシステムでは、複数のプロセッサ４０２Ａ～４０２Ｎが、メモリ４０８、入出力回路４０４、およびネットワーク・アダプタ４０６などのシステム・リソースを共有する。しかし、本通信システムおよび方法には、コンピュータ・システム４００が、シングルプロセッサ・コンピュータ・システム、マルチプロセッサ・コンピュータ・システム、またはそれらの混合であり得る複数のネットワーク化されたコンピュータ・システムとして実装される、実施形態も含まれる。

入出力回路４０４は、コンピュータ・システム４００にデータを入力したり、コンピュータ・システム４００からデータを出力したりする能力を提供する。例えば、入出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ、アナログ－デジタルコンバータなどの入力デバイス、ビデオ・アダプタ、モニタ、プリンタなどの出力デバイス、およびモデムなどの入出力デバイスを含み得る。ネットワーク・アダプタ４０６は、デバイス４００をネットワーク４１０とインタフェースする。ネットワーク４１０は、任意の公的または専有のＬＡＮまたはＷＡＮとしてもよく、そのようなものとしては、以下に限定されないがインターネットが挙げられる。

メモリ４０８は、コンピュータ・システム４００の機能を実施するために、ＣＰＵ４０２によって実行されるプログラム命令と、ＣＰＵ４０２によって使用され処理されるデータとを格納する。メモリ４０８としては、例えば、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、プログラム可能なリード・オンリー・メモリ（ＰＲＯＭ）、電気的に消去可能なプログラム可能なリード・オンリー・メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリなどの電子メモリデバイス、および磁気ディスク・ドライブ、テープ・ドライブ、光ディスク・ドライブなどの電気機械メモリを挙げることができ、後者は、統合ドライブエレクトロニクス（ＩＤＥ）インタフェースまたはそのバリエーションもしくは拡張型、例えばイクステンデッドＩＤＥ（ＥＩＤＥ）もしくはウルトラダイレクト・メモリ・アクセス（ＵＤＭＡ）など、またはスモール・コンピュータ・システム・インタフェース（ＳＣＳＩ）ベースのインタフェース、またはそのバリエーションもしくは拡張型、例えばファストＳＣＳＩ、ワイドＳＣＳＩ、ファスト・アンド・ワイドＳＣＳＩなど、またはシリアル・アドバンスト・テクノロジー・アタッチメント（ＳＡＴＡ）、またはそのバリエーションもしくは拡張型、またはファイバ・チャネルアービトレーテッド・ループ（ＦＣ－ＡＬ）インタフェースを使用することがある。

メモリ４０８の内容は、コンピュータ・システム４００が実行するようにプログラムされる機能に応じて変化し得る。図４に示す例では、上述のプロセスの実施形態のためのルーチンおよびデータを表す例示的なメモリ内容が示されている。しかし、当業者は、これらのルーチンが、それらのルーチンに関連するメモリ内容と共に、１つのシステムまたはデバイスに含まれないことがあり、むしろ、周知の工学的な考慮に基づいて、複数のシステムまたはデバイスに分散され得ることを認識するものとなる。本システムおよび方法は、任意および全てのそのような配置を含むことがある。

図４に示す例では、メモリ４０８は、セグメント化ルーチン４１２、サンプリング・ルーチン４１４、クラスタ品質ルーチン４１６、再クラスタリング・ルーチン４１８、視覚認識ルーチン４２０、および代表的選択ルーチン４２２、ビデオ・ストリーム・データ４２４、およびオペレーティング・システム４２６を含み得る。セグメンテーション・ルーチン４１２は、上述のように、例えば画像類似度を用いて、ビデオ・ストリーム・データ４２４中に存在するシーンを粗くセグメント化するソフトウェア・ルーチンを含み得る。サンプリング・ルーチン４１４は、上述のように、例えば互いに大きな分離または距離を有するフレームを用いて、クラスタ上でサンプリングを実施するソフトウェア・ルーチンを含み得る。クラスタ品質ルーチン４１６は、上述のように、例えばＶＲ結果の類似度を用いて、各クラスタ内のサンプリングされたフレームの類似度を決定するソフトウェア・ルーチンを含み得る。再クラスタリング・ルーチン４１８は、上述のように、それらのクラスタリングの質を改善するためにクラスタを再クラスタリングするためのソフトウェア・ルーチンを含み得る。視覚認識ルーチン４２０は、上述のように、ビデオ・フレーム内のオブジェクトを認識し、説明的なタグを生成するためのソフトウェア・ルーチンを含み得る。代表的選択ルーチン４２２は、上述のように、クラスタ内の画像を代表するフレームを各クラスタから選択するソフトウェア・ルーチンを含み得る。ビデオ・ストリーム・データ４２４は、上述のように、ストリームまたは一連の静止画を含み得る。オペレーティング・システム４２６は、システム全体の機能性を提供し得る。

図４に示すように、本通信システムおよび方法は、マルチプロセッサ、マルチタスキング、マルチプロセス、もしくはマルチスレッド・コンピューティング、またはそれらの組合せを提供する１つまたは複数のシステム上での実装、ならびに、シングル・プロセッサ、シングル・スレッド・コンピューティングのみを提供するシステム上での実装を含み得る。マルチプロセッサ・コンピューティングは、１つを超えるプロセッサを使用してコンピューティングを実施することを含む。マルチタスキング・コンピューティングは、１つを超えるオペレーティング・システム・タスクを使用してコンピューティングを実施することを含む。タスクは、実行中のプログラムとオペレーティング・システムによって使用される記帳情報との組合わせを指す、オペレーティング・システムの概念である。プログラムが実行されるたびに、オペレーティング・システムはそれに対して新しいタスクを作成する。このタスクは、タスク番号でプログラムを識別し、他の記帳情報を添付するという点で、プログラムの包みのようなものである。Ｌｉｎｕｘ（登録商標）、ＵＮＩＸ（登録商標）、ＯＳ／２（登録商標）、およびＷｉｎｄｏｗｓ（登録商標）を含む多くのオペレーティング・システムは、同時に多くのタスクを実行でき、マルチタスク・オペレーティング・システムと呼ばれる。マルチタスキングとは、オペレーティング・システムが１つを超える実行可能ファイルを同時に実行する機能である。各実行可能ファイルは独自のアドレス空間で実行されているため、実行可能ファイルはメモリを共有する方法がない。このことは利点を有するが、なぜなら、システム上で実行されている任意の他のプログラムの実行に損害を与えることができないためである。しかし、プログラムは、オペレーティング・システムを介して（またはファイルシステムに格納されているファイルを読み取ることによって）任意の情報を交換する方法がない。タスクとプロセスという用語がしばしば互換的に使用されることから、マルチプロセス・コンピューティングは、マルチタスク・コンピューティングに類似しているが、一部のオペレーティング・システムは両者を区別している。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含んでいてもよい。コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および格納することができる有形デバイスとすることができる。

コンピュータ可読記憶媒体は、以下に限定されないが、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の適した組合せとしてよい。コンピュータ可読記憶媒体のより具体的な例の非網羅的な一覧としては、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、消去可能なプログラム可能なリード・オンリー・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ（登録商標））、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ（ＣＤ－ＲＯＭ）、デジタル汎用ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク（登録商標）、機械的に符号化されたデバイス、例えば、命令を上に記録したパンチ・カードまたは溝内の隆起構造など、および前述の任意の適切な組合せが挙げられる。コンピュータ可読記憶媒体は、本明細書で使用される際に、それ自体が電波または他の自由に伝搬する電磁波、導波管または他の伝送媒体（例えば、光ファイバ・ケーブルを通る光パルス）を伝搬する電磁波、またはワイヤを介して伝送される電気信号などの一時的な信号であるものと解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各演算／処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組合せを介して外部コンピュータまたは外部記憶装置に、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを含むことができる。各演算／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、各演算／処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を送る。

本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、または１つもしくは複数のプログラミング言語の任意の組合せで書かれたソースコードもしくはオブジェクトコードのいずれかとしてよく、プログラミング言語としては、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、および「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語が挙げられる。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上に部分的に、またはリモート・コンピュータ上で部分的にもしくはリモート・コンピュータ上で全体的に、実行してもよい。後者のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含めた任意のタイプのネットワークを介してユーザのコンピュータに接続されていてもよいし、または接続が、外部コンピュータに（例えば、インターネットサービスプロバイダを用いてインターネットを介して）なされていてもよい。いくつかの実施形態では、例えば、プログラム可能なロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラム可能なロジックアレイ（ＰＬＡ）を含めた電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報によって、コンピュータ可読プログラム命令を実行してもよい。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、ならびにフローチャート図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実装する手段を生成するように、機械を生成し得る。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能なデータ処理装置、もしくは他のデバイス、またはそれらの組合せを特定の方法で機能させることのできるコンピュータ可読記憶媒体に格納されてもよく、ゆえに、命令を中に格納したコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックにおいて指定された機能／動作の態様を実装する命令を含む、製品を含み得る。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令がフローチャートもしくはブロック図またはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実装するように、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイス上にロードされて、一連の動作ステップをコンピュータ、他のプログラマブル装置、または他のデバイス上で実施させて、コンピュータ実装プロセスを生じる。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施形態のアーキテクチャ、機能性、およびオペレーションを説明する。この点に関して、フローチャートまたはブロック図の各ブロックは、指定されたロジック機能を実装するための１つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことがある。いくつかの代替的な実施形態では、ブロックに記載された機能は、図に記載された順序の外に生じ得る。例えば、連続して示される２つのブロックが、実際には、実質的に同時に実行されてもよいし、またはブロックが、関与する機能性に応じて、逆の順序で実行されてもよい。また、ブロック図もしくはフローチャート図またはその両方の各ブロック、ならびにブロック図もしくはフローチャート図またはその両方におけるブロックの組合せは、指定された機能もしくはオペレーションを実行するか、または専用ハードウェアとコンピュータ命令との組合せを実施する、専用ハードウェアベースのシステムによって実装できることに留意されたい。

本発明の特定の実施形態を説明したが、当業者は、記載された実施形態と同等の他の実施形態が存在することを理解するものとなる。したがって、本発明は、特定の例示的な実施形態に限定されるものではなく、添付の特許請求の範囲によってのみ限定されることが理解されるよう。

Claims

プロセッサと、前記プロセッサによってアクセス可能なメモリと、前記メモリに格納され前記プロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装されている、視覚認識処理の方法であって、
ビデオ・ストリームのシーンに基づいて前記ビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化すること、
各クラスタから複数のビデオ・フレームをサンプリングすること、
各クラスタの質を決定すること、および
ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングして少なくともいくつかの前記クラスタの質を改善すること
を含む方法。
ビデオ・ストリームのビデオ・フレームを粗くセグメント化することは、前記シーンの画像類似度に基づく、請求項１に記載の方法。
各クラスタの質を決定することは、前記クラスタの視覚認識結果の類似度に基づく、請求項２に記載の方法。
前記複数のビデオ・フレームをサンプリングすることは、互いに最長の距離または最大の非類似度を有する前記クラスタ内の２つのフレームをサンプリングすることを含む、請求項３に記載の方法。
前記再クラスタリングされたビデオ・フレーム上でサンプリングすること、
前記再クラスタリングされたビデオ・フレーム上の各クラスタの質を決定すること、および
ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングすること
を繰り返すことをさらに含み、
前記視覚認識は、前記クラスタリングの質を改善し、前記再クラスタリングは、前記視覚認識の質を改善する、
請求項４に記載の方法。
最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含む、請求項５に記載の方法。
各クラスタからの選択された代表的な画像の少なくとも一部は、各クラスタの中心を表す、請求項６に記載の方法。
視覚認識処理のためのシステムであって、プロセッサと、前記プロセッサによってアクセス可能なメモリと、コンピュータ・プログラム命令とを含み、前記コンピュータ・プログラム命令は、
ビデオ・ストリームのシーンに基づいて前記ビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化すること、
各クラスタから複数のビデオ・フレームをサンプリングすること、
各クラスタの質を決定すること、および
ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングして少なくともいくつかの前記クラスタの質を改善すること
を行うように前記メモリに格納されて前記プロセッサによって実行可能である、システム。
ビデオ・ストリームのビデオ・フレームを粗くセグメント化することは、前記シーンの画像類似度に基づく、請求項８に記載の方法。
各クラスタの質を決定することは、前記クラスタの視覚認識結果の類似度に基づく、請求項９に記載のシステム。
前記複数のビデオ・フレームをサンプリングすることは、互いに最長の類似度距離または最大の非類似度を有する前記クラスタ内の２つのフレームをサンプリングすることを含む、請求項１０に記載のシステム。
前記再クラスタリングされたビデオ・フレーム上でサンプリングすること、
前記再クラスタリングされたビデオ・フレーム上の各クラスタの質を決定すること、および
ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングすること
を繰り返すことをさらに含み、
前記視覚認識は、前記クラスタリングの質を改善し、前記再クラスタリングは、前記視覚認識の質を改善する、
請求項１１に記載のシステム。
最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含む、請求項１２に記載のシステム。
前記各クラスタからの選択された代表的な画像の少なくとも一部は、各クラスタの中心を表す、請求項１３に記載のシステム。
視覚認識処理のためのコンピュータ・プログラム製品であって、それを以て具現化されるプログラム命令を有する非一時的なコンピュータ可読ストレージを含み、前記プログラム命令は、
ビデオ・ストリームのシーンに基づいて前記ビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化すること、
各クラスタから複数のビデオ・フレームをサンプリングすること、
各クラスタの質を決定すること、
ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングして少なくともいくつかの前記クラスタの質を改善すること
を含む方法を、コンピュータに実施させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
ビデオ・ストリームのビデオ・フレームを粗くセグメント化することは、前記シーンの画像類似度に基づいており、各クラスタの質を決定することは、前記クラスタの視覚認識結果の類似度に基づいている、請求項１５に記載のコンピュータ・プログラム製品。
前記複数のビデオ・フレームをサンプリングすることは、互いに最長の類似度距離または最大の非類似度を有する前記クラスタ内の２つのフレームをサンプリングすることを含む、請求項１６に記載のコンピュータ・プログラム製品。
前記再クラスタリングされたビデオ・フレーム上でサンプリングすること、
前記再クラスタリングされたビデオ・フレーム上の各クラスタの質を決定すること、および
ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングすること
を繰り返すことをさらに含み、
前記視覚認識は、前記クラスタリングの質を改善し、前記再クラスタリングは、前記視覚認識の質を改善する、
請求項１７に記載のコンピュータ・プログラム製品。
最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含む、請求項１８に記載のコンピュータ・プログラム製品。
前記各クラスタからの選択された代表的な画像の少なくとも一部は、各クラスタの中心を表す、請求項１９に記載のコンピュータ・プログラム製品。