JP2023520631A - 視覚認識における資源コストの低減 - Google Patents

視覚認識における資源コストの低減 Download PDF

Info

Publication number
JP2023520631A
JP2023520631A JP2022554600A JP2022554600A JP2023520631A JP 2023520631 A JP2023520631 A JP 2023520631A JP 2022554600 A JP2022554600 A JP 2022554600A JP 2022554600 A JP2022554600 A JP 2022554600A JP 2023520631 A JP2023520631 A JP 2023520631A
Authority
JP
Japan
Prior art keywords
cluster
video frames
quality
visual recognition
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022554600A
Other languages
English (en)
Inventor
ブルシュタイン、エフゲニー
ネヘミア ロットマン、ダニエル
ポラート、ドロール
バーズライ、ウディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023520631A publication Critical patent/JP2023520631A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Systems (AREA)
  • Studio Circuits (AREA)

Abstract

実施形態は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術を提供することができる。例えば、一実施形態では、プロセッサと、プロセッサによってアクセス可能なメモリと、メモリに格納されプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムにおいて、視覚認識処理の方法を実装することができ、この方法は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを含む。

Description

本発明は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術に関する。
インターネット上でビデオ・データが発達しているために、ビデオ・ストリーム内の画像の自動ビデオ分析および認識が一般的となりつつある。典型的には、機械学習(ML)技術は、コンピュータ視覚タスク、具体的には画像中のオブジェクトを認識するために使用される。しかし、所与の画像の視覚認識は、資源の利用の点で高価である。
したがって、リソース利用の低減を提供することができる画像の識別を提供する技術の必要性が生じている。
実施形態は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術を提供することができる。
一実施形態では、プロセッサと、プロセッサによってアクセス可能なメモリと、メモリに格納されプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムにおいて、視覚認識処理の方法を実装することができ、この方法は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを含む。
実施形態では、ビデオ・ストリームのビデオ・フレームを粗くセグメント化することが、シーンの画像類似度に基づいてもよい。各クラスタの質を決定することが、クラスタの視覚認識結果の類似度に基づいてもよい。複数のビデオ・フレームをサンプリングすることは、最長の類似度距離または最大の非類似度を有するクラスタ内の2つのフレームをサンプリングすることを含むことがある。この方法は、再クラスタリングされたビデオ・フレーム上でのサンプリング、再クラスタリングされたビデオ・フレーム上の各クラスタの質の決定、およびビデオ・ストリームのビデオ・フレームの再クラスタリングを繰り返すことをさらに含み、視覚認識は、クラスタリングの質を改善し、再クラスタリングは、視覚認識の質を改善する。この方法は、最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含むことがある。各クラスタからの選択された代表的な画像の少なくとも一部は、クラスタの中心を表し得る。
一実施形態では、視覚認識処理のためのシステムは、プロセッサと、プロセッサによってアクセス可能なメモリと、コンピュータ・プログラム命令とを含み、コンピュータ・プログラム命令は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを実施するように、メモリに格納されてプロセッサによって実行可能である。
一実施形態では、視覚認識処理のためのコンピュータ・プログラム製品は、それを以て具現化されるプログラム命令を有する非一時的なコンピュータ可読ストレージを有し、プログラム命令は、ビデオ・ストリームのシーンに基づいてビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化し、各クラスタから複数のビデオ・フレームをサンプリングすること、および各クラスタの質を決定し、ビデオ・ストリームのビデオ・フレームを再クラスタリングして少なくともいくつかのクラスタの質を改善することを含む方法を、コンピュータに実施させるようにコンピュータによって実行可能である。
本発明の詳細は、その構造および動作の両方に関して、添付図面を参照することによって最もよく理解することができ、図面では、同様の参照番号および名称は同様の要素を指す。
本技術の実施形態によるシステムの例示的な図である。 本技術の実施形態による視覚認識サンプリングの処理の例示的なフロー図である。 本技術の実施形態によるクラスタリングの例示的な図である。 本明細書に記載の実施形態に含まれるプロセスを実装し得る、コンピュータ・システムの例示的なブロック図である。
実施形態は、視覚認識のためのビデオ・フレームのサンプリングの低減のために、リソース利用の低減を提供することができる画像の識別を提供する技術を提供することができる。実施形態は、画像類似度に基づいてクラスタリングを行うことによって視覚認識(VR)の使用コストを低減し、VR結果の類似度に基づいて再クラスタリングを行うことができる。その結果、VRサンプリングを、「1秒当たり1フレーム」のサンプリングと比較して最大60%低減することができ、「1ショット当たり1フレーム」のサンプリングと比較して最大20%低減することができる。
本技術を利用する例示的なシステム100が図1に示されている。図1に示されるように、デジタル・ビデオ・データ102は、動きの痕跡を作り出すフレームとして知られるストリームまたは一連の静止画像104A~Nを含むことができ、さらに、オーディオ・データを含んでもよい。連続するフレームの表示される周波数(速さ)は、フレーム・レートと呼ばれ、秒あたりのフレーム(fps)で表現される。フレーム104A~Nは、フレーム分析処理106によって処理されて、視覚または画像認識、ビデオ注釈などの多数の機能を実施することができる。このような機能は、ビデオ推薦、ビデオ監視、インターネット・プラットフォームなど、大量のビデオ・データの自動要約および編成を可能にし得る。
フレーム分析処理106は、ビデオ分析のための機械学習(ML)技術を使用することができる。1つのアプローチは、ビデオ・フレームを静止画像として扱い、すべてのフレームを分析してフレームの内容の予測を生成することである。しかし、各ビデオが多数のフレームを含むことから、全ビデオ・フレームの処理は、短いビデオ・クリップについても計算的に資源集約的である。また、連続するビデオ・フレームは、コンテンツ内で重複していてもよい。したがって、分析されるフレームをサンプリングすることができる、すなわち、選択されたフレームのみを分析することができる。
分析されるサンプル・フレームを選択するための一般的な技術としては、周期的サンプリングおよびショット検出を挙げることができる。周期的サンプリングは、1秒当たり1フレームなどの固定または調整可能な周期的基準で1つまたは複数のフレームを選択することができる。ショット検出は、ビデオ・ストリームのフレームのコンテンツまたはショットが有意に変化したときを検出するため、およびこのようなショットの変化の発生に基づいて1つまたは複数のフレームを選択するために使用され得る。
図2は、モデル100の動作のプロセス200を示し、図1と併せて見るのが最適である。プロセス200は、ビデオ・ストリーム102に存在するシーンに基づいてビデオ・ストリーム102が粗くセグメント化され得る202から始まる。例えば、ビデオ・ストリーム102は、以下に記載されるようなクラスタリング・プロセスではなく、ビデオ・ストリーム102のシーンに基づいて、最初の粗いグループまたはクラスタ110A、110B、110Cなどに分割されてもよい。例えば、画像類似度は、画像間の視覚的類似度を測定し得る測定規準を用いて決定されてもよい。例えば、画像は、例えば画素値、色ヒストグラム、記述子などの従来の方法を用いて、または、例えば畳み込みニューラル・ネットワークなどを用いた深層表現などのより高度な方法を用いて、特徴空間で表現されてもよい。表現を生成した後、表現に基づき2つの画像がどの程度類似しているかを測定するために測定規準を適用してもよい。これは、例えば、コサイン類似度を使用して、またはL2ノルム上のガウス・カーネルを使用して行われ得る。画像を初期の粗いクラスタにグループ化するために、特徴空間(または次元削減された近似的等価物)に点を描写してもよく、これらをまとめてクラスタにグループ化する際に、点間の「距離」は、非類似度を表すものであると仮定する。
次に、各シーン・セグメントは、別々の粗いまたは粗目のクラスタとして扱うことができ、各クラスタ110A、110B、110Cなどにおけるフレームはおおよそ類似している。204では、各クラスタ110A、110B、110Cなどにおいて、例えば、分離または最大距離(非類似度)の大きいフレームを用いてサンプリングを行うようにしてもよい。例えば、各クラスタ内の最初のフレーム(または各クラスタの先頭に近いフレーム)と、各クラスタ内の最後のフレーム(または各クラスタの終わりに近いフレーム)とをサンプリングしてもよい。典型的には、大きな分離または距離を有するこのようなフレームは、クラスタ内の少なくとも類似のフレームである。
206では、各クラスタ内のサンプリングされたフレームのVR結果の類似度を決定することによって、サンプリングされたフレームを用いて各クラスタの質を決定してもよい。VR結果の類似度は、例えば、2つの画像からの概念(「タグ」)がどの程度類似しているかについての測定規準であり得る。実際には、VR結果の類似度は、画像から生成された単語の2つのグループがどの程度類似しているかを測定することができる。これは、例えばバッグ・オブ・ワーズ(bag of words)、和集合の共通部分(intersection over union)、ワードベクトル表現などの技術を用いて行うことができる。
クラスタの質が良好である場合、すなわち、サンプリングされたフレーム(類似していない可能性が最も高いもの)が十分に類似している場合、サンプリングされたフレームは、クラスタの代表であり得る。例えば、クラスタの質は、クラスタ内の画像が高いVR結果の類似度を有するか否かに基づいてもよい。これにより、初期クラスタリング(画像の類似度に基づいた)が十分に良好であるか、または洗練の必要があるかを判断することが可能になる。次いで、視覚認識は、これらのサンプリングされたフレームに対してのみ実行され得る。サンプリングされたフレームは、クラスタ内の他の画像と少なくとも類似しているため、視覚認識の結果はクラスタ全体を表すものとなるべきである。したがって、ビデオ・ストリーム102内のフレームの比較的小さなサンプルに対してのみ実際の視覚認識を実行しながら、質の高い視覚認識を達成し得る。この視覚認識は、サンプリングされたフレームを記述するタグを生成してもよく、これらのタグは、各クラスタの類似度を決定するために使用され得る。例えば、サンプリングされたフレームが、生成されたタグに基づいて十分に類似していない場合、クラスタ内の画像の類似度は十分に高くないことがある。
この場合、208で、フレームは再クラスタリングされてもよい。クラスタリングとは、要素(その表現を与えられた画像)をグループに分割する方法である。これは、上記に与えられた類似度に基づいて行われ得る。クラスタリング・アプローチの例としては、K-Means、K-Mediods、スペクトル・クラスタリング、密度ベースのスペクトル・クラスタリング、ディープ・エンベデッド・クラスタリングなどの高度な方法などが挙げられる。実施形態では、問題に具体的に合わせたクラスタリング方法が使用され得る。このような方法は、最長距離クラスタ・タイリング(MDCT)と呼ばれることがあり、これは例えば、ビデオの効率的な視覚認識のための教師なし学習方法であり得る。実施形態では、ビデオのフレームは、低レベルの色特徴空間で表現されてもよく、最長距離の制約を用いてクラスタに割り当てられてもよい。フレームがクラスタリングされる最長距離を制限すると、ビデオ内の視覚要素が確実に表現されるとともに、冗長性が排除される可能性がある。
従来のクラスタリングとは異なり、MDCTは、フレームベースの視覚認識によって同じ視覚タグを返すであろう2つの類似したフレームが、低レベルの色空間では確かに互いに近接するものとなるという事実による動機付けがある。従来のクラスタリングは、共通の特徴を持つ可能性があるものの必ずしも同じ視覚タグを含むとは限らない、大きく散在するポイントのグループをクラスタリングすることがある。
MDCTの実施形態は、集合カバー問題から導出された貪欲なクラスタ凝集と呼ばれる手法(Slavik、1997)を使用してもよく、この手法では、フレームは宇宙を表し、集合は、最長よりも小さな距離を有するフレームである。実施形態は、NP困難集合被覆問題の多項式時間近似のための貪欲アルゴリズムを活用してもよく、この問題は、最適性に関する比較的堅実な境界を特徴とする。例えば、最も被覆されていないフレームを被覆するフレームが、クラスタ中心として選択されてもよく、各クラスタ内のフレームの最長距離からなるコスト関数を考慮して、降順で追加されてもよい。
実施形態は、最大非類似度の制約に基づいてサンプルをクラスタリング(または再クラスタリング)し得る。クラスタ内のすべての画像の概念を推測するという目標を考慮すると、このことは重要であるが、なぜなら、他の方法は大きなクラスタと小さなクラスタとの両方を同時に有する傾向があり、クラスタ内の他の画像に概念を適用するという前提が崩れる可能性があるためである。さらに、実施形態は、サンプリングされたVR結果について合意があるまでいっそう分割を続ける、反復法を実行してもよい。これは、MDCTを用いて、最長距離の制約の値を変更するのみで実行され得る。
例えば、この自動的に調整可能なクラスタリングは、サンプリングされたフレーム間の最長距離を基準として用いて、そして例えばタグに基づいて、視覚認識結果の類似度を用いて実行されてもよい。例えば、サンプリングされたフレームが十分に類似していない場合、クラスタは、2つのサンプリングされたフレームの周囲に2つの新しいクラスタに分割されてもよい。同様に、サンプリングされたフレームが、そのクラスタ内の他のサンプリングされたフレームよりも別のクラスタ内のサンプリングされたフレームにより類似しており、そのより類似したフレームが同じクラスタ内にあるように、フレームが再クラスタリングされてもよい。次いで、204~208は、画像類似度に基づいて、およびクラスタリング中にサンプリングされたフレームの視覚認識に基づいて、すべてまたは十分な数のクラスタの質が十分に高くなるまで繰り返されてもよい。210では、クラスタが決定されると、クラスタ中心を表し得る代表的な画像が、視覚認識のために各クラスタから選択されてもよい。
サンプリングされたフレームの視覚認識が、フレームを再クラスタリングするために使用されるため、視覚認識は、クラスタリングの質を改善することができ、また再クラスタリングは、視覚認識の質を改善することができる。
本手法によるクラスタリングの一例を図3に示す。図2と併せて見るのが最適である。この例に示すように、202では、初期粗クラスタ302、304は、例えば、上述した画像類似度を用いて決定され得る。204では、各初期クラスタ由来のサンプル・フレームが選択され得る。例えば、サンプル・フレーム306、308は、クラスタ302から選択され、サンプル・フレーム310、312は、クラスタ304から選択され得る。この例では、サンプル・フレーム306が犬の画像であってもよいし、サンプル・フレーム308が猫の画像であってもよいし、サンプル・フレーム306および308の両方が鳥の画像であってもよい。206では、クラスタ302および304の質は、上述のように、例えば、VR結果の類似度を用いて決定され得る。この例では、フレーム306および308が十分に類似しておらず、フレーム310および312が十分に類似していると判定され得る。この場合、208では、クラスタ302は、新しいクラスタ314、316に分割されてもよく、クラスタ304は分割されなくてもよい。次いで、プロセス200は、ステップ204を繰り返して、クラスタ314からサンプル・フレーム318、320を、クラスタ316からサンプル・フレーム322、324を選択し得る。ステップ204~208は、最終クラスタが決定されるまで繰り返されてもよく、210で、代表的なフレームが最終クラスタから選択されてもよい。
本明細書に記載される実施形態に関与するプロセスが実装され得るコンピュータ・システム400の例示的なブロック図が、図4に示されている。コンピュータ・システム400は、1つまたは複数のプログラムされた汎用コンピュータ・システム、例えば、組込みプロセッサ、チップ上のシステム、パーソナル・コンピュータ、ワークステーション、サーバ・システム、およびミニコンピュータもしくはメインフレーム・コンピュータを用いて、または分散されたネットワーク化されたコンピューティング環境において、実装されてもよい。コンピュータ・システム400は、1つまたは複数のプロセッサ(CPU)402A~402N、入出力回路404、ネットワーク・アダプタ406、およびメモリ408を含むことができる。CPU402A~402Nは、現在の通信システムおよび方法の機能を行うためにプログラム命令を実行する。典型的には、CPU 402A~402Nは、インテルCORE(登録商標)プロセッサなどの1つまたは複数のマイクロプロセッサである。図4は、コンピュータ・システム400が単一のマルチプロセッサ・コンピュータ・システムとして実装される実施形態を示しており、このシステムでは、複数のプロセッサ402A~402Nが、メモリ408、入出力回路404、およびネットワーク・アダプタ406などのシステム・リソースを共有する。しかし、本通信システムおよび方法には、コンピュータ・システム400が、シングルプロセッサ・コンピュータ・システム、マルチプロセッサ・コンピュータ・システム、またはそれらの混合であり得る複数のネットワーク化されたコンピュータ・システムとして実装される、実施形態も含まれる。
入出力回路404は、コンピュータ・システム400にデータを入力したり、コンピュータ・システム400からデータを出力したりする能力を提供する。例えば、入出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ、アナログ-デジタルコンバータなどの入力デバイス、ビデオ・アダプタ、モニタ、プリンタなどの出力デバイス、およびモデムなどの入出力デバイスを含み得る。ネットワーク・アダプタ406は、デバイス400をネットワーク410とインタフェースする。ネットワーク410は、任意の公的または専有のLANまたはWANとしてもよく、そのようなものとしては、以下に限定されないがインターネットが挙げられる。
メモリ408は、コンピュータ・システム400の機能を実施するために、CPU402によって実行されるプログラム命令と、CPU402によって使用され処理されるデータとを格納する。メモリ408としては、例えば、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、プログラム可能なリード・オンリー・メモリ(PROM)、電気的に消去可能なプログラム可能なリード・オンリー・メモリ(EEPROM)、フラッシュ・メモリなどの電子メモリデバイス、および磁気ディスク・ドライブ、テープ・ドライブ、光ディスク・ドライブなどの電気機械メモリを挙げることができ、後者は、統合ドライブエレクトロニクス(IDE)インタフェースまたはそのバリエーションもしくは拡張型、例えばイクステンデッドIDE(EIDE)もしくはウルトラダイレクト・メモリ・アクセス(UDMA)など、またはスモール・コンピュータ・システム・インタフェース(SCSI)ベースのインタフェース、またはそのバリエーションもしくは拡張型、例えばファストSCSI、ワイドSCSI、ファスト・アンド・ワイドSCSIなど、またはシリアル・アドバンスト・テクノロジー・アタッチメント(SATA)、またはそのバリエーションもしくは拡張型、またはファイバ・チャネルアービトレーテッド・ループ(FC-AL)インタフェースを使用することがある。
メモリ408の内容は、コンピュータ・システム400が実行するようにプログラムされる機能に応じて変化し得る。図4に示す例では、上述のプロセスの実施形態のためのルーチンおよびデータを表す例示的なメモリ内容が示されている。しかし、当業者は、これらのルーチンが、それらのルーチンに関連するメモリ内容と共に、1つのシステムまたはデバイスに含まれないことがあり、むしろ、周知の工学的な考慮に基づいて、複数のシステムまたはデバイスに分散され得ることを認識するものとなる。本システムおよび方法は、任意および全てのそのような配置を含むことがある。
図4に示す例では、メモリ408は、セグメント化ルーチン412、サンプリング・ルーチン414、クラスタ品質ルーチン416、再クラスタリング・ルーチン418、視覚認識ルーチン420、および代表的選択ルーチン422、ビデオ・ストリーム・データ424、およびオペレーティング・システム426を含み得る。セグメンテーション・ルーチン412は、上述のように、例えば画像類似度を用いて、ビデオ・ストリーム・データ424中に存在するシーンを粗くセグメント化するソフトウェア・ルーチンを含み得る。サンプリング・ルーチン414は、上述のように、例えば互いに大きな分離または距離を有するフレームを用いて、クラスタ上でサンプリングを実施するソフトウェア・ルーチンを含み得る。クラスタ品質ルーチン416は、上述のように、例えばVR結果の類似度を用いて、各クラスタ内のサンプリングされたフレームの類似度を決定するソフトウェア・ルーチンを含み得る。再クラスタリング・ルーチン418は、上述のように、それらのクラスタリングの質を改善するためにクラスタを再クラスタリングするためのソフトウェア・ルーチンを含み得る。視覚認識ルーチン420は、上述のように、ビデオ・フレーム内のオブジェクトを認識し、説明的なタグを生成するためのソフトウェア・ルーチンを含み得る。代表的選択ルーチン422は、上述のように、クラスタ内の画像を代表するフレームを各クラスタから選択するソフトウェア・ルーチンを含み得る。ビデオ・ストリーム・データ424は、上述のように、ストリームまたは一連の静止画を含み得る。オペレーティング・システム426は、システム全体の機能性を提供し得る。
図4に示すように、本通信システムおよび方法は、マルチプロセッサ、マルチタスキング、マルチプロセス、もしくはマルチスレッド・コンピューティング、またはそれらの組合せを提供する1つまたは複数のシステム上での実装、ならびに、シングル・プロセッサ、シングル・スレッド・コンピューティングのみを提供するシステム上での実装を含み得る。マルチプロセッサ・コンピューティングは、1つを超えるプロセッサを使用してコンピューティングを実施することを含む。マルチタスキング・コンピューティングは、1つを超えるオペレーティング・システム・タスクを使用してコンピューティングを実施することを含む。タスクは、実行中のプログラムとオペレーティング・システムによって使用される記帳情報との組合わせを指す、オペレーティング・システムの概念である。プログラムが実行されるたびに、オペレーティング・システムはそれに対して新しいタスクを作成する。このタスクは、タスク番号でプログラムを識別し、他の記帳情報を添付するという点で、プログラムの包みのようなものである。Linux(登録商標)、UNIX(登録商標)、OS/2(登録商標)、およびWindows(登録商標)を含む多くのオペレーティング・システムは、同時に多くのタスクを実行でき、マルチタスク・オペレーティング・システムと呼ばれる。マルチタスキングとは、オペレーティング・システムが1つを超える実行可能ファイルを同時に実行する機能である。各実行可能ファイルは独自のアドレス空間で実行されているため、実行可能ファイルはメモリを共有する方法がない。このことは利点を有するが、なぜなら、システム上で実行されている任意の他のプログラムの実行に損害を与えることができないためである。しかし、プログラムは、オペレーティング・システムを介して(またはファイルシステムに格納されているファイルを読み取ることによって)任意の情報を交換する方法がない。タスクとプロセスという用語がしばしば互換的に使用されることから、マルチプロセス・コンピューティングは、マルチタスク・コンピューティングに類似しているが、一部のオペレーティング・システムは両者を区別している。
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含んでいてもよい。コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および格納することができる有形デバイスとすることができる。
コンピュータ可読記憶媒体は、以下に限定されないが、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述の任意の適した組合せとしてよい。コンピュータ可読記憶媒体のより具体的な例の非網羅的な一覧としては、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能なプログラム可能なリード・オンリー・メモリ(EPROMまたはフラッシュ・メモリ(登録商標))、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル汎用ディスク(DVD)、メモリ・スティック、フロッピー・ディスク(登録商標)、機械的に符号化されたデバイス、例えば、命令を上に記録したパンチ・カードまたは溝内の隆起構造など、および前述の任意の適切な組合せが挙げられる。コンピュータ可読記憶媒体は、本明細書で使用される際に、それ自体が電波または他の自由に伝搬する電磁波、導波管または他の伝送媒体(例えば、光ファイバ・ケーブルを通る光パルス)を伝搬する電磁波、またはワイヤを介して伝送される電気信号などの一時的な信号であるものと解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各演算/処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組合せを介して外部コンピュータまたは外部記憶装置に、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを含むことができる。各演算/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、各演算/処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を送る。
本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、または1つもしくは複数のプログラミング言語の任意の組合せで書かれたソースコードもしくはオブジェクトコードのいずれかとしてよく、プログラミング言語としては、Smalltalk、C++などのオブジェクト指向プログラミング言語と、および「C」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語が挙げられる。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上に部分的に、またはリモート・コンピュータ上で部分的にもしくはリモート・コンピュータ上で全体的に、実行してもよい。後者のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含めた任意のタイプのネットワークを介してユーザのコンピュータに接続されていてもよいし、または接続が、外部コンピュータに(例えば、インターネットサービスプロバイダを用いてインターネットを介して)なされていてもよい。いくつかの実施形態では、例えば、プログラム可能なロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラム可能なロジックアレイ(PLA)を含めた電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報によって、コンピュータ可読プログラム命令を実行してもよい。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、ならびにフローチャート図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の1つまたは複数のブロックにおいて指定された機能/動作を実装する手段を生成するように、機械を生成し得る。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能なデータ処理装置、もしくは他のデバイス、またはそれらの組合せを特定の方法で機能させることのできるコンピュータ可読記憶媒体に格納されてもよく、ゆえに、命令を中に格納したコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックにおいて指定された機能/動作の態様を実装する命令を含む、製品を含み得る。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令がフローチャートもしくはブロック図またはその両方の1つまたは複数のブロックにおいて指定された機能/動作を実装するように、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイス上にロードされて、一連の動作ステップをコンピュータ、他のプログラマブル装置、または他のデバイス上で実施させて、コンピュータ実装プロセスを生じる。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施形態のアーキテクチャ、機能性、およびオペレーションを説明する。この点に関して、フローチャートまたはブロック図の各ブロックは、指定されたロジック機能を実装するための1つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことがある。いくつかの代替的な実施形態では、ブロックに記載された機能は、図に記載された順序の外に生じ得る。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてもよいし、またはブロックが、関与する機能性に応じて、逆の順序で実行されてもよい。また、ブロック図もしくはフローチャート図またはその両方の各ブロック、ならびにブロック図もしくはフローチャート図またはその両方におけるブロックの組合せは、指定された機能もしくはオペレーションを実行するか、または専用ハードウェアとコンピュータ命令との組合せを実施する、専用ハードウェアベースのシステムによって実装できることに留意されたい。
本発明の特定の実施形態を説明したが、当業者は、記載された実施形態と同等の他の実施形態が存在することを理解するものとなる。したがって、本発明は、特定の例示的な実施形態に限定されるものではなく、添付の特許請求の範囲によってのみ限定されることが理解されるよう。

Claims (20)

  1. プロセッサと、前記プロセッサによってアクセス可能なメモリと、前記メモリに格納され前記プロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装されている、視覚認識処理の方法であって、
    ビデオ・ストリームのシーンに基づいて前記ビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化すること、
    各クラスタから複数のビデオ・フレームをサンプリングすること、
    各クラスタの質を決定すること、および
    ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングして少なくともいくつかの前記クラスタの質を改善すること
    を含む方法。
  2. ビデオ・ストリームのビデオ・フレームを粗くセグメント化することは、前記シーンの画像類似度に基づく、請求項1に記載の方法。
  3. 各クラスタの質を決定することは、前記クラスタの視覚認識結果の類似度に基づく、請求項2に記載の方法。
  4. 前記複数のビデオ・フレームをサンプリングすることは、互いに最長の距離または最大の非類似度を有する前記クラスタ内の2つのフレームをサンプリングすることを含む、請求項3に記載の方法。
  5. 前記再クラスタリングされたビデオ・フレーム上でサンプリングすること、
    前記再クラスタリングされたビデオ・フレーム上の各クラスタの質を決定すること、および
    ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングすること
    を繰り返すことをさらに含み、
    前記視覚認識は、前記クラスタリングの質を改善し、前記再クラスタリングは、前記視覚認識の質を改善する、
    請求項4に記載の方法。
  6. 最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含む、請求項5に記載の方法。
  7. 各クラスタからの選択された代表的な画像の少なくとも一部は、各クラスタの中心を表す、請求項6に記載の方法。
  8. 視覚認識処理のためのシステムであって、プロセッサと、前記プロセッサによってアクセス可能なメモリと、コンピュータ・プログラム命令とを含み、前記コンピュータ・プログラム命令は、
    ビデオ・ストリームのシーンに基づいて前記ビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化すること、
    各クラスタから複数のビデオ・フレームをサンプリングすること、
    各クラスタの質を決定すること、および
    ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングして少なくともいくつかの前記クラスタの質を改善すること
    を行うように前記メモリに格納されて前記プロセッサによって実行可能である、システム。
  9. ビデオ・ストリームのビデオ・フレームを粗くセグメント化することは、前記シーンの画像類似度に基づく、請求項8に記載の方法。
  10. 各クラスタの質を決定することは、前記クラスタの視覚認識結果の類似度に基づく、請求項9に記載のシステム。
  11. 前記複数のビデオ・フレームをサンプリングすることは、互いに最長の類似度距離または最大の非類似度を有する前記クラスタ内の2つのフレームをサンプリングすることを含む、請求項10に記載のシステム。
  12. 前記再クラスタリングされたビデオ・フレーム上でサンプリングすること、
    前記再クラスタリングされたビデオ・フレーム上の各クラスタの質を決定すること、および
    ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングすること
    を繰り返すことをさらに含み、
    前記視覚認識は、前記クラスタリングの質を改善し、前記再クラスタリングは、前記視覚認識の質を改善する、
    請求項11に記載のシステム。
  13. 最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含む、請求項12に記載のシステム。
  14. 前記各クラスタからの選択された代表的な画像の少なくとも一部は、各クラスタの中心を表す、請求項13に記載のシステム。
  15. 視覚認識処理のためのコンピュータ・プログラム製品であって、それを以て具現化されるプログラム命令を有する非一時的なコンピュータ可読ストレージを含み、前記プログラム命令は、
    ビデオ・ストリームのシーンに基づいて前記ビデオ・ストリームのビデオ・フレームを複数のクラスタに粗くセグメント化すること、
    各クラスタから複数のビデオ・フレームをサンプリングすること、
    各クラスタの質を決定すること、
    ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングして少なくともいくつかの前記クラスタの質を改善すること
    を含む方法を、コンピュータに実施させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
  16. ビデオ・ストリームのビデオ・フレームを粗くセグメント化することは、前記シーンの画像類似度に基づいており、各クラスタの質を決定することは、前記クラスタの視覚認識結果の類似度に基づいている、請求項15に記載のコンピュータ・プログラム製品。
  17. 前記複数のビデオ・フレームをサンプリングすることは、互いに最長の類似度距離または最大の非類似度を有する前記クラスタ内の2つのフレームをサンプリングすることを含む、請求項16に記載のコンピュータ・プログラム製品。
  18. 前記再クラスタリングされたビデオ・フレーム上でサンプリングすること、
    前記再クラスタリングされたビデオ・フレーム上の各クラスタの質を決定すること、および
    ビデオ・ストリームの前記ビデオ・フレームを再クラスタリングすること
    を繰り返すことをさらに含み、
    前記視覚認識は、前記クラスタリングの質を改善し、前記再クラスタリングは、前記視覚認識の質を改善する、
    請求項17に記載のコンピュータ・プログラム製品。
  19. 最終クラスタが一旦決定されると、視覚認識のために各クラスタから代表的な画像を選択することをさらに含む、請求項18に記載のコンピュータ・プログラム製品。
  20. 前記各クラスタからの選択された代表的な画像の少なくとも一部は、各クラスタの中心を表す、請求項19に記載のコンピュータ・プログラム製品。
JP2022554600A 2020-04-12 2021-03-17 視覚認識における資源コストの低減 Pending JP2023520631A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/846,357 US11164005B1 (en) 2020-04-12 2020-04-12 System and method for reducing resources costs in visual recognition of video based on static scene summary
US16/846,357 2020-04-12
PCT/IB2021/052209 WO2021209835A1 (en) 2020-04-12 2021-03-17 Reducing resources costs in visual recognition

Publications (1)

Publication Number Publication Date
JP2023520631A true JP2023520631A (ja) 2023-05-18

Family

ID=78007299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022554600A Pending JP2023520631A (ja) 2020-04-12 2021-03-17 視覚認識における資源コストの低減

Country Status (6)

Country Link
US (1) US11164005B1 (ja)
JP (1) JP2023520631A (ja)
CN (1) CN115280378B (ja)
DE (1) DE112021002291T5 (ja)
GB (1) GB2612707A (ja)
WO (1) WO2021209835A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113965772B (zh) * 2021-10-29 2024-05-10 北京百度网讯科技有限公司 直播视频处理方法、装置、电子设备和存储介质
CN117830640A (zh) * 2022-09-26 2024-04-05 腾讯科技(深圳)有限公司 芯片版图编码器的训练方法、芯片版图的筛选方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027541B2 (en) 2007-03-15 2011-09-27 Microsoft Corporation Image organization based on image content
US8503523B2 (en) * 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US8170280B2 (en) 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
KR101323369B1 (ko) 2012-09-21 2013-10-30 한양대학교 에리카산학협력단 영상 프레임 군집화 장치 및 방법
US9524449B2 (en) 2013-12-16 2016-12-20 Adobe Systems Incorporated Generation of visual pattern classes for visual pattern recognition
EP2960811A1 (en) * 2014-06-26 2015-12-30 Thomson Licensing Method and device for analyzing a database comprising a large number of video images
US10013614B2 (en) 2016-06-29 2018-07-03 Google Llc Using an image matching system to improve the quality of service of a video matching system
CN106682591B (zh) * 2016-12-08 2020-04-07 广州视源电子科技股份有限公司 人脸识别方法及装置
US10839256B2 (en) * 2017-04-25 2020-11-17 The Johns Hopkins University Method and apparatus for clustering, analysis and classification of high dimensional data sets
US10417501B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
US20190236371A1 (en) * 2018-01-30 2019-08-01 Deluxe Entertainment Services Group Inc. Cognitive indexing of images in digital video content
CN109308460B (zh) * 2018-09-06 2021-04-02 深兰科技(上海)有限公司 物品检测方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
US20210319227A1 (en) 2021-10-14
US11164005B1 (en) 2021-11-02
GB202216834D0 (en) 2022-12-28
WO2021209835A1 (en) 2021-10-21
CN115280378B (zh) 2023-08-22
DE112021002291T5 (de) 2023-03-16
CN115280378A (zh) 2022-11-01
GB2612707A (en) 2023-05-10

Similar Documents

Publication Publication Date Title
US20180060719A1 (en) Scale-space label fusion using two-stage deep neural net
US10846403B2 (en) Detecting malicious executable files by performing static analysis on executable files' overlay
US20170054982A1 (en) Real time video stream processing systems and methods thereof
US11093755B2 (en) Video segmentation based on weighted knowledge graph
JP2023520631A (ja) 視覚認識における資源コストの低減
US9152703B1 (en) Systems and methods for clustering data samples
US9684705B1 (en) Systems and methods for clustering data
US11947570B2 (en) Data augmentation
US20210216780A1 (en) Automated detection and approximation of objects in video
US20210012511A1 (en) Visual search method, computer device, and storage medium
US20200372676A1 (en) Progressive 3d point cloud segmentation into object and background from tracking sessions
US11507840B2 (en) Region constrained regularized adversarial examples for model interpretability
US20210287101A1 (en) Inducing Creativity in an Artificial Neural Network
US11900667B2 (en) Parametric curves based detector network
US11403325B2 (en) Clustering items around predefined anchors
US20220261657A1 (en) Monte-carlo adversarial autoencoder for multi-source domain adaptation
WO2022048336A1 (en) Coarse-to-fine attention networks for light signal detection and recognition
US20220342918A1 (en) Multi-format content repository search
US11106907B2 (en) Processing scanned documents
US20210110255A1 (en) Generating attribute-based samples
RU2671304C1 (ru) Способ и система построения цифрового отпечатка видеоконтента
US11645766B2 (en) Dynamic sampling for object recognition
US20230118072A1 (en) Content based on-device image adjustment
CN110674497B (zh) 一种恶意程序相似度计算的方法和装置
CN117197715A (zh) 视频流处理模型的训练方法、视频流处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20221007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240521