JP2019508805A - 大域的最適化に基づく意味的セグメント化 - Google Patents

大域的最適化に基づく意味的セグメント化 Download PDF

Info

Publication number
JP2019508805A
JP2019508805A JP2018540811A JP2018540811A JP2019508805A JP 2019508805 A JP2019508805 A JP 2019508805A JP 2018540811 A JP2018540811 A JP 2018540811A JP 2018540811 A JP2018540811 A JP 2018540811A JP 2019508805 A JP2019508805 A JP 2019508805A
Authority
JP
Japan
Prior art keywords
segmentation
score
data set
input data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018540811A
Other languages
English (en)
Other versions
JP6678246B2 (ja
Inventor
ポール ヴェルナザ、
ポール ヴェルナザ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2019508805A publication Critical patent/JP2019508805A/ja
Application granted granted Critical
Publication of JP6678246B2 publication Critical patent/JP6678246B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

データセグメント化のための方法およびシステムは、各ユニットに複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、ニューラルネットワークを使用して入力データセットの各ユニットについて初期セグメント化スコアを決定することを含む。最終セグメント化スコアは、平滑さ基準を強調することによって、入力データセットの各ユニットについて決定される。入力データセットは、最終セグメント化スコアに従ってセグメント化される。

Description

関連出願情報
本願は、2016年2月4日出願の米国特許第62/291,076号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
本発明はイメージセグメント化に関し、より具体的には、変分原理に従った反応拡散プロセス(「変分反応拡散」と呼ばれる)を使用する、修正されたニューラルネットワークセグメント化に関する。
関連技術の説明
意味的セグメント化は、入って来るデータを、たとえばグラフィックイメージの形で受け取り、そのデータを論理セグメントに分割しようとするものである。イメージを処理する場合、セグメント化される出力は、たとえば人、道路、樹木、またはその他の独特のイメージ特徴を表すピクセルを共にグループ化してもよい。
異なるセグメント化技法が使用されてきているが、既存の意味的セグメント化は、計算的に近視眼的である(たとえば、一度にイメージの小部分のみを考慮の対象とする)か、または計算的に非効率であるかの、いずれかである。
データセグメント化のための方法は、各ユニットに複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、ニューラルネットワークを使用して入力データセットの各ユニットについて初期セグメント化スコアを決定することを含む。最終セグメント化スコアは、平滑さ基準を強調することによって、入力データセットの各ユニットについて決定される。入力データセットは、最終セグメント化スコアに従ってセグメント化される。
データセグメント化のためのシステムは、各ユニットには複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、入力データセットの各ユニットについて初期セグメント化スコアを決定するように構成されたニューラルネットワークを含む。セグメント化モジュールは、平滑さ基準を強調することによって入力データセットの各ユニットについて最終セグメント化スコアを決定し、その最終セグメント化スコアに従って入力データセットをセグメント化するように構成される。
本開示は、以下の図面を参照しながら、好ましい実施形態の以下の記述において詳細に説明する。
図1は、本原理に従ったデータセグメント化のための方法/システムを示すブロック/フロー図である。 図2は、本原理に従ったデータセグメント化のための方法を示すブロック/フロー図である。 図3は、本原理に従ったモデルおよびニューラルネットワークトレーニングのための方法を示すブロック/フロー図である。 図4は、本原理に従った監視システムを示すブロック図である。 図5は、本原理に従った処理システムを示すブロック図である。
好ましい実施形態の詳細な説明
本発明の実施形態は、イメージ特徴を識別するために畳み込みニューラルネットワーク(CNN)を使用し、さらにセグメント化出力における平滑さを保証するために変分反応拡散(VRD)を使用する、イメージセグメント化を提供する。VRDは、CNNのトレーニング期間に、CNNにおける重みを調整するために使用してよい逆伝搬導関数を生成するためにも使用される。本明細書に記載されているVRDプロセスは、ピクセル数におけるN log N時間(N log N time)で正確な推定および損失導関数を提供する。
VRDにおける推定は、反応拡散プロセスのダイナミクスの下で証拠(またはクラススコア)を展開することとして解釈してもよい。1つの意味的クラスについての証拠は、拡散を介してイメージ全体にわたって伝搬し、他の意味的クラスの証拠と反応する、単項ポテンシャルとしてモデル化してもよい。これらのプロセスの各々は、各クラスについての証拠を局所的に作成するかまたは抑制する。凸面の、変分問題に対する解を生成するプロセスのクラスにモデルを制限することによって、安定均衡を保証することができる。
次に、同じ数値が同じかまたは同様の要素を表す図面を詳細に参照し、初めに図1を、詳細に参照すると、意味的セグメント化手順が、本原理の一実施形態に従って例示的に示されている。ピクセルの2次元アレイから形成される、入力イメージ102が提供される。本原理はグラフィック情報に限定されず、その代わりに、セグメント化可能な特徴を有する任意のタイプの情報に適用してもよいことを理解されたい。入力イメージ102は、特徴出力のセットを生成するために、CNN104によって使用される。入力イメージ102における各ピクセルは、CNNの単一の入力に対応してもよく、CNN104のピクセル当たりの出力の数は、イメージ入力102について選択される異なるセグメント化フィールドの数に対応している。
入力イメージ102の各ピクセルについて、CNN104は、異なるセグメント化フィールドのセットの各々に沿ったピクセルについての数値を含む出力ベクトルを生成する。セグメント化フィールドは必ずしもイメージ入力102の直観的特徴に対応せず、その代わりに、意味のあるイメージのセグメント化を提供する自動的に生成された特徴を表す、CNNのトレーニングプロセスの結果であることを理解されたい。
出力ベクトルは、イメージ内の平滑さ基準を保証するために、VRDモジュール106によって使用される。一例において、平滑さは、イメージ入力102の特定セグメントにおけるピクセルが、互いに近接するか、または少なくとも近くに位置する傾向を言い表してよい。トレーニング中、さらにまたVRDモジュール106は、エラー信号に基づいて、エラー情報をCNN104に戻す。VRDモジュール106およびCNN104はどちらも、今後の動作を向上させるために、エラー信号に応答して内部パラメータを調整する。VRD106は、セグメント化スコアを表す各ピクセルについてのベクトルのセットを出力し、各ピクセルについてのベストスコアはそのピクセルに関連付けられたセグメントを表す。
前述のように、イメージ入力は、
Figure 2019508805
と表してもよく、
Figure 2019508805
の矩形サブセットは、イメージのドメインを表す。VRDは、関数
Figure 2019508805
として表される、
Figure 2019508805
入力特徴の空間的に変動するセットを、
Figure 2019508805
出力スコアのセット
Figure 2019508805
にマッピングする、関数として定義してもよい。
Figure 2019508805
は、
Figure 2019508805
が、ピクセルx∈Iでk番目のクラスに関連付けられたスコアである、意味的クラスの数として解釈される。予測は、
Figure 2019508805
を介して生成される。
CNN104からの出力ベクトルのセットは、本明細書では
Figure 2019508805
(VRD106への入力を形成する)として示され、VRD106からの出力ベクトルのセットは、本明細書では
Figure 2019508805
として示される。2つのベクトルを、
Figure 2019508805
および
Figure 2019508805
を単一関数
Figure 2019508805
に連結することを示す、ベクトル
Figure 2019508805
に組み合わせることができる。VRDモジュール106は、入力として
Figure 2019508805
を使用し、最適化問題を解決することによって、
Figure 2019508805
を生成する。表記を簡略化するために、イメージIにおける特定ピクセルxへのsの依存性は省略される。最適化問題は、
Figure 2019508805
のように表すことが可能であり、ここで、dはイメージの次元を表す。パラメータBおよびQは、xに依存しない正定値パラメータ行列を表す。結果は、
Figure 2019508805
おける無限次元で、凸状の、2次最適化問題である。最適化問題は、導関数を、いくつかの
Figure 2019508805
について、
Figure 2019508805
軸に沿って
Figure 2019508805
からわずかな距離
Figure 2019508805
だけ離れた、有限差分近似
Figure 2019508805
に置き換えて、離散化することが可能である。直観的に、項
Figure 2019508805
は、各ポイントで
Figure 2019508805
および
Figure 2019508805
に関する単項ポテンシャルとして解釈することができるが、
Figure 2019508805
は、スコアベクトルにおける空間的変化を抑える、バイナリポテンシャルを表す。
変分の微積分(calculus of variations)が上記の最適化問題に対する解を表すために使用されても良く、その解を下記の偏微分方程式の線形システムの階として表しても良い。
Figure 2019508805
ここで、Δはベクトルラプラシアン
Figure 2019508805
を表し、また、BおよびQは、
Figure 2019508805
となるように、及び、Bについても同様となるように、部分行列
Figure 2019508805
に区分化されている。このシステムは、変数の線形変化、および、有限次元2次方程式への解に厳密に類似した後方置換を介して、効率的に解決することができる。具体的には、
Figure 2019508805
を作成するためにシュール分解が使用される。ここで、Vは正規直交であり、Uは上三角である。変数の変更
Figure 2019508805
が実行され、新しいパラメータが、
Figure 2019508805
として定義される。zの解は、後方置換を使用して見つけられ、まず、
Figure 2019508805
について、以下のスカラー偏微分方程式
Figure 2019508805
を解き、
Figure 2019508805
を確定し、
Figure 2019508805
を解き、
Figure 2019508805
へと後方に進む。ここで、kは特定の意味的クラスを表す。
zについて解いた後、出力スコアが、
Figure 2019508805
を介して得られる。上記のスカラー偏微分方程式は、高速フーリエ変換を介して、またはマルチグリッド法によって、離散化し、解いてよく、その複雑さは、ピクセル数におけるN log Nとしてのみ程度が変わる。
隣接ピクセル間のユニット距離を想定すると、離散化は、線形方程式
Figure 2019508805
の以下の有限システム
Figure 2019508805
を生じさせる。ここで、fは上記方程式の右側を示す。ゼロ境界条件を想定すると、このシステムは、離散サイン変換によって解決することができる。上記式は、何らかのフィルタFを用いる
Figure 2019508805
の畳み込みとして作成できるため、
Figure 2019508805
は、Fの離散サイン変換によって除算される、fの離散サイン変換の逆離散サイン変換として計算することができる。
zの解が見つかると、VRDモジュール106の出力を形成する、
Figure 2019508805
の項における出力を表すために、V行列の逆行列を求めることができる。この出力は、イメージIのピクセル毎にk個のセグメント化クラスの各々に対応する値のセットを提供するものであり、
Figure 2019508805
におけるベストスコアに従って出力セグメント化クラスを決定するために使用される。
次に図2を参照すると、セグメント化方法が示されている。ブロック202は、CNN104を使用して入力データセット(たとえば、イメージ)を処理し、特徴スコア
Figure 2019508805
を生成する。ブロック204で、VRDモジュール106は、入力VRDパラメータ(たとえば、VおよびU行列を形成するためにシュール分解を用いて処理される、前述のBおよびQ行列)を受け取る。
ブロック206は、線形変換を介して、スコア
Figure 2019508805
の中間セットを形成するために、CNN出力ベクトル
Figure 2019508805
を変換する。次いで、ブロック206は、zについて上述した偏微分方程式を解くために、VRDパラメータおよび
Figure 2019508805
を使用する。前述のように、最適化問題をこうした方程式のセットまで減らすために、変分の微積分が使用される。シュール分解は、方程式のシステムを、スカラー値偏微分方程式のシーケンスとして解決することができる上三角の形にまで減らす、変数における変化を提供する(たとえば、
Figure 2019508805
および
Figure 2019508805
からVおよびUへの変化)。ブロック206は、k=Nからk=1への降順で、
Figure 2019508805
について方程式のシステムを解決する。このようにして
Figure 2019508805
が完全に解決されると、ブロック208は、イメージ内の各ピクセルにセグメントを割り当てるために、変数における線形変化を逆にして、zに基づいて出力クラススコア
Figure 2019508805
を見つける。
次に図3を参照すると、モデル学習およびCNNトレーニングの方法が示される。学習の間に、予想されるセグメント化出力を
Figure 2019508805
と比較することによって、エラー信号を表すこの2つの間の差を用いて、入力エラー信号が生成される。エラー信号は、微分可能損失関数
Figure 2019508805
として定義される。勾配ベースの学習は、パラメータ行列B、Q、および、潜在的には入力
Figure 2019508805
に関して、Lの導関数を計算し、モデルを逆伝搬で使用できるようにする。逆伝搬導関数は
Figure 2019508805
であり、前述の推定プロセスと同じ偏微分方程式システムを解決し、
Figure 2019508805
Figure 2019508805
で置き換えることによって、解くことができる。具体的には、
Figure 2019508805
について、以下の方程式
Figure 2019508805
を解く。
ブロック302は、トレーニングデータからエラー信号を受け取り、ブロック304は、入力VRDパラメータ(たとえば、上述のブロック204で使用されたものと同じパラメータ)を受け取る。ブロック306は、zについて偏微分方程式を解く。ブロック308は、出力逆伝搬導関数を生成するために変数変化関係
Figure 2019508805
を使用し、ブロック310は、VRDパラメータ導関数を決定する。パラメータ導関数は、逆伝搬導関数の単純な関数として、以下のように表すことができる。
Figure 2019508805
次いで、ブロック312は、それぞれの導関数が所与のエラー信号に必要なある程度のパラメータ変更を提供することで、エラー信号に従ってVRDモジュール106およびCNN104についてパラメータを調整する。
本明細書に記載した実施形態は、全体がハードウェアであっても、全体がソフトウェアであっても良く、または、ハードウェアおよびソフトウェアの両方の要素を含むものであってよい。好ましい実施形態において、本発明は、これらに限定されるわけではないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むソフトウェアにおいて実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、あるいはそれらに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能媒体またはコンピュータ可読媒体からアクセス可能な、コンピュータプログラム製品を含んでもよい。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、あるいはそれらに関連して使用するためのプログラムを、記憶、通信、伝搬、または移送する、任意の装置を含んでもよい。媒体は、磁気、光、電子、電磁、赤外線、または半導体のシステム(あるいは、装置またはデバイス)、あるいは伝搬媒体とすることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、取り外し可能コンピュータディスケット、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、固い磁気ディスク、および光ディスクなどの、コンピュータ可読記憶媒体を含んでもよい。
各コンピュータプログラムは、汎用または特定用途向けプログラマブルコンピュータによる読み取りが可能な、機械可読記憶媒体またはデバイス(たとえば、プログラムメモリまたは磁気ディスク)が、本明細書に記載された手順を実行するためにコンピュータによって読み取られるときに、コンピュータの動作を構成および制御するために、これらの記憶媒体またはデバイス内に有形に記憶されていてもよい。本発明のシステムは、コンピュータプログラムと共に構成される、コンピュータ可読記憶媒体内に具体化されるものとみなしてもよく、そのように構成された記憶媒体は、本明細書で説明する機能を実行するために、特定の事前定義された方法でコンピュータを動作させる。
プログラムコードを記憶/実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に結合された、少なくとも1つのプロセッサを含んでもよい。メモリ要素は、実行中に大容量ストレージからコードが取り出される回数を減らすために、少なくともいくつかのプログラムコードの一時ストレージを提供する、プログラムコード、大容量ストレージ、およびキャッシュメモリの実際の実行中に使用されるローカルメモリを含むことができる。入力/出力すなわちI/Oデバイス(キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない)は、直接、または介在I/Oコントローラを介して、システムに結合してもよい。
また、データ処理システムを、介在する専用または公衆のネットワークを介して、他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、システムにネットワークアダプタを結合してもよい。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプのごく一部である。
次に、図400を参照すると、イメージセグメント化の1つの具体的な例を与える、例示の監視システム400が示されている。具体的に言えば、監視システム400はハードウェアプロセッサ402およびメモリ404を含む。監視システム400は、環境内の情報を収集するために使用してもよい、1つまたは複数のカメラ412および/または他のセンサを、さらに含む。監視システム400は、一実施形態において、メモリ404内に記憶され、ハードウェアプロセッサ402によって実行される、ソフトウェアとして実施してもよい、1つまたは複数の機能モジュールをさらに含む。代替の実施形態において、機能モジュールは、1つまたは複数の個別ハードウェア構成要素として、たとえば、特定用途向け集積チップまたはフィールドプログラマブルゲートアレイとして、実装されてもよい。
CNN406は、カメラ412によってキャプチャされ、メモリ404内に記憶されてもよい、または、任意の他のソースによって提供されてもよい、イメージIを、入力として受け取る。CNN406は、イメージ内の各ピクセルについて、CNN406によって学習される異なるセグメント化クラスのセットに対応する、スコアを割り当てる。VRDモジュール408は、CNNによって出力されるスコアに対して平滑さ基準を強調し、イメージの各ピクセルについて、更新されたスコアを提供する。次いで、セグメント化モジュール410は、そのピクセルの更新されたスコアのうちのベストスコア(たとえば、スコアがどのように計算されるかに応じて、最高スコアまたは最低スコア)に従って、各ピクセルがクラスに割り当てられることで、いずれのピクセルが各セグメント化クラスに属するかを決定する。
たとえば入力イメージ内の特定のクラスまたはクラスのパターンが、イメージ内に存在することを、セグメント化モジュール410が示す場合、オペレータに監視警報を出すように、および任意選択で、たとえばドアをロックすること、または商業施設の物理的なセキュリティレベルを上げることなどの、自動化されたアクションを開始するように、警報モジュール414を構成してもよい。代替として、セグメント化スコアにおける変化が所定のしきい値を超えると、警報モジュール414がトリガされてもよい。たとえば、ビデオフィード内の特定の種類のセグメント化パターンの動きまたは存在をキャプチャするように、任意の適切な条件を実施してもよい。たとえば、所与のセグメント化クラスについてのスコアがしきい値を超えることによって、または、セグメント化クラスのうちの1つまたは複数についてのセグメント化スコアの変化がしきい値を超えた場合、条件がトリガされてもよい。
次に、図5を参照すると、監視システム400を表してもよい例示の処理システム500が示されている。処理システム500は、システムバス502を介して他の構成要素に動作可能に結合された、少なくとも1つのプロセッサ(CPU)504を含む。キャッシュ506、読み取り専用メモリ(ROM)508、ランダムアクセスメモリ(RAM)510、入力/出力(I/O)アダプタ520、サウンドアダプタ530、ネットワークアダプタ540、ユーザインターフェースアダプタ550、およびディスプレイアダプタ560が、システムバス502に動作可能に結合される。
第1のストレージデバイス522および第2のストレージデバイス524は、I/Oアダプタ520によってシステムバス502に動作可能に結合される。ストレージデバイス522および524は、ディスクストレージデバイス(たとえば、磁気または光のディスクストレージデバイス)、ソリッドステート磁気デバイスなどのうちの、いずれかとすることができる。ストレージデバイス522および524は、同じタイプのストレージデバイスまたは異なるタイプのストレージデバイスとすることができる。
スピーカ532は、サウンドアダプタ530によってシステムバス502に動作可能に結合される。トランシーバ542は、ネットワークアダプタ540によってシステムバス502に動作可能に結合される。ディスプレイデバイス562は、ディスプレイアダプタ560によってシステムバス502に動作可能に結合される。
第1のユーザ入力デバイス552、第2のユーザ入力デバイス554、および第3のユーザ入力デバイス556は、ユーザインターフェースアダプタ550によってシステムバス502に動作可能に結合される。ユーザ入力デバイス552、554、および556は、キーボード、マウス、キーパッド、イメージキャプチャデバイス、動き感知デバイス、マイクロフォン、上記デバイスのうちの少なくとも2つの機能を組み込んだデバイス、などのうちの、いずれかとすることができる。もちろん、本原理の趣旨を維持しながら、他のタイプの入力デバイスも使用可能である。ユーザ入力デバイス552、554、および556は、同じタイプのユーザ入力デバイスまたは異なるタイプのユーザ入力デバイスとすることができる。ユーザ入力デバイス552、554、および556は、システム500との間で情報を入力および出力するために使用される。
もちろん、当業者であれば容易に考えられるように、処理システム500は他の要素(図示せず)を含んでもよく、また、ある要素を省いてもよい。たとえば、当業者であれば容易に理解されるように、様々な他の入力デバイスおよび/または出力デバイスを、その特定の実施に応じて、処理システム500に含めることができる。たとえば、様々なタイプの無線および/または有線の入力および/または出力デバイスが使用可能である。さらに、当業者であれば容易に理解されるように、様々な構成において、追加のプロセッサ、コントローラ、メモリなども使用可能である。本明細書で提供される本原理の教示が与えられた場合、処理システム500のこれらおよび他の変形形態は、当業者であれば容易に考えられる。
上記は、あらゆる点で、限定的ではなく例証的および例示的であるものと理解されるべきであり、本明細書で開示される本発明の範囲は、詳細な説明からではなく、むしろ、特許法によって許可された全容に従って解釈される特許請求の範囲から、決定されるべきである。本明細書で図示および説明される実施形態は、本発明の原理を単に例示するものであり、当業者であれば、本発明の範囲および趣旨を逸脱することなく様々な変形が実施できることを理解されよう。当業者であれば、本発明の範囲および趣旨を逸脱することなく、様々な他の特徴の組み合わせが実施可能である。このように、特許法によって要求される詳細および特殊性を用いて本発明の態様を説明してきたが、特許証によって請求および望ましく保護された内容は、添付の特許請求の範囲に記載されている。

Claims (40)

  1. 各ユニットに複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、ニューラルネットワークを使用して入力データセットの各ユニットについて初期セグメント化スコアを決定し、
    平滑さ基準を強調することによって、前記入力データセットの各ユニットについて最終セグメント化スコアを決定することと、
    前記最終セグメント化スコアに従って、前記入力データセットをセグメント化することと、
    を含む、データセグメント化のための方法。
  2. 最終セグメント化スコアを決定することは、変分反応拡散(VRD)を適用することを含む、請求項1に記載の方法。
  3. VRDを適用することは、前記初期セグメント化スコアおよび正定値パラメータ行列に基づいて、最適化問題を解決することを含む、請求項2に記載の方法。
  4. 前記最適化問題を解決することは、偏微分方程式のシステムを解決することを含む、請求項3に記載の方法。
  5. VRDを適用することは、前記正定値パラメータ行列上でのシュール分解を使用して前記最適化問題を前記偏微分方程式のシステムに変換することを含む、請求項4に記載の方法。
  6. 前記偏微分方程式のシステムは、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    は式
    Figure 2019508805
    として定義され、
    Figure 2019508805
    および
    Figure 2019508805
    は前記正定値パラメータ行列の部分行列であり、Δはベクトルラプラシアン演算子であり、
    Figure 2019508805
    はデータのユニットについての前記初期セグメント化スコアであり、各
    Figure 2019508805
    はk番目のセグメント化クラス上での変換されたスコアを表し、
    Figure 2019508805
    はセグメント化クラスの数であり、VおよびUはシュール分解後の前記正定値パラメータ行列の変換されたバージョンである、請求項4に記載の方法。
  7. 前記最適化問題は、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    はデータのユニットについての前記最終セグメント化スコアのベクトルであり、xはデータセットIにおけるデータのユニットであり、dは前記データセットIの次元であり、sは
    Figure 2019508805
    と前記データのユニットについての前記初期セグメント化スコアのベクトルとを組み合わせたベクトルである、請求項3に記載の方法。
  8. 前記最終セグメント化スコアおよびエラー信号を使用して前記ニューラルネットワークをトレーニングするために、情報を逆伝搬することをさらに含む、請求項3に記載の方法。
  9. 情報を逆伝搬することは、前記正定値パラメータ行列に関して前記エラー信号の導関数を決定することを含む、請求項8に記載の方法。
  10. 前記入力データセットはイメージであり、前記入力データセットの各ユニットは前記イメージ内のピクセルである、請求項1に記載の方法。
  11. 各ユニットに複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、入力データセットの各ユニットについて初期セグメント化スコアを決定するように構成された、ニューラルネットワークと、
    平滑さ基準を強調することによって前記入力データセットの各ユニットについて最終セグメント化スコアを決定し、前記最終セグメント化スコアに従って前記入力データセットをセグメント化するように構成されたセグメント化モジュールと、
    を有する、データセグメント化のためのシステム。
  12. 前記セグメント化モジュールは、前記最終セグメント化スコアを決定するために変分反応拡散(VRD)を適用するようにさらに構成される、請求項11に記載のシステム。
  13. 前記セグメント化モジュールは、前記初期セグメント化スコアおよび正定値パラメータ行列に基づいてVRD最適化問題を解決するようにさらに構成される、請求項12に記載のシステム。
  14. 前記セグメント化モジュールは、前記最適化問題を解決するために、偏微分方程式のシステムを解決するようにさらに構成される、請求項13に記載のシステム。
  15. 前記セグメント化モジュールは、前記正定値パラメータ行列上でのシュール分解を使用して前記最適化問題を前記偏微分方程式のシステムに変換するようにさらに構成される、請求項14に記載のシステム。
  16. 前記偏微分方程式のシステムは、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    は式
    Figure 2019508805
    として定義され、
    Figure 2019508805
    および
    Figure 2019508805
    は前記正定値パラメータ行列の部分行列であり、Δはベクトルラプラシアン演算子であり、
    Figure 2019508805
    はデータのユニットについての前記初期セグメント化スコアであり、各
    Figure 2019508805
    はk番目のセグメント化クラス上での変換されたスコアを表し、
    Figure 2019508805
    はセグメント化クラスの数であり、VおよびUはシュール分解後の前記正定値パラメータ行列の変換されたバージョンである、請求項14に記載のシステム。
  17. 前記最適化問題は、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    はデータのユニットについての前記最終セグメント化スコアのベクトルであり、xはデータセットIにおけるデータのユニットであり、dは前記データセットIの次元であり、sは
    Figure 2019508805
    と前記データのユニットについての前記初期セグメント化スコアのベクトルとを組み合わせたベクトルである、請求項13に記載のシステム。
  18. 前記ニューラルネットワークは、前記最終セグメント化スコアおよびエラー信号を使用して前記ニューラルネットワークをトレーニングするために、情報を逆伝搬するようにさらに構成される、請求項13に記載のシステム。
  19. 前記ニューラルネットワークは、前記正定値パラメータ行列に関して前記エラー信号の導関数を決定するようにさらに構成される、請求項18に記載のシステム。
  20. 前記入力データセットはイメージであり、前記入力データセットの各ユニットは前記イメージ内のピクセルである、請求項11に記載のシステム。
  21. ビデオフィードを監視するための方法であって、
    個々のイメージを有する入力データセットを生成するために、1つまたは複数のカメラを使用して監視される領域を表す入力データをキャプチャすることと、
    各イメージに複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、ニューラルネットワークを使用して前記入力データの各イメージについて初期セグメント化スコアを決定することと、
    平滑さ基準を強調することによって、前記入力データセットの各イメージについて最終セグメント化スコアを決定することと、
    前記最終セグメント化スコアに従って、前記入力データセットをセグメント化することと、
    前記セグメント化された入力データセットに基づいて、警報条件に合致するかどうかを決定することと、
    前記警報条件に合致する場合に、警報を生成することと、
    を含む、ビデオフィードを監視するための方法。
  22. 最終セグメント化スコアを決定することは、変分反応拡散(VRD)を適用することを含む、請求項21に記載の方法。
  23. VRDを適用することは、前記初期セグメント化スコアおよび正定値パラメータ行列に基づいて、最適化問題を解決することを含む、請求項22に記載の方法。
  24. 前記最適化問題を解決することは、偏微分方程式のシステムを解決することを含む、請求項23に記載の方法。
  25. VRDを適用することは、前記正定値パラメータ行列上でのシュール分解を使用して前記最適化問題を前記偏微分方程式のシステムに変換することを含む、請求項24に記載の方法。
  26. 前記偏微分方程式のシステムは、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    は式
    Figure 2019508805
    として定義され、
    Figure 2019508805
    および
    Figure 2019508805
    は前記正定値パラメータ行列の部分行列であり、Δはベクトルラプラシアン演算子であり、
    Figure 2019508805
    はイメージについての前記初期セグメント化スコアであり、各
    Figure 2019508805
    はk番目のセグメント化クラス上での変換されたスコアを表し、
    Figure 2019508805
    はセグメント化クラスの数であり、VおよびUはシュール分解後の前記正定値パラメータ行列の変換されたバージョンである、請求項24に記載の方法。
  27. 前記最適化問題は、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    はイメージについての前記最終セグメント化スコアのベクトルであり、xはデータセットIにおけるイメージであり、dは前記データセットIの次元であり、sは
    Figure 2019508805
    と前記イメージについての前記初期セグメント化スコアのベクトルとを組み合わせたベクトルである、請求項23に記載の方法。
  28. 前記最終セグメント化スコアおよびエラー信号を使用して前記ニューラルネットワークをトレーニングするために、情報を逆伝搬することをさらに有する、請求項23に記載の方法。
  29. 情報を逆伝搬することは、前記正定値パラメータ行列に関して前記エラー信号の導関数を決定することを有する、請求項28に記載の方法。
  30. 前記警報条件は、しきい値を超える前記複数のセグメント化クラスのうちの所定の1つについての最終セグメント化スコアと、しきい値を超える前記最終セグメント化スコアにおける変化とのセットから選択される、条件を有する、請求項21に記載の方法。
  31. 個々のイメージを有する入力データセットを生成するように構成された、1つまたは複数のカメラと、
    各イメージに複数のセグメント化クラスの各々についての初期セグメント化スコアを割り当てることで、入力データセットの各イメージについて初期セグメント化スコアを決定するように構成された、ニューラルネットワークと、
    平滑さ基準を強調することによって前記入力データセットの各イメージについて最終セグメント化スコアを決定し、前記最終セグメント化スコアに従って前記入力データセットをセグメント化するように構成された、セグメント化モジュールと、
    前記セグメント化された入力データセットに基づいて、警報条件に合致するかどうかを決定し、前記警報条件に合致する場合に、警報を生成するように構成された、警報モジュールと、
    を有する、データセグメント化のためのシステム。
  32. 前記セグメント化モジュールは、前記最終セグメント化スコアを決定するために変分反応拡散(VRD)を適用するようにさらに構成される、請求項31に記載のシステム。
  33. 前記セグメント化モジュールは、前記初期セグメント化スコアおよび正定値パラメータ行列に基づいてVRD最適化問題を解決するようにさらに構成される、請求項32に記載のシステム。
  34. 前記セグメント化モジュールは、前記最適化問題を解決するために、偏微分方程式のシステムを解決するようにさらに構成される、請求項33に記載のシステム。
  35. 前記セグメント化モジュールは、前記正定値パラメータ行列上でのシュール分解を使用して前記最適化問題を前記偏微分方程式のシステムに変換するようにさらに構成される、請求項34に記載のシステム。
  36. 前記偏微分方程式のシステムは、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    は式
    Figure 2019508805
    として定義され、
    Figure 2019508805
    および
    Figure 2019508805
    は前記正定値パラメータ行列の部分行列であり、Δはベクトルラプラシアン演算子であり、
    Figure 2019508805
    はデータのユニットについての前記初期セグメント化スコアであり、各
    Figure 2019508805
    はk番目のセグメント化クラス上での変換されたスコアを表し、
    Figure 2019508805
    はセグメント化クラスの数であり、VおよびUはシュール分解後の前記正定値パラメータ行列の変換されたバージョンである、請求項34に記載のシステム。
  37. 前記最適化問題は、
    Figure 2019508805
    として表され、ここで、
    Figure 2019508805
    はデータのユニットについての前記最終セグメント化スコアのベクトルであり、xはデータセットIにおけるデータのユニットであり、dは前記データセットIの次元であり、sは
    Figure 2019508805
    と前記データのユニットについての前記初期セグメント化スコアのベクトルとを組み合わせたベクトルである、請求項33に記載のシステム。
  38. 前記ニューラルネットワークは、前記最終セグメント化スコアおよびエラー信号を使用して前記ニューラルネットワークをトレーニングするために、情報を逆伝搬するようにさらに構成される、請求項33に記載のシステム。
  39. 前記ニューラルネットワークは、前記正定値パラメータ行列に関して前記エラー信号の導関数を決定するようにさらに構成される、請求項38に記載のシステム。
  40. 前記警報条件は、しきい値を超える前記複数のセグメント化クラスのうちの所定の1つについての最終セグメント化スコアと、しきい値を超える前記最終セグメント化スコアにおける変化とのセットから選択された条件を有する、請求項31に記載のシステム。
JP2018540811A 2016-02-04 2017-01-18 大域的最適化に基づく意味的セグメント化 Active JP6678246B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662291076P 2016-02-04 2016-02-04
US62/291,076 2016-02-04
US15/402,680 2017-01-10
US15/402,680 US10290106B2 (en) 2016-02-04 2017-01-10 Video monitoring using semantic segmentation based on global optimization
US15/402,652 US10235758B2 (en) 2016-02-04 2017-01-10 Semantic segmentation based on global optimization
US15/402,652 2017-01-10
PCT/US2017/013846 WO2017136137A1 (en) 2016-02-04 2017-01-18 Semantic segmentation based on global optimization

Publications (2)

Publication Number Publication Date
JP2019508805A true JP2019508805A (ja) 2019-03-28
JP6678246B2 JP6678246B2 (ja) 2020-04-08

Family

ID=59497782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018540811A Active JP6678246B2 (ja) 2016-02-04 2017-01-18 大域的最適化に基づく意味的セグメント化

Country Status (4)

Country Link
US (2) US10235758B2 (ja)
JP (1) JP6678246B2 (ja)
DE (1) DE112017000669T5 (ja)
WO (1) WO2017136137A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018106783A1 (en) * 2016-12-06 2018-06-14 Siemens Energy, Inc. Weakly supervised anomaly detection and segmentation in images
US10275820B2 (en) 2017-01-31 2019-04-30 Walmart Apollo, Llc Systems and methods for utilizing a convolutional neural network architecture for visual product recommendations
CN107610129B (zh) * 2017-08-14 2020-04-03 四川大学 一种基于cnn的多模态鼻咽部肿瘤联合分割方法
CN107705334B (zh) * 2017-08-25 2020-08-25 北京图森智途科技有限公司 一种摄像机异常检测方法及装置
CN107564032A (zh) * 2017-09-01 2018-01-09 深圳市唯特视科技有限公司 一种基于外观网络的视频跟踪对象分割方法
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN108319972B (zh) * 2018-01-18 2021-11-02 南京师范大学 一种针对图像语义分割的端到端差异网络学习方法
CN109166141A (zh) * 2018-08-10 2019-01-08 Oppo广东移动通信有限公司 危险提醒方法、装置、存储介质及移动终端
CN109460744B (zh) * 2018-11-26 2021-08-27 南京邮电大学 一种基于深度学习的视频监控系统
CN110705756B (zh) * 2019-09-07 2023-05-12 创新奇智(重庆)科技有限公司 一种基于输入凸神经网络的电力能耗优化控制方法
CN111932529B (zh) * 2020-09-10 2020-12-29 腾讯科技(深圳)有限公司 一种图像分类分割方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282728A (ja) * 2000-03-30 2001-10-12 Canon Inc Wwwサーバにおけるクライアントデータ処理装置および方法並びに記憶媒体
US20050036710A1 (en) * 2003-07-18 2005-02-17 Kazunori Okada Method for robust scale-space analysis of 3D local structures in medical images
JP2008535528A (ja) * 2005-01-18 2008-09-04 トレストル コーポレーション スライドの可変品質画像を形成するためのシステムおよび方法
US20140074767A1 (en) * 2012-09-12 2014-03-13 Numerica Corporation Method and system for predicting a location of an object in a multi-dimensional space
JP2014186525A (ja) * 2013-03-22 2014-10-02 Mega Chips Corp 人物検出装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060159325A1 (en) * 2005-01-18 2006-07-20 Trestle Corporation System and method for review in studies including toxicity and risk assessment studies
US20080072182A1 (en) * 2006-09-19 2008-03-20 The Regents Of The University Of California Structured and parameterized model order reduction
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US10055551B2 (en) * 2013-10-10 2018-08-21 Board Of Regents Of The University Of Texas System Systems and methods for quantitative analysis of histopathology images using multiclassifier ensemble schemes
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
US10366342B2 (en) * 2014-03-10 2019-07-30 Fair Isaac Corporation Generation of a boosted ensemble of segmented scorecard models
US20170109584A1 (en) * 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282728A (ja) * 2000-03-30 2001-10-12 Canon Inc Wwwサーバにおけるクライアントデータ処理装置および方法並びに記憶媒体
US20050036710A1 (en) * 2003-07-18 2005-02-17 Kazunori Okada Method for robust scale-space analysis of 3D local structures in medical images
JP2008535528A (ja) * 2005-01-18 2008-09-04 トレストル コーポレーション スライドの可変品質画像を形成するためのシステムおよび方法
US20140074767A1 (en) * 2012-09-12 2014-03-13 Numerica Corporation Method and system for predicting a location of an object in a multi-dimensional space
JP2014186525A (ja) * 2013-03-22 2014-10-02 Mega Chips Corp 人物検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUIS GOMEZ ET AL.: "Classification of Complex Wishart Matrices with a Diffusion-Reaction System guided by Stochastic Dis", ARXIV [ONLINE], JPN6019032160, July 2015 (2015-07-01), ISSN: 0004164480 *

Also Published As

Publication number Publication date
US20170228617A1 (en) 2017-08-10
JP6678246B2 (ja) 2020-04-08
DE112017000669T5 (de) 2018-11-29
US10290106B2 (en) 2019-05-14
WO2017136137A1 (en) 2017-08-10
US20170228873A1 (en) 2017-08-10
US10235758B2 (en) 2019-03-19

Similar Documents

Publication Publication Date Title
JP6678246B2 (ja) 大域的最適化に基づく意味的セグメント化
JP7335274B2 (ja) ジオロケーションの予測のためのシステムおよび方法
JP6771645B2 (ja) ドメイン分離ニューラルネットワーク
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
JP6950692B2 (ja) 人流推定装置、人流推定方法およびプログラム
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
US11688105B2 (en) Facial expression image processing method and apparatus
US11017296B2 (en) Classifying time series image data
CN112215390A (zh) 使用三维变换执行多元时间序列预测
Xiao et al. Anomaly detection via local coordinate factorization and spatio-temporal pyramid
JP7188856B2 (ja) 動的な画像解像度評価
WO2018211602A1 (ja) 学習装置、推定装置、学習方法及びプログラム
JPWO2019220609A1 (ja) 異常検出装置、異常検出方法及びプログラム
EP4105876A1 (en) Method and apparatus with image enhancement
JP2023553630A (ja) キーポイントベースの行動位置特定
JP7202995B2 (ja) 時空間事象予測装置、時空間事象予測方法及び時空間事象予測システム
JP2023540933A (ja) 多様な人分析のための勾配分割によるマルチタスク学習
JP7488846B2 (ja) 連合学習機構を利用した画像IoTプラットフォーム
JP7286091B2 (ja) 推定システム、推定装置および推定方法
EP4343589A1 (en) Computing device for quantifying the robustness of a model and method thereof
US20240169762A1 (en) Methods for featureless gaze tracking in ecologically valid conditions
US20220383628A1 (en) Conditional Object-Centric Learning with Slot Attention for Video and Other Sequential Data
GB2553351A (en) Salient object detection
KR20230159262A (ko) 스케일 분리를 통한 비디오의 빠른 객체 감지 방법
JP2021009617A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R150 Certificate of patent or registration of utility model

Ref document number: 6678246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350