JP6862584B2 - 画像処理システム及び画像処理方法 - Google Patents

画像処理システム及び画像処理方法 Download PDF

Info

Publication number
JP6862584B2
JP6862584B2 JP2019572701A JP2019572701A JP6862584B2 JP 6862584 B2 JP6862584 B2 JP 6862584B2 JP 2019572701 A JP2019572701 A JP 2019572701A JP 2019572701 A JP2019572701 A JP 2019572701A JP 6862584 B2 JP6862584 B2 JP 6862584B2
Authority
JP
Japan
Prior art keywords
benchmark
vector
hyperplane
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019572701A
Other languages
English (en)
Other versions
JP2020525958A (ja
Inventor
ジョーンズ、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2020525958A publication Critical patent/JP2020525958A/ja
Application granted granted Critical
Publication of JP6862584B2 publication Critical patent/JP6862584B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には、コンピュータビジョンに関し、より詳細には、画像の類似度を求めることに関する。
カメラ監視及び顔認識等の多くのコンピュータビジョンアプリケーションにおいて、異なる複数の画像に表されている人物又は他の物体が同じであるか否かを判断することが必要である。当該技術分野では、これは、比較のために選択される画像が全身画像であるとき、人物再同定として知られ、又は比較のために選択される画像が顔の画像であるとき、顔認識として知られる。そのために、人物再同定及び/又は顔認識システムは、デジタル画像から人物を、又はビデオソースからビデオフレームを、同定又は検証することが可能なコンピュータプリケーションである。これを行う1つの方法は、2人の人物の身体又は顔の2つの画像から計算された、選択された画像特徴を比較することによるものである。
画像は、人物の身体の全て又は一部分を含む静止画像のクロップ領域又はビデオ内のフレームのクロップ領域とすることができる。人物がビデオカメラによって追跡される監視及び他のアプリケーションでは、異なる追跡対象(tracks)が同じ人物のものであるか否かを判断する問題が必然的に生じる。追跡対象は、異なる時点からのものである場合もあるし、同じビデオカメラからのものである場合もあるし、又は2つの異なるビデオカメラからのものである場合もある。この問題は、2つのクロップ画像領域を比較し、領域が同じ人物を表すか否かを判断することによって解決することができる。
近年、様々な困難な試験セットにおける実用的な精度を達成する顔認識のための深層畳み込みニューラルネットワーク(CNN)アーキテクチャが台頭した。このアーキテクチャは、クロップされた顔画像を入力としてとり、VGG又はResNet等の強力なベースラインCNNを用いて特徴ベクトルを計算し、その後、長さCのベクトルを出力する全結合層が続く。ここで、Cは、トレーニングセットにおける一意のアイデンティティの数である。ネットワークは、入力顔画像のための正しいアイデンティティの出力ベクトルとワンホット符号化との間のソフトマックス損失を最小限にするようにトレーニングされる。換言すれば、CNNは、まず、顔のアイデンティティを表す特有の特徴ベクトルを計算することによって、入力された顔のアイデンティティを直接予測することを学習する。トレーニング後、各トレーニングアイデンティティの確率を与える、最終的な全結合層は破棄される。なぜなら、トレーニングアイデンティティは、試験中に遭遇するアイデンティティと同じでないためである。代わりに、最終的な全結合層の前の層の出力がアイデンティティ固有特徴ベクトルとして用いられる。2つの試験顔画像のための特徴ベクトルは、単にL2距離(又はコサイン類似度)を用いることによってL2正規化され、比較される。
この基本的なアーキテクチャにより達成される良好な結果にかかわらず、ネットワークがトレーニングされる方式と、ネットワークが試験中に用いられる方式との間に根本的な不一致がある。その目的で、いくつかの方法は、トレーニングのために異なる損失関数を用いることによってこの不一致に対処する。例えば、1つの代替的な損失関数は、非特許文献1によって記載されているトリプレット損失である。トリプレット損失は、「アンカー」顔、並びにアンカーのアイデンティティの正の例示的画像及び負の例示的画像を入力例としてとり、アンカーと正の特徴ベクトルとの間の距離から、アンカーと負の特徴ベクトルとの間の距離を減算したものを最小にすることを試みる。この損失に伴う1つの難題は、トレーニングのための顔画像の3つ組の数が非常に大きくなり、或る種のハードネガティブマイニングが必要とされることである。
コントラスティブ損失(contrastive loss)として知られる別の損失関数は、僅かに異なる損失関数を用いて、トリプレット損失と類似の効果を有する。中心損失として知られる別の損失関数は、顔の特徴ベクトルと、そのクラス(特定の人物についての顔画像のセット)の平均特徴ベクトルとの間の距離を最小にすることを試みる。中心損失とソフトマックス損失とを加えたものを用いると、コンパクトであり、他のアイデンティティと分離可能な、人物ごとの特徴ベクトルのクラスタが得られる傾向にある。
3つの他の関連損失関数、すなわち、(角度ソフトマックスのための)Aソフトマックス、大マージンソフトマックス及びL2制約付きソフトマックスが、特定のアイデンティティの特徴ベクトルが互いの付近にクラスタリングすることを促すように標準ソフトマックス損失関数を変更する。これらの様々な損失関数の全てが利点及び不利点を有する。
F. Schroff, D. Kalenichenko及びJ. Philbin、Facenet: A unified embedding for face recognition and clustering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 815-823, 2015
いくつかの実施形態の目的は、画像比較に適したシステム及び方法を提供することである。いくつかの実施形態の別の目的は、ニューラルネットワークの支援により実施することができるそのような方法を提供することである。いくつかの実施形態の別の目的は、ニューラルネットワークが損失関数を用いてどのようにトレーニングされるかと、そのニューラルネットワークが試験中にどのように用いられるかとのオンライン/オフライン不一致に対処することである。
いくつかの実施形態は、画像を直接的及び/又は間接的に比較することができるという認識に基づく。例えば、2つの画像の直接的比較は、これらの2つの画像の特徴ベクトル間の距離、例えばL2距離を求めることによって行うことができる。しかしながら、いくつかの用途では、そのような直接的な比較は望ましくない。その一方で、2つの画像は、これらの画像を共通ベンチマークに対して比較することによって間接的に比較することができる。ベンチマークが正しく求められる場合において、ベンチマーク比較結果が類似しているとき、2つの画像も類似している。
いくつかの実施形態は、画像比較及び/又は顔認識の分野において、ニューラルネットワークをトレーニングするために使用される損失関数を変更することに加えて、又はその代わりに、特徴ベクトルを比較するのに用いられる距離関数を変更することによってオンライン/オフラインの不一致に対処することができるという認識に基づく。特に、いくつかの実施形態は、特徴ベクトルがL2距離を用いて比較される試験中、同じ顔のペアの特徴ベクトルが特徴空間において近いのに対し、異なる顔のペアの特徴ベクトルがより遠く離れていることが仮定されるという洞察に基づく。しかしながら、この特性は、ニューラルネットワークのトレーニング中に最適化されていない。対照的に、ニューラルネットワークのトレーニング中に最適化されている特性は、特定の人物の特徴ベクトルが、全ての他の人物の特徴ベクトルから線形に分離可能であることである。このため、2つの画像の特徴ベクトルの直接的な比較は準最適である可能性がある。
例えば、トレーニング中、最終的な出力ユニットOについて、Oに接続されたネットワークの最後の全結合層の重みは、人物iの画像の特徴ベクトルを1にマッピングし、全ての他の人物の画像の特徴ベクトルを−1にマッピングしようとする線形関数を学習する。これは、最後の全結合層の重みが、人物iの画像と全ての他の人物の画像との間の分離超平面を定義することを意味する。これはまた、ネットワークによって学習される特徴ベクトルが、特定のアイデンティティの画像の特徴ベクトルが全ての他の人物の特徴ベクトルから線形に分離可能であるという特性を有することも暗に意味する。これらの特徴ベクトルは、特定のアイデンティティのための特徴ベクトルが全て共に近くにあるという特性を必ずしも有する必要はない。しかしながら、2つの特徴ベクトル間で通例用いられる類似度関数は、同じ人物の2つの画像から得られた2つの特徴ベクトルが、小さなL2距離を有するはずである(すなわち、共に近くにあるはずである)ことを意味する負のL2距離である。しかしながら、これが目的でニューラルネットワークがトレーニングされているわけではない。顔画像の各クラスを全ての他のクラスから線形に分離可能にすることは、クラスの全ての特徴ベクトルが小さなL2距離を有することを暗に意味するものではない。
そのため、オンライン/オフライン不一致の問題に対する1つの解決策は、1つの画像の特徴ベクトルを全ての他の画像の特徴ベクトルと分離する超平面に対する距離に従って特徴ベクトルを比較することである。超平面比較は、比較のための画像のうちの任意のものと異なるベンチマーク画像のセットの特徴ベクトルを用いて、ベンチマーク画像と、比較のための入力画像との間の超平面を計算し、比較する。次に、入力画像特徴ベクトルからのこれらの超平面に対するマージンの和を、L2距離の代わりに用いることができる。この解決策は、トレーニング損失に従う。このため、トレーニング中に用いられているのと同じ距離を用いる顔の画像を表す特徴ベクトルを比較する方法が必要とされている。
しかしながら、超平面類似度の利点は精度であるのに対し、主な欠点はスピードである。超平面を推定する1つの方法は、線形サポートベクトルマシン(SVM)ソルバーを用いることであるが、これはL2距離を用いるよりもはるかに低速である。この欠点に対処するために、SVM最適化を伴わない分離超平面を計算する方法が必要である。
いくつかの実施形態は、正の特徴ベクトル及び負の特徴ベクトルの多くの分散について、負の特徴ベクトルの平均から正の特徴ベクトルの平均を指し示すベクトルが、分離超平面に対し概ね垂直であるという洞察に基づく。したがって、分離超平面の法線は、正の平均特徴ベクトルと負の平均特徴ベクトルとの間の差により概算することができる。そのようにして、いくつかの実施形態は、入力画像の特徴ベクトルとベンチマーク画像のセットとの間の超平面を求める代わりに、入力画像の特徴ベクトルと、ベンチマーク画像の特徴ベクトルの平均との間の超平面又は少なくとも超平面に対する法線を求める。
分離超平面の法線が求められると、超平面は、入力画像の特徴ベクトルをベンチマーク特徴ベクトルから最も良好に分離する、法線に沿った位置を示すオフセットによって定義することができる。そのために、1つの実施形態は、オフセットを、入力画像の特徴ベクトルと法線ベクトルとの内積と、ベンチマーク画像の特徴ベクトルと法線ベクトルとの内積のうちの1つとの間に入るものとして求める。例えば、超平面のオフセットは、ベンチマーク画像の各特徴ベクトルと法線ベクトルとの内積を計算することによって求めることができる。次に、オフセットは、最大ベンチマーク内積と、入力画像の特徴ベクトルと法線ベクトルとの内積とのアベレージに設定される。
したがって、1つの実施形態は、試験画像の特徴ベクトルを示すデータを記憶するメモリと、第1の画像の第1の特徴ベクトルと、第2の画像の第2の特徴ベクトルとを示すデータを受容する入力インターフェースであって、試験画像は第1の画像及び第2の画像を含まない、入力インターフェースと、試験画像の特徴ベクトルを第1の特徴ベクトルと分離する第1の超平面と、試験画像の特徴ベクトルを第2の特徴ベクトルと分離する第2の超平面とを比較して、第1の画像と第2の画像との間の類似度値を生成するプロセッサと、類似度値をレンダリングする出力インターフェースとを備える、画像比較のためのシステムを開示する。
この実施形態において、プロセッサは、第1の超平面に対する第1の法線ベクトルを、第1の特徴ベクトルと、試験画像の特徴ベクトルの平均との間の差として求め、第1の超平面のオフセットを、ベンチマーク画像の特徴ベクトルと、第1の法線ベクトルとの最大内積と、第1の特徴ベクトルと第1の法線ベクトルとの内積とのアベレージによって定義されるスカラーとして求め、類似度値を、第1の超平面に対する第2の特徴ベクトルの符号付き距離の関数として求めるように構成される。
いくつかの実施態様では、第2の超平面は、第1の超平面を求めるのと類似した方式で求められる。例えば、いくつかの実施態様では、プロセッサは、第2の超平面に対する第2の法線ベクトルを、第2の特徴ベクトルと、試験画像の特徴ベクトルの平均との間の差として求め、第2の超平面のオフセットを、ベンチマーク画像の特徴ベクトルと、第2の法線ベクトルとの最大内積と、第2の特徴ベクトルと第2の法線ベクトルとの内積とのアベレージによって定義されるスカラーとして求め、類似度値を、第2の超平面に対する第1の特徴ベクトルの符号付き距離の関数として求めるように更に構成される。
代替的に、第2の超平面は、例えば線形サポートベクトルマシン(SVM)ソルバーを用いて予め決定することができる。さらに又は代替的に、いくつかの実施態様では、プロセッサは、類似度値を、第1の超平面に対する第2の特徴ベクトルの符号付き距離と、第2の超平面に対する第1の特徴ベクトルの符号付き距離との和として求める。
いくつかの実施態様では、プロセッサは、ニューラルネットワークを用いて、第1の画像の特徴、第2の画像の特徴及び/又は負の画像の特徴を生成する。そのような方式において、ニューラルネットワークのトレーニングと使用との間のオンライン/オフライン不一致が、画像比較の効率性を犠牲にすることなく低減される。ニューラルネットワークは、超平面比較と組み合わせて、特徴決定及び特徴比較の合同の精度に基づいて正確な結果を提供する。
したがって、1つの実施形態は、画像処理システムであって、ベンチマーク画像のベンチマーク特徴ベクトルを示すデータを記憶するメモリと、第1の画像の第1の特徴ベクトルと、第2の画像の第2の特徴ベクトルとを示すデータを受容する入力インターフェースであって、ベンチマーク画像は第1の画像及び第2の画像を含まない、入力インターフェースと、ベンチマーク特徴ベクトルを第1の特徴ベクトルと分離する第1の超平面と、ベンチマーク特徴ベクトルを第2の特徴ベクトルと分離する第2の超平面とを用いて、第1の画像と第2の画像との間の類似度値を求めるプロセッサであって、プロセッサは、第1の超平面に対する第1の法線ベクトルを、第1の特徴ベクトルと、ベンチマーク特徴ベクトルの平均との間の差として求め、第1の超平面のオフセットを、ベンチマーク特徴ベクトルと、第1の法線ベクトルとの最大内積と、第1の特徴ベクトルと第1の法線ベクトルとの内積とのアベレージとして求め、類似度値を、第1の超平面に対する第2の特徴ベクトルの符号付き距離と、第2の超平面に対する第1の特徴ベクトルの符号付き距離との和の関数として求めるように構成される、プロセッサと、類似度値をレンダリングする出力インターフェースとを備える、システムを開示する。
別の実施形態は、画像処理方法であって、方法は、ベンチマーク画像のベンチマーク特徴ベクトルを示すデータを記憶するメモリに結合されたプロセッサを用い、プロセッサは、方法を実施する記憶された命令と結合され、命令は、プロセッサによって実行されると、方法の少なくともいくつかのステップを実行する、方法を開示する。方法は、第1の画像のセットの第1の特徴ベクトルのセットと、第2の画像のセットの第2の特徴ベクトルのセットとを示すデータを受容することであって、ベンチマーク画像は、第1の画像のセット及び第2の画像のセットを含まないことと、ベンチマーク特徴ベクトルを第1の特徴ベクトルのセットと分離する第1の超平面と、ベンチマーク特徴ベクトルを第2の特徴ベクトルのセットと分離する第2の超平面とを比較して、第1の画像のセットと第2の画像のセットとの間の類似度値を生成することであって、比較は、第1の超平面に対する第1の法線ベクトルを、第1の特徴ベクトルのセットの平均と、ベンチマーク特徴ベクトルの平均との間の差として求めることと、第1の超平面のオフセットを、ベンチマーク特徴ベクトルと、第1の法線ベクトルとの最大内積と、第1の特徴ベクトルのセットからの特徴ベクトルと第1の法線ベクトルとの最小内積とのアベレージとして求めることと、類似度値を、第1の超平面に対する第2の特徴ベクトルのセットにおける全ての特徴ベクトルの符号付きアベレージ距離の関数として求めることとを含むことと、類似度値をレンダリングすることとを含む。
更に別の実施形態は、方法を実行するためにプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体を開示する。方法は、第1の画像のセットの第1の特徴ベクトルのセットと、第2の画像のセットの第2の特徴ベクトルのセットと、ベンチマーク画像のベンチマーク特徴ベクトルとを示すデータを受容することであって、ベンチマーク画像は、第1の画像のセット及び第2の画像のセットを含まないことと、ベンチマーク特徴ベクトルを第1の特徴ベクトルのセットと分離する第1の超平面と、ベンチマーク特徴ベクトルを第2の特徴ベクトルのセットと分離する第2の超平面とを比較して、第1の画像のセットと第2の画像のセットとの間の類似度値を生成することと、類似度値をレンダリングすることとを含む。比較することは、第1の超平面に対する第1の法線ベクトルを、第1の特徴ベクトルのセットの平均と、ベンチマーク特徴ベクトルの平均との間の差として求めることと、第1の超平面のオフセットを、ベンチマーク特徴ベクトルと、第1の法線ベクトルとの最大内積と、第1の特徴ベクトルのセットからの特徴ベクトルと第1の法線ベクトルとの最小内積とのアベレージとして求めることと、類似度値を、第1の超平面に対する第2の特徴ベクトルのセットにおける全ての特徴ベクトルの符号付きアベレージ距離の関数として求めることとを含む。
いくつかの実施形態による、間接的な画像比較のための画像処理システムのブロック図である。 いくつかの実施形態によって用いられる直接的及び間接的な画像比較の概略図である。 いくつかの実施形態による、或る特徴ベクトルをベンチマーク画像の特徴ベクトルと分離するために画像の特徴空間を分割する超平面の概略図である。 1つの実施形態による、第1の画像の間接的な画像比較のために第1の超平面を決定する方法のフローチャートである。 いくつかの実施形態に基づく、2つの画像の類似度を求めることの概略図である。 1つの実施形態による、類似度尺度を決定する方法のフローチャートである。 1つの実施形態による、複数の特徴ベクトルを用いて表される画像のセットのための超平面を求めることの概略図である。 いくつかの実施形態によって特徴ベクトルを生成するために用いられる例示的なニューラルネットワークを表す図である。 いくつかの実施形態による、画像処理及びコンピュータビジョンアプリケーションのために構成された例示的なシステムのブロック図である。
図1は、いくつかの実施形態による、間接的な画像比較のための画像処理システム100のブロック図を示す。画像処理システム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ102は、バス106を通じて1つ以上の入力デバイス及び出力デバイスに接続される。
これらの命令は、共通ベンチマークに対し画像の特徴ベクトルを比較することに基づく間接的な画像比較のための方法を実施する。様々な実施形態において、間接的な画像比較は、比較された画像の類似度を示す類似度値を生成する。例えば、1つの実施形態では、画像は顔又は全身のクロップ画像であり、それによって、システムは顔認識システム及び/又は人物再同定システムになる。
画像処理システム100は、共通ベンチマークに対し画像を比較することに基づく間接的な画像比較を行うように構成される。このために、画像処理システム100はまた、ベンチマーク画像の特徴ベクトルを示すベンチマークデータ131を記憶するように適合されたストレージデバイス108と、比較される画像の特徴を抽出する特徴抽出器133と、ベンチマークデータ131との画像の類似度又は非類似度を求めることによって画像を間接的に比較する画像間接比較器とを備えることができる。ストレージデバイス108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブアレイ、又はその任意の組み合わせを用いて実施することができる。
画像処理システム100内のヒューマンマシンインターフェース110は、システムをキーボード111及びポインティングデバイス112に接続することができ、ポインティングデバイス112は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含むことができる。画像処理システム100は、画像処理システム100をディスプレイデバイス150に接続するように適合されたディスプレイインターフェース140にバス106を通じてリンクすることができる。ディスプレイデバイス150は、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
画像処理システム100は、当該システムを撮像デバイス130に接続するように適合された撮像インターフェース128にも接続することができる。1つの実施形態では、比較のための画像は撮像デバイスから受信される。撮像デバイス130は、カメラ、コンピュータ、スキャナ、モバイルデバイス、ウェブカメラ、又はそれらの任意の組み合わせを含むことができる。
ネットワークインターフェースコントローラ160は、画像処理システム100を、バス106を通じてネットワーク190に接続するように適合される。ネットワーク190を通じて、特徴ベクトル及び撮像入力文書のうちの1つ又はそれらの組み合わせを含む画像195をダウンロードし、記憶及び/又は更なる処理のためにコンピュータのストレージシステム108内に記憶することができる。
いくつかの実施形態では、画像処理システム100は、画像処理システム100を、画像比較結果に基づいて動作することができるアプリケーションデバイス185に接続するように適合されたアプリケーションインターフェース180に、バス106を通じて接続される。例えば、デバイス185は、顔認識結果に基づいてユーザーにそのデバイスへのアクセスを可能にする保護されたシステムである。
いくつかの実施形態は、画像を直接的及び/又は間接的に比較することができるという認識に基づく。例えば、2つの画像の直接的比較は、これらの2つの画像の特徴ベクトル間の距離、例えばL2距離を求めることによって行うことができる。本明細書において用いられるとき、特徴ベクトルとは、画像の様々な特性を表す数字の順序付けされたリストである。いくつかの実施形態では、特徴ベクトルは、特徴抽出器133によって決定される。特徴抽出器の例は、スケール普遍特徴変換(SIFT)及びニューラルネットワークを含む。しかしながら、いくつかの用途では、そのような直接的な比較は望ましくない。他方で、2つの画像は、これらの画像を共通ベンチマークに対して比較することによって間接的に比較することができる。ベンチマーク画像が正しく求められる場合において、ベンチマーク比較結果が類似しているとき、2つの画像も類似している。
図2は、いくつかの実施形態によって用いられる直接的及び間接的画像比較の概略図を示す。直接的比較201の間、第1の画像210は、第2の画像220と直接的に比較される。例えば、直接的比較は、第1の画像及び第2の画像の特徴間の距離を求める(215)。距離が小さい場合、画像210及び画像220は類似しており、そうでない場合、画像210及び画像220は異なる。
間接的比較202中、第1の画像210及び第2の画像220は共通ベンチマークに対して比較される(230)。例えば、いくつかの実施形態では、ベンチマークデータ131は、第1の画像及び第2の画像を含まない画像の特徴ベクトルを示すデータである。これらの画像は、本明細書においてベンチマーク画像と呼ばれ、それらの特徴ベクトルは、ベンチマーク特徴ベクトルと呼ばれる。例えば、ベンチマークデータ131はベンチマーク画像を含むことができ、これらのベンチマーク画像のベンチマーク特徴ベクトルは、システム100の動作中に抽出される。さらに又は代替的に、ベンチマークデータ131は、事前に予め決定されたベンチマーク特徴ベクトルを記憶することができる。
共通ベンチマークに対するそのような比較の結果、ベンチマーク特徴ベクトルを第1の画像210の特徴ベクトルと分離する第1の超平面240、及びベンチマーク特徴ベクトルを第2の画像220の特徴ベクトルと分離する第2の超平面250が得られる。幾何学では、超平面は、その周囲の空間よりも1次元少ない部分空間である。空間が3次元である場合、その超平面は2次元平面であるのに対し、空間が2次元である場合、その超平面は1次元の線である。この場合、空間の次元数は特徴ベクトルの次元数によって定義される。例えば、n次元特徴空間の超平面は、次元n−1を有するフラットサブセット(flat subset)である。超平面は、その性質により、空間を2つの半空間に分離する。そのようにして、第1の画像と第2の画像との間の類似度を、それらの超平面の類似度に基づいて間接的に求めることができる。
例えば、次に、第1の画像及び/又は第2の画像の特徴ベクトルからのこれらの超平面に対するマージンの和を、L2距離の代わりに用いることができる。システム100は、スタンドアロンの間接的な画像比較、又は直接的画像比較及び間接的画像比較の双方を行って結果の品質を改善することができることに留意されたい。例えば、いくつかの実施形態は、第1の画像と第2の画像との間の類似度を、第1の超平面に対する第2の画像の特徴ベクトルの符号付き距離の関数として決定する。例えば、いくつかの実施態様では、類似度メトリックは、第1の超平面に対する第2の画像の特徴ベクトルの符号付き距離と、第2の超平面に対する第1の画像の特徴ベクトルの符号付き距離との和として求められる。
しかしながら、超平面類似度の利点は精度であるのに対し、主な欠点はスピードである。超平面を推定する1つの方法は、線形サポートベクトルマシン(SVM)ソルバーを用いることであるが、これはL2距離を用いるよりもはるかに低速である。この欠点に対処するために、SVM最適化を伴わない分離超平面を計算する方法が必要である。
いくつかの実施形態は、正の特徴ベクトル及び負の特徴ベクトルの多くの分散について、負の特徴ベクトルの平均から正の特徴ベクトルの平均を指し示すベクトルが、分離超平面に対し概ね垂直であるという洞察に基づく。したがって、分離超平面の法線は、正の平均特徴ベクトルと負の平均特徴ベクトルとの間の差により概算することができる。
図3は、いくつかの実施形態による、或る特徴ベクトル310をベンチマーク画像の特徴ベクトル330と分離するために画像の特徴空間300を分割する超平面360の概略図を示す。実施形態は、法線ベクトル350及びオフセットスカラー380が超平面を定義するという認識に基づく。超平面は、法線ベクトルとの内積からオフセットを減算したものが0である特徴ベクトルとして定義される。いくつかの実施形態は、法線ベクトル350を、特徴ベクトル310と、ベンチマーク画像の特徴ベクトル330の平均340との間の差として求める。本明細書において用いられるとき、平均とは、ベンチマーク画像の特徴ベクトルの和を特徴ベクトル数で除算したものである。そのようにして、法線ベクトルは、SVMソルバーの使用を通じて求めるのと比較して非常に迅速に求めることができる。
実施形態は、特徴ベクトル310と法線ベクトル350との内積と、ベンチマーク特徴ベクトル330の各々と法線ベクトル350との最大内積とのアベレージとしてオフセットスカラー380を求める。法線ベクトル350は、ベンチマーク特徴ベクトルの平均340から入力画像の特徴ベクトル310へのベクトルとして選択される。なぜなら、法線ベクトル350と入力画像の特徴ベクトル310及び類似の特徴ベクトルとの内積は、一般的に、法線ベクトル350とベンチマーク特徴ベクトル330との内積よりも大きな値を有するためである。入力画像の特徴ベクトル310が「正の」特徴ベクトルとみなされ、ベンチマーク画像の特徴ベクトル330が負の特徴ベクトルとみなされる場合、オフセット380は、正の特徴ベクトルの場合の最も小さな内積と、負の特徴ベクトルの場合の最も大きな内積との中間に位置するように選択される。
図4は、1つの実施形態による、第1の画像210の間接的な画像比較のために第1の超平面を決定する方法400のフローチャートを示す。本方法は、第1の画像210を取得し(410)、第1の画像の特徴を抽出して(420)、特徴ベクトル425を生成する。例えば、本方法は、撮像デバイス130から、及び/又はネットワーク190を通じて第1の画像を受信することができる。例えば、本方法は、特徴抽出器133を用いて第1の特徴ベクトルを決定することができる。特徴抽出器によって用いられる技法の例は、畳み込みニューラルネットワークを含むニューラルネットワーク、及びローカルバイナリパターン又はハールライク(Haar-like)特徴等のハンドクラフト画像特徴を含む。
本方法は、第1の超平面に対する第1の法線ベクトル435を、第1の特徴ベクトルと、ベンチマーク特徴ベクトルの平均427との間の差として求める。平均427は、事前に予め計算することもできるし、ベンチマーク特徴ベクトルの要素のアベレージをとることによってリアルタイムで求めることもできる。本方法は、第1の超平面のオフセット445を、ベンチマーク特徴ベクトルと第1の法線ベクトルとの最大内積と、第1の特徴ベクトルと第1の法線ベクトルとの内積とのアベレージとして求める。オフセットは、超平面に最も近いベンチマーク特徴ベクトル間の距離、及び第1の特徴ベクトルと超平面との間の距離を最大にするように選択される。そのような方式で、第1の法線ベクトル435及びオフセット445は第1の超平面240を定義する。
いくつかの実施形態では、第2の超平面250は、線形サポートベクトルマシン(SVM)ソルバーを用いて予め求められる。さらに又は代替的に、第2の超平面250は、方法400の原理を用いて求めることができる。
図5は、いくつかの実施形態に基づく、2つの画像の類似度を求めることの概略図を示す。例えば、いくつかの実施形態は、類似度値を、第1の超平面501に対する第2の特徴ベクトル520の符号付き距離570と、第2の超平面502に対する第1の特徴ベクトル510の符号付き距離560との和の関数として求める。例えば、超平面に対する特徴ベクトルの符号付き距離は、特徴ベクトルと、超平面の法線との内積から、超平面のオフセットを減算したものとして計算される。この距離は、特徴ベクトルが超平面の正の側にあるとき、正であり、超平面の負の側(トレーニング特徴ベクトルの平均を含む側)では負である。
図6は、1つの実施形態による類似度尺度を求める方法のフローチャートを示す。本方法は、第1の超平面に対する第2の特徴ベクトルの符号付き距離を求め(610)、第2の超平面に対する第1の特徴ベクトルの符号付き距離を求める(620)。本方法は、これらの符号付き距離を合算し(630)、第1の超平面に対する第2の特徴ベクトルの符号付き距離と、第2の超平面に対する第1の特徴ベクトルの符号付き距離との和の関数を、第1の画像及び第2の画像の類似度を示す類似度値としてレンダリングする(640)。
図7は、1つの実施形態による、複数の特徴ベクトルを用いて表される画像のセットのための超平面を求めることの概略図を示す。人物が同定されているいくつかの事例では、その人物の複数の画像が入手可能である場合がある。例えば、人物の複数の画像が、人物のビデオシーケンスのフレームから得られる場合がある。そのような事例では、超平面を用いた類似度の計算は、精度を改善するために、人物の全ての利用可能な画像を一度に利用することができる。これには、上記で説明した、2人の人物の単一の画像を比較する方法の簡単な変形が必要となる。人物の複数の特徴ベクトル720をベンチマーク特徴ベクトル730と分離する超平面を計算するために、人物の特徴ベクトル720の平均特徴ベクトル710及びベンチマーク特徴ベクトル730の平均特徴ベクトル740が計算される。超平面の法線750が、人物の平均特徴ベクトル710からベンチマーク特徴ベクトルの平均特徴ベクトル740を減算した差として計算される。超平面のオフセット780は、全ての人物の特徴ベクトル720と超平面の法線750との最小内積と、全てのベンチマーク特徴ベクトル730と超平面の法線750との最大内積とのアベレージとして計算される。
第1の画像のセットを第2の画像のセットと比較するために、2つの超平面が計算される。第1の画像のセットの特徴ベクトルをベンチマーク特徴ベクトルと分離する第1の超平面は、上記で説明したように計算される。第2の画像のセットの特徴ベクトルをベンチマーク特徴ベクトルと分離する第2の超平面も、上記で説明したように計算される。次に、第1の画像のセットと第2のセットとの間の符号付き距離が、第2の超平面に対する第1の画像のセットの特徴ベクトルの符号付きアベレージ距離と、第1の超平面に対する第2の画像のセットの特徴ベクトルの符号付きアベレージ距離とを加算したものとして計算される。超平面に対する特徴ベクトルの符号付き距離は、特徴ベクトルと、超平面の法線との内積から超平面のオフセットを減算したものとして計算される。上記の例において、第1の画像のセット及び/又は第2の画像のセットは、単一の画像のみを含み、すなわち、第1の画像のセットのサイズ及び/又は第2の画像のセットのサイズは1に等しいことに留意されたい。
図8は、いくつかの実施形態によって特徴ベクトルを生成するために用いられる例示的なニューラルネットワークを表す図を示す。ネットワークは、1つ以上の画像を入力810としてとる入力層を含む。この後に、畳み込み層及びプーリング層のシーケンス850、860、870、880が続く。畳み込み層は、その畳み込み層への入力を、畳み込み行列のセットを用いて畳み込む。各畳み込み行列は、多くの場合特徴マップと呼ばれる異なる出力画像を計算するのに用いられる。畳み込み行列の要素は、トレーニング中に学習される。非線形関数(正規化線形関数又はシグモイド関数等)が多くの場合に特徴マップに適用され、新たな特徴マップが生成される。プーリング層は、そのプーリング層への入力をサブサンプリングし、より小さなサブサンプリングされた特徴マップを出力する。畳み込みニューラルネットワークは、任意の数の畳み込み層又はプーリング層を任意の順序で有することができる。畳み込みニューラルネットワークは、多くの場合(ただし常にではない)1つ以上の全結合層890、895で終了する。全結合層のパラメーターもトレーニング中に学習される。いくつかの実施形態では、畳み込みニューラルネットワークの最後から二番面の層は、多くの場合特徴ベクトル830と呼ばれる1次元ベクトルである。いくつかの実施形態では、トレーニング中、畳み込みニューラルネットワークの最後の層840は、入力画像が異なるトレーニングクラスの各々に属する確率を示す確率のベクトルである。確率のベクトルは、通常、特徴ベクトルの異なる線形結合として計算された数のベクトルのソフトマックス関数を計算することによって生成される。顔認識ネットワークをトレーニングするとき、トレーニングクラスは、顔画像のトレーニングセットにおける異なるアイデンティティのセットである。
いくつかの実施態様では、畳み込みニューラルネットワークは、ユーザーが定義した損失関数を最小にする確率的勾配降下アルゴリズムを用いてトレーニングされる。例えば、顔認識ネットワークについて、ユーザーが定義した損失関数は、ネットワークの出力確率と、トレーニング顔画像のグラウンドトゥルース確率との間のユークリッド距離とすることができる。
トレーニング中、最終的な出力ユニットO842について、O842に接続されたネットワークの最後の全結合層の重みは、人物iの画像の特徴ベクトルを1にマッピングし、全ての他の人物の画像の特徴ベクトルを−1にマッピングしようとする線形関数を学習する。これは、最後の全結合層の重みが、人物iの画像と全ての他の人物の画像との間の分離超平面を定義することを意味する。これはまた、ネットワークによって学習される特徴ベクトルが、特定のアイデンティティの画像の特徴ベクトルが全ての他の人物の特徴ベクトルから線形に分離可能であるという特性を有することも暗に意味する。これらの特徴ベクトルは、特定のアイデンティティのための特徴ベクトルが全て共に近くにあるという特性を必ずしも有する必要はない。しかしながら、試験中、2つの特徴ベクトル間で通例用いられる類似度関数は、同じ人物の2つの画像から得られた2つの特徴ベクトルが、小さなL2距離を有するはずである(すなわち、共に近くにあるはずである)ことを意味する負のL2距離である。しかしながら、これが目的でニューラルネットワークがトレーニングされているわけではない。顔画像の各クラスを全ての他のクラスから線形に分離可能にすることは、クラスの全ての特徴ベクトルが小さなL2距離を有することを暗に意味するものではない。そのために、人物画像の特徴ベクトルを、試験されていない他の人物の画像を表すベンチマーク特徴ベクトルのセットと分離する超平面に対する距離を測定することに基づいて、2人の人物の画像のセットの類似度を測定する新たな類似度関数を考案することが有利である。
図9は、いくつかの実施形態による、画像処理及びコンピュータビジョンアプリケーションのために構成された例示的なシステム900のブロック図を示す。システム900は、カメラ910、慣性測定ユニット(IMU)930、プロセッサ950、メモリ960、送受信機970、及びディスプレイ/スクリーン980のうちの1つ又は組み合わせを備えることができる。これらは、接続920を通じて他の構成要素に動作的に結合することができる。接続920は、バス、ライン、ファイバー、リンク又はそれらの組み合わせを含むことができる。
送受信機970は、例えば、1つ以上のタイプの無線通信ネットワークを通じて1つ以上の信号を送信することを可能にする送信機と、1つ以上のタイプの無線通信ネットワークを通じて送信された1つ以上の信号を受信する受信機とを備えることができる。送受信機970は、様々な技術に基づいて無線ネットワークとの通信を可能にすることができる。これらの技術は、標準規格のIEEE802.11ファミリーに基づくことができるフェムトセル、Wi−Fiネットワーク又は無線ローカルエリアネットワーク(WLAN)、標準規格のIEEE802.15xファミリーに基づくBluetooth(登録商標)、近距離場通信(NFC)、ネットワーク等の無線パーソナルエリアネットワーク(WPAN)、及び/又はLTE、WiMAX等の無線ワイドエリアネットワーク(WWAN)等であるが、これらに限定されるものではない。システム900は、有線ネットワークを通じて通信するための1つ以上のポートを備えることもできる。
いくつかの実施形態では、システム900は、CCDセンサ若しくはCMOSセンサ、レーザ及び/又はカメラ等の画像センサ910を備えることができる。この画像センサは、以下では「センサ910」と呼ばれる。例えば、センサ910は、光画像を電子画像又はデジタル画像に変換することができ、取得された画像をプロセッサ950に送信することができる。さらに又は代替的に、センサ910は、シーン内のターゲット物体から反射された光を検知し、捕捉された光の強度をプロセッサ950にサブミットすることができる。
例えば、センサ910は、「カラー情報」を提供するカラーカメラ又はグレースケールカメラを含むことができる。「カラー情報」という用語は、本明細書において用いられるとき、カラー情報及び/又はグレースケール情報を指す。一般に、カラー画像又はカラー情報は、本明細書において用いられるとき、1〜N個のチャネルを含むものとみなすことができる。ここで、Nは、画像を記憶するのに用いられている色空間に依存する或る整数である。例えば、RGB画像は、3つのチャネルを含み、赤情報、青情報及び緑情報についてそれぞれ1つのチャネルを有する。
例えば、センサ910は、「深度情報」を提供する深度センサを含むことができる。深度情報は、深度センサを用いて様々な方法で取得することができる。「深度センサ」という用語は、深度情報を単独で及び/又は他のいくつかのカメラと併せて取得するのに用いることができる機能ユニットを指すのに用いられる。例えば、いくつかの実施形態では、深度センサ及び光カメラは、センサ910の一部分とすることができる。例えば、いくつかの実施形態では、センサ910はRGBDカメラを備える。このRGBDカメラは、カラー(RGB)画像に加えて、深度センサが有効にされているときはピクセルごとの深度(D)情報を捕捉することができる。
別の例として、いくつかの実施形態では、センサ910は、3D飛行時間(3DTOF)カメラを含むことができる。3DTOFカメラを用いた実施形態では、深度センサは、3DTOFカメラに結合されたストロボライトの形態をとることができる。このストロボライトは、シーン内の物体を照明することができ、反射された光は、センサ910内のCCD/CMOSセンサが捕捉することができる。深度情報は、光パルスが物体に進んでセンサに戻って来るまでに要する時間を測定することによって取得することができる。
更なる例として、深度センサは、センサ910に結合された光源の形態をとることができる。1つの実施形態では、この光源は、1つ以上の狭い光の帯を含むことができる構造化された光パターン又はテクスチャー付けされた光パターンをシーン内の物体に投射する。深度情報は、物体の表面形状によって引き起こされる投射パターンの幾何学的歪みを利用することによって取得される。1つの実施形態は、赤外線構造化光プロジェクタと、RGBカメラに位置合わせされた赤外線カメラとの組み合わせ等のステレオセンサから深度情報を求める。
いくつかの実施形態では、センサ910は立体カメラを備える。例えば、深度センサは、2つ以上のカメラを用いてシーンの深度情報を取得することができる受動ステレオビジョンセンサの一部分を成すことができる。捕捉されたシーンにおける双方のカメラに共通の点のピクセル座標を、カメラ姿勢情報及び/又は三角測量技法とともに用いて、ピクセルごとの深度情報を取得することができる。
いくつかの実施形態では、システム900は、デュアルフロントカメラ及び/又は前面カメラ及び背面カメラ等の複数のセンサ910に動作的に接続することができ、これらの複数のセンサは、様々なセンサを組み込むこともできる。いくつかの実施形態では、センサ910は、静止画像及びビデオ画像の双方を捕捉することができる。いくつかの実施形態では、センサ910は、例えば、30フレーム毎秒(fps)で画像を捕捉することが可能なRGBD又は立体ビデオカメラを備えることができる。1つの実施形態では、センサ910によって捕捉された画像は、生の未圧縮フォーマットとすることができ、処理及び/又はメモリ960への記憶の前に圧縮することができる。いくつかの実施形態では、画像圧縮は、プロセッサ950によって可逆圧縮技法又は非可逆圧縮技法を用いて実行することができる。
いくつかの実施形態では、プロセッサ950は、IMU930から入力を受信することもできる。他の実施形態では、IMU930は、3軸加速度計(複数の場合もある)、3軸ジャイロスコープ(複数の場合もある)、及び/又は磁気計(複数の場合もある)を備えることができる。IMU930は、速度、方位、及び/又は他の位置関連情報をプロセッサ950に提供することができる。いくつかの実施形態では、IMU930は、測定情報を、センサ910による各画像フレームの捕捉と同期して出力することができる。いくつかの実施形態では、IMU930の出力は、プロセッサ950がセンサ測定値を融合し及び/又は融合された測定値を更に処理するのに部分的に用いられる。
また、システム900は、カラー画像及び/又は深度画像等の画像をレンダリングするスクリーン又はディスプレイ980を備えることができる。いくつかの実施形態では、ディスプレイ980は、センサ910によって捕捉されたライブ画像、融合画像、例えば画像、拡張現実(AR)画像、グラフィカルユーザーインターフェース(GUI)、及び他のプログラム出力を表示するのに用いることができる。いくつかの実施形態では、ディスプレイ980は、ユーザーが、仮想キーボード、アイコン、メニュー、又は他のGUI、ユーザージェスチャー及び/又はスタイラス及び他の筆記用具等の入力デバイスの或る組み合わせを介してデータを入力することを可能にするタッチスクリーンを備えることができ及び/又はこのようなタッチスクリーンとともに収容することができる。いくつかの実施形態では、ディスプレイ980は、液晶ディスプレイ(LCD)又は有機LED(OLED)ディスプレイ等の発光ダイオード(LED)ディスプレイを用いて実施することができる。他の実施形態では、ディスプレイ980は、ウェアラブルディスプレイとすることができる。
いくつかの実施形態では、融合の結果をディスプレイ980にレンダリングすることもできるし、システム900の内部又は外部に存在することができる異なるアプリケーションにサブミットすることもできる。例えば、プロセッサ950上で実行されるコンピュータビジョン(CV)アプリケーション955は、コンピュータビジョンに基づく追跡、モデルベースの追跡、及び/又は同時の位置特定及びマッピング(SLAM:simultaneous localization and mapping)方法を実施及び実行することができる。
例示的なシステム900は、図示した機能ブロックのうちの1つ以上の追加、組み合わせ、又は省略等によって、本開示と整合性を有するように様々な方法で変更することもできる。例えば、いくつかの構成では、システム900は、IMU930又は送受信機970を備えていない。さらに、いくつかの特定の例示の実施態様では、システム900は、周辺光センサ、マイクロフォン、音響センサ、超音波センサ、レーザレンジファインダー等の様々な他のセンサ(図示せず)を備える。いくつかの実施形態では、システム900のいくつかの部分は、1つ以上のチップセット等の形態をとる。
プロセッサ950は、ハードウェア、ファームウェア及びソフトウェアの組み合わせを用いて実現することができる。プロセッサ950は、センサ融合及び/又は融合した測定値を更に処理する方法に関連付けられる計算手順又はプロセスの少なくとも一部を実行するように構成可能な1つ以上の回路を表すことができる。プロセッサ950は、メモリ960から命令及び/又はデータを引き出す。プロセッサ950は、1つ以上の特定用途向け集積回路(ASIC)、中央及び/又はグラフィカル処理ユニット(CPU及び/又はGPU)、デジタルシグナルプロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ、埋め込みプロセッサコア、電子デバイス、本明細書において記述される機能を実行するように設計された他の電子ユニット、又はその組み合わせを用いて実現することができる。
メモリ960は、プロセッサ950の内部に、及び/又はプロセッサ950の外部に実装することができる。本明細書において使用されるときに、「メモリ」という用語は、任意のタイプの長期、短期、揮発性、不揮発性又は他のメモリを指しており、任意の特定のタイプのメモリ若しくはメモリの数、又はメモリが記憶される物理媒体のタイプに制限されるべきではない。いくつかの実施形態では、メモリ960は、センサ融合及び/又は1つ以上の画像処理を容易にし、SLAM、追跡、3D再構成、及びプロセッサ950においてCV955によって実行される他のタスクを実行するプログラムコードを保持する。
例えば、メモリ960は、静止画像、深度情報、ビデオフレーム、プログラム結果、並びにIMU930及び他のセンサによって提供されるデータ等のセンサの測定値を記憶することができる。一般に、メモリ960は、任意のデータ記憶機構を表すことができる。メモリ960は、例えば、一次メモリ及び/又は二次メモリを含むことができる。一次メモリは、例えば、ランダムアクセスメモリ、リードオンリーメモリ等を含むことができる。図9においてプロセッサ950とは別であるように示されるが、一次メモリの全て若しくは一部をプロセッサ950内に設けることができるか、又はそうでなくても、プロセッサ950と同一の場所に配置し、及び/又はプロセッサ950に結合することができることは理解されたい。
二次メモリは、例えば、一次メモリと同じ、又は類似のタイプのメモリ、及び/又は例えば、フラッシュ/USBメモリドライブ、メモリカードドライブ、ディスクドライブ、光ディスクドライブ、テープドライブ、ソリッドステートドライブ、ハイブリッドドライブ等の1つ以上のデータ記憶デバイス又はシステムを含むことができる。いくつかの特定の実施態様において、二次メモリは、取外し可能な媒体ドライブ(図示せず)内の非一時的コンピュータ可読媒体に動作的に収容可能であるか、又は別の方法で、動作的に構成可能とすることができる。いくつかの実施形態において、非一時的コンピュータ可読媒体は、メモリ960及び/又はプロセッサ950の一部を形成する。
いくつかの実施形態では、CV955は、様々なコンピュータビジョン方法を実施し、及び/又はセンサ910によって捕捉された画像を処理することができる。例えば、CV955は、センサ910によって捕捉された1つ以上の画像を処理して、捕捉された画像に関連付けられた深度情報を用いてモデル化された環境の再構成を行うように構成することができる。
奥行きデータに基づいて、再構成中、各ピクセルに3D座標を割り当てることができる。1つの実施形態において、プロセッサ950におけるCV955は、単眼(単一のカメラ)仮想SLAMシステムを用いて、カメラ910の正確でロバストな6DOF追跡のためにMSの周囲の環境の粗いマップを構築することによって、カメラ910の位置を追跡する。単眼という用語は、単一の非立体カメラを用いて画像を捕捉すること、又は深度情報なしで捕捉された画像を指す。次に、他の再構成方法は、カメラ姿勢及びピクセルごとの深度情報を用いて、視認方向に沿って捕捉画像(複数の場合もある)を成形することができる。例えば、1つの実施形態では、プロセッサ950は、測定値の融合されたセットを用いてシーン内の物体を追跡するように構成される。
本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのか又は複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、或る請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する或る請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (15)

  1. 画像処理システムであって、
    複数のベンチマーク画像のそれぞれのベンチマーク特徴ベクトルを示すデータを記憶するメモリと、
    第1の画像の第1の特徴ベクトルと、第2の画像の第2の特徴ベクトルとを示すデータを受容する入力インターフェースであって、前記ベンチマーク画像は前記第1の画像及び前記第2の画像を含まない、入力インターフェースと、
    前記ベンチマーク特徴ベクトルを前記第1の特徴ベクトルと分離する第1の超平面と、前記ベンチマーク特徴ベクトルを前記第2の特徴ベクトルと分離する第2の超平面とを用いて、前記第1の画像と前記第2の画像との間の類似度値を求めるプロセッサであって、前記プロセッサは、
    前記第1の超平面に対する第1の法線ベクトルを、前記第1の特徴ベクトルと、前記ベンチマーク特徴ベクトルの平均との間の差として求め、
    前記第1の超平面のオフセットを、前記ベンチマーク特徴ベクトルと前記第1の法線ベクトルとの内積の最大値と、前記第1の特徴ベクトルと前記第1の法線ベクトルとの内積との平均として求め、
    前記類似度値を、前記第1の超平面に対する前記第2の特徴ベクトルの符号付き距離と、前記第2の超平面に対する前記第1の特徴ベクトルの符号付き距離との和の関数として求める、
    ように構成される、プロセッサと、
    前記類似度値を出力する出力インターフェースと、
    を備える、システム。
  2. 前記プロセッサは、
    前記第2の超平面に対する第2の法線ベクトルを、前記第2の特徴ベクトルと、前記ベンチマーク特徴ベクトルの平均との間の差として求め、
    前記第2の超平面のオフセットを、前記ベンチマーク特徴ベクトルと前記第2の法線ベクトルとの内積の最大値と、前記第2の特徴ベクトルと前記第2の法線ベクトルとの内積との平均として求め、
    前記第2の特徴ベクトルからの前記オフセットにおいて前記第2の法線ベクトルと交差する前記第2の超平面を求める、
    ように更に構成される、請求項1に記載のシステム。
  3. 前記第2の超平面は、線形サポートベクトルマシン(SVM)ソルバーを用いて予め求められる、請求項1に記載のシステム。
  4. 前記入力インターフェースは、前記第1の画像のセットの前記第1の特徴ベクトルのセットと、前記第2の画像のセットの前記第2の特徴ベクトルのセットとを示すデータを受容し、前記ベンチマーク画像は、前記第1の画像のセット及び前記第2の画像のセットを含まず、前記プロセッサは、
    前記第1の超平面に対する前記第1の法線ベクトルを、前記第1の特徴ベクトルのセットの平均と、前記ベンチマーク特徴ベクトルの平均との間の差として求め、
    前記第1の超平面の前記オフセットを、前記ベンチマーク特徴ベクトルと前記第1の法線ベクトルとの内積の最大値と、前記第1の特徴ベクトルのセットからの特徴ベクトルと前記第1の法線ベクトルとの内積の最小値との平均として求め、
    前記第2の超平面に対する第2の法線ベクトルを、前記第2の特徴ベクトルのセットの平均と、前記ベンチマーク特徴ベクトルの平均との間の差として求め、
    前記第2の超平面のオフセットを、前記ベンチマーク特徴ベクトルと前記第2の法線ベクトルとの内積の最大値と、前記第2の特徴ベクトルのセットからの特徴ベクトルと前記第2の法線ベクトルとの内積の最小値との平均として求める、請求項1に記載のシステム。
  5. 前記プロセッサは、ニューラルネットワークを用いて前記第1の画像を処理し、前記第1の特徴ベクトルを生成する、請求項1に記載のシステム。
  6. 前記プロセッサは、前記ニューラルネットワークを用いて前記第2の画像を処理し、前記第2の特徴ベクトルを生成する、請求項5に記載のシステム。
  7. 前記プロセッサは、前記ニューラルネットワークを用いて前記ベンチマーク画像を処理し、前記ベンチマーク特徴ベクトルを生成する、請求項6に記載のシステム。
  8. 前記第1の画像、前記第2の画像及び前記ベンチマーク画像は、顔の画像であり、それによって、前記システムは顔認識システムとなる、請求項1に記載のシステム。
  9. 前記類似度値に基づいて動作するデバイスであって、前記類似度値の結果に基づいて前記デバイスへのアクセスが可能になるデバイス
    を更に備える、請求項1に記載のシステム。
  10. 画像処理方法であって、前記方法は、複数のベンチマーク画像のそれぞれのベンチマーク特徴ベクトルを示すデータを記憶するメモリに結合されたプロセッサを用い、前記プロセッサは、前記方法を実施する記憶された命令と結合され、前記命令は、前記プロセッサによって実行されると、
    第1の画像のセットの第1の特徴ベクトルのセットと、第2の画像のセットの第2の特徴ベクトルのセットとを示すデータを受容することであって、前記ベンチマーク画像は、前記第1の画像のセット及び前記第2の画像のセットを含まないことと、
    前記ベンチマーク特徴ベクトルを前記第1の特徴ベクトルのセットと分離する第1の超平面と、前記ベンチマーク特徴ベクトルを前記第2の特徴ベクトルのセットと分離する第2の超平面とを比較して、前記第1の画像のセットと前記第2の画像のセットとの間の類似度値を生成することであって、前記比較は、
    前記第1の超平面に対する第1の法線ベクトルを、前記第1の特徴ベクトルのセットの平均と、前記ベンチマーク特徴ベクトルの平均との間の差として求めることと、
    前記第1の超平面のオフセットを、前記ベンチマーク特徴ベクトルと前記第1の法線ベクトルとの内積の最大値と、前記第1の特徴ベクトルのセットからの特徴ベクトルと前記第1の法線ベクトルとの内積の最小値との平均として求めることと、
    前記類似度値を、前記第1の超平面に対する前記第2の特徴ベクトルのセットにおける全ての特徴ベクトルの符号付き平均距離の関数として求めることと、
    を含むことと、
    前記類似度値を出力することと、
    を含む前記方法の少なくともいくつかのステップを実行する、方法。
  11. 前記第1の画像のセットは、1つの画像のみを含む、請求項10に記載の方法。
  12. 前記第2の超平面に対する第2の法線ベクトルを、前記第2の特徴ベクトルのセットの平均と、前記ベンチマーク特徴ベクトルの平均との間の差として求めることと、
    前記第2の超平面のオフセットを、前記ベンチマーク特徴ベクトルと前記第2の法線ベクトルとの内積の最大値と、前記第2の特徴ベクトルのセットからの特徴ベクトルと前記第2の法線ベクトルとの内積の最小値との平均として求めることと、
    を更に含む、請求項10に記載の方法。
  13. 前記第2の画像のセットは、1つの画像のみを含む、請求項12に記載の方法。
  14. 前記ベンチマーク特徴ベクトル、前記第1の特徴ベクトルのセット、及び前記第2の特徴ベクトルのセットはニューラルネットワークによって生成される、請求項10に記載の方法。
  15. 方法を実行するためにプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、前記方法は、
    第1の画像のセットの第1の特徴ベクトルのセットと、第2の画像のセットの第2の特徴ベクトルのセットと、複数のベンチマーク画像のそれぞれのベンチマーク特徴ベクトルとを示すデータを受容することであって、前記ベンチマーク画像は、前記第1の画像のセット及び前記第2の画像のセットを含まないことと、
    前記ベンチマーク特徴ベクトルを前記第1の特徴ベクトルのセットと分離する第1の超平面と、前記ベンチマーク特徴ベクトルを前記第2の特徴ベクトルのセットと分離する第2の超平面とを比較して、前記第1の画像のセットと前記第2の画像のセットとの間の類似度値を生成することと、
    前記類似度値を出力することと、
    を含み、前記比較することは、
    前記第1の超平面に対する第1の法線ベクトルを、前記第1の特徴ベクトルのセットの平均と、前記ベンチマーク特徴ベクトルの平均との間の差として求めることと、
    前記第1の超平面のオフセットを、前記ベンチマーク特徴ベクトルと前記第1の法線ベクトルとの内積の最大値と、前記第1の特徴ベクトルのセットからの特徴ベクトルと前記第1の法線ベクトルとの内積の最小値との平均として求めることと、
    前記類似度値を、前記第1の超平面に対する前記第2の特徴ベクトルのセットにおける全ての特徴ベクトルの符号付き平均距離の関数として求めることと、
    を含む、非一時的コンピュータ可読記憶媒体。
JP2019572701A 2017-10-06 2018-03-28 画像処理システム及び画像処理方法 Active JP6862584B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/726,415 US10452958B2 (en) 2017-10-06 2017-10-06 System and method for image comparison based on hyperplanes similarity
US15/726,415 2017-10-06
PCT/JP2018/014347 WO2019069486A1 (en) 2017-10-06 2018-03-28 SYSTEM AND METHOD FOR IMAGE PROCESSING

Publications (2)

Publication Number Publication Date
JP2020525958A JP2020525958A (ja) 2020-08-27
JP6862584B2 true JP6862584B2 (ja) 2021-04-21

Family

ID=62104342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572701A Active JP6862584B2 (ja) 2017-10-06 2018-03-28 画像処理システム及び画像処理方法

Country Status (3)

Country Link
US (1) US10452958B2 (ja)
JP (1) JP6862584B2 (ja)
WO (1) WO2019069486A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657423B2 (en) * 2017-09-08 2020-05-19 Denise Reeves Methods for using feature vectors and machine learning algorithms to determine discriminant functions of minimum risk linear classification systems
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US20200288204A1 (en) * 2019-03-05 2020-09-10 Adobe Inc. Generating and providing personalized digital content in real time based on live user context
CN111028329B (zh) * 2019-05-22 2020-10-16 珠海随变科技有限公司 渲染图的提供方法、装置、设备及存储介质
CN112819019B (zh) * 2019-11-15 2023-06-20 财团法人资讯工业策进会 分类模型生成装置及其分类模型生成方法
WO2021137763A1 (en) * 2019-12-30 2021-07-08 Nanyang Technological University Object re-identification using multiple cameras
CN111243085B (zh) * 2020-01-20 2021-06-22 北京字节跳动网络技术有限公司 图像重建网络模型的训练方法、装置和电子设备
CN113065592A (zh) * 2021-03-31 2021-07-02 上海商汤智能科技有限公司 图像分类方法、装置、电子设备及存储介质
US11709611B2 (en) * 2021-10-26 2023-07-25 SambaNova Systems, Inc. Determining and using memory unit partitioning solutions for reconfigurable dataflow computing systems

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6650779B2 (en) * 1999-03-26 2003-11-18 Georgia Tech Research Corp. Method and apparatus for analyzing an image to detect and identify patterns
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
US7076473B2 (en) * 2002-04-19 2006-07-11 Mitsubishi Electric Research Labs, Inc. Classification with boosted dyadic kernel discriminants
JP4135945B2 (ja) * 2003-01-14 2008-08-20 国立大学法人東京工業大学 画像のサブピクセルマッチングにおける多パラメータ高精度同時推定処理方法及び多パラメータ高精度同時推定処理プログラム
US7472131B2 (en) 2005-12-12 2008-12-30 Justsystems Evans Research, Inc. Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
US8174555B2 (en) * 2007-05-30 2012-05-08 Eastman Kodak Company Portable video communication system
US20090232365A1 (en) * 2008-03-11 2009-09-17 Cognimatics Ab Method and device for face recognition
US8224042B2 (en) * 2009-03-12 2012-07-17 Seiko Epson Corporation Automatic face recognition
JP5588196B2 (ja) * 2010-02-25 2014-09-10 キヤノン株式会社 認識装置及びその制御方法、コンピュータプログラム
JP5879188B2 (ja) * 2012-04-25 2016-03-08 日本放送協会 顔表情解析装置および顔表情解析プログラム
WO2014118980A1 (ja) * 2013-02-01 2014-08-07 富士通株式会社 情報変換方法、情報変換装置および情報変換プログラム
US9740963B2 (en) * 2014-08-05 2017-08-22 Sri International Multi-dimensional realization of visual content of an image collection
US20180121757A1 (en) 2015-05-12 2018-05-03 Jeremy Rutman System and method for automated object recognition
ITUB20153277A1 (it) * 2015-08-28 2017-02-28 St Microelectronics Srl Procedimento per ricerche visuali, sistema, apparecchiatura e prodotto informatico corrispondenti
JP6607061B2 (ja) 2016-02-05 2019-11-20 富士通株式会社 情報処理装置、データ比較方法、およびデータ比較プログラム
JP6646216B2 (ja) * 2016-03-10 2020-02-14 富士通株式会社 情報処理装置、類似データ検索方法、及び類似データ検索プログラム
JP6638484B2 (ja) * 2016-03-10 2020-01-29 富士通株式会社 情報処理装置、類似検索プログラム、及び類似検索方法

Also Published As

Publication number Publication date
US20190108423A1 (en) 2019-04-11
US10452958B2 (en) 2019-10-22
JP2020525958A (ja) 2020-08-27
WO2019069486A1 (en) 2019-04-11

Similar Documents

Publication Publication Date Title
JP6862584B2 (ja) 画像処理システム及び画像処理方法
JP6858650B2 (ja) 画像レジストレーションの方法及びシステム
EP3755204B1 (en) Eye tracking method and system
US11145083B2 (en) Image-based localization
JP6877623B2 (ja) コンピュータベースシステム及びコンピュータベース方法
CN110799991B (zh) 用于使用卷积图像变换执行同时定位和映射的方法和系统
US20210227126A1 (en) Deep learning inference systems and methods for imaging systems
US9750420B1 (en) Facial feature selection for heart rate detection
US20160335519A1 (en) Keypoint detection with trackability measurements
CN112036339B (zh) 人脸检测的方法、装置和电子设备
US11210560B2 (en) Multi-modal dense correspondence imaging system
WO2018227216A1 (en) Learning-based matching for active stereo systems
Gurbuz et al. Model free head pose estimation using stereovision
CN111079470A (zh) 人脸活体检测的方法和装置
WO2019137915A1 (en) Generating input data for a convolutional neuronal network
JP6288770B2 (ja) 顔検出方法、顔検出システム、および顔検出プログラム
CN114743277A (zh) 活体检测方法、装置、电子设备、存储介质及程序产品
JP6468755B2 (ja) 特徴点検出システム、特徴点検出方法、および特徴点検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210331

R150 Certificate of patent or registration of utility model

Ref document number: 6862584

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250