JP7418315B2 - 対象の再特定の方法 - Google Patents

対象の再特定の方法 Download PDF

Info

Publication number
JP7418315B2
JP7418315B2 JP2020180097A JP2020180097A JP7418315B2 JP 7418315 B2 JP7418315 B2 JP 7418315B2 JP 2020180097 A JP2020180097 A JP 2020180097A JP 2020180097 A JP2020180097 A JP 2020180097A JP 7418315 B2 JP7418315 B2 JP 7418315B2
Authority
JP
Japan
Prior art keywords
vector
images
anatomical features
input
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020180097A
Other languages
English (en)
Other versions
JP2021089717A5 (ja
JP2021089717A (ja
Inventor
マルクス スキャンス,
クリスティアン コリアンダー,
マルティン ユングクヴィスト,
ウィリー ベシャート,
ニクラス ダニエルソン,
Original Assignee
アクシス アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アクシス アーベー filed Critical アクシス アーベー
Publication of JP2021089717A publication Critical patent/JP2021089717A/ja
Publication of JP2021089717A5 publication Critical patent/JP2021089717A5/ja
Application granted granted Critical
Publication of JP7418315B2 publication Critical patent/JP7418315B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Description

本発明は、ニューラルネットワークが援助する、対象の再特定の分野に関する。
対象の再特定の技術が広く研究されており、例えば、関連するデジタル画像において対象を特定して追跡するために使用されている。
人は、画像における同じ固有性の対象を、たとえその対象が様々な程度で隠れたり、又は、短時間又は長時間にわたってシーンから消えたとしても、容易に認知できて関連付けられる、ということが知られている。対象の外観は、視野角によっても、時間の経過によっても、さらに変化する場合がある。しかし、対象の再特定は、コンピュータビジョンシステムにとって、対象が隠れるようなシーン、すなわち、完全に視認可能でないか、又は、シーンから完全に消え、同じシーンに、又は、別のシーンに後に現れるような場合に、特に難しい。
例えば、1つの試みとして、対象がシーンを出てから、同じシーン、又は、別のカメラが監視する別のシーンに入ると、その追跡を再開する、ということが挙げられる。追跡することを追跡アルゴリズムが再開できない場合、その対象は新たな、別の対象として特定され、ビデオ分析のための他のアルゴリズムの邪魔をする場合がある。
再特定における支援のために、ニューラルネットワークを使用することが提案されている。しかし、画像及びビデオにおいて対象を再特定するための、改善された方法及び装置を提供する必要がある。
本発明は、ニューラルネットワークが支援する再特定の方法を提供することを目的とする。上述するように、再特定のためのニューラルネットワークを使用することは、潜在的な欠点を伴う。例えば、完全な身体構造の画像を学習したニューラルネットワークは、身体構造の上半身のみが視認可能なイメージフレームにおいて、その人を再特定できない場合がある。ニューラルネットワークにとって、対象を示す量が異なる画像、例えば、それらの画像のいくつかでは上半身を示し、それらの画像のいくつかでは体全体を示す画像に基づく再特定を確実に行うことが難しい、ということもまた示されている。これは、例えば、シーンを監視すること、ここでは、人々がそのシーンに入り(体全体を示し)、座り(上半身を示し)、そのシーンから出る(体全体を再度示すが、おそらくは別の角度で示す)、の場合があり得る。
したがって、発明者達は、対象の再特定に際しての1つの欠点は、対象を示す量が異なる画像に基づいて対象を再特定することの難しさである、ということを特定している。例えば、人を対象とする際に、問題があることがわかっている。
本発明の目的は、現在知られている、対象に対する、特に、人を対象とする際の、対象の再特定方法でのこの欠点及び他の欠点をなくす、又は、少なくとも減らすことである。
第1の態様によると、対象の画像における対象の再特定の方法により、これら及び他の目的が、完全に、又は、少なくとも部分的に、達成される。この方法は、
対象の再特定のための複数のニューラルネットワークを提供することであって、複数のニューラルネットワークのそれぞれは、異なるセットの解剖学的特徴を持つ画像データを学習しており、各セットが基準ベクトルにより表される、対象の再特定のための複数のニューラルネットワークを提供することと、
対象の複数の画像と、それら複数の画像のすべてに描かれている解剖学的特徴を表している入力ベクトルと、を受け取ることと、
入力ベクトルと、最も類似する基準ベクトルを予め定められた条件にしたがって特定するための基準ベクトルと、を比較することと、
複数の対象の画像データを、それら複数の対象が同じ固有性を有するか否かを判定するための最も類似する基準ベクトルにより表されるニューラルネットワークに入力することと、
を含む。同じ固有性とは、複数の画像に撮像された複数の対象が、実際に複数回にわたって撮像されている同じ対象であることを意味する。
本発明は、対象の再特定を学習した既知のニューラルネットワークは、入力された画像データが、視認可能な程度が異なる対象を含む場合に、良好に機能することが難しいことがあり得る、ということの認識に基づく。換言すると、入力データの対象が、入力された画像データの画像において多かれ少なかれ隠れている場合に、再特定できないことが多い。発明者達は、描かれている対象の量に対して均一の基準データを、異なるニューラルネットワークに学習させるソリューションに至った。換言すると、異なるニューラルネットワークは、対象とするタイプに対する異なるセットの解剖学的特徴を学習している。それに基づいて再特定が行われる画像データによって、好適なニューラルネットワークが選択される。具体的には、ニューラルネットワークは、所定の条件を満たす1セットの解剖学的特徴を持つデータを学習しており、そのニューラルネットワークが選択される。所定の条件は、比較するベクトルが有する類似性の程度を規定する、1つのタイプの類似性についての条件である。ニューラルネットワークの選択の前に、画像データに対する入力ベクトルが特定される。入力ベクトルは、画像データのすべての画像に描かれている解剖学的特徴を表す。この入力ベクトルは、ニューラルネットワークの基準ベクトルと比較される。ここでは、各基準ベクトルは、その対応するニューラルネットワークに対する基準データの解剖学的特徴を表す。このソリューションを、予備工程として、画像データを、再特定のためのニューラルネットワークに入力することに加えることより、例えば、描かれていない対象部分を予測するための複雑なアルゴリズムを必要とすることなく、再特定の成果が改善される。この発明に関するソリューションは、複数の画像のすべてに描かれている解剖学的特徴を特定するための既知のアルゴリズムを使用しての、及び、再特定のための既知のニューラルネットワーク構造を参照しての実装について、相対的に複雑でない。
対象は、画像分析により再特定できるタイプのものである。これは、対象とするタイプの個人又は個々のグループが、外観に基づいて互いに分別できる、ということを意味する。対象とするタイプの各個人は、その対象とするタイプの他の個人のすべてに対して一意的に特定可能である必要はない。この発明に関する方法が有益となるには、個人の数人又は個々のグループのいくつかの間に差があればよい。
対象とするタイプは人であってよい。そのような実施形態では、この方法は、人を対象とする際の再特定に向けられる。対象とするタイプの他の限定しない例としては、車両、動物、荷物などの物体(例えば、スーツケース、バックパック、ハンドバッグ、及び他のタイプのバッグ)、及び小包(手紙を含む)が挙げられる。この方法は、建物及び地理的ランドマークなどの大きな物体が、先に規定するように、画像分析により再特定できる限り、それらの再特定を行うことにも拡張できる。
解剖学的特徴とは、本出願のコンテキストの範囲内において、対象の、異なる固有の部分を意味する。人体については、解剖学的特徴とは、例えば、鼻、眼、肘、首、膝、足、肩、及び手を含む。1つの部分は、異なる対象間において、異なる外観を有することができる。例えば、足は、靴を履いていたりいなかったりする場合があり、また、靴を履いていてもその見た目が異なる場合があるなど、外観が異なる場合があるが、依然として、同じ解剖学的特徴とみなされる。車両については、解剖学的特徴とは、例えば、窓枠、ホイール、テールライト、サイドミラー、及びサンルーフを含む。固有の部分とは、解剖学的特徴が互いに重ならないことを意味する。例えば、人体の腕は、肩、上腕、肘、前腕、手首、及び手の甲などの、異なる固有の解剖学的特徴を含む。解剖学的特徴は、対象における異なる身体的ポイントに対応するものと見られる場合がある。ここでは、解剖学的特徴は、各ポイント周囲の対象部分の単位に表される。
入力ベクトル/基準ベクトルとは、解剖学的特徴を表す入力値/基準値に対するベクトルを表すものを意味する。解剖学的特徴がどのように特定され、したがって、キーポイントなどによりどのように表されるかによって、入力ベクトル/基準ベクトルは、異なる形態を有する場合がある。この表すものは、したがって、実装が違えば異なる場合がある。これは、当業者が予備知識に基づいて扱うことができる、既知の事実である。一例として、入力ベクトル/基準ベクトルは、数値を持つ一次元ベクトルの形態を有する場合がある。入力ベクトル/基準ベクトルは、二進値を持つベクトルであってよい。ここでは、ベクトルにおける各位置は、解剖学的特徴を表す。例えば、ベクトルにおける特定の位置での1は、対応する解剖学的特徴が検出されたこと/視認可能であることを示す場合がある。0は、対応する解剖学的特徴が検出されていないこと/視認可能でないことを示す場合がある。
入力ベクトルは、人を対象とする際のキーポイントを表しているキーポイントベクトル、エッジベクトル(対象のエッジを表している)、又は輪郭ベクトル(対象の輪郭を表している)であってよい。キーポイントは、画像データにおける対象検出及びその取り扱いでの使用によく知られている。対象のキーポイントは、ニューラルネットワークの使用により見ることができる。キーポイントは、解剖学的特徴を表してよい。
対象のエッジ又は輪郭は、画像データにおいて対象を表す代替方法を提供する。所与の画像データにおいて描かれた、対象のエッジ又は輪郭をどのように特定するかは、例えば、ソーベル(Sobel)、プルウィット(Prewitt)、及びラプラシアン(Laplacian)として知られる方法がよく知られている。エッジ及び輪郭は、そのような目的に設計されて、それらについて学習したニューラルネットワークを使用することにより特定されてよい。エッジ又は輪郭からは、解剖学的特徴が特定されてよい。
予め定められた条件は、入力ベクトルに等しい基準ベクトルを、最も類似する基準ベクトルとして特定することを規定してよい。換言すると、最も類似する基準ベクトルとは、この実施形態において、入力ベクトルに等しい基準ベクトルである。その基準ベクトルに関連付けられた、対応するニューラルネットワークが、続いて、再特定に使用されるべきである。選択されたニューラルネットワークは、この実施形態において、入力された画像データにおける(すなわち、複数の画像における)画像のすべてが含む同じ解剖学的特徴を含む画像を学習している。
予め定められた条件は、基準ベクトルから、入力ベクトルとの重なりが最も大きい基準ベクトルを、最も類似する基準ベクトルとして特定することを規定してよい。そのような基準ベクトルに対応するニューラルネットワークは、そのすべてが、複数の画像において表されている解剖学的特徴を持つ画像データを学習している。この実施形態は、先に開示する実施形態に対する第2のオプションを形成できる。つまり、この方法はまず、入力ベクトルに等しい基準ベクトルを見つけようとし、これがなければ、学習しているベクトルとの重なりが最も大きい基準ベクトルを選択する。他の条件、例えば、入力ベクトルが、後に開示するような特定の品質条件を満たす必要があること、が同様に含まれてよい。
類似性についての条件(重なり量が等しい、又は、同じ重なり量を有する)を満たす、1つを超える基準ベクトルがある場合、予め定められた条件は、さらなる選択基準を含んでよい。例えば、入力ベクトルにより表されるいくつかの解剖学的特徴は、再特定において、他より大きな影響を有してよい。1つ又はそれ以上の重要な解剖学的特徴を表す基準ベクトルが続いて、他の基準ベクトルの前に選択される。別の例では、入力ベクトルと、選択基準の他の基準を満たす、基準ベクトル中の1つの基準ベクトルと、の間における最大のマッチングサブセットを選択する。
予め定められた条件は、基準ベクトルから、優先リストにより規定されるように、入力ベクトルと重なっている解剖学的特徴の数が最も多い基準ベクトルを特定することを規定してよい。換言すると、入力ベクトルは、優先リストに含まれる1グループの解剖学的特徴と最も重なる基準ベクトルを見つけるために、基準ベクトルと比較される。優先リストは予め定められており、確実な再特定の可能性が高くなることが知られている解剖学的特徴を列挙してよい。そのような解剖学的特徴は、眼、鼻、口、肩などを含んでよい。優先リストは、異なるアプリケーション毎に異なってよく、ニューラルネットワークの構成との、又は、ニューラルネットワークの成果のフィードバックとの相関関係があってよい。例えば、ニューラルネットワークが、肩に対する画像データを含む画像において特に良好に機能することが特定される場合、この解剖学的特徴が優先リストに加えられる。フィードバックに基づく、優先リストの動的なアップデートがしたがって、達成されてよい。
この方法は、
入力ベクトルを、予め設定された品質条件に対して評価することと、
予め設定された品質条件が満たされている場合、入力ベクトルを比較することと、画像データを入力することと、を行うことと、
予め設定された品質条件が満たされていない場合、複数の画像における少なくとも1つの画像を廃棄することと、複数の画像に基づいて、新たな入力ベクトルを入力ベクトルとして特定することと、この方法を、入力ベクトルを評価することから繰り返すことと、
をさらに含む。
この実施形態は、この方法に品質保証を加える。再特定のための好適なニューラルネットワークが選ばれる、この提案する方法であっても、入力データの品質が低ければ、ニューラルネットワークの成果を低くし得る。入力データが一定の品質を有することを保証することにより、最低限の成果レベルが維持される。予め設定された品質条件は、例えば、最小ベクトルサイズであってよい。
入力ベクトルの、予め設定された品質条件に対しての評価は、入力ベクトルを、そこから、少なくとも1つの解剖学的特徴が入力ベクトルにおいて表されるべきである、解剖学的特徴の予め規定されたリストと比較する行為を含んでよい。
この条件が満たされない場合、この方法は、複数の画像の1つ又はそれ以上を廃棄して、この方法を、少なくなったこれら複数の画像に基づいて繰り返す行為をさらに含んでよい。廃棄される画像は、それらの内容に基づいて選択されてよい。例えば、予め規定されたリストにおける解剖学的特徴のいずれも含まない画像が廃棄されてよい。この廃棄することは、この方法を迅速にするために、入力ベクトルの評価の前に行われてよい。
複数の画像は、複数の時点において、1つのカメラにより撮像されてよい。複数の画像はしたがって、シーンを描くイメージシーケンスを形成する。別の実施形態では、複数の画像は、同じシーンを異なる角度からカバーする複数のカメラにより撮像されてよい。複数の画像はしたがって、複数のイメージシーケンスを形成する。さらに別の実施形態では、複数の画像は、複数のイメージシーケンスをももたらす、異なるシーンを描く複数のカメラにより撮像されてよい。
再特定は、それらのシナリオのそれぞれにおいて行うことに好適であってよい。しかし、再特定の目的及びアプリケーションは異なってよい。再特定は、例えば、異なるシーンではなく、単一のシーンの監視においてより一般的に適用される対象追跡アルゴリズムを援助してよい。再特定の目的は、そのような実施形態において、人が隠れた後に、その人を追跡することを再開することを容易にすることである。
別のシナリオでは、カメラは、同じシーンを異なる角度から監視する。複数の画像が、同じ時点に撮像されてよい。再特定の目的は、別々のカメラにより撮像された、同じ対象を含む画像をつなぐことであり得る。
カメラによりそれぞれが監視されるシーンが異なるシナリオでは、複数の画像は、別々のカメラから収集されてよい。再特定の目的は、そのようなシナリオにおいて、人が1つのシーンから立ち去り、潜在的に数分後、数時間後、又は、さらには数日後に、別のシーンに現れる、長期間にわたる追跡であってよい。シーンは、例えば、都市の異なる地区であってよい。再特定の目的は、指名手配中の人又は車両を追跡するためであってよい。
複数の画像の画像データを入力することは、複数の画像のすべてに描かれている解剖学的特徴のみを表している画像データを入力することを含んでよい。この方法は、この実施形態において、画像データを、選択されたニューラルネットワークに入力することの前に、複数の画像の画像データを、複数の画像のすべてに描かれている解剖学的特徴に基づいてフィルタする行為を含んでよい。
この方法は、複数の画像を受け取ることの一部として、
1つ又はそれ以上のカメラにより、複数の画像を撮像することと、
複数の画像のすべてに描かれている解剖学的特徴を特定することと、
特定された解剖学的特徴を表している入力ベクトルを特定することと、
をさらに含んでよい。
換言すると、この方法は、複数の画像を形成する初期プロセスを含んでよい。複数の画像は、この実施形態にしたがって、この方法の主要部(すなわち、入力ベクトルと、ニューラルネットワークを特定するための基準ベクトルと、の比較)を行うものではない、別のプロセッサにより用意されてよい。代替的に、この用意は、同じ処理ユニット内で行われてよい。初期プロセスの、入力ベクトル及び複数の画像である成果は、内部的に送信されてよいし、又は、後続の方法手順を行う処理ユニットに送信されてよい。
この方法における、複数の画像を受け取ることは、
1つ又はそれ以上のカメラにより画像を撮像することと、
所定のフレーム距離、タイムギャップ(所要時間の差)、画像鮮鋭度(image sharpness)、描かれた対象のポーズ、解像度、領域のアスペクト比、及び平面の回転に基づいて複数の画像を形成するために、異なる画像を選択することと、
を含んでよい。
換言すると、再特定のための好適な候補である画像は、好適なニューラルネットワークを特定するこの主な方法の初期ステップとして、除去されてよい。フィルタすることの目的は、同じ対象を有する可能性が高い画像、及び/又は、この方法を良好に行うことができる画像を選択するためであってよい。
第2の態様によると、処理能力を有するデバイス上で実行されると、上記に開示する方法のいずれか1つの方法を行うよう構成されているコンピュータ可読プログラムコードが記録された、非一時的コンピュータ可読記録媒体により、上記及び他の目的が、完全に、又は、少なくとも部分的に、達成される。
第2の態様によると、対象の再特定を促進するビデオ処理ユニットを制御するためのコントローラにより、上記及び他の目的は、完全に、又は、少なくとも部分的に、達成される。コントローラは、対象の再特定のための複数のニューラルネットワークへのアクセスを有する。複数のニューラルネットワークのそれぞれは、異なるセットの解剖学的特徴を持つ画像データを学習している。各セットが、基準ベクトルにより表される。コントローラは、
人を対象とする際の複数の画像と、それら複数の画像のすべてに描かれている解剖学的特徴を表している入力ベクトルと、を受け取るよう構成されているレシーバと、
入力ベクトルと、最も類似する基準ベクトルを予め定められた条件にしたがって特定するための基準ベクトルと、を比較するよう適合されている比較コンポーネントと、
複数の対象の画像データを、複数の人を対象とする際に、それら複数の人が同じ固有性を有するか否かを判定するための最も類似する基準ベクトルにより表されるニューラルネットワークに入力するよう構成されている判定コンポーネントと、
複数の対象を、同じ固有性を持つものとみなすか否かについて、ビデオ処理ユニットを制御するよう構成されている制御コンポーネントと、
を含む。
第3の態様の画像処理ユニットは一般的に、第1の態様の方法と同じ方法において、付随する利点と共に、具現化され得る。
本発明の適用性のさらなる範囲が、以下の詳細説明より明らかとなるであろう。しかし、本発明の好適な実施形態を示す一方で、詳細説明及び具体例は、説明のみの目的に提供されていることが理解されるべきである。なぜなら、本発明の範囲内での種々の変更及び改修が、本詳細説明から当業者に明らかとなるからである。
したがって、本発明は、記載するデバイスの特定の構成部品、又は、記載する方法の特定のステップに限定されず、そのようなデバイス及び方法は異なる場合があることが理解されよう。ここに使用する用語は、特定の実施形態を説明することのみを目的としており、限定を意図していないこともまた理解されよう。なお、本明細書及び添付の特許請求の範囲に使用されるように、不定冠詞「a」及び「an」、定冠詞「the」、及び「said」は、他の例が文脈により明確に決定づけられない限り、要素が1つ又はそれ以上あることを意味するよう意図していることに注意されたい。したがって、例えば、「あるオブジェクト(an object)」又は「そのオブジェクト(the object)」が引用される場合、これは、いくつかのオブジェクトなどを含んでよい。さらに、「含む(comprising)」という語は、他の要素又はステップを排除しない。
本発明を、例示のために、そして、添付の概略図面を参照して、以下にさらに詳細に説明する。
図1は、対象の再特定の方法の各種の実施形態を示すフローチャートを示す。 図2は、この方法の一般的な概要を提供する。 図3は、イメージシーケンスを示す。 図4は、図3のイメージシーケンスから選択された複数の画像を示す。 図5は、あるシーンからの、異なる角度から撮像された1対の画像を示す。 図6は、異なるイメージシーケンスから選択された複数の画像を示す。
この方法の概要をまず、図1及び図2を参照して開示する。ここでは、図1の選択されたステップを参照する。他のステップは後に開示する。この方法の目的は、1つ又はそれ以上のカメラにより撮像された画像に基づいて、対象を再特定することである。前述するように、再特定の目的は、アプリケーション毎に異なってよい。
これにより、この方法は、少なくとも1つのカメラ20により、画像22を撮像するステップS102を含む。カメラ20は、シーン21を監視する。この実施形態では、人間の形態での対象がシーンに存在し、カメラ20により撮像されている。画像22は、カメラ20内に配置されてよい、又は、別個のユニットとして、カメラ20と有線又は無線接続されている処理ユニット23により処理される。処理ユニット23は、対象検出器24により、画像22における対象を検出S104する。これは、よく知られている対象検出アルゴリズムにより行われてよい。アルゴリズムは、人を対象とする際など、特定のタイプの対象を検出するよう構成されていてよい。
画像22から複数の画像を選択するステップS105が、続いて行われてよい。代替的に、ステップS105は、画像22における対象を検出するステップS104の前に行われてよい。選択のステップS105の詳細は、後に開示する。
複数の画像に基づいて、処理ユニット23により、より正確には、特徴抽出器26により、解剖学的特徴が特定される。解剖学的特徴の特定は、よく知られている画像分析アルゴリズムを実行することにより行われてよい。例えば、「オープンポーズ(OpenPose)」(「オープンポーズ:リアルタイムでの、部分類似フィールドを使用しての、複数人の二次元ポーズ予測(OpenPose:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields)」において、Caoら、により開示される)と呼ばれるシステムが使用されてよい。OpenPoseは、単一の画像において身体及び手のキーポイントを検出できるリアルタイムシステムである。
どの画像分析技術が適用されるかにより、特定された解剖学的特徴は、異なって表されてよい。表すものの例としては、(例えば、キーポイントベクトルの形態での)キーポイントによるもの、(例えば、エッジベクトルの形態での)エッジによるもの、又は、(例えば、輪郭ベクトルの形態での)輪郭によるもの、が挙げられる。
次に、処理ユニット23は、複数の画像、及び/又は、特定された解剖学的特徴を表すものを分析し、複数の画像のすべてにおいて表されている解剖学的特徴を表す入力ベクトルを特定S108する。
任意のステップである、入力ベクトルを評価S109することと、1つ又はそれ以上の画像を廃棄S111することと、を、後に詳細に開示する。
この発明に関するコンセプトの主要部について説明する。入力ベクトルは、特定された後に、ニューラルネットワーク#1、#2、#4、#3、及び#5のグループ29を学習している学習データを表す基準ベクトルに対して比較S112される。ニューラルネットワークが、処理ユニット23に提供S110される。これは、処理ユニット23による使用にこれらが利用可能であることを意味する。これらは、別個のニューラルネットワークの形態、又は、ニューラルネットワークアーキテクチャにおける異なる接続又はパスにより、異なるニューラルネットワークが形成される、単一のニューラルネットワークアーキテクチャ27に含まれるニューラルネットワークの形態であってよい。ニューラルネットワークは、(異なる基準ベクトルにより表される)異なる学習データを学習している。基準ベクトルは、それが入力ベクトルと比較され得るようなフォーマットにおいて提供される。例えば、入力ベクトル及び基準ベクトルの双方は、キーポイントベクトルの形態であってよい。代替的に、入力ベクトルは、キーポイントベクトルであってよく、基準ベクトルは、対象ランドマークベクトル、又は、キーポイントベクトルフォーマットへの変換が前方に行われてよいスケルトン画像であってよい。
比較S112は、処理ユニット23の比較器28により行われる。比較S112の目的は、入力ベクトルに最も類似する基準ベクトルを見つけることである。類似性の意味は、予め定められた条件により規定される。そのような条件の例を、後に詳細に開示する。比較の結果に基づいて、1つのニューラルネットワーク(ここに示す例では#1)が選択される。したがって、入力ベクトルにより表される解剖学的特徴に最も類似する解剖学的特徴を持つ画像データを学習しているニューラルネットワークが選択される。複数の画像からの画像データのすべて又は選択された一部が、選択されたニューラルネットワーク(#1)に入力S116される。
選択されたニューラルネットワークからの結果が、処理ユニット23により受け取られるS118。他の実施形態では、再特定の結果は、別個の制御ユニットなどの他のユニットに送信されてよい。処理ユニット23は、代替的に、制御ユニット又はコントローラ(図示せず)の一部を形成してよい。
しかし、この例において、処理ユニット23は、ニューラルネットワーク(#1)からの成果を受け取るS118。本質的に、この結果は、複数の画像の対象が同じ固有性を有するか否かについての情報を提供する。処理ユニット23はこの情報を、カメラ20を制御するために使用する。この情報は、例えば、対象が隠れた後に、その対象の追跡を続けるために、カメラ20により使用されてよい。
1つの実施形態では、この方法は、各検出された対象に対するポーズを特定することをさらに含む。このポーズは、例えば、人を対象とする際に、キーポイントなどの解剖学的特徴に基づいて特定されてよい。特定されたポーズは、入力ベクトルに含まれてよい。そのような実施形態では、基準ベクトルは、ネットワークが学習した画像データにおける対象のポーズに対応するポーズデータをさらに含む。この特徴は、現在の入力ベクトルに対して好適な、再特定のためのニューラルネットワークを選ぶことをさらに支援してよい。
処理ユニット23の各機能は、ハードウェア、ソフトウェア、又はそれらの組み合わせとして実装されてよい。
ハードウェアの実装では、処理ユニットのコンポーネント(例えば、対象検出器24、特徴抽出器26、及び比較器28)は、それらの部位の機能を提供する専用の、具体的に設計された回路に相当してよい。この回路は、1つ又はそれ以上の特定用途向け集積回路、若しくは、1つ又はそれ以上のフィールドプログラマブルゲートアレイなどの、1つ又はそれ以上の集積回路の形態であってよい。
ソフトウェアの実装では、回路はその代わりに、不揮発性メモリなどの、(非一時的)コンピュータ可読媒体上に保存されたコンピュータコード命令と関連して、処理ユニット23に、ここに開示するいずれの方法(の一部)を実施させるマイクロプロセッサなどの、プロセッサの形態であってよい。不揮発性メモリの例として、読み取り専用メモリ、フラッシュメモリ、強誘電性ランダムアクセスメモリ(random access memory又はRAM)、磁気コンピュータストレージデバイス、光学ディスク、などが挙げられる。ソフトウェアの場合では、処理ユニット23のコンポーネントのそれぞれはしたがって、プロセッサにより実行されると、処理ユニット23に、コンポーネントの機能を実施させる、コンピュータ可読媒体上に保存されたコンピュータコード命令の部位に相当してよい。
ハードウェアの実装及びソフトウェアの実装の組み合わせもまた可能であるということが理解されるであろう。これは、処理ユニット23におけるコンポーネントのいくつかの機能がハードウェアで実装され、その他がソフトウェアで実装されるということを意味する。
ここで、この方法を、図3及び図4をさらに参照して、より詳細に開示する。図3は、シーンを監視する単一の監視カメラにより撮像されたイメージシーケンスを示す。イメージシーケンスは、デジタル画像31から36を含み、これらは時系列順に整理されている。イメージシーケンスは、一連のイベントを画像化している。ここでは、道路39上の横断歩道を人38が渡ろうとしているが、トラック37が道を譲ることを無視したので、人38は道路39を渡る前に急いで横に逃げなければならず、(言うまでもなく)怒っている。トラック37が人38のそばを通る際には、カメラの角度から見られるように、後者はトラック37に隠れることとなる。人38を追跡しようと試みる追跡アルゴリズムは、人38が隠れた後には、人38を追跡し続けることができない可能性がある。その代わりに、人38が隠れた後には、人38は、新たな固有性を持つ新たな対象として検出される。再特定は、この欠点を軽減することを援助し得る。
この方法によると、図4に示す複数の画像4は、図3のイメージシーケンスから選択S105されており、すなわち、画像31、32、及び34である。これらの画像31、32、及び34は、異なる選択基準に基づいて選択されてよい。例えば、1つ又はそれ以上の対象を描く画像が選択されてよい。複数の画像を形成する画像グループにおいて、どの画像を選択するかについての選択基準の、他の限定しない例としては、次が挙げられる:
所定のフレーム距離、例えば、90フレーム毎。
タイムギャップ、例えば、5秒毎。
画像鮮鋭度、これは、各画像に対する鮮鋭度を特定することと、鮮鋭度が最良の画像を選択することと、により特定され得る。鮮鋭度は、画像全体に対して、又は、画像の、例えば、対象が配置される、若しくは、配置される可能性が高い選択されたエリアに対して、特定されてよい。
検出された対象のポーズ、これは、検出された対象のキーポイント、エッジ、又は輪郭を見ることにより特定され得る。特定のポーズを有する、又は、同様のポーズを有する対象を持つ画像が選択されてよい。
解像度、これは、画像全体に対して、又は、選択された領域に対して特定され得る。解像度が最良の画像が選択される。
対象領域のアスペクト比、ここでは、領域は、境界ボックスに対応してよい。アスペクト比は、対象のサイズについての情報を提供する。アプリケーションが違う場合には、別のアスペクト比が好適であってよい。
次に、複数の画像4について対象検出が行われる。この例では、画像31、32、及び34のそれぞれにおいて、1つの対象が検出される。この方法の目的は、これらの対象が、同じ固有性を有するか否かを判定することである。複数の画像において検出された対象に対して、共通のセットの解剖学的特徴、すなわち、複数の画像4のすべてに描かれている解剖学的特徴が特定される。共通のセットの解剖学的特徴は、キーポイントを特定することにより特定されてよく、これは、入力ベクトルにより表される。上に開示するように、入力ベクトルが続いて、複数の画像4において検出された対象の再特定に使用されてよい、利用可能なニューラルネットワークと関連付けられている基準ベクトルと比較S112される。
先の開示にしたがって、好適なニューラルネットワークが選択S114された後に、複数の画像4からの画像データが、選択されたニューラルネットワークに入力される。1つの実施形態では、複数の画像4のすべてに描かれている解剖学的特徴のみを表す画像データが入力される。換言すると、複数の画像4のすべてに描かれていない解剖学的特徴を表す複数の画像4の画像データは、ニューラルネットワークに入力されない。画像データのそのような選択を達成するための1つの方法は、画像31、32、及び34を、画像のすべてのそれらの解剖学的特徴を含み、他の解剖学的特徴のすべてを含まない、画像エリア41、42、及び44に切り取ることである。切り取り41、42、及び44は、処理のために、選択されたニューラルネットワークに入力される。
複数の画像4を、解剖学的特徴に基づいて分析することと、複数の画像4の解剖学的特徴にマッチする画像データを学習しているニューラルネットワークを選択することと、のこの方法により、複数の画像4において、同じ固有性を有するものとして、人38を確実に再特定する可能性が高くなる。
別の実施形態に進む。この方法のさらなるステップは、入力ベクトルを基準ベクトルと比較S112することの前に、入力ベクトルを評価S109することである。これは、入力ベクトルの品質保証のようなもので、確実な再特定の最低レベルを維持することを目的とする。この目的は、複数の画像4の、ニューラルネットワークからの結果が不十分ととなり得る画像を除去することである。評価は、入力ベクトルを、予め設定された品質条件に対して評価することを含んでよい。予め設定された品質条件は、入力ベクトルが、解剖学的特徴の予め規定されたリストにおける少なくとも1つを表す必要があることを規定してよい。予め規定されたリストの内容は、提供されたニューラルネットワーク、具体的には、それらが学習した基準データがどれか、に依存してよい。例えば、利用可能なニューラルネットワークが、肩、上腕、肘、前腕、及び手の甲である、異なるセットの解剖学的特徴を有する基準データを学習している場合は、入力ベクトルは、複数の画像が、再特定での使用に値するよう、肘及び手の解剖学的特徴の1つを表さなければならない場合がある。
予め設定された品質条件が満たされる場合、この方法は、ステップS112において、入力ベクトルを基準ベクトルと比較することにより、継続する。予め設定された品質条件が満たされない場合、この方法は、複数の画像4から、1つ又はそれ以上の画像を廃棄するステップS111を含んでよい。
品質条件の第1の例は、入力ベクトルが、最低量の解剖学的特徴を有すべきことである。
品質条件の第2の例は、入力ベクトルが、予め規定されたリストからの所定の数の解剖学的特徴を有すべきことである。予め規定されたリストは、ニューラルネットワークが学習している解剖学的特徴と関連してよく、これにより、そのニューラルネットワークが十分に学習していない解剖学的特徴を持つ複数の画像を処理することを回避する。
品質条件の第3の例は、入力ベクトルの解剖学的特徴から計算されたポーズが、特定の条件を満たすべきであることである。例えば、ポーズは、(人を対象とする際の)解剖学的特徴に対する、関連付けられた身体部分の通常のポーズに対応すべきである。この品質条件の目的は、画像においてこの方法を行うことの、入力ベクトルにおける解剖学的特徴が誤って予測される/特定されるリスクを下げることである。
1つ又はそれ以上の画像を廃棄S111することは、廃棄する1つの画像又は複数の画像を選択することを含んでよい。この選択は、画像の解剖学的特徴に基づいてよい。例えば、第1の画像が、複数の画像4の他の画像のすべてにある解剖学的特徴の1つ又はそれ以上を欠いている場合は、この第1の画像は廃棄されてよい。ここに示す例では、第1の画像は、画像31及び32には描かれている第2の眼の解剖学的特徴を欠いている画像34であってよい。画像34はしたがって廃棄されてよく、この方法は、今ではアップデートされた、複数の画像4の画像31及び32のみに基づいて、解剖学的特徴を特定するステップS106から再開してよい。
ここに示して言及したイメージシーケンス及び複数の画像は、簡略化した例として提供され、この発明に関するコンセプトを容易に理解するために適合されていることに注意すべきである。実際には、イメージシーケンス及び複数の画像は、もっと多くの画像を含む。典型的には、1つ又はそれ以上の画像において検出される対象は1つを超える。この方法は、この方法を行う、複数の画像における1つの画像に対して、対象を1つ選択することを含んでよい。さらに、この方法は、複数の画像における1つの画像の対象の1つと、それら複数の画像の他の画像における対象のそれぞれと、を比較するよう適合されてよい。
図5は、前述の同じシーンを監視する別々のカメラにより撮像された第1の画像51及び第2の画像52を含む複数の画像5の一例を示す。ここでは、トラック37が走っている道路39を、人38が渡ろうとしている。この方法は、この例において、画像51及び52に描かれている対象38が、同じ固有性を有するか否かを評価する目的を満たし得る。画像51及び52は、同じ時点に撮像されてよい。
図6は、異なるシーンを監視する別々のカメラにより撮像された複数の画像6を示す。上の3つの画像61、62、及び63は第1のイメージシーケンスを形成し、図3からの画像の選択に対応する。下の3つの画像64、65、及び66は第2のイメージシーケンスを形成し、2つの異なる対象38及び68を描く。もちろん、この方法では、画像の対象が同じ固有性を有する、例えば、画像64の対象68が、画像63の対象38での同じ人であるか、ということを事前にはわかっていない。この問題を解消することは、この方法の実際の目的である。
この方法によると、対象38及び68は、複数の画像6において検出される。複数の画像は、この実施形態において、時間距離に基づくイメージシーケンスから選択されている。すなわち、複数の画像6の各イメージシーケンスにおける画像のそれぞれの間には、所定のタイムギャップがある。この方法は、選択された複数の画像6を評価することと、対象が検出されなかった画像を廃棄することと、をさらに含んでよい。この例では、画像62が廃棄される。対象38及び68が、今では複数の画像6を形成している、残りの画像61、63、64、65、及び66から検出される。上述するように、この方法は、再特定の目的のために、他の画像の対象と比較される、画像の対象を選択することをさらに含んでよい。画像61の対象38は、画像64の対象68、画像65の対象38、及び画像66の対象68と比較されるために選択されてよい。この方法は、画像61、64、65、及び66のグループに同時に行われてよく、任意に、それが好適であれば、1つ又はそれ以上の画像を廃棄S111してよい。又は、この方法は、画像61、64、65、及び66のグループの各画像ペアに行われてよい。例えば、まず、画像ペア61及び64について、画像61の対象38及び画像64の対象68に注目する。この再特定は、良好な結果とならない可能性がある、すなわち、画像61における対象38は、画像64の対象68と同じ固有性を有しない。次に、画像61及び画像65の双方の対象38に注目して、画像61と、画像65と、が比較されてよい。この再特定は、良好な結果となる可能性がある。すなわち、画像61における対象38は、画像65の対象38と同じ固有性を有する。代替的に、画像61は再度、今では、画像64における対象38に注目する代わりに(対象68の代わりに)、画像64と比較されてよい。この再特定は、良好な成果となる可能性がある。
換言すると、この方法は繰り返し行われてよく、複数の画像が、各繰り返し中、又は、その前にアップデートされる。再特定の目的により、異なる数の画像が、1回の繰り返しにおいて処理される。画像の数、及び、再特定が有する目的が何か、に関わらず、この方法は、再特定タスクを、対象を描く複数の画像に基づいて行うために、異なるセットの解剖学的特徴を学習した複数のネットワークから1つのニューラルネットワークを選択する、この発明に関するコンセプトに依存する。例示するように、本発明は、ここに示す実施形態に限定されず、本発明の範囲内で、種々の変更例及びバリエーションが考えられることに留意されたい。
本発明のさらなる理解を支援するために、特許請求の範囲に記載する方法のサマリ及び明確な例が以下に続く。本発明の目的は、対象の再特定の本方法に伴う欠点を減らす、すなわち、対象に対する、異なる数の解剖学的特徴を示す画像に基づいて、対象を再特定する難しさを軽減することである。例えば、いくつかの画像は、体全体を対象として描き、他の画像は、上半身のみを対象として描く。この欠点は、発明者達により特定されており、人を対象とする際などに存在する。発明者達は、各ネットワークが、対象クラスの対象に対する、異なる構成の解剖学的特徴を学習している、対象の再特定のためのいくつかのニューラルネットワークを設定することを提案する。さらに、発明者達は、解剖学的特徴の最も類似する構成を、分析される1セットの画像において、それらの画像のすべてに描かれている解剖学的特徴として学習しているニューラルネットワークを採用することを提案する。
この例が不必要に複雑とならないよう、ここでは、対象の再特定のためのニューラルネットワークを2つのみ提供する。各ニューラルネットワークは、異なるセットの解剖学的特徴を持つ画像データを学習している。各セットの解剖学的特徴は、基準ベクトルと呼ばれるキーポイントベクトルにより表されている。キーポイントベクトルは、この例において、一次元のバイナリベクトルであり、ベクトルにおける各位置は、特定の解剖学的特徴を示す。ベクトル位置値の1は、その位置の解剖学的特徴が視認可能であることを意味する。値の0は、解剖学的特徴が視認可能でないことを意味する。そのようなキーポイントベクトルの一例は、次のように見られる:
[a b c d e f]
ベクトル位置aからfは、以下の解剖学的特徴を示す:
a:眼
b:鼻
c:口
d:肩
e:肘
f:手
例えば、ある画像において検出された対象に対する[1 1 1 0 0 1]のキーポイントベクトルは、眼、鼻、口、及び手が視認可能であるが、肩及び肘は視認可能でない、ということを意味する。
各ニューラルネットワークは、異なるセットの解剖学的特徴を持つ画像データを学習している。例えば、第1のニューラルネットワークは、眼、鼻、及び口の第1のセットの解剖学的特徴を含む顔を含む画像データを学習している。第1のセットの解剖学的特徴を表している第1の基準ベクトルは、[1 1 1 0 0 0]である。第2のニューラルネットワークは、肘及び手の第2のセットの解剖学的特徴を含む前腕を含む画像データを学習している。第2のセットの解剖学的特徴を表している第2の基準ベクトルは、[0 0 0 0 1 1]である。
これら2つのニューラルネットワークを、入力された画像データにおける異なる解剖学的特徴に基づいて、対象の再特定を行うよう学習したニューラルネットワークとして説明できる。第1のニューラルネットワークは、眼、鼻、及び口を描く画像に基づいて対象の再特定を行うことにおいて、特に良好である。一方、第2のニューラルネットワークは、肘及び手を描く画像に基づいて対象の再特定を行うことにおいて、特に良好である。
ここで、入力ベクトルについて説明する。これもまた、キーポイントベクトルフォーマットのそれである。入力ベクトルは、最も類似する基準ベクトル、したがって、対象の再特定のタスクのために、最も好適に学習したニューラルネットワークを見つけるために、基準ベクトルと比較される。比較を容易にするために、入力ベクトルに対するキーポイントベクトルは、基準ベクトル、すなわち、上記の[a b c d e f]と同一に構成されてよい。しかし、異なるフォーマットのキーポイントベクトル間の比較を行うことは、当業者が従来の方法を使用して容易に解消できるタスクである。例えば、入力ベクトルは、別のサイズを有して(すなわち、ベクトル位置がより多くて、又は、より少なくて)よい、及び/又は、より多い、又は、より少ない解剖学的特徴を含んでよい。キーポイントベクトルから、どの解剖学的特徴が検出され、どの解剖学的特徴が検出されないか、をどのように読み取るかが明確に規定されている限りは、比較を行うことは可能である。
しかし、ここではあまり複雑でない例を用いて説明を続け、基準ベクトルの構成と同一のキーポイントベクトル[a b c d e f]の形態での入力ベクトルを構成する。入力ベクトルを特定するために、受け取られた複数の画像が分析され、それらのそれぞれにおいて、どの解剖学的特徴が描かれているかが特定される。複数の画像のすべてにおいて表されている解剖学的特徴について、入力ベクトルにおいて対応するベクトル位置は1であり、したがって、解剖学的特徴が視認可能であることが示されている。複数の画像における各画像及びすべての画像において描かれていない解剖学的特徴について、対応する入力ベクトル位置は0であり、すなわち、解剖学的特徴が視認可能でないことが示されている。複数の画像の各画像において、鼻、口、肩、及び手の解剖学的特徴が視認可能であることを意味する、入力ベクトル[0 1 1 1 0 1]を得たものとここで想定する。
次に、入力ベクトルが、基準ベクトルのそれぞれと比較され、所定の条件にしたがって、最も類似する基準ベクトルが特定される。換言すると、「0 1 1 1 0 1]の入力ベクトルは、[1 1 1 0 0 0]及び[0 0 0 0 1 1]のそれぞれと比較される。所定の条件は、例えば、重なっている解剖学的特徴の数が最も多いことであってよい。その所定の条件との比較の成果は、第1の基準ベクトル[1 1 1 0 0 0]が、第1のニューラルネットワークと関連付けられている、最も類似するベクトルである、ということである。したがって、第1のニューラルネットワークが選択され、対象の再特定が、複数の画像に基づいて、複数の画像において描かれている複数の対象が同じ固有性を有するか否かを判定する目的で、行われる。

Claims (12)

  1. 対象とするタイプの対象の画像における対象の再特定の方法であって、
    対象の再特定のための複数のニューラルネットワーク(27)を提供すること(S110)であって、前記複数のニューラルネットワーク(27)における異なるニューラルネットワークは、前記対象とするタイプに対する異なるセットの解剖学的特徴を学習している、対象の再特定のための複数のニューラルネットワーク(27)を提供することと、
    各セットの解剖学的特徴について基準ベクトルを提供することであって、当該基準ベクトルは、キーポイントベクトルによって一セットの解剖学的特徴を表し、ここで当該ベクトルにおける各位置はキーポイントを表し、各ベクトルの位置のバイナリ値は、表された前記キーポイントが前記一セットの解剖学的特徴に含まれる解剖学的特徴に対応するかどうかを示す、基準ベクトルを提供することと、
    前記対象とするタイプの対象(38)の複数の画像(4)を受け取ること(S102)と、
    前記複数の画像(4)における前記対象とするタイプの対象(38)を、対象検出アルゴリズムによって検出すること(S104)と、
    検出された前記対象(38)の解剖学的特徴を、画像分析アルゴリズムによって特定すること(S106)と、
    前記複数の画像(4)のすべてにおいて特定された共通の一セットの解剖学的特徴を特定することと、
    前記共通の一セットの解剖学的特徴を表している入力ベクトルを特定すること(S108)であって、前記入力ベクトルは、前記解剖学的特徴を表しているキーポイントベクトルの形態であり、ここで当該ベクトルにおける各位置はキーポイントを表し、各ベクトルの位置のバイナリ値は、表された前記キーポイントが前記共通の一セットの解剖学的特徴に含まれる解剖学的特徴に対応するかどうかを示す、入力ベクトルを特定することと、
    最も類似する基準ベクトルを予め定められた条件にしたがって特定するために、前記入力ベクトルと前記基準ベクトルとを比較すること(S112)と、
    前記複数の対象(38)が同じ固有性を有するか否かを判定するために、前記複数の画像(4)の画像データのすべて又は一部を含む、前記複数の対象(38)の画像データを、前記最も類似する基準ベクトルにより表される前記ニューラルネットワーク(#1)に入力すること(S116)と、
    を含む、方法。
  2. 前記対象とするタイプは人である、請求項1に記載の方法。
  3. 前記予め定められた条件は、前記入力ベクトルに等しい基準ベクトルを、前記最も類似する基準ベクトルとして特定することを規定する、請求項1または2に記載の方法。
  4. 前記予め定められた条件は、前記基準ベクトルから、前記入力ベクトルとの重なりが最も大きい基準ベクトルを、前記最も類似する基準ベクトルとして特定することを規定する、請求項1から3のいずれか一項に記載の方法。
  5. 前記予め定められた条件は、前記基準ベクトルから、優先リストにより規定されるように、前記入力ベクトルと重なっている解剖学的特徴の数が最も多い基準ベクトルを特定することを規定する、請求項1から4のいずれか一項に記載の方法。
  6. 前記入力ベクトルを、予め設定された品質条件に対して評価することと、
    前記予め設定された品質条件が満たされている場合、前記入力ベクトルを比較するステップと、前記画像データを入力するステップと、を行うことと、
    前記予め設定された品質条件が満たされていない場合、前記複数の画像における少なくとも1つの画像を廃棄することと、前記複数の画像に基づいて、新たな入力ベクトルを前記入力ベクトルとして特定することと、前記方法を、前記入力ベクトルを評価するステップから繰り返すことと、
    をさらに含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記入力ベクトルの評価は、前記入力ベクトルと、そこから、少なくとも1つの解剖学的特徴が前記入力ベクトルにおいて表されるべきである、解剖学的特徴の予め規定されたリストとを比較することを含む、請求項6に記載の方法。
  8. 前記複数の画像は、複数の時点において1つのカメラにより、同じシーンを異なる角度からカバーする複数のカメラにより、又は、異なるシーンを描く複数のカメラにより撮像される、請求項1から7のいずれか一項に記載の方法。
  9. 前記複数の画像の画像データを入力することは、前記複数の画像のすべてに描かれている前記解剖学的特徴のみを表している画像データを入力することを含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記複数の画像を受け取るステップは、
    1つ又はそれ以上のカメラにより画像(22)を撮像することと、
    所定のフレーム距離、タイムギャップ、画像鮮鋭度、描かれた対象のポーズ、解像度、領域のアスペクト比、及び平面の回転に基づいて前記複数の画像を形成するために、前記異なる画像を選択することと、
    を含む、請求項1から9のいずれか一項に記載の方法。
  11. 処理能力を有するデバイス上で実行されると、請求項1から10のいずれか一項に記載の方法を行うよう構成されているコンピュータ可読プログラムコードが記録されている、非一時的コンピュータ可読記録媒体。
  12. 対象の再特定を促進するビデオ処理ユニットを制御するためのコントローラであって、前記コントローラは、対象とするタイプの対象の画像における対象の再特定のための複数のニューラルネットワークへのアクセスを有し、前記複数のニューラルネットワークにおける異なるニューラルネットワークは、前記対象とするタイプに対する異なるセットの解剖学的特徴を学習しており、各セットの解剖学的特徴は、基準ベクトルにより表されており、当該基準ベクトルは、キーポイントベクトルによって一セットの解剖学的特徴を表し、ここで当該ベクトルにおける各位置はキーポイントを表し、各ベクトルの位置のバイナリ値は、表された前記キーポイントが前記一セットの解剖学的特徴に含まれる解剖学的特徴に対応するかどうかを示し、前記コントローラは、
    前記対象とするタイプの対象の複数の画像を受け取るよう構成されているレシーバと、
    特定コンポーネントであって、
    前記複数の画像における前記対象とするタイプの対象を、対象検出アルゴリズムによって検出し、
    検出された前記対象の解剖学的特徴を、画像分析アルゴリズムによって特定し、
    前記複数の画像のすべてにおいて特定された共通の一セットの解剖学的特徴を特定し、
    前記共通の一セットの解剖学的特徴を表している入力ベクトルを特定する
    よう構成されており、前記入力ベクトル、前記解剖学的特徴を表しているキーポイントベクトルの形態であり、ここで当該ベクトルにおける各位置はキーポイントを表し、各ベクトルの位置のバイナリ値は、表された前記キーポイントが前記共通の一セットの解剖学的特徴に含まれる解剖学的特徴に対応するかどうかを示す、特定コンポーネントと、
    最も類似する基準ベクトルを予め定められた条件にしたがって特定するために、前記入力ベクトルと前記基準ベクトルとを比較するよう適合されている比較コンポーネントと、
    前記複数の対象が同じ固有性を有するか否かを判定するために、前記複数の画像の画像データのすべて又は一部を含む、前記複数の対象の画像データを、前記最も類似する基準ベクトルにより表される前記ニューラルネットワークに入力するよう構成されている入力コンポーネントと、
    前記複数の対象を、同じ固有性を持つものとみなすか否かについて、前記ビデオ処理ユニットを制御するよう構成されている制御コンポーネントと、
    を備える、コントローラ。
JP2020180097A 2019-11-08 2020-10-28 対象の再特定の方法 Active JP7418315B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19207906 2019-11-08
EP19207906.9A EP3819812B1 (en) 2019-11-08 2019-11-08 A method of object re-identification

Publications (3)

Publication Number Publication Date
JP2021089717A JP2021089717A (ja) 2021-06-10
JP2021089717A5 JP2021089717A5 (ja) 2023-08-18
JP7418315B2 true JP7418315B2 (ja) 2024-01-19

Family

ID=68501378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020180097A Active JP7418315B2 (ja) 2019-11-08 2020-10-28 対象の再特定の方法

Country Status (4)

Country Link
US (1) US20210142149A1 (ja)
EP (1) EP3819812B1 (ja)
JP (1) JP7418315B2 (ja)
CN (1) CN112784669A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230011817A (ko) * 2021-07-14 2023-01-25 한국전자통신연구원 환경 매칭 기반 물체 인식 장치 및 방법
EP4198915A1 (fr) * 2021-12-16 2023-06-21 Bull SAS Procédé de ré-identification d'objet, dispositif et système de ré-identification d'objets mettant en uvre un tel procédé
US20230215519A1 (en) * 2022-01-05 2023-07-06 Merative Us L.P. Indexing of clinical background information for anatomical relevancy
JP7360115B1 (ja) 2022-04-13 2023-10-12 株式会社Ridge-i 情報処理装置、情報処理方法及び情報処理プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109709A (ja) 2017-12-18 2019-07-04 株式会社東芝 画像処理装置、画像処理方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128398A (en) * 1995-01-31 2000-10-03 Miros Inc. System, method and application for the recognition, verification and similarity ranking of facial or other object patterns
US9613258B2 (en) * 2011-02-18 2017-04-04 Iomniscient Pty Ltd Image quality assessment
CN109918975B (zh) * 2017-12-13 2022-10-21 腾讯科技(深圳)有限公司 一种增强现实的处理方法、对象识别的方法及终端
US11429842B2 (en) * 2019-02-24 2022-08-30 Microsoft Technology Licensing, Llc Neural network for skeletons from input images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109709A (ja) 2017-12-18 2019-07-04 株式会社東芝 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
JP2021089717A (ja) 2021-06-10
CN112784669A (zh) 2021-05-11
EP3819812B1 (en) 2023-08-16
EP3819812A1 (en) 2021-05-12
US20210142149A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
JP7418315B2 (ja) 対象の再特定の方法
CN107423690B (zh) 一种人脸识别方法及装置
CN106557726B (zh) 一种带静默式活体检测的人脸身份认证系统及其方法
JP6655878B2 (ja) 画像認識方法及び装置、プログラム
Portmann et al. People detection and tracking from aerial thermal views
EP2192549B1 (en) Target tracking device and target tracking method
Vishwakarma et al. Automatic detection of human fall in video
WO2018006834A1 (en) Systems, processes and devices for occlusion detection for video-based object tracking
KR20210090139A (ko) 정보처리장치, 정보처리방법 및 기억매체
CN109784130B (zh) 行人重识别方法及其装置和设备
US10146992B2 (en) Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type
JP5722381B2 (ja) ビデオ解析
JP6654789B2 (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
JP6822482B2 (ja) 視線推定装置、視線推定方法及びプログラム記録媒体
JP6043933B2 (ja) 眠気レベルの推定装置、眠気レベルの推定方法および眠気レベルの推定処理プログラム
US11804026B2 (en) Device and a method for processing data sequences using a convolutional neural network
JP2021503139A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP6349448B1 (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
JP2002342762A (ja) 物体追跡方法
US9286707B1 (en) Removing transient objects to synthesize an unobstructed image
Makris et al. Robust 3d human pose estimation guided by filtered subsets of body keypoints
JP2019040592A (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
Tanikawa et al. Wheelchair-user detection combined with parts-based tracking
KR102194511B1 (ko) 대표 영상프레임 결정시스템 및 이를 이용한 방법
Duanmu et al. A multi-view pedestrian tracking framework based on graph matching

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230809

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230809

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240109

R150 Certificate of patent or registration of utility model

Ref document number: 7418315

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150