JP2016058079A - クラス事前確率を用いる画像分類のドメイン適応化 - Google Patents
クラス事前確率を用いる画像分類のドメイン適応化 Download PDFInfo
- Publication number
- JP2016058079A JP2016058079A JP2015161794A JP2015161794A JP2016058079A JP 2016058079 A JP2016058079 A JP 2016058079A JP 2015161794 A JP2015161794 A JP 2015161794A JP 2015161794 A JP2015161794 A JP 2015161794A JP 2016058079 A JP2016058079 A JP 2016058079A
- Authority
- JP
- Japan
- Prior art keywords
- image
- training
- classifier
- target
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 193
- 238000002372 labelling Methods 0.000 claims abstract description 104
- 239000013598 vector Substances 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000002085 persistent effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000003384 imaging method Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 9
- 239000002131 composite material Substances 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
【課題】クラス事前確率を用いる画像分類のドメイン適応化方法を提供する。【解決手段】カメラベースの物体ラベリングにおいて、ブースト分類器fは、特徴ベクトルxにより表される画像を、同じカメラにより取得された画像を表すラベル化特徴ベクトルの対象ドメイン訓練セットDT、および、他のカメラにより取得された複数のソースドメイン訓練セットDS1,…,DSNを使用して分類するよう、訓練される。訓練は、基本分類器hr(x)および重みβrを生成するよう、適応化ブースティング(AdaBoost)アルゴリズムを適用する。AdaBoostアルゴリズムのr番目の反復は、各々が訓練セットDT∪DSk上で訓練された基本分類器候補hkr(x)を訓練し、hr(x)を事前に訓練された基本分類器候補から選択する。対象ドメイン訓練セットDTは、対象ドメインに対するラベル分布の事前予測に基づいて拡張されてもよい。【選択図】なし
Description
本発明は、画像ラベリング技術、カメラベースの物体ラベリング技術、および、車両ラベリングなど、それらの適用に関する。
静止カメラまたはビデオカメラを使用するカメラベースの車両ラベリング(または、分類)は、以下に挙げるような多様な用途を有している:有料道路、橋、駐車場などに対する、自動または半自動の通行料金査定(例えば、通行料金は、車輪軸の数、または、車両の種類(例えば、トラックは乗用車より高い通行料金を払う場合がある)による場合がある);駐車施設の自動監視(例えば、車両が駐車場所にあるか検出する(これは、実際には車両というより駐車場所をラベル化する));速度制限または他の交通規制(車両は、その速度により、または、赤信号を通過したかにより、ラベル化される)のカメラベースの実施;カープール車線の監視(車両は乗車人数によりラベル化される);車道の利用調査(車両は、ナンバープレートに基づいて、登録されている州または国により分類される場合がある);その他。実施される車両ラベリングの種類によって、自動車両ラベリングに使用される車両画像は、車両全体の画像であってもよく、または、後ろのナンバープレートなど、車両の一部の画像であってもよい。
共通の導入手法において、カメラは、料金所入口、車道、駐車場入口、または、他の監視対象の位置の適切な眺望が得られるように取り付けられ、訓練車両画像のセットが取得される。人間の導入者は、各訓練画像を車両の種類により手動でラベル化する。これらのラベル化車両画像は、カメラ導入のためのラベル化訓練セットを形成し、その後、車両分類器を訓練するために使用される。訓練プロセスは、典型的には、画像の選択的な前処理(例えば、ナンバープレートラベリングの場合、前処理は、選択的に後ろのナンバープレートを示すビデオフレームを識別し、その後、フレーム画像を分割してナンバープレートを取り出すことを含んでよい)を伴って、(選択的に前処理された)画像を表す特徴ベクトルなど、定量的表現を生成し、手動で割り当てたラベルと最適に一致する特徴ベクトル表現にラベルを割り当てるよう、分類器を訓練する。その後、ラベリング段階中、カメラが車両の画像を取得すると、類似の前処理が行われて、訓練された分類器を介して行われる特徴ベクトルに変換されて、車両をラベル化する。
典型的な用途において、カメラは、様々な戦略上の位置に置かれる。例えば、様々な料金所に置かれて、各カメラは個別に訓練され、その後、その位置の(または、その位置を通過する)車両をラベル化するために使用される。
しかしながら、各カメラを個別に訓練すると、早期に導入されたカメラから収集されている可能性のある情報を活用することができない。さらに、各カメラを個別に訓練することで、カメラ間で車両ラベリングの性能に大きなばらつきが生じ得る。さらに、各カメラを個別に訓練することで、例えば、他の類似のカメラを導入することにより生成される統計値、事前の車道調査、または他のソースからの、ラベル分布に利用可能であるかもしれない事前情報を、活用できない可能性がある。
したがって、ある種の複数のカメラ導入の統合化された訓練が、有用であるように思える一方で、この手法には障害がある。異なるカメラにより取得された車両画像は、姿勢、カメラアングル、カメラ解像度または他のカメラ特性、被写体ぶれの程度、シーン照明、背景の錯乱物、その他の違いに起因して、互いに大きく異なる可能性がある。さらに、車両統計値も、位置により大きく異なる可能性がある。例えば、居住領域に近い料金所は、ほとんどが乗用車を観測する可能性があり、一方で幹線道路のインターチェンジに近い地方の料金所は、より高い割合で商業トラックを観測する可能性がある。
本明細書に開示される例示的な実施形態が、カメラベースの車両ラベリングタスクに向けられる一方で、複数の静止またはビデオカメラがラベル化対象物体の画像を取得するために使用される(または、同じカメラが異なる時間間隔および/または異なる位置で画像を取得するために使用される)、他のカメラベースの物体ラベリングタスクにおいて、類似の課題が発生することが理解されるであろう。例えば、小売りまたは広告の環境では、対象の広告を提供するために、性別、年齢、その他により、カメラベースの顧客ラベリングを適用するのに有益である可能性がある。この場合、ラベル化対象物体は人間である。イベント参加者監視システムでは、画像は、画像に示される人物の数でラベル化されてもよい。物体は動物であってもよく、または、例示的な車両など、無生物物体であってもよい。当該の無生物物体のカメラベースのラベリングにおける、さらなる例として、小売りの組み立てラインにおいて、製造品が、欠陥を観測可能な画像技術に基づいて、特定の欠陥の有無によりラベル化されてもよい。セキュリティスキャナの場合、カメラは、X線撮像装置または他の特殊画像デバイスであってよく、物体ラベリングは、拳銃、ナイフ、液体、その他など、懸念される無生物物体を識別するために探索を行う。これらは、ここでも単なる例示的な例に過ぎない。
さらに、本明細書に開示される分類器訓練システムは、画像に示される物体のラベリング以外の目的で、画像を分類するために適用されてよい。
以下に、高度な画像および物体ラベリング技術が、車両ラベリングタスクの例示的な説明を伴って、開示される。
本明細書に開示される一部の実施形態において、ラベリングシステムは、対象ドメインに属するラベル化対象画像を、対象ドメインに属し特徴ベクトルxにより表される画像を分類するようブースト分類器fT(x)=ΣM r=1βrhr(x)を訓練すること、ラベル化対象画像を表す特徴ベクトルxinを計算すること、および、fT(xin)=ΣM r=1βrhr(xin)を評価することを含む工程により、ラベル化対象画像に対するラベルを生成すること、を含む工程によりラベル化するよう構成される、電子データ処理デバイスを備える。訓練は、対象ドメインに属する画像を表すラベル化特徴ベクトルを備える、対象ドメイン訓練セットDT、および、複数のソースドメイン訓練セットDS1,…,DSNを使用し、ここで、N≧2は、それぞれソースドメインS1,…,SNに属する画像を表すラベル化特徴ベクトルを備える。訓練は、基本分類器hr(x)およびブースト分類器fT(x)の基本分類器の重みβrを生成するよう、適応化ブースティング(AdaBoost)アルゴリズムを適用することを、適切に備える。AdaBoostアルゴリズムのr番目の反復は、(i)k番目の副反復が、対象ドメイン訓練セットDTとソースドメイン訓練セットDSkとを統合する訓練セット上の基本分類器候補hk r(x)を訓練する、N個の副反復を行うこと、および、(ii)hr(x)を、対象ドメイン訓練セットDTに対する最小誤差の基本分類器候補として選択すること、を含む。さらに、r番目の反復は、(iii)ソース訓練セットDSk(k=1,…,N)の訓練インスタンスiに対する重みベクトルwSk iを、基本分類器hr(x)として選択された基本分類器候補の対象ドメイン訓練セットDTに対する誤差に基づいて、更新すること、を含んでもよい。一部の実施形態において、ラベリングシステムは、さらに、物体の画像を取得するよう配置されたシステムカメラを備える、カメラベースの物体ラベリングシステムであり、対象ドメインは、システムカメラにより取得される物体の画像のドメインとして規定され、ラベル化対象画像は、システムカメラにより取得される、ラベル化対象物体の画像であり、各ソースドメインS1,…,SNは、システムカメラ以外のカメラにより取得される物体の画像のドメインとして規定され、および、電子データ処理デバイスは、さらに、ラベル化対象物体に対するラベルを、ラベル化対象画像のために生成されるラベルに基づいて生成するよう構成される。一部の実施形態において、カメラベースのラベリングシステムは、さらに、ラベル化対象物体の画像を物体のために生成されるラベルと共に表示するよう、電子データ処理デバイスと動作可能に接続される表示デバイスを含む。さらに、ブースト分類器fT(x)=ΣM r=1βrhr(x)は、Adaboostアルゴリズムを適用する前に、対象ドメイン訓練セットDTおよびソース訓練セットDSk(k=1,…,N)を整列させるよう、監視されないソース−対象ドメイン整列を行うこと、および/または、対象訓練セットDTを対象ドメインに対するラベル分布の事前予測に基づいて拡張すること、を含んでもよい。このような拡張は、対象ドメイン訓練セットDTに、異なるラベルを有する追加的な合成インスタンスを追加することにより行われてよく、ここで、合成インスタンスは、ラベル分布の事前予測を使用して生成されるラベル確率に基づいて計算される、Adaboostアルゴリズムに対する初期化された重みベクトルを有する。
本明細書に開示される一部の実施形態において、対象ドメインに属するラベル化対象画像をラベル化するためのラベリング方法は、以下を含む:対象ドメインに属する対象ドメイン訓練画像を表す特徴ベクトルを計算すること;対象ドメイン訓練画像を表すラベル化特徴ベクトルを備える対象ドメイン訓練セットDTを生成するよう、対象ドメイン訓練画像を、ラベルのセットから選択されるラベルを使用してラベリングすること;複数のソースドメイン訓練セットDS1,…,DSNを受信することであって、ここで、N≧1は、ラベルのセットから選択されたラベルを使用してラベル化される対象ドメインとは異なるソースドメインに属する画像を表す特徴ベクトルを備える、受信すること;対象ドメイン訓練セットDTおよびソース訓練セットDSk(k=1,…,N)を整列させるよう、監視されないソース−対象ドメイン整列を行うこと;対象ドメインに属し特徴ベクトルxにより表される画像を、整列された対象ドメイン訓練セットDTおよび複数のソースドメイン訓練セットDS1,…,DSNを使用して分類するよう、ブースト分類器fT(x)=ΣM r=1βrhr(x)を訓練すること;ラベル化対象画像を表す特徴ベクトルxinを計算すること;および、ラベル化対象画像に対するラベルを、fT(xin)=ΣM r=1βrhr(xin)を評価することを含む工程により、生成すること。特徴ベクトル計算工程、訓練工程、および生成工程は、電子データ処理デバイスにより適切に行われる。訓練は、基本分類器hr(x)およびブースト分類器fT(x)の基本分類器の重みβrを生成するよう、適応化ブースティング(AdaBoost)アルゴリズムを適用し、ここで、r=1,…,Mである。一部の実施形態において、ラベルのセットは物体ラベルのセットであり、画像は物体の画像であり、ラベリング方法は、さらに、表示デバイス上に、物体検査結果を生成されたラベルに基づいて生成および表示すること、を含む。例えば、物体は車両であってよく、車両検査結果は車両の乗車人数であってよい。または、他の実施形態において、物体は組み立てラインにより処理される製造品であってよく、製品検査結果は、合格または不合格の結果であってよい。
本明細書に開示される一部の実施形態において、持続性保存媒体は、カメラベースの物体ラベリング方法を行い、対象カメラを使用して取得された物体の画像に基づいて物体をラベル化するよう、電子データ処理デバイスにより実行可能な命令を保存する。ラベリング方法は、以下の工程を含む:対象カメラにより取得され特徴ベクトルxにより表される画像を、対象カメラにより取得される画像を表すラベル化特徴ベクトルを備える対象ドメイン訓練セットDTおよび複数のソースドメイン訓練セットDS1,…,DSNを使用して、分類するよう、ブースト分類器fT(x)=ΣM r=1βrhr(x)を訓練することであって、ここで、N≧2は、対象カメラ以外のカメラにより取得される物体の画像を表すラベル化特徴ベクトルを備える、訓練すること;物体の画像を表す特徴ベクトルxinを計算すること;および、物体に対するラベルを、fT(xin)=ΣM r=1βrhr(xin)を評価することにより、生成すること。訓練は、基本分類器hr(x)およびブースト分類器fT(x)の基本分類器の重みβrを生成するよう、適応化ブースティング(AdaBoost)アルゴリズムを適用する。AdaBoostアルゴリズムはr=1,…,Mの反復を含み、r番目の反復は、複数の基本分類器候補hk r(x)を訓練することであって、ここで、各基本分類器候補hk r(x)は、訓練セットDT∪DSk上で訓練される、訓練すること、および、hr(x)を事前に訓練された基本分類器候補のセットから選択すること、を含む。Adaboostアルゴリズムを適用する前に、対象ドメイン訓練セットDTは、対象ドメインに対するラベル分布の事前予測に基づいて、例えば、対象ドメイン訓練セットDTに異なるラベルを有する追加的な合成インスタンスを追加することにより、拡張されてもよく、ここで合成インスタンスは、ラベル分布の事前予測を使用して生成されるラベル確率に基づいて計算される、Adaboostアルゴリズムに対する初期化された重みベクトルを有する。
以下の記述は、画像ラベリングシステムおよびカメラベースの物体ラベリングシステムに関する。本明細書において使用されるように、「物体」という用語は、無生物物体(または、無生物物体の群)または有生物物体(人物または人物の群、または、動物または動物の群など)を指す。本明細書において使用されるように、「物体」という用語は、ラベリングシステムにおいて使用されるカメラにより撮像され得る物理的な物体を指す。一部の限定されない例によると、当該の無生物物体は、車両(本明細書における例示的な用途である)、製造品、空港のセキュリティシステムにより精査される手荷物または輸送容器の中身、その他であってよい。ラベリングシステムにより適用されるラベルのセットは、一般的に画像に対するラベルのセット(画像ラベリングシステムの場合)または物体に対するラベルのセットであり得る。例示的な例によると、車両に対するラベルのセットは、車両の種類(乗用車、小型トラック、大型トラック、バスなど)または乗車人数(1人、2人、3人など)などであってよい。別の例示的な例として、機械視覚検査装置においては、物体は組立ラインにより加工される製造品であってよく、ラベルのセットは、「1」が検査装置により識別される欠陥を有する製品を意味し、一方で「0」が欠陥のない製品を意味する、二進集合(1,0)であってよい。
本明細書において使用されるように、「カメラ」という用語は、当該の物体の画像を取得することができる撮像デバイスを指す。一部の限定のない例によると、カメラは、以下であってよい:写真用フィルム、または、人間の視覚により観測されるのと類似のカラーまたは白黒画像を取得できるデジタル撮像アレイ(例えば、選択的にカラーフィルタを有するCCDアレイ)を含む、従来のカメラ;または、X線投影画像を生成するためにX線ソースと連動して動作するX線高感度撮像アレイを含む、X線スキャナ;または、コンピュータ断層スキャナ;または、夜間または微光画像を取得するために使用される種類の赤外線カメラ;または、文書ページ画像を生成するよう動作する文書スキャナ;その他。カメラは、例えば、物体上または中にあると予測される蛍光塗料により放射される波長(複数可)に敏感であるように、波長選択フィルタを含む、特定物体ラベリングタスクに特化することが検討される。一般的に、カメラは、静止カメラ(すなわち、単一の静止画像を取得する)またはビデオカメラ(すなわち、一般的に「フレーム」と称される時系列画像を取得し、ここで、画像前処理は、当該の物体を最適に撮像するビデオバーストのフレームを選択することを伴ってよい)であってよい。コンピュータ断層スキャナなど、特定の種類のカメラにおいて、カメラにより物体から取得されるデータは、画像を生成する際に画像復元処理が施される場合がある。
図1を参照すると、例示的なカメラベースの物体ラベリングタスクは、例示的な車両ラベリングタスクにおいては車両Oである物体Oを、カメラ10を使用して生成される物体Oの画像Iに基づいて、特定の事後データ取得(前)処理12と選択的に統合されて、ラベル化する。事後データ取得(前)処理12は、例えば、画像内の物体を取り出すための分割化、物体Oを最適に示すフレームの選択(カメラ10が、時系列の画像(すなわち、フレーム)を備えるビデオバーストを取得するビデオカメラである場合)、画像クロッピング(可能であれば、画像の分割化と統合されて行われる)、画像回転、弾性または非弾性変形、テンプレート形状での登録、カラーフィルタリング、境界検出、その他である。選択的には前処理12を施した後のカメラ10の出力は、ラベル化(すなわち、分類)される物体Oの画像Iである。
例示的な図1は、典型的な車両ラベリング環境を示す。車両Oは、車両Oの運転者が、料金所14により管理される有料道路、有料橋、その他へアクセスするための料金を支払う、料金所14に接近している。カメラ10は、料金所14へ接近する際、車両Oを観測するよう戦略的に配置される。画像(単一静止画像またはビデオバーストであってよい)の取得は、料金所14に接近する際に移動している車両Oを検出する運動センサ(図示せず)により、適切に始動される。車両ラベリングでは、カメラ10は、適切には、デジタル撮像アレイ(例えば、カラー撮像アレイを提供するよう選択的にカラーフィルタを有する、電荷結合素子、CCD、アレイ)を含む従来のカメラであり、人間の視覚により観測されるものと類似の車両Oの画像(例えば、画像Iが白黒画像であってもよいなど、一部の差異は予期されるが)を取得する。したがって、選択的な画像前処理12は、様々な画像操作を含んでよいが、画像復元工程は含まない。それに反して、断層画像装置を適用する一部の他の種類の物体ラベリングタスクでは、画像前処理は、物体の画像を生成するために、カメラにより取得された画像データに施される画像復元処理を含んでよい。画像前処理12は、ぼやけ補正、輝度および/またはコントラスト調整など、物体ラベリングタスクに特化しない、包括的な前処理を含んでよい。画像前処理12は、追加的または代替的に、ビデオバーストの最適フレームを識別すること、画像内の物体を取り出すために画像を分割すること、無関係な背景を除去するために画像をクロッピングすること(典型的には、物体を取り出すために画像を分割した後に行われる)、テンプレートと一致させるために、弾性または非弾性変形、回転、または画像の他の操作を行うことなど、ラベリングタスクに特化した画像前処理を含んでよい。さらに、ラベリングタスクに特化した画像前処理12は、ラベリングタスクを進めるために、画像が物体を十分に表しているか判定する、決行/中止判定を含んでもよい。例えば、例示的な車両ラベリングタスクにおいて、カメラ10の運動センサは、風に吹かれた葉などにより意図せず始動される可能性があり、その場合、決行/中止判定は車両が撮像されていないことを検出し、その結果、画像を廃棄するであろう。
図1を引き続き参照すると、画像Iは、車両に対するラベル18を画像Iに基づいて生成する、車両分類器16へ入力される。これは、カメラベースの車両ラベリングプロセスの「ラベリング段階」と称される。
ラベリング段階のインスタンスを行う前に、車両分類器16は、ラベリング工程を行うよう最適化される。そのために、「訓練段階」において、車両分類器訓練器20は、ラベル化画像22、24に事前に割り当てられたラベルとほぼ一致する、画像22、24に対するラベルを生成するよう、車両分類器16を最適化するために、ラベル化画像22、24を処理する。本明細書に開示される車両分類器訓練器20の実施形態において、訓練プロセスは、(i)分類器16が動作するよう訓練されている、カメラベースの物体ラベリングシステムのカメラ10に対して生成されるラベル化画像22(本明細書において「このカメラ」とも称される)、および(ii)他の料金所で動作している類似のカメラベースの車両ラベリングシステムなど、1つ以上の他のソースにより生成されるラベル化画像24(本明細書において「他のカメラ」とも称される)の両方を使用する。このカメラにより取得されるラベル化画像22を生成するために、人間の料金所オペレータ、または人間の車両ラベリングシステム導入者、または他の人物は、典型的には、料金所14を通過する各車両を観測し、その後、カメラ10により取得される車両の画像を、観測に基づいてラベリングすることにより、カメラ10により取得される画像の手動ラベリング26を行う。
他のカメラからのラベル化画像24は、(他のカメラを使用することを除いて)同様の手法で生成されてよい。しかしながら、より典型的には、他のカメラからのラベル化画像24のラベルは、他のカメラベースの車両ラベリング導入(複数可)で動作する、訓練された分類器(分類器16に対応するが、インスタンスは異なる)により行われる自動画像ラベリングにより生成される。このカメラに対するラベル化画像22は手動ラベリング26により生成され、一方で他のカメラに対するラベル化画像24は自動で、可能であれば他の導入の標準的な車両ラベリング動作中に生成されてよいため、他のカメラからのラベル化画像24の量は、このカメラに対する手動でラベル化されたラベル化画像22の量より、はるかに多くなり得ることが理解されよう。言い換えれば、多くの実際の訓練状況において、データセット24は、多くの場合データセット22より大きくなる。
本明細書に開示される車両分類器訓練器20の一部の実施形態において、訓練プロセスは、さらに、料金所14で観測されると予測される(すなわち、この導入で観測されると予測される)車両ラベル分布の事前予測28を利用する。この事前予測28は、車両による類似の利用があると予測される他の料金所から、または、料金所14の位置で入る交通量の手動測量からなど、様々なソースからなされ得る。事前予測28を利用することで、可能であれば、分類器16の訓練がない間、予想されるラベルの分布28に従って結果を提供するよう、訓練にバイアスをかけることにより、訓練された車両分類器16の正確性を向上させ得る。
実例的な車両ラベリングシステムは、カメラ10、光学画像前処理コンポーネント12、車両分類器訓練器20、および、車両分類器訓練器20により生成される訓練された分類器16を有する。車両ラベリングシステムは、さらに、図1に図示されない他のコンポーネントを含んでもよい。例えば、車両ラベリングシステムが通行料金算出タスクを行っている場合、システムは、さらに、車両ラベルに基づいて通行料金を割り当てるルックアップテーブルを含んでもよい(例えば、大型トラックは小型トラックより高い料金を課されてもよく、および、乗用車は最低の通行料金であってもよい;追加的または代替的に、車両登録場所、有料道路を走行した距離など、他のラベル情報に基づいた通行料金である可能性もある)。様々なデータ処理コンポーネント12、16、20は、カメラ10に内蔵された電子機器(図示せず)、および/または料金所14に設置されたコンピュータ30、および/またはコンピュータ30により、インターネットまたは他の電子データ転送ネットワークを介してアクセスされる遠隔サーバコンピュータ(図示せず)など、1つ以上の電子データ処理デバイスにより、適切に実装される。例示的な例によると、カメラ10の電子機器は、ユーザが選択した適切なカメラ動作モードによる、ぼやけ補正および/または自動輝度/コントラスト調整など、前処理12の包括的な部分を行うようプログラムされてよい。車両画像Iを取り出すよう画像を分割することなど、前処理12の車両ラベリング特定部分は、適切なソフトウェアを実行する料金所コンピュータ30により実装されてよい。分類器16は、同様に、入力画像Iを受信する画像分類ソフトウェアを実行する料金所コンピュータ30により実装されてよい。車両分類器訓練器20は、入力としてローカルなラベル化画像22およびラベル化画像24を他のカメラから受信する、分類器訓練ソフトウェアを起動させる料金所コンピュータ30により実装されてよい。ここでラベル化画像24は、インターネットまたは別のデータネットワーク上で受信されるか、または、光ディスクまたは他の可搬型データ保存媒体で提供される。代替の手法において、車両分類器訓練器20は、入力としてローカルのラベル化画像22およびラベル化画像24を他のカメラから受信する、分類器訓練ソフトウェアを起動させる遠隔サーバコンピュータにより実装されてよく、その後、訓練された分類器16は、サーバから料金所コンピュータ30へ、インターネットまたは別のデータネットワークを介して通信される。さらに、様々なデータ処理コンポーネント12、16、20が、開示されるプロセスを行うために、コンピュータ30および/または特定の他の電子データ処理デバイスにより実行可能な命令を保存する持続性保存媒体として具現化されてよいことが、理解されるであろう。持続性保存媒体は、例えば、ハードディスクまたは別の磁気保存媒体、または、FLASHメモリまたは別の電子保存媒体、または、光ディスクまたは他の光学的記憶媒体、それらの様々な組み合わせなどであってよい。
ラベル18は様々に使用されてよい。実例的な図1において、2つの例が示される。第1の例において、車両ラベルは車両種類のラベルのセット(乗用車、小型トラック、大型トラック、バス他)から選択され、ラベリングシステムは、通行料金または料金倍率を、車両Oの運転者により支払われる通行料金を決定する際に適用されるラベル18により識別される車両の種類に対して決定するよう、ルックアップテーブルを適用する。実例的な例として、通行料金は、距離ベースの課金時間に料金倍率を掛けることにより、計算されてよい。典型的には、料金倍率は、有料道路上の異種の車両の異なる影響からなるよう意図される。この実例的な例において、コンピュータ30に統合されるか、または動作可能に接続される、表示デバイス32(LCDまたはOLED表示デバイスなど)は、車両Oに対して生成されるラベル18であって、この場合、この実例的な例において2.50ドルの高速道路料金に変換されるラベル18と共に(または、共にラベル化された)車両Oの画像Iを含む表示34を提示する。
概略的な図1において記載される別の実例的な例として、車両ラベル18は、車両の乗車人数(1人、2人、3人など)のセットから選択される。乗車人数情報は、例えば、車両Oがカープール車線を使用する資格があるか判定するために使用されてよい(典型的には、車両が少なくとも最低乗車人数を乗せている場合に許可される)。実例的な表示36は、結果に関する情報(「カープール車線:はい」)と共にラベル(「乗車人数:3」)でラベル化された車両Oの画像Iを示す。この手法の代替的な形式において、ラベルセットは、例えば、「1」は車両がカープール車線の使用を許可されることを意味し、「0」は車両が許可されないことを意味する、(1,0)の二進セットであり得る。
ここで図2を参照すると、車両分類器訓練器20の一部の実例的な実施形態が記載されている。実例的な例がカメラベースの車両ラベリングに関連している一方で、より一般的には、開示される分類器訓練器は、画像をラベリングする分類器、または物体の入力画像に基づいて物体をラベリングする分類器を、訓練するために使用され得る。図2に示されるように、分類器訓練器20は、入力として、ラベル化訓練画像22をカメラ10(例えば、「この」カメラ、または「システム」カメラ、または「対象」カメラとして、適切に記載される)から受信する。分類器訓練器20は、追加的に、ラベル化訓練画像24を他のカメラから受信する。訓練画像22は、クロッピング、輝度/コントラスト調整、サイズ変更、その他の観点において、分類のために訓練画像22が画像Iと比較可能となるよう、前処理器12により前処理される。一方で、他のカメラからの訓練画像24は、見晴らし、カメラと物体との距離、ズーム設定、絞り値設定など、画像特性の観点における相違点だけでなく、実質的に異なる前処理を有する可能性がある。
一般化するために、訓練画像22のセットは、本明細書において、「対象」ドメインの画像と称され、一方で訓練画像24は、本明細書において、2つ以上の異なる「ソース」ドメインの画像と称される。分類器訓練が新しい車両ラベリング導入のセットアップに使用されている、実例的な車両ラベリングシステムにおいて、対象ドメイン訓練画像セット22の画像の数は、このセットが、導入者または他の人物に、システムカメラ10を使用して取得される車両の画像を手動でラベル化させることにより、手動で生成されるため、比較的に少なくなる可能性が高いことが、理解されるであろう。それに反して、ソースドメイン訓練画像セット24の画像の数は、実質的に多い。例えば、これらの画像は、図1に示されるものと類似の車両ラベリング導入の日単位、週単位、または月単位にわたる通常動作中に、自動的に生成されるラベル化画像の集合であってよい。本明細書に開示されるように、ブースト分類器を訓練するよう、適応化ブースティング(AdaBoost)アルゴリズムを有利に適用する分類器訓練器20において、AdaBoostアルゴリズムのr番目の反復は、各々が対象ドメイン訓練セット22をソース訓練セットの1つと統合し、その後、反復の出力として基本分類器を、対象ドメイン訓練セットに対する、最小誤差を有する基本分類器候補として選択する、訓練セット上の基本分類器候補を訓練する、副反復を含む。これにより、ソースドメイン訓練画像セット24を有利に利用して、より正確な訓練された分類器を提供する。
効率的に処理するために、特徴ベクトル抽出コンポーネント40は、訓練画像22、24を特徴ベクトルに変換する(または、前述の別の手法で、画像代表特徴ベクトルが画像から抽出される)。画像代表特徴ベクトルの要素は、画像の当該のコンテンツを表すのに有用な画像から引き出される、実質的に任意の定量値を保存し得る。特徴は様々な形式で表されてよく、例えばフィッシャーカーネルを使用して、様々に処理されてよい。一部の実施形態において、主成分分析(PCA)などの特徴縮小プロセスが、特徴ベクトル長(すなわち、特徴ベクトルの要素の数)を妥当に維持するよう、特徴の数を削減するために使用されてもよい。一般的に、全ての画像(分類対象画像Iおよび様々な訓練画像22、24)は、同じ特徴ベクトル抽出プロセスまたはコンポーネント40により、特徴ベクトルの所与の要素が、画像を表す全ての特徴ベクトルに対して、同じ意味または重要性、および同じ寸法または単位を有するよう、処理される。
対象ドメイン訓練画像22の特徴ベクトル抽出40により行われる処理は、対象ドメインラベル化データセットDT42を生成し、同様にソースドメイン訓練画像24の特徴ベクトル抽出40により行われる処理は、ソースドメインラベル化データセットDSk(k=1,…,N)44を生成する。ここで、kは、N個のソースドメイン画像データセットの指標となる。一般的に、N≧1である。一部の実施形態において、N≧2、すなわち、複数のソースドメイン訓練画像データセットがあり、例えば、互いに別々のカメラにより生成された1つのソースドメイン訓練画像データセットである。したがって、事前に導入された、15台の別々のカメラベースの車両ラベリングシステムが使用中である場合(実例的な例による)、これらの事前に導入されたラベリングシステムの1つにより取得された、各ソースドメイン画像データセットDSkを伴って、N=15となる。データセットDTおよびDSk(k=1,…,N)の各々は、各セットの画像が、見晴らし、カメラと物体との距離、絞り値または他のカメラ設定、取得後の処理(クロッピング、ぼやけ除去他)など、実質的な観点において異なる可能性があるため、異なる「ドメイン」として見なされ得る。
より一般化された形式(車両ラベリングの実例的な例に限定されない)を提供するために、ドメインDは特徴空間Xおよび周辺確率分布P(X)からなり、ここでX={x1,…,xn}およびxi∈Xである。すなわち、D:=(X;P(X))である。タスクTは、ラベル空間Yおよび関数f:X→Yにより規定される。機械学習の文脈において、ドメインDに対するタスクTを学習することは、所与の訓練データセットD={(x1;y1),…,(xn;yn)}から分類器関数
を予測することになる。ここで、一定の基準によると、xi∈Xおよびyi∈Yであり、最良の近似値fである。
ソース訓練セットDSk(k=1,…,N)が、対象訓練セットDTに対する分類器を向上させるために使用される、分類器訓練器20の手法において、対象およびソースデータセットおよびドメインは、区別されるのがよい。対象ドメインは、本明細書において、DT=(X;PT(X))のように表され、対象訓練データDT={(xT 1,yT 1),…,(xT nT,yT nT)}から、対象タスクTT=(Y;fT)を学習するのが望ましい。ここで、nTは、対象ドメイン訓練データセットDTの訓練インスタンスの数を意味する。類似の方法において、k番目のソースドメイン訓練データセット(ここで、N個のソースデータセットがある際、1≦k≦N)は、k番目のソースドメインDSk=(X;PSk(X))にあり、ソース訓練データセットDSk={(xSk 1,ySk 1),…,(xSk nSk,ySk nSk)}として適切に表される。ここで、nSkは、k番目のソースドメイン訓練データセットDSkにおける訓練インスタンスの数を意味する。分類器訓練器20により行われる帰納的転送学習は、ソースドメイン訓練データセットDSk(k=1,…,N)により提供される知識を利用することにより、対象分類器関数
の学習を向上させる。
図2を引き続き参照すると、ソースドメインおよび対象ドメイン訓練データセット42、44は、選択的に、監視されないソース−対象整列プロセスまたはコンポーネント50により整列される。このような整列は、見晴らし、カメラと物体との距離、絞り値または他のカメラ設定、取得後の処理(クロッピング、ぼやけ除去、他)など、実質的な観点において、ドメインDT,DS1,…,DSN間の差異による影響を軽減するのに役立つ。整列は、対象およびソース訓練データセットの特徴ベクトルを、(一般的に異なる)共通ドメイン空間へ変換することができ、または、ソース訓練データセットの特徴ベクトルを、対象ドメインへ変換することができる(この場合、対象ドメイン訓練データセット42の特徴ベクトルに対する変換は行われない)。
ソース訓練データセットの特徴ベクトルを対象ドメインへ変換する、整列プロセスの例は、反復最近点(ICP)アルゴリズムである。例えば、Rusinkiewiczらによる、3−D Digital Imaging and Modelingの第3回国際会議議事録145〜152頁(IEEE2001)「Efficient variants of the icp algorithm(ICPアルゴリズムの効果的な変形)」を参照されたい。ICPは、1つのドメインにおける点と他のドメインにおける最近点との間の平均平方誤差を、それぞれ最小化する反復手順である。ICPアルゴリズムの各反復で、ソースおよび対象モデルを最良に整列させる線形変換が計算される。対象データとしてインスタンスXT={xT i}の2つのセット、および、ソースデータとしてXS={xS i}から始まり、最終目的は、これらの2つのデータセット間の距離を最小化する変換(A,B)を見つけることである。ICPの最終目的は、ソースインスタンスxS i∈XSに対する、対象セットXTにおける最近の対象インスタンスを決定することである。ステップkで、フロベニウスノルムを最小化するローカル変換が、2つのセットに対して算出される:
この手順は、ローカル最小値へ収束するまで反復される。完全変換(A,B)は、アルゴリズムA:=Ak・AおよびB=B+Bkの各反復kで増加的に更新される。大域的最小点への収束は、初期設定が良好な場合に達成できる。このような目的で、一部の実装において、事前の粗い整列手順が、細かい整列の前に行われる。ICPは、両方のセットSXS⊂XSおよびSXT⊂XTからの重み付けされた代表サンプルで最初に行われる。ここで、各サンプルインスタンスxS∈SXSおよびxT∈SXtは、そのε近傍におけるインスタンスの数により、それぞれ重み付けされる。
対象およびソース訓練データセットの特徴ベクトルを(一般的に異なる)共通ドメイン空間へ変換する整列プロセスの例は、Fernandoらによる、ICCV(2013)における「Unsupervised visual domain adaptation using subspace alignment(副空間整列を使用する監視されない視覚的ドメイン適応化)」に記載されている。この手法の動機づけは、ソースおよび対象ドメインが異なる周辺分布を使用して引き出されるため、ソースおよび対象ドメインのより強固な表現である、ソースおよび対象ドメインにおける副空間が存在する可能性があることであり、ここで、これら2つのドメイン間のずれが学習され得る。この実例的なドメイン整列手法において、主成分分析(PCA)は、d個の最大固有値に対応するd個の固有ベクトルを、対象およびソースドメインの両方において選択するために使用される。これらの固有ベクトルは、それぞれSSおよびSdにより表される、ソースおよび対象副空間の基本として使用され、ここでSS,Sd∈RD×dである。副空間SSおよびSSは、正規直交SSS’S=IdおよびStS’t=Idであり、ここで、Idはd次の単位行列であり、SSおよびStは2つのドメイン間のずれを学習するために使用される。線形変換は、ソース副空間を対象副空間に整列させるために使用される。このステップにより、それぞれの副空間のソースおよび対象サンプルの直接的な比較が、不必要なデータ投影なしに行える。副空間整列手法は、このタスクを達成するために適切に使用される。基本ベクトルは、変換行列Mを使用して、SSからStへ整列される。Mは、以下のブレグマン行列ダイバージェンスを最小化することにより学習される:F(M)=||SSM−St||2 F。ここで、||・||F 2は、フロベニウスノルムを意味する。このノルムは正規直交動作に対する不変式であるため、以下のように書き換えられ得る:
したがって、最適な変換Mは、M=S’SStとして取得される。これは、新しい座標系が、対象整列化ソース座標系を表すS=SSS’SStと同等であることを暗に示している。行列Mは、ソース副空間座標系を、対象副空間座標系へ、ソース基本ベクトルを対象基本ベクトルで整列することにより変換する。この共通空間において、対象インスタンスxtは、St,xp t=xtStを使用して投影され、ソースインスタンスは新しい空間へ変換S,xp S=xSSを使用して投影される。複数のソースの場合(例えば、N≧2)、1つの変換Siが各ソースSiにより生成される。
図2を引き続き参照すると、監視されないソース−対象ドメイン整列プロセスまたはコンポーネント50の出力は、正に記載されたように、ソースドメイン整列変換52を出力する。対象およびソース訓練データセットの特徴ベクトルを(一般的に異なる)共通ドメイン空間へ変換する、Fernandoらによるものなどの整列の実施形態では、監視されないソース−対象ドメイン整列プロセスまたはコンポーネント50は、対象ドメイン整列変換54を出力する。(それに反して、ソースを対象ドメインへ変換するICPなどの整列プロセスでは、対象ドメイン整列変換はない)。
工程58において、fT(x)=ΣM r=1βrhr(x)として、すなわち、基本分類器の重みβrにより重み付けされた基本分類器hr(x)の集合として適切に書かれる、ブースト分類器60を訓練するために、ブースト分類器訓練が行われる。(基本分類器hr(x)は、本明細書において、弱い分類器hr(x)と称されることがあり、一般的には、「基本分類器」および「弱い分類器」という用語は、本明細書において交換可能に使用される)。基本分類器hr(x)は、一般的に、任意の種類の分類器であり得る。各個別の基本分類器hr(x)の出力は、対象ドメイン訓練セットDTのラベルに対して相対的に弱い関連性を有しており、したがって、代替名「弱い」分類器となる。ブースト分類器は、全体ΣM r=1βrhr(x)における、M個のこれらの弱い分類器hr(x)を、強い分類器(すなわち、対象ドメイン訓練インスタンスラベルと良好な関連にある分類器)を作り出すよう統合する。制限のない例示的な例によると、基本分類器hr(x)は、決定木、(例えば、二進分類器の場合における学習された超平面を適用する)線形分類器、その他であり得る。
訓練されたブースト分類器60は、システムカメラ10により取得され特徴ベクトルxにより表される画像を分類するために使用可能である。ブースト分類器訓練は、対象ドメイン訓練データセット42および複数のソースドメインデータセット44の両方を利用する。これにより、訓練は、対象ドメインと最も近い関係にあるソースドメインデータセット44に包含される情報を、識別および活用できる。例示的なブースト分類器訓練58は、対象カメラ10により取得された画像を表すラベル化特徴ベクトルを備える、対象ドメイン訓練セットDT42を使用して、および、対象カメラ10以外のカメラにより取得された物体の画像を表すラベル化特徴ベクトルを備える、複数のソースドメイン訓練セットDS1,…,DSN44(ここでN≧1、および、一部の実施形態においてはN≧2)を使用して、ブースト分類器60を訓練する。訓練58は、基本分類器hr(x)およびブースト分類器fT(x)の基本分類器の重みβrを生成するために、適応化ブースティング(AdaBoost)アルゴリズムを適用する。しかしながら、標準的なAdaBoostアルゴリズムのr=1,…,Mの反復(Freundらによる、Journal−Japanese Society For Artificial Intelligence,14(771−780):1612,1999における、「A short introduction to boosting(ブースティングの簡潔な入門書)」を参照)は、r番目の反復が、複数の基本分類器候補hk r(x)を訓練すること、および、hr(x)を、事前に訓練された基本分類器候補のセットから選択すること、を含む点において、修正されている。一部の実施形態において、hr(x)は、全ての反復1,…,rにおいて生成される基本分類器候補から選択される。他の実施形態において、hr(x)は、r番目の反復において生成される基本分類器hk r(x)からのみ選択される。各基本分類器候補hk r(x)は、対象ドメイン訓練データセットDTとk番目のソースドメインデータセットDSkとを統合する訓練セットで、例えば、合併集合の組み合わせ(DT∪DSk)を使用して、訓練される。
適応化ブースティング(AdaBoost,例えば、Freundらによる上記参照)は、弱い学習器の予測のアグリゲーションによりブースティングを提供する、機械学習アルゴリズムである。全ての反復で、訓練インスタンスの重みを調整し、次の選択に対して「最も有益」であると信頼されるよう、誤って分類されたインスタンスに、より高い重要性を与えることにより、次の弱い分類器の選択の正確性を向上させる。
ソース訓練セットから対象訓練セットへの情報の転送を容易にする、従来のAdaBoostの「転送」AdaBoost(TrAdaBoost)拡張が、説明されている。Daiらによる、Machine Learningの第24回国際会議の議事録193〜200頁(ACM2007)「Boosting for transfer learning(転送学習のためのブースティング)」を参照されたい。Daiらの手法は、分類器を学習させるための豊富なソース訓練データ(すなわち、大きなデータセットDS)があるが、対象ドメインおよびタスクはソースと異なる(すなわち、DS≠DTおよびTS≠TT)と推定する。TrAdaBoost学習アルゴリズムは、小さな対象訓練データセットDTを、ソース訓練データセットDSと関連して、対象分類器fTのブースティングを駆動するために活用する。対象訓練インスタンスは、AdaBoostと同じ手法で、弱い分類器の選択を駆動する。一方で、全ての反復で、ソース訓練インスタンスは、誤って分類された際、低い重要性が所与される。これは、対象インスタンスと最も類似しないと考えられ、したがって、次の弱い分類器の選択への影響は弱い方がよいからである。
TrAdaBoostは、ソース訓練データセットDSk(k=1,…,N)など、複数のソース訓練データセットを活用する能力を提供しない。ここで、N≧2である。この問題を克服する1つの手法は統合することであり、例えば、複数のソース訓練データセットを単一のデータセットへ連結すること(すなわち、DS=DS1∪DS2∪…∪DSN)である。その後、TrAdaBoostをこの統合されたソースデータセットに適用する。しかしながら、この手法は、異なるソースデータセットに包含される特異的な情報を失い得る。例えば、各ソース訓練データセットDSkが異なるカメラ導入から提供される、カメラベースの車両ラベリングの実例的な用途を考えると、一部のカメラ導入は、見晴らし、カメラ特性、カメラと道路との距離、画像前処理など、相対的な観点において、他のカメラより対象カメラ10と類似している場合がある。対象カメラ10との類似性が低いソース訓練データセットと比較すると、これらの「類似性が高い」ソース訓練データセットの適応化ブースティングに、より高いプロミネンスを置くことが有利であろう。
本明細書に開示される手法において、AdaBoostアルゴリズムは、r番目の反復において複数の基本分類器候補hk r(x)が訓練されるという点で、修正される。r番目の反復に対する基本分類器hr(x)は、事前に訓練された基本分類器候補のセットから選択される。一部の実施形態において、r番目の反復において生成される基本分類器候補hk r(x)からのみ、選択される。一方で、他の実施形態において、r番目の反復において生成される基本分類器候補hk r(x)からだけでなく、前回の反復からの基本分類器候補(例えば、基本分類器候補hk r−1(x))からも選択される。後者の実施形態において、選択は、好ましくは、削除を伴ってなされる。すなわち、基本分類器hr(x)として選択された基本分類器候補は、利用可能な候補のプールから削除され、後の反復(例えば、hr+1(x))においては選択されない。各基本分類器候補hk r(x)は、対象ドメイン訓練データセットDTとk番目のソースドメインデータセットDSkとを統合した、例えば、DT∪DSkとして統合された訓練セットで、訓練される。このように、一般的に異なる様々なソース訓練データセットDS1,…,DSNの独自性が保持され、ブースト分類器訓練58において個別に活用される。
ブースト分類器訓練58における使用に適切な実装として、本明細書に開示される一部の適応化ブースティング(AdaBoost)アルゴリズムは、以下の観点を組み込む:複数のソース(例えば、特徴ベクトル44として表される、他のカメラ24からのラベル化訓練画像)からの知識転送を許容する;正確な知識転送は、(基本分類器が、当該および前回の反復において生成された基本分類器候補から選択される、実施形態において)分類器候補を管理するためのヒープのような構造を使用することにより容易になる;対象誤差予測Ctは、ソースインスタンスを再度重み付けするために使用される(Samir Al−Stouhiらによる、Machine Learning and Knowledge Discovery in Databases,ed.Gunopulosらによる、Computer Science vol.6911 60〜75頁における講義ノート(Springer ベルリン ハイデルベルク,2011)の「Adaptive boosting for transfer learning using dynamic updates(動的更新を使用する転送学習のための適応化ブースティング)」を参照);および、一部の実施形態において、クラス事前確率(例えば、対象カメラ10に対する車両ラベル分布28の確率予測)が、ブースト分類器訓練58に組み込まれる。
一般的に、豊富な訓練データDSk(k=1,…,N)は、1つ以上のソース(N≧1)から利用可能であると予測され、各々が対象と異なる。すなわち、DSk≠DTおよびTSk≠TTである。各基本分類器候補hk r(x)を、対象訓練データセットDTと1つのソース訓練データセットDSkとの統合を使用して訓練し、その後、r番目の反復に対する基本分類器hr(x)を基本分類器候補のプールから選択することにより、対象と最も近い関係性が現れるソースが(r番目の反復で)選択される。この手法により、対象ドメインと大まかな関連性しかない可能性がある、単一のソースドメインからの知識を転送することへの強制に起因する、負の転送の影響が削減される。開示されるブースト分類器訓練手法において、全ての反復rで、各ソースSkは、他と独立して、その訓練データDSkを対象訓練データDTと統合して、弱い分類器候補hk r(x)を構築する。弱い分類器のプールは、学習プロセス中に優先キュー(PQ)の形式で管理され、ここから対象分類誤差を最小化するソースが、基本分類器hr(x)として選択される。(代替の実施形態において、hr(x)の選択は、当該の反復r中に作り出される基本分類器hk r(x)からなるプールに限定される。)
アルゴリズム1は、ブースト分類器訓練器58の実例的な実施形態を提示する。アルゴリズム1は、入力としてN個のソース訓練データセットDS1,…,DSNおよび対象訓練データセットDTを取り込み、対象分類器fT(x)=ΣM r=1βrhr(x)を構成するために、M個の基本分類器h1(x),…,hM(x)および対応する重みβrを生成する。ソース訓練インスタンスの重み付け更新は、Daiらによる、Machine Learningの第24回国際会議の議事録193〜200頁(ACM2007)「Boosting for transfer learning(転送学習のためのブースティング)」の転送AdaBoostアルゴリズムにおけるものと同様である。対象訓練インスタンスの重み付け更新は、従来のAdaBoostにおけるものと同様である。例えば、Freundらによる、Journal−Japanese Society For Artificial Intelligence 14(771−780):1612,1999の「A short introduction to boosting(ブースティングの簡潔な入門書)」を参照されたい。全ての反復で、アルゴリズム1の内部ループ(6〜11行目)は、N個の基本分類器候補h1 r(x),…,hN r(x)をN個の訓練セットDT∪DS1,…,DT∪DSNから、それぞれ計算し、対象ドメイン訓練データセットDTの対応する分類誤差εk rを計算する。その後、それまでに生成された(まだ取り入れられていない)全ての基本分類器候補の中で、対象分類誤差が最小の基本分類器候補が、hr(x)として選択される。
アルゴリズム1において、優先キュー(PQ)は、3行目で空のセットとして初期化される。その後、PQは、外側ループ(r)反復全体で管理される蓄積を伴って、全ての構築された基本分類器候補を蓄積する。12行目において、各反復rで、最小の対象ドメイン誤差を有するPQ内の基本分類器候補が、hr(x)として選択され、この選択された基本分類器候補は、PQから除去(削除)される。代替の実施形態において、3行目および4行目は、PQが各反復rの前に初期化され、当該の反復rにおいて生成された基本分類器候補からのみ、hr(x)の選択が行われるよう、交換される。この場合、12行目の削除部分も除去され得る。
[表]
[表]
図2を引き続き参照すると、一部の実施形態において、クラス事前確率(例えば、対象カメラ10に対する車両ラベル分布28の事前予測)は、ブースト分類器訓練58に組み込まれる。そのために、工程70において、対象ドメイン訓練セットDTは、対象ドメインDTに対するラベル分布の事前予測28に基づいて拡張される。1つの適切な手法において、工程70は、対象ドメイン訓練セットDTに、異なるラベルを有する追加的な合成インスタンスを追加することを備え、ここで合成インスタンスは、ラベル分布の事前予測28を使用して生成されるラベル確率に基づいて計算されるAdaboostアルゴリズムに対する重みベクトルwT iを、初期化している。
実例的な例として、可能なラベル+1および−1でクラスセットY={−1,+1}および確率分布π(y)である、二進分類の場合が考慮される。クラス確率を考慮するために、以下の目的関数が最小化される:
ここで、第1の項L(yi,F(xi))は経験データ適合であり、第2の項KL(π,f(xi))は事前モデル適合である。パラメータλは、これらの2つの項の間のトレードオフを制御する。適応化ブースティングにおいて、経験的損失は、L(yi,F(xi))=ln(1+exp(−yif(x))により与えられる。事前モデル適合を測定するために、式(3)は、事前モデル分布π(xi)と構築されたブースティングモデルf(xi)と関連付けられるラベルの分布との間のカルバックライブラー(KL)ダイバージェンスを使用する。
前述のものを統合すると、最小化の関数は以下のように書かれ得る:
ここで、π+(x)=p(y=+1|x)およびπ−(x)=p(y=−1|x)は、それぞれクラス+1および−1の確率である。この関数は、非負の重みを有するインスタンスの大きなセットに対応する。
式(4)を最小化するために、対象ドメイン訓練データセットDTは、工程70において、各々が単位の重みを有する対象訓練インスタンス(xi,yi)∈DTの全てを含む、より大きな重みの訓練セットへ拡張され、追加的に、各々の元のインスタンス(xi,yi)に対する2つの新しい合成インスタンス、すなわち、重みλπ+(xi)を有する合成インスタンス(xi;+1)および重みλπ−(xi)を有する合成インスタンス(xi;−1)を含む。これらの重みw0は、以下の式にしたがってWtを計算する際に使用される:
ここで、指数iは、新しい訓練セット(合成訓練インスタンスを含む)における例の全てに及ぶ。形式を維持するために、0番目の基本関数h0が、事前確率π+(xi),π−(xi)を始めから組み込むために、追加される。特に、初期の基本分類器h0(x)=σ−1(π+(x))=ln(π+(xi)/π−(xi))が規定され、h0は最終的な分類器fを計算する際に含まれる。
前述の二進の場合から複数クラス(クラスの数がC>2)の場合への拡張は、容易である。各ラベルyiはC次元二進空間yi∈2Cにおけるベクトルであり、ここでk番目のコンポーネントは、インスタンスがクラスkであるかを示す。関数f(x,k)は、インスタンスxがクラスkである、予測確率である。その後、経験的損失は、L(yi,f(xi))=ΣiΣk(1+exp(−yikf(xi,k))となる。
図3を参照すると、実例的な車両分類器16の工程が記載されている。これは、カメラベースの車両ラベリングプロセスの「ラベリング段階」である。車両はカメラ10により撮影され、図1を参照して先に説明されたように、入力画像Iを生成するために、写真に選択的な前処理12が施される。その後、特徴ベクトル抽出コンポーネント40は、入力画像Iを特徴ベクトルへ変換する(または、別の手法では、画像代表特徴ベクトルが入力画像Iから抽出される)。図2の訓練の未整列のソース−対象ドメイン整列50が対象ドメイン整列変換54を生成する場合、入力画像Iを表す特徴ベクトルに適用される。その後、入力画像Iを表す特徴ベクトル(選択的に変換された54)は、車両ラベル18を生成するよう、(図2を参照して既に説明したように、訓練58により出力された)訓練されたブースト分類器60に入力される。選択的に、後処理(図3に図示せず)が、車両種類ラベルを、ルックアップテーブルを使用して金銭的な道路通行料金または課金へ変換する例示的な例などにより、適用されてもよい。
以下の記述において、本明細書に記載される画像および物体ラベリング技術の一部の実例的な評価が説明される。評価は、以下から5個の画像データセットを適用した:ImageCLEF’14 Domain Adaptation challenge(http://www.imageclef.org/2014/adaptation);30,607個の画像の集合を有する256個の物体カテゴリからなる、Caltech−256;ノードごとに平均500個の画像を有する、WordNet hierarchyにしたがって体系化された、ImageNet ILSVRC2012;20個の物体クラスを有する物体クラス認識に対する画像データセットである、PASCAL VOC2012;Caltech−256からの256個のカテゴリ全てを包含し、Bingを使用したテキスト検索を介して収集された、カテゴリごとに300個のウェブ画像で増加される、Bing;および、130,519個の画像が投入された899個のカテゴリを包含する状況理解データセットである、Sun。これらのうち、以下のソースドメインが規定された:S1はCaltechデータセットである;S2はImageNetデータセットである;S3はPASCALデータセットである;および、S4はBingデータセットである。SUNデータセットは対象ドメインの役割を果たした。5個のデータセット全てに共通する12個のクラスが選択された:航空機、バイク、鳥、ボート、ボトル、バス、車、犬、馬、モニタ、オートバイ、人々。各ソースは600個の注釈インスタンスを含み、一方で対象ドメインから、60個のラベル化された訓練画像および600個のラベル化されていないテスト画像インスタンスが取得された。これらのデータは、開示される画像ラベリング技術にしたがって、画像ラベリング実験を行うために使用された。
基準の手法として、対象ドメインデータは単独で使用され(すなわち、いずれのソースデータセットも使用しない)、パラメータおよび核関数の最適なセットを有する基準のSVM分類器(LIBSVMパッケージ,http://www.csie.ntu.edu.tw/cjlin/libsvm/)を訓練した。
別の基準の手法として、Daiらによる、Machine Learningの第24回国際会議の議事録193〜200頁(ACM2007)「Boosting for transfer learning(転送学習に対するブースティング)」の転送AdaBoost(TrAdaBoost)アルゴリズムが使用された。TrAdaBoostは単一ソースのみを使用し得るので、4個のソースドメインは、全てのソースサブセットの網羅的列挙により取得された、24−1=15個の組み合わせに連結された。各組み合わせで、TrAdaBoostアルゴリズムは、対象ドメインに対するブースト分類器を訓練するために使用された。
さらなる評価において、アルゴリズム1は、様々な実験において、N=2,N=3,またはN=4のソースドメインと共に使用された。
さらなる評価において、アルゴリズム1は、様々な実験において、N=2,N=3,またはN=4のソースドメインと共に使用され、図2の選択的な工程70を参照して説明されたように、事前知識πを含むことにより、さらに拡張された。
評価において、パラメータの数は、複数クラスのSVMパラメータおよび核関数、事前知識に対するλトレードオフ、DA手法における重みの初期化、その他を含む、最良性能を取得するために調整された。追加的に、4つの評価された方法の各々は、ICP整列方法を適用する、図2を参照して説明される対象ドメイン50に対するソースの監視されない整列を伴ってテストされた。比較のために、いくつかの評価が、ソース−対象整列を行わずに(すなわち、「ICPなし」)実行された。クラス事前知識πを適用する評価において、全てのC=12クラスは、対象データにおいて同等に表されると推定された。すなわち、π(y)=Uniform(1,C)である。
表1は、異なる分類器訓練方法で取得される最良の正確性を報告する。これらの結果は、テストされたデータセットで、アルゴリズム1が複数のソースドメインで動作するが、複数のソースおよび類似の性能の連結シナリオ、すなわち、ソースを連結することが、分割を維持することと同じくらい有益であったことを示す。これは、4個のテストされたソースデータセットのソースインスタンス間の近接性によるものと思われる。ソースドメインが大きく異なる分布を有する場合において、分割を維持することで、結果の向上が期待される。誤差予測Crの使用が、弱い分類器の前半に対する速すぎる収束および高い感受性など、TrAdaboostのいくつかの欠点に対処するのに役立つと思われる。
クラス事前確率の知識およびフレームワークにおけるそれらの統合は、ラベリング正確性の実質的な向上をもたらした。パラメータλを調整することは容易であり、様々な値がよい性能をもたらした。
実例的な実施形態は、カメラベースの物体ラベリングに関し、または、類似して、カメラにより取得される物体の画像のラベリングに関する。そのような実施形態において、対象ドメインおよび1つ以上のソースドメインは、画像を取得するために使用される各々のカメラにより適切に規定される。実例的な実施形態において、対象ドメインは、システムカメラ10により取得される物体の画像のドメインとして規定され、各ソースドメインS1,…,SNは、システムカメラ以外のカメラにより取得される物体の画像のドメインとして規定される。より一般的には、開示されるラベリング技術は、一般的に様々な機構により生成されるラベル画像に適用され得る。画像ドメインは、画像生成の共通機構に基づいて、そのような実施形態において適切に規定される。さらなる例示的な例によると、手書き分析は、感圧タブレットに書き込む人物により電子的に生成される手書き画像上で動作してよく、この場合カメラは関与しない。この場合の画像ドメインは、異なる人物に対応してよい。例えば、ラベル化対象画像は、感圧タブレットを使用して取得される対象人物により生成される筆跡であってよく、対象ドメイン訓練セットは、対象人物により生成されるラベル化された手書きサンプルであってよく、各ソースドメイン訓練セットは、同じ(または、異なっている可能性もある)感圧タブレットを使用して、単一の人物(対象人物以外)により生成される手書きサンプルであってよい。
Claims (10)
- 対象ドメインに属するラベル化対象画像を、工程によりラベル化するよう構成される電子データ処理デバイスであって、前記工程は、
前記対象ドメインに属し特徴ベクトルxにより表される画像を分類するよう、ブースト分類器fT(x)=ΣM r=1βrhr(x)を訓練することであって、対象ドメイン訓練セットDTを使用する前記訓練は、前記対象ドメインに属する画像を表すラベル化特徴ベクトルを備え、N≧2である複数のソースドメイン訓練セットDS1,…,DSNは、ソースドメインS1,…,SNにそれぞれ属する画像を表すラベル化特徴ベクトルを備え、前記訓練は、前記基本分類器hr(x)および前記ブースト分類器fT(x)の前記基本分類器の重みβrを生成するために、適応化ブースティング(AdaBoost)アルゴリズムを適用することを備え、ここで前記AdaBoostアルゴリズムのr番目の反復は、(i)k番目の副反復が、前記対象ドメイン訓練セットDTと前記ソースドメイン訓練セットDSkとを統合する訓練セット上の基本訓練器候補hk r(x)を訓練する、N回の副反復を行うこと、および、(ii)hr(x)を、前記対象ドメイン訓練セットDTに対する、最小エラーを有する前記基本分類器候補として選択すること、を含む、訓練することと、
前記ラベル化対象画像を表す特徴ベクトルxinを計算することと、
前記ラベル化画像に対するラベルを、評価することfT(xin)=ΣM r=1βrhr(xin)を含む工程により、生成することと、
を含む、電子データ処理デバイス、
を備える、ラベリングシステム。 - 前記ラベリングシステムは、カメラベースの物体ラベリングシステムであって、
物体の画像を取得するよう配置されるシステムカメラであって、
前記対象ドメインは、前記システムカメラにより取得される物体の画像の前記ドメインとして規定され、前記ラベル化対象画像は、前記システムカメラにより取得される、ラベル化対象物体の画像であり、
各ソースドメインS1,…,SNは、前記システムカメラ以外のカメラにより取得される物体の画像の前記ドメインとして規定され、および、
前記電子データ処理デバイスは、前記物体に対するラベルを、前記ラベル化対象画像に対して生成された前記ラベルに基づいて生成するよう、さらに構成される、
システムカメラをさらに備える、請求項1に記載のラベリングシステム。 - 前記ラベル化対象物体の前記画像を、前記物体に対して生成される前記ラベルと共に表示するよう、前記電子データ処理デバイスと動作可能に接続される表示デバイス、
をさらに備える、請求項2に記載のカメラベースの物体ラベリングシステム。 - 前記k番目の副反復は、前記対象ドメイン訓練セットDTおよび前記ソース訓練セットDSkの和集合DT∪DSk上の前記基本分類器候補hk r(x)を訓練する、請求項1に記載のラベリングシステム。
- 前記ブースト分類器fT(x)=ΣM r=1βrhr(x)の前記訓練は、
前記Adaboostアルゴリズムを適用する前に、前記対象ドメイン訓練セットDTおよび前記ソース訓練セットDSk(k=1,…,N)を整列するよう、監視されないソース−対象ドメイン整列を行うこと、
をさらに備える、請求項1に記載のラベリングシステム。 - 前記AdaBoostアルゴリズムの前記r番目の反復は、
(iii)前記ソース訓練セットDSk(k=1,…,N)の前記訓練インスタンスiに対する重みベクトルwSk iを、前記基本分類器hr(x)として選択された前記基本分類器候補の前記対象ドメイン訓練セットDTに対する前記誤差に基づいて更新すること、
をさらに含む、請求項1に記載のラベリングシステム。 - 前記Adaboostアルゴリズムは、基本分類器候補のキューPQを前記Adaboostアルゴリズムの反復全体にわたって管理し、前記選択する工程(ii)は、
(ii)(a)hr(x)を、前記対象ドメイン訓練セットDTに対する最小エラーを有する前記キューPQにおける前記基本分類器候補として選択すること、および、
(ii)(b)前記選択された基本分類器候補を前記キューPQから削除すること、
を含む、請求項1に記載のラベリングシステム。 - 前記ブースト分類器fT(x)=ΣM r=1βrhr(x)の前記訓練は、
前記Adaboostアルゴリズムを適用する前に、前記対象ドメイン訓練セットDTを、前記対象ドメインに対する前記ラベル分布の事前予測に基づいて拡張すること、
をさらに備える、請求項1に記載のラベリングシステム。 - 対象ドメインに属するラベル化対象画像をラベル化するためのラベリング方法であって、前記画像ラベリング方法は、
前記対象ドメインに属する対象ドメイン訓練画像を表す特徴ベクトルを計算することと、
前記対象ドメイン訓練画像を、ラベルのセットから選択されたラベルを使用して、前記対象ドメイン訓練画像を表すラベル化特徴ベクトルを備える対象訓練セットDTを生成するよう、ラベリングすることと、
複数のソースドメイン訓練セットDS1,…,DSNを受信することであって、N≧1は、前記ラベルのセットから選択されたラベルを使用してラベル化された、前記対象ドメインとは異なるソースドメインに属する画像を表す特徴ベクトルを備える、受信することと、
前記対象ドメイン訓練セットDTおよび前記ソース訓練セットDSk(k=1,…,N)を整列させるよう、監視されないソース−対象ドメイン整列を行うことと、
前記対象ドメインに属し特徴ベクトルxで表される画像を分類するよう、ブースト分類器fT(x)=ΣM r=1βrhr(x)を訓練することであって、前記訓練は、前記整列された対象ドメイン訓練セットDTおよび複数のソースドメイン訓練セットDS1,…,DSNを使用し、前記訓練は、前記基本分類器hr(x)および前記ブースト分類器fT(x)の前記基本分類器の重みβrを生成するよう、適応化ブースティング(AdaBoost)アルゴリズムを適用することを備え、ここでr=1,…,Mである、訓練することと、
前記ラベル化対象画像を表す特徴ベクトルxinを計算することと、
前記ラベル化対象画像に対するラベルを、fT(xin)=ΣM r=1βrhr(xin)を評価することを含む工程により、生成することと、
を備え、
ここで、前記特徴ベクトル計算工程、前記訓練工程、および前記生成工程は、電子データ処理デバイスにより行われる、方法。 - 物体を、対象カメラを使用して取得された前記物体の画像に基づいて、ラベル化するための、カメラベースの物体ラベリング方法を行うよう、電子データ処理デバイスにより実行可能な命令を保存する、持続性保存媒体であって、前記カメラベースの物体ラベリング方法は、
前記対象カメラにより取得され特徴ベクトルxにより表される画像を分類するよう、ブースト分類器fT(x)=ΣM r=1βrhr(x)を訓練することであって、前記訓練は、前記対象カメラにより取得された画像を表すラベル化特徴ベクトルを備える対象ドメイン訓練セットDTおよび複数のソースドメイン訓練セットDS1,…,DSNを使用し、ここでN≧2は、前記対象カメラ以外のカメラにより取得された物体の画像を表すラベル化特徴ベクトルを備え、前記訓練は、前記基本分類器hr(x)および前記ブースト分類器fT(x)の前記基本分類器の重みβrを生成するよう、適応化ブースティング(AdaBoost)アルゴリズムを適用することを備え、ここで前記AdaBoostアルゴリズムはr=1,…,Mの反復を含み、前記r番目の反復は複数の基本分類器候補hk r(x)を訓練することを含み、ここで各基本分類器候補hk r(x)は、訓練セットDT∪DSk上で訓練され、hr(x)を事前に訓練された基本分類器候補のセットから選択する、訓練すること、および、
前記物体の前記画像を表す特徴ベクトルxinを計算すること、および、
前記物体に対するラベルを、fT(xin)=ΣM r=1βrhr(xin)を評価することにより生成すること、
の前記工程を含む、持続性保存媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/477,215 US9710729B2 (en) | 2014-09-04 | 2014-09-04 | Domain adaptation for image classification with class priors |
US14/477,215 | 2014-09-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016058079A true JP2016058079A (ja) | 2016-04-21 |
Family
ID=53938230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015161794A Pending JP2016058079A (ja) | 2014-09-04 | 2015-08-19 | クラス事前確率を用いる画像分類のドメイン適応化 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9710729B2 (ja) |
EP (1) | EP2993618A1 (ja) |
JP (1) | JP2016058079A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018200072A1 (en) * | 2017-04-25 | 2018-11-01 | Nec Laboratories America, Inc. | Cyclic generative adversarial network for unsupervised cross-domain image generation |
KR20200063304A (ko) | 2018-11-19 | 2020-06-05 | 한국과학기술원 | 객체 검출 훈련 방법 |
JP2020525920A (ja) * | 2017-08-31 | 2020-08-27 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | 合成および領域適応による視点不変物体認識 |
JP2020166744A (ja) * | 2019-03-29 | 2020-10-08 | オリンパス株式会社 | 学習装置、撮像装置、学習システム、ai情報提供装置、学習方法及び学習プログラム |
JP2021009484A (ja) * | 2019-06-28 | 2021-01-28 | セコム株式会社 | 領域分割装置、領域分割方法、領域分割プログラム、学習装置、学習方法、及び学習プログラム |
EP4020338A1 (en) | 2020-12-25 | 2022-06-29 | Rakuten Group, Inc. | Information processing apparatus and information processing method |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9550120B2 (en) * | 2014-12-08 | 2017-01-24 | Cubic Corporation | Toll image review gamification |
CN105809088B (zh) * | 2014-12-30 | 2019-07-19 | 清华大学 | 车辆识别方法和系统 |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
US9530082B2 (en) * | 2015-04-24 | 2016-12-27 | Facebook, Inc. | Objectionable content detector |
US10296846B2 (en) * | 2015-11-24 | 2019-05-21 | Xerox Corporation | Adapted domain specific class means classifier |
US10424072B2 (en) * | 2016-03-01 | 2019-09-24 | Samsung Electronics Co., Ltd. | Leveraging multi cues for fine-grained object classification |
US9911055B2 (en) * | 2016-03-08 | 2018-03-06 | Conduent Business Services, Llc | Method and system for detection and classification of license plates |
AU2017233723B2 (en) * | 2016-03-17 | 2021-07-01 | Motorola Solutions, Inc. | System and method for training object classifier by machine learning |
CN105868786B (zh) * | 2016-04-01 | 2019-01-04 | 山东正晨科技股份有限公司 | 一种基于自编码预训练深度神经网络的车标识别方法 |
US10579860B2 (en) | 2016-06-06 | 2020-03-03 | Samsung Electronics Co., Ltd. | Learning model for salient facial region detection |
JP6884517B2 (ja) * | 2016-06-15 | 2021-06-09 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN106205144B (zh) * | 2016-09-07 | 2018-06-19 | 东南大学 | 高速公路应急车道占用监督处罚方法和系统 |
EP3336774B1 (en) | 2016-12-13 | 2020-11-25 | Axis AB | Method, computer program product and device for training a neural network |
US11205120B2 (en) * | 2016-12-22 | 2021-12-21 | Samsung Electronics Co., Ltd | System and method for training deep learning classification networks |
US11631236B2 (en) * | 2017-03-14 | 2023-04-18 | Samsung Electronics Co., Ltd. | System and method for deep labeling |
CN107330456A (zh) * | 2017-06-23 | 2017-11-07 | 江南大学 | 一种基于改进AdaBoost算法的集成深度信念网络图像识别方法 |
WO2019016971A1 (ja) * | 2017-07-19 | 2019-01-24 | 日本電気株式会社 | 乗員数検知システム、乗員数検知方法、およびプログラム |
CN107644212B (zh) * | 2017-10-19 | 2019-12-17 | 中国地质大学(武汉) | 一种高光谱遥感图像分类方法、设备及存储设备 |
CN107833216B (zh) * | 2017-11-10 | 2019-10-25 | 西安电子科技大学 | 基于深度曲波差分dsn的极化sar图像变化检测方法 |
US10691976B2 (en) * | 2017-11-16 | 2020-06-23 | Accenture Global Solutions Limited | System for time-efficient assignment of data to ontological classes |
US11347816B2 (en) | 2017-12-01 | 2022-05-31 | At&T Intellectual Property I, L.P. | Adaptive clustering of media content from multiple different domains |
US10521700B2 (en) | 2017-12-14 | 2019-12-31 | Honda Motor Co., Ltd. | Methods and systems for converting a line drawing to a rendered image |
US11200452B2 (en) * | 2018-01-30 | 2021-12-14 | International Business Machines Corporation | Automatically curating ground truth data while avoiding duplication and contradiction |
CN108304876B (zh) * | 2018-01-31 | 2021-07-06 | 国信优易数据股份有限公司 | 分类模型训练方法、装置及分类方法及装置 |
CN108364474B (zh) * | 2018-02-14 | 2020-11-03 | 重庆市城投金卡信息产业股份有限公司 | 基于图像和rfid信息的数据融合处理方法及系统 |
CN108460415B (zh) * | 2018-02-28 | 2021-06-15 | 国信优易数据股份有限公司 | 一种语种识别方法 |
US11501105B2 (en) * | 2018-03-02 | 2022-11-15 | Zoox, Inc. | Automatic creation and updating of maps |
US10140553B1 (en) * | 2018-03-08 | 2018-11-27 | Capital One Services, Llc | Machine learning artificial intelligence system for identifying vehicles |
KR102565278B1 (ko) | 2018-03-26 | 2023-08-09 | 삼성전자주식회사 | 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법 |
CN108629373B (zh) * | 2018-05-07 | 2022-04-12 | 苏州大学 | 一种图像分类方法、系统、设备及计算机可读存储介质 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
KR20210025020A (ko) | 2018-07-02 | 2021-03-08 | 스토워스 인스티튜트 포 메디컬 리서치 | 의사 이미지들을 이용한 얼굴 이미지 인식 |
CN108960193B (zh) * | 2018-07-24 | 2021-09-14 | 中北大学 | 一种基于迁移学习的跨组分红外光谱模型移植方法 |
US10967514B2 (en) * | 2018-08-22 | 2021-04-06 | Abb Schweiz Ag | Apparatus and method to monitor robot mechanical condition |
CN109886303A (zh) * | 2019-01-21 | 2019-06-14 | 武汉大学 | 一种基于粒子群优化的TrAdaboost样本迁移航空影像分类方法 |
CN111476838A (zh) * | 2019-01-23 | 2020-07-31 | 华为技术有限公司 | 图像分析方法以及系统 |
CN109858564B (zh) * | 2019-02-21 | 2023-05-05 | 上海电力学院 | 适用于风电变流器故障诊断的改进型Adaboost-SVM模型生成方法 |
CN110210625B (zh) * | 2019-05-20 | 2023-04-07 | 平安科技(深圳)有限公司 | 基于迁移学习的建模方法、装置、计算机设备和存储介质 |
CN110378236B (zh) * | 2019-06-20 | 2023-04-07 | 西安电子科技大学 | 基于深度学习的车辆身份识别模型构建、识别方法和系统 |
KR102225022B1 (ko) * | 2019-08-27 | 2021-03-08 | 연세대학교 산학협력단 | 사람 재식별 장치 및 방법 |
CN111768629B (zh) * | 2019-11-04 | 2022-04-12 | 北京京东乾石科技有限公司 | 车辆调度方法、装置和系统 |
US11462023B2 (en) | 2019-11-14 | 2022-10-04 | Toyota Research Institute, Inc. | Systems and methods for 3D object detection |
US11315342B2 (en) * | 2019-11-21 | 2022-04-26 | International Business Machines Corporation | Automated explanation of machine learning predictions using classification score targeting |
CN111695456B (zh) * | 2020-05-28 | 2023-12-19 | 钟晓璇 | 一种基于主动判别性跨域对齐的低分辨人脸识别方法 |
CN111914712B (zh) * | 2020-07-24 | 2024-02-13 | 合肥工业大学 | 一种铁路地面轨道场景目标检测方法及系统 |
CN112115768A (zh) * | 2020-08-03 | 2020-12-22 | 中国人民解放军63892部队 | 一种面向复杂电磁环境的雷达辐射源识别方法 |
US11792501B2 (en) | 2020-12-17 | 2023-10-17 | Motorola Solutions, Inc. | Device, method and system for installing video analytics parameters at a video analytics engine |
CN112651173B (zh) * | 2020-12-18 | 2022-04-29 | 浙江大学 | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统 |
CN113159199B (zh) * | 2021-04-27 | 2022-12-27 | 广东工业大学 | 一种基于结构特征增强和类中心匹配的跨域图像分类方法 |
CN113450307B (zh) * | 2021-05-12 | 2023-07-25 | 西安电子科技大学 | 一种产品边缘缺陷检测方法 |
CN113535951B (zh) * | 2021-06-21 | 2023-02-17 | 深圳大学 | 用于进行信息分类的方法、装置、终端设备及存储介质 |
CN113642486A (zh) * | 2021-08-18 | 2021-11-12 | 国网江苏省电力有限公司泰州供电分公司 | 一种具有机载前端识别模型的无人机配网巡检方法 |
CN113569841B (zh) * | 2021-09-23 | 2021-12-28 | 上海启迪睿视智能科技有限公司 | 一种用于线阵相机的数据采集与标注装置及其标注方法 |
CN113868240B (zh) * | 2021-11-30 | 2022-03-11 | 深圳佑驾创新科技有限公司 | 数据清洗方法及计算机可读存储介质 |
US11836909B2 (en) * | 2022-01-26 | 2023-12-05 | Mellanox Technologies, Ltd. | Active learning of product inspection engine |
CN116229442B (zh) * | 2023-01-03 | 2024-05-28 | 武汉工程大学 | 一种文本图像合成和实例化权重的迁移学习方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136828B1 (en) * | 2001-10-17 | 2006-11-14 | Jim Allen | Intelligent vehicle identification system |
US7024033B2 (en) * | 2001-12-08 | 2006-04-04 | Microsoft Corp. | Method for boosting the performance of machine-learning classifiers |
US7769228B2 (en) * | 2004-05-10 | 2010-08-03 | Siemens Corporation | Method for combining boosted classifiers for efficient multi-class object detection |
US20050289089A1 (en) * | 2004-06-28 | 2005-12-29 | Naoki Abe | Methods for multi-class cost-sensitive learning |
US7668790B2 (en) * | 2006-07-27 | 2010-02-23 | The United States Of America As Represented By The Secretary Of The Navy | System and method for fusing data from different information sources with shared-sampling distribution based boosting |
US7786897B2 (en) * | 2007-01-23 | 2010-08-31 | Jai Pulnix, Inc. | High occupancy vehicle (HOV) lane enforcement |
US9087297B1 (en) * | 2010-12-17 | 2015-07-21 | Google Inc. | Accurate video concept recognition via classifier combination |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
-
2014
- 2014-09-04 US US14/477,215 patent/US9710729B2/en active Active
-
2015
- 2015-08-19 JP JP2015161794A patent/JP2016058079A/ja active Pending
- 2015-08-20 EP EP15181884.6A patent/EP2993618A1/en not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018200072A1 (en) * | 2017-04-25 | 2018-11-01 | Nec Laboratories America, Inc. | Cyclic generative adversarial network for unsupervised cross-domain image generation |
JP2020525920A (ja) * | 2017-08-31 | 2020-08-27 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | 合成および領域適応による視点不変物体認識 |
JP2021073545A (ja) * | 2017-08-31 | 2021-05-13 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | 車両監視のためのシステムおよび方法 |
JP7241059B2 (ja) | 2017-08-31 | 2023-03-16 | エヌイーシー ラボラトリーズ アメリカ インク | 車両監視のためのシステムおよび方法 |
KR20200063304A (ko) | 2018-11-19 | 2020-06-05 | 한국과학기술원 | 객체 검출 훈련 방법 |
JP2020166744A (ja) * | 2019-03-29 | 2020-10-08 | オリンパス株式会社 | 学習装置、撮像装置、学習システム、ai情報提供装置、学習方法及び学習プログラム |
JP7200030B2 (ja) | 2019-03-29 | 2023-01-06 | オリンパス株式会社 | 学習装置、撮像装置、学習システム、ai情報提供装置、学習方法及び学習プログラム |
JP2021009484A (ja) * | 2019-06-28 | 2021-01-28 | セコム株式会社 | 領域分割装置、領域分割方法、領域分割プログラム、学習装置、学習方法、及び学習プログラム |
JP7386006B2 (ja) | 2019-06-28 | 2023-11-24 | セコム株式会社 | 領域分割装置、領域分割方法、領域分割プログラム、学習装置、学習方法、及び学習プログラム |
EP4020338A1 (en) | 2020-12-25 | 2022-06-29 | Rakuten Group, Inc. | Information processing apparatus and information processing method |
US12002488B2 (en) | 2020-12-25 | 2024-06-04 | Rakuten Group, Inc. | Information processing apparatus and information processing method |
Also Published As
Publication number | Publication date |
---|---|
US9710729B2 (en) | 2017-07-18 |
EP2993618A1 (en) | 2016-03-09 |
US20160070986A1 (en) | 2016-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016058079A (ja) | クラス事前確率を用いる画像分類のドメイン適応化 | |
US10417816B2 (en) | System and method for digital environment reconstruction | |
Tang et al. | Vehicle detection and recognition for intelligent traffic surveillance system | |
Wojek et al. | A dynamic conditional random field model for joint labeling of object and scene classes | |
JP6687364B2 (ja) | 画像署名をフィッシャーベクトルとマッチングするための適応型語彙 | |
US9443320B1 (en) | Multi-object tracking with generic object proposals | |
Chen et al. | Road marking detection and classification using machine learning algorithms | |
Nam et al. | Vehicle classification based on images from visible light and thermal cameras | |
Teichman et al. | Towards 3D object recognition via classification of arbitrary object tracks | |
US20160078306A1 (en) | System and method for detecting seat belt violations from front view vehicle images | |
US20100054535A1 (en) | Video Object Classification | |
US20100054540A1 (en) | Calibration of Video Object Classification | |
Hong et al. | Fast multi-feature pedestrian detection algorithm based on histogram of oriented gradient using discrete wavelet transform | |
Chandran et al. | Missing child identification system using deep learning and multiclass SVM | |
Mittal et al. | Review of different techniques for object detection using deep learning | |
Awang et al. | Vehicle counting system based on vehicle type classification using deep learning method | |
CN111539351A (zh) | 一种多任务级联的人脸选帧比对方法 | |
Bourja et al. | Real time vehicle detection, tracking, and inter-vehicle distance estimation based on stereovision and deep learning using YOLOv3 | |
Kalita et al. | Real-time human detection with thermal camera feed using yolov3 | |
Chen et al. | Deep-learning-based road crack detection frameworks for dashcam-captured images under different illumination conditions | |
Gabriel et al. | Analysis of the discriminative generalized Hough transform as a proposal generator for a deep network in automatic pedestrian and car detection | |
Aishwarya et al. | Multilayer vehicle classification integrated with single frame optimized object detection framework using CNN based deep learning architecture | |
Mokalla et al. | Face detection in MWIR spectrum | |
Zheng et al. | Multispectral image fusion for vehicle identification and threat analysis | |
Calitz et al. | Automated license plate recognition using existing university infrastructure and different camera angles |