JP2017527937A - 画像認識システム及び方法 - Google Patents

画像認識システム及び方法 Download PDF

Info

Publication number
JP2017527937A
JP2017527937A JP2017534514A JP2017534514A JP2017527937A JP 2017527937 A JP2017527937 A JP 2017527937A JP 2017534514 A JP2017534514 A JP 2017534514A JP 2017534514 A JP2017534514 A JP 2017534514A JP 2017527937 A JP2017527937 A JP 2017527937A
Authority
JP
Japan
Prior art keywords
feature data
vector
pbr
digital image
host computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017534514A
Other languages
English (en)
Other versions
JP6628803B2 (ja
Inventor
ムスカラッパン スワミナサン,
ムスカラッパン スワミナサン,
トビアス シェーブロム,
トビアス シェーブロム,
イアン チョン,
イアン チョン,
オブドゥリオ パイロット,
オブドゥリオ パイロット,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Temasek Life Sciences Laboratory Ltd
Original Assignee
Temasek Life Sciences Laboratory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Temasek Life Sciences Laboratory Ltd filed Critical Temasek Life Sciences Laboratory Ltd
Publication of JP2017527937A publication Critical patent/JP2017527937A/ja
Application granted granted Critical
Publication of JP6628803B2 publication Critical patent/JP6628803B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Abstract

デジタル画像分類のための改良されたシステム及び方法が提供される。プロセッサを有するホストコンピュータが、基準特徴データを記憶するメモリに結合される。プロセッサを有するグラフィックス処理ユニット(GPU)が、ホストコンピュータに結合され、かつ、ホストコンピュータから、デジタル画像に対応する特徴データを取得し、メモリから、1つ以上の基準特徴データにアクセスし、特徴データと1つ以上の基準特徴データとの間のポアソン二項分布に基づいて、半計量距離を判断するように構成される。ホストコンピュータは、判断された半計量距離を使用してデジタル画像を分類するように構成される。【選択図】図3a

Description

発明の背景
本発明は、一般に、画像認識のための改良されたシステム及び方法に関する。より詳細には、本発明は、デジタル画像におけるパターン認識のためのシステム及び方法に関する。更により詳細には、本発明は、ポアソン二項分布に基づくポアソン二項半径(PBR:Poisson−Binomial Radius)と呼ばれる新しくかつ新規な半計量(semi−metric)距離測度を利用して画像分類及び認識機能を行うためのシステムならびに方法に関する。
機械学習方法、例えば、サポートベクターマシン(SVM)、主成分分析(PCA)、及びk最近傍法(k−NN)などは、距離測度を使用して、データ点間の相対的な相違点を比較する。適切な距離測度を選択することが、根本的に重要である。最も広く使用されている測度は、平方距離の合計(Lまたはユークリッド)及び絶対差の合計(Lまたはマンハッタン)である。
どれを使用するかという質問は、最尤法(ML)の観点から回答され得る。簡潔に言うと、Lは、i.i.d(独立同一分布)のガウス分布に従うデータのために使用されるのに対して、Lは、i.i.dのラプラス分布データの場合において使用される。[1]、[2]を参照。その結果として、基となるデータ分布が既知であるかまたはうまく推定されるときに、使用される計量が判断され得る。
問題は、入力変数についての確率分布が未知であるかまたは同一でないときに生じる。画像取得を例に取ると、現代のデジタルカメラによって取り込まれる画像は、ノイズによって常に損なわれる。[3]を参照。例えば、電荷結合デバイス(CCD)センサの出力は、種々のノイズ成分、例えば、光子ノイズ、固定パターンノイズ(FPN)などを有用な信号と共に運ぶ。[4]を参照。その上、画像は、信号増幅及び伝送の間のノイズによって損なわれる傾向がある。[5]を参照。その文献において見出される最も一般的な種類のノイズのうちのいくつかは、付加的な、衝撃または信号依存ノイズである。しかしながら、現代のデジタルカメラによって生成されるノイズの種類及び量は、カメラ設定(口径、シャッター速度、ISO)に加えて、具体的な詳細、例えば、カメラのブランド及びシリーズ名などに依存する傾向がある。[6]を参照。更に、メタデータの損失を結果としてもたらす画像ファイル形式変換及びファイル転送が、この問題に加えられ得る。取り込まれた画像にノイズが無いように見える場合でさえも、その画像は、依然として、人間の目で知覚できないノイズ成分から成り得る。[7]を参照。特徴記述子が、かかる異種ノイズ源にさらされることを考慮すると、かかる記述子は、したがって、独立であるが非同一に分布される(i.n.i.d)ことを仮定することが妥当である。[8]を参照。
入力変数が独立かつ同一に分布される(i.i.d)という仮定は、大部分の距離測度に固有のものである。生物学的シーケンシングデータ分析及び他の分野における最近の進歩は、実際には、入力データがi.i.d仮定に従わないことが多いことを実証した。この食い違いを考慮に入れることが、より正確な決定ベースのアルゴリズムにつながることが示されている。
いくつかのスレッドが、半計量距離測度の開発に寄与した。第1は、距離計量とみなすために距離測度によって満たされる必要がある公理に関する。これらは、非負性、対称性、反射性、及び三角不等式の公理である。三角不等式公理を満たさない測度は、定義によれば、半計量距離と呼ばれる。
距離計量は、大部分の適用において広く使用されるが、公理のうちのいくつか、特に、三角方程式の必要性を疑う正当な理由が存在している。例えば、人間被験者に画像認識タスクを行うよう依頼すると、統計的に有意な様態で三角不等式公理に反することが示されている。[9]を参照。別の例では、Labelled Faces in the wild(LFW)及びCaltech101データセットを使用する画像認識のための最高のパフォーマンスをするアルゴリズムによって作り出される距離スコアもまた、三角不等式に反することが示されている。[10]を参照。
別のスレッドは、「次元の呪い」を伴う。特徴空間における次元の数が増えるにつれて、任意の所与のクエリに対する最近傍及び最遠傍の距離の比率は、最も妥当なデータ分布及び距離関数についての統一体に集束する傾向がある。[11]を参照。データ点間の乏しいコントラストは、高次元空間における最近傍探索が無意味になることを含意する。その結果として、わずかなL半計量[12]が、コントラストを保持する手段として生成された。(x,y)が、一連の独立同一分布(i.i.d)型の無作為ベクターである場合、L距離は、
として定義される。
p=1を選ぶとマンハッタン距離を与え、p=2を選ぶとユークリッド距離を与える。pε(0,1)の値の場合、Lは、わずかなL距離測度を与える。
距離とL距離を比較する顔及び合成画像のためのテンプレート照合研究では、画像がノイズ及び遮蔽で劣化されたときに、pεの値(0.25、0.75)がLの性能を上回った結論付けた。[13]を参照。他のグループもまた、L距離を使用して、合成画像と実際の画像を照合した。[14]を参照。内容に基づく画像検索のためにL距離を使用する案が、Howarth et al[15]によって探求されており、結果は、p=0.5が検索性能の改良をもたらし得、L及びLノルムの両方の性能を一貫して上回り得ることを示唆する。
言及すべき他の半計量距離は、動的部分関数(DPF:Dynamic Partial Function)[16]、Jeffrey Divergence(JD)[17]、及び正規化編集距離(NED:Normalized Edit Distance)[18]である。
今日まで、距離測度は、独立非同一分布(i.n.i.d.)型の分布を扱うパターン認識では実証されていない。それゆえ、パターン認識のための改良されたシステム及び方法のニーズが存在する。
本発明によれば、ポアソン二項分布に基づくポアソン二項半径(PBR)と呼ばれる新しい半計量距離を利用するパターン認識のためのシステム及び方法が提供される。本発明は、非常に多くの非限定的な利点をもたらす。例えば、本発明は、独立同一分布(i.i.d.)仮定を避けると共に独立非同一分布(i.n.i.d.)特徴記述子を考慮するロバストな半計量を含み、ノイズのある状況における劣化に対するロバスト性を更に実証する。その上、本発明は、処理を削減すること及び効率を向上させることによって、パターン認識デバイス自体の効率を向上させる。
本発明の態様によれば、システム及び方法は、実時間用途に適している。例えば、本発明の実施形態によれば、実現形態特徴は、グラフィックス処理ユニット(GPU)を使用して並列化される。
本発明の他の態様によれば、小さな訓練サンプルセットにも関わらず、高い分類精度を達成する新しい分類器が導入される。本発明の他の態様によれば、分類器は、最適化のために訓練フェーズまたは交差検証を必要とせずに、より多くのクラスを取り扱うように容易に一般化され得る。
本発明の態様によれば、パターン認識のための新しい距離測度は、入力が同一に分布されるという仮定を避けるポアソン二項分布に基づく。発明者らは、本明細書に記載される実験においてこの新しい測度を試験した。1つの実験は、デジタル化された人間の画像と猫の画像を区別するための二値分類タスクであった。別の実験は、2つの画像ライブラリからコンパイルされる耳のデジタル化画像の識別であった。これらの実験の両方において、この測度の性能が、ユークリッド、マンハッタン、及びわずかなL距離測度に対して比較された。これらの2つの実験についての特徴抽出は、形状及びテクスチャ情報を捕捉するためにGPU並列型の勾配方向ヒストグラム(HOG)を使用して達成した。
発明者らは、本発明が、上述した先行技術の距離測度を使用したパターン認識方法の性能を一貫して上回ることを実証した。その上、それらの結果は、提案された距離測度が、機械学習アルゴリズムの有効性を改良できることを示す。
本発明の態様によれば、画像分類システムが提供される。本システムは、受信された画像についてHOG特徴の計算を行うための、及び計算されたHOG特徴を訓練画像の記憶HOG特徴と比較するためのGPUを含む。本システムは、PBRに基づく最も近く合致する訓練画像に基づいて画像を分類する。
本発明の態様によれば、画像分類システムは、癌細胞を正常細胞から区別するために使用され得る。
本発明の態様によれば、画像分類システムは、指紋を照合するために使用され得る。
本発明の態様によれば、画像分類システムは、DNAまたはRNAシーケンシングデータにおける希少変異体を同定するために使用され得る。
本発明の態様によれば、画像分類システムは、顔を認識するために使用され得る。
本発明の態様によれば、PRICoLBPが、HOGの代替案として使用されてもよい。同様に、SVMカーネルが、kNNの代替案として使用されてもよい。
本発明の様々な実施形態の更なる適用及び利点は、図面を参照して以下に記述される。
DNAシーケンシング分析のための出力確率質量関数を例示する。 DNAシーケンシング分析のための出力確率質量関数を例示する。 それぞれ、(a)LFWデータセット及び(b)猫のデータセットからの画像例である。 それぞれ、(a)LFWデータセット及び(b)猫のデータセットからの画像例である。 本発明のある実施形態に係る画像認識のための例示的な実現形態アーキテクチャのブロック図である。 本発明のある実施形態に係るDNA希少変異体検出のための例示的な実現形態アーキテクチャのブロック図である。 本発明の実施形態に係る画像認識を行うための基本フローチャートである。 訓練画像の数の関数とした分類精度のグラフである。 異なる距離測度を使用する画像分類適用についての計算時間の比較の棒グラフである。 (a)IIT Delhi I及び(b)IIT Delhi IIデータベースについての累積照合曲線(CMC)をそれぞれ例示する。 (a)IIT Delhi I及び(b)IIT Delhi IIデータベースについての累積照合曲線(CMC)をそれぞれ例示する。 (a)IIT Delhi I及び(b)IIT Delhi IIデータベースについての順位1の認識性能へのノイズの影響をそれぞれ例示する。 (a)IIT Delhi I及び(b)IIT Delhi IIデータベースについての順位1の認識性能へのノイズの影響をそれぞれ例示する。
本発明は、異なる形態に具体化されてもよいが、本開示は本発明の原理の例を提供するものと考えられ、かかる例は、本発明を本明細書に記載及び/または例示される好適な実施形態に限定することを意図されないという理解をもって、いくつかの例示的な実施形態が、上記図面を参照して次に記載される。
ポアソン二項分布は、独立であるが非同一の成功確率(p、...、p)を所与とすると、n個の成功についての確率質量関数によって定義される。これらの事象は、確率空間(Ω,F,P)内に存在する。分布は単峰形であり、平均μはpの和であり、その場合、iは1からNまで増分し、分散値σは(1−p)pの和であり、その場合、iは1からNまで増分する。
この分布の特別な場合は、pが全てのiについて同じ値を有する二項分布である。ポアソン二項分布は、幅広い分野、例えば、生物学、画像化、データマイニング、生命情報学、及び工学などにおいて、使用され得る。ポアソン二項分布をポアソン分布に近似することは普及しているが、この近似は、
によって与えられるLe Camの定理[19]によって定義される誤差についての境界から明らかなように、入力確率が小さいときにのみ有効である。式中、P(Ωn)は、ポアソン二項領域におけるn個の成功確率を与え、λは、ポアソンパラメータである。
ポアソン二項分布は、研究応用における増加的使用を発見した。Shen et al[20]は、大規模な分子データベース、例えば、KEGG及びPubChemなどからの、代謝物同定のための機械学習アプローチを開発した。分子指紋ベクターは、ポアソン二項分布されるように取り扱われ、その結果として生じるピーク確率が、候補検索のために使用された。同様に、Lai et al.[21]は、リン酸化部位認識に基づいてキナーゼ基質を予測する統計的モデルを開発した。重要なことに、共通配列への観察的合致の確率が、ポアソン二項分布を使用して計算された。他のグループ[22]、[23]は、腫瘍サンプルにおけるゲノム異常を同定するためにこの分布を使用した。
異常事象の確率はサンプルによって変動するので、個々のDNA塩基位置は、各サンプルにおける1つ1つの位置における遺伝子異常の可能性を確認するために等しくない成功確率を有する独立したベルヌーイ試行として扱われる。同じ推論に従って、希少変異体を正確に呼び出すモデル[24]、[25]が提案された。
本発明は、とりわけ、シーケンシングクオリティスコアに基づいてDNAシーケンシング分析の精度を改良することを追求する。1つ1つの配列されたDNA塩基のために利用可能にされた各スコアは、出力値が正確に呼び出された確率を反映する。例えば、ある特定の位置についてN個の独立した読取りが存在する場合には、シーケンス分析ソフトウェアが、その位置における各読取りについてクオリティスコアqを生成し、それは、読取り誤差の確率を考慮に入れる。正確な読取りの含意的な確率は、
それぞれの配列された位置の同一性は、同じ位置の複数の読取り、場合によっては、数千もの番号付けに基づいて呼び出されるので、ベルヌーイ事象のような各読取りは、その位置についての関連したクオリティスコアを使用してそれぞれ配列された位置についての確率分布を構築するように扱われて追求された。この確率分布を計算する効率的な手法が見付かっており、以下に記載される。
ウェアリングの定理の使用
確率空間(Ω,F,P)に存在する独立であるが非同一の事象を記載するようにp、...、pを定義する。Zは、p、...、pから引き出される全ての固有のk個の組み合わせの和として更に定義される。それゆえ、形式上、以下となる。
式中、空集合上の交差は、Ωとして定義される。それゆえ、Z=1であり、和は、添字1、...、Nの全ての部分集合I上を動き、それは、厳密にk個の要素を含む。例えば、N=3である場合には、
次いで、ウェアリングの定理[26]を使用して、全ての冗長的に計数された積集合について正規化することによって、Zに関してP(n)を定義し、それは、Schuette−Nesbitt式[27]の特別な場合である。
包除定理は、n=0によって与えられる。Zを計算する拡張可能な手段が、アルゴリズム1に記載される。
このアプローチの主な利益は、増加するNの値と共に時間複雑性における指数的に増大する減少である。これは、冗長性を最小限にするためにブロックにおいて計算をグループ化するアルゴリズムの動的プログラミング特徴から生じる。この自己相似性の再帰構造は、組み合わせ的爆発を回避することによって計算を実現可能にさせる。このアプローチを使用すると、計算される必要があるブロックの総数がNで増え、算術和N/2*(1+N)によって記載される。
このアプローチの別の利点は、各列の要素を並列に計算する能力である。これは、時間複雑性が、並列化なしのO(N)から、完全に並列化を実施されるO(N)へと減ることを意味する。更なる改良が、逆方向に行列要素を計算することによってなされてもよく、それによって、行列Aの並列計算のための連携方法を提供する。これは、アルゴリズム1において定義された再帰関数に加えて、2つの再帰関数、ai,N=a1,N(Zi−1−ai−1,N)及びai,j=a1,j・(ai,j+1/a1,j+1−ai−1,j)を同時に使用することによって達成される。上記した方法は、同時確率質量関数(p.m.f.)の効率的な手段を提供する。N=6の場合がここで実証され、Z列が、適切な二項係数で掛算される。
同じpmfが、以下に記載される代替方法を使用して生成されてもよい。
高速フーリエ変換
前と同じ定義を使用して、任意の特定の組み合わせωの確率が、発生及び非発生事象の組み合わせの積として書かれ得る。
Ωが、n個の発生及びN−n個の非発生から結果として生じる全ての可能な対をなすI及びIの組の対応するサンプル空間であるように定義される場合には、
上記式は、発生及び非発生の全ての可能な組み合わせの積算確率であるとして、直観的に理解できる。観察によって、N次多項式の係数としてP(Ω)を表わすように多項式を構築することが可能である。
上記多項式についての係数が、次いで、離散フーリエ変換に基づくアルゴリズムを使用して容易に解かれ得る。関連する係数ベクターは、以下のように効率的に計算され得る。
実際に言うと、ベクターは、2の冪の長さまで先行ゼロを用いてパディングされ得、次いで、IFFT−1(FFT(a)・FFT(b))を使用して対で反復処理され得る。ここで、a及びbは、任意の対のベクターを表わす。高速フーリエ変換(FFT)のGPU実現形態を使用して、複数入力が、インターリーブされた入力及び逆畳み込みされた出力の簡易スキームを使用して並列に処理され得る。この関数は、i番目のタプルが引数シーケンスまたはイテラブル(iterable)のそれぞれからi番目の要素を含む、タプルのリストを返す。
DNAシーケンシング。
本発明の1つの重要な適用は、数千もの読取りがDNA塩基位置毎に分析される必要がある次世代DNAシーケンシングデータセットの分析である。ある特定の塩基位置が癌に突然変異される場合には、かかる変異体の検出が、理想的な診断であろう。現実には、変異体DNAは、低比率で正常なDNAと混合されることが多く、課題は、同じ塩基位置において検出される2つの矛盾する状態を所与として統計的信頼度を計算することである。これは、これらの矛盾する状態をベルヌーイの事象として扱うこと、及び上記した2つの方法のいずれかを使用してp.m.f.を構築することによって達成され得る。出力例は、図1a及び1bに例示される。
これらのp.m.f.から計算される信頼区間は、次いで、変異体塩基状態の証拠が有意に閾値を十分に上回るかどうかに関する決定を可能にする。本発明の態様によれば、同様の原理が、パターン認識用途、特に、画像分析に関するものに適用され得る。これは、画素強度は単に無作為の変数として見なされ得るという事実によって裏付けられ得、それは、量子物理学の法則[28]によって支配されるので、真値を有しない。
ポアソン二項半径半計量距離
全ての対をなす距離比較について信頼区間を計算することは、大規模な画像データセットでは計算集約的であろう。この費用を防いで効率を向上させるために、距離測度が、独立に、ただし非同一に分布される特徴記述子について、以下のように定義され得る。
定義。p=|a−b|で、2つのN次元の特徴ベクターX=(a、a、a、....、a)及びY=(b、b、b3、....、b)を所与とすると、2つのベクター間の距離は、
であり、
式中、mはモードであり、P(m)は分布のピーク確率である。Darroch[29]は、モードmが、以下のように境界付けられ得ることを前に示した。
式中、0≦n≦Nである。これは、mが平均μとは1未満だけ異なることを含意する。それゆえ、モードmは、極大値であるが、平均μで近似される。これは、
を与える。
更なる改良が、
によって与えら得るポアソン二項分布の過剰尖度を考慮することによってなされてもよい。式中、σは、p.m.f.の分散値である。σを伴う分布のピーク間の逆関係は、p(Ωμ)とσの同様の関係を含意する。この逆関係はまた、ベルヌーイ試行の和について以下のシャープで均一な上界を確立したBaillon et al[30]の研究と矛盾しない。
式中、ηは上界定数である。この逆関係の含意は、σがP(Ωμ)の代用測度として採用され得、それによって、各距離計算のためにp.m.f.を生成する必要性を回避することである。それゆえ、独立かつ非同一の特徴記述子についての以下の半計量が、定義され得る。
=|a−b|で、2つのN次元の特徴ベクターX=(a、a、a、....、a)及びY=(b、b、b、....、b)を所与とすると、2つのベクター間のポアソン二項半径距離は、
である。
PBR(X,Y)は、半計量である。関数d:X×X→[0,1]は、{x,y}Xについて以下の特性、すなわち、(1)非負性、d(X,Y)≧0、(2)対称特性、d(X,Y)=d(y,x)、及び3)反射性、d(x,x)=0を満たす場合、ある設定されたX上の半計量である。PBRは、非負関数であり、反射特性を満たす。絶対値のみが使用されるので、PBRはまた、対称特性も満たす。PBR及びPBμが実用的な目的のための同等の距離測度であることを示す以下の表4を参照。
画像分類適用
画像分類は、画像のデジタルコンテンツの分析(例えば、画素データの分析)に基づいて、デジタル画像を指定されたクラスに割り当てるコンピュータ自動化プロセスである。かかるプロセスの最も一般的な使用は、画像検索におけるものであるか、またはより具体的には、コンテンツをベースとする画像検索(CBIR)である。CBIRは、クエリ画像から自動的に抽出された特徴に基づいて、1つ以上のデジタル画像リポジトリから厳密に合致したまたは類似の画像を検索するプロセスである。医療診断、知的財産、犯罪捜査、リモートセンシングシステム、ならびに画像保管及び管理システムにおける非常に多くの実用的かつ有用な用途が見付かっている。[31]を参照。
あらゆるCBIRシステムにおける主要目的は、高い検索精度及び低い計算複雑性である(本発明は、その両方を改良する)。画像検索の前に画像分類ステップを実施すると、検索精度を上げることができる。その上、計算複雑性もまた、このステップによって低減され得る。
をクラス毎の訓練画像の数とし、Nをクラスの数とし、Nを画像毎の特徴記述子の数とする。典型的なCBIRシステムの計算複雑性は、O(N・N・N+(N・N)・log(N・N))である。[34]を参照。対照的に、事前分類ステップの追加は、複雑性をO(N・N・log(N・N))+O(N・N+N・log(N))に減らす。第1の項は、ナイーブベイズ(Narve−Bayes)最近傍分類器[35]を使用する画像事前分類を表し、第2の項は、CBIRプロセス自体を表す。
いくつかの見通しを与えるために、N=100、N=10、及びN=150の場合を考える。前者と比較して後者の計算複雑性は、7倍の処理速度の向上を結果としてもたらす。それゆえ、画像事前分類は、CBIR性能を改良する。
猫の頭部及び顔の検出は、研究者の最近の関心を集めており、インターネット上での及び人間の伴侶としてそれらの人気を反映する[36]、[37]、[38]、[39]。猫は、パターン認識に対する興味深い課題を提示する。人間に類似する顔の形状を共有するが、人間の顔を検出するためのアプローチは、人間と比較して猫の顔の特徴及び猫のテクスチャ間の大きなクラス内変動が原因で、猫に直接的に適用されることができない。本発明は、その2つを区別することができるPBRをベースとする分類器である。
Labelled Faces in the Wild(LFW)画像データセット(図2a)は、[40]の著者によって作成され、猫データセット(図2b)は、[36]の著者によって作成された。これらは、13,233個の人間の画像及び9,997個の猫の画像から成る。ある例では、各クラス内で、画像の70%が訓練のために、及び残りの30%が試験のために無作為に分配された。
本発明の態様によれば、本明細書に記載されるような画像分類を行うことができる画像分類システムが、図3aに示される(また、図3cに示される基本プロセスを参照)。図示されるように、システムは、メモリ(図示しない)にアクセスできる、ホストコンピューティングシステム(例えば、CPU)と結合されたグラフィックスプロセッサを含む。図3aに示されるように、ホストは、訓練画像についての記憶された画像または画像データにアクセスすることができる。以下に記載されるように、各画像は、特定の適用に基づいて選択され得る標準サイズ(例えば、250×250画素)にサイズ変更される。サイズ変更後、勾配方向ヒストグラム(HOG)が特徴抽出のために使用される。HOGデータは、実行中に生成(または再生成)される必要がないように、各訓練画像について記憶され、アクセスされ得る。分類される画像(図3a上の、試験画像)は、画像源、例えば、メモリ、ネットワーク、または画像取込システム(カメラ、スキャナ、もしくは他の画像化デバイス)などから、ホストにおいて受信される。画像は、標準サイズにサイズ変更される。サイズ変更後、勾配方向ヒストグラム(HOG)が特徴抽出のために使用される。
HOGデータは、更なる処理のためにGPUに入力される。配向が計算され、ヒストグラムが生成される。ヒストグラムは、(図示されるように、ホストによって、)正規化される。PBR計算は、訓練画像データ及び試験画像データの両方について行われる。勿論、PBR計算は、訓練画像及びその結果の記憶に先駆けて行われてもよい。最終的に、比較は、PBR結果を使用して最も近い合致を見出すことによって画像を分類するように行われる。例えば、(以下の)アルゴリズム2が、利用されてもよい。
一例では、GPU並列型バージョンの勾配方向ヒストグラム(HOG)[41]が、特徴抽出のために使用された。適応性の局所平均をベースとするk最近傍法(ALMKNN)と呼ばれる分類器が使用され、それは、Mitani et al[42]において使用された局所平均をベースとする非パラメトリック分類器の修正である。ALMKNNは、GPU上に部分的に実現される。
HOG特徴は、NVIDIAの計算統合デバイスアーキテクチャ(CUDA:Compute Unified Device Architecture)フレームワークを使用してGPUで実現されてもよい。HOG特徴は、ある画像における勾配の空間分布を表わすことによって外観及び形状を抽出する手段として、Navneet Dalal及びBill Triggs[41]によって最初に記載された。これは、歩行者検出[43]、車両検出[44]、及びジェスチャ認識[45]に適用されている。一実施形態によれば、矩形(rectangular)−HOG(R−HOG)変異体[46]が、以下に記載されるように使用される。
本発明の別の態様によれば、DNAシーケンシング、例えば、腫瘍生検の場合では、例えば希少変異体検出などのためのシステム及び方法が提供されてもよい。シーケンシングクオリティ確率のベクターXは、X=(x、x、x、....、xdx)であるようにシーケンシング深さdを有する単一塩基位置における入力DNAサンプルからのものであり、類似のベクターYは、Y=(y、y、y、....、ydy)であるように深さdまで配列された基準DNAサンプルからのものである。両方のベクターについて、以下のように平均(μ)及び標準偏差(σ)を計算する。
ベクターX及びYを比較するために、PBRseqが、以下のようにXとYとの間の距離であるように定義され得る。
小さなPBRseq値は、腫瘍サンプルの可能性が高いことを示す。分類目的のために、サンプルXがPBRseq≦Tである場合に腫瘍として分類されるが、それ以外の場合には正常として分類されるような単純な閾値Tが定義され得る。
図3bに示されるように、DNAシーケンシングのためのシステムが提供される。図3bに示されるように、システムは、3aのシステムに類似するが、ベクターデータを使用するDNAシーケンシングのための上記方法を実施する。図示されるように、上記したような入力クオリティスコアベクターは、入力確率ベクターに変換され、それは、ホストによって達成され得る。基準確率ベクターが、前もって提供され得るかまたはホストによって計算され得、GPUに提供され得る。GPUは、2つの確率ベクターを受信し、入力ベクターと基準ベクターとの間のPBRseq距離を計算するように構成される。その距離は、DNAシーケンスを分類するために使用され、ホストは、割り当てられたクラスの指示を出力する。
勾配計算。
入力画像l(x,y)を所与とすると、1−D空間導関数l(x,y)及びl(x,y)が、X及びY方向に勾配フィルタを適用することによって計算され得る。各画素についての勾配の大きさMag(x,y)及び配向(x,y)は、
を使用して計算され得る。
ヒストグラム蓄積。
ヒストグラムは、セルと呼ばれる局所空間領域にわたって各画素の勾配の大きさを対応する配向ビンに蓄積することによって生成され得る。照明及びコントラストの影響を減らすために、ヒストグラムは、画像全体にわたって正規化される。最終的に、HOG記述子が、全てのセルの正規化されたヒストグラムをただ1つのベクターに連結させることによって形成される。
一例では、上記したHOGアルゴリズムが、PyCUDA toolkit[47]のバージョン2012.1及びNVIDIA CUDA Toolkitのバージョン5.0を使用して実現され、GeForce GTX560Tiグラフィックスカード上で実行された。各画像は、250×250(62,500画素)にサイズ変更され、次いで、それぞれ50×50画素の、25個のセルに等しく細分化された。62,500画素に対処するために、65,536スレッドが、ブロック毎に32×32スレッド及びグリッド毎に8×8ブロックを有するGPUにおいて生成された。ホストとGPUの両方内へのメモリの割り当て後、カーネルが起動される。
勾配の大きさ、配向、及びヒストグラムは、ヒストグラムがホストに転送された後に計算されてもよく、そこで、全画像にわたる正規化が実行される。
分類モジュール
分類器は、パラメトリックまたは非パラメトリックのいずれかであり得る。パラメトリック分類器は、一般に正規分布である、各クラスについての統計的分布を仮定する。訓練データは、分類モデルを構築するためにのみ使用され、次いで、完全に廃棄される。それゆえ、それらは、モデルベースの分類器または積極的(Eager)分類器と呼ばれる。比較すると、非パラメトリック分類器は、データの確率分布について仮定せず、記憶された訓練データのみに基づいて試験タプルを分類し、したがって、インスタンスベースまたは怠惰(Lazy)分類器としても知られる。パラメトリック分類器の典型的な例は、分類器パラメータの集約的訓練フェーズを要求するサポートベクターマシン(SVM)アルゴリズムであり[48]、[49]、[50]、逆に、最もよく知られた非パラメトリック分類器のうちの1つは、k最近傍法(kNN)分類器である。
kNN[51]は、その簡単さ及び有効性のおかげで、パターン認識問題において広く使用されている。その上、それは、データマイニング[52]における上位10位のアルゴリズムのうちの1つであると考えられる。kNNは、各クエリパターンを、訓練セットにおけるそのk最近傍法の大多数のクラスラベルと関連付けられたクラスに割り当てる。バイナリ(2つのクラス)分類問題において、kの値は、通常、可否同数を回避するために奇数である。kNNは、いくつかの利点、例えば、膨大な数のクラスを扱う能力、過剰適合の回避、及び訓練フェーズの無いことなどを有するけれども、それは、3つの主な欠点、すなわち、(1)計算時間、(2)外れ値の影響[53]、及び(3)kを選択する必要性[54]に悩まされる。
第1の問題、時間複雑性は、特に、訓練セットのサイズが非常に大きいときに、訓練セットとクエリパターンとの間の距離の計算の間に起きる。この問題は、kNNを並列化することによって対処され得、時間複雑性を一定のO(1)に減らす。これは、代替の実現形態、例えば、時間がO(logN)である探索木などに比べると良い。第2の問題は、外れ値の影響に関係する。この問題を回避するために、局所近隣に焦点を合わせるアプローチが使用され得る。しかしながら、LMKNN(局所平均kNN)と呼ばれるこの種のアプローチは、依然として、kについての値を選択する必要があるという問題を抱える。大抵の場合、kは、交差検証技法[55]によって選択される。
しかしながら、これは、時間を浪費し、過剰適合のリスクを抱える。それゆえ、本発明は、kが適応的に選択されるアルゴリズムを含み、それゆえ、固定されたk値の必要性を除去する。kに上界をもたせるために、一般経験則が使用され、それは、Nの平方根であり、Nは、Tにおける総訓練インスタンスである[56]。そのアルゴリズムは、適応性のLMKNNまたはALMKNNとして参照される。
この分類器の動作が、アルゴリズム2に記載される。
16,261個の(TにおけるN)訓練インスタンスを用いて、近隣の極限値kmin及びkmaxが、それぞれ、20及び127(√Nの底)として定義され得る。下界(LB)及び上界(UB)は、それぞれ、2%及び50%である意思決定のために定義され得る。距離計算の第1のステップは、CUDAMat[57]を使用するGPUにおいて実現され得る。アルゴリズムの残りは、CPU(ホスト)において実現された。訓練フェーズは存在せず、訓練画像についてのHOG記述子は、メモリに記憶される。
分類性能
ALMKNNをフレームワークとして使用して、様々な距離測度が、並行して、すなわち、PBR、L0.1、L0.5、L、及びLが、評価された。本発明の分類精度は、繰り返された無作為のサブサンプリング検証の6回の実行にわたって平均された。これらの結果は、図4に示される。興味深いことに、PBR及びLは、ほぼ同一の精度であり、他の距離測度を容易にしのいだ。ユークリッド距離は、小さな訓練セットでわずかにより良く機能させることができたが、訓練画像の数が増えるにつれてすぐにうまくいかなくなった。
ノイズの影響
PBRがノイズ劣化に対して他の距離測度と比較してより耐えるかどうかを試験するために、訓練及び試験画像の両方が、増加する密度dのごま塩ノイズで汚染された。d=0において、PBRは、Lを除いて、全ての距離測度よりも有意に性能が良かった。しかしながら、我々の仮説と矛盾せず、PBRは、それどころか、最少量のノイズ(d=0.05)が追加されたときに、Lを含む全ての距離測度よりも有意に性能が良かった(表1)。
各方法について曲線下面積(AUC)が、繰り返される無作為のサブサンプリング検証の6回の独立の実行にわたって平均化された。95%の信頼度レベルを有するウィルコクソンの符号順位検定が、他の方法をPBRと比較するために使用された。PBRよりも性能が有意に劣った方法は、アステリスク*で強調されている。各ノイズレベルについて最高のAUCが太字にされている。
計算時間
計算時間は、Ubuntu12.04LTSを実行する、64ビットのIntel Core i5−3470CPU@3.20GHz 12GB RAM PCシステム上で測定された。
表2:250×250画素の画像を処理するための平均計算時間。
表2から、本発明のGPU実現形態は、純粋にCPUバージョンのものよりも約2.6倍速かったことが分かり得る。この高速度化は、PBRをL及びLとほぼ同じ水準に至らせる。計算時間は、ALMKNN分類器前のステップとして、最近隣平均分類器(NMC)(アルゴリズム3)を導入することによって、更に削減された。20%の信頼度測度(CM:Confidence Measure)が使用された。これは、重心への距離間のコントラストが20%を超えたときに、NMC結果が、分類のために使用されたことを意味する。
精度結果は、全く同じであったが、計算時間は、図5に示されるように、有意に改良された。
耳バイオメトリクスの適用
バイオメトリクス技術は、生理学的または挙動的であり得る特徴を使用して個人の同一性を検証する自動化された方法を扱う。自動化されたバイオメトリクスの分野は、過去10年間にわたって大きく進歩しており、顔、指紋、及び虹彩バイオメトリクスは、最も一般的に実現される様式として出現している。欠点のないバイオメトリクス様式は1つもない。例えば、顔バイオメトリクスは、広く研究されているが、未だに、準最適条件において失敗の傾向がある[58]、[59]。
指紋は、固有のシグネチャを与えるには理論上かなり複雑であり、実際には、指紋バイオメトリクスは、偽装に耐えるものではない。なぜなら、システムは、ゼラチン、シリコン、及びラテックスでできた偽の指紋による攻撃を受けやすいからである[60]。虹彩バイオメトリクスは、極めて正確であることかつ信頼性の高いことが証明されたが、その性能は、不十分な照明、標的の動き、加齢、まぶたによる部分的な遮蔽、及び取得に対する感度といった場合の下で、急速に劣化する。これは、より確立されたバイオメトリクスの問題を克服できる他の特徴への研究の動機付けとなった。これらの新しい特徴のうちの1つである、耳バイオメトリクスは、多数の理由のために、ますます関心を集めている。
1)顔及び虹彩とは異なり、耳の形状は、十代及び成人期にわたって程よく不変である。いかなる変化も、一般に、8歳以前及び70歳以後に発生する[61]。
2)画像コンテキストが、顔の片側からその参照を取るので、耳の画像化のために制御された環境が要求されない。
3)耳バイオメトリクスは、遺伝子的に同一の双子を区別することができるのに対して、顔バイオメトリクスは、この点において失敗する[62]。
4)耳は、より均一な色の分布を有し、表情と共に変動することが少ない。
本発明の態様によれば、耳認識システムは、上記に従って、HOG特徴及びPBRに基づいて提供される。使用されたデータベースは、IIT Delhiの耳データベースI及びII[63]である。IIT Delhiデータベース(DB)1において125個の対象及び493個の画像、IIT Delhiデータベース(DB)2において221個の対象及び793個の画像が存在する。
両方のデータベースにおける各対象についての試験画像が、無作為に選び出され、残りの画像が、訓練のために使用された。
バイオメトリクス分析アーキテクチャ
耳認識システムにおいて3つの主なステップ、すなわち、(1)事前処理、(2)特徴抽出、及び(3)テンプレート照合が存在する。ヒストグラム等化が、事前処理ステップとして使用される場合がある。特徴抽出は、既に上記したようなものであり得る。本発明の態様によれば、照合モジュールが、訓練画像の中で最も近く合致するものを探索し得る。これらのデータベース内の画像は、50×180画素であり、50×50画素にサイズ変更された。
認識性能
性能は、順位1の認識精度を使用して評価された。認識結果は、10回の実行にわたって平均化された。全ての距離測度についての順位1の認識率の平均及び標準偏差が、表3に示される。
累積照合曲線(CMC)が、バイオメトリクス認識システムについての性能を測定するために使用され、性能検証に照らして受信者操作特性曲線(ROC)に直接的に関連していることが示された[64]。それゆえ、図6には、全ての測度についてのCMCもまた示される。
ノイズの影響
ある実験では、本発明が、増加する密度dのごま塩ノイズで汚染された訓練及び試験画像に適用された。比較は、図7a及び7bに示される。Lを除く全ての距離測度が、ノイズについて安定していることが見られ得、L性能は、増加するノイズ密度dと共に急激に劣化している。
PBμと距離測度との相関関係
ある定義された試験画像に対して様々な距離測度によって合致した画像の順位付けを取って、PBμと他の測度(すなわち、PBR、L0.1、L0.5、L、及びL)との間の相関関係が取られた。表4における結果は、PBR及びPBμが極めて相関しており、かつ順位付けが、これらの2つの距離測度間で事実上全く同じであることを示す。これは、PBμ及びPBRがほぼ同等の距離測度であることに一致している。
カーネルをベースとする画像分類
PBRは、異なる入力(PRICoLBP、HOG)を受け付け、また、異なる機械学習フレームワーク(KNN、SVMカーネル)内で機能する距離計量である。
SVM(サポートベクターマシン)は、入力データが独立同一分布されることを要求するが、それらは、非独立同一分布(i.i.d)のシナリオ、例えば、発話認識、システム診断等[65]において成功裏に適用される。それゆえ、SVMフレームワークが、画像分類におけるPBR距離の効率を説明するために利用され得る。PBRをSVMフレームワークに組み込むために、RBFカーネルの以下の一般化形式が使用される[66]。
式中、pは、交差検証を使用して取得されるスケーリングパラメータであり、d(X,Y)は、2つのヒストグラムXとYとの間の距離である。その距離は、以下のようにPBRのわずかに修正した形式を使用して定義され得る。
定義。p=a In(2a/(a+b))+bIn(2b/(a+b))で、2つのN次元の特徴ベクターX=(a、a、a、....、a)及びY=(b、b、b、....、b)を所与とすると、2つのベクター間の距離は、
である。
PBRカーネルは、d(X,Y)をSVMフレームワークに代入することによって取得され得る。
実験
PBR距離カーネルの性能は、以下の6個の異なる適用、すなわち、テクスチャ分類、シーン分類、種、材料、葉、及び物体認識において評価された。テクスチャデータセットは、Brodatz[67]、KTH−TIPS[68]、UMD[69]、及びKylberg[70]である。シーン分類適用は、Scene−15[71]データセットに基づいた。認識タスクのために、リーズの蝶(Leeds Butterfly)[72]、FMD[73]、スウェーデンの葉(Swedish Leaf)[74]、及びCaltech−101[75]データセットが利用された。分類及び認識タスクの両方について、クラス毎の訓練画像の数への性能の依存が評価された。各データセットにおいて、n個の訓練画像が無作為に選択され、試験画像の数がクラス毎に50個に限定されたCaltech−101データセットを除いて、残りが試験のために選択された。全ての実験は、テクスチャデータセットについて百回及びその他について十回繰り返された。各実行について、カテゴリ毎の平均精度が計算された。個々の実行からのこの結果が、最終結果として平均及び標準偏差を報告するために使用された。カラー画像が利用可能であったときでさえも、全てのデータセットについてのグレースケール強度値のみが使用された。
複数のクラス分類が、一対他(one−vs−the−rest)技法を使用して行われた。各データセットについて、SVMハイパーパラメータ、例えば、C及びガンマなどが、
及び
を用いる訓練セットにおける交差検証によって選択された。
最近、対をなす回転不変性同時発生局所二値パターン(PRICoLBP)特徴が、種々の適用において効率的かつ効果的であることが示された[76]。この特徴の重要な属性は、空間コンテキストにおける同時発生情報の回転不変性及び効果的な捕捉である。それゆえ、この特徴が、実験のために使用された。
テクスチャ分類
Brodatzアルバムは、111個の異なるテクスチャクラスを含む人気のある評価基準テクスチャデータセットである。各クラスは、9個の重複しないサブ画像に分割される1つの画像を含む。
KTH−TIPSデータセットは、クラス毎に81個の画像を有する、10個のテクスチャクラスから成る。これらの画像は、それらが3つの異なる照明方向の下で、3つの異なる姿勢を有する9個のスケールにおいて取り込まれるので、高いクラス内変動性を実証する。
UMDテクスチャデータセットは、クラス毎に40個のサンプルを伴う25個のカテゴリを含む。これらの較正されない未登録画像は、著しいコントラスト差と共に、有意の視点及びスケール変更の下で取り込まれる。
Kylbergデータセットは、クラス毎に160個の固有サンプルの28個のテクスチャクラスを有する。クラスは、スケール、照明、及び方向性に関して均一である。回転されるテクスチャパッチ「を用いない」バージョンのデータセットが使用された。
PRICoLBPの2テンプレート構成が使用された。それは、全データセットについて1,180個の次元特徴を生じた。実験結果は、Brodatz、KTH−TIPS、UMD、及びKylbergデータセットについて、それぞれ、表5、6、7、及び8に示される。結果から、我々は、PBRは、訓練画像の数が少ないときに他の方法の性能を一貫して上回り、他の距離測度と比較するときにより小さな標準偏差をより高い分類率と共に生じることに気付いた。
葉の認識
スウェーデンの葉のデータセットは、種毎に75個の画像を有する、15個の異なるスウェーデンの木の種を含む。これらの画像は、高いクラス内類似性ならびに大きなクラス内幾何学的及び測光変動を呈する。我々は、テクスチャデータデットの場合と同じPRICoLBP構成を使用した。我々は、葉の空間レイアウト事前情報を使用しなかったことに留意されたい。実験結果は、表9に示される。我々は、PBRが、他の距離測度よりも正確な結果をもたらすことに気付いた。
材料認識
フリッカー材料データベース(FMD:Flickr Material Database)は、材料認識のために最近公開された挑戦的な評価基準セットである。このデータベース内の画像は、Flickrの写真から手動で選択され、各画像は、織物、葉、ガラス、革、金属、紙、プラスチック、石、水、及び木を含む、10個の一般的な材料カテゴリのうちのいずれか1つに属する。各カテゴリは、実世界の材料の外観変動を捕らえる100個の画像(50個の接写写真及び50個の物体レベル写真)を含む。それゆえこれらの画像は、大きなクラス内変動及び異なる照明状態を有する。事実上、それらは、物体の場所を描写するセグメント化マスクと関連付けられる。これらのマスクは、物体領域のみからPRICoLBPを抽出するために使用され得る。具体的には、6個のテンプレート構成が、PRICoLBPのために使用され得、それは、3,540個の次元特徴ベクターを生じた。
表10は、FMDデータセットのクラス毎の訓練画像の数への認識率の依存度を示す。PBRカーネルが、最も良いパフォーマンスをし、バタチャリヤ距離(Bhattacharyya distance)及びジェフリーダイバージェンス(Jeffrey divergence)法がその後に続くことが観察された。
表11において、PBRカーネルが、他の距離測度カーネルと比較して、全10個のカテゴリの中から5個のカテゴリにおいてトップパフォーマンスをするものであることに留意する。
シーン分類
Scene−15データセットは、いくつかの従来のデータセット[71]、[77]、[78]の組み合わせである、全部で4,485個の画像を含む。このデータセット内の各画像は、寝室、郊外、産業系、台所、居間、海岸、森林、幹線道路、市内、山、開けた田舎、道、高層建築物、オフィス、及び店舗を含む、15個のカテゴリのうちの1つに属する。カテゴリ毎の画像の数は、210から410まで変動する。これらの画像は、異なる解像度のものであり、それゆえ、我々は、(アスペクト比を維持しつつ)256画素の最小次元を有するように画像をサイズ変更した。
我々は、PRICoLBPの2テンプレート構成を、ただし、2つのスケール(近隣の半径:1,2)と共に使用した。それゆえ、特徴ベクターの次元数は、2,360である。表12は、可変数の訓練画像についての異なる方法の分類結果を示す。我々は、PBRが、より少ない数の訓練画像で最も良く機能し、クラス毎に100個の訓練画像に匹敵する性能をもたらすことに気付いた。
物体認識
Caltech−101データセットは、物体認識のための重要な評価基準データセットである。これは、102個のカテゴリ(101個の多様なクラス及び1つの背景クラス)の下で9,144個の画像を含む。クラス毎の画像の数は、31から800まで変動する。これらの画像は、大きなクラス内変動を呈し、それらはまた、次元が変動する。それゆえ、画像は、(アスペクト比を維持しつつ)256画素の最小次元を有するようにサイズ変更された。PRICoLBPの6個のテンプレート構成が、2つのスケール(近隣の半径:1,2)と共に使用された。それは、7,080個の次元特徴を結果としてもたらす。
表13は、可変数の訓練画像についての異なる方法の認識精度を示す。PBR距離カーネルの結果が他の距離測度をベースとするカーネルに匹敵することが見て取れ得る。
種認識
リーズの蝶(Leeds Butterfly)のデータセットは、蝶の10個のカテゴリ(種)について合計で832個の画像から成る。各カテゴリにおける画像の数は、55から100に及ぶ。それらは、照明、姿勢、及び次元に関して変動する。画像は、(アスペクト比を維持しつつ)256画素の最小次元を有するようにサイズ変更された。PRICoLBPの同じ設定が、テクスチャデータセットに関して使用された。表14は、可変数の訓練画像についてのリーズの蝶のデータセットの異なる方法の認識精度を示す。PBRカーネルが、他の距離測度をベースとするカーネルと比較に値する性能を達成することが見て取られ得る。
表14−リーズの蝶のデータセットの認識結果(パーセント)
それゆえ、いくらかの好適な実施形態が、図面を参照して十分に上記された。本発明の態様によれば、画像認識システムの計算効率、速度、及び精度を改良できるシステムならびに方法が提供される。本発明の適用は、医療システム、例えば、医療診断機械、DNAシーケンシング機械、手術ロボット、及び他の画像化システムなどを含む。他の適用は、バイオメトリクシグネチャを検証するための機械、犯罪捜査システム、例えば、指紋同定システムまたは顔認識システムなどを含み得る。当業者は、上記した発明の他の新しい及び有用な適用を認識するであろう。
本発明は、これらの好適な実施形態に基づいて記載されたが、一定の修正、変形、及び代替の構造が、本発明の趣旨及び範囲内で記載された実施形態に対して作られ得ることは当業者に明らかであろう。
例えば、ユーザは、例えば、ユーザプロファイルによって分類され得、照合は、ある特定のユーザプロファイルを有するユーザに限定され得る。
参考文献
以下の公的に利用可能な刊行物が、番号[#]によって上記で参照されており、出願の一部を形成する。それらの関連した内容が、参照によって本明細書に組み込まれ、それらは、参考文献の文脈及び様態から容易に理解されるべきである。
[1] N. Sebe, M.S. Lew, and D. P. Huijsmans, "Toward Improved Ranking Metrics," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 22, no. 10, pp. 1132−1143,2000.
[2] W. Dong, L. Huchuan, andY. Ming−Hsuan, "Least Soft−Threshold Squares Tracking," in Proc. IEEE Conference on Computer Vision and Pattern Recognition, 23−28 June 2013 2013, pp.2371−2378.
[3] G. Healey and R. Kondepudy, “Radiometric CCD Camera Calibration and Noise Estimation,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 16, no. 3, pp. 267−276, Mar 1994.
[4] J. R. Janesick, Scientific Charge−Coupled Devices. Bellingham, WA: SPIE, 2001.
[5] C.−H. Lin, J.−S. Tsai, and C.−T. Chiu, "Switching Bilateral Filter With a Texture/Noise Detector for Universal Noise Removal," Image Processing, IEEE Transactions on, vol. 19, no. 9, pp. 2307−2320, 2010.
[6] C. Liu, R. Szeliski, S. B. Kang, C. L. Zitnick, and W. T. Freeman, "Automatic Estimation and Removal of Noise from a Single Image," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 2, pp. 299−314, 2008.
[7] N. Young and A. Evans, "Spatio−Temporal Attribute Morphology Filters for Noise Reduction in Image Sequences," in Proc. International Conference on Image Processing, vol. 1, 2003, pp.l−333−6.
[8] P. H. Westfall and K. S. S. Henning, Understanding Advanced Statistical Methods. Boca Raton, FL, USA: CRC Press, 2013.
[9] A. Tversky and I. Gati, "Similarity, Separability, and the Triangle Inequality," Psychological review, vol. 89, no. 2, p. 123, 1982.
[10] W. J. Scheirer, M. J.Wilber, M. Eckmann, and T. E. Boult, "Good Recognition is Non−Metric," Computing Research Repository, vol. abs/1302.4673, 2013.
[11] K. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft, "When Is "Nearest Neighbor"" Meaningful?" in Database Theory ICDT99, ser. Lecture Notes in Computer Science, C. Beeriand P. Buneman, Eds. Springer Berlin Heidelberg, 1999, vol. 1540, pp. 217−235.
[12] C. Aggarwal, A. Hinneburg, and D. Keim, "On the Surprising Behavior of Distance Metrics in High Dimensional Space," in Database Theory ICDT 2001, ser. Lecture Notes in Computer Science, J. Bussche and V. Vianu, Eds. Springer Berlin Heidelberg, 2001, vol. 1973, pp. 420−434.
[13] M. Donahue, D. Geiger, R. Hummel, and T.−L. Liu, "Sparse Representations for Image Decomposition with Occlusions," in Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Jun 1996, pp. 7−12.
[14] D. W. Jacobs, D. Weinshall, and Y. Gdalyahu, "Classification with Nonmetric Distances: Image Retrieval and Class Representation," IEEE Trans. Pattern Anal. Mach. Intell., vol. 22, no. 6, pp. 583−600, 2000.
[15] P. Howarth and S. Rger, "Fractional Distance Measures for Content−Based Image Retrieval," in Advances in Information Retrieval, ser. Lecture Notes in Computer Science, D. Losada and J. Fernndez−Luna, Eds. Springer Berlin Heidelberg, 2005, vol. 3408, pp. 447−456.
[16] K.−S. Goh, B. Li, and E. Chang, "DynDex: A Dynamic and Non−metric Space Indexer," in Proc. Tenth ACM International Conference on Multimedia. New York, NY, USA: ACM, 2002, pp. 466−475.
[17] Y. Rubner, J. Puzicha, C. Tomasi, and J. M. Buhmann, "Empirical Evaluation of Dissimilarity Measures for Color and Texture," Computer Vision and Image Understanding, vol. 84, no. 1, pp. 25−43, 2001.
[18] A. Marzai and E. Vidal, "Computation of Normalized Edit Distance and Applications," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 15, no.9, pp.926−932, 1993.
[19] L. Le Cam, "An approximation theorem for the poisson binomial distribution," Pacific Journal of Mathematics, vol. 10(4), pp. 1181−1197, 1960.
[20] H. Shen, N. Zamboni, M. Heinonen, and J. Rousu, "Metabolite Identification through Machine Learning − Tackling CASMI Challenge Using FingerID," Metabolites, vol. 3, no. 2, pp. 484−505, 2013.
[21] A. C. W. Lai, A. N. N. Ba, and A.M. Moses, "Predicting Kinase Substrates Using Conservation of Local Motif Density," Bioinformatics, vol. 28, no. 7, pp. 962−969, 2012.
[22] A. Niida, S. lmoto, T. Shimamura, and S. Miyano, "Statistical Model− Based Testing to Evaluate the Recurrence of Genomic Aberrations," Bioinformatics, vol. 28, no. 12, pp. i115−i120, 2012.
[23] J.−B. Cazier, C. C. Holmes, and J. Broxholme, "GREVE: Genomic Recurrent Event ViEwer to Assist the Identification of Patterns Across Individual Cancer Samples," Bioinformatics, vol. 28, no. 22, pp. 2981−2982, 2012.
[24] H. Zhou, M. E. Sehl, J. S. Sinsheimer, and K. Lange, "Association Screening of Common and Rare Genetic Variants by Penalized Regression," Bioinformatics, vol. 26, no. 19, pp. 2375−2382, 2010.
[25] A. Wilm, P. P. K. Aw, D. Bertrand, G. H. T. Yeo, S. H. Ong, C. H. Wong, C. C. Khor, R. Petrie, M. L. Hibberd, and N. Nagarajan, "LoFreq: a Sequence- Quality Aware, Ultra−Sensitive Variant Caller for Uncovering Cell−Population Heterogeneity from High−Throughput Sequencing Datasets," Nucleic Acids Research, vol. 40, no. 22, pp. 11189−11 201, 2012.
[26] A. S. Macdonald, Encyclopedia of Actuarial Science, J. L. Teugels and B.Sundt, Eds. John Wiley & Sons, Ltd, Chichester, 2004.
[27] H. U. Gerber, "A Proof of the Schuette−Nesbitt Formula for Dependent Events," Actuarial Research Clearing House, vol. 1, pp. 9−10, 1979.
[28] Y. Hwang, J.−S. Kim, and 1.−S. Kweon, "Difference−Based Image Noise Modeling Using Skellam Distribution," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 34, no. 7, pp. 1329−1341, July 2012.
[29] J. Darroch, "On the Distribution of the Number of Successes in Independent Trials," The Annals of Mathematical Statistics, vol. 35, pp. 1317−1321, 1964.
[30] J.−B. Baillon, R. Cominetti, and J. Vaisman, "A Sharp Uniform Bound for the Distribution of Sums of Bernoulli Trials," arXiv preprint arXiv:OarX.2350v4, 2013.
[31] V. N. Gudivada and V. V. Raghavan, "Content Based Image Retrieval Systems," Computer, vol. 28, no. 9, pp. 18−22, 1995.
[32] M. Arakeri and G. Ram Mohana Reddy, "An Intelligent Content−Based Image Retrieval System for Clinical Decision Support in Brain Tumor Diagnosis," International Journal of Multimedia Information Retrieval, vol. 2, no. 3, pp. 175−188, 2013.
[33] J. Kalpathy−Cramer and W. Hersh, "Automatic Image Modality Based Classification and Annotation to Improve Medical Image Retrieval," Stud Health Techno! Inform, vol. 129, no. Pt 2, pp. 1334−8, 2007.
[34] B. Marshall, "Discovering Robustness Amongst CBIR Features," International Journal of Web & Semantic Technology (IJWesT), vol. 3, no. 2, pp. 19−31, April 2012.
[35] O. Boiman, E. Shechtman, and M. Irani, "In Defense of Nearest− Neighbor Based Image Classification," in Proc. IEEE Cont. Computer Vision and Pattern Recognition, June 2008, pp.1−8.
[36] W. Zhang, J. Sun, and X. Tang, "Cat Head Detection− How to Effectively Exploit Shape and Texture Features," in Proc. Of European Cont. Computer Vision, 2008, pp. 802−816.
[37] Z. Weiwei, S. Jian, and T. Xiaoou, "From Tiger to Panda: Animal Head Detection," Image Processing, IEEE Transactions on, vol. 20, no. 6, pp. 1696−1708, 2011.
[38] T. Kozakaya, S. Ito, S. Kubota, and O. Yamaguchi, "Cat Face Detection with Two Heterogeneous Features," in Proc. IEEE International Conference on Image Processing, 2009, pp. 1213−1216.
[39] H. Bo, "A Novel Features Design Method for Cat Head Detection," in Artificial Intelligence and Computational Intelligence, ser. Lecture Notes in Computer Science. Springer Berlin Heidelberg, 2010, vol. 6319, ch. 47, pp. 397−405.
[40] G. B. Huang, M. Ramesh, T. Berg, and E. Learned−Miller, "Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments," University of Massachusetts, Amherst, Tech. Rep. 07−49, October 2007.
[41] N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," in Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 1, 2005, pp. 886−893.
[42] Y. Mitani and Y. Hamamoto, "A Local Mean−Based Nonparametric Classifier," Pattern Recognition Letters, vol. 27, no. 10, pp. 1151−1159, 2006.
[43] P. Dollar, C. Wojek, B. Schiele, and P. Perona, "Pedestrian Detection: An Evaluation of the State of the Art," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 34, no. 4, pp. 743−761, 2012.
[44] A. Kembhavi, D. Harwood, and L. S. Davis, "Vehicle Detection Using Partial Least Squares," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 33, no. 6, pp. 1250−1265, 2011.
[45] M. Kaaniche and F. Br"emond, "Recognizing Gestures by Learning Local Motion Signatures of HOG Descriptors," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 34, no. 11, pp. 2247−2258, 2012.
[46] O. Ludwig, D. Delgado, V. Goncalves, and U. Nunes, "Trainable Classifier−Fusion Schemes: An Application to Pedestrian Detection," in Proc. 12th International IEEE Conference on Intelligent Transportation Systems, 2009, pp. 1−6.
[47] A. Kl¨ockner, N. Pinto, Y. Lee, B. Catanzaro, P. Ivanov, and A. Fasih, "PyCUDA and PyOpenCL: A Scripting−Based Approach to GPU Run−Time Code Generation," Parallel Computing, vol. 38, no. 3, pp. 157−174, 2012.
[48] O. Chapelle, V. Vapnik, O. Bousquet, and S. Mukherjee, "Choosing Multiple Parameters for Support Vector Machines," Machine Learning, vol. 46, no. 1−3, pp. 131−159, 2002.
[49] F. Friedrichs and C. Igel, "Evolutionary Tuning of Multiple SVM Parameters," Neurocomputing, vol. 64, no. 0, pp. 107−117, 2005.
[50] S.−W. Lin, Z.−J. Lee, S.−C. Chen, and T.−Y. Tseng, "Parameter Determination of Support Vector Machine and Feature Selection Using Simulated Annealing Approach," Applied Soft Computing, vol. 8, no. 4, pp. 1505−1512, 2008.
[51] E. Fix and J. Hodges Jr, "Discriminatory Analysis, Nonparametric Discrimination: Consistency Properties," USAF School of Aviation Medicine, Randolph Field, TX, Project 21−49−004, Rept. 4, Contract AF41 (128)−31, Tech. Rep., Feb. 1951.
[52] X. Wu, V. Kumar, J. Ross Quinlan, J. Ghosh, Q. Yang, H. Motoda, G. Mclachlan, A. Ng, B. Liu, P. Yu, Z.−H. Zhou, M. Steinbach, D. Hand, and D. Steinberg, "Top 10 Algorithms in Data Mining," Knowledge and Information Systems, vol. 14, no. 1, pp. 1−37, 2008.
[53] K. Fukunaga, Introduction to Statistical Pattern Recognition (2nd ed.). San Diego, CA, USA: Academic Press Professional, Inc., 1990.
[54] A. K. Ghosh, "On Optimum Choice of kin Nearest Neighbor Classification," Computational Statistics & Data Analysis, vol. 50, no. 11, pp. 3113− 3123, 2006.
[55] G. Toussaint, "Bibliography on Estimation of Misclassification," Information Theory, IEEE Transactions on, vol. 20, no. 4, pp. 472−479, 1974.
[56] B. Dasarathy, Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques. Washington: IEEE Computer Society, 1991.
[57] V. Mnih, "CUDAMat: A CUDA−Based Matrix Class for Python," Technical Report UTML TR 2009−004, Department of Computer Science, University of Toronto, Tech. Rep., November 2009.
[58] K. Chang, K. W.Bowyer, S. Sarkar, and B. Victor, "Comparison and Combination of Ear and Face Images in Appearance−Based Biometrics," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, pp. 1160−1165, 2003.
[59] M. Burge andW. Burger, "Ear Biometrics in Computer Vision," in Proc. 15th International Conference on Pattern Recognition, vol. 2, 2000, pp. 822−826 vol.2.
[60] H. Galbally and A. Fierrez, "On the Vulnerability of Fingerprint Verification Systems to Fake Fingerprints Attacks," in Proc. 40th Annual IEEE International Carnahan Conferences Security Technology, USA, 2006, pp. 130−136.
[61] A. Iannarelli, Ear Identification. California: Paramount Publishing Company, 1989.
[62] H. Nejati, L. Zhang, T. Sim, E. Martinez−Marroquin, and G. Dong, "Wonder Ears: Identification of Identical Twins from Ear Images," in Proc. 21st International Conference on Pattern Recognition, Nov 2012, pp. 1201−1204.
[63] A. Kumar and C. Wu, "Automated Human Identification Using Ear Imaging," Pattern Recognition, vol. 45, no. 3, pp. 956−968, 2012.
[64] R. Bolle, J. Connell, S. Pankanti, N. Ratha, and A. Senior, "The Relation Between the ROC Curve and the CMC," in Proc. Fourth IEEE Workshop on Automatic Identification Advanced Technologies, Oct 2005, pp. 15−20.
[65] I. Steinwart, D. Hush, and C. Scovel, "Learning from Dependent Observations ," Journal of Multivariate Analysis, vol. 100, no. 1, pp. 175 − 194, 2009.
[66] O. Chapelle, P. Haffner, and V. N. Vapnik, "Support Vector Machines for Histogram−Based Image Classification," Neural Networks, IEEE Transactions on, vol. 10, no. 5, pp. 1055−1064, 1999.
[67] P. Brodatz, Textures: A Photographic Album for Artists and Designers. Dover Pubns, 1966.
[68] E. Hayman, B. Caputo, M. Fritz, and J.−O. Eklundh, "On the Significance of Real−World Conditions for Material Classification," in Computer Vision- ECCV 2004. Springer, 2004, pp. 253−266.
[69] Y. Xu, H. Ji, and C. Ferm¨ uller, "Viewpoint Invariant Texture Description using Fractal Analysis," International Journal of Computer Vision, vol. 83, no. 1, pp.85−100, 2009.
[70] G. Kylberg, "The kylberg texture dataset v. 1.0," Centre for Image Analysis, Swedish University of Agricultural Sciences and Uppsala University, Uppsala, Sweden, External report (Blue series) 35, September 2011. [Online]. Available: http://www.cb.uu.se/gustaf/texture/
[71] S. Lazebnik, C. Schmid, and J. Ponce, "Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories," in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, vol. 2. IEEE,2006,pp.2169−2178.
[72] J. Wang, K. Markert, and M. Everingham, "Learning Models for Object Recognition from Natural Language Descriptions," in BMVC, vol. 1, 2009, p. 2.
[73] L. Sharan, R. Rosenholtz, and E. H. Adelson, "Accuracy and Speed of Material Categorization in Real−World Images," Journal of Vision, vol. 14, no. 10, 2014.
[74] O. J. O. S¨oderkvist, "Computer Vision Classification of Leaves from Swedish Trees," Master"s thesis, Link""oping University, SE−581 83 Link¨oping, Sweden, September 2001, liTH−ISY−EX−3132.
[75] L. Fei−Fei, R. Fergus, and P. Perona, "Learning Generative Visual Models from Few Training Examples: An Incremental Bayesian Approach Tested on 101 Object Categories," Computer Vision and Image Understanding, vol. 106, no. 1, pp. 59−70, 2007.
[76] X. Qi, R. Xiao, C.−G. Li, Y. Oiao, J. Guo, and X. Tang, "Pairwise Rotation Invariant Co−Occurrence Local Binary Pattern," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 36, no. 11, pp. 2199−2213, 2014.
[77] A. Oliva and A. Torralba, "Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope," International journal of computer vision, vol. 42, no. 3, pp. 145−175, 2001.
[78] L. Fei−Fei and P. Perona, "A Bayesian Hierarchical Model for Learning Natural Scene Categories," in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 2. IEEE, 2005, pp. 524−531.

Claims (28)

  1. デジタル画像を分類するためのコンピュータ実装方法であって、
    ホストコンピュータから、前記デジタル画像に対応する特徴データを取得することと、
    前記特徴データと前記ホストコンピュータのメモリ内に記憶された1つ以上の基準特徴データとの間のポアソン二項分布に基づいて、グラフィックス処理ユニットによって、半計量距離を判断することと、
    前記判断された半計量距離を使用して前記デジタル画像を分類することと、を含む、方法。
  2. 前記半計量距離が、ポアソン二項半径(PBR)である、請求項1に記載の方法。
  3. 前記デジタル画像を分類することが、サポートベクターマシン(SVM)分類器を使用することを含む、請求項1に記載の方法。
  4. 前記デジタル画像を分類することが、k最近傍法(kNN)分類器を使用することを含む、請求項1に記載の方法。
  5. 前記kNN分類器が、適応性の局所平均をベースとするk最近傍法(ALMkNN)分類器であり、前記k最近傍法の値(k)が、適応的に選択される、請求項1に記載の方法。
  6. 前記k最近傍法の前記適応値が、前記1つ以上の基準データの数の平方根を超えない、請求項5に記載の方法。
  7. 前記取得された特徴データ及び前記1つ以上の基準特徴データが、対をなす回転不変性同時発生局所二値パターン(PRICoLBP)データを含む、請求項1に記載の方法。
  8. 前記取得された特徴データ及び前記1つ以上の基準特徴データが、勾配方向ヒストグラム(HOG)データを含む、請求項1に記載の方法。
  9. 前記取得された特徴データが、X=(a...a)であるようにN次元の特徴ベクターXを含み、前記基準特徴データが、Y=(b...b)であるようにN次元の特徴ベクターYを含み、前記半計量距離(PBR(X,Y))を前記判断することが、
    を計算することを含み、
    式中、Nは、0よりも大きな整数であり、
    σは、ベクターXの標準偏差であり、
    μは、ベクターXの平均であり、
    は、|a−b|である、請求項1に記載の方法。
  10. 前記デジタル画像が、DNAまたはRNAシーケンスに対応する情報を含み、前記取得された特徴データが、X=(x...xdx)であるようにシーケンシング深さdを有する第1のDNAサンプルについてのシーケンシングクオリティ近接性のベクターXを含み、前記基準特徴データが、Y=(y...ydy)であるようにシーケンシング深さdを有する基準DNAサンプルについてのシーケンシング確率のベクターYを含み、前記半計量距離(PBRseq)を前記判断することが、
    を計算することを含み、
    式中、μは、ベクターXについての平均であり、
    μは、ベクターYについての平均であり、
    σは、ベクターXについての標準偏差であり、
    σは、ベクターYについての標準偏差である、請求項1に記載の方法。
  11. 前記デジタル画像を前記分類することが、
    前記半計量距離(PBRseq)が閾値よりも大きいかどうかを判断することと、
    前記半計量距離(PBRseq)が前記閾値よりも大きいかどうかを前記判断することに基づいて、前記DNAまたはRNAシーケンスを腫瘍または正常であるとして分類することと、を含む、請求項10に記載の方法。
  12. 前記デジタル画像を分類することが、前記DNAまたはRNAシーケンスにおける希少変異体を同定することを含む、請求項10に記載の方法。
  13. 前記1つ以上の基準特徴データのうちの最も近く合致する基準特徴データを判断することを更に含む、請求項1に記載の方法。
  14. 前記判断された最も近く合致する基準特徴データに基づいて、ある人物を識別することを更に含み、前記デジタル画像が、耳、顔、指紋、及び虹彩のうちの少なくとも1つを含む、請求項13に記載の方法。
  15. デジタル画像を分類するためのシステムであって、
    プロセッサを含むホストコンピュータであって、1つ以上の基準特徴データを含むメモリに結合される、ホストコンピュータと、
    プロセッサを含むグラフィックス処理ユニット(GPU)と、を備え、
    前記GPUが、前記ホストコンピュータに結合され、かつ
    前記ホストコンピュータから、前記デジタル画像に対応する特徴データを取得し、
    前記メモリから、前記1つ以上の基準特徴データにアクセスし、
    前記特徴データと前記1つ以上の基準特徴データとの間のポアソン二項分布に基づいて、半計量距離を判断するように構成され、
    前記ホストコンピュータが、
    前記判断された半計量距離を使用して前記デジタル画像を分類するように構成される、システム。
  16. 前記半計量距離が、ポアソン二項半径(PBR)である、請求項15に記載のシステム。
  17. 前記ホストコンピュータが、サポートベクターマシン(SVM)分類器を使用して前記デジタル画像を分類するように更に構成される、請求項15に記載のシステム。
  18. 前記ホストコンピュータが、k最近傍法(kNN)分類器を使用して前記デジタル画像を分類するように更に構成される、請求項15に記載のシステム。
  19. 前記kNN分類器が、適応性の局所平均をベースとするk最近傍法(ALMkNN)分類器であり、前記k最近傍法の値(k)が、適応的に選択される、請求項18に記載のシステム。
  20. 前記k最近傍法の前記適応値(k)が、前記1つ以上の基準データの数の平方根を超えない、請求項19に記載のシステム。
  21. 前記特徴データ及び前記1つ以上の基準特徴データが、対をなす回転不変性同時発生局所二値パターン(PRICoLBP)データを含む、請求項15に記載のシステム。
  22. 前記取得された特徴データ及び前記1つ以上の基準特徴データが、勾配方向ヒストグラム(HOG)データを含む、請求項15に記載のシステム。
  23. 前記特徴データが、X=(a...a)であるようにN次元の特徴ベクターXを含み、前記基準特徴データが、Y=(b...b)であるようにN次元の特徴ベクターYを含み、前記GPUが、
    を計算するように更に構成され、
    式中、PBR(X,Y)は、前記ベクターXと前記ベクターYとの間のポアソン二項半径(PBR)距離であり、
    Nは、0よりも大きな整数であり、
    σは、ベクターXの標準偏差であり、
    μは、ベクターXの平均であり、
    は、|a−b|である、請求項15に記載のシステム。
  24. 前記デジタル画像が、DNAまたはRNAシーケンスに対応する情報を含み、前記特徴データが、X=(x...xdx)であるようにシーケンシング深さdを有する第1のDNAサンプルについてのシーケンシングクオリティ近接性のベクターXを含み、前記基準特徴データが、Y=(y...ydy)であるようにシーケンシング深さdを有する基準DNAサンプルについてのシーケンシング確率のベクターYを含み、前記GPUが、計算するように更に構成され、前記半計量距離(PBRseq)を判断することが、
    を計算することを含み、
    式中、PBRseq(X,Y)は、前記ベクターXと前記ベクターYとの間のポアソン二項半径(PBR)距離であり、
    μは、前記ベクターXについての平均であり、
    μは、前記ベクターYについての平均であり、
    σは、前記ベクターXについての標準偏差であり、
    σは、前記ベクターYについての標準偏差である、請求項15に記載のシステム。
  25. 前記ホストコンピュータが、
    前記半計量距離(PBRseq)が閾値よりも大きいかどうかを判断し、
    前記半計量距離(PBRseq)が前記閾値よりも大きいかどうかを前記判断することに基づいて、前記DNAまたはRNAシーケンスを腫瘍または正常であるとして分類するように更に構成される、請求項24に記載のシステム。
  26. 前記ホストコンピュータが、前記DNAまたはRNAシーケンスにおける希少変異体を同定するように更に構成される、請求項24に記載のシステム。
  27. 前記ホストコンピュータが、
    前記1つ以上の基準特徴データのうちの最も近く合致する基準特徴データを判断するように更に構成される、請求項15に記載のシステム。
  28. 前記ホストコンピュータが、
    前記判断された最も近く合致する基準特徴データに基づいて、ある人物を識別するように更に構成され、前記デジタル画像が、耳、顔、指紋、及び虹彩のうちの少なくとも1つを含む、請求項27に記載のシステム。

JP2017534514A 2014-09-15 2015-09-15 画像認識システム及び方法 Active JP6628803B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462050414P 2014-09-15 2014-09-15
US62/050,414 2014-09-15
PCT/SG2015/050317 WO2016043659A1 (en) 2014-09-15 2015-09-15 Image recognition system and method

Publications (2)

Publication Number Publication Date
JP2017527937A true JP2017527937A (ja) 2017-09-21
JP6628803B2 JP6628803B2 (ja) 2020-01-15

Family

ID=55533574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017534514A Active JP6628803B2 (ja) 2014-09-15 2015-09-15 画像認識システム及び方法

Country Status (12)

Country Link
US (1) US10325183B2 (ja)
EP (1) EP3195260B1 (ja)
JP (1) JP6628803B2 (ja)
KR (1) KR102535810B1 (ja)
CN (1) CN107111869B9 (ja)
AU (1) AU2015318702C1 (ja)
CA (1) CA2960964C (ja)
CO (1) CO2017003311A2 (ja)
IL (1) IL251022B (ja)
MY (1) MY188125A (ja)
SG (1) SG11201701902XA (ja)
WO (1) WO2016043659A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936965B2 (en) 2016-10-07 2021-03-02 The John Hopkins University Method and apparatus for analysis and classification of high dimensional data sets
US10579905B2 (en) * 2017-03-17 2020-03-03 Google Llc Fully parallel, low complexity approach to solving computer vision problems
US20180357470A1 (en) * 2017-06-08 2018-12-13 Stmicroelectronics, Inc. Biometric ear identification
US10853730B2 (en) * 2017-09-14 2020-12-01 Google Llc Systems and methods for generating a brand Bayesian hierarchical model with a category Bayesian hierarchical model
CN108372785B (zh) * 2018-04-25 2023-06-23 吉林大学 一种基于图像识别的汽车非安全驾驶检测装置及检测方法
US10248664B1 (en) 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
US10861228B2 (en) * 2018-12-28 2020-12-08 X Development Llc Optical otoscope device
CN109948663B (zh) * 2019-02-27 2022-03-15 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
US11386636B2 (en) 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
US11150886B2 (en) * 2019-09-03 2021-10-19 Microsoft Technology Licensing, Llc Automatic probabilistic upgrade of tenant devices
CN111061904B (zh) * 2019-12-06 2023-04-18 武汉理工大学 一种基于图像内容识别的本地图片快速检测方法
CN112036404B (zh) * 2020-08-31 2024-01-02 上海大学 一种海上船只目标检测方法及系统
CN112215149A (zh) * 2020-10-13 2021-01-12 四川极速智能科技有限公司 基于视觉检测的配件分拣系统及方法
CN112270280B (zh) * 2020-11-02 2022-10-14 重庆邮电大学 一种基于深度学习的遥感图像中的露天矿场检测方法
CN112800895B (zh) * 2021-01-18 2024-02-27 内蒙古电力(集团)有限责任公司乌兰察布电业局 基于深度学习算法识别建筑物的方法
CN112766759B (zh) * 2021-01-25 2022-06-17 深圳市广程杰瑞科技有限公司 物流企业的加油管理方法及系统
CN113887428B (zh) * 2021-09-30 2022-04-19 西安工业大学 一种基于上下文信息的深度学习成对模型人耳检测方法
WO2024026427A1 (en) * 2022-07-27 2024-02-01 Board Of Trustees Of Michigan State University Smart species identification

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006522411A (ja) * 2003-03-06 2006-09-28 アニメトリックス,インク. 複数の特徴を含むオブジェクトの画像データベースの生成
US8024282B2 (en) * 2006-03-31 2011-09-20 Biodesix, Inc. Method for reliable classification of samples in clinical diagnostics using an improved method of classification
US8340405B2 (en) * 2009-01-13 2012-12-25 Fuji Xerox Co., Ltd. Systems and methods for scalable media categorization
CN102945372B (zh) * 2012-10-18 2015-06-24 浙江大学 基于多标签约束支持向量机的分类方法
US9465813B1 (en) * 2012-11-09 2016-10-11 Amazon Technologies, Inc. System and method for automatically generating albums
US9466009B2 (en) * 2013-12-09 2016-10-11 Nant Holdings Ip. Llc Feature density object classification, systems and methods
CN103971120B (zh) * 2014-04-18 2017-02-15 西安电子科技大学 基于空时极向局部二值模式的极光图像序列分类方法
CN103985000B (zh) * 2014-06-05 2017-04-26 武汉大学 基于函数型非参数回归的中长期典型日负荷曲线预测方法
US9519966B2 (en) * 2015-04-22 2016-12-13 King Fahd University Of Petroleum And Minerals Method, system and computer program product for breast density classification using parts-based local features

Also Published As

Publication number Publication date
CO2017003311A2 (es) 2017-04-20
KR20170055987A (ko) 2017-05-22
EP3195260A1 (en) 2017-07-26
CA2960964A1 (en) 2016-03-24
CN107111869A (zh) 2017-08-29
CA2960964C (en) 2023-04-11
CN107111869B9 (zh) 2021-04-06
US10325183B2 (en) 2019-06-18
IL251022A0 (en) 2017-04-30
US20170249535A1 (en) 2017-08-31
AU2015318702B2 (en) 2019-10-03
CN107111869B (zh) 2021-02-12
KR102535810B1 (ko) 2023-05-23
SG11201701902XA (en) 2017-04-27
MY188125A (en) 2021-11-22
EP3195260B1 (en) 2023-11-01
AU2015318702A1 (en) 2017-04-27
JP6628803B2 (ja) 2020-01-15
IL251022B (en) 2020-06-30
EP3195260A4 (en) 2018-05-16
WO2016043659A1 (en) 2016-03-24
AU2015318702C1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP6628803B2 (ja) 画像認識システム及び方法
Kortli et al. Face recognition systems: A survey
Ghrabat et al. An effective image retrieval based on optimized genetic algorithm utilized a novel SVM-based convolutional neural network classifier
Rida et al. A comprehensive overview of feature representation for biometric recognition
US10163034B2 (en) Tripoint arbitration for entity classification
Oikawa et al. Manifold learning and spectral clustering for image phylogeny forests
Bouguila et al. On bayesian analysis of a finite generalized dirichlet mixture via a metropolis-within-gibbs sampling
Dornaika et al. Transfer learning and feature fusion for kinship verification
Sharma et al. Lean histogram of oriented gradients features for effective eye detection
Swaminathan et al. A new distance measure for non-identical data with application to image classification
Cevik et al. DLGBD: A directional local gradient based descriptor for face recognition
Rodriguez et al. Calibration of score based likelihood ratio estimation in automated forensic facial image comparison
Parsa et al. Coarse-grained correspondence-based ancient Sasanian coin classification by fusion of local features and sparse representation-based classifier
Agrawal et al. Biogeography particle swarm optimization based counter propagation network for sketch based face recognition
Ramos-Arredondo et al. PhotoId-Whale: Blue whale dorsal fin classification for mobile devices
Nader et al. Kinship verification and recognition based on handcrafted and deep learning feature-based techniques
Guermoui et al. Sparse coding joint decision rule for ear print recognition
Zhao et al. Multi-view dimensionality reduction via subspace structure agreement
Aktürk et al. Classification of eye images by personal details with transfer learning algorithms
Zeng et al. Re-KISSME: A robust resampling scheme for distance metric learning in the presence of label noise
Rao et al. Texture classification using Minkowski distance measure-based clustering for feature selection
Ren et al. Semantics characterization for eye shapes based on directional triangle-area curve clustering
Mi et al. Local spatial continuity steered sparse representation for occluded face recognition
Zhai et al. An overview of pattern classification methodologies
Arashloo et al. One-class kernel spectral regression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191203

R150 Certificate of patent or registration of utility model

Ref document number: 6628803

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250