JP2017527937A

JP2017527937A - 画像認識システム及び方法

Info

Publication number: JP2017527937A
Application number: JP2017534514A
Authority: JP
Inventors: ムスカラッパンスワミナサン，; トビアスシェーブロム，; イアンチョン，; オブドゥリオパイロット，
Original assignee: Temasek Life Sciences Laboratory Ltd
Current assignee: Temasek Life Sciences Laboratory Ltd
Priority date: 2014-09-15
Filing date: 2015-09-15
Publication date: 2017-09-21
Anticipated expiration: 2035-09-15
Also published as: CO2017003311A2; KR20170055987A; EP3195260A1; CA2960964A1; CN107111869A; CA2960964C; CN107111869B9; US10325183B2; IL251022A0; US20170249535A1; AU2015318702B2; CN107111869B; KR102535810B1; SG11201701902XA; MY188125A; EP3195260B1; AU2015318702A1; JP6628803B2; IL251022B; EP3195260A4

Abstract

デジタル画像分類のための改良されたシステム及び方法が提供される。プロセッサを有するホストコンピュータが、基準特徴データを記憶するメモリに結合される。プロセッサを有するグラフィックス処理ユニット（ＧＰＵ）が、ホストコンピュータに結合され、かつ、ホストコンピュータから、デジタル画像に対応する特徴データを取得し、メモリから、１つ以上の基準特徴データにアクセスし、特徴データと１つ以上の基準特徴データとの間のポアソン二項分布に基づいて、半計量距離を判断するように構成される。ホストコンピュータは、判断された半計量距離を使用してデジタル画像を分類するように構成される。【選択図】図３a

Description

発明の背景
本発明は、一般に、画像認識のための改良されたシステム及び方法に関する。より詳細には、本発明は、デジタル画像におけるパターン認識のためのシステム及び方法に関する。更により詳細には、本発明は、ポアソン二項分布に基づくポアソン二項半径（ＰＢＲ：Ｐｏｉｓｓｏｎ−ＢｉｎｏｍｉａｌＲａｄｉｕｓ）と呼ばれる新しくかつ新規な半計量（ｓｅｍｉ−ｍｅｔｒｉｃ）距離測度を利用して画像分類及び認識機能を行うためのシステムならびに方法に関する。

機械学習方法、例えば、サポートベクターマシン（ＳＶＭ）、主成分分析（ＰＣＡ）、及びｋ最近傍法（ｋ−ＮＮ）などは、距離測度を使用して、データ点間の相対的な相違点を比較する。適切な距離測度を選択することが、根本的に重要である。最も広く使用されている測度は、平方距離の合計（Ｌ_２またはユークリッド）及び絶対差の合計（Ｌ_１またはマンハッタン）である。

どれを使用するかという質問は、最尤法（ＭＬ）の観点から回答され得る。簡潔に言うと、Ｌ_２は、ｉ．ｉ．ｄ（独立同一分布）のガウス分布に従うデータのために使用されるのに対して、Ｌ_１は、ｉ．ｉ．ｄのラプラス分布データの場合において使用される。［１］、［２］を参照。その結果として、基となるデータ分布が既知であるかまたはうまく推定されるときに、使用される計量が判断され得る。

問題は、入力変数についての確率分布が未知であるかまたは同一でないときに生じる。画像取得を例に取ると、現代のデジタルカメラによって取り込まれる画像は、ノイズによって常に損なわれる。［３］を参照。例えば、電荷結合デバイス（ＣＣＤ）センサの出力は、種々のノイズ成分、例えば、光子ノイズ、固定パターンノイズ（ＦＰＮ）などを有用な信号と共に運ぶ。［４］を参照。その上、画像は、信号増幅及び伝送の間のノイズによって損なわれる傾向がある。［５］を参照。その文献において見出される最も一般的な種類のノイズのうちのいくつかは、付加的な、衝撃または信号依存ノイズである。しかしながら、現代のデジタルカメラによって生成されるノイズの種類及び量は、カメラ設定（口径、シャッター速度、ＩＳＯ）に加えて、具体的な詳細、例えば、カメラのブランド及びシリーズ名などに依存する傾向がある。［６］を参照。更に、メタデータの損失を結果としてもたらす画像ファイル形式変換及びファイル転送が、この問題に加えられ得る。取り込まれた画像にノイズが無いように見える場合でさえも、その画像は、依然として、人間の目で知覚できないノイズ成分から成り得る。［７］を参照。特徴記述子が、かかる異種ノイズ源にさらされることを考慮すると、かかる記述子は、したがって、独立であるが非同一に分布される（ｉ．ｎ．ｉ．ｄ）ことを仮定することが妥当である。［８］を参照。

入力変数が独立かつ同一に分布される（ｉ．ｉ．ｄ）という仮定は、大部分の距離測度に固有のものである。生物学的シーケンシングデータ分析及び他の分野における最近の進歩は、実際には、入力データがｉ．ｉ．ｄ仮定に従わないことが多いことを実証した。この食い違いを考慮に入れることが、より正確な決定ベースのアルゴリズムにつながることが示されている。

いくつかのスレッドが、半計量距離測度の開発に寄与した。第１は、距離計量とみなすために距離測度によって満たされる必要がある公理に関する。これらは、非負性、対称性、反射性、及び三角不等式の公理である。三角不等式公理を満たさない測度は、定義によれば、半計量距離と呼ばれる。

距離計量は、大部分の適用において広く使用されるが、公理のうちのいくつか、特に、三角方程式の必要性を疑う正当な理由が存在している。例えば、人間被験者に画像認識タスクを行うよう依頼すると、統計的に有意な様態で三角不等式公理に反することが示されている。［９］を参照。別の例では、ＬａｂｅｌｌｅｄＦａｃｅｓｉｎｔｈｅｗｉｌｄ（ＬＦＷ）及びＣａｌｔｅｃｈ１０１データセットを使用する画像認識のための最高のパフォーマンスをするアルゴリズムによって作り出される距離スコアもまた、三角不等式に反することが示されている。［１０］を参照。

別のスレッドは、「次元の呪い」を伴う。特徴空間における次元の数が増えるにつれて、任意の所与のクエリに対する最近傍及び最遠傍の距離の比率は、最も妥当なデータ分布及び距離関数についての統一体に集束する傾向がある。［１１］を参照。データ点間の乏しいコントラストは、高次元空間における最近傍探索が無意味になることを含意する。その結果として、わずかなＬ_ｐ半計量［１２］が、コントラストを保持する手段として生成された。（ｘ_ｉ，ｙ_ｉ）が、一連の独立同一分布（ｉ．ｉ．ｄ）型の無作為ベクターである場合、Ｌ_ｐ距離は、
として定義される。
ｐ＝１を選ぶとマンハッタン距離を与え、ｐ＝２を選ぶとユークリッド距離を与える。ｐε（０，１）の値の場合、Ｌ_ｐは、わずかなＬ_ｐ距離測度を与える。

Ｌ_ｐ距離とＬ_２距離を比較する顔及び合成画像のためのテンプレート照合研究では、画像がノイズ及び遮蔽で劣化されたときに、ｐεの値（０．２５、０．７５）がＬ_２の性能を上回った結論付けた。［１３］を参照。他のグループもまた、Ｌ_ｐ距離を使用して、合成画像と実際の画像を照合した。［１４］を参照。内容に基づく画像検索のためにＬ_ｐ距離を使用する案が、Ｈｏｗａｒｔｈｅｔａｌ［１５］によって探求されており、結果は、ｐ＝０．５が検索性能の改良をもたらし得、Ｌ_１及びＬ_２ノルムの両方の性能を一貫して上回り得ることを示唆する。

言及すべき他の半計量距離は、動的部分関数（ＤＰＦ：ＤｙｎａｍｉｃＰａｒｔｉａｌＦｕｎｃｔｉｏｎ）［１６］、ＪｅｆｆｒｅｙＤｉｖｅｒｇｅｎｃｅ（ＪＤ）［１７］、及び正規化編集距離（ＮＥＤ：ＮｏｒｍａｌｉｚｅｄＥｄｉｔＤｉｓｔａｎｃｅ）［１８］である。

今日まで、距離測度は、独立非同一分布（ｉ．ｎ．ｉ．ｄ．）型の分布を扱うパターン認識では実証されていない。それゆえ、パターン認識のための改良されたシステム及び方法のニーズが存在する。

本発明によれば、ポアソン二項分布に基づくポアソン二項半径（ＰＢＲ）と呼ばれる新しい半計量距離を利用するパターン認識のためのシステム及び方法が提供される。本発明は、非常に多くの非限定的な利点をもたらす。例えば、本発明は、独立同一分布（ｉ．ｉ．ｄ．）仮定を避けると共に独立非同一分布（ｉ．ｎ．ｉ．ｄ．）特徴記述子を考慮するロバストな半計量を含み、ノイズのある状況における劣化に対するロバスト性を更に実証する。その上、本発明は、処理を削減すること及び効率を向上させることによって、パターン認識デバイス自体の効率を向上させる。

本発明の態様によれば、システム及び方法は、実時間用途に適している。例えば、本発明の実施形態によれば、実現形態特徴は、グラフィックス処理ユニット（ＧＰＵ）を使用して並列化される。

本発明の他の態様によれば、小さな訓練サンプルセットにも関わらず、高い分類精度を達成する新しい分類器が導入される。本発明の他の態様によれば、分類器は、最適化のために訓練フェーズまたは交差検証を必要とせずに、より多くのクラスを取り扱うように容易に一般化され得る。

本発明の態様によれば、パターン認識のための新しい距離測度は、入力が同一に分布されるという仮定を避けるポアソン二項分布に基づく。発明者らは、本明細書に記載される実験においてこの新しい測度を試験した。１つの実験は、デジタル化された人間の画像と猫の画像を区別するための二値分類タスクであった。別の実験は、２つの画像ライブラリからコンパイルされる耳のデジタル化画像の識別であった。これらの実験の両方において、この測度の性能が、ユークリッド、マンハッタン、及びわずかなＬ_ｐ距離測度に対して比較された。これらの２つの実験についての特徴抽出は、形状及びテクスチャ情報を捕捉するためにＧＰＵ並列型の勾配方向ヒストグラム（ＨＯＧ）を使用して達成した。

発明者らは、本発明が、上述した先行技術の距離測度を使用したパターン認識方法の性能を一貫して上回ることを実証した。その上、それらの結果は、提案された距離測度が、機械学習アルゴリズムの有効性を改良できることを示す。

本発明の態様によれば、画像分類システムが提供される。本システムは、受信された画像についてＨＯＧ特徴の計算を行うための、及び計算されたＨＯＧ特徴を訓練画像の記憶ＨＯＧ特徴と比較するためのＧＰＵを含む。本システムは、ＰＢＲに基づく最も近く合致する訓練画像に基づいて画像を分類する。

本発明の態様によれば、画像分類システムは、癌細胞を正常細胞から区別するために使用され得る。

本発明の態様によれば、画像分類システムは、指紋を照合するために使用され得る。

本発明の態様によれば、画像分類システムは、ＤＮＡまたはＲＮＡシーケンシングデータにおける希少変異体を同定するために使用され得る。

本発明の態様によれば、画像分類システムは、顔を認識するために使用され得る。

本発明の態様によれば、ＰＲＩＣｏＬＢＰが、ＨＯＧの代替案として使用されてもよい。同様に、ＳＶＭカーネルが、ｋＮＮの代替案として使用されてもよい。

本発明の様々な実施形態の更なる適用及び利点は、図面を参照して以下に記述される。

ＤＮＡシーケンシング分析のための出力確率質量関数を例示する。ＤＮＡシーケンシング分析のための出力確率質量関数を例示する。それぞれ、（ａ）ＬＦＷデータセット及び（ｂ）猫のデータセットからの画像例である。それぞれ、（ａ）ＬＦＷデータセット及び（ｂ）猫のデータセットからの画像例である。本発明のある実施形態に係る画像認識のための例示的な実現形態アーキテクチャのブロック図である。本発明のある実施形態に係るＤＮＡ希少変異体検出のための例示的な実現形態アーキテクチャのブロック図である。本発明の実施形態に係る画像認識を行うための基本フローチャートである。訓練画像の数の関数とした分類精度のグラフである。異なる距離測度を使用する画像分類適用についての計算時間の比較の棒グラフである。（ａ）ＩＩＴＤｅｌｈｉＩ及び（ｂ）ＩＩＴＤｅｌｈｉＩＩデータベースについての累積照合曲線（ＣＭＣ）をそれぞれ例示する。（ａ）ＩＩＴＤｅｌｈｉＩ及び（ｂ）ＩＩＴＤｅｌｈｉＩＩデータベースについての累積照合曲線（ＣＭＣ）をそれぞれ例示する。（ａ）ＩＩＴＤｅｌｈｉＩ及び（ｂ）ＩＩＴＤｅｌｈｉＩＩデータベースについての順位１の認識性能へのノイズの影響をそれぞれ例示する。（ａ）ＩＩＴＤｅｌｈｉＩ及び（ｂ）ＩＩＴＤｅｌｈｉＩＩデータベースについての順位１の認識性能へのノイズの影響をそれぞれ例示する。

本発明は、異なる形態に具体化されてもよいが、本開示は本発明の原理の例を提供するものと考えられ、かかる例は、本発明を本明細書に記載及び／または例示される好適な実施形態に限定することを意図されないという理解をもって、いくつかの例示的な実施形態が、上記図面を参照して次に記載される。

ポアソン二項分布は、独立であるが非同一の成功確率（ｐ_１、．．．、ｐ_Ｎ）を所与とすると、ｎ個の成功についての確率質量関数によって定義される。これらの事象は、確率空間（Ω，Ｆ，Ｐ）内に存在する。分布は単峰形であり、平均μはｐ_ｉの和であり、その場合、ｉは１からＮまで増分し、分散値σ^２は（１−ｐ_ｉ）ｐ_ｉの和であり、その場合、ｉは１からＮまで増分する。

この分布の特別な場合は、ｐ_ｉが全てのｉについて同じ値を有する二項分布である。ポアソン二項分布は、幅広い分野、例えば、生物学、画像化、データマイニング、生命情報学、及び工学などにおいて、使用され得る。ポアソン二項分布をポアソン分布に近似することは普及しているが、この近似は、
によって与えられるＬｅＣａｍの定理［１９］によって定義される誤差についての境界から明らかなように、入力確率が小さいときにのみ有効である。式中、Ｐ（Ωｎ）は、ポアソン二項領域におけるｎ個の成功確率を与え、λは、ポアソンパラメータである。

ポアソン二項分布は、研究応用における増加的使用を発見した。Ｓｈｅｎｅｔａｌ［２０］は、大規模な分子データベース、例えば、ＫＥＧＧ及びＰｕｂＣｈｅｍなどからの、代謝物同定のための機械学習アプローチを開発した。分子指紋ベクターは、ポアソン二項分布されるように取り扱われ、その結果として生じるピーク確率が、候補検索のために使用された。同様に、Ｌａｉｅｔａｌ．［２１］は、リン酸化部位認識に基づいてキナーゼ基質を予測する統計的モデルを開発した。重要なことに、共通配列への観察的合致の確率が、ポアソン二項分布を使用して計算された。他のグループ［２２］、［２３］は、腫瘍サンプルにおけるゲノム異常を同定するためにこの分布を使用した。

異常事象の確率はサンプルによって変動するので、個々のＤＮＡ塩基位置は、各サンプルにおける１つ１つの位置における遺伝子異常の可能性を確認するために等しくない成功確率を有する独立したベルヌーイ試行として扱われる。同じ推論に従って、希少変異体を正確に呼び出すモデル［２４］、［２５］が提案された。

本発明は、とりわけ、シーケンシングクオリティスコアに基づいてＤＮＡシーケンシング分析の精度を改良することを追求する。１つ１つの配列されたＤＮＡ塩基のために利用可能にされた各スコアは、出力値が正確に呼び出された確率を反映する。例えば、ある特定の位置についてＮ個の独立した読取りが存在する場合には、シーケンス分析ソフトウェアが、その位置における各読取りについてクオリティスコアｑ_ｉを生成し、それは、読取り誤差の確率を考慮に入れる。正確な読取りの含意的な確率は、

それぞれの配列された位置の同一性は、同じ位置の複数の読取り、場合によっては、数千もの番号付けに基づいて呼び出されるので、ベルヌーイ事象のような各読取りは、その位置についての関連したクオリティスコアを使用してそれぞれ配列された位置についての確率分布を構築するように扱われて追求された。この確率分布を計算する効率的な手法が見付かっており、以下に記載される。

ウェアリングの定理の使用

確率空間（Ω，Ｆ，Ｐ）に存在する独立であるが非同一の事象を記載するようにｐ_１、．．．、ｐ_Ｎを定義する。Ｚ_ｋは、ｐ_１、．．．、ｐ_Ｎから引き出される全ての固有のｋ個の組み合わせの和として更に定義される。それゆえ、形式上、以下となる。
式中、空集合上の交差は、Ωとして定義される。それゆえ、Ｚ_０＝１であり、和は、添字１、．．．、Ｎの全ての部分集合Ｉ上を動き、それは、厳密にｋ個の要素を含む。例えば、Ｎ＝３である場合には、

次いで、ウェアリングの定理［２６］を使用して、全ての冗長的に計数された積集合について正規化することによって、Ｚ_ｋに関してＰ（ｎ）を定義し、それは、Ｓｃｈｕｅｔｔｅ−Ｎｅｓｂｉｔｔ式［２７］の特別な場合である。

包除定理は、ｎ＝０によって与えられる。Ｚ_ｋを計算する拡張可能な手段が、アルゴリズム１に記載される。

このアプローチの主な利益は、増加するＮの値と共に時間複雑性における指数的に増大する減少である。これは、冗長性を最小限にするためにブロックにおいて計算をグループ化するアルゴリズムの動的プログラミング特徴から生じる。この自己相似性の再帰構造は、組み合わせ的爆発を回避することによって計算を実現可能にさせる。このアプローチを使用すると、計算される必要があるブロックの総数がＮ^２で増え、算術和Ｎ／２＊（１＋Ｎ）によって記載される。

このアプローチの別の利点は、各列の要素を並列に計算する能力である。これは、時間複雑性が、並列化なしのＯ（Ｎ^２）から、完全に並列化を実施されるＯ（Ｎ）へと減ることを意味する。更なる改良が、逆方向に行列要素を計算することによってなされてもよく、それによって、行列Ａ^Ｔの並列計算のための連携方法を提供する。これは、アルゴリズム１において定義された再帰関数に加えて、２つの再帰関数、ａ_ｉ，Ｎ＝ａ_１，Ｎ（Ｚ_ｉ−１−ａ_{ｉ−１，Ｎ}）及びａ_ｉ，ｊ＝ａ_１，ｊ・（ａ_{ｉ，ｊ＋１}／ａ_{１，ｊ＋１}−ａ_{ｉ−１，ｊ}）を同時に使用することによって達成される。上記した方法は、同時確率質量関数（ｐ．ｍ．ｆ．）の効率的な手段を提供する。Ｎ＝６の場合がここで実証され、Ｚ_ｋ列が、適切な二項係数で掛算される。

同じｐｍｆが、以下に記載される代替方法を使用して生成されてもよい。

高速フーリエ変換

前と同じ定義を使用して、任意の特定の組み合わせωの確率が、発生及び非発生事象の組み合わせの積として書かれ得る。

Ω_ｎが、ｎ個の発生及びＮ−ｎ個の非発生から結果として生じる全ての可能な対をなすＩ及びＩ^Ｃの組の対応するサンプル空間であるように定義される場合には、
上記式は、発生及び非発生の全ての可能な組み合わせの積算確率であるとして、直観的に理解できる。観察によって、Ｎ次多項式の係数としてＰ（Ω_ｎ）を表わすように多項式を構築することが可能である。

上記多項式についての係数が、次いで、離散フーリエ変換に基づくアルゴリズムを使用して容易に解かれ得る。関連する係数ベクターは、以下のように効率的に計算され得る。

実際に言うと、ベクターは、２の冪の長さまで先行ゼロを用いてパディングされ得、次いで、ＩＦＦＴ^−１（ＦＦＴ（ａ）・ＦＦＴ（ｂ））を使用して対で反復処理され得る。ここで、ａ及びｂは、任意の対のベクターを表わす。高速フーリエ変換（ＦＦＴ）のＧＰＵ実現形態を使用して、複数入力が、インターリーブされた入力及び逆畳み込みされた出力の簡易スキームを使用して並列に処理され得る。この関数は、ｉ番目のタプルが引数シーケンスまたはイテラブル（ｉｔｅｒａｂｌｅ）のそれぞれからｉ番目の要素を含む、タプルのリストを返す。

ＤＮＡシーケンシング。

本発明の１つの重要な適用は、数千もの読取りがＤＮＡ塩基位置毎に分析される必要がある次世代ＤＮＡシーケンシングデータセットの分析である。ある特定の塩基位置が癌に突然変異される場合には、かかる変異体の検出が、理想的な診断であろう。現実には、変異体ＤＮＡは、低比率で正常なＤＮＡと混合されることが多く、課題は、同じ塩基位置において検出される２つの矛盾する状態を所与として統計的信頼度を計算することである。これは、これらの矛盾する状態をベルヌーイの事象として扱うこと、及び上記した２つの方法のいずれかを使用してｐ．ｍ．ｆ．を構築することによって達成され得る。出力例は、図１ａ及び１ｂに例示される。

これらのｐ．ｍ．ｆ．から計算される信頼区間は、次いで、変異体塩基状態の証拠が有意に閾値を十分に上回るかどうかに関する決定を可能にする。本発明の態様によれば、同様の原理が、パターン認識用途、特に、画像分析に関するものに適用され得る。これは、画素強度は単に無作為の変数として見なされ得るという事実によって裏付けられ得、それは、量子物理学の法則［２８］によって支配されるので、真値を有しない。

ポアソン二項半径半計量距離

全ての対をなす距離比較について信頼区間を計算することは、大規模な画像データセットでは計算集約的であろう。この費用を防いで効率を向上させるために、距離測度が、独立に、ただし非同一に分布される特徴記述子について、以下のように定義され得る。

定義。ｐ_ｉ＝｜ａ_ｉ−ｂ_ｉ｜で、２つのＮ次元の特徴ベクターＸ＝（ａ_１、ａ_２、ａ_３、．．．．、ａ_Ｎ）及びＹ＝（ｂ_１、ｂ_２、ｂ_３、．．．．、ｂ_Ｎ）を所与とすると、２つのベクター間の距離は、
であり、
式中、ｍはモードであり、Ｐ（ｍ）は分布のピーク確率である。Ｄａｒｒｏｃｈ［２９］は、モードｍが、以下のように境界付けられ得ることを前に示した。
式中、０≦ｎ≦Ｎである。これは、ｍが平均μとは１未満だけ異なることを含意する。それゆえ、モードｍは、極大値であるが、平均μで近似される。これは、
を与える。

更なる改良が、
によって与えら得るポアソン二項分布の過剰尖度を考慮することによってなされてもよい。式中、σ^２は、ｐ．ｍ．ｆ．の分散値である。σ^２を伴う分布のピーク間の逆関係は、ｐ（Ω_μ）とσの同様の関係を含意する。この逆関係はまた、ベルヌーイ試行の和について以下のシャープで均一な上界を確立したＢａｉｌｌｏｎｅｔａｌ［３０］の研究と矛盾しない。
式中、ηは上界定数である。この逆関係の含意は、σがＰ（Ω_μ）の代用測度として採用され得、それによって、各距離計算のためにｐ．ｍ．ｆ．を生成する必要性を回避することである。それゆえ、独立かつ非同一の特徴記述子についての以下の半計量が、定義され得る。

ｐ_ｉ＝｜ａ_ｉ−ｂ_ｉ｜で、２つのＮ次元の特徴ベクターＸ＝（ａ_１、ａ_２、ａ_３、．．．．、ａ_Ｎ）及びＹ＝（ｂ_１、ｂ_２、ｂ_３、．．．．、ｂ_Ｎ）を所与とすると、２つのベクター間のポアソン二項半径距離は、
である。
ＰＢＲ（Ｘ，Ｙ）は、半計量である。関数ｄ：Ｘ×Ｘ→［０，１］は、｛ｘ，ｙ｝Ｘについて以下の特性、すなわち、（１）非負性、ｄ（Ｘ，Ｙ）≧０、（２）対称特性、ｄ（Ｘ，Ｙ）＝ｄ（ｙ，ｘ）、及び３）反射性、ｄ（ｘ，ｘ）＝０を満たす場合、ある設定されたＸ上の半計量である。ＰＢＲは、非負関数であり、反射特性を満たす。絶対値のみが使用されるので、ＰＢＲはまた、対称特性も満たす。ＰＢＲ及びＰＢ_μが実用的な目的のための同等の距離測度であることを示す以下の表４を参照。

画像分類適用

画像分類は、画像のデジタルコンテンツの分析（例えば、画素データの分析）に基づいて、デジタル画像を指定されたクラスに割り当てるコンピュータ自動化プロセスである。かかるプロセスの最も一般的な使用は、画像検索におけるものであるか、またはより具体的には、コンテンツをベースとする画像検索（ＣＢＩＲ）である。ＣＢＩＲは、クエリ画像から自動的に抽出された特徴に基づいて、１つ以上のデジタル画像リポジトリから厳密に合致したまたは類似の画像を検索するプロセスである。医療診断、知的財産、犯罪捜査、リモートセンシングシステム、ならびに画像保管及び管理システムにおける非常に多くの実用的かつ有用な用途が見付かっている。［３１］を参照。

あらゆるＣＢＩＲシステムにおける主要目的は、高い検索精度及び低い計算複雑性である（本発明は、その両方を改良する）。画像検索の前に画像分類ステップを実施すると、検索精度を上げることができる。その上、計算複雑性もまた、このステップによって低減され得る。

Ｎ_Ｔをクラス毎の訓練画像の数とし、Ｎ_Ｃをクラスの数とし、Ｎ_Ｄを画像毎の特徴記述子の数とする。典型的なＣＢＩＲシステムの計算複雑性は、Ｏ（Ｎ_Ｔ・Ｎ_Ｃ・Ｎ_Ｄ＋（Ｎ_Ｔ・Ｎ_Ｃ）・ｌｏｇ（Ｎ_Ｔ・Ｎ_Ｃ））である。［３４］を参照。対照的に、事前分類ステップの追加は、複雑性をＯ（Ｎ_Ｃ・Ｎ_Ｄ・ｌｏｇ（Ｎ_Ｔ・Ｎ_Ｄ））＋Ｏ（Ｎ_Ｔ・Ｎ_Ｄ＋Ｎ_Ｔ・ｌｏｇ（Ｎ_Ｔ））に減らす。第１の項は、ナイーブベイズ（Ｎａｒｖｅ−Ｂａｙｅｓ）最近傍分類器［３５］を使用する画像事前分類を表し、第２の項は、ＣＢＩＲプロセス自体を表す。

いくつかの見通しを与えるために、Ｎ_Ｔ＝１００、Ｎ_Ｃ＝１０、及びＮ_Ｃ＝１５０の場合を考える。前者と比較して後者の計算複雑性は、７倍の処理速度の向上を結果としてもたらす。それゆえ、画像事前分類は、ＣＢＩＲ性能を改良する。

猫の頭部及び顔の検出は、研究者の最近の関心を集めており、インターネット上での及び人間の伴侶としてそれらの人気を反映する［３６］、［３７］、［３８］、［３９］。猫は、パターン認識に対する興味深い課題を提示する。人間に類似する顔の形状を共有するが、人間の顔を検出するためのアプローチは、人間と比較して猫の顔の特徴及び猫のテクスチャ間の大きなクラス内変動が原因で、猫に直接的に適用されることができない。本発明は、その２つを区別することができるＰＢＲをベースとする分類器である。

ＬａｂｅｌｌｅｄＦａｃｅｓｉｎｔｈｅＷｉｌｄ（ＬＦＷ）画像データセット（図２ａ）は、［４０］の著者によって作成され、猫データセット（図２ｂ）は、［３６］の著者によって作成された。これらは、１３，２３３個の人間の画像及び９，９９７個の猫の画像から成る。ある例では、各クラス内で、画像の７０％が訓練のために、及び残りの３０％が試験のために無作為に分配された。

本発明の態様によれば、本明細書に記載されるような画像分類を行うことができる画像分類システムが、図３ａに示される（また、図３ｃに示される基本プロセスを参照）。図示されるように、システムは、メモリ（図示しない）にアクセスできる、ホストコンピューティングシステム（例えば、ＣＰＵ）と結合されたグラフィックスプロセッサを含む。図３ａに示されるように、ホストは、訓練画像についての記憶された画像または画像データにアクセスすることができる。以下に記載されるように、各画像は、特定の適用に基づいて選択され得る標準サイズ（例えば、２５０×２５０画素）にサイズ変更される。サイズ変更後、勾配方向ヒストグラム（ＨＯＧ）が特徴抽出のために使用される。ＨＯＧデータは、実行中に生成（または再生成）される必要がないように、各訓練画像について記憶され、アクセスされ得る。分類される画像（図３ａ上の、試験画像）は、画像源、例えば、メモリ、ネットワーク、または画像取込システム（カメラ、スキャナ、もしくは他の画像化デバイス）などから、ホストにおいて受信される。画像は、標準サイズにサイズ変更される。サイズ変更後、勾配方向ヒストグラム（ＨＯＧ）が特徴抽出のために使用される。

ＨＯＧデータは、更なる処理のためにＧＰＵに入力される。配向が計算され、ヒストグラムが生成される。ヒストグラムは、（図示されるように、ホストによって、）正規化される。ＰＢＲ計算は、訓練画像データ及び試験画像データの両方について行われる。勿論、ＰＢＲ計算は、訓練画像及びその結果の記憶に先駆けて行われてもよい。最終的に、比較は、ＰＢＲ結果を使用して最も近い合致を見出すことによって画像を分類するように行われる。例えば、（以下の）アルゴリズム２が、利用されてもよい。

一例では、ＧＰＵ並列型バージョンの勾配方向ヒストグラム（ＨＯＧ）［４１］が、特徴抽出のために使用された。適応性の局所平均をベースとするｋ最近傍法（ＡＬＭＫＮＮ）と呼ばれる分類器が使用され、それは、Ｍｉｔａｎｉｅｔａｌ［４２］において使用された局所平均をベースとする非パラメトリック分類器の修正である。ＡＬＭＫＮＮは、ＧＰＵ上に部分的に実現される。

ＨＯＧ特徴は、ＮＶＩＤＩＡの計算統合デバイスアーキテクチャ（ＣＵＤＡ：ＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ）フレームワークを使用してＧＰＵで実現されてもよい。ＨＯＧ特徴は、ある画像における勾配の空間分布を表わすことによって外観及び形状を抽出する手段として、ＮａｖｎｅｅｔＤａｌａｌ及びＢｉｌｌＴｒｉｇｇｓ［４１］によって最初に記載された。これは、歩行者検出［４３］、車両検出［４４］、及びジェスチャ認識［４５］に適用されている。一実施形態によれば、矩形（ｒｅｃｔａｎｇｕｌａｒ）−ＨＯＧ（Ｒ−ＨＯＧ）変異体［４６］が、以下に記載されるように使用される。

本発明の別の態様によれば、ＤＮＡシーケンシング、例えば、腫瘍生検の場合では、例えば希少変異体検出などのためのシステム及び方法が提供されてもよい。シーケンシングクオリティ確率のベクターＸは、Ｘ＝（ｘ_１、ｘ_２、ｘ_３、．．．．、ｘ_ｄｘ）であるようにシーケンシング深さｄ_ｘを有する単一塩基位置における入力ＤＮＡサンプルからのものであり、類似のベクターＹは、Ｙ＝（ｙ_１、ｙ_２、ｙ_３、．．．．、ｙ_ｄｙ）であるように深さｄ_ｙまで配列された基準ＤＮＡサンプルからのものである。両方のベクターについて、以下のように平均（μ）及び標準偏差（σ）を計算する。

ベクターＸ及びＹを比較するために、ＰＢＲ_ｓｅｑが、以下のようにＸとＹとの間の距離であるように定義され得る。

小さなＰＢＲ_ｓｅｑ値は、腫瘍サンプルの可能性が高いことを示す。分類目的のために、サンプルＸがＰＢＲ_ｓｅｑ≦Ｔである場合に腫瘍として分類されるが、それ以外の場合には正常として分類されるような単純な閾値Ｔが定義され得る。

図３ｂに示されるように、ＤＮＡシーケンシングのためのシステムが提供される。図３ｂに示されるように、システムは、３ａのシステムに類似するが、ベクターデータを使用するＤＮＡシーケンシングのための上記方法を実施する。図示されるように、上記したような入力クオリティスコアベクターは、入力確率ベクターに変換され、それは、ホストによって達成され得る。基準確率ベクターが、前もって提供され得るかまたはホストによって計算され得、ＧＰＵに提供され得る。ＧＰＵは、２つの確率ベクターを受信し、入力ベクターと基準ベクターとの間のＰＢＲ_ｓｅｑ距離を計算するように構成される。その距離は、ＤＮＡシーケンスを分類するために使用され、ホストは、割り当てられたクラスの指示を出力する。

勾配計算。

入力画像ｌ（ｘ，ｙ）を所与とすると、１−Ｄ空間導関数ｌ_ｘ（ｘ，ｙ）及びｌ_ｙ（ｘ，ｙ）が、Ｘ及びＹ方向に勾配フィルタを適用することによって計算され得る。各画素についての勾配の大きさＭａｇ（ｘ，ｙ）及び配向（ｘ，ｙ）は、
を使用して計算され得る。

ヒストグラム蓄積。

ヒストグラムは、セルと呼ばれる局所空間領域にわたって各画素の勾配の大きさを対応する配向ビンに蓄積することによって生成され得る。照明及びコントラストの影響を減らすために、ヒストグラムは、画像全体にわたって正規化される。最終的に、ＨＯＧ記述子が、全てのセルの正規化されたヒストグラムをただ１つのベクターに連結させることによって形成される。

一例では、上記したＨＯＧアルゴリズムが、ＰｙＣＵＤＡｔｏｏｌｋｉｔ［４７］のバージョン２０１２．１及びＮＶＩＤＩＡＣＵＤＡＴｏｏｌｋｉｔのバージョン５．０を使用して実現され、ＧｅＦｏｒｃｅＧＴＸ５６０Ｔｉグラフィックスカード上で実行された。各画像は、２５０×２５０（６２，５００画素）にサイズ変更され、次いで、それぞれ５０×５０画素の、２５個のセルに等しく細分化された。６２，５００画素に対処するために、６５，５３６スレッドが、ブロック毎に３２×３２スレッド及びグリッド毎に８×８ブロックを有するＧＰＵにおいて生成された。ホストとＧＰＵの両方内へのメモリの割り当て後、カーネルが起動される。

勾配の大きさ、配向、及びヒストグラムは、ヒストグラムがホストに転送された後に計算されてもよく、そこで、全画像にわたる正規化が実行される。

分類モジュール

分類器は、パラメトリックまたは非パラメトリックのいずれかであり得る。パラメトリック分類器は、一般に正規分布である、各クラスについての統計的分布を仮定する。訓練データは、分類モデルを構築するためにのみ使用され、次いで、完全に廃棄される。それゆえ、それらは、モデルベースの分類器または積極的（Ｅａｇｅｒ）分類器と呼ばれる。比較すると、非パラメトリック分類器は、データの確率分布について仮定せず、記憶された訓練データのみに基づいて試験タプルを分類し、したがって、インスタンスベースまたは怠惰（Ｌａｚｙ）分類器としても知られる。パラメトリック分類器の典型的な例は、分類器パラメータの集約的訓練フェーズを要求するサポートベクターマシン（ＳＶＭ）アルゴリズムであり［４８］、［４９］、［５０］、逆に、最もよく知られた非パラメトリック分類器のうちの１つは、ｋ最近傍法（ｋＮＮ）分類器である。

ｋＮＮ［５１］は、その簡単さ及び有効性のおかげで、パターン認識問題において広く使用されている。その上、それは、データマイニング［５２］における上位１０位のアルゴリズムのうちの１つであると考えられる。ｋＮＮは、各クエリパターンを、訓練セットにおけるそのｋ最近傍法の大多数のクラスラベルと関連付けられたクラスに割り当てる。バイナリ（２つのクラス）分類問題において、ｋの値は、通常、可否同数を回避するために奇数である。ｋＮＮは、いくつかの利点、例えば、膨大な数のクラスを扱う能力、過剰適合の回避、及び訓練フェーズの無いことなどを有するけれども、それは、３つの主な欠点、すなわち、（１）計算時間、（２）外れ値の影響［５３］、及び（３）ｋを選択する必要性［５４］に悩まされる。

第１の問題、時間複雑性は、特に、訓練セットのサイズが非常に大きいときに、訓練セットとクエリパターンとの間の距離の計算の間に起きる。この問題は、ｋＮＮを並列化することによって対処され得、時間複雑性を一定のＯ（１）に減らす。これは、代替の実現形態、例えば、時間がＯ（ｌｏｇＮ）である探索木などに比べると良い。第２の問題は、外れ値の影響に関係する。この問題を回避するために、局所近隣に焦点を合わせるアプローチが使用され得る。しかしながら、ＬＭＫＮＮ（局所平均ｋＮＮ）と呼ばれるこの種のアプローチは、依然として、ｋについての値を選択する必要があるという問題を抱える。大抵の場合、ｋは、交差検証技法［５５］によって選択される。

しかしながら、これは、時間を浪費し、過剰適合のリスクを抱える。それゆえ、本発明は、ｋが適応的に選択されるアルゴリズムを含み、それゆえ、固定されたｋ値の必要性を除去する。ｋに上界をもたせるために、一般経験則が使用され、それは、Ｎの平方根であり、Ｎは、Ｔにおける総訓練インスタンスである［５６］。そのアルゴリズムは、適応性のＬＭＫＮＮまたはＡＬＭＫＮＮとして参照される。

この分類器の動作が、アルゴリズム２に記載される。

１６，２６１個の（ＴにおけるＮ）訓練インスタンスを用いて、近隣の極限値ｋ_ｍｉｎ及びｋ_ｍａｘが、それぞれ、２０及び１２７（√Ｎの底）として定義され得る。下界（ＬＢ）及び上界（ＵＢ）は、それぞれ、２％及び５０％である意思決定のために定義され得る。距離計算の第１のステップは、ＣＵＤＡＭａｔ［５７］を使用するＧＰＵにおいて実現され得る。アルゴリズムの残りは、ＣＰＵ（ホスト）において実現された。訓練フェーズは存在せず、訓練画像についてのＨＯＧ記述子は、メモリに記憶される。

分類性能

ＡＬＭＫＮＮをフレームワークとして使用して、様々な距離測度が、並行して、すなわち、ＰＢＲ、Ｌ_０．１、Ｌ_０．５、Ｌ_１、及びＬ_２が、評価された。本発明の分類精度は、繰り返された無作為のサブサンプリング検証の６回の実行にわたって平均された。これらの結果は、図４に示される。興味深いことに、ＰＢＲ及びＬ_１は、ほぼ同一の精度であり、他の距離測度を容易にしのいだ。ユークリッド距離は、小さな訓練セットでわずかにより良く機能させることができたが、訓練画像の数が増えるにつれてすぐにうまくいかなくなった。

ノイズの影響

ＰＢＲがノイズ劣化に対して他の距離測度と比較してより耐えるかどうかを試験するために、訓練及び試験画像の両方が、増加する密度ｄのごま塩ノイズで汚染された。ｄ＝０において、ＰＢＲは、Ｌ_１を除いて、全ての距離測度よりも有意に性能が良かった。しかしながら、我々の仮説と矛盾せず、ＰＢＲは、それどころか、最少量のノイズ（ｄ＝０．０５）が追加されたときに、Ｌ_１を含む全ての距離測度よりも有意に性能が良かった（表１）。

各方法について曲線下面積（ＡＵＣ）が、繰り返される無作為のサブサンプリング検証の６回の独立の実行にわたって平均化された。９５％の信頼度レベルを有するウィルコクソンの符号順位検定が、他の方法をＰＢＲと比較するために使用された。ＰＢＲよりも性能が有意に劣った方法は、アステリスク＊で強調されている。各ノイズレベルについて最高のＡＵＣが太字にされている。

計算時間

計算時間は、Ｕｂｕｎｔｕ１２．０４ＬＴＳを実行する、６４ビットのＩｎｔｅｌＣｏｒｅｉ５−３４７０ＣＰＵ＠３．２０ＧＨｚ１２ＧＢＲＡＭＰＣシステム上で測定された。
表２：２５０×２５０画素の画像を処理するための平均計算時間。
表２から、本発明のＧＰＵ実現形態は、純粋にＣＰＵバージョンのものよりも約２．６倍速かったことが分かり得る。この高速度化は、ＰＢＲをＬ_１及びＬ_２とほぼ同じ水準に至らせる。計算時間は、ＡＬＭＫＮＮ分類器前のステップとして、最近隣平均分類器（ＮＭＣ）（アルゴリズム３）を導入することによって、更に削減された。２０％の信頼度測度（ＣＭ：ＣｏｎｆｉｄｅｎｃｅＭｅａｓｕｒｅ）が使用された。これは、重心への距離間のコントラストが２０％を超えたときに、ＮＭＣ結果が、分類のために使用されたことを意味する。
精度結果は、全く同じであったが、計算時間は、図５に示されるように、有意に改良された。
耳バイオメトリクスの適用

バイオメトリクス技術は、生理学的または挙動的であり得る特徴を使用して個人の同一性を検証する自動化された方法を扱う。自動化されたバイオメトリクスの分野は、過去１０年間にわたって大きく進歩しており、顔、指紋、及び虹彩バイオメトリクスは、最も一般的に実現される様式として出現している。欠点のないバイオメトリクス様式は１つもない。例えば、顔バイオメトリクスは、広く研究されているが、未だに、準最適条件において失敗の傾向がある［５８］、［５９］。

指紋は、固有のシグネチャを与えるには理論上かなり複雑であり、実際には、指紋バイオメトリクスは、偽装に耐えるものではない。なぜなら、システムは、ゼラチン、シリコン、及びラテックスでできた偽の指紋による攻撃を受けやすいからである［６０］。虹彩バイオメトリクスは、極めて正確であることかつ信頼性の高いことが証明されたが、その性能は、不十分な照明、標的の動き、加齢、まぶたによる部分的な遮蔽、及び取得に対する感度といった場合の下で、急速に劣化する。これは、より確立されたバイオメトリクスの問題を克服できる他の特徴への研究の動機付けとなった。これらの新しい特徴のうちの１つである、耳バイオメトリクスは、多数の理由のために、ますます関心を集めている。
１）顔及び虹彩とは異なり、耳の形状は、十代及び成人期にわたって程よく不変である。いかなる変化も、一般に、８歳以前及び７０歳以後に発生する［６１］。
２）画像コンテキストが、顔の片側からその参照を取るので、耳の画像化のために制御された環境が要求されない。
３）耳バイオメトリクスは、遺伝子的に同一の双子を区別することができるのに対して、顔バイオメトリクスは、この点において失敗する［６２］。
４）耳は、より均一な色の分布を有し、表情と共に変動することが少ない。

本発明の態様によれば、耳認識システムは、上記に従って、ＨＯＧ特徴及びＰＢＲに基づいて提供される。使用されたデータベースは、ＩＩＴＤｅｌｈｉの耳データベースＩ及びＩＩ［６３］である。ＩＩＴＤｅｌｈｉデータベース（ＤＢ）１において１２５個の対象及び４９３個の画像、ＩＩＴＤｅｌｈｉデータベース（ＤＢ）２において２２１個の対象及び７９３個の画像が存在する。

両方のデータベースにおける各対象についての試験画像が、無作為に選び出され、残りの画像が、訓練のために使用された。
バイオメトリクス分析アーキテクチャ

耳認識システムにおいて３つの主なステップ、すなわち、（１）事前処理、（２）特徴抽出、及び（３）テンプレート照合が存在する。ヒストグラム等化が、事前処理ステップとして使用される場合がある。特徴抽出は、既に上記したようなものであり得る。本発明の態様によれば、照合モジュールが、訓練画像の中で最も近く合致するものを探索し得る。これらのデータベース内の画像は、５０×１８０画素であり、５０×５０画素にサイズ変更された。
認識性能

性能は、順位１の認識精度を使用して評価された。認識結果は、１０回の実行にわたって平均化された。全ての距離測度についての順位１の認識率の平均及び標準偏差が、表３に示される。

累積照合曲線（ＣＭＣ）が、バイオメトリクス認識システムについての性能を測定するために使用され、性能検証に照らして受信者操作特性曲線（ＲＯＣ）に直接的に関連していることが示された［６４］。それゆえ、図６には、全ての測度についてのＣＭＣもまた示される。
ノイズの影響

ある実験では、本発明が、増加する密度ｄのごま塩ノイズで汚染された訓練及び試験画像に適用された。比較は、図７ａ及び７ｂに示される。Ｌ_２を除く全ての距離測度が、ノイズについて安定していることが見られ得、Ｌ_２性能は、増加するノイズ密度ｄと共に急激に劣化している。
ＰＢμと距離測度との相関関係

ある定義された試験画像に対して様々な距離測度によって合致した画像の順位付けを取って、ＰＢμと他の測度（すなわち、ＰＢＲ、Ｌ_０．１、Ｌ_０．５、Ｌ_１、及びＬ_２）との間の相関関係が取られた。表４における結果は、ＰＢＲ及びＰＢ_μが極めて相関しており、かつ順位付けが、これらの２つの距離測度間で事実上全く同じであることを示す。これは、ＰＢ_μ及びＰＢＲがほぼ同等の距離測度であることに一致している。
カーネルをベースとする画像分類

ＰＢＲは、異なる入力（ＰＲＩＣｏＬＢＰ、ＨＯＧ）を受け付け、また、異なる機械学習フレームワーク（ＫＮＮ、ＳＶＭカーネル）内で機能する距離計量である。

ＳＶＭ（サポートベクターマシン）は、入力データが独立同一分布されることを要求するが、それらは、非独立同一分布（ｉ．ｉ．ｄ）のシナリオ、例えば、発話認識、システム診断等［６５］において成功裏に適用される。それゆえ、ＳＶＭフレームワークが、画像分類におけるＰＢＲ距離の効率を説明するために利用され得る。ＰＢＲをＳＶＭフレームワークに組み込むために、ＲＢＦカーネルの以下の一般化形式が使用される［６６］。

式中、ｐは、交差検証を使用して取得されるスケーリングパラメータであり、ｄ（Ｘ，Ｙ）は、２つのヒストグラムＸとＹとの間の距離である。その距離は、以下のようにＰＢＲのわずかに修正した形式を使用して定義され得る。
定義。ｐ_ｉ＝ａ_ｉＩｎ（２ａ_ｉ／（ａ_ｉ＋ｂ_ｉ））＋ｂ_ｉＩｎ（２ｂ_ｉ／（ａ_ｉ＋ｂ_ｉ））で、２つのＮ次元の特徴ベクターＸ＝（ａ_１、ａ_２、ａ_３、．．．．、ａ_Ｎ）及びＹ＝（ｂ_１、ｂ_２、ｂ_３、．．．．、ｂ_Ｎ）を所与とすると、２つのベクター間の距離は、
である。

ＰＢＲカーネルは、ｄ（Ｘ，Ｙ）をＳＶＭフレームワークに代入することによって取得され得る。
実験

ＰＢＲ距離カーネルの性能は、以下の６個の異なる適用、すなわち、テクスチャ分類、シーン分類、種、材料、葉、及び物体認識において評価された。テクスチャデータセットは、Ｂｒｏｄａｔｚ［６７］、ＫＴＨ−ＴＩＰＳ［６８］、ＵＭＤ［６９］、及びＫｙｌｂｅｒｇ［７０］である。シーン分類適用は、Ｓｃｅｎｅ−１５［７１］データセットに基づいた。認識タスクのために、リーズの蝶（ＬｅｅｄｓＢｕｔｔｅｒｆｌｙ）［７２］、ＦＭＤ［７３］、スウェーデンの葉（ＳｗｅｄｉｓｈＬｅａｆ）［７４］、及びＣａｌｔｅｃｈ−１０１［７５］データセットが利用された。分類及び認識タスクの両方について、クラス毎の訓練画像の数への性能の依存が評価された。各データセットにおいて、ｎ個の訓練画像が無作為に選択され、試験画像の数がクラス毎に５０個に限定されたＣａｌｔｅｃｈ−１０１データセットを除いて、残りが試験のために選択された。全ての実験は、テクスチャデータセットについて百回及びその他について十回繰り返された。各実行について、カテゴリ毎の平均精度が計算された。個々の実行からのこの結果が、最終結果として平均及び標準偏差を報告するために使用された。カラー画像が利用可能であったときでさえも、全てのデータセットについてのグレースケール強度値のみが使用された。

複数のクラス分類が、一対他（ｏｎｅ−ｖｓ−ｔｈｅ−ｒｅｓｔ）技法を使用して行われた。各データセットについて、ＳＶＭハイパーパラメータ、例えば、Ｃ及びガンマなどが、
及び
を用いる訓練セットにおける交差検証によって選択された。

最近、対をなす回転不変性同時発生局所二値パターン（ＰＲＩＣｏＬＢＰ）特徴が、種々の適用において効率的かつ効果的であることが示された［７６］。この特徴の重要な属性は、空間コンテキストにおける同時発生情報の回転不変性及び効果的な捕捉である。それゆえ、この特徴が、実験のために使用された。
テクスチャ分類

Ｂｒｏｄａｔｚアルバムは、１１１個の異なるテクスチャクラスを含む人気のある評価基準テクスチャデータセットである。各クラスは、９個の重複しないサブ画像に分割される１つの画像を含む。

ＫＴＨ−ＴＩＰＳデータセットは、クラス毎に８１個の画像を有する、１０個のテクスチャクラスから成る。これらの画像は、それらが３つの異なる照明方向の下で、３つの異なる姿勢を有する９個のスケールにおいて取り込まれるので、高いクラス内変動性を実証する。

ＵＭＤテクスチャデータセットは、クラス毎に４０個のサンプルを伴う２５個のカテゴリを含む。これらの較正されない未登録画像は、著しいコントラスト差と共に、有意の視点及びスケール変更の下で取り込まれる。

Ｋｙｌｂｅｒｇデータセットは、クラス毎に１６０個の固有サンプルの２８個のテクスチャクラスを有する。クラスは、スケール、照明、及び方向性に関して均一である。回転されるテクスチャパッチ「を用いない」バージョンのデータセットが使用された。

ＰＲＩＣｏＬＢＰの２_ａテンプレート構成が使用された。それは、全データセットについて１，１８０個の次元特徴を生じた。実験結果は、Ｂｒｏｄａｔｚ、ＫＴＨ−ＴＩＰＳ、ＵＭＤ、及びＫｙｌｂｅｒｇデータセットについて、それぞれ、表５、６、７、及び８に示される。結果から、我々は、ＰＢＲは、訓練画像の数が少ないときに他の方法の性能を一貫して上回り、他の距離測度と比較するときにより小さな標準偏差をより高い分類率と共に生じることに気付いた。

葉の認識

スウェーデンの葉のデータセットは、種毎に７５個の画像を有する、１５個の異なるスウェーデンの木の種を含む。これらの画像は、高いクラス内類似性ならびに大きなクラス内幾何学的及び測光変動を呈する。我々は、テクスチャデータデットの場合と同じＰＲＩＣｏＬＢＰ構成を使用した。我々は、葉の空間レイアウト事前情報を使用しなかったことに留意されたい。実験結果は、表９に示される。我々は、ＰＢＲが、他の距離測度よりも正確な結果をもたらすことに気付いた。

材料認識

フリッカー材料データベース（ＦＭＤ：ＦｌｉｃｋｒＭａｔｅｒｉａｌＤａｔａｂａｓｅ）は、材料認識のために最近公開された挑戦的な評価基準セットである。このデータベース内の画像は、Ｆｌｉｃｋｒの写真から手動で選択され、各画像は、織物、葉、ガラス、革、金属、紙、プラスチック、石、水、及び木を含む、１０個の一般的な材料カテゴリのうちのいずれか１つに属する。各カテゴリは、実世界の材料の外観変動を捕らえる１００個の画像（５０個の接写写真及び５０個の物体レベル写真）を含む。それゆえこれらの画像は、大きなクラス内変動及び異なる照明状態を有する。事実上、それらは、物体の場所を描写するセグメント化マスクと関連付けられる。これらのマスクは、物体領域のみからＰＲＩＣｏＬＢＰを抽出するために使用され得る。具体的には、６個のテンプレート構成が、ＰＲＩＣｏＬＢＰのために使用され得、それは、３，５４０個の次元特徴ベクターを生じた。

表１０は、ＦＭＤデータセットのクラス毎の訓練画像の数への認識率の依存度を示す。ＰＢＲカーネルが、最も良いパフォーマンスをし、バタチャリヤ距離（Ｂｈａｔｔａｃｈａｒｙｙａｄｉｓｔａｎｃｅ）及びジェフリーダイバージェンス（Ｊｅｆｆｒｅｙｄｉｖｅｒｇｅｎｃｅ）法がその後に続くことが観察された。

表１１において、ＰＢＲカーネルが、他の距離測度カーネルと比較して、全１０個のカテゴリの中から５個のカテゴリにおいてトップパフォーマンスをするものであることに留意する。

シーン分類

Ｓｃｅｎｅ−１５データセットは、いくつかの従来のデータセット［７１］、［７７］、［７８］の組み合わせである、全部で４，４８５個の画像を含む。このデータセット内の各画像は、寝室、郊外、産業系、台所、居間、海岸、森林、幹線道路、市内、山、開けた田舎、道、高層建築物、オフィス、及び店舗を含む、１５個のカテゴリのうちの１つに属する。カテゴリ毎の画像の数は、２１０から４１０まで変動する。これらの画像は、異なる解像度のものであり、それゆえ、我々は、（アスペクト比を維持しつつ）２５６画素の最小次元を有するように画像をサイズ変更した。

我々は、ＰＲＩＣｏＬＢＰの２_ａテンプレート構成を、ただし、２つのスケール（近隣の半径：１，２）と共に使用した。それゆえ、特徴ベクターの次元数は、２，３６０である。表１２は、可変数の訓練画像についての異なる方法の分類結果を示す。我々は、ＰＢＲが、より少ない数の訓練画像で最も良く機能し、クラス毎に１００個の訓練画像に匹敵する性能をもたらすことに気付いた。

物体認識

Ｃａｌｔｅｃｈ−１０１データセットは、物体認識のための重要な評価基準データセットである。これは、１０２個のカテゴリ（１０１個の多様なクラス及び１つの背景クラス）の下で９，１４４個の画像を含む。クラス毎の画像の数は、３１から８００まで変動する。これらの画像は、大きなクラス内変動を呈し、それらはまた、次元が変動する。それゆえ、画像は、（アスペクト比を維持しつつ）２５６画素の最小次元を有するようにサイズ変更された。ＰＲＩＣｏＬＢＰの６個のテンプレート構成が、２つのスケール（近隣の半径：１，２）と共に使用された。それは、７，０８０個の次元特徴を結果としてもたらす。

表１３は、可変数の訓練画像についての異なる方法の認識精度を示す。ＰＢＲ距離カーネルの結果が他の距離測度をベースとするカーネルに匹敵することが見て取れ得る。

種認識

リーズの蝶（ＬｅｅｄｓＢｕｔｔｅｒｆｌｙ）のデータセットは、蝶の１０個のカテゴリ（種）について合計で８３２個の画像から成る。各カテゴリにおける画像の数は、５５から１００に及ぶ。それらは、照明、姿勢、及び次元に関して変動する。画像は、（アスペクト比を維持しつつ）２５６画素の最小次元を有するようにサイズ変更された。ＰＲＩＣｏＬＢＰの同じ設定が、テクスチャデータセットに関して使用された。表１４は、可変数の訓練画像についてのリーズの蝶のデータセットの異なる方法の認識精度を示す。ＰＢＲカーネルが、他の距離測度をベースとするカーネルと比較に値する性能を達成することが見て取られ得る。

表１４−リーズの蝶のデータセットの認識結果（パーセント）

それゆえ、いくらかの好適な実施形態が、図面を参照して十分に上記された。本発明の態様によれば、画像認識システムの計算効率、速度、及び精度を改良できるシステムならびに方法が提供される。本発明の適用は、医療システム、例えば、医療診断機械、ＤＮＡシーケンシング機械、手術ロボット、及び他の画像化システムなどを含む。他の適用は、バイオメトリクシグネチャを検証するための機械、犯罪捜査システム、例えば、指紋同定システムまたは顔認識システムなどを含み得る。当業者は、上記した発明の他の新しい及び有用な適用を認識するであろう。

本発明は、これらの好適な実施形態に基づいて記載されたが、一定の修正、変形、及び代替の構造が、本発明の趣旨及び範囲内で記載された実施形態に対して作られ得ることは当業者に明らかであろう。

例えば、ユーザは、例えば、ユーザプロファイルによって分類され得、照合は、ある特定のユーザプロファイルを有するユーザに限定され得る。

参考文献

以下の公的に利用可能な刊行物が、番号［＃］によって上記で参照されており、出願の一部を形成する。それらの関連した内容が、参照によって本明細書に組み込まれ、それらは、参考文献の文脈及び様態から容易に理解されるべきである。

［１］Ｎ．Ｓｅｂｅ，Ｍ．Ｓ．Ｌｅｗ，ａｎｄＤ．Ｐ．Ｈｕｉｊｓｍａｎｓ， "ＴｏｗａｒｄＩｍｐｒｏｖｅｄＲａｎｋｉｎｇＭｅｔｒｉｃｓ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．２２，ｎｏ．１０，ｐｐ．１１３２−１１４３，２０００．

［２］Ｗ．Ｄｏｎｇ，Ｌ．Ｈｕｃｈｕａｎ，ａｎｄＹ．Ｍｉｎｇ−Ｈｓｕａｎ， "ＬｅａｓｔＳｏｆｔ−ＴｈｒｅｓｈｏｌｄＳｑｕａｒｅｓＴｒａｃｋｉｎｇ，" ｉｎＰｒｏｃ．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２３−２８Ｊｕｎｅ２０１３２０１３，ｐｐ．２３７１−２３７８．

［３］Ｇ．ＨｅａｌｅｙａｎｄＲ．Ｋｏｎｄｅｐｕｄｙ， “ＲａｄｉｏｍｅｔｒｉｃＣＣＤＣａｍｅｒａＣａｌｉｂｒａｔｉｏｎａｎｄＮｏｉｓｅＥｓｔｉｍａｔｉｏｎ，” ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．１６，ｎｏ．３，ｐｐ．２６７−２７６，Ｍａｒ１９９４．

［４］Ｊ．Ｒ．Ｊａｎｅｓｉｃｋ，ＳｃｉｅｎｔｉｆｉｃＣｈａｒｇｅ−ＣｏｕｐｌｅｄＤｅｖｉｃｅｓ．Ｂｅｌｌｉｎｇｈａｍ，ＷＡ：ＳＰＩＥ，２００１．

［５］Ｃ．−Ｈ．Ｌｉｎ，Ｊ．−Ｓ．Ｔｓａｉ，ａｎｄＣ．−Ｔ．Ｃｈｉｕ， "ＳｗｉｔｃｈｉｎｇＢｉｌａｔｅｒａｌＦｉｌｔｅｒＷｉｔｈａＴｅｘｔｕｒｅ／ＮｏｉｓｅＤｅｔｅｃｔｏｒｆｏｒＵｎｉｖｅｒｓａｌＮｏｉｓｅＲｅｍｏｖａｌ，" ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．１９，ｎｏ．９，ｐｐ．２３０７−２３２０，２０１０．

［６］Ｃ．Ｌｉｕ，Ｒ．Ｓｚｅｌｉｓｋｉ，Ｓ．Ｂ．Ｋａｎｇ，Ｃ．Ｌ．Ｚｉｔｎｉｃｋ，ａｎｄＷ．Ｔ．Ｆｒｅｅｍａｎ， "ＡｕｔｏｍａｔｉｃＥｓｔｉｍａｔｉｏｎａｎｄＲｅｍｏｖａｌｏｆＮｏｉｓｅｆｒｏｍａＳｉｎｇｌｅＩｍａｇｅ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．３０，ｎｏ．２，ｐｐ．２９９−３１４，２００８．

［７］Ｎ．ＹｏｕｎｇａｎｄＡ．Ｅｖａｎｓ， "Ｓｐａｔｉｏ−ＴｅｍｐｏｒａｌＡｔｔｒｉｂｕｔｅＭｏｒｐｈｏｌｏｇｙＦｉｌｔｅｒｓｆｏｒＮｏｉｓｅＲｅｄｕｃｔｉｏｎｉｎＩｍａｇｅＳｅｑｕｅｎｃｅｓ，" ｉｎＰｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１，２００３，ｐｐ．ｌ−３３３−６．

［８］Ｐ．Ｈ．ＷｅｓｔｆａｌｌａｎｄＫ．Ｓ．Ｓ．Ｈｅｎｎｉｎｇ，ＵｎｄｅｒｓｔａｎｄｉｎｇＡｄｖａｎｃｅｄＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｓ．ＢｏｃａＲａｔｏｎ，ＦＬ，ＵＳＡ：ＣＲＣＰｒｅｓｓ，２０１３．

［９］Ａ．ＴｖｅｒｓｋｙａｎｄＩ．Ｇａｔｉ， "Ｓｉｍｉｌａｒｉｔｙ，Ｓｅｐａｒａｂｉｌｉｔｙ，ａｎｄｔｈｅＴｒｉａｎｇｌｅＩｎｅｑｕａｌｉｔｙ，" Ｐｓｙｃｈｏｌｏｇｉｃａｌｒｅｖｉｅｗ，ｖｏｌ．８９，ｎｏ．２，ｐ．１２３，１９８２．

［１０］Ｗ．Ｊ．Ｓｃｈｅｉｒｅｒ，Ｍ．Ｊ．Ｗｉｌｂｅｒ，Ｍ．Ｅｃｋｍａｎｎ，ａｎｄＴ．Ｅ．Ｂｏｕｌｔ， "ＧｏｏｄＲｅｃｏｇｎｉｔｉｏｎｉｓＮｏｎ−Ｍｅｔｒｉｃ，" ＣｏｍｐｕｔｉｎｇＲｅｓｅａｒｃｈＲｅｐｏｓｉｔｏｒｙ，ｖｏｌ．ａｂｓ／１３０２．４６７３，２０１３．

［１１］Ｋ．Ｂｅｙｅｒ，Ｊ．Ｇｏｌｄｓｔｅｉｎ，Ｒ．Ｒａｍａｋｒｉｓｈｎａｎ，ａｎｄＵ．Ｓｈａｆｔ， "ＷｈｅｎＩｓ "ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ"" Ｍｅａｎｉｎｇｆｕｌ？" ｉｎＤａｔａｂａｓｅＴｈｅｏｒｙＩＣＤＴ９９，ｓｅｒ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｃ．ＢｅｅｒｉａｎｄＰ．Ｂｕｎｅｍａｎ，Ｅｄｓ．ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，１９９９，ｖｏｌ．１５４０，ｐｐ．２１７−２３５．

［１２］Ｃ．Ａｇｇａｒｗａｌ，Ａ．Ｈｉｎｎｅｂｕｒｇ，ａｎｄＤ．Ｋｅｉｍ， "ＯｎｔｈｅＳｕｒｐｒｉｓｉｎｇＢｅｈａｖｉｏｒｏｆＤｉｓｔａｎｃｅＭｅｔｒｉｃｓｉｎＨｉｇｈＤｉｍｅｎｓｉｏｎａｌＳｐａｃｅ，" ｉｎＤａｔａｂａｓｅＴｈｅｏｒｙＩＣＤＴ２００１，ｓｅｒ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｊ．ＢｕｓｓｃｈｅａｎｄＶ．Ｖｉａｎｕ，Ｅｄｓ．ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，２００１，ｖｏｌ．１９７３，ｐｐ．４２０−４３４．

［１３］Ｍ．Ｄｏｎａｈｕｅ，Ｄ．Ｇｅｉｇｅｒ，Ｒ．Ｈｕｍｍｅｌ，ａｎｄＴ．−Ｌ．Ｌｉｕ， "ＳｐａｒｓｅＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒＩｍａｇｅＤｅｃｏｍｐｏｓｉｔｉｏｎｗｉｔｈＯｃｃｌｕｓｉｏｎｓ，" ｉｎＰｒｏｃ．ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｊｕｎ１９９６，ｐｐ．７−１２．

［１４］Ｄ．Ｗ．Ｊａｃｏｂｓ，Ｄ．Ｗｅｉｎｓｈａｌｌ，ａｎｄＹ．Ｇｄａｌｙａｈｕ， "ＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＮｏｎｍｅｔｒｉｃＤｉｓｔａｎｃｅｓ：ＩｍａｇｅＲｅｔｒｉｅｖａｌａｎｄＣｌａｓｓＲｅｐｒｅｓｅｎｔａｔｉｏｎ，" ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌ．Ｍａｃｈ．Ｉｎｔｅｌｌ．，ｖｏｌ．２２，ｎｏ．６，ｐｐ．５８３−６００，２０００．

［１５］Ｐ．ＨｏｗａｒｔｈａｎｄＳ．Ｒｇｅｒ， "ＦｒａｃｔｉｏｎａｌＤｉｓｔａｎｃｅＭｅａｓｕｒｅｓｆｏｒＣｏｎｔｅｎｔ−ＢａｓｅｄＩｍａｇｅＲｅｔｒｉｅｖａｌ，" ｉｎＡｄｖａｎｃｅｓｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，ｓｅｒ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｄ．ＬｏｓａｄａａｎｄＪ．Ｆｅｒｎｎｄｅｚ−Ｌｕｎａ，Ｅｄｓ．ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，２００５，ｖｏｌ．３４０８，ｐｐ．４４７−４５６．

［１６］Ｋ．−Ｓ．Ｇｏｈ，Ｂ．Ｌｉ，ａｎｄＥ．Ｃｈａｎｇ， "ＤｙｎＤｅｘ：ＡＤｙｎａｍｉｃａｎｄＮｏｎ−ｍｅｔｒｉｃＳｐａｃｅＩｎｄｅｘｅｒ，" ｉｎＰｒｏｃ．ＴｅｎｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００２，ｐｐ．４６６−４７５．

［１７］Ｙ．Ｒｕｂｎｅｒ，Ｊ．Ｐｕｚｉｃｈａ，Ｃ．Ｔｏｍａｓｉ，ａｎｄＪ．Ｍ．Ｂｕｈｍａｎｎ， "ＥｍｐｉｒｉｃａｌＥｖａｌｕａｔｉｏｎｏｆＤｉｓｓｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｓｆｏｒＣｏｌｏｒａｎｄＴｅｘｔｕｒｅ，" ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，ｖｏｌ．８４，ｎｏ．１，ｐｐ．２５−４３，２００１．

［１８］Ａ．ＭａｒｚａｉａｎｄＥ．Ｖｉｄａｌ， "ＣｏｍｐｕｔａｔｉｏｎｏｆＮｏｒｍａｌｉｚｅｄＥｄｉｔＤｉｓｔａｎｃｅａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．１５，ｎｏ．９，ｐｐ．９２６−９３２，１９９３．

［１９］Ｌ．ＬｅＣａｍ， "Ａｎａｐｐｒｏｘｉｍａｔｉｏｎｔｈｅｏｒｅｍｆｏｒｔｈｅｐｏｉｓｓｏｎｂｉｎｏｍｉａｌｄｉｓｔｒｉｂｕｔｉｏｎ，" ＰａｃｉｆｉｃＪｏｕｒｎａｌｏｆＭａｔｈｅｍａｔｉｃｓ，ｖｏｌ．１０（４），ｐｐ．１１８１−１１９７，１９６０．

［２０］Ｈ．Ｓｈｅｎ，Ｎ．Ｚａｍｂｏｎｉ，Ｍ．Ｈｅｉｎｏｎｅｎ，ａｎｄＪ．Ｒｏｕｓｕ， "ＭｅｔａｂｏｌｉｔｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｔｈｒｏｕｇｈＭａｃｈｉｎｅＬｅａｒｎｉｎｇ − ＴａｃｋｌｉｎｇＣＡＳＭＩＣｈａｌｌｅｎｇｅＵｓｉｎｇＦｉｎｇｅｒＩＤ，" Ｍｅｔａｂｏｌｉｔｅｓ，ｖｏｌ．３，ｎｏ．２，ｐｐ．４８４−５０５，２０１３．

［２１］Ａ．Ｃ．Ｗ．Ｌａｉ，Ａ．Ｎ．Ｎ．Ｂａ，ａｎｄＡ．Ｍ．Ｍｏｓｅｓ， "ＰｒｅｄｉｃｔｉｎｇＫｉｎａｓｅＳｕｂｓｔｒａｔｅｓＵｓｉｎｇＣｏｎｓｅｒｖａｔｉｏｎｏｆＬｏｃａｌＭｏｔｉｆＤｅｎｓｉｔｙ，" Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，ｖｏｌ．２８，ｎｏ．７，ｐｐ．９６２−９６９，２０１２．

［２２］Ａ．Ｎｉｉｄａ，Ｓ．ｌｍｏｔｏ，Ｔ．Ｓｈｉｍａｍｕｒａ，ａｎｄＳ．Ｍｉｙａｎｏ， "ＳｔａｔｉｓｔｉｃａｌＭｏｄｅｌ− ＢａｓｅｄＴｅｓｔｉｎｇｔｏＥｖａｌｕａｔｅｔｈｅＲｅｃｕｒｒｅｎｃｅｏｆＧｅｎｏｍｉｃＡｂｅｒｒａｔｉｏｎｓ，" Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，ｖｏｌ．２８，ｎｏ．１２，ｐｐ．ｉ１１５−ｉ１２０，２０１２．

［２３］Ｊ．−Ｂ．Ｃａｚｉｅｒ，Ｃ．Ｃ．Ｈｏｌｍｅｓ，ａｎｄＪ．Ｂｒｏｘｈｏｌｍｅ， "ＧＲＥＶＥ：ＧｅｎｏｍｉｃＲｅｃｕｒｒｅｎｔＥｖｅｎｔＶｉＥｗｅｒｔｏＡｓｓｉｓｔｔｈｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＰａｔｔｅｒｎｓＡｃｒｏｓｓＩｎｄｉｖｉｄｕａｌＣａｎｃｅｒＳａｍｐｌｅｓ，" Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，ｖｏｌ．２８，ｎｏ．２２，ｐｐ．２９８１−２９８２，２０１２．

［２４］Ｈ．Ｚｈｏｕ，Ｍ．Ｅ．Ｓｅｈｌ，Ｊ．Ｓ．Ｓｉｎｓｈｅｉｍｅｒ，ａｎｄＫ．Ｌａｎｇｅ， "ＡｓｓｏｃｉａｔｉｏｎＳｃｒｅｅｎｉｎｇｏｆＣｏｍｍｏｎａｎｄＲａｒｅＧｅｎｅｔｉｃＶａｒｉａｎｔｓｂｙＰｅｎａｌｉｚｅｄＲｅｇｒｅｓｓｉｏｎ，" Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，ｖｏｌ．２６，ｎｏ．１９，ｐｐ．２３７５−２３８２，２０１０．

［２５］Ａ．Ｗｉｌｍ，Ｐ．Ｐ．Ｋ．Ａｗ，Ｄ．Ｂｅｒｔｒａｎｄ，Ｇ．Ｈ．Ｔ．Ｙｅｏ，Ｓ．Ｈ．Ｏｎｇ，Ｃ．Ｈ．Ｗｏｎｇ，Ｃ．Ｃ．Ｋｈｏｒ，Ｒ．Ｐｅｔｒｉｅ，Ｍ．Ｌ．Ｈｉｂｂｅｒｄ，ａｎｄＮ．Ｎａｇａｒａｊａｎ， "ＬｏＦｒｅｑ：ａＳｅｑｕｅｎｃｅ- ＱｕａｌｉｔｙＡｗａｒｅ，Ｕｌｔｒａ−ＳｅｎｓｉｔｉｖｅＶａｒｉａｎｔＣａｌｌｅｒｆｏｒＵｎｃｏｖｅｒｉｎｇＣｅｌｌ−ＰｏｐｕｌａｔｉｏｎＨｅｔｅｒｏｇｅｎｅｉｔｙｆｒｏｍＨｉｇｈ−ＴｈｒｏｕｇｈｐｕｔＳｅｑｕｅｎｃｉｎｇＤａｔａｓｅｔｓ，" ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，ｖｏｌ．４０，ｎｏ．２２，ｐｐ．１１１８９−１１２０１，２０１２．

［２６］Ａ．Ｓ．Ｍａｃｄｏｎａｌｄ，ＥｎｃｙｃｌｏｐｅｄｉａｏｆＡｃｔｕａｒｉａｌＳｃｉｅｎｃｅ，Ｊ．Ｌ．ＴｅｕｇｅｌｓａｎｄＢ．Ｓｕｎｄｔ，Ｅｄｓ．ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｌｔｄ，Ｃｈｉｃｈｅｓｔｅｒ，２００４．

［２７］Ｈ．Ｕ．Ｇｅｒｂｅｒ， "ＡＰｒｏｏｆｏｆｔｈｅＳｃｈｕｅｔｔｅ−ＮｅｓｂｉｔｔＦｏｒｍｕｌａｆｏｒＤｅｐｅｎｄｅｎｔＥｖｅｎｔｓ，" ＡｃｔｕａｒｉａｌＲｅｓｅａｒｃｈＣｌｅａｒｉｎｇＨｏｕｓｅ，ｖｏｌ．１，ｐｐ．９−１０，１９７９．

［２８］Ｙ．Ｈｗａｎｇ，Ｊ．−Ｓ．Ｋｉｍ，ａｎｄ１．−Ｓ．Ｋｗｅｏｎ， "Ｄｉｆｆｅｒｅｎｃｅ−ＢａｓｅｄＩｍａｇｅＮｏｉｓｅＭｏｄｅｌｉｎｇＵｓｉｎｇＳｋｅｌｌａｍＤｉｓｔｒｉｂｕｔｉｏｎ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．３４，ｎｏ．７，ｐｐ．１３２９−１３４１，Ｊｕｌｙ２０１２．

［２９］Ｊ．Ｄａｒｒｏｃｈ， "ＯｎｔｈｅＤｉｓｔｒｉｂｕｔｉｏｎｏｆｔｈｅＮｕｍｂｅｒｏｆＳｕｃｃｅｓｓｅｓｉｎＩｎｄｅｐｅｎｄｅｎｔＴｒｉａｌｓ，" ＴｈｅＡｎｎａｌｓｏｆＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓ，ｖｏｌ．３５，ｐｐ．１３１７−１３２１，１９６４．

［３０］Ｊ．−Ｂ．Ｂａｉｌｌｏｎ，Ｒ．Ｃｏｍｉｎｅｔｔｉ，ａｎｄＪ．Ｖａｉｓｍａｎ， "ＡＳｈａｒｐＵｎｉｆｏｒｍＢｏｕｎｄｆｏｒｔｈｅＤｉｓｔｒｉｂｕｔｉｏｎｏｆＳｕｍｓｏｆＢｅｒｎｏｕｌｌｉＴｒｉａｌｓ，" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：ＯａｒＸ．２３５０ｖ４，２０１３．

［３１］Ｖ．Ｎ．ＧｕｄｉｖａｄａａｎｄＶ．Ｖ．Ｒａｇｈａｖａｎ， "ＣｏｎｔｅｎｔＢａｓｅｄＩｍａｇｅＲｅｔｒｉｅｖａｌＳｙｓｔｅｍｓ，" Ｃｏｍｐｕｔｅｒ，ｖｏｌ．２８，ｎｏ．９，ｐｐ．１８−２２，１９９５．

［３２］Ｍ．ＡｒａｋｅｒｉａｎｄＧ．ＲａｍＭｏｈａｎａＲｅｄｄｙ， "ＡｎＩｎｔｅｌｌｉｇｅｎｔＣｏｎｔｅｎｔ−ＢａｓｅｄＩｍａｇｅＲｅｔｒｉｅｖａｌＳｙｓｔｅｍｆｏｒＣｌｉｎｉｃａｌＤｅｃｉｓｉｏｎＳｕｐｐｏｒｔｉｎＢｒａｉｎＴｕｍｏｒＤｉａｇｎｏｓｉｓ，" ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＭｕｌｔｉｍｅｄｉａＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，ｖｏｌ．２，ｎｏ．３，ｐｐ．１７５−１８８，２０１３．

［３３］Ｊ．Ｋａｌｐａｔｈｙ−ＣｒａｍｅｒａｎｄＷ．Ｈｅｒｓｈ， "ＡｕｔｏｍａｔｉｃＩｍａｇｅＭｏｄａｌｉｔｙＢａｓｅｄＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＡｎｎｏｔａｔｉｏｎｔｏＩｍｐｒｏｖｅＭｅｄｉｃａｌＩｍａｇｅＲｅｔｒｉｅｖａｌ，" ＳｔｕｄＨｅａｌｔｈＴｅｃｈｎｏ！Ｉｎｆｏｒｍ，ｖｏｌ．１２９，ｎｏ．Ｐｔ２，ｐｐ．１３３４−８，２００７．

［３４］Ｂ．Ｍａｒｓｈａｌｌ， "ＤｉｓｃｏｖｅｒｉｎｇＲｏｂｕｓｔｎｅｓｓＡｍｏｎｇｓｔＣＢＩＲＦｅａｔｕｒｅｓ，" ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＷｅｂ＆ＳｅｍａｎｔｉｃＴｅｃｈｎｏｌｏｇｙ（ＩＪＷｅｓＴ），ｖｏｌ．３，ｎｏ．２，ｐｐ．１９−３１，Ａｐｒｉｌ２０１２．

［３５］Ｏ．Ｂｏｉｍａｎ，Ｅ．Ｓｈｅｃｈｔｍａｎ，ａｎｄＭ．Ｉｒａｎｉ， "ＩｎＤｅｆｅｎｓｅｏｆＮｅａｒｅｓｔ− ＮｅｉｇｈｂｏｒＢａｓｅｄＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ，" ｉｎＰｒｏｃ．ＩＥＥＥＣｏｎｔ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｊｕｎｅ２００８，ｐｐ．１−８．

［３６］Ｗ．Ｚｈａｎｇ，Ｊ．Ｓｕｎ，ａｎｄＸ．Ｔａｎｇ， "ＣａｔＨｅａｄＤｅｔｅｃｔｉｏｎ− ＨｏｗｔｏＥｆｆｅｃｔｉｖｅｌｙＥｘｐｌｏｉｔＳｈａｐｅａｎｄＴｅｘｔｕｒｅＦｅａｔｕｒｅｓ，" ｉｎＰｒｏｃ．ＯｆＥｕｒｏｐｅａｎＣｏｎｔ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００８，ｐｐ．８０２−８１６．

［３７］Ｚ．Ｗｅｉｗｅｉ，Ｓ．Ｊｉａｎ，ａｎｄＴ．Ｘｉａｏｏｕ， "ＦｒｏｍＴｉｇｅｒｔｏＰａｎｄａ：ＡｎｉｍａｌＨｅａｄＤｅｔｅｃｔｉｏｎ，" ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．２０，ｎｏ．６，ｐｐ．１６９６−１７０８，２０１１．

［３８］Ｔ．Ｋｏｚａｋａｙａ，Ｓ．Ｉｔｏ，Ｓ．Ｋｕｂｏｔａ，ａｎｄＯ．Ｙａｍａｇｕｃｈｉ， "ＣａｔＦａｃｅＤｅｔｅｃｔｉｏｎｗｉｔｈＴｗｏＨｅｔｅｒｏｇｅｎｅｏｕｓＦｅａｔｕｒｅｓ，" ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，２００９，ｐｐ．１２１３−１２１６．

［３９］Ｈ．Ｂｏ， "ＡＮｏｖｅｌＦｅａｔｕｒｅｓＤｅｓｉｇｎＭｅｔｈｏｄｆｏｒＣａｔＨｅａｄＤｅｔｅｃｔｉｏｎ，" ｉｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ｓｅｒ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ．ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，２０１０，ｖｏｌ．６３１９，ｃｈ．４７，ｐｐ．３９７−４０５．

［４０］Ｇ．Ｂ．Ｈｕａｎｇ，Ｍ．Ｒａｍｅｓｈ，Ｔ．Ｂｅｒｇ，ａｎｄＥ．Ｌｅａｒｎｅｄ−Ｍｉｌｌｅｒ， "ＬａｂｅｌｅｄＦａｃｅｓｉｎｔｈｅＷｉｌｄ：ＡＤａｔａｂａｓｅｆｏｒＳｔｕｄｙｉｎｇＦａｃｅＲｅｃｏｇｎｉｔｉｏｎｉｎＵｎｃｏｎｓｔｒａｉｎｅｄＥｎｖｉｒｏｎｍｅｎｔｓ，" ＵｎｉｖｅｒｓｉｔｙｏｆＭａｓｓａｃｈｕｓｅｔｔｓ，Ａｍｈｅｒｓｔ，Ｔｅｃｈ．Ｒｅｐ．０７−４９，Ｏｃｔｏｂｅｒ２００７．

［４１］Ｎ．ＤａｌａｌａｎｄＢ．Ｔｒｉｇｇｓ， "ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ，" ｉｎＰｒｏｃ．ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｖｏｌ．１，２００５，ｐｐ．８８６−８９３．

［４２］Ｙ．ＭｉｔａｎｉａｎｄＹ．Ｈａｍａｍｏｔｏ， "ＡＬｏｃａｌＭｅａｎ−ＢａｓｅｄＮｏｎｐａｒａｍｅｔｒｉｃＣｌａｓｓｉｆｉｅｒ，" ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，ｖｏｌ．２７，ｎｏ．１０，ｐｐ．１１５１−１１５９，２００６．

［４３］Ｐ．Ｄｏｌｌａｒ，Ｃ．Ｗｏｊｅｋ，Ｂ．Ｓｃｈｉｅｌｅ，ａｎｄＰ．Ｐｅｒｏｎａ， "ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｉｏｎ：ＡｎＥｖａｌｕａｔｉｏｎｏｆｔｈｅＳｔａｔｅｏｆｔｈｅＡｒｔ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．３４，ｎｏ．４，ｐｐ．７４３−７６１，２０１２．

［４４］Ａ．Ｋｅｍｂｈａｖｉ，Ｄ．Ｈａｒｗｏｏｄ，ａｎｄＬ．Ｓ．Ｄａｖｉｓ， "ＶｅｈｉｃｌｅＤｅｔｅｃｔｉｏｎＵｓｉｎｇＰａｒｔｉａｌＬｅａｓｔＳｑｕａｒｅｓ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．３３，ｎｏ．６，ｐｐ．１２５０−１２６５，２０１１．

［４５］Ｍ．ＫａａｎｉｃｈｅａｎｄＦ．Ｂｒ"ｅｍｏｎｄ， "ＲｅｃｏｇｎｉｚｉｎｇＧｅｓｔｕｒｅｓｂｙＬｅａｒｎｉｎｇＬｏｃａｌＭｏｔｉｏｎＳｉｇｎａｔｕｒｅｓｏｆＨＯＧＤｅｓｃｒｉｐｔｏｒｓ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．３４，ｎｏ．１１，ｐｐ．２２４７−２２５８，２０１２．

［４６］Ｏ．Ｌｕｄｗｉｇ，Ｄ．Ｄｅｌｇａｄｏ，Ｖ．Ｇｏｎｃａｌｖｅｓ，ａｎｄＵ．Ｎｕｎｅｓ， "ＴｒａｉｎａｂｌｅＣｌａｓｓｉｆｉｅｒ−ＦｕｓｉｏｎＳｃｈｅｍｅｓ：ＡｎＡｐｐｌｉｃａｔｉｏｎｔｏＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｉｏｎ，" ｉｎＰｒｏｃ．１２ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＴｒａｎｓｐｏｒｔａｔｉｏｎＳｙｓｔｅｍｓ，２００９，ｐｐ．１−６．

［４７］Ａ．Ｋｌ¨ｏｃｋｎｅｒ，Ｎ．Ｐｉｎｔｏ，Ｙ．Ｌｅｅ，Ｂ．Ｃａｔａｎｚａｒｏ，Ｐ．Ｉｖａｎｏｖ，ａｎｄＡ．Ｆａｓｉｈ， "ＰｙＣＵＤＡａｎｄＰｙＯｐｅｎＣＬ：ＡＳｃｒｉｐｔｉｎｇ−ＢａｓｅｄＡｐｐｒｏａｃｈｔｏＧＰＵＲｕｎ−ＴｉｍｅＣｏｄｅＧｅｎｅｒａｔｉｏｎ，" ＰａｒａｌｌｅｌＣｏｍｐｕｔｉｎｇ，ｖｏｌ．３８，ｎｏ．３，ｐｐ．１５７−１７４，２０１２．

［４８］Ｏ．Ｃｈａｐｅｌｌｅ，Ｖ．Ｖａｐｎｉｋ，Ｏ．Ｂｏｕｓｑｕｅｔ，ａｎｄＳ．Ｍｕｋｈｅｒｊｅｅ， "ＣｈｏｏｓｉｎｇＭｕｌｔｉｐｌｅＰａｒａｍｅｔｅｒｓｆｏｒＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，" ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ｖｏｌ．４６，ｎｏ．１−３，ｐｐ．１３１−１５９，２００２．

［４９］Ｆ．ＦｒｉｅｄｒｉｃｈｓａｎｄＣ．Ｉｇｅｌ， "ＥｖｏｌｕｔｉｏｎａｒｙＴｕｎｉｎｇｏｆＭｕｌｔｉｐｌｅＳＶＭＰａｒａｍｅｔｅｒｓ，" Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，ｖｏｌ．６４，ｎｏ．０，ｐｐ．１０７−１１７，２００５．

［５０］Ｓ．−Ｗ．Ｌｉｎ，Ｚ．−Ｊ．Ｌｅｅ，Ｓ．−Ｃ．Ｃｈｅｎ，ａｎｄＴ．−Ｙ．Ｔｓｅｎｇ， "ＰａｒａｍｅｔｅｒＤｅｔｅｒｍｉｎａｔｉｏｎｏｆＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅａｎｄＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎＵｓｉｎｇＳｉｍｕｌａｔｅｄＡｎｎｅａｌｉｎｇＡｐｐｒｏａｃｈ，" ＡｐｐｌｉｅｄＳｏｆｔＣｏｍｐｕｔｉｎｇ，ｖｏｌ．８，ｎｏ．４，ｐｐ．１５０５−１５１２，２００８．

［５１］Ｅ．ＦｉｘａｎｄＪ．ＨｏｄｇｅｓＪｒ， "ＤｉｓｃｒｉｍｉｎａｔｏｒｙＡｎａｌｙｓｉｓ，ＮｏｎｐａｒａｍｅｔｒｉｃＤｉｓｃｒｉｍｉｎａｔｉｏｎ：ＣｏｎｓｉｓｔｅｎｃｙＰｒｏｐｅｒｔｉｅｓ，" ＵＳＡＦＳｃｈｏｏｌｏｆＡｖｉａｔｉｏｎＭｅｄｉｃｉｎｅ，ＲａｎｄｏｌｐｈＦｉｅｌｄ，ＴＸ，Ｐｒｏｊｅｃｔ２１−４９−００４，Ｒｅｐｔ．４，ＣｏｎｔｒａｃｔＡＦ４１（１２８）−３１，Ｔｅｃｈ．Ｒｅｐ．，Ｆｅｂ．１９５１．

［５２］Ｘ．Ｗｕ，Ｖ．Ｋｕｍａｒ，Ｊ．ＲｏｓｓＱｕｉｎｌａｎ，Ｊ．Ｇｈｏｓｈ，Ｑ．Ｙａｎｇ，Ｈ．Ｍｏｔｏｄａ，Ｇ．Ｍｃｌａｃｈｌａｎ，Ａ．Ｎｇ，Ｂ．Ｌｉｕ，Ｐ．Ｙｕ，Ｚ．−Ｈ．Ｚｈｏｕ，Ｍ．Ｓｔｅｉｎｂａｃｈ，Ｄ．Ｈａｎｄ，ａｎｄＤ．Ｓｔｅｉｎｂｅｒｇ， "Ｔｏｐ１０ＡｌｇｏｒｉｔｈｍｓｉｎＤａｔａＭｉｎｉｎｇ，" ＫｎｏｗｌｅｄｇｅａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，ｖｏｌ．１４，ｎｏ．１，ｐｐ．１−３７，２００８．

［５３］Ｋ．Ｆｕｋｕｎａｇａ，ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｔａｔｉｓｔｉｃａｌＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（２ｎｄｅｄ．）．ＳａｎＤｉｅｇｏ，ＣＡ，ＵＳＡ：ＡｃａｄｅｍｉｃＰｒｅｓｓＰｒｏｆｅｓｓｉｏｎａｌ，Ｉｎｃ．，１９９０．

［５４］Ａ．Ｋ．Ｇｈｏｓｈ， "ＯｎＯｐｔｉｍｕｍＣｈｏｉｃｅｏｆｋｉｎＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎ，" ＣｏｍｐｕｔａｔｉｏｎａｌＳｔａｔｉｓｔｉｃｓ＆ＤａｔａＡｎａｌｙｓｉｓ，ｖｏｌ．５０，ｎｏ．１１，ｐｐ．３１１３− ３１２３，２００６．

［５５］Ｇ．Ｔｏｕｓｓａｉｎｔ， "ＢｉｂｌｉｏｇｒａｐｈｙｏｎＥｓｔｉｍａｔｉｏｎｏｆＭｉｓｃｌａｓｓｉｆｉｃａｔｉｏｎ，" ＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．２０，ｎｏ．４，ｐｐ．４７２−４７９，１９７４．

［５６］Ｂ．Ｄａｓａｒａｔｈｙ，ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ（ＮＮ）Ｎｏｒｍｓ：ＮＮＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎＴｅｃｈｎｉｑｕｅｓ．Ｗａｓｈｉｎｇｔｏｎ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，１９９１．

［５７］Ｖ．Ｍｎｉｈ， "ＣＵＤＡＭａｔ：ＡＣＵＤＡ−ＢａｓｅｄＭａｔｒｉｘＣｌａｓｓｆｏｒＰｙｔｈｏｎ，" ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＵＴＭＬＴＲ２００９−００４，ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＵｎｉｖｅｒｓｉｔｙｏｆＴｏｒｏｎｔｏ，Ｔｅｃｈ．Ｒｅｐ．，Ｎｏｖｅｍｂｅｒ２００９．

［５８］Ｋ．Ｃｈａｎｇ，Ｋ．Ｗ．Ｂｏｗｙｅｒ，Ｓ．Ｓａｒｋａｒ，ａｎｄＢ．Ｖｉｃｔｏｒ， "ＣｏｍｐａｒｉｓｏｎａｎｄＣｏｍｂｉｎａｔｉｏｎｏｆＥａｒａｎｄＦａｃｅＩｍａｇｅｓｉｎＡｐｐｅａｒａｎｃｅ−ＢａｓｅｄＢｉｏｍｅｔｒｉｃｓ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．２５，ｐｐ．１１６０−１１６５，２００３．

［５９］Ｍ．ＢｕｒｇｅａｎｄＷ．Ｂｕｒｇｅｒ， "ＥａｒＢｉｏｍｅｔｒｉｃｓｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，" ｉｎＰｒｏｃ．１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｖｏｌ．２，２０００，ｐｐ．８２２−８２６ｖｏｌ．２．

［６０］Ｈ．ＧａｌｂａｌｌｙａｎｄＡ．Ｆｉｅｒｒｅｚ， "ＯｎｔｈｅＶｕｌｎｅｒａｂｉｌｉｔｙｏｆＦｉｎｇｅｒｐｒｉｎｔＶｅｒｉｆｉｃａｔｉｏｎＳｙｓｔｅｍｓｔｏＦａｋｅＦｉｎｇｅｒｐｒｉｎｔｓＡｔｔａｃｋｓ，" ｉｎＰｒｏｃ．４０ｔｈＡｎｎｕａｌＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣａｒｎａｈａｎＣｏｎｆｅｒｅｎｃｅｓＳｅｃｕｒｉｔｙＴｅｃｈｎｏｌｏｇｙ，ＵＳＡ，２００６，ｐｐ．１３０−１３６．

［６１］Ａ．Ｉａｎｎａｒｅｌｌｉ，ＥａｒＩｄｅｎｔｉｆｉｃａｔｉｏｎ．Ｃａｌｉｆｏｒｎｉａ：ＰａｒａｍｏｕｎｔＰｕｂｌｉｓｈｉｎｇＣｏｍｐａｎｙ，１９８９．

［６２］Ｈ．Ｎｅｊａｔｉ，Ｌ．Ｚｈａｎｇ，Ｔ．Ｓｉｍ，Ｅ．Ｍａｒｔｉｎｅｚ−Ｍａｒｒｏｑｕｉｎ，ａｎｄＧ．Ｄｏｎｇ， "ＷｏｎｄｅｒＥａｒｓ：ＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＩｄｅｎｔｉｃａｌＴｗｉｎｓｆｒｏｍＥａｒＩｍａｇｅｓ，" ｉｎＰｒｏｃ．２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｎｏｖ２０１２，ｐｐ．１２０１−１２０４．

［６３］Ａ．ＫｕｍａｒａｎｄＣ．Ｗｕ， "ＡｕｔｏｍａｔｅｄＨｕｍａｎＩｄｅｎｔｉｆｉｃａｔｉｏｎＵｓｉｎｇＥａｒＩｍａｇｉｎｇ，" ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｖｏｌ．４５，ｎｏ．３，ｐｐ．９５６−９６８，２０１２．

［６４］Ｒ．Ｂｏｌｌｅ，Ｊ．Ｃｏｎｎｅｌｌ，Ｓ．Ｐａｎｋａｎｔｉ，Ｎ．Ｒａｔｈａ，ａｎｄＡ．Ｓｅｎｉｏｒ， "ＴｈｅＲｅｌａｔｉｏｎＢｅｔｗｅｅｎｔｈｅＲＯＣＣｕｒｖｅａｎｄｔｈｅＣＭＣ，" ｉｎＰｒｏｃ．ＦｏｕｒｔｈＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＩｄｅｎｔｉｆｉｃａｔｉｏｎＡｄｖａｎｃｅｄＴｅｃｈｎｏｌｏｇｉｅｓ，Ｏｃｔ２００５，ｐｐ．１５−２０．

［６５］Ｉ．Ｓｔｅｉｎｗａｒｔ，Ｄ．Ｈｕｓｈ，ａｎｄＣ．Ｓｃｏｖｅｌ， "ＬｅａｒｎｉｎｇｆｒｏｍＤｅｐｅｎｄｅｎｔＯｂｓｅｒｖａｔｉｏｎｓ，" ＪｏｕｒｎａｌｏｆＭｕｌｔｉｖａｒｉａｔｅＡｎａｌｙｓｉｓ，ｖｏｌ．１００，ｎｏ．１，ｐｐ．１７５ − １９４，２００９．

［６６］Ｏ．Ｃｈａｐｅｌｌｅ，Ｐ．Ｈａｆｆｎｅｒ，ａｎｄＶ．Ｎ．Ｖａｐｎｉｋ， "ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＨｉｓｔｏｇｒａｍ−ＢａｓｅｄＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ，" ＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．１０，ｎｏ．５，ｐｐ．１０５５−１０６４，１９９９．

［６７］Ｐ．Ｂｒｏｄａｔｚ，Ｔｅｘｔｕｒｅｓ：ＡＰｈｏｔｏｇｒａｐｈｉｃＡｌｂｕｍｆｏｒＡｒｔｉｓｔｓａｎｄＤｅｓｉｇｎｅｒｓ．ＤｏｖｅｒＰｕｂｎｓ，１９６６．

［６８］Ｅ．Ｈａｙｍａｎ，Ｂ．Ｃａｐｕｔｏ，Ｍ．Ｆｒｉｔｚ，ａｎｄＪ．−Ｏ．Ｅｋｌｕｎｄｈ， "ＯｎｔｈｅＳｉｇｎｉｆｉｃａｎｃｅｏｆＲｅａｌ−ＷｏｒｌｄＣｏｎｄｉｔｉｏｎｓｆｏｒＭａｔｅｒｉａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ，" ｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ- ＥＣＣＶ２００４．Ｓｐｒｉｎｇｅｒ，２００４，ｐｐ．２５３−２６６．

［６９］Ｙ．Ｘｕ，Ｈ．Ｊｉ，ａｎｄＣ．Ｆｅｒｍ¨ ｕｌｌｅｒ， "ＶｉｅｗｐｏｉｎｔＩｎｖａｒｉａｎｔＴｅｘｔｕｒｅＤｅｓｃｒｉｐｔｉｏｎｕｓｉｎｇＦｒａｃｔａｌＡｎａｌｙｓｉｓ，" ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｖｏｌ．８３，ｎｏ．１，ｐｐ．８５−１００，２００９．

［７０］Ｇ．Ｋｙｌｂｅｒｇ， "Ｔｈｅｋｙｌｂｅｒｇｔｅｘｔｕｒｅｄａｔａｓｅｔｖ．１．０，" ＣｅｎｔｒｅｆｏｒＩｍａｇｅＡｎａｌｙｓｉｓ，ＳｗｅｄｉｓｈＵｎｉｖｅｒｓｉｔｙｏｆＡｇｒｉｃｕｌｔｕｒａｌＳｃｉｅｎｃｅｓａｎｄＵｐｐｓａｌａＵｎｉｖｅｒｓｉｔｙ，Ｕｐｐｓａｌａ，Ｓｗｅｄｅｎ，Ｅｘｔｅｒｎａｌｒｅｐｏｒｔ（Ｂｌｕｅｓｅｒｉｅｓ）３５，Ｓｅｐｔｅｍｂｅｒ２０１１．［Ｏｎｌｉｎｅ］．Ａｖａｉｌａｂｌｅ：ｈｔｔｐ：／／ｗｗｗ．ｃｂ．ｕｕ．ｓｅ／ｇｕｓｔａｆ／ｔｅｘｔｕｒｅ／

［７１］Ｓ．Ｌａｚｅｂｎｉｋ，Ｃ．Ｓｃｈｍｉｄ，ａｎｄＪ．Ｐｏｎｃｅ， "ＢｅｙｏｎｄＢａｇｓｏｆＦｅａｔｕｒｅｓ：ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇＮａｔｕｒａｌＳｃｅｎｅＣａｔｅｇｏｒｉｅｓ，" ｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎ，ｖｏｌ．２．ＩＥＥＥ，２００６，ｐｐ．２１６９−２１７８．

［７２］Ｊ．Ｗａｎｇ，Ｋ．Ｍａｒｋｅｒｔ，ａｎｄＭ．Ｅｖｅｒｉｎｇｈａｍ， "ＬｅａｒｎｉｎｇＭｏｄｅｌｓｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎｆｒｏｍＮａｔｕｒａｌＬａｎｇｕａｇｅＤｅｓｃｒｉｐｔｉｏｎｓ，" ｉｎＢＭＶＣ，ｖｏｌ．１，２００９，ｐ．２．

［７３］Ｌ．Ｓｈａｒａｎ，Ｒ．Ｒｏｓｅｎｈｏｌｔｚ，ａｎｄＥ．Ｈ．Ａｄｅｌｓｏｎ， "ＡｃｃｕｒａｃｙａｎｄＳｐｅｅｄｏｆＭａｔｅｒｉａｌＣａｔｅｇｏｒｉｚａｔｉｏｎｉｎＲｅａｌ−ＷｏｒｌｄＩｍａｇｅｓ，" ＪｏｕｒｎａｌｏｆＶｉｓｉｏｎ，ｖｏｌ．１４，ｎｏ．１０，２０１４．

［７４］Ｏ．Ｊ．Ｏ．Ｓ¨ｏｄｅｒｋｖｉｓｔ， "ＣｏｍｐｕｔｅｒＶｉｓｉｏｎＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＬｅａｖｅｓｆｒｏｍＳｗｅｄｉｓｈＴｒｅｅｓ，" Ｍａｓｔｅｒ"ｓｔｈｅｓｉｓ，Ｌｉｎｋ""ｏｐｉｎｇＵｎｉｖｅｒｓｉｔｙ，ＳＥ−５８１８３Ｌｉｎｋ¨ｏｐｉｎｇ，Ｓｗｅｄｅｎ，Ｓｅｐｔｅｍｂｅｒ２００１，ｌｉＴＨ−ＩＳＹ−ＥＸ−３１３２．

［７５］Ｌ．Ｆｅｉ−Ｆｅｉ，Ｒ．Ｆｅｒｇｕｓ，ａｎｄＰ．Ｐｅｒｏｎａ， "ＬｅａｒｎｉｎｇＧｅｎｅｒａｔｉｖｅＶｉｓｕａｌＭｏｄｅｌｓｆｒｏｍＦｅｗＴｒａｉｎｉｎｇＥｘａｍｐｌｅｓ：ＡｎＩｎｃｒｅｍｅｎｔａｌＢａｙｅｓｉａｎＡｐｐｒｏａｃｈＴｅｓｔｅｄｏｎ１０１ＯｂｊｅｃｔＣａｔｅｇｏｒｉｅｓ，" ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，ｖｏｌ．１０６，ｎｏ．１，ｐｐ．５９−７０，２００７．

［７６］Ｘ．Ｑｉ，Ｒ．Ｘｉａｏ，Ｃ．−Ｇ．Ｌｉ，Ｙ．Ｏｉａｏ，Ｊ．Ｇｕｏ，ａｎｄＸ．Ｔａｎｇ， "ＰａｉｒｗｉｓｅＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＣｏ−ＯｃｃｕｒｒｅｎｃｅＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ，" ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｖｏｌ．３６，ｎｏ．１１，ｐｐ．２１９９−２２１３，２０１４．

［７７］Ａ．ＯｌｉｖａａｎｄＡ．Ｔｏｒｒａｌｂａ， "ＭｏｄｅｌｉｎｇｔｈｅＳｈａｐｅｏｆｔｈｅＳｃｅｎｅ：ＡＨｏｌｉｓｔｉｃＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅＳｐａｔｉａｌＥｎｖｅｌｏｐｅ，" Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，ｖｏｌ．４２，ｎｏ．３，ｐｐ．１４５−１７５，２００１．

［７８］Ｌ．Ｆｅｉ−ＦｅｉａｎｄＰ．Ｐｅｒｏｎａ， "ＡＢａｙｅｓｉａｎＨｉｅｒａｒｃｈｉｃａｌＭｏｄｅｌｆｏｒＬｅａｒｎｉｎｇＮａｔｕｒａｌＳｃｅｎｅＣａｔｅｇｏｒｉｅｓ，" ｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００５．ＣＶＰＲ２００５．ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎ，ｖｏｌ．２．ＩＥＥＥ，２００５，ｐｐ．５２４−５３１．

Claims

デジタル画像を分類するためのコンピュータ実装方法であって、
ホストコンピュータから、前記デジタル画像に対応する特徴データを取得することと、
前記特徴データと前記ホストコンピュータのメモリ内に記憶された１つ以上の基準特徴データとの間のポアソン二項分布に基づいて、グラフィックス処理ユニットによって、半計量距離を判断することと、
前記判断された半計量距離を使用して前記デジタル画像を分類することと、を含む、方法。
前記半計量距離が、ポアソン二項半径（ＰＢＲ）である、請求項１に記載の方法。
前記デジタル画像を分類することが、サポートベクターマシン（ＳＶＭ）分類器を使用することを含む、請求項１に記載の方法。
前記デジタル画像を分類することが、ｋ最近傍法（ｋＮＮ）分類器を使用することを含む、請求項１に記載の方法。
前記ｋＮＮ分類器が、適応性の局所平均をベースとするｋ最近傍法（ＡＬＭｋＮＮ）分類器であり、前記ｋ最近傍法の値（ｋ）が、適応的に選択される、請求項１に記載の方法。
前記ｋ最近傍法の前記適応値が、前記１つ以上の基準データの数の平方根を超えない、請求項５に記載の方法。
前記取得された特徴データ及び前記１つ以上の基準特徴データが、対をなす回転不変性同時発生局所二値パターン（ＰＲＩＣｏＬＢＰ）データを含む、請求項１に記載の方法。
前記取得された特徴データ及び前記１つ以上の基準特徴データが、勾配方向ヒストグラム（ＨＯＧ）データを含む、請求項１に記載の方法。
前記取得された特徴データが、Ｘ＝（ａ_１．．．ａ_Ｎ）であるようにＮ次元の特徴ベクターＸを含み、前記基準特徴データが、Ｙ＝（ｂ_１．．．ｂ_Ｎ）であるようにＮ次元の特徴ベクターＹを含み、前記半計量距離（ＰＢＲ（Ｘ，Ｙ））を前記判断することが、
を計算することを含み、
式中、Ｎは、０よりも大きな整数であり、
σは、ベクターＸの標準偏差であり、
μは、ベクターＸの平均であり、
ｐ_ｉは、｜ａ_ｉ−ｂ_ｉ｜である、請求項１に記載の方法。
前記デジタル画像が、ＤＮＡまたはＲＮＡシーケンスに対応する情報を含み、前記取得された特徴データが、Ｘ＝（ｘ_１．．．ｘ_ｄｘ）であるようにシーケンシング深さｄ_ｘを有する第１のＤＮＡサンプルについてのシーケンシングクオリティ近接性のベクターＸを含み、前記基準特徴データが、Ｙ＝（ｙ_１．．．ｙ_ｄｙ）であるようにシーケンシング深さｄ_ｙを有する基準ＤＮＡサンプルについてのシーケンシング確率のベクターＹを含み、前記半計量距離（ＰＢＲ_ｓｅｑ）を前記判断することが、
を計算することを含み、
式中、μ_Ｘは、ベクターＸについての平均であり、
μ_Ｙは、ベクターＹについての平均であり、
σ_Ｘは、ベクターＸについての標準偏差であり、
σ_Ｙは、ベクターＹについての標準偏差である、請求項１に記載の方法。
前記デジタル画像を前記分類することが、
前記半計量距離（ＰＢＲ_ｓｅｑ）が閾値よりも大きいかどうかを判断することと、
前記半計量距離（ＰＢＲ_ｓｅｑ）が前記閾値よりも大きいかどうかを前記判断することに基づいて、前記ＤＮＡまたはＲＮＡシーケンスを腫瘍または正常であるとして分類することと、を含む、請求項１０に記載の方法。
前記デジタル画像を分類することが、前記ＤＮＡまたはＲＮＡシーケンスにおける希少変異体を同定することを含む、請求項１０に記載の方法。
前記１つ以上の基準特徴データのうちの最も近く合致する基準特徴データを判断することを更に含む、請求項１に記載の方法。
前記判断された最も近く合致する基準特徴データに基づいて、ある人物を識別することを更に含み、前記デジタル画像が、耳、顔、指紋、及び虹彩のうちの少なくとも１つを含む、請求項１３に記載の方法。
デジタル画像を分類するためのシステムであって、
プロセッサを含むホストコンピュータであって、１つ以上の基準特徴データを含むメモリに結合される、ホストコンピュータと、
プロセッサを含むグラフィックス処理ユニット（ＧＰＵ）と、を備え、
前記ＧＰＵが、前記ホストコンピュータに結合され、かつ
前記ホストコンピュータから、前記デジタル画像に対応する特徴データを取得し、
前記メモリから、前記１つ以上の基準特徴データにアクセスし、
前記特徴データと前記１つ以上の基準特徴データとの間のポアソン二項分布に基づいて、半計量距離を判断するように構成され、
前記ホストコンピュータが、
前記判断された半計量距離を使用して前記デジタル画像を分類するように構成される、システム。
前記半計量距離が、ポアソン二項半径（ＰＢＲ）である、請求項１５に記載のシステム。
前記ホストコンピュータが、サポートベクターマシン（ＳＶＭ）分類器を使用して前記デジタル画像を分類するように更に構成される、請求項１５に記載のシステム。
前記ホストコンピュータが、ｋ最近傍法（ｋＮＮ）分類器を使用して前記デジタル画像を分類するように更に構成される、請求項１５に記載のシステム。
前記ｋＮＮ分類器が、適応性の局所平均をベースとするｋ最近傍法（ＡＬＭｋＮＮ）分類器であり、前記ｋ最近傍法の値（ｋ）が、適応的に選択される、請求項１８に記載のシステム。
前記ｋ最近傍法の前記適応値（ｋ）が、前記１つ以上の基準データの数の平方根を超えない、請求項１９に記載のシステム。
前記特徴データ及び前記１つ以上の基準特徴データが、対をなす回転不変性同時発生局所二値パターン（ＰＲＩＣｏＬＢＰ）データを含む、請求項１５に記載のシステム。
前記取得された特徴データ及び前記１つ以上の基準特徴データが、勾配方向ヒストグラム（ＨＯＧ）データを含む、請求項１５に記載のシステム。
前記特徴データが、Ｘ＝（ａ_１．．．ａ_Ｎ）であるようにＮ次元の特徴ベクターＸを含み、前記基準特徴データが、Ｙ＝（ｂ_１．．．ｂ_Ｎ）であるようにＮ次元の特徴ベクターＹを含み、前記ＧＰＵが、
を計算するように更に構成され、
式中、ＰＢＲ（Ｘ，Ｙ）は、前記ベクターＸと前記ベクターＹとの間のポアソン二項半径（ＰＢＲ）距離であり、
Ｎは、０よりも大きな整数であり、
σは、ベクターＸの標準偏差であり、
μは、ベクターＸの平均であり、
ｐ_ｉは、｜ａ_ｉ−ｂ_ｉ｜である、請求項１５に記載のシステム。
前記デジタル画像が、ＤＮＡまたはＲＮＡシーケンスに対応する情報を含み、前記特徴データが、Ｘ＝（ｘ_１．．．ｘ_ｄｘ）であるようにシーケンシング深さｄ_ｘを有する第１のＤＮＡサンプルについてのシーケンシングクオリティ近接性のベクターＸを含み、前記基準特徴データが、Ｙ＝（ｙ_１．．．ｙ_ｄｙ）であるようにシーケンシング深さｄ_ｙを有する基準ＤＮＡサンプルについてのシーケンシング確率のベクターＹを含み、前記ＧＰＵが、計算するように更に構成され、前記半計量距離（ＰＢＲ_ｓｅｑ）を判断することが、
を計算することを含み、
式中、ＰＢＲ_ｓｅｑ（Ｘ，Ｙ）は、前記ベクターＸと前記ベクターＹとの間のポアソン二項半径（ＰＢＲ）距離であり、
μ_Ｘは、前記ベクターＸについての平均であり、
μ_Ｙは、前記ベクターＹについての平均であり、
σ_Ｘは、前記ベクターＸについての標準偏差であり、
σ_Ｙは、前記ベクターＹについての標準偏差である、請求項１５に記載のシステム。
前記ホストコンピュータが、
前記半計量距離（ＰＢＲ_ｓｅｑ）が閾値よりも大きいかどうかを判断し、
前記半計量距離（ＰＢＲ_ｓｅｑ）が前記閾値よりも大きいかどうかを前記判断することに基づいて、前記ＤＮＡまたはＲＮＡシーケンスを腫瘍または正常であるとして分類するように更に構成される、請求項２４に記載のシステム。
前記ホストコンピュータが、前記ＤＮＡまたはＲＮＡシーケンスにおける希少変異体を同定するように更に構成される、請求項２４に記載のシステム。
前記ホストコンピュータが、
前記１つ以上の基準特徴データのうちの最も近く合致する基準特徴データを判断するように更に構成される、請求項１５に記載のシステム。
前記ホストコンピュータが、
前記判断された最も近く合致する基準特徴データに基づいて、ある人物を識別するように更に構成され、前記デジタル画像が、耳、顔、指紋、及び虹彩のうちの少なくとも１つを含む、請求項２７に記載のシステム。