JP7448562B2

JP7448562B2 - 人工知能のための希な訓練データへの対処

Info

Publication number: JP7448562B2
Application number: JP2021567901A
Authority: JP
Inventors: ブランデス、マーカス; フローサー、フレデリック; ジョバンニーニ、アンドレア; グラフ、フロリアン; ラヴィッツァ、ステファン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-13
Filing date: 2020-04-28
Publication date: 2024-03-12
Anticipated expiration: 2040-04-28
Also published as: CN113826113A; WO2020229923A1; US20200364520A1; JP2022531974A; DE112020001034T5; US11176429B2

Description

本発明は、一般により良好な機械学習のためのシステムに関し、より詳細には、十分に提示されていない（underrepresented）クラスに関して分類器予測を強化するためのシステムに関する。本発明は、さらに、分類器予測を強化する方法、およびコンピュータ・プログラム製品に関する。

人工知能（ＡＩ）および機械学習の分野におけるソフトウェアを開発すること、およびそれらを既存のアプリケーションに統合することは、今日のＩＴ（情報技術）産業における主要な課題である。過去数年にわたり、開発はますます、既存の要素の組立てになったが、これは、将来にアルゴリズムがどのように開発されるかにおけるパラダイム・シフト（プログラミングはラベル付けとなり、コーディングは、例えば、ＡＩ、ニューラル・ネットワーク、および特に深層学習を通して代表される最適化問題をコンピュータに解かせることに置き換えられる）に進化し続けている。この現象は「ソフトウェア１．０対ソフトウェア２．０開発」と呼ばれ得る。したがって、エンタープライズ・グレードのＡＩソリューションを開発するためにソフトウエア１．０で利用可能なものと同じような概念及びソフトウエアスタックなどのＩＤＥ（統合開発環境）を通じたサポートをソフトウエア２．０開発についても有することへのニーズが高まっている。

産業の課題の１つは、システムまたは方法の訓練のために画像にラベル付けすることであり、（ｉ）画像にラベル付けすることは非常に時間がかかるので自動化が必要であり、（ｉｉ）レア・ケースは、対処されなければならないシステムまたは方法における問題およびバイアスに繋がり得る。手動のラベル付けは、データ科学者にとって大きな負担となる。なぜならこれは、一方でバイアスのかかった見方から逃れられないこともある高度に熟練した人々を必要とする主として手動のプロセスであるからである。

通常の博士論文の間に費やされる時間と実際の生活の使用事例との比較は、ジレンマを示し得る。博士課程の学生は、約５から１０％をデータ・セットに、および９０％を超える圧倒的な「残り時間」をモデルおよびアルゴリズムに費やす。例えば、テスラなどの会社の実際の使用事例では、プロジェクト時間の約７５％はデータ準備およびデータ・セットに、そしてわずか２５％がモデルおよびアルゴリズムに費やされる（ソースhttps://vimeo.com/272696002）。

１つの問題は、この関連において、レア・ケースの分野にあり、これらは特に訓練データ・セットにおいて少数の例だけが生じる、または例が他のケースと比べて特に十分に提示されていない、画像カテゴリまたは状況の例である。いくつかの例としては以下があり得る：（ｉ）道路上の通常の条件と比較した自動車事故の画像、（ｉｉ）青または赤と比較した、黄さらには青の交通信号灯の画像、（ｉｉ）特別な道路標識、および（ｉｖ）道路上の雪または霧がかかった環境。

訓練された機械学習モデルの問題は、訓練セット内で９，９９９人が茶色の目を有し、１人が青い目を有する場合、アルゴリズムは常に茶色の目を予測し得るということであり得る。これは、非常に高い９９．９９％の正確さに繋がるが、「青い目」が予測されることはない。レア・ケースが無視された場合、道路交通など、多くの背景において、このような欠陥は重大な問題を必然的に伴う。

十分に提示されていないクラスに関して、分類器予測を強化するシステムまたは方法に関連したいくつかの開示がある。文献“A Systematic Study of Online Class Imbalance Learning with Concept Drift”, IEEE Transactions on Neural Networks and Learning Systems (Volume: 29, Issue: 10, Oct. 2018)は、十分に提示されていないクラスを学習することによって、クラス不平衡データ・ストリームにおける概念ドリフトを取り扱う方法を開示している。参考文献はまた、最新の例によるウィンドウに基づいてクラスを維持する方法を開示している。

文献“Class Imbalance and Active Learning”, by Josh Attenberg etal., published by Imbalanced Learning: Foundations, Algorithms, and Applications (2013): p.101-149 (https://pdfs.semanticscholar.org)は、結果としてのモデルが大多数のクラスに向かってゆがめられることを防止することにおいて、少数クラスの真の性質を反映する能力を有するモデルを可能にする方法を開示している。参考文献はまた、モデルを再訓練するために例を利用することによって、十分に提示されていないクラスに対処する方法を開示している。

上述の参考文献に関わらず、機械学習の分野における今日の産業の課題に対処するために、レア・ケース管理により焦点を合わせること、および利用できる訓練データが、学習するための例の良好な組合せを持たない場合に、それらにどのように対処するかにより焦点を合わせること、が必要となり得る。

本発明の一態様によれば、十分に提示されていないクラスに関して分類器予測を強化するためのシステムがもたらされ得る。システムは、予測クラスへの未知の入力データの分類のために使用可能なモデルを構築するように訓練データを用いて訓練される分類器システムと、予測クラス内の十分に提示されていないクラスの決定のために適合された評価器エンジンであって、予測の信頼レベル分布を用い得る、評価器エンジンと、追加のソースからの関連データの抽出のために適合された抽出器エンジンであって、関連データは決定された十分に提示されていないクラスに関連し得る、抽出器エンジンと、を備え得る。

さらに、システムは、関連データからデータ・セットを選択するために適合された類似性エンジンを備え得る。それによって、類似性エンジンはまた、関連データの特徴と、十分に提示されていないクラスに対する代表のデータ・セットの特徴とを比較するために適合されることができ、評価器エンジンと抽出器エンジンと類似性エンジンとをトリガするように適合された再帰ユニットは、評価器エンジンが選択されたデータ・セットを信頼閾値レベルより高い信頼レベルで分類するまで、選択されたデータ・セットを入力データとして扱う。

本発明の別の態様によれば、十分に提示されていないクラスに関して分類器予測を強化するコンピュータによって実施される方法がもたらされる。方法は、予測クラスへの未知の入力データの分類のために使用可能なモデルを構築するように訓練データを用いて訓練された分類器システムを提供することと、予測の信頼レベル分布を決定することによって、予測クラス内の十分に提示されていないクラスを決定することと、追加のソースから関連データを抽出することであって、関連データは決定された十分に提示されていないクラスに関連する、抽出することとを含み得る。

さらに、方法は、関連データの特徴と、十分に提示されていないクラスに対する代表のデータ・セットの特徴とを比較することによって、関連データからデータ・セットを選択することと、選択されたデータ・セットが信頼閾値レベルより高い信頼レベルで分類されるまで、選択されたデータ・セットを入力データとして扱うことによって、評価すること、抽出すること、および選択することを反復することとを含み得る。

十分に提示されていないクラスに関して分類器予測を強化するための提案されるシステムは、複数の利点および技術的効果を提供し得る。

明らかに、機械学習におけるレア・ケースのより良好な管理が達成され得る。システムおよび関連した方法は、不平衡の訓練データ・セットについてそれら自体で配慮する。提案される技法は、それ自体を監視し、それ自体を配慮し、および例えば、分類器の予測が、それ自体の結果について確信がない場合、自律的に代替を見出す。内部の評価器は、このような不平衡を検出し、訓練データ・セットを強化するために用いられるべき他の例を自動的に探し得る。これは、システムが訓練データ・セットは十分良好でなかったと決定することができ、システムの外側に行くことを決定する、すなわち、訓練のために利用できるデータの外側で、代替のソースを検索するという点で、内側から外へのアプローチと見られ得る。従って、システムは、訓練データ・セットをもたらした「トレーナをバイパス」することができ、「それ自体の経験をする」ことがより良好になると決定し得る。

その目的のために、通常はインターネットを通じて利用できる、外部データベースが用いられることができ、見出されたデータが既存の機械学習アルゴリズムのより良好な訓練のために用いられ得るかどうかを見出す（決定する）ために用いられ、およびアクセスされ得る。

結果として、非常に基本的な訓練データ・セットから開始して、システムにそれ自体の訓練データ・セットを見出し、強化するようにさせることができる。従って、訓練データをラベル付けるための要件は、本明細書で提案される概念の副次的作用として行われ得る自動ラベル付けプロセスによって低減され得る。

この概念において用いられる類似性エンジンは、複数の画像の間で数多くの類似の特徴を含んだ画像を見つけるために用いられ得る。アルゴリズムは、入力として画像を取り込むことができ、０から１までの格付けを与えることができ、より高い値はピクチャの間のより良好な一致を示す。ピクチャまたは画像の処理は、画像分析論、すなわち、画像閾値化、画像勾配、および畳み込みによって区別できる特徴を見出すことに基づくことができる。最初に、画像内の特徴が計算されることができ、次いで画像の値および数が比較され、すべての見込みのある画像の対に対する値を集めるために統合される。

新たに見出された画像は次いで、高い信頼度で予測され、時間と共に一般のマルチ・クラス・モデル（multi-class model）を改善するように訓練セットに追加され得る。ラベルは、十分に提示されずに「外に行く」ための完全ループをトリガしたクラスから導き出され得る。

以下では、システムおよび方法の両方に適用可能な、本発明の概念のさらなる実施形態が述べられる。

システムの１つの有用な実施形態によれば、入力データは画像とすることができる。当面の間、これは最も主要な使用事例となり得るが、システムおよび関連した方法は、任意の他のデータ・タイプに適し得る。従って、提案される概念は、画像データのみに限定されず、任意の種類の機械学習に応用され得る。

システムの他の有用な実施形態によれば、画像データはビデオ・データから抽出され得る。従って、ビデオは静止画像の単純な連結として見られ得るので、利用できる画像の数を著しく増加させ得る。

システムの１つの好ましい実施形態によれば、十分に提示されていないクラスの決定は、予測クラスと他のクラスとの差の関数に基づくことができる。例えば、１０個のクラスのうちの９個の予測すべての９８＋％が常に予測される場合、これは次に２つの理由を有し得る：（ｉ）分類器に対する入力データがバイアスされている場合があり、すなわち、入力データは１０番目のクラスを予測する根拠となり得ない、または（ｉｉ）最後のクラスが訓練データ・セット内に適切に反映されていないため、分類器の基礎をなす訓練モデルはそれを「見る」ことがない。

システムの１つの好ましい実施形態によれば、追加データは、訓練データおよび通常の入力データに対して外部のデータとすることができる。従って、システムは訓練のために使用されたデータに依存するだけでなく、「システムの外」からのデータにアクセスする、すなわち「自分の鼻の向こうを見る」ことを試み得る。追加データは、例えば、追加画像についてはデジタル図書館、または追加のテキスト例については辞書において見出され得る。他の外部ソースは容易に想像され得る。外部データにアクセスする１つの方法はまた、インターネットを通じて追加の外部データを検索するための検索エンジンにアクセスする、検索エンジンを統合する選択肢を含み得る。別の実施形態において検索はイントラネットに限定され得る。

１つの好ましい実施形態によれば、システムはまた、評価器が信頼閾値レベルより高い信頼レベルで選択されたデータ・セットを分類した場合に、選択されたデータ・セットを追加訓練データ・セットとしてラベル付けするように適合されたラベル付けユニットを備え得る。従って、訓練データ・セットをより広いグラウンド・トゥルース・ベース（ground truth base）として用いられるように拡張するために、これまでの既存の経験領域、すなわち、実際の訓練のために用いられる訓練データ・セットの外側の新たに見出されるデータを用いて、既存の訓練データ・セットを強化するように、自動的な決定がなされ得る。

システムの他の好ましい実施形態によれば、ラベル付けユニットはまた、十分に提示されていないクラスに関するラベルで追加訓練データ・セットに注釈を付けるように適合され得る。追加訓練データ・セットは、１つまたは複数の追加訓練データ例を備えることができ、それに対して、訓練データ・セットに新たに統合されることになるデータに対する自動タグ付けまたはラベル付けが用いられ得る。従って、それの経験ベース、すなわち、訓練データ・セットを広げるための、機械学習システムとの手動の相互作用の必要性がなくなり得る。また機械学習システムの後の再訓練は、予め規定された数または量の追加訓練データが利用できるようになった場合、自動的にトリガされ得る。

システムの１つの任意選択の実施形態によれば、再帰ユニットはまた、予め規定された数の再帰が発生した場合に、トリガすることを停止するように適合され得る。これは追加の、外部データに対する検索プロセスの無限ループ（infinitive loop）を防止し得る。従って、システム・リソースを不必要に使用することが避けられ得る。

システムの他の任意選択の実施形態によれば、評価器エンジンまたは抽出器エンジンあるいはその両方は、ナレッジ・グラフ・システムに接続され得る。ナレッジ・グラフ・システムにおけるデータの構成は、評価器または抽出器エンジンあるいはその両方によって、データが機械学習プロセスのために有用かどうかをさらに調べるために、どの追加の外部データが有用となり得るかを決定するために用いられ得る。

さらに、実施形態は、コンピュータまたは任意の命令実行システムによるまたはそれに関連した使用のためのプログラム・コードをもたらす、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能な、関連したコンピュータ・プログラム製品の形を取り得る。この説明のために、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによるまたはそれに関連した使用のために、プログラムを記憶する、通信する、伝搬させる、または運ぶ手段を含み得る任意の装置とすることができる。

本発明の実施形態は、異なる主題に関して述べられることが留意されるべきである。具体的には、いくつかの実施形態は方法タイプの請求項に関して述べられ、他の実施形態は装置タイプの請求項に関して述べられる。しかし、当業者には、上記および以下の説明から、別に示されない限り、１つのタイプの主題に属する特徴の任意の組合せに加えて、異なる主題に関する特徴の間、具体的には、方法タイプの請求項の特徴と、装置タイプの請求項の特徴との間の任意の組合せも、本明細書内で開示されるものと考えられることが認識されよう。

上記で定義される態様、および本発明の他の態様は、本明細書の以下で述べられるおよび実施形態の例に関して説明される、実施形態の例から明らかになるが、本発明はそれらに限定されない。

本発明の好ましい実施形態が、例としてのみ、以下の図面を参照して述べられる。

十分に提示されていないクラスに関して分類器予測を強化するための本発明のシステムの実施形態のブロック図である。提案される概念の簡略化された実施形態のブロック図である。より完全なシステムの実施形態のブロック図である。十分に提示されていないクラスに関して分類器予測を強化する本発明の方法のフローチャートのブロック図である。図１によるシステムを備えたコンピューティング・システムの実施形態を示す図である。

この説明の関連において、慣例に従って、用語または表現あるいはその両方が用いられ得る。

「分類器予測を強化する」という用語は、分類器システムが、より良好な予測をする、すなわち、入力データをより正確に予測クラスに分類するのを助けるプロセスを示し得る。これは特にレア・ケース、すなわち、希にのみ発生し、訓練データ・セット内で十分に提示されていない可能性があるケースに対してなされ得る。

「十分に提示されていないクラス」という用語は、訓練データ・セットが有する十分に提示されていないクラスの例が少なすぎるため、このクラスに対して、基礎をなす機械学習モデルが十分に訓練されていないので、多かれ少なかれ決して、またはほぼ決して予測されない場合がある、分類器のクラスを示し得る。

「分類器システム」という用語は、ニューラル・ネットワーク、深層ニューラル・ネットワーク、ランダム・フォレスト・システム、ロジスティック回帰システム、ガウス回帰システムその他の形での、機械学習システムまたはモデルあるいはその両方を示し得る。任意の分類器が用いられ得る。分類器システムおよび提案される概念は、訓練データ・セットを用いて訓練されている訓練された分類器に関し得る。

「評価器エンジン」という用語は、入力データのケースがレア・ケースに関連し得るかどうかを決定することを可能にされたユニットを示し得る。このために、評価器エンジンは異なる閾値手法を用い得る。互いに比較的小さな差を持つ信頼レベルを有する複数のクラスを結果として生じる予測の信頼レベルを比較する相対的閾値手法とすることができる。従って、「信頼レベル分布」が決定基準として用いられ得る。

「抽出器エンジン」という用語は、提案されるシステムのユニットを示すことができ、予め規定された意味においてレア・ケースの例と同等となり得る外部データ・ソースにアクセスすることができ得る。検索エンジンは、レア・ケース・データ・セットに対して、関連するデータ・セットを識別するために、抽出器エンジンによって用いられることができ、または抽出器エンジンの一部とすることができる。これに基づいて、「類似性エンジン」は、閾値にも基づいて、抽出器エンジンの識別された追加の例の間の類似性が、十分にレア・ケースに関連するかどうかを決定し得る。

「追加のソース」という用語は、機械学習モデル、すなわち分類器を発展させるためにこれまで用いられていない可能性がある、潜在的な訓練データのソースを示し得る。追加のソースは、これまで利用できる訓練データとは独立のデータ・プールに属し得る。追加のソースは、インターネットを通じて、または他の場合には、１つまたは複数の企業のイントラネットを通じてアクセス可能であり得る、ライブラリまたはリポジトリあるいはその両方のセットとすることができる。

「再帰ユニット」という用語は、予め規定された順序での他のユニットのトリガリングを制御するユニットを示し得る。この場合、再帰ユニットは、終了条件が満たされるまで、少なくとも評価器エンジン、抽出器エンジン、および類似性エンジンを順番にトリガし得る。

以下では、図を参照して実施形態が述べられる。

図１は、十分に提示されていないクラスに関して分類器予測を強化するためのシステム１００の実施形態のブロック図を示す。システム１００は、未知の入力データの予測クラスへの分類のために使用可能なモデルを構築するために訓練データを用いて訓練される分類器システム１０２を備える。分類器システムの例は、ニューラル・ネットワーク、具体的には深層ニューラル・ネットワーク、ロジスティック回帰システム、ガウス回帰システム、ランダム・フォレスト・システムを含み得る。

さらに、システム１００は、予測クラス内の十分に提示されていないクラスの決定のために適合された評価器エンジン１０４を備え得る。このために、評価器エンジン１０４は、予測の信頼レベル分布を用いる。これは相対的閾値化方式として実施され得る。１つのクラスに対してクラスの予測の信頼レベルは比較的低く、他のクラスは比較的高い値を示す場合、これは特定の予測に対する不確実性を物語り得る。一方、予測に対する信頼レベルが９０％信頼度を示し、他のクラスに対しては１桁の範囲であり得る場合、信頼レベルは他の予測クラスに対する信頼レベルと比べてずっと高いので、このクラスは十分に提示されていないクラスを表し得ない。

さらに、システム１００は、追加の、特に外部のソースからの関連データの抽出のために適合された抽出器エンジン１０６を備え得る。それによって、関連データは、決定された十分に提示されていないクラス、すなわち曖昧にのみ分類された特定の入力データ、に関連する。これは、「経験」が拡大され得る、すなわち、もう少し調べられるように新たな訓練データが予め選択される、機械学習システムにとってやむを得ない事象である。

このために、方法１００はまた、関連データからデータ・セットを選択するために適合された類似性エンジン１０８を備え、類似性エンジンはまた、関連データの特徴と、十分に提示されていないクラスについての代表のデータ・セットの特徴とを比較するように適合される。従って、類似性エンジンは、「すでにそれが知っていること」を探し、機械学習訓練データ・セットにおいて限られた数の訓練データのみが得られるクラスに対する例を識別することを試みる。従って、特に、元々は得られなかった訓練データだが信頼できる確実な分類器システムのために絶対的に必要な訓練データを探すように、方向付けられた検索が行われる。

加えて、方法１００は、少なくとも評価器エンジンと抽出器エンジンと類似性エンジンとをトリガするように適合された再帰ユニット１１０を備え、評価器エンジンが選択されたデータ・セットを信頼閾値レベルより高い信頼レベルで分類するまで、選択されたデータ・セットを入力データとして扱う。従って、提案される概念は、機械学習モデルすなわち分類器のための訓練データ・セットの拡張のために「最初のショット」に依存するのではなく、学習のための新しいデータに対する集中的な目標指向の検索に依存する。この目的のために、再帰ユニット１１０は、評価器エンジン１０４、抽出器エンジン１０６、および類似性エンジン１０８に接続される。

図２は、提案される概念の簡略化された実施形態のブロック図を示す。訓練された分類器２０２は、分類を行う入力データの評価のために定期的に用いられ得る。システム２００は、それ自体の予測が「十分良好」であるかどうか、評価プロセス２０４を用いてそれ自体の予測出力を制御する。それが「はい」である場合、分類器は変更されることなく予測を継続する。しかし、評価２０４が十分良好となり得ない、「いいえ」であった場合、システムは、分類器２０２の基礎をなす機械学習モデルの新たな訓練に用いられ得る追加の外部データ（「より良好なデータ」）を探す２０６。十分に「予測は良好」であるかどうかは、クラス確率における相対的な差を比較するメトリックを用いることによって決定され得る。従って、予測は、例えば、他のクラスから有意な距離が存在する場合、受け入れられる。有意な距離は、例えば、パーセンテージ値または絶対値の、予め規定された閾値によって決定され得る。

この簡略化された実施形態は、本明細書で提案される概念を分かりやすくすることができる。従って、結果が十分良好でないと決定された場合に経験領域を拡大することを試みる、自己最適化機械学習システムが提案される。「経験領域を拡大することを試みる」という用語は、主要な予測されたクラスと、例えば、第２の他のクラスとの差についての予め規定された閾値に達していない場合、予測のために用いられる使用データ基盤を、（追加データに対する新たな検索によって）拡大することと同義と考えられ得る。

図３は、より完全なシステムの実施形態のブロック図３００を示す。初期の状況および条件は次のように述べられ得る：分類器３０２は、ｎ個の異なるクラスに対するマルチ・クラス・モデルによって訓練され得る。ｑ個のクラス（ｑ＜ｎ）は、訓練データ・セット内で十分に提示されておらず（少数しか存在しておらず）、すなわち、（クラス内のサンプルの数＜全体のサンプルの数／（ｎ×（｜平均値－中央値｜）））であり、レア・ケースとも呼ばれる。レア・ケースを定義するために異なる閾値が用いられることができ、｜平均値－中央値｜係数は実装形態に対する１つの例である。固有の問題は次のように述べられ得る：訓練の間に、分類器は、ｑ個のクラスにおける差別化要因である特徴の代わりに、訓練データ・セットにおける分布を学習してしまう可能性がある。評価器エンジン３０４、レア・ケース抽出器３１０、および類似性エンジン３１６は、このような種類の「訓練ミス」に対処する手段になり得る。

初期ステップ３０１として、画像および任意の追加的に得られるメタデータが分類器３０２に供給される。ここでの例は簡潔さのために画像データを用いて述べられていることが留意され得る。しかし、提案される概念はいかなる種類の分類にも適する（いくつかの応用分野を挙げると、音、テキスト、ビデオ、健康データ、株式市場データ）。

分類器の出力すなわち予測は、評価器エンジン３０４に供給され、評価器エンジン３０４は手元のケースがレア・ケースであるかどうかを決定する。これのために、評価器エンジン３０４は、予測されたクラスとの関連において信頼レベルの良好な解釈のために、ナレッジ・グラフ３１４を用い得る。従って、および「十分良好」という用語に戻るように橋渡しをすると、評価器エンジンが、ランク付けされた一連の予測クラスにおいて主要な予測クラスと次の予測クラスの差が予め規定された差の閾値未満であると決定した場合に、レア・ケースが決定される。

ケースがレア・ケースでない場合、すなわち、信頼値が十分良好である（予め規定された信頼レベル閾値より高い、または繰り返しの最大数に達した）場合、分類器の出力は有効であり（３０６）、出力として供給される（３０７）。追加的に、このケースに関連するデータはまた周期的に訓練セットを強化するために用いられてもよく、すなわち、訓練データ３０８の構成要素となってもよい。

評価器エンジン３０６によってケースがレア・ケースであると決定された場合、入力データはレア・ケース抽出器３１０に転送される。このモジュールは、潜在的に関連したまたは類似の画像を用いて訓練データのコーパス（corpus）を潜在的に拡大するために用いられる。これらの画像は外部データ３１２から、具体的には追加データベースから、または例えばインターネット上の検索エンジンを通じて識別される完全な外部データから抽出されてもよく、この中から最も類似する画像を選択してこれを次の繰り返しのために分類器３０２にフィード・バックする（開始３０１に戻る）ために類似性エンジン３１６に送られてもよい。

レア・ケース抽出器は、追加データ３１２内の関連した画像を決定するために、ナレッジ・グラフにアクセスし得ることが留意され得る。

次の繰り返しにおいて、分類器３０２への例示的入力画像として、交通信号灯が用いられ得る。しかし、交通信号灯の画像は、定義されておらず明確に認識可能ではないことがある（普通でない視野角、もや、霧、ランプ故障などによる）。分類器３０２の結果として、分類器３０２は、０．７１２の信頼レベルで「停止信号」、０．７０９の信頼レベルで「白熱電球」、０．６９８の信頼レベルで「列車停止」などを返すようになる。従って、システムは、互いに非常に近い信頼レベルを有する、類似しているが等しくはない予測が存在するので、システムの予測について「確信が持てない」。従って、信頼レベルに対する相対的な尺度が用いられる。

評価器エンジン３０４は、これはレア・ケースであると決定する。抽出器３１０は次いで、例えば、検索エンジンを用いてインターネットにアクセスして、停止信号、白熱電球、および列車停止を探すことによって、例として、２３０個の追加画像を返す。すなわち、信頼レベルの差が予め規定された閾値未満である分類器３０２の予め規定された数またはパーセンテージの予測結果である。

次に、類似性エンジン３１６は、例えば、２３０個の画像から入力画像に対して相対的近さを示す５つの画像を選択し得、それらは次いでさらなる処理のために、分類のために通常の入力データが分類器３０２に入力されるのと同じやり方で入力データとして分類器３０２に戻される。

さらなる繰り返しにおいて、分類器３０２は、類似性エンジン３１６から分類器３０２に送られた５つの追加画像に対するクラスを決定する。分類器の結果は以下のようになり得る。
－画像１：「停止信号」信頼レベル０．８１２、「白熱電球」信頼レベル０．８０９、「列車停止」信頼レベル０．４９８
－画像２：「停止信号」信頼レベル０．６１２、「白熱電球」信頼レベル０．６０９、「列車停止」信頼レベル０．５９８、およびすべての識別されたおよび追加画像に対してその他もろもろとなる。また分類器は、分類のために用いられるべき内部モデルを自動的に決定するように、注釈を付けられた訓練データを用いて訓練された訓練済み分類器であることが留意され得る。また通常、訓練セッションの間に、クラスの数が入力として（画像に加えて）、分類器に与えられる。

次に、評価器エンジン３０４は、５つの追加画像すべての信頼レベルを評価する。少なくとも１つは、予め規定された閾値より高い相対的信頼レベルのために、レア・ケースとして分類されず、右側への出力、すなわち、有効出力ボックス３０６に送られる。この画像は次いで訓練データ・セット３０８を強化するために用いられることができ、その結果、より多くのレア・ケースの例が訓練データ・セット３０８に蓄積される。予め規定された数（絶対数または相対数）の追加訓練データが訓練データ・セット３０８に追加されるたびに発生し得る再訓練は、ここで、将来において認識、レア・ケースの認識も強化されるように、分類器３０２のための基礎をなす機械学習モデルを修正するようになる。

しかし、訓練データ・セット３０８に追加されない残りの画像に対しては、ループは継続する。これら４つの残りの画像に対して、レア・ケース抽出器３１０は、再び「停止信号」などを探して外部データ・ソースにアクセスすることによって、追加の３５０個の画像を見出し得る。この状況において、３５０個の画像の中の７つの画像が入力画像に近いとして選択され、システムのさらなる繰り返しループにおけるさらなる処理のために送られる。このループ・プロセスは、予め規定された数の繰り返しが行われるまで継続し得る。

次に、個別のユニットをもう少し詳しく見ていく：評価器エンジン３０４は、主プロセスにおける繰り返しが必要であるかどうかを決定するように、分類器３０２の出力がレア・ケース（上記と比較）であるかどうかを決定するために用いられる。評価器エンジン３０４によって用いられる条件は、予測の信頼レベル分布に基づく。具体的には、予測は、最も重要なクラスが他のクラスから、特に信頼レベルの、有意な距離を有する場合、受け入れられる。距離は、予め規定された閾値によって制御される。他の終了条件は、主プロセスにおいてさらなる繰り返しがなく、分類器３０２の出力は有効と考えられる場合、ある特定の数の繰り返しがすでに主プロセスにおいて遂行されたことである。

予測信頼レベルをよりよく考察するために、基準としてナレッジ・グラフが用いられ得る。２つの予測の間の距離が近いほど、両方が真である可能性がより高く、逆も同様である。

抽出器３１０（またはレア・ケース抽出器）は、外部データにアクセスするために用いられる。利用できるビデオ素材の量が増大している。これは、例えば、「スマート・グラス」（ｇｏｏｇｌｅｓ）、ビデオ・カー（地理的位置の自動地図生成をサポートするために用いられる）、カメラが装備された自律車両などから来る場合がある。ビデオを構成する画像を、分析および分類することが可能である。これらの分類された画像は次いで、「レア・ケース」のデータベース、すなわち、いくつかの機械学習クラスに関連するが、わずかな例のみが存在する画像と、比較され得る。この比較は、類似性学習および主成分分析などの技法を用い得る。レア・ケースのカテゴリの一部であると決定された画像は、次いで抽出され、新たな、および改善された分類器を訓練するために用いられるように、レア・ケース・データベースに供給されるようになる。レア・ケース・カテゴリは時間と共に変化してもよく、例えば、ある特定のカテゴリに対して、十分な数のケースが蓄積された後、そのカテゴリはもはや希（レア）であるとは考えられない。また、このプロセスは、どのクラスがレア・ケースを有するものと考えられるかを時間と共にシフトするようになることが留意され得る。従って、クラスに対する「レア・ケース」ラベルの定期的な更新が必要になり得る。システムの反応のハードウェア要件に応じて、すべての画像が独立して次々に用いられるか、またはｎ個のフレームごとに１つが用いられる。本明細書で提案されるプロセスを用いる当然の結果は、訓練セットが大きくなるのに従ってより多くの画像を処理するので、識別されるレア・ケースは時系列的に、より少なくなることである。

類似性エンジン３１６は、複数の画像の間で数多くの類似の特徴を備える画像を見つけるために用いられる。アルゴリズム、例えば、ＳＳＩＭ（構造的類似性）またはＰＳＮＲ（ピーク信号対雑音比）アルゴリズムは、入力として画像を取り込むことができ、それに０から１までの格付けを与えることができ、より高い値は画像の間のより良好な一致を示す。画像の処理は、画像分析に基づき、すなわち、画像閾値化、画像勾配、および畳み込みによって、区別できる特徴を見出すことに基づく。最初に画像内の特徴が計算され、次いで画像の値および特性化する数が比較され、すべての見込みのある対の値と一緒に統合される。

高い信頼度で予測された新たに見出された画像は、時間と共に一般のマルチ・クラス・モデルを改善するように訓練データ・セットに追加される。

図４は、十分に提示されていないクラスに関して分類器予測を強化するコンピュータによって実施される方法４００の実施形態のフローチャートのブロック図を示す。方法４００は、上記で説明された、関連した機械学習システムに従って、予測クラスへの未知の入力データの分類のために使用可能なモデルを構築するように訓練データを用いて訓練された分類器システムを提供すること４０２と、複数の予測の信頼レベル分布を決定することによって、複数の予測クラス内の十分に提示されていないクラスを決定すること４０４と、追加のソースから関連データを抽出すること４０６とを含む。それによって、関連データは、決定された十分に提示されていないクラスに関連する。

さらに、方法４００は、関連データの特徴と、十分に提示されていないクラスに対する代表のデータ・セットの特徴とを比較することによって、関連データからデータ・セットを選択すること４０８と、選択されたデータ・セットが信頼閾値レベルより高い信頼レベルで分類されるまで選択されたデータ・セットを入力データとして扱うことによって、決定すること（４０４）と抽出すること（４０６）と選択すること（４０８）とを反復すること４１０と、を含む。従って、ステップ４０４、４０６、および４０８は、停止条件が生じるまで反復される。停止条件は、特定の予測の信頼レベルについての閾値とすることができ、または追加データに対する検索が行われた予め規定されたサイクル数であってもよい。その場合、システムは、訓練データ・セットを強化するための追加データを検索するために、そのセットは「意味をなし得ない」と決定し得る。

本発明の実施形態は、プログラム・コードを記憶するまたは実行するあるいはその両方を行うためにそのプラットフォームが適切であるかに関わらず、事実上任意のタイプのコンピュータと一緒に実施され得る。完全性の理由のために、図５は、例として、提案される方法に関連するプログラム・コードを実行するために適したコンピューティング・システム５００を示す。

コンピューティング・システム５００は、適切なコンピュータ・システムの単に１つの例であり、本明細書の上述の機能のいずれかを実装することまたは実行することあるいはその両方をコンピュータ・システム５００ができるかどうかに関わらず、本明細書で述べられる本発明の実施形態の使用または機能の範囲に関して、何らかの限定を示唆するものではない。コンピュータ・システム５００には構成要素があり、これらは数多くの他の汎用もしくは専用コンピューティング・システム環境または構成と共に動作できる。コンピュータ・システム／サーバ５００と共に用いるのに適し得る、よく知られたコンピューティング・システム、環境、または構成あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブルな民生用電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスの任意のものを含んだ分散型クラウド・コンピューティング環境などを含むが、それらに限定されない。コンピュータ・システム／サーバ５００は、コンピュータ・システム５００によって実行される、プログラム・モジュールなどの、コンピュータ・システム実行可能命令との一般的な関連において述べられ得る。一般にプログラム・モジュールは、特定のタスクを行うまたは特定の抽象データ・タイプを実施する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造体などを含み得る。コンピュータ・システム／サーバ５００は、通信ネットワークを通して連結されたリモート処理デバイスによってタスクが行われる分散型クラウド・コンピューティング環境において実施され得る。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ記憶デバイスを含む、ローカルおよびリモート・コンピュータ・システム記憶媒体の両方内に配置され得る。

図に示されるように、コンピュータ・システム／サーバ５００は、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム／サーバ５００の構成要素は、１つもしくは複数のプロセッサまたは処理ユニット５０２と、システム・メモリ５０４と、システム・メモリ５０４を含む様々なシステム構成要素をプロセッサ５０２に結合するバス５０６とを含み得るが、それらに限定されない。バス５０６は、メモリ・バスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレイテッド・グラフィックス・ポート、および多様なバス・アーキテクチャのいずれかを用いたプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの１つまたは複数を表す。例として、限定せずに、このようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バスを含む。コンピュータ・システム／サーバ５００は通常、多様なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム／サーバ５００によってアクセス可能な任意の利用できる媒体とすることができ、これは揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体の両方を含む。

システム・メモリ５０４は、ランダム・アクセス・メモリ（ＲＡＭ）５０８またはキャッシュ・メモリ５１０あるいはその両方などの、揮発性メモリの形でのコンピュータ・システム可読媒体を含み得る。コンピュータ・システム／サーバ５００はさらに、他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータ・システム記憶媒体を含み得る。例のみとして、ストレージ・システム５１２には、非リムーバブル、不揮発性磁気媒体（図示されず、通常「ハード・ドライブ」と呼ばれる）からの読み出しおよびそれへの書き込みがもたらされ得る。図示されないが、リムーバブル、不揮発性磁気ディスク（例えば、「フロッピー（Ｒ）・ディスク」）からの読み出しおよびそれへの書き込みのための磁気ディスク・ドライブ、およびＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光媒体などのリムーバブル、不揮発性光ディスクからの読み出しまたはそれへの書き込みのための光ディスク・ドライブがもたらされ得る。このような場合、それぞれは１つまたは複数のデータ媒体インターフェースによってバス５０６に接続され得る。以下でさらに示され述べられるように、メモリ５０４は、本発明の実施形態の機能を遂行するように構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含み得る。

プログラム・モジュール５１６のセット（少なくとも１つ）を有する、プログラム／ユーティリティは、例としておよび限定せずに、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと共に、メモリ５０４に記憶され得る。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データのそれぞれ、またはそれらの何らかの組合せは、ネットワーキング環境の実装を含み得る。プログラム・モジュール５１６は、本明細書で述べられる本発明の実施形態の機能または方法論あるいはその両方を一般に遂行する。

コンピュータ・システム／サーバ５００はまた、キーボード、ポインティング・デバイス、ディスプレイ５２０などの１つまたは複数の外部デバイス５１８、ユーザがコンピュータ・システム／サーバ５００と対話することを可能にする１つまたは複数のデバイス、またはコンピュータ・システム／サーバ５００が１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデムなど）あるいはその組合せと、通信することができる。このような通信は、入出力（Ｉ／Ｏ）インターフェース５１４を通じて生じ得る。さらにコンピュータ・システム／サーバ５００は、ネットワーク・アダプタ５２２を通じて、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用広域ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）あるいはその組合せなど、１つまたは複数のネットワークと通信し得る。示されるように、ネットワーク・アダプタ５２２は、バス５０６を通じてコンピュータ・システム／サーバ５００の他の構成要素と通信し得る。図示されないが、コンピュータ・システム／サーバ５００と共に、他のハードウェアまたはソフトウェア構成要素あるいはその両方が用いられ得ることが理解されるべきである。例は、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどを含むが、それらに限定されない。

さらに、分類器予測を強化するためのシステム１００は、バス・システム５０６に結び付けられ得る。

本発明の様々な実施形態の説明は、例示のために提示されるが、網羅的であること、または開示される実施形態に限定されることを意図するものではない。当業者には、述べられる実施形態の範囲および思想から逸脱せずに、多くの変更形態および変形形態が明らかになるであろう。本明細書で用いられる専門用語は、実施形態の原理、実用的な応用例、または市場で見出される技術に対する技術的改良を最もよく説明するように、または当業者が本明細書で開示される実施形態を理解することを可能にするように選ばれている。

本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとして具体化され得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を遂行させるためのコンピュータ可読プログラム命令をその上に有する、コンピュータ可読記憶媒体を含み得る。

媒体は、伝搬媒体のための電子的、磁気的、光学的、電磁的、赤外線、または半導体システムとすることができる。コンピュータ可読媒体の例は、半導体または固体メモリ、磁気テープ、リムーバブル・コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハード磁気ディスク、および光ディスクを含み得る。現在の光ディスクの例は、コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、コンパクト・ディスク読み出し／書き込み（ＣＤ－Ｒ／Ｗ）、ＤＶＤ、およびブルーレイ・ディスクを含む。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子的記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁的記憶デバイス、半導体記憶デバイス、またはこれらの任意の適切な組合せとすることができるが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたはその上に記録された命令を有する溝状の隆起構造などの機械的符号化型デバイス、およびこれらの任意の適切な組合せを含む。本明細書で用いられるコンピュータ可読記憶媒体とは、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体を通して伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または線材を通して送信される電気信号など、それ自体が一過性の信号であると解釈されるものではない。

本明細書で述べられるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワークまたはその組合せを通じて外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅の伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを備え得る。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体における記憶のために転送する。

本発明の動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存型命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様なプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードまたはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンド・アロン・ソフトウェア・パッケージとして、専らユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、あるいは専らリモート・コンピュータまたはサーバ上で、実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくは広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通してユーザのコンピュータに接続されることができ、または外部コンピュータへの接続がなされ得る（例えば、インターネット・サービス・プロバイダを用いてインターネットを通して）。いくつかの実施形態において、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を行うために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。

本明細書において本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の、フローチャート図またはブロック図あるいはその両方を参照して述べられる。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されるであろう。

これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実施するための手段を作成するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサにもたらされて、マシンを生み出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作の態様を実施する命令を含んだ製品を備えるように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定の方式で機能するように指示することができるものであってもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または別のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実施するように、コンピュータによって実施されるプロセスを生み出すべく、コンピュータ、他のプログラマブル・データ処理装置、または別のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図におけるフローチャートまたはブロック図あるいはその両方は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を例示する。この関連において、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を備える、モジュール、セグメント、または命令の一部分を表し得る。いくつかの代替的実装形態において、ブロック内に記された機能は、図に記されたものとは異なる順序で生じ得る。例えば、連続して示される２つのブロックは、実際は、実質的に並行して実行されることができ、またはブロックは時には関わる機能に応じて、逆の順序で実行され得る。またブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を行う、または専用ハードウェアおよびコンピュータ命令の組合せを遂行する、専用ハードウェア・ベースのシステムによって実施され得ることが留意されるであろう。

本明細書で用いられる専門用語は、特定の実施形態を述べるためのみであり、本発明を限定するものではない。本明細書で用いられる単数形「ある（a）」、「１つの（an）」、および「その（the）」は、文脈が異なる解釈を明らかに示す場合を除き、複数形も含むものである。さらに本明細書で用いられるとき、用語「備える（comprises）」または「備えている（comprising）」あるいはその両方は、記載された特徴、整数値、ステップ、動作、要素、または構成要素あるいはその組合せの存在を明記するものであるが、１つまたは複数の他の特徴、整数値、ステップ、動作、要素、構成要素、またはそれらのグループあるいはその組合せの存在または追加を除外するものではないことが理解されるであろう。

以下の「特許請求の範囲」における対応する構造、材料、動作、およびすべてのミーンズまたはステップ・プラス・ファンクション要素の均等物は、具体的に特許請求されるものとして、他の特許請求される要素との組合せにおいて機能を行うための、任意の構造、材料、または動作を含むことが意図される。本発明の説明は、例示および説明のために示されているが、網羅的であること、または開示された形での本発明に限定されることを意図するものではない。当業者には、本発明の範囲および思想から逸脱せずに、多くの変更形態および変形形態が明らかになるであろう。実施形態は、本発明の原理、および実際の応用例を最もよく説明するように、ならびに他の当業者が、企図される特定の使用に適するように様々な変更を有する様々な実施形態に対して本発明を理解することを可能にするように選ばれ、述べられている。

Claims

予測クラスへの未知の入力データの分類のために使用可能なモデルを構築するように訓練データを用いて訓練される分類器システムと、
前記予測クラス内の十分に提示されていないクラスの決定のために適合された評価器エンジンであって、予測の信頼レベル分布を用いる、前記評価器エンジンと、
追加のソースからの関連データの抽出のために適合された抽出器エンジンであって、前記関連データは決定された前記十分に提示されていないクラスに関連する、前記抽出器エンジンと、
前記関連データからデータ・セットを選択するために適合された類似性エンジンであって、前記関連データの特徴と前記十分に提示されていないクラスに対する代表のデータ・セットの特徴とを比較するためにも適合された、前記類似性エンジンと、
前記評価器エンジンと前記抽出器エンジンと前記類似性エンジンとをトリガするように適合された再帰ユニットであって、前記評価器エンジンが前記選択されたデータ・セットを信頼閾値レベルより高い信頼レベルで分類するまで前記選択されたデータ・セットを入力データとして扱う、前記再帰ユニットと、
を備えるコンピュータ・システム。
前記入力データは画像データである、請求項１に記載のコンピュータ・システム。
前記画像データは、ビデオ・データから抽出される、請求項２に記載のコンピュータ・システム。
前記十分に提示されていないクラスの前記決定は、前記予測クラスと他のクラスとの差の関数に基づく、請求項１または２に記載のコンピュータ・システム。
前記関連データは、前記訓練データおよび通常の入力データに対して外部のデータである、請求項１ないし３のいずれか一項に記載のコンピュータ・システム。
前記評価器エンジンが信頼閾値レベルより高い信頼レベルで前記選択されたデータ・セットを分類した場合に、前記選択されたデータ・セットを追加訓練データ・セットとしてラベル付けするように適合されたラベル付けユニット
をさらに備える、請求項１ないし４のいずれか一項に記載のコンピュータ・システム。
前記ラベル付けユニットは、前記十分に提示されていないクラスに関する前記ラベルで前記追加訓練データ・セットに注釈を付けるようにも適合された、請求項６に記載のコンピュータ・システム。
前記再帰ユニットは、予め規定された数の再帰が発生した場合に前記トリガすることを停止するように適合された、請求項１ないし７のいずれか一項に記載のコンピュータ・システム。
前記評価器エンジンおよび前記抽出器エンジンの少なくともいずれか一方は、ナレッジ・グラフ・システムに接続される、請求項１ないし８のいずれか一項に記載のコンピュータ・システム。
コンピュータが実施する方法であって、
予測クラスへの未知の入力データの分類のために使用可能なモデルを構築するように訓練データを用いて訓練された分類器システムを提供することと、
予測の信頼レベル分布を決定することによって、前記予測クラス内の十分に提示されていないクラスを決定することと、
追加のソースから関連データを抽出することであって、前記関連データは決定された前記十分に提示されていないクラスに関連する、前記抽出することと、
前記関連データの特徴と、前記十分に提示されていないクラスに対する代表のデータ・セットの特徴とを比較することによって、前記関連データからデータ・セットを選択することと、
前記選択されたデータ・セットが信頼閾値レベルより高い信頼レベルで分類されるまで、前記選択されたデータ・セットを入力データとして扱うことによって、前記決定すること、前記抽出すること、および前記選択することを反復することと
を含む、コンピュータが実施する方法。
前記入力データは画像データである、請求項１０に記載のコンピュータが実施する方法。
前記画像データは、ビデオ・データから抽出される、請求項１１に記載のコンピュータが実施する方法。
前記十分に提示されていないクラスを決定することは、前記予測クラスと他のクラスとの差の関数に基づく、請求項１０ないし１２のいずれか一項に記載のコンピュータが実施する方法。
前記関連データは、前記訓練データおよび通常の入力データに対して外部のデータである、請求項１０ないし１３のいずれか一項に記載のコンピュータが実施する方法。
前記選択されたデータ・セットが信頼閾値レベルより高い信頼レベルで分類された場合に、前記選択されたデータ・セットを追加訓練データ・セットとしてラベル付けすること
をさらに含む、請求項１０ないし１４のいずれか一項に記載のコンピュータが実施する方法。
前記ラベル付けすることは、
前記十分に提示されていないクラスに関する前記ラベルで前記追加訓練データ・セットに注釈を付けること
をさらに含む、請求項１５に記載のコンピュータが実施する方法。
前記反復することは、予め規定された数の再帰が発生した場合に停止される、請求項１０ないし１６のいずれか一項に記載のコンピュータが実施する方法。
前記決定することおよび前記抽出することの少なくともいずれか一方は、ナレッジ・グラフ・システムにアクセスすることを含む、請求項１０ないし１７のいずれか一項に記載のコンピュータが実施する方法。
コンピュータに、請求項１０ないし１８のいずれか一項に記載の方法を実行させる、コンピュータ・プログラム。