JP2020042797A

JP2020042797A - サンプル処理方法、装置、機器および記憶媒体

Info

Publication number: JP2020042797A
Application number: JP2019149372A
Authority: JP
Inventors: 岷 ▲趙▼; Min Zhao; 健一程; Jianyi Cheng; ▲華ぽん▼ 秦; Huapeng Qin
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-07
Filing date: 2019-08-16
Publication date: 2020-03-19
Anticipated expiration: 2039-08-16
Also published as: CN109242106A; US20200082213A1; JP6980728B2; EP3620982B1; EP3620982A1; KR20200029351A; CN109242106B; KR102250728B1

Abstract

【課題】サンプル処理方法、装置、機器およびコンピュータ読み取り可能な記憶媒体等を提供する。【解決手段】サンプル処理方法は、サンプル集合におけるサンプルの特徴表現を決定るステップであって、各サンプルは、予め標識されたカテゴリを有するステップと、特徴表現に基づいてサンプル集合をクラスタリングして、１つまたは複数のサンプルを含むクラスタを取得するステップと、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するステップと、純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定するステップと、を含む。このようにして、サンプル集合全体の選別を実現し、高品質の標識したサンプルを取得することができる。【選択図】図２

Description

本開示の実施例は、主に、コンピュータの分野に関し、より詳細には、サンプル処理方法、装置、機器およびコンピュータ読み取り可能な記憶媒体に関する。

人工知能の普及に伴い、機械学習技術は、ますます広く使用されるようになってきている。機械学習は、統計的技術を使用してコンピュータシステムにデータを「学習」する（例えば、特定のタスクのパフォーマンスを段階的に向上させる）能力を与える。監督学習は、入力を出力にマッピングする関数を入力―出力ペアの例に基づいて学習する一種の機械学習タスクである。監督学習では、このような関数は、１セットの訓練例からなる標識した訓練データ（すなわち標識したサンプル）から推論される。

監督学習タスクは、通常、大規模で高精度の標識したサンプルを必要とし、標識したサンプルの品質は、監督学習の学習成果に影響を与える。手動でサンプルを標識することは、コストが高く、効率が低いため、多くのアプリケーションは、機械によってサンプルを自動標識する形態をとる。機械によって自動的に標識されたサンプルは、大規模に達する可能性があるが、多くの場合、精度は手動標識よりもはるかに低いため、機械学習モデルの訓練効果が制約される。したがって、機械学習、特に監督学習のための標識したサンプルの品質を向上させるために、効率的なサンプルクリーニングおよび選別する方法が必要とされる。

本開示の例示的な実施例によれば、サンプル処理の解決策が提供される。

本開示の第１の態様において、サンプル集合におけるサンプルの特徴表現を決定するステップであって、各サンプルは、予め標識されたカテゴリを有するステップと、特徴表現に基づいてサンプル集合をクラスタリングして、１つまたは複数のサンプルを含むクラスタを取得するステップと、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するステップと、純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定するステップと、を含むサンプル処理方法が提供される。

本開示の第２の態様では、サンプル集合におけるサンプルの特徴表現を決定するように構成される第１の表現決定モジュールであって、各サンプルは、予め標識されたカテゴリを有する第１の表現決定モジュールと、特徴表現に基づいてサンプル集合をクラスタリングして、１つまたは複数のサンプルを含むクラスタを取得するように構成される第１のクラスタリングモジュールと、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するように構成される第１の純度決定モジュールと、純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定するように構成されるサンプル選別モジュールと、を含むサンプル処理装置が提供される。

本開示の第３の態様では、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を含む機器が提供され、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されるとき１つまたは複数のプロセッサが、本開示の第１の態様による方法を実現する。

本開示の第４の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体が提供され、当該プログラムがプロセッサによって実行されたとき、本開示の第１の態様による方法が実現される。

なお、発明の概要に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面を合わせながら以下の詳細な説明を参照することにより、本開示の各実施例の上記および他の特徴、利点および態様がより明らかになる。図面において同一または類似する符号は、常に同一または類似する構成要素を表す。ここで、
本開示の複数の実施例を実施可能な例示的な環境の概略図を示す。本開示の実施例によるサンプル処理プロセスのフローチャートを示す。本開示のいくつかの実施例による特徴表現を決定するためのニューラルネットワークの概略図を示す。本開示のいくつかの実施例によるクラスタリング結果の概略図を示す。本開示のいくつかの実施例による選別されたサンプルを決定するプロセスのフローチャートを示す。本開示の複数の実施例によるサンプル処理装置の概略ブロック図を示す。本開示の複数の実施例を実施可能なコンピューティング機器のブロック図を示す。

本開示の実施例について、図面を参照して以下により詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示が様々な形態で実現することができ、本発明に記載の実施例に限定されると解釈されるべきではなく、逆に、これらの実施例を提供することで本開示がより明白且つ完全に理解されるためのものであると理解されるべきである。本開示の図面および実施例は、例示的なものにすぎず、本開示の保護範囲を限定するものではないと理解されるべきである。

本開示の実施例の説明において、「含む」という用語および類似の用語は、開放的に含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」を意味すると理解されるべきである。「第１」、「第２」などの用語は、異なる対象または同一の対象を指すことができる。以下の説明は、他の明示的および暗示的な定義も含むことができる。

本開示の実施例の説明において、当業者には理解されるように、「クラスタリング」という用語は、サンプル集合におけるサンプルを一般に交差しないサブ集合に分割しょうとするプロセスを指し、ここでは、取得されたそれぞれのサブ集合は１つの「クラスタ」と呼ばれる。各クラスタは、いくつかの基本的な概念に対応する場合があります。なお、本願では、サンプル集合におけるサンプルには予め標識されたカテゴリがあるが、クラスタリングプロセスでは、このようなカテゴリ情報は、使用されない。また、いくつかの場合において、取得されたクラスタ（別のサンプル集合と見なすことができる）をさらにクラスタリングして、クラスタにおけるサンプルのうちの1つまたは複数のサンプルを含むサブ集合（サブクラスタとも呼ばれる）を取得することができる。

本開示の実施例の説明において、当業者には理解されるように、「ニューラルネットワーク」という用語は、適応性を有する簡単なユニットから構成される広く並列の相互接続のネットワークを指し、その構成は、生物学的神経系が現実世界の物体とのインタラクション反応をシミュレートすることができる。ニューラルネットワークにおいて、最も基本的な構成要素は「ニューロン」モデルであり、すなわち、上記の定義における「簡単なユニット」である。

従来、上述したように、主に、サンプルデータを「クリーニング」または選別するための２つの方法、すなわち手動のルールによるサンプルの選別、および半監督学習によるサンプルの選別がある。手動のルールによる方法では、エラーサンプルのルールを手動で発見し、エラーサンプルのテンプレートを構築し、パターンマッチングによってエラーまたはノイズまたはサンプルを除去して、選別されたサンプルを取得する必要がある。このような方法は、ルール構築のコストが高く、適用範囲が限られており、明示的なルールを持ち、テンプレートで表すことができるサンプルのみに適用する。

半監督学習による方法では、予め選択された少量の高品質サンプルによって機械学習モデルを訓練し、訓練によって取得されたモデルを用いて全てのサンプルを予測し、予測された信頼度の高いサンプルは、高品質サンプル集合に追加される。このような方法は、初期訓練サンプルの品質に依存する一方、選択されるサンプルが、フィッティングされた初期訓練サンプルに偏るため、サンプル空間全体をカバーすることが困難である。

本開示の一実施例によれば、予め標識されたカテゴリを用いて全てのサンプルから高品質のサンプルを選別するためのサンプル処理方法が提供される。この方法では、サンプルの特徴表現に基づいてサンプル集合におけるサンプルをクラスタリングし、サンプルのカテゴリに基づいて、クラスタリングによって取得された各クラスタの純度を決定する。各クラスタについて、純度に基づいて異なる後処理方針を採用して、選別されたサンプルを決定する。このようにして、ノイズのある全てのサンプルから高品質のサンプルを選別して、その後の監督学習タスクに使用することができる。したがって、本開示の方法は、自動的、効率的、および低コストのサンプル選別を有利に達成することができる。

以下、本開示の実施の形態について、図面を参照しながら具体的に説明する。
図１は、本開示の複数の実施例を実施可能な例示的な環境１００の概略図を示す。当該例示的な環境１００では、コンピューティング機器１０２によってサンプル集合１０１を処理して、その中から選別されたサンプルを決定し、例えば、その中から高品質のサンプルを選別する。図１に示す環境１００は単なる例示するものであり、複数のコンピューティング機器によってサンプル集合１０１を決定し処理することもできることを理解されたい。コンピューティング機器１０２は、固定型コンピューティング機器であってもよいし、携帯電話、タブレット型コンピュータなどの携帯型コンピューティング機器であってもよいことも理解されたい。

サンプル集合１０１（本発明では初期サンプル集合１０１とも呼ばれることがある）は、複数のサンプルを含む。図１に示すように、サンプル集合１０１は、サンプル１１０−１〜１１０−９（説明を簡単にするためにサンプル１１０とまとめて呼ぶ）を含むことができる。図１は、サンプル集合１０１における９つのサンプル１１０を示しているが、サンプル集合１０１は、より多いまたはより少ないサンプル１１０を含むことができることを理解されたい。いくつかの実施例では、サンプル集合１０１は、大規模なサンプル１１０、例えば、数千から数万のサンプルを含むことができる。

サンプル１１０は、様々な種類のサンプルであってもよく、テキスト、画像、ビデオ、オーディオなどを含むがこれらに限定されない。例えば、サンプル１１０−１〜１１０−９は、それぞれ、１つまたは複数の文章、１つまたは複数のセグメントの文字、１つまたは複数のステートメントであってもよい。サンプル１１０−１〜１１０−９は、それぞれ、１つまたは複数の画像、１つまたは複数のビデオセグメントであってもよい。本開示の実施例は、この点において限定されない。

サンプル１１０は、予め標識された（またはマーキングされた）カテゴリ、例えば図２に示すカテゴリＡ、ＢおよびＣを有する。図１の例では、サンプル１１０−１〜１１０−４はカテゴリＡを有し、サンプル１１０−５〜１１０−７はカテゴリＢを有し、サンプル１１０−８および１１０−９はカテゴリＣを有する。図１の３つのカテゴリＡ、ＢおよびＣを有するサンプル１１０は、単なる例示するものであり、本開示の範囲を限定することを意図していないことを理解されたい。本開示の実施例は、２分類、マルチ分類などの様々な分類場合に適用することができる。

本発明において、カテゴリは、ある側面でサンプルが同一または類似の属性を有することを示すことができる。単なる例として、サンプル１１０が文章である場合、カテゴリは文章の種類を表すことができる。例えば、カテゴリＡ、Ｂ、およびＣは、対応するサンプルがそれぞれニュース類の文章、レビュー類の文章、およびポピュラーサイエンス類の文章として標識されていることを示す。サンプル１１０が画像である場合、カテゴリは、画像に含まれる対象の種類を表すことができる。例えば、カテゴリＡ、Ｂ、およびＣは、対応するサンプルがそれぞれ人、動物、および植物を含むものとして標識されていることを示す。カテゴリは、必要に応じてサンプルの様々な同一または類似の属性を示してもよく、本開示の範囲はこの点において限定されない。

サンプル１１０のカテゴリＡ、Ｂ、およびＣは、様々な方法によって標識することができる。例えば、手動で標識することができる。サンプル１１０は、データマイニングによって取得された、所定のカテゴリを有するサンプルでもあってもよい。サンプル１１０のカテゴリは、他のモデルまたはシステムによっても生成されてもよい。本開示の範囲はこの点において限定されない。

一般に、これらの予め標識されたカテゴリは、完全に正確ではない場合があり、それはサンプル集合１０１のノイズ、すなわちノイズサンプルの存在をもたらす。例えば、図１においてカテゴリＢとして予め標識されたサンプル１１０−７は、実際にはカテゴリＣであるべきであり、このようなサンプル１１０−７は、ノイズサンプルまたはエラーサンプルであり、除去または修正される必要がある。

コンピューティング機器１０２は、本発明に開示された方法を使用してサンプル集合１０１を処理して、サンプル１１０から少なくとも一部のサンプルを選別されたサンプルとして決定することができる。例えば、図１に示すように、コンピューティング機器１０２は、サンプル集合１０１からサンプル１１０−１、１１０−２、１１０−５、１１０−６、および１１０−９を含むサンプルを選別されたサンプルとして決定することができる。これらの選別されたサンプル１１０−１、１１０−２、１１０−５、１１０−６、および１１０−９は、例えば、サンプル集合１０１のサブ集合である選別されたサンプル集合１０３を構成することができる。選別されたサンプルは、本発明では、サンプル集合から選択されたサンプル、またはほかの方式で決定されたサンプルを指す。

図１はサンプル１１０−１、１１０−２、１１０−５、１１０−６、および１１０−９が選別されたサンプルであることを示しているが、選別されたサンプルはより多いまたはより少ないサンプル１１０を含くことができることを理解されたい。いくつかの実施例では、コンピューティング機器１０２は、本発明に開示されている方法を使用して選別されたサンプル集合１０３を処理して、サンプルをさらに選別することができる。

本開示の実施例によって提供されるサンプル処理方法をより明確に理解するために、図２を参照して本開示の実施例をさらに説明する。図２は、本開示の実施例によるサンプル処理プロセス２００のフローチャートを示す。プロセス２００は、図１のコンピューティング機器１０２によって実現することができる。説明を簡単にするために、図１を参照してプロセス２００を説明する。

ステップ２１０において、コンピューティング機器１０２は、サンプル集合１０１におけるサンプル１１０の特徴表現を決定する。各サンプル１１０は、予め標識されたカテゴリを有し、例えば、サンプル１１０−１〜１１０−４は、カテゴリＡを有し、サンプル１１０−５〜１１０−７は、カテゴリＢを有し、サンプル１１０−８および１１０−９はカテゴリＣを有する。本発明では、特徴表現は、サンプル１１０の１つまたは複数の属性に関連する特徴のサブ集合を示し、サンプル１１０を抽象的または数学的に記述することができる。特徴表現は、通常、多次元ベクトルまたはマトリックスである。コンピューティング機器１０２は、初期サンプル１１０を特徴空間における特徴ベクトルにマッピングすることができる任意の方法を使用して特徴表現を決定することができる。

いくつかの実施例では、予め定義された特徴空間を使用することができる。コンピューティング機器１０２は、サンプル集合１０１におけるサンプル１１０の予め定義された特徴空間における特徴値を決定し、これらの特徴値によって構成された特徴ベクトルを特徴表現とすることができる。例えば、サンプル１１０がテキストである場合、特徴空間が辞書における文字である場合、サンプル１１０の特徴表現は文字ベクトルとすることができる。特徴空間が辞書における各単語である場合、サンプル１１０の特徴表現は単語ベクトルとすることができる。

いくつかの実施例では、機械学習方法を使用してサンプルの特徴表現を学習することができる。コンピューティング機器１０２は、特徴抽出モデルを使用して特徴表現を決定することができ、当該特徴抽出モデルは任意の機械学習方法に基づくことができる。例えば、特徴抽出モデルは、畳み込みニューラルネットワークＣＮＮ、リカレントニューラルネットワークなどのニューラルネットワークを含むことができる。

コンピューティング機器１０２は、サンプル集合１０１を特徴抽出モデル、すなわちニューラルネットワークに適用して、サンプル集合１０１におけるサンプル１１０に関連する隠れ層（ｈｉｄｄｅｎｌａｙｅｒ）ニューロンを取得することができ、その後、コンピューティング機器１０２は、取得された隠れ層ニューロンに基づいてサンプル集合１０１におけるサンプル１１０の特徴表現を決定することができる。すなわち、コンピューティング機器１０２は、生成された隠れ層ベクトルをサンプル１１０の特徴表現とすることができる。例えば、サンプル１１０がテキストデータである場合、畳み込みニューラルネットワークＣＮＮ分類器を使用して訓練し、モデル訓練中に生成された隠れ層ベクトルをサンプルの特徴ベクトルとして出力することができる。

ニューラルネットワークによってサンプル１１０の特徴表現を決定する方法について、図３を参照して以下に説明する。図３は、本開示のいくつかの実施例による特徴表現を決定するためのニューラルネットワーク３００を概略的に示す。ニューラルネットワーク３００は、入力層ニューロン３１１、３１２、および３１３を含む入力層３１０を含むことができる。入力層３１０のそれぞれのニューロン３１１、３１２、および３１３は、サンプル１１０における各サンプルのそれぞれの特徴値を入力として受信する。隠れ層ニューロン３２１、３２２、３２３、および３２４を含む隠れ層３２０は、入力層３２０からの出力を受信し、特定の演算を行った後、次の層３３０に出力することができる。ニューロン３３１、３３２、および３３３を含む層３３０は、出力層であってもよいし、次の隠れ層であってもよい。

コンピューティング機器１０２は、例えば、隠れ層ニューロン３２１、３２２、３２３、および３２４に基づいてサンプル１１０の特徴表現を決定することができる。コンピューティング機器１０２は、隠れ層ニューロン３２１、３２２、３２３、および３２４の出力値をそれぞれの次元上での特徴ベクトルの値として決定し、当該特徴ベクトルを特徴表現とすることができる。図３の例では、特徴表現として使用される特徴ベクトルは４次元を有する。層３３０が隠れ層である場合、特徴表現は、ニューロン３３１、３３２、および３３３に基づいて決定されてもよい。

図３に示すニューラルネットワーク３００は単なる例示するものであり、本開示の範囲を限定することを意図するものではないことを理解されたい。コンピューティング機器１０２は、任意の数の隠れ層および任意の数の隠れ層ニューロンを有するニューラルネットワークを使用することができる。また、コンピューティング機器１０２は、実際のニーズ（例えば、サンプルタイプ、タスクニーズ）に基づいて、どの隠れ層のニューロンを使用するかを決定することができる。

このような実施例では、特徴表現は、サンプル特徴の直接表現ではなく、訓練可能なニューラルネットワークによって生成された隠れ層データによって決定される。このような特徴表現は、ターゲットにより密接に関連する表現を提示することができ、その後のクラスタリングに有利である。また、このような実施例では、ニューラルネットワークを使用する目的はサンプル１１０の隠れ層ベクトル表現を取得することであるので、ニューラルネットワークモデルの分類精度は厳密には要求されず、全てのノイズサンプルを直接使用して訓練することができる。

引き続き図２を参照すると、ステップ２２０において、コンピューティング機器１０２は、ステップ２１０で決定された特徴表現に基づいて、サンプル集合１０１をクラスタリングして、サンプル１１０における１つまたは複数のサンプルを含むクラスタを取得する。クラスタリングは、ｋ平均値（Ｋ−Ｍｅａｎｓ）クラスタリングアルゴリズム、ＤＢＳＣＡＮのような密度クラスタリングアルゴリズムなどの任意の適切なクラスタリングアルゴリズムを使用することができる。

クラスタリング結果は、通常、ｎ個のクラスタであり、各クラスタは、通常、異なる数のサンプル１１０を含む。図４は、本開示のいくつかの実施例によるクラスタリング結果４００の概略図を示す。図４は、サンプル集合１０１をクラスタリングして取得されたクラスタ４０１、４０２、４０３を模式的に示している。クラスタ４０１は、少なくともサンプル１１０−１および１１０−２を含み、クラスタ４０２は、少なくともサンプル１１０−３、１１０−５、１１０−６および１１０−８を含み、クラスタ４０３は、少なくともサンプル１１０−４、１１０−７および１１０−９を含む。図４に示すクラスタリング結果４００は単なる例示するものであり、本開示の範囲を限定することを意図するものではないことを理解されたい。クラスタリング結果４００は、より多いまたはより少ないクラスタをさらに含むことができ、クラスタ４０１、４０２、および４０３は、より多いまたはより少ないサンプル１１０をさらに含むことができる。

引き続き図２を参照すると、ステップ２３０において、コンピューティング機器１０２は、クラスタにおけるサンプルのクラスのカテゴリに基づいてクラスタの純度を決定し、純度は、クラスタのサンプル混乱の程度を示すためのものである。クラスタにおけるサンプルのカテゴリが多いほど、且つ各カテゴリのサンプル数が近いほど、クラスタの純度は低くなり、逆に、クラスタにおけるあるカテゴリのサンプルの割合が高いほど、クラスタの純度は高くなる。純度は、０から１の間の数値、またはパーセンテージで表すことができるし、任意の適切な数値で表すこともできる。コンピューティング機器１０２は、クラスタ４０１、４０２、および４０３の純度をそれぞれ決定することができる。異なるアプリケーションニーズに応じて異なる純度計算方法を設計することができる。

いくつかの実施例では、クラスタ全体のサンプルに対するクラスタにおける最大数のカテゴリのサンプルの割合をクラスタの純度として使用することができる。図４に示すクラスタ４０２を例とすると、コンピューティング機器１０２は、クラスタ４０２におけるカテゴリ（すなわちカテゴリＡ、Ｂ、およびＣ）のそれぞれのサンプル数を決定することができる。例えば、コンピューティング機器１０２は、クラスタ４０２において、カテゴリＡのサンプル数が３０であり、カテゴリＢのサンプル数が６０であり、カテゴリＣのサンプル数が１０であると決定することができる。

次に、コンピューティング機器１０２は、カテゴリＡ、Ｂ、およびＣのサンプル数に基づいて最大サンプル数を決定することができる。例えば、コンピューティング機器１０２は、クラスタ４０２内でカテゴリＢのサンプルが最も多く、しかも最大サンプル数が６０であると決定することができる。そしてコンピューティング機器１０２は、決定された最大サンプル数とクラスタ４０２におけるサンプル総数とに基づいて、クラスタ４０２の純度を決定することができる。例えば、クラスタ４０２のサンプル総数が１００である場合、クラスタ４０２の純度は６０／１００＝０．６であると決定することができる。クラスタリング結果４００における他のクラスタ（例えば、クラスタ４０１および４０３）についても同じ方式で純度を決定することができる。

いくつかの実施例において、情報エントロピーでクラスタの純度を決定することができる。式（１）を使用して各クラスタ４０１、４０２、および４０３の情報エントロピーＨを計算することができる。

ここで、ｐ_ｉは、クラスタのサンプル総数に対するｉ番目のカテゴリのサンプル数の割合を表し、ｋは、クラスタにおけるサンプルのカテゴリ総数を表す。例えば、図４に示すクラスタ４０２について、ｋは３であり、ｐ_１はカテゴリＡのサンプルの割合０．６を表し、ｐ_２はカテゴリＢのサンプルの割合０．３を表し、ｐ_３はカテゴリＣのサンプルの割合０．１を表す。

クラスタにおけるサンプルが混乱するほど、対応する情報エントロピーＨが大きくなるので、情報エントロピーの逆数１／Ｈをクラスタ４０２の純度として使用することができることに留意されたい。クラスタリング結果４００における他のクラスタ（例えば、クラスタ４０１および４０３）についても同じ方式で純度を決定することができる。

ステップ２４０において、コンピューティング機器１０２は、ステップ２３０で決定された純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定する。コンピューティング機器１０２は、異なる純度に対して異なる後処理方針を採用して各クラスタ４０１、４０２、および４０３から高品質のサンプルを選別することができる。例えば、純度が３つのケースに別れることに基づいて異なる後処理方針を採用することができる。１番目のケースでは、クラスタ内に１つのカテゴリ（例えばカテゴリＡ）のサンプルのみが含まれる。２番目のケースでは、クラスタ内に複数のカテゴリのサンプルが含まれるが、当該クラスタの純度が比較的高い（例えば、閾値純度より高い）。第３のケースでは、クラスタ内に複数のカテゴリのサンプルが含まれるが、当該クラスタの純度が比較的低い（例えば、閾値純度より低い）。純度に基づいて選別されたサンプルを決定するプロセスについて、図５を参照して以下に詳細に説明する。

以上、本開示の実施例によるサンプル処理プロセス２００を説明した。このようにして、サンプル集合全体のフィルタリングおよびクリーニングを実現し、高品質の標識したサンプルを取得することができる。したがって、本開示の方法は、サンプルをクリーニングおよびフィルタリングすることができ、特に、ノイズのある大規模サンプルに対して全てのクリーニングおよびフィルタリングを行うことができ、ノイズサンプルを効果的に除去し、サンプル品質を向上させ、大規模な監督付き機械学習タスクの効果の向上に役立つ。

いくつかの実施例では、コンピューティング機器１０２は、取得した選別されたサンプルに対して図２のプロセス２００またはプロセス２００の一部を繰り返して、サンプルをさらに選別してより高品質のサンプルを取得することができる。具体的には、コンピューティング機器１０２は、クラスタ４０１、４０２、４０３から取得した選別されたサンプルに基づいて、サンプル集合１０２の１つのサブ集合を決定することができる。図１に関して上述したように、このようなサブ集合は、本発明では、図１に示す選別されたサンプル集合１０３などを選別されたサンプル集合と呼ぶことができる。選別されたサンプル集合１０３は、サンプル集合１０１に関連するクラスタ４０１、４０２、４０３から取得したフィルタ処理サンプルを含むことができる。

ニューラルネットワークに基づいて特徴表現を決定する上述の実施例では、選別されたサンプル集合１０３に対して図２のステップ２１０〜２４０を繰り返して、選別されたサンプルを更新することができる。コンピューティング機器１０２は、ステップ２１０で使用された特徴抽出モデル（すなわち、ニューラルネットワーク）に選別されたサンプル集合１０３を適用して、選別されたサンプル集合１０３におけるサンプルの更新された特徴表現を取得すことができる。ステップ２１０で使用されるニューラルネットワークは学習可能であるので、初期サンプル集合１０１とは異なる選別されたサンプル集合１０３を適用する場合、同じサンプル（例えば、サンプル１１０−１）に対して先とは異なる特徴表現、すなわち、更新された特徴表現を取得することができる。

次に、コンピューティング機器１０２は、更新された特徴表現に基づいて選別されたサンプル集合１０３をクラスタリングして、新しいクラスタリング結果（すなわち、生成されたクラスタおよびクラスタの純度）に基づいて選別されたサンプルを更新することができる。すなわち、コンピューティング機器１０２は、図２のステップ２３０および２４０を繰り返すことができる。

予め定義された特徴空間に基づいて特徴表現を決定する上述した実施例では、選別されたサンプル集合１０３について図２のステップ２２０〜２４０を繰り返して、選別されたサンプルを更新することができる。コンピューティング機器１０２は、前のステップ２１０で決定された特徴表現に基づいて選別されたサンプル集合１０３をクラスタリングすることができる。このような実施例では、特徴表現は予め定義された特徴空間内で決定されるので、同一のサンプル（例えば、サンプル１１０−１）についての特徴表現は変化しない。

選別されたサンプル集合１０３のクラスタリングは、初期サンプル集合１０１のクラスタリングと比較して、異なるクラスタリングアルゴリズム、または異なるクラスタリングパラメータ（例えば、クラスタリング距離）、またはその両方の組み合わせを使用することができる。コンピューティング機器１０２は、このような方法によって取得されたクラスタに基づいてサンプルをさらに選別することができ、すなわち選別されたサンプルを更新することができる。

この場合、高品質のサンプルを選別することによってより良いクラスタリング結果を取得することができ、終了条件が満たされるまで、より良いクラスタリング結果よってより高品質のサンプルをさらに選別することができる。終了条件は、具体的な適用シーンに応じて設計することができる。例えば、クラスタリング結果において、サンプル集合１０１のサンプル総数に対する低純度クラスタのサンプル数の割合が所定の閾値より小さいことが終了条件としてもよい。さらに、選別されたサンプルの数が所定の数より小さいことが終了条件としてもよい。

そのような実施例では、イテレーションによってより高品質のサンプルをさらに選別することにより、最終的に取得されるサンプルの品質を向上させることができる。このようにして、サンプルの品質をさらに向上させることができ、その後の監督学習タスクの有効性を向上させるのに役立つ。

図２を参照して説明したように、コンピューティング機器１０２は、純度に基づいて選別されたサンプルを決定することができる。このプロセスについては、図４および図５を参照して以下に説明する。図５は、本開示のいくつかの実施例による選別されたサンプルを決定するプロセス５００のフローチャートを示す。プロセス５００は、図２のステップ２４０の実現として見なすことができる。

図５を参照すると、ステップ５１０において、コンピューティング機器１０２は、クラスタの純度が閾値純度より高いか否かを決定することができる。閾値純度は、サンプル１１０のタイプ、サンプルの正確さに対するその後の監督付き学習タスクの要件など、具体的な適用シーンによるものである。コンピューティング機器１０２が、ステップ５１０でクラスタの純度が閾値純度より高いと決定した場合、クラスタにおけるサンプルのカテゴリに基づいて選別されたサンプルを決定することができ、すなわち、プロセス５００はステップ５２０に進むことができる。例えば、クラスタ４０１またはクラスタ４０２について、コンピューティング機器１０２は、その純度が閾値純度より高いと決定することができる。

ステップ５２０において、コンピューティング機器１０２は、クラスタ４０１またはクラスタ４０２におけるサンプルのカテゴリが同じであるか否かを決定することができる。コンピューティング機器１０２がステップ５２０でクラスタにおけるサンプルのカテゴリが同じであると決定した場合、プロセス５００はステップ５３０に進むことができる。例えば、クラスタ４０１について、コンピューティング機器１０２は、ステップ５２０でクラスタ４０１におけるサンプルが全てカテゴリＡであると決定することができる。そして、ステップ５３０で、コンピューティング機器１０２は、クラスタ４０１に含まれる全てのサンプルを選別されたサンプルとして決定することができ、例えば、クラスタ４０１におけるサンプル１１０−１、１１０−２などを選別されたサンプルとして決定することができる。

コンピューティング機器１０２がステップ５２０でクラスタにおけるサンプルのカテゴリが異なる、すなわちクラスタにおけるサンプルが複数のカテゴリを有すると決定した場合、プロセス５００はステップ５４０に進むことができる。例えば、クラスタ４０２について、コンピューティング機器１０２は、クラスタ４０２におけるサンプルが複数のカテゴリＡ、Ｂ、およびＣを有すると決定することができる。この場合、クラスタ４０２は複数のカテゴリのサンプルを有するが、純度は閾値純度より高く、これは、あるカテゴリのサンプルがクラスタ４０２において優勢であることを意味する。

ステップ５４０において、コンピューティング機器１０２は、クラスタ４０２における各カテゴリのサンプル数を決定することができる。例えば、上述のように、コンピューティング機器１０２は、クラスタ４０２におけるカテゴリＡのサンプル数が３０であり、カテゴリＢのサンプル数が６０であり、カテゴリＣのサンプル数が１０であると決定することができる。ステップ５５０において、コンピューティング機器１０２は、各カテゴリのサンプル数に基づいて、クラスタ４０２において最大サンプル数を有するカテゴリを決定することができる。例えば、コンピューティング機器１０２は、クラスタ４０２におけるカテゴリＢのサンプルが最大サンプル数を有すると決定することができる。

ステップ５６０において、コンピューティング機器１０２は、決定されたカテゴリを有するサンプルを選別されたサンプルとして決定することができる。例えば、コンピューティング機器１０２は、クラスタ４０２におけるカテゴリＢのサンプル（サンプル１１０−５、１１０−６など）を選別されたサンプルとして決定することができる。

カテゴリＢ以外の他のカテゴリのサンプル（サンプル１１０−３、１１０−８など）については、異なる適用シーン、タスクニーズなどに応じて異なる処理が行われてもよい。例えば、サンプル集合１０１のサンプル総数に対する他のカテゴリのサンプル数の割合が比較的小さい場合、これらの他のカテゴリのサンプルを直接破棄することができる。サンプル品質に対するその後の監督付き学習タスクの要求が高い場合、これらの他のカテゴリのサンプルを手動で標識するために出力する。

いくつかの場合に、クラスタ４０２における他のクラスのサンプルに対して自動誤り訂正を実行することもできる。例えば、ある割合（例えば、９５％）を超えるクラスタ４０２におけるサンプル１１０が全てカテゴリＢである場合、クラスタ４０２におけるカテゴリＡおよびＣを有するサンプルをカテゴリＢに訂正することができ、このような補正済みサンプルを選別されたサンプルとして使用することもできる。

ステップ５１０を続けて参照すると、コンピューティング機器１０２がステップ５１０でクラスタの純度が閾値純度より高くないと決定した場合、クラスタにおけるサンプル数に基づいて異なる処理を行うことができる。すなわち、プロセス５００はステップ５７０に進むことができる。例えば、クラスタ４０３について、コンピューティング機器１０２は、ステップ５１０でクラスタ４０３の純度が閾値純度より低いことを決定することができ、これは、クラスタ４０３における各カテゴリのサンプル分布が比較的均一であることを意味する。

ステップ５７０において、コンピューティング機器１０２は、サンプル集合１０１におけるサンプル総数に対するクラスタ４０３におけるサンプル数の割合を決定することができる。ステップ５８０において、コンピューティング機器１０２は、当該割合が閾値割合を超えたか否かを決定することができ、当該閾値割合は、本発明では上限閾値割合とも呼ばれる。当該割合が上限閾値割合を超えたと決定された場合、すなわちクラスタ４０３におけるサンプル数が多いことを意味する場合、プロセス５００はステップ５９０に進むことができる。

ステップ５９０において、コンピューティング機器１０２は、クラスタ４０３におけるサンプル（サンプル１１０−４、１１０−７、１１０−９など）を再びクラスタリングしてクラスタリング結果を取得することができる。当該クラスタリング結果は、クラスタ４０３におけるサンプル１１０−４、１１０−７、１１０−９の１つまたは複数のサブ集合（１つまたは複数のサブクラスタとも呼ばれる）を含む。ステップ５９５において、コンピューティング機器１０２は、当該クラスタリング結果に基づいて、クラスタ４０３におけるサンプルの少なくとも一部を選別されたサンプルとして決定することができる。例えば、コンピューティング機器１０２は、取得されたサブクラスタについて図２のステップ２３０および２４０を繰り返して、その中から選別されたサンプルを決定することができる。

ステップ５７０で得られた割合が上限閾値割合を超えていないとコンピューティング機器１０２がステップ５８０で決定した場合、コンピューティング機器１０２はさらに、クラスタ４０３におけるサンプル数に応じて異なる処理を行うことができる。クラスタ４０３におけるサンプル数が少ない場合、クラスタ４０３におけるサンプルを破棄することができる。例えば、ステップ５７０で決定されたクラスタ４０３のサンプル割合が他の閾値割合（説明を簡単にするために下限閾値割合とも呼ばれる）より小さい場合、クラスタ４０３に含まれる全てのサンプルを破棄することができる。

クラスタ４０３におけるサンプル数が適切である場合、例えば、ステップ５７０で決定されたクラスタ４０３のサンプル割合が下限閾値割合を超えた場合、具体的な適用シーンに応じて異なる処理を行うことができる。例えば、サンプルの精度要求が高く、且つサンプル総数が十分に大きくないサンプルの場合、クラスタ４０３におけるサンプルを手動標識するために出力することができる。クラスタ４０３におけるサンプルに対して小規模サンプリングを実行し、その後の処理を手動で決定することもできる。クラスタ４０３における全てのサンプルを破棄すること、または次のイテレーション時の最適化のために全てを保留することもできる。

図６は、本開示の実施例による対象を決定するための装置６００の概略ブロック図を示す。装置６００は、図１のコンピューティング機器１０２に含まれるか、またはコンピューティング機器１０２として実現されてもよい。図６に示すように、装置６００は、サンプル集合におけるサンプルの特徴表現を決定するように構成される第１の表現決定モジュール６１０を含み、各サンプルは予め標識されたカテゴリを有する。装置６００は、特徴表現に基づいてサンプル集合をクラスタリングして、１つまたは複数のサンプルを含むクラスタを取得するように構成される第１のクラスタリングモジュール６２０をさらに含む。装置６００は、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するように構成される第１の純度決定モジュール６３０をさらに含む。装置６００は、純度に基づいてクラスタにおけるサンプルから、選別されたサンプルを決定するように構成されるサンプル選別モジュール６４０をさらに含む。

いくつかの実施例では、サンプル選別モジュール６４０は、純度が閾値純度より高いことに応答して、クラスタにおけるサンプルのカテゴリに基づいて選別されたサンプルを決定するように構成される第１のサンプル決定モジュールを含む。

いくつかの実施例では、第１のサンプル決定モジュールは、クラスタにおけるサンプルのカテゴリが同じであることに応答して、クラスタにおけるサンプルを選別されたサンプルとして決定するように構成される第２のサンプル決定モジュールを含む。

いくつかの実施例では、第１のサンプル決定モジュールは、クラスタにおけるサンプルが複数のカテゴリを有することに応答して、各カテゴリのサンプル数を決定するように構成される第１の数決定モジュールと、各カテゴリのサンプル数に基づいて、クラスタにおいて最大サンプル数を有するカテゴリを決定するように構成される最大カテゴリ決定モジュールと、決定されたカテゴリを有するサンプルを選別されたサンプルとして決定するように構成される第３のサンプル決定モジュールと、を含む。

いくつかの実施例では、サンプル選別モジュール６４０は、純度が閾値純度より低いことに応答して、サンプル集合におけるサンプル総数に対するクラスタにおけるサンプル数の割合を決定するように構成されるサンプル割合決定モジュールと、割合が閾値割合を超えたことに応答して、クラスタにおけるサンプルをクラスタリングしてクラスタリング結果を取得するように構成される第２のクラスタリングモジュールと、少なくともクラスタリング結果に基づいて、クラスタにおけるサンプルの少なくとも一部を選別されたサンプルとして決定するように構成される第４のサンプル決定モジュールと、を含む。

いくつかの実施例では、第１の表現決定モジュール６１０は、サンプル集合を特徴抽出モデルに適用して、サンプル集合に関連する隠れ層ニューロンを取得するように構成されるサンプル適用モジュールと、隠れ層ニューロンに基づいて、サンプル集合におけるサンプルの特徴表現を決定するように構成される第２の表現決定モジュールと、を含む。

いくつかの実施例では、装置６００は、少なくとも選別されたサンプルに基づいて、サンプル集合の１つのサブ集合を決定するように構成される第１のサブ集合決定モジュールであって、サブ集合は、サンプル集合に関連する少なくとも１つのクラスタから取得した選別されたサンプルを含む第１のサブ集合決定モジュールと、サブ集合を特徴抽出モデルに適用して、サブ集合におけるサンプルの更新された特徴表現を取得するように構成される第１のサブ集合適用モジュールと、更新された特徴表現に基づいて、サブ集合をクラスタリングして、クラスタリング結果に基づいて選別されたサンプルを更新するように構成される第１のサンプル更新モジュールと、をさらに含む。

いくつかの実施例では、第１の表現決定モジュール６１０は、サンプル集合におけるサンプルの予め定義された特徴空間における特徴値を、特徴表現として決定するように構成される第３の表現決定モジュールを含む。

いくつかの実施例では、装置６００は、少なくとも選別されたサンプルに基づいて、サンプル集合の１つのサブ集合を決定するように構成される第２のサブ集合決定モジュールであって、サブ集合は、サンプル集合に関連する少なくとも１つのクラスタから取得した選別されたサンプルを含む第２のサブ集合決定モジュールと、特徴表現に基づいて、サブ集合をクラスタリングして、クラスタリング結果に基づいて選別されたサンプルを更新するように構成される第２のサンプル更新モジュールと、をさらに含む。

いくつかの実施例では、第１の純度決定モジュール６３０は、クラスタにおける各カテゴリのサンプル数を決定するように構成される第２の数決定モジュールと、各カテゴリのサンプル数に基づいて、最大サンプル数を決定するように構成される最大数決定モジュールと、最大サンプル数とクラスタにおけるサンプル総数とに基づいて純度を決定するように構成される第２の純度決定モジュールと、を含む。

図７は、本開示の実施例を実施可能な例示的な装置７００の概略ブロック図を示す。装置７００は、図１のコンピューティング機器１０２を実現することができる。図示のように、装置７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているコンピュータプログラム命令または記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラム命令に従って様々な適切な動作およびプロセスを実行可能な中央処理装置（ＣＰＵ）７０１を含む。ＲＡＭ７０３には、装置７００の動作に必要な各種のプログラムやデータも記憶可能である。ＣＰＵ７０１、ＲＯＭ７０２およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

キーボード、マウスなどの入力ユニット７０６と、各種のディスプレイ、スピーカなどの出力ユニット７０７と、ディスク、ＣＤなどの記憶ユニットバス７０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信部バス７０９とを含む、装置７００における複数の構成要素は、Ｉ／Ｏインターフェース７０５に接続されている。通信ユニットバス７０９は、装置７００がインターネットおよび／または様々な電気通信ネットワークなどを介して他の機器と情報／データを交換することを許容する。

処理ユニット７０１は、プロセス２００およびプロセス５００など、上記のさまざまな方法およびプロセスを実行する。例えば、いくつかの実施例では、プロセス２００は、記憶ユニットバス７０８などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部またはすべては、ＲＯＭ７０２および／または通信ユニットバス７０９を介して装置７００にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ７０３にロードされ、ＣＰＵ７０１によって実行されると、プロセス２００の１つまたは複数のステップが実行され得る。代替的には、他の実施例では、ＣＰＵ７０１は、任意の他の適切な手段によって（例えば、ファームウェアによって）プロセス２００およびプロセス５００のいずれかを実行するように構成され得る。

本発明で上述した機能は、少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントによって実行することができる。非限定的な例として、使用することができる例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、その結果、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図において特定される機能／操作が実行される。プログラムコードは、完全に機器で実行、部分的に機器で実行することができ、スタンドアロンソフトウェアパッケージとして部分的に機器で実行され、部分的にリモート機器で実行されまたは全てリモート機器またはサーバで実行され得る。

本開示の発明では、機械読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるまたは命令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むまたは記憶することができる有形の媒体とすることができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体とすることができる。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、または機器、あるいは上記の任意の適切な組み合わせを含むことができるが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つまたは複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンメモリ（ＲＯＭ）、消去可能プログラマブルリードオンメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができる。

また、各動作は、特定の順序で説明されたが、これは、そのような動作が示された特定の順序または順序の順番で実行されること、または所望の結果を達成するためにすべての示された動作が実行されることを必要とする。特定の状況では、マルチタスキングおよび並列処理は、有利な場合がある。同様に、いくつかの具体的な実現例の詳細が上記の説明に含まれているが、これらは本開示の範囲を限定するものとして解釈されるべきではない。別々の実施例で説明されているいくつかの特徴は、単一の実現において組み合わせて実現することもできる。逆に、単一の実施例に関して説明されている様々な特徴は、個別にまたは任意の適切なサブコンビネーションで複数の実施例で実施することができる。

構成的特徴および／または方法論理的動作に特有の言語で本テーマを説明したが、添付の特許請求の範囲で定義されるテーマは、説明された上記の特定の特徴または動作に限定されないことが理解されるべきである。逆に、上記の特定の特徴および動作は単に特許請求の範囲を実施する例示的な形態である。

Claims

サンプル集合におけるサンプルの特徴表現を決定するステップであって、各サンプルは、予め標識されたカテゴリを有するステップと、
前記特徴表現に基づいて前記サンプル集合をクラスタリングして、１つまたは複数のサンプルを含むクラスタを取得するステップと、
前記クラスタにおけるサンプルのカテゴリに基づいて、前記クラスタのサンプル混乱の程度を示す前記クラスタの純度を決定するステップと、
前記純度に基づいて、前記クラスタにおけるサンプルから、選別されたサンプルを決定するステップと、を含む、
ことを特徴とするサンプル処理方法。
前記クラスタにおけるサンプルから、選別されたサンプルを決定するステップは、
前記純度が閾値純度より高いことに応答して、前記クラスタにおけるサンプルのカテゴリに基づいて前記選別されたサンプルを決定するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記選別されたサンプルを決定するステップは、
前記クラスタにおけるサンプルのカテゴリが同じであることに応答して、前記クラスタにおけるサンプルを前記選別されたサンプルとして決定するステップを含む、
ことを特徴とする請求項２に記載の方法。
前記選別されたサンプルを決定するステップは、
前記クラスタにおけるサンプルが複数のカテゴリを有することに応答して、各カテゴリのサンプル数を決定するステップと、
各カテゴリのサンプル数に基づいて、前記クラスタにおいて最大サンプル数を有するカテゴリを決定するステップと、
決定された前記カテゴリを有するサンプルを前記選別されたサンプルとして決定するステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記クラスタにおけるサンプルから、選別されたサンプルを決定するステップは、
前記純度が閾値純度より低いことに応答して、前記サンプル集合におけるサンプル総数に対する前記クラスタにおけるサンプル数の割合を決定するステップと、
前記割合が閾値割合を超えたことに応答して、前記クラスタにおけるサンプルをクラスタリングして、クラスタリング結果を取得するステップと、
少なくとも前記クラスタリング結果に基づいて、前記クラスタにおけるサンプルの少なくとも一部を選別されたサンプルとして決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記特徴表現を決定するステップは、
前記サンプル集合を特徴抽出モデルに適用して、前記サンプル集合に関連する隠れ層ニューロンを取得するステップと、
前記隠れ層ニューロンに基づいて、前記サンプル集合におけるサンプルの特徴表現を決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記方法は、
少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の１つのサブ集合を決定するステップであって、前記サブ集合は、前記サンプル集合に関連する少なくとも１つのクラスタから取得した選別されたサンプルを含むステップと、
前記サブ集合を前記特徴抽出モデルに適用して、前記サブ集合におけるサンプルの更新された特徴表現を取得するステップと、
前記更新された特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するステップと、をさらに含む、
ことを特徴とする請求項６に記載の方法。
前記特徴表現を決定するステップは、
前記サンプル集合におけるサンプルの予め定義された特徴空間における特徴値を、前記特徴表現として決定するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記方法は、
少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の１つのサブ集合を決定するステップであって、前記サブ集合は、前記サンプル集合に関連する少なくとも１つのクラスタから取得した選別されたサンプルを含むステップと、
前記特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するステップと、をさらに含む、
ことを特徴とする請求項８に記載の方法。
前記クラスタの前記純度を決定するステップは、
前記クラスタにおける各カテゴリのサンプル数を決定するステップと、
各カテゴリのサンプル数に基づいて、最大サンプル数を決定するステップと、
前記最大サンプル数と前記クラスタにおけるサンプル総数とに基づいて、前記純度を決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
サンプル集合におけるサンプルの特徴表現を決定するように構成される第１の表現決定モジュールであって、各サンプルは、予め標識されたカテゴリを有する第１の表現決定モジュールと、
前記特徴表現に基づいて前記サンプル集合をクラスタリングして、１つまたは複数のサンプルを含むクラスタを取得するように構成される第１のクラスタリングモジュールと、
前記クラスタにおけるサンプルのカテゴリに基づいて、前記クラスタのサンプル混乱の程度を示す前記クラスタの純度を決定するように構成される第１の純度決定モジュールと、
前記純度に基づいて、前記クラスタにおけるサンプルから、選別されたサンプルを決定するように構成されるサンプル選別モジュールと、を含む、
ことを特徴とするサンプル処理装置。
前記サンプル選別モジュールは、
前記純度が閾値純度を高いことに応答して、前記クラスタにおけるサンプルのカテゴリに基づいて前記選別されたサンプルを決定するように構成される第１のサンプル決定モジュールを含む、
ことを特徴とする請求項１１に記載の装置。
前記第１のサンプル決定モジュールは、
前記クラスタにおけるサンプルのカテゴリが同じであることに応答して、前記クラスタにおけるサンプルを前記選別されたサンプルとして決定するように構成される第２のサンプル決定モジュールを含む、
ことを特徴とする請求項１２に記載の装置。
前記第１のサンプル決定モジュールは、
前記クラスタにおけるサンプルが複数のカテゴリを有することに応答して、各カテゴリのサンプル数を決定するように構成される第１の数決定モジュールと、
各カテゴリのサンプル数に基づいて、前記クラスタにおいて最大サンプル数を有するカテゴリを決定するように構成される最大カテゴリ決定モジュールと、
決定された前記カテゴリを有するサンプルを前記選別されたサンプルとして決定するように構成される第３のサンプル決定モジュールと、を含む、
ことを特徴とする請求項１２に記載の装置。
前記サンプル選別モジュールは、
前記純度が閾値純度より低いことに応答して、前記サンプル集合におけるサンプル総数に対する前記クラスタにおけるサンプル数の割合を決定するように構成されるサンプル割合決定モジュールと、
前記割合が閾値割合を超えたことに応答して、前記クラスタにおけるサンプルをクラスタリングして、クラスタリング結果を取得するように構成される第２のクラスタリングモジュールと、
少なくとも前記クラスタリング結果に基づいて、前記クラスタにおけるサンプルの少なくとも一部を選別されたサンプルとして決定するように構成される第４のサンプル決定モジュールと、を含む、
ことを特徴とする請求項１１に記載の装置。
前記第１の表現決定モジュールは、
前記サンプル集合を特徴抽出モデルに適用して、前記サンプル集合に関連する隠れ層ニューロンを取得するように構成されるサンプル適用モジュールと、
前記隠れ層ニューロンに基づいて、前記サンプル集合におけるサンプルの特徴表現を決定するように構成される第２の表現決定モジュールと、を含む、
ことを特徴とする請求項１１に記載の装置。
前記装置は、
少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の１つのサブ集合を決定するように構成される第１のサブ集合決定モジュールであって、前記サブ集合は、前記サンプル集合に関連する少なくとも１つのクラスタから取得した選別されたサンプルを含む第１のサブ集合決定モジュールと、
前記サブ集合を前記特徴抽出モデルに適用して、前記サブ集合におけるサンプルの更新された特徴表現を取得するように構成される第１のサブ集合適用モジュールと、
前記更新された特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するように構成される第１のサンプル更新モジュールと、をさらに含む、
ことを特徴とする請求項１６に記載の装置。
前記第１の表現決定モジュールは、
前記サンプル集合におけるサンプルの予め定義された特徴空間における特徴値を、前記特徴表現として決定するように構成される第３の表現決定モジュールを含む、
ことを特徴とする請求項１１に記載の装置。
前記装置は、
少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の１つのサブ集合を決定するように構成される第２のサブ集合決定モジュールであって、前記サブ集合は、前記サンプル集合に関連する少なくとも１つのクラスタから取得した選別されたサンプルを含む第２のサブ集合決定モジュールと、
前記特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するように構成される第２のサンプル更新モジュールと、をさらに含む、
ことを特徴とする請求項１８に記載の装置。
前記第１の純度決定モジュールは、
前記クラスタにおける各カテゴリのサンプル数を決定するように構成される第２の数決定モジュールと、
各カテゴリのサンプル数に基づいて、最大サンプル数を決定するように構成される最大数決定モジュールと、
前記最大サンプル数と前記クラスタにおけるサンプル総数とに基づいて、前記純度を決定するように構成される第２の純度決定モジュールと、を含む、
ことを特徴とする請求項１１に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが記憶されている記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されるとき、前記１つまたは複数のプロセッサが、請求項１〜１０のいずれかに記載の方法を実現する、
ことを特徴とする機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行されたとき、請求項１〜１０のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。