JP2020042797A - サンプル処理方法、装置、機器および記憶媒体 - Google Patents

サンプル処理方法、装置、機器および記憶媒体 Download PDF

Info

Publication number
JP2020042797A
JP2020042797A JP2019149372A JP2019149372A JP2020042797A JP 2020042797 A JP2020042797 A JP 2020042797A JP 2019149372 A JP2019149372 A JP 2019149372A JP 2019149372 A JP2019149372 A JP 2019149372A JP 2020042797 A JP2020042797 A JP 2020042797A
Authority
JP
Japan
Prior art keywords
sample
samples
cluster
category
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019149372A
Other languages
English (en)
Other versions
JP6980728B2 (ja
Inventor
岷 ▲趙▼
岷 ▲趙▼
Min Zhao
健一 程
Jianyi Cheng
健一 程
▲華ぽん▼ 秦
Huapeng Qin
▲華ぽん▼ 秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2020042797A publication Critical patent/JP2020042797A/ja
Application granted granted Critical
Publication of JP6980728B2 publication Critical patent/JP6980728B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0418Architecture, e.g. interconnection topology using chaos or fractal principles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】サンプル処理方法、装置、機器およびコンピュータ読み取り可能な記憶媒体等を提供する。【解決手段】サンプル処理方法は、サンプル集合におけるサンプルの特徴表現を決定るステップであって、各サンプルは、予め標識されたカテゴリを有するステップと、特徴表現に基づいてサンプル集合をクラスタリングして、1つまたは複数のサンプルを含むクラスタを取得するステップと、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するステップと、純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定するステップと、を含む。このようにして、サンプル集合全体の選別を実現し、高品質の標識したサンプルを取得することができる。【選択図】図2

Description

本開示の実施例は、主に、コンピュータの分野に関し、より詳細には、サンプル処理方法、装置、機器およびコンピュータ読み取り可能な記憶媒体に関する。
人工知能の普及に伴い、機械学習技術は、ますます広く使用されるようになってきている。機械学習は、統計的技術を使用してコンピュータシステムにデータを「学習」する(例えば、特定のタスクのパフォーマンスを段階的に向上させる)能力を与える。監督学習は、入力を出力にマッピングする関数を入力―出力ペアの例に基づいて学習する一種の機械学習タスクである。監督学習では、このような関数は、1セットの訓練例からなる標識した訓練データ(すなわち標識したサンプル)から推論される。
監督学習タスクは、通常、大規模で高精度の標識したサンプルを必要とし、標識したサンプルの品質は、監督学習の学習成果に影響を与える。手動でサンプルを標識することは、コストが高く、効率が低いため、多くのアプリケーションは、機械によってサンプルを自動標識する形態をとる。機械によって自動的に標識されたサンプルは、大規模に達する可能性があるが、多くの場合、精度は手動標識よりもはるかに低いため、機械学習モデルの訓練効果が制約される。したがって、機械学習、特に監督学習のための標識したサンプルの品質を向上させるために、効率的なサンプルクリーニングおよび選別する方法が必要とされる。
本開示の例示的な実施例によれば、サンプル処理の解決策が提供される。
本開示の第1の態様において、サンプル集合におけるサンプルの特徴表現を決定するステップであって、各サンプルは、予め標識されたカテゴリを有するステップと、特徴表現に基づいてサンプル集合をクラスタリングして、1つまたは複数のサンプルを含むクラスタを取得するステップと、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するステップと、純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定するステップと、を含むサンプル処理方法が提供される。
本開示の第2の態様では、サンプル集合におけるサンプルの特徴表現を決定するように構成される第1の表現決定モジュールであって、各サンプルは、予め標識されたカテゴリを有する第1の表現決定モジュールと、特徴表現に基づいてサンプル集合をクラスタリングして、1つまたは複数のサンプルを含むクラスタを取得するように構成される第1のクラスタリングモジュールと、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するように構成される第1の純度決定モジュールと、純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定するように構成されるサンプル選別モジュールと、を含むサンプル処理装置が提供される。
本開示の第3の態様では、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含む機器が提供され、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されるとき 1つまたは複数のプロセッサが、本開示の第1の態様による方法を実現する。
本開示の第4の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体が提供され、当該プログラムがプロセッサによって実行されたとき、本開示の第1の態様による方法が実現される。
なお、発明の概要に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面を合わせながら以下の詳細な説明を参照することにより、本開示の各実施例の上記および他の特徴、利点および態様がより明らかになる。図面において同一または類似する符号は、常に同一または類似する構成要素を表す。ここで、
本開示の複数の実施例を実施可能な例示的な環境の概略図を示す。 本開示の実施例によるサンプル処理プロセスのフローチャートを示す。 本開示のいくつかの実施例による特徴表現を決定するためのニューラルネットワークの概略図を示す。 本開示のいくつかの実施例によるクラスタリング結果の概略図を示す。 本開示のいくつかの実施例による選別されたサンプルを決定するプロセスのフローチャートを示す。 本開示の複数の実施例によるサンプル処理装置の概略ブロック図を示す。 本開示の複数の実施例を実施可能なコンピューティング機器のブロック図を示す。
本開示の実施例について、図面を参照して以下により詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示が様々な形態で実現することができ、本発明に記載の実施例に限定されると解釈されるべきではなく、逆に、これらの実施例を提供することで本開示がより明白且つ完全に理解されるためのものであると理解されるべきである。本開示の図面および実施例は、例示的なものにすぎず、本開示の保護範囲を限定するものではないと理解されるべきである。
本開示の実施例の説明において、「含む」という用語および類似の用語は、開放的に含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」を意味すると理解されるべきである。「第1」、「第2」などの用語は、異なる対象または同一の対象を指すことができる。以下の説明は、他の明示的および暗示的な定義も含むことができる。
本開示の実施例の説明において、当業者には理解されるように、「クラスタリング」という用語は、サンプル集合におけるサンプルを一般に交差しないサブ集合に分割しょうとするプロセスを指し、ここでは、取得されたそれぞれのサブ集合は1つの「クラスタ」と呼ばれる。各クラスタは、いくつかの基本的な概念に対応する場合があります。なお、本願では、サンプル集合におけるサンプルには予め標識されたカテゴリがあるが、クラスタリングプロセスでは、このようなカテゴリ情報は、使用されない。また、いくつかの場合において、取得されたクラスタ(別のサンプル集合と見なすことができる)をさらにクラスタリングして、クラスタにおけるサンプルのうちの1つまたは複数のサンプルを含むサブ集合(サブクラスタとも呼ばれる)を取得することができる。
本開示の実施例の説明において、当業者には理解されるように、「ニューラルネットワーク」という用語は、適応性を有する簡単なユニットから構成される広く並列の相互接続のネットワークを指し、その構成は、生物学的神経系が現実世界の物体とのインタラクション反応をシミュレートすることができる。ニューラルネットワークにおいて、最も基本的な構成要素は「ニューロン」モデルであり、すなわち、上記の定義における「簡単なユニット」である。
従来、上述したように、主に、サンプルデータを「クリーニング」または選別するための2つの方法、すなわち手動のルールによるサンプルの選別、および半監督学習によるサンプルの選別がある。手動のルールによる方法では、エラーサンプルのルールを手動で発見し、エラーサンプルのテンプレートを構築し、パターンマッチングによってエラーまたはノイズまたはサンプルを除去して、選別されたサンプルを取得する必要がある。このような方法は、ルール構築のコストが高く、適用範囲が限られており、明示的なルールを持ち、テンプレートで表すことができるサンプルのみに適用する。
半監督学習による方法では、予め選択された少量の高品質サンプルによって機械学習モデルを訓練し、訓練によって取得されたモデルを用いて全てのサンプルを予測し、予測された信頼度の高いサンプルは、高品質サンプル集合に追加される。このような方法は、初期訓練サンプルの品質に依存する一方、選択されるサンプルが、フィッティングされた初期訓練サンプルに偏るため、サンプル空間全体をカバーすることが困難である。
本開示の一実施例によれば、予め標識されたカテゴリを用いて全てのサンプルから高品質のサンプルを選別するためのサンプル処理方法が提供される。この方法では、サンプルの特徴表現に基づいてサンプル集合におけるサンプルをクラスタリングし、サンプルのカテゴリに基づいて、クラスタリングによって取得された各クラスタの純度を決定する。各クラスタについて、純度に基づいて異なる後処理方針を採用して、選別されたサンプルを決定する。このようにして、ノイズのある全てのサンプルから高品質のサンプルを選別して、その後の監督学習タスクに使用することができる。したがって、本開示の方法は、自動的、効率的、および低コストのサンプル選別を有利に達成することができる。
以下、本開示の実施の形態について、図面を参照しながら具体的に説明する。
図1は、本開示の複数の実施例を実施可能な例示的な環境100の概略図を示す。当該例示的な環境100では、コンピューティング機器102によってサンプル集合101を処理して、その中から選別されたサンプルを決定し、例えば、その中から高品質のサンプルを選別する。図1に示す環境100は単なる例示するものであり、複数のコンピューティング機器によってサンプル集合101を決定し処理することもできることを理解されたい。コンピューティング機器102は、固定型コンピューティング機器であってもよいし、携帯電話、タブレット型コンピュータなどの携帯型コンピューティング機器であってもよいことも理解されたい。
サンプル集合101(本発明では初期サンプル集合101とも呼ばれることがある)は、複数のサンプルを含む。図1に示すように、サンプル集合101は、サンプル110−1〜110−9(説明を簡単にするためにサンプル110とまとめて呼ぶ)を含むことができる。図1は、サンプル集合101における9つのサンプル110を示しているが、サンプル集合101は、より多いまたはより少ないサンプル110を含むことができることを理解されたい。いくつかの実施例では、サンプル集合101は、大規模なサンプル110、例えば、数千から数万のサンプルを含むことができる。
サンプル110は、様々な種類のサンプルであってもよく、テキスト、画像、ビデオ、オーディオなどを含むがこれらに限定されない。例えば、サンプル110−1〜110−9は、それぞれ、1つまたは複数の文章、1つまたは複数のセグメントの文字、1つまたは複数のステートメントであってもよい。サンプル110−1〜110−9は、それぞれ、1つまたは複数の画像、1つまたは複数のビデオセグメントであってもよい。本開示の実施例は、この点において限定されない。
サンプル110は、予め標識された(またはマーキングされた)カテゴリ、例えば図2に示すカテゴリA、BおよびCを有する。図1の例では、サンプル110−1〜110−4はカテゴリAを有し、サンプル110−5〜110−7はカテゴリBを有し、サンプル110−8および110−9はカテゴリCを有する。図1の3つのカテゴリA、BおよびCを有するサンプル110は、単なる例示するものであり、本開示の範囲を限定することを意図していないことを理解されたい。本開示の実施例は、2分類、マルチ分類などの様々な分類場合に適用することができる。
本発明において、カテゴリは、ある側面でサンプルが同一または類似の属性を有することを示すことができる。単なる例として、サンプル110が文章である場合、カテゴリは文章の種類を表すことができる。例えば、カテゴリA、B、およびCは、対応するサンプルがそれぞれニュース類の文章、レビュー類の文章、およびポピュラーサイエンス類の文章として標識されていることを示す。サンプル110が画像である場合、カテゴリは、画像に含まれる対象の種類を表すことができる。例えば、カテゴリA、B、およびCは、対応するサンプルがそれぞれ人、動物、および植物を含むものとして標識されていることを示す。カテゴリは、必要に応じてサンプルの様々な同一または類似の属性を示してもよく、本開示の範囲はこの点において限定されない。
サンプル110のカテゴリA、B、およびCは、様々な方法によって標識することができる。例えば、手動で標識することができる。サンプル110は、データマイニングによって取得された、所定のカテゴリを有するサンプルでもあってもよい。サンプル110のカテゴリは、他のモデルまたはシステムによっても生成されてもよい。本開示の範囲はこの点において限定されない。
一般に、これらの予め標識されたカテゴリは、完全に正確ではない場合があり、それはサンプル集合101のノイズ、すなわちノイズサンプルの存在をもたらす。例えば、図1においてカテゴリBとして予め標識されたサンプル110−7は、実際にはカテゴリCであるべきであり、このようなサンプル110−7は、ノイズサンプルまたはエラーサンプルであり、除去または修正される必要がある。
コンピューティング機器102は、本発明に開示された方法を使用してサンプル集合101を処理して、サンプル110から少なくとも一部のサンプルを選別されたサンプルとして決定することができる。例えば、図1に示すように、コンピューティング機器102は、サンプル集合101からサンプル110−1、110−2、110−5、110−6、および110−9を含むサンプルを選別されたサンプルとして決定することができる。これらの選別されたサンプル110−1、110−2、110−5、110−6、および110−9は、例えば、サンプル集合101のサブ集合である選別されたサンプル集合103を構成することができる。選別されたサンプルは、本発明では、サンプル集合から選択されたサンプル、またはほかの方式で決定されたサンプルを指す。
図1はサンプル110−1、110−2、110−5、110−6、および110−9が選別されたサンプルであることを示しているが、選別されたサンプルはより多いまたはより少ないサンプル110を含くことができることを理解されたい。いくつかの実施例では、コンピューティング機器102は、本発明に開示されている方法を使用して選別されたサンプル集合103を処理して、サンプルをさらに選別することができる。
本開示の実施例によって提供されるサンプル処理方法をより明確に理解するために、図2を参照して本開示の実施例をさらに説明する。図2は、本開示の実施例によるサンプル処理プロセス200のフローチャートを示す。プロセス200は、図1のコンピューティング機器102によって実現することができる。説明を簡単にするために、図1を参照してプロセス200を説明する。
ステップ210において、コンピューティング機器102は、サンプル集合101におけるサンプル110の特徴表現を決定する。各サンプル110は、予め標識されたカテゴリを有し、例えば、サンプル110−1〜110−4は、カテゴリAを有し、サンプル110−5〜110−7は、カテゴリBを有し、サンプル110−8および110−9はカテゴリCを有する。本発明では、特徴表現は、サンプル110の1つまたは複数の属性に関連する特徴のサブ集合を示し、サンプル110を抽象的または数学的に記述することができる。特徴表現は、通常、多次元ベクトルまたはマトリックスである。コンピューティング機器102は、初期サンプル110を特徴空間における特徴ベクトルにマッピングすることができる任意の方法を使用して特徴表現を決定することができる。
いくつかの実施例では、予め定義された特徴空間を使用することができる。コンピューティング機器102は、サンプル集合101におけるサンプル110の予め定義された特徴空間における特徴値を決定し、これらの特徴値によって構成された特徴ベクトルを特徴表現とすることができる。例えば、サンプル110がテキストである場合、特徴空間が辞書における文字である場合、サンプル110の特徴表現は文字ベクトルとすることができる。特徴空間が辞書における各単語である場合、サンプル110の特徴表現は単語ベクトルとすることができる。
いくつかの実施例では、機械学習方法を使用してサンプルの特徴表現を学習することができる。コンピューティング機器102は、特徴抽出モデルを使用して特徴表現を決定することができ、当該特徴抽出モデルは任意の機械学習方法に基づくことができる。例えば、特徴抽出モデルは、畳み込みニューラルネットワークCNN、リカレントニューラルネットワークなどのニューラルネットワークを含むことができる。
コンピューティング機器102は、サンプル集合101を特徴抽出モデル、すなわちニューラルネットワークに適用して、サンプル集合101におけるサンプル110に関連する隠れ層(hidden layer)ニューロンを取得することができ、その後、コンピューティング機器102は、取得された隠れ層ニューロンに基づいてサンプル集合101におけるサンプル110の特徴表現を決定することができる。すなわち、コンピューティング機器102は、生成された隠れ層ベクトルをサンプル110の特徴表現とすることができる。例えば、サンプル110がテキストデータである場合、畳み込みニューラルネットワークCNN分類器を使用して訓練し、モデル訓練中に生成された隠れ層ベクトルをサンプルの特徴ベクトルとして出力することができる。
ニューラルネットワークによってサンプル110の特徴表現を決定する方法について、図3を参照して以下に説明する。図3は、本開示のいくつかの実施例による特徴表現を決定するためのニューラルネットワーク300を概略的に示す。ニューラルネットワーク300は、入力層ニューロン311、312、および313を含む入力層310を含むことができる。入力層310のそれぞれのニューロン311、312、および313は、サンプル110における各サンプルのそれぞれの特徴値を入力として受信する。隠れ層ニューロン321、322、323、および324を含む隠れ層320は、入力層320からの出力を受信し、特定の演算を行った後、次の層330に出力することができる。ニューロン331、332、および333を含む層330は、出力層であってもよいし、次の隠れ層であってもよい。
コンピューティング機器102は、例えば、隠れ層ニューロン321、322、323、および324に基づいてサンプル110の特徴表現を決定することができる。コンピューティング機器102は、隠れ層ニューロン321、322、323、および324の出力値をそれぞれの次元上での特徴ベクトルの値として決定し、当該特徴ベクトルを特徴表現とすることができる。図3の例では、特徴表現として使用される特徴ベクトルは4次元を有する。層330が隠れ層である場合、特徴表現は、ニューロン331、332、および333に基づいて決定されてもよい。
図3に示すニューラルネットワーク300は単なる例示するものであり、本開示の範囲を限定することを意図するものではないことを理解されたい。コンピューティング機器102は、任意の数の隠れ層および任意の数の隠れ層ニューロンを有するニューラルネットワークを使用することができる。また、コンピューティング機器102は、実際のニーズ(例えば、サンプルタイプ、タスクニーズ)に基づいて、どの隠れ層のニューロンを使用するかを決定することができる。
このような実施例では、特徴表現は、サンプル特徴の直接表現ではなく、訓練可能なニューラルネットワークによって生成された隠れ層データによって決定される。このような特徴表現は、ターゲットにより密接に関連する表現を提示することができ、その後のクラスタリングに有利である。また、このような実施例では、ニューラルネットワークを使用する目的はサンプル110の隠れ層ベクトル表現を取得することであるので、ニューラルネットワークモデルの分類精度は厳密には要求されず、全てのノイズサンプルを直接使用して訓練することができる。
引き続き図2を参照すると、ステップ220において、コンピューティング機器102は、ステップ210で決定された特徴表現に基づいて、サンプル集合101をクラスタリングして、サンプル110における1つまたは複数のサンプルを含むクラスタを取得する。クラスタリングは、k平均値(K−Means)クラスタリングアルゴリズム、DBSCANのような密度クラスタリングアルゴリズムなどの任意の適切なクラスタリングアルゴリズムを使用することができる。
クラスタリング結果は、通常、n個のクラスタであり、各クラスタは、通常、異なる数のサンプル110を含む。図4は、本開示のいくつかの実施例によるクラスタリング結果400の概略図を示す。図4は、サンプル集合101をクラスタリングして取得されたクラスタ401、402、403を模式的に示している。クラスタ401は、少なくともサンプル110−1および110−2を含み、クラスタ402は、少なくともサンプル110−3、110−5、110−6および110−8を含み、クラスタ403は、少なくともサンプル110−4、110−7および110−9を含む。図4に示すクラスタリング結果400は単なる例示するものであり、本開示の範囲を限定することを意図するものではないことを理解されたい。クラスタリング結果400は、より多いまたはより少ないクラスタをさらに含むことができ、クラスタ401、402、および403は、より多いまたはより少ないサンプル110をさらに含むことができる。
引き続き図2を参照すると、ステップ230において、コンピューティング機器102は、クラスタにおけるサンプルのクラスのカテゴリに基づいてクラスタの純度を決定し、純度は、クラスタのサンプル混乱の程度を示すためのものである。クラスタにおけるサンプルのカテゴリが多いほど、且つ各カテゴリのサンプル数が近いほど、クラスタの純度は低くなり、逆に、クラスタにおけるあるカテゴリのサンプルの割合が高いほど、クラスタの純度は高くなる。純度は、0から1の間の数値、またはパーセンテージで表すことができるし、任意の適切な数値で表すこともできる。コンピューティング機器102は、クラスタ401、402、および403の純度をそれぞれ決定することができる。異なるアプリケーションニーズに応じて異なる純度計算方法を設計することができる。
いくつかの実施例では、クラスタ全体のサンプルに対するクラスタにおける最大数のカテゴリのサンプルの割合をクラスタの純度として使用することができる。図4に示すクラスタ402を例とすると、コンピューティング機器102は、クラスタ402におけるカテゴリ(すなわちカテゴリA、B、およびC)のそれぞれのサンプル数を決定することができる。例えば、コンピューティング機器102は、クラスタ402において、カテゴリAのサンプル数が30であり、カテゴリBのサンプル数が60であり、カテゴリCのサンプル数が10であると決定することができる。
次に、コンピューティング機器102は、カテゴリA、B、およびCのサンプル数に基づいて最大サンプル数を決定することができる。例えば、コンピューティング機器102は、クラスタ402内でカテゴリBのサンプルが最も多く、しかも最大サンプル数が60であると決定することができる。そしてコンピューティング機器102は、決定された最大サンプル数とクラスタ402におけるサンプル総数とに基づいて、クラスタ402の純度を決定することができる。例えば、クラスタ402のサンプル総数が100である場合、クラスタ402の純度は60/100=0.6であると決定することができる。クラスタリング結果400における他のクラスタ(例えば、クラスタ401および403)についても同じ方式で純度を決定することができる。
いくつかの実施例において、情報エントロピーでクラスタの純度を決定することができる。式(1)を使用して各クラスタ401、402、および403の情報エントロピーHを計算することができる。
Figure 2020042797
ここで、pは、クラスタのサンプル総数に対するi番目のカテゴリのサンプル数の割合を表し、kは、クラスタにおけるサンプルのカテゴリ総数を表す。例えば、図4に示すクラスタ402について、kは3であり、pはカテゴリAのサンプルの割合0.6を表し、pはカテゴリBのサンプルの割合0.3を表し、pはカテゴリCのサンプルの割合0.1を表す。
クラスタにおけるサンプルが混乱するほど、対応する情報エントロピーHが大きくなるので、情報エントロピーの逆数1/Hをクラスタ402の純度として使用することができることに留意されたい。クラスタリング結果400における他のクラスタ(例えば、クラスタ401および403)についても同じ方式で純度を決定することができる。
ステップ240において、コンピューティング機器102は、ステップ230で決定された純度に基づいて、クラスタにおけるサンプルから、選別されたサンプルを決定する。コンピューティング機器102は、異なる純度に対して異なる後処理方針を採用して各クラスタ401、402、および403から高品質のサンプルを選別することができる。例えば、純度が3つのケースに別れることに基づいて異なる後処理方針を採用することができる。1番目のケースでは、クラスタ内に1つのカテゴリ(例えばカテゴリA)のサンプルのみが含まれる。2番目のケースでは、クラスタ内に複数のカテゴリのサンプルが含まれるが、当該クラスタの純度が比較的高い(例えば、閾値純度より高い)。第3のケースでは、クラスタ内に複数のカテゴリのサンプルが含まれるが、当該クラスタの純度が比較的低い(例えば、閾値純度より低い)。純度に基づいて選別されたサンプルを決定するプロセスについて、図5を参照して以下に詳細に説明する。
以上、本開示の実施例によるサンプル処理プロセス200を説明した。このようにして、サンプル集合全体のフィルタリングおよびクリーニングを実現し、高品質の標識したサンプルを取得することができる。したがって、本開示の方法は、サンプルをクリーニングおよびフィルタリングすることができ、特に、ノイズのある大規模サンプルに対して全てのクリーニングおよびフィルタリングを行うことができ、ノイズサンプルを効果的に除去し、サンプル品質を向上させ、大規模な監督付き機械学習タスクの効果の向上に役立つ。
いくつかの実施例では、コンピューティング機器102は、取得した選別されたサンプルに対して図2のプロセス200またはプロセス200の一部を繰り返して、サンプルをさらに選別してより高品質のサンプルを取得することができる。具体的には、コンピューティング機器102は、クラスタ401、402、403から取得した選別されたサンプルに基づいて、サンプル集合102の1つのサブ集合を決定することができる。図1に関して上述したように、このようなサブ集合は、本発明では、図1に示す選別されたサンプル集合103などを選別されたサンプル集合と呼ぶことができる。選別されたサンプル集合103は、サンプル集合101に関連するクラスタ401、402、403から取得したフィルタ処理サンプルを含むことができる。
ニューラルネットワークに基づいて特徴表現を決定する上述の実施例では、選別されたサンプル集合103に対して図2のステップ210〜240を繰り返して、選別されたサンプルを更新することができる。コンピューティング機器102は、ステップ210で使用された特徴抽出モデル(すなわち、ニューラルネットワーク)に選別されたサンプル集合103を適用して、選別されたサンプル集合103におけるサンプルの更新された特徴表現を取得すことができる。ステップ210で使用されるニューラルネットワークは学習可能であるので、初期サンプル集合101とは異なる選別されたサンプル集合103を適用する場合、同じサンプル(例えば、サンプル110−1)に対して先とは異なる特徴表現、すなわち、更新された特徴表現を取得することができる。
次に、コンピューティング機器102は、更新された特徴表現に基づいて選別されたサンプル集合103をクラスタリングして、新しいクラスタリング結果(すなわち、生成されたクラスタおよびクラスタの純度)に基づいて選別されたサンプルを更新することができる。すなわち、コンピューティング機器102は、図2のステップ230および240を繰り返すことができる。
予め定義された特徴空間に基づいて特徴表現を決定する上述した実施例では、選別されたサンプル集合103について図2のステップ220〜240を繰り返して、選別されたサンプルを更新することができる。コンピューティング機器102は、前のステップ210で決定された特徴表現に基づいて選別されたサンプル集合103をクラスタリングすることができる。このような実施例では、特徴表現は予め定義された特徴空間内で決定されるので、同一のサンプル(例えば、サンプル110−1)についての特徴表現は変化しない。
選別されたサンプル集合103のクラスタリングは、初期サンプル集合101のクラスタリングと比較して、異なるクラスタリングアルゴリズム、または異なるクラスタリングパラメータ(例えば、クラスタリング距離)、またはその両方の組み合わせを使用することができる。コンピューティング機器102は、このような方法によって取得されたクラスタに基づいてサンプルをさらに選別することができ、すなわち選別されたサンプルを更新することができる。
この場合、高品質のサンプルを選別することによってより良いクラスタリング結果を取得することができ、終了条件が満たされるまで、より良いクラスタリング結果よってより高品質のサンプルをさらに選別することができる。終了条件は、具体的な適用シーンに応じて設計することができる。例えば、クラスタリング結果において、サンプル集合101のサンプル総数に対する低純度クラスタのサンプル数の割合が所定の閾値より小さいことが終了条件としてもよい。さらに、選別されたサンプルの数が所定の数より小さいことが終了条件としてもよい。
そのような実施例では、イテレーションによってより高品質のサンプルをさらに選別することにより、最終的に取得されるサンプルの品質を向上させることができる。このようにして、サンプルの品質をさらに向上させることができ、その後の監督学習タスクの有効性を向上させるのに役立つ。
図2を参照して説明したように、コンピューティング機器102は、純度に基づいて選別されたサンプルを決定することができる。このプロセスについては、図4および図5を参照して以下に説明する。図5は、本開示のいくつかの実施例による選別されたサンプルを決定するプロセス500のフローチャートを示す。プロセス500は、図2のステップ240の実現として見なすことができる。
図5を参照すると、ステップ510において、コンピューティング機器102は、クラスタの純度が閾値純度より高いか否かを決定することができる。閾値純度は、サンプル110のタイプ、サンプルの正確さに対するその後の監督付き学習タスクの要件など、具体的な適用シーンによるものである。コンピューティング機器102が、ステップ510でクラスタの純度が閾値純度より高いと決定した場合、クラスタにおけるサンプルのカテゴリに基づいて選別されたサンプルを決定することができ、すなわち、プロセス500はステップ520に進むことができる。例えば、クラスタ401またはクラスタ402について、コンピューティング機器102は、その純度が閾値純度より高いと決定することができる。
ステップ520において、コンピューティング機器102は、クラスタ401またはクラスタ402におけるサンプルのカテゴリが同じであるか否かを決定することができる。コンピューティング機器102がステップ520でクラスタにおけるサンプルのカテゴリが同じであると決定した場合、プロセス500はステップ530に進むことができる。例えば、クラスタ401について、コンピューティング機器102は、ステップ520でクラスタ401におけるサンプルが全てカテゴリAであると決定することができる。そして、ステップ530で、コンピューティング機器102は、クラスタ401に含まれる全てのサンプルを選別されたサンプルとして決定することができ、例えば、クラスタ401におけるサンプル110−1、110−2などを選別されたサンプルとして決定することができる。
コンピューティング機器102がステップ520でクラスタにおけるサンプルのカテゴリが異なる、すなわちクラスタにおけるサンプルが複数のカテゴリを有すると決定した場合、プロセス500はステップ540に進むことができる。例えば、クラスタ402について、コンピューティング機器102は、クラスタ402におけるサンプルが複数のカテゴリA、B、およびCを有すると決定することができる。この場合、クラスタ402は複数のカテゴリのサンプルを有するが、純度は閾値純度より高く、これは、あるカテゴリのサンプルがクラスタ402において優勢であることを意味する。
ステップ540において、コンピューティング機器102は、クラスタ402における各カテゴリのサンプル数を決定することができる。例えば、上述のように、コンピューティング機器102は、クラスタ402におけるカテゴリAのサンプル数が30であり、カテゴリBのサンプル数が60であり、カテゴリCのサンプル数が10であると決定することができる。ステップ550において、コンピューティング機器102は、各カテゴリのサンプル数に基づいて、クラスタ402において最大サンプル数を有するカテゴリを決定することができる。例えば、コンピューティング機器102は、クラスタ402におけるカテゴリBのサンプルが最大サンプル数を有すると決定することができる。
ステップ560において、コンピューティング機器102は、決定されたカテゴリを有するサンプルを選別されたサンプルとして決定することができる。例えば、コンピューティング機器102は、クラスタ402におけるカテゴリBのサンプル(サンプル110−5、110−6など)を選別されたサンプルとして決定することができる。
カテゴリB以外の他のカテゴリのサンプル(サンプル110−3、110−8など)については、異なる適用シーン、タスクニーズなどに応じて異なる処理が行われてもよい。例えば、サンプル集合101のサンプル総数に対する他のカテゴリのサンプル数の割合が比較的小さい場合、これらの他のカテゴリのサンプルを直接破棄することができる。サンプル品質に対するその後の監督付き学習タスクの要求が高い場合、これらの他のカテゴリのサンプルを手動で標識するために出力する。
いくつかの場合に、クラスタ402における他のクラスのサンプルに対して自動誤り訂正を実行することもできる。例えば、ある割合(例えば、95%)を超えるクラスタ402におけるサンプル110が全てカテゴリBである場合、クラスタ402におけるカテゴリAおよびCを有するサンプルをカテゴリBに訂正することができ、このような補正済みサンプルを選別されたサンプルとして使用することもできる。
ステップ510を続けて参照すると、コンピューティング機器102がステップ510でクラスタの純度が閾値純度より高くないと決定した場合、クラスタにおけるサンプル数に基づいて異なる処理を行うことができる。すなわち、プロセス500はステップ570に進むことができる。例えば、クラスタ403について、コンピューティング機器102は、ステップ510でクラスタ403の純度が閾値純度より低いことを決定することができ、これは、クラスタ403における各カテゴリのサンプル分布が比較的均一であることを意味する。
ステップ570において、コンピューティング機器102は、サンプル集合101におけるサンプル総数に対するクラスタ403におけるサンプル数の割合を決定することができる。ステップ580において、コンピューティング機器102は、当該割合が閾値割合を超えたか否かを決定することができ、当該閾値割合は、本発明では上限閾値割合とも呼ばれる。当該割合が上限閾値割合を超えたと決定された場合、すなわちクラスタ403におけるサンプル数が多いことを意味する場合、プロセス500はステップ590に進むことができる。
ステップ590において、コンピューティング機器102は、クラスタ403におけるサンプル(サンプル110−4、110−7、110−9など)を再びクラスタリングしてクラスタリング結果を取得することができる。当該クラスタリング結果は、クラスタ403におけるサンプル110−4、110−7、110−9の1つまたは複数のサブ集合(1つまたは複数のサブクラスタとも呼ばれる)を含む。ステップ595において、コンピューティング機器102は、当該クラスタリング結果に基づいて、クラスタ403におけるサンプルの少なくとも一部を選別されたサンプルとして決定することができる。例えば、コンピューティング機器102は、取得されたサブクラスタについて図2のステップ230および240を繰り返して、その中から選別されたサンプルを決定することができる。
ステップ570で得られた割合が上限閾値割合を超えていないとコンピューティング機器102がステップ580で決定した場合、コンピューティング機器102はさらに、クラスタ403におけるサンプル数に応じて異なる処理を行うことができる。クラスタ403におけるサンプル数が少ない場合、クラスタ403におけるサンプルを破棄することができる。例えば、ステップ570で決定されたクラスタ403のサンプル割合が他の閾値割合(説明を簡単にするために下限閾値割合とも呼ばれる)より小さい場合、クラスタ403に含まれる全てのサンプルを破棄することができる。
クラスタ403におけるサンプル数が適切である場合、例えば、ステップ570で決定されたクラスタ403のサンプル割合が下限閾値割合を超えた場合、具体的な適用シーンに応じて異なる処理を行うことができる。例えば、サンプルの精度要求が高く、且つサンプル総数が十分に大きくないサンプルの場合、クラスタ403におけるサンプルを手動標識するために出力することができる。クラスタ403におけるサンプルに対して小規模サンプリングを実行し、その後の処理を手動で決定することもできる。クラスタ403における全てのサンプルを破棄すること、または次のイテレーション時の最適化のために全てを保留することもできる。
図6は、本開示の実施例による対象を決定するための装置600の概略ブロック図を示す。装置600は、図1のコンピューティング機器102に含まれるか、またはコンピューティング機器102として実現されてもよい。図6に示すように、装置600は、サンプル集合におけるサンプルの特徴表現を決定するように構成される第1の表現決定モジュール610を含み、各サンプルは予め標識されたカテゴリを有する。装置600は、特徴表現に基づいてサンプル集合をクラスタリングして、1つまたは複数のサンプルを含むクラスタを取得するように構成される第1のクラスタリングモジュール620をさらに含む。装置600は、クラスタにおけるサンプルのカテゴリに基づいて、クラスタのサンプル混乱の程度を示すクラスタの純度を決定するように構成される第1の純度決定モジュール630をさらに含む。装置600は、純度に基づいてクラスタにおけるサンプルから、選別されたサンプルを決定するように構成されるサンプル選別モジュール640をさらに含む。
いくつかの実施例では、サンプル選別モジュール640は、純度が閾値純度より高いことに応答して、クラスタにおけるサンプルのカテゴリに基づいて選別されたサンプルを決定するように構成される第1のサンプル決定モジュールを含む。
いくつかの実施例では、第1のサンプル決定モジュールは、クラスタにおけるサンプルのカテゴリが同じであることに応答して、クラスタにおけるサンプルを選別されたサンプルとして決定するように構成される第2のサンプル決定モジュールを含む。
いくつかの実施例では、第1のサンプル決定モジュールは、クラスタにおけるサンプルが複数のカテゴリを有することに応答して、各カテゴリのサンプル数を決定するように構成される第1の数決定モジュールと、各カテゴリのサンプル数に基づいて、クラスタにおいて最大サンプル数を有するカテゴリを決定するように構成される最大カテゴリ決定モジュールと、決定されたカテゴリを有するサンプルを選別されたサンプルとして決定するように構成される第3のサンプル決定モジュールと、を含む。
いくつかの実施例では、サンプル選別モジュール640は、純度が閾値純度より低いことに応答して、サンプル集合におけるサンプル総数に対するクラスタにおけるサンプル数の割合を決定するように構成されるサンプル割合決定モジュールと、割合が閾値割合を超えたことに応答して、クラスタにおけるサンプルをクラスタリングしてクラスタリング結果を取得するように構成される第2のクラスタリングモジュールと、少なくともクラスタリング結果に基づいて、クラスタにおけるサンプルの少なくとも一部を選別されたサンプルとして決定するように構成される第4のサンプル決定モジュールと、を含む。
いくつかの実施例では、第1の表現決定モジュール610は、サンプル集合を特徴抽出モデルに適用して、サンプル集合に関連する隠れ層ニューロンを取得するように構成されるサンプル適用モジュールと、隠れ層ニューロンに基づいて、サンプル集合におけるサンプルの特徴表現を決定するように構成される第2の表現決定モジュールと、を含む。
いくつかの実施例では、装置600は、少なくとも選別されたサンプルに基づいて、サンプル集合の1つのサブ集合を決定するように構成される第1のサブ集合決定モジュールであって、サブ集合は、サンプル集合に関連する少なくとも1つのクラスタから取得した選別されたサンプルを含む第1のサブ集合決定モジュールと、サブ集合を特徴抽出モデルに適用して、サブ集合におけるサンプルの更新された特徴表現を取得するように構成される第1のサブ集合適用モジュールと、更新された特徴表現に基づいて、サブ集合をクラスタリングして、クラスタリング結果に基づいて選別されたサンプルを更新するように構成される第1のサンプル更新モジュールと、をさらに含む。
いくつかの実施例では、第1の表現決定モジュール610は、サンプル集合におけるサンプルの予め定義された特徴空間における特徴値を、特徴表現として決定するように構成される第3の表現決定モジュールを含む。
いくつかの実施例では、装置600は、少なくとも選別されたサンプルに基づいて、サンプル集合の1つのサブ集合を決定するように構成される第2のサブ集合決定モジュールであって、サブ集合は、サンプル集合に関連する少なくとも1つのクラスタから取得した選別されたサンプルを含む第2のサブ集合決定モジュールと、特徴表現に基づいて、サブ集合をクラスタリングして、クラスタリング結果に基づいて選別されたサンプルを更新するように構成される第2のサンプル更新モジュールと、をさらに含む。
いくつかの実施例では、第1の純度決定モジュール630は、クラスタにおける各カテゴリのサンプル数を決定するように構成される第2の数決定モジュールと、各カテゴリのサンプル数に基づいて、最大サンプル数を決定するように構成される最大数決定モジュールと、最大サンプル数とクラスタにおけるサンプル総数とに基づいて純度を決定するように構成される第2の純度決定モジュールと、を含む。
図7は、本開示の実施例を実施可能な例示的な装置700の概略ブロック図を示す。装置700は、図1のコンピューティング機器102を実現することができる。図示のように、装置700は、読み出し専用メモリ(ROM)702に記憶されているコンピュータプログラム命令または記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラム命令に従って様々な適切な動作およびプロセスを実行可能な中央処理装置(CPU)701を含む。RAM703には、装置700の動作に必要な各種のプログラムやデータも記憶可能である。CPU701、ROM702およびRAM703は、バス704を介して相互に接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
キーボード、マウスなどの入力ユニット706と、各種のディスプレイ、スピーカなどの出力ユニット707と、ディスク、CDなどの記憶ユニットバス708と、ネットワークカード、モデム、無線通信トランシーバなどの通信部バス709とを含む、装置700における複数の構成要素は、I/Oインターフェース705に接続されている。通信ユニットバス709は、装置700がインターネットおよび/または様々な電気通信ネットワークなどを介して他の機器と情報/データを交換することを許容する。
処理ユニット701は、プロセス200およびプロセス500など、上記のさまざまな方法およびプロセスを実行する。例えば、いくつかの実施例では、プロセス200は、記憶ユニットバス708などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部またはすべては、ROM702および/または通信ユニットバス709を介して装置700にロードおよび/またはインストールすることができる。コンピュータプログラムがRAM703にロードされ、CPU701によって実行されると、プロセス200の1つまたは複数のステップが実行され得る。代替的には、他の実施例では、CPU701は、任意の他の適切な手段によって(例えば、ファームウェアによって)プロセス200およびプロセス500のいずれかを実行するように構成され得る。
本発明で上述した機能は、少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントによって実行することができる。非限定的な例として、使用することができる例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブルロジックデバイス(CPLD)などを含む。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、その結果、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図において特定される機能/操作が実行される。プログラムコードは、完全に機器で実行、部分的に機器で実行することができ、スタンドアロンソフトウェアパッケージとして部分的に機器で実行され、部分的にリモート機器で実行されまたは全てリモート機器またはサーバで実行され得る。
本開示の発明では、機械読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるまたは命令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むまたは記憶することができる有形の媒体とすることができる。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体とすることができる。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、または機器、あるいは上記の任意の適切な組み合わせを含むことができるが、それらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つまたは複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンメモリ(ROM)、消去可能プログラマブルリードオンメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD−ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができる。
また、各動作は、特定の順序で説明されたが、これは、そのような動作が示された特定の順序または順序の順番で実行されること、または所望の結果を達成するためにすべての示された動作が実行されることを必要とする。特定の状況では、マルチタスキングおよび並列処理は、有利な場合がある。同様に、いくつかの具体的な実現例の詳細が上記の説明に含まれているが、これらは本開示の範囲を限定するものとして解釈されるべきではない。別々の実施例で説明されているいくつかの特徴は、単一の実現において組み合わせて実現することもできる。逆に、単一の実施例に関して説明されている様々な特徴は、個別にまたは任意の適切なサブコンビネーションで複数の実施例で実施することができる。
構成的特徴および/または方法論理的動作に特有の言語で本テーマを説明したが、添付の特許請求の範囲で定義されるテーマは、説明された上記の特定の特徴または動作に限定されないことが理解されるべきである。逆に、上記の特定の特徴および動作は単に特許請求の範囲を実施する例示的な形態である。

Claims (22)

  1. サンプル集合におけるサンプルの特徴表現を決定するステップであって、各サンプルは、予め標識されたカテゴリを有するステップと、
    前記特徴表現に基づいて前記サンプル集合をクラスタリングして、1つまたは複数のサンプルを含むクラスタを取得するステップと、
    前記クラスタにおけるサンプルのカテゴリに基づいて、前記クラスタのサンプル混乱の程度を示す前記クラスタの純度を決定するステップと、
    前記純度に基づいて、前記クラスタにおけるサンプルから、選別されたサンプルを決定するステップと、を含む、
    ことを特徴とするサンプル処理方法。
  2. 前記クラスタにおけるサンプルから、選別されたサンプルを決定するステップは、
    前記純度が閾値純度より高いことに応答して、前記クラスタにおけるサンプルのカテゴリに基づいて前記選別されたサンプルを決定するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記選別されたサンプルを決定するステップは、
    前記クラスタにおけるサンプルのカテゴリが同じであることに応答して、前記クラスタにおけるサンプルを前記選別されたサンプルとして決定するステップを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記選別されたサンプルを決定するステップは、
    前記クラスタにおけるサンプルが複数のカテゴリを有することに応答して、各カテゴリのサンプル数を決定するステップと、
    各カテゴリのサンプル数に基づいて、前記クラスタにおいて最大サンプル数を有するカテゴリを決定するステップと、
    決定された前記カテゴリを有するサンプルを前記選別されたサンプルとして決定するステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  5. 前記クラスタにおけるサンプルから、選別されたサンプルを決定するステップは、
    前記純度が閾値純度より低いことに応答して、前記サンプル集合におけるサンプル総数に対する前記クラスタにおけるサンプル数の割合を決定するステップと、
    前記割合が閾値割合を超えたことに応答して、前記クラスタにおけるサンプルをクラスタリングして、クラスタリング結果を取得するステップと、
    少なくとも前記クラスタリング結果に基づいて、前記クラスタにおけるサンプルの少なくとも一部を選別されたサンプルとして決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. 前記特徴表現を決定するステップは、
    前記サンプル集合を特徴抽出モデルに適用して、前記サンプル集合に関連する隠れ層ニューロンを取得するステップと、
    前記隠れ層ニューロンに基づいて、前記サンプル集合におけるサンプルの特徴表現を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  7. 前記方法は、
    少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の1つのサブ集合を決定するステップであって、前記サブ集合は、前記サンプル集合に関連する少なくとも1つのクラスタから取得した選別されたサンプルを含むステップと、
    前記サブ集合を前記特徴抽出モデルに適用して、前記サブ集合におけるサンプルの更新された特徴表現を取得するステップと、
    前記更新された特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するステップと、をさらに含む、
    ことを特徴とする請求項6に記載の方法。
  8. 前記特徴表現を決定するステップは、
    前記サンプル集合におけるサンプルの予め定義された特徴空間における特徴値を、前記特徴表現として決定するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  9. 前記方法は、
    少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の1つのサブ集合を決定するステップであって、前記サブ集合は、前記サンプル集合に関連する少なくとも1つのクラスタから取得した選別されたサンプルを含むステップと、
    前記特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するステップと、をさらに含む、
    ことを特徴とする請求項8に記載の方法。
  10. 前記クラスタの前記純度を決定するステップは、
    前記クラスタにおける各カテゴリのサンプル数を決定するステップと、
    各カテゴリのサンプル数に基づいて、最大サンプル数を決定するステップと、
    前記最大サンプル数と前記クラスタにおけるサンプル総数とに基づいて、前記純度を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  11. サンプル集合におけるサンプルの特徴表現を決定するように構成される第1の表現決定モジュールであって、各サンプルは、予め標識されたカテゴリを有する第1の表現決定モジュールと、
    前記特徴表現に基づいて前記サンプル集合をクラスタリングして、1つまたは複数のサンプルを含むクラスタを取得するように構成される第1のクラスタリングモジュールと、
    前記クラスタにおけるサンプルのカテゴリに基づいて、前記クラスタのサンプル混乱の程度を示す前記クラスタの純度を決定するように構成される第1の純度決定モジュールと、
    前記純度に基づいて、前記クラスタにおけるサンプルから、選別されたサンプルを決定するように構成されるサンプル選別モジュールと、を含む、
    ことを特徴とするサンプル処理装置。
  12. 前記サンプル選別モジュールは、
    前記純度が閾値純度を高いことに応答して、前記クラスタにおけるサンプルのカテゴリに基づいて前記選別されたサンプルを決定するように構成される第1のサンプル決定モジュールを含む、
    ことを特徴とする請求項11に記載の装置。
  13. 前記第1のサンプル決定モジュールは、
    前記クラスタにおけるサンプルのカテゴリが同じであることに応答して、前記クラスタにおけるサンプルを前記選別されたサンプルとして決定するように構成される第2のサンプル決定モジュールを含む、
    ことを特徴とする請求項12に記載の装置。
  14. 前記第1のサンプル決定モジュールは、
    前記クラスタにおけるサンプルが複数のカテゴリを有することに応答して、各カテゴリのサンプル数を決定するように構成される第1の数決定モジュールと、
    各カテゴリのサンプル数に基づいて、前記クラスタにおいて最大サンプル数を有するカテゴリを決定するように構成される最大カテゴリ決定モジュールと、
    決定された前記カテゴリを有するサンプルを前記選別されたサンプルとして決定するように構成される第3のサンプル決定モジュールと、を含む、
    ことを特徴とする請求項12に記載の装置。
  15. 前記サンプル選別モジュールは、
    前記純度が閾値純度より低いことに応答して、前記サンプル集合におけるサンプル総数に対する前記クラスタにおけるサンプル数の割合を決定するように構成されるサンプル割合決定モジュールと、
    前記割合が閾値割合を超えたことに応答して、前記クラスタにおけるサンプルをクラスタリングして、クラスタリング結果を取得するように構成される第2のクラスタリングモジュールと、
    少なくとも前記クラスタリング結果に基づいて、前記クラスタにおけるサンプルの少なくとも一部を選別されたサンプルとして決定するように構成される第4のサンプル決定モジュールと、を含む、
    ことを特徴とする請求項11に記載の装置。
  16. 前記第1の表現決定モジュールは、
    前記サンプル集合を特徴抽出モデルに適用して、前記サンプル集合に関連する隠れ層ニューロンを取得するように構成されるサンプル適用モジュールと、
    前記隠れ層ニューロンに基づいて、前記サンプル集合におけるサンプルの特徴表現を決定するように構成される第2の表現決定モジュールと、を含む、
    ことを特徴とする請求項11に記載の装置。
  17. 前記装置は、
    少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の1つのサブ集合を決定するように構成される第1のサブ集合決定モジュールであって、前記サブ集合は、前記サンプル集合に関連する少なくとも1つのクラスタから取得した選別されたサンプルを含む第1のサブ集合決定モジュールと、
    前記サブ集合を前記特徴抽出モデルに適用して、前記サブ集合におけるサンプルの更新された特徴表現を取得するように構成される第1のサブ集合適用モジュールと、
    前記更新された特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するように構成される第1のサンプル更新モジュールと、をさらに含む、
    ことを特徴とする請求項16に記載の装置。
  18. 前記第1の表現決定モジュールは、
    前記サンプル集合におけるサンプルの予め定義された特徴空間における特徴値を、前記特徴表現として決定するように構成される第3の表現決定モジュールを含む、
    ことを特徴とする請求項11に記載の装置。
  19. 前記装置は、
    少なくとも前記選別されたサンプルに基づいて、前記サンプル集合の1つのサブ集合を決定するように構成される第2のサブ集合決定モジュールであって、前記サブ集合は、前記サンプル集合に関連する少なくとも1つのクラスタから取得した選別されたサンプルを含む第2のサブ集合決定モジュールと、
    前記特徴表現に基づいて、前記サブ集合をクラスタリングして、クラスタリング結果に基づいて前記選別されたサンプルを更新するように構成される第2のサンプル更新モジュールと、をさらに含む、
    ことを特徴とする請求項18に記載の装置。
  20. 前記第1の純度決定モジュールは、
    前記クラスタにおける各カテゴリのサンプル数を決定するように構成される第2の数決定モジュールと、
    各カテゴリのサンプル数に基づいて、最大サンプル数を決定するように構成される最大数決定モジュールと、
    前記最大サンプル数と前記クラスタにおけるサンプル総数とに基づいて、前記純度を決定するように構成される第2の純度決定モジュールと、を含む、
    ことを特徴とする請求項11に記載の装置。
  21. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶されている記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサが、請求項1〜10のいずれかに記載の方法を実現する、
    ことを特徴とする機器。
  22. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行されたとき、請求項1〜10のいずれかに記載の方法が実現される、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2019149372A 2018-09-07 2019-08-16 サンプル処理方法、装置、機器および記憶媒体 Active JP6980728B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811043185.9 2018-09-07
CN201811043185.9A CN109242106B (zh) 2018-09-07 2018-09-07 样本处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
JP2020042797A true JP2020042797A (ja) 2020-03-19
JP6980728B2 JP6980728B2 (ja) 2021-12-15

Family

ID=65060243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019149372A Active JP6980728B2 (ja) 2018-09-07 2019-08-16 サンプル処理方法、装置、機器および記憶媒体

Country Status (5)

Country Link
US (1) US20200082213A1 (ja)
EP (1) EP3620982B1 (ja)
JP (1) JP6980728B2 (ja)
KR (1) KR102250728B1 (ja)
CN (1) CN109242106B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN111507428B (zh) * 2020-05-29 2024-01-05 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN112132173B (zh) * 2020-08-10 2024-05-14 贵州电网有限责任公司 一种基于聚类特征树的变压器无监督运行状态识别方法
US11922217B2 (en) * 2020-11-13 2024-03-05 Nasdaq, Inc. Systems and methods of optimizing resource allocation using machine learning and predictive control
CN113988176B (zh) * 2021-10-27 2024-07-19 支付宝(杭州)信息技术有限公司 样本标注方法和装置
CN114444619B (zh) * 2022-04-02 2022-07-26 北京百度网讯科技有限公司 样本生成方法、训练方法、数据处理方法以及电子设备
CN118152826B (zh) * 2024-05-09 2024-08-02 深圳市翔飞科技股份有限公司 基于行为分析的摄像机智能报警系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
WO2010119615A1 (ja) * 2009-04-15 2010-10-21 日本電気株式会社 学習データ生成装置、及び固有表現抽出システム
US20180174001A1 (en) * 2016-12-15 2018-06-21 Samsung Electronics Co., Ltd. Method of training neural network, and recognition method and apparatus using neural network
WO2018154900A1 (ja) * 2017-02-22 2018-08-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503756B2 (en) * 2011-01-03 2019-12-10 The Board Of Trustees Of The Leland Stanford Junior University Cluster processing and ranking methods including methods applicable to clusters developed through density based merging
CN103870751B (zh) * 2012-12-18 2017-02-01 中国移动通信集团山东有限公司 入侵检测方法及系统
CN104392253B (zh) * 2014-12-12 2017-05-10 南京大学 一种草图数据集的交互式类别标注方法
CN106469276B (zh) * 2015-08-19 2020-04-07 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
US11216491B2 (en) * 2016-03-31 2022-01-04 Splunk Inc. Field extraction rules from clustered data samples
CN106528417A (zh) * 2016-10-28 2017-03-22 中国电子产品可靠性与环境试验研究所 软件缺陷智能检测方法和系统
US10025813B1 (en) * 2017-04-13 2018-07-17 Sas Institute Inc. Distributed data transformation system
CN107194430B (zh) * 2017-05-27 2021-07-23 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN107463953B (zh) * 2017-07-21 2019-11-19 上海媒智科技有限公司 在标签含噪情况下基于质量嵌入的图像分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
WO2010119615A1 (ja) * 2009-04-15 2010-10-21 日本電気株式会社 学習データ生成装置、及び固有表現抽出システム
US20180174001A1 (en) * 2016-12-15 2018-06-21 Samsung Electronics Co., Ltd. Method of training neural network, and recognition method and apparatus using neural network
WO2018154900A1 (ja) * 2017-02-22 2018-08-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN109242106A (zh) 2019-01-18
US20200082213A1 (en) 2020-03-12
JP6980728B2 (ja) 2021-12-15
EP3620982B1 (en) 2023-12-06
EP3620982A1 (en) 2020-03-11
KR20200029351A (ko) 2020-03-18
CN109242106B (zh) 2022-07-26
KR102250728B1 (ko) 2021-05-11

Similar Documents

Publication Publication Date Title
JP6980728B2 (ja) サンプル処理方法、装置、機器および記憶媒体
US10552737B2 (en) Artificial neural network class-based pruning
US10909455B2 (en) Information processing apparatus using multi-layer neural network and method therefor
JP6632623B2 (ja) サンプリング及びフィーチャ選択を伴わない自動欠陥分類
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
JP2019028839A (ja) 分類器、分類器の学習方法、分類器における分類方法
CN110364185B (zh) 一种基于语音数据的情绪识别方法、终端设备及介质
US20200090005A1 (en) Method and Apparatus for Analysing an Image
US20220207354A1 (en) Analog circuits for implementing brain emulation neural networks
CN110163206B (zh) 车牌识别方法、系统、存储介质和装置
CN112445914A (zh) 文本分类方法、装置、计算机设备和介质
CN115346084B (zh) 样本处理方法、装置、电子设备、存储介质及程序产品
US20220366242A1 (en) Information processing apparatus, information processing method, and storage medium
CN116229180A (zh) 一种基于对称kld的处理多类型标签噪声的自适应动态阈值方法、系统、设备及介质
US20220202348A1 (en) Implementing brain emulation neural networks on user devices
KR20190078710A (ko) 이미지 분류 시스템 및 방법
CN111062477B (zh) 一种数据处理方法、装置及存储介质
CN113297376A (zh) 基于元学习的法律案件风险点识别方法及系统
CN113222141A (zh) 一种模型的监督训练方法、装置及设备
CN109447937B (zh) 一种图像处理模型的确定方法及其相关装置
CN113569605B (zh) 视频信息处理方法、装置、电子设备及存储介质
CN113505783B (zh) 基于少次学习的甲骨文单字识别方法和装置
CN116431757B (zh) 基于主动学习的文本关系抽取方法、电子设备及存储介质
CN113779236B (zh) 一种基于人工智能的问题分类的方法及装置
CN117573867A (zh) 分类和分级非结构化数据方法、系统和计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211117

R150 Certificate of patent or registration of utility model

Ref document number: 6980728

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250