JP2023152270A - 人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム - Google Patents
人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム Download PDFInfo
- Publication number
- JP2023152270A JP2023152270A JP2022125529A JP2022125529A JP2023152270A JP 2023152270 A JP2023152270 A JP 2023152270A JP 2022125529 A JP2022125529 A JP 2022125529A JP 2022125529 A JP2022125529 A JP 2022125529A JP 2023152270 A JP2023152270 A JP 2023152270A
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- samples
- sample
- involved
- class cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 158
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000012804 iterative process Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 abstract 3
- 239000000523 sample Substances 0.000 description 190
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
【課題】本開示は、人工知能によるデータラベリング方法、装置、デバイス、記憶媒体及びプログラムを提供する。【解決手段】クラスタリングに関与する複数のサンプルを決定し、反復処理を実現するために、収束条件が満たされるか、反復回数が回数閾値に達するまで、クラスタリングに関与する各サンプルのベクトル表現に基づいて、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得、各クラスクラスタが少なくとも1つのクラスタリングに関与するサンプルを含み、各クラスクラスタに対するラベリング情報を受信し、ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定すること、を繰り返し実行し、収束条件が満たされるか、反復回数が回数閾値に達する場合、各クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定する。【選択図】図2
Description
本開示は、人工知能の分野、特にデータラベリング、画像認識、自然言語処理の技術分野に関する。
クラスタリングラベリングアルゴリズムは、クラスタリング分析アルゴリズムあるいはグループ分析方法とも呼ばれ、分類を研究する統計分析方法であり、データマイニングの重要なアルゴリズムでもある。クラスタリング分析は類似性に基づいており、同一クラスタ(Cluster)におけるパターン間では、同一でないクラスタにおけるパターン間よりも類似性が高い。
実際の業務では、リアルクラスクラスタを区分する必要があることが多い。例えば、クラスタリングタスクの効果を評価するために、テスト集合を使用して評価することができる。テスト集合は、複数のサンプルをクラスタリング基準に基づいて区分された複数の相互排他的なリアルクラスタであり、人手で区分する必要がある。サンプル数が多いと、ラベリングの作業量が大きくなり、クラスタリングラベリングの精度が低下する可能性がある。
本開示は、人工知能によるデータラベリング方法、装置、デバイス、及び記憶媒体を提供する。
本開示の1つの態様では、人工知能によるデータラベリング方法を提供し、該方法は、
クラスタリングに関与する複数のサンプルを決定することと、
反復処理を実現するために、収束条件が満たされるか、又は反復回数が回数閾値に達するまで、
前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得ることと、ここで、各前記クラスクラスタが少なくとも1つの前記クラスタリングに関与するサンプルを含み、
各前記クラスクラスタに対するラベリング情報を受信し、前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することと、を繰り返し実行することと、
前記収束条件が満たされるか、又は前記反復回数が回数閾値に達する場合、各前記クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定することと、を含む。
クラスタリングに関与する複数のサンプルを決定することと、
反復処理を実現するために、収束条件が満たされるか、又は反復回数が回数閾値に達するまで、
前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得ることと、ここで、各前記クラスクラスタが少なくとも1つの前記クラスタリングに関与するサンプルを含み、
各前記クラスクラスタに対するラベリング情報を受信し、前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することと、を繰り返し実行することと、
前記収束条件が満たされるか、又は前記反復回数が回数閾値に達する場合、各前記クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定することと、を含む。
本開示のもう1つの様態では、人工知能によるデータラベリング装置を提供し、該装置は、
クラスタリングに関与する複数のサンプルを決定するためのスクリーニングモジュールと、クラスタリングモジュールと、処理モジュールと、を備え、
前記クラスタリングモジュールと、前記処理モジュールとは、反復処理を実現するために、収束条件が満たされるか、又は反復回数が回数閾値に達するまで、前記クラスタリングモジュールが前記スクリーニングモジュール又は前記処理モジュールによって決定された前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得ることと、前記処理モジュールが各前記クラスクラスタに対するラベリング情報を受信し、前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定し、決定されたクラスタリングに関与する複数のサンプルを前記クラスタリングモジュールに通知することと、を繰り返し実行することに用いられ、
前記処理モジュールはさらに、前記収束条件を満たすか、又は前記反復回数が回数閾値に達する場合に、各前記クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定することに用いられ、
ここで、各前記クラスクラスタが少なくとも1つの前記クラスタリングに関与するサンプルを含む。
クラスタリングに関与する複数のサンプルを決定するためのスクリーニングモジュールと、クラスタリングモジュールと、処理モジュールと、を備え、
前記クラスタリングモジュールと、前記処理モジュールとは、反復処理を実現するために、収束条件が満たされるか、又は反復回数が回数閾値に達するまで、前記クラスタリングモジュールが前記スクリーニングモジュール又は前記処理モジュールによって決定された前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得ることと、前記処理モジュールが各前記クラスクラスタに対するラベリング情報を受信し、前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定し、決定されたクラスタリングに関与する複数のサンプルを前記クラスタリングモジュールに通知することと、を繰り返し実行することに用いられ、
前記処理モジュールはさらに、前記収束条件を満たすか、又は前記反復回数が回数閾値に達する場合に、各前記クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定することに用いられ、
ここで、各前記クラスクラスタが少なくとも1つの前記クラスタリングに関与するサンプルを含む。
本開示のもう1つの様態では、電子デバイスを提供し、該デバイスは、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも1つのプロセッサにより実行されると、本開示の人工知能によるデータラベリング方法を実行させることを特徴とする。
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも1つのプロセッサにより実行されると、本開示の人工知能によるデータラベリング方法を実行させることを特徴とする。
本開示のもう1つの様態では、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令は、本開示の人工知能によるデータラベリング方法をコンピュータに実行させる。
本開示のもう1つの様態では、プログラムを提供し、該プログラムは、プロセッサにより実行されると、本開示の人工知能によるデータラベリング方法を実現する。
本開示によれば、クラスタリングに関与するサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得、その後、ラベリング情報に基づいて各クラスクラスタに対する区分を実現し、複数回の反復処理をして、最終的にクラスタリング結果を得る。各クラスクラスタ内のサンプルの数が少ないため、ラベリングの作業量が少なく、クラスタリングラベリングの精度を向上させることができる。
ここに記載された内容は、本開示の実施例のキーポイント又は重要な特徴を記述することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して理解を促すことができる。
添付図面は、本方案をより良く理解するためのものであり、本開示を限定するものではない。
以下では、本開示の例示的な実施形態を、理解を容易にするために本開示の実施例の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本開示の範囲及び精神を逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能及び構成については、明確化及び簡明化のために説明を省略する。
一般的に、クラスタリングタスクの効果を評価するには、データを相互排他的なリアルクラスタにラベリングして正確な評価結果を得る必要がある。そのため、実際の業務では、ラベリングされたデータに基づいて評価を行う必要があるクラスタリングタスクが多い。例えば、イベントデータベースの構築では、同一のイベントを記述したリアルタイムニュースを1つのイベントにクラスタリングしてイベントデータベースに保存し、イベントを粒度としてイベントを分析するためのデータ分析基盤を提供する必要がある。イベントのクラスタリングを例にすると、理想的に、クラスタリングの効果は次の2つの要件を満たす必要がある。
1.同一のクラスタ内では、同一のイベントを記述するニュースであること、即ち適合率。
2.同一のイベントを記述する全てのニュースが1つのクラスタにあり、複数のクラスタに分散しないこと、即ち再現率。
適合率と再現率を計算するためには、データを正確にクラスタリングする必要があり、即ち、テスト集合を、業務シーンごとのクラスタリング基準に基づいて、相互排他的な複数のリアルクラスタに区分する。
ラベリング量や人手によるラベリングのコストを考慮しない場合に、全てのサンプルを人手作業でラベリングする強制的なラベリングを使用することができる。一般的に、ラベリング量と関連コストを考慮する必要があり、既存の評価方案は主に相関性による再現の方法に基づいてラベリングし、この方法は評価に関与するデータの数を制限し、テスト集合全体の全てのリアルクラスタを得ることができず、クラスタリングの精度が不足している。
上述の課題に対して、本開示は、人工知能によるデータラベリング方法を提案し、該方法は、クラスクラスタを粒度として代表的なサンプルを選択し、複数ラウンドの反復クラスタリングラベリングを行い、ラベリング量を削減しながらクラスタリング結果の精度を向上させることができる。
上述の課題に対して、本開示は、人工知能によるデータラベリング方法を提案し、該方法は、クラスクラスタを粒度として複数ラウンドの反復クラスタリングラベリングを行い、ラベリング量を削減しながら全面的でリアルクラスタを高速に得る。
本発明は、人工知能によるデータラベリング方法を提案し、該方法は、図1に示す応用シーンに適用することができる。図1に示すように、該応用シーンは、クライアント端末110及びサーバ120を含むことができ、この方法が適用された装置がサーバにデプロイされていることを例にすると、ユーザは、クライアント端末110を介してサーバ120にこの人工知能によるデータラベリング方法を使用する要求を送信することができ、サーバ120は、この人工知能によるデータラベリング方法を使用してサンプルに対してクラスタリングをした後、クラスタリング結果を、ラベリング端末130にフィードバックし、ラベリング端末130は、クラスタリングによって得られたクラスクラスタ情報を受信することができ、クラスクラスタに対してラベリングし区分して、ラベリング完了後にラベリング情報をサーバ120に再度送信し、サーバ120はラベリング情報を受信した後、引き続きこの人工知能によるデータラベリング方法を使用して新たなクラスクラスタ情報を生成し、このように複数ラウンドの反復を行った後、最終的なクラスタリング結果を得る。
クライアント端末110及びラベリング端末130は、無線ネットワーク又は有線ネットワークを介してサーバ120に接続することができる。選択的に、クライアント端末110及びラベリング端末130は、それぞれ、スマートフォン、タブレット、ノートパソコン、デスクトップコンピュータ、スマートウォッチ、車載端末などであってもよいが、これに限定されるものではない。クライアント端末110は、人工知能によるデータラベリング方法をサポートするアプリケーションをインストールして実行することができる。ラベリング端末130は、複数の端末であってもよい。この人工知能によるデータラベリング方法を利用するリクエストをサーバ120に送信するクライアント端末110と、ラベリングして区分するラベリング端末130とは、同一の端末であっても、異なる端末であってもよい。
サーバ120は、スタンドアロンサーバ、サーバクラスタ又は分散システム、又はクラウドサービス、クラウドデータベース、クラウド計算、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、及びビッグデータと人工知能プラットフォームなどの基礎的なクラウド計算サービスを提供するクラウドサーバであってもよい。
図2は、本開示の1つの実施例における人工知能によるデータラベリング方法を実現するフローチャート概略図であり、該方法は少なくとも以下のステップを含む。
S210において、クラスタリングに関与する複数のサンプルを決定する。
S220において、クラスタリングに関与する各サンプルのベクトル表現に基づいて、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得、ここで、各クラスクラスタが少なくとも1つのクラスタリングに関与するサンプルを含む。
S230において、各クラスクラスタに対するラベリング情報を受信し、ラベリング情報に基づいてクラスタリングに関与する複数のサンプルを再決定し、反復処理を実現するために、ステップS220に戻って実行し、収束条件を満たすか、又は反復回数が回数閾値に達する場合、各クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定する。
このように、本開示で提案する人工知能によるデータラベリング方法は反復クラスタリング方式を使用しており、毎回の反復には、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタに区分することと、ラベリング情報に基づいて各クラスクラスタから代表的なサンプルを決定し、該代表的なサンプルを次回の反復におけるクラスタリングに関与するサンプルとすることとを含む。本開示は、各反復プロセスにおいて、事前クラスタリング後、各クラスクラスタにおけるサンプルの数を少なくなり、後続の正確なラベリングを容易にし、クラスタリングの精度を向上させる。
いくつかの可能な実施形態では、上述のサンプルは、画像サンプル又はテキストサンプルであってもよく、即ち、本方法は、画像又はテキストに対するクラスタリングに適用されてもよい。
いくつかの可能な実施形態では、上述のサンプルのベクトル表現は、ニューラルネットワークモデルを利用して得ることができ、このニューラルネットワークモデルは、知識が強化されたセマンティック表現(ERNIE,Enhanced Representation fromkNowledge IntEgration)モデル、又は変換器に基づく双方向エンコーダ表現(BERT,Bidirectional Encoder Representation from Transformers)モデルを含むことができ、又は他のモデルを含んでもよく、本明細書では限定しない。
いくつかの可能な実施形態では、クラスクラスタに対するラベリング情報は、クラスクラスタに含まれる少なくとも1つのサブクラスタと、各サブクラスタにおける代表的なサンプルとを含むことができ、
上述のラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することは、各クラスクラスタに対するラベリング情報の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとすることを含むことができる。
上述のラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することは、各クラスクラスタに対するラベリング情報の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとすることを含むことができる。
本開示の実施形態では、ラベリング担当者は、クラスクラスタを粒度として、事前クラスタリングによって生成された各クラスクラスタを、各々が相互排他的であるサブクラスタにラベリングし、そして、各サブクラスタにおける代表的なサンプルを人手で選択して、次のラウンドのクラスタリングに進むことができる。各サブクラスタから選択された代表的なサンプルを代表的なサンプルと呼び、残りのサンプルを非代表的なサンプルと呼ぶことができる。例えば、ラベリング担当者は、各サブクラスタにおいて簡潔で単一の表現のサンプルを選択して、次のラウンドのクラスタリングに進むことができ、ラベリング担当者による、各クラスクラスタに対するラベリング情報を受信すると、そのラベリング情報に基づいて代表的なサンプルを決定することができ、これらの代表的なサンプルは次のラウンドのクラスタリングに関与することとなる。代表的なサンプルの単一性は、情報伝達による問題を回避することができる。また、各反復の第2ステップにおいて、各クラスクラスタを、次回の反復に用いられる1つの代表的なサンプルを各々が有する複数のサブクラスタに区分することにより、次回の反復プロセスにおいてクラスタリングに関与するサンプルの数を迅速に削減することができる。
いくつかの可能な実施形態では、上述のクラスタリングに関与する各サンプルのベクトル表現に基づいて、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことは、
クラスタリングアルゴリズムを使用して、制約条件と合わせて、事前クラスタリングによって得られた各クラスクラスタが制約条件を満たすように、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことを含む。
クラスタリングアルゴリズムを使用して、制約条件と合わせて、事前クラスタリングによって得られた各クラスクラスタが制約条件を満たすように、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことを含む。
いくつかの可能な実施形態では、上述の制約条件は、以下の少なくとも1つを含む。
(1)各クラスクラスタに含まれる、クラスタリングに関与するサンプルの数がサンプル数閾値以下である。
(2)各クラスクラスタに含まれる、クラスタリングに関与する各サンプルが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していた。
上述の制約条件は、主に次の点を考慮して設定されている。
第1に、上述の制約条件(1)について、サンプル数閾値を設定することで、事前クラスタリングによって得られる各クラスクラスタ中のサンプルの数が多くなりすぎないことを保証し、ラベリングが容易になるため、ラベリング担当者に対する要求を低減することができ、クラスクラスタの区分(各クラスクラスタを複数のサブクラスタに区分すること)の精度を向上させ、最終的なクラスタリング結果の精度を向上させることができる。
第2に、上述の制約条件(2)について、制約条件(2)は、前回の反復プロセスにおいて同一のクラスクラスタに区分された2つのサンプルが、同じく次回の反復プロセスに進む場合に、再び同一のクラスクラスタに区分されないことを保証する。これは、次回の反復プロセスに進む2つのサンプルが、すでに人手によって相互排他的なサンプルとしてラベリングされている(つまり異なるクラスに属する)サンプルであるため、再び同一のクラスクラスタに区分する必要がないからである。
いくつかの可能な実施形態では、上述のクラスタリングアルゴリズムは、多種のアルゴリズムであってもよく、以下では密度ピーク(density peaks)アルゴリズムを例として説明すると、密度ピーク(density peaks)アルゴリズムを使用して、上述の制約条件と合わせて、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行う実施方法は、以下を含むことができる。
ステップ1において、クラスタリングに関与する各サンプルの密度を決定する。
ステップ2において、密度が大きい順に、クラスタリングに関与する各サンプルに対してそれぞれ、クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルと該クラスタリングに関与するサンプルとの類似度が大きい順に、各近傍サンプルを順次トラバーサルし、以下の第1判定条件が全て満たされた場合に、近傍サンプルの属するクラスクラスタに、クラスタリングに関与するサンプルを加え、さらに、以下の第1判定条件のうちの少なくとも1つが満たされない場合に、該クラスタリングに関与するサンプルを含む新たなクラスクラスタを構築することと、を実行する。
上述の第1判定条件には、以下が含まれる。
(1)近傍サンプルの密度が、クラスタリングに関与するサンプルの密度よりも大きいこと。
(2)近傍サンプルが属するクラスクラスタが存在していること。
(3)近傍サンプルと該クラスタリングに関与するサンプルとの類似度が類似度閾値以上であること。
(4)近傍サンプルの属するクラスタに含まれるサンプルの数が前記サンプル数閾値よりも小さいこと。
(5)近傍サンプルと該クラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて異なるクラスタリングに属していたこと。
上述の第1判定条件から分かるように、上述の第1判定条件のうち(1)~(3)は密度ピーク値(density peaks)アルゴリズムにおける判定条件であり、上述の第1判定条件のうち(4)及び(5)は上述制約条件を満たすために加えられた判定条件である。
具体例としては、以下のとおりである。
ステップ1において、クラスタリングに関与するN個のサンプルの密度を決定する。
具体的に、ベクトル検索ツールを使用して、各サンプルとの類似度が最も大きいK個(topK)の近傍サンプルを得ることができ、Kは正の整数である。例えば、フェイスブックAI類似性検索ツール(faiss、facebook(登録商標) AI Similarity Search)やK近傍(KNN、K―NearestNeighbor)アルゴリズムなどを使用して取得する。
その後、各サンプルについて、該サンプルとtopK個の近傍サンプルとの平均類似度を該サンプルの密度とする。
サンプルと近傍サンプルとの類似度は、ユークリッド距離又は角度の余弦によって決定することができる。2つのサンプルのベクトル表現の余弦角度をコサイン類似度ともいい、ベクトル空間における2つのベクトルの角度の余弦値を2つの個体間の差異の大きさを測る尺度とする。2つのベクトルの方向が一致している場合、つまり角度がゼロに近い場合、この2つのベクトルの表現はより近いものになる。
例えば、サンプルaのベクトルは
と表され、サンプルbのベクトルは
と表され、サンプルaとサンプルbのコサイン類似度は、角度の余弦を使用して次のように決定される。
あるいは、サンプルa及びサンプルbのコサイン類似度は、ベクトル演算によって直接決定されてもよい。
ステップ2では、クラスタに関与する各サンプルを密度の大きい順にソートし、例えば、ソートされたサンプルは、サンプルA、サンプルB、サンプルC、・・・である。
前述の手順に基づいて、各サンプルと近傍サンプルをそれぞれ判定し、該サンプルをその近傍サンプルの属するクラスクラスタに加えるか否かを判定する。
サンプルAを例にすると、サンプルAの近傍サンプルは、サンプル1、サンプル2、サンプル3、・・・を含み、ここで、サンプル1、サンプル2、サンプル3等は類似度の大きさの順にソートされ、即ち、サンプル1とサンプルAとの類似度が最も高く、それ以降のサンプル2、サンプル3等とサンプルAとの類似度が徐々に小さくなる。
このような状況に対して、まず、サンプルAとサンプル1が上述の第1判定条件の全てが満たされたか否かを判定してもよく、例えば、サンプル1の密度がサンプルAの密度よりも大きく、サンプル1が属するクラスクラスタが存在し(即ち、既に形成されたクラスクラスタにサンプル1が属しており、該クラスクラスタをXとする)、サンプル1とサンプルAとの密度が類似度閾値以上である場合、サンプルAは密度ピークアルゴリズムによって規定されるクラスタリング条件を満たしていることを示しており、そして、サンプル1の属するクラスクラスタ(例えば、クラスクラスタX)に含まれるサンプルの数が前記サンプル数閾値(例えば、予めNと設定されている)よりも小さい場合、引き続きクラスクラスタXには新たなサンプルを加えてもよいことを示しており、そして、サンプル1とサンプルAが、前回の反復において異なるクラスクラスタに属する場合、サンプルAは、サンプル1の属するクラスクラスタ(例えば、クラスクラスタX)に加えることができる。
サンプルAがサンプル1の属するクラスクラスタ(即ち、クラスクラスタX)に加える場合、サンプルAに対する処理を終了して、続いてサンプルBについて同様の操作を実行することができる。
サンプルAとサンプル1が上述の第1判定条件の全てを満たさない場合、次に、サンプルAと次の近傍サンプル(即ちサンプル2)が、上述の第1判定条件の全てを満たすか否かをさらに判定し、この順にして、サンプルAと全ての近傍サンプルとが全て、上述第1判定条件の全てを満たさないと、サンプルAは新たなクラスクラスタに区分され、即ちサンプルAを含む新たなクラスクラスタを構築して、サンプルAに対する処理も終了し、継続してサンプルBに対して同様の操作を実行することができる。
上述の第1判定条件における近傍サンプルの密度がクラスタリングに関与するサンプルの密度よりも大きいということは、クラスタリングに関与するサンプルよりも、近傍サンプルの方が密度ピーク領域に近く、この場合、クラスタリングに関与するサンプルが近傍サンプルの属するクラスタに加えることができ、逆に、近傍サンプルの密度がクラスタリングに関与するサンプルの密度よりも小さい場合、クラスタリングに関与するサンプルが近傍サンプルの属するクラスタに加えるべきではないことを示している。
上述の近傍サンプルとクラスタリングに関与するサンプルとの類似度が類似度閾値以上であるということは、ベクトル空間における両者の距離が十分近く、同一のクラスクラスタにクラスタリングすることができることを示している。
このように、本実施形態では、クラスタリングアルゴリズムと上述の制約条件とを合わせることにより、クラスタリングに関与するサンプルを、制約条件を満たす複数のクラスクラスタにクラスタリングすることができる。
いくつかの可能な実施形態では、上述のクラスタリングアルゴリズムは、K平均(K-means)アルゴリズムであってもよく、K-meansアルゴリズムを例として以下で説明すると、このK-meansアルゴリズムを使用して、上述の制約条件と合わせて、クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行う実施形態は、以下のステップを含むことができる。
ステップ1において、クラスタリングに関与する複数のサンプルから一部を選択し、選択されたクラスタリングに関与する各サンプルを1つのクラスタリング中心とする。
ステップ2において、クラスタリング中心を除く、クラスタリングに関与する各サンプルについて、以下の第2判定条件が全て満たされた場合に、クラスタリングに関与するサンプルを最近距離のクラスタリング中心の属するクラスクラスタに加える。
上述の第2判例条件には、次のものが含まれる。
(1)最近距離のクラスタリング中心の属するクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいこと。
(2)最近距離のクラスタリング中心の属するクラスクラスタに、前回の反復処理の事前クラスタリングプロセスにおいて、クラスタリングに関与するサンプルと同一のクラスタリングに属していたサンプルが含まれていないこと。
いくつかの可能な実施形態では、第2判定条件のうちの少なくとも1つが満たされない場合、クラスタリングに関与するサンプルを、他のクラスタリング中心の属するクラスクラスタに加える。
上述の第2判定条件において、最近距離のクラスタリング中心の属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいため、各クラスクラスタに含まれるサンプルの数が多くなりすぎない(即ち、各クラスクラスタに含まれるサンプルの数がサンプル数閾値を超えない)ことが保証され、ラベリングが容易となる。最近距離のクラスタリング中心の属するクラスクラスタに、前回の反復処理の事前クラスタリングプロセスにおいて、クラスタリングに関与するサンプルと同一のクラスクラスタに属していたサンプルが含まれておらず、これは、ラベリングが行われるたびに、各クラスクラスタ内のサブクラスタが相互排他的であり、且つ各サブクラスタについて1つの代表的なサンプルのみが選択されて次のラウンドに進むため、2つのサンプルが前のラウンドで同一のクラスクラスタに区分されたということが、前のラウンドのラベリングプロセスで必ず相互排他的で異なるサブクラスタに属することを意味し、即ち、前回の反復処理において、両者が共にいられないとラベリングされているサンプルであるからである。
いくつかの可能な実施形態では、上述の収束条件は、各クラスクラスタに含まれるサンプルの数が全て、前記サンプル数閾値よりも小さいことを含む。
本実施形態では、各クラスクラスタに含まれるサンプルの数が全て、前記サンプル数閾値Kよりも小さいということは、クラスクラスタに含まれるサンプルの個数閾値の制限により、本来集まるべきサンプルが複数のクラスクラスタに分散されてしまうことが存在せず、即ち本来集まるべきサンプルが既に同一のクラスクラスタに存在しており、リアルクラスタが形成されていることを示している。
いくつかの可能な実施形態では、上述の回数閾値は、サンプル数閾値と、1回目の反復プロセスにおけるクラスタリングに関与するサンプルの数とによって決定される。
具体的に、回数閾値は、1回目の反復プロセスにおいてクラスタリングに関与するサンプルn引く1をサンプル数閾値K引く1で割った結果であり、即ち
であり、反復回数が閾値に達したとき、全ての場合がトラバーサルされたことを示す。
いくつかの可能な実施形態では、上述のサブクラスタは、1つの代表的なサンプルと少なくとも1つの非代表的なサンプルとを含み、
ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することは、
各クラスクラスタに対するラベリング情報中の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとした後に、
代表的なサンプルについて、前回の反復プロセスにおいて、代表的なサンプルと同じサブクラスタに属する非代表的なサンプルを決定することと、
決定された非代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタを、代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタと同じであると決定することと、を含む。
ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することは、
各クラスクラスタに対するラベリング情報中の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとした後に、
代表的なサンプルについて、前回の反復プロセスにおいて、代表的なサンプルと同じサブクラスタに属する非代表的なサンプルを決定することと、
決定された非代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタを、代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタと同じであると決定することと、を含む。
本実施形態では、非代表的なサンプルを代表的なサンプルの最新のサブクラスタと一致させ、代表的なサンプルを選択することにより、全てのサンプルがクラスタリングに関与するようにし、サンプル全体に基づくリアルクラスタを得ることにより、評価の精度を向上させる。
図3は、本開示のもう1つの実施例における人工知能によるデータラベリング方法を実現するフローチャート概略図である。図3に示すように、いくつかの可能な実施形態では、サンプル数n=1000、クラスクラスタ内の最大サンプル数K=10を例として説明する。
人工知能によるデータラベリング方法は、以下のステップを含む。
S301において、ラベリング対象サンプルを取得する。
例えば、1000個のラベリング対象サンプルを取る。
S302において、ラベリング対象サンプルのベクトル表現を取得する。
例えば、1000個のラベリング対象サンプルをそれぞれ知識が強化されたセマンティック表現(ERNIE,Enhanced Representation fromkNowledge IntEgration)モデルに入力し、各ラベリング対象サンプルのベクトル表現を得る。
S303において、サンプルのクラスタリングラベリング情報を初期化する。
具体的に、各サンプルの本ラウンドの、事前クラスタリングにより生成されるクラスクラスタ番号cluster_idを空と初期化し、本ラウンドの、ラベリングされるサブクラスタ番号cluster_sub_idを空と初期化し、各サンプルの前のラウンドの事前クラスタリングにより生成されたクラスクラスタ番号pre_cluster_idと前のラウンドのラベリングされたサブクラスタ番号pre_cluster_sub_idをそれぞれ、相互に異なる数値となるように初期化する。また、各サンプルに、そのサンプルが、属するサブクラスタ内の代表的なサンプルであるか否かを示すための標識is_main_sampleのようなパラメータを設定し、例えば、is_main_sampleを1と初期化すると、全てのサンプルは最初のラウンドの際にクラスタリングに関与する必要があるサンプルであることを示す。
S304において、クラスタリングアルゴリズムのパラメータを初期化する。
例えば、ラベリング際の各クラスクラスタの最大サンプル数Kを10と初期化し、類似度閾値をTと初期化する。
S305において、クラスタリングに関与するサンプルを決定する。
具体的に、is_main_sampleが1であるサンプルをクラスタリングに関与するサンプルとして決定することで、全てのサンプルのis_main_sampleが1に初期化されたため、即ち、全てのサンプルが第1ラウンドのクラスタリングに関与する。
S306において、前のラウンドのクラスタリング情報を更新する。
具体的に、サンプルのcluster_idが空でない場合、cluster_idの値をpre_cluster_idに割り当て、即ち、pre_cluster_idの値をcluster_idの値と等しい値に設定し、サンプルのcluster_sub_idが空でない場合、cluster_sub_idの値をpre_cluster_sub_idに割り当て、即ち、pre_cluster_sub_idの値をcluster_sub_idと等しい値に設定する。最初のラウンドの反復では、cluster_id、cluster_sub_idが空に初期化されるため、このステップはスキップされる。
S307において、事前クラスタリングを行う。
具体的に、事前クラスタリングは、密度ピーク(density peaks)アルゴリズムを使用して、制約条件と合わせて、各サンプルのcluster_idを得ることができる。あるいは、プリクラスタリングは、K-meansアルゴリズムを使用して、制約条件と合わせて、各サンプルのcluster_idを得ることができる。
密度ピークアルゴリズムを使用して制約条件を組み合わせることを例にすると、具体的なプロセスは、
クラスタリングに関与する各サンプルの密度を決定することと、
密度が大きい順に、各々のクラスタに関与するサンプルに対してそれぞれ、クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルとクラスタリングに関与するサンプルとの類似度が大きい順に、各々の近傍サンプルを順次トラバーサルし、下記の第1判定条件が全て満たされた場合に、近傍サンプルの属するクラスクラスタに、クラスタリングに関与するサンプルを加えることと、を実行することと、を含み、ここで、第1判定条件は、
近傍サンプルの密度がクラスタリングに関与するサンプルの密度よりも大きいことと、
近傍サンプルが属するクラスタが存在していることと、
近傍サンプルとクラスタリングに関与するサンプルとの類似度が類似度閾値以上であることと、
近傍サンプルの属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいことと、
近傍サンプルとクラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスタリングに属していたことと、を含む。
クラスタリングに関与する各サンプルの密度を決定することと、
密度が大きい順に、各々のクラスタに関与するサンプルに対してそれぞれ、クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルとクラスタリングに関与するサンプルとの類似度が大きい順に、各々の近傍サンプルを順次トラバーサルし、下記の第1判定条件が全て満たされた場合に、近傍サンプルの属するクラスクラスタに、クラスタリングに関与するサンプルを加えることと、を実行することと、を含み、ここで、第1判定条件は、
近傍サンプルの密度がクラスタリングに関与するサンプルの密度よりも大きいことと、
近傍サンプルが属するクラスタが存在していることと、
近傍サンプルとクラスタリングに関与するサンプルとの類似度が類似度閾値以上であることと、
近傍サンプルの属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいことと、
近傍サンプルとクラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスタリングに属していたことと、を含む。
第1判定条件の少なくとも1つが満たされない場合に、クラスタリングに関与するサンプルを含む新たなクラスクラスタを構築する。
例えば、上述のように、最初のラウンドのクラスタリング後、クラスタリングに関与した1000個のサンプルを100個のクラスクラスタに区分して、クラスタリングに関与したサンプルごとにcluster_idを得、各クラスクラスタ内のサンプルの数が10個以下となる。
S308において、ラベリング情報に基づいてサブクラスタを区分する。
具体的に、各クラスクラスタに対してラベリングを行い、ラベリング規格に基づいて、相互排他的な複数のサブクラスタに区分して、各サブクラスタに、サブクラスタ番号cluster_sub_idを付与し(サブクラスタ番号は、その属するクラスクラスタのクラスクラスタ番号の情報を含むことができ、例えば、クラスクラスタ番号が1であれば、含まれる各サブクラスタのサブクラスタ番号は1_1、1_2、1_3とすることができるので、次のラウンドのラベリングの際に、サブクラスタ番号から直接、属するクラスクラスタのクラスクラスタ番号を取得することが容易となる)。同時に、各サブクラスタについて1つのサンプルが代表的なサンプルとして決定され、is_main_sample=1とラベリングされ、その他のサンプルは、非代表的なサンプルとなり、is_main_sampleには0とラベリングすることができる。
例えば、1回目の反復結果は、以下の表1に示すように、1000個のサンプルが100個のサブクラスタに事前クラスタリングされ、ラベリング情報に基づいて、各サブクラスタは2つのサブクラスタに区分され、各サブクラスタには1つの代表的なサンプルと複数の非代表的なサンプルが含まれる。全ての代表的なサンプルは、次回の反復プロセスに進み、引き続きクラスタリングに関与する。非代表的なサンプルについては、次回の反復プロセスに進むことはないが、属するサブクラスタ内の代表的なサンプルに伴ってクラスタリングすることができる。
S309において、非代表的なサンプルのサブクラスタを更新する。
具体的に、前のラウンドで同じcluster_sub_idのサンプルのうち、is_main_sample=0のcluster_sub_idの値を、本ラウンドのクラスタリングに関与する代表的なサンプルのcluster_sub_idに割り当てる。
例えば、表1を参照すると、1回目の反復プロセスにおいてサブクラスタ1-1は形成され、ここで、サンプル1はサブクラスタ1‐1内の代表的なサンプルであり、サンプル2~5はサブクラスタ1-1内の非代表的なサンプルであり、サンプル1は2回目反復プロセスに進み、2回目反復プロセスにおいて、サンプル1がサブクラスタTに区分されると、サンプル2~5もサブクラスタTに区分され、サンプル2~5のcluster_sub_idはサンプル1のcluster_sub_idと等しく設定される。
S310において、収束条件が満たされるか、又は反復回数が回数閾値に達するか否かを判定し、NOと判定した場合(即ち、収束条件が満たされておらず、又は反復回数が回数閾値に達していない場合)、ステップS305に戻って実行する一方、YESと判定した場合(即ち、収束条件が満たされたか、又は反復回数が回数閾値に達した場合)、クラスタリング結果を出力する。具体的に、各サンプルが属するサブクラスタ番号(cluster_sub_id)をクラスタリング結果とすることができる。
具体的に、同じcluster_sub_idとラベリングされたサンプルを1つのクラスタとしてクラスタリング結果を得る。
次に上述の反復プロセスを、例を挙げながら詳細に説明する。
1回目の反復結果を上述の表1に示すものとする場合、2回目反復プロセスにおいて、クラスタリングに関与するサンプルは、1回目の反復プロセスにおいて決定された代表的なサンプルであり、即ち表1中のサンプル1、6、11、・・・996で計200個である。なお、各クラスクラスタにおけるサブクラスタは相互排他的なものであり、サブクラスタの個数が2個に限られず、1以上の任意の整数であってもよいが、説明の便宜上、表1、表2の各クラスクラスタのサブクラスタがいずれも2個を例に挙げられている。
2回目反復の結果は次回のようになる。
1回目の反復の事前クラスタリングプロセスにおいて同一のクラスクラスタに区分されたサンプルは、2回目反復プロセスにおいて同一のクラスクラスタに区分されるべきではない。
各反復には、以下の2つのステップを含む。第1ステップにおいて、クラスタリングアルゴリズムを使用して、クラスタリングに関与するサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを形成し、クラスクラスタのサイズの制限及びクラスタリングアルゴリズム自体の制限などのため、事前クラスタリングによって区分されたクラスタリングはリアルな分類状況を表すことができない。第2ステップにおいて、ラベリング情報に基づいて各クラスクラスタを再区分し、各クラスクラスタを少なくとも1つの相互排他的なサブクラスタに区分する。ラベリング情報は、人手によって、各クラスクラスタをラベリング基準に基づいて行われた区分により、各クラスクラスタを少なくとも1つの相互排他的なサブクラスタに区分し、ラベリング基準が、業務ごとに設定することができる。第2ステップは、第1ステップを修正したものと考えることができることが分かる。
上述の内容に基づいて、上述表1及び表2と合わせてさらに例を挙げて説明すると、表1に示すように、1回目の反復の事前クラスタリングプロセスにおいて、サンプル1とサンプル6は同一のクラスクラスタ(即ちクラスクラスタ1)に区分され、その後、ラベリング情報に基づいて、サンプル1及びサンプル6は、相互排他的なサブクラスタに区分され、即ち、サンプル1はサブクラスタ1-1に属し、サンプル6はサブクラスタ1-2に属する。1回目の反復プロセスにおいて、第2ステップは、第1ステップのクラスタリング結果を修正し、即ち、第1ステップでクラスクラスタ1に区分されたサンプル(表1中のクラスクラスタ1においてサンプル1~10が含まれる)を異なるサブクラスタに区分したと考えることができる。そして、異なるサブクラスタに区分された代表的なサンプルは、次回の反復に進むときに、同一のクラスクラスタに区分されるべきではなく、前述の制限は、本開示の実施例に提出された制限条件によって実現することができる。表2に示すように、サンプル1及びサンプル6は、2回目反復に進むと、事前クラスタリングプロセスにおいて、異なるクラスタリングに区分される。
以上、代表的なサンプルに対する処理方法を例示したが、非代表的なサンプルに対する処理方法は以下のとおりである。
表1及び表2を例にすると、1回目の反復では、サブクラスタ2-1には5つのサンプル、即ちサンプル11、12、13、14、15が含まれ、ここで、サンプル11は代表的なサンプルであり、サンプル12~15は非代表的なサンプルである。2回目反復では、サンプル11は、代表的なサンプルとして、クラスタリングに再関与し(事前クラスタリングとラベリング情報による区分との2つのステップを含む)、サンプル11はサブクラスタ1-1に区分され、このときサンプル11の属するサブクラスタをサブクラスタ1-1とすると、1回目の反復においてサンプル11と同一のサブクラスタに属していた非代表的なサンプル(即ちサンプル12~15)は、2回目反復において属するサブクラスタもサブクラスタ1-1に更新される。即ち、各反復において、非代表的なサンプルは、前回の反復において同一のサブクラスタに属していた代表的なサンプルに伴ってクラスタリング処理を行う。
以上の処理方式に基づいて各ラウンドの反復が終了した後、収束条件が満たされるか否かを判定し、即ち全てのクラスクラスタにおけるサンプルの数が10個よりも小さいか、反復回数が回数閾値
に達するかを判定する。両者ともが満たされていない場合に、引き続き次のラウンドの反復を行い、2つのうちの一方が満たされた場合に、各クラスクラスタに対するラベリング情報に基づいてクラスタリング結果を決定する。
以上の内容に基づいて、ラベリングの複雑度を分析することができ、サンプル数をn、サンプル数閾値をK、反復回数を
1つクラスクラスタ内のラベリング複雑度をC2kと定義することができ、即ち各クラスクラスタ中の全てのサンプルが2つずつラベリングする必要がある。一般に、ラベリングコストを考慮すると、クラスタリングのテスト集合は大きくならず、n=2000とし、また、クラスタに基づくラベリングについてラベリング担当者がクラスクラスタ全体を大まかに理解している必要があることを考慮すると、Kは20程度とし、総合してn=2000、K=20、m=3とする。ここでは、いくつかの極端な状況について分析する。
1.リアルな最大クラスタのサイズはKを超えず、最初のラウンドの事前クラスタリングの後に終了条件に達し、ラベリングの複雑度は、最大C2k*n/K=n*(K-1)/2であり、ここで、サンプル数を各クラスタのサンプル数閾値で割ったn/Kで最大のクラスクラスタ数を得、即ち最大100個のクラスクラスタであり、C2kは各クラスタ内のサンプルを2つずつ比較する必要があり、即ち、本方法の複雑度は19000であり、この場合、強制ラベリングのC2n複雑度が1,999,000であると比較すると、強制ラベリングは本方法の(n-1)/(K-1)≒105倍である。
2.全てのデータは同一のクラスタに属しており、合計mラウンドにラベリングする必要があり、ラウンドごとに生成されるクラスクラスタの数はn/K、n/K^2、…1、ラベリングの複雑度はC2k*(n/K+n/K^2+…+n/K^(m-1))であり、極端な場合、全てのデータは同一のクラスタに属し、事前クラスタリングの各ラウンド後は区分できないため、クラスタリングの各ラウンドとラベリングの後は100個のクラスクラスタのままである。各ラウンドのラベリングの複雑度はC2kであり、従って、最大複雑度はC2k*m*n/K=m*n*(K-1)/2=57000と表すことができる。この場合、強制ラベリングのC2n複雑度と比較すると、強制ラベリングは本方法の(n-1)/(m*(K-1))≒35倍である。
3.ラベリングの複雑度が最大の場合は、サンプルの2つずつの間の類似度又は距離がいずれも閾値を満たすが、相互に集まることができず、本方法では、ラベリングのラウンドごとに、n*(K-1)種の可能性を減らすことができるため、ラベリングのラウンドごとにn/K個のクラスクラスタを、(n-1)/(K-1)ラウンドにラベリングする必要があり、この場合のラベリングコストは、C2k*(n/k)*(n-1)/(K-1)=n*(n-1)/2であり、強制ラベリングの複雑度と同様に、C2n回である。しかし、実際の業務のテストクラスタリングデータ集合では一般的にこのようなことはないが、このような特殊な場合を除いて、本方法のラベリングの複雑度は2つずつラベリングの方法よりも低い。
図4本開示の一実施形態に係るクラスタリング装置の構成図である。図4に示されるクラスタリング装置400は、
クラスタリングに関与する複数のサンプルを決定するためのスクリーニングモジュール410と、
スクリーニングモジュール410又は処理モジュール430によって決定されたクラスタリングに関与する各サンプルのベクトル表現に基づいて、クラスタリングに関与する複数のサンプルを事前クラスタリングして、それぞれが少なくとも1つのクラスタリングに関与するサンプルを含む複数のクラスクラスタを得るためのクラスタリングモジュール420と、
各クラスクラスタに対するラベリング情報を受信し、ラベリング情報に基づいてクラスタリングに関与する複数のサンプルを再決定し、反復処理を可能にするために、決定されたクラスタリングに関与する複数のサンプルをクラスタリングモジュール420に通知し、収束条件を満たすか、反復回数が回数閾値に達する場合に、各クラスクラスタに対するラベリング情報に基づいてクラスタリング結果を決定する処理モジュール430と、を備える。
クラスタリングに関与する複数のサンプルを決定するためのスクリーニングモジュール410と、
スクリーニングモジュール410又は処理モジュール430によって決定されたクラスタリングに関与する各サンプルのベクトル表現に基づいて、クラスタリングに関与する複数のサンプルを事前クラスタリングして、それぞれが少なくとも1つのクラスタリングに関与するサンプルを含む複数のクラスクラスタを得るためのクラスタリングモジュール420と、
各クラスクラスタに対するラベリング情報を受信し、ラベリング情報に基づいてクラスタリングに関与する複数のサンプルを再決定し、反復処理を可能にするために、決定されたクラスタリングに関与する複数のサンプルをクラスタリングモジュール420に通知し、収束条件を満たすか、反復回数が回数閾値に達する場合に、各クラスクラスタに対するラベリング情報に基づいてクラスタリング結果を決定する処理モジュール430と、を備える。
いくつかの可能な実施形態では、クラスクラスタに関するラベリング情報は、クラスクラスタに含まれる少なくとも1つのサブクラスタと、各サブクラスタ内の代表的なサンプルと、を含む、
処理モジュール430は、各クラスクラスタのラベル情報内の各サブクラスタ内の代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとするように構成される。
処理モジュール430は、各クラスクラスタのラベル情報内の各サブクラスタ内の代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとするように構成される。
いくつかの可能な実施形態では、上述のクラスタリングモジュール420は、
クラスタリングアルゴリズムを用い、制約条件と合わせて、事前クラスタリングによって得られた各クラスクラスタが制約条件を満たすように、クラスタリングに関与する複数のサンプルを事前クラスタリングを行うことに用いられる。
クラスタリングアルゴリズムを用い、制約条件と合わせて、事前クラスタリングによって得られた各クラスクラスタが制約条件を満たすように、クラスタリングに関与する複数のサンプルを事前クラスタリングを行うことに用いられる。
いくつかの可能な実施形態では、上述の制約条件は、
各クラスクラスタに含まれるクラスタリングに関与するサンプル数が、サンプル数閾値以下であることと、
各クラスクラスタに含まれるクラスタリングに関与する各サンプルが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属することとの少なくとも1つを含む。
各クラスクラスタに含まれるクラスタリングに関与するサンプル数が、サンプル数閾値以下であることと、
各クラスクラスタに含まれるクラスタリングに関与する各サンプルが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属することとの少なくとも1つを含む。
いくつかの可能な実施形態では、上述のクラスタリングモジュール420は、
クラスタに関与する個々のサンプルの密度を決定することと、
密度が大きい順に、各々のクラスタに関与するサンプルに対して、それぞれ、クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルとクラスタリングに関与するサンプルとの類似度が大きい順に、各近傍サンプルを順次トラバーサルし、第1判定条件が全て満たされた場合に、近傍サンプルの属するクラスクラスタに、クラスタリングに関与するサンプルを加えることと、を実行することと、に用いられ、この第1判定条件は、
近傍サンプルの密度がクラスタリングに関与するサンプルの密度よりも大きいことと、
近傍サンプルの属するクラスクラスタが存在していることと、
近傍サンプルとクラスタリングに関与するサンプルとの類似度が類似度閾値以上であることと、
近傍サンプルの属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいことと、
近傍サンプルと前記クラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していたことと、を含む。
クラスタに関与する個々のサンプルの密度を決定することと、
密度が大きい順に、各々のクラスタに関与するサンプルに対して、それぞれ、クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルとクラスタリングに関与するサンプルとの類似度が大きい順に、各近傍サンプルを順次トラバーサルし、第1判定条件が全て満たされた場合に、近傍サンプルの属するクラスクラスタに、クラスタリングに関与するサンプルを加えることと、を実行することと、に用いられ、この第1判定条件は、
近傍サンプルの密度がクラスタリングに関与するサンプルの密度よりも大きいことと、
近傍サンプルの属するクラスクラスタが存在していることと、
近傍サンプルとクラスタリングに関与するサンプルとの類似度が類似度閾値以上であることと、
近傍サンプルの属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいことと、
近傍サンプルと前記クラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していたことと、を含む。
いくつかの可能な実施形態では、上述クラスタリングモジュール420は、第1判定条件のうちの少なくとも1つが満たされない場合に、クラスタリングに関与するサンプルを含む新たなクラスクラスタを構築することにさらに用いられる。
いくつかの可能な実施形態では、上述のクラスタリングモジュール420は、
クラスタリングに関与する複数のサンプルから一部を選択し、選択されたクラスタリングに関与する各サンプルを1つのクラスタリング中心とすることと、
クラスタリング中心を除く、クラスタリングに関与する各サンプルについて、第2判定条件が全て満たされた場合に、最近距離のクラスタリング中心の属するクラスクラスタに、クラスタリングに関与するサンプルを加えることと、に用いられ、
ここで、前記第2判定条件は、
最近距離のクラスタリング中心の属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいことと、
最近距離のクラスタリング中心の属するクラスクラスタに、前回の反復処理の事前クラスタリングプロセスにおいて、クラスタリングに関与するサンプルと同一のクラスクラスタに属していたサンプルが含まれていないことと、を含む。
クラスタリングに関与する複数のサンプルから一部を選択し、選択されたクラスタリングに関与する各サンプルを1つのクラスタリング中心とすることと、
クラスタリング中心を除く、クラスタリングに関与する各サンプルについて、第2判定条件が全て満たされた場合に、最近距離のクラスタリング中心の属するクラスクラスタに、クラスタリングに関与するサンプルを加えることと、に用いられ、
ここで、前記第2判定条件は、
最近距離のクラスタリング中心の属するクラスクラスタに含まれるサンプルの数がサンプル数閾値よりも小さいことと、
最近距離のクラスタリング中心の属するクラスクラスタに、前回の反復処理の事前クラスタリングプロセスにおいて、クラスタリングに関与するサンプルと同一のクラスクラスタに属していたサンプルが含まれていないことと、を含む。
いくつかの可能な実施形態では、上述クラスタリングモジュール420は、第2判定条件のうちの少なくとも1つが満たされない場合に、クラスタリングに関与するサンプルを、他のクラスタリング中心の属するクラスクラスタに加えることにさらに用いられる。
いくつかの可能な実施形態では、上述の収束条件は、各クラスクラスタに含まれるサンプル数が全てサンプル数閾値よりも小さいことを含む。
いくつかの可能な実施形態では、上述の回数閾値は、サンプル数閾値と、1回目の反復プロセスにおける前記クラスタリングに関与するサンプルの数とによって決定される。
いくつかの可能な実施形態では、前記サブクラスタは、1つの代表的なサンプルと少なくとも1つの非代表的なサンプルとを含み、
処理モジュール430は、
代表的なサンプルについて、前回の反復プロセスにおいて代表的なサンプルと同じサブクラスタに属する非代表的なサンプルを決定することと、
決定された非代表的なサンプルが今回の反復処理において属するサブクラスタを、代表的なサンプルが今回の反復処理において属するサブクラスタと同一であると決定することと、にさらに用いられる。
処理モジュール430は、
代表的なサンプルについて、前回の反復プロセスにおいて代表的なサンプルと同じサブクラスタに属する非代表的なサンプルを決定することと、
決定された非代表的なサンプルが今回の反復処理において属するサブクラスタを、代表的なサンプルが今回の反復処理において属するサブクラスタと同一であると決定することと、にさらに用いられる。
いくつかの可能な実施形態では、上述のクラスタリングに関与するサンプルは、画像サンプル又はテキストサンプルを含む。
本開示の実施例に係るデータ処理装置の各モジュール、サブモジュールの具体的な機能及び例の説明は、上述した人工知能によるデータラベリング方法の実施例における対応するステップの説明を参照することができるので、ここでは省略する。
本開示の技術案において、関連するユーザの個人情報の取得、保存及び応用等は、いずれも関連法律法規の規定に合致しており、公序良俗に反するものではない。
本開示の実施例によれば、本開示は、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図5は、本開示の実施形態を実現するための電子デバイス500のブロック図である。電子デバイスは、各形式のデジタルコンピュータを指し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適合するコンピュータが挙げられる。電子デバイスは、各形式の移動装置を更に指し、例えば、パーソナルデジタルアシスタント、セルラー電話、インテリジェントフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置が挙げられる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本開示に記載・特定されているものの実現を限定するわけではない。
図5に示すように、デバイス500は、リードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム命令、又は記憶ユニット508からランダムアクセスメモリ(RAM)503にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット501を含む。RAM503には、デバイス500の動作に必要な各種のプログラム及びデータを更に記憶することができる。計算ユニット501と、ROM502と、RAM503とは、バス504を介して互いに接続されている。入力/出力(I/O)インターフェース505もバス504に接続されている。
デバイス500における複数のコンポーネントは、I/Oインターフェース505に接続されており、その複数のコンポーネントは、キーボードやマウス等の入力ユニット506と、種々なディスプレイやスピーカ等の出力ユニット508と、磁気ディスクや光学ディスク等の記憶ユニット508と、ネットワークカード、モデム、無線通信トランシーバー等の通信ユニット509と、を備える。通信ユニット509は、デバイス500がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介して他の機器と情報/データを交換することを許可する。
計算ユニット501は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を備えるが、これらに限定されない。計算ユニット501は、上述で説明された各方法及び処理、例えば人工知能によるデータラベリング方法を実行する。例えば、いくつかの実施形態では、人工知能によるデータラベリング方法を、記憶ユニット508のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部又は全ては、ROM502及び/又は通信ユニット509を介して、デバイス500にロード及び/又はインストールすることができる。コンピュータプログラムがRAM503にロードされて計算ユニット501によって実行される場合に、前述した人工知能によるデータラベリング方法の1つ又は複数のステップを実行することができる。追加可能に、他の実施形態では、計算ユニット501は、他の任意の適当な方式(例えば、ファームウェア)により人工知能によるデータラベリング方法を実行するように構成することができる。
ここで記載されているシステム又は技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/又は解釈される1つ又は複数のコンピュータプログラムにより実行することを含み得、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、該少なくとも1つの入力デバイス、及び該少なくとも1つの出力デバイスに転送することができる専用又は汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び/又はブロック図に規定された機能/動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよいし、部分的にマシンで実行されてもよいし、独立したソフトパッケージとして部分的にマシンで実行されるとともに部分的にリモートマシンで実行されてもよし、又は完全にリモートマシン又はサーバで実行されてもよい。
本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて用いられるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、1つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(RMO)、消去可能なプログラマブルリードオンリーメモリ(EPRMO又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD-RMO)、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータでここで記載されているシステム及び技術を実施することができ、該コンピュータは、ユーザに情報をラベリングするためのラベリング装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター等)、ユーザが入力をコンピュータに提供するためのキーボード及びポインティングデバイス(例えば、マウス又はトラックボール等)を備えるができる。ユーザとのインタラクションを提供するために、他の種類の装置を使用することもでき、例えば、ユーザに提供するフィードバックは、いかなる形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック等)であってもよく、また、いかなる形式(例えば、音響入力、音声入力、触覚入力等)によって、ユーザからの入力を受付取るができる。
ここに記載されているシステムと技術を、バックグラウンド部品に含まれる計算システム(例えば、データサーバとして)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロント部品を含む計算システム(例えば、GUI又はネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザがGUI又は該ネットワークブラウザによって、ここに記載されているシステムと技術の実施形態とインタラクションすることができる)、又は該ようなバックグラウンド部品、ミドルウェア部品、又はフロント部品のいかなる組合した計算システムで実施することができる。如何なる形式又はメディアのデジタルデータ通信(例えば、通信ネットワーク)を介して、システムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアントとサーバを含み得る。通常、クライアントとサーバは、互いに離れており、通信ネットワークを介してインタラクションを行うことが一般的である。対応するコンピュータで動作することで、クライアント-サーバの関係を有するコンピュータプログラムによってクライアントとサーバの関係を生み出す。
上述の様々な態様のフローを使用して、ステップを新たにソート、追加、又は削除することが可能であることを理解すべきである。例えば、本開示で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本開示で開示された技術案が所望する結果を実現することができる限り、本開示ではこれに限定されない。
上述具体的な実施形態は、本開示の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本開示の要旨及び原理原則内における変更、均等な置換及び改善等は、いずれも本開示の保護範囲に含まれるべきである。
Claims (27)
- クラスタリングに関与する複数のサンプルを決定することと、
反復処理を実現するために、収束条件が満たされるか、又は反復回数が回数閾値に達するまで、
前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得ることと、ここで、各前記クラスクラスタが少なくとも1つの前記クラスタリングに関与するサンプルを含み、
各前記クラスクラスタに対するラベリング情報を受信し、前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することと、を繰り返し実行することと、
前記収束条件が満たされるか、又は前記反復回数が回数閾値に達する場合、各前記クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定することと、を含む、
人工知能によるデータラベリング方法。 - クラスクラスタに対する前記ラベリング情報は、前記クラスクラスタに含まれる、少なくとも1つのサブクラスタと、各前記サブクラスタにおける代表的なサンプルと、を含み、
前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することは、各前記クラスクラスタに対するラベリング情報中の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとすることを含む、
請求項1に記載の人工知能によるデータラベリング方法。 - 前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことは、
クラスタリングアルゴリズムを使用して、制約条件と合わせて、事前クラスタリングによって得られた各クラスクラスタが前記制約条件を満たすように、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことを含む、
請求項2に記載の人工知能によるデータラベリング方法。 - 前記制約条件は、
各クラスクラスタに含まれる、クラスタリングに関与するサンプルの数がサンプル数閾値以下であるか、又は
各クラスクラスタに含まれる、クラスタリングに関与する各サンプルが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していたか、の少なくとも1つを含む、
請求項3に記載の人工知能によるデータラベリング方法。 - 前記クラスタリングアルゴリズムを使用して、制約条件と合わせて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことは、
前記クラスタリングに関与する各サンプルの密度を決定することと、
前記密度が大きい順に、前記クラスタリングに関与する各サンプルに対してそれぞれ、前記クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルと前記クラスタリングに関与するサンプルとの類似度が大きい順に、各々の前記近傍サンプルを順次トラバーサルし、第1判定条件が全て満たされた場合に、前記近傍サンプルの属するクラスクラスタに、前記クラスタリングに関与するサンプルを加えることと、を実行することと、を含み、
ここで、前記第1判定条件は、
前記近傍サンプルの密度が前記クラスタリングに関与するサンプルの密度よりも大きいことと、
前記近傍サンプルの属するクラスクラスタが存在していることと、
前記近傍サンプルと前記クラスタリングに関与するサンプルとの類似度が類似度閾値以上であることと、
前記近傍サンプルの属するクラスクラスタに含まれるサンプルの数が前記サンプル数閾値よりも小さいことと、
前記近傍サンプルと前記クラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していたことと、を含む、
請求項4に記載の人工知能によるデータラベリング方法。 - 前記人工知能によるデータラベリング方法は、
前記第1判定条件のうちの少なくとも1つが満たされない場合に、前記クラスタリングに関与するサンプルを含む新たなクラスクラスタを構築することをさらに含む、
請求項5に記載の人工知能によるデータラベリング方法。 - 前記クラスタリングアルゴリズムを使用して、制約条件と合わせて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことは、
前記クラスタリングに関与する複数のサンプルから一部を選択し、選択されたクラスタリングに関与する各サンプルを1つのクラスタリング中心とすることと、
前記クラスタリング中心を除く、前記クラスタリングに関与する各サンプルについて、第2判定条件が全て満たされた場合に、最近距離のクラスタリング中心の属するクラスクラスタに、前記クラスタリングに関与するサンプルを加えることと、を含み、
ここで、前記第2判定条件は、
前記最近距離のクラスタリング中心の属するクラスクラスタに含まれるサンプルの数が前記サンプル数閾値よりも小さいことと、
前記最近距離のクラスタリング中心の属するクラスクラスタに、前回の反復処理の事前クラスタリングプロセスにおいて、前記クラスタリングに関与するサンプルと同一のクラスクラスタに属していたサンプルが含まれていないことと、を含む、
請求項4に記載の人工知能によるデータラベリング方法。 - 前記人工知能によるデータラベリング方法は、
前記第2判定条件のうちの少なくとも1つが満たされない場合に、前記クラスタリングに関与するサンプルを、他のクラスタリング中心の属するクラスクラスタに加えることをさらに含む、
請求項7に記載の人工知能によるデータラベリング方法。 - 前記収束条件は、各前記クラスクラスタに含まれるサンプルの数が全て前記サンプル数閾値よりも小さいことを含む、
請求項4に記載の人工知能によるデータラベリング方法。 - 前記回数閾値は、前記サンプル数閾値と、1回目の反復プロセスにおける前記クラスタリングに関与するサンプルの数とによって決定される、
請求項4に記載の人工知能によるデータラベリング方法。 - 前記サブクラスタは、1つの前記代表的なサンプルと少なくとも1つの非代表的なサンプルとを含み、
前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定することは、
前記クラスクラスタに対するラベリング情報中の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとした後に、
前記代表的なサンプルについて、前回の反復プロセスにおいて、前記代表的なサンプルと同じサブクラスタに属した非代表的なサンプルを決定することと、
決定された非代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタを、前記代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタと同じであると決定することと、をさらに含む、
請求項2に記載の人工知能によるデータラベリング方法。 - 前記クラスタリングに関与するサンプルは、画像サンプル又はテキストサンプルを含む、
請求項1から請求項11までのいずれか1項に記載の人工知能によるデータラベリング方法。 - クラスタリングに関与する複数のサンプルを決定するためのスクリーニングモジュールと、
クラスタリングモジュールと、
処理モジュールと、を備え、
前記クラスタリングモジュールと、前記処理モジュールとは、反復処理を実現するために、収束条件が満たされるか、又は反復回数が回数閾値に達するまで、前記クラスタリングモジュールが前記スクリーニングモジュール又は前記処理モジュールによって決定された前記クラスタリングに関与する各サンプルのベクトル表現に基づいて、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行い、複数のクラスクラスタを得ることと、前記処理モジュールが各前記クラスクラスタに対するラベリング情報を受信し、前記ラベリング情報に基づいて、クラスタリングに関与する複数のサンプルを再決定し、決定されたクラスタリングに関与する複数のサンプルを前記クラスタリングモジュールに通知することと、を繰り返し実行することに用いられ、
前記処理モジュールはさらに、前記収束条件を満たすか、又は前記反復回数が回数閾値に達する場合に、各前記クラスクラスタに対するラベリング情報に基づいて、クラスタリング結果を決定することに用いられ、
ここで、各前記クラスクラスタが少なくとも1つの前記クラスタリングに関与するサンプルを含む、
人工知能によるデータラベリング装置。 - クラスクラスタに対する前記ラベリング情報は、前記クラスクラスタに含まれる、少なくとも1つのサブクラスタと、各前記サブクラスタにおける代表的なサンプルと、を含み、
前記処理モジュールは、各前記クラスクラスタに対するラベリング情報中の各サブクラスタにおける代表的なサンプルを、再決定されたクラスタリングに関与する複数のサンプルとすることに用いられる、
請求項13に記載の人工知能によるデータラベリング装置。 - 前記クラスタリングモジュールは、
クラスタリングアルゴリズムを使用して、制約条件と合わせて、事前クラスタリングによって得られた各クラスクラスタが前記制約条件を満たすように、前記クラスタリングに関与する複数のサンプルに対して事前クラスタリングを行うことに用いられる、
請求項14に記載の人工知能によるデータラベリング装置。 - 前記制約条件は、
各クラスクラスタに含まれる、クラスタリングに関与するサンプルの数がサンプル数閾値以下であるか、又は
各クラスクラスタに含まれる、クラスタリングに関与する各サンプルが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していたか、の少なくとも1つを含む、
請求項15に記載の人工知能によるデータラベリング装置。 - 前記クラスタリングモジュールは、
前記クラスタリングに関与する各サンプルの密度を決定することと、
前記密度が大きい順に、前記クラスタリングに関与する各サンプルに対してそれぞれ、前記クラスタリングに関与するサンプルの複数の近傍サンプルを決定することと、近傍サンプルと前記クラスタリングに関与するサンプルとの類似度が大きい順に、各前記近傍サンプルを順次トラバーサルし、第1判定条件が全て満たされた場合に、前記近傍サンプルの属するクラスクラスタに、前記クラスタリングに関与するサンプルを加えることと、を実行することと、に用いられ、
ここで、前記第1判定条件は、
前記近傍サンプルの密度が前記クラスタリングに関与するサンプルの密度よりも大きいことと、
前記近傍サンプルの属するクラスクラスタが存在していることと、
前記近傍サンプルと前記クラスタリングに関与するサンプルとの類似度が類似度閾値以上であることと、
前記近傍サンプルの属するクラスクラスタに含まれるサンプルの数が前記サンプル数閾値よりも小さいことと、
前記近傍サンプルと前記クラスタリングに関与するサンプルとが、前回の反復処理の事前クラスタリングプロセスにおいて、異なるクラスクラスタに属していたことと、を含む、
請求項16に記載の人工知能によるデータラベリング装置。 - 前記クラスタリングモジュールは、
前記第1判定条件のうちの少なくとも1つが満たされない場合に、前記クラスタリングに関与するサンプルを含む新たなクラスクラスタを構築することにさらに用いられる、
請求項17に記載の人工知能によるデータラベリング装置。 - 前記クラスタリングモジュールは、
前記クラスタリングに関与する複数のサンプルから一部を選択し、選択されたクラスタリングに関与する各サンプルを1つのクラスタリング中心とすることと、
前記クラスタリング中心を除く、前記クラスタリングに関与する各サンプルについて、第2判定条件が全て満たされた場合に、最近距離のクラスタリング中心の属するクラスクラスタに、前記クラスタリングに関与するサンプルを加えることと、に用いられ、
ここで、前記第2判定条件は、
前記最近距離のクラスタリング中心の属するクラスクラスタに含まれるサンプルの数が前記サンプル数閾値よりも小さいことと、
前記最近距離のクラスタリング中心の属するクラスクラスタに、前回の反復処理の事前クラスタリングプロセスにおいて、前記クラスタリングに関与するサンプルと同一のクラスクラスタに属していたサンプルが含まれていないことと、を含む、
請求項16に記載の人工知能によるデータラベリング装置。 - 前記クラスタリングモジュールは、
前記第2判定条件のうちの少なくとも1つが満たされない場合に、前記クラスタリングに関与するサンプルを、他のクラスタリング中心の属するクラスクラスタに加えることにさらに用いられる、
請求項19に記載の人工知能によるデータラベリング装置。 - 前記収束条件は、各前記クラスクラスタに含まれるサンプルの数が全て前記サンプル数閾値よりも小さいことを含む、
請求項16に記載の人工知能によるデータラベリング装置。 - 前記回数閾値は、前記サンプル数閾値と、1回目の反復プロセスにおける前記クラスタリングに関与するサンプルの数とによって決定される、
請求項16に記載の人工知能によるデータラベリング装置。 - 前記サブクラスタは、1つの前記代表的なサンプルと少なくとも1つの非代表的なサンプルとを含み、
前記処理モジュールは、
前記代表的なサンプルについて、前回の反復プロセスにおいて、前記代表的なサンプルと同じサブクラスタに属した非代表的なサンプルを決定することと、
決定された非代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタを、前記代表的なサンプルが今回の反復プロセスにおいて属するサブクラスタと同じであると決定することと、にさらに用いられる、
請求項14に記載の人工知能によるデータラベリング装置。 - 前記クラスタリングに関与するサンプルは、画像サンプル又はテキストサンプルを含む、
請求項13から請求項23までのいずれか1項に記載の人工知能によるデータラベリング装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、請求項1から請求項11のいずれか1項に記載の人工知能によるデータラベリング方法を実行させる、
電子デバイス。 - コンピュータに請求項1から請求項11のいずれか1項に記載の人工知能によるデータラベリング方法を実行させる命令を記憶するための非一時的なコンピュータ可読記憶媒体。
- コンピュータにおいて、プロセッサにより実行されると、請求項1から請求項11のいずれか1項に記載の人工知能によるデータラベリング方法を実現するためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210335852.0 | 2022-03-31 | ||
CN202210335852.0A CN114662607B (zh) | 2022-03-31 | 2022-03-31 | 基于人工智能的数据标注方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023152270A true JP2023152270A (ja) | 2023-10-16 |
Family
ID=82034272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022125529A Pending JP2023152270A (ja) | 2022-03-31 | 2022-08-05 | 人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230316709A1 (ja) |
JP (1) | JP2023152270A (ja) |
CN (1) | CN114662607B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541731B (zh) * | 2023-05-26 | 2024-07-23 | 北京百度网讯科技有限公司 | 网络行为数据的处理方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010025950A1 (en) * | 2000-03-23 | 2001-10-04 | Cliff Gjerde | Multipurpose tool |
JP2018120320A (ja) * | 2017-01-24 | 2018-08-02 | 株式会社ディジタルメディアプロフェッショナル | 画像処理装置,画像処理方法,画像処理プログラム |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
JP2022506274A (ja) * | 2018-11-02 | 2022-01-17 | バルブ コーポレーション | テキストの分類およびモデレーション |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764319A (zh) * | 2018-05-21 | 2018-11-06 | 北京京东尚科信息技术有限公司 | 一种样本分类方法和装置 |
CN109815788B (zh) * | 2018-12-11 | 2024-05-31 | 平安科技(深圳)有限公司 | 一种图片聚类方法、装置、存储介质及终端设备 |
CN110232414A (zh) * | 2019-06-11 | 2019-09-13 | 西北工业大学 | 基于k近邻与共享近邻的密度峰值聚类算法 |
CN114118180A (zh) * | 2021-04-02 | 2022-03-01 | 京东科技控股股份有限公司 | 聚类方法、装置、电子设备及存储介质 |
CN113411645B (zh) * | 2021-06-16 | 2022-12-06 | 北京百度网讯科技有限公司 | 信息推荐方法及装置、电子设备和介质 |
CN114090769A (zh) * | 2021-10-14 | 2022-02-25 | 深圳追一科技有限公司 | 实体挖掘方法、装置、计算机设备和存储介质 |
-
2022
- 2022-03-31 CN CN202210335852.0A patent/CN114662607B/zh active Active
- 2022-08-05 JP JP2022125529A patent/JP2023152270A/ja active Pending
- 2022-09-02 US US17/902,323 patent/US20230316709A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010025950A1 (en) * | 2000-03-23 | 2001-10-04 | Cliff Gjerde | Multipurpose tool |
JP2018120320A (ja) * | 2017-01-24 | 2018-08-02 | 株式会社ディジタルメディアプロフェッショナル | 画像処理装置,画像処理方法,画像処理プログラム |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
JP2022506274A (ja) * | 2018-11-02 | 2022-01-17 | バルブ コーポレーション | テキストの分類およびモデレーション |
Non-Patent Citations (1)
Title |
---|
備瀬 竜馬: "内視鏡画像のソフト制約クラスタリングによるラベル付け簡略化", 情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2019−CVIM−21, JPN6023033954, 28 August 2019 (2019-08-28), JP, ISSN: 0005133763 * |
Also Published As
Publication number | Publication date |
---|---|
CN114662607B (zh) | 2024-07-05 |
US20230316709A1 (en) | 2023-10-05 |
CN114662607A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
EP3905126A2 (en) | Image clustering method and apparatus | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN108108743B (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
US20210150315A1 (en) | Fusing Multimodal Data Using Recurrent Neural Networks | |
CN111178380A (zh) | 数据分类方法、装置及电子设备 | |
US11741094B2 (en) | Method and system for identifying core product terms | |
WO2023019933A1 (zh) | 构建检索数据库的方法、装置、设备以及存储介质 | |
CN111027707A (zh) | 模型的优化方法、装置及电子设备 | |
JP2023152270A (ja) | 人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN115238676A (zh) | 招标需求热点识别方法、装置、存储介质及电子设备 | |
CN114332529A (zh) | 图像分类模型的训练方法、装置、电子设备及存储介质 | |
CN113612777A (zh) | 训练方法、流量分级方法、装置、电子设备以及存储介质 | |
CN114610953A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN110321435B (zh) | 一种数据源划分方法、装置、设备和存储介质 | |
CN114417964A (zh) | 卫星运营商分类方法、装置及电子设备 | |
CN114625876A (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN113239203A (zh) | 一种基于知识图谱的筛选方法及装置 | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
CN111046894A (zh) | 识别马甲账号的方法和装置 | |
CN113554041B (zh) | 一种对用户标记标签的方法和装置 | |
JP7558299B2 (ja) | 検索データベースを構築するための方法、装置、デバイス及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240312 |