JP7058797B2

JP7058797B2 - 不均衡標本データの前処理方法、装置及びコンピュータ機器

Info

Publication number: JP7058797B2
Application number: JP2021506496A
Authority: JP
Inventors: ユ，シウミン; ワン，ウェイ; シャオ，ジン
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-03
Filing date: 2018-12-24
Publication date: 2022-04-22
Anticipated expiration: 2038-12-24
Also published as: CN109325118A; SG11202100897SA; CN109325118B; JP2021533499A; US20210158078A1; WO2020048048A1; US11941087B2

Description

（関連出願の相互参照）
本願は、２０１８年９月３日に中国国家知識産権局に提出された、出願番号２０１８１１０１８９１３０、出願の名称「不均衡標本データの前処理方法、装置及びコンピュータ機器」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。

本願は、不均衡標本データの前処理方法、装置、コンピュータ機器、及び記憶媒体に関する。

コンピュータ技術及び社会の情報化の進展に伴い、実際の製造及び応用では、大量のデータに対してデータ処理を行う必要があり、取得した生データが不均衡データに属していることが多く、即ち、データセット標本空間全体のうち１クラスの標本と残りの１クラス又は複数のクラスの標本には、大きな差異がある。

現在、標本が不均衡である場合、即ち、２クラスのラベルに対応するデータ量の差異が非常に大きい場合には、標本量の少ないデータセットに対しては、一般的に、オーバーサンプリングを用いて標本を均衡させる。従来の、ＳＭＯＴＥアルゴリズムのようなオーバーサンプリングアルゴリズムで生成し得た新データは、Ｘ＿ｎｅｗ＝Ｘ＋ｒａｎｄ（０，１）＊（Ｘ＿ｍｅａｎ－Ｘ）に基づいて、（０，１）の間の新データとなる。

しかしながら、本発明者らは、現在、不均衡標本に対する従来の処理方法では、生成した新データが実データの基準を満たすことができず、標本が不均衡であるという問題も存在することに注意した。

本願の開示する様々な実施例によれば、不均衡標本データの前処理方法、装置、コンピュータ機器、及び記憶媒体を提供する。

不均衡標本データの前処理方法であって、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するステップと、前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップと、Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するステップと、第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するステップと、前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるステップと、を含む。

不均衡標本データの前処理装置であって、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するための分類モジュールと、前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するための抽出モジュールと、Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するための比率算出モジュールと、前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含む。

コンピュータ機器であって、メモリと１つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記プロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するステップと、前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップと、Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するステップと、第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するステップと、前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるステップと、を実行させる。

コンピュータ読取可能な命令が記憶された１つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、コンピュータ読取可能な命令は、１つ又は複数のプロセッサによって実行されるとき、１つ又は複数のプロセッサに、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するステップと、前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップと、Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するステップと、第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するステップと、前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるステップと、を実行させる。

本願の他の特徴及び利点は、明細書、添付の図面及び特許請求の範囲から明らかになる。

本願の実施例の技術的解決手段をより明確に説明するために、実施例を説明するのに必要な添付の図面を以下で簡単に紹介するが、明らかに、以下の説明において添付の図面は単に本願のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることもできる。
１つ又は複数の実施例に係る不均衡標本データの前処理方法の応用シーン図である。１つ又は複数の実施例に係る不均衡標本データの前処理方法のフローチャートである。１つ又は複数の実施例に係るＫ個の第１標本点に対して特徴分析を行って、追加データ特徴を取得するフローチャートである。１つ又は複数の実施例に係る不均衡標本データの前処理装置のブロック図である。１つ又は複数の実施例に係るコンピュータ機器のブロック図である。

本願の技術的解決手段及び利点をさらに明確にするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。なお、ここに記載された具体的な実施例は、あくまでも本願を解釈するためのものであり、本願を限定するものではない。

本願に係る不均衡標本データの前処理方法は、図１に示すような応用環境に適用することができる。端末１０２とサーバ１０４とは、ネットワークを介して通信を行う。サーバ１０４は、端末１０２から送信されたデータ取得要求を受信し、かつデータ取得要求に応じて初期データを取得する。予め設定された分類ルールに従って初期データを分類して、第１クラスの標本集合と第２クラスの標本集合とを取得する。第１クラスの標本集合における各標本集合の標本数はデータ量閾値よりも少なく、第２クラスの標本集合における各標本集合の数はデータ量閾値よりも大きい。第１クラスの標本集合におけるＫ個の第１標本点を抽出し、Ｋ個の第１標本点を特徴解析して、第１クラスの標本集合の追加データ特徴を取得する。第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ第１クラスのラベルに基づいて第１クラスの標本集合の追加データラベルを生成する。第１クラスの標本集合の数と第２クラスの標本集合の数をそれぞれ取得し、かつ第１クラスの標本集合の数と第２クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第１クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第１クラスの標本集合の数を増加させる。端末１０２は、様々なパーソナルコンピュータ、ノート型パーソナルコンピュータ、スマートフォン、タブレット型コンピュータ、及び携帯型ウェアラブルデバイスであってもよいが、それらに限定されないものであり、サーバ１０４は、別個のサーバであってもよいし、複数のサーバからなるサーバクラスタであってもよい。

一実施例では、図２に示すように、不均衡標本データの前処理方法を提供し、該方法を図１のサーバに適用した場合を例にして説明するが、以下のステップを含む。

Ｓ２０２、サーバは、端末から送信されたデータ取得要求を受信し、かつデータ取得要求に応じて初期データを取得する。

具体的には、異なるデータ取得要求が異なる初期データに対応し、サーバは、予め設定されたデータ取得要求と初期データとの対応関係に基づいて、端末から送信されたデータ取得要求に対応する初期データを取得することができる。データ取得要求が、データ識別子を搬送し、サーバは、データ識別子と初期データとの対応関係に基づいて、データ識別子に対応する初期データを取得することができる。

モデル化フェーズを例にすると、端末は、大量の標本データを取得してモデル確立を実現する必要があり、サーバは、端末から送信されたモデル化データ取得要求を受信し、かつモデル化データ取得要求が搬送するモデル化データ識別子を抽出し、予め設定されたモデル化データ識別子と初期データとの対応関係を取得し、モデル化データ識別子に対応する初期データを取得する。

サーバは、データ取得要求に応じてデータベースから生データを取得し、かつ生データに対応するデータタイプを取得する。予め設定されたデータタイプと処理方式との対応関係を取得し、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得する。

Ｓ２０４、サーバは、予め設定された分類ルールに従って初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得する。

具体的には、予め設定された分類ルールは、データ量閾値に基づいて初期データを分類するルールであり、サーバは、標本数がデータ量閾値よりも少ない初期データを第１クラスの標本集合に分け、標本数がデータ量閾値よりも多い初期データを第２クラスの標本集合に分ける。

モデル化フェーズを例にすると、取得可能な初期データが不均衡データに属していることが多く、即ち、データセット標本空間全体のうち１クラスの標本と残りの１クラス又は複数のクラスの標本とには、大きな差異がある。本実施例では、サーバは、予め設定されたデータ量閾値に基づいて、取得した初期データを分類して、第１クラスの標本集合、即ち、標本数がデータ量閾値よりも少ない初期データを得ることができる。サーバは、さらに、標本数がデータ量閾値よりも多い初期データを、第２クラスの標本集合に分けることもできる。

第１クラスの標本集合は、複数の第１標本点を含む複数の第１クラスの標本を含み、第１クラスの標本の数は、予め設定されたデータ量閾値よりも少ないため、第１クラスの標本集合は、少数クラス標本集合とも呼ばれ、その対応する標本は、少数クラス標本とも呼ばれ、第１標本点は、少数クラス標本点と呼ばれてもよい。第２クラスの標本集合は、複数の第２標本点を含む複数の第２クラスの標本を含み、第２クラスの標本の数は、予め設定されたデータ量閾値よりも大きいため、第２クラスの標本集合は、多数クラス標本集合とも呼ばれ、その対応する標本は、多数クラス標本とも呼ばれ、第２標本点は、多数クラス標本点と呼ばれてもよい。

Ｓ２０６、サーバは、第１クラスの標本集合におけるＫ個の第１標本点を抽出する。

具体的には、第１クラスの標本集合は、複数の第１標本点を含む複数の第１クラスの標本を含む。サーバは、第１クラスの標本集合から１つの標本集合を任意に抽出して、第１標本集合を得る。第１標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出し、かつ第１標本点を距離に応じて並び替えて、前Ｋ個の第１標本点を取得する。

サーバは、第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替え、ユークリッド距離の並び順に基づいて、前Ｋ個のユークリッド距離に対応する第１標本点を取得する。

ユークリッド距離は、ｍ次元空間における２つの点の間の実距離、又はベクトルの自然長、即ち、該点から原点までの距離を表す。しかしながら、二次元と三次元空間でのユークリッド距離は、二点の間の実際の距離である。算出されたユークリッド距離を小さい順に並べ、かつ並び順における前Ｋ個のユークリッド距離に対応する第１標本点を取得し、即ち、取得した第１標本点が、前Ｋ個の最小ユークリッド距離に対応する標本点である。

Ｓ２０８、サーバは、Ｋ個の第１標本点を特徴解析して、第１クラスの標本集合の追加データ特徴を取得する。

具体的には、サーバは、Ｋ個の第１標本点の特徴を抽出し、かつ特徴を解析処理して、特徴属性を取得する。特徴属性に基づいてＫ個の第１標本点をそれぞれ特徴抽出して、Ｋ個の第１標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成する。特徴属性は、第１標本点の備える特徴に対して解析処理を行った後に得られた第１標本点の特徴に関する属性を表し、特徴が属するクラス及び特徴の定義を含む。特徴抽出とは、コンピュータを用いて画像情報を抽出し、各画像の点が１つの画像特徴に属するか否かを決定するということである。

サーバは、得られた共通特徴に基づいて、対応する共通特徴組み合わせを形成する。異なる共通特徴組み合わせに含まれる共通特徴の数を算出し、算出された共通特徴の数の大きさに応じて共通特徴組み合わせを並び替えて、最大数に対応する共通特徴組み合わせを取得する。例えば、異なる共通特徴組み合わせに含まれる共通特徴の数は、４、５、３、６、２であり、並び替えた後に得られた共通特徴の数は、６、５、４、３、２であり、取得された最大数に対応する共通特徴組み合わせは、即ち、共通特徴の数が６であることに対応する共通特徴組み合わせである。サーバは、算出された最大数に対応する共通特徴組み合わせを取得し、かつ該共通特徴組み合わせに含まれる共通特徴を取得し、複数の共通特徴を追加データ特徴として、追加データ特徴は、追加された第１クラスの標本集合に含まれる標本データに対応する特徴である。

Ｓ２１０、サーバは、第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ第１クラスのラベルに基づいて第１クラスの標本集合の追加データラベルを生成する。

具体的には、サーバは、第１クラスの標本集合における第１クラスの標本を取得し、予め設定された第１クラスの標本と第１クラスのラベルとの対応関係に基づいて、第１クラスの標本に対応する第１クラスのラベルを取得する。第１クラスの標本集合は、複数の第１クラスの標本を含み、異なる第１クラスの標本は、異なる第１クラスのラベルに対応し、サーバは、第１クラスの標本と第１クラスのラベルとの対応関係に基づいて、異なる第１クラスの標本に対応する第１クラスのラベルをそれぞれ取得し、取得した第１クラスのラベルに基づいて、追加データラベルを生成することができる。追加データラベルは、第１クラスの標本集合に対して追加されたデータが搬送したラベルを示し、追加データラベル及び追加データ特徴に基づいて第１クラスの標本集合の追加データを生成することができる。

Ｓ２１２、サーバは、第１クラスの標本集合の数と第２クラスの標本集合の数をそれぞれ取得し、かつ第１クラスの標本集合の数と第２クラスの標本集合の数との比率を算出する。

Ｓ２１４、サーバは、追加データ特徴及び追加データラベルに基づいて第１クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第１クラスの標本集合の数を増加させる。

具体的には、サーバは、第１標本集合の数、即ち、第１標本集合における標本点の数を取得し、かつ第２クラスの標本集合の数、即ち、第２標本集合における標本点の数を取得し、かつ第１標本集合における標本点の数と第２標本集合における標本点の数との比率を算出し、算出された比率に基づいて、追加データの数を調整して、第１クラスの標本集合における標本点の数を増加させて、第１クラスの標本集合と第２クラスの標本集合が均衡状態となるようにする。サーバは追加データ特徴及び追加データラベルに基づいて第１クラスの標本集合の追加データを生成し、つまり、追加データは、追加データ特徴及び追加データラベルにより生成される。

サーバが取得した第１標本集合における標本点の数が２０であり、取得した第２標本集合における標本点の数が５０であり、第１クラスの標本集合の数と第２クラスの標本集合の数との比率が２：５であると算出され、算出された比率に基づいて、追加データの数を調整して、３０単位の追加データを生成して第１クラスの標本集合と第２クラスの標本集合との均衡を取ると共に、追加データが追加データ特徴と追加データラベルとによって生成される。

上記不均衡標本データの前処理方法において、サーバは、予め設定された分類ルールに従って初期データを分類し、第１クラスの標本集合と第２クラスの標本集合を取得する。Ｋ個の第１標本点を抽出して特徴解析を行い、取得された第１クラスの標本集合の追加データ特徴に基づいて第１クラスの標本集合の追加データラベルを生成する。第１クラスの標本集合の数と第２クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第１クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第１クラスの標本集合の数を増加させることにより、第１クラスの標本集合と第２クラスの標本集合の数が均衡状態になり、さらに、標本の不均衡問題が解決される。

一実施例では、図３に示すように、Ｋ個の第１標本点を特徴解析して、追加データ特徴を取得するステップを提供し、以下を含む。

Ｓ３０２、サーバは、Ｋ個の第１標本点の特徴を抽出する。

Ｓ３０４、サーバは、特徴を解析処理して、特徴属性を取得する。

具体的には、サーバは、Ｋ個の第１標本点の特徴を抽出して、Ｋ個の第１標本点の特徴を取得した後、特徴を解析処理して、特徴が属するクラス及び特徴の定義を含む特徴の属性を取得する。Ｋ個の第１標本点のうちいずれかの第１標本点を例にすると、サーバは、該第１標本点の特徴を抽出し、特徴を解析処理して、異なる特徴が属するクラス及び異なる特徴のそれぞれの定義を含む対応する特徴の属性を取得する。

Ｓ３０６、サーバは、特徴属性に基づいてＫ個の第１標本点をそれぞれ特徴抽出して、Ｋ個の第１標本点の共通特徴をそれぞれ取得する。

具体的には、特徴抽出とは、コンピュータを用いて画像情報を抽出し、各画像の点が１つの画像特徴に属するか否かを決定するということである。サーバは、特徴抽出により、Ｋ個の第１標本点のそれぞれの共通特徴を取得することができる。特徴が属するクラスを判定し、かつ異なる第１標本点を特徴が属するクラスに応じて分類する。サーバは、異なる特徴の定義を抽出し、かつ特徴の定義に基づいて異なる特徴の交差点を取得し、その交差点を抽出して、異なる特徴間の共通特徴を取得する。

Ｓ３０８、サーバは、共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出する。

Ｓ３１０、サーバは、共通特徴組み合わせを共通特徴の数に応じて並び替え、最大数に対応する共通特徴組み合わせを取得する。

具体的には、サーバは、取得された共通特徴に基づいて、対応する共通特徴組み合わせを形成する。異なる共通特徴組み合わせに含まれる共通特徴の数を算出し、算出された共通特徴の数の大きさに応じて共通特徴組み合わせを並び替えて、最大数に対応する共通特徴組み合わせを取得する。例えば、異なる共通特徴組み合わせに含まれる共通特徴の数は、２、７、４、６、９であり、並び替えた後に得られた共通特徴の数は、９、７、６、４、２であり、取得された最大数に対応する共通特徴組み合わせは、即ち、共通特徴の数が９であることに対応する共通特徴組み合わせである。

Ｓ３１２、サーバは、最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成する。

具体的には、サーバは、算出された最大数に対応する共通特徴組み合わせを取得し、かつ該共通特徴組み合わせに含まれる共通特徴を取得し、複数の共通特徴を追加データ特徴として、追加データ特徴は、追加された第１クラスの標本集合に含まれる標本データに対応する特徴である。

Ｋ個の第１標本点を特徴解析して、追加データ特徴を取得する上記ステップでは、サーバは、Ｋ個の第１標本点の特徴を解析処理して、特徴属性を取得し、かつ特徴属性に基づいてＫ個の第１標本点をそれぞれ特徴抽出して、Ｋ個の第１標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することにより、生成した追加データ特徴は、第１クラスの標本集合に対応する特徴を最大限に含み、追加データと第１標本集合における標本点との類似度を保証することができる。

一実施例では、データ取得要求を受信し、かつデータ取得要求に応じて初期データを取得するステップを提供し、サーバがデータ取得要求に応じてデータベースから生データを取得するステップと、生データに対応するデータタイプを取得するステップと、予め設定されたデータタイプと処理方式との対応関係を取得するステップと、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップとを含む。

具体的には、異なる生データは、異なるデータタイプに対応し、データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する生データは、デジタル型生データ、バイト型生データ、及びテキスト型生データを含む。サーバは、予め設定されたデータタイプと生データとの対応関係に基づいて、生データに対応するデータタイプを取得することができる。異なるデータタイプは、異なる処理方式に対応し、データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する処理方式は、判定処理、代入処理及び宣言処理である。

さらに、デジタル型生データに対して、判定処理を実行し、予め設定された値範囲を取得し、予め設定された値範囲をデジタル型生データの値と照合し、デジタル型生データの値が予め設定された値範囲に合致するか否かを判定し、予め設定された値範囲に合致するデジタル型生データを抽出し、デジタル型初期データを生成する。バイト型生データに対して、代入処理を実行し、バイト型生データの値が予め設定された値に合致するか否かを判定し、バイト型生データの値が予め設定された値に合致しない場合、対応するバイト型生データに予め設定された値を代入し、かつ代入されたバイト型生データに基づいて、バイト型初期データを生成する。テキスト型生データに対して、宣言処理を実行し、テキスト型生データの組成成分を取得し、組成成分と予め設定された組成成分とに基づいて照合を行い、テキスト型生データの組成成分と予め設定された組成成分とが一致しない場合に、テキスト型生データを予め設定された組成成分と宣言する。

受信データ要求を受信し、かつデータ取得要求に応じて初期データを取得する上記ステップは、データタイプに応じて生データに対してデータ処理を行って、データタイプ別に意図的に初期データを生成し、作業効率を向上させる。

一実施例では、予め設定された分類ルールに従って初期データを分類して、複数の第１クラスの標本集合と第２クラスの標本集合とを取得するステップを提供し、サーバが初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、標本集合の初期データのデータ量を算出するステップと、各標本集合のデータ量を予め設定されたデータ量閾値と照合し、データ量がデータ量閾値を超えると、対応する標本集合に基づいて、第２クラスの標本集合を得るステップと、データ量がデータ量閾値よりも小さいと、対応する標本集合に基づいて、第１クラスの標本集合を得るステップとを含む。

具体的には、サーバは、予め設定された初期データとデータタイプとの対応関係に基づいて、初期データに対応するデータタイプを取得し、かつ各データタイプに対応する標本集合を取得する。サーバは、標本集合の初期データに対応するデータ量を算出し、かつ各標本集合のデータ量を予め設定されたデータ量閾値とそれぞれ照合し、各標本集合のデータ量が予め設定されたデータ量閾値を超えるか否かを判定する。データ量がデータ量閾値を超えると、データ量がデータ量閾値を超えた標本集合が第２クラスの標本集合であることを示す。データ量がデータ量閾値より下回ると、データ量がデータ量閾値より下回る標本集合が第１クラスの標本集合であることを示す。

データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する標本集合は、デジタル型標本集合、バイト型標本集合、及びテキスト型標本集合である。サーバは、デジタル型初期データに基づいて対応するデジタル型データタイプを取得し、かつ対応するデジタル型標本集合を取得することができる。同様に、サーバは、それぞれ、バイト型初期データ、テキスト型初期データに基づいて、対応するバイト型データタイプ及びテキスト型データタイプを取得し、さらに、対応するバイト型標本集合及びテキスト型標本集合を取得することができる。

さらに、データ量閾値を１００個とし、取得された各標本集合のデータ量をそれぞれ８０個、９５個、１０８個、及び１２０個とすれば、そのうちデータ量が８０個と９５個の標本集合が第１クラスの標本集合となり、データ量が１０８個と１２０個の標本集合が第２クラスの標本集合となる。

予め設定された分類ルールに従って初期データを分類して、複数の第１クラスの標本集合と第２クラスの標本集合を取得する上記ステップは、標本集合をデータ量の大きさに応じて予め分類しておくことにより、第１クラスの標本集合と第２クラスの標本集合を取得し、データを追加する必要がある標本集合をできるだけ早く知り、データの追加プロセスを速め、作業効率を向上させる。

一実施例では、第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップを提供し、サーバが第１クラスの標本集合から１つの標本集合を任意に抽出し、第１標本集合を得るステップと、第１標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、第１標本点を距離に応じて並び替えて、前Ｋ個の第１標本点を取得するステップとを含む。

具体的には、第１クラスの標本集合は、複数の第１標本点を含む複数の第１クラスの標本を含む。サーバは、第１クラスの標本集合から１つの標本集合を任意に抽出し、第１標本集合を得る。第１標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出し、かつ第１標本点を距離の小さい順に並び替えて、前Ｋ個の第１標本点を取得する。

第１クラスの標本集合におけるＫ個の第１標本点を抽出する上記ステップは、第１の標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離を算出し、かつ前Ｋ個の距離に対応する第１標本点を取得することにより、抽出した第１標本点が、前Ｋ個の距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。

一実施例では、第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップを提供し、さらに、サーバが第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、ユークリッド距離を小さい順に並び替えるステップと、ユークリッド距離の並び順に基づいて、前Ｋ個のユークリッド距離に対応する第１標本点を取得するステップとを含む。

具体的には、ユークリッド距離は、ｍ次元空間における２つの点の間の実距離、又はベクトルの自然長、即ち、該点から原点までの距離を表す。サーバは、算出されたユークリッド距離を小さい順に並べ、かつ並び順における前Ｋ個のユークリッド距離に対応する第１標本点を取得し、即ち、取得した第１標本点が、前Ｋ個の最小ユークリッド距離に対応する標本点である。

第１クラスの標本集合におけるＫ個の第１標本点を抽出する上記ステップは、サーバが第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替える。ユークリッド距離の並び順に基づいて、前Ｋ個のユークリッド距離に対応する第１標本点を取得し、さらに、抽出した第１標本点が、前Ｋ個のユークリッド距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。

なお、図２～３のフローチャートの各ステップは、矢印の指示に従って順次表示されるものであるが、必ずしも矢印で指示された順序で順次実行されるものではないと理解すべきである。なお、本明細書では明示した説明がない限り、これらのステップの実行は、厳密な順序で限定されるものではなく、他の順序で実行されてもよい。また、図２～３の少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズは、必ずしも同一のタイミングで実行されるものではないが、異なるタイミングで実行されてもよく、これらのサブステップ又はフェーズの実行順序は、必ずしも順番に実行されるものではないが、他のステップ又は他のステップのサブステップ又はフェーズの少なくとも一部と順番に又は交互に実行されてもよい。

一実施例では、図４に示すように、初期データ取得モジュール４０２、分類モジュール４０４、抽出モジュール４０６、追加データ特徴取得モジュール４０８、追加データラベル生成モジュール４１０、比率算出モジュール４１２、及び追加データ生成モジュール４１４を含む、不均衡標本データの前処理装置を提供する。

ここで、初期データ取得モジュール４０２は、データ取得要求を受信し、かつデータ取得要求に応じて初期データを取得するために用いられる。

分類モジュール４０４は、予め設定された分類ルールに従って初期データを分類して、第１クラスの標本集合と第２クラスの標本集合とを取得するために用いられる。第１クラスの標本集合における各標本集合の標本数はデータ量閾値よりも少なく、第２クラスの標本集合における各標本集合の数はデータ量閾値よりも大きい。

抽出モジュール４０６は、第１クラスの標本集合におけるＫ個の第１標本点を抽出するために用いられる。

追加データ特徴取得モジュール４０８は、Ｋ個の第１標本点を特徴解析して、第１クラスの標本集合の追加データ特徴を取得するために用いられる。

追加データラベル生成モジュール４１０は、第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ第１クラスのラベルに基づいて第１クラスの標本集合の追加データラベルを生成するために用いられる。

比率算出モジュール４１２は、第１クラスの標本集合の数と第２クラスの標本集合の数をそれぞれ取得し、かつ第１クラスの標本集合の数と第２クラスの標本集合の数との比率を算出するために用いられる。

追加データ生成モジュール４１４は、追加データ特徴及び追加データラベルに基づいて第１クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第１クラスの標本集合の数を増加させるために用いられる。

上記不均衡標本データの前処理装置において、サーバは、予め設定された分類ルールに従って初期データを分類して、第１クラスの標本集合と第２クラスの標本集合を取得する。Ｋ個の第１標本点を抽出して特徴解析を行い、取得された第１クラスの標本集合の追加データ特徴に基づいて第１クラスの標本集合の追加データラベルを生成する。第１クラスの標本集合の数と第２クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第１クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第１クラスの標本集合の数を増加させることにより、第１クラスの標本集合と第２クラスの標本集合の数が均衡状態になり、さらに、標本の不均衡問題が解決される。

一実施例では、初期データ取得モジュールを提供し、さらに、データ取得要求に応じてデータベースから生データを取得することと、生データに対応するデータタイプを取得することと、予め設定されたデータタイプと処理方式との対応関係を取得することと、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられる。

上記初期データ取得モジュールは、データタイプに応じて生データに対してデータ処理を行うことにより、異なるデータタイプに応じて初期データを意図的に生成し、作業効率を向上させる。

一実施例では、分類モジュールを提供し、さらに、初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、標本集合の初期データのデータ量を算出することと、各標本集合のデータ量を予め設定されたデータ量閾値と照合し、データ量がデータ量閾値を超えると、対応する標本集合に基づいて、第２クラスの標本集合を得ることと、データ量がデータ量閾値よりも小さいと、対応する標本集合に基づいて、第１クラスの標本集合を得ることと、に用いられる。

上記分類モジュールは、標本集合をデータ量の大きさに応じて予め分類しておくことにより、第１クラスの標本集合と第２クラスの標本集合を取得し、データを追加する必要がある標本集合をできるだけ早く知り、データの追加プロセスを速め、作業効率を向上させる。

一実施例では、抽出モジュールを提供し、さらに、第１クラスの標本集合から１つの標本集合を任意に抽出し、第１標本集合を得ることと、第１標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出することと、第１標本点を距離に応じて並び替えて、前Ｋ個の第１標本点を取得することと、に用いられる。

上記抽出モジュールは、第１の標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離を算出し、かつ前Ｋ個の距離に対応する第１標本点を取得することにより、抽出した第１標本点が、前Ｋ個の距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。

一実施例では、抽出モジュールを提供し、さらに、第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出することと、ユークリッド距離を小さい順に並び替えることと、ユークリッド距離の並び順に基づいて、前Ｋ個のユークリッド距離に対応する第１標本点を取得することと、に用いられる。

上記抽出モジュールについて、サーバが第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替える。ユークリッド距離の並び順に基づいて、前Ｋ個のユークリッド距離に対応する第１標本点を取得し、さらに、抽出した第１標本点が、前Ｋ個のユークリッド距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。

一実施例では、追加データ生成モジュールを提供し、さらに、Ｋ個の第１標本点の特徴を抽出することと、特徴を解析処理して、特徴属性を取得することと、特徴属性に基づいてＫ個の第１標本点をそれぞれ特徴抽出して、Ｋ個の第１標本点の共通特徴をそれぞれ取得することと、共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出することと、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得することと、最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することと、に用いられる。

上記追加データ生成モジュールについて、サーバは、Ｋ個の第１標本点の特徴を解析処理して、特徴属性を取得し、かつ特徴属性に基づいてＫ個の第１標本点をそれぞれ特徴抽出し、Ｋ個の第１標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することにより、生成した追加データ特徴は、第１クラスの標本集合に対応する特徴を最大限に含み、追加データと第１標本集合における標本点との類似度を保証することができる。

不均衡標本データの前処理装置の具体的な限定は、上記のような不均衡標本データの前処理方法に関する限定を参照することができ、ここでは重複した説明を省略する。上記不均衡標本データの前処理装置における各モジュールの全て又は一部は、ソフトウェア、ハードウェア及びその組み合わせにより実現されてもよい。上記各モジュールは、プロセッサが以上の各モジュールに対応する動作を呼び出して実行するように、コンピュータ機器内のプロセッサにハードウェアで組み込まれてもよいし、プロセッサから独立してもよいし、コンピュータ機器内のメモリにソフトウェアで記憶されてもよい。

一実施例では、コンピュータ機器を提供し、該コンピュータ機器はサーバであってもよく、その内部構成図は図５に示すものであってもよい。該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、該コンピュータ機器のプロセッサは、演算及び制御能力を提供するために用いられる。該コンピュータ機器のメモリは、不揮発性コンピュータ読取可能な記憶媒体及び内部メモリを含む。該不揮発性コンピュータ読取可能な記憶媒体には、オペレーティングシステム、コンピュータ読取可能な命令、及びデータベースが記憶される。該内部メモリは、不揮発性コンピュータ読取可能な記憶媒体におけるオペレーティングシステム及びコンピュータ読取可能な命令の実行に環境を提供する。該コンピュータ機器のデータベースは、不均衡標本データを記憶するために用いられる。該コンピュータ機器のネットワークインタフェースは、外部の端末とネットワーク接続を介して通信するために用いられる。該コンピュータ読取可能な命令は、プロセッサにより実行されるとき、不均衡標本データの前処理方法を実現する。

なお、図５に示した構成は、本願の解決手段に係る一部の構成を示すブロック図であるが、本願の解決手段が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図示よりも多いか又は少ない部品を含んでもよいし、一部の部品を組み合わせて構成されてもよいし、異なる部品で配置されてもよいことは、当業者であれば理解すべきである。コンピュータ読取可能な命令が記憶されたメモリ及び１つ又は複数のプロセッサを含むコンピュータ機器であって、コンピュータ読取可能な命令がプロセッサによって実行されるとき、本願のいずれかの実施例で提供される不均衡標本データの前処理方法のステップを実現する。

コンピュータ読取可能な命令が記憶された１つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、コンピュータ読取可能な命令が１つ又は複数のプロセッサによって実行されるとき、１つ又は複数のプロセッサに本願のいずれかの実施例で提供される不均衡標本データの前処理方法のステップを実現させる。

上記実施例の方法のフローの全て又は一部は、コンピュータ読取可能な命令を介して関連するハードウェアに命令することによって実施することができ、前記コンピュータ読取可能な命令は、不揮発性コンピュータ読取可能な記憶媒介に記憶されることができ、該コンピュータ読取可能な命令は、実行時に、上記各方法の実施例のフローを含み得ることは、当業者であれば理解すべきものである。なお、本願で提供される各実施例に使用されるメモリ、記憶、データベース又はその他の媒体への任意の参照は、不揮発性及び／又は揮発性メモリを含み得る。不揮発性メモリは、リードオンリーメモリ（ＲＯＭ）、プログラム可能なＲＯＭ（ＰＲＯＭ）、電気的プログラム可能なＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラム可能なＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含み得る。なお、限定のためではなく、説明として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、拡張型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期リンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ラムバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）等の多くの形で使用可能である。

以上の実施例の各技術的特徴は、任意の組み合わせが可能であり、説明を簡単にするために、上記実施例における各技術的特徴の全ての可能な組み合わせについて説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載された範囲内であると考えられるべきである。

上記の実施例は、本願のいくつかの実施形態を示したものに過ぎず、その記述は具体的で詳細なものであるが、これらによって特許請求の範囲を限定するものであると理解されるべきではない。なお、当業者であれば、本願の構想から逸脱することなく、いくつかの変形、改良が可能であり、それらはいずれも本願の保護範囲に含まれると理解すべきである。したがって、本願の保護範囲は、特許請求の範囲に記載の内容に準拠する。

Claims

コンピュータによって実行される、不均衡標本データの前処理方法であって、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するステップと、
前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップと、
Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するステップと、
第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するステップと、
前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるステップと、を含むことを特徴とする方法。
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得する前記ステップは、
前記データ取得要求に応じてデータベースから生データを取得するステップと、
前記生データに対応するデータタイプを取得するステップと、
予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を含むことを特徴とする請求項１に記載の方法。
予め設定された分類ルールに従って前記初期データを分類して、複数の第１クラスの標本集合と第２クラスの標本集合とを取得する前記ステップは、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
前記標本集合の初期データのデータ量を算出するステップと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第２クラスの標本集合を得るステップと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第１クラスの標本集合を得るステップと、を含むことを特徴とする請求項１に記載の方法。
前記第１クラスの標本集合におけるＫ個の第１標本点を抽出する前記ステップは、
前記第１クラスの標本集合から１つの標本集合を任意に抽出し、第１標本集合を得るステップと、
前記第１標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
前記第１標本点を前記距離に応じて並び替えて、前Ｋ個の第１標本点を取得するステップと、を含むことを特徴とする請求項１乃至３のいずれか一項に記載の方法。
前記第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
前記ユークリッド距離を小さい順に並び替えるステップと、
前記ユークリッド距離の並び順に基づいて、前記前Ｋ個のユークリッド距離に対応する第１標本点を取得するステップと、をさらに含むことを特徴とする請求項４に記載の方法。
Ｋ個の前記第１標本点を特徴解析して、追加データ特徴を取得する前記ステップは、
Ｋ個の前記第１標本点の特徴を抽出するステップと、
前記特徴を解析処理して、特徴属性を取得するステップと、
前記特徴属性に基づいてＫ個の前記第１標本点をそれぞれ特徴抽出して、Ｋ個の前記第１標本点の共通特徴をそれぞれ取得するステップと、
前記共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ前記共通特徴組み合わせに含まれる共通特徴の数を算出するステップと、
前記共通特徴組み合わせを前記共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得するステップと、
前記最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成するステップと、を含むことを特徴とする請求項１乃至３のいずれか一項に記載の方法。
不均衡標本データの前処理装置であって、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するための分類モジュールと、
前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するための抽出モジュールと、
Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、
第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、
前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するための比率算出モジュールと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含むことを特徴とする装置。
前記初期データ取得モジュールは、さらに、
前記データ取得要求に応じてデータベースから生データを取得することと、
前記生データに対応するデータタイプを取得することと、
予め設定されたデータタイプと処理方式との対応関係を取得することと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられることを特徴とする請求項７に記載の装置。
前記分類モジュールは、さらに、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、
前記標本集合の初期データのデータ量を算出することと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第２クラスの標本集合を得ることと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第１クラスの標本集合を得ることと、に用いられることを特徴とする請求項７に記載の装置。
コンピュータ機器であって、メモリと１つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するステップと、
前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップと、
Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するステップと、
第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するステップと、
前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるステップと、を実行させるコンピュータ機器。
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記データ取得要求に応じてデータベースから生データを取得するステップと、
前記生データに対応するデータタイプを取得するステップと、
予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を実行することを特徴とする請求項１０に記載のコンピュータ機器。
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
前記標本集合の初期データのデータ量を算出するステップと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第２クラスの標本集合を得るステップと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第１クラスの標本集合を得るステップと、を実行することを特徴とする請求項１０に記載のコンピュータ機器。
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記第１クラスの標本集合から１つの標本集合を任意に抽出し、第１標本集合を得るステップと、
前記第１標本集合における全ての第１標本点から、第１クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
前記第１標本点を前記距離に応じて並び替えて、前Ｋ個の第１標本点を取得するステップと、を実行することを特徴とする請求項１０乃至１２のいずれか一項に記載のコンピュータ機器。
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記第１標本集合における全ての第１標本点から、第１クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
前記ユークリッド距離を小さい順に並び替えるステップと、
前記ユークリッド距離の並び順に基づいて、前記前Ｋ個のユークリッド距離に対応する第１標本点を取得するステップと、を実行することを特徴とする請求項１３に記載のコンピュータ機器。
コンピュータ読取可能な命令が記憶された１つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、前記コンピュータ読取可能な命令は、１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第１クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第２クラスの標本集合とを取得するステップと、
前記第１クラスの標本集合におけるＫ個の第１標本点を抽出するステップと、
Ｋ個の前記第１標本点を特徴解析して、前記第１クラスの標本集合の追加データ特徴を取得するステップと、
第１クラスの標本集合に対応する第１クラスのラベルを取得し、かつ前記第１クラスのラベルに基づいて前記第１クラスの標本集合の追加データラベルを生成するステップと、
前記第１クラスの標本集合の数と前記第２クラスの標本集合の数をそれぞれ取得し、かつ前記第１クラスの標本集合の数と前記第２クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第１クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第１クラスの標本集合の数を増加させるステップと、を実行させることを特徴とする記憶媒体。