JP7058797B2 - 不均衡標本データの前処理方法、装置及びコンピュータ機器 - Google Patents

不均衡標本データの前処理方法、装置及びコンピュータ機器 Download PDF

Info

Publication number
JP7058797B2
JP7058797B2 JP2021506496A JP2021506496A JP7058797B2 JP 7058797 B2 JP7058797 B2 JP 7058797B2 JP 2021506496 A JP2021506496 A JP 2021506496A JP 2021506496 A JP2021506496 A JP 2021506496A JP 7058797 B2 JP7058797 B2 JP 7058797B2
Authority
JP
Japan
Prior art keywords
data
sample set
class
sample
additional data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021506496A
Other languages
English (en)
Other versions
JP2021533499A (ja
Inventor
ユ,シウミン
ワン,ウェイ
シャオ,ジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2021533499A publication Critical patent/JP2021533499A/ja
Application granted granted Critical
Publication of JP7058797B2 publication Critical patent/JP7058797B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

(関連出願の相互参照)
本願は、2018年9月3日に中国国家知識産権局に提出された、出願番号2018110189130、出願の名称「不均衡標本データの前処理方法、装置及びコンピュータ機器」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
本願は、不均衡標本データの前処理方法、装置、コンピュータ機器、及び記憶媒体に関する。
コンピュータ技術及び社会の情報化の進展に伴い、実際の製造及び応用では、大量のデータに対してデータ処理を行う必要があり、取得した生データが不均衡データに属していることが多く、即ち、データセット標本空間全体のうち1クラスの標本と残りの1クラス又は複数のクラスの標本には、大きな差異がある。
現在、標本が不均衡である場合、即ち、2クラスのラベルに対応するデータ量の差異が非常に大きい場合には、標本量の少ないデータセットに対しては、一般的に、オーバーサンプリングを用いて標本を均衡させる。従来の、SMOTEアルゴリズムのようなオーバーサンプリングアルゴリズムで生成し得た新データは、X_new=X+rand(0,1)*(X_mean-X)に基づいて、(0,1)の間の新データとなる。
しかしながら、本発明者らは、現在、不均衡標本に対する従来の処理方法では、生成した新データが実データの基準を満たすことができず、標本が不均衡であるという問題も存在することに注意した。
本願の開示する様々な実施例によれば、不均衡標本データの前処理方法、装置、コンピュータ機器、及び記憶媒体を提供する。
不均衡標本データの前処理方法であって、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を含む。
不均衡標本データの前処理装置であって、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するための分類モジュールと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するための抽出モジュールと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するための比率算出モジュールと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含む。
コンピュータ機器であって、メモリと1つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記プロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させる。
コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、コンピュータ読取可能な命令は、1つ又は複数のプロセッサによって実行されるとき、1つ又は複数のプロセッサに、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させる。
本願の他の特徴及び利点は、明細書、添付の図面及び特許請求の範囲から明らかになる。
本願の実施例の技術的解決手段をより明確に説明するために、実施例を説明するのに必要な添付の図面を以下で簡単に紹介するが、明らかに、以下の説明において添付の図面は単に本願のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることもできる。
1つ又は複数の実施例に係る不均衡標本データの前処理方法の応用シーン図である。 1つ又は複数の実施例に係る不均衡標本データの前処理方法のフローチャートである。 1つ又は複数の実施例に係るK個の第1標本点に対して特徴分析を行って、追加データ特徴を取得するフローチャートである。 1つ又は複数の実施例に係る不均衡標本データの前処理装置のブロック図である。 1つ又は複数の実施例に係るコンピュータ機器のブロック図である。
本願の技術的解決手段及び利点をさらに明確にするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。なお、ここに記載された具体的な実施例は、あくまでも本願を解釈するためのものであり、本願を限定するものではない。
本願に係る不均衡標本データの前処理方法は、図1に示すような応用環境に適用することができる。端末102とサーバ104とは、ネットワークを介して通信を行う。サーバ104は、端末102から送信されたデータ取得要求を受信し、かつデータ取得要求に応じて初期データを取得する。予め設定された分類ルールに従って初期データを分類して、第1クラスの標本集合と第2クラスの標本集合とを取得する。第1クラスの標本集合における各標本集合の標本数はデータ量閾値よりも少なく、第2クラスの標本集合における各標本集合の数はデータ量閾値よりも大きい。第1クラスの標本集合におけるK個の第1標本点を抽出し、K個の第1標本点を特徴解析して、第1クラスの標本集合の追加データ特徴を取得する。第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ第1クラスのラベルに基づいて第1クラスの標本集合の追加データラベルを生成する。第1クラスの標本集合の数と第2クラスの標本集合の数をそれぞれ取得し、かつ第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させる。端末102は、様々なパーソナルコンピュータ、ノート型パーソナルコンピュータ、スマートフォン、タブレット型コンピュータ、及び携帯型ウェアラブルデバイスであってもよいが、それらに限定されないものであり、サーバ104は、別個のサーバであってもよいし、複数のサーバからなるサーバクラスタであってもよい。
一実施例では、図2に示すように、不均衡標本データの前処理方法を提供し、該方法を図1のサーバに適用した場合を例にして説明するが、以下のステップを含む。
S202、サーバは、端末から送信されたデータ取得要求を受信し、かつデータ取得要求に応じて初期データを取得する。
具体的には、異なるデータ取得要求が異なる初期データに対応し、サーバは、予め設定されたデータ取得要求と初期データとの対応関係に基づいて、端末から送信されたデータ取得要求に対応する初期データを取得することができる。データ取得要求が、データ識別子を搬送し、サーバは、データ識別子と初期データとの対応関係に基づいて、データ識別子に対応する初期データを取得することができる。
モデル化フェーズを例にすると、端末は、大量の標本データを取得してモデル確立を実現する必要があり、サーバは、端末から送信されたモデル化データ取得要求を受信し、かつモデル化データ取得要求が搬送するモデル化データ識別子を抽出し、予め設定されたモデル化データ識別子と初期データとの対応関係を取得し、モデル化データ識別子に対応する初期データを取得する。
サーバは、データ取得要求に応じてデータベースから生データを取得し、かつ生データに対応するデータタイプを取得する。予め設定されたデータタイプと処理方式との対応関係を取得し、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得する。
S204、サーバは、予め設定された分類ルールに従って初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得する。
具体的には、予め設定された分類ルールは、データ量閾値に基づいて初期データを分類するルールであり、サーバは、標本数がデータ量閾値よりも少ない初期データを第1クラスの標本集合に分け、標本数がデータ量閾値よりも多い初期データを第2クラスの標本集合に分ける。
モデル化フェーズを例にすると、取得可能な初期データが不均衡データに属していることが多く、即ち、データセット標本空間全体のうち1クラスの標本と残りの1クラス又は複数のクラスの標本とには、大きな差異がある。本実施例では、サーバは、予め設定されたデータ量閾値に基づいて、取得した初期データを分類して、第1クラスの標本集合、即ち、標本数がデータ量閾値よりも少ない初期データを得ることができる。サーバは、さらに、標本数がデータ量閾値よりも多い初期データを、第2クラスの標本集合に分けることもできる。
第1クラスの標本集合は、複数の第1標本点を含む複数の第1クラスの標本を含み、第1クラスの標本の数は、予め設定されたデータ量閾値よりも少ないため、第1クラスの標本集合は、少数クラス標本集合とも呼ばれ、その対応する標本は、少数クラス標本とも呼ばれ、第1標本点は、少数クラス標本点と呼ばれてもよい。第2クラスの標本集合は、複数の第2標本点を含む複数の第2クラスの標本を含み、第2クラスの標本の数は、予め設定されたデータ量閾値よりも大きいため、第2クラスの標本集合は、多数クラス標本集合とも呼ばれ、その対応する標本は、多数クラス標本とも呼ばれ、第2標本点は、多数クラス標本点と呼ばれてもよい。
S206、サーバは、第1クラスの標本集合におけるK個の第1標本点を抽出する。
具体的には、第1クラスの標本集合は、複数の第1標本点を含む複数の第1クラスの標本を含む。サーバは、第1クラスの標本集合から1つの標本集合を任意に抽出して、第1標本集合を得る。第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出し、かつ第1標本点を距離に応じて並び替えて、前K個の第1標本点を取得する。
サーバは、第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替え、ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得する。
ユークリッド距離は、m次元空間における2つの点の間の実距離、又はベクトルの自然長、即ち、該点から原点までの距離を表す。しかしながら、二次元と三次元空間でのユークリッド距離は、二点の間の実際の距離である。算出されたユークリッド距離を小さい順に並べ、かつ並び順における前K個のユークリッド距離に対応する第1標本点を取得し、即ち、取得した第1標本点が、前K個の最小ユークリッド距離に対応する標本点である。
S208、サーバは、K個の第1標本点を特徴解析して、第1クラスの標本集合の追加データ特徴を取得する。
具体的には、サーバは、K個の第1標本点の特徴を抽出し、かつ特徴を解析処理して、特徴属性を取得する。特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成する。特徴属性は、第1標本点の備える特徴に対して解析処理を行った後に得られた第1標本点の特徴に関する属性を表し、特徴が属するクラス及び特徴の定義を含む。特徴抽出とは、コンピュータを用いて画像情報を抽出し、各画像の点が1つの画像特徴に属するか否かを決定するということである。
サーバは、得られた共通特徴に基づいて、対応する共通特徴組み合わせを形成する。異なる共通特徴組み合わせに含まれる共通特徴の数を算出し、算出された共通特徴の数の大きさに応じて共通特徴組み合わせを並び替えて、最大数に対応する共通特徴組み合わせを取得する。例えば、異なる共通特徴組み合わせに含まれる共通特徴の数は、4、5、3、6、2であり、並び替えた後に得られた共通特徴の数は、6、5、4、3、2であり、取得された最大数に対応する共通特徴組み合わせは、即ち、共通特徴の数が6であることに対応する共通特徴組み合わせである。サーバは、算出された最大数に対応する共通特徴組み合わせを取得し、かつ該共通特徴組み合わせに含まれる共通特徴を取得し、複数の共通特徴を追加データ特徴として、追加データ特徴は、追加された第1クラスの標本集合に含まれる標本データに対応する特徴である。
S210、サーバは、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ第1クラスのラベルに基づいて第1クラスの標本集合の追加データラベルを生成する。
具体的には、サーバは、第1クラスの標本集合における第1クラスの標本を取得し、予め設定された第1クラスの標本と第1クラスのラベルとの対応関係に基づいて、第1クラスの標本に対応する第1クラスのラベルを取得する。第1クラスの標本集合は、複数の第1クラスの標本を含み、異なる第1クラスの標本は、異なる第1クラスのラベルに対応し、サーバは、第1クラスの標本と第1クラスのラベルとの対応関係に基づいて、異なる第1クラスの標本に対応する第1クラスのラベルをそれぞれ取得し、取得した第1クラスのラベルに基づいて、追加データラベルを生成することができる。追加データラベルは、第1クラスの標本集合に対して追加されたデータが搬送したラベルを示し、追加データラベル及び追加データ特徴に基づいて第1クラスの標本集合の追加データを生成することができる。
S212、サーバは、第1クラスの標本集合の数と第2クラスの標本集合の数をそれぞれ取得し、かつ第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。
S214、サーバは、追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させる。
具体的には、サーバは、第1標本集合の数、即ち、第1標本集合における標本点の数を取得し、かつ第2クラスの標本集合の数、即ち、第2標本集合における標本点の数を取得し、かつ第1標本集合における標本点の数と第2標本集合における標本点の数との比率を算出し、算出された比率に基づいて、追加データの数を調整して、第1クラスの標本集合における標本点の数を増加させて、第1クラスの標本集合と第2クラスの標本集合が均衡状態となるようにする。サーバは追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、つまり、追加データは、追加データ特徴及び追加データラベルにより生成される。
サーバが取得した第1標本集合における標本点の数が20であり、取得した第2標本集合における標本点の数が50であり、第1クラスの標本集合の数と第2クラスの標本集合の数との比率が2:5であると算出され、算出された比率に基づいて、追加データの数を調整して、30単位の追加データを生成して第1クラスの標本集合と第2クラスの標本集合との均衡を取ると共に、追加データが追加データ特徴と追加データラベルとによって生成される。
上記不均衡標本データの前処理方法において、サーバは、予め設定された分類ルールに従って初期データを分類し、第1クラスの標本集合と第2クラスの標本集合を取得する。K個の第1標本点を抽出して特徴解析を行い、取得された第1クラスの標本集合の追加データ特徴に基づいて第1クラスの標本集合の追加データラベルを生成する。第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させることにより、第1クラスの標本集合と第2クラスの標本集合の数が均衡状態になり、さらに、標本の不均衡問題が解決される。
一実施例では、図3に示すように、K個の第1標本点を特徴解析して、追加データ特徴を取得するステップを提供し、以下を含む。
S302、サーバは、K個の第1標本点の特徴を抽出する。
S304、サーバは、特徴を解析処理して、特徴属性を取得する。
具体的には、サーバは、K個の第1標本点の特徴を抽出して、K個の第1標本点の特徴を取得した後、特徴を解析処理して、特徴が属するクラス及び特徴の定義を含む特徴の属性を取得する。K個の第1標本点のうちいずれかの第1標本点を例にすると、サーバは、該第1標本点の特徴を抽出し、特徴を解析処理して、異なる特徴が属するクラス及び異なる特徴のそれぞれの定義を含む対応する特徴の属性を取得する。
S306、サーバは、特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得する。
具体的には、特徴抽出とは、コンピュータを用いて画像情報を抽出し、各画像の点が1つの画像特徴に属するか否かを決定するということである。サーバは、特徴抽出により、K個の第1標本点のそれぞれの共通特徴を取得することができる。特徴が属するクラスを判定し、かつ異なる第1標本点を特徴が属するクラスに応じて分類する。サーバは、異なる特徴の定義を抽出し、かつ特徴の定義に基づいて異なる特徴の交差点を取得し、その交差点を抽出して、異なる特徴間の共通特徴を取得する。
S308、サーバは、共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出する。
S310、サーバは、共通特徴組み合わせを共通特徴の数に応じて並び替え、最大数に対応する共通特徴組み合わせを取得する。
具体的には、サーバは、取得された共通特徴に基づいて、対応する共通特徴組み合わせを形成する。異なる共通特徴組み合わせに含まれる共通特徴の数を算出し、算出された共通特徴の数の大きさに応じて共通特徴組み合わせを並び替えて、最大数に対応する共通特徴組み合わせを取得する。例えば、異なる共通特徴組み合わせに含まれる共通特徴の数は、2、7、4、6、9であり、並び替えた後に得られた共通特徴の数は、9、7、6、4、2であり、取得された最大数に対応する共通特徴組み合わせは、即ち、共通特徴の数が9であることに対応する共通特徴組み合わせである。
S312、サーバは、最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成する。
具体的には、サーバは、算出された最大数に対応する共通特徴組み合わせを取得し、かつ該共通特徴組み合わせに含まれる共通特徴を取得し、複数の共通特徴を追加データ特徴として、追加データ特徴は、追加された第1クラスの標本集合に含まれる標本データに対応する特徴である。
K個の第1標本点を特徴解析して、追加データ特徴を取得する上記ステップでは、サーバは、K個の第1標本点の特徴を解析処理して、特徴属性を取得し、かつ特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することにより、生成した追加データ特徴は、第1クラスの標本集合に対応する特徴を最大限に含み、追加データと第1標本集合における標本点との類似度を保証することができる。
一実施例では、データ取得要求を受信し、かつデータ取得要求に応じて初期データを取得するステップを提供し、サーバがデータ取得要求に応じてデータベースから生データを取得するステップと、生データに対応するデータタイプを取得するステップと、予め設定されたデータタイプと処理方式との対応関係を取得するステップと、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップとを含む。
具体的には、異なる生データは、異なるデータタイプに対応し、データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する生データは、デジタル型生データ、バイト型生データ、及びテキスト型生データを含む。サーバは、予め設定されたデータタイプと生データとの対応関係に基づいて、生データに対応するデータタイプを取得することができる。異なるデータタイプは、異なる処理方式に対応し、データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する処理方式は、判定処理、代入処理及び宣言処理である。
さらに、デジタル型生データに対して、判定処理を実行し、予め設定された値範囲を取得し、予め設定された値範囲をデジタル型生データの値と照合し、デジタル型生データの値が予め設定された値範囲に合致するか否かを判定し、予め設定された値範囲に合致するデジタル型生データを抽出し、デジタル型初期データを生成する。バイト型生データに対して、代入処理を実行し、バイト型生データの値が予め設定された値に合致するか否かを判定し、バイト型生データの値が予め設定された値に合致しない場合、対応するバイト型生データに予め設定された値を代入し、かつ代入されたバイト型生データに基づいて、バイト型初期データを生成する。テキスト型生データに対して、宣言処理を実行し、テキスト型生データの組成成分を取得し、組成成分と予め設定された組成成分とに基づいて照合を行い、テキスト型生データの組成成分と予め設定された組成成分とが一致しない場合に、テキスト型生データを予め設定された組成成分と宣言する。
受信データ要求を受信し、かつデータ取得要求に応じて初期データを取得する上記ステップは、データタイプに応じて生データに対してデータ処理を行って、データタイプ別に意図的に初期データを生成し、作業効率を向上させる。
一実施例では、予め設定された分類ルールに従って初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合とを取得するステップを提供し、サーバが初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、標本集合の初期データのデータ量を算出するステップと、各標本集合のデータ量を予め設定されたデータ量閾値と照合し、データ量がデータ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、データ量がデータ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップとを含む。
具体的には、サーバは、予め設定された初期データとデータタイプとの対応関係に基づいて、初期データに対応するデータタイプを取得し、かつ各データタイプに対応する標本集合を取得する。サーバは、標本集合の初期データに対応するデータ量を算出し、かつ各標本集合のデータ量を予め設定されたデータ量閾値とそれぞれ照合し、各標本集合のデータ量が予め設定されたデータ量閾値を超えるか否かを判定する。データ量がデータ量閾値を超えると、データ量がデータ量閾値を超えた標本集合が第2クラスの標本集合であることを示す。データ量がデータ量閾値より下回ると、データ量がデータ量閾値より下回る標本集合が第1クラスの標本集合であることを示す。
データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する標本集合は、デジタル型標本集合、バイト型標本集合、及びテキスト型標本集合である。サーバは、デジタル型初期データに基づいて対応するデジタル型データタイプを取得し、かつ対応するデジタル型標本集合を取得することができる。同様に、サーバは、それぞれ、バイト型初期データ、テキスト型初期データに基づいて、対応するバイト型データタイプ及びテキスト型データタイプを取得し、さらに、対応するバイト型標本集合及びテキスト型標本集合を取得することができる。
さらに、データ量閾値を100個とし、取得された各標本集合のデータ量をそれぞれ80個、95個、108個、及び120個とすれば、そのうちデータ量が80個と95個の標本集合が第1クラスの標本集合となり、データ量が108個と120個の標本集合が第2クラスの標本集合となる。
予め設定された分類ルールに従って初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合を取得する上記ステップは、標本集合をデータ量の大きさに応じて予め分類しておくことにより、第1クラスの標本集合と第2クラスの標本集合を取得し、データを追加する必要がある標本集合をできるだけ早く知り、データの追加プロセスを速め、作業効率を向上させる。
一実施例では、第1クラスの標本集合におけるK個の第1標本点を抽出するステップを提供し、サーバが第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、第1標本点を距離に応じて並び替えて、前K個の第1標本点を取得するステップとを含む。
具体的には、第1クラスの標本集合は、複数の第1標本点を含む複数の第1クラスの標本を含む。サーバは、第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得る。第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出し、かつ第1標本点を距離の小さい順に並び替えて、前K個の第1標本点を取得する。
第1クラスの標本集合におけるK個の第1標本点を抽出する上記ステップは、第1の標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離を算出し、かつ前K個の距離に対応する第1標本点を取得することにより、抽出した第1標本点が、前K個の距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
一実施例では、第1クラスの標本集合におけるK個の第1標本点を抽出するステップを提供し、さらに、サーバが第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、ユークリッド距離を小さい順に並び替えるステップと、ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得するステップとを含む。
具体的には、ユークリッド距離は、m次元空間における2つの点の間の実距離、又はベクトルの自然長、即ち、該点から原点までの距離を表す。サーバは、算出されたユークリッド距離を小さい順に並べ、かつ並び順における前K個のユークリッド距離に対応する第1標本点を取得し、即ち、取得した第1標本点が、前K個の最小ユークリッド距離に対応する標本点である。
第1クラスの標本集合におけるK個の第1標本点を抽出する上記ステップは、サーバが第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替える。ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得し、さらに、抽出した第1標本点が、前K個のユークリッド距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
なお、図2~3のフローチャートの各ステップは、矢印の指示に従って順次表示されるものであるが、必ずしも矢印で指示された順序で順次実行されるものではないと理解すべきである。なお、本明細書では明示した説明がない限り、これらのステップの実行は、厳密な順序で限定されるものではなく、他の順序で実行されてもよい。また、図2~3の少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズは、必ずしも同一のタイミングで実行されるものではないが、異なるタイミングで実行されてもよく、これらのサブステップ又はフェーズの実行順序は、必ずしも順番に実行されるものではないが、他のステップ又は他のステップのサブステップ又はフェーズの少なくとも一部と順番に又は交互に実行されてもよい。
一実施例では、図4に示すように、初期データ取得モジュール402、分類モジュール404、抽出モジュール406、追加データ特徴取得モジュール408、追加データラベル生成モジュール410、比率算出モジュール412、及び追加データ生成モジュール414を含む、不均衡標本データの前処理装置を提供する。
ここで、初期データ取得モジュール402は、データ取得要求を受信し、かつデータ取得要求に応じて初期データを取得するために用いられる。
分類モジュール404は、予め設定された分類ルールに従って初期データを分類して、第1クラスの標本集合と第2クラスの標本集合とを取得するために用いられる。第1クラスの標本集合における各標本集合の標本数はデータ量閾値よりも少なく、第2クラスの標本集合における各標本集合の数はデータ量閾値よりも大きい。
抽出モジュール406は、第1クラスの標本集合におけるK個の第1標本点を抽出するために用いられる。
追加データ特徴取得モジュール408は、K個の第1標本点を特徴解析して、第1クラスの標本集合の追加データ特徴を取得するために用いられる。
追加データラベル生成モジュール410は、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ第1クラスのラベルに基づいて第1クラスの標本集合の追加データラベルを生成するために用いられる。
比率算出モジュール412は、第1クラスの標本集合の数と第2クラスの標本集合の数をそれぞれ取得し、かつ第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出するために用いられる。
追加データ生成モジュール414は、追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させるために用いられる。
上記不均衡標本データの前処理装置において、サーバは、予め設定された分類ルールに従って初期データを分類して、第1クラスの標本集合と第2クラスの標本集合を取得する。K個の第1標本点を抽出して特徴解析を行い、取得された第1クラスの標本集合の追加データ特徴に基づいて第1クラスの標本集合の追加データラベルを生成する。第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させることにより、第1クラスの標本集合と第2クラスの標本集合の数が均衡状態になり、さらに、標本の不均衡問題が解決される。
一実施例では、初期データ取得モジュールを提供し、さらに、データ取得要求に応じてデータベースから生データを取得することと、生データに対応するデータタイプを取得することと、予め設定されたデータタイプと処理方式との対応関係を取得することと、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられる。
上記初期データ取得モジュールは、データタイプに応じて生データに対してデータ処理を行うことにより、異なるデータタイプに応じて初期データを意図的に生成し、作業効率を向上させる。
一実施例では、分類モジュールを提供し、さらに、初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、標本集合の初期データのデータ量を算出することと、各標本集合のデータ量を予め設定されたデータ量閾値と照合し、データ量がデータ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得ることと、データ量がデータ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得ることと、に用いられる。
上記分類モジュールは、標本集合をデータ量の大きさに応じて予め分類しておくことにより、第1クラスの標本集合と第2クラスの標本集合を取得し、データを追加する必要がある標本集合をできるだけ早く知り、データの追加プロセスを速め、作業効率を向上させる。
一実施例では、抽出モジュールを提供し、さらに、第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得ることと、第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出することと、第1標本点を距離に応じて並び替えて、前K個の第1標本点を取得することと、に用いられる。
上記抽出モジュールは、第1の標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離を算出し、かつ前K個の距離に対応する第1標本点を取得することにより、抽出した第1標本点が、前K個の距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
一実施例では、抽出モジュールを提供し、さらに、第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出することと、ユークリッド距離を小さい順に並び替えることと、ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得することと、に用いられる。
上記抽出モジュールについて、サーバが第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替える。ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得し、さらに、抽出した第1標本点が、前K個のユークリッド距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
一実施例では、追加データ生成モジュールを提供し、さらに、K個の第1標本点の特徴を抽出することと、特徴を解析処理して、特徴属性を取得することと、特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得することと、共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出することと、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得することと、最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することと、に用いられる。
上記追加データ生成モジュールについて、サーバは、K個の第1標本点の特徴を解析処理して、特徴属性を取得し、かつ特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出し、K個の第1標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することにより、生成した追加データ特徴は、第1クラスの標本集合に対応する特徴を最大限に含み、追加データと第1標本集合における標本点との類似度を保証することができる。
不均衡標本データの前処理装置の具体的な限定は、上記のような不均衡標本データの前処理方法に関する限定を参照することができ、ここでは重複した説明を省略する。上記不均衡標本データの前処理装置における各モジュールの全て又は一部は、ソフトウェア、ハードウェア及びその組み合わせにより実現されてもよい。上記各モジュールは、プロセッサが以上の各モジュールに対応する動作を呼び出して実行するように、コンピュータ機器内のプロセッサにハードウェアで組み込まれてもよいし、プロセッサから独立してもよいし、コンピュータ機器内のメモリにソフトウェアで記憶されてもよい。
一実施例では、コンピュータ機器を提供し、該コンピュータ機器はサーバであってもよく、その内部構成図は図5に示すものであってもよい。該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、該コンピュータ機器のプロセッサは、演算及び制御能力を提供するために用いられる。該コンピュータ機器のメモリは、不揮発性コンピュータ読取可能な記憶媒体及び内部メモリを含む。該不揮発性コンピュータ読取可能な記憶媒体には、オペレーティングシステム、コンピュータ読取可能な命令、及びデータベースが記憶される。該内部メモリは、不揮発性コンピュータ読取可能な記憶媒体におけるオペレーティングシステム及びコンピュータ読取可能な命令の実行に環境を提供する。該コンピュータ機器のデータベースは、不均衡標本データを記憶するために用いられる。該コンピュータ機器のネットワークインタフェースは、外部の端末とネットワーク接続を介して通信するために用いられる。該コンピュータ読取可能な命令は、プロセッサにより実行されるとき、不均衡標本データの前処理方法を実現する。
なお、図5に示した構成は、本願の解決手段に係る一部の構成を示すブロック図であるが、本願の解決手段が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図示よりも多いか又は少ない部品を含んでもよいし、一部の部品を組み合わせて構成されてもよいし、異なる部品で配置されてもよいことは、当業者であれば理解すべきである。コンピュータ読取可能な命令が記憶されたメモリ及び1つ又は複数のプロセッサを含むコンピュータ機器であって、コンピュータ読取可能な命令がプロセッサによって実行されるとき、本願のいずれかの実施例で提供される不均衡標本データの前処理方法のステップを実現する。
コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、コンピュータ読取可能な命令が1つ又は複数のプロセッサによって実行されるとき、1つ又は複数のプロセッサに本願のいずれかの実施例で提供される不均衡標本データの前処理方法のステップを実現させる。
上記実施例の方法のフローの全て又は一部は、コンピュータ読取可能な命令を介して関連するハードウェアに命令することによって実施することができ、前記コンピュータ読取可能な命令は、不揮発性コンピュータ読取可能な記憶媒介に記憶されることができ、該コンピュータ読取可能な命令は、実行時に、上記各方法の実施例のフローを含み得ることは、当業者であれば理解すべきものである。なお、本願で提供される各実施例に使用されるメモリ、記憶、データベース又はその他の媒体への任意の参照は、不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、リードオンリーメモリ(ROM)、プログラム可能なROM(PROM)、電気的プログラム可能なROM(EPROM)、電気的消去可能プログラム可能なROM(EEPROM)、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。なお、限定のためではなく、説明として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)等の多くの形で使用可能である。
以上の実施例の各技術的特徴は、任意の組み合わせが可能であり、説明を簡単にするために、上記実施例における各技術的特徴の全ての可能な組み合わせについて説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載された範囲内であると考えられるべきである。
上記の実施例は、本願のいくつかの実施形態を示したものに過ぎず、その記述は具体的で詳細なものであるが、これらによって特許請求の範囲を限定するものであると理解されるべきではない。なお、当業者であれば、本願の構想から逸脱することなく、いくつかの変形、改良が可能であり、それらはいずれも本願の保護範囲に含まれると理解すべきである。したがって、本願の保護範囲は、特許請求の範囲に記載の内容に準拠する。

Claims (15)

  1. コンピュータによって実行される、不均衡標本データの前処理方法であって、
    データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
    予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
    前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
    K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
    第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
    前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
    前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を含むことを特徴とする方法。
  2. データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得する前記ステップは、
    前記データ取得要求に応じてデータベースから生データを取得するステップと、
    前記生データに対応するデータタイプを取得するステップと、
    予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
    前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 予め設定された分類ルールに従って前記初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合とを取得する前記ステップは、
    前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
    前記標本集合の初期データのデータ量を算出するステップと、
    各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、
    前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記第1クラスの標本集合におけるK個の第1標本点を抽出する前記ステップは、
    前記第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、
    前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
    前記第1標本点を前記距離に応じて並び替えて、前K個の第1標本点を取得するステップと、を含むことを特徴とする請求項1乃至3のいずれか一項に記載の方法。
  5. 前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
    前記ユークリッド距離を小さい順に並び替えるステップと、
    前記ユークリッド距離の並び順に基づいて、前記前K個のユークリッド距離に対応する第1標本点を取得するステップと、をさらに含むことを特徴とする請求項4に記載の方法。
  6. K個の前記第1標本点を特徴解析して、追加データ特徴を取得する前記ステップは、
    K個の前記第1標本点の特徴を抽出するステップと、
    前記特徴を解析処理して、特徴属性を取得するステップと、
    前記特徴属性に基づいてK個の前記第1標本点をそれぞれ特徴抽出して、K個の前記第1標本点の共通特徴をそれぞれ取得するステップと、
    前記共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ前記共通特徴組み合わせに含まれる共通特徴の数を算出するステップと、
    前記共通特徴組み合わせを前記共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得するステップと、
    前記最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成するステップと、を含むことを特徴とする請求項1乃至3のいずれか一項に記載の方法。
  7. 不均衡標本データの前処理装置であって、
    データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、
    予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するための分類モジュールと、
    前記第1クラスの標本集合におけるK個の第1標本点を抽出するための抽出モジュールと、
    K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、
    第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、
    前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するための比率算出モジュールと、
    前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含むことを特徴とする装置。
  8. 前記初期データ取得モジュールは、さらに、
    前記データ取得要求に応じてデータベースから生データを取得することと、
    前記生データに対応するデータタイプを取得することと、
    予め設定されたデータタイプと処理方式との対応関係を取得することと、
    前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられることを特徴とする請求項7に記載の装置。
  9. 前記分類モジュールは、さらに、
    前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、
    前記標本集合の初期データのデータ量を算出することと、
    各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得ることと、
    前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得ることと、に用いられることを特徴とする請求項7に記載の装置。
  10. コンピュータ機器であって、メモリと1つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、
    データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
    予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
    前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
    K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
    第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
    前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
    前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させるコンピュータ機器。
  11. 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
    前記データ取得要求に応じてデータベースから生データを取得するステップと、
    前記生データに対応するデータタイプを取得するステップと、
    予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
    前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を実行することを特徴とする請求項10に記載のコンピュータ機器。
  12. 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
    前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
    前記標本集合の初期データのデータ量を算出するステップと、
    各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、
    前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップと、を実行することを特徴とする請求項10に記載のコンピュータ機器。
  13. 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
    前記第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、
    前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
    前記第1標本点を前記距離に応じて並び替えて、前K個の第1標本点を取得するステップと、を実行することを特徴とする請求項10乃至12のいずれか一項に記載のコンピュータ機器。
  14. 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
    前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
    前記ユークリッド距離を小さい順に並び替えるステップと、
    前記ユークリッド距離の並び順に基づいて、前記前K個のユークリッド距離に対応する第1標本点を取得するステップと、を実行することを特徴とする請求項13に記載のコンピュータ機器。
  15. コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、前記コンピュータ読取可能な命令は、1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、
    データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
    予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
    前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
    K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
    第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
    前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
    前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させることを特徴とする記憶媒体。
JP2021506496A 2018-09-03 2018-12-24 不均衡標本データの前処理方法、装置及びコンピュータ機器 Active JP7058797B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811018913.0A CN109325118B (zh) 2018-09-03 2018-09-03 不平衡样本数据预处理方法、装置和计算机设备
CN201811018913.0 2018-09-03
PCT/CN2018/123208 WO2020048048A1 (zh) 2018-09-03 2018-12-24 不平衡样本数据预处理方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
JP2021533499A JP2021533499A (ja) 2021-12-02
JP7058797B2 true JP7058797B2 (ja) 2022-04-22

Family

ID=65264490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021506496A Active JP7058797B2 (ja) 2018-09-03 2018-12-24 不均衡標本データの前処理方法、装置及びコンピュータ機器

Country Status (5)

Country Link
US (1) US11941087B2 (ja)
JP (1) JP7058797B2 (ja)
CN (1) CN109325118B (ja)
SG (1) SG11202100897SA (ja)
WO (1) WO2020048048A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529172A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 数据处理方法和数据处理设备
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置
CN110941751B (zh) * 2019-11-22 2023-09-15 上海电气分布式能源科技有限公司 数据集的数据的分类方法、系统、电子产品和介质
CN110889462B (zh) * 2019-12-09 2023-05-02 秒针信息技术有限公司 一种数据处理方法、装置、设备和存储介质
CN111860642A (zh) * 2020-07-20 2020-10-30 深圳市检验检疫科学研究院 一种不均衡样本分类方法和装置
CN115238837B (zh) * 2022-09-23 2023-04-18 荣耀终端有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204966A (ja) 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。
CN105786970A (zh) 2016-01-29 2016-07-20 深圳先进技术研究院 不平衡数据的处理方法及装置
JP2018106216A (ja) 2016-12-22 2018-07-05 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
US8671069B2 (en) * 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
CN101799748B (zh) * 2009-02-06 2013-02-13 中国移动通信集团公司 一种确定数据样本类别的方法及其系统
KR101746328B1 (ko) * 2016-01-29 2017-06-12 한국과학기술원 교차 프로젝트 결함 예측을 위한 최단 이웃점을 이용한 하이브리드 인스턴스 선택 방법
CN107133190A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种机器学习系统的训练方法和训练系统
CN106201897B (zh) * 2016-07-26 2018-08-24 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN106650780B (zh) * 2016-10-18 2021-02-12 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN106599913B (zh) * 2016-12-07 2019-08-06 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN107688831A (zh) * 2017-09-04 2018-02-13 五邑大学 一种基于聚类下采样的不平衡数据分类方法
US10572801B2 (en) * 2017-11-22 2020-02-25 Clinc, Inc. System and method for implementing an artificially intelligent virtual assistant using machine learning
CN107992905A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 样本数据均衡方法和装置
CN108388924A (zh) * 2018-03-08 2018-08-10 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN108460421A (zh) * 2018-03-13 2018-08-28 中南大学 不平衡数据的分类方法
CN108681876A (zh) * 2018-05-11 2018-10-19 平安科技(深圳)有限公司 资金自动估值核算方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204966A (ja) 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。
CN105786970A (zh) 2016-01-29 2016-07-20 深圳先进技术研究院 不平衡数据的处理方法及装置
JP2018106216A (ja) 2016-12-22 2018-07-05 日本電信電話株式会社 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム

Also Published As

Publication number Publication date
CN109325118A (zh) 2019-02-12
SG11202100897SA (en) 2021-03-30
CN109325118B (zh) 2023-06-27
JP2021533499A (ja) 2021-12-02
US20210158078A1 (en) 2021-05-27
WO2020048048A1 (zh) 2020-03-12
US11941087B2 (en) 2024-03-26

Similar Documents

Publication Publication Date Title
JP7058797B2 (ja) 不均衡標本データの前処理方法、装置及びコンピュータ機器
Krishnaraj et al. An efficient radix trie‐based semantic visual indexing model for large‐scale image retrieval in cloud environment
CN107992746B (zh) 恶意行为挖掘方法及装置
US9588991B2 (en) Image search device, image search method, program, and computer-readable storage medium
Agrawal et al. Cloudcv: Large-scale distributed computer vision as a cloud service
CN112270686B (zh) 图像分割模型训练、图像分割方法、装置及电子设备
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN112257801B (zh) 图像的增量聚类方法、装置、电子设备及存储介质
CN111026865A (zh) 知识图谱的关系对齐方法、装置、设备及存储介质
Mera et al. Towards fast multimedia feature extraction: Hadoop or storm
CN113268328A (zh) 批处理方法、装置、计算机设备和存储介质
CN113971224A (zh) 图像检索系统、方法和相关设备
CN108536769B (zh) 图像分析方法、搜索方法及装置、计算机装置及存储介质
US20130031048A1 (en) Data partitioning apparatus and data partitioning method
Nirmal et al. Issues of K means clustering while migrating to map reduce paradigm with big data: A survey
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN115687352A (zh) 一种存储的方法及装置
CN112256730A (zh) 信息检索方法、装置、电子设备及可读存储介质
Guo et al. An improved image retrieval method based on spark
CN105354579B (zh) 一种特征检测的方法和装置
Han et al. AccurateML: Information-aggregation-based approximate processing for fast and accurate machine learning on MapReduce
KR102632588B1 (ko) 평균-피쳐를 이용한 클러스터링 방법, 장치 및 컴퓨터 프로그램
CN114021739B (zh) 业务处理、业务处理模型训练方法、装置及电子设备
CN109635286B (zh) 政策热点分析的方法、装置、计算机设备和存储介质
CN106407215A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220412

R150 Certificate of patent or registration of utility model

Ref document number: 7058797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150