JP7058797B2 - 不均衡標本データの前処理方法、装置及びコンピュータ機器 - Google Patents
不均衡標本データの前処理方法、装置及びコンピュータ機器 Download PDFInfo
- Publication number
- JP7058797B2 JP7058797B2 JP2021506496A JP2021506496A JP7058797B2 JP 7058797 B2 JP7058797 B2 JP 7058797B2 JP 2021506496 A JP2021506496 A JP 2021506496A JP 2021506496 A JP2021506496 A JP 2021506496A JP 7058797 B2 JP7058797 B2 JP 7058797B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sample set
- class
- sample
- additional data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000007781 pre-processing Methods 0.000 title claims description 20
- 230000004044 response Effects 0.000 claims description 20
- 238000003672 processing method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 230000001174 ascending effect Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 14
- 239000000203 mixture Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/22—Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
- G06F7/24—Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願は、2018年9月3日に中国国家知識産権局に提出された、出願番号2018110189130、出願の名称「不均衡標本データの前処理方法、装置及びコンピュータ機器」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
Claims (15)
- コンピュータによって実行される、不均衡標本データの前処理方法であって、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を含むことを特徴とする方法。 - データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得する前記ステップは、
前記データ取得要求に応じてデータベースから生データを取得するステップと、
前記生データに対応するデータタイプを取得するステップと、
予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。 - 予め設定された分類ルールに従って前記初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合とを取得する前記ステップは、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
前記標本集合の初期データのデータ量を算出するステップと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記第1クラスの標本集合におけるK個の第1標本点を抽出する前記ステップは、
前記第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
前記第1標本点を前記距離に応じて並び替えて、前K個の第1標本点を取得するステップと、を含むことを特徴とする請求項1乃至3のいずれか一項に記載の方法。 - 前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
前記ユークリッド距離を小さい順に並び替えるステップと、
前記ユークリッド距離の並び順に基づいて、前記前K個のユークリッド距離に対応する第1標本点を取得するステップと、をさらに含むことを特徴とする請求項4に記載の方法。 - K個の前記第1標本点を特徴解析して、追加データ特徴を取得する前記ステップは、
K個の前記第1標本点の特徴を抽出するステップと、
前記特徴を解析処理して、特徴属性を取得するステップと、
前記特徴属性に基づいてK個の前記第1標本点をそれぞれ特徴抽出して、K個の前記第1標本点の共通特徴をそれぞれ取得するステップと、
前記共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ前記共通特徴組み合わせに含まれる共通特徴の数を算出するステップと、
前記共通特徴組み合わせを前記共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得するステップと、
前記最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成するステップと、を含むことを特徴とする請求項1乃至3のいずれか一項に記載の方法。 - 不均衡標本データの前処理装置であって、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するための分類モジュールと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するための抽出モジュールと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するための比率算出モジュールと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含むことを特徴とする装置。 - 前記初期データ取得モジュールは、さらに、
前記データ取得要求に応じてデータベースから生データを取得することと、
前記生データに対応するデータタイプを取得することと、
予め設定されたデータタイプと処理方式との対応関係を取得することと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられることを特徴とする請求項7に記載の装置。 - 前記分類モジュールは、さらに、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、
前記標本集合の初期データのデータ量を算出することと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得ることと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得ることと、に用いられることを特徴とする請求項7に記載の装置。 - コンピュータ機器であって、メモリと1つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させるコンピュータ機器。 - 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記データ取得要求に応じてデータベースから生データを取得するステップと、
前記生データに対応するデータタイプを取得するステップと、
予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を実行することを特徴とする請求項10に記載のコンピュータ機器。 - 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
前記標本集合の初期データのデータ量を算出するステップと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップと、を実行することを特徴とする請求項10に記載のコンピュータ機器。 - 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
前記第1標本点を前記距離に応じて並び替えて、前K個の第1標本点を取得するステップと、を実行することを特徴とする請求項10乃至12のいずれか一項に記載のコンピュータ機器。 - 前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
前記ユークリッド距離を小さい順に並び替えるステップと、
前記ユークリッド距離の並び順に基づいて、前記前K個のユークリッド距離に対応する第1標本点を取得するステップと、を実行することを特徴とする請求項13に記載のコンピュータ機器。 - コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、前記コンピュータ読取可能な命令は、1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させることを特徴とする記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811018913.0A CN109325118B (zh) | 2018-09-03 | 2018-09-03 | 不平衡样本数据预处理方法、装置和计算机设备 |
CN201811018913.0 | 2018-09-03 | ||
PCT/CN2018/123208 WO2020048048A1 (zh) | 2018-09-03 | 2018-12-24 | 不平衡样本数据预处理方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021533499A JP2021533499A (ja) | 2021-12-02 |
JP7058797B2 true JP7058797B2 (ja) | 2022-04-22 |
Family
ID=65264490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021506496A Active JP7058797B2 (ja) | 2018-09-03 | 2018-12-24 | 不均衡標本データの前処理方法、装置及びコンピュータ機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11941087B2 (ja) |
JP (1) | JP7058797B2 (ja) |
CN (1) | CN109325118B (ja) |
SG (1) | SG11202100897SA (ja) |
WO (1) | WO2020048048A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529172A (zh) * | 2019-09-18 | 2021-03-19 | 华为技术有限公司 | 数据处理方法和数据处理设备 |
CN112749719A (zh) * | 2019-10-31 | 2021-05-04 | 北京沃东天骏信息技术有限公司 | 一种用于样本均衡分类的方法和装置 |
CN110941751B (zh) * | 2019-11-22 | 2023-09-15 | 上海电气分布式能源科技有限公司 | 数据集的数据的分类方法、系统、电子产品和介质 |
CN110889462B (zh) * | 2019-12-09 | 2023-05-02 | 秒针信息技术有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN111860642A (zh) * | 2020-07-20 | 2020-10-30 | 深圳市检验检疫科学研究院 | 一种不均衡样本分类方法和装置 |
CN115238837B (zh) * | 2022-09-23 | 2023-04-18 | 荣耀终端有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204966A (ja) | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。 |
CN105786970A (zh) | 2016-01-29 | 2016-07-20 | 深圳先进技术研究院 | 不平衡数据的处理方法及装置 |
JP2018106216A (ja) | 2016-12-22 | 2018-07-05 | 日本電信電話株式会社 | 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294223A1 (en) * | 2006-06-16 | 2007-12-20 | Technion Research And Development Foundation Ltd. | Text Categorization Using External Knowledge |
US8671069B2 (en) * | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
CN101799748B (zh) * | 2009-02-06 | 2013-02-13 | 中国移动通信集团公司 | 一种确定数据样本类别的方法及其系统 |
KR101746328B1 (ko) * | 2016-01-29 | 2017-06-12 | 한국과학기술원 | 교차 프로젝트 결함 예측을 위한 최단 이웃점을 이용한 하이브리드 인스턴스 선택 방법 |
CN107133190A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种机器学习系统的训练方法和训练系统 |
CN106201897B (zh) * | 2016-07-26 | 2018-08-24 | 南京航空航天大学 | 基于主成分分布函数的软件缺陷预测不平衡数据处理方法 |
CN106650780B (zh) * | 2016-10-18 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置、分类器训练方法及系统 |
CN106599913B (zh) * | 2016-12-07 | 2019-08-06 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN107688831A (zh) * | 2017-09-04 | 2018-02-13 | 五邑大学 | 一种基于聚类下采样的不平衡数据分类方法 |
US10572801B2 (en) * | 2017-11-22 | 2020-02-25 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
CN107992905A (zh) * | 2017-12-25 | 2018-05-04 | 东软集团股份有限公司 | 样本数据均衡方法和装置 |
CN108388924A (zh) * | 2018-03-08 | 2018-08-10 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
CN108460421A (zh) * | 2018-03-13 | 2018-08-28 | 中南大学 | 不平衡数据的分类方法 |
CN108681876A (zh) * | 2018-05-11 | 2018-10-19 | 平安科技(深圳)有限公司 | 资金自动估值核算方法、装置、计算机设备及存储介质 |
-
2018
- 2018-09-03 CN CN201811018913.0A patent/CN109325118B/zh active Active
- 2018-12-24 SG SG11202100897SA patent/SG11202100897SA/en unknown
- 2018-12-24 WO PCT/CN2018/123208 patent/WO2020048048A1/zh active Application Filing
- 2018-12-24 JP JP2021506496A patent/JP7058797B2/ja active Active
-
2021
- 2021-02-02 US US17/165,640 patent/US11941087B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204966A (ja) | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | サンプリング装置、サンプリング方法、サンプリングプログラム、クラス判別装置およびクラス判別システム。 |
CN105786970A (zh) | 2016-01-29 | 2016-07-20 | 深圳先进技术研究院 | 不平衡数据的处理方法及装置 |
JP2018106216A (ja) | 2016-12-22 | 2018-07-05 | 日本電信電話株式会社 | 学習データ生成装置、開発データ生成装置、モデル学習装置、それらの方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN109325118A (zh) | 2019-02-12 |
SG11202100897SA (en) | 2021-03-30 |
CN109325118B (zh) | 2023-06-27 |
JP2021533499A (ja) | 2021-12-02 |
US20210158078A1 (en) | 2021-05-27 |
WO2020048048A1 (zh) | 2020-03-12 |
US11941087B2 (en) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7058797B2 (ja) | 不均衡標本データの前処理方法、装置及びコンピュータ機器 | |
Krishnaraj et al. | An efficient radix trie‐based semantic visual indexing model for large‐scale image retrieval in cloud environment | |
CN107992746B (zh) | 恶意行为挖掘方法及装置 | |
US9588991B2 (en) | Image search device, image search method, program, and computer-readable storage medium | |
Agrawal et al. | Cloudcv: Large-scale distributed computer vision as a cloud service | |
CN112270686B (zh) | 图像分割模型训练、图像分割方法、装置及电子设备 | |
CN104679818A (zh) | 一种视频关键帧提取方法及系统 | |
CN112257801B (zh) | 图像的增量聚类方法、装置、电子设备及存储介质 | |
CN111026865A (zh) | 知识图谱的关系对齐方法、装置、设备及存储介质 | |
Mera et al. | Towards fast multimedia feature extraction: Hadoop or storm | |
CN113268328A (zh) | 批处理方法、装置、计算机设备和存储介质 | |
CN113971224A (zh) | 图像检索系统、方法和相关设备 | |
CN108536769B (zh) | 图像分析方法、搜索方法及装置、计算机装置及存储介质 | |
US20130031048A1 (en) | Data partitioning apparatus and data partitioning method | |
Nirmal et al. | Issues of K means clustering while migrating to map reduce paradigm with big data: A survey | |
CN114818627A (zh) | 一种表格信息抽取方法、装置、设备及介质 | |
CN115687352A (zh) | 一种存储的方法及装置 | |
CN112256730A (zh) | 信息检索方法、装置、电子设备及可读存储介质 | |
Guo et al. | An improved image retrieval method based on spark | |
CN105354579B (zh) | 一种特征检测的方法和装置 | |
Han et al. | AccurateML: Information-aggregation-based approximate processing for fast and accurate machine learning on MapReduce | |
KR102632588B1 (ko) | 평균-피쳐를 이용한 클러스터링 방법, 장치 및 컴퓨터 프로그램 | |
CN114021739B (zh) | 业务处理、业务处理模型训练方法、装置及电子设备 | |
CN109635286B (zh) | 政策热点分析的方法、装置、计算机设备和存储介质 | |
CN106407215A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210205 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7058797 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |