JP2019191769A - データ判別プログラム、データ判別装置およびデータ判別方法 - Google Patents
データ判別プログラム、データ判別装置およびデータ判別方法 Download PDFInfo
- Publication number
- JP2019191769A JP2019191769A JP2018081744A JP2018081744A JP2019191769A JP 2019191769 A JP2019191769 A JP 2019191769A JP 2018081744 A JP2018081744 A JP 2018081744A JP 2018081744 A JP2018081744 A JP 2018081744A JP 2019191769 A JP2019191769 A JP 2019191769A
- Authority
- JP
- Japan
- Prior art keywords
- data
- class
- test data
- certainty
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】データ判別装置1は、正解クラスと対応付けられたラベルありデータ群22から生成された複数のデータ群のうち、一部のデータ群および当該データ群に対応した正解クラスと、一部のデータ群以外のデータ群とを用いて、学習モデルに対する半教師あり学習を実行し、ラベルありデータ群22の各データと、複数のクラスそれぞれの確信度の組と正解クラスとを対応付けた正解クラス付き確信度情報24を生成する。データ判別装置1は、正解クラスがない複数の検証対象データについて、学習モデルを用いて、複数のクラスそれぞれの確信度を生成する。データ判別装置1は、検証対象データについて、当該検証対象データの複数のクラスそれぞれの確信度の組と類似する類似データを正解クラス付き確信度情報24から特定し、類似データの正解クラスを検証対象データのクラスとして推定する。
【選択図】図1
Description
図14は、ラベル間の出現頻度に大きな偏りがある場合のSSLの適用結果(分布)の参考例を示す図である。図14左図に示すように、特徴量空間上においてラベルなしデータ(NA)が13,602点存在するとする。特徴量空間上においてラベルありデータが、クラス1、2、3、4について、それぞれ2,116点、72点、253点、75点存在するとする。ラベルありデータは、ラベルなしデータより少ない。ラベルありデータには、クラス間の出現頻度に大きな偏りがある。すなわち、クラス1の出現頻度は、0.8410を示し、他のクラス2、3、4と比較して高頻度である。
図1は、実施例に係るデータ判別装置の構成を示す機能ブロック図である。図1に示すデータ判別装置1は、SSLを実行した際の各ラベルなしデータ点に対し、その得られるクラス別の確信度ベクトルがラベルありデータ点に対してSSLを実行した際に得られるクラス別の確信度ベクトルと最も類似するラベルありデータ点と同じクラスを推定クラスとして付与する。ここでいうクラス別の確信度ベクトルとは、クラス別の各確信度を要素として、この順序で配列してベクトル化したものである。なお、実施例では、SSLによって分類される「レベル」のことを「クラス」または「ラベル」と呼ぶことにする。
d(p,q)=|p(v)−q(w)|=sqrt((p1−q1)2+・・・+(pn−qn)2)・・・式(1)
まず、実施例に係る第1のSSL実行の一例を、図5を参照して説明する。図5は、実施例に係る第1のSSL実行の一例を示す図である。
次に、実施例に係る第2のSSL実行の一例を、図6を参照して説明する。図6は、実施例に係る第2のSSL実行の一例を示す図である。
次に、実施例に係るクラス推定の一例を、図7A〜図7Cを参照して説明する。図7A〜図7Cは、実施例に係るクラス推定の一例を示す図である。
次に、実施例に係る適用結果の一例を、図8A,図8Bを参照して説明する。図8A,図8Bは、実施例に係る適用結果の一例を示す図である。
次に、実施例に係る適用結果(分布)の一例を、図9を参照して説明する。図9は、実施例に係る適用結果(分布)の一例を示す図である。
図10は、実施例に係るデータ判別処理のフローチャートの一例を示す図である。なお、クラスは、N個あるものとする。
図11は、実施例に係るクラス推定処理のフローチャートの一例を示す図である。
図12Aおよび図12Bは、実施例に係るデータ判別の別の適用例を示す図である。図12Aおよび図12Bで示す適用例は、特定の観測地点での特定時刻の気象予報データから天気を推定する場合である。ここでは、データ判別装置1は、首都圏の4箇所の観測地点(千代田区、さいたま市、千葉市、横浜市)における2011/07/29〜2018/02/02の各予報日の朝6時の気象予報データから4クラスの天気(晴、曇、雨、雪)を推定する。
上記実施例によれば、データ判別装置1は、正解ラベルと対応付けられたテストデータから複数の部分テストデータを生成する。データ判別装置1は、複数の部分テストデータのうち、一部の部分テストデータおよび当該一部の部分テストデータに対応した正解ラベルと、一部の部分テストデータ以外の部分テストデータとを用いて、学習モデルに対するSSLを実行する。データ判別装置1は、一部の部分テストデータ以外の前記部分テストデータの各データに対し、学習モデルの判別結果である複数のラベルそれぞれの確信度の組と、当該データに対応付けられた正解ラベルとを対応付けた対応情報(正解クラス付き確信度情報24)を生成する。データ判別装置1は、正解のラベルの対応付けが存在しない複数の検証対象データそれぞれについて、学習モデルを用いて、複数のラベルそれぞれの確信度を生成する。データ判別装置1は、複数の検証対象データそれぞれについて、当該検証対象データの複数のラベルそれぞれの確信度の組と類似する類似データを、正解クラス付き確信度情報24から特定する。データ判別装置1は、類似データの正解ラベルを検証対象データのラベルとして出力する。かかる構成によれば、データ判別装置1は、正解ラベルと対応付けられたテストデータ(ラベルありデータ)について、複数のラベル(クラス)の分布に偏りがある場合でも、ラベルなしデータについて、SSLを利用した適切なラベル(クラス)の判別を可能とする。
なお、図示したデータ判別装置1の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、データ判別装置1の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第1のSSL実行部12と正解クラス付き確信度情報生成部13とを1つの部として統合しても良い。また、クラス推定部15を、クラス別確信度ベクトル間距離を算出する算出部と、算出したクラス別確信度ベクトル間距離からクラスを推定する推定部とに分離しても良い。また、記憶部20をデータ判別装置1の外部装置としてネットワーク経由で接続するようにしても良い。
10 制御部
11 特徴量化部
12 第1のSSL実行部
13 正解クラス付き確信度情報生成部
14 第2のSSL実行部
15 クラス推定部
16 推定結果出力部
20 記憶部
21 計測データ群
22 ラベルありデータ群
23 ラベルなしデータ群
24 正解クラス付き確信度情報
25 ラベルなし確信度情報
26 推定クラス付き確信度情報
Claims (6)
- コンピュータに、
正解ラベルと対応付けられたテストデータから複数の部分テストデータを生成し、
前記複数の部分テストデータのうち、一部の部分テストデータおよび当該一部の部分テストデータに対応した正解ラベルと、前記一部の部分テストデータ以外の前記部分テストデータとを用いて、学習モデルに対する半教師あり学習を実行し、
前記一部の部分テストデータ以外の前記部分テストデータの各データに対し、前記学習モデルの判別結果である複数のラベルそれぞれの確信度の組と、当該データに対応付けられた正解ラベルとを対応付けた対応情報を生成し、
正解のラベルの対応付けが存在しない複数の検証対象データそれぞれについて、前記学習モデルを用いて、前記複数のラベルそれぞれの確信度を生成し、
前記複数の検証対象データそれぞれについて、当該検証対象データの前記複数のラベルそれぞれの確信度の組と類似する類似データを、前記対応情報から特定し、
前記類似データの正解ラベルを前記検証対象データのラベルとして出力する
処理を実行させるデータ判別プログラム。 - 該実行する処理は、前記テストデータからk個の部分テストデータを生成し、前記k個の部分テストデータを用いて、前記学習モデルの半教師あり学習でk−fold CV(Cross Validation)を実行する
ことを特徴とする請求項1に記載のデータ判別プログラム。 - 該実行する処理は、前記テストデータから、ランダムに各ラベルの頻度を保ちながらkグループの複数の部分テストデータを生成し、1グループの部分テストデータに対応した正解ラベルと、k−1個のグループの部分テストデータを用いて、前記学習モデルに対する半教師あり学習を実行し、前記k−1のグループに含まれる各データの前記複数のラベルそれぞれの確信度を生成する、
ことを特徴とする請求項2に記載のデータ判別プログラム。 - 該特定する処理は、前記検証対象データそれぞれについて、前記複数のラベルそれぞれの確信度の組と、前記対応情報に含まれる各データの前記複数のラベルそれぞれの確信度の組とを比較し、組で示される前記複数のラベルそれぞれの確信度を用いた距離が最も小さいデータを類似データとして特定する
ことを特徴とする請求項1に記載のデータ判別プログラム。 - 正解のラベルと対応付けられたテストデータから複数の部分テストデータを生成し、前記複数の部分テストデータのうち、一部の部分テストデータおよび当該一部の部分テストデータに対応した正解ラベルと、前記一部の部分テストデータ以外の前記部分テストデータとを用いて、学習モデルに対する半教師あり学習を実行する実行部と、
前記一部の部分テストデータ以外の前記部分テストデータの各データに対し、前記学習モデルの判別結果である複数のラベルそれぞれの確信度の組と、当該データに対応付けられた正解ラベルとを対応付けた対応情報を生成する第1の生成部と、
正解のラベルの対応付けが存在しない複数の検証対象データそれぞれについて、前記学習モデルを用いて、前記複数のラベルそれぞれの確信度を生成する第2の生成部と、
前記複数の検証対象データそれぞれについて、当該検証対象データの前記複数のラベルそれぞれの確信度の組と類似する類似データを、前記対応情報から特定する特定部と、
前記類似データの正解ラベルを前記検証対象データのラベルとして出力する出力部と、
を有することを特徴とするデータ判別装置。 - コンピュータが、
正解ラベルと対応付けられたテストデータから複数の部分テストデータを生成し、
前記複数の部分テストデータのうち、一部の部分テストデータおよび当該一部の部分テストデータに対応した正解ラベルと、前記一部の部分テストデータ以外の前記部分テストデータとを用いて、学習モデルに対する半教師あり学習を実行し、
前記一部の部分テストデータ以外の前記部分テストデータの各データに対し、前記学習モデルの判別結果である複数のラベルそれぞれの確信度の組と、当該データに対応付けられた正解ラベルとを対応付けた対応情報を生成し、
正解のラベルの対応付けが存在しない複数の検証対象データそれぞれについて、前記学習モデルを用いて、前記複数のラベルそれぞれの確信度を生成し、
前記複数の検証対象データそれぞれについて、当該検証対象データの前記複数のラベルそれぞれの確信度の組と類似する類似データを、前記対応情報から特定し、
前記類似データの正解ラベルを前記検証対象データのラベルとして出力する
処理を実行するデータ判別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018081744A JP7067234B2 (ja) | 2018-04-20 | 2018-04-20 | データ判別プログラム、データ判別装置およびデータ判別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018081744A JP7067234B2 (ja) | 2018-04-20 | 2018-04-20 | データ判別プログラム、データ判別装置およびデータ判別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019191769A true JP2019191769A (ja) | 2019-10-31 |
JP7067234B2 JP7067234B2 (ja) | 2022-05-16 |
Family
ID=68390424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018081744A Active JP7067234B2 (ja) | 2018-04-20 | 2018-04-20 | データ判別プログラム、データ判別装置およびデータ判別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7067234B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022050359A1 (ja) * | 2020-09-04 | 2022-03-10 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
WO2022163126A1 (ja) * | 2021-01-28 | 2022-08-04 | 日本電気株式会社 | データ分類装置、データ分類方法およびプログラム記録媒体 |
WO2023166576A1 (ja) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2024070169A1 (ja) * | 2022-09-29 | 2024-04-04 | 日本碍子株式会社 | 試作条件提案システム、試作条件提案方法 |
US12130037B2 (en) | 2020-09-04 | 2024-10-29 | Daikin Industries, Ltd. | Generation method, program, information processing apparatus, information processing method, and trained model |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721023A (ja) * | 1993-07-05 | 1995-01-24 | Komatsu Ltd | 推論装置 |
JP2000155681A (ja) * | 1998-11-24 | 2000-06-06 | Fujitsu Ltd | 類似事例に基づく予測を行う予測装置および方法 |
JP2003323601A (ja) * | 2002-05-01 | 2003-11-14 | Fujitsu Ltd | 信頼性尺度付き予測装置 |
JP2004206167A (ja) * | 2002-12-20 | 2004-07-22 | Fujitsu Ltd | 事例予測装置および事例予測方法 |
JP2010079871A (ja) * | 2008-06-09 | 2010-04-08 | Yahoo Japan Corp | ベクトルデータ検索装置 |
-
2018
- 2018-04-20 JP JP2018081744A patent/JP7067234B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721023A (ja) * | 1993-07-05 | 1995-01-24 | Komatsu Ltd | 推論装置 |
JP2000155681A (ja) * | 1998-11-24 | 2000-06-06 | Fujitsu Ltd | 類似事例に基づく予測を行う予測装置および方法 |
JP2003323601A (ja) * | 2002-05-01 | 2003-11-14 | Fujitsu Ltd | 信頼性尺度付き予測装置 |
JP2004206167A (ja) * | 2002-12-20 | 2004-07-22 | Fujitsu Ltd | 事例予測装置および事例予測方法 |
JP2010079871A (ja) * | 2008-06-09 | 2010-04-08 | Yahoo Japan Corp | ベクトルデータ検索装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022050359A1 (ja) * | 2020-09-04 | 2022-03-10 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
JP2022043922A (ja) * | 2020-09-04 | 2022-03-16 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
JP7041374B2 (ja) | 2020-09-04 | 2022-03-24 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
CN116097046A (zh) * | 2020-09-04 | 2023-05-09 | 大金工业株式会社 | 生成方法、程序、信息处理装置、信息处理方法及学习完毕模型 |
CN116097046B (zh) * | 2020-09-04 | 2023-12-08 | 大金工业株式会社 | 生成方法、信息处理装置、信息处理方法及学习完毕模型 |
US11965667B2 (en) | 2020-09-04 | 2024-04-23 | Daikin Industries, Ltd. | Generation method, program, information processing apparatus, information processing method, and trained model |
US12130037B2 (en) | 2020-09-04 | 2024-10-29 | Daikin Industries, Ltd. | Generation method, program, information processing apparatus, information processing method, and trained model |
WO2022163126A1 (ja) * | 2021-01-28 | 2022-08-04 | 日本電気株式会社 | データ分類装置、データ分類方法およびプログラム記録媒体 |
JP7491410B2 (ja) | 2021-01-28 | 2024-05-28 | 日本電気株式会社 | データ分類装置、データ分類方法およびデータ分類プログラム |
WO2023166576A1 (ja) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2024070169A1 (ja) * | 2022-09-29 | 2024-04-04 | 日本碍子株式会社 | 試作条件提案システム、試作条件提案方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7067234B2 (ja) | 2022-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019191769A (ja) | データ判別プログラム、データ判別装置およびデータ判別方法 | |
Martin et al. | Counting keys in parallel after a side channel attack | |
JP5454827B1 (ja) | 文書評価装置、文書評価方法、及びプログラム | |
US20150317563A1 (en) | Predicting application performance on hardware accelerators | |
JP2018205994A (ja) | 時系列データ分析装置、時系列データ分析方法およびコンピュータプログラム | |
JP7163786B2 (ja) | 学習方法、学習プログラムおよび学習装置 | |
WO2014199920A1 (ja) | 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体 | |
Hung | Penalized blind kriging in computer experiments | |
JP2018528511A (ja) | 生産システムにおける出力効率の最適化 | |
JPWO2014118978A1 (ja) | 学習方法、情報処理装置および学習プログラム | |
JP7207540B2 (ja) | 学習支援装置、学習支援方法、及びプログラム | |
WO2018088277A1 (ja) | 予測モデル生成システム、方法およびプログラム | |
Janssenswillen et al. | Enhancing discovered process models using Bayesian inference and MCMC | |
Huang et al. | Soft-split sparse regression based random forest for predicting future clinical scores of Alzheimer’s disease | |
CN110020957A (zh) | 维修对象的定损方法及装置、电子设备 | |
Alibasa et al. | Supporting mood introspection from digital footprints | |
Farag et al. | Inductive Conformal Prediction for Harvest-Readiness Classification of Cauliflower Plants: A Comparative Study of Uncertainty Quantification Methods | |
US20240045923A1 (en) | Information processing device, information processing method, and computer program product | |
Wang et al. | A novel trace clustering technique based on constrained trace alignment | |
JP7512229B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPWO2018088276A1 (ja) | 予測モデル生成システム、方法およびプログラム | |
Zhang et al. | Quadratic graph attention network (Q-GAT) for robust construction of gene regulatory networks | |
Leavline | Classification Problem Using MATLAB | |
Chang et al. | Online selection of effective functional test programs based on novelty detection | |
Peng et al. | A fast algorithm for sparse support vector machines for mobile computing applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7067234 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |