JP2007304782A - データセット選択装置および実験計画システム - Google Patents
データセット選択装置および実験計画システム Download PDFInfo
- Publication number
- JP2007304782A JP2007304782A JP2006131512A JP2006131512A JP2007304782A JP 2007304782 A JP2007304782 A JP 2007304782A JP 2006131512 A JP2006131512 A JP 2006131512A JP 2006131512 A JP2006131512 A JP 2006131512A JP 2007304782 A JP2007304782 A JP 2007304782A
- Authority
- JP
- Japan
- Prior art keywords
- data
- data set
- prediction
- unit
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】複数の属性値および対応する既知の出力値を含む訓練データのデータセット、および予め準備された複数の属性値に対応する未知の出力値を求めるための予測データのデータセットを受け付けるデータ入力受付部102と、訓練データの複数の属性値に対応する出力値の対応関係を、複数の予測アルゴリズムを含む能動学習装置30を用いて学習させ、学習された複数の対応関係を用いて、予測データに対応する出力値を予測させ、複数の予測アルゴリズムの複数の予測結果値を取得する予測結果受信部110と、取得した複数の予測アルゴリズムによる複数の予測結果値のばらつきが対応する予測データのデータセット内で大きいものを選択し、実験候補データとして抽出する抽出部116と、を備える。
【選択図】図3
Description
データの予測は個々のデータに対して実施されており、データセットと個々のデータを関連付けるためのシステムが存在してなかったため、いくつかのデータが一つの集合をなすようなデータセットに対しては適用することができなかった。
予め準備された複数の属性値を含み、前記複数の属性値に対応する未知の出力値を求めるための予測データを複数含むデータセットを受け付ける予測データ受付部と、
前記データセットの前記訓練データの前記複数の属性値に対応する前記出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、前記複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部と、
前記複数の予測アルゴリズムによりそれぞれ学習された複数の前記対応関係を用いて、前記予測データに対応する出力値を予測し、予測結果値として前記複数の予測アルゴリズム毎に複数取得する予測結果取得部と、
前記予測結果取得部が取得した前記複数の予測アルゴリズムによる複数の前記予測結果値のばらつきが対応する前記予測データの前記データセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部と、を備えることを特徴するデータセット選択装置が提供される。
Dj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj,値j) ・・・ 式(1)
Pj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj) ・・・ 式(2)
Sk={Sk1,Sk2,・・・,SkNk} ・・・ 式(3)
連続値の場合は、下記の式(5)となる。
+(vNm−ave)*(vNm−ave))/Nm ・・・ 式(5)
ここで、平均はクラスiに分類された頻度が最大のもののクラスを平均値とする。
分散は以下のように定義する。
+pn*log(pn) ・・・ 式(7)
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセット毎に合計または平均値を算出する合計算出部(集計部114)と、複数の予測結果値のデータセット毎の合計または平均値の分散値を算出する分散算出部(集計部114)と、分散値が所定の閾値以上か否かを判別する判別部(抽出部116)と、を含み、抽出部(集計部114および抽出部116)は、判別部(抽出部116)が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、分散値を所定の定義に従って、優先順位付けし、優先順位付けられた優先順位の高い予測結果値に該当するデータセットを順次前記実験候補データとして抽出する。
この手法の説明を行う前にデータの記述方法について説明を行う。
(予測値=a1の頻度,予測値=a2の頻度,・・・,予測値=anの頻度)
(ii)連続値の予測を行う場合
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部(データ入力受付部102)と、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセットのパラメータの値を頻度分布と比較して、頻度分布に近似するパラメータの値の個数をデータセット毎に合計または平均値を算出する算出部(集計部114)と、算出部(集計部114)によって算出された合計または平均値が所定の閾値以上か否かを判定する分布判定部(抽出部116)を含むことができ、抽出部(集計部114および抽出部116)は、判別部(抽出部116)が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。
(区間1に属する予測値の頻度,区間2に属する予測値の頻度,・・・,区間nに属する予測値の頻度)
以下の実施例では、データセットに含まれる複数のデータとして化合物を示す訓練データ11および予測データ13を用いた。化合物を示す訓練データ11または予測データ13の記述子としては、各化合物における所定の構造の有無に基づいてビット列に変換した。訓練データ11の値は、ある特定の活性を持つものに対して1を対応させ、活性を持たないものに対しては0を対応させた。活性の有無については、活性の強度で測定を行いある閾値を超えるものを活性が有するもの(正例)とし、それ以下のものは活性を持たないもの(負例)とした。能動学習装置30としては独自に開発を行っている装置を使用した。
次に、分散の小さなデータから順番をつけていく方法について上記と同様なデータを用いて実施した。同様にこの方法では偏りの少ないデータに対してより高い効率を期待することができる。しかしこの方法は前の手法とは異なり、データセット毎に分散のばらつきが大きな場合に有効な方法である。分散のばらつきが大きな値の場合、上記手法で計算した平均値はデータセットの代表として使うには信頼性にかけるためである。実施例1と同様な実験を行った。図9はランダムにデータセットを選択した場合と本システムの効果を比較した実施例の結果を示す図である。横軸は偽陽性率、縦軸は真陽性率を示す。図9に二本の線L1および線L3が存在しているが線L3が本システムを用いてデータセットを選択した場合、線L1がランダムにデータセットを選び出した場合の学習精度を示している。
次は、ある特定のデータ分布に近いデータセットに優先順位をつける方法について実施した。この手法を適用する場合、分類を行うクラス(もしくは値)の間で重要度が異なることが多いことが想定される。たとえばA、B、およびCのクラス分けを行うときに、そのクラスの順に重要度が設定されるような場合である。その場合、A、B、およびCの3クラスに判断が分かれる点を探すよりも、AおよびBの2クラスで判断が分かれる点が重要であることも考えられうる。そのような状況のときにこの手法を使うことができる。データとしてA、B、およびCの3クラスへの分類を行うデータを設定した。
10 入力装置
11 訓練データ
13 予測データ
15 プレート情報
17 データ分布
19 制御パラメータ
20 データセット選択装置
21 訓練データ記憶装置
23 予測データ記憶装置
25 データセット記憶装置
27 出力データ分布記憶装置
29 実験候補記憶装置
30 能動学習装置
40 実測装置
100 制御部
102 データ入力受付部
104 パラメータ記憶部
106 データ・パラメータ送信部
110 予測結果受信部
112 予測結果記憶部
114 集計部
116 抽出部
120 実験候補データ送信部
130 実測値受信部
132 実測値記憶部
134 更新部
220、320、 データセット選択装置
221、321、421 訓練データ記憶装置
223、323、423 予測データ記憶装置
225、325、425 データセット記憶装置
227、327、427 出力データ分布記憶装置
229、329、429 実験候補記憶装置
230 能動学習装置
250、350 制御部
310 入力装置
Claims (9)
- 複数の属性値および前記複数の属性値に対応する既知の出力値を含む訓練データを複数含むデータセットを受け付ける訓練データ受付部と、
予め準備された複数の属性値を含み、前記複数の属性値に対応する未知の出力値を求めるための予測データを複数含むデータセットを受け付ける予測データ受付部と、
前記データセットの前記訓練データの前記複数の属性値に対応する前記出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、前記複数の予測アルゴリズムでそれぞれ学習させる能動学習制御部と、
前記複数の予測アルゴリズムによりそれぞれ学習された複数の前記対応関係を用いて、前記予測データに対応する出力値を予測し、予測結果値として前記複数の予測アルゴリズム毎に複数取得する予測結果取得部と、
前記予測結果取得部が取得した前記複数の予測アルゴリズムによる複数の前記予測結果値のばらつきが対応する前記予測データの前記データセット内で大きいものを選択し、複数の実験候補データを含むデータセットとして抽出する抽出部と、を備えることを特徴するデータセット選択装置。 - 請求項1に記載のデータセット選択装置において、
前記抽出部は、前記予測結果取得部が取得した前記複数の予測結果値の前記データセットを所定の手順でそれぞれ集計してパラメータ化し、前記パラメータの値が所定の閾値を超えるものを最適な集計結果として選択し、該選択された集計結果に対応する前記予測結果値の前記予測データのデータセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。 - 請求項2に記載のデータセット選択装置において、
前記抽出部は、
前記予測結果取得部が取得した前記複数の予測結果値の前記データセット毎に合計または平均値を算出する合計算出部と、
前記複数の予測結果値の前記データセット毎の前記合計または前記平均値の分散値を算出する分散算出部と、
前記分散値が所定の閾値以上か否かを判別する判別部と、を含み、
前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。 - 請求項3に記載のデータセット選択装置において、
前記抽出部は、
前記分散値を所定の定義に従って、優先順位付けし、
前記優先順位付けられた優先順位の高い予測結果値に該当する前記データセットを順次前記実験候補データとして抽出することを特徴とするデータセット選択装置。 - 請求項3または4に記載のデータセット選択装置において、
前記抽出部は、
前記パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部と、
前記予測結果取得部が取得した前記複数の予測結果値の前記データセットの前記パラメータの値を前記頻度分布と比較して、前記頻度分布に近似する前記パラメータの値の個数を前記データセット毎に合計または平均値を算出する算出部と、
前記算出部によって算出された前記合計または前記平均値が所定の閾値以上か否かを判定する分布判定部を含み、
前記抽出部は、前記判別部が前記閾値以上と判別した前記予測結果値に該当する前記データセットを前記実験候補データとして抽出することを特徴とするデータセット選択装置。 - 請求項3乃至5いずれかに記載のデータセット選択装置において、
請求項3乃至5に記載の前記抽出部のいずれで前記データセットを抽出するかの指定をユーザから受け付ける方法受付部を備え、
前記方法受付部が受け付けた前記抽出部で前記データセットを抽出することを特徴とするデータセット選択装置。 - 請求項1乃至6いずれかに記載のデータセット選択装置において、
前記訓練データ受付部が受け付けた前記訓練データを記憶する訓練データ記憶部と、
前記抽出部が抽出した一つ以上の前記実験候補データを実測装置に送信する実験候補データ送信部と、
前記実測装置にて前記実験候補データに基づいて実測された実測値を受信する実測値受信部と、
前記実測値受信部が受信した前記実測値を前記実験候補データの前記データセットに対応付けて前記訓練データ記憶部の前記訓練データを更新する更新部と、
を備えることを特徴とするデータセット選択装置。 - 請求項7に記載のデータセット選択装置において、
前記実測装置は、被検用プレートに含まれる複数の化合物の活性を測定し、
前記訓練データ受付部は、複数の化合物の属性値および既知の活性を予め訓練データとして受け付け、前記訓練データ記憶部に記憶し、
前記予測データ受付部は、複数の化合物を含む複数の被検用プレートの予測データのデータセットをそれぞれ受け付けることを特徴とするデータセット選択装置。 - 請求項1乃至8いずれかに記載の前記データセット選択装置と、
請求項1乃至8いずれかに記載の前記複数の予測アルゴリズムを含む前記能動学習装置と、を備える実験計画システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006131512A JP5167596B2 (ja) | 2006-05-10 | 2006-05-10 | データセット選択装置および実験計画システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006131512A JP5167596B2 (ja) | 2006-05-10 | 2006-05-10 | データセット選択装置および実験計画システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007304782A true JP2007304782A (ja) | 2007-11-22 |
JP5167596B2 JP5167596B2 (ja) | 2013-03-21 |
Family
ID=38838664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006131512A Active JP5167596B2 (ja) | 2006-05-10 | 2006-05-10 | データセット選択装置および実験計画システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5167596B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194894A (ja) * | 2011-03-17 | 2012-10-11 | Fujitsu Ltd | データ解析プログラム、データ解析方法、およびデータ解析装置 |
WO2016103574A1 (en) | 2014-12-26 | 2016-06-30 | Nec Corporation | Optimization system, optimization method, and optimization program |
JP2022041957A (ja) * | 2020-08-31 | 2022-03-11 | 株式会社日立製作所 | データ解析システムのプライバシー保護データを生成する方法及びデバイス |
WO2022168274A1 (ja) * | 2021-02-05 | 2022-08-11 | 三菱電機株式会社 | 情報処理装置、選択出力方法、及び選択出力プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6178768B2 (ja) | 2014-09-17 | 2017-08-09 | 株式会社東芝 | 品質管理装置およびその管理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107743A (ja) * | 2003-09-29 | 2005-04-21 | Nec Corp | 学習システム |
-
2006
- 2006-05-10 JP JP2006131512A patent/JP5167596B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107743A (ja) * | 2003-09-29 | 2005-04-21 | Nec Corp | 学習システム |
Non-Patent Citations (4)
Title |
---|
CSNB200000831001; 安倍 直樹,馬見塚 拓: '能動学習と発見科学' 発見科学とデータマイニング 第1版, 20000505, pp.64-72, 共立出版株式会社 * |
CSNH200400424005; 麻生川 稔,襲田 勉,藤原 由希子,山下 慶子: '能動学習法を利用した創薬スクリーニング' NEC技報 Vol.56,No.10, 20031125, pp.28-32, 日本電気株式会社 * |
JPN6010006665; 安倍 直樹,馬見塚 拓: '能動学習と発見科学' 発見科学とデータマイニング 第1版, 20000505, pp.64-72, 共立出版株式会社 * |
JPN6012016708; 麻生川 稔,襲田 勉,藤原 由希子,山下 慶子: '能動学習法を利用した創薬スクリーニング' NEC技報 Vol.56,No.10, 20031125, pp.28-32, 日本電気株式会社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194894A (ja) * | 2011-03-17 | 2012-10-11 | Fujitsu Ltd | データ解析プログラム、データ解析方法、およびデータ解析装置 |
WO2016103574A1 (en) | 2014-12-26 | 2016-06-30 | Nec Corporation | Optimization system, optimization method, and optimization program |
JP2022041957A (ja) * | 2020-08-31 | 2022-03-11 | 株式会社日立製作所 | データ解析システムのプライバシー保護データを生成する方法及びデバイス |
JP7165795B2 (ja) | 2020-08-31 | 2022-11-04 | 株式会社日立製作所 | データ解析システムのプライバシー保護データを生成する方法及びデバイス |
WO2022168274A1 (ja) * | 2021-02-05 | 2022-08-11 | 三菱電機株式会社 | 情報処理装置、選択出力方法、及び選択出力プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5167596B2 (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malakar et al. | Benchmarking machine learning methods for performance modeling of scientific applications | |
US20180365557A1 (en) | Information processing method and information processing apparatus | |
JP6536295B2 (ja) | 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法 | |
US8898096B2 (en) | Application configuration generation | |
Kulkarni et al. | Weka powerful tool in data mining | |
KR102337070B1 (ko) | 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 | |
US20190325316A1 (en) | Apparatus and methods for program synthesis using genetic algorithms | |
WO2014199920A1 (ja) | 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体 | |
Beielstein et al. | Threshold selection, hypothesis tests, and DOE methods | |
JP5167596B2 (ja) | データセット選択装置および実験計画システム | |
CN113434859A (zh) | 入侵检测方法、装置、设备及存储介质 | |
CN105335379B (zh) | 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备 | |
EP3779814A1 (en) | Method and device for training adaptation level evaluation model, and method and device for evaluating adaptation level | |
JPWO2005048184A1 (ja) | 能動学習方法およびシステム | |
JP7481902B2 (ja) | 管理計算機、管理プログラム、及び管理方法 | |
JP6658507B2 (ja) | 負荷推定システム、情報処理装置、負荷推定方法、及び、コンピュータ・プログラム | |
CN112463532B (zh) | 构建snn工作负载自动映射器的方法及自动映射器 | |
Ackermann et al. | Black-box learning of parametric dependencies for performance models | |
EP4227864A1 (en) | Evaluation method, evaluation device, and evaluation program | |
Werth et al. | Surrogate-assisted microscopic traffic simulation-based optimisation of routing parameters | |
Bourdache et al. | Active preference elicitation by bayesian updating on optimality polyhedra | |
CN115349129A (zh) | 生成具有不确定性区间的性能预测 | |
JP5044980B2 (ja) | 実験計画方法、実験計画システムおよび、実験計画プログラム | |
CN117350607B (zh) | 改进型knn算法模型的国际物流运输路径规划系统 | |
EP4290426A1 (en) | Accuracy calculation program, accuracy calculation method, and information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5167596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |