JP5167596B2 - データセット選択装置および実験計画システム - Google Patents
データセット選択装置および実験計画システム Download PDFInfo
- Publication number
- JP5167596B2 JP5167596B2 JP2006131512A JP2006131512A JP5167596B2 JP 5167596 B2 JP5167596 B2 JP 5167596B2 JP 2006131512 A JP2006131512 A JP 2006131512A JP 2006131512 A JP2006131512 A JP 2006131512A JP 5167596 B2 JP5167596 B2 JP 5167596B2
- Authority
- JP
- Japan
- Prior art keywords
- data set
- data
- prediction
- unit
- plate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
データの予測は個々のデータに対して実施されており、データセットと個々のデータを関連付けるためのシステムが存在してなかったため、いくつかのデータが一つの集合をなすようなデータセットに対しては適用することができなかった。
プレートに配置される被検体を示す予め準備された複数の属性値を含む予測データを複数含む前記プレートに対応する予測データセットを受け付ける予測データ受付部と、
異なる複数の予測アルゴリズムを用いて学習する能動学習装置に、前記訓練データセットを送信し、前記訓練データセットにおける前記複数の属性値と前記既知の出力値を関連付ける対応関係を、前記複数の予測アルゴリズムを用いて学習させるとともに、前記能動学習装置に、前記プレートの前記予測データセットを送信し、前記能動学習装置が学習して得た複数の前記対応関係に従い、前記プレートの前記予測データセットの複数の前記予測データにそれぞれ対応する複数の未知の出力値を予測させ、得られた複数の予測値を含む予測結果データセットを生成させ、前記プレート毎に複数の前記対応関係にそれぞれ対応する複数の前記予測結果データセットを前記能動学習装置から受信する予測結果取得部と、
前記プレートに対応する複数の前記予測結果データセットに基づいて、所定の手順に従って、実験候補となる対象プレートを選択するための算出値を前記プレート毎に算出し、前記プレートに対応する前記算出値に基づいて、複数の前記プレートの中から前記対象プレートを選択し、前記対象プレートの複数の被検体に対応する複数の前記予測データを含む実験候補データセットを抽出するデータセット選択部と、
選択された前記対象プレートに対応する前記実験候補データセットに対する実測値またはシミュレーション結果を、前記既知の出力値として、前記対象プレートの前記予測データの複数の前記属性値に関連付けて新たな訓練データを複数生成し、新たな訓練データセットとして、前記訓練データセットに加える更新部と、
を備えることを特徴するデータセット選択装置が提供される。
Dj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj,値j) ・・・ 式(1)
Pj=(記述子1j,記述子2j,記述子3j,・・・,記述子Nj) ・・・ 式(2)
Sk={Sk1,Sk2,・・・,SkNk} ・・・ 式(3)
連続値の場合は、下記の式(5)となる。
+(vNm−ave)*(vNm−ave))/Nm ・・・ 式(5)
ここで、平均はクラスiに分類された頻度が最大のもののクラスを平均値とする。
分散は以下のように定義する。
+pn*log(pn) ・・・ 式(7)
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセット毎に合計または平均値を算出する合計算出部(集計部114)と、複数の予測結果値のデータセット毎の合計または平均値の分散値を算出する分散算出部(集計部114)と、分散値が所定の閾値以上か否かを判別する判別部(抽出部116)と、を含み、抽出部(集計部114および抽出部116)は、判別部(抽出部116)が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、分散値を所定の定義に従って、優先順位付けし、優先順位付けられた優先順位の高い予測結果値に該当するデータセットを順次前記実験候補データとして抽出する。
この手法の説明を行う前にデータの記述方法について説明を行う。
(予測値=a1の頻度,予測値=a2の頻度,・・・,予測値=anの頻度)
(ii)連続値の予測を行う場合
本実施形態のデータセット選択装置20において、抽出部(集計部114および抽出部116)は、パラメータの値の所定の頻度分布の指定を受け付ける頻度分布受付部(データ入力受付部102)と、予測結果取得部(予測結果受信部110)が取得した複数の予測結果値のデータセットのパラメータの値を頻度分布と比較して、頻度分布に近似するパラメータの値の個数をデータセット毎に合計または平均値を算出する算出部(集計部114)と、算出部(集計部114)によって算出された合計または平均値が所定の閾値以上か否かを判定する分布判定部(抽出部116)を含むことができ、抽出部(集計部114および抽出部116)は、判別部(抽出部116)が閾値以上と判別した予測結果値に該当するデータセットを実験候補データとして抽出する。
(区間1に属する予測値の頻度,区間2に属する予測値の頻度,・・・,区間nに属する予測値の頻度)
以下の実施例では、データセットに含まれる複数のデータとして化合物を示す訓練データ11および予測データ13を用いた。化合物を示す訓練データ11または予測データ13の記述子としては、各化合物における所定の構造の有無に基づいてビット列に変換した。訓練データ11の値は、ある特定の活性を持つものに対して1を対応させ、活性を持たないものに対しては0を対応させた。活性の有無については、活性の強度で測定を行いある閾値を超えるものを活性が有するもの(正例)とし、それ以下のものは活性を持たないもの(負例)とした。能動学習装置30としては独自に開発を行っている装置を使用した。
次に、分散の小さなデータから順番をつけていく方法について上記と同様なデータを用いて実施した。同様にこの方法では偏りの少ないデータに対してより高い効率を期待することができる。しかしこの方法は前の手法とは異なり、データセット毎に分散のばらつきが大きな場合に有効な方法である。分散のばらつきが大きな値の場合、上記手法で計算した平均値はデータセットの代表として使うには信頼性にかけるためである。実施例1と同様な実験を行った。図9はランダムにデータセットを選択した場合と本システムの効果を比較した実施例の結果を示す図である。横軸は偽陽性率、縦軸は真陽性率を示す。図9に二本の線L1および線L3が存在しているが線L3が本システムを用いてデータセットを選択した場合、線L1がランダムにデータセットを選び出した場合の学習精度を示している。
次は、ある特定のデータ分布に近いデータセットに優先順位をつける方法について実施した。この手法を適用する場合、分類を行うクラス(もしくは値)の間で重要度が異なることが多いことが想定される。たとえばA、B、およびCのクラス分けを行うときに、そのクラスの順に重要度が設定されるような場合である。その場合、A、B、およびCの3クラスに判断が分かれる点を探すよりも、AおよびBの2クラスで判断が分かれる点が重要であることも考えられうる。そのような状況のときにこの手法を使うことができる。データとしてA、B、およびCの3クラスへの分類を行うデータを設定した。
10 入力装置
11 訓練データ
13 予測データ
15 プレート情報
17 データ分布
19 制御パラメータ
20 データセット選択装置
21 訓練データ記憶装置
23 予測データ記憶装置
25 データセット記憶装置
27 出力データ分布記憶装置
29 実験候補記憶装置
30 能動学習装置
40 実測装置
100 制御部
102 データ入力受付部
104 パラメータ記憶部
106 データ・パラメータ送信部
110 予測結果受信部
112 予測結果記憶部
114 集計部
116 抽出部
120 実験候補データ送信部
130 実測値受信部
132 実測値記憶部
134 更新部
220、320、 データセット選択装置
221、321、421 訓練データ記憶装置
223、323、423 予測データ記憶装置
225、325、425 データセット記憶装置
227、327、427 出力データ分布記憶装置
229、329、429 実験候補記憶装置
230 能動学習装置
250、350 制御部
310 入力装置
Claims (9)
- 複数の属性値、および、前記複数の属性値に関連付けされた既知の出力値を含む訓練データを複数含む訓練データセットを受け付ける訓練データ受付部と、
プレートに配置される被検体を示す予め準備された複数の属性値を含む予測データを複数含む前記プレートに対応する予測データセットを受け付ける予測データ受付部と、
異なる複数の予測アルゴリズムを用いて学習する能動学習装置に、前記訓練データセットを送信し、前記訓練データセットにおける前記複数の属性値と前記既知の出力値を関連付ける対応関係を、前記複数の予測アルゴリズムを用いて学習させるとともに、前記能動学習装置に、前記プレートの前記予測データセットを送信し、前記能動学習装置が学習して得た複数の前記対応関係に従い、前記プレートの前記予測データセットの複数の前記予測データにそれぞれ対応する複数の未知の出力値を予測させ、得られた複数の予測値を含む予測結果データセットを生成させ、前記プレート毎に複数の前記対応関係にそれぞれ対応する複数の前記予測結果データセットを前記能動学習装置から受信する予測結果取得部と、
前記プレートに対応する複数の前記予測結果データセットに基づいて、所定の手順に従って、実験候補となる対象プレートを選択するための算出値を前記プレート毎に算出し、前記プレートに対応する前記算出値に基づいて、複数の前記プレートの中から前記対象プレートを選択し、前記対象プレートの複数の被検体に対応する複数の前記予測データを含む実験候補データセットを抽出するデータセット選択部と、
選択された前記対象プレートに対応する前記実験候補データセットに対する実測値またはシミュレーション結果を、前記既知の出力値として、前記対象プレートの前記予測データの複数の前記属性値に関連付けて新たな訓練データを複数生成し、新たな訓練データセットとして、前記訓練データセットに加える更新部と、
を備えることを特徴とするデータセット選択装置。 - 請求項1に記載のデータセット選択装置において、
前記データセット選択部における前記所定の手順は、各前記プレートに対する複数の前記予測結果データセットにおいて、各前記プレートの複数の前記予測データに対応する複数の前記予測値のばらつきを算出する手順を含むことを特徴とするデータセット選択装置。 - 請求項2に記載のデータセット選択装置において、
前記データセット選択部は、
前記予測結果取得部が取得した、複数の前記対応関係にそれぞれ対応する複数の前記予測結果データセットについて、前記プレートに対する各前記予測結果データセット内の前記複数の予測値の合計または平均値を前記予測結果データセット毎にそれぞれ算出する合計算出部と、
前記プレートの前記予測結果データセット毎に算出された複数の前記合計または前記平均値の分散値を前記算出値として前記プレート毎に算出する分散算出部と、
前記分散値が所定の閾値以上か否かを前記プレート毎に判別する判別部と、を含み、
前記データセット選択部は、前記判別部が前記閾値以上と判別した前記プレートを前記対象プレートとして選択し、前記対象プレートの前記予測結果データセットに含まれる複数の前記予測データを前記実験候補データセットとして抽出することを特徴とするデータセット選択装置。 - 請求項3に記載のデータセット選択装置において、
前記データセット選択部は、
前記プレート毎に算出された複数の前記分散値を所定の定義に従って、優先順位付けし、
前記優先順位付けられた優先順位の高い前記プレートを前記対象プレートとして選択し、前記対象プレートの前記予測結果データセットに含まれる複数の前記予測データを順次前記実験候補データセットとして抽出することを特徴とするデータセット選択装置。 - 請求項3または請求項4に記載のデータセット選択装置において、
前記データセット選択部は、
所定の頻度分布の指定を受け付ける頻度分布受付部と、
前記予測結果取得部が取得した複数の前記予測結果データセットについて、複数の前記予測値を複数区間に区切り、前記区間毎に当該区間に属する前記予測値の頻度を算出し、算出された前記予測値の頻度を示すヒストグラムを、前記所定の頻度分布と前記予測結果データセット毎に比較して、前記所定の頻度分布に近似する頻度の前記区間に属する前記予測値の個数の合計または平均値を前記プレート毎に前記算出値として算出する算出部と、
前記算出部によって算出された前記合計または前記平均値が所定の閾値以上か否かを前記プレート毎に判定する分布判定部を含み、
前記データセット選択部は、前記判別部が前記閾値以上と判別した前記プレートを前記対象プレートとして選択し、前記対象プレートの前記予測結果データセットの複数の予測データを前記実験候補データセットとして抽出することを特徴とするデータセット選択装置。 - 請求項3乃至5いずれかに記載のデータセット選択装置において、
請求項3乃至5いずれかに記載の前記データセット選択部のいずれで前記実験候補データセットを抽出するかの指定をユーザから受け付ける方法受付部を備え、
前記方法受付部が受け付けた前記データセット選択部で前記実験候補データセットを抽出することを特徴とするデータセット選択装置。 - 請求項1乃至6いずれかに記載のデータセット選択装置において、
前記訓練データ受付部が受け付けた前記訓練データセットを記憶する訓練データ記憶部と、
前記データセット選択部が抽出した一つ以上の前記実験候補データセットを実測装置に送信する実験候補データ送信部と、
前記実測装置にて前記実験候補データセットに基づいて実測された実測値を受信する実測値受信部と、を備え、
前記更新部は、前記実測値受信部が受信した前記実測値を前記実験候補データセットに対応付けて前記訓練データ記憶部の前記訓練データセットを更新することを特徴とするデータセット選択装置。 - 請求項7に記載のデータセット選択装置において、
前記実測装置は、被検用プレートに配置される複数の化合物の活性を測定し、
前記訓練データ受付部は、複数の化合物の複数の属性値および既知の活性を予め訓練データとして受け付け、前記訓練データ記憶部に記憶し、
前記予測データ受付部は、被検用プレートに配置される複数の化合物の複数の属性値を含む複数の予測データを含む予測データセットを受け付けることを特徴とするデータセット選択装置。 - 請求項1乃至8いずれかに記載の前記データセット選択装置と、
請求項1乃至8いずれかに記載の前記複数の予測アルゴリズムを用いて学習する前記能動学習装置と、を備える実験計画システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006131512A JP5167596B2 (ja) | 2006-05-10 | 2006-05-10 | データセット選択装置および実験計画システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006131512A JP5167596B2 (ja) | 2006-05-10 | 2006-05-10 | データセット選択装置および実験計画システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007304782A JP2007304782A (ja) | 2007-11-22 |
JP5167596B2 true JP5167596B2 (ja) | 2013-03-21 |
Family
ID=38838664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006131512A Active JP5167596B2 (ja) | 2006-05-10 | 2006-05-10 | データセット選択装置および実験計画システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5167596B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095225B2 (en) | 2014-09-17 | 2018-10-09 | Kabushiki Kaisha Toshiba | Quality controlling device and control method thereof |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5699713B2 (ja) * | 2011-03-17 | 2015-04-15 | 富士通株式会社 | データ解析プログラム、データ解析方法、およびデータ解析装置 |
JP6565185B2 (ja) | 2014-12-26 | 2019-08-28 | 日本電気株式会社 | 最適化システム、最適化方法および最適化プログラム |
JP7165795B2 (ja) * | 2020-08-31 | 2022-11-04 | 株式会社日立製作所 | データ解析システムのプライバシー保護データを生成する方法及びデバイス |
WO2022168274A1 (ja) * | 2021-02-05 | 2022-08-11 | 三菱電機株式会社 | 情報処理装置、選択出力方法、及び選択出力プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107743A (ja) * | 2003-09-29 | 2005-04-21 | Nec Corp | 学習システム |
-
2006
- 2006-05-10 JP JP2006131512A patent/JP5167596B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095225B2 (en) | 2014-09-17 | 2018-10-09 | Kabushiki Kaisha Toshiba | Quality controlling device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2007304782A (ja) | 2007-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6536295B2 (ja) | 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法 | |
US20180365557A1 (en) | Information processing method and information processing apparatus | |
Knowles | ParEGO: A hybrid algorithm with on-line landscape approximation for expensive multiobjective optimization problems | |
Nasa et al. | Evaluation of different classification techniques for web data | |
Kulkarni et al. | Weka powerful tool in data mining | |
KR102337070B1 (ko) | 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 | |
CN104834479A (zh) | 面向云平台的自动优化存储系统配置的方法及系统 | |
JP2009104632A (ja) | ラベル予測方法およびシステム | |
Beielstein et al. | Threshold selection, hypothesis tests, and DOE methods | |
JP5167596B2 (ja) | データセット選択装置および実験計画システム | |
WO2014199920A1 (ja) | 予測関数作成装置、予測関数作成方法、及びコンピュータ読み取り可能な記録媒体 | |
KR102605481B1 (ko) | 워크플로우 기반의 자동 예측 모델링 방법 및 그를 위한 장치 | |
US7991617B2 (en) | Optimum design management apparatus from response surface calculation and method thereof | |
CN105335379B (zh) | 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备 | |
JP7481902B2 (ja) | 管理計算機、管理プログラム、及び管理方法 | |
US10248462B2 (en) | Management server which constructs a request load model for an object system, load estimation method thereof and storage medium for storing program | |
Vermetten et al. | Bias: A toolbox for benchmarking structural bias in the continuous domain | |
CN112463532B (zh) | 构建snn工作负载自动映射器的方法及自动映射器 | |
Makhtar et al. | Binary classification models comparison: On the similarity of datasets and confusion matrix for predictive toxicology applications | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
CN115349129A (zh) | 生成具有不确定性区间的性能预测 | |
Mandli et al. | Selection of most relevant features from high dimensional data using ig-ga hybrid approach | |
CN117350607B (zh) | 改进型knn算法模型的国际物流运输路径规划系统 | |
EP4290426A1 (en) | Accuracy calculation program, accuracy calculation method, and information processing device | |
Li et al. | Benchmarking and evaluating MATLAB derivative-free optimisers for single-objective applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5167596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |