JP7424373B2 - 分析装置、分析方法及び分析プログラム - Google Patents
分析装置、分析方法及び分析プログラム Download PDFInfo
- Publication number
- JP7424373B2 JP7424373B2 JP2021518292A JP2021518292A JP7424373B2 JP 7424373 B2 JP7424373 B2 JP 7424373B2 JP 2021518292 A JP2021518292 A JP 2021518292A JP 2021518292 A JP2021518292 A JP 2021518292A JP 7424373 B2 JP7424373 B2 JP 7424373B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- prediction
- label
- search
- pipeline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 44
- 238000000034 method Methods 0.000 claims description 94
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000010606 normalization Methods 0.000 claims description 27
- 238000010187 selection method Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 17
- 238000009792 diffusion process Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 18
- 238000007781 pre-processing Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 238000002790 cross-validation Methods 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000003169 complementation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
第1の実施形態に係る分析装置は、機械学習によるデータ分析を支援するための装置である。ここで、機械学習によるデータ分析を行う場合、予測モデルを構築する一連の処理であるパイプラインが決定される。
まず、パイプラインの候補を決定する処理について説明する。図1は、パイプラインの候補を決定する処理の概要を説明するための図である。図1に示すように、分析装置10は、予測モデルを構築する際に実行される複数の処理に対応するステップを順次実行することで、各設定項目の設定内容の決定を行う。例えば、分析装置10は、各ステップにおいて、前処理で用いられる手法、予測器のアルゴリズム及びハイパーパラメータ等を決定する。
パイプラインの候補の中から最終的にパイプラインを決定する処理について説明する。この時点で、図6に示すようにパイプラインの候補が決定されているものとする。図6は、パイプラインの候補の一例を示す図である。
図10を用いて、第1の実施形態に係る分析装置10の処理の流れについて説明する。図10は、第1の実施形態に係る分析装置の処理の流れを示すフローチャートである。図10に示すように、まず、分析装置10は、学習用データ20を読み込む(ステップS101)。次に、分析装置10は、読み込んだ学習用データ20を用いて、パイプラインの候補を決定する(ステップS102)。そして、分析装置10は、半教師あり学習に適したパイプラインを決定する(ステップS103)。ここで、分析装置10の検証部155は、決定されたパイプラインに基づいて予測モデルを構築し(ステップS104)、構築した予測モデルをテスト用データ30を用いて検証する(ステップS105)。
生成部154は、データからラベルを予測する複数の予測モデルであって、互いに異なる複数の構築手順により構築された予測モデルのそれぞれを用いて、ラベルが付与された正解ありデータを基に、ラベルが未付与の正解なしデータに対しラベルを付与することで疑似正解ありデータを生成する。また、計算部152は、正解ありデータと、疑似正解ありデータとを用いて、予測モデルのそれぞれの予測精度を計算する。また、決定部153は、計算部152によって計算された予測精度が所定の基準を満たす予測モデルを決定する。このように、第1の実施形態では、複数のパイプライン(構築手順)のそれぞれについての、半教師あり学習を行ったとした場合の予測精度を基にパイプラインが最終的に決定される。このため、半教師あり学習は正解ありデータと正解なしデータの両方を用いるものであるため、第1の実施形態によれば、予測モデルの精度向上に、正解なしのデータを有効活用することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、分析装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の分析を実行する分析プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の分析プログラムを情報処理装置に実行させることにより、情報処理装置を分析装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
141 設定情報
142 予測器情報
151 選択部
152 計算部
153 決定部
154 生成部
155 検証部
Claims (4)
- データからラベルを予測する複数の予測モデルであって、互いに欠損値補完手法、正規化手法、特徴選択手法、予測器のアルゴリズム、及びハイパーパラメータの組み合わせが異なる複数の構築手順により構築された複数の予測モデルであって、近傍探索を行う予測モデルと近傍探索を行わない予測モデルとの両方を含む複数の予測モデルのそれぞれを用いて、ラベルが付与された第1のデータを基に、ラベルが未付与の第2のデータに対しラベルを付与することで疑似正解ありデータを生成する生成部と、
前記第1のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算部と、
前記計算部によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定部と、
を有し、
前記生成部は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、前記第1のデータを基にした前記第2のデータに対するラベル拡散を行い、予測モデルが近傍探索を行うものでない場合、前記第1のデータを含む構築用データを使って予測モデルを構築する第1の処理と、前記第2のデータのうち、前記第1の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で前記構築用データに追加する第2の処理と、を繰り返す
ことを特徴とする分析装置。 - 前記計算部は、計算した前記予測精度を複数の指標で表し、
前記決定部は、前記複数の予測モデルのうち前記複数の指標のいずれかが最も良くなる予測モデルを決定することを特徴とする請求項1に記載の分析装置。 - 分析装置で実行される分析方法であって、
データからラベルを予測する複数の予測モデルであって、互いに欠損値補完手法、正規化手法、特徴選択手法、予測器のアルゴリズム、及びハイパーパラメータの組み合わせが異なる複数の構築手順により構築された複数の予測モデルであって、近傍探索を行う予測モデルと近傍探索を行わない予測モデルとの両方を含む複数の予測モデルのそれぞれを用いて、ラベルが付与された第1のデータを基に、ラベルが未付与の第2のデータに対しラベルを付与することで疑似正解ありデータを生成する生成工程と、
前記第1のデータと、前記疑似正解ありデータとを用いて、前記予測モデルのそれぞれの予測精度を計算する計算工程と、
前記計算工程によって計算された予測精度が所定の基準を満たす予測モデルを決定する決定工程と、
を有し、
前記生成工程は、予測モデルが近傍探索を行うものである場合、複数のパラメータ候補のそれぞれが設定された近傍探索により、前記第1のデータを基にした前記第2のデータに対するラベル拡散を行い、予測モデルが近傍探索を行うものでない場合、前記第1のデータを含む構築用データを使って予測モデルを構築する第1の処理と、前記第2のデータのうち、前記第1の処理で構築した予測モデルを使って予測したラベルの確信度が閾値以上であるデータにラベルを付与した上で前記構築用データに追加する第2の処理と、を繰り返す
ことを特徴とする分析方法。 - コンピュータを、請求項1又は2に記載の分析装置として機能させるための分析プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/018637 WO2020225923A1 (ja) | 2019-05-09 | 2019-05-09 | 分析装置、分析方法及び分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020225923A1 JPWO2020225923A1 (ja) | 2020-11-12 |
JP7424373B2 true JP7424373B2 (ja) | 2024-01-30 |
Family
ID=73051357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021518292A Active JP7424373B2 (ja) | 2019-05-09 | 2019-05-09 | 分析装置、分析方法及び分析プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220222544A1 (ja) |
JP (1) | JP7424373B2 (ja) |
WO (1) | WO2020225923A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022185531A1 (ja) * | 2021-03-05 | 2022-09-09 | 日本電気株式会社 | 情報処理装置、情報処理方法、検知モデルの製造方法、およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016519807A (ja) | 2013-03-15 | 2016-07-07 | ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation | 自己進化型予測モデル |
US20160364608A1 (en) | 2015-06-10 | 2016-12-15 | Accenture Global Services Limited | System and method for automating information abstraction process for documents |
JP2017059205A (ja) | 2015-09-17 | 2017-03-23 | パナソニックIpマネジメント株式会社 | 主題推定システム、主題推定方法およびプログラム |
JP2017102865A (ja) | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2019
- 2019-05-09 US US17/607,421 patent/US20220222544A1/en active Pending
- 2019-05-09 JP JP2021518292A patent/JP7424373B2/ja active Active
- 2019-05-09 WO PCT/JP2019/018637 patent/WO2020225923A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016519807A (ja) | 2013-03-15 | 2016-07-07 | ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation | 自己進化型予測モデル |
US20160364608A1 (en) | 2015-06-10 | 2016-12-15 | Accenture Global Services Limited | System and method for automating information abstraction process for documents |
JP2017059205A (ja) | 2015-09-17 | 2017-03-23 | パナソニックIpマネジメント株式会社 | 主題推定システム、主題推定方法およびプログラム |
JP2017102865A (ja) | 2015-12-04 | 2017-06-08 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
Non-Patent Citations (3)
Title |
---|
柳澤 渓甫 他,半教師付き学習を用いた薬物クリアランス経路予測,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2014年06月18日,第114巻 第105号,第55頁-第60頁,ISSN:0913-5685 |
藤野 昭典 他,複数の構成要素データを扱う多クラス分類器の半教師あり学習法,情報処理学会論文誌,社団法人情報処理学会,2007年10月15日,第48巻 第SIG15号(TOM18),第163頁-第175頁,ISSN:0387-5806 |
長倉三郎 他 編,岩波理化学辞典第5版,株式会社岩波書店,1998年,第40頁,第1126頁,第1289-1290頁 |
Also Published As
Publication number | Publication date |
---|---|
WO2020225923A1 (ja) | 2020-11-12 |
JPWO2020225923A1 (ja) | 2020-11-12 |
US20220222544A1 (en) | 2022-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10671933B2 (en) | Method and apparatus for evaluating predictive model | |
US20210103858A1 (en) | Method and system for model auto-selection using an ensemble of machine learning models | |
US10409699B1 (en) | Live data center test framework | |
CN111950810B (zh) | 一种基于自演化预训练的多变量时间序列预测方法和设备 | |
US11681914B2 (en) | Determining multivariate time series data dependencies | |
US9396160B1 (en) | Automated test generation service | |
JP6585654B2 (ja) | 判定装置、分析システム、判定方法および判定プログラム | |
US20210304073A1 (en) | Method and system for developing a machine learning model | |
KR102142943B1 (ko) | 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치 | |
Dube et al. | AI gauge: Runtime estimation for deep learning in the cloud | |
JP7424373B2 (ja) | 分析装置、分析方法及び分析プログラム | |
US20220269835A1 (en) | Resource prediction system for executing machine learning models | |
US20230267007A1 (en) | System and method to simulate demand and optimize control parameters for a technology platform | |
JP6659618B2 (ja) | 分析装置、分析方法及び分析プログラム | |
KR20210143464A (ko) | 데이터 분석 장치 및 그것의 데이터 분석 방법 | |
JP2018190129A (ja) | 判定装置、分析システム、判定方法および判定プログラム | |
JP6577515B2 (ja) | 分析装置、分析方法及び分析プログラム | |
JPWO2020121378A1 (ja) | 学習装置および学習方法 | |
US20230267379A1 (en) | Method and system for generating an ai model using constrained decision tree ensembles | |
JP6611268B2 (ja) | 特定装置、分析システム、特定方法及び特定プログラム | |
JP6588494B2 (ja) | 抽出装置、分析システム、抽出方法及び抽出プログラム | |
JP6805313B2 (ja) | 特定装置、特定方法及び特定プログラム | |
Huang et al. | Elastic dnn inference with unpredictable exit in edge computing | |
US11928562B2 (en) | Framework for providing improved predictive model | |
CN110796234B (zh) | 一种用于预测计算机状态的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230104 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230315 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230914 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20231003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7424373 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |