JP6436535B2 - 予測モデル構築装置 - Google Patents
予測モデル構築装置 Download PDFInfo
- Publication number
- JP6436535B2 JP6436535B2 JP2015053358A JP2015053358A JP6436535B2 JP 6436535 B2 JP6436535 B2 JP 6436535B2 JP 2015053358 A JP2015053358 A JP 2015053358A JP 2015053358 A JP2015053358 A JP 2015053358A JP 6436535 B2 JP6436535 B2 JP 6436535B2
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- cluster
- clusters
- transition
- clustering unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims description 19
- 230000007704 transition Effects 0.000 claims description 122
- 230000036541 health Effects 0.000 claims description 48
- 230000003862 health status Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 34
- 238000012545 processing Methods 0.000 description 29
- 238000004364 calculation method Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 206010012601 diabetes mellitus Diseases 0.000 description 13
- 230000007774 longterm Effects 0.000 description 12
- 230000001419 dependent effect Effects 0.000 description 11
- 238000000354 decomposition reaction Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000005328 spin glass Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
第二クラスタリング部3において、クラスタリング手法として閉ループ構造に限らず適用可能なウォード法等の階層型クラスタリングを採用する場合であれば、図8に例を示すような周知のデンドログラム(樹形図)の形で、高さ方向の融合距離が大きくなる順に逐次的に個体間が統合され、クラスタリング結果が得られる。従って、当該融合距離に応じた種々のクラスタ数のクラスタリング結果を得ることが可能であるため、融合距離をユーザ指定等により種々与え、複数のクラスタリング結果を得るようにすればよい。
第二クラスタリング部3において、非階層型クラスタリングを採用する場合であって、MMSB法のようにクラスタ数が指定可能な手法を利用するのであれば、ユーザ指定等によって種々のクラスタ数を設定し、複数のクラスタリング結果を得るようにすればよい。
第二クラスタリング部3において、非階層型クラスタリングを採用する場合であって、スピングラス法のように初期乱数によって結果として得られるクラスタ数が変化する場合であれば、ユーザ指定等によって初期乱数を複数候補分だけ設定してそれぞれクラスタリングを実行して、複数のクラスタリング結果を得るようにすればよい。
第一クラスタリング部2においてLDA等の潜在トピック分析によるクラスタリング手法を利用する場合、クラスタ数を指定しておく必要がある。このことはすなわち、ユーザがクラスタ数を指定可能である、ということを意味している。
第二クラスタリング部3が出力したコミュニティ分割結果(1回目)の各コミュニティ間の遷移確率を計算したうえで、当該コミュニティ分割結果(1回目)に対して再度、第二クラスタリング部3の処理を適用するようにして、2回目のコミュニティ分割結果を得るようにしてもよい。
「詳細を後述する」として前述したように、第一クラスタリング部2及び第二クラスタリング部3を逐次処理部20として相互に繰り返し機能させて、当該逐次処理の各段階で得られるクラスタリング結果及びコミュニティ分類結果をユーザに提供するようにしてもよい。
上記の第6実施形態において、ループ処理2回目以降の各i回(i≧2)に、次のような追加処理(第1追加処理及び第2追加処理)を行うことで、クラスタ分類やコミュニティ分類の精度を向上させるようにしてもよい。
n1k=|{(X,n)|D(X,n)∈CkかつD(X,n+1)∈Ck }| …(4)
n2k=|{(X,n)|D(X,n)∈CkかつD(X,n+1)∈Cj (j≠k) }| …(5)
Claims (9)
- バグオブワードの形で与えられた一連の対象者の一連の年代における健康状態データを、対象者及び年代ごとの個別データの集まりとしてクラスタリングを行うと共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第一クラスタリング部と、
前記第一クラスタリング部で求めた遷移確率の対応付いたクラスタに対して、ネットワーククラスタリングを行うことで、コミュニティとしての各クラスタを求めると共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第二クラスタリング部と、を備え、
前記第一クラスタリング部の出力したクラスタ及び遷移確率と、前記第二クラスタリング部の出力したクラスタ及び遷移確率と、をそれぞれ、健康状態推移のモデルとして出力し、
前記第一クラスタリング部は、前記個別データの集まりを対象として1回目のクラスタリングを行った後、さらに、前記第二クラスタリング部の出力したコミュニティとしての各クラスタに属する個別データを対象として、当該クラスタ毎に2回目のクラスタリングを行い、
前記第二クラスタリング部はさらに、前記2回目のクラスタリングの結果に対して、ネットワーククラスタリングを行うことを特徴とする予測モデル構築装置。 - 前記第一クラスタリング部は、前記第二クラスタリング部の出力したコミュニティとしての各クラスタにおいて、バグオブワードにおける各単語が当該クラスタに関連性のあるものか否かを判定したうえで、関連性のあると判定された単語のみで構成されたバグオブワードの形での個別データを対象として、前記2回目のクラスタリングを行うことを特徴とする請求項1に記載の予測モデル構築装置。
- 前記第一クラスタリング部は、各単語が個別データの各々において所定頻度を超えているか否かを、各クラスタの内外でカウントしたクロス集計表を作成し、当該クロス集計表に基づいて赤池情報量基準を算出することにより、前記関連性のあるものか否かを判定することを特徴とする請求項2に記載の予測モデル構築装置。
- バグオブワードの形で与えられた一連の対象者の一連の年代における健康状態データを、対象者及び年代ごとの個別データの集まりとしてクラスタリングを行うと共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第一クラスタリング部と、
前記第一クラスタリング部で求めた遷移確率の対応付いたクラスタに対して、ネットワーククラスタリングを行うことで、コミュニティとしての各クラスタを求めると共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第二クラスタリング部と、を備え、
前記第一クラスタリング部の出力したクラスタ及び遷移確率と、前記第二クラスタリング部の出力したクラスタ及び遷移確率と、をそれぞれ、健康状態推移のモデルとして出力し、
前記第一クラスタリング部は、クラスタ分割数の所定候補のそれぞれにおいて前記クラスタリングを行い、当該行った結果の各クラスタにおいて個別データが隣接年代において自己遷移しているか否かをカウントしたクロス集計表を作成し、当該クロス集計表に基づいて赤池情報量基準を算出することにより、前記クラスタ分割数の所定候補の中から最適分割数を決定することを特徴とする予測モデル構築装置。 - バグオブワードの形で与えられた一連の対象者の一連の年代における健康状態データを、対象者及び年代ごとの個別データの集まりとしてクラスタリングを行うと共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第一クラスタリング部と、
前記第一クラスタリング部で求めた遷移確率の対応付いたクラスタに対して、ネットワーククラスタリングを行うことで、コミュニティとしての各クラスタを求めると共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第二クラスタリング部と、を備え、
前記第一クラスタリング部の出力したクラスタ及び遷移確率と、前記第二クラスタリング部の出力したクラスタ及び遷移確率と、をそれぞれ、健康状態推移のモデルとして出力し、
前記第一クラスタリング部の出力したクラスタ及び遷移確率と、前記第二クラスタリング部の出力したクラスタ及び遷移確率と、のいずれを健康状態推移のモデルとして利用するかと、バグオブワードの形での予測対象者の健康状態データと、当該予測対象者の現在年代と、当該予測対象者の予測対象未来年代と、の指定をユーザより受け付け、
当該指定された健康状態推移のモデル上で、当該指定された予測対象者の健康状態の、当該指定された現在年代から当該指定された予測対象未来年代に至るまでの推移を予測する予測部をさらに備えることを特徴とする予測モデル構築装置。 - 前記予測部は、前記指定された健康状態推移のモデルにおいて与えられているクラスタ及び当該クラスタ間の遷移確率に対して、ビタビアルゴリズムを適用することにより、最大確率を与える経路として前記推移を予測することを特徴とする請求項5に記載の予測モデル構築装置。
- バグオブワードの形で与えられた一連の対象者の一連の年代における健康状態データを、対象者及び年代ごとの個別データの集まりとしてクラスタリングを行うと共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第一クラスタリング部と、
前記第一クラスタリング部で求めた遷移確率の対応付いたクラスタに対して、ネットワーククラスタリングを行うことで、コミュニティとしての各クラスタを求めると共に、当該クラスタリング結果の各クラスタ間の遷移確率を計算する第二クラスタリング部と、を備え、
前記第一クラスタリング部の出力したクラスタ及び遷移確率と、前記第二クラスタリング部の出力したクラスタ及び遷移確率と、をそれぞれ、健康状態推移のモデルとして出力し、
前記第一クラスタリング部の出力したクラスタ及び遷移確率と、前記第二クラスタリング部の出力したクラスタ及び遷移確率と、のいずれを健康状態推移のモデルとして利用するかと、バグオブワードの形での予測対象者の健康状態データと、当該予測対象者の現在年代と、当該予測対象者の予測対象未来年代と、の指定をユーザより受け付け、
前記指定された予測対象者の健康状態データを、前記指定された健康状態推移のモデルにおける各クラスタの所属確率へと変換し、当該所属確率に対して予め機械学習された関係式を適用することで、当該指定された予測対象者の当該指定された予測対象未来年代における医療費を予測する予測部をさらに備えることを特徴とする予測モデル構築装置。 - 前記第二クラスタリング部が、前記コミュニティとして求めた各クラスタ及び遷移確率を第一出力とし、当該第一出力に対してさらに、ネットワーククラスタリングを行うことで、第二出力として、コミュニティとしての各クラスタ及び遷移確率を求め、
さらに、当該第二出力を健康状態のモデルとして出力することを特徴とする請求項1ないし7のいずれかに記載の予測モデル構築装置。 - 前記第一クラスタリング部では、潜在トピック分析によりクラスタリングを行うことを特徴とする請求項1ないし8のいずれかに記載の予測モデル構築装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053358A JP6436535B2 (ja) | 2015-03-17 | 2015-03-17 | 予測モデル構築装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053358A JP6436535B2 (ja) | 2015-03-17 | 2015-03-17 | 予測モデル構築装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016173728A JP2016173728A (ja) | 2016-09-29 |
JP6436535B2 true JP6436535B2 (ja) | 2018-12-12 |
Family
ID=57008895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015053358A Active JP6436535B2 (ja) | 2015-03-17 | 2015-03-17 | 予測モデル構築装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6436535B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004254827A (ja) * | 2003-02-25 | 2004-09-16 | Matsushita Electric Ind Co Ltd | 睡眠状態判定装置 |
JP6066825B2 (ja) * | 2013-05-17 | 2017-01-25 | 株式会社日立製作所 | データ分析装置及び保健事業支援方法 |
-
2015
- 2015-03-17 JP JP2015053358A patent/JP6436535B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016173728A (ja) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abrishami et al. | Predicting citation counts based on deep neural network learning techniques | |
Aïvodji et al. | Fairwashing: the risk of rationalization | |
Zhang et al. | Hesitant fuzzy agglomerative hierarchical clustering algorithms | |
Nasa et al. | Evaluation of different classification techniques for web data | |
Shang | Point and interval forecasts of age-specific life expectancies: A model averaging approach | |
JP6468652B2 (ja) | 医療データ解析装置 | |
Doumpos et al. | Preference disaggregation for multicriteria decision aiding: An overview and perspectives | |
Wildgaard | A critical cluster analysis of 44 indicators of author-level performance | |
Giorgi et al. | Correcting sociodemographic selection biases for population prediction from social media | |
Shrestha et al. | Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection | |
Kusa et al. | An analysis of work saved over sampling in the evaluation of automated citation screening in systematic literature reviews | |
Camacho et al. | A new approach to dating the reference cycle | |
Cengiz et al. | Energy performance evaluation of OECD countries using Bayesian stochastic frontier analysis and Bayesian network classifiers | |
JP6468653B2 (ja) | 予測モデル構築装置 | |
Özkan et al. | Effect of data preprocessing on ensemble learning for classification in disease diagnosis | |
JP2021524112A (ja) | 情報処理装置、制御方法および非一時的記憶媒体 | |
JP6395261B2 (ja) | 予測モデル構築装置及びプログラム | |
JP6436535B2 (ja) | 予測モデル構築装置 | |
Trabelsi et al. | Heuristic method for attribute selection from partially uncertain data using rough sets | |
Bostrom | Shapelet transforms for univariate and multivariate time series classification | |
Kelly et al. | Variable-based calibration for machine learning classifiers | |
Rishnyak et al. | Statistical Analysis of the Popularity of Programming Language Libraries Based on StackOverflow Queries. | |
Oliveira et al. | Hospital bed management support using regression data mining models. | |
Ahmed et al. | Classification on BDHS data analysis: Hybrid approach for predicting pregnancy termination | |
Zeng et al. | A hierarchical Bayesian approach for finite mixture of mode regression model using Skew-Normal distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160824 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6436535 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |