JP6053166B2 - 数値データ解析装置及びプログラム - Google Patents
数値データ解析装置及びプログラム Download PDFInfo
- Publication number
- JP6053166B2 JP6053166B2 JP2013159323A JP2013159323A JP6053166B2 JP 6053166 B2 JP6053166 B2 JP 6053166B2 JP 2013159323 A JP2013159323 A JP 2013159323A JP 2013159323 A JP2013159323 A JP 2013159323A JP 6053166 B2 JP6053166 B2 JP 6053166B2
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- data
- numerical
- item
- normal distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1) x<T1の場合(ずれが小さい場合)、当該項目データの分類型を正規分布型として特定する。
(2) T1≦x<T2の場合(ずれが中程度の場合)、当該項目データの分類型を対数正規分布型として特定する。
(3) x≧T2の場合(ずれが大きい場合)、当該項目データの分布型を対数正規分布及びパレート分布の混合分布型として特定する。
当該項目データの裾の長さが、所定基準で長いと判定される。具体的には、当該項目データの範囲全体(ビンの範囲の全体)を、ステップS2でフィッティングした正規分布の所定幅(例えば、分散σ2から定まる幅σあるいは半値幅など)で割った値が、所定閾値よりも大きいと判定される。
離散化を行うためには、それぞれの値において頻度と数値が似通った部分をまとめれば良い。正規分布型の場合、データの平均μと分散σ2を計算し、平均μから分散σ2(あるいは標準偏差σ)の倍数分により区切ることで、この目的を達成できる。
対数正規分布に従うデータの場合、データが大きくなればなるほど(分布の右側に行くほど)またデータが小さくなればなるほど(左側に行くほど)、急激に頻度が減ってしまう。そこで、まず、対数正規分布を正規分布に変換した上で、すなわち、データの横軸Xを対数スケールに変換した上で、上記(1)の正規分布型の離散化を適用する。
当該分布形状の場合、まず、データをパレート分布部分と対数正規分布部分の2つに分離する。2つに分離する手法の概要は次の第一〜第三手順の通りである。
離散化された各区間に、図9の[例2]のようにして、それぞれに小さい順に1、2、3・・・とラベル付を行えばよい。あるいは、図9の[例1]のように、5個の区間に離散化されているものとして、中央にある最も頻度の高い区間に1を付与し、その左右に、中央から近い順で順次、2,3,4,5と、継続する番号を付与するようにしてもよい。
各区間に対するラベル付与手法は、図9の[例1]や[例2]のように、(1)の場合に利用可能な手法を用いてよい。ここでさらに、ラベル付与体系を(1)の場合とは区別するようにしてもよい。例えば、正規分布型と違って、2桁目を追加し、11、12、13・・・にするなどである。
対数正規分布部分については、上記(2)の対数正規分布の場合と同様にラベル付を行う。パレート分布部分については、異なるラベル付を行う。例えば、対数正規分布部分が2桁ラベルであるとすると、さらに異常度合い(すなわち、上記クラスタリングの際の重要度)が高いことを反映すべく、3桁目を追加して111、112、113・・・等のようにラベル付与してもよい。
Claims (10)
- 所定の項目について各サンプルでの数値を集計した項目データを取得して、各項目データの分布の型を特定する分布特定部と、
前記特定された型に応じて、各項目データにおける一連の数値を区間分けすることにより離散化するデータ離散化部と、を備え、
前記分布特定部は、各項目データに正規分布をあてはめた際のずれを評価することにより、各項目データの分布の型を、正規分布と、対数正規分布と、対数正規分布及びパレート分布の混合分布と、のいずれかとして特定することを特徴とする数値データ解析装置。 - 前記データ離散化部は、
正規分布として分布の型が特定された項目データについて、当該正規分布の平均値及び標準偏差を求め、当該平均値を中央位置となす区間及びその左右に接続する一連の区間であって、幅が当該標準偏差に等しい一連の区間に分け、
対数正規分布として分布の型が特定された項目データについて、正規分布に変換したうえで、当該変換された正規分布の平均値及び標準偏差を求め、当該平均値を中央位置となす区間及びその左右に接続する一連の区間であって、幅が当該標準偏差に等しい一連の区間に分け、
対数正規分布及びパレート分布の混合分布として分布の型が特定された項目データについて、対数正規分布の部分と、パレート分布の部分と、に区分したうえで、当該区分された部分ごとに、区間に分けることを特徴とする請求項1に記載の数値データ解析装置。 - 前記データ離散化部は、区間分けの個数を、当該項目データの分散に応じて定めることを特徴とする請求項1に記載の数値データ解析装置。
- 第一処理、第二処理及び第三処理を行う推定部をさらに備え、
第一処理では、項目データにおける前記離散化された区間に対して、前記特定された型に応じた数値ラベルを付与し、
第二処理では、各サンプルを対象として、当該サンプルにおける各項目データに対して当該付与された数値ラベルに基づいた文書を生成し、
第三処理では、全サンプルに対して当該生成された文書集合に潜在的ディリクレ配分法を適用することにより、当該文書集合におけるトピック集合と、各サンプルにおけるトピック比率と、を推定することを特徴とする請求項1ないし3のいずれかに記載の数値データ解析装置。 - 前記推定部は、第一処理にて前記ラベル付与するに際して、前記特定された型が対数正規分布及びパレート分布の混合分布である場合には、対数正規分布の部分とパレート分布の部分とにおいて区別したラベルを付与することを特徴とする請求項4に記載の数値データ解析装置。
- 前記推定部は、第一処理にて前記ラベル付与するに際して、前記特定された型が正規分布であるような複数の項目データの各々に対して、当該正規分布において項目データの値が取る範囲に基づく規格化が施された数値ラベルを付与することを特徴とする請求項4または5に記載の数値データ解析装置。
- 前記推定部は、第二処理にて前記文書を生成するに際して、当該サンプルにおける各項目データに対して当該付与された数値ラベルの個数分の、当該項目に応じた所定の単語と、所定のダミー単語と、を組み合わせたものとして、文書を生成することを特徴とする請求項4ないし6のいずれかに記載の数値データ解析装置。
- 前記推定部は、第二処理にて前記文書を生成するに際して、
当該サンプルにおける各項目データに対して当該付与された数値ラベルの個数分の、当該項目に応じた所定の単語と、
当該項目に応じた所定の単語総和数から前記付与された数値ラベルの個数を減じた個数分の、当該項目に応じた所定の単語に対する所定の対単語と、
を組み合わせたものとして、文書を生成することを特徴とする請求項4ないし7のいずれかに記載の数値データ解析装置。 - 前記項目データが医療に関するものであることを特徴とする請求項1ないし8のいずれかに記載の数値データ解析装置。
- コンピュータを請求項1ないし9のいずれかに記載の数値データ解析装置として機能させることを特徴とする数値データ解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013159323A JP6053166B2 (ja) | 2013-07-31 | 2013-07-31 | 数値データ解析装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013159323A JP6053166B2 (ja) | 2013-07-31 | 2013-07-31 | 数値データ解析装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015032013A JP2015032013A (ja) | 2015-02-16 |
JP6053166B2 true JP6053166B2 (ja) | 2016-12-27 |
Family
ID=52517312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013159323A Active JP6053166B2 (ja) | 2013-07-31 | 2013-07-31 | 数値データ解析装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6053166B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016166878A1 (ja) * | 2015-04-17 | 2016-10-20 | 株式会社日立製作所 | データ自動加工システム、データ自動加工方法、およびデータ自動解析システム |
JP6474132B2 (ja) * | 2015-07-27 | 2019-02-27 | Kddi株式会社 | 選別装置 |
US10275444B2 (en) | 2016-07-15 | 2019-04-30 | At&T Intellectual Property I, L.P. | Data analytics system and methods for text data |
JP6797956B2 (ja) * | 2019-03-14 | 2020-12-09 | 株式会社三井住友銀行 | 推計装置、推計方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0779930A (ja) * | 1993-09-10 | 1995-03-28 | Fukuda Denshi Co Ltd | 医療情報システムの測定値変換表示方法 |
JP4328031B2 (ja) * | 2001-02-26 | 2009-09-09 | 富士通株式会社 | 数値フィールド分割装置、プログラム、記録媒体、および、数値フィールド分割方法 |
JP2009118297A (ja) * | 2007-11-08 | 2009-05-28 | Dainippon Printing Co Ltd | 標本値の量子化方法および量子化装置 |
JP5199685B2 (ja) * | 2008-01-24 | 2013-05-15 | 小林クリエイト株式会社 | 健康診断の検査値換算プログラム |
-
2013
- 2013-07-31 JP JP2013159323A patent/JP6053166B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015032013A (ja) | 2015-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nawaz et al. | A deep feature-based real-time system for Alzheimer disease stage detection | |
Sridhar et al. | Brain tumor classification using discrete cosine transform and probabilistic neural network | |
CN108305671A (zh) | 由计算机实现的医学图像调度方法、调度系统及存储介质 | |
EP3312748A1 (en) | Method for aiding a diagnosis, program and apparatus | |
CN103177179B (zh) | 诊断因素集合确定设备和方法 | |
Sáez et al. | On the influence of class noise in medical data classification: Treatment using noise filtering methods | |
Pardo-Fernández et al. | A review on ROC curves in the presence of covariates | |
Kuznetsov et al. | Power considerations for the application of detrended fluctuation analysis in gait variability studies | |
US20220172841A1 (en) | Methods of identifying individuals at risk of developing a specific chronic disease | |
JP6053166B2 (ja) | 数値データ解析装置及びプログラム | |
Zadeh et al. | Segmenting breast cancerous regions in thermal images using fuzzy active contours | |
Leite et al. | Etiology-based classification of brain white matter hyperintensity on magnetic resonance imaging | |
Collazos-Huertas et al. | Instance-based representation using multiple kernel learning for predicting conversion to Alzheimer disease | |
KR20170140127A (ko) | Kpca, lda, 및 다중커널학습 svm을 이용한 뇌 이미지 분석방법 | |
Shrestha et al. | Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection | |
Shankar et al. | A novel discriminant feature selection–based mutual information extraction from MR brain images for Alzheimer's stages detection and prediction | |
CN111477328A (zh) | 一种非接触式的心理状态预测方法 | |
Meng et al. | Deep Learning-based Trichoscopic Image Analysis and Quantitative Model for Predicting Basic and Specific Classification in Male Androgenetic Alopecia | |
CN112383829B (zh) | 一种体验质量测评方法及装置 | |
Muiz Fayyaz et al. | Computer Vision-Based Prognostic Modelling of COVID-19 from Medical Imaging | |
Ketpupong et al. | Applying text mining for classifying disease from symptoms | |
Ennaji et al. | Malignant melanoma detection using multi-scale image decomposition and a new ensemble-learning scheme | |
Stepanyan et al. | Neural network modeling and correlation analysis of brain plasticity mechanisms in stroke patients | |
Zaman et al. | A review on the significance of body temperature interpretation for early infectious disease diagnosis | |
CN113010783A (zh) | 基于多模态心血管疾病信息的医疗推荐方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160128 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6053166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |