JP6053166B2

JP6053166B2 - 数値データ解析装置及びプログラム

Info

Publication number: JP6053166B2
Application number: JP2013159323A
Authority: JP
Inventors: 圭介小川; 一則松本; 橋本　真幸; 真幸橋本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2016-12-27
Anticipated expiration: 2033-07-31
Also published as: JP2015032013A

Description

本発明は、医療データ等のやや特殊な統計的な数値データを、その分布の種類に応じて適切に離散化することが可能であり、また、当該離散化された結果によって連続的な数値データに対しても潜在的ディリクレ配分法を適用することも可能な、数値データ解析装置及びプログラムに関する。

特許文献１や特許文献２に代表されるように、健康管理システム等が大きな広がりを見せている。このような健康管理システムでは、利用者に対して健康上のアドバイス等を行う場合が多いが、特許文献３に示すように、利用者を実際の健康データを元に分類した上でアドバイスを行った方が、より行動変容につながりやすい。

特開2013-085626号公報特開2010-264088号公報特開2010-170534号公報

当該健康データないし医療データに関して、詳細な離散化が必要な場面がある。例えば、離散データしか扱うことができないような分類機械を利用して、上記健康管理システム等へ応用するために、医療データを解析したい場合等である。また、当該離散化により、特定の数値によって、患者を分類する場合等もある。

離散データしか扱えない分類機械として、例えばLDA(潜在的ディリクレ配分法；latent dirichlet allocation)がある。LDAは潜在変数を推定することで、複数の文書のトピック分類を高精度に行う文書クラスタリング手法である。文書クラスタリングにおいては、k-means法等のクラスタリング手法と比較して性能が良いことが知られている。

しかし、LDAは本来、文書のトピック分類において用いられる手法であるため、離散化したデータしか取り扱うことができない。そのため、生体データ等の連続値データを利用してLDAを使うためには、上述のように離散化が必要となってくる。このようなクラスタリングを行うことで、危険な患者郡を抽出したりすることができる。

この際、一般的な連続データの離散化技術では、度数での分類か、平均値からの標準偏差分の乖離を計算することによる分類により行うことが多い。

しかし一般的に、医療データの度数分布は取り扱うデータの種類によって大きく異なっており、一元的に取り扱うことが難しい。検査数値自体、単純に線形増加する場合は少ない。そのため、平均からの乖離の計算自体には意味がないことが多い。

また、一律に三分位等の手法によって、データを分離してしまう手法も一般的である。この場合、頻度情報のみでデータを分離するため、頻度が少なく、データが極めて大きい集団があった場合にその集団が頻度が多い集団に吸収されてしまうということがおこる。

以上のように、健康管理システム等への応用のため、医療データを離散化することを考えた場合、特に医療データに限定されない一般的な連続データの離散化手法では、適切な離散化が行えないという課題があった。

上記課題に鑑み、本発明は、医療データ等の連続データであっても適切な離散化を行うことのできる数値データ解析装置及びプログラムを提供することを目的とする。

また、本発明は、医療データ等の連続データであっても適切な離散化を行うと共に、当該離散化された結果によって、元の連続データにおける各サンプルを、離散データを前提とした高精度な分類器によって解析することのできる数値データ解析装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、数値データ解析装置であって、所定の項目について各サンプルでの数値を集計した項目データを取得して、各項目データの分布の型を特定する分布特定部と、前記特定された型に応じて、各項目データにおける一連の数値を区間分けすることにより離散化するデータ離散化部と、を備え、前記分布特定部は、各項目データに正規分布をあてはめた際のずれを評価することにより、各項目データの分布の型を、正規分布と、対数正規分布と、対数正規分布及びパレート分布の混合分布と、のいずれかとして特定することを特徴とする。

また、上記目的を達成するため、本発明は、上記数値データ解析装置が、第一処理、第二処理及び第三処理を行う推定部をさらに備え、第一処理では、項目データにおける前記離散化された区間に対して、前記特定された型に応じた数値ラベルを付与し、第二処理では、各サンプルを対象として、当該サンプルにおける各項目データに対して当該付与された数値ラベルに基づいた文書を生成し、第三処理では、全サンプルに対して当該生成された文書集合に潜在的ディリクレ配分法を適用することにより、当該文書集合におけるトピック集合と、各サンプルにおけるトピック比率と、を推定することを特徴とする。

さらに、本発明は、数値データ解析プログラムであって、コンピュータを上記数値データ解析装置として機能させることを特徴とする。

本発明によれば、３種類の分布のいずれであるかを特定することで、医療データ等で想定される分布の偏りを反映した手法により、連続な数値データを適切に区分けし、離散化することができる。

また、本発明によれば、上記離散化された結果を利用して各サンプルの文書を生成し、潜在的ディリクレ配分法を適用するので、本来であれば適用し得ない、離散データを前提とした高精度な分類器によって、連続な数値データを解析することができる。

一実施形態に係る数値データ解析装置の機能ブロック図である。医療データのうち正規分布でモデル化可能な身長の分布の例を示す図である。医療データのうち対数正規分布でモデル化可能なHDLコレステロール値の分布の例を示す図である。医療データのうちγ-GTPの値の度数分布の例であり、本発明にて対数正規分布及びパレート分布の混合分布を3つ目のモデルとして採用することを説明する例である。分布特定部が各項目データの分布型の特定する処理のフローチャートである。頑強性の指標の計算を概念的に示す図である。図５のフローの変形版として、対数正規分布型であるか否かを判定する処理のフローチャートである。対数正規分布型データの離散化を模式的に示す図である。推定部による第一処理にてラベル付与する例を示す図である。推定部による第二処理における文書生成の際の、追加処理の一例のフローを示す図である。

図１は、本発明の一実施形態に係る数値データ解析装置の機能ブロック図である。数値データ解析装置1は、分布特定部2、データ離散化部3及び推定部4を備え、入力データとして各サンプルの所定項目に関する数値データを分布特定部2にて受け取り、第一出力として、当該数値データを離散化した結果をデータ離散化部3が出力すると共に、当該第一出力を用いてさらに第二出力として、入力データの全体において潜在的に存在するトピック集合を推定部4が出力する。

入力データの典型例としては、健康診断データ等の医療データが挙げられる。この場合、各サンプルは各個人である。また、所定項目に関する数値データは、健康ないし医療に関する所定項目について取得された値（例えば、身長や、血液検査におけるHDLコレステロール値及びγ-GTP値）である。

また、入力データが医療データの場合、トピック集合の各々は、当該医療データの全体を構成する各個人の健康傾向によるグループ分け結果となる。ここで、トピック集合は潜在的なものとして求まるので、当該分けられた各グループが具体的にどのような健康傾向であるかについて、数値データ解析装置1による自動判断を下すことはできないが、人手により各グループの健康傾向に解釈を施すことは可能である。また、当該グループ分け結果は、例えばグループ毎に健康関連のアドバイスを提供する等の形で、健康管理システム等に利用可能である。

以下、入力が医療データであるものとして本発明を説明するが、同様の性質を有するデータ、例えば、医療、健康等の用途に限らない生体データや、生物一般のデータその他についても本発明は適用可能である。まず、図１の各部の概要を説明する。

分布特定部2は、入力の医療データを受け取り、そのデータの項目毎に、当該項目のデータの分布の型を特定する。ここで、本発明では特に、後述する本発明者らの知見により、データ分布の型が(1)正規分布型、(2)対数正規分布型、又は、(3)対数正規分布及びパレート分布の混合型、の3種類のいずれであるかを特定する。こうして例えば、体重データは正規分布型であり、HDLコレステロール値データは対数正規分布型であり、γ-GTP値データは対数正規分布及びパレート分布の混合型である、といったことが特定される。

当該特定は、次の手法によってなされる。すなわち、データ分布に正規分布をあてはめ、あてはめられた正規分布と実際のデータ分布との乖離度合いを評価することにより、上記3種類のいずれであるかを特定する。詳細は後述する。

データ離散化部3は、分布特定部2によって分布の型が特定された各項目のデータ毎に、当該特定された型に応じた手法によって、当該データ分布内の数値を離散化し、数値データ解析装置1による第一出力となす。当該離散化により、連続的に与えられていた数値が、数値範囲毎のグループに分けられることとなる。なお、本発明における「離散化」においては、数値範囲で定まるグループが決定されればよく、当該グループ内の数値の代表値を決定する必要はない。

前述の例であれば、体重データは正規分布型であることに応じた手法で離散化され、HDLコレステロール値データは対数正規分布型であることに応じた手法で離散化され、γ-GTP値データは対数正規分布及びパレート分布の混合型であることに応じた手法で離散化される。

推定部4は、データ離散化部3により離散化された各個人（以下「患者」とする）の医療データより、各患者の「文書」を生成すると共に、こうして全医療データを用いて全患者につき生成された「文書」の集合にLDA(潜在的ディリクレ配分法)を適用することで、潜在的に存在するトピック集合を特定し、数値データ解析装置1による第二出力となす。

ここで、当該トピック集合（トピック1、トピック2、…からなる集合）が特定されるのに伴い、各患者の「文書」についても、どのトピックにどのような確率で属しているのかが、例えばトピック1に10%、トピック2に20%、…といったように、トピック比率として推定部4により推定される。当該トピック比率は各患者の「文書」の特徴ベクトルとしての意味を有する。従って、当該トピック比率を利用すれば患者のグループ分けなども可能となり、前述のように健康管理システム等に数値データ解析装置1を応用することが可能となる。

なお、何らかの文書集合が用意された場合に、当該文書集合に対してLDAを適用することで潜在トピック集合を得る処理そのものと、各文書のトピック比率を推定する処理そのものとについては、周知である。本発明では特に、当該LDAへの入力としての文書集合を用意するため、各患者の「文書」を、データ離散化部3により離散化された当該患者の各検査項目のグループ分け結果に基づいて生成する。当該生成の詳細は後述する。そして、当該生成された文書により、健康に関連するトピック集合を特定すると共に、各患者の健康に関連するトピック比率を推定する。

以上、図１の各部の概要を説明した。以下、その詳細を説明する。

分布特定部2は、上記概要説明のように、医療データにおける各項目データが3つの分布の型のうちのいずれであるかを特定する。以下、当該3つの分布型を採用する意義を説明してから、3つの分布型のいずれであるかを特定する処理の詳細を説明する。

一般的に、生体データの数値は、正規分布に近い度数で出力されるとされる。図２は、8000名を対象とした身体計測に基づく、身長に関する度数分布の例であり、正規分布でモデル化可能な例である。

しかし、同一の対象（図２における8000名の対象）に対してHDLコレステロール値を測ると、図３に示すような度数分布になる。図３では、正規分布がくずれ、対数正規分布に近い形状をしている。このように、一般的に、生体データについては、正規分布の仮定が崩れ、対数正規分布でモデル化することも多いとされる。

さらに、同一の対象（図１，２における8000名の対象）において、γ-GTPの値の度数分布は図４に示すような形状である。図４では、対数正規分布の場合よりもさらにグラフがくずれ、右側に尾をひく形になっている。本発明では特に、こうした形を資本主義国における所得分布のような形としてモデル化する。なお、資本主義国の所得分布では、対数正規分布とパレート分布の組み合わせで、比較的うまく説明がつくことが経験的に判明している。従って、本発明においては、当該組み合わせを、正規分布、対数正規分布に次ぐ、医療データに対する3つ目のモデルとして採用する。

また、本発明にて採用する、医療データの分布型に関する以上3つのモデルの関係は、次のように解釈することができる。すなわち、それぞれの健康数値には、生活習慣・経年等や環境等によって影響の受けやすさ（耐性）に違いが出ることが考えられる。例えば、(1)身長等は、一旦成長してしまえば、経年変化はあるものの、ゆるやかであるため、耐性は高い。一方、(2)血圧等は生活習慣（特に食習慣）の影響により、高低が発生するため、環境の影響を受けやすい。さらに(3)血糖値等は、生活習慣に影響を受けるだけでなく、行き過ぎると臓器が破壊されてしまい、インスリンが分泌されなくなってしまうということが起こりうるため、異なるルールで数値が生成されることが起こりうる。以上の(1)、(2)、(3)がそれぞれ正規分布、対数正規分布、対数正規分布＋パレート分布の混合分布と解釈できる。

つまり、生体データには生活習慣等の外部環境によって変化しやすいデータとそうでないデータが存在しており、これらを一律に解釈することはできないと考えられる。従って、分布特定部2では当該変化に対する頑強性に応じて3つの分布型で区別すると共に、後段のデータ離散化部3においても、3つの分布型ごとに区別して離散化を実施する。

以上、3つの分布型の意義を説明した。各項目データにつき、当該3つの分布型のいずれであるかを分布特定部2が特定する際の具体的な処理は、次の通りである。

分布特定部2は、各項目データを対象として、データの度数が最も大きい箇所を中心に正規分布に医療データをフィットさせ、その分布からのズレを計測することで、医療データごとの外部環境に対する頑健性を推定し、推定された頑健性によって、生体データを3つの分布型のいずれかに分類する。後段のデータ離散化部3では、分布型ごとに各々異なる離散化手法を適用することで、最適な離散化を行うことができる。

図５は、分布特定部2が各項目データの分布型の特定する処理のフローチャートである。

ステップS1では、対象としている項目データにおいて、最頻値を探すと共に、当該最頻値の周辺のデータを取得する。すなわち、ピーク近辺の所定範囲の度数分布を取得する。なお、当該ステップS1を実施するに際して、各項目データにおいては、図２〜図４に例示されているように、所定のビンを予め設けておき、各ビンにおける度数を求めておく。

ステップS2では、上記取得されたピーク近辺の所定範囲の度数分布に正規分布でフィッティングし、当該正規分布のフィッティングのパラメータを推定する。なお、当該パラメータとは具体的には、正規分布において周知の平均μ及び分散σ²であり、平均μは上記最頻値に近い値（場合によっては一致する）として推定される。

なお、フィッティングの際、当該取得したピーク近辺の所定範囲の外のデータは、欠損値として扱えばよい。全データではなくピーク近辺のデータのみでフィッティングを実施するのは、次のステップS3にて正規分布からのずれを適切に評価できるようにするためである。

ステップS3では、当該フィッティングパラメータで与えられる正規分布（推定される正規分布）と、対象としている実際の項目データとのずれを、当該両者の差分絶対値のヒストグラムの総和面積として計算すると共に、当該ずれを、推定される正規分布とX軸（ビン方向の横軸）とで囲まれる面積で規格化したものを、頑強性の指標として計算する。

図６は当該頑強性の指標の計算を概念的に示す図である。D1が実際の項目データの分布であり、D2が推定された分布である。なお、分布D1及びD2は、左側部分については一致するように描かれているが、これは図の簡略化のためであり、一般には必ずしも一致はしない。差分絶対値の総和面積S12（斜線付与箇所）はすなわち、分布D1と分布D2とを比較した際に「はみ出した部分の面積」である。D2で囲まれる面積をS22とすると、頑強性の指標の値xはx=S12/S22として与えられる。なお、当該値xが大きいほど正規分布からのずれが大きく、当該値xが小さいほど正規分布からのずれが小さいことを意味している。

ステップS4では、上記計算された頑強性の指標の値xについて、予め設定しておく所定閾値T1及びT2(0＜T1＜T2)を用いた閾値判断により、以下(1)〜(3)のように場合分けすることで3つの分布型を特定する。
(1) x＜T1の場合（ずれが小さい場合）、当該項目データの分類型を正規分布型として特定する。
(2) T1≦x＜T2の場合（ずれが中程度の場合）、当該項目データの分類型を対数正規分布型として特定する。
(3) x≧T2の場合（ずれが大きい場合）、当該項目データの分布型を対数正規分布及びパレート分布の混合分布型として特定する。

なお、当該図５で説明した分布特定部2による特定処理については、以上説明した一実施形態（基本例と呼ぶ）に対して、種々の変形された実施形態も可能である。

第一変形例では、上記ステップS4における場合(3)を次のように変形してもよい。すなわち、x≧T2で且つ以下の条件(3A)を満たす場合に、対数正規分布及びパレート分布の混合分布型として特定し、x≧T2であるが条件(3A)を満たさない場合には、対数正規分布型として特定するようにしてもよい。

条件(3A)
当該項目データの裾の長さが、所定基準で長いと判定される。具体的には、当該項目データの範囲全体（ビンの範囲の全体）を、ステップS2でフィッティングした正規分布の所定幅（例えば、分散σ²から定まる幅σあるいは半値幅など）で割った値が、所定閾値よりも大きいと判定される。

また、第二変形例では、図５のフローではステップS4にて場合(1)の判定のみを行うようにしてもよい。すなわち、当該項目データの分類型が正規分布型であるか否かのみを特定するようにしてもよい。正規分布型でないと判定された場合、ステップS4を上記のように制限した際の図５のフローの変形版である図７のフローによってさらに、対数正規分布型であるか否かを判定し、対数正規分布型でないと判定された場合、対数正規分布及びパレート分布の混合分布型として特定してよい。

図７のフローにおいて、ステップS1は図６と同一であり、ステップS20〜S40は図６のステップS2〜S4に対応し、図６において正規分布のフィッティング及び判定を行った代わりに、図７では対数正規分布のフィッティング及び判定を行う点が異なる。

また、第三変形例では、全体として十分なデータが存在する場合、正規分布と対数正規分布を区別するのに、平均値と最頻値を比較するようにしてもよい。正規分布では理論的には平均値と最頻値が一致する性質を利用して、閾値判定によって平均値と最頻値が大きく離れていると判断される場合、対数正規分布とし、そうでない判断の場合は、正規分布とすれば良い。この際の閾値は、分散を計算して定めてもよい。例えば、平均値から最頻値が分散の20%程度離れていたら、対数正規分布とするといった判断が可能となる。

なお、第三変形例にて対数正規分布であると判断された場合はさらに、基本例あるは第一変形例におけるステップS4を適用することで、当該対数正規分布が単一分布としての対数正規分布であるのか、あるいはパレート分布との混合分布であるのかを判断する。

次に、データ離散化部3の詳細を説明する。上記分布特定部2の説明でも言及したように、データ離散化部3は当該特定された3種類の分布に応じて、項目データの離散化を行う。分布の各種類につき具体的には以下(1)〜(3)の通りである。

(1) 正規分布型のデータの離散化
離散化を行うためには、それぞれの値において頻度と数値が似通った部分をまとめれば良い。正規分布型の場合、データの平均μと分散σ²を計算し、平均μから分散σ²（あるいは標準偏差σ）の倍数分により区切ることで、この目的を達成できる。

すなわち、標準偏差σの倍数分により区切る場合であれば、値を表す数直線上の座標をXとすると、中央の区切り範囲が[μ-σ/2≦X≦μ+σ/2]であり、その左右に同じく標準偏差σの区切り範囲が順次、[μ-3σ/2≦X≦μ-σ/2]や[μ+σ/2≦X≦μ+3σ/2]といった形で作られることとなる。離散化の結果は、各区切り範囲となる。

(2) 対数正規分布型のデータの離散化
対数正規分布に従うデータの場合、データが大きくなればなるほど（分布の右側に行くほど）またデータが小さくなればなるほど（左側に行くほど）、急激に頻度が減ってしまう。そこで、まず、対数正規分布を正規分布に変換した上で、すなわち、データの横軸Xを対数スケールに変換した上で、上記(1)の正規分布型の離散化を適用する。

当該離散化により、対数軸上において複数の区切り区間が得られる。ここからさらに、最上位と最下位の区間をそれぞれ起点として、合計の度数が所定値を超えるまで、区間の統合をそれぞれにおいて行う。当該統合が行われなかった中間部分の区間については、離散化はこの時点で完了する。一方、当該統合がなされた区間は、数値軸を元の対数正規分布の実際の値に戻してからクラスタリング等を適用することにより、あるいは、累積頻度が一定割合変化する箇所毎に区切ることにより、離散化を完了させる。なお、累積頻度は、当該統合された区間内において集計する。

図８は、当該対数正規分布型データの離散化を模式的に示す図である。まず、[1]に示すように、数値軸をX対数軸logXに変換することで正規分布に変換し、当該正規分布に(1)の離散化を適用して9つの区切り区間d1〜d9が得られる。次に、最上位の区間d9と最下位の区間d1とをそれぞれ起点として、それぞれにおいて度数が閾値を超えるまで統合した結果、[3-2]に示すようにd9,d8,d7が統合され、また、[3-1]に示すようにd1,d2,d3が統合されることで、[2]に示すように、統合されなかった区間d4,d5,d6は離散化が完了する。

当該[3-1]に示す下位側で統合された区間は、[4-1]に示すように実軸X（ここでは対数軸に対する実際の値の意で実軸と称する）上でクラスタリングされ、あるいは累積頻度で区切られ、2つの区間L1,L2に離散化される。同様に、当該[3-2]に示す上位側で統合された区間は、[4-2]に示すように実軸X上でクラスタリングされ、あるいは累積頻度で区切られ、2つの区間U1,U2に離散化される。こうして、最終的に得られる離散化の結果は、[4-1],[2],[4-2]に示されるL1, L2, d4, d5, d6, U1, U2となる。

なお、図８の実施形態とは別の、より簡素な実施形態として、対数正規分布に従うデータを、軸Xを対数軸logXに変換することで正規分布に変換したのち、上記(1)の手法を適用することのみで、離散化を完了させるようにしてもよい。すなわち、当該簡素な実施形態を図８の例を用いて説明すれば、図８における[1]を最終的な離散化の結果としてもよい。

(3)対数正規分布及びパレート分布の混合分布型のデータの離散化
当該分布形状の場合、まず、データをパレート分布部分と対数正規分布部分の２つに分離する。２つに分離する手法の概要は次の第一〜第三手順の通りである。

まず、第一手順として、頻度が最も大きいデータ及びその周辺データと、当該周辺の左右両側に残る部分のうち、左側にあるデータと、を利用して、対数正規分布のフィッティングを行う。第二手順として、当該周辺データのもう一方の側として右側にあるデータ（対数正規分布のフィッティングに利用されなかったデータ）を利用して、パレート分布のフィッティングを行う。

さらに、第三手順として、当該フィッティングされた対数正規分布及びパレート分布の両グラフの交点あるいは最近点を境界としてデータを２つに分離すればよい。なお、両グラフの交点が対象とするデータのビンの境界に一致しない場合に、当該交点の最近点であるビンの境界を利用すればよい。

第三手順にて分離の後、分離された各部分の離散化を行う。対数正規分布部分については上記(2)と同様の手法で離散化を行う。パレート分布部分についても同様に、推定されたパレート分布（後述する指数分布）から、累積頻度が一定になるようにデータを区切り、離散化すればよい。

なお、第一手順及び第二手順の詳細は次の通りである。

第一手順では、まず、対象とするデータから最大頻度の値を抽出する。最大の頻度を持つ値が、対数正規分布のモードである。対数正規分布のモードMoは、Mo=exp(μ-σ^2)と表すことができ、このときの値を以下の対数正規分布の式に代入すると、最大頻度を左辺として、σの値を求めることができる。

第二手順では、この対数正規分布の式で、最大頻度のデータの右側のデータで、対数正規分布より推定された値との乖離が一定以上（最大頻度値対比の一定以上でも良い）になったとき、そのデータから先はパレート分布に従うとみなして、データを「分離」する。（なお、当該分離はパラメータ推定のための分離であり、第三手順の分離とは異なる。）「分離」されたデータについて、パレート分布として指数分布を利用して、以下の式のパラメータを推定する。（なお、形状指数ξ=0である。）

なお、当該パレート分布のパラメータを推定する際には、フィッティングに用いるデータとして、上記「分離」箇所から右側ではなく、上記対数正規分布の最頻値から右側の部分を用いてもよい。

ここで、以上のデータ離散化部3の処理に関する補足事項として、データの分離数、すなわち、離散化により何個の区間に分けるか、について説明する。

すなわち、以上では、正規分布や対数正規分布に従うデータを平均値からの乖離によって分離することとして説明したが、分離する数をデータの分布によって変化させることも望ましい。例えば、分散がより大きいデータについては、様々なデータの種類が存在しうることから、比較的細かくデータを分離した方が良いと考えられる。この場合、分散の単調増加関数などとして、所定の分離数を設定しておき、当該分離数に従って、累積頻度の値による区切り箇所を設定し、当該区切られた箇所でデータを分離すればよい。

なお、上記のデータ分布に応じて分離数を変化させる場合には、推定部4においても対応する「工夫」を施すことが好ましいが、その詳細は後述する。

次に、推定部4の詳細、特に本発明におけるLDAへの入力文書の作成の詳細を説明する。推定部4は、データ離散化部3により離散化され、区分けされた各項目データの全てを用いて、LDAを実行する。本発明では特に、離散化された医療データをもとに、当該LDAの入力に必要な各患者の「文書」を生成するために、次のような第一及び第二処理を行う。

すなわち、第一処理として、項目データにおいて離散化され得られた各区間に、特定された分布の型と離散化のされ方に応じたラベル付与規則（当該規則は、あらかじめ管理者などが設定しておく）のもとで、明示的な区別が設けられた数値ラベルを付与する。また、第二処理として、当該付与された数値ラベルに基づいて、文書を生成する。なお、当該数値ラベルの付与の意義は、LDAが適用される文書を生成するに際して、患者の特徴が適切に反映された文書が生成されるようにすることにある。当該数値ラベル付与はすなわち、離散化された各区間に適切なカテゴリを付与することに相当する。

そして、当該生成された文書の全患者に渡る文書集合が、第三処理としてのLDAへの実際の入力となる。第三処理については前述のように、周知である。以下、第一及び第二処理の詳細を説明する。

第一処理では、３種類に分類した分布の型に応じたラベル付与手法により、以下(1)〜(3)のように、離散化で得られた区間に自然数のラベルを付与する。各項目データ内では、異なる区間には互いに異なるラベルを付与するが、異なる項目データ間においては同じ値のラベルが存在していてもよい。図９は、当該ラベル付与を説明するための図であり、以下において適宜参照する。

(1) 正規分布型の項目データについて
離散化された各区間に、図９の[例2]のようにして、それぞれに小さい順に1、2、3・・・とラベル付を行えばよい。あるいは、図９の[例1]のように、５個の区間に離散化されているものとして、中央にある最も頻度の高い区間に１を付与し、その左右に、中央から近い順で順次、２，３，４，５と、継続する番号を付与するようにしてもよい。

(2) 対数正規分布型のデータについて
各区間に対するラベル付与手法は、図９の[例1]や[例2]のように、(1)の場合に利用可能な手法を用いてよい。ここでさらに、ラベル付与体系を(1)の場合とは区別するようにしてもよい。例えば、正規分布型と違って、2桁目を追加し、11、12、13・・・にするなどである。

当該異なるラベル付与体系の利用の意義は次の通りである。すなわち、対数正規分布に従う医療データは、正規分布に従うものよりも生活習慣等の影響を受けやすいデータである。従って、そのような影響を受けない正規分布のデータに比べて、第三処理においてLDAによりクラスタリングする際の重要度が高くなるよう設定させることが望ましく、このために2桁目を追加する。こうして例えば、生活習慣等に基づく健康度を反映して第三処理を行うことができる。

なお、一般には、上記で桁数を増やしたように、ラベル数値をより大きくしたラベル付与体系を用いると、当該項目データの第三処理の際の重要度をより高くすることができる。

(3) 対数正規分布及びパレート分布の混合分布型の項目データについて
対数正規分布部分については、上記(2)の対数正規分布の場合と同様にラベル付を行う。パレート分布部分については、異なるラベル付を行う。例えば、対数正規分布部分が2桁ラベルであるとすると、さらに異常度合い（すなわち、上記クラスタリングの際の重要度）が高いことを反映すべく、3桁目を追加して111、112、113・・・等のようにラベル付与してもよい。

図９の[例3]は、当該(3)の場合の例であり、区切り箇所としての線L10で区別された対数正規分布部分D11及びパレート分布部分D12が示されている。対数正規分布部分D11では1桁のラベル体系で５，４，…などとラベル付与され、パレート分布部分D12ではこれと区別した2桁のラベル体系で１１，１２とラベル付与されている。

ここで、以上のような、(1)〜(3)と場合分けされたラベル付与における補足事項を説明する。

第一補足事項として、ラベル付の変化については、分布の形状やパラメータから変化させることも望ましい。例えば、(3)については、左側の対数正規部分の平均値と、右側のパレート分布の距離を調べ、パレート分布のラベル付与において、当該距離に比例するようにラベル付与が行われるようにしてもよい。これにより、通常のデータ範囲からのデータの乖離をデータのラベル付与に反映させることができる。

第二補足事項は、前述のデータ離散化部3の補足説明の際に、「工夫」として言及したもの、すなわち、データ離散化部3でデータ分布のバラツキに応じて、分離数（離散化により得られた区間数）を変化させた場合における、ラベル付与の「工夫」に関する。

例えば、バラツキの少ない第一正規分布のデータでは３種類のみに分離され、バラツキの多い第二正規分布のデータでは１０種類に分離されたとし、それぞれに単純に、１から順次増加する自然数を付与して、第一正規分布は付与ラベルが１，２，３であり、第二正規分布では付与ラベルが１，２，…、１０となったとする。当該付与は共に、図９の[例2]のように、小さい側の区間から順次付与している。

この場合、第一正規分布におけるラベル１，２，３と、第二正規分布における最後のラベル１０と、の間で絶対値において大きな差が現れてしまい、第三処理の精度の観点から好ましくない。そのため、同一の型の分布に対するラベル付与の規則として、各分布における平均値からのズレに応じて、異なる分布の間のラベル付与手法を、異なる分布間であることによる不要な絶対値差が発生しないよう、規格化しておく。

つまり、上記の例で言えば、バラツキの少ない第一正規分布の最上位である３番目のデータ郡（すなわち、区間）の平均値からの距離と、バラツキの多い第二正規分布の最上位である１０番目のデータ郡の平均値からの距離と、が等しければ、当該両分布のラベル付与範囲を等しくする。こうして、例えば、共通のラベル付与範囲として１〜３０を採用し、第一正規分布には、１，１５，３０のラベルを付与し、第二正規分布には、３，６，９，…、２７，３０のラベルを付与する。すなわち、各正規分布において、バラツキから定まる区間の数に応じて単純に数値ラベルを割り当てるのではなく、項目データの取る値の範囲に基づく規格化が施された数値ラベルを付与する。

第二処理では、まず、各患者の各項目データに付与されたラベルを要素としたベクトルを生成する。例えば、全医療データにおいて、図２の身長、図３のHDLコレステロール値、図４のγ-GTP値からなる３種類の項目データが存在するものとする。この場合、ある患者Aの身長がラベルL1Aに相当し、HDLコレステロール値がラベルL2Aに相当し、γ-GTP値がラベルL3Aに相当するものとすると、当該患者Aのベクトルはこれらを各要素とした（L1A, L2A, L3A）となる。

第二処理では、さらに、当該ベクトルの各要素に対応する単語を、各要素のラベル数値の分だけ並べたものとして、当該患者の「文書」を生成する。なお、ここで当該「文書」とは、LDAにおいて周知のように、Bag Of Wordsの意味での文書であり、人間による可読性を有した意味ある文書ではない。

例えば、上記３種類の項目データの例の場合に、各要素に対応する単語をそれぞれ「身長」、「中性脂肪」、「アルコール」として設定しておいたとすると、ベクトル(1, 1, 1)の患者につき生成される文書は、「身長、中性脂肪、アルコール」であり、ベクトル(3, 2, 1)の患者につき生成される文書は、「身長、身長、身長、中性脂肪、中性脂肪、アルコール」となる。

なお、以上では、項目データの種類数nだけの要素数nを有した単純なベクトルを生成するものとして説明したが、1つのダミー要素を先頭位置に加えて要素数n+1へと拡張されたベクトルを生成することも好ましい。当該ダミー要素におけるベクトルの値は、全患者において共通の所定値とする。その意義は次の通りである。

例えば、特定の数値（検査項目の数値）が悪い患者は他の数値も悪い場合が多い。しかし、ラベルのベクトル=(10、10、10)というベクトルを持ち、全般的に不健康な人と、(1、1、1)というラベルのベクトルを持ち、全般的に健康な人では、全体的な数値の大きさが異なっているものの、それらの方向が同じため、同じクラスタに分類されてしまう可能性が高い。そこで、当該単純な3要素ベクトルにダミーの1要素を加えて4要素に拡張して、(a、10、10、10)及び(a、1、1、1)とすれば、方向が見かけ上一致してしまい、同じクラスタに分類されてしまうことを回避可能となる。

なお、ダミー要素から文書を生成する際は、所定のダミー単語、例えば「dummy」を利用すればよい。前述の例で、単純なベクトルが(1, 1, 1)であり、文書として「身長、中性脂肪、アルコール」が生成された患者の場合、ダミー要素をその値a=3として追加して(3, 1, 1, 1)の拡張ベクトルとした場合、生成される文書は、当該a=3個のダミー単語を先頭に加え、「dummy、dummy、dummy、身長、中性脂肪、アルコール」となる。

以下、第二処理による文書生成において、上記ダミー要素の追加と同様に、分類をより高精度に行うための追加処理の一例を説明する。当該追加処理は、上記ダミー要素の利用と組み合わせて実施することも可能である。

図１０は、当該第二処理による文書生成の際の追加処理のフローを示す図である。図１０では、各ステップS101〜S105を示すと共に、欄C100内において、当該各ステップの説明のための例EX101〜を示している。以下、当該例を参照しつつ、各ステップを説明する。

ステップS101では、各項目データにつき、文書生成のために用いる総単語数を予め決定しておく。例えば、例EX101に示すように、項目データが「中性脂肪」、「BMI」及び「血糖値」に関する3種類（以下、図１０においては当該例を用いて説明する）であったとすると、これらそれぞれにつき、総単語数を「30語」として決定しておく。なお、項目データ毎に総単語数は変化して設定しておいてもよい。

ステップS102では、各項目データにつき、以上説明したような文書を生成するための所定の単語に加えてさらに、当該所定の単語に対応するものとして、所定の対単語を予め定めておく。例えば、例EX102に示すように、項目データに対する所定の単語を、当該項目データの名称と同一のものとして、「中性脂肪」、「BMI」及び「血糖値」として定めてある場合に、それぞれ対単語を、「数学」、「英語」及び「理科」として定めておく。

なお、ステップS102にて予め決定する対単語は、所定の単語に対応する何らかの単語として決定しておけばよく、例えば対義語を利用するなど、その意味を考慮する必要（人間が解釈する意味として厳密に考慮する必要）はない。

ステップS103では、各患者の各項目データにつき、上記説明した通常の手法における第一処理による数値ラベル付与により、上記説明した通常の手法における際の第二処理での所定の単語の語数を決定する。例EX103A及び例EX103Bには、患者Aさん及びBさんにつきそれぞれ、「中性脂肪」、「BMI」、「血糖値」の語を「18語、20語、10語」及び「12語、15語、16語」用いることが決定された例が示されている。

ステップS104では、各患者の各項目データにつき、ステップS102で決定された対単語についての語数を、ステップS101で設定されている総単語数から、ステップS103で決定された所定単語の語数を減ずることによって、決定する。

例えば、例EX103Aに示すAさんの場合であれば、例EX104Aに示すような、対単語の語数が決定される。「中性脂肪」の対単語「数学」の語数は、当該「中性脂肪」において設定されている総単語数「30語」から、「中性脂肪」につき決定された「18語」を減ずることにより、「12語」として決定される。同様にして、「BMI」及び「血糖値」の対単語「英語」及び「理科」に関しても、その語数がそれぞれ、「30-20=10語」及び「30-10=20語」として決定される。

同様に、例EX103Bに示すBさんの場合であれば、例EX104Bに示すような対単語の語数が決定される。すなわち、「数学」、「英語」及び「理科」の各々の対単語の語数は、それぞれ、「30-12=18語」、「30-15=15語」及び「30-16=14語」として決定される。

ステップS105では、各患者の文書を、各項目データにおける所定単語及びその対単語につき、それぞれステップS103及びS104にて決定された語数だけ用いることによって、生成する。例えば、例EX104Aに示すAさんであれば、所定単語として、「中性脂肪」を「18語」、「BMI」を「20語」、「血糖値」を「10語」用いて、また、対単語として、「数学」を「12語」、「英語」を「10語」、「理科」を「20語」用いて、文書が生成される。

以上、図１０の追加処理のフローにより、所定の単語に加えて対単語を所定数準備して、各患者の文書を生成することができる。なお、全患者の文書集合にLDAを適用する際は、当該追加処理を利用しない場合と同様である。なお、前述のダミー単語に関しては、ステップS101で決定する総数とは独立にその数が設定されるものである。

なお、図１０のフローにおいてはその説明より明らかなように、ステップS101及びS102については、数値データ解析装置1の管理者などによって、入力データを読み込む前に予め実行されておく必要がある。入力データを読み込んでから数値データ解析装置1によって自動でなされる処理は、ステップS103以降となる。

以下、本発明における補足事項を説明する。

（１）本発明は、コンピュータに読み込まれ、当該コンピュータを図１の数値データ解析装置1として機能させる、あるいは当該コンピュータに図１の各部に対応する手順を実行させる、数値データ解析プログラムとして提供されてもよい。

（２）3種類の分布を説明するに際して、右側（値の大きい側）に裾が広がるデータを対象としたが、データが最頻値から比べてどちらにのびているかを調べて、伸びている方を右側にくるように反転させれば左側に裾が広がるデータについても、同様に処理をすることができる。

（３）一般に、層別がなされていないデータはピークが複数存在するが、本発明においては、以上説明したような自動解析を実施するため、予め層別がなされ単一のピークで構成されるデータを入力として利用するものとする。あるいは、２つ以上のピークが検出されるような項目データは、入力から自動で除外するような処理を追加で実施してもよい。

1…数値データ解析装置、2…分布特定部、3…データ離散化部、4…推定部

Claims

所定の項目について各サンプルでの数値を集計した項目データを取得して、各項目データの分布の型を特定する分布特定部と、
前記特定された型に応じて、各項目データにおける一連の数値を区間分けすることにより離散化するデータ離散化部と、を備え、
前記分布特定部は、各項目データに正規分布をあてはめた際のずれを評価することにより、各項目データの分布の型を、正規分布と、対数正規分布と、対数正規分布及びパレート分布の混合分布と、のいずれかとして特定することを特徴とする数値データ解析装置。
前記データ離散化部は、
正規分布として分布の型が特定された項目データについて、当該正規分布の平均値及び標準偏差を求め、当該平均値を中央位置となす区間及びその左右に接続する一連の区間であって、幅が当該標準偏差に等しい一連の区間に分け、
対数正規分布として分布の型が特定された項目データについて、正規分布に変換したうえで、当該変換された正規分布の平均値及び標準偏差を求め、当該平均値を中央位置となす区間及びその左右に接続する一連の区間であって、幅が当該標準偏差に等しい一連の区間に分け、
対数正規分布及びパレート分布の混合分布として分布の型が特定された項目データについて、対数正規分布の部分と、パレート分布の部分と、に区分したうえで、当該区分された部分ごとに、区間に分けることを特徴とする請求項１に記載の数値データ解析装置。
前記データ離散化部は、区間分けの個数を、当該項目データの分散に応じて定めることを特徴とする請求項１に記載の数値データ解析装置。
第一処理、第二処理及び第三処理を行う推定部をさらに備え、
第一処理では、項目データにおける前記離散化された区間に対して、前記特定された型に応じた数値ラベルを付与し、
第二処理では、各サンプルを対象として、当該サンプルにおける各項目データに対して当該付与された数値ラベルに基づいた文書を生成し、
第三処理では、全サンプルに対して当該生成された文書集合に潜在的ディリクレ配分法を適用することにより、当該文書集合におけるトピック集合と、各サンプルにおけるトピック比率と、を推定することを特徴とする請求項１ないし３のいずれかに記載の数値データ解析装置。
前記推定部は、第一処理にて前記ラベル付与するに際して、前記特定された型が対数正規分布及びパレート分布の混合分布である場合には、対数正規分布の部分とパレート分布の部分とにおいて区別したラベルを付与することを特徴とする請求項４に記載の数値データ解析装置。
前記推定部は、第一処理にて前記ラベル付与するに際して、前記特定された型が正規分布であるような複数の項目データの各々に対して、当該正規分布において項目データの値が取る範囲に基づく規格化が施された数値ラベルを付与することを特徴とする請求項４または５に記載の数値データ解析装置。
前記推定部は、第二処理にて前記文書を生成するに際して、当該サンプルにおける各項目データに対して当該付与された数値ラベルの個数分の、当該項目に応じた所定の単語と、所定のダミー単語と、を組み合わせたものとして、文書を生成することを特徴とする請求項４ないし６のいずれかに記載の数値データ解析装置。
前記推定部は、第二処理にて前記文書を生成するに際して、
当該サンプルにおける各項目データに対して当該付与された数値ラベルの個数分の、当該項目に応じた所定の単語と、
当該項目に応じた所定の単語総和数から前記付与された数値ラベルの個数を減じた個数分の、当該項目に応じた所定の単語に対する所定の対単語と、
を組み合わせたものとして、文書を生成することを特徴とする請求項４ないし７のいずれかに記載の数値データ解析装置。
前記項目データが医療に関するものであることを特徴とする請求項１ないし８のいずれかに記載の数値データ解析装置。
コンピュータを請求項１ないし９のいずれかに記載の数値データ解析装置として機能させることを特徴とする数値データ解析プログラム。