JP5771510B2

JP5771510B2 - 判別と回帰を同時に行う回帰分析システムおよび回帰分析方法

Info

Publication number: JP5771510B2
Application number: JP2011253439A
Authority: JP
Inventors: 佑子佐野; 神鳥　明彦; 明彦神鳥; 利昇三好
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2015-09-02
Anticipated expiration: 2031-11-21
Also published as: US10963805B2; WO2013077093A1; JP2013109540A; US20140304213A1

Description

本発明は、サンプル群の特徴量と評価値を用いて、新規サンプルの特徴量からその評価値を精度良く推定するための回帰分析システムおよび回帰分析方法に関する。

近年様々な産業分野で、サンプルのデータから算出された特徴量から評価値を推定する技術（回帰分析）の重要性が高まっている。医療分野を例にとると、被験者の医療データ（fMRIやCTの画像、身体の運動情報等）から、疾患の重症度を表す評価スケールを自動的に推定することが出来れば、医師の診断前に行うスクリーニング検査として有用である。他の例としては、生産管理の分野で、製品（例えば、半導体部品）の検査画像から欠陥の度合いを評価して、信頼性の高い部品を選別する場合が考えられる。他にも、自動車の交通事故予防システムで、車載カメラの画像から障害物に衝突する確率を推定して、衝突確率が高い場合にはブレーキをかける場合が考えられる。以下では、医療分野を例にとりながら説明する。

このように、サンプルの特徴量から評価値を推定するためのアルゴリズムは、一般的には以下の(1)(2)の2ステップを経る。ステップ(1)では、判別手法を用いて、(a)評価値を推定可能なグループと(b)評価値を推定不可能なグループとを判別する基準を得る。次に、ステップ(2)では、ステップ(1)でグループ(a)に判別されたサンプルを対象として、回帰手法を用いて特徴量から評価値を推定する基準を得る。その後、新規サンプルにステップ(1)の判別基準を適用してグループを判別し、グループ(a)と判別された場合のみステップ(2)によって評価値を推定する。

上記の処理は、医療分野の場合には以下の通りになる。ステップ(1)は疾患群（グループ(a)）と健常群（グループ(b)）の特徴量を用いて判別基準を作成することを意味し、ステップ(2)は疾患群（グループ(a)）の特徴量から評価スケールを推定する基準を得ることを意味する。その後、疾患の有無や重症度が未知の新規被験者に対して、ステップ(1)の判別基準を適用して健常群か疾患群かを判別し、疾患群と判別された場合のみステップ(2)によって評価スケールを推定することになる。

尚、ステップ(1)で用いる判別手法としては、線形判別分析やSVM(Support Vector Machine)等が知られている。ステップ(2)で用いる回帰手法としては、重回帰分析やSVM回帰等が知られている。

しかし、このように2ステップを経るアルゴリズムには、運用面と精度面で問題点がある。運用面では、ステップ(1)で、新規サンプルが本来はグループ(a)と判別されるところをグループ(b)と誤判別された場合に、ステップ(2)に進めずに評価値が算出されないという問題点がある。医療分野で説明すると、疾患の有無が分からない新規被験者のデータにステップ(1)の判別基準を適用して健常者と判別されたが、医師は疾患の可能性があると診断した場合が挙げられる。この場合は、医師は推定された評価値を知りたいが、ステップ(2)に進めずに評価値が推定されないことが問題となる。他にも、治療によって重症から軽症に推移する場合に、重症の間は評価値が推定されるが、軽症になると健常群と判別されて評価値が推定されない可能性がある。

精度面では、サンプル群のデータ数が少ないためにステップ(1)(2)で得られる基準が低精度になり、低精度な2ステップを経ることで、最終的な推定値の精度が更に低下する問題が生じる。医療分野では、疾患群のデータの不足から、特にステップ(2)の回帰の精度が低下する場合が多い。疾患群のデータは、患者の同意取得が困難であることや、多忙な医師が診察・治療の間に検査を行うことが難しいこと、一つの病院に通院している同一疾患の患者数が限られていること等から、大規模に収集することは難しい。

そこで、上記の問題を解決するために、ステップ(1)によるグループ(a)(b)の判別と、ステップ(2)による評価値の推定を同時に実現する新しい手法が必要である。この手法では、グループ(a)(b)の評価値は統一的な1つの指標で表され、グループ(a)(b)の判別はその指標と閾値との大小比較によって行う。

このような手法が実現すると、運用面と精度面で以下のメリットがある。

運用面では、従来法で生じた、ステップ(1)の判別結果次第で、ステップ(2)に進めずに評価値を推定できない問題を解消できる。つまり、どのサンプルに対しても評価値を推定できるというメリットが生じる。医療分野で説明すると、ステップ(1)による疾患群/健常群の判別結果と医師の診断とが矛盾することで、重症度を算出できない問題が生じない。また、健常者と患者の重症度を統一的な1つの指標で扱うため、患者が治療によって重症から軽症に推移する様子を一貫して1つの指標で経過観察できる。

精度面では、ステップ(1)とステップ(2)で別々に用いていたデータを同時に使用することで、評価値の推定精度を向上させるメリットが生じる。医療分野では、データ収集が容易な健常群を同時に使用することで、疾患群のデータ不足による汎化性の低下が緩和される。

本発明の実施形態１の主たるシステム構成を示すブロック図である。実施形態１の判別回帰処理の主たる構成を示すフロー図である。実施形態１の判別回帰処理の詳細な構成を示すフロー図である。従来法の構成を示したフロー図である。指タッピング運動を示した図である。指タッピング運動の種々の波形を示す波形図である。指タッピング運動の種々の波形データとそれからから算出される特徴量との関係を示す図である。サンプル群と新規サンプルの構成を示す図である。評価値を数値分布に割り当てたときの模式図である。誤差二乗和による回帰評価関数を説明する概念図である。 SVMによる回帰評価関数を説明する概念図である。誤差二乗和による判別評価関数を説明する概念図である。フィッシャー線形判別分析の判別評価関数を説明する概念図である。 SVMによる判別評価関数を説明する概念図である。本発明を指タッピング運動データに適用した結果を示すグラフである。従来法を指タッピング運動データに適用した結果を示すグラフである。本発明の実施形態２の複数評価値のための判別回帰処理の構成を示すフロー図である。実施形態２における２種類の疾患の推定重症度の独立を説明する概念図である。

以下、1つ目の本発明を実施するための形態（以下「実施形態」という。）について、適宜図面を参照しながら詳細に説明する。

本発明は様々な産業分野のデータに適用可能であるが、本実施形態は医療分野で適用される。本実施形態で本発明を適用するデータは、健常群とパーキンソン病（PD : Parkinson’s disease）群の指タッピング運動データと、そのPD群の重症度を評価したUPDRS ftである。ここで、指タッピング運動とは、被験者の親指と人差し指を繰り返し開閉する運動である。UPDRS ftとは、UPDRSの指タッピング運動（finger tapping）を評価する項目で、指タッピング運動の良否を採点した値である。PDは全身に運動障害が表れる疾患であり、特に手指の動作に振戦（小さな震え）・筋固縮（筋肉のこわばり）・運動緩慢（運動が遅く小さくなること）等の症状が顕著に表れる。医師はPD患者の指タッピング運動を目視で観察し、UPDRS ftで良否を判断する。
以降は、本発明の概要を説明し、従来法との相違を述べる。そして、本発明の各手段について述べる。その後、本発明を上記データに適用した結果を示す。
≪実施形態１の主たる手段≫
本発明の実施形態１のシステム構成を図１に示す。計測対象のデータは計測装置６０で計測され、処理装置７０に取り込まれる。特徴量抽出装置７３では、取り込まれた元データから後で詳述する特徴量が抽出される。それぞれのデータサンプルから抽出された特徴量と、それらデータサンプルに付された評価値とは、メモリ７３に蓄積される。処理装置７０は、この特殊量と評価値の蓄積された値を用いて新規サンプルから推定評価値を算出するための推定式を最適化し、さらに同時に、その推定式で新規サンプルの特徴量から推定評価値を算出する処理を実行する。ここではこの処理を判別回帰処理と呼ぶ。

図２は判別回帰処理のフローを示す。図１に示された判別回帰処理を行うための各ブロックは図２にも同一符号で示される。よってここでは図２にそって実施形態を説明する。メモリに蓄積されたサンプル群２（全部または一部）の特徴量２０１及び評価値２０２を回帰評価関数算出手段１４に取り込み、回帰評価関数算出手段１４にて回帰評価関数１６を算出する。同様に、サンプル群２（全部または一部）の特徴量２０１及び評価値２０２を判別評価関数算出手段１５に入力して、判別評価関数１７を算出する。そして、合成評価関数算出手段１８に回帰評価関数１６と判別評価関数１７を入力して、合成評価関数２０を算出する。そして、合成評価関数最適化手段２１によって合成評価関数２０を最適化することで、推定式２４が算出される。そして、推定式適用手段２５によって、新規サンプル３の特徴量３０１を推定式に適用することで、推定評価値５を算出する。

上記のように、判別と回帰を同時に行うと、従来法の２つの問題点が解決される。１つ目の問題点は、従来法では判別処理の後に回帰処理を適用するために、判別結果によっては回帰の推定値が算出されない点である。実施形態１では、判別と回帰を同時に行うために、全てのサンプルで評価値を推定できる。２つ目の問題点は、従来の回帰処理では、使用できる評価値を持つサンプル数が少ない場合に、回帰処理の推定精度が低下する点である。本発明では、評価値の欠損したサンプルであっても判別に使用することができるため、使用できるサンプル数が増加して、推定精度が向上する。
≪精度を向上させるための追加手段≫
さらに、本実施形態では、図３のように、図２のフローに以下の４つの手段を追加することで、推定式の精度を高めることが出来る。追加する手段は、評価値変換手段１０と判別回帰優先度調整手段１９と収束判定手段２２と重要特徴量選別手段２３の４つである。この４つの手段は、図２のフローに個別に追加してもよいし、同時に追加してもよい。以下、４つの手段の構成と効果をそれぞれ説明する。

１つ目の評価値変換手段１０は、回帰評価関数算出手段１４および判別評価関数算出手段１５の前に、サンプル群２の評価値２０２を数値または数値分布または数値範囲に変換する手段である。評価値変換手段１０は、評価値置換テーブル作成手段１１と評価値置換手段１２とサンプル割り当て手段１３から構成される。評価値置換テーブル作成手段１１は、サンプル群２の評価値２０２と、数値または数値分布または数値範囲を対応させるテーブルを作成する。このテーブルは、サンプル群２の評価値２０２が欠損している場合も含む。評価値置換手段１２は、上記のテーブルに基づいて、サンプル群２の評価値２０２を、数値または数値分布または数値範囲に置き換える。サンプル割り当て手段１３は、サンプル群２のサンプルを、回帰評価関数算出手段１４に入力するサンプルと、判別評価関数算出手段１５に入力するサンプルとに割り当てる。このとき、回帰評価関数算出手段１４と判別評価関数算出手段１５との両方に入力されるサンプルがあっても良い。

上記の評価値変換手段１０の効果を説明する。あらかじめ数値で与えられたサンプル群２の評価値２０２を数値分布や数値範囲で変換すると、評価値の離散性が緩和される。そのため、評価値がより実態に近い回帰や判別が可能になり、推定式の精度が高まる。また、評価値が欠損している場合に、暫定的な数値や数値範囲や数値分布を与えることで、推定式の精度が高まる。

次に、２つ目の判別回帰優先度調整手段１９について説明する。判別回帰優先度調整手段１９は、合成評価関数算出手段１８において回帰評価関数１６と判別評価関数１７を合成する際に、判別と回帰との優先度を調整する手段である。優先度定数１９０１の大小で優先度を調整する。ここで、優先度定数１９０１は、優先度定数探索手段１９０２によって、推定式の精度が最も高くなるように探索された数値とする。尚、優先度定数１９０１は、予め決めた定数でもよい。

上記の判別回帰優先度調整手段１９の効果を説明する。まず、予め判別と回帰のどちらかを優先する必要がある場合に優先度の指定ができるというメリットがある。さらに、合成評価関数最適化手段２１から得られた推定式２４の推定精度を優先度定数探索手段１９０２の計算過程で用いれば、さらに推定精度を最大化することができる。

次に、３つ目の収束判定手段２２を説明する。本手段は、合成評価関数最適化手段２１で最適化された結果が十分に収束したか否かを判定し、収束が不十分である場合には、評価値変換手段１０の中の評価値置換テーブル作成手段１１にフィードバックする。このフィードバックにより、評価値を置換する数値や数値分布や数値範囲を修正する。このフィードバックは、合成評価関数２０の最適化が十分に収束したと判定されるまで繰り返し続けられる。

収束判定手段２２の効果は、予め定めていた評価値を数値や数値分布や数値範囲に置換するテーブルを合成評価関数最適化手段２１の結果で修正することで、最終的に出力される推定式２４の精度を向上することが出来る点である。

最後に、４つ目の重要特徴量選別手段２３を説明する。重要特徴量選別手段２３は、合成評価関数最適化手段２１から、推定精度に大きな影響を及ぼしている重要な特徴量を選別する手段である。

重要特徴量選別手段２３の効果を述べる。重要特徴量選別手段２３から出力された重要特徴量４をサンプル群２の特徴量２０１にフィードバックすることで、重要特徴量４のデータのみ選別して、再度判別回帰処理を行うことが考えられる。この方法を用いると、回帰や判別で特徴量数が多い場合に生じ得る多重共線性を回避し、推定精度を向上させることができる。尚、特徴量２０１にフィードバックせずに、重要特徴量４を出力するだけでも良い。
≪従来法との比較≫
ここで、従来法のフローを図４に示して、本発明のフローとの違いを説明する。従来法では、判別処理１０１（判別分析等）によって健常群・疾患群の判別を行った後に、疾患群と判別された場合のみに、回帰処理１０２（重回帰分析等）を適用して重症度を算出する。

まず、サンプル群(1)の特徴量１０３０１に判別処理１０１を適用する。判別処理１０１の内部では、判別評価関数算出手段１０１１によって判別評価関数１０１２が算出される。そして、判別評価関数１０１２が判別評価関数最適化手段１０１３によって最適化されることで、判別式１０１４が算出される。

次に、判別処理１０１とは別に、サンプル群(2)の特徴量１０５０１と評価値１０５０２に回帰処理を適用する。回帰処理１０２の内部では、回帰評価関数算出手段１０２１によって回帰評価関数１０２２が算出される。そして、回帰評価関数１０２２が回帰評価関数最適化手段１０２３によって最適化されることで、推定式１０２４が算出される。

疾患の有無・重症度が分からない新しい被験者（新規サンプル１０４）のデータは、まず、判別式適用手段１０１５によって判別式１０１４が適用され、健常群・疾患群に判別される。次に、ここで疾患群と判別された場合のみ、推定式適用手段１０２５によって推定式１０２４が適用され、推定評価値１０６が算出される。このように、従来法では判別式適用手段１０１５で疾患群と判別されないと推定評価値１０６を算出されないのに対して、本発明ではどのサンプルでも推定評価値５（図２または図３）が算出されるという違いがある。
≪特徴量と評価値≫
［特徴量］
本発明に係る判別回帰処理の入力は、特徴量と評価値である。まず、特徴量について述べる。

特徴量とは、サンプルから得られた元データから算出される、1個または複数個の数値である。ここで、元データには、画像・音声・電圧・アンケート結果等、数値で表されるデータであれば何でも含まれる。カテゴリデータであっても、数値化することが出来れば、元データに含まれる。例えば、医療分野では、MRIやCTや心磁計で計測される医療画像、心電計で計測される波形、血液検査の成分値、患者に対するアンケート等が挙げられる。
本実施形態では、指タッピング運動データから算出された特徴量を用いる。指タッピング運動とは、図５に示すように、親指と人差し指を繰り返し開閉させる運動である。2指を開いた状態４１と2指を閉じた状態４２を交互に繰り返す。本実施形態では、磁気センサ４３を親指と人差し指にそれぞれ装着して、２指の距離４４を計測する。磁気センサとは、2つのコイルから構成され、1つのコイルが発信した磁場をもう1つのコイルが受信することで、2コイルの距離を計測するセンサである。

図６(a)は健常者の典型的な指タッピングの波形、図６(b)はPD患者の典型的な指タッピングの波形である。距離波形５１は、磁気センサの出力電圧から換算される。距離波形５１を微分することで、速度波形５２と加速度波形５３が得られる。これらの波形から、健常者は滑らかに開閉動作を繰り返していることが分かる。一方で、PD患者は、筋肉のこわばり（筋固縮）やリズム障害等の症状の影響で健常者とは異なった運動になっていることが分かる。このように指タッピング運動には健常者とPD患者の間で差異が顕著に表れるため、前述した通り、医師の目視による診断（UPDRS ft）でも採用されている。

これらの波形から、図６に示す21個の特徴量を算出する。図７(a)の距離波形からは、以下の5個の特徴量を算出した。距離の最大振幅(1) は、距離波形の最大値と最小値の差分である。総移動距離(2) とは、全計測時間における距離変化量の絶対値の総和である。そして、距離の極大値の平均(3) は指タッピング運動の極大値(図７中に図示) の平均値で、距離の極大値の標準偏差(4) は毎回の指タッピング運動の極大値の標準偏差である。距離の極大点の近似直線の傾き(5) は、極大点を近似した直線(図７中に図示) の傾きであり、主に計測時間中の疲労による振幅の変化を表すと考えられる。

同様に、距離波形を微分して得られた速度波形(図７(b)) からは、以下の7個の特徴量を算出した。速度の最大振幅(6) は、速度波形の最大値と最小値の差分である。速度の極大値の平均(7) は毎回の指タッピング運動の極大値の平均値で、速度の極小値の平均(8) は毎回の指タッピング運動の極小値の平均値である。同じようにして、速度の極大値の標準偏差(9) は毎回の指タッピング運動の極大値の標準偏差で、速度の極小値の標準偏差(10) は毎回の指タッピング運動の極小値の標準偏差として算出される。ここで、速度の極大値とはオープニング動作(2指を閉じた状態から開ききった状態まで) 中の最大値で、速度の極小値とはクロージング動作(2指を開いた状態から閉じた状態まで) 中の最小値である。さらに、エネルギーバランス(11) は、オープニング動作中の速度2乗和とクロージング動作中の速度の2乗和との比である。総エネルギー値(12) は、全計測時間中の速度の2乗和である。

さらに、速度波形を微分して得られた図７(c)の加速度波形については、下の5個の特徴量を算出した。加速度の最大振幅(13)は、加速度波形の最大値と最小値の差分である。さらに、タッピング１周期中に表れる4種類の極値に着目して、オープニング動作時の加速度の極大値の平均(14)、オープニング動作時の加速度の極小値の平均(15)、クロージング動作時の加速度の極大値の平均(16)、クロージング動作時の加速度の極小値の平均(17) を算出した(全て図７(c)中に図示)。これらの特徴量はそれぞれ、２指を開き始めた時点、開き終わった時点、閉じ終わった時点、閉じ始めた時点において作用する力に対応している。

最後に、図７(d)のタップインターバルのデータからは、４つの特徴量を算出した。タップ回数(18)は、全計測時間中の指タッピング運動の回数である。タップインターバルの平均値(19)は、距離波形の極小点から次の極小点の間隔であるタップインターバル(図７(d)に図示) の平均値である。平均周波数(20)は、距離波形をフーリエ変換した場合にスペクトルが最大になる周波数である。タップインターバルの標準偏差(21) は、タップインターバルの標準偏差を表す。
［評価値］
次に、評価値について述べる。評価値は、サンプルに対して予め与えられた数値である。人が採点して得られた数値でも良いし、実験結果から得られた数値でも良い。サンプルを所定の基準で評価して得られた数値であれば、どのような指標でもよい。

本実施形態では、評価値として、医師が採点した評価スケールであるUPDRS ftを用いる。UPDRS ftは、PDの評価スケールであるUPDRSの一項目で、0≦UPDRS ft≦4の5段階の整数値である。UPDRS ft = 0の場合は、指タッピング運動は正常とみなされ、UPDRS ft = 4に近いほど重症であることを示す。

医療分野では、本実施形態で用いるUPDRSの他に、PDの診断で用いられるYahrの重症度分類、ハンチントン病の診断で用いられるUHDRS(Unified Huntington's Disease Rating Scale)、運動失調の診断で用いられるSARA(Scale for the Assessment and Rating of Ataxia)、認知症の診断で用いられるMMSE(Mini-Mental State Examination)等、様々な評価スケールがある。
［本実施形態で用いるサンプル群］
本発明を適用するサンプル群として、健常群196名（男女50〜70代）とPD群28名（男女60〜70代）の指タッピング運動を計測した。前述したように、疾患群のデータの入手は困難であるため、PD群が28名と少人数となっている。計測は、「出来る限り大きく、出来る限り速く」という指示を出して、右手の指タッピング運動を30秒間計測した。得られた波形から、前述の21個の特徴量を算出した。また、その指タッピング運動を医師が目視で採点したUPDRS ftを評価値として記録した。

上記のサンプル群から得られた特徴量および評価値を、図８に模式図で表した。図８(a)のように、健常群では、各健常者がp個の特徴量を持ち、評価値は与えられない。PD群では、各PD患者にp個の特徴量と評価値が与えられる。図８(a)のサンプル群は図２のサンプル群２として判別回帰処理１に入力される、図８(b)の新規サンプルの特徴量は、図２の新規サンプル３として、図２の推定式適用手段２５に入力され、推定評価値５が算出される。
≪推定式の定義≫
これ以降、本発明の構成及び具体的な適用方法について説明する。

本実施形態では、推定式は、（数１）のように、特徴量を線形結合した式とする。

この式においてx_pは指タッピング運動データから得られた特徴量(n = 0〜P、 P = 特徴量数)、w_pは各特徴量に対応する重み、w₀は定数項である。特徴量x_pは、特徴量間のレンジの相違を解消するために正規化を行った後の特徴量である。正規化前の特徴量をx_rpとすると、x_pは、健常群のx_rpの平均値m_pと標準偏差σ_pを用いて、x_p = (x_rp−m_p)/σ_pと算出される。尚、このような正規化を行わずに、元の特徴量の値をそのまま用いてもよい。

このように、複数の特徴量を線形結合して新しい指標を作成する方法は、判別分析や重回帰分析等の多くの既存処理で採用されている。本発明では、このような線形結合による推定式に限らず、複数の特徴量を入力して一つの数値が算出される式であれば他の形式でも良い。例えば、（数１）の右辺のx_pに代えて（数２a）、（数２b）、（数２c）のいずれかの基底関数φ(x_p)を用いた推定式が適用できる。

（数２a）は線形結合の基底関数φ(x_p)を多項式とするものである。また（数２b）は基底関数をガウス分布とするもの、（数２c）はロジスティックシグモイド関数にするものである。尚、後述する合成評価関数の最適化でカーネル法を適用すると計算が簡単になる場合があるため、カーネルを用いて推定式を定めてもよい。

尚、本実施形態では、評価値は1種類であるため推定式は1つで足りるが、複数の評価値を用いる場合は、推定式を複数定義する必要がある。
≪評価値の変換≫
評価値変換手段１０（図３）について説明する。評価値変換手段１０には、評価値置換テーブル作成手段１１および評価値置換手段１２およびサンプル割当て手段１３が含まれる。本実施形態では、健常群にはUPDRS ftが評価されていないため、評価値が欠損している。そのため、以下の解釈によって、評価値を数値範囲に置換する。

UPDRS ftは、0から4の整数値を取り、0が健常で、4に近づくと重症になるように定義されている。この定義に基づいて考えると、もし健常者の指タッピング運動をUPDRS ftで評価したならば0以下の値になると推測される。つまり、UPDRS ft = 0をPD患者と健常群の境界とし、UPDRS ft ≦ 0の範囲を健常群、UPDRS ft > 0の範囲をPD群とみなす。以上より、本実施例では、健常群の欠損した評価値をUPDRS ft ≦ 0という数値範囲に置換する。

尚、本実施形態では、欠損した評価値を1つの不等式で制限される数値範囲に対応付けたが、他の数値や数値分布に対応付けても良い。例えば、上限と下限を用いた2つの不等式で制限される数値範囲や、正規分布などの関数に対応付けてもよい。

また、本実施形態では、欠損した評価値を変換したが、欠損していない評価値を数値分布に変換してもよい。例えば、UPDRS ftが予め与えられているPD群について、評価値UPDRS ft = 0を−0.5 ≦ UPDRS ft < 0.5に、評価値UPDRS ft = 1を0.5 ≦ UPDRS ft < 1.5に、評価値UPDRS ft = 2を1.5 ≦ UPDRS ft < 2.5に、評価値UPDRS ft = 3を2.5 ≦ UPDRS ft < 3.5に、評価値UPDRS ft = 4を3.5 ≦ UPDRS ft < 4.5に置換する場合が考えられる。図９はこの評価値の数値分布への置換を示す概念図である。すなわち、図９(a)は置換前の評価値と推定評価値の対応関係を、図９(b)は数値分布に置換後の評価値と推定評価値の対応関係を示す。

このように、数値で与えられていた評価値を数値分布に置換すると、評価値の離散性が緩和されるというメリットが生じる。この離散性の緩和について具体的に説明する。同じ評価値を持つ被験者であっても、その中で軽症の被験者と重症の被験者がいるはずである。しかし、医師は目視で評価するため、現状の5段階よりも細かい評価スケールで採点するのは難しい。ここで、評価値を数値分布で置き換えることで、この問題を解決する。具体的には、図８(b)のように、UPDRS ft = 1を0.5≦UPDRS ft < 1.5に置換すると、UPDRS ft = 1と評価された被験者の中でもより軽症の被験者はUPDRS ft = 0.5、より重症の被験者はUPDRS ft = 1.5に近い評価値を取ることができ、実態に即した評価スケールとなる。このように離散性を緩和すると、回帰効果（サンプル群の誤差が大きい場合に推定値が平均値に近くなる現象）を低減できる。

本実施形態について同様に考えると、健常群を医師が評価したと仮定すると全てUPDRS ft = 0と採点されるところを、UPDRS ft ≦ 0という数値分布に置換することで、離散性を緩和させたとも考えられる。

尚、本実施形態では、1つのサンプルに1つの数値・数値分布・数値範囲を対応付けたが、1つのサンプルに2種類以上の数値・数値分布・数値範囲を対応付けてもよい。このように二重に対応付けると、同一サンプルを回帰と判別両方に使う場合に、判別評価関数では評価値を数値範囲として計算し、回帰評価関数では評価値を数値として算出することができる。
≪合成評価関数の算出≫
合成評価関数２０（E）の算出方法を述べる。そのために、Eの算出過程で必要となる、健常群と疾患群との判別精度を評価する判別評価関数１７（E_d）と、疾患群の重症度定量化の精度を評価する回帰評価関数１６（E_r）を定義する。以下、回帰評価関数E_r、判別評価関数E_dの順で、両者の算出方法を説明する。
［回帰評価関数の算出］
回帰評価関数算出手段１４（図１または図２または図３）について説明する。回帰評価関数１６（E_r）は、疾患群の重症度定量化の精度を表す評価関数である。ここでは、E_rを重回帰分析で定義される誤差関数と同一とする。つまり、（数３a）のように、疾患群の全てのサンプル(i=1~ N_r、N_rは回帰に用いるサンプル数)に対して、評価スケールy_riと推定評価値y_eiとの誤差の二乗の総和を計算する。

図１０は、この誤差二乗和による回帰評価関数の計算の概念を示す。（数３a）の定義から分かるように、E_rは推定評価値y_eが評価スケールy_rから乖離している程度を表す。つまり、E_rが小さくなるほど、推定評価値y_eの精度が高いことになる。そのため、疾患群の重症度定量化の精度を向上させるには、E_rを最小化する必要がある。

尚、E_rは、疾患群の重症度定量化の精度を表す評価関数であれば、（数３a）に示す式でなくても良い。例えば、過学習を防ぐために、正則化項（推定式の係数w_nの二乗和等）を加えて、（数３b）の式のような評価関数を用いる場合が考えられる。

E_rの定義の他の例としては、（数３c）に示す式のような評価関数が考えられる。

この評価関数は、SVM回帰(Support Vector Machine Regression、サポートベクターマシン回帰)で用いられるマージン最大化に関する評価関数である。つまり、図１１に示すように、推定式からε以上離れた2つの超平面を仮定し、その超平面の外側に分布するサンプルに対してのみ、超平面から離れた距離ξに比例したペナルティを課す。
尚、E_rは等しい評価値を持つサンプルの数が異なる場合は、各群をサンプル数で正規化しておくと良い。これは、入力するサンプル数によってE_rのレンジが変わることを防ぐためである。正規化を行うことで、後述する優先度定数がサンプル数の影響を受けにくいというメリットがある。また、回帰する評価値が複数あり、それに伴って推定式が複数定義される場合は、それぞれにE_rk(kは各評価値を示す)を定義し、各E_rkを重みを付けて足し合わせることでE_rを算出すればよい。尚、E_rkの合成方法は他の方法でも良い。
［判別評価関数の算出］
次に、判別評価関数算出手段１５（図１または図２または図３）について説明する。上記のようにE_rのみを最小化する場合は、重症度定量化の精度が向上したとしても、疾患群と健常群との判別精度も同時に向上するとは限らない。そのため、（数４）で表される健常群と疾患群との判別精度を評価する判別評価関数１７（E_d）を導入する。

この式は、健常群の中で、推定評価値y_ei＞ 0であるデータに限って、0との差の二乗の総和を算出することを表す。

回帰評価関数E_rを最小化すると、疾患群では、推定評価値y_eが疾患群の評価スケールy_ｒに近づくため、原則的にはy_e ＞ 0となる。このことから、逆に健常群でy_e≦ 0を満たすことが出来れば、y_eによって疾患群と健常群を判別可能となる。この考えから、（数４）は、健常群の中でy_e ≦ 0を満たさないデータ（つまりy_e＞0のデータ）のみを選別し、その中でもy_e = 0から離れるほど大きなペナルティを与えている（図１１）。そのため、判別評価関数E_dを最小化すると、健常群のデータの多くがy_e ≦ 0を満たすようになり、y_e ＞ 0である疾患群と判別しやすくなる。このように、判別評価関数算出手段１５では、評価値変換手段１０で、評価値が数値範囲または数値分布に置換されたサンプルを対象として、その制限を満たすようにE_dを計算する。

他にも、2群以上の判別の精度を表す評価関数であれば、上記以外の評価関数を定義してもよい。例えば、（数５）に示す式のように、Fisherの線形判別分析で用いられている評価関数を用いてもよい。

この評価関数は、クラス間分散S_Bがクラス内分散S_wに占めている割合を意味する。ここで、クラス間分散S_Bは複数群の平均値の差を表し、クラス内分散S_wは各群の中のばらつきを表す(図１２を参照)。クラス間分散S_Bが大きく、また、クラス内分散S_wが小さいほど、2クラスを精度よく判別できる。したがって、この評価関数を最大化すると、判別性能の高い推定式が得られることになる。

他にも、（数６）のような評価関数を用いてもよい。

この評価関数は、SVMによる判別で用いられるマージン最大化に関する評価関数である。この評価関数を最大化すると、図１４に示すように、超平面y_e(x)= 0を境界として、クラス1とクラス2の2クラスを判別することができる（クラス1：t_i = 1、クラス2：t_i = −1）。（数６）の式では、誤判別を許容して柔軟な判別が可能となるように、境界から一定距離以上離れた2つの超平面y_e(x)= 1及びy_e(x)= −1を仮定し、この超平面の内側に分布するサンプルは誤判別されたとみなして超平面から離れた距離ξ_iに比例したペナルティを課している。
尚、E_dはサンプル数で正規化しておくと良い。入力するサンプル数によってE_dのレンジが変わることを防ぐためである。正規化を行うことで、後述する優先度定数cがサンプル数の影響を受けにくいというメリットがある。また、3つ以上の群を判別する場合は、上記の計算を2群ずつ行ってE_dk (kは2群の組み合わせ)を算出し、各E_dkを合成してE_dを算出することが出来る。
［回帰評価関数と判別評価関数の合成］
合成評価関数算出手段１８（図１または図２または図３）について説明する。以上のように、健常群と疾患群との判別の精度を表す回帰評価関数１６（E_r）と、疾患群の重症度定量化の精度を表す判別評価関数１７（E_d）を定義し、それぞれ最小化する必要があると示した。しかし、一般的には、E_dを最適化するw_nと、E_rを最適化するw_nとは等しくならないため、E_dとE_rを同時に最適化することはできない。そのため、両者の優先度を調整する優先度定数１９０１としてc₁とc₂を導入して、（数７a）のような合成評価関数Eを定義し、Eを最適化することとする。

ここで、重症度定量化の精度を重視する場合はc₂を大きい値にし、反対に、疾患群と健常群の判別の精度を重視する場合はc₁を大きい値にする。さらに、極限的には、重症度定量化の影響をなくしたい場合はc₂ = 0に、判別の影響をなくしたい場合はc₁ = 0にすればよい。この場合は、それぞれ判別処理、回帰処理を適用する場合と同一になる。

尚、本実施例では優先度定数１９０１として2つの定数c₁とc₂を定めたが、優先度定数１９０１は2個でなくてもよい。例えば、（数７b）に示す式のように、cを用いてE_dとE_r の積を算出することでEを定義する場合が考えられる。

また、優先度定数１９０１を定めずに、E_dとE_rのみを用いてEを算出してもよい。この場合は、後述する回帰と判別の優先度を調整する処理は不要となる。
［回帰と判別の優先度調整］
判別回帰優先度調整手段１９（図２）について説明する。本実施形態では、上述の優先度定数１９０１をc₁ = 0.2、c₂ = 1.0とした。しかし、c₁とc₂を予め決めた数値にせずに判別性能や回帰性能が最良となる数値を探索してもよい。例えば、判別精度をAUC(Area Under the ROC Curve)を基準として、黄金分割法を用いて、AUCが最も高くなるcを探索する方法が考えられる。他には、Eを最適化して得られた推定式で推定された推定評価値と、サンプル群に与えられた評価値との二乗誤差の総和を最小化してもよい。これらの評価は、LOO法（Leave one out法）や交差確認法（cross validation）等を用いて行うと良い。

また、推定式２４の精度を表す指標を最適化する方法は、黄金分割法でなくても、ニュートン法、準ニュートン法、シンプレックス法、ニューラルネットワーク等、関数の最適化が可能な方法であれば、どの手法でも良い。
≪合成評価関数の最適化≫
合成評価関数最適化手段２１（図１または図２または図３）について説明する。前述した合成評価関数２０（E）を、準ニュートン法を用いて最小化する。準ニュートン法とは、ニュートン法で用いるヘッセ行列の逆行列をBFGS公式によって近似することで、計算量を低減する手法である。準ニュートン法の中で用いるステップサイズは、一次探索法の一種である黄金分割法を用いた。このように、合成評価関数Eの最小化手法として、準ニュートン法のような逐次的に関数を最小化する手法を用いるのは、一般的には解析的に合成評価関数を最適化することが出来ないためである。解析的に最適化できるように合成評価関数Eを定義した場合は、逐次的な解法を用いなくてもよい。

尚、本実施例では、合成評価関数Eを最小化することで最適な推定式２４を求めたが、（数３c)に示す式や（数６）に示す式のように最大化することで回帰や判別が実現される評価関数を用いた場合は、合成評価関数Eを最大化する必要がある。また、本実施例では、Eを最適化するために準ニュートン法を用いたが、他の最適化手法を用いても良い。例えば、最急降下法、ニュートン法、シンプレックス法、ニューラルネットワーク等が挙げられる。

特に、回帰判別関数１６（E_r）に（数３c）に示す式を用い、判別評価関数１７（E_d ）に（数６）に示す式を用いた場合は、SVMで一般的に使用される二次計画問題の解法を転用することができる。具体的には、E₁を（数６）に示す式とし、E_rを（数３a）に示す式として、E_dとE_rから合成したEを（数７a）に示す式と定義する場合を考える。このとき、E_dは、ラグランジュ関数に変換した後に双対表現に変換することで、（数８a）の式に示すE'_dに変換できる。同様に、E_rは、ラグランジュ関数’に変換した後に双対表現に変換することで、（数８b）の式に示すE'_r に変換できる。

これらの変換から、Eは(数９)に示す式の双対表現E' に変換することができる。

その後、逐次最小問題最適化法（SMO; Sequential Minimal Optimization）によりE' 'を最大化することで、最適な推定式を求めることが出来る。ここで、二次計画問題を解くことが可能な手法であれば、逐次最小問題最適化法の代わりに、チャンキング(chunking)、分解法(decomposition method)、保護共役勾配法（protected conjugate gradient）等の他の手法を用いてもよい。尚、Eを双対表現E' に変換せずに、最急降下法等を用いて直接Eを最適化してもよい。
≪合成評価関数の最適化の収束判定≫
収束判定手段２２（図２）について説明する。本実施形態では、合成評価関数２０の最適化は一回のみ行った。しかし、最適化の結果を評価値変換手段１０の評価値置換テーブル作成手段１１にフィードバックすることで、合成評価関数を再計算し、再度最適化を行っても良い。この場合は、再度最適化を行った結果に対して収束判定を行い、十分に収束していない場合は、更に評価値置換テーブル作成手段１１にフィードバックする。十分に収束した場合には、推定式２４を出力する。
≪推定式の適用≫
推定式適用手段２５（図１または図２または図３）について説明する。前述したように、合成評価関数２０（E）を最適化して得られた推定式２４に、新規サンプル３の特徴量３０１を入力して、推定評価値５を得る。この推定評価値５が本手法の出力となる。本実施形態では、PDの有無や重症度が不明の新規の被験者に対して、指タッピング運動データからUPDRS ftを推定できることになる。
≪重要な特徴量の選別≫
重要特徴量選別手段２３（図２）について説明する。合成評価関数を最適化して推定式を算出する過程で、複数の特徴量の中から重要特徴量４を選別することができる。重要特徴量４とは、評価値を推定する際に影響が大きい特徴量を意味する。重要特徴量４は複数個あってもよい。本実施形態では、推定評価値５と特徴量x_nとの相関係数を基準として、相関係数が最も高い特徴量x_nを重要特徴量４とする。

尚、重要特徴量４を選別する基準として、他の指標を用いてもよい。例えば、合成評価関数２０を最適化して得られた推定式２４から得られた推定評価値５と、実際の評価値の残差平方和を基準とする場合も考えられる。また、決定係数やF値を基準としてもよい。

このように選別した重要特徴量４を特徴量２０１にフィードバックし、選別された重要特徴量４のみを使って再び判別回帰処理を行ってもよい。このようにすると、特徴量数が多いことによる多重共線性を回避でき、推定式の精度が向上する。
≪システムの運用方法≫
推定式２４を算出するための本発明は、最初に一度だけ計算してもよいし、サンプル群が増加・変更される度に再計算しても良い。前者の場合は、システムは算出された推定式２４のみ記憶していれば、推定評価値５を算出することができる。後者の場合は、毎回の計算のために、サンプル群２を記憶しておく必要がある。
≪本発明の評価≫
［本発明の評価方法］
本発明の評価には、LOO（Leave One Out）法を用いる。LOO法とは、N個の評価データを N-1個の学習用データと1個のテスト用データに分けて評価する方法である(N=健常群のデータ数+疾患群のデータ数)。つまり、全ての評価データが1回ずつテスト用データになるように組み合わせを変えて、N回評価を繰り返すことになる。仮にLOO法を使わずにN個のデータでモデルを学習し、同一のN個のデータで評価してモデルの精度が高かったとしても、未知のデータに対しても精度が高いとは限らないという問題が生じる。LOO法は、評価データのうち1個を未知のデータとみなすことでこの問題を解決し、モデルの精度を正しく評価することができる。

ここで、テスト用データの推定評価値の精度を評価するために新しい指標を導入する。なぜなら、本発明は、判別と回帰を同時に実現することを目的としているため、判別のみまたは回帰のみに着目して従来法と精度を比較するのは妥当でないからである。そのため、以下のような指標を提案する。

テスト用データの推定評価値の精度は、以下の方法で評価スケールからの誤差eで評価する。テスト用データが疾患群から選ばれた場合は、e = (推定評価値y_e − 評価スケールy_r)²とする。テスト用データが健常群から選ばれた場合は、推定評価値y_e > 0の場合はe = y_e ²とし、y_e ≦ 0の場合はe = 0とする。なぜなら健常者は、健常群では推定評価値が健常を示す評価スケール= 0に近いほど、推定評価値の精度が高いと考えられるからである。このeをLOO法のテスト用データ1個に対して毎回計算し、その平均値を推定評価値の精度とする。この定義から、eが小さいほど推定評価値の精度が高いことになる。尚、回帰と判別の性能を評価可能な指標であれば、上記の指標以外の指標で評価しても良い。さらに、回帰と判別の性能をそれぞれ別に評価してもよい。
本研究では、提案手法である本発明のほか、従来法（判別分析と重回帰分析を併用）も適用して、両者の重症度定量化の精度を上記のeを用いて比較する。尚、上記のeによる評価以外に、感度（疾患群と疾患と判別する割合）・特異度（健常群を健常と判別する割合）による判別精度の評価も行う。また、データの分布を観察するために、LOO法を用いずにN個のデータで学習したモデルを同一のN個のデータに適用し、全データの推定評価値をプロットして評価する。
［本発明の適用結果］
健常群とPD群の指タッピング運動データに、本発明を適用した結果を示す。その後、同一データを従来法（判別分析により健常群とPD群を判別後、PD群に対してのみ重回帰分析により評価値を算出）を適用した結果を示し、本発明の結果と比較する。
＜本発明を適用した結果＞
図１５(a)は、本発明を適用した結果である。横軸は評価スケールであるUPDRS ft、縦軸は本発明で出力した推定評価値である。＋印は健常群、○印はPD群を表している。健常群のUPDRS ftは評価されないので、UPDRS ft = 0としてプロットしている。この結果は、LOO法を使わず、n個のデータでモデルを学習し、そのモデルに同一のデータを適用して評価値を算出した結果を示している。

次に、図１５b)に示す表は、LOO法を用いて、本発明の推定評価値による判別精度を示していた表である。感度（疾患群と疾患と判別する割合）は100。0%、特異度（健常群を健常と判別する割合）は81.6%であることが分かる。図１５ (c)に示す表は、本発明の重症度定量化の精度を、LOO法によって評価した結果である。健常群では0.371、PD群では3.290、全体では1.648であることが分かる。
＜従来法を適用した結果＞
図１６(a-1)及び(a-2)は、健常群とPD群の指タッピング運動データに、従来法（判別分析によって健常群・疾患群の判別を行った後に、疾患群に対してのみ重回帰分析を適用して評価値を算出する方法）を適用した結果である。横軸は評価スケールであるUPDRS ft（医師の採点した評価スケール）、縦軸は重回帰分析で出力した推定評価値である。＋印は健常群、○印はPD群を表している。健常群にUPDRS ftは評価されないので、UPDRS ft = 0としてプロットしている。図１６(a-1)は、判別分析で疾患群と判別されたデータのみをプロットした図である。図１６(a-2)は、判別分析の判別結果を問わず全データをプロットした図である。尚、これらの図１６(a-1)(a-2)の結果は、LOO法を使わず、N個のデータでモデルを学習し、そのモデルに同一のデータを適用して評価値を算出した結果である。

図１５(b)に示す表は、LOO法を用いて、従来法での判別精度を示した表である。感度は89.3%、特異度は93.4%であることが分かる。図１６(c)に示す表は、本発明の重症度定量化の精度を、LOO法によって評価した結果である。健常群では6.970、PD群では5.537、全体では6.027であることが分かる。
＜本発明の結果と従来法の結果の比較＞
本発明の判別結果（図１５(b)に示す表）を従来法の1つ目の処理である判別分析による判別結果（図１６(b)に示す表）と比較すると、判別精度については、感度は10.7%低く、特異度は7.8%高いことが分かる。このことから、本発明は、判別分析と比較して、疾患群と健常群との判別が曖昧な場合は疾患群と判別しやすいことが分かる。つまり、本発明は疾患の可能性がある被験者を広く検出でき、スクリーニング検査に適切なアルゴリズムであると言える。また、図１５(c)に示す表と図１６(c)に示す表を比較すると、本発明の方が従来法よりも、健常群に対する推定評価値の精度が20倍程度高く、健常群・疾患群を全体として見ても3倍以上精度が高いことが分かる。

次に、データの分布（図１５(a)、図１６(a-1)）から、推定評価値の妥当性を考察する。図１６(a-1)より、従来法では、健常者で疾患群と判別されているデータの推定評価値が健常を表す0より大きく、PD群の推定評価値と同程度の値となっていることから、従来法による推定評価値は妥当でないと考えられる。一方、図１５(a)より、本発明では、健常群の推定評価値は0に近く、PD群の軽症のデータと同じレベルに収まっている。このことから、本発明の推定評価値は妥当であると考えられる。

さらに、図１６(a-2)に、従来法で判別分析によって健常群と判別されたデータに対しても重回帰分析の結果から推定評価値を算出した場合を図示した。この場合は、健常群であっても、0を大きく上回りPD群と同レベルまたはそれ以上の推定評価値が算出されているサンプルがあることが分かる。このように、健常群と判別されたにもかかわらず、推定評価値が異常に高いのは妥当ではないと考えられる。この原因は、従来法の2つ目の処理である重回帰分析で疾患群のデータしか用いなかったため、汎化性が低くなったためと考えられる。反対に、本発明では、データの不足している疾患群のみを用いて回帰を行うのではなく、データを入手しやすい健常群と疾患群との判別も考慮したため、汎化性を高めることが出来たと考えられる。

以上をまとめると、本発明は従来法と比較して、重症度定量化の精度が高いと言える。また、従来法は疾患群と判別されたデータのみに評価値を算出するのに対して、本発明は症状の軽重を問わず推定評価値を算出することができる。これらの点で、本発明は従来法よりも優れていると言える。
＜重要な特徴量の選別結果＞
使用した21個の特徴量の中で、推定評価値との相関係数が最も高かったのはタップインターバルの標準偏差(21)で、0.4595であった。よって、タップインターバルの標準偏差(21)が評価値を推定するにあたって、最も重要な特徴量であると分かる。
≪実施形態２≫
以下、実施形態2について、適宜図面を参照しながら詳細に説明する。本実施形態では、実施形態1で説明した判別回帰処理に基づいて、複数評価値のための判別回帰処理を示す。以下では、特に、2種類の疾患の重症度を推定する場合を想定して説明する。

図１７に、2種類の疾患（疾患群1・疾患群2）の重症度を定量化する場合のフローを示す。図の上部から説明する。まず、実施形態1で示した方法で、疾患群1に対して、回帰評価関数16（E_r1）・判別評価関数17（E_d1）・合成評価関数20（E₁）を算出する。同様に、疾患群2に対しても、回帰評価関数16（E_r2）・判別評価関数17（E_d2）・合成評価関数20（E₂）を算出する。次に、このE₁とE₂を用いて、独立条件付きの合成評価関数2006（E' ）を算出する。このE' を算出する部分が、本実施形態が実施形態1と異なる点である。以下、E' の算出方法について述べる。

独立条件付き合成評価関数2006（E' ）は、(数１０)で定義される。

ここで、E₁は健常群と疾患群1の判別回帰のための合成評価関数であり、E₂は健常群と疾患群2の判別回帰のための合成評価関数である。c_sは、疾患1の重症度定量化と、疾患2の重症度定量化との優先度を調整する定数（疾患優先度定数2014）である。c_sは0以上1以下で、疾患1の重症度定量化の精度を重視する場合は小さい値に設定し、疾患2の重症度定量化の精度を重視する場合は大きい値に設定する。T₀は、疾患群1の重症度と疾患群2の重症度とが独立になる条件（以下、独立条件）を表す変数であり、詳細は後述する。c₀は独立条件の強さを定める定数（独立条件定数2012）である。c₀には、0以上の数値を設定する。c₀に大きい値を設定するほど、y_e1とy_e2が正確に直交した状態に近づく。

前述したT₀について説明する。T₀は、独立条件定義手段2011で定義される。T₀は、疾患群1の推定重症度と疾患群2の推定重症度とが独立になることを表す変数である。ここで、各疾患の重症度が独立であるとは、疾患1と疾患2は互いに関連がなく、同時に発症することはないという意味である。つまり、疾患1の重症度y_e1が高い場合は疾患2の重症度y_e2は低く、疾患2の重症度y_e2が高い場合は疾患1の重症度 y_e1は低いことを示す。

この独立条件は、疾患群1の重症度の軸と疾患群2の重症度の軸とが直交する場合である。このときの模式図を図１８に示す。図１８では、便宜上、特徴量数が3つの場合を図示している。このことから、独立条件は、（数１１）のように、疾患1の推定重症度の軸y_e1（2201）と疾患2の推定重症度の軸y_e2（2202）との内積によって表現できる。

ここで、例えば、T₀を以下のように、y_e1とy_e2との余弦として定義する。T₀は、y_e1とy_e2との間の角度によって、−１< T₀ <１の範囲を取る。y_e1とy_e2が同じ方向を向いているときはT₀＝１となり、正反対の方向を向いているときはT₀＝−１となる。そして、y_e1とy_e2が直交した状態ではT₀＝０になる。つまり、y_e1とy_e2が直交するときにのみ|T₀|=0となり、直交した状態から離れるに従って|T₀|は大きくなる。このことから、y_e1とy_e2が直交した状態に近づけるためには、|T₀|を最小化すればよいことが分かる。（数１１）では、c₀に大きい値を設定すると、E' を最小化したときに|T₀|が小さい値になり、y_e1とy_e2は直交した状態に近づく。反対に、c₀に小さい値を設定すると、E'を最小化したときに|T₀|が大きい値になり、y_e1とy_e2は直交した状態から離れた状態になる。尚、T₀の定義は、複数の重症度の軸の独立性を表現できる方法であれば、上記の方法を用いなくてもよい。

上記のように定義されたE' を、実施形態1と同様に、評価関数最適化手段21によって最適化する。その結果、疾患1の重症度の推定式1（2007）および疾患2の重症度の推定式2（2008）が得られる。このことで、疾患1の重症度（推定評価値2009）及び疾患2の重症度（推定評価値2010）が求まる。尚、前述のc_sについては、予め数値を定めても良いし、重症度の推定精度が高い数値を探索しても良い（疾患優先度定数探索手段2015）。同様に、前述のc₀についても、予め数値を定めても良いし、重症度の推定精度が高い数値を探索しても良い（独立条件定数探索手段2013）。また、本実施形態で示した疾患は2種類だが、3種類以上に対しても本研究の考え方を拡張しうる。例えば、2軸ずつ組み合わせて独立性を評価し、それらを足し合わせてT₀とする方法等が考えられる。

２サンプル群
３新規サンプル
４重要特徴量
５推定評価値
１１評価値置換テーブル作成手段
１２評価値置換手段
１３サンプル割当て手段
１４回帰評価関数算出手段
１５判別評価関数算出手段
１６回帰評価関数
１７判別評価関数
１８合成評価関数算出手段
１９判別回帰優先度調整手段
２０合成評価関数
２１合成評価関数最適化手段
２２収束判定手段
２３重要特徴量選別手段
２４推定式
２５推定式適用手段
４１ 2指を閉じた状態
４２ 2指を開いた状態
４３磁気センサ
４４ 2指の距離
５１距離波形
５２速度波形
５３加速度波形
１０１判別処理
１０２回帰処理
１０３サンプル群(1)
１０４新規サンプル
１０５サンプル群(2)
１０６推定評価値
２０１サンプル群の特徴量
２０２サンプル群の評価値
３０１新規サンプルの特徴量
１０１１判別評価関数算出手段
１０１２判別評価関数
１０１３判別評価関数最適化手段
１０１４判別式
１０１５判別式適用手段
１０２１回帰評価関数算出手段
１０２２回帰評価関数
１０２３回帰評価関数最適化手段
１０２４推定式
１０２５推定式適用手段
１９０１優先度定数
１９０２優先度定数探索手段
２００１健常群
２００２疾患群１
２００３健常群
２００４疾患群２
２００５独立条件付き合成評価関数算出手段
２００６独立条件付き合成評価関数
２００７推定式１
２００８推定式２
２００９推定評価値１
２０１０推定評価値２
２０１１独立条件定義手段
２０１２独立条件定数
２０１３独立条件定数探索手段
２０１４疾患優先度定数
２０１５疾患優先度定数探索手段
２２０１疾患1の推定重症度の軸
２２０２疾患2の推定重症度の軸
１０３０１サンプル群(1)の特徴量
１０４０１新規サンプルの特徴量
１０５０１サンプル群(2)の特徴量
１０５０２サンプル群(2)の評価値

Claims

特徴量と評価値を持つサンプル群を蓄積するメモリと、
前記メモリに蓄積されたサンプル群の前記特徴量と前記評価値を用いて、新規サンプルの特徴量から評価値を推定する推定式の係数を算出する推定式算出手段と、
新規サンプルの特徴量を前記推定式に適用することで推定評価値を算出する推定式適用手段とを有する回帰分析システムにおいて、
前記推定式算出手段は、
前記推定評価値が前記評価値を推定する精度を表す回帰評価関数を算出する回帰評価関数算出手段と、
前記サンプル群中の複数のクラスを判別する精度を評価する判別評価関数を算出する判別評価関数算出手段と、
前記回帰評価関数と前記判別評価関数とを合成して合成評価関数を算出する合成評価関数算出手段と、
前記合成評価関数を最適化して推定式の係数を算出する合成評価関数最適化手段(21)とを備えることを特徴とする回帰分析システム。
前記合成評価関数算出手段は、
前記回帰評価関数と前記判別評価関数の優先度を調整する優先度定数を使用して前記合成評価関数を算出する判別回帰優先度調整手段を含むことを特徴とする請求項１に記載の回帰分析システム。
前記判別回帰優先度調整手段は、合成評価関数を最適化する前記優先度定数を探索する優先度定数探索手段を含むことを特徴とする請求項２に記載の回帰分析システム。
評価値に数値分布を対応付ける、または、評価値が欠損している場合に数値分布を対応付けるテーブルを作成する評価値置換テーブル作成手段と、
一部または全部のサンプルの評価値を前記評価値置換テーブル作成手段で対応付けられた前記数値分布に置換する、または、評価値が欠損している一部または全部のサンプルの評価値を前記評価値置換テーブル作成手段で対応付けられた前記数値分布として与える評価値置換手段と、
評価値が置換された前記サンプル群を前記回帰評価関数算出手段と前記判別評価関数算出手段とに割り当てるサンプル割当て手段と、
を含むことを特徴とする請求項１に記載の回帰分析システム。
前記評価値置換テーブル作成手段の前記数値分布は、１つ以上の不等式で制限される数値範囲で表されることを特徴とする請求項４に記載の回帰分析システム。
前記評価値置換テーブル作成手段の前記数値分布は、前記評価値を入力とする数値関数で表されることを特徴とする請求項４に記載の回帰分析システム。
前記評価値置換テーブル作成手段の前記数値分布は、前記評価値と異なる数値とすることを特徴とする請求項４に記載の回帰分析システム。
前記回帰評価関数算出手段で算出される前記回帰評価関数は、サンプル群の評価値と推定評価値との誤差のべき乗の総和とすることを特徴とする請求項１に記載の回帰分析システム。
前記合成評価関数最適化手段(21)の後に収束判定を行い、収束していない場合は評価値置換テーブル作成手段にフィードバックして前記テーブルを修正する収束判定手段を含むことを特徴とする請求項４に記載の回帰分析システム。
前記特徴量の中で前記推定評価値との関連性が高い特徴量を選別する重要特徴量選別手段を含むことを特徴とする請求項１に記載の回帰分析システム。
複数種類の評価値が互いに独立になる条件を定義する独立条件定義手段と、
前記独立条件と複数種類の評価値に対応する複数の前記合成評価関数とを用いて、独立条件付き合成評価関数を算出する独立条件付き合成評価関数算出手段と、
を含むことを特徴とする請求項１に記載の回帰分析システム。
前記独立条件定義手段は、２種類の評価値が互いに独立になる条件を、２種類の評価値の軸ベクトルの内積を各軸ベクトルの絶対値で除算して得られる余弦によって定義することを特徴とする請求項１１に記載の回帰分析システム
前記独立条件付き合成評価関数算出手段は、独立条件の強さを表す独立条件定数を使用して前記独立条件付き合成評価関数を算出することを特徴とする請求項１１に記載の回帰分析システム。
前記独立条件付き合成評価関数算出手段で用いる前記独立条件定数を探索する独立条件定数探索手段を含むことを特徴とする請求項１３に記載の回帰分析システム。
評価値を有する蓄積されたサンプル群の一部または全てについて、評価値置換テーブルにしたがってそれぞれの評価値を数値分布に置換すること、
評価値が数値分布に置換された前記サンプル群を回帰評価関数算出手段と判別評価関数算出手段とに割り当て、前記回帰評価関数算出手段により推定評価値が前記評価値を推定する精度を表す回帰評価関数を算出し、前記判別評価関数算出手段により前記サンプル群中の複数のクラスを判別する精度を評価する判別評価関数を算出すること、
前記回帰評価関数と前記判別評価関数とを合成して合成評価関数を算出すること、
前記合成評価関数を最適化して推定式の係数を算出すること
新規サンプルの特徴量を前記推定式に適用することで前記新規サンプルの推定評価値を算出することの手順を有する回帰分析方法。