JP4254892B1

JP4254892B1 - 特徴量候補作成装置および特徴量候補作成方法

Info

Publication number: JP4254892B1
Application number: JP2007285178A
Authority: JP
Inventors: 光宏米田; 宏中嶋; 直樹土屋; 博田▲崎▼
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2007-11-01
Filing date: 2007-11-01
Publication date: 2009-04-15
Anticipated expiration: 2027-11-01
Also published as: CN101835421B; US20100235151A1; JP2009112330A; CN101835421A; WO2009057778A1; US8630823B2

Abstract

【課題】複雑性と個別性を有する対象物のモデル構築に特に有効となる、性質の異なる特徴量の候補を効率的に準備することを可能とする技術を提供する。
【解決手段】複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段と、特徴量の値の種類の数をサンプルの数で正規化することにより得られる指標値を、複数種類の特徴量のそれぞれについて算出する指標値算出手段と、複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択手段と、評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価手段と、評価手段により所定の基準を満たすと評価された特徴量の組み合わせを、モデル作成装置に対して与える特徴量候補に決定する候補決定手段と、を備える特徴量候補作成装置。
【選択図】図２

Description

本発明は、モデル構築の基礎となる特徴量を準備するための技術に関する。

疾病予防および健康の維持・増進のためには、ヒトの健康状態（体温、血圧、体脂肪などが正常範囲内かどうか）を把握する必要がある。しかし健康状態を直接計測することは困難であるため、各種健康機器では、計測で得られる何らかの生体情報を基にヒトの健康状態を推定するモデルが組み込まれている。たとえば、電子体温計には、脇の下で計測された温度から体温を推定するモデルが組み込まれている。血圧計には、腕に加えた圧力および計測された音から血圧を推定するモデルが組み込まれている。また体組成計には、体重、身長、年齢、性別、生体インピーダンスから体脂肪率などの体組成を推定するモデルが組み込まれている。

この種のモデルは、ヒトから得られる各種特徴量を変量とする推定式で表現されるのが一般的である。モデルを構築する際には、（１）まず多数の被検者からデータを計測・収集し、特徴量を準備する。特徴量には、計測によって得られる計測値のほか、１または複数の計測値から算出される算出値、性別のような被験者の属性値なども含まれる。そして次に、（２）準備された特徴量の中から、モデルの構築に用いる特徴量を選定し、（３）選定された特徴量を用いてモデルを構築する。

（２）特徴量の選定と（３）モデルの構築に関しては、従来から様々な手法が研究、提案されている。（２）に関連する既存手法としては、たとえば、特徴量間の意味の類似性、特徴量による情報分割のされ方において類似性の高い特徴量を排除する手法（特許文献１参照）、複数の特徴量における平均相互情報量を用いて情報量を評価する手法（特許文献２参照）、予測誤差を用いて特徴量の組み合わせの良さを評価する手法（特許文献３参照）などがある。また（３）に関連する既存手法としては、線形モデル（単回帰モデル、重回帰モデル）や、非線形モデル（ニューラルネットワーク、ＳＶＭ（Support Vector Machine））などがある。
特開平１１−１２６２１２号公報特開平４−８４２７７号公報特開平９−８１７３１号公報

ヒト（生体）は「複雑性」と「個別性」という特殊な構造的性質を有している。生体の複雑性とは、生体が筋肉、骨、脂肪などの様々な要素から構成されていることを意味し、また生体の個別性とは、生体を構成する各要素の特性に個体差によるばらつきが存在することを意味する。このように生体の複雑性および個別性が存在する以上、生体から計測される情報は、体内の様々な構成要素のばらつきの影響を受けた複合量となる。しかも、その情報に含まれるばらつきには、目的とする推定対象（たとえば体脂肪率）に関与するばらつきと、関与しないばらつきという特性の異なるばらつきが存在すると考えられる。このようなばらつきの特性を考慮したモデル構築は極めて難しい。

かかる課題に対して、本発明者らは、上記（１）の特徴量の準備段階において、複雑性と個別性の各性質を網羅するように特徴量のバリエーションを確保することによって、精度および信頼性の高いモデル構築が可能になるのではないか、との着想を得た。すなわち、生体の複雑性や個別性によるばらつきに対して敏感に反応する特徴量と、生体の複雑性
や個別性によるばらつきの影響を受けにくい特徴量といった性質の異なる特徴量を網羅的に準備するのである。

しかしながら、従来は特徴量の性質を定量的に評価する有効な手法がなかったために、推定対象に対する先見知識に基づいて試行錯誤的に特徴量を準備するなどの非効率的な手法しかとれなかった。

本発明は上記実情に鑑みてなされたものであって、その目的とするところは、複雑性と個別性を有する対象物のモデル構築に特に有効となる、性質の異なる特徴量の候補を効率的に準備することを可能とする技術を提供することにある。

上記目的を達成するために本発明は、以下の構成を採用する。

本発明は、与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成装置であって、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段と、前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出手段と、前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択手段と、前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価手段と、前記評価手段により前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定手段と、を備える。

本発明では、それぞれの特徴量の性質を「特徴量の値の種類の数をサンプルの数で正規化することにより得られる指標値」を用いて定量化する。そして、この指標値の度数分布がある程度一様になるよう特徴量の候補が選定される。これにより、特徴量候補として、様々な性質の特徴量がバランス良く網羅的に揃えられることになる。そして、このような特徴量候補に基づいてモデル構築を行うことで、モデルの精度や性能の向上を期待できる。

本発明において、前記所定の基準を満たす特徴量の組み合わせを発見するために、前記評価対象選択手段による評価対象の更新と、前記評価手段による前記更新された評価対象の評価とが繰り返されることが好ましい。

このような探索処理を実行することにより、多数の特徴量の中から最適または好適な特徴量の組み合わせを自動的に選び出すことができる。探索処理の具体的手法については、総当たりでもよいし、既存の探索アルゴリズムを適用してもよい。

たとえば、前記評価対象選択手段は、前記複数種類の特徴量のうち前記評価対象に含まれていない特徴量を前記評価対象に追加することにより、前記評価対象を更新するものであるとよい。このとき、前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最小の度数を示す部分を特定し、その最小の度数を示す部分に該当する指標値を有する特徴量を、前記評価対象に追加する特徴量として選ぶとよい。

これにより、度数分布の一様性を高めるのに適切な特徴量が追加対象として選ばれるため、探索処理の効率化を図ることができ、いち早く適切な特徴量候補を決定することができる。

また、前記評価対象選択手段は、前記評価対象に含まれる特徴量のうち少なくともいずれかの特徴量の値の分解能を変更することにより、前記評価対象を更新するものであってもよい。このとき、前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最大の度数を示す部分を特定し、その最大の度数を示す部分に該当する指標値を有する特徴量の分解能を変更するとよい。

特徴量の値の分解能を粗くすれば指標値は小さくなり、分解能を細かくすれば指標値は大きくなる。最大の度数を示す部分に該当する指標値を有する特徴量の分解能を変更し、その指標値を小さく又は大きくすることで、度数分布の一様性を高めることができる。この手法は、記憶手段に記憶されている複数種類の特徴量の指標値が偏っている場合や、度数の小さい部分に該当する指標値をもつ特徴量が記憶手段の中に存在しない場合など、に有効である。

本発明は、上記手段の少なくとも一部を有する特徴量候補作成装置として捉えてもよいし、上記特徴量候補作成装置と上記モデル作成装置とを備えるモデル構築システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む特徴量候補作成方法、または、かかる方法を実現するためのプログラムやそのプログラムを記録したコンピュータ読み取り可能な記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

たとえば、本発明に係る特徴量候補作成方法は、与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成方法であって、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータが、前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、を実行することを特徴とする特徴量候補作成方法である。

また、本発明に係る特徴量候補作成プログラムは、与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成プログラムであって、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータに、前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、を実行させることを特徴とする特徴量候補作成プログラムである。

本発明によれば、複雑性と個別性を有する対象物のモデル構築に有効となる、性質の異なる特徴量の候補を効率的に準備することが可能である。

以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。

＜特徴量の評価指標＞
生体の複雑性と個別性に対応すべく性質の異なる特徴量を網羅的に準備しようとしても、従来は特徴量の性質を定量的に評価するための有効な手法がなかったために、試行錯誤的に特徴量を峻別し準備するしか方法がなく、非常に非効率的であった。

そこで本実施形態では、カーディナリティ（濃度）という概念を導入する。カーディナリティとは集合の要素数を表す概念であり、特徴量が持ちうる濃度、すなわち、特徴量の値の種類の数を表す指標である。たとえば、５人の被験者から次のような特徴量が得られたとする。
（１）性別：男、身長：１７０ｃｍ、体重５９ｋｇ
（２）性別：男、身長：１７３ｃｍ、体重６５ｋｇ
（３）性別：男、身長：１６８ｃｍ、体重６５ｋｇ
（４）性別：女、身長：１５２ｃｍ、体重４２ｋｇ
（５）性別：女、身長：１５９ｃｍ、体重５０ｋｇ

このサンプルにおいて、特徴量「性別」の要素は「男」と「女」であり、そのカーディナリティは「２」となる。また特徴量「身長」のカーディナリティは「５」であり、「体重」のカーディナリティは「４」である。このカーディナリティという概念を用いることで、ばらつきに対する各特徴量の表現能力を定量化することができる。

しかし、このカーディナリティの値は、集合の規模、すなわちサンプルデータの数に影響を受けるという問題がある。たとえば、「身長」のように個々人によって値が異なる可能性の高い特徴量の場合は、サンプルデータが増えるとともにカーディナリティの値も大きくなる。そこで、本実施形態では、下記式に示すように、カーディナリティをサンプルの数で正規化することにより得られるＮＣ（正規化カーディナリティ；Normalized Cardinality）という評価指標を定義する。下記式から明らかなようにＮＣの定義域（値域）は０＜ＮＣ≦１となる。
ＮＣ＝（カーディナリティ）／（サンプルデータ数）

正規化カーディナリティＮＣが小さい特徴量は、生体の複雑性や個別性によるばらつきの影響を受けにくい性質をもつといえる。このような特徴量をモデルに組み込めば、生体の複雑性・個別性によるばらつきに起因する誤差を吸収し、モデルの安定性を高める効果を期待できる。

一方、正規化カーディナリティＮＣが大きい特徴量は、生体の複雑性や個別性によるばらつきを精度良く表現できる性質をもつものといえる。このような特徴量をモデルに組み込めば、モデルの精度と表現力を高める効果を期待できる。

したがって、安定性と精度の両方を兼ね備えた信頼性の高いモデルを構築するためには、正規化カーディナリティＮＣの大きい特徴量と小さい特徴量の両方を用いることが望ましいといえる。そこで以下に述べる本実施形態のシステムでは、特徴量の準備段階において、正規化カーディナリティＮＣの大きい特徴量から小さい特徴量までをバランスよく網羅的に準備する、というアプローチを採用する。最初にこのような特徴量候補を準備することで、結果的に、後段の特徴量の選定処理やモデルの構築処理において信頼性の高いモデル構築が可能となる。

＜システム構成＞
図１は、本発明の実施形態に係るモデル構築システムの構成を模式的に示す図である。

モデル構築システムは、概略、正規化カーディナリティＮＣに基づき特徴量候補を作成する特徴量候補作成装置１と、この特徴量候補作成装置１より与えられた特徴量候補に基づき特徴量の選定及びモデル構築を行うモデル作成装置２と、を備える。特徴量候補作成装置１は、特徴量候補作成部１０と特徴量データベース１１とを備え、モデル作成装置２は、モデル準備部２０と特徴量・モデル選定部２１とモデル評価部２２とを備える。

このモデル構築システムは、多数の被検者（サンプル）から得られた計測データや属性データに基づいて、推定対象のモデル（推定式）を自動で生成するシステムである。推定対象としては、たとえば、体脂肪率や内臓脂肪量などの体組成、体温、血圧などのヒトの健康状態を表すものが想定される。計測データとしては、生体から計測される各種の情報、たとえば身長、体重、ウエスト周囲長、生体インピーダンス、温度、心拍などが用いられ、また属性データとしては、たとえば年齢、性別などが用いられる。計測データや属性データと推定対象との因果関係は未知であることが多いため、できるだけ多くの種類のデータを収集することが好ましい。事前に収集された計測データ、属性データは、特徴量データベース１１に格納される。

モデル構築システムは、ハードウエア的には、ＣＰＵ、メモリ、補助記憶装置、表示装置、入力装置などを具備する汎用的なコンピュータにより構成することができる。１台のコンピュータでもよいし複数台のコンピュータにより構成してもよい。そして、上述したモデル構築システムの各機能は、ＣＰＵが補助記憶装置に格納されたプログラムを実行し、必要に応じてハードウエア資源を利用することで実現されるものである。

＜機能及び動作＞
次に、図２のフローチャートを参照しながら、モデル構築システムの各部の機能及びその動作について説明する。図２は、本システムの全体フローを示す図である。

（特徴量候補作成装置：特徴量の準備）
ステップＳ１において、特徴量候補作成部１０は、特徴量データベース１１から計測データや属性データを読み込み、それらのデータから特徴量を算出する。ここでは、計測データ（計測値）や属性データ（属性値）そのものを第一次特徴量とよび、１または複数の計測値から算出される算出値を第二次特徴量とよぶ。たとえば被験者から計測されたウエスト周囲長ｗや生体インピーダンスＺは第一次特徴量であり、それらの次元拡張や組み合わせにより得られる、ｗ^２、１／ｗ、Ｚ・ｗなどは第二次特徴量である。第二次特徴量としてどのようなものを生成するかは、特徴量候補作成部１０に予め設定しておいてもよいし、ランダムにもしくは網羅的に様々な形式の第二次特徴量を生成してもよい。

特徴量候補作成部１０によって算出された特徴量（第一次特徴量、第二次特徴量含む）は、記憶手段たる特徴量データベース１１に格納される。これにより、特徴量データベース１１には、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された（計測、取得もしくは算出された）特徴量の値が用意されることになる。ただし、これらの特徴量は自動的に収集し算出されたにすぎないので、異なる性質のものがバランスよく網羅的に含まれているとは限らないし、すべてを特徴量候補とするには数が多すぎる場合もある。そこで、特徴量候補作成部１０は、次ステップ以降で特徴量候補の作成を行う。

ステップＳ２において、特徴量候補作成部１０は、特徴量データベース１１に格納されている複数種類の特徴量のそれぞれについて、正規化カーディナリティＮＣの値を算出する。なお、本実施形態では、特徴量候補作成部１０のこの機能が本発明の指標値算出手段に該当する。

ステップＳ３において、特徴量候補作成部１０は、複数種類の特徴量から評価対象とする特徴量の組み合わせ（特徴量セット）を選択する。初期の特徴量セットはどのように選んでも良い。たとえば、ランダムに選択してもよいし、ＮＣの値の分散が大きくなるような組み合わせの特徴量を選んだりしてもよい。なお、本実施形態では、特徴量候補作成部１０のこの機能が本発明の評価対象選択手段に該当する。

ステップＳ４において、特徴量候補作成部１０は、ステップＳ３で評価対象として選択された特徴量セットについて、各特徴量の正規化カーディナリティの度数分布の一様性が所定の基準を満たすか否かを評価する。すなわち、横軸をＮＣの値（値域は０〜１）、縦軸を度数（特徴量の数）とするヒストグラム（以下、ＮＣヒストグラムとよぶ。）において、０〜１の値域全体にバランス良く特徴量が分布しているか否か、が評価される。このような評価の方法としては、たとえばコルモゴロフ・スミルノフ検定などを用いることができる。ここでＮＣヒストグラムの一様性が所定の基準を満たす（ＮＣのバランス良好）と評価された場合は、ステップＳ６に進み、所定の基準を満たさない（ＮＣのバランス不良）と評価された場合は、ステップＳ５に進む。なお、本実施形態では、特徴量候補作成部１０のこの機能が本発明の評価手段に該当する。

ステップＳ５において、特徴量候補作成部１０は、評価対象とする特徴量セットを更新する。ＮＣのバランスが良くなるように特徴量セットを更新する手法として、ここでは「特徴量の追加」と「特徴量の分解能の調整」の２つの手法のいずれか又は両方を用いる。

図３は、特徴量の追加の具体的処理を示すフローチャートである。ステップＳ３０において、特徴量候補作成部１０は、特徴量データベース１１内に使用していない（評価中の特徴量セットに含まれていない）特徴量が存在するか否かを調べる。存在する場合は、ステップＳ３１において、それらのＮＣの値を取得する。そしてステップＳ３２において、特徴量候補作成部１０は、現在の評価対象のＮＣヒストグラムにおいて最小の度数を示す部分を特定する。たとえば図４に示すようなＮＣヒストグラムであれば、最小の度数を示す部分はＮＣの値が０．３の部分である。以下、最小の度数を示す部分のＮＣの値をＮＣｂ、最大の度数を示す部分のＮＣの値をＮＣｐとよぶ。特徴量候補作成部１０は、ステップＳ３０で得られた特徴量の中から、ＮＣの値がＮＣｂ±α（αはあらかじめ設定されている値。たとえばα＝０．０５）の範囲に含まれる特徴量を抽出する。ここで抽出された特徴量が少なくとも１つ存在する場合は（ステップＳ３３；ＹＥＳ）、ステップＳ３４において、ＮＣの値がＮＣｂに最も近い特徴量が評価対象たる特徴量セットに追加される。

図５は、特徴量の分解能の調整の具体的処理を示すフローチャートである。ステップＳ４０において、特徴量候補作成部１０は、現在の評価対象のＮＣヒストグラムのＮＣｐとＮＣｂの大きさを比較する。

ＮＣｐ＞ＮＣｂの場合（図６Ａ参照）、ステップＳ４１に進む。ステップＳ４１において、特徴量候補作成部１０は、ＮＣｐの部分に属する特徴量のうち、分解能をβ％粗くすることのできる特徴量を抽出する（βはあらかじめ設定されている値。たとえばβ＝５０％）。ここで、分解能を調整するとは、特徴量のとり得る値（離散値）の刻み幅を変更することをいい、分解能を粗くするとは刻み幅を大きくすることを、分解能を細かくするとは刻み幅を小さくすることをいう。特徴量の値が実数値で与えられている特徴量であれば原則として分解能を任意の幅で調整することができる。ステップＳ４１で抽出された特徴量が少なくとも１つ存在する場合は（ステップＳ４２；ＹＥＳ）、それら特徴量の分解能をβ％粗くした特徴量を用意し（ステップＳ４３）、ステップＳ４７に進む。

一方、ＮＣｐ＜ＮＣｂの場合（図６Ｂ参照）、ステップＳ４４に進む。ステップＳ４４
において、特徴量候補作成部１０は、ＮＣｐの部分に属する特徴量のうち、分解能をβ％細かくすることのできる特徴量を抽出する。抽出された特徴量が少なくとも１つ存在する場合は（ステップＳ４５；ＹＥＳ）、それら特徴量の分解能をβ％細かくした特徴量を用意し（ステップＳ４６）、ステップＳ４７に進む。

ステップＳ４７において、特徴量候補作成部１０は、ステップＳ４３又はステップＳ４６で用意された分解能調整後の特徴量のＮＣを算出する。図７に示すように、分解能を粗くすれば特徴量のとり得る値の数が少なくなるのでＮＣの値は小さくなり、逆に分解能を細かくすれば特徴量のとり得る値の数が多くなるのでＮＣの値は大きくなる。ステップＳ４８では、これらの中から、ＮＣｂに最も近いＮＣの値をもつ特徴量が採用される。

以上述べた「特徴量の追加」又は／及び「特徴量の分解能の調整」の実行により評価対象の特徴量セットが更新されると、ステップＳ４に戻り、更新後の特徴量セットにおけるＮＣのバランス評価が行われる。このステップＳ４及びＳ５の処理（適切な特徴量セットの探索処理）は、ＮＣのバランスが良好と判断されるまで繰り返される。上記特徴量の追加処理では、ＮＣヒストグラムの一様性を高めるのに適切な特徴量が追加対象として選ばれるため、探索処理の効率化を図ることができ、いち早く適切な特徴量候補を決定することができるという利点がある。一方、特徴量の分解能の調整処理では、ＮＣヒストグラムにおける最大度数の部分に該当する特徴量の指標値を小さく又は大きくすることで、度数分布の一様性を高めることができる。この手法は、特徴量データベース１１に記憶されている特徴量のＮＣが偏っている場合や、ＮＣヒストグラムの度数の小さい部分に該当するＮＣをもつ特徴量が特徴量データベース１１の中に存在しない場合など、に有効である。なお、特徴量候補作成部１０のこれらの機能は本発明の評価対象選択手段に該当する。

このようにしてＮＣのバランスが良好な特徴量セットが得られたら、特徴量候補作成部１０は、その特徴量セットをモデル作成装置２に対して与える特徴量候補に決定する（ステップＳ６）。この特徴量候補には、ＮＣの大きい特徴量から小さい特徴量までがバランス良く網羅的に含まれており、後段の特徴量の選定処理やモデルの構築処理において信頼性の高いモデル構築を可能にするものと期待できる。

（モデル作成装置：特徴量の選定及びモデルの構築）
ステップＳ７において、モデル準備部２０は、モデル候補（推定式の候補）を作成する。ここでは、モデル準備部２０は、特徴量候補に含まれる特徴量の全ての組み合わせについて、モデル候補を作成する。ただし、特徴量の数が多すぎて全ての組み合わせを評価するのが現実的でない場合は、選択する特徴量の数を固定するなど（たとえば、特徴量の総数がｎ個、選択する特徴量の数をｍ個としたら、モデル候補の数はｎＣｍ通りに限られる。）、適宜モデル候補の数を限定すればよい。

モデルとしては、単回帰モデルや重回帰モデルなどの線形モデル、ニューラルネットワークやＳＶＭなどの非線形モデルなどがあり、いずれのモデルを用いても構わない。またモデル準備部２０は、与えられた特徴量候補に含まれる特徴量の種類や数などに応じて、使用するモデルの形式を適応的に変えたり、一つの特徴量の組に対して複数の形式のモデル候補を作成してもよい。

ステップＳ８において、モデル準備部２０は、特徴量データベース１１から各特徴量の値を読み込み、各モデル候補の係数を学習する。学習手法には最小二乗法やバックプロパゲーション法などがあり、モデル候補の形式に応じて最適な学習手法を選択すればよい。

次に、ステップＳ７及びＳ８で得られた複数のモデル候補の中から、最適な特徴量・モデルを絞り込む処理が行われる。ここでは、特徴量・モデルの選定のために、ＡＩＣ（Ak
aike Information Criterion）という指標が用いられる。ＡＩＣは、モデルの単純さと既知のデータへの適合性能を両立したモデルを選択するための統計的な基準である。ステップＳ９において、特徴量・モデル選定部２１は、各モデル候補についてＡＩＣを算出する。そして、ステップＳ１０において、ＡＩＣが最も小さいモデル候補が、最適なモデル、つまり単純さと既知のデータへの適合性能を両立したモデルとして選択される。なお、特徴量・モデルを評価するための指標としては、ＡＩＣに限らず、Ｃｐ値などの他の指標を用いても良い。

その後、ステップＳ１１において、モデル評価部２２が、選択されたモデルの性能を評価する。具体的には、検証用のサンプルデータを用いてモデルの推定誤差を求め、その推定誤差が許容範囲内かどうかで当該モデルを採用するか否かを決定する。もし推定誤差が許容範囲を超えていた場合は、ＡＩＣの値が次に小さいモデルを順に評価すればよい。それでも性能目標を満足するモデルが見つからない場合は、特徴量候補を作成し直し若しくは更新するか（ステップＳ３〜Ｓ６）、モデル候補を作成し直すか（ステップＳ７、Ｓ８）すればよい。

以上述べたように、本実施形態の手法では、それぞれの特徴量の性質が正規化カーディナリティにより定量化される。そして、この指標値ＮＣの度数分布がある程度一様になるよう特徴量の候補が選定される。これにより、特徴量候補として、様々な性質の特徴量がバランス良く網羅的に揃えられることになる。そして、このような特徴量候補に基づいてモデル構築を行うことで、モデルの精度や安定性の向上を期待できる。

＜実施例：評価実験＞
正規化カーディナリティＮＣを考慮して特徴量を選択することの有効性を検証するため、採用した特徴量のＮＣの傾向が異なる３つのモデル（推定式）を用意し、各モデルの推定精度および安定性を評価した。

１．推定式
用意した推定式は下記のとおり。なお、これらの推定式は、ヒトから計測または取得された特徴量に基づいて内臓脂肪面積を推定するためのモデルである。それぞれの特徴量の意味については省略する。

（方式１）
方式１は、先行研究において提案されている推定式である。下記式において「ＮＣ（ｘ）」は特徴量ｘのＮＣの値を表している。

（方式２）
方式２は、上述した実施形態のモデル構築システムにより構築した推定式である。下記式には、ＮＣの大きい特徴量からＮＣの小さい特徴量まで網羅的に含まれている。

（方式３）
方式３は、方式２の推定式からＮＣの小さい特徴量Ａ，Ｓを除去した推定式である。すなわち、方式３はＮＣの大きい特徴量のみから構成される推定式となる。

２．評価指標
本評価実験では、各推定式の推定精度の高さと安定性を評価するための指標として、相関係数と誤差標準偏差を用いる。また、推定式の安定性を評価するための指標として、回帰係数の標準偏差を用いる。以下に、これらの評価指標の詳細について示す。

（相関係数）
任意の推定式による内臓脂肪面積の推定値とＭＲＩより得られる真値の相関をピアソンの積率相関係数により算出することで、未知の個体に対する表現性能、すなわち内臓脂肪
面積が小さい個体から大きい個体まで、高い推定精度を確保できるか否かを評価する。

（誤差標準偏差）
任意の推定式による推定値とＭＲＩより得られる実測値との誤差の標準偏差（以下、誤差ＳＤという）により、未知の個体に対する推定精度の安定性を評価する。

（回帰係数の標準偏差）
学習用データセットを複数準備しておき、任意の推定式の回帰係数を学習したときの、回帰係数の標準偏差により、学習用データにおける個体差に対する推定式の安定性を評価する。

３．実験方法
方式１、２、３の比較評価を行うにあたり、交差検証を実施する。次に手順を示す。

（１）学習用データ群と検証用データ群を作るために、特徴量データベース１１に格納された被験者群のデータをランダムに２群に分割する。なお本実験では学習用データ群と検証用データ群の個体数を同数とした。
（２）一方のデータ群で推定式の回帰係数の学習を行う。
（３）他方のデータ群を用いて、各推定式から推定値を算出する。
（４）推定値とＭＲＩによる実測値との相関係数、および誤差ＳＤの算出を行う。
（５）推定式の安定性を検証するために、（１）〜（４）を複数回実施する。本実験では実施回数を１０回とした。

４．評価結果
１０回の試行における各方式による推定値と実測値の相関係数の推移を図８に、誤差ＳＤの推移を図９に示す。

図８より、方式２および方式３の内臓脂肪面積の表現性能が、従来手法である方式１よりも高くなったことがわかる。また、図９より、未知の生体に対する推定精度の安定性についても同様のことが確認できた。

ここで、方式２および方式３は、方式１に比べ、ＮＣの大きい特徴量を多く含んでいる。すなわち、推定式にＮＣの大きい特徴量を導入することによって、推定精度が向上することが確認できた。

また、図１０に評価実験で行った１０回の試行で得られた各推定式の特徴量に対応する回帰係数の平均と標準偏差を示す。図１０にて、方式２と方式３において共通して含まれる特徴量に対する回帰係数の標準偏差を比較すると、方式２の各回帰係数の標準偏差は、方式３よりも９〜４８％小さくなっていた。よって、方式２は方式３に比べ、安定して推定式を構築できているといえる。すなわち、推定式にＮＣの小さい特徴量を導入することによって、推定式の安定性が向上することが確認できた。

以上の結果から、本実施形態の手法を用いて特徴量を準備・選定することにより、高精度な推定式を安定的に構築することができることがわかる。

図１は、本発明の実施形態に係るモデル構築システムの構成を模式的に示す図である。図２は、本システムの全体フローを示す図である。図３は、特徴量の追加の具体的処理を示すフローチャートである。図４は、特徴量の追加処理を説明するためのＮＣヒストグラムである。図５は、特徴量の分解能の調整の具体的処理を示すフローチャートである。図６Ａ及び図６Ｂは、特徴量の分解能の調整処理を説明するためのＮＣヒストグラムである。図７は、特徴量の分解能の調整処理を説明するための図である。図８は、相関係数の推移を示す図である。図９は、誤差ＳＤの推移を示す図である。図１０は、方式ごとの回帰係数の平均と標準偏差を示す表である。

符号の説明

１特徴量候補作成装置
１０特徴量候補作成部
１１特徴量データベース
２モデル作成装置
２０モデル準備部
２１特徴量・モデル選定部
２２モデル評価部

Claims

与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成装置であって、
複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段と、
前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出手段と、
前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択手段と、
前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価手段と、
前記評価手段により前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定手段と、
を備えることを特徴とする特徴量候補作成装置。
前記所定の基準を満たす特徴量の組み合わせを発見するために、前記評価対象選択手段による評価対象の更新と、前記評価手段による前記更新された評価対象の評価とが繰り返されることを特徴とする請求項１に記載の特徴量候補作成装置。
前記評価対象選択手段は、前記複数種類の特徴量のうち前記評価対象に含まれていない特徴量を前記評価対象に追加することにより、前記評価対象を更新するものであり、
前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最小の度数を示す部分を特定し、その最小の度数を示す部分に該当する指標値を有する特徴量を、前記評価対象に追加する特徴量として選ぶことを特徴とする請求項２に記載の特徴量候補作成装置。
前記評価対象選択手段は、前記評価対象に含まれる特徴量のうち少なくともいずれかの特徴量の値の分解能を変更することにより、前記評価対象を更新するものであり、
前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最大の度数を示す部分を特定し、その最大の度数を示す部分に該当する指標値を有する特徴量の分解能を変更することを特徴とする請求項２または３に記載の特徴量候補作成装置。
与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成方法であって、
複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータが、
前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、
前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、
前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、
前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、
を実行することを特徴とする特徴量候補作成方法。
与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成プログラムであって、
複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータに、
前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、
前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、
前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、
前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、
を実行させることを特徴とする特徴量候補作成プログラム。