JP4254892B1 - 特徴量候補作成装置および特徴量候補作成方法 - Google Patents

特徴量候補作成装置および特徴量候補作成方法 Download PDF

Info

Publication number
JP4254892B1
JP4254892B1 JP2007285178A JP2007285178A JP4254892B1 JP 4254892 B1 JP4254892 B1 JP 4254892B1 JP 2007285178 A JP2007285178 A JP 2007285178A JP 2007285178 A JP2007285178 A JP 2007285178A JP 4254892 B1 JP4254892 B1 JP 4254892B1
Authority
JP
Japan
Prior art keywords
feature
feature quantity
evaluation
model
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007285178A
Other languages
English (en)
Other versions
JP2009112330A (ja
Inventor
光宏 米田
宏 中嶋
直樹 土屋
博 田▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2007285178A priority Critical patent/JP4254892B1/ja
Priority to PCT/JP2008/069951 priority patent/WO2009057778A1/ja
Priority to US12/740,336 priority patent/US8630823B2/en
Priority to CN2008801128560A priority patent/CN101835421B/zh
Application granted granted Critical
Publication of JP4254892B1 publication Critical patent/JP4254892B1/ja
Publication of JP2009112330A publication Critical patent/JP2009112330A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】複雑性と個別性を有する対象物のモデル構築に特に有効となる、性質の異なる特徴量の候補を効率的に準備することを可能とする技術を提供する。
【解決手段】複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段と、特徴量の値の種類の数をサンプルの数で正規化することにより得られる指標値を、複数種類の特徴量のそれぞれについて算出する指標値算出手段と、複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択手段と、評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価手段と、評価手段により所定の基準を満たすと評価された特徴量の組み合わせを、モデル作成装置に対して与える特徴量候補に決定する候補決定手段と、を備える特徴量候補作成装置。
【選択図】図2

Description

本発明は、モデル構築の基礎となる特徴量を準備するための技術に関する。
疾病予防および健康の維持・増進のためには、ヒトの健康状態(体温、血圧、体脂肪などが正常範囲内かどうか)を把握する必要がある。しかし健康状態を直接計測することは困難であるため、各種健康機器では、計測で得られる何らかの生体情報を基にヒトの健康状態を推定するモデルが組み込まれている。たとえば、電子体温計には、脇の下で計測された温度から体温を推定するモデルが組み込まれている。血圧計には、腕に加えた圧力および計測された音から血圧を推定するモデルが組み込まれている。また体組成計には、体重、身長、年齢、性別、生体インピーダンスから体脂肪率などの体組成を推定するモデルが組み込まれている。
この種のモデルは、ヒトから得られる各種特徴量を変量とする推定式で表現されるのが一般的である。モデルを構築する際には、(1)まず多数の被検者からデータを計測・収集し、特徴量を準備する。特徴量には、計測によって得られる計測値のほか、1または複数の計測値から算出される算出値、性別のような被験者の属性値なども含まれる。そして次に、(2)準備された特徴量の中から、モデルの構築に用いる特徴量を選定し、(3)選定された特徴量を用いてモデルを構築する。
(2)特徴量の選定と(3)モデルの構築に関しては、従来から様々な手法が研究、提案されている。(2)に関連する既存手法としては、たとえば、特徴量間の意味の類似性、特徴量による情報分割のされ方において類似性の高い特徴量を排除する手法(特許文献1参照)、複数の特徴量における平均相互情報量を用いて情報量を評価する手法(特許文献2参照)、予測誤差を用いて特徴量の組み合わせの良さを評価する手法(特許文献3参照)などがある。また(3)に関連する既存手法としては、線形モデル(単回帰モデル、重回帰モデル)や、非線形モデル(ニューラルネットワーク、SVM(Support Vector Machine))などがある。
特開平11−126212号公報 特開平4−84277号公報 特開平9−81731号公報
ヒト(生体)は「複雑性」と「個別性」という特殊な構造的性質を有している。生体の複雑性とは、生体が筋肉、骨、脂肪などの様々な要素から構成されていることを意味し、また生体の個別性とは、生体を構成する各要素の特性に個体差によるばらつきが存在することを意味する。このように生体の複雑性および個別性が存在する以上、生体から計測される情報は、体内の様々な構成要素のばらつきの影響を受けた複合量となる。しかも、その情報に含まれるばらつきには、目的とする推定対象(たとえば体脂肪率)に関与するばらつきと、関与しないばらつきという特性の異なるばらつきが存在すると考えられる。このようなばらつきの特性を考慮したモデル構築は極めて難しい。
かかる課題に対して、本発明者らは、上記(1)の特徴量の準備段階において、複雑性と個別性の各性質を網羅するように特徴量のバリエーションを確保することによって、精度および信頼性の高いモデル構築が可能になるのではないか、との着想を得た。すなわち、生体の複雑性や個別性によるばらつきに対して敏感に反応する特徴量と、生体の複雑性
や個別性によるばらつきの影響を受けにくい特徴量といった性質の異なる特徴量を網羅的に準備するのである。
しかしながら、従来は特徴量の性質を定量的に評価する有効な手法がなかったために、推定対象に対する先見知識に基づいて試行錯誤的に特徴量を準備するなどの非効率的な手法しかとれなかった。
本発明は上記実情に鑑みてなされたものであって、その目的とするところは、複雑性と個別性を有する対象物のモデル構築に特に有効となる、性質の異なる特徴量の候補を効率的に準備することを可能とする技術を提供することにある。
上記目的を達成するために本発明は、以下の構成を採用する。
本発明は、与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成装置であって、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段と、前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出手段と、前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択手段と、前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価手段と、前記評価手段により前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定手段と、を備える。
本発明では、それぞれの特徴量の性質を「特徴量の値の種類の数をサンプルの数で正規化することにより得られる指標値」を用いて定量化する。そして、この指標値の度数分布がある程度一様になるよう特徴量の候補が選定される。これにより、特徴量候補として、様々な性質の特徴量がバランス良く網羅的に揃えられることになる。そして、このような特徴量候補に基づいてモデル構築を行うことで、モデルの精度や性能の向上を期待できる。
本発明において、前記所定の基準を満たす特徴量の組み合わせを発見するために、前記評価対象選択手段による評価対象の更新と、前記評価手段による前記更新された評価対象の評価とが繰り返されることが好ましい。
このような探索処理を実行することにより、多数の特徴量の中から最適または好適な特徴量の組み合わせを自動的に選び出すことができる。探索処理の具体的手法については、総当たりでもよいし、既存の探索アルゴリズムを適用してもよい。
たとえば、前記評価対象選択手段は、前記複数種類の特徴量のうち前記評価対象に含まれていない特徴量を前記評価対象に追加することにより、前記評価対象を更新するものであるとよい。このとき、前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最小の度数を示す部分を特定し、その最小の度数を示す部分に該当する指標値を有する特徴量を、前記評価対象に追加する特徴量として選ぶとよい。
これにより、度数分布の一様性を高めるのに適切な特徴量が追加対象として選ばれるため、探索処理の効率化を図ることができ、いち早く適切な特徴量候補を決定することができる。
また、前記評価対象選択手段は、前記評価対象に含まれる特徴量のうち少なくともいずれかの特徴量の値の分解能を変更することにより、前記評価対象を更新するものであってもよい。このとき、前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最大の度数を示す部分を特定し、その最大の度数を示す部分に該当する指標値を有する特徴量の分解能を変更するとよい。
特徴量の値の分解能を粗くすれば指標値は小さくなり、分解能を細かくすれば指標値は大きくなる。最大の度数を示す部分に該当する指標値を有する特徴量の分解能を変更し、その指標値を小さく又は大きくすることで、度数分布の一様性を高めることができる。この手法は、記憶手段に記憶されている複数種類の特徴量の指標値が偏っている場合や、度数の小さい部分に該当する指標値をもつ特徴量が記憶手段の中に存在しない場合など、に有効である。
本発明は、上記手段の少なくとも一部を有する特徴量候補作成装置として捉えてもよいし、上記特徴量候補作成装置と上記モデル作成装置とを備えるモデル構築システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む特徴量候補作成方法、または、かかる方法を実現するためのプログラムやそのプログラムを記録したコンピュータ読み取り可能な記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
たとえば、本発明に係る特徴量候補作成方法は、与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成方法であって、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータが、前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、を実行することを特徴とする特徴量候補作成方法である。
また、本発明に係る特徴量候補作成プログラムは、与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成プログラムであって、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータに、前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、を実行させることを特徴とする特徴量候補作成プログラムである。
本発明によれば、複雑性と個別性を有する対象物のモデル構築に有効となる、性質の異なる特徴量の候補を効率的に準備することが可能である。
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。
<特徴量の評価指標>
生体の複雑性と個別性に対応すべく性質の異なる特徴量を網羅的に準備しようとしても、従来は特徴量の性質を定量的に評価するための有効な手法がなかったために、試行錯誤的に特徴量を峻別し準備するしか方法がなく、非常に非効率的であった。
そこで本実施形態では、カーディナリティ(濃度)という概念を導入する。カーディナリティとは集合の要素数を表す概念であり、特徴量が持ちうる濃度、すなわち、特徴量の値の種類の数を表す指標である。たとえば、5人の被験者から次のような特徴量が得られたとする。
(1)性別:男、身長:170cm、体重59kg
(2)性別:男、身長:173cm、体重65kg
(3)性別:男、身長:168cm、体重65kg
(4)性別:女、身長:152cm、体重42kg
(5)性別:女、身長:159cm、体重50kg
このサンプルにおいて、特徴量「性別」の要素は「男」と「女」であり、そのカーディナリティは「2」となる。また特徴量「身長」のカーディナリティは「5」であり、「体重」のカーディナリティは「4」である。このカーディナリティという概念を用いることで、ばらつきに対する各特徴量の表現能力を定量化することができる。
しかし、このカーディナリティの値は、集合の規模、すなわちサンプルデータの数に影響を受けるという問題がある。たとえば、「身長」のように個々人によって値が異なる可能性の高い特徴量の場合は、サンプルデータが増えるとともにカーディナリティの値も大きくなる。そこで、本実施形態では、下記式に示すように、カーディナリティをサンプルの数で正規化することにより得られるNC(正規化カーディナリティ;Normalized Cardinality)という評価指標を定義する。下記式から明らかなようにNCの定義域(値域)は0<NC≦1となる。
NC=(カーディナリティ)/(サンプルデータ数)
正規化カーディナリティNCが小さい特徴量は、生体の複雑性や個別性によるばらつきの影響を受けにくい性質をもつといえる。このような特徴量をモデルに組み込めば、生体の複雑性・個別性によるばらつきに起因する誤差を吸収し、モデルの安定性を高める効果を期待できる。
一方、正規化カーディナリティNCが大きい特徴量は、生体の複雑性や個別性によるばらつきを精度良く表現できる性質をもつものといえる。このような特徴量をモデルに組み込めば、モデルの精度と表現力を高める効果を期待できる。
したがって、安定性と精度の両方を兼ね備えた信頼性の高いモデルを構築するためには、正規化カーディナリティNCの大きい特徴量と小さい特徴量の両方を用いることが望ましいといえる。そこで以下に述べる本実施形態のシステムでは、特徴量の準備段階において、正規化カーディナリティNCの大きい特徴量から小さい特徴量までをバランスよく網羅的に準備する、というアプローチを採用する。最初にこのような特徴量候補を準備することで、結果的に、後段の特徴量の選定処理やモデルの構築処理において信頼性の高いモデル構築が可能となる。
<システム構成>
図1は、本発明の実施形態に係るモデル構築システムの構成を模式的に示す図である。
モデル構築システムは、概略、正規化カーディナリティNCに基づき特徴量候補を作成する特徴量候補作成装置1と、この特徴量候補作成装置1より与えられた特徴量候補に基づき特徴量の選定及びモデル構築を行うモデル作成装置2と、を備える。特徴量候補作成装置1は、特徴量候補作成部10と特徴量データベース11とを備え、モデル作成装置2は、モデル準備部20と特徴量・モデル選定部21とモデル評価部22とを備える。
このモデル構築システムは、多数の被検者(サンプル)から得られた計測データや属性データに基づいて、推定対象のモデル(推定式)を自動で生成するシステムである。推定対象としては、たとえば、体脂肪率や内臓脂肪量などの体組成、体温、血圧などのヒトの健康状態を表すものが想定される。計測データとしては、生体から計測される各種の情報、たとえば身長、体重、ウエスト周囲長、生体インピーダンス、温度、心拍などが用いられ、また属性データとしては、たとえば年齢、性別などが用いられる。計測データや属性データと推定対象との因果関係は未知であることが多いため、できるだけ多くの種類のデータを収集することが好ましい。事前に収集された計測データ、属性データは、特徴量データベース11に格納される。
モデル構築システムは、ハードウエア的には、CPU、メモリ、補助記憶装置、表示装置、入力装置などを具備する汎用的なコンピュータにより構成することができる。1台のコンピュータでもよいし複数台のコンピュータにより構成してもよい。そして、上述したモデル構築システムの各機能は、CPUが補助記憶装置に格納されたプログラムを実行し、必要に応じてハードウエア資源を利用することで実現されるものである。
<機能及び動作>
次に、図2のフローチャートを参照しながら、モデル構築システムの各部の機能及びその動作について説明する。図2は、本システムの全体フローを示す図である。
(特徴量候補作成装置:特徴量の準備)
ステップS1において、特徴量候補作成部10は、特徴量データベース11から計測データや属性データを読み込み、それらのデータから特徴量を算出する。ここでは、計測データ(計測値)や属性データ(属性値)そのものを第一次特徴量とよび、1または複数の計測値から算出される算出値を第二次特徴量とよぶ。たとえば被験者から計測されたウエスト周囲長wや生体インピーダンスZは第一次特徴量であり、それらの次元拡張や組み合わせにより得られる、w、1/w、Z・wなどは第二次特徴量である。第二次特徴量としてどのようなものを生成するかは、特徴量候補作成部10に予め設定しておいてもよいし、ランダムにもしくは網羅的に様々な形式の第二次特徴量を生成してもよい。
特徴量候補作成部10によって算出された特徴量(第一次特徴量、第二次特徴量含む)は、記憶手段たる特徴量データベース11に格納される。これにより、特徴量データベース11には、複数種類の特徴量について、複数のサンプルのそれぞれから抽出された(計測、取得もしくは算出された)特徴量の値が用意されることになる。ただし、これらの特徴量は自動的に収集し算出されたにすぎないので、異なる性質のものがバランスよく網羅的に含まれているとは限らないし、すべてを特徴量候補とするには数が多すぎる場合もある。そこで、特徴量候補作成部10は、次ステップ以降で特徴量候補の作成を行う。
ステップS2において、特徴量候補作成部10は、特徴量データベース11に格納されている複数種類の特徴量のそれぞれについて、正規化カーディナリティNCの値を算出する。なお、本実施形態では、特徴量候補作成部10のこの機能が本発明の指標値算出手段に該当する。
ステップS3において、特徴量候補作成部10は、複数種類の特徴量から評価対象とする特徴量の組み合わせ(特徴量セット)を選択する。初期の特徴量セットはどのように選んでも良い。たとえば、ランダムに選択してもよいし、NCの値の分散が大きくなるような組み合わせの特徴量を選んだりしてもよい。なお、本実施形態では、特徴量候補作成部10のこの機能が本発明の評価対象選択手段に該当する。
ステップS4において、特徴量候補作成部10は、ステップS3で評価対象として選択された特徴量セットについて、各特徴量の正規化カーディナリティの度数分布の一様性が所定の基準を満たすか否かを評価する。すなわち、横軸をNCの値(値域は0〜1)、縦軸を度数(特徴量の数)とするヒストグラム(以下、NCヒストグラムとよぶ。)において、0〜1の値域全体にバランス良く特徴量が分布しているか否か、が評価される。このような評価の方法としては、たとえばコルモゴロフ・スミルノフ検定などを用いることができる。ここでNCヒストグラムの一様性が所定の基準を満たす(NCのバランス良好)と評価された場合は、ステップS6に進み、所定の基準を満たさない(NCのバランス不良)と評価された場合は、ステップS5に進む。なお、本実施形態では、特徴量候補作成部10のこの機能が本発明の評価手段に該当する。
ステップS5において、特徴量候補作成部10は、評価対象とする特徴量セットを更新する。NCのバランスが良くなるように特徴量セットを更新する手法として、ここでは「特徴量の追加」と「特徴量の分解能の調整」の2つの手法のいずれか又は両方を用いる。
図3は、特徴量の追加の具体的処理を示すフローチャートである。ステップS30において、特徴量候補作成部10は、特徴量データベース11内に使用していない(評価中の特徴量セットに含まれていない)特徴量が存在するか否かを調べる。存在する場合は、ステップS31において、それらのNCの値を取得する。そしてステップS32において、特徴量候補作成部10は、現在の評価対象のNCヒストグラムにおいて最小の度数を示す部分を特定する。たとえば図4に示すようなNCヒストグラムであれば、最小の度数を示す部分はNCの値が0.3の部分である。以下、最小の度数を示す部分のNCの値をNCb、最大の度数を示す部分のNCの値をNCpとよぶ。特徴量候補作成部10は、ステップS30で得られた特徴量の中から、NCの値がNCb±α(αはあらかじめ設定されている値。たとえばα=0.05)の範囲に含まれる特徴量を抽出する。ここで抽出された特徴量が少なくとも1つ存在する場合は(ステップS33;YES)、ステップS34において、NCの値がNCbに最も近い特徴量が評価対象たる特徴量セットに追加される。
図5は、特徴量の分解能の調整の具体的処理を示すフローチャートである。ステップS40において、特徴量候補作成部10は、現在の評価対象のNCヒストグラムのNCpとNCbの大きさを比較する。
NCp>NCbの場合(図6A参照)、ステップS41に進む。ステップS41において、特徴量候補作成部10は、NCpの部分に属する特徴量のうち、分解能をβ%粗くすることのできる特徴量を抽出する(βはあらかじめ設定されている値。たとえばβ=50%)。ここで、分解能を調整するとは、特徴量のとり得る値(離散値)の刻み幅を変更することをいい、分解能を粗くするとは刻み幅を大きくすることを、分解能を細かくするとは刻み幅を小さくすることをいう。特徴量の値が実数値で与えられている特徴量であれば原則として分解能を任意の幅で調整することができる。ステップS41で抽出された特徴量が少なくとも1つ存在する場合は(ステップS42;YES)、それら特徴量の分解能をβ%粗くした特徴量を用意し(ステップS43)、ステップS47に進む。
一方、NCp<NCbの場合(図6B参照)、ステップS44に進む。ステップS44
において、特徴量候補作成部10は、NCpの部分に属する特徴量のうち、分解能をβ%細かくすることのできる特徴量を抽出する。抽出された特徴量が少なくとも1つ存在する場合は(ステップS45;YES)、それら特徴量の分解能をβ%細かくした特徴量を用意し(ステップS46)、ステップS47に進む。
ステップS47において、特徴量候補作成部10は、ステップS43又はステップS46で用意された分解能調整後の特徴量のNCを算出する。図7に示すように、分解能を粗くすれば特徴量のとり得る値の数が少なくなるのでNCの値は小さくなり、逆に分解能を細かくすれば特徴量のとり得る値の数が多くなるのでNCの値は大きくなる。ステップS48では、これらの中から、NCbに最も近いNCの値をもつ特徴量が採用される。
以上述べた「特徴量の追加」又は/及び「特徴量の分解能の調整」の実行により評価対象の特徴量セットが更新されると、ステップS4に戻り、更新後の特徴量セットにおけるNCのバランス評価が行われる。このステップS4及びS5の処理(適切な特徴量セットの探索処理)は、NCのバランスが良好と判断されるまで繰り返される。上記特徴量の追加処理では、NCヒストグラムの一様性を高めるのに適切な特徴量が追加対象として選ばれるため、探索処理の効率化を図ることができ、いち早く適切な特徴量候補を決定することができるという利点がある。一方、特徴量の分解能の調整処理では、NCヒストグラムにおける最大度数の部分に該当する特徴量の指標値を小さく又は大きくすることで、度数分布の一様性を高めることができる。この手法は、特徴量データベース11に記憶されている特徴量のNCが偏っている場合や、NCヒストグラムの度数の小さい部分に該当するNCをもつ特徴量が特徴量データベース11の中に存在しない場合など、に有効である。なお、特徴量候補作成部10のこれらの機能は本発明の評価対象選択手段に該当する。
このようにしてNCのバランスが良好な特徴量セットが得られたら、特徴量候補作成部10は、その特徴量セットをモデル作成装置2に対して与える特徴量候補に決定する(ステップS6)。この特徴量候補には、NCの大きい特徴量から小さい特徴量までがバランス良く網羅的に含まれており、後段の特徴量の選定処理やモデルの構築処理において信頼性の高いモデル構築を可能にするものと期待できる。
(モデル作成装置:特徴量の選定及びモデルの構築)
ステップS7において、モデル準備部20は、モデル候補(推定式の候補)を作成する。ここでは、モデル準備部20は、特徴量候補に含まれる特徴量の全ての組み合わせについて、モデル候補を作成する。ただし、特徴量の数が多すぎて全ての組み合わせを評価するのが現実的でない場合は、選択する特徴量の数を固定するなど(たとえば、特徴量の総数がn個、選択する特徴量の数をm個としたら、モデル候補の数はnCm通りに限られる。)、適宜モデル候補の数を限定すればよい。
モデルとしては、単回帰モデルや重回帰モデルなどの線形モデル、ニューラルネットワークやSVMなどの非線形モデルなどがあり、いずれのモデルを用いても構わない。またモデル準備部20は、与えられた特徴量候補に含まれる特徴量の種類や数などに応じて、使用するモデルの形式を適応的に変えたり、一つの特徴量の組に対して複数の形式のモデル候補を作成してもよい。
ステップS8において、モデル準備部20は、特徴量データベース11から各特徴量の値を読み込み、各モデル候補の係数を学習する。学習手法には最小二乗法やバックプロパゲーション法などがあり、モデル候補の形式に応じて最適な学習手法を選択すればよい。
次に、ステップS7及びS8で得られた複数のモデル候補の中から、最適な特徴量・モデルを絞り込む処理が行われる。ここでは、特徴量・モデルの選定のために、AIC(Ak
aike Information Criterion)という指標が用いられる。AICは、モデルの単純さと既知のデータへの適合性能を両立したモデルを選択するための統計的な基準である。ステップS9において、特徴量・モデル選定部21は、各モデル候補についてAICを算出する。そして、ステップS10において、AICが最も小さいモデル候補が、最適なモデル、つまり単純さと既知のデータへの適合性能を両立したモデルとして選択される。なお、特徴量・モデルを評価するための指標としては、AICに限らず、Cp値などの他の指標を用いても良い。
その後、ステップS11において、モデル評価部22が、選択されたモデルの性能を評価する。具体的には、検証用のサンプルデータを用いてモデルの推定誤差を求め、その推定誤差が許容範囲内かどうかで当該モデルを採用するか否かを決定する。もし推定誤差が許容範囲を超えていた場合は、AICの値が次に小さいモデルを順に評価すればよい。それでも性能目標を満足するモデルが見つからない場合は、特徴量候補を作成し直し若しくは更新するか(ステップS3〜S6)、モデル候補を作成し直すか(ステップS7、S8)すればよい。
以上述べたように、本実施形態の手法では、それぞれの特徴量の性質が正規化カーディナリティにより定量化される。そして、この指標値NCの度数分布がある程度一様になるよう特徴量の候補が選定される。これにより、特徴量候補として、様々な性質の特徴量がバランス良く網羅的に揃えられることになる。そして、このような特徴量候補に基づいてモデル構築を行うことで、モデルの精度や安定性の向上を期待できる。
<実施例:評価実験>
正規化カーディナリティNCを考慮して特徴量を選択することの有効性を検証するため、採用した特徴量のNCの傾向が異なる3つのモデル(推定式)を用意し、各モデルの推定精度および安定性を評価した。
1.推定式
用意した推定式は下記のとおり。なお、これらの推定式は、ヒトから計測または取得された特徴量に基づいて内臓脂肪面積を推定するためのモデルである。それぞれの特徴量の意味については省略する。
(方式1)
方式1は、先行研究において提案されている推定式である。下記式において「NC(x)」は特徴量xのNCの値を表している。
Figure 0004254892
(方式2)
方式2は、上述した実施形態のモデル構築システムにより構築した推定式である。下記式には、NCの大きい特徴量からNCの小さい特徴量まで網羅的に含まれている。
Figure 0004254892
(方式3)
方式3は、方式2の推定式からNCの小さい特徴量A,Sを除去した推定式である。すなわち、方式3はNCの大きい特徴量のみから構成される推定式となる。
Figure 0004254892
2.評価指標
本評価実験では、各推定式の推定精度の高さと安定性を評価するための指標として、相関係数と誤差標準偏差を用いる。また、推定式の安定性を評価するための指標として、回帰係数の標準偏差を用いる。以下に、これらの評価指標の詳細について示す。
(相関係数)
任意の推定式による内臓脂肪面積の推定値とMRIより得られる真値の相関をピアソンの積率相関係数により算出することで、未知の個体に対する表現性能、すなわち内臓脂肪
面積が小さい個体から大きい個体まで、高い推定精度を確保できるか否かを評価する。
(誤差標準偏差)
任意の推定式による推定値とMRIより得られる実測値との誤差の標準偏差(以下、誤差SDという)により、未知の個体に対する推定精度の安定性を評価する。
(回帰係数の標準偏差)
学習用データセットを複数準備しておき、任意の推定式の回帰係数を学習したときの、回帰係数の標準偏差により、学習用データにおける個体差に対する推定式の安定性を評価する。
3.実験方法
方式1、2、3の比較評価を行うにあたり、交差検証を実施する。次に手順を示す。
(1)学習用データ群と検証用データ群を作るために、特徴量データベース11に格納された被験者群のデータをランダムに2群に分割する。なお本実験では学習用データ群と検証用データ群の個体数を同数とした。
(2)一方のデータ群で推定式の回帰係数の学習を行う。
(3)他方のデータ群を用いて、各推定式から推定値を算出する。
(4)推定値とMRIによる実測値との相関係数、および誤差SDの算出を行う。
(5)推定式の安定性を検証するために、(1)〜(4)を複数回実施する。本実験では実施回数を10回とした。
4.評価結果
10回の試行における各方式による推定値と実測値の相関係数の推移を図8に、誤差SDの推移を図9に示す。
図8より、方式2および方式3の内臓脂肪面積の表現性能が、従来手法である方式1よりも高くなったことがわかる。また、図9より、未知の生体に対する推定精度の安定性についても同様のことが確認できた。
ここで、方式2および方式3は、方式1に比べ、NCの大きい特徴量を多く含んでいる。すなわち、推定式にNCの大きい特徴量を導入することによって、推定精度が向上することが確認できた。
また、図10に評価実験で行った10回の試行で得られた各推定式の特徴量に対応する回帰係数の平均と標準偏差を示す。図10にて、方式2と方式3において共通して含まれる特徴量に対する回帰係数の標準偏差を比較すると、方式2の各回帰係数の標準偏差は、方式3よりも9〜48%小さくなっていた。よって、方式2は方式3に比べ、安定して推定式を構築できているといえる。すなわち、推定式にNCの小さい特徴量を導入することによって、推定式の安定性が向上することが確認できた。
以上の結果から、本実施形態の手法を用いて特徴量を準備・選定することにより、高精度な推定式を安定的に構築することができることがわかる。
図1は、本発明の実施形態に係るモデル構築システムの構成を模式的に示す図である。 図2は、本システムの全体フローを示す図である。 図3は、特徴量の追加の具体的処理を示すフローチャートである。 図4は、特徴量の追加処理を説明するためのNCヒストグラムである。 図5は、特徴量の分解能の調整の具体的処理を示すフローチャートである。 図6A及び図6Bは、特徴量の分解能の調整処理を説明するためのNCヒストグラムである。 図7は、特徴量の分解能の調整処理を説明するための図である。 図8は、相関係数の推移を示す図である。 図9は、誤差SDの推移を示す図である。 図10は、方式ごとの回帰係数の平均と標準偏差を示す表である。
符号の説明
1 特徴量候補作成装置
10 特徴量候補作成部
11 特徴量データベース
2 モデル作成装置
20 モデル準備部
21 特徴量・モデル選定部
22 モデル評価部

Claims (6)

  1. 与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成装置であって、
    複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段と、
    前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出手段と、
    前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択手段と、
    前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価手段と、
    前記評価手段により前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定手段と、
    を備えることを特徴とする特徴量候補作成装置。
  2. 前記所定の基準を満たす特徴量の組み合わせを発見するために、前記評価対象選択手段による評価対象の更新と、前記評価手段による前記更新された評価対象の評価とが繰り返されることを特徴とする請求項1に記載の特徴量候補作成装置。
  3. 前記評価対象選択手段は、前記複数種類の特徴量のうち前記評価対象に含まれていない特徴量を前記評価対象に追加することにより、前記評価対象を更新するものであり、
    前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最小の度数を示す部分を特定し、その最小の度数を示す部分に該当する指標値を有する特徴量を、前記評価対象に追加する特徴量として選ぶことを特徴とする請求項2に記載の特徴量候補作成装置。
  4. 前記評価対象選択手段は、前記評価対象に含まれる特徴量のうち少なくともいずれかの特徴量の値の分解能を変更することにより、前記評価対象を更新するものであり、
    前記評価対象選択手段は、前記評価対象に含まれる特徴量の指標値の度数分布において最大の度数を示す部分を特定し、その最大の度数を示す部分に該当する指標値を有する特徴量の分解能を変更することを特徴とする請求項2または3に記載の特徴量候補作成装置。
  5. 与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成方法であって、
    複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータが、
    前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、
    前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、
    前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、
    前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、
    を実行することを特徴とする特徴量候補作成方法。
  6. 与えられた特徴量候補の中から選択した複数の特徴量を用いてモデルを構築するモデル作成装置に対して、与えるべき特徴量候補を作成するための特徴量候補作成プログラムであって、
    複数種類の特徴量について、複数のサンプルのそれぞれから抽出された特徴量の値を記憶している記憶手段を備えるコンピュータに、
    前記特徴量の値の種類の数を前記サンプルの数で正規化することにより得られる指標値を、前記複数種類の特徴量のそれぞれについて算出する指標値算出ステップと、
    前記複数種類の特徴量から評価対象とする特徴量の組み合わせを選択する評価対象選択ステップと、
    前記評価対象として選択された特徴量の組み合わせについて、各特徴量の指標値の度数分布の一様性が所定の基準を満たすか否かを評価する評価ステップと、
    前記評価ステップにより前記所定の基準を満たすと評価された特徴量の組み合わせを、前記モデル作成装置に対して与える特徴量候補に決定する候補決定ステップと、
    を実行させることを特徴とする特徴量候補作成プログラム。
JP2007285178A 2007-11-01 2007-11-01 特徴量候補作成装置および特徴量候補作成方法 Active JP4254892B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007285178A JP4254892B1 (ja) 2007-11-01 2007-11-01 特徴量候補作成装置および特徴量候補作成方法
PCT/JP2008/069951 WO2009057778A1 (ja) 2007-11-01 2008-10-31 特徴量候補作成装置および特徴量候補作成方法
US12/740,336 US8630823B2 (en) 2007-11-01 2008-10-31 Feature parameter candidate generation apparatus and feature parameter candidate generation method
CN2008801128560A CN101835421B (zh) 2007-11-01 2008-10-31 特征量候选生成装置和特征量候选生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007285178A JP4254892B1 (ja) 2007-11-01 2007-11-01 特徴量候補作成装置および特徴量候補作成方法

Publications (2)

Publication Number Publication Date
JP4254892B1 true JP4254892B1 (ja) 2009-04-15
JP2009112330A JP2009112330A (ja) 2009-05-28

Family

ID=40591158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007285178A Active JP4254892B1 (ja) 2007-11-01 2007-11-01 特徴量候補作成装置および特徴量候補作成方法

Country Status (4)

Country Link
US (1) US8630823B2 (ja)
JP (1) JP4254892B1 (ja)
CN (1) CN101835421B (ja)
WO (1) WO2009057778A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5407737B2 (ja) * 2009-10-16 2014-02-05 富士通セミコンダクター株式会社 モデル生成プログラム、モデル生成装置、およびモデル生成方法
AU2011203616B2 (en) * 2010-01-06 2013-06-06 Hill's Pet Nutrition, Inc. Method of managing a weight condition in an animal
JP5661344B2 (ja) * 2010-06-18 2015-01-28 沖電気工業株式会社 情報処理装置、認識システム、認識方法、及びプログラム
CN106413545B (zh) * 2014-05-13 2019-07-05 欧姆龙株式会社 姿势估计装置、姿势估计系统和姿势估计方法
WO2017090114A1 (ja) * 2015-11-25 2017-06-01 株式会社日立製作所 データ処理システム及びデータ処理方法
JP6746508B2 (ja) * 2017-01-04 2020-08-26 オムロン株式会社 ユーザ端末装置およびデータ送信方法
JP6833660B2 (ja) * 2017-11-08 2021-02-24 株式会社東芝 信頼度監視システム、信頼度評価方法、及びプログラム
KR102315074B1 (ko) * 2019-07-26 2021-10-21 주식회사 히타치하이테크 데이터 처리 장치, 방법, 및 반도체 제조 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2551212B2 (ja) 1990-07-26 1996-11-06 日本電気株式会社 特徴量選択方法及び装置と高速識別方法及び装置
JPH0981731A (ja) 1995-09-19 1997-03-28 Hitachi Ltd 画像認識方法および装置
JPH113354A (ja) * 1997-06-13 1999-01-06 Nec Software Ltd データキューブ制御方式
JP3597026B2 (ja) 1997-10-24 2004-12-02 富士通株式会社 特徴量選択装置
US6496834B1 (en) * 2000-12-22 2002-12-17 Ncr Corporation Method for performing clustering in very large databases
US7174343B2 (en) * 2002-05-10 2007-02-06 Oracle International Corporation In-database clustering
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system

Also Published As

Publication number Publication date
CN101835421B (zh) 2013-04-03
US20100235151A1 (en) 2010-09-16
JP2009112330A (ja) 2009-05-28
US8630823B2 (en) 2014-01-14
CN101835421A (zh) 2010-09-15
WO2009057778A1 (ja) 2009-05-07

Similar Documents

Publication Publication Date Title
JP4254892B1 (ja) 特徴量候補作成装置および特徴量候補作成方法
İşler et al. Combining classical HRV indices with wavelet entropy measures improves to performance in diagnosing congestive heart failure
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
JP6750055B2 (ja) 顔画像からの定性的特徴を評価するコンピュータ実行ツールを構築する方法
JP2013088880A (ja) 診療情報処理装置および方法並びにプログラム
US20170329918A1 (en) Internet of things based monitoring and assessment platform
Lafta et al. An intelligent recommender system based on short-term risk prediction for heart disease patients
Valsecchi et al. Age estimation in forensic anthropology: methodological considerations about the validation studies of prediction models
CN110706822A (zh) 基于逻辑回归模型和决策树模型的健康管理方法
CN107785079A (zh) 一种基于弥散张量成像的抑郁症患者疾病恢复的评估方法
JP7173482B2 (ja) ヘルスケアデータ分析システム、ヘルスケアデータ分析方法およびヘルスケアデータ分析プログラム
JP2015111438A (ja) 生体情報の評価システム及び評価方法
JP2012194741A (ja) 行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラム
CN112233742A (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
Panagoulias et al. Extreme value analysis for dietary intake based on weight class
CN116564521A (zh) 一种慢性病风险评估模型建立方法、介质及系统
JP6398991B2 (ja) モデル推定装置、方法およびプログラム
CN114190949B (zh) 生理状态评估方法与生理状态评估装置
JP4499503B2 (ja) 発症リスク算出システム及びプログラム
Xao et al. Fasting blood glucose change prediction model based on medical examination data and data mining techniques
KR102371440B1 (ko) 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템
Toma et al. Discovery and integration of univariate patterns from daily individual organ-failure scores for intensive care mortality prediction
JP2010207272A (ja) 生体情報の評価システム及び評価方法
JP2018126519A (ja) 生体情報の評価システム及び評価方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4254892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5