CN101835421B - 特征量候选生成装置和特征量候选生成方法 - Google Patents

特征量候选生成装置和特征量候选生成方法 Download PDF

Info

Publication number
CN101835421B
CN101835421B CN2008801128560A CN200880112856A CN101835421B CN 101835421 B CN101835421 B CN 101835421B CN 2008801128560 A CN2008801128560 A CN 2008801128560A CN 200880112856 A CN200880112856 A CN 200880112856A CN 101835421 B CN101835421 B CN 101835421B
Authority
CN
China
Prior art keywords
characteristic quantity
candidate
characteristic
evaluation object
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008801128560A
Other languages
English (en)
Other versions
CN101835421A (zh
Inventor
米田光宏
中岛宏
土屋直树
田崎博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN101835421A publication Critical patent/CN101835421A/zh
Application granted granted Critical
Publication of CN101835421B publication Critical patent/CN101835421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

特征量候选生成装置,包括:存储部件,对多种特征量存储从多个样本的每个样本中提取的特征量的值;指标值计算部件,对多种特征量的每种特征量计算指标值,通过由样本数对特征量的值的种类数进行归一化而获得该指标值;评价对象选择部件,从多种特征量中选择作为评价对象的特征量的组合;评价部件,对作为评价对象而选择的特征量的组合,评价各个特征量的指标值的次数分布的一致性是否满足规定的基准;以及候选决定部件,将通过评价部件而评价为满足规定的基准的特征量的组合,决定为对模型生成装置提供的特征量候选。

Description

特征量候选生成装置和特征量候选生成方法
技术领域
本发明涉及用于准备成为模型构筑的基础的特征量的技术。
背景技术
为了预防疾病和维持/提高健康,需要掌握人的健康状态(体温、血压、身体脂肪等是否在正常范围内)。但是,难以直接测量健康状态,所以在各种健康设备中,加入了基于通过测量而获得的某种生物体信息来估计人的健康状态的模型(model)。例如,在电子体温计中,加入了根据在腋下测量的温度来估计体温的模型。在血压计中,加入了根据加到手臂上的压力和测量的声音来估计血压的模型。此外,在身体组成计中,加入了根据体重、身高、年龄、性别、生物体阻抗来估计身体脂肪率等的身体组成的模型。
这种模型一般由将从人获得的各种特征量作为变量的估计式来表现。在构筑模型时,(1)首先从多个被测试者测量/收集数据,准备特征量。在特征量中,除了通过测量而获得的测量值之外,还包括根据一个或多个测量值算出的算出值、性别这样的被测试者的属性值等。并且,接着,(2)从准备的特征量中选定用于模型的构筑的特征量,(3)使用选定的特征量来构筑模型。
关于(2)特征量的选定和(3)模型的构筑,从以往开始研究、提出了各种方法。作为有关(2)的已有方法,例如,有排除在特征量之间的含义的相似性、基于特征量的信息分割法中相似性高的特征量的方法(参照专利文献1),使用在多个特征量中的平均相互信息量来评价信息量的方法(参照专利文献2),使用预测误差来评价特征量的组合的好坏的方法(参照专利文献3)等。此外,作为有关(3)的已有方法,有线性模型(单回归模型、重回归模型)、非线性模型(神经网络、SVM(Support Vector Machine,支撑矢量设备))等。
专利文献1:特开平11-126212号公报
专利文献2:特开平4-84277号公报
专利文献3:特开平9-81731号公报
发明内容
发明要解决的课题
人(生物体)具有“复杂性”和“个别性”这样的特殊的结构性质。生物体的复杂性意味着生物体由肌肉、骨、脂肪等的各种要素构成,此外,生物体的个别性意味着在构成生物体的各个要素的特性上存在基于个体差异的偏差。这样存在生物体的复杂性和个别性的基础上,从生物体测量的信息成为受到了体内的各种构成要素的偏差的影响的复合量。并且,认为在该信息中包含的偏差中,存在与设为目的的估计对象(例如,身体脂肪率)有关的偏差和无关的偏差的特性不同的偏差。考虑了这样的偏差的特性的模型构筑极其困难。
对于这样的课题,本发明者们设想是否能够通过在上述(1)的特征量的准备阶段中确保特征量的变化(Variation),以网罗复杂性和个别性的各种性质,从而构筑精度和可靠性高的模型。即,将对生物体的复杂性和个别性的偏差敏感地反应的特征量与不易受到基于生物体的复杂性和个别性的偏差的影响的特征量这样的性质不同的特征量网罗而准备。
但是,由于以往没有对特征量的性质进行定量地评价的有效的方法,所以只能采用基于对估计对象的预见知识来试错(trial and error)地准备特征量等的没有效率的方法。
本发明是鉴于上述的实情而完成的,其目的在于,提供一种能够有效地准备在具有复杂性和个别性的对象物的模型构筑中特别有效的、性质不同的特征量的候选的技术。
用于解决课题的手段
为了达到上述目的,本发明采用以下结构。
本发明是一种特征量候选生成装置,用于生成应对模型生成装置提供的特征量候选,该模型生成装置使用从提供的特征量候选中所选择的多个特征量来构筑模型,所述特征量候选生成装置包括:存储部件,对多种特征量存储从多个样本的每个样本中提取的特征量的值;指标值计算部件,对所述多种特征量的每种特征量计算指标值,通过由所述样本数对所述特征量的值的种类数进行归一化而获得该指标值;评价对象选择部件,从所述多种特征量中选择作为评价对象的特征量的组合;评价部件,对作为所述评价对象而选择的特征量的组合,评价各个特征量的指标值的次数分布的一致性是否满足规定的基准;以及候选决定部件,将通过所述评价部件而评价为满足所述规定的基准的特征量的组合,决定为对所述模型生成装置提供的特征量候选。
在本发明中,使用“通过由样本数对特征量的值的种类数进行归一化而获得的指标值”,对各个特征量的性质进行定量化。并且,选择特征量的候选,使得该指标值的次数分布在某种程度成为一样。这样,作为特征量候选,能够高平衡地网罗备齐各种性质的特征量。并且,基于这样的特征量候选来进行模型构筑,从而能够期待模型的精度和性能的提高。
在本发明中,优选地,为发现满足所述规定的基准的特征量的组合,重复通过所述评价对象选择部件进行的评价对象的更新和通过所述评价部件进行的所述更新了的评价对象的评价。
通过执行这样的探索处理,从多个特征量中能够自动地选择出最适合或合适的特征量的组合。关于探索处理的具体的方法,也可以是循环式,也可以应用已有的探索算法。
例如,所述评价对象选择部件也可以通过将在所述多种特征量中没有包含在所述评价对象的特征量追加到所述评价对象中,更新所述评价对象。此时,所述评价对象选择部件也可以确定包含在所述评价对象的特征量的指标值的次数分布中表示最小次数的部分,并选择具有与该表示最小次数的部分对应的指标值的特征量,作为追加到所述评价对象的特征量。
这样,由于适合提高次数分布的一致性的特征量被选择作为追加对象,所以能够实现探索处理的效率化,能够尽早地决定合适的特征量候选。
此外,所述评价对象选择部件也可以通过变更包含在所述评价对象的特征量中的至少一个特征量的值的分辨率,更新所述评价对象。此时,所述评价对象选择部件也可以确定包含在所述评价对象的特征量的指标值的次数分布中表示最大次数的部分,并变更具有与该表示最大次数的部分对应的指标值的特征量的分辨率。
若将特征量的值的分辨率设为粗糙,则指标值变小,若将分辨率设为细致,则指标值变大。变更具有与表示最大次数的部分对应的指标值的特征量的分辨率,并减小或增大该指标值,从而能够提高次数分布的一致性。该方法在存储部件中存储的多种特征量的指标值偏向的情况下或在存储部件中不存在具有与次数少的部分对应的指标值的特征量的情况下等有效。
本发明可作为具有上述部件的至少一部分的特征量候选生成装置处理,也可以作为包括上述特征量候选生成装置和上述模型生成装置的模型构筑系统处理。此外,本发明也可以作为至少包括上述处理的一部分的特征量候选生成方法或者用于实现该方法的程序或记录了该程序的计算机可读取的记录介质处理。另外,只要有可能,上述部件和处理中的各个部件和处理可以相互组合而构成本发明。
例如,本发明的一种特征量候选生成方法,用于生成应对模型生成装置提供的特征量候选,该模型生成装置使用从提供的特征量候选中所选择的多个特征量来构筑模型,所述特征量候选生成方法使包括对多种特征量存储从多个样本的每个样本中提取的特征量的值的存储部件的计算机执行以下步骤:指标值计算步骤,对所述多种特征量的每种特征量计算指标值,通过由所述样本数对所述特征量的值的种类数进行归一化而获得该指标值;评价对象选择步骤,从所述多种特征量中选择作为评价对象的特征量的组合;评价步骤,对作为所述评价对象而选择的特征量的组合,评价各个特征量的指标值的次数分布的一致性是否满足规定的基准;以及候选决定步骤,将通过所述评价步骤而评价为满足所述规定的基准的特征量的组合,决定为对所述模型生成装置提供的特征量候选。
此外,本发明的一种特征量候选生成程序,用于生成应对模型生成装置提供的特征量候选,该模型生成装置使用从提供的特征量候选中所选择的多个特征量来构筑模型,所述特征量候选生成程序使包括对多种特征量存储从多个样本的每个样本中提取的特征量的值的存储部件的计算机执行以下步骤:指标值计算步骤,对所述多种特征量的每种特征量计算指标值,通过由所述样本数对所述特征量的值的种类数进行归一化而获得该指标值;评价对象选择步骤,从所述多种特征量中选择作为评价对象的特征量的组合;评价步骤,对作为所述评价对象而选择的特征量的组合,评价各个特征量的指标值的次数分布的一致性是否满足规定的基准;以及候选决定步骤,将通过所述评价步骤而评价为满足所述规定的基准的特征量的组合,决定为对所述模型生成装置提供的特征量候选。
发明效果
根据本发明,能够有效地准备在具有复杂性和个别性的对象物的模型构筑中成为有效的、性质不同的特征量的候选。
附图说明
图1是示意性地表示本发明的实施方式的模型构筑系统的结构的图。
图2是表示本系统的整体流程的图。
图3是表示特征量的追加的具体处理的流程图。
图4是用于说明特征量的追加处理的NC直方图。
图5是表示特征量的分辨率的调整的具体处理的流程图。
图6A和图6B是用于说明特征量的分辨率的调整处理的NC直方图。
图7是用于说明特征量的分辨率的调整处理的图。
图8是表示相关系数的变化的图。
图9是表示误差SD的变化的图。
图10是表示每个方式的回归系数的平均与标准偏差的表。
具体实施方式
以下,参照附图,例示性地详细说明本发明的优选的实施方式。
<特征量的评价指标>
想要网罗性地准备应对应于生物体的复杂性和个别性的性质不同的特征量,以往也没有用于定量地评价特征量的性质的有效的方法,所以只有试错地区分特征量并准备的方法,非常没有效率。
因此,在本实施方式中,导入基数性(cardinality)(浓度)的概念。基数性是表示集合的要素数的概念,是表示特征量可具有的浓度,即特征量值的种类数的指标。例如,设为从5个被测试者获得了以下的特征量。
(1)性别:男,身高:170cm,体重59kg
(2)性别:男,身高:173cm,体重65kg
(3)性别:男,身高:168cm,体重65kg
(4)性别:女,身高:152cm,体重42kg
(5)性别:女,身高:159cm,体重50kg
在该样本中,特征量“性别”的要素是“男”和“女”,该基数性成为“2”。此外,特征量“身高”的基数性成为“5”,“体重”的基数性成为“4”。通过使用该基数性的概念,能够对各个特征量对于偏差的表现能力进行定量化。
但是,该基数性的值存在集合的规模,即样本数据的数目上受到影响的问题。例如,在如“身高”那样值因每个人而不同的可能性高的特征量的情况下,随着样本数据增加,基数性的值也增大。因此,在本实施方式中,如以下式所示那样,定义通过以样本数对基数性进行归一化所得到的NC(归一化基数性:Normalized Cardinality)这样的评价指标。根据以下式可知那样,NC的定义域(值域)成为0<NC≤1。
NC=(基数性)/(样本数据数目)
可以说归一化基数性NC较小的特征量具有不易受到因生物体的复杂性和个别性的偏差的影响的性质。若将这样的特征量加入到模型中,则能够期待吸收由生物体的复杂性/个别性的偏差所引起的误差,提高模型的稳定性的效果。
另一方面,可以说归一化基数性NC较大的特征量具有能够高精度地表现生物体的复杂性和个别性的偏差的性质。若将这样的特征量加入到模型中,则能够期待提高模型的精度和表现力的效果。
因此,为构筑兼具了稳定性和精度的双方的可靠性高的模型,期望使用归一化基数性NC较大的特征量和较小的特征量的双方。因此,在以下叙述的本实施方式的系统中,在特征量的准备阶段,采用高平衡且网罗性地准备从归一化基数性NC较大的特征量到小的特征量的方法(approach)。通过在最初准备这样的特征量候选,结果能够在后级的特征量的选定处理和模型的构筑处理中构筑可靠性高的模型。
<系统结构>
图1是示意性地表示本发明的实施方式的模型构筑系统的结构的图。
模型构筑系统大致上包括:基于归一化基数性NC而生成特征量候选的特征量候选生成装置1和基于由该特征量候选生成装置1提供的特征量候选而进行特征量的选定和模型构筑的模型生成装置2。特征量候选生成装置1包括特征量候选生成单元10和特征量数据库11,模型生成装置2包括模型准备单元20和特征量/模型选定单元21及模型评价单元22。
该模型构筑系统是基于从多个被测试者(样本)获得的测量数据和属性数据,自动地生成估计对象的模型(估计式)的系统。作为估计对象,例如可估计身体脂肪率或内脏脂肪量等的身体组成、体温、血压等的表示人的健康状态的对象。作为测量数据,使用从生物体测量的各种信息,例如身高、体重、腰围、生物体阻抗、温度、心率等,此外,作为属性数据,例如使用年龄、性别等。由于大多情况下测量数据或属性数据与估计对象之间的因果关系是未知的,所以优选尽可能收集多种数据。事先收集的测量数据、属性数据存储在特征量数据库11中。
在硬件上,模型构筑系统可通过包括CPU、存储器、辅助存储装置、显示装置、输入装置等的通用的计算机构成。既可以是一台计算机,也可以是由多台计算机构成。并且,上述的模型构筑系统的各种功能可通过CPU执行在辅助存储装置中存储的程序,并根据需要利用硬件资源而实现。
<功能和动作>
接着,参照图2的流程图,说明模型构筑系统的各个部分的功能和其动作。图2是表示本系统的整体流程的图。
(特征量候选生成装置:特征量的准备)
在步骤S1中,特征量候选生成单元10从特征量数据库11读入测量数据和属性数据,并根据这些数据而计算特征量。这里,将测量数据(测量值)和属性数据(属性值)本身称为第一次特征量,将根据一个或多个测量值算出的算出值称为第二次特征量。例如,从被测试者测量的腰围w和生物体阻抗Z是第一次特征量,通过它们的维数扩展和组合而获得的w2、1/w、Z·w等是第二次特征量。作为第二次特征量而生成什么样的量,可以预先设定在特征量候选生成单元10中,也可以随机或网罗性地生成各种形式的第二次特征量。
通过特征量候选生成单元10算出的特征量(包括第一次特征量、第二次特征量)存储在作为存储部件的特征量数据库11中。这样,在特征量数据库11中,对多种特征量准备从多个样本的各个样本中提取出的(测量、获取或者算出的)特征量的值。其中,由于这些特征量只是自动地收集并算出的,所以并不限定高平衡且网罗性地包含不同性质的特征量,也存在若将全部设为特征量候选的话数目会过多的情况。因此,特征量候选生成单元10在下一个步骤之后进行特征量候选的生成。
在步骤S2中,特征量候选生成单元10对在特征量数据库11中存储的多种特征量的每种特征量计算归一化基数性NC的值。另外,在本实施方式中,特征量候选生成单元10的这个功能相当于本发明的指标值计算部件。
在步骤S3中,特征量候选生成单元10从多种特征量选择设为评价对象的特征量的组合(特征量组)。初始的特征量组可以任意选择。例如,可以随机选择,也可以选择NC的值的方差大的组合的特征量。另外,在本实施方式中,特征量候选生成单元10的这个功能相当于本发明的评价对象选择部件。
在步骤S4中,特征量候选生成单元10对在步骤S3中选择作为评价对象的特征量组,评价各个特征量的归一化基数性的次数分布的一致性是否满足规定的基准。即,在将横轴设为NC的值(值域是0~1)、将纵轴设为次数(特征量的数目)的直方图(以下,称为NC直方图)中,评价在0~1的值域整体中是否高平衡地分布特征量。作为这样的评价方法,例如可使用Kolmogorov smirnov检测等。这里,在评价为NC直方图的一致性满足规定的基准(NC的平衡好)的情况下,进至步骤S6,在评价为不满足规定的基准(NC的平衡差)的情况下,进至步骤S5。另外,在本实施方式中,特征量候选生成单元10的这个功能相当于本发明的评价部件。
在步骤S5中,特征量候选生成单元10更新设为评价对象的特征量组。作为NC高平衡地更新特征量组的方法,这里使用“特征量的追加”和“特征量的分辨率的调整”的两个方法中的任一个或者两个。
图3是表示特征量的追加的具体处理的流程图。在步骤S30中,特征量候选生成单元10调查在特征量数据库11中是否存在不使用(没有包括在评价中的特征量组中)的特征量。在存在的情况下,在步骤S31中取得它们的NC的值。然后,在步骤S32中,特征量候选生成单元10在当前的评价对象的NC直方图中确定表示最小次数的部分。若例如是图4所示那样的NC直方图,则表示最小次数的部分是NC值为0.3的部分。以下,将表示最小次数的部分的NC值称为NCb、将表示最大次数的部分的NC值称为NCp。特征量候选生成单元10从在步骤S30中获得的特征量中,提取NC的值包含在NCb±α(α是预先设定的值。例如α=0.05)的范围的特征量。这里,在提取的特征量至少存在一个的情况下(步骤S33:是),在步骤S34中,NC的值最接近NCb的特征量被追加到作为评价对象的特征量组中。
图5是表示特征量的分辨率的调整的具体处理的流程图。在步骤S40中,特征量候选生成单元10比较当前的评价对象的NC直方图的NCp与NCb的大小。
在NCp>NCb的情况下(参照图6A),进至步骤S41。在步骤S41中,特征量候选生成单元10从属于NCp的部分的特征量中,提取能够将分辨率β%粗略化的特征量(β是预先设定的值。例如β=50%)。这里,调整分辨率是指,变更特征量可取的值(离散值)的刻纹宽度,将分辨率粗略化是指将刻纹宽度增大,将分辨率细致化是指将刻纹宽度减小。若特征量的值为以实数值来提供的特征量,则原则上能够以任意宽度来调整分辨率。在步骤S41中提取的特征量至少存在一个的情况下(步骤S42:是),准备将这些特征量的分辨率β%粗略化的特征量(步骤S43),进至步骤S47。
另一方面,在NCp<NCb的情况下(参照图6B),进至步骤S44。在步骤S44中,特征量候选生成单元10从属于NCp的部分的特征量中,提取能够将分辨率β%细致化的特征量。在提取的特征量至少存在一个的情况下(步骤S45:是),准备将这些特征量的分辨率β%细致化的特征量(步骤S46),进至步骤S47。
在步骤S47中,特征量候选生成单元10计算在步骤S43或步骤S46中准备的分辨率调整之后的特征量的NC。如图7所示那样,若将分辨率粗略化,则特征量可取的值的数目减少,所以NC的值减小,相反地,若将分辨率细致化,则特征量可取的值的数目增加,所以NC的值变大。在步骤S48中,在这些中采用具有最接近NCb的NC的值的特征量。
若通过执行以上叙述的“特征量的追加”或/和“特征量的分辨率的调整”而评价对象的特征量组被更新,则返回到步骤S4,进行在更新后的特征量组中的NC的平衡评价。该步骤S4和S5的处理(适合的特征量组的探索处理)重复至NC的平衡判断为好为止。由于在上述特征量的追加处理中,适合提高NC直方图的一致性的特征量被选择作为追加对象,所以具有能够实现探索处理的效率化,且能够尽早决定合适的特征量候选的优点。另一方面,通过在特征量的分辨率的调整处理中,减小或增大与在NC直方图中的最大次数的部分对应的特征量的指标值,从而能够提高次数分布的一致性。该方法在以下情况下有效:在特征量数据库11中存储的特征量的NC偏向的情况下,或在特征量数据库11中不存在具有与NC直方图的次数少的部分对应的NC的特征量的情况下等。另外,特征量候选生成单元10的这些功能对应于本发明的评价对象选择部件。
若这样获得NC的平衡好的特征量组,则特征量候选生成单元10将该特征量组决定为对模型生成装置2提供的特征量候选(步骤S6)。在该特征量候选中,高平衡且网罗性地包括NC大的特征量至小的特征量,能够期待在后级的特征量的选定处理和模型的构筑处理中可进行可靠性高的模型构筑。
(模型生成装置:特征量的选定和模型的构筑)
在步骤S7中,模型准备单元20生成模型候选(估计式的候选)。这里,模型准备单元20对在特征量候选中包含的特征量的全部组合生成模型候选。这里,若特征量的数目过多而评价全部组合为不现实的情况下,则固定要选择的特征量的数目等(例如,若将特征量的总数设为n个、要选择的特征量的数目设为m个,则模型候选的数目被限定为nCm组。),适当地限定模型候选的数目即可。
作为模型,有单回归模型、重回归模型等的线性模型和神经网络、SVM等的非线性模型等,使用任何模型都可以。此外,模型准备单元20也可以根据在提供的特征量候选中包含的特征量的种类和数目等,适应性地改变使用的模型的形式或者对一个特征量的组生成多种形式的模型候选。
在步骤S8中,模型准备单元20从特征量数据库11中读入各个特征量的值,学习各个模型候选的系数。在学习方法中有最小二乘(least squares)法或向后传播(back propagation)法等,根据模型候选的形式来选择最合适的学习方法即可。
接着,进行在通过步骤S7和S8获得的多个模型候选中筛选最合适的特征量/模型的处理。这里,为选定特征量/模型,使用AIC(Akaike InformationCriterion)这样的指标。AIC是用于选择顾全了模型的简单性和对已知的数据的适应性的模型的统计性的基准。在步骤S9中,特征量/模型选定单元21对各个模型候选选择AIC。然后,在步骤S10中,AIC最小的模型候选被选择作为最合适的模型,即顾全了简单性和对已知的数据的适应性的模型。另外,作为用于评价特征量/模型的指标,并不限定于AIC,可以使用Cp值等的其他指标。
之后,在步骤S11中,模型评价单元22评价所选择的模型的性能。具体地说,使用验证用的样本数据来求出模型的估计误差,并根据该估计误差是否在允许范围内来决定是否采用该模型。若估计误差超出允许范围,则依次评价AIC的值下一个小的模型即可。若这样也没有发现满足性能目标的模型的情况下,重新生成或者更新特征量候选(步骤S3~S6),或者重新生成模型候选(步骤S7、S8)即可。
如以上所述那样,在本实施方式的方法中,各个特征量的性质通过归一化基数性被定量化。并且,选择特征量的候选,使得该指标值NC的次数分布在某种程度上成为一致。这样,作为特征量候选,能够高平衡且网罗性地备齐各种性质的特征量。并且,通过基于这样的特征量候选来进行模型构筑,从而能够期待模型的精度和稳定性的提高。
<实施例:评价实验>
为了验证考虑归一化基数性NC而选择特征量的有效性,准备采用的特征量的NC的倾向不同的三个模型(估计式),评价了各个模型的估计精度和稳定性。
1.估计式
准备的估计式如下所示。另外,这些估计式是用于基于从人测量或获得的特征量而估计内脏脂肪面积的模型。省略关于各个特征量的含义。
(方式1)
方式1是在现有研究中提出的估计式。在下述式中“NC(x)”表示特征量x的NC的值。
【式1】
VFA = &alpha; w 2 - &beta; 1 Z - &gamma;Xw - &delta;
α、β、γ、δ:回归系数
w2
Figure GPA00001111597600112
Xw:特征量
NC(1/Z)=NC(Xw)=1.00,NC(w2)=0.72
(方式2)
方式2是通过上述的实施方式的模型构筑系统而构筑的估计式。在下述式中,网罗性地包括NC大的特征量至NC小的特征量。
【式2】
VFA = &alpha; 1 a + &alpha; 2 b + &alpha; 3 1 b + &alpha; 4 a 2 + &alpha; 5 b 2 + &alpha; 6 1 b 2 + &alpha; 7 1 Z + &alpha; 8 X a 2 + b 2 + &alpha; 9 A + &alpha; 10 S + &alpha; 11
αi(i=1、2、……、11):回归系数
a、b、
Figure GPA00001111597600114
a2、b2
Figure GPA00001111597600115
Figure GPA00001111597600116
Figure GPA00001111597600117
A、S:特征量
NC ( 1 / Z ) = NC ( X a 2 + b 2 ) = 1.00
NC(b)=NC(1/b)=NC(b2)=NC(1/b2)=0.98
NC(a)=NC(a2)=0.80
NC(A)=0.40,NC(S)=0.02
(方式3)
方式3是从方式2的估计式中除去了NC小的特征量A、S的估计式。即,方式3成为仅由NC大的特征量构成的估计式。
【式3】
VFA = &beta; 1 a + &beta; 2 b + &beta; 3 1 b + &beta; 4 a 2 + &beta; 5 b 2 + &beta; 6 1 b 2 + &beta; 7 1 Z + &beta; 8 X a 2 + b 2 + &beta; 9
βi(i=1、2、……、9):回归系数
a、b、a2、b2
Figure GPA00001111597600125
特征量
NC ( 1 / Z ) = NC ( X a 2 + b 2 ) = 1.00
NC(b)=NC(1/b)=NC(b2)=NC(1/b2)=0.98
NC(a)=NC(a2)=0.80
2.评价指标
在本评价实验中,作为用于评价各个估计式的估计精度的高度和稳定性的指标,使用相关系数和误差标准偏差。此外,作为用于评价估计式的稳定性的指标,使用回归系数的标准偏差。以下,表示这些评价指标的细节。
(相关系数)
通过皮尔逊(pearson)的积矩相关系数(product moment correlationcoefficient)而算出基于任意的估计式的内脏脂肪面积的估计式与通过MRI而获得的实际值之间的相关,从而评价对于未知的个体的表现性能,即评价是否能够对内脏脂肪面积小的个体到大的个体确保高的估计精度。
(误差标准偏差)
根据基于任意的估计式的估计值与通过MRI而获得的实际测量值之间的误差的标准偏差(以下,称为误差SD),评价对于未知的个体的估计精度的稳定性。
(回归系数的标准偏差)
预先准备多个学习用数据组,并根据学习任意的估计式的回归系数时的回归系数的标准偏差,评价估计式对于学习用数据中的个体差的稳定性。
3.实验方法
在每次进行方式1、2、3的比较评价时,进行交叉验证(cross validation)。以下表示步骤。
(1)为生成学习用数据组和验证用数据组,将在特征量数据库11中存储的被测试者组的数据随机地分割为2组。另外,在本实验中,将学习用数据组与验证用数据组的个体数设为相同。
(2)对一个数据组进行估计式的回归系数的学习。
(3)使用另一个数据组,从各个估计式算出估计值。
(4)进行估计值与MRI的实际测量值之间的相关系数和误差SD的计算。
(5)为验证估计式的稳定性,多次进行(1)~(4)。在本实验中,将进行次数设为10次。
4.评价结果
在图8中示出在10次试行中的各个方式的估计值与实际测量值的相关系数的变化,在图9中示出误差SD的变化。
根据图8可知方式2和方式3的内脏脂肪面积的表现性能高于以往方法的方式1。此外,根据图9可确认对于未知的生物体的估计精度的稳定性也是相同的。
这里,方式2和方式3比方式1包括较多NC大的特征量。即,可确认通过在估计式中导入NC大的特征量,估计精度会提高。
此外,图10表示与通过在评价实验中进行的10次试行而获得的各个估计式的特征量对应的回归系数的平均与标准偏差。在图10中,若比较对于在方式2和方式3中共同包含的特征量的回归系数的标准偏差,则方式2的各个回归系数的标准偏差比方式3小9~48%。因此,可以说方式2可以比方式3更稳定地构筑估计式。即,能够确认通过在估计式中导入NC小的特征量,估计式的稳定性会提高。
根据以上的结果,可知通过使用本实施方式的方法来准备/选定特征量,从而能够稳定地构筑高精度的估计式。

Claims (6)

1.一种特征量候选生成装置,用于生成应对模型生成装置提供的特征量候选,该模型生成装置使用从提供的特征量候选中所选择的多个特征量来构筑生物体模型,所述特征量包括从多个生物体获得的测量信息和属性信息,其特征在于,所述特征量候选生成装置包括:
存储部件,对多种特征量存储从多个样本的每个样本中提取的特征量的值;
指标值计算部件,对所述多种特征量的每种特征量计算指标值,通过由所述样本的数对所述特征量的值的种类数进行归一化而获得该指标值;
评价对象选择部件,从所述多种特征量中选择作为评价对象的特征量的组合;
评价部件,对作为所述评价对象而选择的特征量的组合,评价各个特征量的指标值的次数分布的一致性是否满足规定的基准;以及
候选决定部件,将通过所述评价部件而评价为满足所述规定的基准的特征量的组合,决定为对所述模型生成装置提供的特征量候选。
2.如权利要求1所述的特征量候选生成装置,其特征在于,
为发现满足所述规定的基准的特征量的组合,重复通过所述评价对象选择部件进行的评价对象的更新和通过所述评价部件进行的所述更新了的评价对象的评价。
3.如权利要求2所述的特征量候选生成装置,其特征在于,
所述评价对象选择部件通过将在所述多种特征量中没有包含在所述评价对象的特征量追加到所述评价对象中,更新所述评价对象,
所述评价对象选择部件确定包含在所述评价对象的特征量的指标值的次数分布中表示最小次数的部分,并选择具有与该表示最小次数的部分对应的指标值的特征量,作为追加到所述评价对象的特征量。
4.如权利要求2或3所述的特征量候选生成装置,其特征在于,
所述评价对象选择部件通过变更包含在所述评价对象的特征量中的至少一个特征量的值的分辨率,更新所述评价对象,
所述评价对象选择部件确定包含在所述评价对象的特征量的指标值的次数分布中表示最大次数的部分,并变更具有与该表示最大次数的部分对应的指标值的特征量的分辨率。
5.如权利要求1至3的任一项所述的特征量候选装置,其特征在于,
所述特征量包括身高、体重、心率、生物体阻抗、以及年龄、性别。
6.一种特征量候选生成方法,用于生成应对模型生成装置提供的特征量候选,该模型生成装置使用从提供的特征量候选中所选择的多个特征量来构筑生物体模型,所述特征量包括从多个生物体获得的测量信息和属性信息,其特征在于,
所述特征量候选生成方法使包括对多种特征量存储从多个样本的每个样本中提取的特征量的值的存储部件的计算机执行以下步骤:
指标值计算步骤,对所述多种特征量的每种特征量计算指标值,通过由所述样本的数对所述特征量的值的种类数进行归一化而获得该指标值;
评价对象选择步骤,从所述多种特征量中选择作为评价对象的特征量的组合;
评价步骤,对作为所述评价对象而选择的特征量的组合,评价各个特征量的指标值的次数分布的一致性是否满足规定的基准;以及
候选决定步骤,将通过所述评价步骤而评价为满足所述规定的基准的特征量的组合,决定为对所述模型生成装置提供的特征量候选。
CN2008801128560A 2007-11-01 2008-10-31 特征量候选生成装置和特征量候选生成方法 Active CN101835421B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007285178A JP4254892B1 (ja) 2007-11-01 2007-11-01 特徴量候補作成装置および特徴量候補作成方法
JP285178/07 2007-11-01
PCT/JP2008/069951 WO2009057778A1 (ja) 2007-11-01 2008-10-31 特徴量候補作成装置および特徴量候補作成方法

Publications (2)

Publication Number Publication Date
CN101835421A CN101835421A (zh) 2010-09-15
CN101835421B true CN101835421B (zh) 2013-04-03

Family

ID=40591158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801128560A Active CN101835421B (zh) 2007-11-01 2008-10-31 特征量候选生成装置和特征量候选生成方法

Country Status (4)

Country Link
US (1) US8630823B2 (zh)
JP (1) JP4254892B1 (zh)
CN (1) CN101835421B (zh)
WO (1) WO2009057778A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5407737B2 (ja) * 2009-10-16 2014-02-05 富士通セミコンダクター株式会社 モデル生成プログラム、モデル生成装置、およびモデル生成方法
EP2506764B1 (en) * 2010-01-06 2017-03-15 Hill's Pet Nutrition, Inc. Method of managing a weight condition in an animal
JP5661344B2 (ja) * 2010-06-18 2015-01-28 沖電気工業株式会社 情報処理装置、認識システム、認識方法、及びプログラム
WO2015174228A1 (ja) * 2014-05-13 2015-11-19 オムロン株式会社 姿勢推定装置、姿勢推定システム、姿勢推定方法、姿勢推定プログラム、および姿勢推定プログラムを記録したコンピュータ読み取り可能な記録媒体
JP6192877B1 (ja) * 2015-11-25 2017-09-06 株式会社日立製作所 データ処理システム及びデータ処理方法
JP6746508B2 (ja) * 2017-01-04 2020-08-26 オムロン株式会社 ユーザ端末装置およびデータ送信方法
JP6833660B2 (ja) * 2017-11-08 2021-02-24 株式会社東芝 信頼度監視システム、信頼度評価方法、及びプログラム
KR102315074B1 (ko) * 2019-07-26 2021-10-21 주식회사 히타치하이테크 데이터 처리 장치, 방법, 및 반도체 제조 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2551212B2 (ja) 1990-07-26 1996-11-06 日本電気株式会社 特徴量選択方法及び装置と高速識別方法及び装置
JPH0981731A (ja) 1995-09-19 1997-03-28 Hitachi Ltd 画像認識方法および装置
JPH113354A (ja) * 1997-06-13 1999-01-06 Nec Software Ltd データキューブ制御方式
JP3597026B2 (ja) 1997-10-24 2004-12-02 富士通株式会社 特徴量選択装置
US6496834B1 (en) * 2000-12-22 2002-12-17 Ncr Corporation Method for performing clustering in very large databases
US7174343B2 (en) * 2002-05-10 2007-02-06 Oracle International Corporation In-database clustering
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开平11-126212A 1999.05.11
JP特开平11-3354A 1999.01.06
JP特开平9-81731A 1997.03.28

Also Published As

Publication number Publication date
WO2009057778A1 (ja) 2009-05-07
US8630823B2 (en) 2014-01-14
CN101835421A (zh) 2010-09-15
JP4254892B1 (ja) 2009-04-15
US20100235151A1 (en) 2010-09-16
JP2009112330A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
CN101835421B (zh) 特征量候选生成装置和特征量候选生成方法
CN109276241B (zh) 一种压力识别方法及设备
US10980429B2 (en) Method and system for cuffless blood pressure estimation using photoplethysmogram features and pulse transit time
KR102008196B1 (ko) 심전도 데이터를 이용한 혈중 칼륨농도 예측모델 생성장치 및 그 방법
JP2013524865A5 (zh)
KR101910982B1 (ko) 개인화된 생체 신호 패턴을 이용한 생체 신호의 동잡음 제거 방법 및 장치
JP6943287B2 (ja) 生体情報処理装置、生体情報処理システム、生体情報処理方法、およびプログラム
JP2020036633A (ja) 異常判別プログラム、異常判別方法および異常判別装置
CN105868572A (zh) 一种基于自编码器的心肌缺血位置的预测方法
CN109948396A (zh) 一种心拍分类方法、心拍分类装置及电子设备
Mullineaux et al. Research methods: sample size and variability effects on statistical power
CN110477920A (zh) 基于跑步机坡度和速度的次极量心肺耐力测试方法和装置
US20160374624A1 (en) Systems and methods for noninvasive intracranial pressure calibration without the need for invasive icp
CN114732424B (zh) 基于表面肌电信号提取肌肉疲劳状态复杂网络属性的方法
CN116451110A (zh) 基于信号能量特征和脉搏周期的血糖预测模型构建方法
CN115363586A (zh) 一种基于脉搏波信号的心理压力等级评估系统及方法
CN105931281A (zh) 基于网络特征熵定量刻画脑功能网络的方法
KR20140126229A (ko) 생체 나이 연산 모델 생성 방법 및 시스템과, 그 생체 나이 연산 방법 및 시스템
US6731972B2 (en) Evaluation method and apparatus for determining the time stationarity of measured physiological signals
KR101908786B1 (ko) 데이터 유사도 평가 시스템
CN116649924A (zh) 一种脉搏分析方法及装置
CN113925495B (zh) 结合统计学习和时频分析的动静脉瘘异常震颤信号识别系统及方法
Pimentel et al. Uncertainty-aware model for reliable prediction of sepsis in the ICU
US20210366616A1 (en) Evaluating an individual&#39;s characteristics of at least one phenotype variable
US7516017B2 (en) Biological parameter output apparatus and program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant