CN113130073B - 利用自动化机制挑选影响力指标的方法及电子装置 - Google Patents
利用自动化机制挑选影响力指标的方法及电子装置 Download PDFInfo
- Publication number
- CN113130073B CN113130073B CN202010047347.7A CN202010047347A CN113130073B CN 113130073 B CN113130073 B CN 113130073B CN 202010047347 A CN202010047347 A CN 202010047347A CN 113130073 B CN113130073 B CN 113130073B
- Authority
- CN
- China
- Prior art keywords
- index
- data
- ranking
- related variable
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000007246 mechanism Effects 0.000 title claims abstract description 25
- 238000012795 verification Methods 0.000 claims abstract description 58
- 238000012216 screening Methods 0.000 claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 45
- 102000004169 proteins and genes Human genes 0.000 claims description 45
- 210000002027 skeletal muscle Anatomy 0.000 claims description 22
- 235000013861 fat-free Nutrition 0.000 claims description 8
- 230000037396 body weight Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 2
- 210000003205 muscle Anatomy 0.000 description 28
- 208000001076 sarcopenia Diseases 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000003556 assay Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 101710139853 Female protein Proteins 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供一种利用自动化机制挑选影响力指标的方法及电子装置。此方法包括下列步骤。取得原始数据,并且原始数据包括身体相关变数及身体相关变数对应的多个待测指标。设定身体相关变数为目标参数。将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。最后,计算候选指标与身体相关变数的相关性以决定影响力指标。
Description
技术领域
本发明涉及一种自动挑选技术,尤其涉及一种利用自动化机制挑选影响力指标的方法及具有利用自动化机制挑选影响指标功能的电子装置。
背景技术
一般来说老人相对于年轻人具有较少的肌肉量,并且随着年纪的增长,肌肉量也容易流失,而肌肉过度流失容易引发肌少症的现象。因此,研究人体内蛋白质与肌肉量的关系,并找到可以用来预测肌肉量的蛋白质,便可以较早的预防肌少症,以延缓老化的速度。
然而,若逐一针对蛋白质进行实验来分析各个蛋白质是否跟肌肉量有关,会花费许多时间及费用。因此必须研发挑选具有影响力的蛋白质的技术。
发明内容
有鉴于此,本发明提供一种利用自动化机制挑选影响力指标的方法及电子装置,其可从多个待测指标中挑选出具影响力的指标。
本发明的实施例提供一种利用自动化机制挑选影响力指标的方法,适用于电子装置。而利用自动化机制挑选影响力指标的方法包括下列步骤。取得原始数据,其中上述原始数据包括身体相关变数及身体相关变数对应的多个待测指标。设定身体相关变数为目标参数。将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。以及计算候选指标与身体相关变数的相关性以决定影响力指标。
从另一观点来看,本发明的实施例提供一种电子装置,此电子装置包括存储装置及计算装置。存储装置存储一或多个指令,而计算装置耦接存储装置并用以执行上述指令以执行下列步骤。取得原始数据,其中上述原始数据包括身体相关变数及身体相关变数对应的多个待测指标。设定身体相关变数为目标参数。将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。以及计算候选指标与身体相关变数的相关性以决定影响力指标。
基于上述,本发明诸实施例所述利用自动化机制挑选影响力指标的方法及电子装置,其设定不同的身体相关变数为目标参数,并将身体相关变数及与身体相关变数对应的多个待测指标输入至模型验证,以根据模型验证的输出结果排序各待测指标取得排名数据。并且利用筛选条件根据排名数据挑选具有重要性的待测指标,再计算候选指标与身体相关变数的相关性以验证候选指标是否对身体相关变数具有影响力。藉此,可从多个待测指标中挑选出对身体相关变数具关联性的影响力指标。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1示出本发明一实施例的电子装置的框图;
图2示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图;
图3示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图;
图4A示出本发明一实施例的检定男性蛋白质Q7含量显着性的范例;
图4B示出本发明一实施例的检定女性蛋白质Q7含量显着性的范例。
附图标号说明
100:电子装置;
110:计算装置;
120:存储装置;
S202~S210:步骤;
401、402:盒须图。
具体实施方式
现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。本发明的部份实施例接下来将会配合附图来详细描述,以下的描述所引用的元件符号,当不同附图出现相同的元件符号将视为相同或相似的元件。这些实施例只是本发明的一部份,并未揭示所有本发明的可实施方式。更确切的说,这些实施例只是本发明的权利要求中的方法以及电子装置的范例。
图1示出本发明一实施例的电子装置的框图。参考图1,电子装置100包括但不限于计算装置110以及存储装置120。计算装置110耦接至存储装置120,而可存取并执行记录在存储装置120中的指令,以实现本发明实施例的利用自动化机制挑选影响力指标的方法。电子装置100例如是个人计算机(personal computer,PC)、工作站(work station)、服务器(server)、笔记本电脑(notebook)、个人数字助理(personal digital assistant,PDA)、智能手机(smart phone)、平板计算机(tablet PC)等具有运算能力的电子装置,本发明不在此限制。
在不同实施例中,计算装置110例如是中央处理单元(Central Processing Unit,CPU),或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可编程控制器、特殊应用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、可编程逻辑装置(Programmable Logic Device,PLD)或其他类似装置或这些装置的组合,本发明不在此限制。
存储装置120例如是任意型式的固定式或可移动式随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash memory)、硬件或其他类似装置或这些装置的组合,而用以存储可由计算装置110执行的一或多个指令,这些指令可载入计算装置110。
图2示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图。请同时参照图1及图2,本实施例的方法适用于上述的电子装置100,以下即搭配电子装置100的各项装置及元件说明本实施例的利用自动化机制挑选影响力指标的方法的详细步骤。
首先,由计算装置110取得原始数据,其中原始数据包括身体相关变数及身体相关变数对应的多个待测指标(步骤S202)。详细而言,原始数据所包括的待测指标是可用于研究特定生理现象的人体组成成分,而身体相关变数是与特定生理现象相关联并且可通过测量而得到的数据。以研究肌少症(Sarcopenia)的相关因子为例,肌少症是随着老化历程造成与运动相关四肢骨胳肌流失,以致活动功能丧失的状况。由此可知,肌少症的发生会与肌肉量的变化有关系。由于肌肉的组成是蛋白质,因此可以研究人体内蛋白质与肌肉量之间的关联性,并找出影响肌肉量相关的蛋白质。于此,待测指标例如是不同的蛋白质。当研究人员想要研究找出与肌肉量相关的蛋白质时,可以利用与肌肉量数值相关的身体相关变数来研究哪些蛋白质可能影响肌肉量。举例来说,与肌肉量数值相关的身体相关变数例如是握力(Grip strength)、除脂肪体重(Lean Body Mass,LBM)、四肢骨格肌质量(appendicular skeletal muscle mass,ASM)以及四肢骨骼肌质量指数(relativeappendicular skeletal muscle mass,RASM,四肢骨胳肌质量指数的计算方法为ASM/(身高2))。
之后,计算装置110会设定身体相关变数为目标参数(步骤S204)。具体而言,由于本发明实施例提供的自动化机制会使用多个机器学习的模型来辅助筛选重要的蛋白质,需要建构Y=f(X)的函数,因此计算装置110会先将身体相关变数Y设定为目标参数。以前述肌少症研究为例,身体相关变数Y例如是握力、除脂肪体重、四肢骨格肌质量以及四肢骨胳肌质量指数,而函数中的X例如是待测指标,即,上千个蛋白质的侦侧含量。
接着,计算装置110会将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据(步骤S206)。具体而言,计算装置110会根据机器学习方法建立预测目标参数(即,身体相关变数Y)的多个模型验证(modelvalidation),利用建立的各个验证模型预测待测指标X对于身体相关变数Y的重要性,并根据待测指标X对于身体相关变数Y的重要性排序各待测指标X以产生排名数据。举例而言,计算装置110可建立回归方法、树状方法或神经网络模型等模型验证来计算Y=f(X)的函数中各个待测指标X的重要性。回归方法例如是线性回归(Linear regression)、Lasso算法(Lasso regression)、岭回归(Ridge regression)、支持相量回归(Support Vectorregression)或偏最小二乘回归(Partial Least Square regression)等回归方法。树状方法例如是回归树(Regression Tree)、随机森林(Random Forest)等树状方法。神经网络模型例如是深度神经网络(Deep Neural Networks,DNN)等神经网络模型。在建立验证模型后,计算装置110利用各个验证模型中衡量待测指标X重要性的准则来决定每个待测指标X的重要性。举例而言,可决定待测指标X的重要性的准则例如是回归方法中待测指标X的权重或是p-value是否显着、树状方法中拿掉待测指标X后模型精度下降的程度,或者,神经网络中神经元的权重。
在计算装置110获得各个待测指标X对于身体相关变数Y的重要性的数据后,计算装置110会根据取得的重要性数据排序每个待测指标X,并产生排名数据。产生排名数据的方法例如是利用待测指标X的重要性或者是使用计算次数的方法来排名待测指标X。在一实施例中,计算装置110可以取得每个模型验证预测出的各个待测指标X对于身体相关变数的重要性的排名名次,并分别加总各待测指标X对应的排名名次以产生排名数据。在另一实施例中,计算装置110还可以是使用计算次数的方式来记录待测指标X。具体而言,计算装置110在取得每个模型验证预测出的各个待测指标X对于身体相关变数的重要性的排名名次后,根据预设的名次数量从排名名次中挑选待测指标X,接着计算待测指标X被挑选的次数以产生排名数据。
之后,计算装置110利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标(步骤S208)。在通过多个验证模型计算出排名数据后,计算装置110可以选择排名最高或排名在特定名次之前的待测指标X作为重要性较高的待测指标X,而挑选此(些)待测指标X为候选指标。
此外,计算装置110还可以根据其他的筛选条件来进一步筛选或给予更多的证据支持从待测指标X中挑选出候选指标。在一实施例中,计算装置110可以是在利用建立的各个验证模型计算出待测指标X对于身体相关变数Y的重要性,并根据待测指标X对于身体相关变数Y的重要性排序各待测指标X以产生排名数据后,额外限制重要性对应的相关系数必须大于某个预设数值才被挑选为产生排名数据的待测指标X。具体而言,计算装置110会计算每个待测指标X与身体相关变数Y的相关系数(correlation coefficient),并挑选排名数据中,与身体相关变数Y的相关系数大于预设阈值的待测指标X为候选指标。预设阈值可经由一连串的事先分析而决定,并将其保存于存储装置120之中,例如,可以限制预设阈值为0.4。
在另一实施例中,计算装置110可以利用多组排名数据之间的交集来挑选候选指标。需先说明的是,由于待测指标X与身体相关变数Y皆为测量值,并且各个测量值的单位不一,因此在步骤S206之前,计算装置110可以先标准化原始数据中的身体相关变数Y及待测指标X为经转换数据,再将经标准化转换的身体相关变数及经标准化转换的待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据。据以,通过对原始数据进行数据转换,将原始数据中的身体相关变数及待测指标转换为符合模型验证规则的经转换数据,可以满足用于模型验证方法的需求或消除系统性的误差。其中系统性的误差发生的原因,是由于测量仪器本身有误差而可能发生同一个人的同一个蛋白质在不同仪器测量结果不同的现象。数据转换的方法例如是标准化(Standardization)及/或对数转换(Log transformation)。标准化方法可表示成方程式(1),对数转换方法可表示成方程式(2):
Xnew=log(Xold) (2)
其中,Xold是待测指标X转换前的原始数据,Xnew是待测指标X转换后的经转换数据,mean(Xold)代表原始数据的平均值,std(Xold)代表原始数据的标准差,log(Xold)代表原始数据的对数。
在利用多组排名数据之间的交集来挑选候选指标的方法中,首先,计算装置110会标准化身体相关变数及待测指标X为经转换数据,并将经转换数据输入模型验证中以取得经转换排名数据。利用模型验证取得经转换排名数据的方式与步骤S206中取得排名数据的方式相似,故在此不再赘述。接着,计算装置110根据原始数据的排名数据以及经转换数据的排名数据中待测指标X的排名以从待测指标X中挑选候选指标。详细而言,计算装置110可以直接加总原始数据的排名数据以及经转换数据的排名数据中各待测指标X对应的排名名次,并选择排名最高或排名在特定名次之前的待测指标X作为重要性较高的待测指标X,而挑选此(些)待测指标X为候选指标。另一方面,计算装置110也可以先分别从原始数据的排名数据以及经转换数据的排名数据中选择排名最高或排名在特定名次之前的待测指标X作为重要性较高的待测指标X,再选择两者之中重复被挑选次数最高或重复被挑选次数在特定挑选次数之前的待测指标X为候选指标,本发明不在此限制。
换句话说,在排名数据以及经转换排名数据中排名越前面的待测指标X代表重要性越高。据此,交集法可通过交叉比对待测指标X在排名数据以及经转换排名数据中的排名,挑选排名较高且排名交集最多的待测指标X作为候选指标。
在另一实施例中,计算装置110可以利用上述步骤S206的模型验证排序方法,取得关联于相同特定生理现象的多个身体相关变数的多组排名数据。于此,利用多组排名数据之间的交集来挑选候选指标的方式与上述步骤S208中挑选候选指标的方式相似,故在此不再赘述。
最后,计算装置110计算候选指标与身体相关变数的相关性以决定影响力指标(步骤S210)。在经由前述步骤后,计算装置110可以从多个待测指标X中挑选出对于身体相关变数Y最重要的候选指标。接着,计算装置110可建立用于检验的模型以确认候选指标与身体相关变数Y的相关性是否符合两者之间的特性关系,亦即,通过特性关系确认选出的候选指标是可以用于预测身体相关变数Y的影响力指标。具体来说,计算装置110利用统计模型验证候选指标与身体相关变数的相关性,以确定候选指标是否为对应至身体相关变数的影响力指标。例如,建立利用模型系数方向性(model accuracy)或模型系数显着性(modelsignificance)等统计方法的验证模型来确认挑选出的候选指标的重要性。
在本发明的另一实施例中,还可以通过从原始数据中随机选取数据的机制,来重现对身体相关变数而言重要指标的重现性。藉此,可避免筛选出的候选指标是因为某次数据偏斜性而胜出。并且,进一步利用模型验证预测多组随机选取数据中待测指标X的多组排名数据,后续通过这些排名数据来决定不同模型验证的权重。藉此,可利用取得的权重反馈至图2的步骤S206中来更准确的决定待测指标X的最终排名数据。
具体而言,计算装置110会从原始数据中随机选取多组子数据,并将子数据输入模型验证,以根据模型验证的输出结果取得多个排名数据。于此,利用多组排名数据之间的交集来挑选候选指标的方式与上述步骤S208中挑选候选指标的方式相似,故在此不再赘述。在另一实施例中,也可以标准化随机选取的多组子数据,并利用多组标准化子数据取得的多组排名数据与利用多组子数据取得的多组排名数据之间的交集来挑选候选指标。
进一步而言,计算装置110还可以利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标。具体而言,计算装置110根据各子数据对应的排名数据中,待测指标X被挑选为候选指标的次数计算待测指标X的平均特征数。接着,计算装置110再根据平均特征数的倒数决定模型验证的权重,并根据模型验证的权重决定待测指标X的重要性。举例而言,请参照下表1。假设从原始数据中随机选取10组子数据,并且利用模型验证Lasso、RF、SVR的输出结果排名并挑选出候选指标后,待测指标X1、X2、X3被每个模型验证挑选中的次数如下表1所示。于此,各模型验证的平均特征数的计算方式例如是待测指标被挑选总次数/子数据组数。平均特征数的计算结果如下表1所示。
表1
待测指标 | Lasso | RF | SVR | 平均特征数 |
X1 | 6 | 7 | 8 | 21/10=2.1 |
X2 | 5 | 6 | 3 | 14/10=1.4 |
X3 | 9 | 4 | 9 | 22/10=2.2 |
而模型验证对应的平均特征数越少,代表此模型验证选出的特征就越重要。因此,可以使用平均特征数的倒数决定每个模型验证的平均次数权重。计算出每个模型验证的平均次数权重后,接着将待测指标被每个模型验证挑选中的次数分别乘以每个模型验证平均次数权重来获得待测指标的重要性。下表2以待测指标X1为例,待测指标X1的重要性为6*W1+7*W2+8*W3。若以待测指标X2为例,待测指标X2的重要性则为5*W1+6*W2+3*W3。通过计算出待测指标X1~X3的重要性,计算装置110可根据重要性结果从待测指标中挑选候选指标。挑选候选指标的方式例如是选择重要性最高或重要性在特定名次之前的待测指标X作为候选指标,本发明不在此限制。
表2
以下举实施例说明本发明上述方法的具体实施方式。图3示出本发明一实施例的利用自动化机制挑选影响力指标的方法的流程图。以下实施例以研究肌少症的相关因子为例来举例说明本发明利用自动化机制挑选影响力指标的方法。需说明的是,本发明不限制用于挑选肌少症的相关因子,也可以用于挑选与其他特定生理现象(如,其他病症)的身体相关变数Y相关联的多个待测指标X。
首先,计算装置110取得原始数据,其中原始数据包括身体相关变数及身体相关变数Y对应的多个待测指标X(步骤S202)。并且设定身体相关变数Y为目标参数(步骤S204)。在本实施例中,身体相关变数Y可以是握力、除脂肪体重、四肢骨格肌质量或四肢骨胳肌质量指数,而待测指标X包括多种蛋白质。接着,计算装置110将原始数据分为训练数据及测试数据(步骤S205)。
之后,计算装置110将身体相关变数及待测指标输入至多个模型验证中,以根据模型验证的输出结果排序各待测指标以取得排名数据(步骤S206)。具体而言,在步骤S206中,计算装置110将训练数据分为原始数据部分(步骤S2061)和标准化原始数据的数据标准化部分(步骤S2061),并分别将原始数据和标准化数据输入至多个模型验证中以取得排名数据。在本实施例中,原始数据经模型验证Lasso、RF、SVR计算后如下表3所示,表3中呈现蛋白质X1~X7对各个模型验证的重要性数值。排名数据的产生方法可以是名次加总方式(如表4所示),或是计算次数方式(如表5所示)。详细的排名数据产生方法已如前述,在此不再赘述。
表3
蛋白质 | Lasso | RF | SVR |
X1 | 0.8 | 0.9 | 1.7 |
X2 | 2.3 | 0.8 | 5.8 |
X3 | 0.1 | 0.7 | 2.3 |
X4 | 0.05 | 0.6 | 0.2 |
X5 | 0.001 | 0.5 | 0.1 |
X6 | 5.3 | 0.4 | 2.8 |
X7 | 1.2 | 0.3 | 5.6 |
表4
蛋白质 | Lasso | RF | SVR | 名次加总 |
X1 | 4 | 1 | 5 | 10 |
X2 | 2 | 2 | 1 | 5 |
X3 | 5 | 3 | 4 | 12 |
X4 | 6 | 4 | 6 | 16 |
X5 | 7 | 5 | 7 | 19 |
X6 | 1 | 6 | 3 | 10 |
X7 | 3 | 7 | 2 | 12 |
表5
蛋白质 | Lasso | RF | SVR | 计次加总 |
X1 | 1 | 1 | 1 | 3 |
X2 | 1 | 1 | 1 | 3 |
X3 | 1 | 1 | 1 | 3 |
X4 | 0 | 1 | 0 | 1 |
X5 | 0 | 1 | 0 | 0 |
X6 | 1 | 0 | 1 | 2 |
X7 | 1 | 0 | 1 | 2 |
在本实施例中,计算装置110可以通过从原始数据中重复随机取样K次来选取多组子数据(步骤S2063),并再次对多组子数据进行模型验证以取得多组排名数据。或者计算装置110也可以针对每个目标参数(即,不同的身体相关变数)重复执行步骤S204~步骤S2063,以取得多组排名数据(步骤S207)。在此,是否要随机取样或针对不同的身体相关变数重复执行取得多组排名数据的步骤,可由本领域技术的人设计与调整,本发明不在此限制。
接着,之后,计算装置110利用筛选条件根据排名数据计算待测指标的重要性,以从待测指标中挑选候选指标(步骤S208)。步骤S208可参照图2中对应步骤的内容,在此不再赘述。在本实施例中,计算装置110挑选出蛋白质Q7为候选指标。
最后,计算装置110计算候选指标与身体相关变数的相关性以决定影响力指标(步骤S210)。具体而言,计算装置110利用测试数据来确定所选出的蛋白质Q7是否为对应至身体相关变数的影响力指标。在一实施例中,模型系数方向性例如是建立蛋白质Q7与特定生理现象(如,肌少症)之间的逻辑模型(logistic model)。模型建立结果以下表6为例。于此,蛋白质Q7的让步比(odds ratio)为正,则代表所选出的蛋白质Q7与特定生理现象为正向关系。在此状况下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。
表6
让步比 | |
Log(Q7) | 1.71 |
年龄 | 1.07 |
性别 | 0.84 |
在另一实施例中,模型系数显着性例如是建立候选指标Q7(如,蛋白质)与特定生理现象(如,肌少症)相似的生理现象(如,衰弱症)之间的逻辑模型。模型建立结果以下表7为例。于此,蛋白质Q7的让步比为正且P值(p-value)<0.05,则表示所选出的蛋白质Q7与衰弱症为正向关系。由于衰弱症与肌少症有相似的肌肉量减少的情形,在此预测结果下也可以推定所选出的蛋白质Q7为肌少症的影响力指标。
表7
让步比 | P值 | |
Log(Q7) | 7.23 | 0.047 |
年龄 | 1.24 | <0.001 |
性别 | 0.97 | 0.955 |
在另一实施例中,模型系数显着性例如是建立候选指标Q7(如,蛋白质)与受测者与肌肉量相关的数值(如,握力、行走速度、除脂肪体重、四肢骨格肌质量、四肢骨胳肌质量指数等)之间的线性模型(linear model)。模型建立结果以下表8及表9为例,从表8及表9中可观察出蛋白质Q7与握力、行走速度、除脂肪体重、四肢骨格肌质量、四肢骨胳肌质量指数的相关系数为负,且P值(p-value)<0.05。这样的预测结果表示与肌肉量相关的数值与蛋白质Q7为负向关系,换句话说,当蛋白质Q7的数值越大,则与肌肉量相关的数值越小。由于肌少症有肌肉量减少的情形,在此预测结果下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。
表8
表9
在又一实施例中,模型分组显着性例如是将与肌肉量相关的数值(如,握力、行走速度、除脂肪体重、四肢骨格肌质量、四肢骨胳肌质量指数等)分成高低两个组别,并检定两个组别的候选指标Q7(如,蛋白质)含量是否具有显着差异。
以四肢骨格肌质量并以男性受测者为例,图4A示出本发明一实施例的检定男性蛋白质Q7含量显着性的范例。请参照图4A的分组盒须图401。在本范例中,高肌肉量与低肌肉量之间的T检定结果的T值为3.1579,亦即,T检定结果具有显着差异。因此显示出高肌肉量的组别,其蛋白质Q7的含量较低。换句话说,此预测结果代表低肌肉量的组别的蛋白质Q7的含量较高。由于肌少症有肌肉量减少的情形,在此预测结果下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。
以四肢骨格肌质量并以女性受测者为例,图4B示出本发明一实施例的检定女性蛋白质Q7含量显着性的范例。请参照图4B的分组盒须图402。在本范例中,高肌肉量与低肌肉量之间的T检定结果的T值为3.0243,亦即,T检定结果具有显着差异。因此显示出高肌肉量的组别,其蛋白质Q7的含量较低。换句话说,此预测结果代表低肌肉量的组别的蛋白质Q7的含量较高。由于肌少症有肌肉量减少的情形,在此预测结果下则可以确定所选出的蛋白质Q7为肌少症的影响力指标。
综上所述,于本发明实施例中,通过使用不同的验证模型及随机选取不同的样本,自动找出待测指标中对于预测身体相关变数据有影响力的主要待测指标。藉此,可从多个待测指标中挑选出对身体相关变数具关联性的影响力指标,以避免耗时费力的大量实验,达成自动化挑选影响力指标的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种利用自动化机制挑选影响力指标的方法,适用于电子装置,其特征在于,包括:
取得原始数据,其中所述原始数据包括身体相关变数及所述身体相关变数对应的多个待测指标,其中所述身体相关变数包括握力、除脂肪体重、四肢骨格肌质量或四肢骨骼肌质量指数,且所述多个待测指标包括多个蛋白质的侦测含量;
设定所述身体相关变数为目标参数;
将所述身体相关变数及所述待测指标输入至多个模型验证中,以利用所述多个模型验证预测所述待测指标对于所述身体相关变数的重要性;
根据所述多个模型验证的预测的各所述待测指标对于所述身体相关变数的重要性排序各所述待测指标以取得所述待测指标对于所述身体相关变数的重要性的多个排名名次;
根据所述多个排名名次计算排名数据;
利用筛选条件根据所述排名数据计算所述待测指标的重要性,以从所述待测指标中挑选候选指标;以及
计算所述候选指标与所述身体相关变数的相关性以根据所述相关性确定所述候选指标是用于预测所述身体相关变数的影响力指标,其中利用所述筛选条件根据所述排名数据计算所述待测指标的重要性,以从所述待测指标中挑选所述候选指标的步骤包括:
挑选所述排名数据中,与所述身体相关变数的相关系数大于预设阈值的所述待测指标为所述候选指标。
2.根据权利要求1所述的利用自动化机制挑选影响力指标的方法,其中根据所述多个排名名次计算所述排名数据的步骤包括:
分别加总各所述待测指标对应的所述排名名次以产生所述排名数据。
3.根据权利要求1所述的利用自动化机制挑选影响力指标的方法,其中根据所述多个排名名次计算所述排名数据的步骤包括:
根据预设的名次数量从所述排名名次中挑选所述待测指标;以及
计算各所述待测指标被挑选的次数以产生所述排名数据。
4.根据权利要求1所述的利用自动化机制挑选影响力指标的方法,其中所述方法还包括:
标准化所述原始数据中的所述身体相关变数及所述待测指标为经转换数据;以及
将所述经转换数据输入所述多个模型验证中以根据所述多个模型验证的输出结果排序各所述待测指标以取得经转换排名数据。
5.根据权利要求4所述的利用自动化机制挑选影响力指标的方法,其中利用所述筛选条件根据所述排名数据计算所述待测指标的重要性,以从所述待测指标中挑选所述候选指标的步骤包括:
根据所述排名数据以及所述经转换排名数据中所述待测指标的排名以从所述待测指标中挑选所述候选指标。
6.根据权利要求1所述的利用自动化机制挑选影响力指标的方法,其中计算所述候选指标与所述身体相关变数的相关性以根据所述相关性确定所述候选指标是用于预测所述身体相关变数的所述影响力指标的步骤包括:
利用统计模型验证所述候选指标与所述身体相关变数的相关性,以确定所述候选指标是否为对应至所述身体相关变数的所述影响力指标。
7.根据权利要求1所述的利用自动化机制挑选影响力指标的方法,其中所述方法还包括:
从所述原始数据中随机选取多组子数据,并将所述子数据输入所述多个模型验证,以根据所述多个模型验证的输出结果取得多个所述排名数据;
根据各所述子数据对应的所述排名数据中,所述待测指标被挑选为所述候选指标的次数计算所述待测指标的平均特征数,所述平均特征数为所述待测指标被挑选总次数与子数据组数的比值;
根据所述平均特征数的倒数决定所述多个模型验证的权重;以及
根据所述多个模型验证的所述权重决定所述待测指标的重要性。
8.一种电子装置,包括:
存储装置,存储一或多个指令;以及
计算装置,耦接所述存储装置,用以执行所述指令以:
取得原始数据,其中所述原始数据包括身体相关变数及所述身体相关变数对应的多个待测指标,其中所述身体相关变数包括握力、除脂肪体重、四肢骨格肌质量或四肢骨骼肌质量指数,且所述多个待测指标包括多个蛋白质的侦测含量;
设定所述身体相关变数为目标参数;
将所述身体相关变数及所述待测指标输入至多个模型验证中,以利用所述多个模型验证预测所述待测指标对于所述身体相关变数的重要性;
根据所述多个模型验证的预测的各所述待测指标对于所述身体相关变数的重要性排序各所述待测指标以取得所述待测指标对于所述身体相关变数的重要性的多个排名名次;
根据所述多个排名名次计算排名数据;
利用筛选条件根据所述排名数据计算所述待测指标的重要性,以从所述待测指标中挑选候选指标;以及
计算所述候选指标与所述身体相关变数的相关性以根据所述相关性确定所述候选指标是用于预测所述身体相关变数的影响力指标,其中利用所述筛选条件根据所述排名数据计算所述待测指标的重要性,以从所述待测指标中挑选所述候选指标的步骤包括:
挑选所述排名数据中,与所述身体相关变数的相关系数大于预设阈值的所述待测指标为所述候选指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010047347.7A CN113130073B (zh) | 2020-01-16 | 2020-01-16 | 利用自动化机制挑选影响力指标的方法及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010047347.7A CN113130073B (zh) | 2020-01-16 | 2020-01-16 | 利用自动化机制挑选影响力指标的方法及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113130073A CN113130073A (zh) | 2021-07-16 |
CN113130073B true CN113130073B (zh) | 2024-01-19 |
Family
ID=76771745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010047347.7A Active CN113130073B (zh) | 2020-01-16 | 2020-01-16 | 利用自动化机制挑选影响力指标的方法及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113130073B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469151B (zh) * | 2021-09-03 | 2022-02-15 | 深圳市信润富联数字科技有限公司 | 工业制造中传感器的筛选方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090032809A (ko) * | 2007-09-28 | 2009-04-01 | 한국화학연구원 | TALLYHO/JngJ 마우스를 이용한 골다공증 및골대사 이상 질환 예방 또는 치료용 조성물의 스크리닝방법 |
WO2012091506A2 (ko) * | 2010-12-30 | 2012-07-05 | (주) 바이오인프라 | 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법 |
US8244504B1 (en) * | 2007-12-24 | 2012-08-14 | The University Of North Carolina At Charlotte | Computer implemented system for quantifying stability and flexibility relationships in macromolecules |
CN106529207A (zh) * | 2016-10-08 | 2017-03-22 | 华中科技大学 | 一种与核糖核酸结合的蛋白质的预测方法 |
CN109308545A (zh) * | 2018-08-21 | 2019-02-05 | 中国平安人寿保险股份有限公司 | 预测患糖尿病几率的方法、装置、计算机设备及存储介质 |
CN109408773A (zh) * | 2018-11-06 | 2019-03-01 | 福州大学 | 一种生态健康诊断的指标自动化筛选方法 |
CN109460825A (zh) * | 2018-10-24 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7774143B2 (en) * | 2002-04-25 | 2010-08-10 | The United States Of America As Represented By The Secretary, Department Of Health And Human Services | Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states |
-
2020
- 2020-01-16 CN CN202010047347.7A patent/CN113130073B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090032809A (ko) * | 2007-09-28 | 2009-04-01 | 한국화학연구원 | TALLYHO/JngJ 마우스를 이용한 골다공증 및골대사 이상 질환 예방 또는 치료용 조성물의 스크리닝방법 |
US8244504B1 (en) * | 2007-12-24 | 2012-08-14 | The University Of North Carolina At Charlotte | Computer implemented system for quantifying stability and flexibility relationships in macromolecules |
WO2012091506A2 (ko) * | 2010-12-30 | 2012-07-05 | (주) 바이오인프라 | 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법 |
CN106529207A (zh) * | 2016-10-08 | 2017-03-22 | 华中科技大学 | 一种与核糖核酸结合的蛋白质的预测方法 |
CN109308545A (zh) * | 2018-08-21 | 2019-02-05 | 中国平安人寿保险股份有限公司 | 预测患糖尿病几率的方法、装置、计算机设备及存储介质 |
CN109460825A (zh) * | 2018-10-24 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
CN109408773A (zh) * | 2018-11-06 | 2019-03-01 | 福州大学 | 一种生态健康诊断的指标自动化筛选方法 |
Non-Patent Citations (2)
Title |
---|
Jaeeun Myung.Assessment of the validity of multiple obesity indices compared with obesity-related co-morbidities.《Public Health Nutrition》.2019,第22卷(第07期),全文. * |
肖辉 ; 郝元涛 ; 徐晓 ; 朱晓宇 ; .基于随机森林算法和Logistic回归模型的糖尿病风险因素研究.中国数字医学.2018,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113130073A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598111B (zh) | 异常数据的识别方法和装置 | |
Sitompul et al. | Measuring the accuracy of simple evolving connectionist system with varying distance formulas | |
CN111931983B (zh) | 一种降水量预测方法及系统 | |
JP7063389B2 (ja) | 処理装置、処理方法、およびプログラム | |
US20220113250A1 (en) | Method for Near-Infrared Spectral Wavelength Selection Based on Improved Team Progress Algorithm | |
CN113130073B (zh) | 利用自动化机制挑选影响力指标的方法及电子装置 | |
CN113935535A (zh) | 一种面向中长期预测模型的主成分分析方法 | |
CN115238969A (zh) | 一种白蚁预防的趋势预测方法、装置、电子设备及介质 | |
CN111209316A (zh) | 一种信息素养数据挖掘方法、装置、电子设备及存储介质 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
TWI762853B (zh) | 利用自動化機制挑選影響力指標的方法及電子裝置 | |
CN114881343A (zh) | 基于特征选择的电力系统短期负荷预测方法及装置 | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
CN116431346A (zh) | 一种用于电子设备主存储器容量的补偿方法 | |
WO2022176293A1 (ja) | 物性予測装置及びプログラム | |
CN115048290A (zh) | 软件质量的评估方法、装置、存储介质及计算机设备 | |
CN114418097A (zh) | 神经网络量化处理方法、装置、电子设备及存储介质 | |
CN114510405A (zh) | 指标数据评估方法、装置、设备、存储介质及程序产品 | |
CN115879405B (zh) | 电路性能的检测方法及计算机存储介质和终端设备 | |
US20230111182A1 (en) | Method for a predictive prognosis of menopause onset | |
TWI806425B (zh) | 特徵挑選方法 | |
CN111091865B (zh) | MoRFs预测模型的生成方法、装置、设备和存储介质 | |
CN116108974A (zh) | 一种考虑气象因素的需求响应基线负荷预测方法及装置 | |
CN118467399A (zh) | 一种关联预测模型的建模方法、建模系统及认知测评方法 | |
CN117032094A (zh) | 一种工厂控制方案决策方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |