CN110363229B - 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法 - Google Patents

一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法 Download PDF

Info

Publication number
CN110363229B
CN110363229B CN201910564314.7A CN201910564314A CN110363229B CN 110363229 B CN110363229 B CN 110363229B CN 201910564314 A CN201910564314 A CN 201910564314A CN 110363229 B CN110363229 B CN 110363229B
Authority
CN
China
Prior art keywords
sample
characteristic parameter
algorithm
rrelieff
improved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910564314.7A
Other languages
English (en)
Other versions
CN110363229A (zh
Inventor
高秀娥
陈波
陈世峰
桑海涛
谢文学
张天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingnan Normal University
Original Assignee
Lingnan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingnan Normal University filed Critical Lingnan Normal University
Priority to CN201910564314.7A priority Critical patent/CN110363229B/zh
Publication of CN110363229A publication Critical patent/CN110363229A/zh
Priority to PCT/CN2020/083187 priority patent/WO2020258973A1/zh
Priority to ZA2020/03552A priority patent/ZA202003552B/en
Application granted granted Critical
Publication of CN110363229B publication Critical patent/CN110363229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及生物信息化技术领域。一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法,包括以下步骤:利用通过构建样本相似距离模型进行改进后的RReliefF算法来计算各个特征权重,去除不相关特征;利用mRMR算法来计算特征的最大相关最小冗余的相关度,去除冗余特征。本发明的有益效果:同时考虑了样本的欧氏距离和形态距离,构建了样本相似距离模型,改进了RReliefF算法,提高了特征选择算法的筛选性能,有助于获得相关性更大和冗余度更小的人体生理特征参数,进而有助于建立更简化有效且精度更高的人体体成分预测模型。

Description

一种基于改进RReliefF和mRMR相结合的人体特征参数选择 方法
技术领域
本发明涉及生物信息化技术领域,尤其是涉及一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法。
背景技术
特征选择(Future Selection,FS)也称特征子集选择(Future SubsetSelection,FSS),或称属性选择(Attribute Selection),是指从全部特征中选取一个特征子集,使构造出来的模型更好。在人体体成分模型的实际预测应用中,人体体成分模型预测的好坏容易受到所选择的特征参数的影响,好的特征参数可以有效的降低人体成分模型的训练时间和预测误差,好的特征参数集需要通过合适的特征选择算法来选取。经典的特征选择算法有基于回归系数和最优负荷的特征选择、基于Fisher准则和特征聚类的特征选择等,但是该类算法仅选出和分类结果更加相关的特征,并未赋予特征相应的权重;此外,mRMR算法(Max-Relevance and Min-Redundancy,最小冗余最大相关性算法)是一种基于特征之间互信息并根据最大统计依赖性准则类选择特征的算法,尽管其能够有效缩小特征之间的相关性,但是计算互信息耗费大量时间、效率低,而Rlief算法(Feature WeightingAlgorithms,基于特征权重的特征选择算法)会根据特征与类别的相关性赋予不同特征差异化的权重,运行效率高,且对数据类型没有限制。Kononeill等人对Relie f进行了扩展,使其功能更强大和可以处理不完整和噪声数据,得到了回归RReliefF算法(文献Robnik-Sikonja M,Kononenko I.Theoretical and Em pirical Analysis of ReliefF andRReliefF[J].Machine Learning,2003,53(1/2):23-39.)。
如公开日为2019-05-10公开号为CN109740683A的专利文献,其指出了如下问题:利用遗传算法进行特征选取的时候,首先需要随机产生一批特征子集,并用评价函数给这些特征子集评分,然后通过交叉、突变等操作繁殖出下一代的特征子集,选取评分越高的特征子集参加繁殖。这样经过N代的繁殖和优胜劣汰后,才能得到评价函数值最高的特征子集,这样虽然可以达到较高的预测精度,但是算法流程过于复杂,在一定程度上降低了模型效率。针对上述问题,该专利文献提出了一种基于RReliefF算法和支持向量回归的趋势预测方法,该方法利用RReliefF算法选取出的特征向量的优点,减少了模型训练时间,提高了模型效率。
虽然如上述专利文献采用RReliefF算法能够消除不相关特征,但是人体生理特征参数的数量多,且存在相互关联、非线性和不相关性等特点,阻抗值、身高和体重等人体生理特征参数相差很大的两个人,两者的体成分值有可能相似,而人体生理特征参数相近的两个人,两者的体成分值有可能相差较远,若是只使用原始的距离度量,容易存在误差,因此,使用RReliefF算法无法找到精准的最近邻样本,且无法去除冗余的特征。
发明内容
针对现有技术之不足,本发明提出了一种基于改进RReliefF和mRMR相结合的人体特征参数选择系统,该系统主要由智能电子设备、基于改进RReliefF和mRMR相结合的选择模块组件以及它们之间的接口组成。该系统是由智能电子设备设定改进RReliefF和mRMR的至少一个初始参数,并通过接口将所述初始参数传向选择模块组件,然后由选择模块组件实现人体特征参数的分类选择,并通过与智能电子设备的接口将改进RReliefF和mRM R每一代运行的中间结果和整个算法运行的最终结果传给智能电子设备,由智能电子设备将系统获得的人体特征参数集存储下来并基于用户的指令进行显示。
在本发明中,元件可以使用“被配置为”来描述执行一个或多个功能。一般来说,被配置为执行或被配置为用于执行一个功能的元件能够执行该功能,或者适合执行该功能,或者可操作地执行该功能,或者是以其他方式执行该功能。应当理解的是,“X,Y,Z中的至少一个”和“X,Y,Z中的一个或多个”可理解为只有X,只有Y,只有Z,或者X,Y,Z中的两个或多个的任意组合(例如,XYZ,XY,YZ,XZ,等等)。类似的逻辑也可应用于“至少一个……”和“一个或多个……”语句中出现的任何两个或多个对象。在本说明书中使用的,单数形式的“一”或“该”均包括复数的指代对象,除非该内容和上下文另外明确地指明。即例如,提及“装置”包括两个或更多个此类装置的组合。除非另外指明,“或”连接意图以其作为布尔逻辑算符的正确含义使用,包括择一性的特征选择(A或B)和合取性的特征选择(A或B)两者。所述智能电子设备包括但不限于计算机、手机、平板电脑等各类终端设备。
至少一个计算机处理器用于执行所述计算机可执行指令,以使所述人体特征参数选择系统执行如下所述的基于改进RReliefF和mRMR相结合的人体特征参数选择方法。如附图中的流程图和框图,其显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。计算机处理器是解释和执行指令的功能单元,也称为中央处理器或CPU,作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。
上述计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于是电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。这里所描述的计算机可执行指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可执行指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言诸如Smalltalk、C++等,以及常规的过程式编程语言诸如C语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
本发明的目的在于提供一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法,考虑人体生理特征参数的特殊性,通过样本数值距离与样本形态距离相结合的方法来改进RReliefF算法,去除不相关特征,结合mRMR算法来去除冗余特征。
本发明提供了由上述系统所执行的基于改进RReliefF和mRMR相结合的人体特征参数选择方法,所述方法至少包括以下步骤:利用通过构建样本相似距离模型进行改进后的RReliefF算法来计算各个特征权重,去除不相关特征;利用mRMR算法来计算特征的最大相关最小冗余的相关度,去除冗余特征。
根据一种优选实施方式,所述RReliefF算法的改进是通过至少一个以下步骤来实现的:定义样本i和样本j的相似距离模型:Cij=αDij+βSij,其中,Dij为相对欧氏距离系数,Sij为形态距离系数,α、β均为系数权重,且α+β=1,样本i和样本j的相似距离Cij的取值范围为[0,1]。
根据一种优选实施方式,利用改进后的RReliefF算法计算各个特征权重是通过至少一个以下步骤来实现的:构造训练样本数据集O、特征参数集F、目标类别集C;定义加权的人体生理特征参数集F`,初始的F`为空;将训练样本数据集O、特征参数集F、目标类别集C输入到改进后的RReliefF算法,以计算得到每一个特征参数的权重值W[A]。
根据一种优选实施方式,每一个特征参数的权重值W[A]是由以下计算公式得到的:
Figure GDA0003071663880000051
其中,NdC表示在不同的预测值条件下的权重,NdC[A]表示在不同的特征条件下的权重,NdC&dA[A]表示在不同的预测值、不同的特征条件下的权重集,m表示设定的人体生理特征参数的总个数。
根据一种优选实施方式,冗余特征的去除是通过至少一个以下步骤来实现的:定义最终特征参数集F``,初始的F``为空,将加权的人体生理特征参数集F`={f1,f2,…fm}与目标类别集C输入到mRMR算法,利用mRMR算法来去除冗余特征。
根据一种优选实施方式,加权的人体生理特征参数集F`={f1,f2,…fm}是通过将权重值大于阀值σ=0.1的特征参数放入F`中的方式来得到的。
根据一种优选实施方式,所述方法还包括以下步骤:计算样本的欧氏距离和形态距离;标准化并归一化欧氏距离和形态距离。
根据一种优选实施方式,设定样本i和样本j,样本i到样本j的欧氏距离的计算公式为:
Figure GDA0003071663880000052
其中,xik为样本i的第k个人体生理特征参数的数值,xjk为样本j的第k个人体生理特征参数的数值,m为人体生理特征参数的总个数。
根据一种优选实施方式,样本i到样本j的形态距离Rij的计算公式为:Rij=|rij|(Rij∈[0,1]),
Figure GDA0003071663880000053
其中,
Figure GDA0003071663880000054
为样本i的人体生理特征参数的平均值,
Figure GDA0003071663880000055
为样本j的人体生理特征参数的平均值。
一种基于改进RReliefF和mRMR相结合的人体特征参数选择系统,该系统主要由智能电子设备、基于改进RReliefF和mRMR相结合的选择模块组件以及它们之间的接口组成,所述选择模块组件至少包括至少一个计算机处理器,至少一个计算机处理器被配置为利用通过构建样本相似距离模型进行改进后的RReliefF算法来计算各个特征权重,去除不相关特征,和/或利用mRMR算法来计算特征的最大相关最小冗余的相关度,去除冗余特征。
本发明的有益效果是:引入样本相似距离模型,得到改进后的RReliefF算法,通过改进RReliefF和mRMR相结合的特征选择算法,对原始特征参数进行特征筛选,从而得到相关性大且冗余度小的优选特征参数集,有助于简化人体体成分预测模型和提高模型预测精度。
附图说明
图1是本发明的原理流程图。
图2是本发明的人体生理特征参数选择过程图。
图3是本发明实施例1的BFM模型预测值与真实值对比图。
图4是本发明实施例1的各个算法预测值相对误差对比图。
具体实施方式
下面将结合的附图,对本发明实施例中的技术方案进行描述。
如图1和图2所示,一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法,包括以下步骤:
步骤一:计算样本的欧氏距离和形态距离;
步骤二:标准化并归一化欧氏距离和形态距离;
步骤三:构建样本相似距离模型来改进RReliefF算法;
步骤四:利用改进后的RReliefF算法来计算各个特征权重,去除不相关特征;
步骤五:利用mRMR算法来计算特征的最大相关最小冗余的相关度,去除冗余特征。
在所述的步骤一中,欧氏距离和形态距离指的是用于计算样本间的“距离”(Distance)的距离度量方法。两个向量之间的距离计算,在数学上称为向量的距离,也称为样本之间的相似性度量(Similarity Meansurement),其反映为某类事物在距离上接近或远离的程度。欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。在所述的步骤一中,设定样本i和样本j,样本i到样本j的欧氏距离的计算公式为:
Figure GDA0003071663880000071
Figure GDA0003071663880000072
xik为样本i的第k个人体生理特征参数的数值,xjk为样本j的第k个人体生理特征参数的数值,m为人体生理特征参数的总个数。形态距离度量是通过考虑待计算对象各维的差值具体分布因素进行相似度计算的一种方法。样本i到样本j的形态距离的计算公式为:
Figure GDA0003071663880000073
Figure GDA0003071663880000074
其中
Figure GDA0003071663880000075
为样本i的人体生理特征参数的平均值,
Figure GDA0003071663880000076
为样本j的人体生理特征参数的平均值。样本i到样本j的形态距离Rij可用相似度系数的绝对值表示,即为Rij=|rij|(Rij∈[0,1])。
在所述的步骤二中,采用相对欧氏距离系数Dij,并且表示为样本数据距离系数,使用越大越优型的指标进行标准化并归一化,计算公式为:
Figure GDA0003071663880000077
Figure GDA0003071663880000078
min(dij)为欧氏的最小值,max(dij)为欧氏距离的最大值,由上述计算公式可知,Dij的取值范围为[0,1],相对欧氏距离越接近0,表明样本i和样本j的距离越小,相对欧氏距离越接近1,表明样本i和样本j的距离越大,为了使形态距离系数Sij与相对欧氏距离系数Dij具有同步的意义,取Sij=1-Rij,形态距离系数Sij的数值越接近0,表明样本i和样本j越相似,形态距离系数Sij的数值越接近1,表明样本i和样本j越不相似。
在所述的步骤三中,为了同时考虑样本i人体生理特征参数和样本j人体生理特征参数的数值距离、样本i人体生理特征参数和样本j人体生理特征参数的形态距离,定义样本i和样本j的相似距离模型:Cij=αDij+βSij,α、β均为系数权重,且α+β=1,样本i和样本j的相似距离Cij的取值范围为[0,1]。Cij的取值越接近0,表明样本i和样本j越相似,Cij的取值越接近1,表明样本i和样本j越不相似。
在所述的步骤四中,构造训练样本数据集O、特征参数集F、目标类别集C,定义加权的人体生理特征参数集F`,初始的F`为空,将训练样本数据集O、特征参数集F、目标类别集C输入到改进后的RReliefF算法,并由以下的计算公式得到每一个特征参数的权重值W[A],计算公式为:
Figure GDA0003071663880000079
Figure GDA00030716638800000710
NdC表示在不同的预测值条件下的权重,NdC[A]表示在不同的特征条件下的权重,NdC&dA[A]表示在不同的预测值、不同的特征条件下的权重集,m表示设定的人体生理特征参数的总个数。将权重值大于阀值σ=0.1的特征参数放入F`中,得到加权的人体生理特征参数集F`={f1,f2,…fm}。
ReliefF算法在处理多类问题时,每次从训练样本集中随机取出一个样本R,然后从和R同类的样本集中找出R的k个近邻样本(near Hits),从每个R的不同类的样本集中均找出k个近邻样本(near Misses),然后更新每个特征的权重。虽然Relief系列算法运行效率高,对数据类型没有限制,属于一种特征权重算法,但算法会赋予所有和类别相关性高的特征较高的权重,导致算法的局限于不能有效的去除冗余特征。在本发明中,在所述的步骤五中,定义最终特征参数集F``,初始的F``为空,将加权的人体生理特征参数集F`={f1,f2,…fm}与目标类别集C输入到mRMR算法,利用mRMR算法来去除冗余特征。具体地:首先使用最大相关度值从F、中选择一个与目标标签相关性最大的特征加入到集合F``中。最大相关度值的计算公式为:
Figure GDA0003071663880000081
I(fi;c)表示特征参数fi与目标类别c之间的互信息。互信息(Mutual Information,MI)表示两个变量X与Y是否有关系,以及关系的强弱。例如两个离散随机变量X和Y的互信息为:
Figure GDA0003071663880000082
其中p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
再次从F`中选择新的特征参数放入到F``中,假设已选择了q-1个特征,目标特征机为F`q-1,则现在从剩余的特征集合{F`-F`q-1}中选取第q个特征。该特征满足如下计算公式:
Figure GDA0003071663880000083
Figure GDA0003071663880000084
I(fi;c)表示特征参数fi与目标类别c之间的互信息,I(fi;fj)表示特征参数fi与特征参数fj之间的互信息,直到目标特征集F``中含有r个特征且分类精度Sr≥Sr+1时停止,否则继续通过计算公式
Figure GDA0003071663880000085
Figure GDA0003071663880000091
来筛选特征。
实施例1
基于上述的算法,选取了F``={G,A,W,H,R1R2,R2R3,R4R5,R6,R7R8,R2,H2/R2}作为最终特征集合。其中,针对目标特征集F``所包含的参数:人体存在阻抗,为了测量人体各部分的阻抗,可以将人体分为左上肢、上躯干、右上肢、左躯干、右躯干、下躯干、左下肢和右下肢共8段。电路产生的正弦电流源作为系统的激励信号,通过电极施加到人体的相应部位上,即可测量出相应部位的阻抗。在本发明中,上述人体各段所对应的等效阻抗分别用R1、R2、R3、R4、R5、R6、R7、R8来表示。此外,针对本发明中所提及的人体生理特征参数(HumanPhysiological Characteristic Parameters)如G、A、W和H,其分别代表变量性别、年龄、体重和身高。为了验证本发明的可行性、有效性和精确性,分别使用本发明的组合式特征选择算法模型、未改进的组合式特征选择算法和传统的filter式特征选择算法来训练样本和得到精简的人体生理特征参数集,然后分别使用最小二乘法对已得到的特征参数进行体成分回归预测,求得各个体成分预测值,并与体成分的真实测量值作对比。其中,上述最小二乘法指的是通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。体成分分析指标选取BFM(Body fat mass,体脂肪量),体成分真实值使用韩国最先进的inbody770测量,来自北京某医院672名健康的志愿者,从672名志愿者中随机抽取30名志愿者作为检验样本,剩余的642名志愿者则作为训练样本(即训练样本数据集O),表一为检验样本的人体生理特征参数集,表二为训练样本的人体生理特征参数集。特征参数集F包括表中测得的人体分段等效阻抗值R1~R8、G、A、W和H,目标类别集C包括表中由inbody770测得的体脂肪量(即BFM)。基于设定的上述训练样本数据集O、特征参数集F和目标类别集C,用以确定拟合模型各人体生理特征参数的未知权重ω。
经过训练与预测之后,图3为各个算法预测值与真实值对比图,图4为各个算法预测值相对误差的对比图,表三为不同模型性能对比汇总表,由图3、图4和表三可知,组合式特征选择算法与传统的filter式特征选择算法相比,组合式特征选择算法的均方误差较低,平均准确率较高,本发明针对人体体成分的特殊性而改进的组合式特征选择算法与未改进的组合式特征选择算法相比,改进的组合式特征选择算法的均方误差更低,平均准确率更高。
由机器学习和数据挖掘理论可知,一个多维的样本中通常存在少数几个关键特征或者主成份。在人体体成分预测模型的众多特征中同样只有少数几个关键特征。综上表明,本发明可以获得相关性大冗余小且有利于提高人体体成分预测模型精度的特征集,所获得人体生理特征集和人体体成分有更好的相关性,为人体生理特征参数筛选提供了一个新方案。
Figure GDA0003071663880000101
Figure GDA0003071663880000111
Figure GDA0003071663880000112
Figure GDA0003071663880000113

Claims (7)

1.一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法,
其特征是,所述方法至少包括以下步骤:
利用通过构建样本相似距离模型进行改进后的RReliefF算法来计算各个特征权重,去除不相关特征;
利用mRMR算法来计算特征的最大相关最小冗余的相关度,去除冗余特征;
所述RReliefF算法的改进是通过至少一个以下步骤来实现的:
定义样本i和样本j的相似距离模型:Cij=αDij+βSij,其中,Dij为相对欧氏距离系数,Sij为形态距离系数,α、β均为系数权重,且α+β=1,样本i和样本j的相似距离Cii的取值范围为[0,1];
利用改进后的RReliefF算法计算各个特征权重是通过至少一个以下步骤来实现的:
构造训练样本数据集0、特征参数集F、目标类别集C;
定义加权的人体生理特征参数集F`,初始的F`为空;
将训练样本数据集0、特征参数集F、目标类别集C输入到改进后的RReliefF算法,以计算得到每一个特征参数的权重值W[A];
冗余特征的去除是通过至少一个以下步骤来实现的:
定义最终特征参数集F``,初始的F``为空,将加权的人体生理特征参数集F`={f1,f2,...fm}与目标类别集C输入到mRMR算法,利用mRMR算法来去除冗余特征。
2.根据权利要求1所述的基于改进RReliefF和mRMR相结合的人体特征参数选择方法,其特征是,每一个特征参数的权重值W[A]是由以下计算公式得到的:
Figure FDA0003071663870000011
其中,Ndc表示在不同的预测值条件下的权重,NdC[A]表示在不同的特征条件下的权重,NdC&dA[A]表示在不同的预测值、不同的特征条件下的权重集,m表示设定的人体生理特征参数的总个数。
3.根据权利要求2所述的基于改进RReliefF和mRMR相结合的人体特征参数选择方法,其特征是,加权的人体生理特征参数集F`={f1,f2,...fm}是通过将权重值大于阀值σ=0.1的特征参数放入F`中的方式来得到的。
4.根据权利要求3所述的人体特征参数选择方法,其特征是,所述方法还包括以下步骤:
计算样本的欧氏距离和形态距离;
标准化并归一化欧氏距离和形态距离。
5.根据权利要求4所述的人体特征参数选择方法,其特征是,设定样本i和样本j,样本i到样本j的欧氏距离的计算公式为:
Figure FDA0003071663870000021
其中,xik为样本i的第k个人体生理特征参数的数值,xjk为样本j的第k个人体生理特征参数的数值,m为人体生理特征参数的总个数。
6.根据权利要求5所述的人体特征参数选择方法,其特征是,样本i到样本j的形态距离Rij的计算公式为:
Figure FDA0003071663870000022
其中,
Figure FDA0003071663870000023
为样本i的人体生理特征参数的平均值,
Figure FDA0003071663870000024
为样本j的人体生理特征参数的平均值。
7.一种基于改进RReliefF和mRMR相结合的人体特征参数选择系统,该系统主要由智能电子设备(1)、基于改进RReliefF和mRMR相结合的选择模块组件(2)以及它们之间的接口(3)组成,其特征是,所述选择模块组件(2)至少包括至少一个计算机处理器,至少一个计算机处理器被配置为
利用通过构建样本相似距离模型进行改进后的RReliefF算法来计算各个特征权重,去除不相关特征,
和/或
利用mRMR算法来计算特征的最大相关最小冗余的相关度,去除冗余特征;
所述RReliefF算法的改进是通过至少一个以下步骤来实现的:
定义样本i和样本j的相似距离模型:Cij=αDij+βSij,其中,Dij为相对欧氏距离系数,Sij为形态距离系数,α、β均为系数权重,且α+β=1,样本i和样本j的相似距离Cij的取值范围为[0,1];
利用改进后的RReliefF算法计算各个特征权重是通过至少一个以下步骤来实现的:
构造训练样本数据集O、特征参数集F、目标类别集C;
定义加权的人体生理特征参数集F`,初始的F`为空;
将训练样本数据集O、特征参数集F、目标类别集C输入到改进后的RReliefF算法,以计算得到每一个特征参数的权重值W[A];
冗余特征的去除是通过至少一个以下步骤来实现的:
定义最终特征参数集F``,初始的F``为空,将加权的人体生理特征参数集F`={f1,f2,...fm}与目标类别集C输入到mRMR算法,利用mRMR算法来去除冗余特征。
CN201910564314.7A 2019-06-27 2019-06-27 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法 Active CN110363229B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910564314.7A CN110363229B (zh) 2019-06-27 2019-06-27 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法
PCT/CN2020/083187 WO2020258973A1 (zh) 2019-06-27 2020-04-03 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法
ZA2020/03552A ZA202003552B (en) 2019-06-27 2020-06-12 A human body feature parameter selection method based on the combination of improved rrelieff and mrmr

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910564314.7A CN110363229B (zh) 2019-06-27 2019-06-27 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法

Publications (2)

Publication Number Publication Date
CN110363229A CN110363229A (zh) 2019-10-22
CN110363229B true CN110363229B (zh) 2021-07-27

Family

ID=68217096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910564314.7A Active CN110363229B (zh) 2019-06-27 2019-06-27 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法

Country Status (3)

Country Link
CN (1) CN110363229B (zh)
WO (1) WO2020258973A1 (zh)
ZA (1) ZA202003552B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363229B (zh) * 2019-06-27 2021-07-27 岭南师范学院 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法
CN113393488A (zh) * 2021-06-08 2021-09-14 南京师范大学 一种基于量子游走的行为轨迹序列多特征模拟方法
CN113456033B (zh) * 2021-06-24 2023-06-23 江西科莱富健康科技有限公司 生理指标特征值数据处理方法、系统及计算机设备
CN114494976A (zh) * 2022-02-17 2022-05-13 平安科技(深圳)有限公司 人体摔倒行为评估方法、装置、计算机设备及存储介质
CN114553681B (zh) * 2022-03-08 2024-02-02 中国人民解放军国防科技大学 设备状态异常检测方法、装置和计算机设备
CN117556233B (zh) * 2023-12-29 2024-03-26 巢湖学院 一种基于不平衡数据环境下的特征选择系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002094098A1 (en) * 2001-05-18 2002-11-28 Polartechnics Limited Diagnostic feature extraction in dermatological examination
CN105138835A (zh) * 2015-08-18 2015-12-09 大连大学 基于生理信息熵的人体体成分预测方法
CN107437090A (zh) * 2016-05-28 2017-12-05 郭帅杰 基于语音、表情与心电信号的三模态连续情感预测方法
CN107845407A (zh) * 2017-08-24 2018-03-27 大连大学 基于过滤式和改进聚类相结合的人体生理特征选择算法
CN108416767A (zh) * 2018-02-09 2018-08-17 重庆东渝中能实业有限公司 基于全息成像的红细胞多项生理参数检测方法
CN108537116A (zh) * 2018-03-05 2018-09-14 中国地质大学(武汉) 一种基于多尺度特征的海岸线二级类型提取方法及系统
CN108855988A (zh) * 2018-05-07 2018-11-23 新疆农业大学 基于机器视觉的核桃仁分级方法及核桃仁分级装置
CN109740683A (zh) * 2019-01-13 2019-05-10 胡燕祝 一种基于RReliefF算法和支持向量回归的趋势预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7219099B2 (en) * 2002-05-10 2007-05-15 Oracle International Corporation Data mining model building using attribute importance
TWI451336B (zh) * 2011-12-20 2014-09-01 Univ Nat Cheng Kung 預測模型之建模樣本的篩選方法及其電腦程式產品
US10885800B2 (en) * 2015-01-05 2021-01-05 Skullcandy, Inc. Human performance optimization and training methods and systems
CN104881707B (zh) * 2015-05-04 2018-07-03 同济大学 一种基于集成模型的烧结能耗预测方法
US10902025B2 (en) * 2015-08-20 2021-01-26 Skyhook Wireless, Inc. Techniques for measuring a property of interest in a dataset of location samples
CN106485086B (zh) * 2016-10-19 2019-10-25 大连大学 基于aic和改进熵权法的人体体成分预测方法
CN108596104B (zh) * 2018-04-26 2021-01-05 安徽大学 一种带有病害特征预处理功能的小麦白粉病遥感监测方法
CN108875795A (zh) * 2018-05-28 2018-11-23 哈尔滨工程大学 一种基于Relief和互信息的特征选择算法
CN110363229B (zh) * 2019-06-27 2021-07-27 岭南师范学院 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002094098A1 (en) * 2001-05-18 2002-11-28 Polartechnics Limited Diagnostic feature extraction in dermatological examination
CN105138835A (zh) * 2015-08-18 2015-12-09 大连大学 基于生理信息熵的人体体成分预测方法
CN107437090A (zh) * 2016-05-28 2017-12-05 郭帅杰 基于语音、表情与心电信号的三模态连续情感预测方法
CN107845407A (zh) * 2017-08-24 2018-03-27 大连大学 基于过滤式和改进聚类相结合的人体生理特征选择算法
CN108416767A (zh) * 2018-02-09 2018-08-17 重庆东渝中能实业有限公司 基于全息成像的红细胞多项生理参数检测方法
CN108537116A (zh) * 2018-03-05 2018-09-14 中国地质大学(武汉) 一种基于多尺度特征的海岸线二级类型提取方法及系统
CN108855988A (zh) * 2018-05-07 2018-11-23 新疆农业大学 基于机器视觉的核桃仁分级方法及核桃仁分级装置
CN109740683A (zh) * 2019-01-13 2019-05-10 胡燕祝 一种基于RReliefF算法和支持向量回归的趋势预测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"Nuclei/cell detection in microscopic skeletal muscle fiber images and histopathological brain tumor images using sparse optimizations";hai su;《computer science》;20141216;全文 *
"selection of relevant features from cognitive eeg signals using relieff and mrmr algorithm";Ankita Mazumder 等;《advancements of medical electronics》;20150115;全文 *
"一种基于关联信息熵度量的特征选择方法";董红斌 等;《计算机研究与发展》;20160815;全文 *
"基于ReliefF+mRMR特征降维算法的多特征遥感图像分类";王露 等;《中国体视学与图像分析》;20140925;全文 *
"基于Relieff与mRMR耦合特征选择的多联机制冷剂充注量故障诊断";李正飞 等;《暖通空调》;20181015;全文 *
"基于形态特征的时间序列相似性搜索研究";安云杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20170115;全文 *
"基于形态相似距离的时间序列相似度计算";李中 等;《计算机工程与设计》;20160316;全文 *
"多任务学习在时间序列预测中的研究及应用";贾松达;《中国优秀硕士学位论文全文数据库基础科技辑》;20180115;全文 *

Also Published As

Publication number Publication date
ZA202003552B (en) 2021-06-30
WO2020258973A1 (zh) 2020-12-30
CN110363229A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110363229B (zh) 一种基于改进RReliefF和mRMR相结合的人体特征参数选择方法
KR101889725B1 (ko) 악성 종양 진단 방법 및 장치
Browne et al. Model-based learning using a mixture of mixtures of Gaussian and uniform distributions
KR101889722B1 (ko) 악성 종양 진단 방법 및 장치
Fang et al. Automatic breast cancer detection based on optimized neural network using whale optimization algorithm
WO2021027295A1 (zh) 一种基于改进自适应遗传算法的人体体成分预测方法
CN112889042A (zh) 机器学习中超参数的识别与应用
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
Sudeng et al. Post Pareto-optimal pruning algorithm for multiple objective optimization using specific extended angle dominance
CN110991178A (zh) 智能客服与人工客服的切换方法、装置及计算机设备
KR101889724B1 (ko) 악성 종양 진단 방법 및 장치
CN109146891B (zh) 一种应用于mri的海马体分割方法、装置及电子设备
KR101889723B1 (ko) 악성 종양 진단 방법 및 장치
CN110969172A (zh) 一种文本的分类方法以及相关设备
WO2021120587A1 (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN115688760A (zh) 一种智能化导诊方法、装置、设备及存储介质
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
El Moudden et al. Automatic speech analysis in patients with parkinson's disease using feature dimension reduction
Hazelton et al. Bandwidth selection for kernel log-density estimation
JP4994199B2 (ja) 機械学習装置及び機械学習方法
CN114446393B (zh) 用于预测肝癌特征类型的方法、电子设备和计算机存储介质
JP2020139914A (ja) 物質構造分析装置、方法及びプログラム
CN115272797A (zh) 分类器的训练方法、使用方法、装置、设备及存储介质
JP2024518694A (ja) 腫瘍細胞等値線

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant