CN108206046B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN108206046B
CN108206046B CN201711461721.2A CN201711461721A CN108206046B CN 108206046 B CN108206046 B CN 108206046B CN 201711461721 A CN201711461721 A CN 201711461721A CN 108206046 B CN108206046 B CN 108206046B
Authority
CN
China
Prior art keywords
index
target
sample data
model
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711461721.2A
Other languages
English (en)
Other versions
CN108206046A (zh
Inventor
樊芳利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201711461721.2A priority Critical patent/CN108206046B/zh
Publication of CN108206046A publication Critical patent/CN108206046A/zh
Application granted granted Critical
Publication of CN108206046B publication Critical patent/CN108206046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据处理方法及装置,包括从样本数据包含的所有指标中选取目标指标,得到指标集合;从指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合;针对每个特征集合:得到与每个样本数据对应的第一特征值集合;利用所有第一特征值集合训练Logistic回归主模型,得到与特征集合对应的Logistic回归子模型;得到与每个样本数据对应的第二特征值集合;基于所有第二特征值集合,确定Logistic回归子模型对样本数据的分类准确率。通过得到与特征集合对应的Logistic回归子模型以及对应分类准确率,根据本公开实施例的数据处理方法及装置能够提供辅助决策支持,提高分类的正确率。

Description

一种数据处理方法及装置
技术领域
本公开涉及模式识别及分类技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着大数据技术、人工智能的发展,医疗、交通、金融等行业可以通过挖掘历史数据对各自的问题进行辅助决策和诊断。这种以行业业务经验决策为主、以数据挖掘结果为辅的新型诊断、决策方式正在影响着各行各业。
以医疗行业为例,大数据医疗辅助决策系统可以用于医疗行业数据的整合、检索,以及专业的医疗数据分析,支撑医疗的科研研究、临床分析、辅助决策,从而向医生提供辅助决策支持,提高人工诊断正确率。
发明内容
有鉴于此,本公开提出了一种数据处理方法及装置,能够构提供辅助决策支持,提高分类的正确率。
根据本公开的一方面,提供了一种数据处理方法,该方法包括:从样本数据包含的所有指标中选取目标指标,得到指标集合;从所述指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合;针对每个所述特征集合:随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第一特征值集合;利用获取的所有第一特征值集合训练Logistic回归主模型,得到与所述特征集合对应的Logistic回归子模型;随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合;基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率。
根据本公开的另一方面,提供了一种数据处理装置,该装置包括:第一选取模块,用于从样本数据包含的所有指标中选取目标指标,得到指标集合;第二选取模块,用于从所述指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合;第一确定模块,用于针对每个所述特征集合:随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第一特征值集合;利用获取的所有第一特征值集合训练Logistic回归主模型,得到与所述特征集合对应的Logistic回归子模型;随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合;基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率。
通过从样本数据包含的所有指标中选取目标指标,得到指标集合;从指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合;针对每个特征集合:选取多个样本数据,利用每个样本数据对应的第一特征值集合训练Logistic回归主模型,得到与特征集合对应的Logistic回归子模型;选取多个样本数据,基于每个样本数据对应的第二特征值集合,确定Logistic回归子模型对样本数据的分类准确率,根据本公开的各方面实施例的数据处理方法及装置能够得到与所述特征集合对应的Logistic回归子模型以及该Logistic回归子模型的分类准确率,从而能够提供辅助决策支持,提高分类的正确率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的数据处理方法的流程图。
图2示出根据本公开一实施例的数据处理方法的流程图。
图3示出根据本公开一实施例的数据处理方法的流程图。
图4示出根据本公开一实施例的数据处理方法的流程图。
图5示出根据本公开一实施例的分类准确率示意图。
图6示出根据本公开一实施例的数据处理装置的框图。
图7示出根据本公开一实施例的数据处理装置的框图。
图8示出根据本公开一实施例的数据处理装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的数据处理方法的流程图。该方法可以应用于服务器。本公开实施例中,以医疗数据为例进行说明,本公开实施例的数据处理方法还可以用于其他数据的处理。如图1所示,该方法可以包括:
步骤S11,从样本数据包含的所有指标中选取目标指标,得到指标集合。
步骤S12,从所述指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合。
步骤S13,针对每个所述特征集合,执行步骤S131至步骤S134。
步骤S131,随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第一特征值集合。
步骤S132,利用获取的所有第一特征值集合训练Logistic回归主模型,得到与所述特征集合对应的Logistic回归子模型。
步骤S133,随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合。
步骤S134,基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率。
在步骤S11中,样本数据可以包括所采集的所有病人的数据,每个病人的数据可以称为一个样本数据。在一种可能的实现方式中,从医疗数据库中抽取出的所有与某个病人有关的医疗数据可以作为一个样本数据。其中,与病人有关的医疗数据可以包括与该病人对应的手术表、入院表、出院表、基本信息表、病理表、病案表、医嘱、LIS表、彩超等医疗数据。
在从医疗数据库抽取样本数据的过程中,可能需要对医疗数据进行数值化、归一化等预处理得到样本数据。在一个示例中,在抽取样本数据的过程中,某些指标可能存在异常值和缺失值,例如,年龄小于0,体温等于0,包块、CA125、CA199(诊断卵巢癌的重要指标)等指标大量缺失。在本公开实施例中,可以删除数量不多的异常值,同时采用连续变量离散化的方法,处理缺失值。在一个示例中,对于文本信息,例如婚姻、职业等,无法直接计算,在本公开实施例中可以对文本信息进行数值化,生成0/1哑变量。在生成大量0/1哑变量的同时,可能存在与其他指标的指标值在数值上相差太大的问题,比如白细胞、CA129的数值范围为数十至数千不等。不同指标的指标值在数值上相差较大可能会引起模型精度低、不收敛等问题。在本公开实施例中,可以通过最大最小值的归一化法将取值范围较大的指标的指标值缩小至0-1之间。
各个样本数据包含的指标可能不同,在步骤S11中,可以综合所有样本数据中包含的指标,在所有的指标中选取目标指标。目标指标可以用于表示对分类结果有影响的指标,例如对病人是否患有卵巢癌有影响的指标。
在一种可能的实现方式中,目标指标可以根据先验知识结合数据探索分析确定。例如,医生诊断疾病的依据只可能在手术、出院等信息之前,因此需要筛选出病人确诊之前、与治疗无关的诊断数据。诊断数据分布在基本信息表、病理表、LIS表、彩超、入院表等五张表中。
其中,LIS表记录了病人治疗前后的所有检验数据,这里可以将病人第一次入院且手术前的检验数据作为病人LIS表中的诊断数据。在一种可能的实现方式中,可以将基本信息表、病理表、LIS表、彩超和入院表中的指标作为目标指标。以卵巢癌为例,临床上CA125、CA199、HE4、HCG等指标是诊断卵巢癌的重要检验指标,一旦患有卵巢癌,病人的这些指标会非常高。因此,LIS表中的CA125、CA199、HE4、HCG等指标可以作为指定指标。
在非LIS表中也存在对分类结果影响较大的指标,比如年龄、婚姻、职业、检验次数等。因此,非LIS表中的年龄、婚姻、职业、检验次数等指标可以作为目标指标。
目标指标还可以通过其他方式进行确定,对此本公开不做限制。
表1示出了根据本公开一实施例的用于区分良性卵巢癌和恶性卵巢癌的目标指标的一个示例(23维)。
表1
Figure BDA0001530279330000061
在步骤S12中,Logistic回归主模型是一种概率型非线性回归模型,是研究二分类观察结果y与一些影响因素(x1,x2,…,xn)之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状判断该病人是否患有某种疾病。
在分类情形下,经过学习后的LR(Logistic Regression Classifier,Logistic回 归分类器)是一组权值(w0,w1,…,wn),当测试样本的数据输入时,这组权值与测试数据按照 线性加和得到:g(x)=w0+w1x1+…+wnxn,其中,x1,x2,…,xn是每个样本的n个特征。之后按照 sigmoid函数的形式得到
Figure BDA0001530279330000062
设条件概率P(y=1|x)为在x条件下y发生的概率。Logistics回归模型可以表示为
Figure BDA0001530279330000063
其中,g(x)=w0+w1x1+…+wnxn。在x条件下y不发生的概率为
Figure BDA0001530279330000064
在x条件下y发生与不发生的概率之比为:
Figure BDA0001530279330000065
这个比值称为在x条件下y的发生比,简记为odds。对odds取对数得到:
Figure BDA0001530279330000066
Logistics回归子模型为通过对Logistic回归主模型训练得到的模型,Logistics回归子模型与Logistic回归主模型的结构相同。
在本公开实施例中,特征集合对应的指标值集合可以作为步骤S132得到的Logistics回归子模型中的(x1,x2,…,xn),将指标值集合输入Logistic回归子模型中可以得到在x条件下y发生的概率或者在x条件下y不发生的概率,从而确定y是否发生,得到分类结果。
在步骤S12中,根据选取的作为Logistic回归主模型的特征的指标的不同,得到的特征集合也不同。在本公开实施例中可以通过步骤S12获取一个或多个特征集合。
在一种可能的实现方式中,服务器可以选取指标集合中所有的目标指标作为Logistic回归主模型的特征。例如,采用表1所示的全部23个目标指标作为Logistic回归主模型的特征。
在一种可能的实现方式中,服务器可以选取指标集合中部分目标指标作为Logistic回归主模型的特征。例如,采用表1所示的CA125、CA199、HE4三个指标作为Logistic回归主模型的特征。在使用本公开实施例得到的Logistic回归子模型进行辅助决策的过程中,若要求病人将上述23个指标的指标值全部输入到系统中才能得到分类结果,则带来灵活性、易用性和适用度较差的问题。本公开实施例中,可以从所有指标集合中选取部分目标指标作为Logistic回归主模型的特征,从而使得病人尽可能的输入较少的信息就能得到诊断结果。
在一种可能的实现方式中,可以采用过滤式特征选择方法从指标集合中的所有目标指标进行指标选取。其中,过滤式特征选择与特定的学习算法无关,选择出来的指标具有较强的通用型,选择方法计算复杂度低,可以快速去除大量不相关的冗余特征,在维度很高的情况下作为特征的预筛选器。图2示出根据本公开一实施例的数据处理方法的流程图。如图2所示,步骤S12可以实现为步骤S121至步骤S124。
步骤S121,针对指标集合中的每个目标指标,随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第一指标值集合。
步骤S122,针对指标集合中的每个目标指标,随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第二指标值集合。
步骤S123,针对指标集合中的每个目标指标,分别计算第一指标值集合和第二指标值集合对应的标准偏差平方。
步骤S124,针对指标集合中的每个目标指标,将取值小的标准偏差平方与取值大的标准偏差平方的比值作为所述目标指标的评分。
步骤S125,针对指标集合中的所有目标指标,按照评分从高到低的顺序对所有目标指标进行排序。
步骤S126,按照所述排序,从前N个目标指标中按照第一预设策略获取至少一个特征集合,每个所述特征集合包括M个目标指标,其中,N、M为正整数,M≤N。
其中,N和M为正整数且M≤N,N和M的取值可以根据需要进行设置,本公开对此不做限制。第一预设策略可以根据先验知识、指标对应指标值获取的难易程度、不同指标之间的关联度、指标出现的频率进行设置。例如,第一预设策略可以为:将对分类结果影响最大的指标确定为Logistic回归主模型的特征,或者将容易获取的指标确定为Logistic回归主模型的特征。
通过从指标集合中评分最高的N个指标中按照第一预设策略选举M个指标作为Logistic回归主模型的特征,可以使病人输入较少的指标的指标值即可得到分类结果,更加灵活、易用。
举例说明,在表1所示的指标集合的基础上,针对CA125,从样本数据中获取第一指标值集合和第二指标值集合,第一指标值集合和第二指标值集合均包括多个CA125的指标值。计算第一指标值集合中多个CA125的指标值的标准偏差平方,计算第二集合中多个CA125的指标值的标准偏差平方,根据第一指标值集合的标准偏差平方和第二指标值集合的标准偏差平方,确定CA125的评分。通过步骤S121至步骤S124可以确定每一个目标指标的评分。按照评分从高到低的顺序对所有目标指标进行排序,从前10个目标指标中按照预设策略获取至少一个特征集合。其中,前10个目标指标如表2所示。
表2
指标 评分
ca125 383.0002
ca199 235.27
年龄 163.0449
检验次数 110.5593
检验种类数 90.48029
HE4 70.87002
包块大小 66.03057
婚姻 62.80276
职业 62.28882
HCG 51.72752
基于表2所示的前10个目标指标,在一种可能的实现方式中,可以从10个目标指标中按照预设策略获取M个目标指标特征集合,得到至少一个特征集合。表3示出了两个特征集合的示例。
表3
特征集合1:CA199、CA125、年龄、婚姻、包块
特征集合2:CA199、CA125、年龄、婚姻、包块、检验次数、检验种类数
在步骤S131中获取的所有第一特征值集合可以用于训练Logistic回归主模型,在步骤S132中获取的所有第二特征值集合可以用于确定Logistic回归子模型对样本数据的分类准确率。这里的第一、第二仅用于区分特征集合值集合的作用,不限制特征值集合的其他方面。所有的第一特征值集合可以称为训练集,所有的第二特征值集合可以称为测试集。
在步骤S132中,可以针对每个特征集合,基于在步骤S131中获取的所有第一特征值集合得到该特征集合对应的Logistic回归子模型中的权值(w0,w1,…,wn),进而得到Logistic回归子模型。在步骤S134中,可以针对每个特征集合,基于步骤S133获取的所有第二特征值集合得到该特征集合对应的Logistic回归子模型对样本数据的分类准确率。如此,根据本公开实施例的数据处理方法,可以获取与特征集合数量相同的Logistic回归子模型。由于每个特征集合包括的目标指标不同,这样,在进行辅助决策的过程中,可以根据病人输入的指标值对应的指标,匹配到不同的Logistic回归子模型,提供更多选择,更加灵活、易用。
举例来说,若某个Logistic回归子模型对应的特征集合包含的目标指标,获取的与病人的指标值对应的指标匹配,则该Logistic回归子模型可以用来根据该病人的指标值进行分类。在一个示例中,目标指标1、目标指标2和目标指标3组成的特征集合1对应Logistic回归子模型1。目标指标1、目标指标2和目标指标3组成的特征集合2对应Logistic回归子模型2。目标指标1、目标指标2、目标指标3和目标指标4组成的特征集合3对应回归子模型3。若在辅助决策的过程中获取到目标指标1的指标值、目标指标2的指标值和目标指标3的指标值,则将获取的指标值输入Logistic回归子模型1中进行处理。若在辅助决策的过程中获取到目标指标1的指标值、目标指标2的指标值和目标指标4的指标值,则将获取的指标值输入Logistic回归子模型2中进行处理。若在辅助决策的过程中获取到目标指标1的指标值、目标指标2的指标值、目标指标3的指标值和目标指标4的指标值,则将获取的指标值输入Logistic回归子模型3中进行处理。
在一种可能的实现方式中,根据本公开实施例得到的Logistic回归子模型,还可以获取病人的患病概率。在Logistic回归子模型确定的情况下,Logistic回归子模型的权值(w0,w1,…,wn)是确定的,将指标值(x1,x2,…,xn)输入Logistic回归子模型后,可以通过公式
Figure BDA0001530279330000111
g(x)=w0+w1x1+…+wnxn,得到在x条件下y发生的概率,从确定病人的患病概率。
需要说明的是,本公开实施例建立Logistic回归子模型的过程可以采用python完成,得到的Logistic回归子模型可以采用传统打包的方式嵌入医疗决策系统。
在一种可能的实现方式中,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合时,该方法还包括:针对每个第二特征值集合,从对应的样本数据中获取第一分类结果。这里获取的第一分类结果可以用于评价Logistic回归子模型对样本数据的分类准确率。
在一种可能的实现方式中,步骤S134可以实现为:针对每个第二特征值集合:将所述第二特征值集合输入所述Logistic回归子模型,得到第二分类结果;如果所述第二特征值集合对应的所述第一分类结果和所述第二分类结果相同,则确定对所述第二特征值集合对应的样本数据的分类准确;基于获取的所有第二特征值集合,将所述分类准确的次数与分类总次数的比值作为所述Logistic回归子模型对样本数据的分类准确率。表4示出了基于表3所示的特征集合得到的准确率。
表4
Figure BDA0001530279330000121
如表4所示,在使用Logistic回归子模型进行辅助分类时,如果病人的指标值匹配到特征集合1,分类准确率就能达到86%;如果病人的指标值匹配到特征集合2,分类准确率就能达到90%;如果病人的指标值匹配到全部目标指标组成的特征集合,分类准确率就能达到93.4%。
Logistic回归子模型对应的特征集合包含的目标指标的数量越多,Logistic回归子模型的准确率较高。
图3示出根据本公开一实施例的数据处理方法。如图3所示,该方法还包括:
步骤S14,基于每个所述特征集合包含的特征和每个所述特征集合对应的Logistic回归子模型的分类准确率,按照第二预设策略,选择至少一个目标特征集合和对应的目标Logistic回归子模型。
其中,目标特征集合可以用于表示按照第二预设策略从所有的特征集合中选出的特征集合。目标Logistic回归子模型可以用于表示与目标特征集合对应的Logistic回归子模型。
第二预设策略可以根据需要进行设置。在一个示例中,第二预设策略可以为:选取分类准确率大于第一阈值的Logistic回归子模型对应的特征集合作为目标特征集合。其中,第一阈值可以根据需要进行设置,例如设置为70%。在一个示例中,第二预设策略可以为:选取特征数量小于第二阈值,且对应Logistic回归子模型的分类准确率大于第一阈值的特征集合作为目标特征集合。其中,第二阈值可以根据需要进行设置,例如设置为5个。在一个示例中,第二预设策略可以为:将包含指定特征(例如ca199、ca125等),且对应Logistic回归子模型的分类准确率大于第一阈值的特征集合设置为目标特征集合。本公开对于第二预设策略不做限制。
图4示出根据本公开一实施例的数据处理方法的流程图。如图4所示,该方法还可以包括对目标Logistic回归子模型进行正则化调整,包括:
步骤S15,分别采用L1正则化和L2正则化策略对所述目标Logistic回归子模型进行正则化调整,得到与L1正则化策略对应的第一子模型和与L2正则化策略对应的第二子模型。
其中,第一子模型可以用于表示采用L1正则化策略调整后的Logistic回归子模型,第二子模型可以用于表示采用L2正则化策略调整后的Logistic回归子模型。
步骤S16,选择第一子模型和第二子模型中分类准确率波动小的子模型对应的正则化策略作为目标正则化策略。
在本步骤中,可以获取训练集和测试集的组合,其中,训练集可以用于训练所述第一子模型和所述第二子模型,测试集可以用于测试所述第一子模型和所述第二子模型。针对每一个训练集和测试集的组合,利用该组合中的训练集训练所述第一子模型和所述第二子模型,并基于该组合中的测试集确定训练后的第一子模型的分类准确率和第二子模型的分类准确率。针对多个训练集和测试集的组合,可以获取多个第一子模型的分类准确率和多个第二子模型的分类准确率。根据各第一子模型的分类准确率之间的差值,可以确定第一子模型的分类准确率的波动。根据各第二子模型的分类准确率之间的差值,可以确定第二子模型的分类准确率的波动。波动越小,表明模型预测性能越好。因此选择第一子模型和第二子模型中分类准确率波动小的子模型对应的正则化策略作为目标正则化策略。
其中,测试集和训练集的获取方式可以参照步骤S131和步骤S132,这里不再赘述。基于该组合中测试集确定训练后的第一子模型的分类准确率和第二子模型的分类准确率的方法可以参照步骤S134,这里不再赘述。
步骤S17,根据所述目标正则化策略对所述目标Logistic回归子模型进行正则化调整。
Logistic回归子模型可以采用L1正则化策略或者L2正则化策略进行调整。正则化作用是选择经验风险和模型复杂度同时较小的模型,也就是在保证模型性能的基础上,尽量选择较低的特征维度。
在一个示例中,100次随机的选择训练集和测试集,得到训练后的第一子模型和训练后的第二子模型的分类准确率。准确率越高,表明模型效果越好。如图5所示,在使用L2正则化策略时,模型的分类准确率变化波动较小,在0.86上下徘徊。在使用L1正则化策略时,模型的分类准确率波动较大。准确率波动小,表示模型的预测性能稳定。因此可以采用L2正则化策略调整所述Logistic回归子模型。
在一种可能的实现方式中,调整所述Logistic回归子模型后,还可以通过交叉验证和学习曲线从稳定性和泛化能力两个方面对模型进行评估。
交叉验证是评价模型好坏的常用方法,应用最多的是S折交叉验证。主要思想是:随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最终得到S组模型的准确率。若S组模型的准确率波动较小,说明模型比较稳定。例如,10组模型每组的模型准确率为:0.880.97、0.95、0.98、0.91、0.92、0.95、0.94、0.96、0.87。可以看到,模型在测试集上的准确率在90%上下,波动较小,说明模型很稳定,平均准确率是93.4%。
学习曲线可以用来检验模型的泛化能力,判定模型是否过拟合、欠拟合。若模型在训练集上的效果好,在测试集上的效果差,此时模型过拟合。
图6示出根据本公开一实施例的数据处理装置60的框图。该装置60可以应用于服务器。如图6所示,该装置60包括:
第一选取模块61,用于从样本数据包含的所有指标中选取目标指标,得到指标集合。
第二选取模块62,用于从所述指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合。
第一确定模块63,用于针对每个所述特征集合:
随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第一特征值集合;
利用获取的所有第一特征值集合训练Logistic回归主模型,得到与所述特征集合对应的Logistic回归子模型;
随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合;
基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率。
图7示出根据本公开一实施例的数据处理装置60的框图。如图7所示,在一种可能的实现方式中,该装置60还包括:第一获取模块64,用于针对每个第二特征值集合,从对应的样本数据中获取第一分类结果。
在一种可能的实现方式中,所述第一确定63模块还用于:针对每个第二特征值集合:将所述第二特征值集合输入所述Logistic回归子模型,得到第二分类结果;如果所述第二特征值集合对应的所述第一分类结果和所述第二分类结果相同,则确定对所述第二特征值集合对应的样本数据的分类准确;基于获取的所有第二特征值集合,将所述分类准确的次数与分类总次数的比值作为所述Logistic回归子模型对样本数据的分类准确率。
在一种可能的实现方式中,所述第二选取模块62包括:
第一获取单元621,用于针对指标集合中的每个目标指标,随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第一指标值集合。
第二获取单元622,用于针对指标集合中的每个目标指标,随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第二指标值集合。
计算单元623,用于针对指标集合中的每个目标指标,分别计算第一指标值集合和第二指标值集合对应的标准偏差平方。
评分单元624,用于针对指标集合中的每个目标指标,将取值小的标准偏差平方与取值大的标准偏差平方的比值作为所述目标指标的评分。
第三获取单元625,用于按照所述排序,从前N个目标指标中按照第一预设策略获取至少一个特征集合;每个所述特征集合包括M个目标指标,其中N、M为正整数,M≤N。
在一种可能的实现方式中,所述装置60还包括:
选择模块65,用于基于每个所述特征集合包含的特征和每个所述特征集合对应的Logistic回归子模型的分类准确率,按照第二预设策略,选择至少一个目标特征集合和对应的目标Logistic回归子模型。
在一种可能的实现方式中,所述装置60还包括:
调整模块66,用于对所述目标Logistic回归子模型进行正则化调整。
所述调整模块66包括:
第一调整单元661,用于分别采用L1正则化策略和L2正则化策略对所述目标Logistic回归子模型进行正则化调整,得到与L1正则化策略对应的第一子模型、与L2正则化策略对应的第二子模型。
选择单元662,用于选择第一子模型和第二子模型中分类准确率波动小的子模型对应的正则化策略作为目标正则化策略。
第二调整单元663,用于根据所述目标正则化策略对所述目标Logistic回归子模型进行正则化调整。
图8是根据一示例性实施例示出的一种用于数据处理装置900的框图。参照图8,该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且,处理器901通过读取机器可读存储介质902中与数据处理逻辑对应的机器可执行指令以执行上文所述的数据处理方法。
本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
从样本数据包含的所有指标中选取目标指标,得到指标集合;
从所述指标集合中选取作为Logistic回归主模型的特征的指标,根据选取的作为Logistic回归主模型的特征的指标的不同,得到多个不同的特征集合;
针对每个所述特征集合:
随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第一特征值集合;
利用获取的所有第一特征值集合训练Logistic回归主模型,得到与所述特征集合对应的Logistic回归子模型;
随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合;
基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率;
基于每个所述特征集合包含的特征和每个所述特征集合对应的Logistic回归子模型的分类准确率,按照第二预设策略,选择至少一个目标特征集合和对应的目标Logistic回归子模型;
所述方法还包括:
对所述目标Logistic回归子模型进行正则化调整,包括:
分别采用L1正则化策略和L2正则化策略对所述目标Logistic回归子模型进行正则化调整,得到与L1正则化策略对应的第一子模型、与L2正则化策略对应的第二子模型;选择第一子模型和第二子模型中分类准确率波动小的子模型对应的正则化策略作为目标正则化策略;根据所述目标正则化策略对所述目标Logistic回归子模型进行正则化调整。
2.根据权利要求1所述的方法,其特征在于,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合时,该方法还包括:针对每个第二特征值集合,从对应的样本数据中获取第一分类结果。
3.根据权利要求2所述的方法,其特征在于,所述基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率,包括:
针对每个第二特征值集合:
将所述第二特征值集合输入所述Logistic回归子模型,得到第二分类结果;
如果所述第二特征值集合对应的所述第一分类结果和所述第二分类结果相同,则确定对所述第二特征值集合对应的样本数据的分类准确;
基于获取的所有第二特征值集合,将所述分类准确的次数与分类总次数的比值作为所述Logistic回归子模型对样本数据的分类准确率。
4.根据权利要求1所述的方法,其特征在于,从所述指标集合中选取作为Logistic回归主模型的特征的指标,得到至少一个特征集合,包括:
针对指标集合中的每个目标指标:
随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第一指标值集合;
随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第二指标值集合;
分别计算第一指标值集合和第二指标值集合对应的标准偏差平方;
将取值小的标准偏差平方与取值大的标准偏差平方的比值作为所述目标指标的评分;
针对指标集合中的所有目标指标:
按照评分从高到低的顺序对所有目标指标进行排序;
按照所述排序,从前N个目标指标中按照第一预设策略获取至少一个特征集合;每个所述特征集合包括M个目标指标,其中,N、M为正整数,M≤N。
5.一种数据处理装置,其特征在于,所述装置包括:
第一选取模块,用于从样本数据包含的所有指标中选取目标指标,得到指标集合;
第二选取模块,用于从所述指标集合中选取作为Logistic回归主模型的特征的指标,根据选取的作为Logistic回归主模型的特征的指标的不同,得到多个不同的特征集合;
第一确定模块,用于针对每个所述特征集合:
随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第一特征值集合;
利用获取的所有第一特征值集合训练Logistic回归主模型,得到与所述特征集合对应的Logistic回归子模型;
随机选取多于一个样本数据,从所选取的每一个样本数据中获取与所述特征集合中的所有特征对应的特征值,得到与每一个样本数据对应的第二特征值集合;
基于获取的所有第二特征值集合,确定所述Logistic回归子模型对样本数据的分类准确率;
选择模块,用于基于每个所述特征集合包含的特征和每个所述特征集合对应的Logistic回归子模型的分类准确率,按照第二预设策略,选择至少一个目标特征集合和对应的目标Logistic回归子模型;
所述装置还包括:调整模块,用于对所述目标Logistic回归子模型进行正则化调整;所述调整模块包括:第一调整单元,用于分别采用L1正则化策略和L2正则化策略对所述目标Logistic回归子模型进行正则化调整,得到与L1正则化策略对应的第一子模型、与L2正则化策略对应的第二子模型;
选择单元,用于选择第一子模型和第二子模型中分类准确率波动小的子模型对应的正则化策略作为目标正则化策略;
第二调整单元,用于根据所述目标正则化策略对所述目标Logistic回归子模型进行正则化调整。
6.根据权利要求5所述的装置,其特征在于,该装置还包括:第一获取模块,用于针对每个第二特征值集合,从对应的样本数据中获取第一分类结果。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块还用于:
针对每个第二特征值集合:
将所述第二特征值集合输入所述Logistic回归子模型,得到第二分类结果;
如果所述第二特征值集合对应的所述第一分类结果和所述第二分类结果相同,则确定对所述第二特征值集合对应的样本数据的分类准确;
基于获取的所有第二特征值集合,将所述分类准确的次数与分类总次数的比值作为所述Logistic回归子模型对样本数据的分类准确率。
8.根据权利要求5所述的装置,其特征在于,所述第二选取模块包括:
第一获取单元,用于针对指标集合中的每个目标指标,随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第一指标值集合;
第二获取单元,用于针对指标集合中的每个目标指标,随机选取多于一个样本数据,从所选取的样本数据中获取所述目标指标对应的指标值,得到与所述目标指标对应第二指标值集合;
计算单元,用于针对指标集合中的每个目标指标,分别计算第一指标值集合和第二指标值集合对应的标准偏差平方;
评分单元,用于针对指标集合中的每个目标指标,将取值小的标准偏差平方与取值大的标准偏差平方的比值作为所述目标指标的评分;
排序单元,用于针对指标集合中的所有目标指标,按照评分从高到低的顺序对所有目标指标进行排序;
第三获取单元,用于按照所述排序,从前N个目标指标中按照第一预设策略获取至少一个特征集合;每个所述特征集合包括M个目标指标,其中N、M为正整数,M≤N。
CN201711461721.2A 2017-12-28 2017-12-28 一种数据处理方法及装置 Active CN108206046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711461721.2A CN108206046B (zh) 2017-12-28 2017-12-28 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711461721.2A CN108206046B (zh) 2017-12-28 2017-12-28 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN108206046A CN108206046A (zh) 2018-06-26
CN108206046B true CN108206046B (zh) 2021-07-02

Family

ID=62605147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711461721.2A Active CN108206046B (zh) 2017-12-28 2017-12-28 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN108206046B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200193351A1 (en) * 2018-12-15 2020-06-18 Cadreon LLC Value Index Score

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639633B (zh) * 2018-11-02 2021-11-12 平安科技(深圳)有限公司 异常流量数据识别方法、装置、介质及电子设备
CN109783700B (zh) * 2018-12-12 2021-06-08 广州市贺氏办公设备有限公司 一种盘点数据处理方法、系统及装置
US20220058685A1 (en) * 2018-12-15 2022-02-24 Kinesso Llc Value Index Score
CN110852550B (zh) * 2019-08-23 2021-06-18 精英数智科技股份有限公司 基于煤矿隐患智能识别的事故预防方法、装置及存储介质
CN115238645A (zh) * 2022-08-03 2022-10-25 中国电子科技集团公司信息科学研究院 资产数据识别方法、装置、电子设备和计算机存储介质
CN116028757B (zh) * 2023-03-29 2023-07-21 中国测试技术研究院 一种基于多源信息融合的最优软测量模型生成方法及系统
CN117877748B (zh) * 2024-03-11 2024-05-14 深圳市艾利特医疗科技有限公司 一种多参数心肺功能测试设备及其数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法
CN107301427A (zh) * 2017-06-19 2017-10-27 南京理工大学 基于概率阈值的Logistic‑SVM目标识别算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025472A1 (en) * 2000-07-27 2002-03-28 Network Disease Managment, Inc. Method and apparatus for analyzing a patient medical information database to identify patients likely to experience a problematic disease transition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107301427A (zh) * 2017-06-19 2017-10-27 南京理工大学 基于概率阈值的Logistic‑SVM目标识别算法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200193351A1 (en) * 2018-12-15 2020-06-18 Cadreon LLC Value Index Score

Also Published As

Publication number Publication date
CN108206046A (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
CN108206046B (zh) 一种数据处理方法及装置
CN112768072B (zh) 基于影像组学定性算法构建癌症临床指标评估系统
Jacob et al. Discovery of knowledge patterns in clinical data through data mining algorithms: Multi-class categorization of breast tissue data
EA006272B1 (ru) Эвристический способ классификации
CN110956626B (zh) 一种基于图像的预后评估方法及装置
Higa Diagnosis of breast cancer using decision tree and artificial neural network algorithms
CN112633601A (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN111247600A (zh) 对象聚类方法和装置
Afzali et al. An effective sample preparation method for diabetes prediction.
JP2023532292A (ja) 機械学習ベースの医療データチェッカ
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
Raza et al. Classifier fusion using dempster-shafer theory of evidence to predict breast cancer tumors
CN113362927A (zh) 一种基于深度学习的鳞状食道癌放化疗效果预测方法
US20230162827A1 (en) Method and system for predicting neurological treatment
KR20210152254A (ko) 클래스 확률 출력 망 기반 음성자료를 이용한 파킨슨 질병 진단 방법 및 장치
Ferdous et al. Application of hybrid classifier for multi-class classification of MRI brain tumor images
CN108806796A (zh) 一种医疗数据的特征选择方法及相关装置
Mehemud et al. Efficient Brain Tumor Classification through Transfer Learning Models
Silvana Optimization of Neural Network with Genetic Algorithm for Breast Cancer Classification
Dutta et al. Cross-validated AdaBoost classifier used for brain tumor detection
Rathi et al. An approach to predict breast cancer and drug suggestion using machine learning techniques
Baboo et al. Multicategory classification using support vector machine for microarray gene expression cancer diagnosis
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Ramadevi et al. An extensive analysis of machine learning techniques with hyper-parameter tuning by Bayesian optimized SVM kernel for the detection of human lung disease
CN114612255B (zh) 一种基于电子病历数据特征选择的保险定价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant