CN111695593A - 基于XGBoost的数据分类方法、装置、计算机设备及存储介质 - Google Patents

基于XGBoost的数据分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111695593A
CN111695593A CN202010355834.XA CN202010355834A CN111695593A CN 111695593 A CN111695593 A CN 111695593A CN 202010355834 A CN202010355834 A CN 202010355834A CN 111695593 A CN111695593 A CN 111695593A
Authority
CN
China
Prior art keywords
data
target
xgboost
model
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010355834.XA
Other languages
English (en)
Inventor
李恒
袁东昇
陈又新
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010355834.XA priority Critical patent/CN111695593A/zh
Priority to PCT/CN2020/099521 priority patent/WO2021217867A1/zh
Publication of CN111695593A publication Critical patent/CN111695593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于XGBoost的数据分类方法、装置、计算机设备和存储介质,方法包括:从调查数据库中提取待分类疾病对应的调查数据,作为初始数据;采用XGBoost模型对初始数据进行特征提取,得到调查数据的目标特征;使用目标特征对XGBoost模型进行模型训练,并在XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型;根据目标特征,生成分类筛选问卷,并针对任一用户,将用户回答根据分类筛选问卷获取所得到的数据,作为目标用户的目标数据,并将目标数据输入训练好的分类模型中,输出得到目标用户的对应的分类。本发明还涉及区块链技术,所述目标数据存储于区块链中。本申请实现对不同疾病的不同生理特征进行数据分析,提高对疾病的数据分类的准确性。

Description

基于XGBoost的数据分类方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及基于XGBoost的数据分类方法、装置、计算机设备及存储介质。
背景技术
目前医疗辅助决策模型和方法多用于分诊转诊、临床诊断和疾病管理中,其能够帮助临床诊疗时医生的判断,降低医生工作负担,提高诊疗准确性,并且通过医疗辅助决策模型和方法能够对人群的数据划分不同的分类,从而提升人群对疾病的认知、促进潜在患病人群赴院就诊并辅助医生了解患者潜在风险。
针对不同的疾病,不同的生理特征对于该疾病的发病诱因和发病严重性等等方面的重要程度不同,有些生理特征对于该疾病是较为重要特征,有些是较为不重要的特征。但是现有的医疗辅助决策模型和方法采用的是获取以往某一疾病病人的生理特征,并将该生理特征作为同等重要的分类依据,对某一疾病的数据进行简单的分类,这样导致对该疾病的数据分类准确性较低。现亟需一种能够对不同疾病的不同生理特征进行数据分析,提高对疾病的数据分类的准确性的方法。
发明内容
本申请实施例的目的在于提出一种基于XGBoost的数据分类方法,以提高对疾病的数据分类的准确性。
为了解决上述技术问题,本申请实施例提供一种基于XGBoost的数据分类方法,包括:
从调查数据库中提取待分类疾病对应的调查数据,作为初始数据;
采用XGBoost模型对所述初始数据进行特征提取,得到所述调查数据的目标特征;
使用所述目标特征对所述XGBoost模型进行模型训练,并在所述XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型;
根据所述目标特征,生成分类筛选问卷;
针对任一用户,将所述用户回答所述分类筛选问卷得到的数据,作为用户的目标数据,并将所述目标数据输入所述训练好的分类模型中,得到所述用户对应的分类。
进一步的,所述采用XGBoost模型对所述初始数据进行特征提取,得到所述调查数据的目标特征包括:
基于所述XGBoost模型,对所述初始数据进行特征提取,得到M个基础特征,其中,M为正整数;
根据逐步回归算法,将M个所述基础特征添加到所述XGBoost模型中进行迭代计算,得到迭代计算结果,其中,所述迭代计算结果中包含所述基础特征对应的贡献分值;
从所述迭代计算结果中,将所述贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将所述前N个贡献分值所对应的基础特征作为N个目标特征,其中,N<M,N为正整数。
进一步的,所述基于所述XGBoost模型,对所述初始数据进行特征提取,得到M个基础特征,其中,M为正整数包括:
基于所述XGBoost模型,对所述初始数据进行集成树计算分析,得到K个分析特征,其中,每个所述分析特征经过计算分析后具有分割得分,K为正整数,K>M;
删除分割得分为零的分析特征,将保留下来的分析特征作为所述基础特征,得到M个所述基础特征。
进一步的,所述根据逐步回归算法,将M个所述基础特征添加到所述XGBoost模型中进行迭代计算,得到迭代计算结果包括:
根据逐步回归算法,将M个所述基础特征逐步添加到XGBoost模型中进行迭代计算,其中,每次迭代计算得到一个特征值;
当检测到所述特征值不再上升时,统计所述基础特征对所述XGBoost模型计算后得到的所述贡献分值。
进一步的,在所述根据逐步回归算法,将M个所述基础特征逐步添加到XGBoost模型中进行迭代计算之后,所述方法还包括:
通过嵌套交叉验证的方式,对所述XGBoost模型进行验证。
进一步的,所述针对任一用户,将所述用户回答所述分类筛选问卷得到的数据,作为用户的目标数据,并将所述目标数据输入所述训练好的分类模型中,得到所述用户对应的分类还包括:
将所述分类筛选问卷以二维码链接的形式发送到所述目标用户,获取所述目标用户的所述目标数据,所述目标数据存储于区块链中。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于XGBoost的数据分类装置,包括:
初始数据获取模块,用于从调查数据库中提取待分类疾病对应的调查数据,作为初始数据;
目标特征提取模块,用于采用XGBoost模型对所述初始数据进行特征提取,得到所述调查数据的目标特征;
分类模型训练模块,用于使用所述目标特征对所述XGBoost模型进行模型训练,并在所述XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型;
分类筛选问卷模块,用于根据所述目标特征,生成分类筛选问卷;
用户分类获取模块,用于针对任一用户,将所述用户回答所述分类筛选问卷得到的数据,作为用户的目标数据,并将所述目标数据输入所述训练好的分类模型中,得到所述用户对应的分类。
进一步的,所述目标特征提取模块包括:
基础特征获取单元,用于基于所述XGBoost模型,对所述初始数据进行特征提取,得到M个基础特征,其中,M为正整数;
迭代计算结果单元,用于根据逐步回归算法,将M个所述基础特征添加到所述XGBoost模型中进行迭代计算,得到迭代计算结果,其中,所述迭代计算结果中包含所述基础特征对应的贡献分值;
目标特征获取单元,用于从所述迭代计算结果中,将所述贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将所述前N个贡献分值所对应的基础特征作为N个目标特征,其中,N<M,N为正整数。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的基于XGBoost的数据分类方案。
为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于XGBoost的数据分类方案。
以上方案中的一种基于XGBoost的数据分类方法,通过从调查数据库中提取待分类疾病对应的调查数据,作为初始数据,并从初始数据中提取目标特征,实现获取人群数据相关性较高的目标特征,有利于后续对分类模型的训练;使用目标特征对XGBoost模型进行模型训练,并在XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型,并根据目标特征获取目标数据,得出目标用户的分类,实现目标用户的精准分类,提高对疾病的数据分类的准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于XGBoost的数据分类方法的应用环境示意图;
图2根据本申请实施例提供的基于XGBoost的数据分类方法的一实现流程图;
图3是本申请实施例提供的基于XGBoost的数据分类方法中步骤S2的一实现流程图;
图4是本申请实施例提供的基于XGBoost的数据分类方法中步骤S21的另一实现流程图;
图5是本申请实施例提供的基于XGBoost的数据分类方法中步骤S22的一实现流程图;
图6是本申请实施例提供的基于XGBoost的数据分类装置示意图;
图7是本申请实施例提供的计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的一种基于XGBoost的数据分类方法一般由服务器执行,相应地,一种基于XGBoost的数据分类装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参阅图2,图2示出了基于XGBoost的数据分类方法的一种具体实施方式。
需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限,该方法包括如下步骤:
S1:从调查数据库中提取待分类疾病对应的调查数据,作为初始数据。
具体的,待分类疾病是针对某一疾病的,不同的疾病有不同的疾病数据。如需要获知慢阻肺的分类情况,则需要获取慢阻肺在医学知识库中的信息。根据需要获哪一疾病的分类情况,获取该疾病的疾病数据。
其中,调查数据库是通过以真实世界人群的流行病学调查而来的横断面数据。其中,待分类疾病数据包括以往患有该疾病人员的信息以及疾病人员的表现情况,如年龄、患病表现、身体指标、遗传病史和就医情况等等。
S2:采用XGBoost模型对初始数据进行特征提取,得到调查数据的目标特征。
具体的,XGBoost模型是一种集成树模型算法,通过集成众多颗树来实现特征的分类提取任务。在每一颗树的节点分离时,根据结构分数的增益情况,来计算出来选择哪一个特征作为分割点。不同的特征被集成树分割的次数不同,每一个特征被分割的次数取加权平均作为其得分,最终XGBoost模型会输出每一个特征的得分情况。其中特征的得分情况可能为正整数或者为零。得分为零的特征,即没有被XGBoost模型的集成树分割过的特征,该特征可以确认为不相关的特征,可以将该特征删除,将保留下来的特征再根据逐步回归算法进行筛选,得到调查数据的目标特征。
其中,目标特征为对初始数据进行特征提取,得到的特征。目标特征是与待分类疾病密切相关的特征。例如,待分类疾病为慢阻肺疾病,则目标特征可以是年龄、吸烟史、呼吸表现等等。
S3:使用目标特征对XGBoost模型进行模型训练,并在XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型。
具体的,服务端将N个目标特征按照预设分割比例随机分为内样本和外样本,该预设分割比例可以是1:1或者2:1,具体可以根据实际应用的需要进行设置,使用内样本进行模型训练,外样本进行模型验证。
XGBoost模型是的使用开源XGBoost模型的通用模型,服务端将N个目标特征输入到该XGBoost模型中,XGBoost模型调用XGBoost库进行模型训练,并在模型训练过程中使用python的Hyperopt库的自动调参框架对基XGBoost模型的模型参数进行自动搜索,在限定时间内输出搜索过程中的最佳参数,实现模型自动调参。其中,模型参数包括数的层次、步长和迭代次数等。
服务端使用外样本对训练后的XGBoost模型进行验证,并根据验证结果计算模型评估指标AUC(area under the curve),若AUC的值达到预设的指标阈值,则确认该训练后的XGBoost模型即为训练好的分类模型,若AUC的值未达到预设的指标阈值,则服务端按照预设分割比例重新随机分割内样本和外样本,并继续采用本步骤对训练后的XGBoost模型进行训练和验证,直到ACU的值达到预设的指标阈值为止。
其中,分类模型是根据目标特征经过模型训练得到的,根据分类模型可以输出目标用户的分类,例如,分类模型根据目标用户输入的数据,得到该目标用户所在分类,该分类可以是针对该疾病的高危人群、中危人群和低危人群等等。
S4:根据目标特征,生成分类筛选问卷。
具体的,通过目标特征生成的分类筛选问卷,用以收集目标数据。该分类筛选问卷将每个目标特征设置成需要填写的问卷形式。
其中,目标数据是目标用户根据目标特征,输出自己的情况数据,而得到的数据。
S5:针对任一用户,将用户回答分类筛选问卷得到的数据,作为用户的目标数据,并将目标数据输入训练好的分类模型中,得到用户对应的分类。
具体的,针对任一用户,将用户回答分类筛选问卷得到的数据,作为用户的目标数据,并且将收集来的目标数据输入分类模型中,分类模型就会根据这些数据和以往的数据进行对比,并进行数据分析,最后输出目标用户所在的分类。通过分类模型输出目标用户的分类,便于目标用户了解自身对于该疾病的分类情况,利于及时让医护人员能够及时了解目标用户的情况,并于后续对其做出医学判断。
本实施例中,通过从调查数据库中提取待分类疾病对应的调查数据,作为初始数据,并从初始数据中提取目标特征,实现获取人群数据相关性较高的目标特征,有利于后续对分类模型的训练;使用目标特征对XGBoost模型进行模型训练,并在XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型,并根据目标特征获取目标数据,得出目标用户的分类,实现目标用户的精准分类,提高对疾病的数据分类的准确性。
请参阅图3,图3示出了步骤S2的一种具体实施方式,步骤S2中,采用XGBoost模型对初始数据进行特征提取,得到调查数据的目标特征的具体实现过程,详叙如下:
S21:基于XGBoost模型,对初始数据进行特征提取,得到M个基础特征,其中,M为正整数。
其中,基础特征为经过对待分类疾病数据经过特征提取,并经过初步筛选的特征。
进一步的,通过嵌套交叉验证的方式,对XGBoost模型进行验证,使得通过XGBoost模型对特征选取、分割不带偏见性。
S22:根据逐步回归算法,将M个基础特征添加到XGBoost模型中进行迭代计算,得到迭代计算结果,其中,迭代计算结果中包含基础特征对应的贡献分值。
具体的,经过步骤S21的特征提取,得到了众多的基础特征,这些基础特征只是通过XGBoost模型进行的初步筛选,有一些基础特征并不能够作为对该疾病进行分类产生积极效果的,即这些基础特征中还存在着一些对后续进行模型分类训练和目标数据提取无关的特征,需要对基础特征进行进一步的筛选。
具体的,通过逐步回归算法,将基础特征添加到XGBoost模型中进行迭代计算,每循环一次得出一个特征值,不断添加基础特征和经过嵌套交叉验证,直到特征值不再上升(或者开始下降)时,被选择进行迭代计算的基础特征将会保留下来。通过判断每循环一次得出一个特征值是上升了还是下降了,来获取该基础特征是对XGBoost模型贡献分值。
其中,贡献分值为基础特征添加到XGBoost模型中进行计算,得到的分数。贡献分值分为正贡献、负贡献。即正贡献为通过逐步回归算法,将基础特征添加到XGBoost模型进行迭代计算后,得出的曲线特征值上升了,代表着该基础特征为能够为疾病分类提供积极效果的特征;反之,负贡献为通过逐步回归算法,将基础特征添加到XGBoost模型进行迭代计算后,得出的特征值下降了,代表着该基础特征为能够为疾病分类提供负面效果的特征。
其中,逐步回归的基本思想是将基础特征逐个引入XGBoost模型,每引入一个基础特征后都要进行F检验,并对已经选入的基础特征逐个进行t检验,当原来引入的基础特征由于后面基础特征的引入变得不再显著时,则将其删除。以确保每次引入新的基础特征之前XGBoost模型中只包含显著性的基础特征。这是一个反复的过程,直到既没有显著的基础特征选入XGBoost模型,也没有不显著的基础特征从XGBoost模型中剔除为止。以保证最后所得到的基础特征是最优的。
S23:从代计算结果中,将贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将前N个贡献分值所对应的基础特征作为N个目标特征,其中,N<M,N为正整数。
具体的,由于本发明是针对某一疾病的生理特征数据,来进行数据的分类,故而需要筛选对该疾病的数据分类为积极影响的特征。所以将贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将前N个贡献分值所对应的基础特征作为N个目标特征。
本实施例中,通过基于XGBoost模型,对初始数据进行特征提取,得到M个基础特征,并根据逐步回归算法,将M个基础特征添加到XGBoost模型中进行迭代计算,得到迭代计算结果,并从代计算结果中,将贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将前N个贡献分值所对应的基础特征作为N个目标特征。实现对待分类疾病数据提取目标特征,有利于后续步骤根据目标特征进行模型训练和对目标数据的获取,提高对该疾病的数据分类的准确率。
请参阅图4,图4示出了步骤S21的一种具体实施方式,步骤S21中,基于XGBoost模型,对初始数据进行特征提取,得到M个基础特征的具体实现过程,详叙如下:
S211:基于XGBoost模型,对初始数据进行集成树计算分析,得到K个分析特征,其中,每个分析特征经过计算分析后具有分割得分,K为正整数,K>M。
具体的,通过对初始数据的集成树计算分析,获取分析特征,确认每个分析特征的分割得分。
其中,分割得分是根据集成树对一个特征进行分割的次数,并取加权平均作为其分割得分。若是没有别集成树分割,则该特征分割得分为零。
S212:删除分割得分为零的分析特征,将保留下来的分析特征作为基础特征,得到M个基础特征。
具体的,由于分割得分为零的分析特征,对疾病的数据分类并无作用,为无用的分析特征,故将其删除,避免基础特征过多,导致后续计算量过大。
本实施例中,通过XGBoost模型,对初始数据进行集成树计算分析,得到K个分析特征,并删除分割得分为零的分析特征,将保留下来的分析特征作为基础特征,得到M个基础特征,实现删除分割得分为零的分析特征,减轻后续的使用逐步回归算法的计算量,并有利于筛选目标特征,实现提高对疾病的数据分类的准确性。
请参阅图5,图5示出了步骤S22的一种具体实施方式,步骤S22中,根据逐步回归算法,将M个基础特征添加到XGBoost模型中进行迭代计算,得到迭代计算结果的具体实现过程,详叙如下:
S221:根据逐步回归算法,将M个基础特征逐步添加到XGBoost模型中进行迭代计算,其中,每次迭代计算得到一个特征值。
进一步的,特征值可以用Area Under Curve(AUC)表示。
其中,Area Under Curve(AUC)被定义为ROC曲线下与坐标轴围成的面积,且这个面积的数值不会大于1。由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高。在本方案中,通过每循环一次得出一个曲线AUC值是上升了还是下降了,判断基础特征对疾病数据的影响,且当AUC不再变化时(或者刚下降时),结束迭代计算。
S222:当检测到特征值不再上升时,统计基础特征对XGBoost模型计算后得到的贡献分值。
具体的,当特征值不在上升时,说明再添加基础特征对XGBoost模型计算已经没有作用,故而当检测到特征值不再上升时,统计基础特征对XGBoost模型计算后得到的贡献分值。
本实施例中,根据逐步回归算法,将M个基础特征逐步添加到XGBoost模型中进行迭代计算,当检测到AUC值不再上升时,统计基础特征对XGBoost模型计算后得到的贡献分值,实现获取每个基础特征的贡献分值,减少对XGBoost模型的计算量,为后续选取目标特征提供基础,进而提高对疾病数据分类的准确性。
进一步的,在步骤S221之后,该基于XGBoost的数据分类方法还包括:
通过嵌套交叉验证的方式,对XGBoost模型进行验证。
具体的,嵌套交叉验证是一个验证XGBoost模型稳定性和确保无偏性的方法。可以理解为XGBoost模型的验证工具,确保XGBoost模型对训练集、测试集和验证集的选取不带偏见性。
需要说明的是,在XGBoost模型对初始数据进行特征提取过程中和使用逐步回归算法的过程,都需要通过嵌套交叉验证的方式,使其选取的特征带偏见性。
本实施例中,通过对XGBoost模型进行验证,使得通过XGBoost模型对特征选取、分割不带偏见性。
进一步的,步骤S5还包括:
将分类筛选问卷以二维码链接的形式发送到目标用户,获取目标用户的目标数据,目标数据存储于区块链中。
其中,通过问卷二维码链接的形式收集目标数据,适用于大规模进行目标数据的收集,有利于对快速掌握该疾病数据的分类情况,便于做出相应举措。
需要强调的是,为进一步保证上述目标数据的私密和安全性,上述目标数据还可以存储于一区块链的节点中。
进一步的,通过问卷二维码链接收集目标数据,并以json形式返回服务器。
在一具体实施例中,通过以上步骤得到的目标特征有“年龄”“遗传病史”“吸烟时长”、“发热”、“胸闷”、“喉咙发炎”等等。将以上所有的目标特征设置成问卷的形式,如“年龄大小”、“家族是否有遗传病史”、“是否发热”、“是否胸闷”、“是否喉咙发炎”等等,将这些问题集中在一份问卷中,形成分类筛选问卷,在将分类筛选问卷以二维码链接的形式发送到各个目标用户终端上,目标用户通过填写分类筛选问卷,该问卷信息再以json形式返回服务器,输入到分类模型当中。分类模型根据这些目标数据进行逐一分析,得到目标用户所在的分类。
本实施例中,通过将分类筛选问卷以二维码链接的形式发送到目标用户,获取目标用户的目标数据,实现快速获取大量目标用户的目标数据,便于对目标用户划分不同分类,提高人群数据分类划分的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
请参考图6,作为对上述图2所示方法的实现,本申请提供了一种基于XGBoost的数据分类装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的基于XGBoost的数据分类装置包括:初始数据获取模块61、目标特征提取模块62、分类模型训练模块63、分类筛选问卷模块64及用户分类输出模块65,其中:
初始数据获取模块61,用于从调查数据库中提取待分类疾病对应的调查数据,作为初始数据;
目标特征提取模块62,用于采用XGBoost模型对初始数据进行特征提取,得到调查数据的目标特征;
分类模型训练模块63,用于使用目标特征对XGBoost模型进行模型训练,并在XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型;
分类筛选问卷模块64,用于根据目标特征,生成分类筛选问卷;
用户分类输出模块65,用于针对任一用户,将用户回答分类筛选问卷得到的数据,作为用户的目标数据,并将目标数据输入训练好的分类模型中,得到用户对应的分类。
进一步的,目标特征提取模块62包括:
基础特征获取单元,用于基于XGBoost模型,对初始数据进行特征提取,得到M个基础特征,其中,M为正整数;
迭代计算结果单元,用于根据逐步回归算法,将M个基础特征添加到XGBoost模型中进行迭代计算,得到迭代计算结果,其中,迭代计算结果中包含基础特征对应的贡献分值;
目标特征获取单元,用于从迭代计算结果中,将贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将前N个贡献分值所对应的基础特征作为N个目标特征,其中,N<M,N为正整数。
进一步的,基础特征获取单元包括:
分析特征获取子单元,用于基于XGBoost模型,对初始数据进行集成树计算分析,得到K个分析特征,其中,每个分析特征经过计算分析后具有分割得分,K为正整数,K>M;
基础特征获取子单元,用于分割得分为零的分析特征,将保留下来的分析特征作为基础特征,得到M个基础特征。
进一步的,迭代计算结果单元包括:
回归算法计算子单元,用于根据逐步回归算法,将M个基础特征逐步添加到XGBoost模型中进行迭代计算,其中,每次迭代计算得到一个特征值;
贡献情况确认子单元,用于当检测到特征值不再上升时,统计基础特征对XGBoost模型计算后得到的贡献分值。
进一步的,回归算法计算子单元之后,基于XGBoost的数据分类装置还包括:
模型验证子单元,用于通过嵌套交叉验证的方式,对XGBoost模型进行验证。
进一步的,用户分类输出模块65还包括:
目标数据收集单元,用于将分类筛选问卷以二维码链接的形式发送到目标用户,获取目标用户的目标数据,目标数据存储于区块链中。
需要强调的是,为进一步保证上述目标数据的私密和安全性,上述目标数据还可以存储于一区块链的节点中。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是,图中仅示出了具有三种组件存储器71、处理器72、网络接口73的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器71至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器71可以是计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,存储器71也可以是计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器71还可以既包括计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,存储器71通常用于存储安装于计算机设备7的操作系统和各类应用软件,例如基于XGBoost的数据分类方法的程序代码等。此外,存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器72在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制计算机设备7的总体操作。本实施例中,处理器72用于运行存储器71中存储的程序代码或者处理数据,例如运行一种基于XGBoost的数据分类方法的程序代码。
网络接口73可包括无线网络接口或有线网络接口,该网络接口73通常用于在计算机设备7与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有服务器维护程序,服务器维护程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种基于XGBoost的数据分类方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于XGBoost的数据分类方法,其特征在于,包括:
从调查数据库中提取待分类疾病对应的调查数据,作为初始数据;
采用XGBoost模型对所述初始数据进行特征提取,得到所述调查数据的目标特征;
使用所述目标特征对所述XGBoost模型进行模型训练,并在所述XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型;
根据所述目标特征,生成分类筛选问卷;
针对任一用户,将所述用户回答所述分类筛选问卷得到的数据,作为用户的目标数据,并将所述目标数据输入所述训练好的分类模型中,得到所述用户对应的分类。
2.根据权利要求1所述的基于XGBoost的数据分类方法,其特征在于,所述采用XGBoost模型对所述初始数据进行特征提取,得到所述调查数据的目标特征包括:
基于所述XGBoost模型,对所述初始数据进行特征提取,得到M个基础特征,其中,M为正整数;
根据逐步回归算法,将M个所述基础特征添加到所述XGBoost模型中进行迭代计算,得到迭代计算结果,其中,所述迭代计算结果中包含所述基础特征对应的贡献分值;
从所述迭代计算结果中,将所述贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将所述前N个贡献分值所对应的基础特征作为N个目标特征,其中,N<M,N为正整数。
3.根据权利要求2所述的基于XGBoost的数据分类方法,其特征在于,所述基于所述XGBoost模型,对所述初始数据进行特征提取,得到M个基础特征,其中,M为正整数包括:
基于所述XGBoost模型,对所述初始数据进行集成树计算分析,得到K个分析特征,其中,每个所述分析特征经过计算分析后具有分割得分,K为正整数,K>M;
删除分割得分为零的分析特征,将保留下来的分析特征作为所述基础特征,得到M个所述基础特征。
4.根据权利要求2所述的基于XGBoost的数据分类方法,其特征在于,所述根据逐步回归算法,将M个所述基础特征添加到所述XGBoost模型中进行迭代计算,得到迭代计算结果包括:
根据逐步回归算法,将M个所述基础特征逐步添加到XGBoost模型中进行迭代计算,其中,每次迭代计算得到一个特征值;
当检测到所述特征值不再上升时,统计所述基础特征对所述XGBoost模型计算后得到的所述贡献分值。
5.根据权利要求4所述的基于XGBoost的数据分类方法,其特征在于,在所述根据逐步回归算法,将M个所述基础特征逐步添加到XGBoost模型中进行迭代计算之后,所述方法还包括:
通过嵌套交叉验证的方式,对所述XGBoost模型进行验证。
6.根据权利要求1至5任一项所述的基于XGBoost的数据分类方法,其特征在于,所述针对任一用户,将所述用户回答所述分类筛选问卷得到的数据,作为用户的目标数据,并将所述目标数据输入所述训练好的分类模型中,得到所述用户对应的分类还包括:
将所述分类筛选问卷以二维码链接的形式发送到所述目标用户,获取所述目标用户的所述目标数据,所述目标数据存储于区块链中。
7.一种基于XGBoost的数据分类装置,其特征在于,包括:
初始数据获取模块,用于从调查数据库中提取待分类疾病对应的调查数据,作为初始数据;
目标特征提取模块,用于采用XGBoost模型对所述初始数据进行特征提取,得到所述调查数据的目标特征;
分类模型训练模块,用于使用所述目标特征对所述XGBoost模型进行模型训练,并在所述XGBoost模型中使用Hyperopt库进行模型调参,得到训练好的分类模型;
分类筛选问卷模块,用于根据所述目标特征,生成分类筛选问卷;
用户分类获取模块,用于针对任一用户,将所述用户回答所述分类筛选问卷得到的数据,作为用户的目标数据,并将所述目标数据输入所述训练好的分类模型中,得到所述用户对应的分类。
8.根据权利要求7所述的基于XGBoost的数据分类装置,其特征在于,所述目标特征提取模块包括:
基础特征获取单元,用于基于所述XGBoost模型,对所述初始数据进行特征提取,得到M个基础特征,其中,M为正整数;
迭代计算结果单元,用于根据逐步回归算法,将M个所述基础特征添加到所述XGBoost模型中进行迭代计算,得到迭代计算结果,其中,所述迭代计算结果中包含所述基础特征对应的贡献分值;
目标特征获取单元,用于从所述迭代计算结果中,将所述贡献分值按照从大到小的顺序排列,选取排名前N个贡献分值,并将所述前N个贡献分值所对应的基础特征作为N个目标特征,其中,N<M,N为正整数。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于XGBoost的数据分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于XGBoost的数据分类方法。
CN202010355834.XA 2020-04-29 2020-04-29 基于XGBoost的数据分类方法、装置、计算机设备及存储介质 Pending CN111695593A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010355834.XA CN111695593A (zh) 2020-04-29 2020-04-29 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
PCT/CN2020/099521 WO2021217867A1 (zh) 2020-04-29 2020-06-30 基于XGBoost的数据分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010355834.XA CN111695593A (zh) 2020-04-29 2020-04-29 基于XGBoost的数据分类方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111695593A true CN111695593A (zh) 2020-09-22

Family

ID=72476788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010355834.XA Pending CN111695593A (zh) 2020-04-29 2020-04-29 基于XGBoost的数据分类方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111695593A (zh)
WO (1) WO2021217867A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529319A (zh) * 2020-12-18 2021-03-19 平安银行股份有限公司 基于多维特征的评分方法、装置、计算机设备及存储介质
CN112837061A (zh) * 2021-02-26 2021-05-25 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置
CN113516513A (zh) * 2021-07-20 2021-10-19 重庆度小满优扬科技有限公司 数据分析方法、装置、计算机设备和存储介质
CN113536072A (zh) * 2020-11-16 2021-10-22 厦门市和家健脑智能科技有限公司 一种认知筛查数据处理建模的模型投票组合的方法及装置
CN113689928A (zh) * 2021-08-24 2021-11-23 平安国际智慧城市科技股份有限公司 保养及预防患病方案的推荐方法、装置、设备及存储介质
CN116776237A (zh) * 2023-08-23 2023-09-19 深圳前海环融联易信息科技服务有限公司 一种元数据分类分级方法、装置、设备及介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363671B (zh) * 2021-12-31 2024-03-19 北京达佳互联信息技术有限公司 多媒体资源推送方法、模型训练方法、装置、存储介质
CN114910125B (zh) * 2022-05-12 2024-07-02 武汉理工大学 一种基于AR和IoT的管道监测系统及方法
CN115660291B (zh) * 2022-12-12 2023-03-14 广东省农业科学院植物保护研究所 一种植物病害发生与潜在发生的识别评估方法及系统
CN116451034A (zh) * 2023-03-30 2023-07-18 重庆大学 基于xgboost算法的压力源与水质关系的分析方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615044A (zh) * 2016-12-12 2018-10-02 腾讯科技(深圳)有限公司 一种分类模型训练的方法、数据分类的方法及装置
CN109784351B (zh) * 2017-11-10 2023-03-24 财付通支付科技有限公司 行为数据分类方法、分类模型训练方法及装置
CN110491520A (zh) * 2019-07-26 2019-11-22 北京邮电大学 一种基于半监督学习的骨质状态评估模型的构建方法
CN110796299A (zh) * 2019-10-23 2020-02-14 国网电力科学研究院武汉南瑞有限责任公司 一种雷电预测方法
CN110853761A (zh) * 2019-11-26 2020-02-28 上海市同济医院 一种基于极端梯度提升算法的精神病高危识别模型

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536072A (zh) * 2020-11-16 2021-10-22 厦门市和家健脑智能科技有限公司 一种认知筛查数据处理建模的模型投票组合的方法及装置
CN112529319A (zh) * 2020-12-18 2021-03-19 平安银行股份有限公司 基于多维特征的评分方法、装置、计算机设备及存储介质
CN112837061A (zh) * 2021-02-26 2021-05-25 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置
CN113516513A (zh) * 2021-07-20 2021-10-19 重庆度小满优扬科技有限公司 数据分析方法、装置、计算机设备和存储介质
CN113689928A (zh) * 2021-08-24 2021-11-23 平安国际智慧城市科技股份有限公司 保养及预防患病方案的推荐方法、装置、设备及存储介质
CN113689928B (zh) * 2021-08-24 2023-06-20 深圳平安智慧医健科技有限公司 保养及预防患病方案的推荐方法、装置、设备及存储介质
CN116776237A (zh) * 2023-08-23 2023-09-19 深圳前海环融联易信息科技服务有限公司 一种元数据分类分级方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2021217867A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
CN111695593A (zh) 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
WO2020181805A1 (zh) 糖尿病的预测方法及装置、存储介质、计算机设备
US20190311114A1 (en) Man-machine identification method and device for captcha
CN110209660B (zh) 欺诈团伙挖掘方法、装置及电子设备
WO2019196534A1 (zh) 验证码的人机识别方法及装置
CN106874253A (zh) 识别敏感信息的方法及装置
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
US20220215899A1 (en) Affinity prediction method and apparatus, method and apparatus for training affinity prediction model, device and medium
CN111816300A (zh) 基于深度强化学习的数据分类方法、装置、设备及介质
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN112686301A (zh) 基于交叉验证的数据标注方法及相关设备
WO2021120587A1 (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN111696656B (zh) 一种互联网医疗平台的医生评价方法、装置
WO2021174881A1 (zh) 多维度信息的组合预测方法、装置、计算机设备及介质
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN114783580B (zh) 一种医疗数据质量评估方法及系统
CN112686312A (zh) 一种数据分类方法、装置及系统
WO2021258968A1 (zh) 小程序分类方法、装置、设备及计算机可读存储介质
US20150339602A1 (en) System and method for modeling health care costs
CN112466401B (zh) 利用人工智能ai模型组分析多类数据的方法及装置
CN110442674A (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN116166999A (zh) 异常交易数据识别方法、装置、计算机设备及存储介质
CN111986815B (zh) 基于共现关系的项目组合挖掘方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40031821

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination