CN114528910A - 用户分类方法、装置及存储介质 - Google Patents
用户分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114528910A CN114528910A CN202210019071.0A CN202210019071A CN114528910A CN 114528910 A CN114528910 A CN 114528910A CN 202210019071 A CN202210019071 A CN 202210019071A CN 114528910 A CN114528910 A CN 114528910A
- Authority
- CN
- China
- Prior art keywords
- user
- risk prediction
- information
- model
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用户分类方法、装置及存储介质,包括获取历史信息,根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;获取实时特征信息,将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出风险预测等级,并根据所述风险预测等级对测试用户进行分类。本申请通过上述方法及结构,实现了可结合回顾性用户的历史用户特征以及预测用户当前的用户特征来进行更精准地分类,解决了现有技术当中现有的分类模型容易由于用户自身情况随着时间发生变化导致准确性降低,导致用户分类结果出现错误的问题,提升了用户分类的准确性。
Description
技术领域
本申请涉及人工智能领域,尤其是用户分类方法、装置及存储介质。
背景技术
随着计算机技术和机器学习的不断发展,人工智能开始应用于各种场景。例如,在多种场景下,开始使用人工智能技术,对用户进行群体划分,也就是训练一些用户分类模型,用于对用户进行分类。用户的分类可以便于根据用户群体,为用户提供针对性的服务,例如,定制用户专属内容,向用户推送不同信息,等等。一方面使得用户可以获得更需要的服务或内容,提高用户体验,另一方面,减少不必要的数据和信息传播,从而减少不必要的资源浪费。
通常情况下,对用户的分类需要考虑用户自身的特征,以及针对的业务场景和业务逻辑,例如是信息推送,定制服务,或是内容推荐,等等。然而,实际上,不管是业务逻辑,还是用户自身,都在随着时间而发生变化。这就使得原本训练的用户分类模型准确性降低,甚至不再适用,从而导致用户分类出现错误,因此,希望能有改进的方案,可以根据历史用户的具体情况,更为有效地对用户进行分类。
发明内容
本申请的目的为提供用户分类方法、装置及存储介质,旨在解决现有技术中,由于用户自身情况随着时间发生变化使得原本训练的用户分类模型准确性降低,甚至不再适用,导致用户分类结果出现错误。
为实现上述目的,本申请采取的技术方案为:
本申请提供一种用户分类方法,包括:
获取历史信息,所述历史信息为回顾性用户的用户特征;
根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;
根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;
获取实时特征信息,所述实时特征信息为预测用户的实时特征;
将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出所述预测用户的风险预测等级;
根据所述风险预测等级对所述预测用户进行分类。
进一步的,所述根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据,具体包括:
获取所述历史信息中各个所述回顾性用户的历史特征信息;
判断所述历史特征信息中是否存在预设比较特征,若是,则将所述历史特征信息进行提取并整合为建模队列;
将所述建模队列使用CatBoost算法进行特征选择,从而生成模型候选特征集;
将所述模型候选特征集根据预设分组比例进行分割,从而形成所述回顾性分析数据。
进一步的,所述将所述建模队列使用CatBoost算法进行特征选择,从而生成模型候选特征集,具体包括:
获取所述建模队列包含的所述特征信息,记为建模特征信息;
获取所述建模特征信息的损失变化,并记为损失变化值V;
根据各所述建模特征信息的重要性将各个所述建模特征信息在所述建模队列中进行排序,记为排序特征队列,同时统计各个所述建模特征信息的累计贡献,记为累计贡献值M;
将所述累计贡献值M以及损失变化值V输入到CatBoost算法内进行推算,并将所述累计贡献值M的阈值设定为0.95;
判断在CatBoost算法的推算过程中所述累计贡献值M的数值是否大于0.95,若是,则获取所述CatBoost算法的选择结果数值N;
从所述排序特征队列内按顺序获取与所述选择结果数值N对应数量的所述建模特征信息,从而生成所述模型候选特征集。
进一步的,所述回顾性分析数据包括训练集、验证集以及测试集;
则所述将所述模型候选特征集根据预设分组比例进行分割,从而形成所述回顾性分析数据,具体包括:
获取预设分组比例;
根据所述预设分组比例将所述模型候选特征集随机分割为训练集、验证集以及测试集。
进一步的,所述根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型,具体包括:
获取预设的GA算法,所述GA算法用于进行模型训练;
将所述训练集以及所述测试集输入到所述GA算法内进行更新迭代;
获取在所述更新迭代的过程中AUC面积最高的模型参数,并将该模型参数记为风险预测模型。
进一步的,所述获取在所述更新迭代的过程中AUC面积最高的模型参数,并将该模型参数记为风险预测模型之后,还包括:
所述测试集输入到所述风险预测模型中进行推算,并将结果记为敏感性推算值;
判断所述敏感性推算值是否大于0.9,若是,则将所述敏感性推算值记为所述风险预测模型的操作阈值。
进一步的,所述将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出风险预测等级,具体包括:
获取所述实时特征信息中所述预测用户的实时特征信息;
将所述实时特征信息添加到所述风险预测模型中进行推算,并生成推算预测结果;
判断所述推算预测结果是否大于所述敏感性推算值,若是,则判断所述实时特征信息对应的所述预测用户的所述风险预测等级为高。
本申请还提供一种用户分类装置,包括:
第一信息获取模块,用于获取历史信息,所述历史信息为回顾性用户的用户特征;
数据生成模块,用于根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;
模型生成模块,用于根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;
第二信息获取模块,获取实时特征信息,所述实时特征信息为预测用户的实时特征;
推算模块,将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出所述预测用户的风险预测等级;
分类模块,用于根据所述风险预测等级对所述预测用户进行分类。
本申请还提供一种存储介质,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述任一项所述的用户分类方法。
本申请还提供一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的用户分类方法。
本申请的有益效果:本申请通过使用CatBoost算法对回顾性用户的用户特征进行特征筛选,并在筛选后使用继承算法生成风险预测模型,并通过所述风险预测模型对所述预测用户进行分类的方式实现了可结合回顾性用户的历史用户特征以及预测用户当前的用户特征来推算,从而实现更精准的分类,解决了现有技术当中现有的分类模型容易由于用户自身情况随着时间发生变化导致准确性降低,甚至不再适用,导致用户分类结果出现错误的问题,提升了用户分类的准确性。
附图说明
图1为本申请一种用户分类方法一实施例的方法流程图;
图2为本申请一种用户分类装置一实施例的结构示意图;
图3为本申请一实施例的存储介质的结构框图;
图4为本申请一实施例的计算机设备的结构框图;
图中标号名称为:1-第一信息获取模块、2-数据生成模块、3-模型生成模块、4-第二信息获取模块、5-推算模块、6-分类模块、100-存储介质、200-计算机程序、300-计算机设备、400-处理器。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
参考图1,本申请提供一种用户分类方法,包括:
S1、获取历史信息,所述历史信息为回顾性用户的用户特征;
S2、根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;
S3、根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;
S4、获取实时特征信息,所述实时特征信息为预测用户的实时特征;
S5、将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出所述预测用户的风险预测等级。
S6、根据所述风险预测等级对所述预测用户进行分类。
如上述步骤S1所述,后台系统通过采集多个回顾性用户的用户特征,并记为所述历史信息,所述历史信息内包含的用户特征至少包括若干个由用户自行进行设定的必要特征;
可以理解的是,所述历史信息内包含的所述必要特征可有用户自行设定,本申请对此不作限定。
如上述步骤S2所述,所述后台系统在获取到所述历史信息后,所述后台工作人员对所述历史信息进行人工筛选并剔除掉所述历史信息中的错误数据、异常数据以及缺失率大于0.5的检查项,并使用CatBoost算法进行特征选择,从而生成所述回顾性分析数据。
可以理解的是,所述CatBoost算法储存在所述后台系统内,所述CatBoost算法的boosting算法是GBDT(Gradient Boosting Decision Tree),即梯度提升决策树,此外,所述风险预测模型还可利用XGBoost模型或LightGBM模型来进行生成。
如上述步骤S3所述,所述GA算法储存在所述后台系统内,所述后台系统根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型,具体表现为:利用GA算法在所述回顾性分析数据上进行训练,从而得到所述风险预测模型,所述风险预测模型用于后续模型优化和预测服务,从而达到结合回顾性用户的用户特征来生成所述风险预测模型的效果;
如上述步骤S4所述,所述后台系统通过采集所述预测用户的当前实时特征,并记为所述实时特征信息,所述实时特征信息内包含的所述用户特征与所述历史信息内包含的所述用户特征一致;
如上述步骤S5所述,所述后台系统将获取到的所述实时特征信息添加到所述风险预测模型内进行推算,从而推算出该名所述预测用户的风险预测等级,所述风险预测等级包括高风险等级以及低风险等级两种;
可以理解的是,所述风险预测等级并不仅限于高风险等级以及低风险等级两种,本申请对此不作限定。
如上述步骤S6所述,所述后台系统根据所述风险预测等级对所述预测用户进行分类,当所述风险预测等级为高时,所述后台系统将该名所述预测用户分类到需测试类别,之后所述后台系统可将所述需测试类别内所有的测试用户并安排进行前列腺穿刺,反之当所述风险预测等级为低时,所述后台系统将该名所述预测用户分类到无需测试类别,达到了提升所述预测用户分类准确性的效果。
结合上述实施例可知,本申请通过上述方法,使用CatBoost算法对回顾性用户的用户特征进行特征筛选,并在筛选后使用继承算法生成风险预测模型,并通过所述风险预测模型对所述预测用户进行分类的方式实现了可结合回顾性用户的历史用户特征以及预测用户当前的用户特征来推算,从而实现更精准的分类,解决了现有技术当中现有的分类模型容易由于用户自身情况随着时间发生变化导致准确性降低,甚至不再适用,导致用户分类结果出现错误的问题,提升了用户分类的准确性。
一实施例中,所述根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据,具体包括:
S21、获取所述历史信息中各个所述回顾性用户的历史特征信息,判断所述历史特征信息中是否存在预设比较特征,若是,则将所述历史特征信息进行提取并整合为建模队列,将所述建模队列使用CatBoost算法进行特征选择,从而生成模型候选特征集,将所述模型候选特征集根据预设分组比例进行分割,从而形成所述回顾性分析数据。
如上述实施例所述,所述后台系统获取所述历史信息中包含的各个所述回顾性用户的历史特征信息,所述历史特征信息中包含个所述回顾性用户各种用户特征以及用户特征数值,之后所述后台系统判断所述历史特征信息中是否存在预设比较特征,若是,则所述后台系统将所述历史特征信息进行提取,记为建模队列,从而保证了在推算所述回顾性分析数据的过程中所有用于推算的所述回顾性用户样本中至少包含了预设比较特征,提升所述建模队列的可靠性,之后所述后台系统将所述建模队列使用CatBoost算法进行特征选择,从而生成所述模型候选特征集,之后所述模型候选特征集根据预设分组比例进行分割,从而形成所述回顾性分析数据。
可以理解的是,所述预设分组比例还可为用户自行设置,并不仅限于7:1:2,此外所述预设比较特征内包含的特征可由用户自行设定,本申请对此不作限定
一实施例中,所述将所述建模队列使用CatBoost算法进行特征选择,从而生成模型候选特征,具体包括:
S211、获取所述建模队列包含的所述特征信息,记为建模特征信息,获取所述建模特征信息的损失变化,并记为损失变化值V,根据各所述建模特征信息的重要性将各个所述建模特征信息在所述建模队列中进行排序,记为排序特征队列,同时统计各个所述建模特征信息的累计贡献,记为累计贡献值M,将所述累计贡献值M以及损失变化值V输入到CatBoost算法内进行推算,并将所述累计贡献值M的阈值设定为0.95,判断在CatBoost算法的推算过程中所述累计贡献值M的数值是否大于0.95,若是,则获取所述CatBoost算法的选择结果数值N,从所述排序特征队列内按顺序获取与所述选择结果数值N对应数量的所述建模特征信息,从而生成所述模型候选特征集。
如上述实施例所述,所述后台系统获取所述建模队列内包含的所有特征信息,并记为建模特征信息,之后所述后台系统获取所述建模特征信息的损失变化,并记为损失变化值V,之后所述后台系统的工作人员根据各所述建模特征信息的重要性在所述建模队列中进行排序,记为排序特征队列,同时统计各个所述建模特征信息的累计贡献,记为累计贡献值M,之后所述后台系统的工作人员将所述累计贡献值M的阈值设定为0.95,并将所述损失变化值V以及累计贡献值M输入到所述CatBoost算法公式中进行推算,所述CatBoost算法公式内容如下:
此时所述后台系统实时监控所述CatBoost算法公式的运算过程,并且在运算过程中当M大于0.95时,所述后台系统停止所述CatBoost算法公式的推算并获取所述CatBoost算法公式中N的数值,记为选择结果数值N,之后所述后台系统根据所述选择结果数值N以及排序后的所述建模特征信息从所述排序特征队列中获取与所述选择结果数值N的值对应数量的且经过排序后的所述建模特征信息,从而生成所述模型候选特征集。
一实施例中,所述回顾性分析数据包括训练集、验证集以及测试集;
则所述将所述模型候选特征根据预设分组比例进行分割,从而形成所述回顾性分析数据,具体包括:
S212、获取预设分组比例,根据所述预设分组比例将所述模型候选特征集随机分割为训练集、验证集以及测试集。
如上述实施例所述,所述后台系统获取所述预设分组比例,所述预设分组比例为7:1:2,则所述后台系统根据所述预设分组比例将所述模型候选特征集随机拆分为训练集、验证集以及测试集,所述训练集以及所述验证集用于加入到后期的GA算法的推算中进行模型训练,并生成所述风险预测模型,所述测试集用于添加到所述风险预测模型当中进行推算,从而得出所述风险预测模型的敏感性推算值。
一实施例中,根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型,具体包括:
S31、获取预设的GA算法,所述GA算法用于进行模型训练,将所述训练集以及所述测试集输入到所述GA算法内进行更新迭代,获取在所述更新迭代的过程中AUC面积最高的模型参数,并将该模型参数记为风险预测模型。
如上述实施例所述,所述GA算法储存在所述后台系统内,所述后台系统获取预设的GA算法,所述GA算法为一种常用的模拟生物进化过程计算方法,其中所述更新迭代的流程包括以下步骤:
S311、设定所述GA算法的进化代数计数器阈值;
S312、选择“AUC”为评价标准定义群体中个体的适应度函数;
S313、将所述训练集以及所述测试集拆分为选择算子并输入到所述GA算法中进行更新迭代;
S313、将所述选择算子作用于群体,从而形成交叉算子,此步骤目的在于把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。这里采用轮盘赌选择方法,即各个个体被选中的概率与其适应度函数值大小成正比,适应度越高,被选择的概率越高;
S314、将所述交叉算子作用于群体;此步骤的所述交叉算子采用单点交叉方法进行生成,在个体编码串中随机设置一个交叉点,然后在该点相互交换两个个体的部分字串(染色体),形成变异算子;
S315:将变异算子作用于群体;即改变个体编码串中的某些基因值,从而形成新遗传群体。
S313:判断所述新遗传群体的进化次数是否与所述进化代数计数器的阈值一致,若是,则终止推算并以进化过程中AUC面积最高的模型参数为最优解模型输出,
之后所述后台系统在完成了上述的更新迭代的流程后,将所述最优解模型为风险预测模型;
可以理解的是,通过上述的GA算法对所述训练集以及所述测试集进行训练的方式实现了能根据多名所述回顾性用户的临床数据生成风险预测模型,从而提升了对所述预测用户进行分类结果的可靠性及准确性。
一实施例中,所述获取在所述更新迭代的过程中AUC面积最高的模型参数,并将该模型参数记为风险预测模型之后,还包括:
S32、所述测试集输入到所述风险预测模型中进行推算,并将结果记为敏感性推算值,判断所述敏感性推算值是否大于0.9,若是,则将所述敏感性推算值记为所述风险预测模型的操作阈值。
如上述实施例所述,所述后台系统将所述测试集输入到所述风险预测模型中进行推算,从而得出敏感性推算值,并判断所述敏感性推算值是否大于预设敏感值0.9,若是,则将所述敏感性推算值记为所述风险预测模型的操作阈值,从而完成所述风险预测模型的设定。
可以理解的是,所述预设敏感值可由用户自行设定,本申请对此不做限定。
一实施例中,所述将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出风险预测等级,具体包括:
S51、获取所述实时特征信息中所述预测用户的实时特征信息,将所述实时特征信息添加到所述风险预测模型中进行推算,并生成推算预测结果,判断所述推算预测结果是否大于所述敏感性推算值,若是,则判断所述实时特征信息对应所述预测用户的所述风险预测等级为高。
如上述实施例所述,所述后台系统获取所述预测用户的实时特征信息,并将所述实时特征信息中包含的特征添加到所述风险预测模型中进行推算,从而生成推算预测结果,之后所述后台服务器判断所述推算预测结果是否大于所述敏感性推算值,若是,则判断所述实时特征信息对应的所述预测用户的风险预测等级为高,反之则判断所述实时特征信息对应测试用户的风险预测等级为低。
参考图2,本申请还提供一种用户分类装置,包括:
第一信息获取模块1,用于获取历史信息,所述历史信息为回顾性用户的用户特征;
数据生成模块2,用于根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;
模型生成模块3,用于根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;
第二信息获取模块4,获取实时特征信息,所述实时特征信息为预测用户的实时特征;
推算模块5,将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出所述预测用户的风险预测等级;
分类模块6,用于根据所述风险预测等级对所述预测用户进行分类。
上述各模块为执行上述用户分类装置,在此不再一一介绍。
参考图3,本申请还提供一种存储介质,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述任一项所述的用户分类方法。
参考图4,本申请还提供一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的用户分类方法。
在本申请的具体实施场景中,本申请应用于医院场景患者分类场景中,所述回顾性用户为医院的回顾性患者,所述用户特征为所述回顾性用户的临床特征,所述历史信息为所述回顾性用户的第一临床信息,所述预测用户为当前测试患者,则所述实时特征信息为所述预测用户实时获取的第二临床信息;
则所述后台系统通过医院His系统(医院信息系统)采集多个回顾性用户的用户特征,并记为所述历史信息,所述历史信息内包含的所述必要特征包括:
1.基本信息特征,包含年龄、身高及体重;
2.分子标记物特征,包含前列腺特异性抗原(PSA)及游离前列腺特异性抗原(FPSA);
3.血常规特征,包含白细胞计数、红细胞计数、血红蛋白、平均红细胞体积、血小板计数及血小板分布宽度,以及各血常规指标间的衍生特征,例如中性粒细胞与淋巴细胞比值等;
4.确诊信息,用于识别所述回顾性用户是否确诊;
此外,上述回顾性用户的临床数据还可通过医院Lis系统(实验室/检验科信息系统)或EMR系统(计算机化病历系统)进行获取;
之后,所述后台系统判断所述预设比较特征内的特征包括基本信息特征、血常规特征、分子标记物特征以及确诊信息,则后台系统判断所述历史特征信息中是否存在基本信息特征、血常规特征、分子标记物特征以及确诊信息,若是,则所述后台系统将所述历史特征信息进行提取,记为建模队列,从而保证了在推算所述回顾性分析数据的过程中所有用于推算的所述回顾性用户样本中至少包含了基本信息特征、血常规特征、分子标记物特征以及确诊信息,提升所述建模队列的可靠性,之后所述医院的后台系统获取所述建模队列内包含的所有所述回顾性用户的所述特征信息,并整合记为建模特征信息,之后所述医院的后台系统获取所述建模特征信息的损失变化,并记为损失变化值V,之后所述医院的工作人员根据所述特征信息对所述回顾性用户的重要性在在所述建模队列中进行排序,如当所述工作人员判断所述回顾性用户的所述分子标记物特征比基本信息特征、血常规特征以及确诊信息重要,则所述建模队列内各个所述回顾性用户的所述建模特征的排序顺序为:1.所述分子标记物特征、2.血常规特征、3.确诊信息,之后所述医院的后台系统将排序后的所述建模特征记为排序特征队列,同时统计各个所述建模特征信息的累计贡献,记为累计贡献值M,之后所述医院的工作人员将所述累计贡献值M的阈值设定为0.95,并将所述损失变化值V以及累计贡献值M输入到所述CatBoost算法公式中进行推算;
此时所述医院的后台系统实时监控所述CatBoost算法公式的运算过程,并且在运算过程中当M大于0.95时,所述医院的后台系统停止所述CatBoost算法公式的推算并获取所述CatBoost算法公式中N的数值,记为选择结果数值N,比如当N为30时,则所述后台系统从所述排序特征队列内获取排名前30的建模特征,并将前30个所述建模特征记为模型候选特征集,并根据所述预设分组比例7:1:2对所述模型候选特征集进行随即拆分,形成训练集、验证集以及测试集;
之后所述后台系统将所述训练集以及所述验证集输入到所述GA算法内进行迭代,从而生成所述风险预测模型,之后再将所述测试集添加到所述风险预测模型当中进行推算,从而得出所述风险预测模型的敏感性推算值;
最后所述后台系统获取所述预测用户的实时特征信息,并将所述实时特征信息中包含的特征添加到所述风险预测模型中进行推算,从而生成推算预测结果,之后所述后台服务器判断所述推算预测结果是否大于所述敏感性推算值,若是,则判断所述实时特征信息对应的所述当前测试患者患有前列腺癌的风险预测等级为高,反之则判断所述实时特征信息对应所述当前测试患者患有前列腺癌的风险预测等级为低,并根据所述风险预测等级将所述测试患者进行分类,从而达到了提升所述预测用户分类准确性的效果。
综合上述实施例可知,本申请最大的有益效果在于:通过使用CatBoost算法对回顾性用户的用户特征进行特征筛选,并在筛选后使用继承算法生成风险预测模型,最后通过所述风险预测模型对所述预测用户进行分类的方式实现了可结合回顾性用户的历史用户特征以及预测用户当前的用户特征来推算,从而实现更精准的分类,解决了现有技术当中现有的分类模型容易由于用户自身情况随着时间发生变化导致准确性降低,甚至不再适用,导致用户分类结果出现错误的问题,提升了用户分类的准确性。
本领域技术人员可以理解,本申请所述的智能设备的操作方法和上述所涉及用于执行本申请中所述方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序或应用程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种用户分类方法,其特征在于,包括:
获取历史信息,所述历史信息为回顾性用户的用户特征;
根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;
根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;
获取实时特征信息,所述实时特征信息为预测用户的实时特征;
将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出所述预测用户的风险预测等级;
根据所述风险预测等级对所述预测用户进行分类。
2.如权利要求1所述的用户分类方法,其特征在于,所述根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据,具体包括:
获取所述历史信息中各个所述回顾性用户的历史特征信息;
判断所述历史特征信息中是否存在预设比较特征,若是,则将所述历史特征信息进行提取并整合为建模队列;
将所述建模队列使用CatBoost算法进行特征选择,从而生成模型候选特征集;
将所述模型候选特征集根据预设分组比例进行分割,从而形成所述回顾性分析数据。
3.如权利要求2所述的用户分类方法,其特征在于,所述将所述建模队列使用CatBoost算法进行特征选择,从而生成模型候选特征集,具体包括:
获取所述建模队列包含的所述特征信息,记为建模特征信息;
获取所述建模特征信息的损失变化,并记为损失变化值V;
根据各所述建模特征信息的重要性将各个所述建模特征信息在所述建模队列中进行排序,记为排序特征队列,同时统计各个所述建模特征信息的累计贡献,记为累计贡献值M;
将所述累计贡献值M以及损失变化值V输入到CatBoost算法内进行推算,并将所述累计贡献值M的阈值设定为0.95;
判断在CatBoost算法的推算过程中所述累计贡献值M的数值是否大于0.95,若是,则获取所述CatBoost算法的选择结果数值N;
从所述排序特征队列内按顺序获取与所述选择结果数值N对应数量的所述建模特征信息,从而生成所述模型候选特征集。
4.如权利要求2所述的用户分类方法,其特征在于,所述回顾性分析数据包括训练集、验证集以及测试集;
则所述将所述模型候选特征集根据预设分组比例进行分割,从而形成所述回顾性分析数据,具体包括:
获取预设分组比例;
根据所述预设分组比例将所述模型候选特征集随机分割为训练集、验证集以及测试集。
5.如权利要求4所述的用户分类方法,其特征在于,所述根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型,具体包括:
获取预设的GA算法,所述GA算法用于进行模型训练;
将所述训练集以及所述测试集输入到所述GA算法内进行更新迭代;
获取在所述更新迭代的过程中AUC面积最高的模型参数,并将该模型参数记为风险预测模型。
6.如权利要求5所述的用户分类方法,其特征在于,所述获取在所述更新迭代的过程中AUC面积最高的模型参数,并将该模型参数记为风险预测模型之后,还包括:
所述测试集输入到所述风险预测模型中进行推算,并将结果记为敏感性推算值;
判断所述敏感性推算值是否大于0.9,若是,则将所述敏感性推算值记为所述风险预测模型的操作阈值。
7.如权利要求6所述的用户分类方法,其特征在于,所述将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出风险预测等级,具体包括:
获取所述实时特征信息中所述预测用户的实时特征信息;
将所述实时特征信息添加到所述风险预测模型中进行推算,并生成推算预测结果;
判断所述推算预测结果是否大于所述敏感性推算值,若是,则判断所述实时特征信息对应的所述预测用户的所述风险预测等级为高。
8.一种用户分类装置,其特征在于,包括:
第一信息获取模块,用于获取历史信息,所述历史信息为回顾性用户的用户特征;
数据生成模块,用于根据所述历史信息使用CatBoost算法进行特征选择,从而生成回顾性分析数据;
模型生成模块,用于根据所述回顾性分析数据使用GA算法进行模型训练,从而生成风险预测模型;
第二信息获取模块,获取实时特征信息,所述实时特征信息为预测用户的实时特征;
推算模块,用于将所述实时特征信息添加到所述风险预测模型内进行推算,从而输出风险预测等级;
分类模块,用于根据所述风险预测等级对所述预测用户进行分类。
9.一种存储介质,其特征在于,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1~7任一项所述的用户分类方法。
10.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7任一项所述的用户分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019071.0A CN114528910A (zh) | 2022-01-07 | 2022-01-07 | 用户分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019071.0A CN114528910A (zh) | 2022-01-07 | 2022-01-07 | 用户分类方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114528910A true CN114528910A (zh) | 2022-05-24 |
Family
ID=81620950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210019071.0A Pending CN114528910A (zh) | 2022-01-07 | 2022-01-07 | 用户分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528910A (zh) |
-
2022
- 2022-01-07 CN CN202210019071.0A patent/CN114528910A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589806B (zh) | 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法 | |
CN109887540A (zh) | 一种基于异构网络嵌入的药物靶标相互作用预测方法 | |
CN112735535B (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
CN105930723A (zh) | 一种基于特征选择的入侵检测方法 | |
CN108351985A (zh) | 用于大规模机器学习的方法和装置 | |
Velu et al. | Visual data mining techniques for classification of diabetic patients | |
CN103258147B (zh) | 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法 | |
KR102181058B1 (ko) | 신약 후보 물질 도출을 위한 데이터 처리 방법 | |
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
CN111950622B (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
Hejase et al. | A deep-learning approach for inference of selective sweeps from the ancestral recombination graph | |
CN110060738B (zh) | 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统 | |
CN110046757B (zh) | 基于LightGBM算法的门诊量预测系统及预测方法 | |
CN112017789A (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN110097928A (zh) | 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 | |
CN116805533A (zh) | 一种基于数据收集与模拟的脑出血手术风险预测系统 | |
Frey et al. | Modeling ecological success of common pool resource systems using large datasets | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
KR20210018610A (ko) | 인공지능을 이용한 암환자 예후인자 중요도 분석 및 치료계획 처방적 분석 시스템 | |
Farmer et al. | Habitat models for land-use planning: assumptions and strategies for development | |
KR102406375B1 (ko) | 원천 기술의 평가 방법을 포함하는 전자 장치 | |
CN114528910A (zh) | 用户分类方法、装置及存储介质 | |
CN110415779A (zh) | 保温措施有效性检测方法、装置、设备及存储介质 | |
CN114037018A (zh) | 医疗数据分类方法、装置、存储介质及电子设备 | |
CN115280415A (zh) | 致病性模型的应用和其训练 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |