CN107818824A

CN107818824A - 一种用于健康评估的健康模型构建方法及终端

Info

Publication number: CN107818824A
Application number: CN201710229172.XA
Authority: CN
Inventors: 李菲菲; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2018-03-20
Also published as: WO2018188533A1

Abstract

本发明提供一种用于健康评估的健康模型构建方法及终端。所述方法包括：获取用户信息，所述用户信息包括与健康有关的多个特征信息，以及与健康无关的多个特征信息；对所述用户信息进行预处理得到样本数据集；将所述样本数据集划分为训练集和测试集；根据所述训练集中的数据和预设的算法构建健康模型；根据所述测试集的数据优化所述健康模型，以根据优化的健康模型对当前用户的健康进行评估得到当前用户的健康评估结果。所述方法及终端用多个不同维度的用户信息和完整度高的样本数据集和预设的算法构建健康模型和优化健康模型，使得使用优化的健康模型对用户健康评估的准确性更高。

Description

一种用于健康评估的健康模型构建方法及终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种用于健康评估的健康模型构建方法及终端。

背景技术

用户常常是出现疾病症状之后才知道自己的健康状况不佳，才到医院检查或者就诊导致检查或者就诊时间过晚，已错过了最佳治疗时间或者导致了治疗费用增加，因此能预测到用户的健康状况是对于用户来说至关重要的事情。现有方式中已存在利用数据模型来预估用户的健康状况的方法，但是健康模型是基于较为完整的用户健康数据得到，因此健康预测时，用户提供的数据完整度将会影响到预估结果的准确性，当用户信息与模型建立的样本数据相比不够完整时难以准确预估出用户健康状况。

发明内容

本发明提供了一种用于健康评估的健康模型构建方法和终端，可以准确预估出用户健康状况。

一方面，本发明提供了一种用于健康评估的健康模型构建方法，该方法包括：

获取用户信息，所述用户信息包括与健康有关的多个特征信息，以及与健康无关的多个特征信息；

对所述用户信息进行预处理得到样本数据集；

将所述样本数据集划分为训练集和测试集；

根据所述训练集中的数据和预设的算法构建健康模型；

根据所述测试集的数据优化所述健康模型，以根据优化的健康模型对当前用户的健康进行评估得到当前用户的健康评估结果。

另一方面，本发明提供了一种终端，该终端包括：

获取单元，用于获取用户信息，所述用户信息包括与健康有关的多个特征信息，以及与健康无关的多个特征信息；

预处理单元，用于对所述用户信息进行预处理得到样本数据集；

划分单元，用于将所述样本数据集划分为训练集和测试集；

构建单元，用于根据所述训练集中的数据和预设的算法构建健康模型；

优化单元，用于根据所述测试集的数据优化所述健康模型，以根据优化的健康模型对当前用户的健康进行评估得到当前用户的健康评估结果。

本发明实施例提供的方法和终端，获取的用户信息不仅包括与健康有关的特征信息，还包括与健康无关的特征信息，即包括了多个不同维度的特征信息，同时对用户信息进行预处理以得到完整度高的样本数据集，将样本数据集划分为训练集和测试集，以根据训练集中的数据和预设的算法构建健康模型，以根据测试集的数据优化健康模型，使得使用优化后的健康模型对用户健康评估的准确性更高。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用于健康评估的健康模型构建方法的示意流程图；

图2是本发明实施例提供的一种用于健康评估的健康模型构建方法的子流程示意图；

图3是本发明实施例提供的一种用于健康评估的健康模型构建方法的子流程示意图；

图4是本发明实施例提供的一种用于健康评估的健康模型构建方法的子流程示意图；

图5是本发明实施例提供的一种用于健康评估的健康模型构建方法的子流程示意图；

图6是本发明实施例提供的一种终端的示意性框图；

图7是本发明实施例提供的预处理单元的示意性框图；

图8是本发明另一实施例提供的预处理单元的示意性框图；

图9是本发明另一实施例提供的一种终端的示意性框图；

图10是本发明另一实施例提供的一种终端示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

图1为本发明实施例提供的一种用于健康评估的健康模型构建方法的流程示意图。该方法包括S101～S106。

S101，获取用户信息，该用户信息包括与健康有关的多个特征信息，以及与健康无关的多个特征信息。如与健康有关的身高、体重、体检数据、用户健康档案、医疗缴费信息等特征信息，与健康无关的兴趣爱好、生活习惯、消费类、社交类等特征信息。获取用户信息时不仅获取与健康有关的特征信息，还获取与健康无关的特征信息，即包括了不同维度的特征信息，全方位的表达了用户的健康状况。

S102，对该用户信息进行预处理得到样本数据集。该用户信息有多个。对获取的多个用户信息进行预处理得到样本数据集。

具体地，如图2所示，S102包括S201-S205。S201，筛选用户信息完整度高于预设值的用户信息。对用户信息完整度进行量化计算，选择用户信息完整度高于预设值的用户信息。S202，根据筛选过的用户信息以及预设的健康评分规则计算筛选过的每个用户信息对应的健康分。预设的健康评分规则可以是专家给定的健康评分规则，也可以是行业内已有的默认健康评分规则。S203，根据所述筛选过的用户信息以及每个用户信息对应的健康分构建样本。S204，根据统计判别法识别出该样本中是否存在至少一个特征信息缺失或者异常的用户信息。如身高超过3m的异常特征信息。其中，统计判别法用于将众多数据中含有粗大误差的值找出。具体地，将该变量的每一个对象的值与第一预设数据(如均值)进行比较，若比较得出的结果的绝对值大于第二预设数据(如三倍的标准偏差)，则认为该对象的值为粗大误差的值。S205，若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将该用户信息中异常的一个特征信息进行替换，以形成样本数据集。将特征信息缺失或者异常的用户信息进行填充或者替换，以对数据进行修正，提高数据的完整度和数据的准确性。具体地，插补方法可以是均值插补方法，也可以是多重插补方法。其中，均值插补方法是取该变量的其他所有对象的取值的平均值(该变量为数值型)或者该变量取值次数最多的值(该变量为非数值型)来填充或者替换该插补值；多重插补方法是指给每个缺失值或者异常值都构造m(m>1)个替代值，从而产生该变量对应的m个完全数据集，然后对每个数据集采用完全相同的数据分析方法进行处理，得到m个处理结果，综合这些处理结果，基于某种原则，得到该插补值的估计值。

具体地，如图3所示，在其他的实施例中，S102包括S301-S303。S301，根据统计判别法识别出该用户信息中是否存在至少一个特征信息缺失或者异常的用户信息。S302，若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将该用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换。将特征信息缺失或者异常的用户信息进行填充或者替换，以对数据进行修正，提高数据的完整度和数据的准确性。具体地，插补方法可以是均值插补方法，也可以是多重插补方法。S303，根据主元分析方法(Principal Component Analysis，PCA)对所述用户的特征信息进行降维以形成样本数据集。使用PCA进行降维后可以剔除掉一部分相关度小的特征，以得到相关度高的特征。其中，PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

S103，将该样本数据集划分为训练集和测试集。优选地，从该样本数据集中随机抽样预设比例的样本数据形成训练集，其余的样本数据形成测试集。优选地，预设比例为70％，即从样本数据集中随机抽样70％的样本数据形成训练集，其余的30％作为测试集。

S104，根据该训练集中的数据和预设的算法构建健康模型。优选地，预设的算法为回归算法。优选地，若使用图2所示的方法对用户信息进行预处理时，使用逻辑回归算法(Logistic Regression，LR)和梯度提升树(Gradient Boosting Decision Tree，GBDT)组合建立组合回归模型，选择高斯正态分布函数。GBDT是一种非线性的模型，该模型每次迭代都在减少残差的梯度方向新建立一颗决策树，迭代多少次就会生成多少颗决策树，决策树的路径作为LR输入特征使用。优选地，若使用图3所示的方法对用户信息进行预处理时，使用GBDT模型，选择伯努利分布函数。

S105，根据测试集的数据优化所述健康模型，以根据优化的健康模型对当前用户的健康进行评估得到当前用户的健康评估结果。利用测试集的数据来调整所构建的健康模型的参数以得到优化的健康模型。如调整参数将测试集中的用户信息使用健康模型得出的健康分与计算出的健康分的标准误差或者均方根误差逐渐趋近于零。其中，健康模型的参数包括决策树的数目、树的深度等。对于当前用户来说，输入当前用户的用户信息，即可利用优化的健康模型对该用户进行健康评估以得到当前用户的健康评估结果。

如图4所示，若涉及的插补方法为均值插补方法，S205和S302中提及的，根据插补方法将该用户信息中缺失的一个特征信息进行填充的步骤，包括S401-S403。S401，获取存在信息缺失的用户信息相似度超过特定值的若干用户信息。S402，计算在所述若干用户信息中所述缺失的一个特征信息相对应的数据的平均值。S403，将所述平均值填充用户信息中缺失的一个特征信息对应的数值。该填充方法更一步提高用户信息的完整度。

如图5所示，若涉及的插补方法为均值插补方法，S205和S302中提及的，根据插补方法将所述用户信息中异常的一个特征信息进行替换的步骤，包括S501-S503。S501，获取与存在信息异常的用户信息相似度超过特定值的若干用户信息。S502，计算在所述若干用户信息中所述异常的一类个特征信息相对应的数据的平均值。S503，将所述平均值填充用户信息中异常的一个特征信息对应的数值。该替换方法更一步提高用户信息的准确性。

上述方法实施例获取的用户信息不仅包括与健康有关的特征信息，还包括与健康无关的特征信息，即包括了多个不同维度的特征信息，同时对用户信息进行预处理以得到完整度高的样本数据集，将样本数据集划分为训练集和测试集，以根据训练集中的数据和预设的算法构建健康模型，以根据测试集的数据优化健康模型。用多个不同维度的用户信息和完整度高的样本数据集和预设的算法构建健康模型和优化健康模型，使得使用优化后的健康模型对用户健康评估的准确性更高。

图6为本发明实施例提供的一种终端的示意性框图。该终端60包括获取单元601、预处理单元602、划分单元603、构建单元604、优化单元605。

获取单元601，用于获取用户信息，该用户信息包括与健康有关的多个特征信息，以及与健康无关的多个特征信息。如与健康有关的身高、体重、体检数据、用户健康档案、医疗缴费信息等特征信息，与健康无关的兴趣爱好、生活习惯、消费类、社交类等特征信息。获取用户信息时不仅获取与健康有关的特征信息，还获取与健康无关的特征信息，即包括了不同维度的特征信息，全方位的表达了用户的健康状况。

预处理单元602，用于对该用户信息进行预处理得到样本数据集。该用户信息有多个。对获取的多个用户信息进行预处理得到样本数据集。

具体地，如图7所示，预处理单元602包括筛选单元701、计算单元702、样本构建单元703、第一识别单元704、第一插补单元705。筛选单元701，用于筛选用户信息完整度高于预设值的用户信息。对用户信息完整度进行量化计算，选择用户信息完整度高于预设值的用户信息。计算单元702，用于根据筛选过的用户信息以及预设的健康评分规则计算筛选过的每个用户信息对应的健康分。预设的健康评分规则可以是专家给定的健康评分规则，也可以是行业内已有的默认健康评分规则。样本构建单元703，用于根据所述筛选过的用户信息以及每个用户信息对应的健康分构建样本。第一识别单元704，用于根据统计判别法识别出该样本中是否存在至少一个特征信息缺失或者异常的用户信息。如身高超过3m的异常特征信息。其中，统计判别法用于将众多数据中含有粗大误差的值找出。具体地，将该变量的每一个对象的值与第一预设数据(如期望)进行比较，若比较得出的结果的绝对值大于第二预设数据(如标准差)，则认为该对象的值为粗大误差的值。第一插补单元705，用于若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将该用户信息中异常的一个特征信息进行替换，以形成样本数据集。将特征信息缺失或者异常的用户信息进行填充或者替换，以对数据进行修正，提高数据的完整度和数据的准确性。具体地，插补方法可以是均值插补方法，也可以是多重插补方法。其中，均值插补方法是取该变量的其他所有对象的取值的平均值(该变量为数值型)或者该变量取值次数最多的值(该变量为非数值型)来填充或者替换该插补值；多重插补方法是指给每个缺失值或者异常值都构造m(m>1)个替代值，从而产生该变量对应的m个完全数据集，然后对每个数据集采用完全相同的数据分析方法进行处理，得到m个处理结果，综合这些处理结果，基于某种原则，得到该插补值的估计值。

具体地，如图8所示，在其他的实施例中，预处理单元602包括第二识别单元801、第二插补单元802、降维单元803。第二识别单元801，用于根据统计判别法识别出该用户信息中是否存在至少一个特征信息缺失或者异常的用户信息。第二插补单元802，用于若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将该用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换。将特征信息缺失或者异常的用户信息进行填充或者替换，以对数据进行修正，提高数据的完整度和数据的准确性。具体地，插补方法可以是均值插补方法，也可以是多重插补方法。降维单元803，根据主元分析方法(Principal Component Analysis，PCA)对所述用户的特征信息进行降维以形成样本数据集。使用PCA进行降维后可以剔除掉一部分相关度小的特征，以得到相关度高的特征。其中，PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

划分单元603，用于将该样本数据集划分为训练集和测试集。优选地，从该样本数据集中随机抽样预设比例的样本数据形成训练集，其余的样本数据形成测试集。优选地，预设比例为70％，即从样本数据集中随机抽样70％的样本数据形成训练集，其余的30％作为测试集。

构建单元604，用于根据该训练集中的数据和预设的算法构建健康模型。优选地，预设的算法为回归算法。优选地，若使用图7所示的预处理单元对用户信息进行处理时，使用逻辑回归算法(Logistic Regression，LR)和梯度提升树(Gradient Boosting DecisionTree，GBDT)组合建立组合回归模型，选择高斯正态分布函数。GBDT是一种非线性的模型，该模型每次迭代都在减少残差的梯度方向新建立一颗决策树，迭代多少次就会生成多少颗决策树，决策树的路径作为LR输入特征使用。优选地，若使用图8所示的预处理单元对用户信息进行预处理时，使用GBDT模型，选择伯努利分布函数。

优化单元605，用于根据该测试集的数据优化所述健康模型，以根据优化的健康模型对当前用户的健康进行评估得到当前用户的健康评估结果。利用测试集的数据来调整所构建的健康模型的参数以得到优化的健康模型。如调整参数将测试集中的用户信息使用健康模型得出的健康分与计算出的健康分的标准误差或者均方根误差逐渐趋近于零。其中，健康模型的参数包括决策树的数目、树的深度等。对于当前用户来说，输入当前用户的用户信息，即可利用优化的健康模型对该用户进行健康评估以得到当前用户的健康评估结果。

其中，如图9所示，若涉及的插补方法为均值插补方法，第一插补单元705和第二插补单元802均包括第一获取单元901、第一计算单元902、填充单元903、第二获取单元904、第二计算单元905、替换单元906。第一获取单元901，用于获取与存在信息异常的用户信息相似度超过特定值的若干用户信息。第一计算单元902，用于计算在所述若干用户信息中所述异常的一类个特征信息相对应的数据的平均值。填充单元903，用于将所述平均值填充用户信息中异常的一个特征信息对应的数值。第二获取单元904，用于获取与存在信息异常的用户信息相似度超过特定值的若干用户信息。第二计算单元905，用于计算在所述若干用户信息中所述异常的一类个特征信息相对应的数据的平均值。替换单元906，用于将所述平均值填充用户信息中异常的一个特征信息对应的数值。该插补单元更一步提高用户信息的完整度和用户信息的准确性。

图10为本发明另一实施例提供的一种终端的示意性框图。该终端100包括包括输入装置101、输出装置102、存储器103以及处理器104，上述输入装置101、输出装置102、存储器103以及处理器104通过总线105连接。其中：

输入装置101，用于提供输入用户信息。具体实现中，本发明实施例的输入装置101可包括键盘、鼠标、光电输入装置、声音输入装置、触摸式输入装置等。

输出装置102，用于输出用户的健康评估结果等。具体实现中，本发明实施例的输出装置102可包括显示器、显示屏、触摸屏、声音输出装置等。

存储器103，用于存储带有各种功能的程序数据。本发明实施例中存储器103存储的数据包括宿主机与宿主机相关联的存储设备、读请求或者写请求等，以及其他可调用并运行的程序数据。具体实现中，本发明实施例的存储器103可以是系统存储器，比如，挥发性的(诸如RAM)，非易失性的(诸如ROM，闪存等)，或者两者的结合。具体实现中，本发明实施例的存储器803还可以是系统之外的外部存储器，比如，磁盘、光盘、磁带等。

处理器104，用于调用存储器103中存储的程序数据，并执行如下操作：

获取用户信息，所述用户信息包括与健康有关的多个特征信息，以及与健康无关的多个特征信息；对所述用户信息进行预处理得到样本数据集；将所述样本数据集划分为训练集和测试集；根据所述训练集中的数据和预设的算法构建健康模型；根据所述测试集的数据优化所述健康模型，以根据预设的健康模型对当前用户的健康进行评估得到当前用户的健康评估结果。

处理器104，还执行如下操作：

筛选用户信息完整度高于预设值的用户信息；根据筛选过的用户信息以及预设的健康评分规则计算筛选过的每个用户信息对应的健康分；根据所述筛选过的用户信息以及每个用户信息对应的健康分构建样本；根据统计判别法识别出所述样本中是否存在至少一个特征信息缺失或者异常的用户信息；若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换，以形成样本数据集。

处理器104，还执行如下操作：

根据统计判别法识别出所述用户信息中是否存在至少一个特征信息缺失或者异常的用户信息；若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换；根据主元分析方法(Principal Component Analysis，PCA)对所述用户的特征信息进行降维以形成样本数据集。

处理器104，还执行如下操作：

获取存在信息缺失的用户信息相似度超过特定值的若干用户信息；计算在所述若干用户信息中所述缺失的一个特征信息相对应的数据的平均值；将所述平均值填充用户信息中缺失的一个特征信息对应的数值；

获取与存在信息异常的用户信息相似度超过特定值的若干用户信息；计算在所述若干用户信息中所述异常的一类个特征信息相对应的数据的平均值；将所述平均值填充用户信息中异常的一个特征信息对应的数值。

处理器104，还执行如下操作：

从所述样本数据集中随机抽样预设比例的样本数据形成训练集，其余的样本数据形成测试集。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于健康评估的健康模型构建方法，其特征在于，所述方法包括：

对所述用户信息进行预处理得到样本数据集；

将所述样本数据集划分为训练集和测试集；

根据所述训练集中的数据和预设的算法构建健康模型；

2.如权利要求1所述的方法，其特征在于，对所述用户信息进行预处理得到样本数据集，包括：

筛选用户信息完整度高于预设值的用户信息；

根据筛选过的用户信息以及预设的健康评分规则计算筛选过的每个用户信息对应的健康分；

根据所述筛选过的用户信息以及每个用户信息对应的健康分构建样本；

根据统计判别法识别出所述样本中是否存在至少一个特征信息缺失或者异常的用户信息；

若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换，以形成样本数据集。

3.如权利要求1所述的方法，其特征在于，对所述用户信息进行预处理得到样本数据集，包括：

根据统计判别法识别出所述用户信息中是否存在至少一个特征信息缺失或者异常的用户信息；

若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换；

根据主元分析方法(Principal ComponentAnalysis，PCA)对所述用户的特征信息进行降维以形成样本数据集。

4.如权利要求2-3任一项所述的方法，其特征在于：

根据插补方法将所述用户信息中缺失的一个特征信息进行填充，包括：

获取存在信息缺失的用户信息相似度超过特定值的若干用户信息；

计算在所述若干用户信息中所述缺失的一个特征信息相对应的数据的平均值；

将所述平均值填充用户信息中缺失的一个特征信息对应的数值；

根据插补方法将所述用户信息中异常的一个特征信息进行替换，包括：

获取与存在信息异常的用户信息相似度超过特定值的若干用户信息；

计算在所述若干用户信息中所述异常的一类个特征信息相对应的数据的平均值；

将所述平均值填充用户信息中异常的一个特征信息对应的数值。

5.如权利要求1所述的方法，其特征在于，将所述样本数据集划分为训练集和测试集，包括：

6.一种终端，其特征在于，所述终端包括：

划分单元，用于将所述样本数据集划分为训练集和测试集；

7.如权利要求6所述的终端，其特征在于，所述预处理单元包括筛选单元、计算单元、样本构建单元、第一识别单元、第一插补单元；

所述筛选单元，用于筛选用户信息完整度高于预设值的用户信息；

所述计算单元，用于根据筛选过的用户信息以及预设的健康评分规则计算筛选过的每个用户信息对应的健康分；

所述样本构建单元，用于根据所述筛选过的用户信息以及每个用户信息对应的健康分构建样本；

所述第一识别单元，用于根据统计判别法识别出所述样本中是否存在至少一个特征信息缺失或者异常的用户信息；

所述第一插补单元，用于若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换，以形成样本数据集。

8.如权利要求6所述的终端，其特征在于，所述预处理单元包括包括第二识别单元、第二插补单元、降维单元；

所述第二识别单元，用于根据统计判别法识别出所述用户信息中是否存在至少一个特征信息缺失或者异常的用户信息；

所述第二插补单元，用于若存在至少一个特征信息缺失或者异常的用户信息，根据插补方法将所述用户信息中缺失的一个特征信息进行填充或者根据插补方法将所述用户信息中异常的一个特征信息进行替换；

所述降维单元，用于根据PCA对所述用户的特征信息进行降维以形成样本数据集。

9.如权利要求7-8任一项所述的终端，其特征在于，所述第一插补单元和第二插补单元包括第一获取单元、第一计算单元、填充单元、第二获取单元、第二计算单元、替换单元；其中，

所述第一获取单元，用于获取存在信息缺失的用户信息相似度超过特定值的若干用户信息；

所述第一计算单元，用于计算在所述若干用户信息中所述缺失的一个特征信息相对应的数据的平均值；

所述填充单元，用于将所述平均值填充用户信息中缺失的一个特征信息对应的数值。

所述第二获取单元，用于获取与存在信息异常的用户信息相似度超过特定值的若干用户信息；

所述第二计算单元，用于计算在所述若干用户信息中所述异常的一类个特征信息相对应的数据的平均值；

所述替换单元，用于将所述平均值填充用户信息中异常的一个特征信息对应的数值。

10.如权利要求6所述的终端，其特征在于，所述划分单元用于从所述样本数据集中随机抽样预设比例的样本数据形成训练集，其余的样本数据形成测试集以将所述样本数据集划分为训练集和测试集。