CN111221876A

CN111221876A - 数据降维处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111221876A
Application number: CN202010014342.4A
Authority: CN
Inventors: 张旭; 刘伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-02
Also published as: WO2021139112A1

Abstract

本申请涉及大数据处理领域，尤其涉及一种数据降维处理方法、装置、计算机设备和存储介质。所述方法包括：从数据库中提取相关的历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征；提取多维数据中与所述目标特征对应的初始数据；对不同类型的所述初始数据进行同一数量级的数据处理，得到标准数据；对所述标准数据进行非线性降维处理，得到预设维度的目标数据。采用本方法能够提升后续数据处理效率。

Description

数据降维处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据降维处理方法、装置、计算机设备和存储介质。

背景技术

随着社会的发展，各种各样的数据越来越多，为了获取更为有价值的数据，越来越多的专业人士也开始对各种数据进行相关的研究分析。

但对数据量巨大、数据类型众多的数据，直接进行数据的分析处理会消耗大量的处理时间，这种问题往往会导致数据处理系统的硬件的处理效率效果不高，耗时的同时也耗费资源。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升后续数据处理效率的数据降维处理方法、装置、计算机设备和存储介质。

一种数据降维处理方法，所述方法包括：

从数据库中提取相关的历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；

获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征；

提取多维数据中与所述目标特征对应的初始数据；

对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据；

对所述标准数据进行非线性降维处理，得到预设维度的目标数据。

在其中一个实施例中所述历史分析模型为多个，所述对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征，包括：

分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征；

所述获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征，包括：

确定各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率；

对各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率进行综合计算，得到各所述初始特征在各所述历史分析模型中的相对优先度等级；

比较各所述历史分析模型中各所述初始特征的相对优先度等级，确定相对优先度等级符合要求的初始特征为所述目标特征。

在其中一个实施例中，所述提取多维数据中与所述目标特征对应的初始数据之后，还包括：

获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史数据分为本地数据和异地数据；

所述对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据，包括：

对不同类型的所述本地数据进行同一数据量级的数据处理，得到本地标准数据；

对不同类型的所述异地数据进行同一数据量级的数据处理，得到异地标准数据；

所述对所述标准数据进行非线性降维处理得到预设维度的目标数据，包括：

分别对所述本地标准数据和异地标准数据进行非线性降维处理，得到预设维度的本地目标数据以及异地目标数据。

在其中一个实施例中，所述对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据之前，还包括：

按照数据类型将所述初始数据分为费用类数据以及次数类数据；

所述对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据，包括：

分别获取与所述费用类数据和次数类数据对应的预设公式；

根据所述费用类数据对应的预设公式以及对应的标准数量级，对不同数据量级的费用类数据进行同一数据量级的数据处理，得到对应所述费用类数据的标准数据；

根据所述次数类数据对应的预设公式以及对应的标准数量级，对不同数据量级的次数类数据进行同一数据量级的数据处理，得到对应所述次数类数据的标准数据。

根据所述初始数据中至少一种数据类型的数据，对所述初始数据中剩余数据类型的数据进行数据缺失检测；

当检测到所述初始数据存在数据缺失时，根据与缺失的数据类型相同的数据，对所述数据类型的数据进行数据填充。

一种数据降维处理装置，所述装置包括：

解析模块，用于从数据库中提取相关的历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；

目标特征生成模块，用于获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征；

数据提取模块，用于提取多维数据中与所述目标特征对应的初始数据；

同一数据量级数据处理模块，用于对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据；

降维处理模块，用于对所述标准数据进行非线性降维处理得到预设维度的目标数据。

在其中一个实施例中，所述历史分析模型为多个，所述解析模块用于分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征；

所述目标特征生成模块包括：

第一确定子模块，用于确定所述初始特征在所述历史分析模型中的特征优先度以及出现的频率；

计算子模块，用于对各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率进行综合计算，得到各所述初始特征在各所述历史分析模型中的相对优先度等级；

比较确定子模块，用于比较各所述历史分析模型中各所述初始特征的相对优先度等级，确定相对优先度等级符合要求的初始特征为所述目标特征。

在其中一个实施例中，所述装置还包括：

数据分类模块，用于在所数据提取模块提取多维数据中与所述目标特征对应的初始数据之后，获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史数据分为本地数据和异地数据；

所述同一数据量级数据处理模块，包括：

第一同一数据量级数据处理子模块，用于对不同类型的所述本地数据进行同一数据量级的数据处理，得到本地标准数据；

第二同一数据量级数据处理子模块，用于对不同类型的所述异地数据进行同一数据量级的数据处理，得到异地标准数据；

所述降维处理模块用于分别对所述本地标准数据和异地标准数据进行非线性降维处理，得到预设维度的本地目标数据以及异地目标数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

上述数据降维处理方法、装置、计算机设备和存储介质，通过历史分析模型得到的目标特征，然后提取多维数据中与目标特征对应的初始数据，并对同一数据量级的数据处理后得到标准数据，对所述标准数进行非线性降维处理，得到预设维度的目标数据。生成的目标数据基于多维数据生成，与多维数据之间存在关联，从而可以保持多维数据的特征，进而可以通过目标数据进行后续的数据处理分析。相比以多维数据进行数据处理分析，可以节约系统进行数据处理分析时的资源耗费，并且可以提升数据处理效率。

附图说明

图1为一个实施例中数据降维处理方法的应用场景图；

图2为一个实施例中数据降维处理方法的流程示意图；

图3为一个实施例中目标特征确定步骤的流程示意图；

图4为一个实施例中数据缺失检测步骤的流程示意图；

图5为一个实施例中数据降维处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据降维处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中用户可以通过对终端102的触发操作，确定进行数据处理，服务器104在接收到终端102发送的进行数据处理的指示后，从数据库中提取历史分析模型并进行解析，以得到初始特征，服务器104可以根据获取到的初始特征的频率，选择目标特征，从而以基于选择的目标特征对多维数据进行初始数据的提取，得到初始数据。进一步，为了方便后续数据处理的进行，服务器104还可以在得到初始数据后，对初始数据进行同一数据量级的数据处理以及降维处理，得到预设维度的目标数据，进而可以减少后续数据处理的数据量并提升数据处理的处理效率。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据降维处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，从数据库中提取历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征。

其中，数据库可以是服务器的数据库。历史分析模型可以是预先配置于服务器数据库中的模型，服务器数据库中配置的历史分析模型可以包括对应不同数据类型以及与不同的业务类型相关的模型，可以包括但不限于与医保相关的模型、与疾病种类相关的模型等，例如，糖尿病手术分析模型、常规检查分析模型等。

具体地，服务器可以按照筛选条件，对数据库中存储的历史分析模型进行筛选，然后提取出筛选得到的历史分析模型。例如，服务器以医保字段为筛选条件，从数据库中筛选并提取出与医保相关的历史分析模型。

初始特征是指对历史分析模型进行解析后得到的特征，可以包括但不限于费用特征、次数特征、各种指标特征等。本领域技术人员可以理解的是，此处所述初始特征是指特征含义，并不涉及特征具体的特征数据。具体地，费用特征可以包括但不限于手术费、药品费、检查费等；次数特征包括但不限于就医次数、检查次数、动手术次数、购领药品次数等；各种指标特征可以包括但不限于身高体重、心率、血压、血红蛋白含量、血小板计数、葡萄糖含量、尿蛋白等。

目标优先级预先设施的优先度等级，可以是高优先级、低优先级等通过服务器预先设置的优先等级，或者也可以是一级、二级、三级等。目标优先级可以根据数据类型或业务类型的不同而不同，对此本申请不做任何限制。

初始特征的优先级可以与历史分析模型相关联，对于不同的历史分析模型，服务器提取得到的优先级大于目标优先级的初始特征不同。例如，服务器对糖尿病手术分析模型进行解析，得到的优先级大于目标优先级的初始特征可以是手术费、手术次数、葡萄糖含量等特征，对常规检查分析模型进行解析，得到的优先级大于目标优先级的初始特征可以是身高、体重、血压、心率、视力等特征。

步骤204，获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征。

其中，初始特征的频率可以是初始特征在不同的历史分析模型中出现的频率。对于不同的初始特征，其在多个历史分析模型中出现的频率可以不同。例如，对于手术费，可以出现在各种不同的历史分析模型中，出现频率较高，而对于葡萄糖含量，可能仅出现在糖尿病手术分析模型中，出现频率较低。

具体地，初始特征在不同的历史分析模型中出现的频率越高，如初始特征在所有历史分析模型中都有出现，则可以确定该初始特征越重要。从而可以根据特征出现在不同历史分析模型中的频率，进行初始特征的确定。

频率符合要求可以是初始特征在历史分析模型中出现的频率满足一定的阈值条件，或者对初始特征在历史分析模型中出现的频率进行排序，排序满足一定要求的初始特征为频率符合要求的初始特征，例如，排序前10位等。具体地，服务器可以根据初始特征在提取得到的历史分析模型中出现的频率，对初始特征进行选取，以确定目标特征。

步骤206，提取多维数据中与所述目标特征对应的初始数据。

其中，多维数据可以是指存储于数据库中的所有数据，可以包括每一次数据变更时新增的数据以及变更前的历史数据，例如，对应于前文所述的医保数据，初始数据是指用户就医后生成的存储于用户名下的就医数据，可以包括历史就医数据以及本次就医数据，具体可以包括但不限于问诊地点、问诊时间、国际疾病分类(InternationalClassification of Diseases，ICD)、挂号科室、挂号医生信息、挂号费、付费方式、检查项目、检查费、病情描述、就诊建议、药品清单、药品价格、用药剂量、付费窗口、取药窗口、是否复诊、复诊时间、问诊次数等数据。

具体地，服务器可以基于选择的目标特征，从多维数据中提取得到初始数据，提取得到初始数据可以分为多类，例如，对于医保数据，可以包括但不限于本次就医费用数据、本次就医ICD数据、历史就医数据。其中，本次就医费用数据可以包括但不限于手术费、药品费、检查费等；本次就医ICD数据可以包括但不限于本次确诊ICD的费用，该ICD的平均费用等；历史就医数据可以包括但不限于本地门诊次数、本地住院次数、异地门诊次数、异地住院次数、本地门诊次数占比、异地门诊次数占比等数据。

步骤208，对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据。

具体地，提取得到的初始数据由于数据类型的不同，其数据量级可能存在较大差异，例如，药品费为500，而总费用为1000000，两者的数据量级相差巨大。

服务器可以通过同一数据量级的数据处理的方法，对不同数据量级的初始数据进行数据处理，得到数据量级相同的标准数据。例如，延用前例，对药品费以及总费用进行同一数据量级的数据处理，得到数据量级在0至100之间的药品费和总费用，即得到的标准药品费为0.05，标准总费用为100。

具体地，同一数据量级的数据处理方法可以根据数据类型的不同或者根据数据量级的不同选用，例如，可以选用开方、平方、立方、指数、对数等方法，本申请对此不作限制。

步骤210，对所述标准数据进行非线性降维处理，得到预设维度的目标数据。

其中，预设维度可以是用户根据后续数据处理的需求，通过终端对服务器进行预先设置的维度，预设维度的目标数据的数据量可以小于标准数据的数据量。

非线性降维处理的方法可以包括但不限于等量度映射(IsometricFeatureMapping，Isomap)、局部线性嵌入(Locally Linear Embedding，LLE)、改进的局部线性嵌入(Modified Locally Linear Embedding，MLLE)、Hessian Eigenmapping、谱嵌入(Spectral Embedding)、局部切空间排列算法(Local Tangent SpaceAlignment，LTSA)、多维标度法(Multi-dimensional Scaling，MDS)、t-分布随机邻域嵌入(t-distributedStochastic Neighbor Embedding，t-SNE)等。

在实际应用中，也可以采用线性降维处理的方法，可以包括但不限于主成分分析法(Principal Component Analysis，PCA)、核主成分分析法(kernel PCA)、增量主成分分析法(Incremental PCA)等。

具体地，服务器可以根据如上方法，利用数据在多维度上的黎曼空间里的聚类特征，将多维度的标准数据映射到低维度，例如，映射到2维，得到目标数据。

上述数据降维处理方法中，通过历史分析模型得到的目标特征，然后提取多维数据中与目标特征对应的初始数据，并对同一数据量级的数据处理后得到标准数据，对所述标准数进行非线性降维处理，得到预设维度的目标数据。生成的目标数据基于多维数据生成，与多维数据之间存在关联，从而可以保持多维数据的特征，进而可以通过目标数据进行后续的数据处理分析。相比以多维数据进行数据处理分析，可以节约系统进行数据处理分析时的资源耗费，并且可以提升数据处理效率。

如前所述，所述历史分析模型可以为多个，可以是分别与不同数据类型或不同的业务类型相关的模型。

在其中一个实施例中，所述对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征可以包括：分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征。

例如，可以是分别对糖尿病手术分析模型以及常规检查分析模型进行解析，得到对应糖尿病手术分析模型的优先级大于目标优先级的手术费、检查费、葡萄糖含量等初始特征，以及得到对应常规检查分析模型的优先级大于目标优先级的身高、体重、视力、检查费等特征。

参考图3所示的目标特征确定步骤的流程示意图，所述获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征，可以包括如下流程步骤：

步骤S302，确定各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率。

其中，特征优先度是指特征在历史分析模型中对应目标优先级的度量标准，可以是高、中、低等度量标准。例如，手术费、葡萄糖含量等特征在糖尿病手术分析模型中位于高优先级，因此，其特征优先度可以是高，而身高、体重等特征在糖尿病手术分析模型中位于低优先级，从而，特征优先度可以是低。

本领域技术人员可以理解的是，此处仅为举例说明，在具体应用中，特征优先度也可以是数值形式的度量标准，例如高优先级对应10分，低优先级对应1分等，本申请对此不作限制。

步骤S304，对各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率进行综合计算，得到各所述初始特征在各所述历史分析模型中的相对优先度等级。

例如，服务器在获取到各初始特征的特征优先度以及出现的频率后，可以根据设定的特征优先度的比重以及特征出现的频率所占比重，分别对各初始特征进行综合计算，得到各初始特征的相对优先度等级。

本领域技术人员可以理解的是，此处仅为举例说明，在实际应用中，对各初始特征在各历史分析模型中的特征优先度以及出现的频率进行综合计算也可以简单的加减，或者应用平方、开方、指数等计算方式进行计算，本申请对此不作限制。

相对优先度等级可以是高、中、低等优先度量级，或者也可以是以60分、70分、80分、100分等以数值分数形式表现的优先度量级，或者以二者结合的方式确定的优先度量级。

步骤S306，比较各所述历史分析模型中各所述初始特征的相对优先度等级，确定相对优先度等级符合要求的初始特征为目标特征。

具体地，服务器计算得到的各初始特征的相对优先度等级后，可以通过对各初始特征的相对优先度等级进行比较，确定目标特征，例如，可以是确定相对优先度等级分值高的初始特征为目标特征，或者确定相对优先度等级为高的初始特征为目标特征。

通过获取各初始特征的在各不同历史分析模型中的特征优先度以及各初始特征的出现频率，对各初始特征的进行综合计算，得到各初始特征的相对优先度等级，根据相对优先度等级选取目标特征。从而确定的目标特征与多维数据关联性较强，可以提升基于目标特征提取得到的初始数据的准确性。

在其中一个实施例中，在提取多维数据中与所述目标特征对应的初始数据之后，上述数据降维处理方法还可以包括：获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史数据分为本地数据和异地数据。

如前所述，对于医保数据，从多维数据中提取得到初始数据可以包括但不限于本次就医费用数据、本次就医ICD数据、历史就医数据。其中，历史就医数据可以包括但不限于本地门诊次数、本地住院次数、异地门诊次数、异地住院次数、本地门诊次数占比、异地门诊次数占比等数据。

具体地，服务器可以根据初始数据的数据来源地以及所述初始数据对应的用户地址，将历史数据中的本地门诊次数、本地住院次数、异地门诊次数、异地住院次数、本地门诊次数占比、异地门诊次数占比等数据进行数据划分，以得到本地数据(本地门诊次数、本地住院次数、本地门诊次数占比等数据)和异地数据(异地门诊次数、异地住院次数、异地门诊次数占比等数据)。

结合前文所述实施例，服务器将初始数据分为本地数据和异地数据后，对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据，可以包括：对不同类型的所述本地数据进行同一数据量级的数据处理，得到本地标准数据；对不同类型的所述异地数据进行同一数据量级的数据处理，得到异地标准数据。

具体地，服务器对本地数据以及异地数据分别进行同一数据量级的数据处理，得到的标准数据可以是同一数据量级的数据，也可以不同，例如，得到的本地标准数据可以是0-10之间的数据，得到的异地标准数据可以是0-100之间的数据，或者可以均是0-100之间的数据，本申请对此不作限制。可选的，对本地数据以及异地数据分别进行同一数量级的数据处理的方法可以相同也可以不同。

进一步，所述对所述标准数据进行非线性降维处理得到预设维度的目标数据，可以包括：分别对所述本地标准数据和异地标准数据进行非线性降维处理，得到预设维度的本地目标数据以及异地目标数据。

具体地，服务器可以根据本地标准数据和异地标准数据的不同的特性，选取不同的非线性降维处理方法对本地标准数据和异地标准数据进行降维处理。

可选的，服务器对本地标准数据和异地标准数据进行非线性降维数据，得到的本地目标数据以及异地目标数据的维度可以相同，也可以不同，具体可以与选取的数据降维方法以及后续数据处理的数据维度关联，本申请对此不作限制。

通过划分初始数据得到本地数据和异地数据，并分别进行同一数据量级的数据处理以及非线性降维处理，得到两种不同类别的目标数据，从而有益于后续根据地域不同进行不同类别的数据处理，可以提升后续数据处理的针对性以及准确性。

可选地，服务器在得到本地数据和异地数据后，可以继续对异地就医数据进行划分，例如，按照具体的省份或者城市，分为北京数据、上海数据、广州数据等。

在实际应用中，服务器也可以先对初始数据进行同一数据量级的数据处理后，在基于数据来源地以及用户地址，对标准数据进行地域划分，然后分别进行数据降维，得到预设维度的本地目标数据以及异地目标数据。

在其中一个实施例中，对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据之前，上诉数据处理还可以包括：按照数据类型将所述初始数据分为费用类数据以及次数类数据。

如前所述，对于医保数据，初始数据可以包括手术费、药品费、检查费、本地门诊次数、本地住院次数、异地门诊次数、异地住院次数等数据。具体地，服务器可以将手术费、药品费、检查费等数据分为费用类数据，将本地门诊次数、本地住院次数、异地门诊次数、异地住院次数等数据分为次数类数据。

进一步，所述对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据，可以包括：分别获取与所述费用类数据和次数类数据对应的预设公式；根据所述费用类数据对应的预设公式以及对应的标准数量级，对不同数据量级的费用类数据进行同一数据量级的数据处理，得到对应所述费用类数据的标准数据；根据所述次数类数据对应的预设公式以及对应的标准数量级，对不同数据量级的次数类数据进行同一数据量级的数据处理，得到对应所述次数类数据的标准数据。

其中，预设公式是与前文所述的同一数据量级的数据处理方法对应的函数公式，例如，开方公式、平方公式、立方公式、指数公式、对数公式等。对不同类型的数据，预设公式可以相同，也可以不同。或者，不同类型的数据可以关联不同的预设公式，以进行数据处理。

具体地，对于次数类数据和费用类数据，其数据量级存在较大差异。通过对分别对次数类数据和费用类数据进行同一数据量级的数据处理，可以得到更精确的标准数据，从而可以提升后续数据处理的准确性。

在其中一个实施例中，服务器在提取多维数据中与所述目标特征对应的初始数据之后，还可以对提取的初始数据的完整性极性检测，具体地，图参考图4所示数据缺失检测步骤的流程示意图，上诉数据降维处理方法还可以包括如下步骤：

步骤S402，根据所述初始数据中至少一种数据类型的数据，对所述初始数据中剩余数据类型的数据进行数据缺失检测。

例如，继续以医保数据为例，服务器提取得到初始数据后，基于初始数据确定用户患病次数为3次，但是，在获取得到的初始数据中，治疗费用数据中仅包括2000、500两组数据，则可以通过患病次数数据确定治疗费用数据存在缺失。

步骤S404，当检测到所述初始数据存在数据缺失时，根据与缺失的数据类型相同的数据，对所述数据类型的数据进行数据填充。

继续延用前例，服务器检测到治疗费用数据存在缺失后，可以根据治疗费用数据中包括的2000、500两组数据，确定填充数据，并进行数据填充。例如，可以是对2000、500两组数据取平局值或中位数，并根据确定的平局值或中位数对该治疗数据进行填充。

在实际应用中，服务器也可以根据初始数据中用户的历史数据进行数据评估，根据评估得到的评估数据进行数据填充。优选地，数据评估也可以是根据用户的历史数据与同病历用户的数据相结合参考，得到评估数据。

通过对获取的初始数据进行确实检测并极性数据填充，可以提升获取的初始数据的完整性，从而可以提升后续数据处理的准确性。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种数据降维处理装置，可以包括：解析模块100、目标特征生成模块200、数据提取模块300、同一数据量级数据处理模块400、降维处理模块500，其中：

解析模块100，用于从数据库中提取相关的历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征。

目标特征生成模块200，用于获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征。

数据提取模块300，用于提取多维数据中与所述目标特征对应的初始数据。

同一数据量级数据处理模块400，用于对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据。

降维处理模块500，用于对所述标准数据进行非线性降维处理，得到预设维度的目标数据。

在其中一个实施例中，所述历史分析模型为多个，所述解析模块100用于分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征。

所述目标特征生成模块200可以包括：

第一确定子模块，用于确定所述初始特征在所述历史分析模型中的特征优先度以及出现的频率。

计算子模块，用于对各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率进行综合计算，得到各所述初始特征在各所述历史分析模型中的相对优先度等级。

比较确定子模块，用于比较各所述历史分析模型中各所述初始特征的相对优先度等级，确定相对优先度等级符合要求的初始特征为目标特征。

在其中一个实施例中，上述数据降维处理装置还可以包括：

数据分类模块，用于在所数据提取模块300提取多维数据中与所述目标特征对应的初始数据之后，获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史数据分为本地数据和异地数据。

所述同一数据量级数据处理模块400，可以包括：

第一同一数据量级数据处理子模块，用于对不同类型的所述本地数据进行同一数据量级的数据处理，得到本地标准数据。

第二同一数据量级数据处理子模块，用于对不同类型的所述异地数据进行同一数据量级的数据处理，得到异地标准数据。

所述降维处理模块500用于分别对所述本地标准数据和异地标准数据进行非线性降维处理，得到预设维度的本地目标数据以及异地目标数据。

在其中一个实施例中，上述数据降维处理装置还可以包括：

分类模块，用于所述同一数据量级数据处理模块400对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据之前，按照数据类型将所述初始数据分为费用类数据以及次数类数据。

所述同一数据量级数据处理模块400可以包括：

获取子模块，用于分别获取与所述费用类数据和次数类数据对应的预设公式。

第三同一数据量级数据处理子模块，用于根据所述费用类数据对应的预设公式以及对应的标准数量级，对不同数据量级的费用类数据进行同一数据量级的数据处理，得到对应所述费用类数据的标准数据。

第四同一数据量级数据处理子模块，用于根据所述次数类数据对应的预设公式以及对应的标准数量级，对不同数据量级的次数类数据进行同一数据量级的数据处理，得到对应所述次数类数据的标准数据。

在其中一个实施例中，上述数据降维处理装置还可以包括：

检测模块，用于所述数据提取模块300提取多维数据中与所述目标特征对应的初始数据之后，根据所述初始数据中至少一种数据类型的数据，对所述初始数据中剩余数据类型的数据进行数据缺失检测。

填充模块，用于当检测到所述初始数据存在数据缺失时，根据与缺失的数据类型相同的数据，对所述数据类型的数据进行数据填充。

关于数据降维处理装置的具体限定可以参见上文中对于数据降维处理方法的限定，在此不再赘述。上述数据降维处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史分析模型数据、以及数据处理过程中的各种数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据降维处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：从数据库中提取相关的历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征；提取多维数据中与所述目标特征对应的初始数据；对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据；对所述标准数据进行非线性降维处理，得到预设维度的目标数据。

在一个实施例中，处理器执行计算机程序时所实现的历史分析模型为多个，所述对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征，可以包括：分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征。所述获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征，可以包括：确定各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率；对各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率进行综合计算，得到各所述初始特征在各所述历史分析模型中的相对优先度等级；比较各所述历史分析模型中各所述初始特征的相对优先度等级，确定相对优先度等级符合要求的初始特征为目标特征。

在一个实施例中，处理器执行计算机程序时所实现的提取多维数据中与所述目标特征对应的初始数据之后，还可以包括：获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史数据分为本地数据和异地数据。所述对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据，包括：对不同类型的所述本地数据进行同一数据量级的数据处理，得到本地标准数据；对不同类型的所述异地数据进行同一数据量级的数据处理，得到异地标准数据。所述对所述标准数据进行非线性降维处理得到预设维度的目标数据，包括：分别对所述本地标准数据和异地标准数据进行非线性降维处理，得到预设维度的本地目标数据以及异地目标数据。

在一个实施例中，处理器执行计算机程序时所实现的对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据之前，还可以包括：按照数据类型将所述初始数据分为费用类数据以及次数类数据。所述对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据，可以包括：分别获取与所述费用类数据和次数类数据对应的预设公式；根据所述费用类数据对应的预设公式以及对应的标准数量级，对不同数据量级的费用类数据进行同一数据量级的数据处理，得到对应所述费用类数据的标准数据；根据所述次数类数据对应的预设公式以及对应的标准数量级，对不同数据量级的次数类数据进行同一数据量级的数据处理，得到对应所述次数类数据的标准数据。

在一个实施例中，处理器执行计算机程序时所实现的提取多维数据中与所述目标特征对应的初始数据之后，还可以包括：根据所述初始数据中至少一种数据类型的数据，对所述初始数据中剩余数据类型的数据进行数据缺失检测；当检测到所述初始数据存在数据缺失时，根据与缺失的数据类型相同的数据，对所述数据类型的数据进行数据填充。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：从数据库中提取相关的历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征；提取多维数据中与所述目标特征对应的初始数据；对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据；对所述标准数据进行非线性降维处理，得到预设维度的目标数据。

在一个实施例中，计算机程序被处理器执行时所实现的历史分析模型为多个，所述对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征，可以包括：分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征。所述获取所述初始特征的频率，并选择频率符合要求的初始特征作为目标特征，可以包括：确定各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率；对各所述初始特征在各所述历史分析模型中的特征优先度以及出现的频率进行综合计算，得到各所述初始特征在各所述历史分析模型中的相对优先度等级；比较各所述历史分析模型中各所述初始特征的相对优先度等级，确定相对优先度等级符合要求的初始特征为目标特征。

在一个实施例中，计算机程序被处理器执行时所实现的提取多维数据中与所述目标特征对应的初始数据之后，还可以包括：获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史数据分为本地数据和异地数据。所述对不同类型的所述初始数据进行同一数据量级的数据处理，得到标准数据，包括：对不同类型的所述本地数据进行同一数据量级的数据处理，得到本地标准数据；对不同类型的所述异地数据进行同一数据量级的数据处理，得到异地标准数据。所述对所述标准数据进行非线性降维处理得到预设维度的目标数据，包括：分别对所述本地标准数据和异地标准数据进行非线性降维处理，得到预设维度的本地目标数据以及异地目标数据。

在一个实施例中，计算机程序被处理器执行时所实现的对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据之前，还可以包括：按照数据类型将所述初始数据分为费用类数据以及次数类数据。所述对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据，可以包括：分别获取与所述费用类数据和次数类数据对应的预设公式；根据所述费用类数据对应的预设公式以及对应的标准数量级，对不同数据量级的费用类数据进行同一数据量级的数据处理，得到对应所述费用类数据的标准数据；根据所述次数类数据对应的预设公式以及对应的标准数量级，对不同数据量级的次数类数据进行同一数据量级的数据处理，得到对应所述次数类数据的标准数据。

在一个实施例中，计算机程序被处理器执行时所实现的提取多维数据中与所述目标特征对应的初始数据之后，还可以包括：根据所述初始数据中至少一种数据类型的数据，对所述初始数据中剩余数据类型的数据进行数据缺失检测；当检测到所述初始数据存在数据缺失时，根据与缺失的数据类型相同的数据，对所述数据类型的数据进行数据填充。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据降维处理方法，所述方法包括：

从数据库中提取历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；

提取多维数据中与所述目标特征对应的初始数据；

2.根据权利要求1所述的方法，其特征在于，所述历史分析模型为多个，所述对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述提取多维数据中与所述目标特征对应的初始数据之后，还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述对不同类型的所述初始数据进行同一数据量级的数据处理得到标准数据之前，还包括：

分别获取与所述费用类数据和次数类数据对应的预设公式；

5.根据权利要求1或2所述的方法，其特征在于，所述提取多维数据中与所述目标特征对应的初始数据之后，还包括：

6.一种数据降维处理装置，其特征在于，所述装置包括：

解析模块，用于从数据库中提取历史分析模型，并对所述历史分析模型进行解析得到优先级大于目标优先级的初始特征；

降维处理模块，用于对所述标准数据进行降维处理得到预设维度的目标数据。

7.根据权利要求6所述的装置，其特征在于，所述历史分析模型为多个，所述解析模块用于分别对各所述历史分析模型进行解析，得到对应各所述历史分析模型的优先级大于目标优先级的初始特征；

所述目标特征生成模块包括：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

数据分类模块，用于在所数据提取模块提取多维数据中与所述目标特征对应的初始数据之后，获取所述初始数据的数据来源地以及所述初始数据对应的用户地址，并基于所述数据来源地以及用户地址将所述初始数据中的历史就医数据分为本地就医数据和异地就医数据；

所述同一数据量级数据处理模块，包括：

第一同一数据量级数据处理子模块，用于对不同类型的所述本地就医数据进行同一数据量级的数据处理，得到本地标准数据；

第二同一数据量级数据处理子模块，用于对不同类型的所述异地就医数据进行同一数据量级的数据处理，得到异地标准数据；

所述降维处理模块用于分别对所述本地标准数据和异地标准数据进行降维处理，得到预设维度的本地目标数据以及异地目标数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。