CN110175170B

CN110175170B - 数据优化处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110175170B
Application number: CN201910319395.4A
Authority: CN
Inventors: 陈健鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2023-11-21
Anticipated expiration: 2039-04-19
Also published as: CN110175170A

Abstract

本发明公开一种数据优化处理方法、装置、计算机设备和存储介质，该方法包括获取特定领域的至少两个待分析数据，每一待分析数据中包含至少两个基础特征和与基础特征对应的原始特征值；对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取每一基础特征对应的特征量化条件；根据特征量化条件和待分析数据中每一基础特征对应的原始特征值，采用二进制编码方式进行编码，获取基础特征对应的特征编码值；基于基础特征、特征量化条件和特征编码值，创建与特定领域对应的目标矩阵；根据目标矩阵中每一行特征编码值，获取待分析数据对应的特征数据，将特征数据和目标矩阵关联存储在与特定领域相对应的数据库，提高运行速度。

Description

数据优化处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据优化处理方法、装置、计算机设备及存储介质。

背景技术

随着全球经济的发展，各个企业之间的竞争日益激烈，各大企业通过待分析数据进行数据分析，以通过数据分析结果提取有用信息，拓展潜在的业务或新客户。其中，对待分析数据进行数据分析时，通常需要对待分析数据进行预处理，如进行特征化和归一化处理等，若待分析数据的数据量巨大，则会导致数据分析的运行速度变慢。

发明内容

本发明实施例提供一种数据优化处理方法、装置、计算机设备及存储介质，以解决数据分析的运行速度变慢的问题。

一种数据优化处理方法，包括：

获取特定领域的至少两个待分析数据，每一所述待分析数据中包含至少两个基础特征和与所述基础特征对应的原始特征值；

对至少两个所述待分析数据中同一所述基础特征对应的原始特征值进行量化处理，获取每一所述基础特征对应的特征量化条件；

根据所述特征量化条件和所述待分析数据中每一所述基础特征对应的原始特征值，采用二进制编码方式进行编码，获取所述基础特征对应的特征编码值；

基于所述基础特征、所述特征量化条件和所述特征编码值，创建与所述特定领域对应的目标矩阵；

根据所述目标矩阵中每一行所述特征编码值，获取所述待分析数据对应的特征数据，将所述特征数据和所述目标矩阵关联存储在与所述特定领域相对应的数据库。

一种数据优化处理装置，包括：

数据获取模块，用于获取特定领域的至少两个待分析数据，每一所述待分析数据中包含至少两个基础特征和与所述基础特征对应的原始特征值；

特征量化条件获取模块，用于对至少两个所述待分析数据中同一所述基础特征对应的原始特征值进行量化处理，获取每一所述基础特征对应的特征量化条件；

特征编码值获取模块，用于根据所述特征量化条件和所述待分析数据中每一所述基础特征对应的原始特征值，采用二进制编码方式进行编码，获取所述基础特征对应的特征编码值；

目标矩阵获取模块，用于基于所述基础特征、所述特征量化条件和所述特征编码值，创建与所述特定领域对应的目标矩阵；

存储模块，用于根据所述目标矩阵中每一行所述特征编码值，获取所述待分析数据对应的特征数据，将所述特征数据和所述目标矩阵关联存储在与所述特定领域相对应的数据库。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据优化处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据优化处理方法。

上述提供一种数据优化处理方法、装置、计算机设备和存储介质，获取特定领域的至少两个待分析数据，以便对每一特定领域的待分析数据进行预处理，后续对不同领域的数据进行数据分析，且后续对每一特定领域的待分析数据分开进行预处理，便于每一特定领域预处理的特征量化条件不同。对至少两个所述待分析数据中同一所述基础特征对应的原始特征值进行量化处理，获取每一所述基础特征对应的特征量化条件，以便根据量化条件确定特征编码值。根据所述特征量化条件和原始特征值，采用二进制编码方式进行编码，实现特征编码值的确定，由于二进制编码方式进行编码得到的特征编码值与计算机底层的二进制非常接近，因此将待分析数据用特征编码值表示，提高数据分析的运行速度。基于所述基础特征、所述特征量化条件和所述特征编码值，创建目标矩阵，以便后续根据目标矩阵确定每一特征编码值的含义。根据所述目标矩阵中每一行所述特征编码值，获取所述待分析数据对应的特征数据，将所述特征数据和所述目标矩阵关联存储在与所述特定领域相对应的数据库，便于后续重复调用，减少数据重复预处理时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据优化处理方法的应用环境示意图；

图2是本发明一实施例中数据优化处理方法的流程图；

图3是本发明一实施例中数据优化处理方法的流程图；

图4是本发明一实施例中数据优化处理方法的流程图；

图5是本发明一实施例中数据优化处理方法的流程图；

图6是本发明一实施例中数据优化处理方法的流程图；

图7是本发明一实施例中数据优化处理方法的流程图；

图8是本发明一实施例中数据优化处理装置的原理框图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结和本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的数据优化处理方法，可应用在如图1的应用环境中，该数据优化处理方法具体应用在数据转换工具的服务端。客户端将需要进行转换的待分析数据输入至数据转换工具中，通过数据转换工具进行转换，获取到每一待分析数据对应的特征数据，其中特征数据是采用二进制编码方式进行编码的，使得获取到的特征数据接近于计算机底层的二进制，提高数据分析的运行速度。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑等。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。

在一实施例中，如图2所示，提供一种数据优化处理方法，以该方法应用在图1中的服务端为例进行说明，具体包括如下步骤：

S10：获取特定领域的至少两个待分析数据，每一待分析数据中包含至少两个基础特征和与基础特征对应的原始特征值。

其中，特定领域是指特定的应用领域，如金融领域和保险领域等。待分析数据是指进行需要进行数据分析所提供的原始数据。基础特征是指待分析数据中的每一字段，例如，姓名、电话、性别、身份证号、年收入和性格等。原始特征值是指与基础特征对应的字段值，即与字段姓名、电话、性别、身份证号、年收入和性格等对应的字段值。

具体地，数据转换工具提供一数据获取接口。其中，数据获取接口指用于获取待分析数据的接口。当某一需求为需要对特定领域的待分析数据进行数据分析时，先通过客户端将至少两个待分析数据发送至数据转换工具的数据获取接口，数据转换工具的服务端以获取到至少两个待分析数据，待分析数据中包含至少两个基础特征和与每一基础特征对应的原始特征值。由于不同领域对应的量化条件不同，所需量化的精准度不同，例如，保险领域需要对与保险相关的数据精准度较高，金融领域需要对与金钱相关的数据精准度较高，通过获取特定领域的待分析数据，以实现后续对不同领域的待分析数据进行数据分析，后续对不同领域限定不同的特征量化条件，提高数据分析的精准度。

S20：对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取每一基础特征对应的特征量化条件。

其中，特征量化条件是指与基础特征对应的对原始特征值进行量化的条件，特征量化条件具体是将每一基础特征对应的原始特征值更改为用是否两个值所代表的条件。例如，基础特征为年收入水平，若待分析数据为一万条数据，则可能1万条数据对应1万个值，但是通过对待分析数据进行量化处理后，可获取到基础特征为年收入水平对应的特征值量化条件包括但不局限于(1)是否年收入在1万及以下；(2)是否年收入在(1-5)万；(3)是否年收入在5万以上。再例如，基础特征为性格，通过量化处理后，特征量化条件可为“是否为敏感型”、“是否为感情型”、“是否为思考型”和“是否为想象型”等。

具体地，先获取至少两个待分析数据中属于同一基础特征的原始特征值，根据每一原始特征值，确定基础特征对应的特征量化条件，获取至少两个待分析数据中的每一基础特征对应的特征量化条件。需要说明的是，预先可根据每一基础特征所对应的数据类型，确定特征量化条件。若基础特征为字符型数据，那么可根据量化条件表确定与基础特征对应的特征量化条件。其中，量化条件表是存储预先设定的数据类型为字符型数据的基础特征对应的特征量化条件的表。例如，基础特征为姓名，对应的数据类型为字符型数据，那么根据基础特征姓名查找量化条件表，获取到对应的特征量化条件可为“是否为空”；若原始特征值为数字型数据，那么需要通过预先训练好的SOM网络进行量化处理，获取到对应的特征量化条件。例如，基础特征为年收入水平，对应的数据类型为数字型数据，那么需要通过预先训练好的SOM网络进行量化处理，获取到对应的特征量化条件可为(1)是否年收入在1万及以下、(2)是否年收入在(1-5)万和(3)是否年收入在5万以上。

S30：根据特征量化条件和待分析数据中每一基础特征对应的原始特征值，采用二进制编码方式进行编码，获取基础特征对应的特征编码值。

其中，特征编码值是指采用二进制编码方式对基础特征进行编码后的值。

具体地，先确定待分析数据中每一基础特征和对应的特征量化条件，其中，基础特征与特征量化条件的的对应关系可以是一对一，即该基础特征所对应的特征量化条件为一个；也可以是一对多，即该基础特征对应多个特征量化条件，即用多个特征量化条件表示一个基础特征。再根据基础特征对应的原始特征值和基础特征对应的特征量化条件，采用二进制编码方式对原始特征值进行编码，获取与基础特征对应的特征编码值。

进一步地，采用二进制编码方式进行编码前，先确定基础特征对应的数据类型。若数据类型为字符型数据，则根据特征量化条件对原始特征值进行判断，根据判断结果，采用二进制编码方式进行编码，获取基础特征对应的特征编码值。例如，基础特征姓名的数据类型为字符型数据，特征量化条件为“是否为空”，则根据特征量化条件对姓名的原始特征值进行判断，若原始特征值不为空，则用二进制编码方式表示为1，即姓名对应的特征编码值为1；若原始特征值为空；则用二进制编码方式表示为0，即姓名对应的特征编码值为0。

若数据类型为数字型数据，则根据特征量化条件对原始特征值进行分类，根据分类结果，采用二进制编码方式进行编码，获取基础特征对应的特征编码值。例如，待分析数据中基础特征为年收入，与基础特征年收入对应的特征值量化条件为三个，(1)是否年收入在1万及以下、(2)是否年收入在(1-5)万和(3)是否年收入在5万以上。若年收入的原始特征值为五万，根据特征值量化条件对原始特征值进行分类，由此可确定5万属于(2)是否年收入在(1-5)万，然后采用二进制编码方式进行编码，“是”用二进制编码方式表示为1，“否”用二进制编码方式表示为0，则最后获取到年收入对应的特征编码值为010。可以理解地，若同一基础特征对应多个特征量化条件，则基础特征对应特征编码值由每一特征量化条件对应的二进制编码值组合表示。

S40：基于基础特征、特征量化条件和特征编码值，创建与特定领域对应的目标矩阵。

其中，目标矩阵是指根据待分析数据中每一基础特征、特征量化条件和特征编码值生成的矩阵。

具体地，根据待分析数据中每一基础特征、特征量化条件和特征编码值，对至少两个待分析数据的每一基础特征、特征量化条件和特征编码值进行对应排列，并以矩阵形式表示，形成与特定领域对应的目标矩阵，具体如下表一所示。通过目标矩阵，可快速确定每一基础特征与特征编码值的对应关系。

进一步地，通过将编码值映射至目标矩阵中，可清楚了解每一待分析数据对应的每一特征编码值所代表的含义。如表一所示，第一个待分析数据中的第一位特征编码值0代表姓名且姓名不为空，第二位特征编码值0代表电话且电话不为空，第三位特征编码值0代表性别且性别为女，第四位特征编码值0代表身份证号且身份证号不为空，第五六七位特征编码值代表年收入且年收入为5万及以上等，由此，根据目标矩阵可确定每一特征编码值所代表的含义，便于后续数据分析。

表一

S50：根据目标矩阵中每一行特征编码值，获取待分析数据对应的特征数据，将特征数据和目标矩阵关联存储在与特定领域相对应的数据库。

具体地，通过目标矩阵，获取每一行对应的特征编码值，即获取到每一待分析数据对应的特征数据，例如，表一中，根据第一行对应的特征编码值，获取第一个待分析数据对应的特征数据00000011000，将特征数据和目标矩阵关联存储在与特定领域相对应的数据库，便于后续对特定领域对应的数据进行数据分析的调用。

步骤S10-S50，获取特定领域的至少两个待分析数据，以便对每一特定领域的待分析数据进行预处理。对不同领域的数据进行数据分析，且对每一特定领域的待分析数据分别进行预处理，得到每一特定领域的数据对应的不同的特征量化条件。对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取每一基础特征对应的特征量化条件，以便根据量化条件确定特征编码值。根据特征量化条件和原始特征值，采用二进制编码方式进行编码，实现特征编码值的确定。由于二进制编码方式进行编码得到的特征编码值与计算机底层的二进制非常接近，因此将待分析数据用特征编码值表示，提高数据分析的运行速度。基于基础特征、特征量化条件和特征编码值，创建目标矩阵，以便后续根据目标矩阵确定每一特征编码值的含义。根据目标矩阵中每一行特征编码值，获取待分析数据对应的特征数据，将特征数据和目标矩阵关联存储在与特定领域相对应的数据库，便于后续重复调用，减少数据重复预处理时间。

在一实施例中，如图3所示，步骤S10中，即获取至少两个待分析数据，每一待分析数据中包含至少两个基础特征和与基础特征对应的原始特征值，具体包括如下步骤：

S11：获取至少两个待分析数据，判断每一待分析数据是否存在缺失值。

其中，缺失值是指待分析数据中由于缺少信息而造成的某个或某些基础特征的值是不完整的数据。例如，某一待分析数据中，基础特征年龄对应的值为空，或者基础特征电话号码对应的值不全，则该待分析数据存在缺失值。

具体地，服务端对获取到的至少两个待分析数据进行判断，确定每一待分析数据的原始特征值是否完整，即该待分析数据是否存在缺失值。其中，判断结果可分为两种，一种是待分析数据的每一原始特征值为完整数据，则待分析数据不存在缺失值；另一种是，待分析数据的原始特征值为空或者不完整，则待分析数据存在缺失值。

S12：若存在缺失值，则统计每一待分析数据对应的缺失值数量。

其中，缺失值数量是指待分析数据中存在缺失值的基础特征的数量。

具体地，服务端判断出待分析数据中存在缺失值，则获取待分析数据中存在缺失值对应的基础特征，并统计该待分析数据中存在缺失值的基础特征的数量。通过确定缺失值数量，以便后续确定是否需要对该待分析数据进行后续处理。

S13：若缺失值数量大于预设阈值，则删除待分析数据。

其中，根据特定领域的数据分析的精准度，将待分析数据中可存在缺失值的最大数量作为预设阈值，可以理解地，数据分析的精准度越高，则预设阈值越小；数据分析的精准度越低，则预设阈值越大。其中，预设阈值是预先设定的用于判断是否删除该待分析数据的阈值。

具体地，获取每一待分析数据对应的缺失值数量，将缺失值数量与预设阈值进行对比，若缺失值数量大于预设阈值，则该待分析数据中缺失的原始特征值较多，则将该待分析数据进行删除处理，以提高后续数据分析的准确度。

S14：若缺失值数量不大于预设阈值，则获取与缺失值对应的基础特征，若基础特征为特定基础特征，则对缺失值进行插补处理，获取对应的原始特征值。

具体地，数据库中存储有特定基础特征表。其中，特定基础特征表中存储有可进行插补处理的基础特征，将该基础特征作为特定基础特征存储在特定基础特征表中。当缺失值值数量不大于预设阈值，则获取与缺失值对应的基础特征，通过基础特征查找特定基础特征表，确定该基础特征是否为特定基础特征，即确定该基础特征对应的缺失值是否可进行插补处理的基础特征。若该基础特征为特定基础特征，则对基础特征对应的缺失值进行插补处理，将插补处理后的值作为基础特征对应的原始特征值。其中，可采用均值插补、同类均值插补、极大似然估计和多重插补方法对缺失值进行插补缺失值处理，也可通过身份证号对年龄、籍贯和生日等进行插补处理。进一步地，若缺失值数量不大于预设阈值，且基础特征不为特定基础特征，则将空值作为该基础特征的原始特征值。可以理解地，若待分析数据的基础特征不存在缺失值，则将与每一基础特征对应的值作为原始特征值。

步骤S11-S14中，判断待分析数据是否存在缺失值，以保证待分析数据的完整性。若待分析数据不存在缺失值，则该待分析数据为完整的数据，可直接进行后续预处理的步骤。若待分析数据存在缺失值，则统计缺失值数量，若缺失值数量大于预设阈值，则删除该待分析数据，以提高后续数据分析的精准度。若存在缺失值，且不大于预设阈值，则获取缺失值对应的基础特征；若基础特征为特定基础特征，则对缺失值进行插补缺失值处理，以保证待分析数据的完整性。

在一实施例中，基础特征对应的数据类型包括字符型数据和数字型数据。其中，预先确定基础特征的数据类型，数据类型分为字符型数据和数字型数据，其中，字符型数据是指不具有计算能力的文字数据。例如，性格对应的原始特征值为敏感型、感情型、思考型和想象型，那么性格所对应的数据类型为字符型数据。数字型数据是指具有计算能力的以数字形式表示的数据。例如，年龄和年收入的原始特征值是数字，即为数字型数据。

如图4所示，步骤S20，即对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取每一基础特征对应的特征量化条件，具体包括如下步骤：

S21：若至少两个待分析数据中基础特征对应的数据类型为字符型数据，则基于基础特征查询量化条件预设表，获取与基础特征对应的特征量化条件。

其中，量化条件预设表是指预先设定的基础特征的数据类型为字符型数据的特征量化条件的表。基础特征的数据类型为字符型数据的特征量化条件通常是根据实际需求预先设定好的，例如，基础特征为姓名和电话号码，数据类型为字符型数据，所对应的特征量化条件可为“是否为空”，即判断姓名和电话号码的原始特征值是否为空。再例如，基础特征为性别，数据类型为字符型数据，所对应的特征量化条件可为“是否为男”或者“是否为女”。

具体地，先确定至少两个待分析数据中基础特征对应的数据类型，若至少两个待分析数据中基础特征对应的数据类型为字符型数据，则获取数据类型为字符型数据的基础特征。根据基础特征查询量化条件预设表，获取与基础特征对应的特征量化条件，从而确定所有数据类型为字符型数据的基础特征对应的特征量化条件。通过获取到特征量化条件，便于后续特征编码值的获取。

S22：若至少两个待分析数据中基础特征对应的数据类型为数字型数据，则采用预先训练好的SOM网络，对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取与基础特征对应的特征量化条件。

其中，SOM(Self-OrganizingFeatureMaps，自组织映射)神经网络作为一种聚类和高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络，采用的算法称为Kohonen算法。SOM神经网络是由输入层和输出层构成。输入层的神经元个数由输入向量的维数决定，输出层的神经元个数一般通过二维点阵进行排列以表示高维空间中的所有点，尽可能地保持点间的距离和邻近关系，具有将高维数据可视化的表现在低维空间的能力。

具体地，先确定至少两个待分析数据中同一基础特征的数据类型，若基础特征的数据类型为数字型数据，那么可通过预先训练好的SOM网络对至少两个待分析数据中同一基础特征的原始特征值进行量化处理，即根据所有原始特征值，通过SOM网络进行聚类，并通过知识表达系统可视化每一分类区间，并根据分类区间获取待分析数据中基础特征对应的特征量化条件，其中，知识表达系统(KnowledgeRepresentingSystem，KRS)，是用来描述研究待分析数据的二维表格的系统，其中，二维表格是由指定的基础特征和对应的原始特征值来描述。例如，通过SOM网络对待分析数据中的基础特征年收入进行聚类，获取到的分类区间为[0，10000]、(10000，50000]和(50000，∞]，那么根据分类区间可确定待分析数据中年收入的特征量化条件为(1)是否年收入在1万及以下、(2)是否年收入在(1-5)万和(3)是否年收入在5万以上。

步骤S21-S22中，通过确定基础特征对应的数据类型，根据数据类型不同，而获取特征量化条件方式不同，以提高获取特征量化条件的准确率。

在一实施例中，如图5所示，步骤S22中，即采用预先训练好的SOM网络，对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取与基础特征对应的特征量化条件，具体包括如下步骤：

S221：对SOM网络进行初始化，获取SOM网络的初始分类值m和基础特征的初始维数d，m和d为正整数。

其中，m是预先设定的基础特征对应的特征量化条件的初始数量。d是指待分析数据中所有基础特征的维数。

具体地，采用SOM神经网络进行量化处理时，首先要设定合适的初始分类值，若初始分类值过小，则会导致不相容的知识表达系统。若初始分类值过大，则造成数目过多的特征量化条件。在本实施例中，m＝3。通过对SOM网络进行初始化，设定合适的初始分类值m和基础特征的初始维数d，在后续对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，缩短处理时间，提高处理准确率。

S222：将d维的原始特征值进行排序，根据初始分类值m，采用SOM网络对排序后的d维的原始特征值进行分类。

具体地，获取d维的所有原始特征值，并对d维的所有原始特征值进行排序。其中，d维的基础特征的数据类型为数字型数据，则可对所有原始特征值按从小到大的顺序进行排序，也可对所有原始特征值按从大到小的顺序进行排序。例如，d维的基础特征为年收入，那么所有年收入的原始特征值可按从小到大1、2、3、......、∞等进行排序。采用SOM网络对排序后的d维的原始特征值进行分类。预先将排序后的d维的原始特征值作为一组输入向量n代表原始特征值的变量个数。预处理神经元之间的权向量为计算/>和/>的点积，将点积最大对应的节点(原始特征值)作为获胜节点，(或者计算与/>的欧几里得距离，距离最小的神经元赢得竞争)作为获胜节点，以获胜节点为中心，确定权值调整域，并确定优胜邻域，对优胜邻域的所有节点根据权值调整域进行权值调整。随着学习的不断进行，学习率将不断减小，邻域也将不断缩小，所有权向量将在输入向量空间相互分离,即当α≤α_min时，α为学习率，模型收敛，通过收敛后的SOM网络对d维的原始特征值进行分类，即获取每一类的分类区间。

S223：将相邻两类边界的原始特征值的均值作为相邻两类的分界值，获取量化参数。

其中，量化参数是指对d维的原始特征值进行最终分类的值。

具体地，通常确定基础特征的特征量化条件时应考虑到每一种情况，而通过待分析数据中的同一基础特征对应的原始特征值进行分类，可能会导致数据分析时数据不完整或者部分情况未考虑到。因此，通过SOM网络对排序后的d维的原始特征值进行分类，获取分类区间，根据分类区间将相邻两类边界的原始特征值的均值作为相邻两类的分界值，根据每一分界值，获取与基础特征对应对应的量化参数。例如，相邻两类边界值的原始特征值为12和20，那么将16作为相邻两类的分界值，根据同一基础特征的分界值获取与基础特征对应的量化参数，为后续获取特征量化条件提供技术支持。

S224：基于d维的基础特征的量化参数，获取数据量化表，并判断数据量化表是否相容。

其中，数据量化表是指基于待分析数据中d维的基础特征对应的量化参数形成的表格，即上述的知识表达系统。相容是指在数据量化表(知识表达系统)中决策属性完全依赖于条件属性。不相容是指在数据量化表中部分决策属性依赖于条件属性，即在完全相同的条件下，决策不同。例如，某一待分析数据中年收入为4万，(1)是否年收入在1万及以下、(2)是否年收入在(1-5)万和(3)是否年收入在3-5万。那么，通过数据量化表可确定年收入可属于(2)，也可属于(3)，即数据量化表不相容。

S225：若不相容，则更新初始分类值，并执行将d维的原始特征值进行排序，根据初始分类值m，采用SOM网络对排序后的d维的原始特征值进行分类。

具体地，先判断数据量化表是否相容，若不相若，即在数据量化表中，存在至少一个基础特征在完全相同的条件下，决策不同。令m＝m+1，并执行将d维的原始特征值进行排序，根据初始分类值m，采用SOM网络对排序后的d维的原始特征值进行分类，以使数据量化表相容，提高后续特征量化条件的准确率。

S226：若相容，则根据数据量化表获取每一基础特征对应的特征量化条件。

具体地，若数据量化表相容，则说明数据量化表中每一基础特征在完全相同的条件下，决策相同。根据数据量化表中的量化参数，确定每一基础特征对应的特征量化条件。需要说明的是，数据量化表中包含每一基础特征都对应的量化参数。例如，年收入的量化参数为[0，10000]、(10000,50000]和(50000，∞]，那么根据量化参数可确定待分析数据中年收入的特征量化条件为(1)是否年收入在1万及以下、(2)是否年收入在(1-5)万和(3)是否年收入在5万以上。

步骤S221-S226中，通过SOM网络先对每一基础特征的原始特征值进行分类，再通过相邻两类边界确定基础特征对应的量化参数，以实现通过量化参数确定的特征量化条件，可包含该基础特征的所有的原始特征值的情况。最后通过确定每一基础特征的量化参数形成的数据量化表是否相容，以提高后续获取特征编码值的准确性。

在一实施例中，如图6所示，步骤S50，即将特征数据存储在与特定领域相对应的数据库，具体包括如下步骤：

S51：统计特征数据对应的位特征编码值。

具体地，根据目标矩阵中的特征数据，统计特征数据对应的位特征编码值。其中，位特征编码值是指形成特征数据的特征编码值的位数。如表一中，第一个待分析数据对应的特征数据为00000011000，那么位特征编码值为11。

S52：若位特征编码值不大于第一预设阈值，则直接将特征数据作为原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。

其中，第一预设阈值是指预先设定的可将特征数据作为原始存储数据的阈值。

具体地，若位特征编码值不大于第一预设阈值，则说明可将特征数据以二进制形式进行存储，该特征数据可作为原始存储数据。将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库，便于后续根据原始存储数据和目标矩阵进行数据分析时，减少数据分析的预处理时间，若需要进行数据分析时，可直接进行调用。

S53：若位特征编码值大于第一预设阈值且不大于第二预设阈值，则采用第一进制转换规则将特征数据转换成原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。

其中，第二预设阈值是指预先设定的需要将特征数据根据第一进制转换规则转换成原始存储数据进行存储的阈值。第一进制转换规则是指预先设定的位特征编码值大于第一预设阈值且不大于第二预设阈值时，需要进行进制转换的规则，具体可以是二进制转换成十六进制的规则。

具体地，若位特征编码值大于第一预设阈值且不大于第二预设阈值，则将特征数据(二进制)转换成十六进制，将转换成十六进制的数据作为原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。如表一所示，第一个待分析数据对应的特征数据为00000011000，从右向左移动，每四位二进制代表一位十六进制，最高位位数不够四位，则补0处理，采用第一进制转换规则将特征数据转换成原始存储数据0X018。通过采用第一进制转换规则将特征数据转换成原始存储数据进行存储，节省存储空间，且转换简单快速。

S54：若位特征编码值大于第二预设阈值，则采用第二进制转换规则将特征数据转换成原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。

其中，第二进制转换规则是指预先设定的位特征编码值大于第二预设阈值时需要进行进制转换的规则。具体可以是二进制转换成三十二进制的规则。

具体地，若位特征编码值大于第二预设阈值，则将特征数据(二进制)转换成三十二进制，将转换成三十二进制的数据作为原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。如表一所示，第一个待分析数据对应的特征数据为00000011000，从低到高每5位二进制数转换成1位三十二进制数，在三十二进制中：A＝10、B＝11、C＝12、D＝13、E＝14、F＝15、G＝16、H＝17、I＝18、J＝19、K＝20、L＝21、M＝22、N＝23、O＝24、P＝25、Q＝26、R＝27、S＝28、T＝29、U＝30和V＝31，那么00000011000对应的三十二进制为0C。通过采用第一进制转换规则将特征数据转换成原始存储数据进行存储，节省存储空间，且转换简单快速。

步骤S51-S54中，先确定特征数据对应位特征编码值，若位特征编码值不大于第一预设阈值，则直接进行存储；若位特征编码值大于第一预设阈值且不大于第二预设阈值，则采用第一进制转换规则将特征数据转换成原始存储数据；若位特征编码值大于第二预设阈值，则采用第二进制转换规则将特征数据转换成原始存储数据。通过第一进制转换规则和第二进制转换规则进行转换，节省存储空间。将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库，便于后续数据分析的数据调用，减少数据分析的预处理时间。

在一实施例中，如图7所示，在步骤S50之后，即在获取待分析数据对应的特征数据之后，数据优化处理方法还包括如下步骤：

S501：获取数据获取请求，数据获取请求中包含目标获取数量和目标领域。

其中，数据获取请求是指获取数据库中原始存储数据的请求。目标获取数量是指从数据库中获取原始存储数据的数量。目标领域是指从数据库中获取原始存储数据所对应的领域。

具体地，当进行数据分析时，先确定数据分析所需要的原始存储数据的目标获取数量和目标领域，再向数据转换工具的服务端发送数据获取请求。

S502：从目标领域对应的数据库中，提取与目标获取数量相匹配的原始存储数据作为目标分析数据。

其中，目标分析数据是指后续需要进行数据分析的数据。

具体地，预先将每一特定领域对应的原始存储数据和目标矩阵存储至与特定领域相对应的数据库中。先通过目标领域查找到对应的数据库，然后从该数据库中获取与目标获取数量相匹配的原始存储数据作为目标分析数据，以便后续对目标分析数据进行数据分析。

S503：基于与目标领域相对应的目标矩阵，对目标分析数据进行逻辑运算，获取数据分析结果。

具体地，通过目标矩阵可确定目标分析数据中每一位数代表的基础特征和特征量化条件。基于与目标领域相对应的目标矩阵，对目标分析数据进行逻辑运算。其中，逻辑运算可以使用与运算和或运算等，通过逻辑运算对目标分析数据进行数据分析，获取数据分析结果。进一步地，进行逻辑运算时，若目标分析数据不为二进制数据，则根据转换规则转换成二进制数据，并从右至左获取与位特征编码值相应的二进制数据。

例如，目标分析数据为1010，若根据目标矩阵可得第一位代表客户号，第二位代表手机，第二位代表身份证，第四位代表姓名，1010代表该目标分析数据只支持客户号和身份证查询。某一需求为，查询该客户是否支持身份证查询，具体可通过以下脚本进行查询cast(rule_code as int)&2＝2，即将1010和0010进行与运算，获取到数据分析结果为0010，代表十进制的2，根据数据分析结果确定是否支持身份证查询，而结果中身份证查询对应的位置为1，那么该目标分析数据可通过身份证查询。根据目标矩阵，通过对目标分析数据进行逻辑运算，可快速获取到数据分析结果，以提高数据分析的速度。

本发明提供的数据优化处理方法，先获取特定领域的待分析数据，再对待分析数据中包含的基础特征的原始特征值进行量化处理，确定每一基础特征的特征量化条件，根据特征量化条件，后续采用二进制编码方式进行编码，获取对应的特征编码值，以提高运行速度，基于每一基础特征的特征编码值形成特征的数据，实现待分析数据的预处理，由于待分析数据为二进制数据，则可采用逻辑运算进行数据分析，提高分析速度。为了提高特定领域数据分析的准确率，先确定每一待分析数据中的缺失值数量是否大于预设阈值，若大于，则删除该待分析数据，若不大于，则进行插补处理。为提高特征量化条件获取的准确率，根据基础特征的数据类型分别进行获取。为了节省存储空间，后续根据特征数据的位特征编码值，转换成相应的原始存储数据进行存储，便于后续重复调用使用。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据优化处理装置，该数据优化处理装置与上述实施例中数据优化处理方法一一对应。如图8所示，该数据优化处理装置包括数据获取模块10、特征量化条件获取模块20、特征编码值获取模块30、目标矩阵获取模块40和存储模块50。各功能模块详细说明如下：

数据获取模块10，用于获取特定领域的至少两个待分析数据，每一待分析数据中包含至少两个基础特征和与基础特征对应的原始特征值。

特征量化条件获取模块20，用于对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取每一基础特征对应的特征量化条件。

特征编码值获取模块30，用于根据特征量化条件和待分析数据中每一基础特征对应的原始特征值，采用二进制编码方式进行编码，获取基础特征对应的特征编码值。

目标矩阵获取模块40，用于基于基础特征、特征量化条件和特征编码值，创建与特定领域对应的目标矩阵。

存储模块50，用于根据目标矩阵中每一行特征编码值，获取待分析数据对应的特征数据，将特征数据和目标矩阵关联存储在与特定领域相对应的数据库。

在一实施例中，数据获取模块10，包括缺失值判断单元、缺失值数量获取单元、删除单元和插补单元。

缺失值判断单元，用于获取至少两个待分析数据，判断每一待分析数据是否存在缺失值。

缺失值数量获取单元，用于若存在缺失值，则统计每一待分析数据对应的缺失值数量。

删除单元，用于若缺失值数量大于预设阈值，则删除待分析数据。

插补单元，用于若缺失值数量不大于预设阈值，则获取与缺失值对应的基础特征，若基础特征为特定基础特征，则对缺失值进行插补处理，获取对应的原始特征值。

在一实施例中，基础特征对应的数据类型包括字符型数据和数字型数据。特征量化条件获取模块20，包括第一特征量化条件获取单元21和第二特征量化条件获取单元22。

第一特征量化条件获取单元21，用于若至少两个待分析数据中基础特征对应的数据类型为字符型数据，则基于基础特征查询量化条件预设表，获取与基础特征对应的特征量化条件。

第二特征量化条件获取单元22，用于若至少两个待分析数据中基础特征对应的数据类型为数字型数据，则采用预先训练好的SOM网络，对至少两个待分析数据中同一基础特征对应的原始特征值进行量化处理，获取与基础特征对应的特征量化条件。

在一实施例中，第二特征量化条件获取单元22，包括初始化子单元、原始特征值分类单元、量化参数获取单元、判断单元、迭代单元和特征量化条件获取单元。

初始化子单元，用于对SOM网络进行初始化，获取SOM网络的初始分类值m和基础特征的初始维数d，m和d为正整数。

原始特征值分类单元，用于将d维的原始特征值进行排序，根据初始分类值m，采用SOM网络对排序后的d维的原始特征值进行分类。

量化参数获取单元，用于将相邻两类边界的原始特征值的均值作为相邻两类的分界值，获取量化参数。

判断单元，用于基于d维的基础特征的量化参数，获取数据量化表，判断数据量化表是否相容。

迭代单元，用于若不相容，则更新初始分类值，并执行将d维的原始特征值进行排序，根据初始分类值m，采用SOM网络对排序后的d维的原始特征值进行分类。

特征量化条件获取单元，用于若相容，则根据数据量化表获取每一基础特征对应的特征量化条件。

在一实施例中，存储模块50，包括位特征编码值统计单元、第一存储单元、第二存储单元和第三存储单元。

位特征编码值统计单元，用于统计特征数据对应的位特征编码值。

第一存储单元，用于若位特征编码值不大于第一预设阈值，则直接将特征数据作为原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。

第二存储单元，用于若位特征编码值大于第一预设阈值且不大于第二预设阈值，则采用第一进制转换规则将特征数据转换成原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。

第三存储单元，用于若位特征编码值大于第二预设阈值，则采用第二进制转换规则将特征数据转换成原始存储数据，将原始存储数据和目标矩阵关联存储到与特定领域相对应的数据库。

在一实施例中，在存储模块50之后，数据优化处理装置还包括请求获取单元、目标分析数据获取单元和数据分析结果获取单元。

请求获取单元，用于获取数据获取请求，数据获取请求中包含目标获取数量和目标领域。

目标分析数据获取单元，用于从目标领域对应的数据库中，提取与目标获取数量相匹配的原始存储数据作为目标分析数据。

数据分析结果获取单元，用于基于与目标领域相对应的目标矩阵，对目标分析数据进行逻辑运算，获取数据分析结果。

关于数据优化处理装置的具体限定可以参见上文中对于数据优化处理方法的限定，在此不再赘述。上述数据优化处理装置中的各个模块可全部或部分通过软件、硬件及其组和来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据优化处理方法过程中生成或获取的数据等，例如，特征数据和目标矩阵等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据优化处理方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中数据优化处理方法的步骤，例如，图2所示的步骤S10至步骤S50，或者图3至图7中所示的步骤。或者，处理器执行计算机程序时实现上述实施例中数据优化处理装置中的各模块的功能，例如，图8所示模块10至模块50的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中数据优化处理方法，例如，图2所示的步骤S10至步骤S50，或者图3至图7中所示的步骤。或者，该计算机程序被处理器执行时实现上述实施例中数据优化处理装置中各模块的功能，例如，图8所示模块10至模块50的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(RambuS)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据优化处理方法，其特征在于，包括：

获取特定领域的至少两个待分析数据，每一所述待分析数据中包含至少两个基础特征和与所述基础特征对应的原始特征值；所述基础特征对应的数据类型包括字符型数据和数字型数据；

若至少两个待分析数据中所述基础特征对应的数据类型为字符型数据，则基于所述基础特征查询量化条件预设表，获取与基础特征对应的特征量化条件；

若至少两个待分析数据中所述基础特征对应的数据类型为数字型数据，则对SOM网络进行初始化，获取SOM网络的初始分类值m和基础特征的初始维数d，m和d为正整数；

将d维的所述原始特征值进行排序，根据所述初始分类值m，采用SOM网络对排序后的d维的所述原始特征值进行分类；

将相邻两类边界的所述原始特征值的均值作为所述相邻两类的分界值，获取量化参数；

基于d维的所述基础特征的量化参数，获取数据量化表，判断所述数据量化表是否相容；

若不相容，则更新所述初始分类值，并执行所述将d维的所述原始特征值进行排序，根据所述初始分类值m，采用SOM网络对排序后的d维的所述原始特征值进行分类；

若相容，则根据所述数据量化表获取每一基础特征对应的特征量化条件；

2.如权利要求1所述的数据优化处理方法，其特征在于，所述获取至少两个待分析数据，每一所述待分析数据中包含至少两个基础特征和与所述基础特征对应的原始特征值，包括：

获取至少两个待分析数据，判断每一所述待分析数据是否存在缺失值；

若存在缺失值，则统计每一所述待分析数据对应的缺失值数量；

若所述缺失值数量大于预设阈值，则删除所述待分析数据；

若所述缺失值数量不大于预设阈值，则获取与所述缺失值对应的基础特征，若所述基础特征为特定基础特征，则对所述缺失值进行插补处理，获取对应的原始特征值。

3.如权利要求1所述的数据优化处理方法，其特征在于，将所述特征数据存储在与所述特定领域相对应的数据库，包括：

统计所述特征数据对应的位特征编码值；

若所述位特征编码值不大于第一预设阈值，则直接将所述特征数据作为原始存储数据，将所述原始存储数据和所述目标矩阵关联存储到与所述特定领域相对应的数据库；

若所述位特征编码值大于第一预设阈值且不大于第二预设阈值，则采用第一进制转换规则将所述特征数据转换成原始存储数据，将所述原始存储数据和所述目标矩阵关联存储到与所述特定领域相对应的数据库；

若所述位特征编码值大于第二预设阈值，则采用第二进制转换规则将所述特征数据转换成原始存储数据，将所述原始存储数据和所述目标矩阵关联存储到与所述特定领域相对应的数据库。

4.如权利要求1所述的数据优化处理方法，其特征在于，在所述获取所述待分析数据对应的特征数据之后，所述数据优化处理方法还包括：

获取数据获取请求，所述数据获取请求中包含目标获取数量和目标领域；

从所述目标领域对应的数据库中，提取与所述目标获取数量相匹配的原始存储数据作为目标分析数据；

基于与所述目标领域相对应的目标矩阵，对所述目标分析数据进行逻辑运算，获取数据分析结果。

5.一种数据优化处理装置，所述数据优化处理装置用于实现权利要求1至4任一项所述的数据优化处理方法，其特征在于，包括：

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述数据优化处理方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述数据优化处理方法。