CN112348079B

CN112348079B - 数据降维处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112348079B
Application number: CN202011223586.XA
Authority: CN
Inventors: 王有金
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-10-31
Anticipated expiration: 2040-11-05
Also published as: WO2022095379A1; CN112348079A

Abstract

本发明公开了数据降维处理方法、装置、计算机设备及存储介质。方法包括：根据信息量化规则对样本数据集中的样本数据进行量化得到特征量化信息，根据特征量化信息及降维比例值确定维度数量，根据维度数量及特征量化信息对样本数据进行分组并获取初始质心，对每组样本数据的初始执行进行迭代修正得到对应的目标质心，计算每一样本数据与每一目标质心之间的距离特征值作为每一样本数据的降维特征。本发明基于数据降维处理技术，属于大数据处理领域，在保留样本数据的全部属性信息的同时，实现了对样本数据的属性信息进行降维处理，基于进行降维后的降维特征对样本数据进行分析处理，可确保进行分析处理的准确性并大幅提高分析处理的效率。

Description

数据降维处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及大数据处理技术领域，属于智慧城市中对样本数据进行降维处理的应用场景，尤其涉及一种数据降维处理方法、装置、计算机设备及存储介质。

背景技术

随着网络科学技术的发展，网络已成为人们获取信息的重要途径，但是随着大数据时代到来导致的信息爆炸，使得计算机在信息搜寻时的任务负担加重，效率低下，准确获取到有效信息较为困难。通常而言，为了体现数据的特征并基于数据的特征方便地对数据进行准确筛选或分类，通常会获取与该数据相关的多个维度的属性信息用于对数据的特征进行描述，而数据的维度越多，计算机进行计算的任务负担则越重，则准确获取所需数据的效率越低。传统技术方法中，通常会对数据的多个维度属性进行针对性筛选，以保留对类别增益较高的属性，对数据的属性进行降维后可大大增加处理效率，但这一对数据的属性进行筛选的方式由于无法保留数据的全部属性信息，导致在对数据进行筛选或分类时对准确性造成影响。因此，现有技术方法在对数据的属性进行降维后，存在无法完全保留数据全部属性信息的问题。

发明内容

本发明实施例提供了一种数据降维处理方法、装置、计算机设备及存储介质，旨在解决现有技术方法在对数据的属性进行降维时所存在的无法完全保留数据全部属性信息的问题。

第一方面，本发明实施例提供了一种数据降维处理方法，其包括：

若接收到用户输入的样本数据集，根据预置的信息量化规则对所述样本数据集所包含的样本数据进行量化得到每一所述样本数据的特征量化信息；

接收用户所输入的降维比例值，根据所述特征量化信息中特征向量的维度及所述降维比例值计算得到维度数量；

根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心；

根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心；

计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征。

第二方面，本发明实施例提供了一种数据降维处理装置，其包括：

特征量化信息获取单元，用于若接收到用户输入的样本数据集，根据预置的信息量化规则对所述样本数据集所包含的样本数据进行量化得到每一所述样本数据的特征量化信息；

维度数量确定单元，用于接收用户所输入的降维比例值，根据所述特征量化信息中特征向量的维度及所述降维比例值计算得到维度数量；

初始质心确定单元，用于根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心；

质心迭代修正单元，用于根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心；

降维特征获取单元，用于计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的数据降维处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的数据降维处理方法。

本发明实施例提供了一种数据降维处理方法、装置、计算机设备及存储介质。根据信息量化规则对样本数据集中的样本数据进行量化得到特征量化信息，根据特征量化信息及降维比例值确定维度数量，根据维度数量及特征量化信息对样本数据进行分组并获取初始质心，对每组样本数据的初始执行进行迭代修正得到对应的目标质心，计算每一样本数据与每一目标质心之间的距离特征值作为每一样本数据的降维特征。通过上述方法，在保留样本数据的全部属性信息的同时，实现了对样本数据的属性信息进行降维处理，在后续对样本数据进行筛选或分类等分析处理时，可基于降维特征对样本数据进行高效处理，由于保留了全部属性信息，可确保对数据进行分析处理的准确性并大幅提高对样本数据进行处理的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据降维处理方法的流程示意图；

图2为本发明实施例提供的数据降维处理方法的子流程示意图；

图3为本发明实施例提供的数据降维处理方法的另一子流程示意图；

图4为本发明实施例提供的数据降维处理方法的另一子流程示意图；

图5为本发明实施例提供的数据降维处理方法的另一子流程示意图；

图6为本发明实施例提供的数据降维处理方法的另一子流程示意图；

图7为本发明实施例提供的数据降维处理方法的另一流程示意图；

图8为本发明实施例提供的数据降维处理装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的数据降维处理方法的流程示意图，该数据降维处理方法应用于用户终端中，该方法通过安装于用户终端中的应用软件进行执行，用户终端即是用于执行数据降维处理方法以完成对样本数据进行降维处理的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示，该方法包括步骤S110～S150。

S110、若接收到用户输入的样本数据集，根据预置的信息量化规则对所述样本数据集所包含的样本数据进行量化得到每一所述样本数据的特征量化信息。

若接收到用户输入的样本数据集，根据预置的信息量化规则对所述样本数据集所包含的样本数据进行量化得到每一样本数据的特征量化信息。其中，所述样本数据包含多项属性信息，所述量化规则包含多个量化项目，信息量化规则即为对样本数据集中样本数据的多项属性信息进行量化的具体规则，可将样本数据库中每一条样本数据的属性信息转换为特征量化信息进行量化表示，信息量化规则中的量化项目可等于或少于样本数据的属性信息项数。例如，若用户输入的样本数据集为客户信息数据集，客户信息数据集中的客户信息可包括客户性别、年龄、职业、兴趣爱好、月收入、婚姻状态、生育状态等属性信息，则可将客户信息数据集中每一客户的客户信息转换为特征量化信息进行量化表示。

在一实施例中，如图2所示，步骤S110包括子步骤S111、S112和S113。

S111、判断所述样本数据中与所述信息量化规则的每一量化项目对应的属性信息是否为数值；S112、若所述量化项目对应的属性信息为数值，根据所述量化项目的激活函数对所述属性信息进行计算得到所述属性信息的量化值；S113、若所述量化项目对应的属性信息不为数值，获取所述量化项目中与所述属性信息相匹配的关键字对应的数值作为所述属性信息的量化值。

样本数据集中的样本数据均包含多项属性信息，信息量化规则中每一量化项目均与一项属性信息相匹配，每一量化项目均可将样本数据中对应的一项属性信息转换为一个量化值进行表示，每一条样本数据对应的多个量化值即可组合为该样本数据的特征量化信息，特征量化信息可表示为一个多维的特征向量，也即是每一项属性信息对应特征量化信息中的一个维度的特征向量，对每一量化项目对应的一项属性信息进行量化所得到量化值的范围均为[0，1]。具体的，可对属性信息是否为数值进行判断，若属性信息为数值则通过信息量化规则中与该属性信息相匹配的激活函数计算得到属性信息的量化值，若属性信息不为数值，则获取信息量化规则中与该属性信息相匹配的关键字所对应的数值作为该属性信息的量化值。

对于与量化项目对应的属性信息以数值方式表示的情况，信息量化规则中对应的量化规则为一个激活函数及一个中间值，根据激活函数对中间值及该量化项目的一个属性信息进行计算，即可得到对应的量化值。

例如，以样本数据集为客户信息数据集为例，激活函数可表示为：其中，x为与量化项目对应的一项信息，v为与该量化项目对应的中间值。与年龄这一量化项目对应的中间值为v＝35，样本数据集中某客户信息的年龄为x＝30，则根据上述激活函数计算得到对应的量化值为0.5357。信息量化规则的职业这一量化项目中包含“学生”、“医生”、“教师”及“程序员”四个关键字，与“学生”对应的数值为“0”、与“医生”对应的数值为“0.25”，与“教师”对应的数值为“0.6”，与“程序员”对应的数值为“1”，样本数据集中某客户信息的职业为教师，则对应的量化值为“0.6”。

S120、接收用户所输入的降维比例值，根据所述特征量化信息中特征向量的维度及所述降维比例值计算得到维度数量。

用户可直接输入降维比例值，通过降维比例值及特征量化信息中特征向量的维度直接计算得到维度数量。具体的，将降维比例值与特征向量的维度数相乘并对乘积进行取整，即可计算得到维度数量，正常情况下，所得到的维度数量远小于特征量化信息中特征向量的维度数。

例如，特征量化信息中特征向量的维度数为41，降维比例值为0.15，计算41×0.15＝6.15，取整后得到维度数量为6。

S130、根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心。

根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心。维度数量可由用户输入的降维比例值并结合特征量化信息中特征向量的维度数计算得到，维度数量即为对特征量化信息中特征向量的维度进行降维处理后所得降维特征中维度的数量信息。可通过维度数量对样本数据进行分组得到多组样本数据，并确定每一组样本数据的初始质心，则所得到的初始质心的数量与维度数量相等。

在一实施例中，如图3所示，步骤S130包括子步骤S131和S132。

S131、根据所述维度数量对所述样本数据进行随机分组得到多组样本数据；S132、从每组样本数据中分别获取一条样本数据的特征量化信息作为每组样本数据的初始质心。

具体的，可根据维度数量对所有样本数据进行随机分组，得到多组样本数据，每组样本数据所包含样本数据的数量基本相等，从分组得到的多组样本数据中分别获取一条样本数据的特征量化信息，作为每组样本数据的初始质心。

在一实施例中，如图4所示，步骤S130还可以包括子步骤S1301、S1302和S132。

S1301、根据预置的分组模板、所述特征量化信息及所述维度数量构建数据分组模型；S1302、将每一条所述样本数据的特征量化信息依次输入所述数据分组模型以对所述样本数据进行分组，得到多组样本数据；S132、从每组样本数据中分别获取一条样本数据的特征量化信息作为每组样本数据的初始质心。

具体的，可根据分组模板、特征量化信息及维度数量构建数据分组模型，通过数据分组模型对样本数据进行分组得到多组样本数据，具体的，分组模板中可以包括全连接层，可基于特征量化信息构建得到输入节点、基于维度数量构建得到输出节点，将输入节点、输出节点及全连接层进行组合，即可得到基于神经网络的数据分组模型，则每一输入节点均对应特征量化信息中一个维度的量化值，每一输出节点均对应一个分组。输入节点与输出节点之间通过全连接层进行连接，全连接层中包含多个特征单元，输入节点与全连接层之间设置有第一公式组，输出节点与全连接层之间设置有第二公式组。其中，第一公式组包含所有输入节点至所有特征单元的公式，第一公式组中的公式均以输入节点值作为输入值、特征单元值作为输出值，第二公式组包含所有输出节点至所有特征单元的公式，第二公式组中的公式均以特征单元值作为输入值、输出节点值作为输出值，所得到的数据分类模型中所包含的每一公式中均拥有对应的参数值。输出节点值也即是特征量化信息与该输出节点对应的分组之间的匹配概率，根据计算得到某一样本数据的特征量化信息与每一输出节点的匹配概率，选择匹配概率最高的一个输出节点所对应的分组作为与该样本数据相匹配的分组，即可实现对样本数据进行分组并得到多组样本数据，此时所得到的每组样本数据所包含样本数据的数量可能存在较大差别。

在一实施例中，如图5所示，步骤S1302之前还可以包括步骤S1303。

S1303、若接收到用户输入的训练数据集，根据预置的梯度下降训练模型及所述训练数据集对所述数据分组模型进行迭代训练以得到训练后的数据分组模型。

其中输入训练数据集的即为用户终端的使用者，为使数据分组模型在对特征量化信息进行分组时可以有更高的准确率，需对数据分组模型进行迭代训练，也即是对数据分组模型的第一公式组及第二公式组中的参数值进行调整，训练后所得到的数据分组模型可以对特征量化信息进行更精准的分组。梯度下降训练模型即为对数据分组模型进行训练的模型，梯度下降训练模型中包括损失值计算公式及梯度计算公式，训练数据集中包含多条训练数据，每一条训练数据中均包含一条特征量化信息以及对应的分组标签；将一条特征量化信息输入数据分组模型得到该特征量化信息与每一输出节点对应的匹配概率，根据损失值计算公式及分组标签对输出节点对应的匹配概率进行计算即可得到对应的损失值，根据损失值及梯度计算公式即可计算得到第一公式组及第二公式组中每一参数对应的更新值，通过更新值即可对每一参数对应的参数值进行更新，这一对参数值进行更新的过程即为对数据分组模型进行训练的具体过程。

例如，损失值计算公式可表示为其中，f_p为数据分组模型中与分组标签对应的一个输出节点的匹配概率，f_n为第n个输出节点的匹配概率，f_p及f_n的取值范围均为[0，1]。

根据所述梯度计算公式、所述损失值及所述数据分组模型的计算值计算得到所述数据分组模型中每一参数的更新值。具体的，将数据分组模型中一个参数对特征量化信息进行计算所得到的计算值输入梯度计算公式，并结合上述损失值，即可计算得到与该参数对应的更新值，这一计算过程也即为梯度下降计算。

具体的，梯度计算公式可表示为：

其中，/>为计算得到的参数x的更新值，ω_x为参数x的原始参数值，η为梯度计算公式中预置的学习率，/>为基于损失值及参数x对应的计算值对该参数x的偏导值(这一计算过程中需使用参数对应的计算值)。

基于所计算得到更新值对数据分组模型中每一参数的参数值对应更新，即完成对数据分组模型的一次训练过程。基于一次训练后所得到的数据分组模型对训练数据集中另一条训练数据再次进行计算处理，并重复上述训练过程，即可实现对数据分组模型进行迭代训练；当所计算得到的损失值小于预设的损失阈值或训练数据集中条训练数据均被用于训练后，即终止训练过程得到训练后的数据分组模型。

S140、根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心。

根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心。每组样本数据中均包含多条样本数据，可基于多组样本数据及初始质心进行迭代计算，对初始质心进行迭代修正得到对应的目标质心，每一初始质心经过迭代修正后得到对应的一个目标质心。

在一实施例中，如图6所示，步骤S140还包括子步骤S141、S142、S143、S144、S145和S146。

S141、获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值。

具体的，可计算一组样本数据中每一样本数据与每一初始质心之间的欧式距离，计算一条样本数据与一个初始质心之间的欧式距离可采用公式(1)计算得到：

其中，某一条样本数据为C＝{c₁，c₂，…，c_M}，初始质心为O＝{o₁，o₂，…，o_M}，M为特征量化信息所包含的特征向量的维度数。

S142、根据所述样本数据与每一所述初始质心之间的距离值对所述样本数据进行重新分组。

计算得到每一条样本数据与每一初始质心之间的距离值之后，可选择样本数据的多个距离值中最小距离值的初始质心对该样本数据进行重新分组，对每一条样本数据进行重新分组后，得到重新分组的多组样本数据。重新分组只会调整样本数据的分组，而不会改变分组数量。

S143、计算重新分组的每组样本数据的特征量化平均值作为相应的修正质心。

重新分组后，计算每组样本数据的特征量化平均值，也即是计算每组样本数据中所包含样本数据的特征量化信息的平均值，将计算得到的特征量化平均值作为每组样本数据对应的修正质心。

在对初始质心进行预设次数的迭代修正后，可将迭代修正的修正质心作为与初始质心相对应的目标质心；还可通过预设迭代条件判断重新分组的每组样本数据是否满足预设迭代条件，若满足则继续进行迭代修正，若不满足则可将迭代修正的修正质心作为与初始质心相对应的目标质心。

S144、判断重新分组的每组样本数据是否满足预设迭代条件。

可对重新分组后所得的每组样本数据是否满足预设迭代条件进行判断，迭代条件中可配置距离阈值或均方误差阈值，可计算某一组样本数据中所有样本数据与该组样本数据的修正质心之间的距离值，计算距离值的平均值得到平均距离值，判断每组样本数据的平均距离值中是否有大于距离阈值的平均距离值，若有，则判定满足迭代条件；若每组样本数据的平均距离值均不大于距离阈值，判定不满足迭代条件。还可计算每一组样本数据中所有样本数据的与该组样本数据的修正质心之间的距离值，计算每组样本数据距离值的均方误差值，判断每组样本数据的均方误差值中是否有大于均方误差阈值的均方误差值，若有，则判定满足迭代条件；若每组样本数据的均方误差值均不大于均方误差阈值，判断不满足迭代条件。若迭代条件中同时包含距离阈值和均方误差阈值，则可通过两个阈值对多组样本数据进行综合判断，若有一组样本数据大于距离阈值或均方误差阈值，则判定满足迭代条件，否则判定不满足迭代条件。

S145、若满足所述迭代条件，将所述修正质心作为初始质心并返回执行所述获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值的步骤；S146、若不满足所述迭代条件，将所述修正质心作为目标质心。

若满足迭代条件，则返回执行步骤S141继续进行迭代修正，若不满足迭代条件，将当前所得到的修正质心作为与初始质心相对应的目标质心。

在一实施例中，如图7所示，步骤S140之后还包括步骤S1401。

S1401、根据所述样本数据集中每一样本数据的属性信息确定每一所述目标质心的特征标签。

对初始质心进行迭代修正的过程中，也同时存在对样本数据的重新分组，每一目标质心对应一组样本数据，基于进行重新分组后所得的多组样本数据的属性信息可确定得到每一目标质心的特征标签。具体的，可对每组样本数据的属性信息进行统计，得到每一组样本数据与每一项属性信息对应的统计结果，获取一组样本数据的统计结果中属性值超过预设比例值的属性值作为该组样本数据的特征标签，也即可确定得到每一目标质心的特征标签，目标质心的特征标签可用于对与该目标质心相对应的一组样本数据的特征进行表征，通过一组样本数据的特征标签即可了解该组样本数据整体的特征信息。

例如，预设比例值为75％，统计结果中性别这一项属性信息的属性值中，男性比例为20％，女性比例为80％，性别中女性超过预设比例，则将该属性值作为该组样本数据对应的目标质心的特征标签。

S150、计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征。

计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征。具体的，根据样本数据的特征量化信息计算每一样本数据与目标质心之间的距离特征值，对距离特征值进行计算的具体过程也即是计算两者之间的欧式距离，将一条样本数据与每一目标质心之间的距离特征值组合，即可得到该样本数据的降维特征，目标质心的数量等于维度数量，则降维特征中所包含的距离特征值的数量也与维度数量相等，降维特征可通过与维度数量相等的一个多维特征向量进行表示。

例如，计算得到某一样本数据的降维特征为Jx＝{12.20，5.31，28.66，10.79，19.83，4.47}，则实现了将该样本数据的特征量化信息所包含的41维特征向量进行降维处理，得到一个6维的特征向量作为该样本数据的降维特征Jx。

此外，还可通过样本数据的降维特征与该样本数据所属样本数据组的特征标签进行组合，得到样本数据的整体特征信息，样本数据的整体特征信息中的降维特征用于对该样本数据的特征进行量化表示，整体特征信息中的特征标签用于对该样本数据的特征以文字形式进行表征。

通过上述方法计算得到每一样本数据的降维特征，在保留样本数据的全部属性信息的同时，实现了对样本数据的属性信息进行降维处理，在后续对样本数据进行筛选或分类等分析处理时，可基于降维特征对样本数据进行高效处理，由于保留了全部属性信息，可确保对数据进行分析处理的准确性并大幅提高对样本数据进行处理的效率。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对样本数据进行降维处理的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的数据降维处理方法中，根据信息量化规则对样本数据集中的样本数据进行量化得到特征量化信息，根据特征量化信息及降维比例值确定维度数量，根据维度数量及特征量化信息对样本数据进行分组并获取初始质心，对每组样本数据的初始执行进行迭代修正得到对应的目标质心，计算每一样本数据与每一目标质心之间的距离特征值作为每一样本数据的降维特征。通过上述方法，在保留样本数据的全部属性信息的同时，实现了对样本数据的属性信息进行降维处理，在后续对样本数据进行筛选或分类等分析处理时，可基于降维特征对样本数据进行高效处理，由于保留了全部属性信息，可确保对数据进行分析处理的准确性并大幅提高对样本数据进行处理的效率。

本发明实施例还提供一种数据降维处理装置，该数据降维处理装置用于执行前述数据降维处理方法的任一实施例。具体地，请参阅图8，图8是本发明实施例提供的数据降维处理装置的示意性框图。该数据降维处理装置可以配置于用户终端中。

如图8所示，数据降维处理装置100包括特征量化信息获取单元110、维度数量确定单元120、初始质心确定单元130、质心迭代修正单元140和降维特征获取单元150。

特征量化信息获取单元110，用于若接收到用户输入的样本数据集，根据预置的信息量化规则对所述样本数据集所包含的样本数据进行量化得到每一所述样本数据的特征量化信息。

在一实施例中，所述特征量化信息获取单元110包括子单元：属性信息判断单元、第一量化处理单元和第二量化处理单元。

属性信息判断单元，用于判断所述样本数据中与所述信息量化规则的每一量化项目对应的属性信息是否为数值；第一量化处理单元，用于若所述量化项目对应的属性信息为数值，根据所述量化项目的激活函数对所述属性信息进行计算得到所述属性信息的量化值；第二量化处理单元，用于若所述量化项目对应的属性信息不为数值，获取所述量化项目中与所述属性信息相匹配的关键字对应的数值作为所述属性信息的量化值。

维度数量确定单元120，用于接收用户所输入的降维比例值，根据所述特征量化信息中特征向量的维度及所述降维比例值计算得到维度数量。

初始质心确定单元130，用于根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心。

在一实施例中，所述初始质心确定单元130包括子单元：随机分组单元和初始质心获取单元。

随机分组单元，用于根据所述维度数量对所述样本数据进行随机分组得到多组样本数据；初始质心获取单元，用于从每组样本数据中分别获取一条样本数据的特征量化信息作为每组样本数据的初始质心。

在一实施例中，所述初始质心确定单元130包括子单元：数据分组模型构建单元、样本数据分组单元和初始质心获取单元。

数据分组模型构建单元，用于根据预置的分组模板、所述特征量化信息及所述维度数量构建数据分组模型；样本数据分组单元，用于将每一条所述样本数据的特征量化信息依次输入所述数据分组模型以对所述样本数据进行分组，得到多组样本数据；初始质心获取单元，用于从每组样本数据中分别获取一条样本数据的特征量化信息作为每组样本数据的初始质心。

在一实施例中，所述初始质心确定单元130还包括子单元：数据分组模型训练单元。

数据分组模型训练单元，用于若接收到用户输入的训练数据集，根据预置的梯度下降训练模型及所述训练数据集对所述数据分组模型进行迭代训练以得到训练后的数据分组模型。

质心迭代修正单元140，用于根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心。

在一实施例中，所述质心迭代修正单元140包括子单元：距离值获取单元、重新分组单元、修正质心获取单元、迭代判断单元、返回执行单元和目标执行获取单元。

距离值获取单元，用于获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值；重新分组单元，用于根据所述样本数据与每一所述初始质心之间的距离值对所述样本数据进行重新分组；修正质心获取单元，用于计算重新分组的每组样本数据的特征量化平均值作为相应的修正质心；迭代判断单元，用于判断重新分组的每组样本数据是否满足预设迭代条件；返回执行单元，用于若满足所述迭代条件，将所述修正质心作为初始质心并返回执行所述获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值的步骤；目标执行获取单元，用于若不满足所述迭代条件，将所述修正质心作为目标质心。

在一实施例中，所述数据降维处理装置100还包括子单元：特征标签获取单元。

特征标签获取单元，用于根据所述样本数据集中每一样本数据的属性信息确定每一所述目标质心的特征标签。

降维特征获取单元150，用于计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征。

在本发明实施例所提供的数据降维处理装置应用上述数据降维处理方法，根据信息量化规则对样本数据集中的样本数据进行量化得到特征量化信息，根据特征量化信息及降维比例值确定维度数量，根据维度数量及特征量化信息对样本数据进行分组并获取初始质心，对每组样本数据的初始执行进行迭代修正得到对应的目标质心，计算每一样本数据与每一目标质心之间的距离特征值作为每一样本数据的降维特征。通过上述方法，在保留样本数据的全部属性信息的同时，实现了对样本数据的属性信息进行降维处理，在后续对样本数据进行筛选或分类等分析处理时，可基于降维特征对样本数据进行高效处理，由于保留了全部属性信息，可确保对数据进行分析处理的准确性并大幅提高对样本数据进行处理的效率。

上述数据降维处理装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行数据降维处理方法以对样本数据进行降维处理的用户终端。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行数据降维处理方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行数据降维处理方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的数据降维处理方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的数据降维处理方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据降维处理方法，应用于用户终端中，其特征在于，所述方法包括：

计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征；

所述样本数据包含多项属性信息，所述量化规则包含多个量化项目，所述根据预置的信息量化规则对所述样本数据集所包含的样本数据进行量化得到每一所述样本数据的特征量化信息，包括：

判断所述样本数据中与所述信息量化规则的每一量化项目对应的属性信息是否为数值；

若所述量化项目对应的属性信息为数值，根据所述量化项目的激活函数对所述属性信息进行计算得到所述属性信息的量化值；

若所述量化项目对应的属性信息不为数值，获取所述量化项目中与所述属性信息相匹配的关键字对应的数值作为所述属性信息的量化值；

所述根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心，包括：

获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值；

根据所述样本数据与每一所述初始质心之间的距离值对所述样本数据进行重新分组；

计算重新分组的每组样本数据的特征量化平均值作为相应的修正质心；

判断重新分组的每组样本数据是否满足预设迭代条件；

若满足所述迭代条件，将所述修正质心作为初始质心并返回执行所述获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值的步骤；

若不满足所述迭代条件，将所述修正质心作为目标质心。

2.根据权利要求1所述的数据降维处理方法，其特征在于，所述根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心，包括：

根据所述维度数量对所述样本数据进行随机分组得到多组样本数据；

从每组样本数据中分别获取一条样本数据的特征量化信息作为每组样本数据的初始质心。

3.根据权利要求1所述的数据降维处理方法，其特征在于，所述根据所述维度数量及每一所述样本数据的特征量化信息对所述样本数据进行分组得到多组样本数据并确定每组样本数据的初始质心，包括：

根据预置的分组模板、所述特征量化信息及所述维度数量构建数据分组模型；

将每一条所述样本数据的特征量化信息依次输入所述数据分组模型以对所述样本数据进行分组，得到多组样本数据；

4.根据权利要求3所述的数据降维处理方法，其特征在于，所述将每一条所述样本数据的特征量化信息依次输入所述数据分组模型以对所述样本数据进行分组，得到多组样本数据之前，还包括：

若接收到用户输入的训练数据集，根据预置的梯度下降训练模型及所述训练数据集对所述数据分组模型进行迭代训练以得到训练后的数据分组模型。

5.根据权利要求1所述的数据降维处理方法，其特征在于，所述根据所述多组样本数据对所述初始质心进行迭代修正，以获取与每一初始质心相匹配的目标质心之后，还包括：

根据所述样本数据集中每一样本数据的属性信息确定每一所述目标质心的特征标签。

6.一种数据降维处理装置，其特征在于，包括：

降维特征获取单元，用于计算所述样本数据集中每一样本数据与每一所述目标质心之间的距离特征值，以得到每一所述样本数据的降维特征；

所述样本数据包含多项属性信息，所述量化规则包含多个量化项目；

所述特征量化信息获取单元包括子单元：属性信息判断单元，用于判断所述样本数据中与所述信息量化规则的每一量化项目对应的属性信息是否为数值；第一量化处理单元，用于若所述量化项目对应的属性信息为数值，根据所述量化项目的激活函数对所述属性信息进行计算得到所述属性信息的量化值；第二量化处理单元，用于若所述量化项目对应的属性信息不为数值，获取所述量化项目中与所述属性信息相匹配的关键字对应的数值作为所述属性信息的量化值；

所述质心迭代修正单元包括子单元：距离值获取单元，用于获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值；重新分组单元，用于根据所述样本数据与每一所述初始质心之间的距离值对所述样本数据进行重新分组；修正质心获取单元，用于计算重新分组的每组样本数据的特征量化平均值作为相应的修正质心；迭代判断单元，用于判断重新分组的每组样本数据是否满足预设迭代条件；返回执行单元，用于若满足所述迭代条件，将所述修正质心作为初始质心并返回执行所述获取每一组样本数据中的样本数据与每一所述初始质心之间的距离值的步骤；目标执行获取单元，用于若不满足所述迭代条件，将所述修正质心作为目标质心。

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的数据降维处理方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的数据降维处理方法。