CN109993235A

CN109993235A - 一种多变量数据分类方法与装置

Info

Publication number: CN109993235A
Application number: CN201910285829.3A
Authority: CN
Inventors: 周镇镇
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-09

Abstract

本发明公开了一种多变量数据分类方法与装置，包括：对原始数据进行预处理，根据K‑邻近算法执行数据填充并生成待提取数据；使用待提取数据训练根据数据特征进行分类的数据分类模型；使用数据分类模型对数据进行进一步的数据分类。本发明的技术方案能够针对不同原始数据或不同类型的原始数据来进行处理和分类，实现对多变量复杂数据的有效信息提取。

Description

一种多变量数据分类方法与装置

技术领域

本发明涉及计算机领域，并且更具体地，特别是涉及一种多变量数据分类方法与装置。

背景技术

随着计算机技术及人工智能技术的发展，深度学习技术在图像、音频、文本等有组织的数据方面有较多的处理方法及应用案例，比如传统RNN(递归神经网络)和CNN(卷积神经网络)等，能够对一些区分度比较高的数据实现粗粒度分类。然而，随着深度学习技术逐渐步入多种行业领域，处理数据复杂度倍增，且数据往往无组织、不同维度之间无牵连、或存在大量数据缺失和数据异常等问题，现有技术运用的随机丢弃机制无法有效实现对异常数据的剔除，也无法实现缺失数据的智能识别与相似还原，这导致分类模型拟合度差，使数据的所属分类鉴别、数据隐含信息提取等变得困难。总之，现有技术尚无法有效实现对此类复杂数据场景下的有效处理。

针对现有技术中难以在复杂数据场景下进行数据分类的问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种多变量数据分类方法与装置，能够针对不同原始数据或不同类型的原始数据来进行处理和分类，实现对多变量复杂数据的有效信息提取。

基于上述目的，本发明实施例的一方面提供了一种多变量数据分类方法，包括以下步骤：

对原始数据进行预处理，并且根据K-邻近算法执行数据填充并生成待提取数据；

使用待提取数据训练根据数据特征进行分类的数据分类模型；

使用数据分类模型对数据进行进一步的数据分类。

在一些实施方式中，对原始数据进行预处理包括；

将原始数据的不同数据记录中的数据特征按类别顺序重新排列；

统计与标记原始数据的每个数据记录中缺失的数据信息；

标记原始数据中重要的数据信息；

将原始数据的文本信息转化为以空间向量形式表示的数值；

随机打乱原始数据的数据记录顺序；

对原始数据进行标准化处理。

在一些实施方式中，标准化处理为无量纲化处理，无量纲化处理包括以下至少之一：去均值、归一化、标准化、主成分分析/零相位分量分析白化。

在一些实施方式中，根据K-邻近算法执行数据填充并生成待提取数据包括：

对原始数据使用K-邻近算法在超平面内生成包络；

将落入包络内的原始数据作为正常数据，对正常数据计算高斯分布均值方差；

对高斯分布均值方差使用拉伊达准则确定数据分布区间；

使用在数据分布区间内的随机值执行数据填充。

在一些实施方式中，使用待提取数据训练根据数据特征进行分类的数据分类模型包括：

在神经网络输入层中将待提取数据向量化并转化为可处理的张量形式；

在长短期记忆网络层中使用少于神经网络输入层中神经元个数的神经元对张量进行深度特征提取；

在注意力层中对所有深度提取的特征进行加权；

根据加权后的特征生成数据分类模型。

在一些实施方式中，长短期记忆网络层包括输入门、遗忘门、和输出门，输入门用于筛选信息，遗忘门用于确定要提取的信息，输出门用于确定要输出的信息。

在一些实施方式中，对所有深度提取的特征进行加权包括：根据权重系数、偏置系数、随机初始化的注意力矩阵来确定长短期记忆网络层的输出张量中各数据信息的概率权重，并根据概率权重对输出张量进行加权。

在一些实施方式中，使用待提取数据训练根据数据特征进行分类的数据分类模型和使用数据分类模型进行数据分类的步骤均在服务器端执行。

本发明实施例的另一方面，还提供了一种多变量数据分类装置，包括：

处理器；和

存储器，存储器存储有可运行的程序代码，程序代码在被运行时执行上述的方法。

本发明实施例的另一方面，还提供了一种数据处理系统，具有上述的多变量数据分类装置。

本发明具有以下有益技术效果：本发明实施例提供的多变量数据分类方法与装置，通过采集原始数据，对原始数据进行预处理，根据K-邻近算法执行数据填充并生成待提取数据，使用待提取数据训练根据数据特征进行分类的数据分类模型，使用数据分类模型对数据进行进一步的数据分类以及输出所得到的数据分类结果的技术方案，能够针对不同原始数据或不同类型的原始数据来进行处理和分类，实现对多变量复杂数据的有效信息提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的多变量数据分类方法的流程示意图；

图2为本发明提供的多变量数据分类方法的数据预处理的流程示意图；

图3为本发明提供的多变量数据分类方法的神经网络模型图；和

图4为本发明提供的多变量数据分类方法的LSTM网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”、“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够针对不同原始数据或不同类型的原始数据来进行处理和分类的多变量数据分类方法的实施例。图1示出的是本发明提供的多变量数据分类方法的实施例的流程示意图。

所述多变量数据分类方法，包括以下步骤：

步骤S101，对原始数据进行预处理，并且根据K-邻近算法执行数据填充并生成待提取数据；

步骤S103，使用待提取数据训练根据数据特征进行分类的数据分类模型；

步骤S105，使用数据分类模型对数据进行进一步的数据分类。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

数据预处理主要实现对数据进行格式转换、压缩及分割等一系列工作。预处理的步骤可参见图2：如图2所示，对原始数据进行预处理具体包括；

数据指标序列化——将原始数据的不同数据记录中的数据特征按类别顺序重新排列；

缺失信息统计——统计与标记原始数据的每个数据记录中缺失的数据信息；

可靠记录筛选——标记原始数据中重要的数据信息；

文本信息数值化——将原始数据的文本信息转化为以空间向量形式表示的数值；

缺失数据填充——根据K-邻近算法执行数据填充并生成待提取数据；

随机打乱数据——随机打乱原始数据的数据记录顺序；

数据标准化——对原始数据进行标准化处理。

其中，原始数据可以是血液数据，包含性别、年龄及血常规、生化检验、凝血筛查、肿瘤标记物筛查这四个大检查项目，共计以下101个子项目：中性粒细胞、C-反应蛋白测定mg/dl、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、白细胞计数10^9/L、红细胞计数10^12/L、血红蛋白测定g/L、红细胞比积测定L/L、平均红细胞体积fl、平均红细胞血红蛋白量pg、平均红细胞血红蛋白浓度g/L、红细胞体积分布宽度测定CV、血小板计数10^9/L、平均血小板体积测定fl、嗜酸粒细胞直接计数10^9/L、血小板比积测定、血小板体积分布宽度、低荧光网织红细胞、中荧光网织红细胞、高荧光网织红细胞、网织红细胞百分率、白细胞介素-6pg/ml、丙氨酸氨基转移酶U/L、天冬氨酸氨基转移酶U/L、总蛋白g/L、血清白蛋白g/L、总胆红素μmol/L、直接胆红素μmol/L、总胆汁酸μmol/L、碱性磷酸酶U/L、γ-谷氨酰基转移酶U/L、葡萄糖mmol/L、尿素mmol/L、肌酐μmol/L、血清尿酸μmol/L、总胆固醇mmol/L、甘油三酯mmol/L、载脂蛋白A1、载脂蛋白B、肌酸激酶U/L、乳酸脱氢酶U/L、肌酸激酶同工酶U/L、钙mmol/L、无机磷mmol/L、镁mmol/L、钾mmol/L、钠mmol/L、氯化物mmol/L等数值。

此时，相对于血液数据而言，数据分类可是结直肠癌筛查与良恶性识别。筛查指在健康和结直肠癌患者中检查出结直肠癌患者，良恶性识别指的是筛查后对患者的良恶性进行确诊，良性即为结直肠息肉，恶性即为结直肠癌。由于结直肠癌的血液数据检测标准缺乏统一的规范化指标、不同医生指导患者进行的血液检查不尽相同等原因，训练结直肠癌筛查与鉴别模型的数据中存在大量数据缺失；为解决该问题，本发明的技术方案可用于针对结直肠癌患者、结直肠息肉患者及正常人的101项血液数据进行结直肠癌筛查与良恶性鉴别。

在一些实施方式中，标准化处理为无量纲化处理，无量纲化处理包括以下至少之一：去均值、归一化、标准化、主成分分析/零相位分量分析(PCA/ZCA)白化。

对原始数据使用K-邻近算法在超平面内生成包络；

对高斯分布均值方差使用拉伊达准则确定数据分布区间；

使用在数据分布区间内的随机值执行数据填充。

K-邻近算法(KNN算法)利用正常数据在超平面形成对正常数据的包络，包络内为正常数据，包络外为异常数据，异常数据被认为是数据集中因人工输入错误、偶然扰动错误及个体离群差异等因素导致的，应予剔除。对剔除异常数据的数据集计算高斯分布均值方差，以δ±分布区间作为该类别数据集的分布范围。

根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤也可以利用控制器以及用于存储使得控制器实现上述步骤功能的计算机程序的计算机可读存储介质实现。

在神经网络输入层中将待提取数据向量化并转化为TensorFlow可处理的张量形式；

在注意力层中对所有深度提取的特征进行加权；

根据加权后的特征生成数据分类模型。

神经网络结构可参见图3。使用长短期记忆网络(LSTM)搭建神经网络并加入注意力机制(Attention)以执行特征提取。本发明实施例的Attention机制可以在传统LSTM的编码器-解码器结构中解决输入序列编码过长时模型难以训练来充分表示数据中的所有隐含信息的问题，进一步突出序列数据关键信息。

神经网络输入层即对预处理后的数据进行向量化，转化为张量流(tensorflow)可处理的张量形式。Attention机制加在LSTM层后，对LSTM提取的特征中对关键信息分配足够的关注、突出局部重要信息，可以通过概率权重分配的方式，计算不同区间段向量的概率权重，使某些变量区间段获得更多的关注，从而提高LSTM层隐藏层特征提取的质量。Attention机制层的权重系统具体通过以下公式计算：

u_ijt＝tanh(w_wh_ijt+b_w)

其中u_ijt表示样本中的第i个句子的第j个数据向量的第t个变量的注意力矩阵，h_ijt为上一层LSTM神经网络层的输出向量，w_w为权重系数，b_w表示偏置系数；a_ijt表示样本中的第i个句子的第j个数据向量的第t个变量的输入样本，u_w为随机初始化的注意力矩阵；S_ijt表示样本中的第i个句子的第j个数据向量的第t个变量。

Attention机制矩阵可由attention机制分配的不同概率权重与各个隐层状态的乘积的累加和，并进行归一化操作得到。

Dense层为现有技术中向softmax输出使用的接口层。

输出层使用softmax层对提取的数据信息进行分类，并输出对应结果。

长短期记忆网络层结构详见图4。LSTM层为输入层的张量进行深层次特征提取，并且减少神经元的个数，增加识别准确率并且降低训练时间。LSTM是RNN的一种变体，将RNN中隐含层的神经元替换成了记忆块，每个记忆块中包含一个或多个记忆细胞和3种非线性求和单元—输入门、遗忘门、输出门，很好的解决了传统RNN存在的梯度消失问题。其中，输入门的作用是筛选新信息，数学模型如公式(1)所示：

遗忘门用于确定需要更新的信息，数学模型如式(2)所示：

f_t＝σ(U_fx_t+W_fs_t-1+V_fc_t-1) (2)

输出层最终决定输出和保留的信息，数学模型如式(3)所示：

其中，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，x_t表示输入，U_t、W_t、V_t表示权重，σ是归一化参数，c_t表示记忆单元状态，S_t为输出。

结合这里的公开所描述的各种示例性步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一些实施方式中，使用待提取数据训练根据数据特征进行分类的数据分类模型和使用数据分类模型进行数据分类均在服务器端执行。

从上述实施例可以看出，本发明实施例提供的多变量数据分类方法，通过采集原始数据，对原始数据进行预处理，根据K-邻近算法执行数据填充并生成待提取数据，使用待提取数据训练根据数据特征进行分类的数据分类模型，使用数据分类模型对数据进行进一步的数据分类以及输出所得到的数据分类结果的技术方案，能够针对不同原始数据或不同类型的原始数据来进行处理和分类，实现对多变量复杂数据的有效信息提取。

需要特别指出的是，上述多变量数据分类方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于多变量数据分类方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够针对不同原始数据或不同类型的原始数据来进行处理和分类的多变量数据分类装置的实施例。所述装置包括：

处理器；和

本发明实施例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

本文所述的计算机可读存储介质(例如存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

基于上述目的，本发明实施例的第三个方面，提出了一种能够针对不同原始数据或不同类型的原始数据来进行处理和分类的数据处理系统。数据处理系统具有或附接到上述的多变量数据分类装置。

结合这里的公开所描述的各种示例性测试装置可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

从上述实施例可以看出，本发明实施例提供的多变量数据分类装置和数据处理系统，通过对原始数据进行预处理，根据K-邻近算法执行数据填充并生成待提取数据，使用待提取数据训练根据数据特征进行分类的数据分类模型，使用数据分类模型进行数据分类的技术方案，能够针对不同原始数据或不同类型的原始数据来进行处理和分类，实现对多变量复杂数据的有效信息提取。

需要特别指出的是，上述多变量数据分类装置和数据处理系统的实施例采用了所述多变量数据分类方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述多变量数据分类方法的其他实施例中。当然，由于所述多变量数据分类方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述多变量数据分类装置和数据处理系统也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种多变量数据分类方法，其特征在于，包括以下步骤：

使用所述待提取数据训练根据数据特征进行分类的数据分类模型；

使用所述数据分类模型对数据进行进一步的数据分类。

2.根据权利要求1所述的方法，其特征在于，对所述原始数据进行预处理包括；

将所述原始数据的不同数据记录中的数据特征按类别顺序重新排列；

统计与标记所述原始数据的每个数据记录中缺失的数据信息；

标记所述原始数据中重要的数据信息；

将所述原始数据的文本信息转化为以空间向量形式表示的数值；

随机打乱所述原始数据的数据记录顺序；

对所述原始数据进行标准化处理。

3.根据权利要求2所述的方法，其特征在于，所述标准化处理为无量纲化处理，所述无量纲化处理包括以下至少之一：去均值、归一化、标准化、主成分分析/零相位分量分析白化。

4.根据权利要求1所述的方法，其特征在于，根据K-邻近算法执行数据填充并生成待提取数据包括：

对所述原始数据使用K-邻近算法在超平面内生成包络；

将落入所述包络内的所述原始数据作为正常数据，对所述正常数据计算高斯分布均值方差；

对所述高斯分布均值方差使用拉伊达准则确定数据分布区间；

使用在所述数据分布区间内的随机值执行所述数据填充。

5.根据权利要求1所述的方法，其特征在于，使用所述待提取数据训练根据数据特征进行分类的数据分类模型包括：

在神经网络输入层中将所述待提取数据向量化并转化为可处理的张量形式；

在长短期记忆网络层中使用少于所述神经网络输入层中神经元个数的神经元对所述张量进行深度特征提取；

在注意力层中对所有深度提取的特征进行加权；

根据加权后的特征生成数据分类模型。

6.根据权利要求5所述的方法，其特征在于，所述长短期记忆网络层包括输入门、遗忘门、和输出门，所述输入门用于筛选信息，所述遗忘门用于确定要提取的信息，所述输出门用于确定要输出的信息。

7.根据权利要求5所述的方法，其特征在于，对所有深度提取的特征进行加权包括：根据权重系数、偏置系数、随机初始化的注意力矩阵来确定所述长短期记忆网络层的输出张量中各数据信息的概率权重，并根据所述概率权重对所述输出张量进行加权。

8.根据权利要求1所述的方法，其特征在于，所述使用所述待提取数据训练根据数据特征进行分类的数据分类模型和所述使用所述数据分类模型进行数据分类的步骤均在服务器端执行。

9.一种多变量数据分类装置，其特征在于，包括：

处理器；和

存储器，所述存储器存储有可运行的程序代码，所述程序代码在被运行时执行如权利要求1-8中任意一项所述的方法。

10.一种数据处理系统，其特征在于，具有如权利要求9所述的多变量数据分类装置。