CN108109702A

CN108109702A - 应用大小流分类的数据选择方法

Info

Publication number: CN108109702A
Application number: CN201711358205.7A
Authority: CN
Inventors: 季长清; 汪祖民; 秦静; 陈文胜; 肖鹏
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2018-06-01
Also published as: CN107391912A

Abstract

应用大小流分类的数据选择方法，属于大数据处理技术领域，技术要点是：云中心服务系统接收查询请求，使用两层分类策略对用户的请求数据流作出非大流排除，再使用Cost‑Sensitive分析方法对排出后的数据流作出代价评估；再使用决策树算法将剩下的大数据流进行树构造，返回有效数据流。效果是：提高了大规模数据环境下的大小数据流分类的准确度与精确度。

Description

应用大小流分类的数据选择方法

本申请为申请号2017105370189、申请日2017-07-04、发明名称“云数据中心系统中应用的大小流分类的医院临床操作数据选择方法”的分案申请。

技术领域

本发明属于智慧医疗与大数据处理技术领域，是一种云数据中心系统中应用的大小流分类的医院临床操作数据选择方法。

背景技术

伴随着大数据的来临和应用的不断增长，大数据带来了巨大的可开发价值，但也必将给全球的网络基础设施带来相应的影响，迫使企业纷纷寻求管理这一爆炸性增长的数据信息，其中随着医学大数据的增长，对监床医学采集的数据进行分类分析处理，成为迫切的需求。众所周知，大数据的采集，存储，处理和分发，有可能堵塞网络。如Hadoop管理每petabye字节的大数据大约需要0.5Gbps的带宽。除了大数据会给数据中心带来网络带宽瓶颈问题之外，还出现了一种新型工作负载大流量。2011年Chen,Yingying等人对yahoo数据中心的流量进行了分析，指出了横跨广域网连接的数据中心内服务器间的通信流量问题，也就是大流问题。大流量是指横跨广域网连接的数据中心内服务器间的通信流量，它不同于通常情况下的大数据工作负载，也就是用户对机器或者机器之间的通信流量。导致大流量出现的主要原因是虚拟化的广泛部署和扩展系统；远程实时迁移；数据复制和备份等的广泛应用。尤其是专门针对基于WAN分布式系统而编写的高端应用。大流量的增长速度是致命的，已经成为困扰医院数据中心发展的问题。软件定义网络允许控制平面和数据平面相分离，可为数据中心提供更好的网络管理。

Hadoop等应用除了带来大流量的增长，还带来了“微突发流”的增长。在TCP协议中引入Incast拓扑模型。Incast是many-to-one的一种通信模式，当一个父服务器向一组节点(服务器集群或存储集群)发起一个请求时，云计算服务器集群中的节点都会同时收到该请求，并且几乎同时做出响应，很多节点同时向一台机器(父服务器)发送TCP数据流，从而产生了一个“微突发流”。这种情况主要发生在云数据中心，尤其是那些以向外扩展的方式实现的分布式存储和计算应用(如Hadoop,Map Reduce,HDFS等)。针对数据中心应用出现的新挑战，人们开始由关注体系结构硬件上的优化到关注软件协议上的改进，2010年MohammadAlizadeh等人提出了一种改进的TCP协议DCTCP，针对Data Center利用显式拥塞通知ExplicitCongestionNotification对TCP进行改进。

目前有关数据中心流量的研究多侧重于网络体系结构层次的网络流量研究，从网络硬件上考虑负载平衡问题。而从跨越广域网连接的云数据中心角度来考虑大流小流分类的研究不多。很多学者对大小流分类展开了研究，这些方法具有较快的分类速度，但精确度普遍不高。而机器学习方法如NaiveBayes、k-means、C4.5decisiontree、SVM和KNN都是基于数据流的统计特征，精确性有所提高但实时性不高，难以适应数据中心对流快速分类和及时调度的需求。另一方面，在数据中心中80％的数据流都为小流，大部分小于10KB，而只占总流数量10％的大流却承载了数据中心中大部分流量。例如全局为大型医院的数据中心，病人的各项资料通过数据流的方式保存在医院数据库中，其中大流为病人的各项信息如病情以及治疗情况包括医学图像，小流为系统同步的控制流，医生或病人可以通过查询得到相对应的大数据流，但分布式云数据中心的云计算、大数据会引起的大流特性，即云数据中心系统会增加返还给查询者不需要的大数据流，这消耗了其宝贵的互联网宽带，并且使得数据流量分类不够精确。

发明内容

为了提高了大规模数据环境下的大小数据流分类的准确度与精确度，本发明提出如下技术方案：

一种云数据中心系统中应用的大小流分类的医院临床操作数据选择方法，其特征在于，云中心服务系统接收含有医院临床操作信息的查询请求，使用两层分类策略对用户的请求数据流作出非大流排除，再使用Cost-Sensitive分析方法对排出后的数据流作出代价评估；再使用决策树算法将剩下的大数据流进行树构造，返回有效数据流。

进一步的，两层分类策略的处理步骤具体为：云数据中心系统给定一个医院数据的五元分组集合P，每个数据点p_k的时间属性值(t)在一个有界的区间[T_min,T_max]，对其进行均匀的划分{t₀,...,t_B}，存在着一个时间序列集合{b₀,...,b_B-1}，其中某时间序列b_i＝[t_i,t_i+1)，固定长度为l，每个点的时间属性值为t映射到时间序列b_s(t)∈{b₀,...,b_B-1}，取时间序列b₀中的五元组进行流的特征提取和检测，在第一层先根据端口和协议信息排除掉大部分已知应用的小流，接下来在第二层对剩下的数据包进行流量特征的提取和匹配。

进一步的，Cost-Sensitive分析方法的处理步骤具体为：云中心系统中给定的医院数据五元组集合P＝{p₁,p₂,...,p_m}经两层分类策略处理对流量特征提取和匹配，形成以流特征为表现形式的流集合F＝{f₁,f₂,...,f_n}，将其作为测试流集合，给定测试流集合F＝{f₁,f₂,...,f_n}和训练流集合D＝{d₁,d₂,...,d_n}，其中训练集合由机器学习训练所得，另有类别集合θ＝{θ₁,...,θ_i,...,θ_c}，其代表网络数据流的类别；所述流集合F有c个不同类别，一个真实类别为θ_i的流被误分为类别为θ_j的流的代价已知，在流集合F上形成的代价矩阵C是一个c×c的矩阵，其中每个元素代表了数据流分类过程中产生的各种代价总和，一个测试样本f_x被分类为θ_i的总代价由

公式：

计算得到，其中f_x是给定测试流集合中的某个子流，i和j是给定测试流集合的子流具体位数，云中心系统通过相互对比各测试样本f_x被分类为θ_i的总代价得到更为精确的大小数据流分析。

进一步的，决策树算法的定义为：设训练集生成的决策树是T，用T来分类训练集中的N的元组，设K为到达某个叶子节点的元组个数，其中分类错误的个数为J，并用(J+0.5)/K来表示分类错误的个数，设S为决策树T的子树，其叶节点个数为L(s)，∑K为到达此子树的叶节点的元组个数总和，∑J为此子树S中被错误分类的元组个数之和，在分类新的元组时，其错误分类个数为

∑J+L(S)/2

其标准错误表示为

用此子树S分类训练集时，设E为分类错误个数，当式子成立时，则删掉子树S，用叶节点代替，且不再计算S的子树。

进一步的，相互对比各测试样本f_x被分类为θ_i的总代价的方法是：云中心服务系统中的每个子数据流和用户所给的网络数据流进行匹配，通过对比每个子数据流的匹配度，取出高匹配的数据流并进行下一方面运行。

有益效果：本发明改进了对大量云数据系统中的现有的数据提取和分析方法，大大减少了数据量，降低海量数据处理中对软硬件的要求，提高数据处理的效率。更好的解决云数据中心系统与用户之间的数据交互，该方法，提高了大规模数据环境下的大小数据流分类的准确度与精确度。

附图说明

图1为本发明的基于云数据中心应用的大小流分类系统模型示意图；

图2是医院临床操作数据流分类E-R图；

图3为本发明的两层分类策略示意图；

图4是数据中心大小流分类的代价矩阵示意图；

图5是MapReduce数据流示意图；

图6是C4.5决策树算法示意图；

图7是决策树剪枝方法示意图。

具体实施方式

实施例：一种云数据中心系统中应用的大小流分类的医院临床操作数据选择方法，医学云中心服务系统和智能移动客户端执行该方法，采用云计算这种并行化计算来处理大规模数据应对于大量的需要查找医院临床操作数据的用户，通过对云数据系统中原有的数据流进行大小流分类，得到有用的大流数据并加以剪枝修改，最终将有用的大流数据返还给用户，以便用户手动数据选择。例如医生或者病人需要查询相关的病情治疗康复情况，云数据中心系统会进行大小数据流提取，找出相对符合病人病情的大数据流，随后系统进行精确分析和准确提取相关病人的病情情况，最后系统将准确的病情数据流返还给病人或医生。

具体步骤如下：

S1.云数据中心系统提供两层分类策略和Cost-Sensitive分析，以及执行决策树C4.5算法；

S2.用户端通过互联网或者移动网络向服务器发起查询，并与云中心服务系统进行信息交互，用户端是运行在病人用户手机或者个人数字助理等终端设备上的应用程序；

S3.由云数据中心系统使用两层分类方法和Cost-Sensitive分析并执行决策树C4.5算法进行精确的数据分流，并将最优结果返还给用户。

其中的：

两层分类策略的处理步骤具体为：云数据中心系统给定一个医院临床操作数据的五元分组集合P，每个数据点p_k的时间属性值(t)在一个有界的区间[T_min,T_max]，对其进行均匀的划分{t₀,...,t_B}，存在着一个时间序列集合{b₀,...,b_B-1}，即数据流储存的时间段，其中某时间序列b_i＝[t_i,t_i+1)，固定长度为l。每个点的时间属性值为t映射到时间序列b_s(t)∈{b₀,...,b_B-1}，我们取时间序列b₀中的五元组进行流的特征提取和检测。在第一层先根据端口和协议等信息排除掉大部分已知应用的小流，以加快识别速度和减少后续计算量。接下来在第二层对剩下的数据包进行流量特征的提取和匹配，以提高分类精确度。Cost-Sensitive分析的处理步骤具体为：云中心系统中的医院临床操作数据五元组集合P＝{p₁,p₂,...,p_m}变成了以流特征为表现形式的流集合F＝{f₁,f₂,...,f_n}。给定测试流集合F＝{f₁,f₂,...,f_n}和训练流集合D＝{d₁,d₂,...,d_n}，其中训练集合由机器学习训练所得。另有类别集合θ＝{θ₁,...,θ_i,...,θ_c}，它代表着网络数据流的类别。医院流数据集F有c个不同类别，一个真实类别为θ_i的流误分为类别θ_j的代价已知，在数据集F上形成的代价矩阵C是一个c×c的矩阵，其中每个元素代表了临床操作数据流分类过程中产生的各种代价总和。一个测试样本数据流f_x被分类为θ_i的总代价由计算得到。其中f_x是给定测试流集合中的某个子流，i和j是给定测试流集合的子流具体位数，云中心系统通过相互对比各测试样本f_x被分类为θ_i的总代价得到更为精确的大小数据流分析。

基于两层分类和Cost-Sensitive分析的大小流分类方法为：首先依据分布式云数据中心中流量自身特点，利用Cost-Sensitive对大小流误分类进行代价评估，能够有效提高识别精确度，再利用数据中心流量的相容性特点对数据集进行相容性分析，特征数据选择的CFS方法有效的提高了数据集的相容性，结合首包检测和机器学习的优点，采用两层分类策略先进行非大流排除，云数据中心系统中将所得数据流进行进一步分类，将所得数据流划分成多个层架以构成数结构，系统通过对树的剪枝方法筛选出符合用户即医生或病人的病情数据流。决策树C4.5算法的定义为：设训练集生成的决策树是T，用T来分类训练集中的N的元组，设K为到达某个叶子节点的元组个数，其中分类错误地个数为J。由于树T是由训练集生成的，是适合训练集的，因此J/K不能可信地估计错误率。所以用(J+0.5)/K来表示。设S为T的子树，其叶节点个数为L(s)，∑K为到达此子树的叶节点的元组个数总和，∑J为此子树中被错误分类的元组个数之和。在分类新的元组时，则其错误分类个数为∑J+L(S)/2，其标准错误表示为：当用此树分类训练集时，设E为分类错误个数，当式子成立时，则删掉子树S，用叶节点代替，且S的子树不必再计算。

该执行云数据中心系统中应用的大小流分类的医院临床操作数据选择方法的系统由不少于一个云数据中心的网络服务器或虚拟主机所构成，包括云中心服务系统和智能移动客户端系统，其中，云数据中心系统运行两层分类方法和Cost-Sensitive分析方法，分析原有数据的大小流情况，以及执行C4.5算法构建树结构进行剪枝处理，智能移动客户端提供用户所提交的查询数据，并将返回数据流供用户手动数据选择。

该系统使用其中的大小数据流分类方法，将医院临床操作数据和使用者的请求信息的采集、监测、管理和控制集为一体，有效地实现组合一体化。将医院一系列的庞大的数据流都交付于分类方法和C4.5算法，并通过这些方法进行数据流的分类和交互，可以得到更快的进步，从而让庞大的整体归结为一个小支，在通过移动客户端的操控，一套完整的体系便脱颖而出。

通过前线设备连接后台服务中心，以医院为平台，强调智能化系统设计与医院临床操作数据处理方法的配合和协调，将医院临床操作数据本身的情况如实的汇报，集多层技术从而更好的进行数据处理数据选择。当一个医院在选择最佳医院临床操作数据时，可以根据多重因素，在大规模数据的基础上，在触控屏上，以交互的方式根据数据分类方法定义因素，从而从大量影响因素中，快速找到满足自已要求的医院临床操作数据。

其中医院临床操作数据选择通信系统具备智能控制效果，大大加强于普通的控制方式，与传统自动控制系统相比,基于大小流分类的多目标智能决策系统具有快速大数据结构分析的特点,能总体自寻优,具有自适应、自组织、自学习和自协调能力，其可以利用多分类算法自动地完成其目标的控制过程,其智能机可以在熟悉或不熟悉的环境中自动地或人─机交互地完成拟人任务，进一步的减少人类主观数据选择的误差与决策随机不准确性。可以在此算法的基础上，大数据存储与智能处理，从分析对象出发，构建模拟逻辑和神经网络，在此基础上，将好的优势传承给下一代，是为智能算法，一步步地完善医院网络智能数据处理系统，以高速度计算并处理庞大而复杂的医院临床操作数据流。

基于云数据中心处理系统，采取数据流分类方法，云数据中心系统基于云计算分布式处理系统，系统采用的是数据流分类方法，系统用分类方法将大小数据流分类，排除小数据流，通过C4.5算法将大数据流剪枝返还给用户。系统根据用户请求将数据库里的原有数据进行流分类，系统能够将小数据流在过滤后对不符合用户喜好的医院临床操作数据进行了预处理，能够在提高准确性，减少医疗事故率的同时实现高效管理，降低成本，同时对分布式系统的处理性能也有了提高，同时减少了用户等待时间，加强了用户的体验效果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种应用大小流分类的数据选择方法，其特征在于，云中心服务系统接收查询请求，使用两层分类策略对用户的请求数据流作出非大流排除，再使用Cost-Sensitive分析方法对排出后的数据流作出代价评估；再使用决策树算法将剩下的大数据流进行树构造，返回有效数据流。