CN109992246A

CN109992246A - 基于Web架构的海量网络大数据挖掘系统

Info

Publication number: CN109992246A
Application number: CN201711488545.1A
Authority: CN
Inventors: 祁建明; 周峻松; 徐继峰; 陈墩金
Original assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Current assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2019-07-09

Abstract

本发明公开了一种基于Web架构的海量网络大数据挖掘系统，该系统包括：数据源层、业务逻辑层、表示层以及客户层；其中，所述数据源层处于系统的底端，负责数据清理、数据集成、数据规约，并且提供数据给所述业务逻辑层；所述业务逻辑层负责处理应用的核心业务逻辑即所有算法的调度，并为所述数据源层提供必要的接口；所述表示层负责映射所述业务逻辑层中的Java对象到Flex对象、RTMP(Real Time Message Potocol)、代理，并在服务端生成PDF等；所述客户层负责将专业的数据挖掘结果更为生动、易于理解地展示给大众用户。

Description

基于Web架构的海量网络大数据挖掘系统

技术领域

本发明属于大数据挖掘技术领域，涉及一种基于Web架构的海量网络大数据挖掘系统。

背景技术

随着数据挖掘技术的发展，数据挖掘系统的开发也成为一个新的研究热点。从第一代数据挖掘软件的代表CBA，到后来的DBMiner、SASEnterpriseMnier、SPSSClementine以及现在的第四代商业数据挖掘模型，无不是数据挖掘技术逐渐成熟的体现，但目前流行的商用软件都是单机版的数据挖掘系统。从国内外已发表的数据挖掘的论文中可以看到有提到网络数据挖掘，但这种系统是偏重于网络数据的挖掘，在系统的体系结构上没有做出改变。

随着Internet技术的发展，对数据挖掘系统的体系从主机模式向基于Web的多层跨平台的B/S模式转化提出了挑战。

基于Web的系统表示层建立在“瘦客户”的基础上，其处理能力以及表现效果非常有限，而数据挖掘系统需要丰富的数据可视化、数据挖掘过程的可视化以及数据挖掘结果的可视化。所以，传统基于静态页面的网络系统已经不能满足数据挖掘系统的可视化要求。

发明内容

本发明目的在于提供一种基于Web架构的海量网络大数据挖掘系统，针对传统的网络数据挖掘系统常强调挖掘的是网络数据，而在系统的体系结构上并没有做出相应地改变，导致其处理能力以及表现效果非常有限的问题，通过引用Flex与Spring技术，提高了网络数据挖掘系统的跨平台性、算法的可移植性以及使客户层有更丰富、更具交互性与响应性的用户体验。

为解决上述技术问题，本发明采用如下的技术方案：一种基于Web架构的海量网络大数据挖掘系统，该系统包括：数据源层、业务逻辑层、表示层以及客户层；其中，所述数据源层处于系统的底端，负责数据清理、数据集成、数据规约，并且提供数据给所述业务逻辑层；所述业务逻辑层负责处理应用的核心业务逻辑即所有算法的调度，并为所述数据源层提供必要的接口；所述表示层负责映射所述业务逻辑层中的Java对象到Flex对象、RTMP(Real Time Message Potocol)、代理，并在服务端生成PDF等；所述客户层负责将专业的数据挖掘结果更为生动、易于理解地展示给大众用户。

进一步地，所述数据源层以两种方式提供算法所需的数据：一种是通过数据仓库；另一种是将文本格式化为统一格式后，再提供给所述业务逻辑层调用。

进一步地，所述业务逻辑层采用Spring框架来统一管理业务逻辑对象。

进一步地，所述表示层采用Flex体系结构，将从所述业务逻辑层返回的数据通过MXML标记语言解释生成对应的SWF文件。

进一步地，所述客户层即支持SWF文件格式运行的Web浏览器。

本发明与现有技术相比具有以下的有益效果：

本发明方案针对传统的网络数据挖掘系统常强调挖掘的是网络数据，而在系统的体系结构上并没有做出相应地改变，导致其处理能力以及表现效果非常有限的问题，通过引用Flex与Spring技术，提高了网络数据挖掘系统的跨平台性、算法的可移植性以及使客户层有更丰富、更具交互性与响应性的用户体验。

附图说明

图1是基于Web架构的海量网络大数据挖掘系统的整体框架图

图2是基于Web架构的海量网络大数据挖掘系统的算法包装层次图

图3是基于Web架构的海量网络大数据挖掘系统的Flex与远程对象交互图。

具体实施方式

下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。

参照图1，本发明一种基于Web架构的海量网络大数据挖掘系统，该系统包括：数据源层、业务逻辑层、表示层以及客户层；其中，所述数据源层处于系统的底端，负责数据清理、数据集成、数据规约，并且提供数据给所述给所述业务逻辑层；所述业务逻辑层负责处理应用的核心业务逻辑即所有算法的调度，并为所述数据源层提供必要的接口；所述表示层负责映射所述业务逻辑层中的Java对象到Flex对象、RTMP(Real Time MessagePotocol)、代理，并在服务端生成PDF等；所述客户层负责将专业的数据挖掘结果更为生动、易于理解地展示给大众用户。

为保证所述客户层的兼容性，以标准的Flash9.0支持的用于运行SWF文件格式的浏览器作为客户层，客户层采用目前较为流行的AdobeFexl技术实现各类算法的“富客户层”展示。将专业的数据挖掘结果更为生动、易于理解地展示给大众用户。采用此技术使得系统有如下特点：

(1)增强用户体验：对于每个挖掘算法，系统都提供丰富的图形界面、图表、进度表以及强大交互性和动态性功能。

(2)增强与服务端的数据交互：和服务器通信采用较为直接的远程对象(RO)进行数据交换，达到较为高效的远程通信。

(3)通用的配置环境：系统中所有的挖掘算法的展示都是以Flex应用程序的形式存在，这些应用完全可以在FlashPlayer9下执行，而FlashPlayer具有跨平台性，可运行于Windows系统、Mac系统、Linux等系统。全球98％的电脑中都安装了FlashPlayer。因此，对于不同平台的用户都可以充分地获得Flex良好的UI体验。

表示层采用Flex体系结构，Flex把从业务逻辑层返回的数据通过MXML标记语言解释生成对应的SWF文件。LCDS(Live Cycle Data Service)，它是基于Java后端的数据服务工程，功能包括映射Java对象到Flex对象(包括调用Java类的方法)、RTMP(Real TimeMssage Potocol)、代理、服务端生成PDF等功能，在此数据挖掘系统中，即通过LCDS来映射远程对象，并通过调用对象的方法来获取相应的数据。AMF网关是一个高性能二进制协议，它近似于Flash Remoting协议。远程对象运用HTTP协议被发送到AMF网关。Flex为这些通信协议提供MXML标签，因此，Flex可以方便地访问到该远程对象。

业务逻辑层用来处理应用的核心业务逻辑即所有算法的调度，并为底层业务服务组件提供必要的接口，它采用Spring框架来统一管理业务逻辑对象。在此容器中，定义了供Flex调用的远程对象，这样的远程对象共有两类，一类是用于算法返回结果的远程对象，一类是用于数据源层返回的远程对象。数据挖掘的各类算法封装成独立的JavaBean，并通过所属的类型(如关联规则、聚类、分类)分别注入到Spring容器中。对同一类型的算法，定义一个统一的控制JavaBean来调度。

数据源层处在数据挖掘系统中最底层，它以两种方式提供算法所需数据。一种是通过数据仓库的方式。数据是数据挖掘系统的源头，现实世界的数据库极易受噪声、丢失数据和不一致数据的侵扰，因为数据库太大(多达数千兆字节，甚至更多)，并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果，因此本系统采用XML技术编写成的中间件把异构型的数据进行数据清理、数据集成、数据规约处理后的数据放入数据仓库进行存储。根据用户的选择调用数据仓库的数据组成数据挖掘库，算法再通过JDBC连接数据挖掘库，用SQL语句操作数据库获取所需的挖掘数据。另外一种提供数据的方式则是通过对一些文本进行格式化操作，形成统一格式的文本，提供给挖掘算法调用。

参照图2，在数据挖掘系统中，算法是整个系统的核心，算法的灵活调度成为系统设计的首要任务。算法主要分布在服务器端，所以服务器端是整个系统的核心部分，本系统采用Spring框架对整个数据挖掘系统的算法进行封装和实现。系统的服务器端对算法封装抽象成四层结构。

(1)算法的核心层。本层包括所有算法的Java实现类，系统的算法分为四个挖掘模块，分别为关联规则、聚类、分类以及属性选择。关联规则中有根据伪代码编写成的Apriori、AprioriTID等核心算法的Java类；聚类中有根据伪代码编写的SimpleKMeans、EM等核心算法的Java类；分类中有根据伪代码编写的NaiveBayes、J48等核心算法的Java类；属性选择中有根据伪代码编写成的ClassifierSubsetEval、CfsSubsetEval等核心算法的Java类。

(2)FS系统核心代码层。该层主要包括算法的数据源层获取方式，即获取服务端数据文件列表(DataList)或者获取数据挖掘库的连接(DatabaseConnect)的功能；将从数据源层获取的数据进行封装的JavaBean(InitInstances)以及算法属性参数设置(InitOptions)的JavaBean。

(3)算法的封装逻辑层。该层主要对每一类挖掘算法进行统一接口的封装，对每一类算法提供统一的数据输出格式，具体涉及的类有InitAssociator、InitClassifier、InitClusterer、InitAttributeSelection。

(4)与Flex交互的服务接口层。该层主要为Flex端远程调用提供一系列接口，包括各算法调用的接口(AprioriAction、SimpleKMeansAction等)、以及公用数据的调用接口(DataListAction、GetAttributes等)。

FS系统通过用户端选择数据以及算法和算法属性，从而取得服务端返回的挖掘结果，并以此通过Flex的多种展示方式展示给用户。

对于Flex和服务端的通信，Flex通过LCDS的远程对象(RO，Remote Object)方式与服务端通信，如图3所示。在MXML标记语言中，由特定的标签(<mx:Remote Object>)来表示远程对象。然后通过设置该标签的一系列属性来确定具体的某个远程对象以及它应该具有的特征，之后便可直接在Flex中使用该对象，具体的对象涉及算法远程对象、公用数据服务远程对象。

对于客户层的Flex可视化，FS系统对挖掘数据的可视化分为数据可视化和数据挖掘结果可视化。每个用户对同一数据的不同属性兴趣度不一样FS系统的数据可视化部分可以预先将数据挖掘库中的数据的属性以列表和柱状图的形式展现给用户，用户按照自己的标准对数据进行选择，选出自己感兴趣的属性值返回给服务器端，用于作为算法挖掘的数据源。FS系统的挖掘结果可视化运用了Flex提供的多种图表以及视图的组合来表示，提供给用户多个理解挖掘结果的角度。

FS系统中的挖掘结果是以XML的形式存放的字符串，客户层调用的时候，先对该字符串进行格式转换成XML对象。再对该对象进行数据提取，得到客户层需要的多个数据集合ArrayCollection，不同的图形绑定不同的数据集，选取图形组合成不同的视图进行展示。FS系统设计了以下三种挖掘结果的可视化表示：

(1)关联规则的Flex可视化，关联规则的可视化分为三个视图：饼状视图、柱状视图、列表视图。饼状视图由线状图和饼状图组成，柱状视图由点状图和柱状图组成，列表视图由表格组成。线状图和点状图用于表示Confidence、Lift、Leverage、Conviction这四个标准的变化趋势，用于找出满足某个标准的关联规则。饼状图和柱状图用于表示具体的某条规则的前项与后项的关系。两个视图都采用表示整体的图和表示某条规则的图结合起来展示。列表视图把挖掘出来的关联规则以表格的形式展示出来。

(2)分类的Flex可视化，分类的可视化分为四个视图：饼状视图、点状视图、条形视图、列表视图。饼状视图由饼状图和表格组成。饼状图用于表示分类的结果，每一类的信息用表格表示。点状视图由点状图组成。点状图用于表示数据源在图中的分布情况。条形视图由条形图组成。条形图用于对比表示每个分类的准确率的度量。

(3)聚类的Flex可视化，聚类的可视化分为三个视图：饼状视图、点状视图、列表视图。饼状视图由饼状图和表格组成。饼状图用于表示聚类形成的簇，每个簇的信息用表格表示。点状视图由点状图组成。点状图用于表示簇中各点的分布情况。列表视图把聚类中的各种度量标准以表格的形式显示。

本系统的服务端特点如下：

服务端采用Spring框架，拥有一个业务逻辑处理集合，该集合有效地组织于服务器端，集合中包括大部分数据挖掘分类(聚类、分类、关联规则等)的特定算法以及用以实现业务逻辑处理的相关类。

采用此框架技术使得系统有如下特点：

(1)系统的非侵入式：即各种算法JavaBean的运算以及调度不和具体的Spring的API代码融合，使得程序开发人员致力于数据挖掘算法的开发与调度，最终实现业务逻辑可以很容易地从Spring框架移动到其他框架，提高系统的移植性。

(2)系统数据挖掘算法集中管理：系统将所有的算法JavaBean以及FS系统核心JavaBean注入到Spring容器进行统一管理与分配，当客户层有请求时，通过服务器端定义的与远程客户层进行交互的接口来调用Spring容器，从而达到调用服务集合中核心算法对象的效果。

(3)系统的低耦合性：系统中所有挖掘算法彼此独立，同一类算法提供相关的接口，可以实现算法的插件式管理，降低了业务逻辑类之间的耦合性，使得算法添加、选择与执行更为简单。

以上所述并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Web架构的海量网络大数据挖掘系统，其特征在于，所述系统包括：数据源层、业务逻辑层、表示层以及客户层；其中，所述数据源层处于系统的底端，负责数据清理、数据集成、数据规约，并且提供数据给所述业务逻辑层；所述业务逻辑层负责处理应用的核心业务逻辑即所有算法的调度，并为所述数据源层提供必要的接口；所述表示层负责映射所述业务逻辑层中的Java对象到Flex对象、RTMP(Real Time Message Potocol)、代理，并在服务端生成PDF等；所述客户层负责将专业的数据挖掘结果更为生动、易于理解地展示给大众用户。

2.根据权利要求1所述的基于Web架构的海量网络大数据挖掘系统，其特征在于，所述数据源层以两种方式提供算法所需的数据：一种是通过数据仓库；另一种是将文本格式化为统一格式后，再提供给所述业务逻辑层调用。

3.根据权利要求1所述的基于Web架构的海量网络大数据挖掘系统，其特征在于，所述业务逻辑层采用Spring框架来统一管理业务逻辑对象。

4.根据权利要求1所述的基于Web架构的海量网络大数据挖掘系统，其特征在于，所述表示层采用Flex体系结构，将从所述业务逻辑层返回的数据通过MXML标记语言解释生成对应的SWF文件。

5.根据权利要求1所述的基于Web架构的海量网络大数据挖掘系统，其特征在于，所述客户层即支持SWF文件格式运行的Web浏览器。