CN1975720A - 一种基于Web的数据挖掘系统及其控制方法 - Google Patents

一种基于Web的数据挖掘系统及其控制方法 Download PDF

Info

Publication number
CN1975720A
CN1975720A CN 200610022668 CN200610022668A CN1975720A CN 1975720 A CN1975720 A CN 1975720A CN 200610022668 CN200610022668 CN 200610022668 CN 200610022668 A CN200610022668 A CN 200610022668A CN 1975720 A CN1975720 A CN 1975720A
Authority
CN
China
Prior art keywords
data
mining
web
module
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610022668
Other languages
English (en)
Other versions
CN100476819C (zh
Inventor
章毅
张磊
罗文静
乔磊
晏华
Original Assignee
章毅
张磊
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 章毅, 张磊 filed Critical 章毅
Priority to CNB2006100226681A priority Critical patent/CN100476819C/zh
Publication of CN1975720A publication Critical patent/CN1975720A/zh
Application granted granted Critical
Publication of CN100476819C publication Critical patent/CN100476819C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Web的数据挖掘系统,它主要包括EJB服务器、Web服务器和数据库等组件,其中EJB服务器提供Web服务端和EJB层之间的接口,并实现了针对不同数据和不同数据挖掘任务的各种数据挖掘算法,Web层提供一个和用户交互的界面,接受用户的输入、提供挖掘过程的人机交互界面和展示挖掘分析的结果,包括以下几个模块:身份验证模块、初始化模块、数据连接模块、数据可视化展现模块、数据预处理模块、挖掘处理模块、挖掘结果展示模块。该系统能提供在线的、基于Internet的数据挖掘及结果分析服务,并且用户端几乎不用安装任何软硬件,就可以直接利用本发明进行数据挖掘,并且本发明能提供容易理解的数据挖掘过程以及结果的可视化图形展示。

Description

一种基于Web的数据挖掘系统及其控制方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于Web的数据挖掘系统及其控制方法。
背景技术
数据挖掘,简而言之,就是从数据挖掘就是从大量不完全的实际应用数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。随着计算机硬件技术的发展和各种各样数据库的开发,更多的数据以前所未有的速度收集在计算机中,其数量和复杂程度远远超过了人的分析能力。又由于缺乏有效的工具从中发现潜在的规则和信息,人类便陷入了“丰富的数据”和“贫乏的知识”并存的尴尬的境地。这样,一些重要的决策往往不是基于收集的海量数据,而是基于决策者的直觉。因此,人们希望计算机能帮助我们分析数据,理解数据,从中发现重要的数据模式或知识,帮助我们在商务决策、科学和医学研究等领域做出决策,预测未来的发展趋势,于是导致了数据挖掘技术的产生。
数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注,并成为计算机领域中的一个研究热点。同时,它在商业方面的一些成功应用使得软件开发商不断研制和开发新的数据挖掘工具。由于国内的企业无法确定数据挖掘项目的投入风险和预期的收益,这使得国内的数据挖掘应用进展十分缓慢。目前的数据挖掘产品大都是由国外的大企业提供,如IBM;购买和使用这些产品需要用户花费大量的物力和人力;这些软件一般面向胖客户端(C/S)设计,有限的系统资源使得当小型企业或公司在此基础上操作海量数据难免会降低挖掘效率,给客户端带来一系列的不便。而且目前的数据挖掘软件都还处于探索阶段,还不是十分成熟的产品。
目前较为有名的数据挖掘系统为新西兰大学Waikato大学开发的Weka系统,它是一个功能较强的数据挖掘工具包,提供了一套完整的数据挖掘过程:包括数据连接、统一的数据对象处理、数据预处理、常用的挖掘算法、挖掘结果的表示等,它使用基于Swing的GUI的图形界面与用户交互。但是它也有一定的缺陷和需要完善的地方。Weka的不足表现在:1、它需要用户安装软件以及相关硬件,使用不方便;2、仅仅是一个研究原型系统,对大数据量的挖掘分析很难支持;3、Weka以文本的方式显示挖掘结果,造成非资深专业人员很难理解。
发明内容
本发明所要解决的技术问题是如何提供一种基于Web的数据挖掘系统及控制方法,该系统能提供在线的、基于Internet的数据挖掘及结果分析服务,可以使用户在不需要投入大量资金的情况下,获得高质量的数据挖掘服务,并利用挖掘到的隐含且有价值的信息指导其管理和经营,从而为公司和企业的商业决策提供更合理和有用的信息,并且用户端不用安装任何软硬件,就可以直接进行数据挖掘,并提供容易理解的数据挖掘过程以及结果的可视化图形展示。
本发明所提出的第一个技术问题是这样解决的:构造一种基于Web的数据挖掘系统,它主要包括EJB(Enterprise JavaBean)服务器、Web服务器和数据库等组件,其中EJB服务器提供Web服务端和EJB层之间的接口,并实现了数据挖掘算法的处理,Web层提供一个和用户交互的界面,接受用户的输入、提供挖掘过程交互界面和展示挖掘分析结果,其特征在于包括以下几个模块:
身份验证模块:通过INTERNET对浏览器即用户进行身份验证;
初始化模块:对系统初始化,将不同级别的用户引导到不同的页面;
数据连接模块:提供各种不同数据格式数据源的连接,生成挖掘算法可以直接使用的数据库,提供数据对象访问的接口;
数据可视化展现模块:使用易于理解的能产生直观印象的媒介表现复杂数据及其相关关系;
数据预处理模块:提供对源数据进行预处理,包括数据清理、集成、变换及归约的各种处理方式;
挖掘模型评估模块:利用不同挖掘模型对测试数据进行挖掘分析,对得到的不同结果进行评估,根据评估结果选择相应的挖掘模型进行数据挖掘;
挖掘处理模块:提供数据挖掘算法处理方式,执行用户提交的数据挖掘任务;
挖掘结果展示模块:将数据挖掘的结果通过媒介展示给用户,提供直观的、图形化的挖掘和分析结果。
按照本发明所提供的基于Web的数据挖掘系统,其特征在于,EJB服务端和Web服务端通过Facade模式沟通。
按照本发明所提供的基于Web的数据挖掘系统,其特征在于,Web服务端负责响应浏览器的请求、为其提供服务,提供与EJB容器的接口,用于展现给客户端的HTML页面和接受用户的输入部分,包括JSP、Servlet及JavaBean组件。
按照本发明所提供的基于Web的数据挖掘系统,其特征在于,所述数据可视化展现模块和挖掘结果展示模块中的媒介可为点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画中的一种或者几种。
按照本发明所提供的基于Web的数据挖掘系统,其特征在于,所述数据预处理模块和挖掘处理模块设置有能随时增加新的数据算法的接口。
按照本发明所提供的基于Web的数据挖掘系统,其特征在于,数据库可以放置在Internet中不同位置的服务器上,通过JDBC驱动WEB端组件与数据库的连接,支持客户端的数据文件上传到WEB端组件;WEB端组件得到数据后处理成相应的数据对象,并将该数据对象传递给应用业务逻辑组件处理;WEB端组件和应用业务逻辑组件可分别放在不同的服务器上,也可在同一服务器上,两者通过RMI-IIOP机制实现远程对象调用;数据连接模块采用多线程机制,并保持同步。
按照本发明所提供的基于Web的数据挖掘系统,其特征在于,系统基于在Java 2的J2EE平台,遵循Struts1.1框架包和EJB2.0规范,采用MVC三层体系结构模型;业务逻辑层主要包括EJB对象,JavaBean;控制层主要包括基于Servlet的Action动作类;视图层主要由JSP页面构成;应用服务器和WEB服务器可采用各种标准的J2EE应用服务器;其中WEB端组件可以运行于各种计算机系统;应用端组件可以运行于各种计算机系统。
一种基于Web的数据挖掘系统的控制方法,其特征在于,包含以下步骤:
(1)、通过数据接口连接远程或者本地数据源,获得相应的数据对象;
(2)、通过数据可视化模块向远程用户端展示原始数据;
(3)、利用数据预处理模块对原始数据进行处理;
(4)、根据相应得挖掘任务选择适当的挖掘算法;
(5)、对相应算法进行参数调整设置达到适当的算法调整;
(6)、利用训练数据对相应的算法模型进行训练,得到挖掘分析模型;
(7)、利用测试数据对挖掘分析模型进行评估,根据评估结果选择是否需要新的算法模型,或者对原有的算法模型的参数做相应的调整;
(8)、利用上述步骤中评估结果最好的挖掘模型对相应的数据对象进行挖掘分析处理;
(9)、将挖掘结果利用媒介向远程或者本地用户端展示。
按照本发明所提供的基于Web的数据挖掘系统的控制方法,其特征在于,本系统能够对所有的Internet用户提供便利的数据挖掘分析服务,使得用户能够以最少的代价获得高质量的数据挖掘、分析服务。
按照本发明所提供的基于Web的数据挖掘系统的控制方法,其特征在于,本系统的所有和用户的交互和展现内容,都通过浏览器进行。
按照本发明所提供的基于Web的数据挖掘系统的控制方法,其特征在于,系统响应用户的页面请求处理的步骤如下:
(1)、控制器Servlet接收来自客户端的Http Request请求,并转换为Event事件;
(2)、控制器Servlet根据相应的Event事件调用Model层中的JavaBean开始进行业务逻辑处理;
(3)、Model层中的JavaBean实现中间调度,调用业务逻辑层中的EJB组件实现业务逻辑,EJB组件可通过数据库和算法控制引擎实现对业务数据的存取和运算;
(4)、控制器Servlet根据业务处理结果,解析路径URL,调用相应的JSP页面;
(5)、JSP页面调用业务逻辑层中的相应方法取得数据;
(6)、JSP根据数据,生成HTML页面,返回浏览器,进行直观、易于理解的挖掘分析结果的可视化展示。
本发明所提供的基于Web的数据挖掘系统可以提供在线的、基于Internet的数据挖掘及结果分析服务,这样可以使用户在不需要投入大量资金的情况下,获得高质量的数据挖掘服务,并利用挖掘到的隐含且有价值的信息指导其管理和经营,从而为公司和企业的商业决策提供更合理和有用的信息,引导其更快、更好的发展,在激烈的市场竞争中占据先机。
本发明所提供的基于Web的数据挖掘系统,用户几乎不用任何额外的硬件和软件投资,就可以在该系统上进行数据挖掘,并从挖掘结果中获得可以直接用于商业决策,但又隐藏在数据背后的有用信息。这种方式的数据挖掘服务,将会积极的推广数据挖掘在商业领域的应用并促进其良好的发展。它可以对分布异构的各种数据进行集中分析处理,提供友好的数据挖掘结果展示,还可以给用户提供方便并且智能化的交互功能,便于用户更有效的掌握挖掘过程、充分理解和分析挖掘的结果。更重要的是,能够提供给用户友好的,容易理解的数据挖掘过程以及结果的可视化图形展示。因此,它区别于传统数据挖掘产品的挖掘结果的文本表达方式,使得用户很容易就能理解数据挖掘的结果,减少由于过多中间环节而产生的有效信息的误解和遗漏。
本发明所提供的数据挖掘系统是在互联网上为用户提供数据挖掘服务:用户通过注册后可以使用系统提供的各种服务模块(如关联分析、聚类分析、分类分析等)对自己的原始数据进行数据挖掘分析,提供大量的可视化功能,使数据分析,预处理和挖掘过程有更多人机交互功能,并且提供给用户多种直观的数据可视化显示结果,让用户更容易理解和分析挖掘信息。同时,出于对用户的数据安全和数据隐私的保护考虑,用户可以利用本系统分析自己愿意提供的数据,可以使敏感而重要数据处于自己的掌握之中,有利于实现隐私数据的保护。
本发明所提供数据挖掘系统的在线服务功能十分强大,几乎涵盖了当前数据挖掘的所有主要方法;系统面向分布式开发,可以处理多种数据源(各种数据库,多种数据文件等);系统对于用户提交的原始数据具有较好的保密功能;而且我们开发的丰富的可视化显示模块让用户能更直观的了解挖掘的结果。
本发明所提供的数据挖掘系统是在Java 2的J2EE平台上进行开发和设计,并基于Struts1.1框架包和EJB2.0规范,采用MVC三层体系结构模型。其中业务逻辑层主要包括EJB对象,JavaBean;控制层主要包括基于Servlet的Action动作类;视图层主要由JSP页面构成。本系统基于分布式系统开发,应用服务器和WEB服务器可采用各种标准J2EE应用服务器,可处理各种主流数据库中的数据。其中WEB端组件可运行于各种计算机系统;应用端组件也可运行于各种计算机系统。。
我们的开发过程主要按照软件工程的原型开发方式进行,通过添加组件的方式使系统不断完善。以目前流行的B/S瘦客户结构为框架,并且采用面向对象的分布式组件开发方式,从而保证该系统运行的高效性,安全性以及可移植性。
本发明所提的基于Web的数据挖掘系统的特点如下:
1、系统基于J2EE的MVC三层体系模型,按照B/S模式开发,将业务逻辑和客户端相分离,从而大大减轻了客户端处理机的工作负担。因此,企业或公司的决策者可以在该系统上快速和高效的分析并制定商业策略。
2、系统集成的weka数据挖掘算法包内容非常丰富,几乎涵盖了目前所有主流的挖掘算法。用户可根据实际情况选择相应的算法进行数据挖掘。如果遇到新的情况,由于系统的设计基于原型模型开发思想,我们完全可以针对特殊部门或单位开发一套新的挖掘算法组件,然后添加到整个系统中,这样无论从成本还是功能上讲都是易于控制和扩展的。
3、挖掘的可视化图形展示部分基于强大的Java2D和Java3D技术,并用到目前流行的图表绘制开源项目JfreeChart。这保证了系统将会给用户提供强大而直观易懂的可视化挖掘结果。数据挖掘可视化组件的开发具有巨大的推广前景,我们在设计时将可视化组件封装到不同的JavaBean中,各自独立完成不同功能,这也充分体现了面向对象的开发思想。
4、系统的功能实现基于分布式,多线程思想。首先数据的来源是分布的,数据库可以放置在Internet中不同位置的服务器上,通过JDBC驱动WEB端组件与数据库的连接,支持客户端的数据文件上传到WEB端组件;WEB端组件得到数据后处理成相应的数据对象,并将该数据对象传递给应用业务逻辑组件处理;其次系统的WEB端组件和应用业务逻辑组件可分别放在不同的服务器上,也可位于同一应用服务器,两者通过RMI-IIOP机制实现远程对象调用。另外,用户上传文件的传输过程采用多线程机制,并保持同步。这保证了不同用户的数据上传过程快速而无冲突。应用服务器本身也具有多线程管理功能,用户在处理各自数据挖掘的过程中不必担心系统冲突。
5、系统建立在Java2的安全平台机制上,一方面,对运行中出现的故障和异常系统会及时给出合理的应急解决方案;另一方面,系统采用身份登陆验证技术,并且将用户上传的数据进行相应处理,从而起到保护用户数据和隐私的目的。
随着Internet在中国的逐渐普及,目前基于客户端的C/S软件和单机版软件正向基于B/S构架的软件转变,可以说未来的软件发展方向是面向网络,面向瘦客户模式的。本系统以在线方式为用户提供完整的数据挖掘服务;其运行平台建立在功能完善而强大的J2EE之上,这充分保证了系统开发的合理性及完整性;Java2的网络应用十分广泛,用户可以流畅并且高效的访问本系统;同时Java2的安全机制保证了系统运行的安全性以及出现故障和异常的合理应急解决方案,同时本系统通过数字签名以及证书的方式对用户上传和存储的数据加以妥善的保密措施。
附图说明
图1是本发明所提供的基于Web的数据挖掘系统的体系结构图;
图2是本发明所提供的基于Web的数据挖掘系统的工作流程图;
图3是本发明所提供的基于Web的数据挖掘系统的模块图;
图4是本发明所提供的基于Web的数据挖掘系统中EJB与Web的交互图;
图5是本发明所提供的基于Web的数据挖掘系统中Facade的模式示意图。
图6是本发明所提供的基于Web的数据挖掘系统的IPO图;
图7是本发明所提供的基于Web的数据挖掘系统的操作流程图;
图8是本发明所提供的基于Web的数据挖掘系统的逻辑框图;
图9是本发明所提供的基于Web的数据挖掘系统中身份验证模块图;
图10是本发明所提供的基于Web的数据挖掘系统中系统初始化模块图;
图11是本发明所提供的基于Web的数据挖掘系统中数据源连接模块图;
图12是本发明所提供的基于Web的数据挖掘系统中数据可视化展现模块图;
图13是本发明所提供的基于Web的数据挖掘系统中数据预处理模块图;
图14是本发明所提供的基于Web的数据挖掘系统中数据挖掘模块图;
图15是本发明所提供的基于Web的数据挖掘系统中数据挖掘解释模块图。
具体实施方式
下面结合附图对本发明作进一步的说明。
本发明所提供的基于Web的数据挖掘系统严格的按照标准数据挖掘工作流程设计系统的各个功能模块,并且使得其各个模块独立化、接口化,这样每个模块内部的变化不会引起其它模块大的改动,这样的模块独立化有利于系统的快速更新和升级,以适应数据挖掘技术的飞速发展。具体的功能模块如图3所示,其中:
数据源连接统一接口模块:提供本地数据源、网络数据源以及其它数据文件的连接,生成挖掘算法可以直接使用的数据对象,提供数据对象访问的接口,该功能模块需要实现各种数据的透明性,将之转化为本系统所定义的数据对象,从而为数据挖掘算法提供一种统一的数据对象以供处理。
原始数据可视化展示模块:使用易于理解的点线图、直方图、饼图、网状图等表现复杂数据及其相互关系,使用户对原始数据能够有较为直观的理解。
数据预处理模块:提供对原始数据进行预处理,包括数据清理、集成、变换及归约的各种处理方式;并且每一个预处理算法都进行模块化设计,使得添加新的预处理算法非常容易。
交互式的挖掘模块:本模块提供了多种采用不同技术的数据挖掘算法,并对各种算法提供了良好的人机交互界面,用户可以通过它进行算法的参数设置及修改,利用训练数据对算法模型进行训练,再利用测试数据对得到的挖掘模型进行评估,多次反复后,选择一个测试结果较优的挖掘模型来执行用户提交的数据挖掘任务。这个模块提供了一定的人机交互能力,使整个挖掘、分析过程可控和易于理解。本模块的每个算法都采用模块化设计,增加算法模块和整个平台的无关性,提高整个系统的灵活性和扩展性。
挖掘结果图形化展示模块:该模块完成的功能是采用各种数据可视化和图形学技术,将挖掘分析的结果以图形的方式展示给用户。本系统提供了直观的、图形化的挖掘分析结果,使用户能够很容易的理解。
本系统的最终目标是在Internet上提供一些数据挖掘的服务,用户通过注册后可以使用我们提供的各种服务模块(如关联分析、聚类分析、分类分析等)对自己的数据进行数据挖掘分析。该系统相比较其它数据挖掘系统而言,有其较为独特的特点:
1)基于Web进行数据挖掘
将客户要开展数据挖掘、分析业务所需的软硬件投资简化为IE浏览器,用户无需购买、安装任何数据挖掘软件,就可得到便利的数据挖掘服务。在用户需要进行数据挖掘分析时,只需把数据提交给本发明所提供的数据挖掘系统,根据实际的需要,选择相应的算法就可完成相应的数据挖掘任务,得到想要的数据挖掘、分析结果。
2)统一的数据管理
本系统能够实现数据对象的透明性。各种不同类型的数据都被统一地转换为本系统的数据挖掘算法能使用的统一数据对象。这样不论是采用什么挖掘技术的挖掘算法,都能对这个数据对象进行处理,这就实现了算法与数据的无关性。正是由于有这样的功能,才能实现挖掘算法的模块化、独立化,能够更好的适应数据挖掘技术的飞速发展。它还实现了相应的数据预处理功能,有噪声或其它不完整的数据经过数据预处理以后,就可以成为算法能够处理的数据对象,并且这个预处理过程相对各种挖掘算法来说,是完全透明的、独立的。
3)算法集成库
本系统通过算法通用接口实现挖掘算法的模块化、独立化。系统中各个算法是完全独立的,我们随时可以根据实际的需要加入最新的算法,也可以把一些效果不是很好的算法方便的卸载,这些操作对整个系统的正常工作没有任何影响。正是由于它有这样的功能,我们可以很方便的集成一些较成熟的、常见的数据挖掘的算法来提供数据挖掘服务,也可以让理论研究者方便地在平台上进行算法的有效性和可行性的测试,还可以迅速实现理论成果向实际应用的飞速转化。通过算法树的方式,提供算法的通用接口,遵循这些接口并按照一定的规范编写的新算法均能够无缝集成到系统中。
4)智能交互的挖掘过程
在本系统中,完全遵循数据挖掘的过程来定义数据挖掘任务。在挖掘过程中,用户可以通过高度的人机交互来指导挖掘。用户可以通过良好的人机交互界面,方便地进行算法参数的设置,可以实现对不同算法模型、挖掘模型进行评估,利用评估结果较好的挖掘模型进行挖掘服务,从而得到较好的挖掘分析结果。
5)原始数据的可视化
本系统利用先进的数据可视化技术,使得用户可以在挖掘分析之前对数据有一个较为直观的理解,有利于进一步进行数据预处理,也方便用户在数据挖掘时更好的进行人机交互。
6)挖掘分析结果图形化
本系统利用先进的可视化技术和图形学技术,以较为直观的图形功能来表现挖掘分析结果,这样有利于用户更好的理解挖掘结果。
7)统一的数据接口
本系统实现了各种数据源的透明性,不论是什么类型的关系数据库,还是一般的文本文件、或者MS相关文档都可以无缝地和系统连接。这样就可以大大扩展了系统的实用性。
本系统遵循开放的行业标准,采用J2EE三层架构来实现,这个系统是分布式的,开放的,模块化的,并且是通用的。挖掘的数据可能来自各种各样的数据源,可以是数据库或数据仓库或者本地数据文件。这样就需要在各种数据源与挖掘系统中间提供一个转换接口,使得挖掘系统对各种数据源拥有统一的数据视图。本系统以J2EE架构为主进行设计,其中主要包括EJB服务器、Web服务器2个服务器组件,Web层采用Struts框架,系统体系结构如图1所示。EJB层主要提供了Web服务端和EJB层之间的接口,并实现了数据挖掘算法的处理,数据挖掘分析的主要计算处理步骤等都在EJB层中实现。Web层主要提供一个和用户交互的界面,接受用户的输入、提供挖掘过程交互和展示挖掘分析结果。用户通过浏览器访问Web服务端,实现用户和挖掘过程的交互。
因为本系统是基于Web提供数据挖掘服务,因而用户利用浏览器和Web服务器进行交互,这样就可以方便地为用户提供数据挖掘服务。本系统的所有和用户的交互和展现内容,都通过浏览器进行。
Web服务端是本系统的系统结构中负责响应浏览器的请求、为其提供服务,并提供与EJB容器的接口,用于展现给客户端的HTML页面和接受用户的输入的部分,其中有相应的JSP,Servlet及JavaBean组件。MinerOnWeb系统的Web层严洛遵循MVC的模式,下面就系统响应用户的页面请求处理的过程进行说明:
1)控制器Servlet接收来自客户端的Http Request请求,并转换为Event事件;
2)控制器Servlet根据相应的Event事件调用Model层中的JavaBean开始进行业务逻辑处理;
3)Model层中的JavaBean实现中间调度,调用业务逻辑层中的EJB组件实现业务逻辑,EJB组件可通过数据库和算法控制引擎实现对业务数据的存取和运算;
4)控制器Servlet根据业务处理结果,解析路径URL,调用相应的JSP页面;
5)JSP页面调用业务逻辑层中的相应方法取得数据;
6)JSP根据数据,生成HTML页面,返回浏览器,进行页面表示。
这样就将Web层的业务逻辑、数据展现和控制逻辑完全分开,这样的好处是提高了整个系统的扩展性,便于实现其模块化的功能。在MinerOnWeb中,Web端的核心任务是:
1)控制整个数据挖掘过程的流程。
2)提供用户界面,接受用户请求,解释用户的输入并将它们映射为可执行的操作,将操作请求传递给EJB服务端。
3)获得EJB服务器端返回的数据并解析,将数据通过JSP页面方式显示给用户。
而EJB服务端主要是由EJB组件组成,用于业务逻辑的处理,主要用于整个数据挖掘处理的计算处理部分与输入、展示部分的接口及处理功能。其核心的任务主要有:
1)管理数据挖掘的数据对象和算法对象。
2)完成数据挖掘功能接口并具体实现,将接口提供给Web服务端。
3)控制与Web服务端交互过程中的数据量大小。
出于系统功能模块化,结构独立化的考虑,模块与模块之间尽量采用一个统一的接口进行系统之间的数据传递和调用,这样就能实现模块之间的透明化,增强系统的可扩展性。正基于此点考虑,本系统引入Facade模式来实现EJB服务端和Web服务端的沟通。Facade模式如图5所示,主要有下列优点:
1)它对客户屏蔽子系统组件,使用method方式提供子系统满足的功能,因而减少了客户处理的对象的数目并使得子系统使用起来更加方便;
2)实现了子系统与客户之间的松耦合关系,而子系统内部的功能组件往往是紧耦合的,松耦合关系使得子系统的组件变化不会影响到它的客户。Facade模式有助于简历层次结构系统,也有助于对对象之间的依赖关系分层;
3)如果应用需要,它并不限制它们使用子系统类,因而可以在系统易用性和通用性之间加以选择。
本系统EJB服务端的EJB容器中只存在一个EJB对象Facade,主要利用这个EJB进行完成接口功能和控制数据流量,并且起到管理的作用。本系统是一个多用户的系统,需要保持每个用户在挖掘过程中的状态,于是把这个EJB对象设置为一个有状态会话Bean(Stateful Session Beans),它的作用是控制业务逻辑,而不是完成具体的实现,有状态会话Bean以一对一的方式维持某个调用客户的状态,并且在不同的方法调用中维持这个状态。为了提高系统的效率,Stateful Session Beans可以在一定的客户空闲时间后被写入二级存储设备(如硬盘),在客户发出新的调用请求后,再从二级存储设备恢复到内存中。这样以提高响应速度,节约内存。
如图4所示,J2EE应用服务器中EJB对象部署与Web服务器中Struts框架的Action和JSP交互的过程为:
1)在部署期,EJB本地对象将被捆绑在J2EE应用服务器命名服务的JNDI树上,并被分配一个JNDI名称;
2)Web服务器第一次接触JNDI命名服务以获得EJB本地对象;
3)Web服务器通过使用EJB本地对象的Reference来向EJB对象发出请求;
4)EJB本地对象创建(或寻找)一个Facade EJB对象;
5)本地EJB对象将EJB对象的Reference返回给客户端;
6)客户端获得EJB对象的Reference,并在远程接口中调用相应方法;
7)容器拦截下方法的调用并将其委派给Bean实例,实际上Bean实例将请求转发到相应的对象中处理,获得返回值;
8)EJB对象通过远程接口向客户端返回结果值。
本系统通过EJB进行配置文件的管理,使用配置文件可以实现:
1)将系统的配置信息单独存为文件,不必硬编码在软件中,可以降低系统的复杂度,增加系统配置的灵活度。当我们增加算法时,只需要更改配置文件,系统的流程和类中的判断语句都不重新编译程序来改动,就可以完成,这样显得简单而且快捷。
2)配置文件的描述和格式非常简单,使用者能够通过注释就明白增加算法的整个过程,整个结构也显得清晰易懂。
系统中现在主要有两个配置文件,分别是DatabaseUtils.props数据库配置文件和GenericObjectEditor.props算法配置文件,通过管理这两个配置文件实现数据库的透明连接和算法的动态加载。
本系统的整个处理严格按照数据挖掘标准过程执行,其具体处理流程如图2所示,具体实施过程如下:
1)通过数据接口连接上远程或者本地的数据源后,获得相应的数据对象;
2)通过数据可视化模块展示原始数据,使得用户对数据有一个直观的印象;
3)利用数据预处理模块对原始数据进行处理;
4)根据相应的挖掘任务选择适当的挖掘算法;
5)对相应算法进行一些参数的调整设置;
6)利用训练数据对相应的算法模型进行训练,得到挖掘分析模型;
7)利用测试数据对挖掘分析模型进行评估,根据评估结果选择是否需要新的算法模型,或者对原有的算法模型的参数做相应的调整;
8)利用上述步骤中评估结果最好的挖掘模型对相应的数据对象进行挖掘分析处理;
9)将挖掘分析结果进行图形化展示,使得用户容易理解。
以下是本发明的一些具体实施例:
本发明的一些专门术语的定义和外文首字母组词的原词组如下表所示:
  序号   术语名称   说明
1. 数据挖掘   数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中识别或提取隐含的、新颖的、潜在有用的信息和知识的过程。
2. 数据预处理   根据数据挖掘算法的要求,对选择的数据再进行投影、选择归一化变换等操作,以便于挖掘算法的处理。
3. 关联规则   关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。
  4.   分类   分类方法用于预测数据对象的离散类别。
5. 聚类   聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。
6. J2EE   一种利用Java 2平台来简化企业解决方案的开发、部署和管理相关的复杂问题的体系结构。
7. Struts   Struts是Apache基金会Jakarta项目组的一个OpenSource项目,它采用MVC模式,能够很好地帮助java开发者利用J2EE开发Web应用,同时Struts也是面向对象设计。
8. Weka   Weka系统是由新西兰waikato大学开发的,主要用机器学习的算法来解决现实世界中数据挖掘任务的一个开源软件。Weka是一个单机软件,功能比较强的数据挖掘研究工具包,使用基于Swing的GUI客户端作为图形界面的显示。
  9.   数据对象   实例化了的weka中定义的Instances类。
本发明所提供的基于Web的数据挖掘系统的一些功能要求如下:
系统的输入:等挖掘的源数据
系统的输出:挖掘结果的展示(文字报告、图形结果等)
功能需求(具体如图6所示):
(1)身份验证功能;
(2)统一的数据管理;
(3)数据可视化功能;
(4)数据预处理功能;
(5)数据挖掘功能;
(6)结果解释功能;
(7)智能交互功能。
性能要求:处理海量数据,计算复杂度高。
运行需求:主要由前台的数据显示程序和后台的数据计算程序组成。系统能够定时自动开启和结束,在出现某些运行环境异常的情况下能够实现自动重新开启和自动恢复的功能,即在其运行的控制中将人工的干涉降为较低程度。
本系统的运行环境要求如下:
网络环境:主干是快速以太网,适应于Internet/Intranet。
硬件环境:采用高性能、多处理机计算机系统作为EJB服务器,处理相关逻辑业务,数据库服务器位于Internet的任何位置。高性能计算机系统作为Web应用服务器,提供页面访问,这种分布式的设计能提供海量的计算能力,同时保证数据挖掘计算的可靠性能。
软件环境:高性能计算机操作系统、J2EE应用服务器、Web应用服务器。
客户端:PC机+网页浏览器。
本系统的设计原则如下:
数据量大:数据挖掘需要从海量数据中找出感兴趣的知识,所以在设计过程要充分考虑数据量传输、数据计算问题;
可扩充性强:由于挖掘算法是不断扩展的,故系统必须具有良好的可扩充性。系统设计应尽可能结构化、模块化,并其他子系统预留相应的接口。
可维护性好:要求系统具有相当的灵活性,以便于维护。
先进性:系统采用国际流行的开放式框架,应用软件采用B/S结构,网络传输采用TCP/IP协议。
本系统的网页流程根据Struts框架结构来设计Web层,具体操作流程图如图7所示,模块逻辑框图如图8所示,各模块功能描述如下表:
模块名称   模块编号 功能描述 控制关系
  身份验证模块   G1   验证用户身份
  初始化模块   G2   对系统初始化,将不同级别用户引导到不同的页面   被G1控制
  数据源连接模块   G3   提供各种不同数据格式数据源的连接,生成挖掘算法可以直接使用的数据集,提供数据对象访问的接口。   被G2控制
  数据可视化展现模块   G4   使用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系,使用户对数据产生直观的印象。
  数据预处理模块   G5   提供对源数据进行预处理,包括数据清理、集成、变换及归约的各种处理方式;并且易于增加新的预处理算法。   被G2控制
挖掘处理模块 G6   提供多种类型的数据挖掘算法处理方式,执行用户提交的数据挖掘任务。提供可视化数据接口以及完善的人机交互能力,使整个挖掘、分析过程可控和易于理解。   被G2控制
  挖掘结果展示模块   G7   该模块完成的功能是将数据挖掘的结果展示给用户,提供直观的、图形化的挖掘和分析结果,使用户能够很容易的理解。
本发明所提供的基于Web的数据挖掘系统中身份验证模块如图9所示,初始化模块如图10所示,数据源连接模块如图11所示,数据可视化展现模块如图12所示,数据预处理模块如图13所示;数据挖掘模块如图14所示;数据挖掘解释模块如图15所示。本系统各项功能需求的实现同各块程序的分配关系如下表所示:
  G1   G2   G3   G4   G5   G6   G7
  身份验证功能   √
  统一的数据管理   √   √   √   √
  数据可视化功能   √   √
  数据预处理功能   √
  数据挖掘功能   √
  结果解释功能   √
  智能交互功能   √   √   √   √   √
本发明所提供的基于Web的数据挖掘系统的接口设计如下:
外部接口:
1、EJB与web的交互如图4所示。J2EE应用服务器中EJB对象生成与Web服务器中Struts框架的Action和JSP交互的过程为:
1)在部署期,EJB本地对象将被捆绑在J2EE应用服务器命名服务的JNDI树上,并被分配一个JNDI名称。
2)Web服务器第一次接触JNDI命名服务以获得EJB本地对象。
3)Web服务器通过使用EJB本地对象的Reference来向EJB对象发出请求。
4)EJB本地对象创建(或寻找)一个Facade EJB对象。
5)本地EJB对象将EJB对象的Reference返回给客户端。
6)客户端获得EJB对象的Reference,并在远程接口中调用相应方法。
7)容器拦截下方法的调用并将其委派给Bean实例。实际上Bean实例将请求转发到相应的对象中处理,获得返回值。
8-9)EJB对象通过远程接口向客户端返回结果值。
Facade EJB是实现系统功能的关键。当我们把EJB服务端的的JAR文件发布到应用服务器上,Web服务器就可以远程调用Facade,实现相应的功能。
2、数据库的连接
通过JDBC的方法连接数据库的,数据库类型不同,需要的驱动程序就会不同。使用配置文件的方式存储数据库配置。
内部接口:Facade EJB内部接口(类名为空表示与上一接口位于同一个类中,下列各表相同)
Facade EJB内部接口
  序号  接口名称   定义   功能描述
  1.  connectDatabase   public voidconnectDatabase(String URL,String login,String password,String query)   连接数据库
  2.  getArithmeticCategory   public StringgetArithmeticCategory()   得到算法分类
  3.  getArithmeticInfo   public PropertiesgetArithmeticInfo()   获得参数信息和值是通过解析具体的描述参数信息的字符串
  5.  getAttributesName   public StringgetAttributesName(int index)   获得数据记录属性名称
  5.  getAttributesType   public StringgetAttributesType(int index)   获得数据记录属性类型
  6.  getAttributesValues   public Object[ ][ ]getAttributesValues(int index)   获得数据记录属性的具体值
  7.  getClassIndex   public int getClassIndex()
  8.  getDistinctCount   public int getDistinctCount(intindex)   获得不同属性的个数
  9.  getFileInstances   public voidgetFileInstances(Stringfilesource,long flength)   从数据文件中获得数据集对象
  10.  getInAttribute   public AttributegetInAttribute(int index)   获得数据集的属性
  11.  getInAttributeStats   public AttributeStatsgetInAttributeStats(int index)   获得数据集属性的统计信息
  12.  getInAValue   public double getInAValue(intm,int n)   获得第m条记录第n个属性的取值
  13.  getInstanceValue   public doublegetInstanceValue(intinstanceIndex,int attributeIndex)   获得某个记录的某个属性的取值(另一种方法?)
  14.  getIsMissing   public boolean getIsMissing(intinstanceIndex,int attributeIndex)   判断某个记录的某个属性的取值是丢失
  15.  getM_arithmetic   public ObjectgetM_arithmetic()   获得当前算法对象
  16.  getMax   public double getMax(int index)   得到属性统计中的数值最大者
  17.  getMin   public double getMin(int index)   得到属性统计中的数值最小者
  18.  getMissingCount   public int getMissingCount(intindex)   获得属性值丢失的属性个数
  19.  getNominalCounts   public int[ ]getNominalCounts(int index)   获得属性类型为Nominal的个数
  20.  getNominalLength   public int getNominalLength(intindex)
  21.  getNumAttributes   public int getNumAttributes()   返回所有属性个数
  22.  getNumericCount   public doublegetNumericCount(int index)   获得属性类型为Numeric的个数
  23.  getNumInstances   public int getNumInstances()   返回数据记录的条数
  24.  getNumValues   public int getNumValues(intindex)
  25.   getRelationName   public String getRelationName()   获得数据集名称
  26.   getStaticInfoOfInstances   public StringgetStaticInfoOfInstances()   获得数据记录的统计信息
  27.   getStdDev   public double getStdDev(intindex)
  28.   getTotalCount   public int getTotalCount(intindex)
  29.   getUniqueCount   public int getUniqueCount(intindex)
  30.   setArithmeticParameters   public BooleansetArithmeticParameters(intparaID,String proValue,Int[ ]tagID,String[ ]descriptions)   处理参数中的SelectedTag类型
  31.   setArithmeticParameters   public BooleansetArithmeticParameters(intparaID,String proValue)   处理参数中的简单类型以及其它一些类型
  32.   setM_arithmetic   public voidsetM_arithmetic(StringarithmeticName)   根据用户在算法选择业面的选择,在facade中新生成一个算法对象
  33.   setParaSetter   public void setParaSetter()   设置参数的m_Setters和m_Types
  34.   startArithmetic   public String startArithmetic()   进行算法运算
  35.   startFilterAlgr   public void startFilterAlgr(intclassIndex)   进行预处理算法运算
  36.
本系统的运行控制的方式:Web服务端属于控制层和视图层,它工作流程是:显示页面,接受和解析用户输入,处理用户请求,将相关操作传递给EJB服务端,将返回结果显示给用户。EJB服务端属于模型层,负责具体业务功能的实现。实现数据的存储、数据挖掘运算、挖掘算法参数的设置等具体的业务,并提供相关功能接口。
操作步骤:
1、输入MinerOnWeb的地址,将进入Login.jsp页面,提示用户输入用户名和密码。
2、按下确定键后将运行LoginAction验证用户名和密码,如果验证成功,则转入choice.jsp,验证失败则转入error.jsp页面。
3、在choice.jsp中可以选择用于挖掘的数据来源,目前可以是本地的数据文件或者数据库中的数据表。如果选择本地数据文件,刚进入fileLoad.jsp,按下浏览,将运行fileLoadingAction可以选择要上传的数据文件,然后按“upload”按键,上传文件。进入doupload.jsp,展示文件的相关信息(文件名、文件长度、文件扩展名、上传文件的路径),点submit提交,运行getFileAction,通过JNDI获得Facade EJB的远程接口,经EJB远程方法调用获得解析文件中的数据。通过EJB远程接口获得数据集的概括信息。
如果选择连接数据库,则转入connectDB.jsp页面,填写数据库地址、用户名、口令等,选择目前可连接的数据库类型,确定后系统将运行connectDBAction,根据查询数据库的参数通过JDBC连接数据库,进入showTable.jsp,运行getTableAction,展示数据库中的数据表,选择单个或者多个数据表,提交后,转入showTablesDetail.jsp,showInfo.jsp页面,在页面中通过参数使用Applet,将数据显示。用户可以查看数据集的统计信息,如有多少条记录,多少属性,每个属性的取值范围等,也可以通过在此选择需要的属性进行下一步的算法运算。
4、当用户点next page后,运行showInfoAction,通过EJB远程接口读取配置文件,获得MinerOnWeb现在可用的挖掘算法集合,转入AlgrmResult.jsp,用户可以在页面中选择其中的算法。
5、选择算法后,将运行AlgrmResultAction。根据选择的算法名称,同样的是通过远程接口获得算法的参数值,转入Paramenters.jsp并显示。用户可以根据需要配置各个参数值,以便进行数据挖掘计算。
6、在Paramenters.jsp中,当用户点击确定以后,运行ParametersAction,此Action的目的是通过远程接口,将用户修改过的参数传给Facade EJB,由Facade修改EJB中的算法对象参数。接着,调用EJB端的数据挖掘算法对训练数据进行处理,获得相应的挖掘模型。再利用测试数据对挖掘模型进行评估,还可以多次设置算法的不同参数或者选择不用的算法获得不同的挖掘模型,利用评估结果较好的挖掘模型开展相应的数据挖掘任务,得到挖掘分析的结果后,转入result.jsp页面。将挖掘分析结果显示在result.jsp页面中,实现挖掘分析结果的可视化展示。
本系统所使用到的主要的JSP和Action介绍如下:
Login.jsp:系统的入口页面,在这个页面中输入用户名和口令。
LoginAction.java:判断输入的用户名和密码是否有足够的权限进入下一步操作,如果验证成功,初始化EJB对象Facade,获得可用数据库类型并进入connectDB.jsp。
connectDB.jsp:配置数据库连接的页面,在这个页面中输入数据库地址、用户名、密码以及数据库查询语句。
ConnectDBAction.java:输入的连接数据库信息传递给EJB对象远程接口,由EJB端连接数据库,生成数据对象。
showInfo.jsp:显示数据对象的简要统计信息。
ShowInfoAction.java:通过EJB对象提供的远程接口获得算法列表。
AlgrmResult.jsp:显示算法清单的页面。用户可以在此页面上选择需要的算法来对数据对象进行处理。
GetBeanInfoAction.java:根据选定的算法,在EJB中实例化算法对象,并且获得算法对象的参数列表。
Parameters.jsp:显示此算法的可修改参数值,用户可以在页面中修改参数。
SetPrametersAction.java:将修改值后的参数传给EJB,通过Method调用修改EJB中算法对象的参数值。在EJB中进行数据挖掘的运算。
result.jsp:显示算法结果的页面。
ResultAction.java:重新返回到Login.jsp页面。
error.jsp:表示出错的页面。系统出现错误时,跳转到该页面。

Claims (10)

1、一种基于Web的数据挖掘系统,它主要包括EJB服务器、Web服务器和数据库等组件,其中EJB服务器提供Web服务端和EJB层之间的接口,并实现了数据挖掘算法的处理,Web层提供一个和用户交互的界面,接受用户的输入、提供挖掘过程交互界面和展示挖掘分析结果,其特征在于包括以下几个模块:
身份验证模块:通过Internet对浏览器即用户进行身份验证;
初始化模块:对系统初始化,将不同级别的用户引导到不同的页面;
数据连接模块:提供各种不同数据格式数据源的连接,生成挖掘算法可以直接使用的数据库,提供数据对象访问的接口;
数据可视化展现模块:使用易于理解的能产生直观印象的媒介表现复杂数据及其相关关系;
数据预处理模块:提供对源数据进行预处理,包括数据清理、集成、变换及归约的各种处理方式;
挖掘模型评估模块:利用不同挖掘模型对测试数据进行挖掘分析,对得到的不同结果进行评估,根据评估结果选择相应的挖掘模型进行数据挖掘;
挖掘处理模块:提供数据挖掘算法处理方式,执行用户提交的数据挖掘任务;
挖掘结果展示模块:将数据挖掘的结果通过媒介展示给用户,提供直观的、图形化的挖掘和分析结果
2、根据权利要求1所述的基于Web的数据挖掘系统,其特征在于,EJB服务端和Web服务端通过Facade模式沟通。
3、根据权利要求1或2所述的基于Web的数据挖掘系统,其特征在于,Web服务端负责响应浏览器的请求、为其提供服务,提供与EJB容器的接口,用于展现给客户端的HTML页面和接受用户的输入部分,包括JSP、Servlet及JavaBean组件。
4、根据权利要求1所述的基于Web的数据挖掘系统,其特征在于,所述数据可视化展现模块和挖掘结果展示模块中的媒介可为点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画中的一种或者几种。
5、根据权利要求1所述的基于Web的数据挖掘系统,其特征在于,所述数据预处理模块和挖掘处理模块设置有能随时增加新的数据算法的接口。
6、根据权利要求1所述的基于Web的数据挖掘系统,其特征在于,数据库可以位于Internet中任意位置的服务器上,通过JDBC驱动WEB端组件与数据库的连接,并支持客户端的数据文件上传到WEB端组件;WEB端组件得到数据后处理成相应的数据对象,并将该数据对象传递给应用业务逻辑组件处理;WEB组件和应用业务逻辑组件可分别放在不同的服务器上,也可在同一服务器上,两者通过RMI-IIOP机制实现远程对象调用;数据连接模块采用多线程机制,并保持同步。
7、根据权利要求1所述的基于Web的数据挖掘系统,其特征在于,系统基于在Java 2的J2EE平台,遵循Struts1.1框架包和EJB2.0规范,采用MVC三层体系结构模型;业务逻辑层主要包括EJB对象,JavaBean;控制层主要包括基于Servlet的Action动作类;视图层主要由JSP页面构成;应用服务器和WEB服务器可采用各种标准J2EE应用服务器;其中WEB端组件可以运行于各种计算机系统;应用端组件可以运行于各种计算机系统。
8、一种基于Web的数据挖掘系统的控制方法,其特征在于,包含以下步骤:
(1)、通过数据接口连接远程或者本地数据源,获得相应的数据对象;
(2)、通过数据可视化模块向远程用户端展示原始数据;
(3)、利用数据预处理模块对原始数据进行处理;
(4)、根据相应得挖掘任务选择适当的挖掘算法;
(5)、对相应算法进行参数调整设置达到适当的算法调整;
(6)、利用训练数据对相应的算法模型进行训练,得到挖掘分析模型;
(7)、利用测试数据对挖掘分析模型进行评估,根据评估结果选择是否需要新的算法模型,或者对原有的算法模型的参数做相应的调整;
(8)、利用上述步骤中评估结果最好的挖掘模型对相应的数据对象进行挖掘分析处理;
(9)、将挖掘结果利用媒介向远程或者本地用户端展示。
9、根据权利要求8所述的基于Web的数据挖掘系统的控制方法,其特征在于,本系统的所有和用户的交互和展现内容,都通过浏览器进行。
10、根据权利要求8所述的基于Web的数据挖掘系统的控制方法,其特征在于,系统响应用户的页面请求处理的步骤如下:
(1)、控制器Servlet接收来自客户端的Http Request请求,并转换为Event事件;
(2)、控制器Servlet根据相应的Event事件调用Model层中的JavaBean开始进行业务逻辑处理;
(3)、Model层中的JavaBean实现中间调度,调用业务逻辑层中的EJB组件实现业务逻辑,EJB组件可通过数据库和算法控制引擎实现对业务数据的存取和运算;
(4)、控制器Servlet根据业务处理结果,解析路径URL,调用相应的JSP页面;
(5)、SP页面调用业务逻辑层中的相应方法取得数据;
(6)、JSP根据数据,生成HTML页面,返回浏览器,进行页面表示。
CNB2006100226681A 2006-12-27 2006-12-27 一种基于Web的数据挖掘系统及其控制方法 Expired - Fee Related CN100476819C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100226681A CN100476819C (zh) 2006-12-27 2006-12-27 一种基于Web的数据挖掘系统及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100226681A CN100476819C (zh) 2006-12-27 2006-12-27 一种基于Web的数据挖掘系统及其控制方法

Publications (2)

Publication Number Publication Date
CN1975720A true CN1975720A (zh) 2007-06-06
CN100476819C CN100476819C (zh) 2009-04-08

Family

ID=38125790

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100226681A Expired - Fee Related CN100476819C (zh) 2006-12-27 2006-12-27 一种基于Web的数据挖掘系统及其控制方法

Country Status (1)

Country Link
CN (1) CN100476819C (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661B (zh) * 2008-02-19 2010-06-23 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101876896A (zh) * 2009-04-30 2010-11-03 深圳市永兴元科技有限公司 一种提升信息化技术的电子政务开发系统
CN101968812A (zh) * 2010-10-25 2011-02-09 中国农业大学 调用数据库数据自动生成统计图的方法和装置
CN102054001B (zh) * 2009-10-28 2012-10-03 中国移动通信集团公司 一种数据挖掘系统中数据预处理的方法、系统及装置
CN103020006A (zh) * 2011-09-24 2013-04-03 国家电网公司 一种基于海量数据挖掘的设备状态预测方法
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN103309867A (zh) * 2012-03-09 2013-09-18 句容智恒安全设备有限公司 基于Hadoop平台的Web数据挖掘系统
CN103425707A (zh) * 2012-05-25 2013-12-04 中兴通讯股份有限公司 数据分析方法和装置
CN104166701A (zh) * 2014-08-04 2014-11-26 深圳先进技术研究院 机器学习方法及系统
CN104346376A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN104408294A (zh) * 2014-10-31 2015-03-11 南京理工大学 一种基于事件关系网络的事件摘要方法
CN104537001A (zh) * 2014-12-15 2015-04-22 中国石油天然气股份有限公司 一种油气信息数据挖掘平台及方法
CN104572074A (zh) * 2014-12-08 2015-04-29 北京辰闰丰青信息技术有限公司 基于大数据图形化展示定制系统
CN105045931A (zh) * 2015-09-02 2015-11-11 南京邮电大学 一种基于Web挖掘的视频推荐方法和系统
CN106372240A (zh) * 2016-09-14 2017-02-01 北京搜狐新动力信息技术有限公司 一种数据分析的方法和装置
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN106503039A (zh) * 2016-09-20 2017-03-15 南京邮电大学 一种可视化实时数据挖掘系统及方法
CN106528682A (zh) * 2016-10-25 2017-03-22 安徽讯呼信息科技有限公司 一种呼叫中心大数据文本挖掘系统
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法
CN107025288A (zh) * 2017-04-14 2017-08-08 四川九鼎瑞信软件开发有限公司 分布式数据挖掘方法及系统
CN107145435A (zh) * 2017-05-27 2017-09-08 北京仿真中心 一种基于b/s架构的性能评定系统及方法
CN108133734A (zh) * 2017-12-21 2018-06-08 广东工业大学 一种医疗费用大数据的分析方法、装置及设备
CN108829704A (zh) * 2018-04-28 2018-11-16 安徽瑞来宝信息科技有限公司 一种大数据分布式挖掘分析服务技术
CN108897587A (zh) * 2018-06-22 2018-11-27 北京优特捷信息技术有限公司 可插拔式机器学习算法运行方法、装置及可读存储介质
CN109558395A (zh) * 2018-10-17 2019-04-02 中国光大银行股份有限公司 数据处理系统及数据挖掘方法
CN110427398A (zh) * 2018-04-28 2019-11-08 北京资采信息技术有限公司 一种基于数据挖掘与分析的模型管理工具
CN110633308A (zh) * 2019-08-28 2019-12-31 北京浪潮数据技术有限公司 一种数据挖掘方法、系统及相关装置
CN111260969A (zh) * 2020-03-06 2020-06-09 华南农业大学 数据挖掘课程教学实践系统和基于系统的教学实践方法
CN112486475A (zh) * 2020-12-03 2021-03-12 成都大数据产业技术研究院有限公司 基于大数据平台的可视化业务建模及模型管理系统
CN112508667A (zh) * 2020-12-08 2021-03-16 安徽经邦软件技术有限公司 一种基于云原生微服务架构的财务数据分析系统
CN112596853A (zh) * 2020-12-08 2021-04-02 青岛积成电子股份有限公司 一种实现可拔插式人工智能可视化的方法
CN112632146A (zh) * 2020-12-03 2021-04-09 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112667702A (zh) * 2020-12-03 2021-04-16 成都大数据产业技术研究院有限公司 基于大数据的数据挖掘系统
US11106804B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing
CN113515506A (zh) * 2020-04-10 2021-10-19 中国石油化工股份有限公司 基于大数据挖掘分析的ldar评估系统及方法
CN114896477A (zh) * 2022-06-08 2022-08-12 徐州医科大学 一种支持多种语言算法的数据挖掘安全可视化系统及方法
CN114942960A (zh) * 2022-06-09 2022-08-26 深圳市埃德乐科技开发有限公司 一种业务数据的可视化应用构建方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统
CN103853821B (zh) * 2014-02-21 2017-02-22 河海大学 一种面向多用户协作的数据挖掘平台的构建方法
CN105357027B (zh) * 2015-09-24 2016-11-16 四川长虹电器股份有限公司 基于大数据的轻量级数据服务总线系统

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661B (zh) * 2008-02-19 2010-06-23 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101876896A (zh) * 2009-04-30 2010-11-03 深圳市永兴元科技有限公司 一种提升信息化技术的电子政务开发系统
CN101876896B (zh) * 2009-04-30 2013-04-03 深圳市永兴元科技有限公司 一种提升信息化技术的电子政务开发系统
CN102054001B (zh) * 2009-10-28 2012-10-03 中国移动通信集团公司 一种数据挖掘系统中数据预处理的方法、系统及装置
CN101968812A (zh) * 2010-10-25 2011-02-09 中国农业大学 调用数据库数据自动生成统计图的方法和装置
CN103020006A (zh) * 2011-09-24 2013-04-03 国家电网公司 一种基于海量数据挖掘的设备状态预测方法
CN103020006B (zh) * 2011-09-24 2016-09-07 国家电网公司 一种基于海量数据挖掘的设备状态预测方法
CN103309867A (zh) * 2012-03-09 2013-09-18 句容智恒安全设备有限公司 基于Hadoop平台的Web数据挖掘系统
CN103425707A (zh) * 2012-05-25 2013-12-04 中兴通讯股份有限公司 数据分析方法和装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN103136337B (zh) * 2013-02-01 2016-05-04 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN104346376A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN104346376B (zh) * 2013-07-31 2017-11-03 红有软件股份有限公司 数据挖掘算法动态插入到数据挖掘平台的方法及系统
CN104166701B (zh) * 2014-08-04 2018-07-31 深圳先进技术研究院 机器学习方法及系统
CN104166701A (zh) * 2014-08-04 2014-11-26 深圳先进技术研究院 机器学习方法及系统
CN104408294B (zh) * 2014-10-31 2017-07-21 南京理工大学 一种基于事件关系网络的事件摘要方法
CN104408294A (zh) * 2014-10-31 2015-03-11 南京理工大学 一种基于事件关系网络的事件摘要方法
CN104572074A (zh) * 2014-12-08 2015-04-29 北京辰闰丰青信息技术有限公司 基于大数据图形化展示定制系统
CN104537001A (zh) * 2014-12-15 2015-04-22 中国石油天然气股份有限公司 一种油气信息数据挖掘平台及方法
CN105045931A (zh) * 2015-09-02 2015-11-11 南京邮电大学 一种基于Web挖掘的视频推荐方法和系统
CN106372240A (zh) * 2016-09-14 2017-02-01 北京搜狐新动力信息技术有限公司 一种数据分析的方法和装置
CN106372240B (zh) * 2016-09-14 2019-12-10 北京搜狐新动力信息技术有限公司 一种数据分析的方法和装置
CN106503039A (zh) * 2016-09-20 2017-03-15 南京邮电大学 一种可视化实时数据挖掘系统及方法
CN106528682A (zh) * 2016-10-25 2017-03-22 安徽讯呼信息科技有限公司 一种呼叫中心大数据文本挖掘系统
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法
CN107025288A (zh) * 2017-04-14 2017-08-08 四川九鼎瑞信软件开发有限公司 分布式数据挖掘方法及系统
CN107145435A (zh) * 2017-05-27 2017-09-08 北京仿真中心 一种基于b/s架构的性能评定系统及方法
US11106804B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing
US11106802B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing
CN108133734A (zh) * 2017-12-21 2018-06-08 广东工业大学 一种医疗费用大数据的分析方法、装置及设备
CN108829704A (zh) * 2018-04-28 2018-11-16 安徽瑞来宝信息科技有限公司 一种大数据分布式挖掘分析服务技术
CN110427398A (zh) * 2018-04-28 2019-11-08 北京资采信息技术有限公司 一种基于数据挖掘与分析的模型管理工具
CN108897587A (zh) * 2018-06-22 2018-11-27 北京优特捷信息技术有限公司 可插拔式机器学习算法运行方法、装置及可读存储介质
CN108897587B (zh) * 2018-06-22 2021-11-12 北京优特捷信息技术有限公司 可插拔式机器学习算法运行方法、装置及可读存储介质
CN109558395A (zh) * 2018-10-17 2019-04-02 中国光大银行股份有限公司 数据处理系统及数据挖掘方法
CN110633308A (zh) * 2019-08-28 2019-12-31 北京浪潮数据技术有限公司 一种数据挖掘方法、系统及相关装置
CN111260969A (zh) * 2020-03-06 2020-06-09 华南农业大学 数据挖掘课程教学实践系统和基于系统的教学实践方法
CN113515506A (zh) * 2020-04-10 2021-10-19 中国石油化工股份有限公司 基于大数据挖掘分析的ldar评估系统及方法
CN112632146A (zh) * 2020-12-03 2021-04-09 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112667702A (zh) * 2020-12-03 2021-04-16 成都大数据产业技术研究院有限公司 基于大数据的数据挖掘系统
CN112486475A (zh) * 2020-12-03 2021-03-12 成都大数据产业技术研究院有限公司 基于大数据平台的可视化业务建模及模型管理系统
CN112632146B (zh) * 2020-12-03 2023-04-07 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112508667A (zh) * 2020-12-08 2021-03-16 安徽经邦软件技术有限公司 一种基于云原生微服务架构的财务数据分析系统
CN112596853A (zh) * 2020-12-08 2021-04-02 青岛积成电子股份有限公司 一种实现可拔插式人工智能可视化的方法
CN114896477A (zh) * 2022-06-08 2022-08-12 徐州医科大学 一种支持多种语言算法的数据挖掘安全可视化系统及方法
CN114942960A (zh) * 2022-06-09 2022-08-26 深圳市埃德乐科技开发有限公司 一种业务数据的可视化应用构建方法

Also Published As

Publication number Publication date
CN100476819C (zh) 2009-04-08

Similar Documents

Publication Publication Date Title
CN1975720A (zh) 一种基于Web的数据挖掘系统及其控制方法
CN1145901C (zh) 一种基于信息挖掘的智能决策支持构造方法
CN1043176C (zh) 一种电信交换系统
CN101052948A (zh) 对象过程图应用程序开发系统
US8799316B1 (en) Methods and systems for context based query formulation and information retrieval
CN1713196B (zh) 基于自动化设计网格的产品定制系统
CN1489078A (zh) 用于管理在分布式系统中的附属关系的方法和装置
CN101040280A (zh) 元数据管理
CN1231742A (zh) 智能用户辅助设备
CN1773508A (zh) 把源文档转换成目标网页文件的方法
CN1337026A (zh) 用于表达频道化数据的系统和方法
CN1914630A (zh) 作为数据类型的基于行为的多代理系统
CN1661554A (zh) 用于构建无线应用程序的系统和方法
CN112130845B (zh) 一种基于人工智能的图表智能化生成方法
JP2009223833A (ja) ワークフロー管理システム
CN112163420A (zh) 一种基于nlp技术的rpa流程自动生成方法
KR101588592B1 (ko) 객체관계 매핑 기반 하이브리드 앱 개발 시스템 및 그 방법
CN1320874A (zh) 网络环境下的程序挖掘方法及其程序挖掘系统
US20170068519A1 (en) Computer-applied method for displaying software-type applications based on design specifications
CN1766835A (zh) 用于在设计和运行时间无缝制作和编辑工作流的框架
CN111813958A (zh) 基于创新创业平台的智慧服务方法与系统
CN1662011A (zh) 使用元数据定义映射来构建组件应用程序的系统和方法
Sharma et al. A novel software tool to generate customer needs for effective design of online shopping websites
CN1258704C (zh) 基于网格环境的多计算引擎协同方法
O'Brien et al. SEEK: Accomplishing enterprise information integration across heterogeneous sources.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090408

Termination date: 20111227