CN110147406A

CN110147406A - 一种面向云计算的可视化数据挖掘系统及其架构方法

Info

Publication number: CN110147406A
Application number: CN201910457928.5A
Authority: CN
Inventors: 陈强
Original assignee: Shenzhen City House Super Technology Co Ltd
Current assignee: Shenzhen City House Super Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-20

Abstract

本发明公开了一种面向云计算的可视化数据挖掘系统架构方法，包括如下步骤：统计用户的基本信息；数据源处理和挖掘，将所有数据源根据信息类别划分到数据库的独立单元，并对单个数据库中的数据源预处理和校准集成；利用挖掘引擎单元循环提取数据库中对应关联的信息数据源，增添对数据源提取的活动修改调整单元，关联数据挖掘的方向和信息类型；根据用户浏览日志和发布的数据，利用活动修改调整单元结果通过可视化的知识表示技术展示给用户；数据挖掘系统包括用户认证单元、数据源采集单元、数据源预处理单元、挖掘引擎单元、活动修改调整单元、页面临时存储单元和用户浏览日志；提取有效信息，避免在多次挖掘之后造成信息单一化。

Description

一种面向云计算的可视化数据挖掘系统及其架构方法

技术领域

本发明实施例涉及数据挖掘系统技术领域，具体涉及一种面向云计算的可视化数据挖掘系统及其架构方法。

背景技术

互联网、大数据和云计算等信息技术的飞速发展使人类社会进入信息时代，人们经常通过网络来访问和接受各种各样的数据信息。面对这些鱼龙混杂的海量数据和个人对数据的不同需求，使得从海量数据中提取和挖掘有用信息显得非常重要，于是出现了数据挖掘技术。数据挖掘能够处理信息庞大、数据模糊和组成结构相对复杂的数据，应用范围较广。

网络技术能为人们提供大量的信息，但它也使人们从海量数据中提取有用信息的难度越来越大，这就必须加快数据挖据技术的发展。因此，云计算技术应运而生，它的出现和发展给数据挖掘造成了技术瓶颈，但也为数据挖掘和云计算有效结合的新模式创造了发展机遇。

然而现有的云计算数据挖掘系统还存在如下缺陷：

(1)大多根据用户的信息类型和用户浏览日志，分析用户关注的信息类别，然后根据浏览记录实时挖掘相关数据信息，导致在多次数据挖掘处理后，显示给用户的信息单一，影响信息的多样化，因此影响使用体验；

(2)数据在编辑时没有归类，导致数据挖掘系统的维度大，挖掘难度大，影响数据挖掘的及时性。

发明内容

为此，本发明实施例提供一种面向云计算的可视化数据挖掘系统及其架构方法，采用使用多种数据挖掘模式，将用户根据信息类别分类，数据源进行信息类别聚类，挖掘数据源中匹配用户个体的数据进行展示，同时利用全方位信息关联模式，推断和挖掘数据源中的信息进行展示，既能保证从爆炸信息中提取有效信息，同时还向用户提供不同类型的信息，避免在多次挖掘之后造成信息单一化，以解决现有技术中的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：一种面向云计算的可视化数据挖掘系统的架构方法，包括如下步骤：

步骤100、定位用户位置，统计用户的基本信息，标记存储用户关注的数据信息类型，同时保存每个用户发布的信息数据源；

步骤200、数据源处理和挖掘，将所有数据源依据不同信息类别逐步划分到对应范围的数据库中，提取数据源中的关键字进行数据源校准集成；

步骤300、模式评估，利用挖掘引擎单元确定用户关注的信息类型，保存用户浏览日志，分析用户已发布的数据，循环提取数据库中对应关联的信息数据源，增添对数据源提取的活动修改调整单元，关联数据挖掘的方向和信息类型；

步骤400、知识表示，将挖掘引擎单元和活动修改调整单元的最终的挖掘结果，通过可视化的知识表示技术展示给用户。

作为本发明的一种优选方案，在步骤200中，还包括利用云计算平台采集用户发布的数据源，用户编辑数据源的具体步骤为：

先选择数据源所属的信息类别，将数据源对应系统信息类别进行一级分类；对于有二级分类的系统项目，进行二次分级选类；依次类推，直至分类到信息类别下的最小单元。

作为本发明的一种优选方案，在步骤200中，将数据源划分到不同范围数据库的具体步骤为：

步骤201、采集每个用户发布的数据源，根据用户注册的固定基本位置信息，将数据源匹配到对应位置的数据库中；

步骤202、提取数据源中的信息类别对应的最小单元，将数据源匹配保存到独立单元对应的数据库中；

步骤203、对数据源进行分段，标记数据源在每个信息类别分级的关键字；

步骤204、收集并且显示每条数据源的参与人数，共享不同数据库的数据源。

作为本发明的一种优选方案，在步骤300中，利用挖掘引擎单元关联信息数据源的具体操作为：

步骤301、根据设定时间段内的若干条用户浏览痕迹生成用户浏览日志，实时统计用户分别浏览相同信息类别的次数；

步骤302、根据相同信息类别的浏览次数大小顺序，按照正比例关系挖掘数据库中对应信息类别的数据源；

步骤303、根据时间顺序统计用户发布的数据源，统计不同信息类别的数据源个数，判断用户关注的信息类别，按照正比例关系挖掘数据库中对应信息类别的数据源；

步骤304、根据时间顺序提取用户发布数据源的关键字，根据关键字挖掘数据库中对应时间顺序的数据源。

作为本发明的一种优选方案，在步骤300中，利用活动修改调整单元进行数据挖掘的具体步骤为：

活动修改调整单元判断参与人数多的数据源是否为有效数据；

将无效数据源发送到数据库，数据库定期自动删除无效的数据源；

活动修改调整单元提取若干参与人数多的有效数据源；

将参与人数多的有效数据源与挖掘到的数据源交叉式展示给用户。

作为本发明的一种优选方案，在步骤300中，还包括对活动修改调整单元和挖掘引擎单元各自挖掘的数据源进行数量分比，活动修改调整单元：挖掘引擎单元＝2:8。

作为本发明的一种优选方案，步骤400还包括页面浏览清空单元，在用户退出浏览时，所述页面浏览清空单元将浏览痕迹挖掘信息清空。

本发明还提供一种面向云计算的可视化数据挖掘系统，包括：

用户认证单元，统计用户的基本信息，标记存储用户关注的数据信息类型；

数据源采集单元，用于采集每个用户发布提交的数据源，并且在采集时对数据进行一次认证，自动屏蔽不良信息，提高安全性能；

数据源预处理单元，研究数据源质量，提取数据源关键字，提高数据源的可挖掘等级，聚集相同信息类别的数据源个数，并且将所有数据源按照不同信息类别划分到对应数据库独立单元中；

挖掘引擎单元确定用户关注的信息类型，保存用户浏览日志，分析用户已发布的数据，循环提取数据库中对应关联的信息数据源；

活动修改调整单元，将挖掘引擎单元关联的数据挖掘信息类型，交叉式分布不同信息类型的数据源。

作为本发明的一种优选方案，还包括显示页面临时存储单元，所述显示页面临时存储单元当前浏览状态下挖掘的数据源，当退出浏览时，则将显示页面临时存储单元内的数据清除，重新利用挖掘引擎单元显示挖掘的数据源。

作为本发明的一种优选方案，还包括用户浏览日志，保存设定时间段内的若干条用户浏览痕迹，并且将浏览记录可根据不同信息类别或者不同日期显示。

本发明的实施方式具有如下优点：

(1)本发明通过规范用户编辑数据源，将数据源保存在对应匹配的数据库中，并且标记每条数据源内的关键字，从而降低数据挖掘系统的提取难度，减弱挖掘的步骤；

(2)本发明使用多种数据挖掘模式，将用户根据信息类别分类，数据源进行信息类别聚类，挖掘数据源中匹配用户个体的数据进行展示，同时利用全方位信息关联模式，推断和挖掘数据源中的信息进行展示，既能保证从爆炸信息中提取有效信息，同时还向用户提供不同类型的信息，避免在多次挖掘之后造成信息单一化。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施方式中系统架构方法的流程示意图；

图2为本发明实施方式中的数据挖掘系统结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供了一种面向云计算的可视化数据挖掘系统的架构方法，本系统的架构建立在云平台上，对数据挖掘等处理方式均利用云计算的方式，根据并行计算、效用计算、网络存储、负载均衡、网格计算和热备份冗余等方式处理存储的数据，由于其存储能力强、可伸缩和动态的计算能力等特点能够实现海量数据的高效挖掘，为管理者提供可靠的科学依据，为用户提供及时服务。

本系统的主要功能是通过规范用户编辑数据源，将数据源保存在对应匹配的数据库中，并且标记每条数据源内的关键字，从而降低数据挖掘系统的提取难度，减弱挖掘的步骤。

使用多种数据挖掘模式，将用户根据信息类别分类，数据源进行信息类别聚类，挖掘数据源中匹配用户个体的数据进行展示，同时利用全方位信息关联模式，推断和挖掘数据源中的信息进行展示，既能保证从爆炸信息中提取有效信息，同时还向用户提供不同类型的信息，避免在多次挖掘之后造成信息单一化。

本数据挖掘系统的架构方法具体包括如下步骤：

步骤100、定位用户位置，统计用户的基本信息，标记存储用户关注的数据信息类型，同时保存每个用户发布的信息数据源。

用户基本信息和关注的信息类别，作为数据挖掘的先决条件，初次使用系统时，可以根据用户基本信息和关注的信息类别挖掘对应信息类型的数据推送，在后续的使用过程时，也同样作为数据挖掘的根据点。

从广义上讲，定位用户位置不影响数据挖掘系统的正常使用，从狭义上讲，定位用户位置可避免信息泛滥，规范信息出处，从而减少信息缠绕混乱。

步骤200、数据源处理和挖掘，将所有数据源依据不同信息类别逐步划分到对应范围的数据库中，并对单个数据库中的数据源预处理，提取数据源中的关键字进行数据源校准集成。

作为本实施方式的特征点之一，用户发布的数据源由云计算平台采集存储，并且在云计算平台进行后续的挖掘处理，在用户编辑数据源时，可对编辑过程进行规范，从而可将数据源进行信息归类聚集，减少数据挖掘的难度，减小数据挖掘的响应时间，同时也方便对数据源进行安全管理，另外，通过对数据源预处理，也可以对数据源本身进行校准集成，二次验证每条数据源对应的信息类别，并且同化统一相同类别的不同描述方式，方便后期数据挖掘时对关键字的提取和认证。

用户编辑数据源具体步骤为：

也就是说，用户在发布数据源时，可先选择对应信息类别，然后在分类到信息类别的最小单元，也就是说先对数据源进行信息分类，因此即使是海量的信息数据，也通过分类和聚类的方式将数据源进行整理，因此方便用户使用系统时直接查询，同时也方便数据挖掘时，能精准提取用户所需信息。

将数据源信息分类后，在将数据源划分到不同范围数据库进行保存，具体步骤为：

采集每个用户发布的数据源，根据用户注册的固定基本位置信息，将数据源匹配到对应位置的数据库中；

提取数据源中的信息类别对应的最小单元，将数据源匹配保存到独立单元对应的数据库中；

对数据源进行分段，标记数据源在每个信息类别分级的关键字；

统计显示每条数据源的参与人数，共享不同数据库的数据源。

数据库的独立单元在保存对应信息类别的数据源时，可先对数据源对应数据库的每级信息类别进行标记，再提取标记具体数据源内的关键字，此种对数据源的处理方式，可便于将该条数据源的信息类别进行完整的说明。

一般来说，用户关注的信息类型一般只能匹配到数据源内的关键字内，而对数据源的每级信息类别进行标记，主要是为了帮助用户在每级信息类别给用户查看更多同类型内容，辅助用户进行信息筛选，快速提取更加深入的有效信息。

通过统计每条数据源的参与人数，可快速知道目标关注度最多的信息，即使是用户不关注的信息，也能辅助用户了解资讯，便于开拓用户兴趣。

即使本实施方式利用共享数据源进行大范围的信息类别统计聚类，也同样通过匹配用户的信息需求，实现单个不同信息类别的大数据统计，改善信息利用率，减少大量杂乱数据的干扰。

步骤300、模式评估，利用挖掘引擎单元确定用户关注的信息类型，保存用户浏览日志，分析用户已发布的数据，循环提取数据库中对应关联的信息数据源，增添对数据源提取的活动修改调整单元，关联数据挖掘的方向和信息类型。

在现有的数据挖掘中，大多根据用户的信息类型和用户浏览日志，分析用户关注的信息类别，然后根据浏览记录实时挖掘相关数据信息，导致在多次数据挖掘处理后，显示给用户的信息单一，影响信息的多样化，因此影响使用体验。

作为本实施方式的特征点之二，本实施方式通过多个关联出发点来源，利用挖掘引擎单元根据关联出发点全面挖掘不同信息类别的数据源显示给用户，既保证在海量广泛信息量中提取有用信息，同时也防止在在多次数据挖掘后造成单一信息类别。

在步骤300中，利用挖掘引擎单元关联信息数据源的具体操作为：

对上述挖掘引擎单元关联信息数据源原理总结如下：

根据用户浏览的数据源信息类别，可推导出用户目前需求的信息类别，因此通过用户浏览日志，实时挖掘同类型的数据源，增加数据挖掘的精确性和实时性，同时浏览一种信息类别的数据源越多，则说明用户对该信息类别的信息需求大，对应挖掘此信息类别的数据源较多，按照正比关系，可增加数据挖掘的精确性。

另外根据用户发布的数据源对应的信息类别，也可推导出用户目前需求的信息类别，分析提取发布数据源所属的信息类别，可提高数据挖掘的及时性，本实施方式统计用户发布的数据源的方式，是从当前日期往前推，从而可有效推测当前用户的信息需求，同时当前日期浏览的数据源信息类别则说明用户此时对该信息类别的信息需求大，对应挖掘此信息类别的数据源较多，按照正比关系，同样可增加数据挖掘的精确性。

由于数据源中的关键字不同，可从该信息类别引申到不同信息类别的数据源，将用户发布的数据源对应时间顺序，根据关键字挖掘数据库中的数据源，进一步增加数据挖掘的精确性。

上述步骤是利用有关用户本身的行为和基本信息进行数据挖掘，本实施方式还可以利用活动修改调整单元进行数据挖掘，具体步骤为

首先，活动修改调整单元判断参与人数多的数据源是否为有效数据；

然后，将无效数据源发送到数据库，数据库定期自动删除无效的数据源；

其后，活动修改调整单元提取若干参与人数多的有效数据源；

最后，将参与人数多的有效数据源与挖掘到的数据源交叉式展示给用户。

也就是说对于一些针对时效性的数据源，需要利用活动修改调整单元判断该数据源是否具有时效性，对于超过时效的无效数据源，可将数据源信息发送到数据库，数据库定期自动删除无效的数据源，减少无用信息数据的干扰。

同时对于参与人数多的有效数据源，可交叉在挖掘的数据源中，显示给用户，也能辅助用户了解资讯，便于开拓用户兴趣。

作为本实施方式的特征点之三，根据上述，保证在海量广泛信息量中提取有用信息，同时也防止在在多次数据挖掘后造成单一信息类别，但是为了避免活动修改调整单元关联的数据源大于挖掘引擎单元关联的数据源，需要对活动修改调整单元和挖掘引擎单元各自挖掘的数据源进行数量分重。

活动修改调整单元：挖掘引擎单元＝2:8。因此可保证挖掘数据源基本符合用户当前的检索需求。

同时也可将挖掘引擎单元不同模式挖掘的数据源进行二次分类，用户发布的数据源挖掘数据源：浏览日志挖掘数据源：用户关注信息类别挖掘数据源＝4:3:3，也就是说根据用户状态进行数据挖掘，并且当用户发布数据源后，用户发布的数据源挖掘数据源的优选级大于浏览日志挖掘数据源的优先级。

步骤400、知识表示，根据用户浏览日志和发布的数据，利用活动修改调整单元将最终的挖掘结果通过可视化的知识表示技术展示给用户。

作为本实施方式的特征点之四，在用户退出浏览时，所述页面浏览清空单元将浏览痕迹挖掘信息清空。

现有技术的数据挖掘系统大多保留浏览痕迹，因此导致用户接收的信息单一，范围小，而本实施方式利用页面浏览清空单元对该次挖掘的数据源进行删除，但是用户浏览日志中还可以保留特定时间段内的已浏览数据源，帮助用户查找信息。

通过对挖掘的数据源进行删除，下次登录时，则系统根据用户关注的数据类型、浏览日志挖掘数据源和用户发布数据信息重新进行数据挖掘，避免挖掘数据的占比过大，导致信息的单一性，影响使用体验。

实施例2

如图2所示，为了提供上述数据挖掘系统架构方法的硬件和软件设备，本发明还提供了一种面向云计算的可视化数据挖掘系统，包括：

显示页面临时存储单元，所述显示页面临时存储单元当前浏览状态下挖掘的数据源，当退出浏览时，则将显示页面临时存储单元内的数据清除，重新利用挖掘引擎单元显示挖掘的数据源。

用户浏览日志，保存设定时间段内的若干条用户浏览痕迹，并且将浏览记录可根据不同信息类别或者不同日期显示。

实施例3

下面将举例说明一款基于在本可视化数据挖掘系统的应用程序(卡卡社区)：

该应用程序的功能主要是为了改善现代社区邻里之间的关系，给邻里间选择沟通纽带和互动桥梁设立的一个模块，主要包括如下功能模块：约贴模块、晒晒模块、苦水管理模块、沟沟模块和商品交易，并且用户可以在这些模块内发布信息，生成对应模块单元下的数据源。

用户在注册时，首先选定自己感兴趣的方面，比如说做饭、运动、野营、打牌等等，数据挖掘系统提取过滤筛选对应功能模块的数据源推送至用户界面，从而帮助用户从大量的功能模块中提取自己感兴趣信息。当然用户也可以自己查找关键字，查找需求信息。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于，在步骤200中，还包括利用云计算平台采集用户编辑发布的数据源，用户编辑数据源的具体步骤为：

3.根据权利要求1所述的一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于，在步骤200中，将数据源划分到不同范围数据库的具体步骤为：

4.根据权利要求1所述的一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于，在步骤300中，利用挖掘引擎单元关联信息数据源的具体操作包括：

5.根据权利要求4所述的一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于，在步骤300中，利用活动修改调整单元进行数据挖掘的具体步骤为：

活动修改调整单元提取若干参与人数多的有效数据源；

6.根据权利要求1所述的一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于，在步骤300中，还包括对活动修改调整单元和挖掘引擎单元各自挖掘的数据源进行数量分比，所述数量分比为活动修改调整单元：挖掘引擎单元＝2:8。

7.根据权利要求1所述的一种面向云计算的可视化数据挖掘系统的架构方法，其特征在于：步骤400还包括页面浏览清空单元，在用户退出浏览时，所述页面浏览清空单元将浏览痕迹挖掘信息清空。

8.一种面向云计算的可视化数据挖掘系统，其特征在于，包括：

9.根据权利要求8所述的一种面向云计算的可视化数据挖掘系统，其特征在于，还包括显示页面临时存储单元，所述显示页面临时存储单元当前浏览状态下挖掘的数据源，当退出浏览时，则将显示页面临时存储单元内的数据清除，重新利用挖掘引擎单元显示挖掘的数据源。

10.根据权利要求8所述的一种面向云计算的可视化数据挖掘系统，其特征在于，还包括用户浏览日志，保存设定时间段内的若干条用户浏览痕迹，并且将浏览记录可根据不同信息类别或者不同日期显示。