CN106445950A

CN106445950A - 个性化分布式数据挖掘系统

Info

Publication number: CN106445950A
Application number: CN201510482685.2A
Authority: CN
Inventors: 刘挺
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-08-10
Filing date: 2015-08-10
Publication date: 2017-02-22
Also published as: WO2017024772A1

Abstract

个性化分布式数据挖掘系统提出了一种基于Excel,Java和Html的分布式个性化数据挖掘系统，包括中央控制模块，目标网站读取模块，结果文件生成模块，目标网站抽取并写入结果文件模块和数据清洗模块五个模块。中央控制模块是整个系统参数控制的核心，设置了系统运行的参数，目标网站读取模块读取了用户设置的目标网站列表和关键词等参数，并且将其传递给了目标网站抽取并写入结果文件模块，该模块对目标网站进行二层乃至多层的数据分析，并且按照关键词进行过滤，并将分析结果传递给了数据清洗模块，将数据进行清洗，并写入了结果文件。综上所述，该系统是一个采用Excel保存用户参数，使用Java进行数据挖掘和分析，并将最终结果存储在Html的文件的一个系统。

Description

个性化分布式数据挖掘系统

技术领域

本发明涉及一种个性化的分布式数据抽取系统，可以用于对互联网上网站进行个性化挖掘。

背景技术

Microsoft Office 系列已经成为大众通用的产品，用户对其有着良好的用户体验，同时html文件格式成为所有网络浏览器接受的格式，Java语言作为一种普遍的网络编程语言为大众所接受，所以本系统融合了以上三种背景技术，创造出了该个性化的数据挖掘系统。

发明内容

本发明包括五个模块 : 中央控制模块，目标网站名单读取模块，结果文件生成模块，目标网站抽取并写入结果文件模块，数据清洗模块。

中央控制模块，该模块主要是生成一个类，用于存储该系统运行的一些关键的参数，比如 Excel 文件的存储位置，结果文件的存储位置等。

目标网站名单读取模块，该模块主要是系统使用 Java 从 excel 文件中读取需要进行抽取的目标网站的名单以及采用的过滤词。

结果文件生成模块，主要将结果页面生成一个 html 文件并且存储主要包括结果文件前端生成和结果文件后端生成两个方法。

目标网站抽取并写入结果文件模块，该模块主要是系统根据之前的目标网站的抽取情况，得到目标网站的名单列表，然后根据该列表对网站进行抽取。

数据清洗模块，主要是对抽取出来的数据进行清洗，以获得所需要的结果。

说明书附图：

图1为系统整个结构图

图2为目标网站名单读取模块结构图

图3为目标网站名单读取模块并写入结果文件模块结构图

图4为JPOI方法中get_urls_poi流程图

图5为JPOI方法中get_keyword_poi流程图

图6为JExcel方法中get_urls_jexcel流程图

图7位JExcel方法中get_keywords_jexcel流程图。

具体实施方式：

中央控制模块主要包括以下部分，控制文件 construct.xml ，控制类 Constructure 。

控制文件 construct.xml 主要是使用 xml 文件存储关键信息，包括 Excel 文件的存储位置和结果文件的存储位置，包括以下几个节点：

1 ， excel : excel 文件的路径，

2 ， output : 结果文件 out.html 的存放路径。

控制类 Constructure 是一个类，该类用于存储之前 Excel 文件的地址，结果文件 out.html 的存放位置，该类实例化之后包含以下几个方法：

1 ， getExcel_file: 取得 Excel 文件的存储位置

2 ， setExcel_file: 更改 Excel 文件的存储位置

3 ， getOutput_file ：取得结果文件 out.html 的存储位置

4 ， setOutput_file ：更改结果文件 out.html 的存储位置。

目标网站名单读取模块，表格文件 Excel 主要包含两列。

一列是 website ，主要是需要进行抽取的网站名单，都是其网址格式，比如 www.xundata.com 等等，该列的第一个名称为 website ，下面的每一行都是需要抽取的网站 url 格式，可以有许多个。

另一列，即第二列，是 keyword ，主要是系统用来进行过滤所采用的关键词，用户可以自己设定，可以是友情，爱情等，每一行都是一个新的关键词，可以有许多个。

对该 excel 文件的读取，采用的是 Java 读取 Excel 的 API ，本系统提出了两种方法 JPOI 和 JExcel 两种。

对 JPOI 方式，包含获得 urls 方式和获得 keywords 的方式。

方法名： get_urls_poi, 获得 urls 的方式：

1. 系统输入 Excel 的文件名，生成 POIFSFileSystem fs ，

2. 根据该 fs 生成 HSSFWorkbook wb ，

3. 根据 wb ，生成 HSSFSheet sheet ，取得 sheet 的物理行数， rows ，

4. 对 rows 做一次循环，

4.1. 从 sheet 中取得每一行，

4.2. 然后从该行中取得第一列的元素，

4.2.1 当其不包含 website 的关键字后，将其加入 urls 中

4.2.2 当其包含 website ，则不加入 urls 中。

方法名： get_keywords_poi, 获得 keywords 的方式：

2. 根据该 fs 生成 HSSFWorkbook wb ，

4. 对 rows 做一次循环，

4.1. 从 sheet 中取得每一行，

4.2. 然后从该行中取得第二列的元素，

4.2.1 当其不包含 keyword 的关键字后，将其加入 keywords 中

4.2.2 当其包含 keyword ，则不加入 keywords 中。

对于 JExcel 方式，包含获得 urls 和 keywords 的方式。

方法名： get_urls_jexcel，获得urls的方法：

1，生成 urls列表

2，使用提供的excel文件，生成实例jxl.workbook : workbook

3，使用workbook, 生成sheet

4，定义列col为0

5，取得sheet中的行数rows, 并且做一次循环

5.1，对每一行，通过sheet，取得一个实例jxl.cell : cell，其列数为0

5.2，对该cell，取得其内容content_local，

5.3，当内容不包含website字样时，将content_local加入urls列表

6，返还urls列。

方法名： get_keywords_jexcel，获得keywords的方法：

1，生成 keywords列表

2，使用提供的excel文件，生成实例jxl.workbook : workbook

3，使用workbook, 生成sheet

4，定义列col为1

5，取得sheet中的行数rows, 并且做一次循环

5.1，对每一行，通过sheet，生成一个jxl.cell : cell，其列数为1

5.2，对该cell，取得其内容content_local，

5.3，当内容不包含keyword字样时，将content_local加入urls列中

6，返还keywords列。

结果文件生成模块，主要包括结果文件前端生成方法和结果文件后端生成方法。

结果文件前端生成方法，主要是采用 Java 写入文件的 FileWriter 方法，将结果文件写成 out.html ，并且写入生成目标文件的前端，采用的方法名称为 Write_Header ，写入内容如下：

1 ，从结果文件的位置生成 FileWriter fstream

2 ，从 fstream 生成 bufferedwriter out

3 ，使用 out 写入结果文件一下内容：

< ！ DOCTYPE html>

<html>

<head>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

<title>The result page</title>

</head>

<body>

4 ，关闭 out 。

结果文件后端生成模块：该模块主要是对结果文件 out.html 的底部生成 html 文档。

主要采用名为 Write_Botton 方法，主要步骤如下：

1 ，生成 bufferedWriter out

2, 从结果文件的地址生成 FileWriter 文件流 fstream ，

3 ，将 fstream 放入 BufferedWriter 文件中

4 ， out 写入 </body>

5 ， out 写入 </html>

6 ， out 关闭。

目标网站抽取并写入结果文件模块，包括以下几个步骤：

1 ，打开之前写好的结果文件 out.html

2 ，写入 <table style="width=100%">

3 ，根据之前获得的 url 列表， urls, 对其做一个循环，

3.1 从 urls 中获得一个 url

3.2 针对该 url 进行一次扫描，获取其中的链接

3.2.1 针对每个获取的链接，对其进行下一层次的扫描

3.2.2 针对扫描回来的结果，抽取其中含有 html 的文档内容的那一部分

3.2.3 针对抽取的 html 文档的内容这一部分，采用循环的方式，确认其是否包含 keyword 关键词，

3.2.3.1 采用循环机制，从 keywords 中选取一个 keyword

3.2.3.2 将该 keyword 和抽取的 html 文档内容做匹配，看 html 文档内容是否包含该 keyword

3.2.3.3 如果 html 文档包含 keyword ，则返回该链接 link_local ，链接 的 title 内容 title_local.

3.2.3.4 如果 html 文档不包含 keyword ，则不返回该链接

3.2.4 对包含 keyword 的，返回的链接，进行数据清洗，具体如何清洗的见第五模块数据清洗模块，

3.2.5 对数据清洗之后的，返回的链接 link_local ，和它所对应的标题 title_local ，将其写入结果文件中 out.html, 写入内容如下：

<tr>

<td><a href=link_local>title_local</a></td>

</tr>

4 ，在结果文件 out.html 中写入

</table>

5, 关闭 out.html 。

数据清洗模块主要采用DataCleaning_Wrapper类作为总类，采用的方法是remove方法，主要步骤如下：

1，生成需要清洗的内容列表filter_list

2，对每一个属于该内容列表的filter_keyword，

2.1，将输入的文件和该列表进行匹配，

2.2，如果符合该，则将其清除

2.3，如果不符合，则无所谓

2.4，将处理之后的字符串返回。

Claims

1.个性化分布式数据挖掘系统主要是提供了一种基于Excel，Java，html的数据挖掘系统，该系统包括以下几个模块：

中央控制模块：中央控制类constructure保存系统运行的一些关键参数，

目标网站名单读取模块：采用excel表格存储目标网站列表和关键词，并且使用java语言读取信息，

结果文件生成模块：使用html格式的文件用来存储结果信息，使用html_writer_wrapper类保存写结果文件前端和后端两个方法，

目标网站抽取并写入结果文件模块：将excel表格中获得的目标网站列表和关键词列表信息，对目标网站群进行数据抽取并且按照关键词列表进行比对和过滤，将过滤之后的结果写入结果文件之中，

数据清洗模块：将抽取的数据信息进行清洗整合之后存入结果文件之中。

2.根据权利一中要求的，该系统中采用使用Excel表格保存目标网站列表，关键词列表的信息，Java语言分析并且处理，得到信息，并且采用html文件存储结果的运行模式申请保护。

3.根据权利一中要求的，采用中央控制模块申请保护，对其采用construct.xml作为配置文件，其包含excel文件存储路径，结果文件out.html存储路径信息申请保护。

4.根据权利一中要求的，对中央控制模块采用construture作为控制模块类，其getExcel_file, setExcel_file, getOutput_file, setOutput_file的方法及其内容进行保护。

5.根据权利一中要求的，对目标网站读取模块使用excel表格保存目标网站内容和关键词，excel表格分为两列，第一列是website，下面每一行都是目标网站的网址，第二列是keywords,下面每一行都是一个keyword。

6.根据权利一中要求的，对目标网站读取模块中提到的Java读取Excel表格中信息的两种方法，JPOI和JExcel, JPOI包含的get_urls_poi, get_keywords_poi, JExcel中包含的get_urls_jexcel, get_keywords_jexcel方法及其步骤。

7.根据权利六中提出的与JPOI和JExcel类似的或者衍生出来的方法，主要是用来读取Excel表格中的信息，申请保护。

8.根据权利一中要求的，结果文件生成模块采用的结果文件前端生成方法的内容，Write_Header方法及其内容。

9.根据权利一中要求的，结果文件申请模块采用的结果文件后端生成方法及其内容，Write_Bottom方法及其内容。

10.根据权利一中要求的，目标网站抽取并写入结果文件模块使用Java对目标网站群进行定向挖掘，得到了第一层链接，同时在第一层链接的基础之上，对该层链接进行第二层次搜索，将获得的内容与过滤词进行比对匹配的方法申请保护。

11.根据权利十中提到的一种数据挖掘方法的衍生方法申请保护，主要表现形式为在搜索到第一层链接的基础之上，进行第二层，第三层乃至第n层链接的进一步搜索并且将其中任何一层链接的内容和关键词进行比对并且筛选，最终获得结果的方法申请保护。

12.根据权利一中要求的，对数据清洗模块采用DataCleaning_Wrapper作为总类，对系统抽取出来的信息之后进行remove的数据清洗的方法及其内容申请保护。

13. 根据权利一中提出的，基于各个模块衍生出来的或者相似度很高的一些方法和内容，申请保护。