CN106445950A - 个性化分布式数据挖掘系统 - Google Patents
个性化分布式数据挖掘系统 Download PDFInfo
- Publication number
- CN106445950A CN106445950A CN201510482685.2A CN201510482685A CN106445950A CN 106445950 A CN106445950 A CN 106445950A CN 201510482685 A CN201510482685 A CN 201510482685A CN 106445950 A CN106445950 A CN 106445950A
- Authority
- CN
- China
- Prior art keywords
- module
- file
- content
- targeted website
- destination file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
个性化分布式数据挖掘系统提出了一种基于Excel,Java和Html的分布式个性化数据挖掘系统,包括中央控制模块,目标网站读取模块,结果文件生成模块,目标网站抽取并写入结果文件模块和数据清洗模块五个模块。中央控制模块是整个系统参数控制的核心,设置了系统运行的参数,目标网站读取模块读取了用户设置的目标网站列表和关键词等参数,并且将其传递给了目标网站抽取并写入结果文件模块,该模块对目标网站进行二层乃至多层的数据分析,并且按照关键词进行过滤,并将分析结果传递给了数据清洗模块,将数据进行清洗,并写入了结果文件。综上所述,该系统是一个采用Excel保存用户参数,使用Java进行数据挖掘和分析,并将最终结果存储在Html的文件的一个系统。
Description
技术领域
本发明涉及一种个性化的分布式数据抽取系统,可以用于对互联网上网站进行个性化挖掘。
背景技术
Microsoft Office 系列已经成为大众通用的产品,用户对其有着良好的用户体验,同时html文件格式成为所有网络浏览器接受的格式,Java语言作为一种普遍的网络编程语言为大众所接受,所以本系统融合了以上三种背景技术,创造出了该个性化的数据挖掘系统。
发明内容
本发明包括五个模块
:
中央控制模块,目标网站名单读取模块,结果文件生成模块,目标网站抽取并写入结果文件模块,数据清洗模块。
中央控制模块,该模块主要是生成一个类,用于存储该系统运行的一些关键的参数,比如
Excel
文件的存储位置,结果文件的存储位置等。
目标网站名单读取模块,该模块主要是系统使用
Java
从
excel
文件中读取需要进行抽取的目标网站的名单以及采用的过滤词。
结果文件生成模块,主要将结果页面生成一个
html
文件并且存储主要包括结果文件前端生成和结果文件后端生成两个方法。
目标网站抽取并写入结果文件模块,该模块主要是系统根据之前的目标网站的抽取情况,得到目标网站的名单列表,然后根据该列表对网站进行抽取。
数据清洗模块,主要是对抽取出来的数据进行清洗,以获得所需要的结果。
说明书附图:
图1为系统整个结构图
图2为目标网站名单读取模块结构图
图3为目标网站名单读取模块并写入结果文件模块结构图
图4为JPOI方法中get_urls_poi流程图
图5为JPOI方法中get_keyword_poi流程图
图6为JExcel方法中get_urls_jexcel流程图
图7位JExcel方法中get_keywords_jexcel流程图。
具体实施方式:
中央控制模块主要包括以下部分,控制文件
construct.xml
,控制类
Constructure
。
控制文件
construct.xml
主要是使用
xml
文件存储关键信息,包括
Excel
文件的存储位置和结果文件的存储位置,包括以下几个节点:
1
,
excel : excel
文件的路径,
2
,
output :
结果文件
out.html
的存放路径。
控制类
Constructure
是一个类,该类用于存储之前
Excel
文件的地址,结果文件
out.html
的存放位置,该类实例化之后包含以下几个方法:
1
,
getExcel_file:
取得
Excel
文件的存储位置
2
,
setExcel_file:
更改
Excel
文件的存储位置
3
,
getOutput_file
:取得结果文件
out.html
的存储位置
4
,
setOutput_file
:更改结果文件
out.html
的存储位置。
目标网站名单读取模块,表格文件
Excel
主要包含两列。
一列是
website
,主要是需要进行抽取的网站名单,都是其网址格式,比如
www.xundata.com
等等,该列的第一个名称为
website
,下面的每一行都是需要抽取的网站
url
格式,可以有许多个。
另一列,即第二列,是
keyword
,主要是系统用来进行过滤所采用的关键词,用户可以自己设定,可以是友情,爱情等,每一行都是一个新的关键词,可以有许多个。
对该
excel
文件的读取,采用的是
Java
读取
Excel
的
API
,本系统提出了两种方法
JPOI
和
JExcel
两种。
对
JPOI
方式,包含获得
urls
方式和获得
keywords
的方式。
方法名:
get_urls_poi,
获得
urls
的方式:
1.
系统输入
Excel
的文件名,生成
POIFSFileSystem fs
,
2.
根据该
fs
生成
HSSFWorkbook wb
,
3.
根据
wb
,生成
HSSFSheet sheet
,取得
sheet
的物理行数,
rows
,
4.
对
rows
做一次循环,
4.1.
从
sheet
中取得每一行,
4.2.
然后从该行中取得第一列的元素,
4.2.1
当其不包含
website
的关键字后,将其加入
urls
中
4.2.2
当其包含
website
,则不加入
urls
中。
方法名:
get_keywords_poi,
获得
keywords
的方式:
1.
系统输入
Excel
的文件名,生成
POIFSFileSystem fs
,
2.
根据该
fs
生成
HSSFWorkbook wb
,
3.
根据
wb
,生成
HSSFSheet sheet
,取得
sheet
的物理行数,
rows
,
4.
对
rows
做一次循环,
4.1.
从
sheet
中取得每一行,
4.2.
然后从该行中取得第二列的元素,
4.2.1
当其不包含
keyword
的关键字后,将其加入
keywords
中
4.2.2
当其包含
keyword
,则不加入
keywords
中。
对于
JExcel
方式,包含获得
urls
和
keywords
的方式。
方法名: get_urls_jexcel,获得urls的方法:
1,生成 urls列表
2,使用提供的excel文件,生成实例jxl.workbook : workbook
3,使用workbook, 生成sheet
4,定义列col为0
5,取得sheet中的行数rows, 并且做一次循环
5.1,对每一行,通过sheet,取得一个实例jxl.cell : cell,其列数为0
5.2,对该cell,取得其内容content_local,
5.3,当内容不包含website字样时,将content_local加入urls列表
6,返还urls列。
方法名: get_keywords_jexcel,获得keywords的方法:
1,生成 keywords列表
2,使用提供的excel文件,生成实例jxl.workbook : workbook
3,使用workbook, 生成sheet
4,定义列col为1
5,取得sheet中的行数rows, 并且做一次循环
5.1,对每一行,通过sheet,生成一个jxl.cell : cell,其列数为1
5.2,对该cell,取得其内容content_local,
5.3,当内容不包含keyword字样时,将content_local加入urls列中
6,返还keywords列。
结果文件生成模块,主要包括结果文件前端生成方法和结果文件后端生成方法。
结果文件前端生成方法,主要是采用
Java
写入文件的
FileWriter
方法,将结果文件写成
out.html
,并且写入生成目标文件的前端,采用的方法名称为
Write_Header
,写入内容如下:
1
,从结果文件的位置生成
FileWriter fstream
2
,从
fstream
生成
bufferedwriter out
3
,使用
out
写入结果文件一下内容:
<
!
DOCTYPE html>
<html>
<head>
<meta
http-equiv="Content-Type" content="text/html;
charset=utf-8">
<title>The result
page</title>
</head>
<body>
4
,关闭
out
。
结果文件后端生成模块:该模块主要是对结果文件
out.html
的底部生成
html
文档。
主要采用名为
Write_Botton
方法,主要步骤如下:
1
,生成
bufferedWriter out
2,
从结果文件的地址生成
FileWriter
文件流
fstream
,
3
,将
fstream
放入
BufferedWriter
文件中
4
,
out
写入
</body>
5
,
out
写入
</html>
6
,
out
关闭。
目标网站抽取并写入结果文件模块,包括以下几个步骤:
1
,打开之前写好的结果文件
out.html
2
,写入
<table
style="width=100%">
3
,根据之前获得的
url
列表,
urls,
对其做一个循环,
3.1
从
urls
中获得一个
url
3.2
针对该
url
进行一次扫描,获取其中的链接
3.2.1
针对每个获取的链接,对其进行下一层次的扫描
3.2.2
针对扫描回来的结果,抽取其中含有
html
的文档内容的那一部分
3.2.3
针对抽取的
html
文档的内容这一部分,采用循环的方式,确认其是否包含
keyword
关键词,
3.2.3.1
采用循环机制,从
keywords
中选取一个
keyword
3.2.3.2
将该
keyword
和抽取的
html
文档内容做匹配,看
html
文档内容是否包含该
keyword
3.2.3.3
如果
html
文档包含
keyword
,则返回该链接
link_local
,链接
的
title
内
容
title_local.
3.2.3.4
如果
html
文档不包含
keyword
,则不返回该链接
3.2.4
对包含
keyword
的,返回的链接,进行数据清洗,具体如何清洗的见第五模块数据清洗模块,
3.2.5
对数据清洗之后的,返回的链接
link_local
,和它所对应的标题
title_local
,将其写入结果文件中
out.html,
写入内容如下:
<tr>
<td><a
href=link_local>title_local</a></td>
</tr>
4
,在结果文件
out.html
中写入
</table>
5,
关闭
out.html
。
数据清洗模块主要采用DataCleaning_Wrapper类作为总类,采用的方法是remove方法,主要步骤如下:
1,生成需要清洗的内容列表filter_list
2,对每一个属于该内容列表的filter_keyword,
2.1,将输入的文件和该列表进行匹配,
2.2,如果符合该,则将其清除
2.3,如果不符合,则无所谓
2.4,将处理之后的字符串返回。
Claims (13)
1.个性化分布式数据挖掘系统主要是提供了一种基于Excel,Java,html的数据挖掘系统,该系统包括以下几个模块:
中央控制模块:中央控制类constructure保存系统运行的一些关键参数,
目标网站名单读取模块:采用excel表格存储目标网站列表和关键词,并且使用java语言读取信息,
结果文件生成模块:使用html格式的文件用来存储结果信息,使用html_writer_wrapper类保存写结果文件前端和后端两个方法,
目标网站抽取并写入结果文件模块:将excel表格中获得的目标网站列表和关键词列表信息,对目标网站群进行数据抽取并且按照关键词列表进行比对和过滤,将过滤之后的结果写入结果文件之中,
数据清洗模块:将抽取的数据信息进行清洗整合之后存入结果文件之中。
2.根据权利一中要求的,该系统中采用使用Excel表格保存目标网站列表,关键词列表的信息,Java语言分析并且处理,得到信息,并且采用html文件存储结果的运行模式申请保护。
3.根据权利一中要求的,采用中央控制模块申请保护,对其采用construct.xml作为配置文件,其包含excel文件存储路径,结果文件out.html存储路径信息申请保护。
4.根据权利一中要求的,对中央控制模块采用construture作为控制模块类,其getExcel_file, setExcel_file, getOutput_file, setOutput_file的方法及其内容进行保护。
5.根据权利一中要求的,对目标网站读取模块使用excel表格保存目标网站内容和关键词,excel表格分为两列,第一列是website,下面每一行都是目标网站的网址,第二列是keywords,下面每一行都是一个keyword。
6.根据权利一中要求的,对目标网站读取模块中提到的Java读取Excel表格中信息的两种方法,JPOI和JExcel, JPOI包含的get_urls_poi, get_keywords_poi,
JExcel中包含的get_urls_jexcel, get_keywords_jexcel方法及其步骤。
7.根据权利六中提出的与JPOI和JExcel类似的或者衍生出来的方法,主要是用来读取Excel表格中的信息,申请保护。
8.根据权利一中要求的,结果文件生成模块采用的结果文件前端生成方法的内容,Write_Header方法及其内容。
9.根据权利一中要求的,结果文件申请模块采用的结果文件后端生成方法及其内容,Write_Bottom方法及其内容。
10.根据权利一中要求的,目标网站抽取并写入结果文件模块使用Java对目标网站群进行定向挖掘,得到了第一层链接,同时在第一层链接的基础之上,对该层链接进行第二层次搜索,将获得的内容与过滤词进行比对匹配的方法申请保护。
11.根据权利十中提到的一种数据挖掘方法的衍生方法申请保护,主要表现形式为在搜索到第一层链接的基础之上,进行第二层,第三层乃至第n层链接的进一步搜索并且将其中任何一层链接的内容和关键词进行比对并且筛选,最终获得结果的方法申请保护。
12.根据权利一中要求的,对数据清洗模块采用DataCleaning_Wrapper作为总类,对系统抽取出来的信息之后进行remove的数据清洗的方法及其内容申请保护。
13. 根据权利一中提出的,基于各个模块衍生出来的或者相似度很高的一些方法和内容,申请保护。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510482685.2A CN106445950A (zh) | 2015-08-10 | 2015-08-10 | 个性化分布式数据挖掘系统 |
PCT/CN2016/071310 WO2017024772A1 (zh) | 2015-08-10 | 2016-01-19 | 个性化分布式数据挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510482685.2A CN106445950A (zh) | 2015-08-10 | 2015-08-10 | 个性化分布式数据挖掘系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106445950A true CN106445950A (zh) | 2017-02-22 |
Family
ID=57983445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510482685.2A Pending CN106445950A (zh) | 2015-08-10 | 2015-08-10 | 个性化分布式数据挖掘系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106445950A (zh) |
WO (1) | WO2017024772A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783496A (zh) * | 2019-01-14 | 2019-05-21 | 东北大学 | 基于Excel&VBA的数据收集和处理自动化工具及使用方法 |
CN112925966A (zh) * | 2019-12-05 | 2021-06-08 | 天津挺哥网络科技有限公司 | 一种新型暗网挖掘机器人的设计方法 |
CN112925970A (zh) * | 2019-12-05 | 2021-06-08 | 天津挺哥网络科技有限公司 | 一种新型暗网全网挖掘机器人的设计方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109656917A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 多数据源的数据检测方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231661A (zh) * | 2008-02-19 | 2008-07-30 | 上海估家网络科技有限公司 | 对象级知识挖掘的方法和系统 |
CN102567521A (zh) * | 2011-12-29 | 2012-07-11 | 维构(上海)文化传媒有限公司 | 网页数据抓取过滤方法 |
CN104050281A (zh) * | 2014-06-26 | 2014-09-17 | 北京思特奇信息技术股份有限公司 | 一种基于http协议的网页信息提取方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080005319A1 (en) * | 2006-05-16 | 2008-01-03 | Anderholm Eric J | Monitoring computer use through a calendar interface |
CN102075560A (zh) * | 2010-11-19 | 2011-05-25 | 福建富士通信息软件有限公司 | 一种基于系统耦合的福富企业搜索引擎技术 |
CN102609507A (zh) * | 2012-02-03 | 2012-07-25 | 浙江工业大学 | 基于Web的数据可视化系统 |
CN102663018B (zh) * | 2012-03-21 | 2013-08-07 | 北京华清泰和科技有限公司 | 网站监控预警方法 |
CN104182478A (zh) * | 2014-08-01 | 2014-12-03 | 北京华清泰和科技有限公司 | 一种网站监控预警方法 |
-
2015
- 2015-08-10 CN CN201510482685.2A patent/CN106445950A/zh active Pending
-
2016
- 2016-01-19 WO PCT/CN2016/071310 patent/WO2017024772A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231661A (zh) * | 2008-02-19 | 2008-07-30 | 上海估家网络科技有限公司 | 对象级知识挖掘的方法和系统 |
CN102567521A (zh) * | 2011-12-29 | 2012-07-11 | 维构(上海)文化传媒有限公司 | 网页数据抓取过滤方法 |
CN104050281A (zh) * | 2014-06-26 | 2014-09-17 | 北京思特奇信息技术股份有限公司 | 一种基于http协议的网页信息提取方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783496A (zh) * | 2019-01-14 | 2019-05-21 | 东北大学 | 基于Excel&VBA的数据收集和处理自动化工具及使用方法 |
CN112925966A (zh) * | 2019-12-05 | 2021-06-08 | 天津挺哥网络科技有限公司 | 一种新型暗网挖掘机器人的设计方法 |
CN112925970A (zh) * | 2019-12-05 | 2021-06-08 | 天津挺哥网络科技有限公司 | 一种新型暗网全网挖掘机器人的设计方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017024772A1 (zh) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
Lehmberg et al. | A large public corpus of web tables containing time and context metadata | |
CN101582075B (zh) | Web信息抽取系统 | |
Dalvi et al. | Automatic wrappers for large scale web extraction | |
CN110175325A (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN102314497B (zh) | 一种用于识别标记语言文件主体内容的方法和设备 | |
CN106445950A (zh) | 个性化分布式数据挖掘系统 | |
WO2015045155A1 (ja) | コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム | |
CN101582074B (zh) | 一种DeepWeb响应页面数据抽取方法 | |
CN105378730A (zh) | 社交媒体分析与输出 | |
Kim et al. | Event diffusion patterns in social media | |
CN105302876A (zh) | 基于正则表达式的url过滤方法 | |
CN105095175A (zh) | 获取截短的网页标题的方法及装置 | |
Bourgonje et al. | Processing document collections to automatically extract linked data: semantic storytelling technologies for smart curation workflows | |
CN106611029A (zh) | 提高网站站内搜索效率的方法和装置 | |
KR20170137972A (ko) | 스토리텔링 저작지원 장치 및 그 방법 | |
Vidya et al. | Web mining-concepts and application | |
JP5423470B2 (ja) | 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法 | |
KR20100090178A (ko) | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 | |
Snijder | Words Algorithm Collection-finding closely related open access books using text mining techniques | |
Putra et al. | BudayaKB: Extraction of cultural heritage entities from heterogeneous formats | |
CN106933915B (zh) | 网页导航的生成方法及装置 | |
Arends et al. | Analysing user generated content related to art history | |
Ghitalla et al. | Tarente: an experimental tool for extracting and exploring web aggregates | |
Vijayarani et al. | Web Page Noise Removal-A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170222 |
|
WD01 | Invention patent application deemed withdrawn after publication |