CN106445950A - 个性化分布式数据挖掘系统 - Google Patents

个性化分布式数据挖掘系统 Download PDF

Info

Publication number
CN106445950A
CN106445950A CN201510482685.2A CN201510482685A CN106445950A CN 106445950 A CN106445950 A CN 106445950A CN 201510482685 A CN201510482685 A CN 201510482685A CN 106445950 A CN106445950 A CN 106445950A
Authority
CN
China
Prior art keywords
module
file
content
targeted website
destination file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510482685.2A
Other languages
English (en)
Inventor
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510482685.2A priority Critical patent/CN106445950A/zh
Priority to PCT/CN2016/071310 priority patent/WO2017024772A1/zh
Publication of CN106445950A publication Critical patent/CN106445950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

个性化分布式数据挖掘系统提出了一种基于Excel,Java和Html的分布式个性化数据挖掘系统,包括中央控制模块,目标网站读取模块,结果文件生成模块,目标网站抽取并写入结果文件模块和数据清洗模块五个模块。中央控制模块是整个系统参数控制的核心,设置了系统运行的参数,目标网站读取模块读取了用户设置的目标网站列表和关键词等参数,并且将其传递给了目标网站抽取并写入结果文件模块,该模块对目标网站进行二层乃至多层的数据分析,并且按照关键词进行过滤,并将分析结果传递给了数据清洗模块,将数据进行清洗,并写入了结果文件。综上所述,该系统是一个采用Excel保存用户参数,使用Java进行数据挖掘和分析,并将最终结果存储在Html的文件的一个系统。

Description

个性化分布式数据挖掘系统
技术领域
本发明涉及一种个性化的分布式数据抽取系统,可以用于对互联网上网站进行个性化挖掘。
背景技术
Microsoft Office 系列已经成为大众通用的产品,用户对其有着良好的用户体验,同时html文件格式成为所有网络浏览器接受的格式,Java语言作为一种普遍的网络编程语言为大众所接受,所以本系统融合了以上三种背景技术,创造出了该个性化的数据挖掘系统。
发明内容
本发明包括五个模块 : 中央控制模块,目标网站名单读取模块,结果文件生成模块,目标网站抽取并写入结果文件模块,数据清洗模块。
中央控制模块,该模块主要是生成一个类,用于存储该系统运行的一些关键的参数,比如 Excel 文件的存储位置,结果文件的存储位置等。
目标网站名单读取模块,该模块主要是系统使用 Java excel 文件中读取需要进行抽取的目标网站的名单以及采用的过滤词。
结果文件生成模块,主要将结果页面生成一个 html 文件并且存储主要包括结果文件前端生成和结果文件后端生成两个方法。
目标网站抽取并写入结果文件模块,该模块主要是系统根据之前的目标网站的抽取情况,得到目标网站的名单列表,然后根据该列表对网站进行抽取。
数据清洗模块,主要是对抽取出来的数据进行清洗,以获得所需要的结果。
说明书附图:
图1为系统整个结构图
图2为目标网站名单读取模块结构图
图3为目标网站名单读取模块并写入结果文件模块结构图
图4为JPOI方法中get_urls_poi流程图
图5为JPOI方法中get_keyword_poi流程图
图6为JExcel方法中get_urls_jexcel流程图
图7位JExcel方法中get_keywords_jexcel流程图。
具体实施方式:
中央控制模块主要包括以下部分,控制文件 construct.xml ,控制类 Constructure
控制文件 construct.xml 主要是使用 xml 文件存储关键信息,包括 Excel 文件的存储位置和结果文件的存储位置,包括以下几个节点:
1 excel : excel 文件的路径,
2 output : 结果文件 out.html 的存放路径。
控制类 Constructure 是一个类,该类用于存储之前 Excel 文件的地址,结果文件 out.html 的存放位置,该类实例化之后包含以下几个方法:
1 getExcel_file: 取得 Excel 文件的存储位置
2 setExcel_file: 更改 Excel 文件的存储位置
3 getOutput_file :取得结果文件 out.html 的存储位置
4 setOutput_file :更改结果文件 out.html 的存储位置。
目标网站名单读取模块,表格文件 Excel 主要包含两列。
一列是 website ,主要是需要进行抽取的网站名单,都是其网址格式,比如 www.xundata.com 等等,该列的第一个名称为 website ,下面的每一行都是需要抽取的网站 url 格式,可以有许多个。
另一列,即第二列,是 keyword ,主要是系统用来进行过滤所采用的关键词,用户可以自己设定,可以是友情,爱情等,每一行都是一个新的关键词,可以有许多个。
对该 excel 文件的读取,采用的是 Java 读取 Excel API ,本系统提出了两种方法 JPOI JExcel 两种。
JPOI 方式,包含获得 urls 方式和获得 keywords 的方式。
方法名: get_urls_poi, 获得 urls 的方式:
1. 系统输入 Excel 的文件名,生成 POIFSFileSystem fs
2. 根据该 fs 生成 HSSFWorkbook wb
3. 根据 wb ,生成 HSSFSheet sheet ,取得 sheet 的物理行数, rows
4. rows 做一次循环,
4.1. sheet 中取得每一行,
4.2. 然后从该行中取得第一列的元素,
4.2.1 当其不包含 website 的关键字后,将其加入 urls
4.2.2 当其包含 website ,则不加入 urls 中。
方法名: get_keywords_poi, 获得 keywords 的方式:
1. 系统输入 Excel 的文件名,生成 POIFSFileSystem fs
2. 根据该 fs 生成 HSSFWorkbook wb
3. 根据 wb ,生成 HSSFSheet sheet ,取得 sheet 的物理行数, rows
4. rows 做一次循环,
4.1. sheet 中取得每一行,
4.2. 然后从该行中取得第二列的元素,
4.2.1 当其不包含 keyword 的关键字后,将其加入 keywords
4.2.2 当其包含 keyword ,则不加入 keywords 中。
对于 JExcel 方式,包含获得 urls keywords 的方式。
方法名: get_urls_jexcel,获得urls的方法:
1,生成 urls列表
2,使用提供的excel文件,生成实例jxl.workbook : workbook
3,使用workbook, 生成sheet
4,定义列col为0
5,取得sheet中的行数rows, 并且做一次循环
5.1,对每一行,通过sheet,取得一个实例jxl.cell : cell,其列数为0
5.2,对该cell,取得其内容content_local,
5.3,当内容不包含website字样时,将content_local加入urls列表
6,返还urls列。
方法名: get_keywords_jexcel,获得keywords的方法:
1,生成 keywords列表
2,使用提供的excel文件,生成实例jxl.workbook : workbook
3,使用workbook, 生成sheet
4,定义列col为1
5,取得sheet中的行数rows, 并且做一次循环
5.1,对每一行,通过sheet,生成一个jxl.cell : cell,其列数为1
5.2,对该cell,取得其内容content_local,
5.3,当内容不包含keyword字样时,将content_local加入urls列中
6,返还keywords列。
结果文件生成模块,主要包括结果文件前端生成方法和结果文件后端生成方法。
结果文件前端生成方法,主要是采用 Java 写入文件的 FileWriter 方法,将结果文件写成 out.html ,并且写入生成目标文件的前端,采用的方法名称为 Write_Header ,写入内容如下:
1 ,从结果文件的位置生成 FileWriter fstream
2 ,从 fstream 生成 bufferedwriter out
3 ,使用 out 写入结果文件一下内容:
< DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>The result page</title>
</head>
<body>
4 ,关闭 out
结果文件后端生成模块:该模块主要是对结果文件 out.html 的底部生成 html 文档。
主要采用名为 Write_Botton 方法,主要步骤如下:
1 ,生成 bufferedWriter out
2, 从结果文件的地址生成 FileWriter 文件流 fstream
3 ,将 fstream 放入 BufferedWriter 文件中
4 out 写入 </body>
5 out 写入 </html>
6 out 关闭。
目标网站抽取并写入结果文件模块,包括以下几个步骤:
1 ,打开之前写好的结果文件 out.html
2 ,写入 <table style="width=100%">
3 ,根据之前获得的 url 列表, urls, 对其做一个循环,
3.1 urls 中获得一个 url
3.2 针对该 url 进行一次扫描,获取其中的链接
3.2.1 针对每个获取的链接,对其进行下一层次的扫描
3.2.2 针对扫描回来的结果,抽取其中含有 html 的文档内容的那一部分
3.2.3 针对抽取的 html 文档的内容这一部分,采用循环的方式,确认其是否包含 keyword 关键词,
3.2.3.1 采用循环机制,从 keywords 中选取一个 keyword
3.2.3.2 将该 keyword 和抽取的 html 文档内容做匹配,看 html 文档内容是否包含该 keyword
3.2.3.3 如果 html 文档包含 keyword ,则返回该链接 link_local ,链接 title title_local.
3.2.3.4 如果 html 文档不包含 keyword ,则不返回该链接
3.2.4 对包含 keyword 的,返回的链接,进行数据清洗,具体如何清洗的见第五模块数据清洗模块,
3.2.5 对数据清洗之后的,返回的链接 link_local ,和它所对应的标题 title_local ,将其写入结果文件中 out.html, 写入内容如下:
<tr>
<td><a href=link_local>title_local</a></td>
</tr>
4 ,在结果文件 out.html 中写入
</table>
5, 关闭 out.html
数据清洗模块主要采用DataCleaning_Wrapper类作为总类,采用的方法是remove方法,主要步骤如下:
1,生成需要清洗的内容列表filter_list
2,对每一个属于该内容列表的filter_keyword,
2.1,将输入的文件和该列表进行匹配,
2.2,如果符合该,则将其清除
2.3,如果不符合,则无所谓
2.4,将处理之后的字符串返回。

Claims (13)

1.个性化分布式数据挖掘系统主要是提供了一种基于Excel,Java,html的数据挖掘系统,该系统包括以下几个模块:
中央控制模块:中央控制类constructure保存系统运行的一些关键参数,
目标网站名单读取模块:采用excel表格存储目标网站列表和关键词,并且使用java语言读取信息,
结果文件生成模块:使用html格式的文件用来存储结果信息,使用html_writer_wrapper类保存写结果文件前端和后端两个方法,
目标网站抽取并写入结果文件模块:将excel表格中获得的目标网站列表和关键词列表信息,对目标网站群进行数据抽取并且按照关键词列表进行比对和过滤,将过滤之后的结果写入结果文件之中,
数据清洗模块:将抽取的数据信息进行清洗整合之后存入结果文件之中。
2.根据权利一中要求的,该系统中采用使用Excel表格保存目标网站列表,关键词列表的信息,Java语言分析并且处理,得到信息,并且采用html文件存储结果的运行模式申请保护。
3.根据权利一中要求的,采用中央控制模块申请保护,对其采用construct.xml作为配置文件,其包含excel文件存储路径,结果文件out.html存储路径信息申请保护。
4.根据权利一中要求的,对中央控制模块采用construture作为控制模块类,其getExcel_file, setExcel_file, getOutput_file, setOutput_file的方法及其内容进行保护。
5.根据权利一中要求的,对目标网站读取模块使用excel表格保存目标网站内容和关键词,excel表格分为两列,第一列是website,下面每一行都是目标网站的网址,第二列是keywords,下面每一行都是一个keyword。
6.根据权利一中要求的,对目标网站读取模块中提到的Java读取Excel表格中信息的两种方法,JPOI和JExcel, JPOI包含的get_urls_poi, get_keywords_poi, JExcel中包含的get_urls_jexcel, get_keywords_jexcel方法及其步骤。
7.根据权利六中提出的与JPOI和JExcel类似的或者衍生出来的方法,主要是用来读取Excel表格中的信息,申请保护。
8.根据权利一中要求的,结果文件生成模块采用的结果文件前端生成方法的内容,Write_Header方法及其内容。
9.根据权利一中要求的,结果文件申请模块采用的结果文件后端生成方法及其内容,Write_Bottom方法及其内容。
10.根据权利一中要求的,目标网站抽取并写入结果文件模块使用Java对目标网站群进行定向挖掘,得到了第一层链接,同时在第一层链接的基础之上,对该层链接进行第二层次搜索,将获得的内容与过滤词进行比对匹配的方法申请保护。
11.根据权利十中提到的一种数据挖掘方法的衍生方法申请保护,主要表现形式为在搜索到第一层链接的基础之上,进行第二层,第三层乃至第n层链接的进一步搜索并且将其中任何一层链接的内容和关键词进行比对并且筛选,最终获得结果的方法申请保护。
12.根据权利一中要求的,对数据清洗模块采用DataCleaning_Wrapper作为总类,对系统抽取出来的信息之后进行remove的数据清洗的方法及其内容申请保护。
13. 根据权利一中提出的,基于各个模块衍生出来的或者相似度很高的一些方法和内容,申请保护。
CN201510482685.2A 2015-08-10 2015-08-10 个性化分布式数据挖掘系统 Pending CN106445950A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510482685.2A CN106445950A (zh) 2015-08-10 2015-08-10 个性化分布式数据挖掘系统
PCT/CN2016/071310 WO2017024772A1 (zh) 2015-08-10 2016-01-19 个性化分布式数据挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510482685.2A CN106445950A (zh) 2015-08-10 2015-08-10 个性化分布式数据挖掘系统

Publications (1)

Publication Number Publication Date
CN106445950A true CN106445950A (zh) 2017-02-22

Family

ID=57983445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510482685.2A Pending CN106445950A (zh) 2015-08-10 2015-08-10 个性化分布式数据挖掘系统

Country Status (2)

Country Link
CN (1) CN106445950A (zh)
WO (1) WO2017024772A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783496A (zh) * 2019-01-14 2019-05-21 东北大学 基于Excel&VBA的数据收集和处理自动化工具及使用方法
CN112925966A (zh) * 2019-12-05 2021-06-08 天津挺哥网络科技有限公司 一种新型暗网挖掘机器人的设计方法
CN112925970A (zh) * 2019-12-05 2021-06-08 天津挺哥网络科技有限公司 一种新型暗网全网挖掘机器人的设计方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656917A (zh) * 2018-12-18 2019-04-19 深圳前海微众银行股份有限公司 多数据源的数据检测方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN102567521A (zh) * 2011-12-29 2012-07-11 维构(上海)文化传媒有限公司 网页数据抓取过滤方法
CN104050281A (zh) * 2014-06-26 2014-09-17 北京思特奇信息技术股份有限公司 一种基于http协议的网页信息提取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005319A1 (en) * 2006-05-16 2008-01-03 Anderholm Eric J Monitoring computer use through a calendar interface
CN102075560A (zh) * 2010-11-19 2011-05-25 福建富士通信息软件有限公司 一种基于系统耦合的福富企业搜索引擎技术
CN102609507A (zh) * 2012-02-03 2012-07-25 浙江工业大学 基于Web的数据可视化系统
CN102663018B (zh) * 2012-03-21 2013-08-07 北京华清泰和科技有限公司 网站监控预警方法
CN104182478A (zh) * 2014-08-01 2014-12-03 北京华清泰和科技有限公司 一种网站监控预警方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN102567521A (zh) * 2011-12-29 2012-07-11 维构(上海)文化传媒有限公司 网页数据抓取过滤方法
CN104050281A (zh) * 2014-06-26 2014-09-17 北京思特奇信息技术股份有限公司 一种基于http协议的网页信息提取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783496A (zh) * 2019-01-14 2019-05-21 东北大学 基于Excel&VBA的数据收集和处理自动化工具及使用方法
CN112925966A (zh) * 2019-12-05 2021-06-08 天津挺哥网络科技有限公司 一种新型暗网挖掘机器人的设计方法
CN112925970A (zh) * 2019-12-05 2021-06-08 天津挺哥网络科技有限公司 一种新型暗网全网挖掘机器人的设计方法

Also Published As

Publication number Publication date
WO2017024772A1 (zh) 2017-02-16

Similar Documents

Publication Publication Date Title
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
Lehmberg et al. A large public corpus of web tables containing time and context metadata
CN101582075B (zh) Web信息抽取系统
Dalvi et al. Automatic wrappers for large scale web extraction
CN110175325A (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN106445950A (zh) 个性化分布式数据挖掘系统
WO2015045155A1 (ja) コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム
CN101582074B (zh) 一种DeepWeb响应页面数据抽取方法
CN105378730A (zh) 社交媒体分析与输出
Kim et al. Event diffusion patterns in social media
CN105302876A (zh) 基于正则表达式的url过滤方法
CN105095175A (zh) 获取截短的网页标题的方法及装置
Bourgonje et al. Processing document collections to automatically extract linked data: semantic storytelling technologies for smart curation workflows
CN106611029A (zh) 提高网站站内搜索效率的方法和装置
KR20170137972A (ko) 스토리텔링 저작지원 장치 및 그 방법
Vidya et al. Web mining-concepts and application
JP5423470B2 (ja) 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法
KR20100090178A (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
Snijder Words Algorithm Collection-finding closely related open access books using text mining techniques
Putra et al. BudayaKB: Extraction of cultural heritage entities from heterogeneous formats
CN106933915B (zh) 网页导航的生成方法及装置
Arends et al. Analysing user generated content related to art history
Ghitalla et al. Tarente: an experimental tool for extracting and exploring web aggregates
Vijayarani et al. Web Page Noise Removal-A Survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170222

WD01 Invention patent application deemed withdrawn after publication