CN104166683B - 一种数据挖掘方法 - Google Patents

一种数据挖掘方法 Download PDF

Info

Publication number
CN104166683B
CN104166683B CN201410347539.4A CN201410347539A CN104166683B CN 104166683 B CN104166683 B CN 104166683B CN 201410347539 A CN201410347539 A CN 201410347539A CN 104166683 B CN104166683 B CN 104166683B
Authority
CN
China
Prior art keywords
data
website
collection point
periodically
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410347539.4A
Other languages
English (en)
Other versions
CN104166683A (zh
Inventor
璐惧博
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201410347539.4A priority Critical patent/CN104166683B/zh
Publication of CN104166683A publication Critical patent/CN104166683A/zh
Application granted granted Critical
Publication of CN104166683B publication Critical patent/CN104166683B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种数据挖掘方法,解决了网络信息重复程度高,冗余信息多的问题,数据挖掘速率高,查全率好,效果较为理想,其分为,定点采集:预制行业内网站作为数据源,并对每一个数据源设置可信度权值;针对数据源设置数据采集模式定期或不定期向数据源挖掘数据;自动发现:设置网络探针,自动发现相似度高的网站作为采集点网站;将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据;数据分析和存储:对挖掘到的数据进行统一编码,去除重复信息,筛选数据;对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;存储数据,并建立索引。

Description

一种数据挖掘方法
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘方法。
背景技术
当今社会已经进入信息高速传播的时代,这为人们带来方便的同时,也出现了越来越多的问题,例如,现有搜索引擎搜索结果重复性太高、不符合期望的冗余信息多、搜索时间长、效率低等。
由于目前互联网上信息转载率很高,百度、google等搜索引擎为了搜索的查全率,导致通用搜索耗时长,搜索结果重复度非常高,不利于用户快速发现有价值的内容。另外,一些行业搜索引擎,只针对行业网站,提高了搜索效率,但时查全率低,容易造成遗漏。
现在的商业竞争很大程度上决定与企业对最新信息的掌握程度,换言之企业对行业信息的更新与分析决定了企业的潜力,但是企业信息化方面基础千差万别,而且资源都相对有限,尤其是中小企业往往无力承担独立的信息搜索消耗,另一方面,企业定制的搜索引擎往往只搜索行业网站,不对对整个互联网编录,容易造成信息遗漏。
发明内容
基于背景技术存在的问题,本发明提出了一种数据挖掘方法,解决了网络信息重复程度高,冗余信息多的问题,数据挖掘速率高,查全率好,效果较为理想。
本发明提出的一种数据挖掘方法,通过定点采集和自动发现两种方式进行数据挖掘,并对挖掘到的数据进行统一的数据分析和存储;
定点采集包括:
预制行业内网站作为数据源,并对每一个数据源设置可信度权值;
针对数据源设置数据采集模式定期或不定期向数据源挖掘数据;
自动发现包括:
设置网络探针,自动发现相似度高的网站作为采集点网站;
将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;
针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据;
数据分析和存储包括:
对挖掘到的数据进行统一编码,去除重复信息,筛选数据;
对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;
存储数据,并建立索引。
优选地,行业内网站包括行业内知名网站链接、论坛、博客。
优选地,数据源可信度权值由人工设置。
优选地,采集点网站可信度权值人工设置。
优选地,采集点网站可信度权值根据网站排名或评分自动设置。
本发明即实现了针对行业内网站的重点关注,又兼顾了对整个互联网数据信息的兼顾,前者减少了数据搜索时间,提高了搜索效率,后者提高了搜索结果的查全率,本发明通过二者兼顾的方式,对搜索效率和查全率实现了一个比较理想的平衡。本发明中通过数据统一分析,有效的解决了信息重复的问题,去除冗余信息,减少数据所占空间,同时提高后续处理效率。本发明对数据进行聚类分析并建立索引,可提高数据库的利用效率。
附图说明
图1为本发明提出的一种数据挖掘方法的流程图;
图2为定点采集挖掘数据的流程图;
图3为自动发现挖掘数据的流程图;
图4为数据分析与存储流程图。
具体实施方式
参照图1,本发明提出的一种数据挖掘方法,通过定点采集和自动发现两种方式进行数据挖掘,并对挖掘到的数据进行统一的数据分析和存储。行业内网站包括行业内知名网站链接、论坛、博客等,定点采集可重点关注这些重要的网站,即关注了行业动态,由缩小了查找网站的时间。自动发现是对定点采集的补充,通过对其他非知名网站的搜索,补充数据,避免目标数据的遗漏。数据统一分析可有效去除重复信息,解决了网络数据转载频繁,信息重复的问题,同时。
参照图2,定点采集包括以下步骤:
预制行业内网站作为数据源,并对每一个数据源设置可信度权值;
针对数据源设置数据采集模式定期或不定期向数据源挖掘数据。
数据源预制,即节约了网站搜索时间,提高数据采集效率,又提高了行业针对性,使得采集数据的方向更加符合用户预期。数据源可信度权值由人工设置,可作为数据采集的参考。
参照图3,自动发现包括以下步骤:
设置网络探针,自动发现相似度高的网站作为采集点网站;
将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;
针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据。
网络探针的设置以数据源为参考,如此可限定探针发现网站的方向,缩小采集点网站的范围,减小数据挖掘范围,提高速率并减少存储空间,同时,数据源为参考也可以提高采集点网站与行业信息的相关度,减少冗余信息。
本实施方式中,采集点网站可信度权值根据网站排名或评分自动设置,考虑到网络的发达,各种网站繁杂纷乱,自动设置可减少人力需求并提高工作效率。具体实施时,采集点网站可信度权值也可人工设置,该种方式更加符合用户期望,数据采集精度更高。
参照图4数据分析和存储包括以下步骤:
对挖掘到的数据进行统一编码,去除重复信息,筛选数据;
对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;
存储数据,并建立索引。
本实施方式中,有效的解决了信息重复的问题,减少数据所占空间,同时提高后续处理效率。对数据进行聚类分析并建立索引,可提高数据库的检索效率,提高数据利用率。话题关注度的计算与标注,明确提醒用户关注重要信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种数据挖掘方法,其特征在于,通过定点采集和自动发现两种方式进行数据挖掘,并对挖掘到的数据进行统一的数据分析和存储;
定点采集包括:
预制行业内网站作为数据源,并对每一个数据源设置可信度权值;
针对数据源设置数据采集模式定期或不定期向数据源挖掘数据;
自动发现包括:
设置网络探针,自动发现相似度高的网站作为采集点网站;
将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;
针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据;
数据分析和存储包括:
对挖掘到的数据进行统一编码,去除重复信息,筛选数据;
对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;
存储数据,并建立索引。
2.如权利要求1所述的数据挖掘方法,其特征在于,行业内网站包括行业内知名网站链接、论坛、博客。
3.如权利要求1或2所述的数据挖掘方法,其特征在于,数据源可信度权值由人工设置。
4.如权利要求1或2所述的数据挖掘方法,其特征在于,采集点网站可信度权值人工设置。
5.如权利要求1或2所述的数据挖掘方法,其特征在于,采集点网站可信度权值根据网站排名或评分自动设置。
CN201410347539.4A 2014-07-21 2014-07-21 一种数据挖掘方法 Expired - Fee Related CN104166683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410347539.4A CN104166683B (zh) 2014-07-21 2014-07-21 一种数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410347539.4A CN104166683B (zh) 2014-07-21 2014-07-21 一种数据挖掘方法

Publications (2)

Publication Number Publication Date
CN104166683A CN104166683A (zh) 2014-11-26
CN104166683B true CN104166683B (zh) 2018-10-12

Family

ID=51910496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410347539.4A Expired - Fee Related CN104166683B (zh) 2014-07-21 2014-07-21 一种数据挖掘方法

Country Status (1)

Country Link
CN (1) CN104166683B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294390A (zh) * 2015-05-20 2017-01-04 上海纳鑫信息科技有限公司 一种数据挖掘分析方法及系统
CN106372078A (zh) * 2015-07-22 2017-02-01 中国科学院计算技术研究所 一种基于微博平台的事件外部信息源获取方法及系统
CN106776653A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据挖掘方法及装置
CN106897277A (zh) * 2015-12-17 2017-06-27 成都飞机工业(集团)有限责任公司 一种基于数据挖掘的生产经营数据可视化实现方法
CN107679076A (zh) * 2017-08-28 2018-02-09 国网上海市电力公司 一种电力数据的采集分析系统
CN110472131A (zh) * 2019-08-20 2019-11-19 杭州安恒信息技术股份有限公司 一种网站行业类型识别的方法、系统及设备
CN111008226A (zh) * 2019-12-24 2020-04-14 韶关学院 一种新型的数据挖掘方法
CN111125534A (zh) * 2019-12-26 2020-05-08 韶关学院 一种新颖的数据挖掘方法
CN111241187A (zh) * 2020-02-26 2020-06-05 肖莎莎 一种大数据挖掘系统
CN112115381B (zh) * 2020-09-28 2024-08-02 北京百度网讯科技有限公司 融合关系网络的构建方法、装置、电子设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6920448B2 (en) * 2001-05-09 2005-07-19 Agilent Technologies, Inc. Domain specific knowledge-based metasearch system and methods of using
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统
CN103136337B (zh) * 2013-02-01 2016-05-04 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Also Published As

Publication number Publication date
CN104166683A (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN104166683B (zh) 一种数据挖掘方法
US9064002B1 (en) Social identity clustering
CN105045901A (zh) 搜索关键词的推送方法和装置
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN104361092A (zh) 搜索方法及装置
US20160328475A1 (en) Method and system for scheduling web crawlers according to keyword search
US20200257695A1 (en) Keyword Reporting for Mobile Applications
CN104731857B (zh) 一种舆情热度的快速计算方法
JP2009048380A5 (zh)
CN102087648A (zh) 一种新闻评论页面的爬取方法及系统
CN102411617A (zh) 一种对海量url进行存储和查询方法
CN105302807A (zh) 一种获取信息类别的方法和装置
CN103729420A (zh) 微博热点追踪系统及追踪方法
CN113568940A (zh) 数据查询的方法、装置、设备以及存储介质
CN103473285A (zh) 基于位置标记的网页信息抽取方法和装置
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN103020083B (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN104699851A (zh) 一种大数据环境下业务标签的扩展方法
CN109165918A (zh) 一种社区就业平台
CN104915425B (zh) 一种文件内容的检索方法及装置
CN103853771A (zh) 一种搜索结果的推送方法及系统
CN113360895A (zh) 站群检测方法、装置及电子设备
CN102542478A (zh) 一种电子商务用户公共访问轨迹提取方法和装置
CN103034582B (zh) 定位回归用例的方法和系统
CN105117425B (zh) 选择兴趣点poi数据的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181012

Termination date: 20210721

CF01 Termination of patent right due to non-payment of annual fee