CN104166683B - 一种数据挖掘方法 - Google Patents
一种数据挖掘方法 Download PDFInfo
- Publication number
- CN104166683B CN104166683B CN201410347539.4A CN201410347539A CN104166683B CN 104166683 B CN104166683 B CN 104166683B CN 201410347539 A CN201410347539 A CN 201410347539A CN 104166683 B CN104166683 B CN 104166683B
- Authority
- CN
- China
- Prior art keywords
- data
- website
- collection point
- periodically
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种数据挖掘方法,解决了网络信息重复程度高,冗余信息多的问题,数据挖掘速率高,查全率好,效果较为理想,其分为,定点采集:预制行业内网站作为数据源,并对每一个数据源设置可信度权值;针对数据源设置数据采集模式定期或不定期向数据源挖掘数据;自动发现:设置网络探针,自动发现相似度高的网站作为采集点网站;将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据;数据分析和存储:对挖掘到的数据进行统一编码,去除重复信息,筛选数据;对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;存储数据,并建立索引。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘方法。
背景技术
当今社会已经进入信息高速传播的时代,这为人们带来方便的同时,也出现了越来越多的问题,例如,现有搜索引擎搜索结果重复性太高、不符合期望的冗余信息多、搜索时间长、效率低等。
由于目前互联网上信息转载率很高,百度、google等搜索引擎为了搜索的查全率,导致通用搜索耗时长,搜索结果重复度非常高,不利于用户快速发现有价值的内容。另外,一些行业搜索引擎,只针对行业网站,提高了搜索效率,但时查全率低,容易造成遗漏。
现在的商业竞争很大程度上决定与企业对最新信息的掌握程度,换言之企业对行业信息的更新与分析决定了企业的潜力,但是企业信息化方面基础千差万别,而且资源都相对有限,尤其是中小企业往往无力承担独立的信息搜索消耗,另一方面,企业定制的搜索引擎往往只搜索行业网站,不对对整个互联网编录,容易造成信息遗漏。
发明内容
基于背景技术存在的问题,本发明提出了一种数据挖掘方法,解决了网络信息重复程度高,冗余信息多的问题,数据挖掘速率高,查全率好,效果较为理想。
本发明提出的一种数据挖掘方法,通过定点采集和自动发现两种方式进行数据挖掘,并对挖掘到的数据进行统一的数据分析和存储;
定点采集包括:
预制行业内网站作为数据源,并对每一个数据源设置可信度权值;
针对数据源设置数据采集模式定期或不定期向数据源挖掘数据;
自动发现包括:
设置网络探针,自动发现相似度高的网站作为采集点网站;
将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;
针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据;
数据分析和存储包括:
对挖掘到的数据进行统一编码,去除重复信息,筛选数据;
对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;
存储数据,并建立索引。
优选地,行业内网站包括行业内知名网站链接、论坛、博客。
优选地,数据源可信度权值由人工设置。
优选地,采集点网站可信度权值人工设置。
优选地,采集点网站可信度权值根据网站排名或评分自动设置。
本发明即实现了针对行业内网站的重点关注,又兼顾了对整个互联网数据信息的兼顾,前者减少了数据搜索时间,提高了搜索效率,后者提高了搜索结果的查全率,本发明通过二者兼顾的方式,对搜索效率和查全率实现了一个比较理想的平衡。本发明中通过数据统一分析,有效的解决了信息重复的问题,去除冗余信息,减少数据所占空间,同时提高后续处理效率。本发明对数据进行聚类分析并建立索引,可提高数据库的利用效率。
附图说明
图1为本发明提出的一种数据挖掘方法的流程图;
图2为定点采集挖掘数据的流程图;
图3为自动发现挖掘数据的流程图;
图4为数据分析与存储流程图。
具体实施方式
参照图1,本发明提出的一种数据挖掘方法,通过定点采集和自动发现两种方式进行数据挖掘,并对挖掘到的数据进行统一的数据分析和存储。行业内网站包括行业内知名网站链接、论坛、博客等,定点采集可重点关注这些重要的网站,即关注了行业动态,由缩小了查找网站的时间。自动发现是对定点采集的补充,通过对其他非知名网站的搜索,补充数据,避免目标数据的遗漏。数据统一分析可有效去除重复信息,解决了网络数据转载频繁,信息重复的问题,同时。
参照图2,定点采集包括以下步骤:
预制行业内网站作为数据源,并对每一个数据源设置可信度权值;
针对数据源设置数据采集模式定期或不定期向数据源挖掘数据。
数据源预制,即节约了网站搜索时间,提高数据采集效率,又提高了行业针对性,使得采集数据的方向更加符合用户预期。数据源可信度权值由人工设置,可作为数据采集的参考。
参照图3,自动发现包括以下步骤:
设置网络探针,自动发现相似度高的网站作为采集点网站;
将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;
针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据。
网络探针的设置以数据源为参考,如此可限定探针发现网站的方向,缩小采集点网站的范围,减小数据挖掘范围,提高速率并减少存储空间,同时,数据源为参考也可以提高采集点网站与行业信息的相关度,减少冗余信息。
本实施方式中,采集点网站可信度权值根据网站排名或评分自动设置,考虑到网络的发达,各种网站繁杂纷乱,自动设置可减少人力需求并提高工作效率。具体实施时,采集点网站可信度权值也可人工设置,该种方式更加符合用户期望,数据采集精度更高。
参照图4数据分析和存储包括以下步骤:
对挖掘到的数据进行统一编码,去除重复信息,筛选数据;
对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;
存储数据,并建立索引。
本实施方式中,有效的解决了信息重复的问题,减少数据所占空间,同时提高后续处理效率。对数据进行聚类分析并建立索引,可提高数据库的检索效率,提高数据利用率。话题关注度的计算与标注,明确提醒用户关注重要信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种数据挖掘方法,其特征在于,通过定点采集和自动发现两种方式进行数据挖掘,并对挖掘到的数据进行统一的数据分析和存储;
定点采集包括:
预制行业内网站作为数据源,并对每一个数据源设置可信度权值;
针对数据源设置数据采集模式定期或不定期向数据源挖掘数据;
自动发现包括:
设置网络探针,自动发现相似度高的网站作为采集点网站;
将采集点网站添加到采集点网站库,并对每一个采集点网站设置可信度权值;
针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据;
数据分析和存储包括:
对挖掘到的数据进行统一编码,去除重复信息,筛选数据;
对筛选后的数据进行聚类分析,计算同一话题的信息量,并标注话题关注度权重;
存储数据,并建立索引。
2.如权利要求1所述的数据挖掘方法,其特征在于,行业内网站包括行业内知名网站链接、论坛、博客。
3.如权利要求1或2所述的数据挖掘方法,其特征在于,数据源可信度权值由人工设置。
4.如权利要求1或2所述的数据挖掘方法,其特征在于,采集点网站可信度权值人工设置。
5.如权利要求1或2所述的数据挖掘方法,其特征在于,采集点网站可信度权值根据网站排名或评分自动设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410347539.4A CN104166683B (zh) | 2014-07-21 | 2014-07-21 | 一种数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410347539.4A CN104166683B (zh) | 2014-07-21 | 2014-07-21 | 一种数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104166683A CN104166683A (zh) | 2014-11-26 |
CN104166683B true CN104166683B (zh) | 2018-10-12 |
Family
ID=51910496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410347539.4A Expired - Fee Related CN104166683B (zh) | 2014-07-21 | 2014-07-21 | 一种数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104166683B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294390A (zh) * | 2015-05-20 | 2017-01-04 | 上海纳鑫信息科技有限公司 | 一种数据挖掘分析方法及系统 |
CN106372078A (zh) * | 2015-07-22 | 2017-02-01 | 中国科学院计算技术研究所 | 一种基于微博平台的事件外部信息源获取方法及系统 |
CN106776653A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据挖掘方法及装置 |
CN106897277A (zh) * | 2015-12-17 | 2017-06-27 | 成都飞机工业(集团)有限责任公司 | 一种基于数据挖掘的生产经营数据可视化实现方法 |
CN107679076A (zh) * | 2017-08-28 | 2018-02-09 | 国网上海市电力公司 | 一种电力数据的采集分析系统 |
CN110472131A (zh) * | 2019-08-20 | 2019-11-19 | 杭州安恒信息技术股份有限公司 | 一种网站行业类型识别的方法、系统及设备 |
CN111008226A (zh) * | 2019-12-24 | 2020-04-14 | 韶关学院 | 一种新型的数据挖掘方法 |
CN111125534A (zh) * | 2019-12-26 | 2020-05-08 | 韶关学院 | 一种新颖的数据挖掘方法 |
CN111241187A (zh) * | 2020-02-26 | 2020-06-05 | 肖莎莎 | 一种大数据挖掘系统 |
CN112115381B (zh) * | 2020-09-28 | 2024-08-02 | 北京百度网讯科技有限公司 | 融合关系网络的构建方法、装置、电子设备和介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6920448B2 (en) * | 2001-05-09 | 2005-07-19 | Agilent Technologies, Inc. | Domain specific knowledge-based metasearch system and methods of using |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
CN103150335A (zh) * | 2013-01-25 | 2013-06-12 | 河南理工大学 | 一种基于联合聚类的煤矿舆情监测系统 |
CN103136337B (zh) * | 2013-02-01 | 2016-05-04 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
-
2014
- 2014-07-21 CN CN201410347539.4A patent/CN104166683B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN104166683A (zh) | 2014-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104166683B (zh) | 一种数据挖掘方法 | |
US9064002B1 (en) | Social identity clustering | |
CN105045901A (zh) | 搜索关键词的推送方法和装置 | |
CN104182482B (zh) | 一种新闻列表页判断方法及筛选新闻列表页的方法 | |
CN104361092A (zh) | 搜索方法及装置 | |
US20160328475A1 (en) | Method and system for scheduling web crawlers according to keyword search | |
US20200257695A1 (en) | Keyword Reporting for Mobile Applications | |
CN104731857B (zh) | 一种舆情热度的快速计算方法 | |
JP2009048380A5 (zh) | ||
CN102087648A (zh) | 一种新闻评论页面的爬取方法及系统 | |
CN102411617A (zh) | 一种对海量url进行存储和查询方法 | |
CN105302807A (zh) | 一种获取信息类别的方法和装置 | |
CN103729420A (zh) | 微博热点追踪系统及追踪方法 | |
CN113568940A (zh) | 数据查询的方法、装置、设备以及存储介质 | |
CN103473285A (zh) | 基于位置标记的网页信息抽取方法和装置 | |
CN105528357A (zh) | 一种基于url和网页文档结构的相似性的网页内容提取方法 | |
CN103020083B (zh) | 需求识别模板的自动挖掘方法、需求识别方法及对应装置 | |
CN104699851A (zh) | 一种大数据环境下业务标签的扩展方法 | |
CN109165918A (zh) | 一种社区就业平台 | |
CN104915425B (zh) | 一种文件内容的检索方法及装置 | |
CN103853771A (zh) | 一种搜索结果的推送方法及系统 | |
CN113360895A (zh) | 站群检测方法、装置及电子设备 | |
CN102542478A (zh) | 一种电子商务用户公共访问轨迹提取方法和装置 | |
CN103034582B (zh) | 定位回归用例的方法和系统 | |
CN105117425B (zh) | 选择兴趣点poi数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181012 Termination date: 20210721 |
|
CF01 | Termination of patent right due to non-payment of annual fee |