CN107391694A - 一种数据挖掘系统和方法 - Google Patents

一种数据挖掘系统和方法 Download PDF

Info

Publication number
CN107391694A
CN107391694A CN201710619412.7A CN201710619412A CN107391694A CN 107391694 A CN107391694 A CN 107391694A CN 201710619412 A CN201710619412 A CN 201710619412A CN 107391694 A CN107391694 A CN 107391694A
Authority
CN
China
Prior art keywords
data
unit
acquisition unit
metadata
digging system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710619412.7A
Other languages
English (en)
Inventor
沈丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710619412.7A priority Critical patent/CN107391694A/zh
Publication of CN107391694A publication Critical patent/CN107391694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据挖掘系统和方法。其由数据采集单元、数据转换单元、数据整合分析单元、数据储存单元以及数据反馈单元组分,数据挖掘系统下达数据挖掘指令给数据反馈单元,数据反馈单元将数据挖掘指令下达给数据采集单元,数据采集单元开始进行数据采集,采集的数据经过数据转换单元将其转换成元数据,数据整合分析单元对元数据进行整合分析,将有用元数据传输到数据储存单元进行储存,数据整合分析单元将无效数据和重复数据信息输入数据反馈单元,数据反馈单元将无效数据和重复数据信息反馈至数据采集单元,数据采集单元对再次输入的相同数据进行甄别与过滤。本发明通过对重复数据和无效数据的甄别和过滤,有效减轻数据挖掘系统的负担。

Description

一种数据挖掘系统和方法
技术领域
本发明涉及一种数据挖掘系统和方法,属于互联网技术领域。
背景技术
随着互联网、移动互联网、社交媒体等的迅猛发展,时刻都有无数的信息充斥在各个角落,如何从这些海量的信息中获取所需的信息即数据挖掘就成为了一个亟待解决的问题。
目前的数据挖掘大多采用应用程序(Application,APP)加接口的方式,即APP对数据的组织和呈现进行要求,然后底层数据源实现接口来提供数据支撑。然而,APP不同或APP中的场景不同都会对底层数据的接口要求不同,这就需要开发无数个接口来满足上层APP的需要。而对于数据源而言,数据并没有变化,只是面向不同的APP,需重新对数据进行组织和封装。这样,现有的数据挖掘采用的是APP和数据源的紧耦合方式,使得数据挖掘的灵活性不高,并且,使得基于多数据源的数据挖掘过程比较费时费力,应用不够简便。同时由于信息时代带来的数据的量呈指数上升,如果对于所有的数据不加以甄别和过滤,会将大量重复和无效数据的引入,增加了数据挖掘系统的负担,同时对数据挖掘与分析的结果产生一定的影响。
发明内容
针对目前存在的问题,本发明提供了一种数据挖掘系统和方法,通过对重复数据和无效数据的甄别和过滤,有效减轻了数据挖掘系统的负担,避免其对数据挖掘与分析结果产生的影响。
一种数据挖掘系统,其由数据采集单元、数据转换单元、数据整合分析单元、数据储存单元以及数据反馈单元组成,其中:
所述数据采集单元,用于从对应的数据源中提取挖掘数据,并通过所述数据转换单元将所述挖掘数据提供给所述数据挖掘系统;
所述数据转换单元,用于将所述数据采集单元提取的挖掘数据经过压缩、过滤、汇总、集聚,将数据转换成元数据,然后将元数据提供给所述的数据整合分析单元;
所述数据整合分析单元,用于将所述数据转换单元提供的元数据进行整合分析,将整合分析后的有益元数据提供给所述数据储存单元,并剔除剥离整合分析后的无效元数据;
所述的数据储存单元,用于将所述数据整合分析单元经过整合分析后的有益元数据存储起来;
所述的数据反馈单元,用于将所述数据整合分析单元的整合分析结果反馈给所述数据采集单元和所述数据转换单元,使得所述数据采集单元和所述数据转换单元对无效数据和重复数据进行识别,从而使得所述数据采集单元对无效数据和重复数据不再进行采集,所述数据转换单元对无效重复数据不再进行转换而直接丢弃。
所述数据采集单元为一个或一个以上,相互之间连接成一个网状结构,采集的数据在所述的数据采集单元之间流通和共享,再将数据传输给所述数据转换单元,所述数据采集单元具有甄别和过滤功能,将所述数据反馈单元反馈的信息指令接收并执行。
所述数据转换单元具有过滤和丢弃功能,将所述数据反馈单元提供的无效数据和重复数据的信息接收,并再下次接收到同样信息时过滤并丢弃掉。
所述数据整合分析单元具有概念和类别描述、关联分析、分类与估值、聚类分析、时间序列分析、数学分析的功能,对所述数据转换单元输入的元数据按照数据挖掘系统的指令进行整合分析。
所述数据储存单元具有储存和整理功能,对所述数据整合分析单元输入的数据进行储存和整理,同时根据数据挖掘系统的指令对储存数据进行输出和分类操作。
所述数据反馈单元有传输指令和控制的功能,根据数据挖掘系统的指令对所述数据采集单元进行控制。
数据挖掘方法为,数据挖掘系统下达数据挖掘指令给数据反馈单元,所述数据反馈单元将所述数据挖掘指令下达给所述数据采集单元,所述数据采集单元开始进行数据采集,所述的采集的数据经过数据转换单元将其转换成元数据,所述数据整合分析单元对所述元数据进行整合分析,将有用元数据传输到数据储存单元进行储存。
所述的数据整合分析单元将无效数据和重复数据信息输入数据反馈单元,所述数据反馈单元将无效数据和重复数据信息反馈至数据采集单元,所述数据采集单元对再次输入的相同数据进行甄别与过滤,避免了无效数据和重复数据的再次输入。
具体运行过程如下:
在具体运行过程中,数据挖掘系统会对所需挖掘的数据种类、数据源产生一个指令,指令传输给数据反馈单元,数据反馈单元将指令下达给数据采集单元,数据采集单元为一个或一个以上,相互之间连接成一个网状结构,采集的数据在所述的数据采集单元之间流通和共享,再将数据传输给所述数据转换单元。数据采集单元具有甄别和过滤功能,能将所述数据反馈单元反馈的信息指令接收并执行。数据转换单元将数据采集单元提取的挖掘数据经过压缩、过滤、汇总、集聚,将数据转换成元数据,然后将元数据提供给所述的数据整合分析单元,其对数据转换单元提供的元数据进行整合分析,其对元数据具有概念和类别描述、关联分析、分类与估值、聚类分析、时间序列分析、数学分析的功能,对所述数据转换单元输入的元数据按照数据挖掘系统的指令进行整合分析,将整合分析后的有益元数据提供给所述数据储存单元,并剔除剥离整合分析后的无效元数据,数据储存单元具有储存和整理功能,对所述数据整合分析单元输入的数据进行储存和整理,同时能够根据数据挖掘系统的指令对储存数据进行输出和分类操作,而剥离的无效数据和重复数据信息传输到数据信息反馈单元,数据反馈单元将无效数据和重复数据信息反馈至数据采集单元,所述数据采集单元对再次输入的相同数据进行甄别与过滤,避免了无效数据和重复数据的再次输入。
本发明的有益效果是,提供了一种数据挖掘系统和方法,通过对重复数据和无效数据的甄别和过滤,有效减轻了数据挖掘系统的负担,避免其对数据挖掘与分析结果产生的影响。
附图说明
图1为数据挖掘系统的结构示意图。
具体实施方式
以下结合附图1对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种数据挖掘系统,其由数据采集单元、数据转换单元、数据整合分析单元、数据储存单元以及数据反馈单元组成,其中:
所述数据采集单元,用于从对应的数据源中提取挖掘数据,并通过所述数据转换单元将所述挖掘数据提供给所述数据挖掘系统;
所述数据转换单元,用于将所述数据采集单元提取的挖掘数据经过压缩、过滤、汇总、集聚,将数据转换成元数据,然后将元数据提供给所述的数据整合分析单元;
所述数据整合分析单元,用于将所述数据转换单元提供的元数据进行整合分析,将整合分析后的有益元数据提供给所述数据储存单元,并剔除剥离整合分析后的无效元数据;
所述的数据储存单元,用于将所述数据整合分析单元经过整合分析后的有益元数据存储起来;
所述的数据反馈单元,用于将所述数据整合分析单元的整合分析结果反馈给所述数据采集单元和所述数据转换单元,使得所述数据采集单元和所述数据转换单元对无效数据和重复数据进行识别,从而使得所述数据采集单元对无效数据和重复数据不再进行采集,所述数据转换单元对无效重复数据不再进行转换而直接丢弃。
所述数据采集单元为一个或一个以上,相互之间连接成一个网状结构,采集的数据在所述的数据采集单元之间流通和共享,再将数据传输给所述数据转换单元,所述数据采集单元具有甄别和过滤功能,将所述数据反馈单元反馈的信息指令接收并执行。
所述数据转换单元具有过滤和丢弃功能,将所述数据反馈单元提供的无效数据和重复数据的信息接收,并再下次接收到同样信息时过滤并丢弃掉。
所述数据整合分析单元具有概念和类别描述、关联分析、分类与估值、聚类分析、时间序列分析、数学分析的功能,对所述数据转换单元输入的元数据按照数据挖掘系统的指令进行整合分析。
所述数据储存单元具有储存和整理功能,对所述数据整合分析单元输入的数据进行储存和整理,同时根据数据挖掘系统的指令对储存数据进行输出和分类操作。
所述数据反馈单元有传输指令和控制的功能,根据数据挖掘系统的指令对所述数据采集单元进行控制。
数据挖掘方法,其包括:
数据挖掘系统下达数据挖掘指令给数据反馈单元,所述数据反馈单元将所述数据挖掘指令下达给所述数据采集单元,所述数据采集单元开始进行数据采集,所述的采集的数据经过数据转换单元将其转换成元数据,所述数据整合分析单元对所述元数据进行整合分析,将有用元数据传输到数据储存单元进行储存。
所述的数据整合分析单元将无效数据和重复数据信息输入数据反馈单元,所述数据反馈单元将无效数据和重复数据信息反馈至数据采集单元,所述数据采集单元对再次输入的相同数据进行甄别与过滤,避免了无效数据和重复数据的再次输入。
具体运行过程如下:
在具体运行过程中,数据挖掘系统会对所需挖掘的数据种类、数据源产生一个指令,指令传输给数据反馈单元,数据反馈单元将指令下达给数据采集单元,数据采集单元为一个或一个以上,相互之间连接成一个网状结构,采集的数据在所述的数据采集单元之间流通和共享,再将数据传输给所述数据转换单元。数据采集单元具有甄别和过滤功能,能将所述数据反馈单元反馈的信息指令接收并执行。数据转换单元将数据采集单元提取的挖掘数据经过压缩、过滤、汇总、集聚,将数据转换成元数据,然后将元数据提供给所述的数据整合分析单元,其对数据转换单元提供的元数据进行整合分析,其对元数据具有概念和类别描述、关联分析、分类与估值、聚类分析、时间序列分析、数学分析的功能,对所述数据转换单元输入的元数据按照数据挖掘系统的指令进行整合分析,将整合分析后的有益元数据提供给所述数据储存单元,并剔除剥离整合分析后的无效元数据,数据储存单元具有储存和整理功能,对所述数据整合分析单元输入的数据进行储存和整理,同时能够根据数据挖掘系统的指令对储存数据进行输出和分类操作,而剥离的无效数据和重复数据信息传输到数据信息反馈单元,数据反馈单元将无效数据和重复数据信息反馈至数据采集单元,所述数据采集单元对再次输入的相同数据进行甄别与过滤,避免了无效数据和重复数据的再次输入。
对于互联网上存在的各种数据资源而言,数据资源的重复性问题尤其严重。在互联网上经常存在重复的网页内容,即,两个或者多个URL(统一资源定位符)指向内容完全相同的网页。不同URL对应相同的网页内容是互联网上非常普遍的现象,在此将这一现象称为重复。而本挖掘系统的数据采集单元对相同内容的网页再次被输入的系统时,数据整合和分析单元会将重复的网页信息传输到数据信息反馈单元,数据反馈单元将重复的网页信息反馈至数据采集单元,数据采集单元对再次输入的相同内容的网页进行甄别与过滤,避免了无效数据和重复数据的再次输入。因为相同网页的重复对于搜索引擎来说是无价值的。对于搜索引擎而言,收录多个相同资源将带来抓取、存储资源的浪费;只需收录重复资源其中的一个即可。而本挖掘系统能够有效的去除重复,减轻了搜索引擎的存储负担,提高了运行效率,并可大大提高搜索结果的准确性。

Claims (8)

1.一种数据挖掘系统,其特征在于,由数据采集单元、数据转换单元、数据整合分析单元、数据储存单元以及数据反馈单元组成,其中:
所述数据采集单元,用于从对应的数据源中提取挖掘数据,并通过所述数据转换单元将所述挖掘数据提供给所述数据挖掘系统;
所述数据转换单元,用于将所述数据采集单元提取的挖掘数据经过压缩、过滤、汇总、集聚,将数据转换成元数据,然后将元数据提供给所述的数据整合分析单元;
所述数据整合分析单元,用于将所述数据转换单元提供的元数据进行整合分析,将整合分析后的有益元数据提供给所述数据储存单元,并剔除剥离整合分析后的无效元数据;
所述的数据储存单元,用于将所述数据整合分析单元经过整合分析后的有益元数据存储起来;
所述的数据反馈单元,用于将所述数据整合分析单元的整合分析结果反馈给所述数据采集单元和所述数据转换单元,使得所述数据采集单元和所述数据转换单元对无效数据和重复数据进行识别,从而使得所述数据采集单元对无效数据和重复数据不再进行采集,所述数据转换单元对无效重复数据不再进行转换而直接丢弃。
2.如权利要求1所述的一种数据挖掘系统,其特征在于,所述数据采集单元为一个或一个以上,相互之间连接成一个网状结构,采集的数据在所述的数据采集单元之间流通和共享,再将数据传输给所述数据转换单元,所述数据采集单元具有甄别和过滤功能,将所述数据反馈单元反馈的信息指令接收并执行。
3.如权利要求1所述的一种数据挖掘系统,其特征在于,所述数据转换单元具有过滤和丢弃功能,将所述数据反馈单元提供的无效数据和重复数据的信息接收,并再下次接收到同样信息时过滤并丢弃掉。
4.如权利要求1所述的一种数据挖掘系统,其特征在于,所述数据整合分析单元具有概念和类别描述、关联分析、分类与估值、聚类分析、时间序列分析、数学分析的功能,对所述数据转换单元输入的元数据按照数据挖掘系统的指令进行整合分析。
5.如权利要求1所述的一种数据挖掘系统,其特征在于,所述数据储存单元具有储存和整理功能,对所述数据整合分析单元输入的数据进行储存和整理,同时根据数据挖掘系统的指令对储存数据进行输出和分类操作。
6.如权利要求1所述的一种数据挖掘系统,其特征在于,所述数据反馈单元有传输指令和控制的功能,根据数据挖掘系统的指令对所述数据采集单元进行控制。
7.如权利要求1所述的一种数据挖掘方法,其特征在于,数据挖掘系统下达数据挖掘指令给数据反馈单元,所述数据反馈单元将所述数据挖掘指令下达给所述数据采集单元,所述数据采集单元开始进行数据采集,所述的采集的数据经过数据转换单元将其转换成元数据,所述数据整合分析单元对所述元数据进行整合分析,将有用元数据传输到数据储存单元进行储存。
8.如权利要求7所述的一种数据挖掘方法,其特征在于,所述的数据整合分析单元将无效数据和重复数据信息输入数据反馈单元,所述数据反馈单元将无效数据和重复数据信息反馈至数据采集单元,所述数据采集单元对再次输入的相同数据进行甄别与过滤,避免了无效数据和重复数据的再次输入。
CN201710619412.7A 2017-07-26 2017-07-26 一种数据挖掘系统和方法 Pending CN107391694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710619412.7A CN107391694A (zh) 2017-07-26 2017-07-26 一种数据挖掘系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710619412.7A CN107391694A (zh) 2017-07-26 2017-07-26 一种数据挖掘系统和方法

Publications (1)

Publication Number Publication Date
CN107391694A true CN107391694A (zh) 2017-11-24

Family

ID=60342510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710619412.7A Pending CN107391694A (zh) 2017-07-26 2017-07-26 一种数据挖掘系统和方法

Country Status (1)

Country Link
CN (1) CN107391694A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035853A (zh) * 2018-08-16 2018-12-18 安徽超清科技股份有限公司 基于视频结构化的城市泊车诱导系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150762A (zh) * 2007-11-06 2008-03-26 中国移动通信集团江苏有限公司 一种垃圾短信实时拦截的方法与系统
US20080162399A1 (en) * 2006-12-31 2008-07-03 Think Passenger, Inc. Consumer marketing platform
CN101610459A (zh) * 2008-06-18 2009-12-23 中兴通讯股份有限公司 彩信内容自动采集系统和方法
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN103106401A (zh) * 2013-02-06 2013-05-15 北京中科虹霸科技有限公司 具有人机交互机制的移动终端虹膜识别装置和方法
CN107315776A (zh) * 2017-05-27 2017-11-03 国网安徽省电力公司信息通信分公司 一种基于云计算的数据管理系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162399A1 (en) * 2006-12-31 2008-07-03 Think Passenger, Inc. Consumer marketing platform
CN101150762A (zh) * 2007-11-06 2008-03-26 中国移动通信集团江苏有限公司 一种垃圾短信实时拦截的方法与系统
CN101610459A (zh) * 2008-06-18 2009-12-23 中兴通讯股份有限公司 彩信内容自动采集系统和方法
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN103106401A (zh) * 2013-02-06 2013-05-15 北京中科虹霸科技有限公司 具有人机交互机制的移动终端虹膜识别装置和方法
CN107315776A (zh) * 2017-05-27 2017-11-03 国网安徽省电力公司信息通信分公司 一种基于云计算的数据管理系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035853A (zh) * 2018-08-16 2018-12-18 安徽超清科技股份有限公司 基于视频结构化的城市泊车诱导系统

Similar Documents

Publication Publication Date Title
Shafiq et al. Virtual engineering factory: Creating experience base for industry 4.0
CN105160023B (zh) 基于云服务器的图形化数据查询处理方法
CN107766371A (zh) 一种文本信息分类方法及其装置
CN107609960A (zh) 推荐理由生成方法及装置
CN105389402A (zh) 一种面向大数据的etl方法和装置
CN103186560B (zh) 一种数据排序方法以及相关装置
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN103218692A (zh) 基于活动间依赖关系分析的工作流挖掘方法
CN103927400A (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
Tian et al. An exploratory study on software microblogger behaviors
CN107391694A (zh) 一种数据挖掘系统和方法
CN104794241A (zh) 一种基于情绪倾向性的新闻分类方法及系统
CN102945113A (zh) 通过输入法对字符进行替换的方法及客户端
CN109543093A (zh) 一种一体化智能情报助手平台
CN105373043B (zh) 监测控制器的方法及系统
CN106557519A (zh) 文件删除方法和装置
CN104536968B (zh) 一种用于优化搜索结果的方法和装置
CN102968459A (zh) 网址处理方法及装置
Huber et al. Making innovation happen: Tool-support for software related communities for innovations
Thompson Natural selection, coevolution, and the web of life
Blunt et al. Using data analytics and machine learning to assess NATO’s information environment
KR20160089198A (ko) 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법
Rodrigues et al. RetweetPatterns: detection of spatio-temporal patterns of retweets
CN105786852A (zh) 搜索结果整合方法和装置
Kaur et al. Towards Visualization Recommendation-A Semi-Automated Domain-Specific Learning Approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171124