CN105354208A - 一种大数据信息挖掘方法 - Google Patents

一种大数据信息挖掘方法 Download PDF

Info

Publication number
CN105354208A
CN105354208A CN201510611191.XA CN201510611191A CN105354208A CN 105354208 A CN105354208 A CN 105354208A CN 201510611191 A CN201510611191 A CN 201510611191A CN 105354208 A CN105354208 A CN 105354208A
Authority
CN
China
Prior art keywords
data
described step
cluster
digging
assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510611191.XA
Other languages
English (en)
Inventor
瞿亚军
卞长存
刘通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xunhu Information Technology Co Ltd
Original Assignee
Jiangsu Xunhu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Xunhu Information Technology Co Ltd filed Critical Jiangsu Xunhu Information Technology Co Ltd
Priority to CN201510611191.XA priority Critical patent/CN105354208A/zh
Publication of CN105354208A publication Critical patent/CN105354208A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大数据信息挖掘方法,其包括以下步骤:建立输入的数据集;对数据进行筛选;数据预处理;对信息数据进行预挖掘;挖掘评估;评估判断和信息数据显示,本发明利用可视化技术或其它本发明采用聚类算法,数据挖掘快速、信息可靠,通过设置数据筛选、数据预处理、挖掘评估和评估判断,能够有效的提高大数据挖掘的可靠性与安全性,本发明的方法能够在大数据的环境下,快速、高效的执行,同时,对大数据的挖掘也便于管理与维护。

Description

一种大数据信息挖掘方法
技术领域
本发明涉及大数据技术领域,具体为一种大数据信息挖掘方法。
背景技术
数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域。从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。
大数据是体量巨大、多种多样、高速变化、真实质差的复杂数据集合,已经难以用现有的数据工具管理利用,在这些数据中,空间数据占了绝大多数,大约80%的数据与空间位置有关,空间数据是人们通过信息世界认识现实世界的基础数据和智慧源泉,大数据与应用密切相关,空间数据挖掘为其主要应用。
对于大数据来说,分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法。目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。其中,聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类。这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律,聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法,硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类.模糊聚类就是根据隶属度的取值范围的大小差异来划分类.一个样本可能属于多个类.常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。
20世纪90年代中后期,数据挖掘领域的一些较成熟的技术,如关联规则挖掘、分类预测与聚类等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间或空间相关的有价值的模式。近年来数据挖掘研究又有拓展,已渗透到时空数据、智能交通、生物信息、医疗卫生、金融证券、多媒体数据挖掘、文本数据挖掘、Web数据、社交网络、图数据、轨迹数据及大数据等各个领域,这些领域对数据挖掘的理论与技术提出了新的挑战,是当前数据挖掘研究的重点与难点。
基于以上技术问题,本发明提供了一种大数据信息挖掘方法,采用聚类算法,数据挖掘快速、信息可靠,通过设置数据筛选、数据预处理、挖掘评估和评估判断,能够有效的提高大数据挖掘的可靠性与安全性,本发明的方法能够在大数据的环境下,快速、高效的执行,同时,对大数据的挖掘也便于管理与维护。
发明内容
本发明的目的是提供一种结构和使用简单、合理,算法简单,性能稳定的一种大数据信息挖掘方法。
为实现上述目的,本发明采用如下技术方案:一种大数据信息挖掘方法,其特征在于,其包括以下步骤:
(1)建立输入的数据集;
(2)对数据进行筛选:将数据集中的干扰数据筛除掉,选择出与挖掘目标相关的数据,组成新的数据集;
(3)数据预处理:通过聚类算法,对数据进行预处理;
(4)对信息数据进行预挖掘:对所述步骤(3)中预处理后的数据进行预挖掘,从而在预处理的数据集中进行知识发现;
(5)挖掘评估:对预挖掘的数据进行评估,得到其代表的知识模式;
(6)评估判断:如果岁挖掘的数据评估合格,则进入步骤(7),如果不合格,则转至所述步骤(2);
(7)信息数据显示:利用可视化技术或其它显示技术将挖掘到的信息数据直观显示给用户。
进一步,作为优选,所述步骤(1)中,建立输入的数据集的格式为:Di={e1,e2,…,en},其中,n为大于等于3的自然数;聚簇的个数为k;所述步骤(3)中数据预处理的具体步骤为:首先计算聚类中心点Cij及相应的对象个数mij,其中,i=1,2,…,n,j=1,2,…,k;Cij的计算公式为:
C i j = Σ i = 1 , j = 1 i = n , j = n ( C i j × m i j ) / Σ i = 1 , j = 1 i = n , j = n m i j ;
然后,中心站点随机产生k个初始聚簇中心,并发送到从站点Si(i=1,2,…,n);之后计算直到每个聚类不再发生变化;
所述步骤(4)中,对信息数据进行预挖掘的具体步骤为:
用AP算法对聚类先不发生变化的聚簇中心数据点进行聚类,得到初始模型,当出现某一个新的点到达时,找出与该点的距离最近的聚簇中心点,并利用欧式距离公式计算出之间的距离d,如果若d小于阈值ε,则更新初始的模型,如果d大于阈值ε,则将该点暂时放入暂存盒,如果重新达到聚类标准,则重新建立初始模型,之后清空暂存盒,其中,更新初始的模型的方法为将现有的初始模型中的中心点和暂存盒中的点用加权算法进行聚类,得到更新初始的模型。
进一步,作为优选,所述挖掘评估(5)的具体步骤为:
首先将用户聚类分成C类,在每一类用户中找出一个点代表此类用户对每个项目的评分,具体表示为C1(Ri1,Ri2……Rin),对于待预测的评分,先利用相似度计算当前用户与哪类用户最接近,再在类中求出最近邻,根据最近邻的评价值而做出预测。
进一步,作为优选,所述步骤(6)与所述步骤(7)之间还设置有同态加密步骤,在所述步骤(7)中,还设置有解密步骤。
进一步,作为优选,所述步骤(7)之后还包括大数据存储步骤,其中,大数据存储步骤是将可视化技术或其它显示技术显示的挖掘到的信息数据存储到存储模块中,其中存储模块的存储模式采用数据信息属性和数据信息内容分别各自单独存储的方式。
进一步,作为优选,所述步骤(6)评估判断的具体子步骤为:
(1)选取合适的随机数,利用随机数选择方法,设置变量的初始值:X0=random(N),y0=random(M),并设置目标函数F(x,y,z);
(2)设定两个合适的正数μ,Φ,其中,μ为迭代步长,Φ为终止条件阈值;
(3)求出当前位置的负值梯度 - ▿ F ( x , y , z ) = ( - ∂ F ∂ x , ∂ F ∂ y , ∂ F ∂ z ) ;
(4)利用迭代法更新变量: X n + i = X n - μ ∂ F ∂ x , Y n + i = Y n - μ ∂ F ∂ y , Z n + i = Z n - P ∂ F ∂ z ;
(5)重复步骤(3)-(4),直至目标函数变化量小于Φ,此时的目标函数值即为所述步骤(6)评估判断的得分值。
进一步,作为优选,所述步骤(2)中对数据进行筛选的方法是先采用最优值填充方法对数据进行清理,然后根据数据的相关性对数据信息进行数据集成,之后采用最小-最大规范化法对数据进行规范,最后采用数据分层抽样的方式对规范的数据进行筛选。
本发明的有益效果在于:
本发明提供的一种大数据信息挖掘方法,采用聚类算法,数据挖掘快速、信息可靠,通过设置数据筛选、数据预处理、挖掘评估和评估判断,能够有效的提高大数据挖掘的可靠性与安全性,本发明的方法能够在大数据的环境下,快速、高效的执行,同时,对大数据的挖掘也便于管理与维护。
附图说明
图1是本发明的一种大数据信息挖掘方法的流程结构示意图;
具体实施方式
以下结合附图来对本发明进行详细的描绘。然而应当理解,附图的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。
如图1所示,本发明提供一种大数据信息挖掘方法,其特征在于,其包括以下步骤:
(1)建立输入的数据集;
(2)对数据进行筛选:将数据集中的干扰数据筛除掉,选择出与挖掘目标相关的数据,组成新的数据集;
(3)数据预处理:通过聚类算法,对数据进行预处理;
(4)对信息数据进行预挖掘:对所述步骤(3)中预处理后的数据进行预挖掘,从而在预处理的数据集中进行知识发现;
(5)挖掘评估:对预挖掘的数据进行评估,得到其代表的知识模式;
(6)评估判断:如果岁挖掘的数据评估合格,则进入步骤(7),如果不合格,则转至所述步骤(2);
(7)信息数据显示:利用可视化技术或其它显示技术将挖掘到的信息数据直观显示给用户。
在本实施例中,所述步骤(1)中,建立输入的数据集的格式为:Di={e1,e2,…,en},其中,n为大于等于3的自然数;聚簇的个数为k;所述步骤(3)中数据预处理的具体步骤为:首先计算聚类中心点Cij及相应的对象个数mij,其中,i=1,2,…,n,j=1,2,…,k;Cij的计算公式为:
C i j = Σ i = 1 , j = 1 i = n , j = n ( C i j × m i j ) / Σ i = 1 , j = 1 i = n , j = n m i j ;
然后,中心站点随机产生k个初始聚簇中心,并发送到从站点Si(i=1,2,…,n);之后计算直到每个聚类不再发生变化;
所述步骤(4)中,对信息数据进行预挖掘的具体步骤为:
用AP算法对聚类先不发生变化的聚簇中心数据点进行聚类,得到初始模型,当出现某一个新的点到达时,找出与该点的距离最近的聚簇中心点,并利用欧式距离公式计算出之间的距离d,如果若d小于阈值ε,则更新初始的模型,如果d大于阈值ε,则将该点暂时放入暂存盒,如果重新达到聚类标准,则重新建立初始模型,之后清空暂存盒,其中,更新初始的模型的方法为将现有的初始模型中的中心点和暂存盒中的点用加权算法进行聚类,得到更新初始的模型。
同时,在本实施例中,所述挖掘评估(5)的具体步骤为:
首先将用户聚类分成C类,在每一类用户中找出一个点代表此类用户对每个项目的评分,具体表示为C1(Ri1,Ri2……Rin),对于待预测的评分,先利用相似度计算当前用户与哪类用户最接近,再在类中求出最近邻,根据最近邻的评价值而做出预测。
进一步,作为优选,所述步骤(6)与所述步骤(7)之间还设置有同态加密步骤,在所述步骤(7)中,还设置有解密步骤。
进一步,作为优选,所述步骤(7)之后还包括大数据存储步骤,其中,大数据存储步骤是将可视化技术或其它显示技术显示的挖掘到的信息数据存储到存储模块中,其中存储模块的存储模式采用数据信息属性和数据信息内容分别各自单独存储的方式。
此外,所述步骤(6)评估判断的具体子步骤为:
(1)选取合适的随机数,利用随机数选择方法,设置变量的初始值:X0=random(N),y0=random(M),并设置目标函数F(x,y,z);
(2)设定两个合适的正数μ,Φ,其中,μ为迭代步长,Φ为终止条件阈值;
(3)求出当前位置的负值梯度 - ▿ F ( x , y , z ) = ( - ∂ F ∂ x , ∂ F ∂ y , ∂ F ∂ z ) ;
(4)利用迭代法更新变量: X n + i = X n - μ ∂ F ∂ x , Y n + i = Y n - μ ∂ F ∂ y , Z n + i = Z n - μ ∂ F ∂ z ;
(5)重复步骤(3)-(4),直至目标函数变化量小于Φ,此时的目标函数值即为所述步骤(6)评估判断的得分值。
另外,所述步骤(2)中对数据进行筛选的方法是先采用最优值填充方法对数据进行清理,然后根据数据的相关性对数据信息进行数据集成,之后采用最小-最大规范化法对数据进行规范,最后采用数据分层抽样的方式对规范的数据进行筛选。
本发明采用聚类算法,数据挖掘快速、信息可靠,通过设置数据筛选、数据预处理、挖掘评估和评估判断,能够有效的提高大数据挖掘的可靠性与安全性,本发明的方法能够在大数据的环境下,快速、高效的执行,同时,对大数据的挖掘也便于管理与维护。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (7)

1.一种大数据信息挖掘方法,其特征在于,其包括以下步骤:
(1)建立输入的数据集;
(2)对数据进行筛选:将数据集中的干扰数据筛除掉,选择出与挖掘目标相关的数据,组成新的数据集;
(3)数据预处理:通过聚类算法,对数据进行预处理;
(4)对信息数据进行预挖掘:对所述步骤(3)中预处理后的数据进行预挖掘,从而在预处理的数据集中进行知识发现;
(5)挖掘评估:对预挖掘的数据进行评估,得到其代表的知识模式;
(6)评估判断:如果岁挖掘的数据评估合格,则进入步骤(7),如果不合格,则转至所述步骤(2);
(7)信息数据显示:利用可视化技术或其它显示技术将挖掘到的信息数据直观显示给用户。
2.根据权利要求1所述的一种大数据信息挖掘方法,其特征在于,所述步骤(1)中,建立输入的数据集的格式为:Di={e1,e2,…,en),其中,n为大于等于3的自然数;聚簇的个数为k;所述步骤(3)中数据预处理的具体步骤为:首先计算聚类中心点Cij及相应的对象个数mij,其中,i=1,2,…,n,j=1,2,…,k;Cij的计算公式为:
C i j = Σ i = 1 , j = 1 i = n , j = n ( C i j × m i j ) / Σ i = 1 , j = 1 i = n , j = n m i j ;
然后,中心站点随机产生k个初始聚簇中心,并发送到从站点Si(i=1,2,…,n);之后计算直到每个聚类不再发生变化;
所述步骤(4)中,对信息数据进行预挖掘的具体步骤为:
用AP算法对聚类先不发生变化的聚簇中心数据点进行聚类,得到初始模型,当出现某一个新的点到达时,找出与该点的距离最近的聚簇中心点,并利用欧式距离公式计算出之间的距离d,如果若d小于阈值ε,则更新初始的模型,如果d大于阈值ε,则将该点暂时放入暂存盒,如果重新达到聚类标准,则重新建立初始模型,之后清空暂存盒,其中,更新初始的模型的方法为将现有的初始模型中的中心点和暂存盒中的点用加权算法进行聚类,得到更新初始的模型。
3.根据权利要求2所述的一种大数据信息挖掘方法,其特征在于,所述挖掘评估(5)的具体步骤为:
首先将用户聚类分成C类,在每一类用户中找出一个点代表此类用户对每个项目的评分,具体表示为C1(Ri1,Ri2……R1n),对于待预测的评分,先利用相似度计算当前用户与哪类用户最接近,再在类中求出最近邻,根据最近邻的评价值而做出预测。
4.根据权利要求1所述的一种大数据信息挖掘方法,其特征在于,所述步骤(6)与所述步骤(7)之间还设置有同态加密步骤,在所述步骤(7)中,还设置有解密步骤。
5.根据权利要求1所述的一种大数据信息挖掘方法,其特征在于,所述步骤(7)之后还包括大数据存储步骤,其中,大数据存储步骤是将可视化技术或其它显示技术显示的挖掘到的信息数据存储到存储模块中,其中存储模块的存储模式采用数据信息属性和数据信息内容分别各自单独存储的方式。
6.根据权利要求1所述的一种大数据信息挖掘方法,其特征在于,所述步骤(6)评估判断的具体子步骤为:
(1)选取合适的随机数,利用随机数选择方法,设置变量的初始值:X0=random(N),y0=random(M),并设置目标函数F(x,y,z);
(2)设定两个合适的正数μ,Φ,其中,μ为迭代步长,Φ为终止条件阈值;
(3)求出当前位置的负值梯度 - ▿ F ( x , y , z ) = ( - ∂ F ∂ x , ∂ F Q y , ∂ F ∂ z ) ;
(4)利用迭代法更新变量: X n + i = X n - μ ∂ F ∂ x , Y n + i = Y n - μ ∂ F ∂ y , Z n + i = Z n - μ ∂ F ∂ z ;
(5)重复步骤(3)-(4),直至目标函数变化量小于Φ,此时的目标函数值即为所述步骤(6)评估判断的得分值。
7.根据权利要求1所述的一种大数据信息挖掘方法,其特征在于,所述步骤(2)中对数据进行筛选的方法是先采用最优值填充方法对数据进行清理,然后根据数据的相关性对数据信息进行数据集成,之后采用最小-最大规范化法对数据进行规范,最后采用数据分层抽样的方式对规范的数据进行筛选。
CN201510611191.XA 2015-09-21 2015-09-21 一种大数据信息挖掘方法 Pending CN105354208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510611191.XA CN105354208A (zh) 2015-09-21 2015-09-21 一种大数据信息挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510611191.XA CN105354208A (zh) 2015-09-21 2015-09-21 一种大数据信息挖掘方法

Publications (1)

Publication Number Publication Date
CN105354208A true CN105354208A (zh) 2016-02-24

Family

ID=55330181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510611191.XA Pending CN105354208A (zh) 2015-09-21 2015-09-21 一种大数据信息挖掘方法

Country Status (1)

Country Link
CN (1) CN105354208A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975544A (zh) * 2016-04-28 2016-09-28 天津贝德曼科技有限公司 一类大数据挖掘的“特质技法库”构造技术
CN107733859A (zh) * 2017-09-03 2018-02-23 中国南方电网有限责任公司 一种基于大数据的网络安全分析系统及其分析方法
CN107766316A (zh) * 2016-08-15 2018-03-06 株式会社理光 评价数据的分析方法、装置及系统
CN108873401A (zh) * 2018-06-22 2018-11-23 西安电子科技大学 基于大数据的液晶显示器响应时间预测方法
CN109522300A (zh) * 2018-10-24 2019-03-26 南京邮电大学 有效数据筛选装置
CN110223104A (zh) * 2019-05-11 2019-09-10 浙江华坤道威数据科技有限公司 一种基于大数据的客户模型构建系统
CN110287314A (zh) * 2019-05-20 2019-09-27 中国科学院计算技术研究所 基于无监督聚类的长文本可信度评估方法及系统
CN112527889A (zh) * 2020-12-25 2021-03-19 贵州树精英教育科技有限责任公司 精准学习数据挖掘
CN114996331A (zh) * 2022-06-10 2022-09-02 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685458A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 一种基于协同过滤的推荐方法和系统
CN103886003A (zh) * 2013-09-22 2014-06-25 天津思博科科技发展有限公司 一种协同过滤处理器
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN104850868A (zh) * 2015-06-12 2015-08-19 四川友联信息技术有限公司 一种基于k-means和神经网络聚类的客户细分方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685458A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 一种基于协同过滤的推荐方法和系统
CN103886003A (zh) * 2013-09-22 2014-06-25 天津思博科科技发展有限公司 一种协同过滤处理器
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN104850868A (zh) * 2015-06-12 2015-08-19 四川友联信息技术有限公司 一种基于k-means和神经网络聚类的客户细分方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIANGLIANG ZHANG, CYRIL FURTLEHNER, MICH`ELE SEBAG: "Data Streaming with Affinity Propagation", 《EUROPEAN CONFERENCE ON MACHINE LEARNING AND PRINCIPLES AND PRACTICE OF KNOWLEDGE DISCOVERY IN DATABASES》 *
刘希伟: "基于协同过滤的大数据挖掘分析方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
刘英华: "分布式聚类算法的隐私保护研究", 《计算机科学》 *
卢小宾: "《信息分析》", 29 February 2008 *
成桂兰,刘旭东,陈德人: "基于混合聚类的个性化推荐算法", 《武汉理工大学学报(信息与管理工程版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975544A (zh) * 2016-04-28 2016-09-28 天津贝德曼科技有限公司 一类大数据挖掘的“特质技法库”构造技术
CN107766316A (zh) * 2016-08-15 2018-03-06 株式会社理光 评价数据的分析方法、装置及系统
CN107733859A (zh) * 2017-09-03 2018-02-23 中国南方电网有限责任公司 一种基于大数据的网络安全分析系统及其分析方法
CN108873401A (zh) * 2018-06-22 2018-11-23 西安电子科技大学 基于大数据的液晶显示器响应时间预测方法
CN108873401B (zh) * 2018-06-22 2020-10-09 西安电子科技大学 基于大数据的液晶显示器响应时间预测方法
CN109522300A (zh) * 2018-10-24 2019-03-26 南京邮电大学 有效数据筛选装置
CN109522300B (zh) * 2018-10-24 2021-09-28 南京邮电大学 有效数据筛选装置
CN110223104A (zh) * 2019-05-11 2019-09-10 浙江华坤道威数据科技有限公司 一种基于大数据的客户模型构建系统
CN110287314A (zh) * 2019-05-20 2019-09-27 中国科学院计算技术研究所 基于无监督聚类的长文本可信度评估方法及系统
CN110287314B (zh) * 2019-05-20 2021-08-06 中国科学院计算技术研究所 基于无监督聚类的长文本可信度评估方法及系统
CN112527889A (zh) * 2020-12-25 2021-03-19 贵州树精英教育科技有限责任公司 精准学习数据挖掘
CN114996331A (zh) * 2022-06-10 2022-09-02 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统

Similar Documents

Publication Publication Date Title
CN105354208A (zh) 一种大数据信息挖掘方法
McGovern et al. Identifying predictive multi-dimensional time series motifs: an application to severe weather prediction
Goh et al. Evaluating stability of underground entry-type excavations using multivariate adaptive regression splines and logistic regression
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
Gong et al. Novel heuristic density-based method for community detection in networks
Lin et al. A frequent itemset mining algorithm based on the Principle of Inclusion–Exclusion and transaction mapping
CN105912773A (zh) 一种新的基于数据挖掘技术的智能冲压工艺设计方法
CN104598766A (zh) 面向油气储层综合评价的空间案例推理方法
CN103957116A (zh) 一种云故障数据的决策方法及系统
CN113779880A (zh) 一种基于超前钻探数据的隧道围岩二维质量评价方法
Wang et al. Design of the Sports Training Decision Support System Based on the Improved Association Rule, the Apriori Algorithm.
Cao et al. Spatial data discretization methods for geocomputation
Lei et al. Mining spatial co-location patterns by the fuzzy technology
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
Prakash et al. Mining frequent itemsets from large data sets using genetic algorithms
CN104102716A (zh) 基于聚类分层抽样补偿逻辑回归的失衡数据预测方法
Olatunji et al. Modeling permeability prediction using extreme learning machines
El Wakil et al. Data management for construction processes using fuzzy approach
CN115858801A (zh) 基于空间知识地图的煤矿安全知识图谱构建方法及装置
Gupta et al. Decision support system for business intelligence using data mining techniques: A case study
Nasiri et al. Implementation of agricultural ecological capability model using integrated approach of PROMETHEE II and fuzzy-AHP in GIS environment (Case Study: Marvdasht county)
Schumacher CSU Mobile Radiosonde Data. Version 1.0
CN109523143B (zh) 一种基于多粒度计算的土地评价方法
Cao Design and optimization of a decision support system for sports training based on data mining technology
Cao et al. Study on inferring interwell connectivity of injection-production system based on decision tree

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: JIANGSU XUNHU INFORMATION TECHNOLOGY CO., LTD.

Document name: Decision of Rejection

DD01 Delivery of document by public notice
RJ01 Rejection of invention patent application after publication

Application publication date: 20160224

RJ01 Rejection of invention patent application after publication