CN102999633A - 网络信息的云聚类提取方法 - Google Patents
网络信息的云聚类提取方法 Download PDFInfo
- Publication number
- CN102999633A CN102999633A CN2012105507598A CN201210550759A CN102999633A CN 102999633 A CN102999633 A CN 102999633A CN 2012105507598 A CN2012105507598 A CN 2012105507598A CN 201210550759 A CN201210550759 A CN 201210550759A CN 102999633 A CN102999633 A CN 102999633A
- Authority
- CN
- China
- Prior art keywords
- map
- reduce
- node
- key
- network information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网络信息的云聚类提取方法,分布式文件系统进行文件写入、数据存储及访问网络信息;SOM、Kmeans聚类算法与云计算的计算模型Map/Reduce进行无缝结合,得到基于云计算的Map/Reduce化的SOM、Kmeans聚类算法,JobTracker负责整个Map/Reduce的控制工作,空闲的TaskTracker来分配这些Map任务或者Reduce任务;TaskTracker执行从JobTracker发来的指令并同时处理Map和Reduce阶段之间数据的移动,每个TaskTracker节点会周期性的报告完成的工作和状态的更新,若其中一个TaskTracker节点保持沉默超过一个预设的时间间隔,则JobTracker记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。本发明具有良好的特征提取性能,解决现有的网络流量时间序列分析和预测算法中主观性太强的缺点。
Description
技术领域
本发明涉及云计算以及数据挖掘技术,尤其涉及网络信息内容的云聚类提取方法。
背景技术
随着网站数量和存在于互联网上的网页数以指数级增长,电子政务和电子商务的广泛开展,这些极大地促进了国家的信息化建设,并且给人们的学习、工作、生活等带来越来越多的便利。但是,与此同时,互联网也成了色情、邪教、反动、台独、暴力信息传播的场所。因此,如何防止互联网上非法信息的传播和浏览,对网上信息的内容进行监管和控制,保护网络信息的安全,有效阻止不良信息在我国的非法传播,确保网上信息内容的安全成为十分重要的课题,并关系到国家安全与社会稳定。目前解决的方法如地址过滤,基于关键字搜索等技术未能很好的解决这一问题。究其原因,主要是因为这些技术都没有实现对信息本身的内容进行深入的分析与理解。因此,从基于内容的角度去分析网络信息并将其与安全结合起来,是解决这一问题的有效途径。
Stanford 大学的TakW.Yan等开发了基于内容的过滤系统(stanford information filtering tool,SIFT),该系统用于互联网上新闻组的过滤;它使用向量空间模型来实现用户信息需求与新闻资料之间的匹配。它使用向量空间模型来实现用户信息需求与新闻资料之间的匹配。它的用户信息需求,即用户模型,是由用户通过提交喜欢的词汇和想要避免的词汇手工建立的,并且可以自我更新。法国国防部也建立了一套完全类似的情报获取系统,称为“Frenchelon”。据称这套系统不但对敏感信息进行监管,还能为本国的公司提供相关的商业情报。哈尔滨工业大学的张宏莉等,将网络透视技术应用于网络预警研究中,从主动探测的角度出发,利用网络拓扑分域方法,从宏观的角度对大规模网络进行实时监测和主动预警。相对于传统网络预警技术中采用的侦听技术,该方法更适合于对无法获得内部设备配合的网络进行主动预警。
中国科学院声学研究所提出的基于语境框架的文本过滤系统。语境框架是过滤系统的语义模型,是黄曾阳在概念层次网络理论(hierarchical network of concepts,HNC)体系下,提出的文本内容的形式化结构。语境框架把信息抽象成3个侧面:信息所属的领域范畴:政治、经济、文化、军事、法律等;信息所关涉的对象和内容,以及对象之间的语义关系:参与者和参与的内容;信息所在的背景环境:时间、空间、目的、参照等。这3个侧面构成了语境三要素:领域、情景、背景。通过这三要素对文本进行语义分析。我国在网络内容监控领域的研究工作处于刚起步的阶段,目前出现的一些常见的网络内容监控软件大都是被动的工作模式,通常在网关运行,当发现非法词汇时将包含该词汇的网页屏蔽,这种方式一般是对网卡进行控制,抓取网络数据包,并分析数据包的内容,这一类型的软件可以是用户免受非法词汇的影响,但是无法得到非法内容的来源,不能进行整体网络的监控。
而且随着网站数量和存在于互联网上的网页数以指数级增长,传统的基于串行算法技术很难处理如此海量的数据。
发明内容
鉴于上述问题,本发明提供了一种网络信息的云聚类提取方法,结合云计算技术和人工智能技术,主动进行网络内容监控预警,主动采集网站的内容,获得网站里的热点网页信息,得到热点网页所包含的内容,并对内容进行分析。通过丢弃不相关特征和冗余特征,有效降维,减少计算用时,提高系统工作效率。网络信息内容变化多样,从中提取涉及危害国家和大众社会的有害信息,难度很大。发明提出重点采取云聚类方法提取有害信息的特征,再用GP(遗传程序设计)预测算法对有害信息进行分析,提高对有害信息的命中率和检测效率。
为了达到上述目的,本发明采用了如下的技术方案:一种网络信息的云聚类提取方法,其中,该方法主要包括以下步骤:
步骤a:利用分布式文件系统(Hadoop Distributed File System,简称HDFS)进行文件写入、数据存储及访问网络信息,该分布式文件系统包括一个主节点以及若干个子节点,主节点用以存储该分布式文件系统的元数据,所述元数据包括文件系统的名字空间以及管理文件的存储,所述子节点用以存放数据,由客户端直接与各子节点建立数据通信;
步骤b:利用SOM、Kmeans经典聚类算法与云计算的计算模型Map/Reduce进行无缝结合,从而得到基于云计算的Map/Reduce化的SOM、Kmeans聚类算法,其采用JobTracker/TaskTrackers的结构来实现Map/Reduce计算模式,JobTracker负责整个Map/Reduce的控制工作,首先选择空闲的TaskTracker来分配这些Map任务或者Reduce任务;TaskTracker执行从JobTracker发来的指令并同时处理Map和Reduce阶段之间数据的移动,每个TaskTracker节点会周期性的报告完成的工作和状态的更新,若其中一个TaskTracker节点保持沉默超过一个预设的时间间隔,则JobTracker记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。
较佳的,本发明提供了一种网络信息的云聚类提取方法,其中,所述分布式文件系统中,以块序列的形式存储各个文件。
较佳的,本发明提供了一种网络信息的云聚类提取方法,其中,所述存储各个文件的块被复制,且块的大小和副本的个数都可以配置,主节点控制所有的块复制操,其周期性地接收子节点的心跳回应和块报告,收到子节点的心跳回应表示这个子节点是正常的,而一个块报告包括该子节点上的所有的块列表。
较佳的,本发明提供了一种网络信息的云聚类提取方法,其中,所述分布式文件系统中,所述文件写入主要包括以下步骤:
步骤a1:客户端向主节点发起文件写入的请求;
步骤a2:主节点根据文件大小和文件块向客户端返回该主节点所管理的子节点的地址信息;以及
步骤a3:客户端将文件划分为若干个块,根据子节点的地址信息,按顺序写入到每一个子节点的块中。
较佳的,本发明提供了一种网络信息的云聚类提取方法,其中,所述基于云计算的Map/Reduce化的SOM、Kmeans聚类算法主要包括以下步骤:
步骤b1:输入网络信息;
步骤b2:根据聚类算法提供Map和Reduce函数,Map/Reduce框架把用户作业的输入看作是若干组<key,value>键值对,Map/Reduce框架会调用用户自定义的Map函数处理每一组<key,value>键值对,生成一批新的中间<key,value>键值对,这两组键值对的类型不一定相同;
步骤b3:在Shuffle阶段,Map/Reduce框架通过HTTP为每个键值对;在Sort阶段,由于不同map的输出中可能会有相同的key,Map/Reduce框架将按照key 的值对Reduce的输入进行分组,Shuffle阶段和Sort阶段是同时进行的,Reduce的输入也是一边被取出,一边被合并,以保证Reduce的输入是Map排好序的输出;
步骤b4:在Reduce阶段中,遍历中间数据,对每一个唯一key,执行用户自定义的Reduce函数,输出新的<key,value>键值对;
步骤b5:这Output阶段中,把Reduce输出的结果写入到输出目录的文件中。
较佳的,本发明提供了一种网络信息的云聚类提取方法,其中,Map/Reduce框架和分布式文件系统运行在一组相同的节点上。
相较于先前技术,本发明提供了一种网络信息的云聚类提取方法,解决了SOM、Kmeans等经典聚类算法如何和云计算的计算模型Map/Reduce进行无缝结合,从而得到基于云计算的Map/Reduce化SOM、Kmeans聚类算法,使用K-means 等聚类算法,提出基于聚类的核主成分分析方法,具有良好的特征提取性能,相比核主成分分析有更高的特征提取速度,使用GP预测算法来进行网络流量的预测,解决现有的网络流量时间序列分析和预测算法中主观性太强的缺点,可以应用于网络安全监测中。
附图说明
图1为HDFS结构示意图
图2为Map/Reduce算法示意图
图3为本发明的方法流程图
图4为文件写入的步骤流程图
图5为基于云计算的Map/Reduce化的SOM、Kmeans聚类算法的步骤流程图
具体实施方式
请参考图1至图5,本发明提供了一种网络信息的云聚类提取方法,结合云计算技术和人工智能技术,主动进行网络内容监控预警,主动采集网站的内容,获得网站里的热点网页信息,得到热点网页所包含的内容,并对内容进行分析。通过丢弃不相关特征和冗余特征,有效降维,减少计算用时,提高系统工作效率。网络信息内容变化多样,从中提取涉及危害国家和大众社会的有害信息,难度很大。发明提出重点采取云聚类方法提取有害信息的特征,再用GP(遗传程序设计)预测算法对有害信息进行分析,提高对有害信息的命中率和检测效率。
其中,参考图3,该方法主要包括以下步骤:
步骤10:利用分布式文件系统(Hadoop Distributed File System,简称HDFS)进行文件写入、数据存储及访问网络信息,该分布式文件系统包括一个主节点以及若干个子节点,主节点用以存储该分布式文件系统的元数据,所述元数据包括文件系统的名字空间以及管理文件的存储,所述子节点用以存放数据,由客户端直接与各子节点建立数据通信;
步骤20:利用SOM、Kmeans经典聚类算法与云计算的计算模型Map/Reduce进行无缝结合,从而得到基于云计算的Map/Reduce化的SOM、Kmeans聚类算法,其采用JobTracker/TaskTrackers的结构来实现Map/Reduce计算模式,JobTracker负责整个Map/Reduce的控制工作,首先选择空闲的TaskTracker来分配这些Map任务或者Reduce任务;TaskTracker执行从JobTracker发来的指令并同时处理Map和Reduce阶段之间数据的移动,每个TaskTracker节点会周期性的报告完成的工作和状态的更新,若其中一个TaskTracker节点保持沉默超过一个预设的时间间隔,则JobTracker记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。
其中,所述分布式文件系统中,以块序列的形式存储各个文件,所述存储各个文件的块被复制,且块的大小和副本的个数都可以配置,主节点控制所有的块复制操,其周期性地接收子节点的心跳回应和块报告,收到子节点的心跳回应表示这个子节点是正常的,而一个块报告包括该子节点上的所有的块列表。
其中,Map/Reduce框架和分布式文件系统运行在一组相同的节点上。
于本实施例中,云计算的Map/Reduce模型是需要大集群机器才能运行的,比如Google的机器群达到200×5000的规模。
首先,该方法搭建了一个小型的Hadoop并行计算平台,主要利用了Distributed File System(DFS)、BigTable和Map/Reduce模型等技术,利用Map/Reduce模型,云计算可以很容易的将经典数据挖掘算法进行并行运行以提高效率,而且不影响算法的运行结果,该Hadoop分布式计算平台以后根据需要还可以不断扩容。目前搭建的Hadoop分布式计算平台由八台机器组建而成,其中包括了一台Datanode用于管理整个集群的HDFS文件系统,一台Jobtracker用于掌控全局计算系统,以及六台用于存储数据和分布式计算。
除了安装Hadoop分布式计算平台之外,系统还配置有给予Hadoop系统的Hive,Pig以及Hbase,其中Hive能够使用SQL语言进行对集群上的数据进行查询和操作,且其计算是依据Map/Reduce运行的,这已经被用于日常查询。而Pig能够对集群的数据进行更简单的管理和操作,Hbase作为链式数据库系统,亦有很强的应用前景。
又,使用Hadoop HDFS来存储网络内容信息。Hadoop HDFS被设计成适合运行在通用硬件上的分布式文件系统,它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS 由一个名叫NameNode 的主节点和多个名叫DataNode 的子节点组成,是一种典型的主从式(Master/Slave)架构,这种架构方法可以通过主节点屏蔽底层的复杂结构, 并向Client 提供方便的文件目录映射。NameNode存储着文件系统的元数据,这些元数据包括文件系统的名字空间等,并管理文件的存储等服务,但实际的数据并不存放在NameNode,而是由HDFS中的DataNode来存放数据,然后由Client(客户端)直接与DataNode建立数据通信。此外,HDFS为了可靠地海量存储文件,各个文件以块序列的形式存储。为了保证故障容错,文件的块被复制。块的大小和副本的个数都可以配置。一般地,默认的HDFS的数据块的大小是64M, 也就是说如果放置到HDFS上的数据小于64M,那么将只有一个数据块,此时会被放置到某一个DataNode中;NameNode控制所有的块复制操作。它周期性地接收来自集群中DataNode的“心跳”回应和块报告。收到一个节点的“心跳”回应表示这个DataNode是正常的。一个块报告包括该数据节点上的所有的块列表。HDFS 的体系结构如图1所示。
从图1及图4中可以看出NameNode、DataNode 和Client三者之间的交互关系,例如文件写入主要包括以下步骤:
步骤101:客户端向主节点发起文件写入的请求;
步骤102:主节点根据文件大小和文件块向客户端返回该主节点所管理的子节点的地址信息;以及
步骤103:客户端将文件划分为若干个块,根据子节点的地址信息,按顺序写入到每一个子节点的块中。
再者,SOM、Kmeans等经典聚类算法如何和云计算的计算模型Map/Reduce结合,从而得到基于云计算的Map/Reduce化SOM、Kmeans聚类算法。
基于Hadoop Map/Reduce 的SOM、Kmeans聚类算法流程如图2及图5所示。
所述基于云计算的Map/Reduce化的SOM、Kmeans聚类算法主要包括以下步骤:
步骤201:输入网络信息;
步骤202:根据聚类算法提供Map和Reduce函数,Map/Reduce框架把用户作业的输入看作是若干组<key,value>键值对,Map/Reduce框架会调用用户自定义的Map函数处理每一组<key,value>键值对,生成一批新的中间<key,value>键值对,这两组键值对的类型不一定相同;
步骤203:在Shuffle阶段,Map/Reduce框架通过HTTP为每个键值对;在Sort阶段,由于不同map的输出中可能会有相同的key,Map/Reduce框架将按照key 的值对Reduce的输入进行分组,Shuffle阶段和Sort阶段是同时进行的,Reduce的输入也是一边被取出,一边被合并,以保证Reduce的输入是Map排好序的输出;
步骤204:在Reduce阶段中,遍历中间数据,对每一个唯一key,执行用户自定义的Reduce函数,输出新的<key,value>键值对;
步骤205:这Output阶段中,把Reduce输出的结果写入到输出目录的文件中。
Hadoop 采用了JobTracker/TaskTrackers 的结构来实现Map/Reduce 计算模式,该结构也是一种典型的主从式结构。JobTracker 负责整个Map/Reduce 的控制工作, 首先选择空闲的TaskTracker 来分配这些Map 任务或者Reduce 任务;TaskTracker 执行从JobTracker 发来的指令并同时处理Map 和Reduce 阶段之间数据的移动,每个TaskTracker 节点会周期性的报告完成的工作和状态的更新。如果一个TaskTracker 节点保持沉默超过一个预设的时间间隔,JobTracker 会记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。
通常,Map/Reduce 框架和分布式文件系统HDFS是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务, 这可以使整个集群的网络带宽被高效地利用。
(1)在网络信息内容分析中尝试使用了云计算和Hadoop技术,以避免海量数据的处理瓶颈。
(2)K-means、SOM等聚类算法的应用。大量网络内容分析的方法很有效果,但其会遇到计算上的困难(与样本数有关)。使用K-means等聚类算法,提出基于聚类的核主成分分析方法,具有良好的特征提取性能,相比核主成分分析有更高的特征提取速度。
(3)云计算和Hadoop技术与SOM、Kmeans等聚类算法的完美结合,可以进一步提高计算效率。而用云聚类方法得出的网络信息内容可以进一步用于各种目前成熟的网络信息内容分析方法中去,以提高这些方法的效率和精度。
(4)使用GP预测算法来进行网络流量的预测。改进混沌系统中的两个重要特征量:嵌入维数和时间延迟的计算,根据计算得出的上述两个参数重构相空间;然后在相空间中作轨迹的线性拟合,选择轨迹中的最近邻点作一次性的预测。提出的算法可在相空间中很好地把轨迹的线性拟合与最近邻方法结合起来,解决现有的网络流量时间序列分析和预测算法中主观性太强的缺点,可以应用于网络安全监测中。
以上所述仅为本发明的较佳实施例,并非用来限定本发明的实施范围;凡是依本发明所作的等效变化与修改,都被本发明权利要求书的范围所覆盖。
Claims (6)
1.一种网络信息的云聚类提取方法,其特征在于,该方法主要包括以下步骤:
步骤a:利用分布式文件系统进行文件写入、数据存储及访问网络信息,该分布式文件系统包括一个主节点以及若干个子节点,主节点用以存储该分布式文件系统的元数据,所述元数据包括文件系统的名字空间以及管理文件的存储,所述子节点用以存放数据,由客户端直接与各子节点建立数据通信;
步骤b:利用SOM、Kmeans聚类算法与云计算的计算模型Map/Reduce进行无缝结合,得到基于云计算的Map/Reduce化的SOM、Kmeans聚类算法,其采用JobTracker/TaskTrackers的结构实现Map/Reduce计算模式,JobTracker负责整个Map/Reduce的控制工作,首先选择空闲的TaskTracker来分配这些Map任务或者Reduce任务,TaskTracker执行从JobTracker发出的指令并同时处理Map和Reduce阶段之间数据的移动,每个TaskTracker节点会周期性的报告完成的工作及状态的更新,若其中一个TaskTracker节点保持沉默超过一个预设的时间间隔,则JobTracker将这个节点状态记录为死亡,并把分配给这个节点的数据发到别的节点。
2.根据权利要求1所述的网络信息的云聚类提取方法,其特征在于,所述分布式文件系统中,以块序列的形式存储各个文件。
3.根据权利要求2所述的网络信息的云聚类提取方法,其特征在于,所述存储各个文件的块被复制,且块的大小和副本的个数都可以配置,主节点控制所有的块复制操,其周期性地接收子节点的心跳回应和块报告,收到子节点的心跳回应表示这个子节点是正常的,而一个块报告包括该子节点上的所有的块列表。
4.根据权利要求1所述的网络信息的云聚类提取方法,其特征在于,所述分布式文件系统中,所述文件写入主要包括以下步骤:
步骤a1:客户端向主节点发起文件写入的请求;
步骤a2:主节点根据文件大小和文件块向客户端返回该主节点所管理的子节点的地址信息;以及
步骤a3:客户端将文件划分为若干个块,根据子节点的地址信息,按顺序写入到每一个子节点的块中。
5.根据权利要求1所述的网络信息的云聚类提取方法,其特征在于,所述基于云计算的Map/Reduce化的SOM、Kmeans聚类算法主要包括以下步骤:
步骤b1:输入网络信息;
步骤b2:根据聚类算法提供Map和Reduce函数,Map/Reduce框架把用户作业的输入看作是若干组<key,value>键值对,Map/Reduce框架会调用用户自定义的Map函数处理每一组<key,value>键值对,生成一批新的中间<key,value>键值对,这两组键值对的类型不一定相同;
步骤b3:在Shuffle阶段,Map/Reduce框架通过HTTP为每个键值对;在Sort阶段,由于不同map的输出中可能会有相同的key,Map/Reduce框架将按照key 的值对Reduce的输入进行分组,Shuffle阶段和Sort阶段是同时进行的,Reduce的输入也是一边被取出,一边被合并,以保证Reduce的输入是Map排好序的输出;
步骤b4:在Reduce阶段中,遍历中间数据,对每一个唯一key,执行用户自定义的Reduce函数,输出新的<key,value>键值对;
步骤b5:这Output阶段中,把Reduce输出的结果写入到输出目录的文件中。
6.根据权利要求1所述的网络信息的云聚类提取方法,其特征在于,Map/Reduce 框架和分布式文件系统运行在一组相同的节点上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105507598A CN102999633A (zh) | 2012-12-18 | 2012-12-18 | 网络信息的云聚类提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012105507598A CN102999633A (zh) | 2012-12-18 | 2012-12-18 | 网络信息的云聚类提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102999633A true CN102999633A (zh) | 2013-03-27 |
Family
ID=47928200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012105507598A Pending CN102999633A (zh) | 2012-12-18 | 2012-12-18 | 网络信息的云聚类提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102999633A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103327116A (zh) * | 2013-07-05 | 2013-09-25 | 山东大学 | 一种网络文件的动态副本存储方法 |
CN104050070A (zh) * | 2014-03-28 | 2014-09-17 | 国家计算机网络与信息安全管理中心 | 一种分布式系统中高维流量数据变化点检测方法 |
CN104135516A (zh) * | 2014-07-29 | 2014-11-05 | 浪潮软件集团有限公司 | 一种基于行业数据采集的分布式云存储方法 |
US9154553B2 (en) | 2013-03-15 | 2015-10-06 | Wandisco, Inc. | Methods, devices and systems for dynamically managing memberships in replicated state machines within a distributed computing environment |
WO2015153045A1 (en) * | 2014-03-31 | 2015-10-08 | Wandisco, Inc. | Geographically-distributed file system using coordinated namespace replication |
CN105138661A (zh) * | 2015-09-02 | 2015-12-09 | 西北大学 | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 |
US9264516B2 (en) | 2012-12-28 | 2016-02-16 | Wandisco, Inc. | Methods, devices and systems enabling a secure and authorized induction of a node into a group of nodes in a distributed computing environment |
US9332069B2 (en) | 2012-12-28 | 2016-05-03 | Wandisco, Inc. | Methods, devices and systems for initiating, forming and joining memberships in distributed computing systems |
CN105578212A (zh) * | 2015-12-15 | 2016-05-11 | 南京邮电大学 | 一种大数据中流计算平台下的点对点流媒体实时监测方法 |
US9361311B2 (en) | 2005-01-12 | 2016-06-07 | Wandisco, Inc. | Distributed file system using consensus nodes |
CN105653534A (zh) * | 2014-11-13 | 2016-06-08 | 深圳市腾讯计算机系统有限公司 | 一种数据处理方法及装置 |
CN105765537A (zh) * | 2013-10-03 | 2016-07-13 | 谷歌公司 | 持久混洗系统 |
CN105793822A (zh) * | 2013-10-02 | 2016-07-20 | 谷歌公司 | 动态混洗重新配置 |
US9424272B2 (en) | 2005-01-12 | 2016-08-23 | Wandisco, Inc. | Distributed file system using consensus nodes |
CN106101121A (zh) * | 2016-06-30 | 2016-11-09 | 中国人民解放军防空兵学院 | 一种全网络流量异常抽取方法 |
US9495381B2 (en) | 2005-01-12 | 2016-11-15 | Wandisco, Inc. | Geographically-distributed file system using coordinated namespace replication over a wide area network |
CN107067028A (zh) * | 2017-03-16 | 2017-08-18 | 华南理工大学 | 基于分布式聚类的网络流量时间序列预测方法 |
CN107395587A (zh) * | 2017-07-18 | 2017-11-24 | 北京初识科技有限公司 | 一种基于多点协作机制的数据管理方法及系统 |
US10481956B2 (en) | 2005-01-12 | 2019-11-19 | Wandisco, Inc. | Method for managing proposals in a distributed computing system |
US11360942B2 (en) | 2017-03-13 | 2022-06-14 | Wandisco Inc. | Methods, devices and systems for maintaining consistency of metadata and data across data centers |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314336A (zh) * | 2010-07-05 | 2012-01-11 | 深圳市腾讯计算机系统有限公司 | 一种数据处理方法和系统 |
-
2012
- 2012-12-18 CN CN2012105507598A patent/CN102999633A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314336A (zh) * | 2010-07-05 | 2012-01-11 | 深圳市腾讯计算机系统有限公司 | 一种数据处理方法和系统 |
Non-Patent Citations (3)
Title |
---|
RAMESH NATARAJAN: "Apache Hadoop Fundamentals– HDFS and MapReduce Explained with a Diagram", 《URL:HTTP://WWW.THEGEEKSTUFF.COM/2012/01/HADOOP-HDFS-MAPREDUCE-INTRO/》 * |
S NAIR ,ET AL: "Clustering with Apache Hadoop", 《ACM:ICWET’11》 * |
WEIZHONG ZHAO ,ET AL: "Parallel K-Means Clustering Based on Mapreduce", 《SPRINGER-VERLAG BERLIN HEIDELBERG 2009》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424272B2 (en) | 2005-01-12 | 2016-08-23 | Wandisco, Inc. | Distributed file system using consensus nodes |
US10481956B2 (en) | 2005-01-12 | 2019-11-19 | Wandisco, Inc. | Method for managing proposals in a distributed computing system |
US9846704B2 (en) | 2005-01-12 | 2017-12-19 | Wandisco, Inc. | Distributed file system using consensus nodes |
US9747301B2 (en) | 2005-01-12 | 2017-08-29 | Wandisco, Inc. | Distributed file system using consensus nodes |
US9495381B2 (en) | 2005-01-12 | 2016-11-15 | Wandisco, Inc. | Geographically-distributed file system using coordinated namespace replication over a wide area network |
US9361311B2 (en) | 2005-01-12 | 2016-06-07 | Wandisco, Inc. | Distributed file system using consensus nodes |
US9900381B2 (en) | 2012-12-28 | 2018-02-20 | Wandisco, Inc. | Methods, devices and systems for initiating, forming and joining memberships in distributed computing systems |
US9264516B2 (en) | 2012-12-28 | 2016-02-16 | Wandisco, Inc. | Methods, devices and systems enabling a secure and authorized induction of a node into a group of nodes in a distributed computing environment |
US9332069B2 (en) | 2012-12-28 | 2016-05-03 | Wandisco, Inc. | Methods, devices and systems for initiating, forming and joining memberships in distributed computing systems |
US9467510B2 (en) | 2012-12-28 | 2016-10-11 | Wandisco, Inc. | Methods, devices and systems enabling a secure and authorized induction of a node into a group of nodes in a distributed computing environment |
US9154553B2 (en) | 2013-03-15 | 2015-10-06 | Wandisco, Inc. | Methods, devices and systems for dynamically managing memberships in replicated state machines within a distributed computing environment |
US9521196B2 (en) | 2013-03-15 | 2016-12-13 | Wandisco, Inc. | Methods, devices and systems for dynamically managing memberships in replicated state machines within a distributed computing environment |
CN103327116B (zh) * | 2013-07-05 | 2016-06-01 | 山东大学 | 一种网络文件的动态副本存储方法 |
CN103327116A (zh) * | 2013-07-05 | 2013-09-25 | 山东大学 | 一种网络文件的动态副本存储方法 |
CN105793822B (zh) * | 2013-10-02 | 2020-03-20 | 谷歌有限责任公司 | 动态混洗重新配置 |
CN105793822A (zh) * | 2013-10-02 | 2016-07-20 | 谷歌公司 | 动态混洗重新配置 |
CN105765537A (zh) * | 2013-10-03 | 2016-07-13 | 谷歌公司 | 持久混洗系统 |
US11966377B2 (en) | 2013-10-03 | 2024-04-23 | Google Llc | Persistent shuffle system |
US11269847B2 (en) | 2013-10-03 | 2022-03-08 | Google Llc | Persistent shuffle system |
US10515065B2 (en) | 2013-10-03 | 2019-12-24 | Google Llc | Persistent shuffle system |
CN104050070B (zh) * | 2014-03-28 | 2017-02-22 | 国家计算机网络与信息安全管理中心 | 一种分布式系统中高维流量数据变化点检测方法 |
CN104050070A (zh) * | 2014-03-28 | 2014-09-17 | 国家计算机网络与信息安全管理中心 | 一种分布式系统中高维流量数据变化点检测方法 |
WO2015153045A1 (en) * | 2014-03-31 | 2015-10-08 | Wandisco, Inc. | Geographically-distributed file system using coordinated namespace replication |
US10795863B2 (en) | 2014-03-31 | 2020-10-06 | Wandisco Inc. | Geographically-distributed file system using coordinated namespace replication over a wide area network |
CN104135516A (zh) * | 2014-07-29 | 2014-11-05 | 浪潮软件集团有限公司 | 一种基于行业数据采集的分布式云存储方法 |
CN104135516B (zh) * | 2014-07-29 | 2017-04-05 | 浪潮软件集团有限公司 | 一种基于行业数据采集的分布式云存储方法 |
CN105653534B (zh) * | 2014-11-13 | 2020-03-17 | 深圳市腾讯计算机系统有限公司 | 一种数据处理方法及装置 |
CN105653534A (zh) * | 2014-11-13 | 2016-06-08 | 深圳市腾讯计算机系统有限公司 | 一种数据处理方法及装置 |
CN105138661B (zh) * | 2015-09-02 | 2018-10-30 | 西北大学 | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 |
CN105138661A (zh) * | 2015-09-02 | 2015-12-09 | 西北大学 | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 |
CN105578212A (zh) * | 2015-12-15 | 2016-05-11 | 南京邮电大学 | 一种大数据中流计算平台下的点对点流媒体实时监测方法 |
CN105578212B (zh) * | 2015-12-15 | 2019-02-19 | 南京邮电大学 | 一种大数据中流计算平台下的点对点流媒体实时监测方法 |
CN106101121A (zh) * | 2016-06-30 | 2016-11-09 | 中国人民解放军防空兵学院 | 一种全网络流量异常抽取方法 |
CN106101121B (zh) * | 2016-06-30 | 2019-01-22 | 中国人民解放军防空兵学院 | 一种全网络流量异常抽取方法 |
US11360942B2 (en) | 2017-03-13 | 2022-06-14 | Wandisco Inc. | Methods, devices and systems for maintaining consistency of metadata and data across data centers |
CN107067028A (zh) * | 2017-03-16 | 2017-08-18 | 华南理工大学 | 基于分布式聚类的网络流量时间序列预测方法 |
CN107067028B (zh) * | 2017-03-16 | 2021-02-12 | 华南理工大学 | 基于分布式聚类的网络流量时间序列预测方法 |
CN107395587B (zh) * | 2017-07-18 | 2020-01-03 | 北京微星优财网络科技有限公司 | 一种基于多点协作机制的数据管理方法及系统 |
CN107395587A (zh) * | 2017-07-18 | 2017-11-24 | 北京初识科技有限公司 | 一种基于多点协作机制的数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102999633A (zh) | 网络信息的云聚类提取方法 | |
Besta et al. | Practice of streaming processing of dynamic graphs: Concepts, models, and systems | |
Bouhenni et al. | A survey on distributed graph pattern matching in massive graphs | |
CN102915365A (zh) | 基于Hadoop的分布式搜索引擎构建方法 | |
Yu et al. | Implementation of industrial cyber physical system: Challenges and solutions | |
Jeong et al. | Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions | |
Tu et al. | IoT streaming data integration from multiple sources | |
Yang et al. | MapReduce based method for big data semantic clustering | |
CN104298669A (zh) | 一种基于社交网络的人员地理信息挖掘模型 | |
Shobanadevi et al. | Data mining techniques for IoT and big data—A survey | |
CN115827797A (zh) | 一种基于大数据的环境数据分析整合方法及系统 | |
Sun et al. | A distributed incremental information acquisition model for large-scale text data | |
Ravichandran | Big Data processing with Hadoop: a review | |
Chen et al. | Towards low-latency big data infrastructure at sangfor | |
Wadhera et al. | A systematic Review of Big data tools and application for developments | |
Lee et al. | Event evolution tracking from streaming social posts | |
Belcastro et al. | A parallel library for social media analytics | |
Pandey et al. | A comprehensive study of clustering algorithms for big data mining with mapreduce capability | |
Zhao et al. | Collecting, managing and analyzing social networking data effectively | |
Wu et al. | Intrusion detection based on dynamic gemini population DE-K-mediods clustering on hadoop platform | |
Yadav et al. | Big Data and cloud computing: An emerging perspective and future trends | |
Prakash et al. | Issues and challenges in the era of big data mining | |
Raj et al. | Scalable two-phase top-down specification for big data anonymization using apache pig | |
Guerrieri | Distributed computing for large-scale graphs | |
Ma et al. | Live data migration approach from relational tables to schema-free collections with mapreduce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130327 |
|
RJ01 | Rejection of invention patent application after publication |