CN102769662A - 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 - Google Patents
使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 Download PDFInfo
- Publication number
- CN102769662A CN102769662A CN2012101622510A CN201210162251A CN102769662A CN 102769662 A CN102769662 A CN 102769662A CN 2012101622510 A CN2012101622510 A CN 2012101622510A CN 201210162251 A CN201210162251 A CN 201210162251A CN 102769662 A CN102769662 A CN 102769662A
- Authority
- CN
- China
- Prior art keywords
- data
- entities
- distributed
- type
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法的目的是提供一种数据分发方法,通过理解实体之间的关系,来进行数据分发,将一类与多种实体都有关联的实体数据,分发至与之相关的数据所在的集群节点中,从而提升数据提取、合并、搜索和分析,降低分布式集群的网络传输时间并节约网络带宽,提升系统整体性能和吞吐量。
Description
技术领域
本发明涉及集群分布式计算领域
背景技术
在信息技术高速发展的今天,无论是互联网还是企业内部的数据量,都呈指数速度的发展和增加中。海量数据的计算和处理日趋重要,其中大规模集群分布式数据处理和分布式计算两项技术成为海量数据处理的关键性技术。
为了使数据的处理更加透明和更有效率,发明了实体数据关联分发方法,该方法会通过关联性分析,将需要处理的数据分发至多个关联数据所在的集群节点,使得关联数据的提取、合并、搜索和分析都集中在单一集群节点,这样不仅能够充分利用单一节点的运算能力,同时还能够很大程度上节约网络传输的时间和带宽,提升系统整体吞吐量。
发明内容
本发明的目的是提供一种数据分发方法,通过理解关联数据之间的关系,来进行数据分发,将相关数据分发多份至其关联数据所在节点,从而提升数据提取、合并、搜索和分析性能,降低分布式集群的网络传输时间并节约网络带宽。
为达到上述目的,本发明设定了一种分发策略。
1.对数据进行关联关系设置,用于了解数据之间的主从关系,同时一种实体会有多种关联实体。
2.对关联数据设置分发算法,用来计算数据分发到节点。
3.对多个关联数据进行分发,通过分发算法,计算出分法节点,并把该数据写入到相应节点。
4.对与多种数据有关联的数据进行分发,写入与多个数据有关联的数据时,将数据复制写入至多个数据所在的多个节点。
5.关联数据的提取、合并、搜索和分析,相关数据的操作即可在同一节点完成。
附图说明
图1为本发明的工作流程示意图,为写入关联数据的流程,关联数据会分别写入至两个数据节点,与这两个数据相关联的数据,会写入与这两个数据相同的数据节点,达到充分利用计算和存储资源又能够节省计算的目的。
具体实施方式
下面结合附图1对本发明所述的技术方案做进一步详细描述。
图1为使数据同时分布在与之关联的多种实体所在的集群节点所涉及的各个模块的方框图,其中包括数据分发中心节点和集群节点。
数据分发的步骤如下:
1)用户进行系统设置,标识数据之间关联的字段
2)对关联数据设置分发算法
3)主节点1数据分发
4)主节点2数据分发
5)关联实体数据分布,分别分发至主节点1数据所在节点和主节点2数据所在节点。
6)数据搜索及后续处理都可以分别在集群节点1和集群节点4上面完成,不需要进行集群多节点通信。
Claims (5)
1.使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法,其特征在于:
1)集群环境下数据分发至集群节点
2)与多种实体关联的实体数据分发至其所有关联实体所在的集群节点
3)关联数据的提取、合并、搜索和分析不通过网络,只需要在节点内部即可完成。
2.如权利1所述的使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法,其特征在于:集群环境下,将数据分发至关联数据所在集群中节点的通用方法。
3.如权利1所述的使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法,其特征在于:不仅仅能够分发数据,同时可以分发多份数据至其多个关联数据所在的集群节点。
4.如权利1所述的使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法,其特征在于:相关数据运算及合并集中在单一节点,提高数据利用率及计算资源利用率。
5.如权利1所述的使多级关联数据分配到集群相同节点的方法,其特征在于:将相关数据集中于集群中单一节点后,降低系统数据处理时的网络传输消耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101622510A CN102769662A (zh) | 2012-05-23 | 2012-05-23 | 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101622510A CN102769662A (zh) | 2012-05-23 | 2012-05-23 | 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102769662A true CN102769662A (zh) | 2012-11-07 |
Family
ID=47096910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101622510A Pending CN102769662A (zh) | 2012-05-23 | 2012-05-23 | 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102769662A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226557A (zh) * | 2008-02-22 | 2008-07-23 | 中国科学院软件研究所 | 一种高效的关联主题模型数据处理方法及其系统 |
-
2012
- 2012-05-23 CN CN2012101622510A patent/CN102769662A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226557A (zh) * | 2008-02-22 | 2008-07-23 | 中国科学院软件研究所 | 一种高效的关联主题模型数据处理方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110520853B (zh) | 直接存储器访问的队列管理 | |
Moritz et al. | Sparknet: Training deep networks in spark | |
CN103365726B (zh) | 一种面向gpu集群的资源管理方法和系统 | |
US8898422B2 (en) | Workload-aware distributed data processing apparatus and method for processing large data based on hardware acceleration | |
Londhe et al. | Platforms for big data analytics: Trend towards hybrid era | |
CN110019267A (zh) | 一种元数据更新方法、装置、系统、电子设备及存储介质 | |
CN103729252B (zh) | 一种虚拟机调度的方法及调度监控器 | |
KR20170012019A (ko) | 복수의 cpu 및 복수의 gpu를 지원하는 컴퓨팅 환경에서의 연산 방법 | |
CN106598743A (zh) | 一种基于mpi并行求信息系统属性约简的方法 | |
CN103019855A (zh) | MapReduce作业执行时间预测方法 | |
CN104317899A (zh) | 一种大数据分析与处理系统及访问方法 | |
CN102521332B (zh) | 基于强模拟的图模式匹配方法、装置及系统 | |
CN105468756A (zh) | 一种海量数据处理系统的设计和实现方法 | |
Jena et al. | A survey work on optimization techniques utilizing map reduce framework in hadoop cluster | |
CN103279505A (zh) | 一种基于语义的海量数据处理方法 | |
WO2021027331A1 (zh) | 基于图数据的全量关系计算方法、装置、设备及存储介质 | |
CN106202152B (zh) | 一种云平台的数据处理方法及系统 | |
CN102637200B (zh) | 一种使多级关联数据分配到集群相同节点的方法 | |
CN106886613A (zh) | 一种并行化的文本聚类方法 | |
Vrbić | Data mining and cloud computing | |
WO2021208174A1 (zh) | 分布式图计算方法、终端、系统及存储介质 | |
Li et al. | Ubinn: a communication efficient framework for distributed machine learning in edge computing | |
CN110880015B (zh) | 一种基于模糊c均值的分布式集成聚类分析方法 | |
CN102769662A (zh) | 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 | |
CN110502337A (zh) | 针对Hadoop MapReduce中混洗阶段的优化系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121107 |