CN110222779A - 分布式数据处理方法及系统 - Google Patents
分布式数据处理方法及系统 Download PDFInfo
- Publication number
- CN110222779A CN110222779A CN201910503086.2A CN201910503086A CN110222779A CN 110222779 A CN110222779 A CN 110222779A CN 201910503086 A CN201910503086 A CN 201910503086A CN 110222779 A CN110222779 A CN 110222779A
- Authority
- CN
- China
- Prior art keywords
- sample set
- server
- data
- sample
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Discrete Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种分布式数据处理方法及系统,属于数据处理技术领域。所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器;所述数据采集服务器,用于获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;所述数据采样服务器,用于对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;所述数据汇总服务器,用于接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;所述分类服务器用于对接收到的样本子集中的样本进行分类。本发明有效地提高了对样本集进行采样的效率。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种分布式数据处理方法及系统。
背景技术
图谱是指由许多节点通过相互之间的连接而组成的一种数据结构。图谱中的节点可以用于指代人或组织,节点之间的连接(也称作边)通常表示节点所指代的事物之间具有某种关联关系。该关联关系可以为亲属关系或交易行为等社会关系。通过对图谱中的节点进行分类,能够实现对该节点指代的事物的关系挖掘。
相关技术中,可以采用数据处理系统对图谱中的节点进行分类。该数据处理系统包括:数据汇总服务器和多个分类服务器。该数据汇总服务器在获取用于表示图谱的邻接矩阵后,可以对该邻接矩阵进行采样,并将采样后的邻接矩阵分发至多个分类服务器,分类服务器根据接收到的邻接矩阵对图谱中的节点进行分类。
但是,图谱的数据量通常较大,导致数据汇总服务器对其邻接矩阵进行采样的效率较低。
发明内容
本发明实施例提供了一种分布式数据处理方法及系统,可以解决相关技术中对邻接矩阵进行采样的效率较低的问题。所述技术方案如下:
第一方面,提供了一种分布式数据处理系统,其特征在于,所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器;
所述数据采集服务器,用于获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;
所述数据采样服务器,用于对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;
所述数据汇总服务器,用于接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;
所述分类服务器用于对接收到的样本子集中的样本进行分类。
第二方面,提供了一种分布式数据处理方法,其特征在于,所述方法应用于分布式数据处理系统,所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器,所述方法包括:
所述数据采集服务器获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;
所述数据采样服务器对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;
所述数据汇总服务器接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;
所述分类服务器对接收到的样本子集中的样本进行分类。
可选地,所述样本子集包括所述邻接矩阵的至少一列元素,且所述多个样本子集分别包括不同列的元素。
可选地,所述分类服务器中设置有分类模型,所述分类模型用于对所述样本子集中的样本进行分类,所述样本子集中的样本为训练样本,所述方法还包括:参数服务器;
所述分类服务器基于所述分类模型对所述训练样本的分类结果,调整所述分类模型的模型参数,并向所述参数服务器发送调整后的模型参数;
所述参数服务器将所述多个分类服务器中其他分类服务器中分类模型的模型参数更新为所述调整后的模型参数。
本发明实施例提供的分布式数据处理方法及系统,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图谱的示意图。
图2是本发明实施例提供的一种分布式数据处理系统的结构示意图。
图3是本发明实施例提供的另一种分布式数据处理系统的结构示意图。
图4是本发明实施例提供的又一种分布式数据处理系统的结构示意图。
图5是本发明实施例提供的一种分布式数据处理方法的流程图。
图6是本发明实施例提供的另一种分布式数据处理方法的流程图。
图7是本发明实施例提供的又一种分布式数据处理方法的流程图。
图8是本发明实施例提供的一种三次测试过程中收敛速度的示意图。
图9是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
随着科技的发展,关系挖掘具有越来越重要的意义。例如,通过关系挖掘能够发现用户与用户之间(该用户可以为人或组织)的社交关系,并根据该社交关系进行商品推荐、用户推荐或好友分类等社会活动,或者,根据该社交关系发现用户之间的非法活动(如赌博或传销等)。因此,关系挖掘对社会安全和商品营销等都具有重大的意义。
一般地,可以通过用户之间的交互信息,获取用于表示不同用户之间关联关系的图谱,并对图谱中的节点进行分类,且划分为相同类别的节点具有相同或相近的属性。例如,图1为空手道(Karate)俱乐部成员的关系图谱,如图1所示,节点用于表示俱乐部成员,节点之间的连接(也称作边)表示两个成员相互认识,且位于同一个圆圈中成员属于相同的分组,位于不同圆圈中的成员属于不同的分组。
其中,图谱中的节点可以用于指代人或组织,节点之间的连接(也称作边)通常表示节点所指代的事物之间具有某种关联关系。每个节点可以采用一个多维特征向量表示,该特征向量用于描述该节点的属性。每个边可以带有权重值,该权重值用于描述由该边连接的两个节点之间连接的紧密程度,且权重越大,连接越紧密。且该每个边可以均带有方向,以表示连接的方向性。本发明实施例以图谱的边是无方向的为例进行说明。
相关技术中,可以采用数据处理系统中的分类服务器对图谱中的节点进行分类。该数据处理系统包括:图谱获取服务器、多个数据存储服务器、数据汇总服务器和多个分类服务器。该图谱获取服务器用于根据用户之间的交互信息,获取用于表示用户之间关联关系的图谱,得到用于表示该图谱的邻接矩阵,并将该邻接矩阵按照行划分为多个子矩阵,然后将该多个子矩阵分发至多个数据存储服务器。数据存储服务器用于对接收到的子矩阵进行存储,并在需要对节点进行分类时,将子矩阵发送至数据汇总服务器。数据汇总服务器将子矩阵汇总后得到邻接矩阵,并对邻接矩阵进行采样,然后将采样后的邻接矩阵中的数据分发至多个分类服务器,以便于分类服务器对图谱中的节点进行分类。
但是,由于图谱的数据量通常较大,图谱中节点总数通常为数亿级,边通常为数十亿级,导致数据汇总服务器对其邻接矩阵进行采样的效率较低,且该数据汇总服务器对邻接矩阵进行采样时会占用大量的资源,导致资源损耗较大。
本发明实施例提供了一种分布式数据处理方法及系统,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
图2是本发明实施例提供的分布式数据处理系统的结构示意图。如图2所示,该系统可以包括:数据采集服务器10、多个数据采样服务器20、数据汇总服务器30和多个分类服务器40。该图2为数据采样服务器20和分类服务器40均为2个时,分布式数据处理系统的结构示意图。
数据采集服务器10,用于获取待分类的多个样本子集,并向多个数据采样服务器20分发多个样本子集,多个样本子集由同一个样本集划分得到。
数据采样服务器20,用于对接收到的样本子集进行数据采样,并将采样后的样本子集发送至数据汇总服务器30。
数据汇总服务器30,用于接收并汇总多个数据采样服务器20发送的样本子集,并将汇总后的样本子集分发至多个分类服务器40。
分类服务器40用于对接收到的样本子集中的样本进行分类。
其中,数据采集服务器10、多个数据采样服务器20、数据汇总服务器30和多个分类服务器40中的每个服务器均可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。且数据采集服务器10与每个数据采样服务器20之间均可以通过无线网络建立连接。多每个数据采样服务器20和数据汇总服务器30之间均可以通过无线网络建立连接。数据汇总服务器30和每个分类服务器40之间均可以通过无线网络建立连接。
综上所述,本发明实施例提供的分布式数据处理系统,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
可选地,数据采集服务器10获取待分类的样本子集的实现方式可以有多种。下面以以下两种实现方式为例对其进行说明:
在一种可实现方式中,该数据采集服务器10可以收集样本,以得到待分类的样本集,然后将该样本集按照预设方式进行划分,以得到多个样本子集。示例地,数据采集服务器10可以获取用户通过应用程序发送的信息,并根据该信息获取用于表示用户之间关联关系的图谱的邻接矩阵,然后将该邻接矩阵按照预设方式进行划分,以得到多个子矩阵,每个子矩阵即为一个样本子集。其中,该应用程序可以为社交应用程序、支付应用程序、资源分享应用程序或购物应用程序等工具类应用程序。
在另一种可实现方式中,数据采集服务器10可以获取已有的样本集,然后将该样本集按照预设方式进行划分,以得到多个样本子集。例如,可以采用人工等方式,预先用于表示用户之间关联关系的图谱的邻接矩阵,并将该邻接矩阵存储在存储服务器中,该数据采集服务器10可以从该存储服务器获取该邻接矩阵,然后将该邻接矩阵按照预设方式进行划分,以得到多个子矩阵,每个子矩阵即为一个样本子集。
其中,数据采集服务器10可以按照列方向,将邻接矩阵划分为多个子矩阵。该多个子矩阵可以包括:邻接矩阵的至少一列元素,且该多个子矩阵分别包括不同列的元素。
并且,数据采集服务器10在获取待分类的多个样本子集后,向多个数据采样服务器20分发多个样本子集的实现方式也可以有多种。例如,数据采集服务器10在获取待分类的多个样本子集后,可以直接向多个数据采样服务器20分发多个样本子集。
或者,如图3所示,该分布式数据处理系统还可以包括:与多个数据采样服务器20对应的多个数据存储服务器50。此时,数据采集服务器10在获取待分类的多个样本子集后,可以先将该多个样本子集分发至多个数据存储服务器50,然后由数据存储服务器50将样本子集发送至对应的数据采样服务器20。该图3为分布式数据处理系统包括两个数据存储服务器50的示意图。
其中,多个数据存储服务器50可以对接收到的样本子集进行存储。且通过将多个子样本集分发至多个数据存储服务器50,可在该多个数据存储服务器50中实现该多个样本集的分布式存储,相对于单机存储的存储方式,能够有效减小数据的存储压力。
可选地,每个分类服务器40中可以设置有分类模型,分类服务器40对样本的分类操作可以通过该分类模型实现。并且,上述样本集可以为训练样本集,该训练样本集包括多个训练样本,每个训练样本可以携带有分类标签,通过对该训练样本集中的样本进行分类,能够根据其分类结果和对应的分类标签对分类模型的参数进行调整,以对分类模型进行模型训练。示例的,该分类模型可以是图卷积网络(graph convolutional network,GCN),其模型参数可以包括该图卷积网络中所有需要训练获得的参数,例如,可以包括卷积核的权重系数和偏移系数等。
并且,如图4所示,该分布式数据处理系统还可以包括:参数服务器60。在调整任一分类服务器40中分类模型的模型参数后,该分类服务器40可以向该参数服务器60发送调整后的模型参数。该参数服务器60在接收到该调整后的模型参数后。可以向该多个分类器中的其他分类服务器40发送该调整后的模型参数,以将其他分类服务器40中分类模型的模型参数更新为该调整后的模型参数,实现多个分类服务器40中分类模型的模型参数的同步更新。
综上所述,本发明实施例提供的分布式数据处理系统,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
本发明实施例提供了一种分布式数据处理方法,该方法可以应用于本发明实施例提供的分布式数据处理系统。图5为本发明实施例提供的一种分布式数据处理方法的流程图,如图5所示,该方法可以包括:
步骤501、数据采集服务器获取待分类的多个样本子集,并向多个数据采样服务器分发多个样本子集。
其中,多个样本子集由同一个样本集划分得到。
步骤502、数据采样服务器对接收到的样本子集进行数据采样,并将采样后的样本子集发送至数据汇总服务器。
步骤503、数据汇总服务器接收并汇总多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至多个分类服务器。
步骤504、分类服务器对接收到的样本子集中的样本进行分类。
综上所述,本发明实施例提供的分布式数据处理方法,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
图6为本发明实施例提供的另一种分布式数据处理方法的流程图,如图6所示,该方法可以包括:
步骤601、数据采集服务器获取待分类的样本集,将样本集划分为多个样本子集。
在一种可实现方式中,该数据采集服务器可以收集样本,以得到待分类的样本集,然后将该样本集按照预设方式进行划分,以得到多个样本子集。示例地,数据采集服务器可以获取用户通过应用程序发送的信息,并根据该信息获取用于表示用户之间关联关系的图谱的邻接矩阵,然后将该邻接矩阵按照预设方式进行划分,以得到多个子矩阵,每个子矩阵即为一个样本子集。其中,该应用程序可以为社交应用程序、支付应用程序、资源分享应用程序或购物应用程序等工具类应用程序。
在另一种可实现方式中,数据采集服务器可以获取已有的样本集,然后将该样本集按照预设方式进行划分,以得到多个样本子集。例如,可以采用人工等方式,预先用于表示用户之间关联关系的图谱的邻接矩阵,并将该邻接矩阵存储在存储服务器中,该数据采集服务器可以从该存储服务器获取该邻接矩阵,然后将该邻接矩阵按照预设方式进行划分,以得到多个子矩阵,每个子矩阵即为一个样本子集。
其中,数据采集服务器可以按照列方向,将邻接矩阵划分为多个子矩阵。该多个子矩阵可以包括:邻接矩阵的至少一列元素,且该多个子矩阵分别包括不同列的元素。并且,划分后的子矩阵的总数可以小于或等于数据采样服务器
示例地,假设分布式数据处理系统中包括两个数据采样服务器,图谱中具有四个节点,分别为节点1、节点2、节点3和节点4,且节点1和节点4有连接。用于表示该图谱的邻接矩阵为:将该邻接矩阵的每两列划分为一个子矩阵后,可以得到两个子矩阵,分别为:和每个子矩阵为一个样本子集。其中,邻接矩阵中第i行第j列的元素为1时,表示节点i与节点j之间存在连接,邻接矩阵中第i行第j列的元素为0时,表示节点i与节点j之间不存在连接。
当按照列对邻接矩阵进行划分时,能够使得划分后的每个子矩阵均保存有图谱中每个节点与其部分邻接点的信息,由于该每个子矩阵均保存有图谱中每个每个节点的信息,因此,能够保证节点信息的完备性。
步骤602、数据采集服务器向多个数据采样服务器分发多个样本子集。
示例地,在将邻接矩阵划分为步骤601所示例的两个子矩阵后,数据采集服务器可以分别向一个数据采样服务器发送一个子矩阵。
步骤603、数据采样服务器对接收到的样本子集进行数据采样。
可以预先根据用于需求确定对数据进行数据采样时的采样率,并在对样本子集进行数据采样时,根据该采样率对样本子集进行数据采样。例如,该采样率可以为50%,即可以对每个样本子集采集一半的信息,以在保证具有足够多的样本的情况下,尽量减少在后续通信过程中的数据量,以在分类准确性和通信负担中取得平衡。
并且,每个节点均具有标识,当样本集为邻接矩阵时,可以采用节点标识表示采样后的样本子集,以减少冗余数据。示例地,对步骤601所示例的两个子矩阵采样后,采用节点标识表示的采样后的矩阵可以分别为:和矩阵保存了节点1、节点2、节点3和节点4中每个节点分别与节点1、节点2的连接关系,该矩阵的第一行表示该节点1与节点1连接,该矩阵的第二行表示该节点2与节点2连接,该矩阵的第三行表示该节点4与节点1连接,由于该节点3均未与节点1和节点2连接,因此,该矩阵中未出现节点3的标识。矩阵保存了节点1、节点2、节点3和节点4中每个节点分别与节点3、节点4的连接关系,该矩阵的第一行表示该节点1与节点4连接,该矩阵的第二行表示该节点3与节点3连接,该矩阵的第三行表示该节点4与节点4连接,由于该节点2均未与节点3和节点4连接,因此,该矩阵中未出现节点2的标识。
步骤604、数据采样服务器将采样后的样本子集发送至数据汇总服务器。
步骤605、数据汇总服务器接收并汇总多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至多个分类服务器。
数据汇总服务器在接收到各个数据采样服务器发送的样本子集后,可以按照预设方式将多个样本子集合并为一个样本集,然后将该样本集中的样本均衡地分发至多个分类服务器,以便分类服务器对该样本进行分类。
示例地,当采样后的样本子集均为子矩阵时,数据汇总服务器可以对该多个子矩阵进行矩阵拼接,得到一个拼接矩阵,然后对该拼接矩阵均衡地划分为多个子矩阵,并将该多个子矩阵分发至多个分类服务器。
步骤606、分类服务器对接收到的样本子集中的样本进行分类。
在对样本进行分类后,即可得到各个样本的分类标签,进而可以根据该分类标签分析样本之间的关联关系。当该样本集为用于表示用户之间关联关系的图谱的邻接矩阵时,在对图谱中的节点分类后,可以根据各个节点的分类标签对节点进行关系挖掘,以通过该关系挖掘进行商品推荐、商品推荐或好友分类等社会活动,或者,在网络安防监控等系统中,通过该关系挖掘发现用户之间的非法活动(如赌博或传销等)。
步骤607、分类服务器根据对样本的分类结果和样本的分类标签,对分类服务器中的分类模型的模型参数进行调整。
每个分类服务器中可以设置有分类模型,分类服务器对样本的分类操作可以通过该分类模型实现。样本集可以为用于对分类模型进行训练的训练样本集,该训练样本集包括多个训练样本,每个训练样本可以携带有分类标签,通过对该训练样本集中的样本进行分类,能够根据其分类结果和对应的分类标签对分类模型的参数进行调整,以对分类模型进行模型训练。
进一步地,该参数调整的实现过程可以包括:将对训练样本的分类结果与训练样本携带的分类标签进行对比,然后根据对比结果按照指定步长调整分类模型中的每个模型参数。并且,由于不同分类模型对不同的样本进行分类,其分类结果出现波动的几率较大,因此,在设置指定步长时可以将步长设置得较小一些。同时,每个分类模型在完成分类后,可以直接根据分类结果调整模型参数,无需等待其他分类模型的分类进度。
其中,该分类模型可以是图卷积网络(graph convolutional network,GCN),其模型参数可以包括该图卷积网络中所有需要训练获得的参数,例如,可以包括卷积核的权重系数和偏移系数等。
步骤608、分类服务器向参数服务器发送调整后的模型参数。
步骤609、参数服务器向多个分类服务器中其他分类服务器发送调整后的模型参数,以使其他分类服务器根据该调整后的模型参数更新分类模型的模型参数。
每个分类服务器调整其中设置的分类模型的模型参数后,可将该调整后的模型参数发送至参数服务器,使该参数服务器将该调整后的模型参数发送至其他分类服务器,以使该多个分类服务器中的分类模型的模型参数实现同步更新。
需要说明的是,上述步骤607至步骤609均为可选步骤,当样本为训练样本时,需要执行上述步骤607至步骤609,以根据对训练样本的训练结果调整分类模型的模型参数。例如,当样本为测试样本时,无需执行步骤607至步骤609。
综上所述,本发明实施例提供的分布式数据处理方法,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
图7为本发明实施例提供的又一种分布式数据处理方法的流程图,该方法可应用于图4所示的分布式数据处理系统。如图7所示,该方法可以包括:
步骤701、数据采集服务器获取待分类的样本集,将样本集划分为多个样本子集。
该步骤701的实现方式请相应参考步骤601的实现方式。
步骤702、数据采集服务器将多个样本子集分发至多个数据存储服务器。
步骤703、数据存储服务器存储接收到的样本子集。
通过将多个样本子集分发至多个数据存储服务器,以分别在多个数据存储服务器中存储多个样本子集,可在该多个数据存储服务器中对该多个样本子集进行分布式存储,相对于单机存储的存储方式,能够有效减小系统的数据存储压力。并且,相较于单机存储,由于每个数据存储服务器存储较少的数据,能够提高数据存储服务器的加载速度,节省了内存。
步骤704、数据存储服务器将样本子集发送至对应的数据采样服务器。
步骤705、数据采样服务器对接收到的样本子集进行数据采样。
该步骤705的实现方式请相应参考步骤603的实现方式。
步骤706、数据采样服务器将采样后的样本子集发送至数据汇总服务器。
步骤707、数据汇总服务器接收并汇总多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至多个分类服务器。
该步骤707的实现方式请相应参考步骤605的实现方式。
步骤708、分类服务器对接收到的样本子集中的样本进行分类。
该步骤708的实现方式请相应参考步骤606的实现方式。
步骤709、分类服务器根据对样本的分类结果和样本的分类标签,对分类服务器中的分类模型的模型参数进行调整。
该步骤709的实现方式请相应参考步骤607的实现方式。
步骤710、分类服务器向参数服务器发送调整后的模型参数。
步骤711、参数服务器向多个分类服务器中其他分类服务器发送调整后的模型参数,以使其他分类服务器根据该调整后的模型参数更新分类模型的模型参数。
该步骤710至步骤711的实现过程请相应参考步骤608至步骤609的实现过程。
需要说明的是,上述步骤709至步骤711均为可选步骤,当样本为训练样本时,需要执行上述步骤709至步骤711,以根据对训练样本的训练结果调整分类模型的模型参数。例如,当样本为测试样本时,无需执行步骤709至步骤711。
在对分类模型进行训练后,还可以向分类模型提供测试样本,以测试分类模型的分类准确性。在测试完成后,可以统计分类准确的样本总数,然后将该分类准确的样本总数与测试样本的总数的比值确定为分类准确率。并且,可以采用每次分类过程耗费的总时长评价分类模型的运行速度。
示例地,可以采用根据社交网络Reddit中的信息获取的图谱,对分类模型进行测试。其中,该图谱具有231965个节点,11606919条边,每个节点的特征维数是602,类别种类总数是41。且当两个节点有连边时,该连边的权重为1,当两个节点无连边时,该连边的权重为0。
根据该图谱中构建了包含152410个节点的训练样本集,及包含55334个节点的测试样本集。然后,根据该训练样本集采用步骤701至步骤712对多个分类服务器中的分类模型进行训练,再根据该测试样本集采用步骤701至步骤708对多个分类服务器中的分类模型进行测试。最终,根据该测试结果可以确定该多个分类服务器中的分类模型具有较高的分类准确性。
并且,该测试过程分别执行了三次,在该三次测试过程中分别在1、2和4台分类服务器上实现分类过程,即将测试样本集对应的邻接矩阵划分为1、2和4个子矩阵,然后分别分发至1、2和4台分类服务器。图8为该三次测试过程中收敛速度的示意图,横轴为分类耗费的时长,单位为秒,纵轴为分类准确率,曲线A为使用1台分类服务器对节点进行分类的收敛速度曲线,曲线B为使用2台分类服务器对节点进行分类的收敛速度曲线,曲线C为使用4台分类服务器对节点进行分类的收敛速度曲线,根据该图8可知,当划分出的子矩阵的数量越多时,能够在较短的时间内达到较高的准确率,可以看出其收敛速度越快,因此,通过本发明实施例提供的分布式数据处理方法能够有效提高分类速度和准确率。
综上所述,本发明实施例提供的分布式数据处理方法,通过数据采集服务器获取待分类的样本集中的多个样本子集,并向多个数据采样服务器分发多个样本子集,然后通过多个数据采样服务器分别对接收到的样本子集进行数据采样,使得能够在多个数据采样服务器中并行地对多个样本子集进行采样,加快了对样本集的采样速度,有效地提高了对样本集进行采样的效率。并且,在将采样后的样本子集发送至数据汇总服务器的过程中,由于发送的数据是经过采样后的数据,有效地减小了通信过程中的数据量,进而减小了资源损耗。
需要说明的是,本发明实施例提供的分布式数据处理方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,例如,当样本为测试样本时,可以选择不执行步骤608至步骤609,或者,不执行步骤7010至步骤7012,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
本发明实施例还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本发明实施例提供的分布式数据处理系统中任一服务器的功能。
图9是根据本发明实施例提供的一种服务器的结构示意图。该服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本发明的各种实施例,服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,中央处理器901通过执行该一个或一个以上程序来实现该中央处理器901所在的服务器的功能。
本发明实施例还提供了一种计算机可读存储介质,该存储介质为非易失性存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如本发明实施例提供的分布式数据处理系统中任一服务器的功能。其中,该存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本发明实施例中,关系限定词“和/或”表示三种逻辑关系,A和/或B表示单独存在A、单独存在B以及同时存在A和B三种逻辑关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种分布式数据处理系统,其特征在于,所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器;
所述数据采集服务器,用于获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;
所述数据采样服务器,用于对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;
所述数据汇总服务器,用于接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;
所述分类服务器用于对接收到的样本子集中的样本进行分类。
2.根据权利要求1所述的系统,其特征在于,
所述数据采集服务器,具体用于获取待分类的样本集,将所述样本集划分为所述多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集。
3.根据权利要求1所述的系统,其特征在于,所述系统还包括:与所述多个数据采样服务器对应的多个数据存储服务器;
所述数据采集服务器,具体用于获取待分类的样本集,将所述样本集划分为多个样本子集,并将所述多个样本子集分发至所述多个数据存储服务器;
所述数据存储服务器,用于存储接收到的样本子集,并将所述样本子集发送至对应的数据采样服务器。
4.根据权利要求2或3所述的系统,其特征在于,所述样本集为用于表示样本图谱的邻接矩阵,所述多个样本子集由按照列方向将所述邻接矩阵划分得到。
5.根据权利要求4所述的系统,其特征在于,所述样本子集包括所述邻接矩阵的至少一列元素,且所述多个样本子集分别包括不同列的元素。
6.根据权利要求1至3任一所述的系统,其特征在于,所述分类服务器中设置有分类模型,所述分类模型用于对所述样本子集中的样本进行分类,所述样本子集中的样本为训练样本,所述系统还包括:参数服务器;
所述分类服务器,还用于基于所述分类模型对所述训练样本的分类结果,调整所述分类模型的模型参数,并向所述参数服务器发送调整后的模型参数;
所述参数服务器,用于将所述多个分类服务器中其他分类服务器中分类模型的模型参数更新为所述调整后的模型参数。
7.一种分布式数据处理方法,其特征在于,所述方法应用于分布式数据处理系统,所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器,所述方法包括:
所述数据采集服务器获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;
所述数据采样服务器对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;
所述数据汇总服务器接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;
所述分类服务器对接收到的样本子集中的样本进行分类。
8.根据权利要求7所述的方法,其特征在于,所述数据采集服务器获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,包括:
所述数据采集服务器,具体用于获取待分类的样本集,将所述样本集划分为所述多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集。
9.根据权利要求7所述的方法,其特征在于,所述系统还包括:与所述多个数据采样服务器对应的多个数据存储服务器,所述数据采集服务器获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,包括:
所述数据采集服务器获取待分类的样本集,将所述样本集划分为多个样本子集,并将所述多个样本子集分发至所述多个数据存储服务器,使所述数据存储服务器将所述样本子集发送至对应的数据采样服务器;
所述数据存储服务器存储接收到的样本子集,并将所述样本子集发送至对应的数据采样服务器。
10.根据权利要求8或9所述的方法,其特征在于,所述样本集为用于表示样本图谱的邻接矩阵,所述多个样本子集由按照列方向将所述邻接矩阵划分得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910503086.2A CN110222779B (zh) | 2019-06-11 | 2019-06-11 | 分布式数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910503086.2A CN110222779B (zh) | 2019-06-11 | 2019-06-11 | 分布式数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222779A true CN110222779A (zh) | 2019-09-10 |
CN110222779B CN110222779B (zh) | 2023-08-01 |
Family
ID=67816416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910503086.2A Active CN110222779B (zh) | 2019-06-11 | 2019-06-11 | 分布式数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222779B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390455A (zh) * | 2023-12-11 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011174871A (ja) * | 2010-02-25 | 2011-09-08 | Keio Gijuku | 相関性評価方法、相関性評価装置、動作再現装置 |
CN102469000A (zh) * | 2010-11-19 | 2012-05-23 | 沈阳理工大学 | 一种面向大规模网络的拓扑抽样方法 |
WO2017167044A1 (zh) * | 2016-03-26 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 一种分布式集群训练方法和装置 |
US20180129967A1 (en) * | 2016-11-04 | 2018-05-10 | Google Inc. | Constructing and processing computational graphs for dynamically structured machine learning models |
CN109117981A (zh) * | 2018-07-02 | 2019-01-01 | 扬州大学 | 基于抽样的有向图的单源链接预测方法 |
US20190095806A1 (en) * | 2017-09-28 | 2019-03-28 | Siemens Aktiengesellschaft | SGCNN: Structural Graph Convolutional Neural Network |
CN109558674A (zh) * | 2018-11-28 | 2019-04-02 | 北京超萌国际文化有限公司 | 销量预测及其模型训练方法、装置 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
-
2019
- 2019-06-11 CN CN201910503086.2A patent/CN110222779B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011174871A (ja) * | 2010-02-25 | 2011-09-08 | Keio Gijuku | 相関性評価方法、相関性評価装置、動作再現装置 |
CN102469000A (zh) * | 2010-11-19 | 2012-05-23 | 沈阳理工大学 | 一种面向大规模网络的拓扑抽样方法 |
WO2017167044A1 (zh) * | 2016-03-26 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 一种分布式集群训练方法和装置 |
US20180129967A1 (en) * | 2016-11-04 | 2018-05-10 | Google Inc. | Constructing and processing computational graphs for dynamically structured machine learning models |
US20190095806A1 (en) * | 2017-09-28 | 2019-03-28 | Siemens Aktiengesellschaft | SGCNN: Structural Graph Convolutional Neural Network |
CN109117981A (zh) * | 2018-07-02 | 2019-01-01 | 扬州大学 | 基于抽样的有向图的单源链接预测方法 |
CN109558674A (zh) * | 2018-11-28 | 2019-04-02 | 北京超萌国际文化有限公司 | 销量预测及其模型训练方法、装置 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
Non-Patent Citations (1)
Title |
---|
李娜;余省威;: "云计算环境下多服务器多分区数据的高效挖掘方法设计", 现代电子技术, no. 10, pages 43 - 45 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390455A (zh) * | 2023-12-11 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子设备 |
CN117390455B (zh) * | 2023-12-11 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110222779B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110869943B (zh) | Gpu增强的图形模型构建和评分引擎 | |
US12014282B2 (en) | Data processing method and apparatus, electronic device, and storage medium | |
WO2022057658A1 (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN108351985A (zh) | 用于大规模机器学习的方法和装置 | |
US20110264617A1 (en) | Reducing the dissimilarity between a first multivariate data set and a second multivariate data set | |
CN107292341A (zh) | 基于成对协同正则化和nmf的自适应多视图聚类方法 | |
US20200394658A1 (en) | Determining subsets of accounts using a model of transactions | |
CN110222171A (zh) | 一种分类模型应用、分类模型训练方法及装置 | |
US8121967B2 (en) | Structural data classification | |
CN108205570A (zh) | 一种数据检测方法和装置 | |
CN112085615A (zh) | 图神经网络的训练方法及装置 | |
CN108833302A (zh) | 云环境下基于模糊聚类及严格双边匹配的资源分配方法 | |
CN113674087A (zh) | 企业信用等级评定方法、装置、电子设备和介质 | |
Cooper et al. | Improved algorithms for distributed boosting | |
CN110457469A (zh) | 基于长短期记忆网络的信息分类方法、装置、计算机设备 | |
CN113821827A (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN109450978A (zh) | 一种基于storm的数据分类和负载均衡处理方法 | |
CN110222779A (zh) | 分布式数据处理方法及系统 | |
Zhao et al. | Distributionally robust chance-constrained p-hub center problem | |
Gavrilev et al. | Anomaly detection in networks via score-based generative models | |
CN109344910A (zh) | 数据分类方法及装置 | |
Arif et al. | Machine learning and deep learning based network slicing models for 5G network | |
CN110399430A (zh) | 用户特征确定方法、装置、设备及计算机可读存储介质 | |
US12099573B2 (en) | Data classification method using quantum computer, quantum computer system, and classifier training method of quantum computer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |