CN111813580A - 一种基于矩阵表示的分布式模型训练优化方法 - Google Patents

一种基于矩阵表示的分布式模型训练优化方法 Download PDF

Info

Publication number
CN111813580A
CN111813580A CN202010722500.1A CN202010722500A CN111813580A CN 111813580 A CN111813580 A CN 111813580A CN 202010722500 A CN202010722500 A CN 202010722500A CN 111813580 A CN111813580 A CN 111813580A
Authority
CN
China
Prior art keywords
model
queue
node
message
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010722500.1A
Other languages
English (en)
Other versions
CN111813580B (zh
Inventor
王彪
王亚强
曹亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Cheng Xin High Tech Information Technology Co ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Cheng Xin High Tech Information Technology Co ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Cheng Xin High Tech Information Technology Co ltd, Chengdu University of Information Technology filed Critical Chengdu Cheng Xin High Tech Information Technology Co ltd
Priority to CN202010722500.1A priority Critical patent/CN111813580B/zh
Publication of CN111813580A publication Critical patent/CN111813580A/zh
Application granted granted Critical
Publication of CN111813580B publication Critical patent/CN111813580B/zh
Withdrawn - After Issue legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3247Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving digital signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于矩阵表示的分布式模型训练优化方法,方法包括:节点配置,在子节点中搭建神经网络,通过前向传播获取参数,随机梯度下降算法更新参数,将节点搭建成完全二叉树集群的形式;消息上传,在不同的主机上搭建通讯协议,子节点将消息通过消息队列并行传输到根节点,并对神经网络中的节点进行验证;模型上传,将模型文件分割成等份,并标注索引,采用并行IO流的方式将模型文件上传到根节点;安全检测,根节点对消息队列进行安全检查,确认安全后,从队列中取出模型文件,按照分割后的模型的索引号组成完整的模型,并将其作为当前神经网络的隐含层进行迁移学习的训练。通过本方案能大大减少分布式训练的耗时,并提高模型的训练效率。

Description

一种基于矩阵表示的分布式模型训练优化方法
技术领域
本发明涉及深度学习领域,尤其涉及一种基于矩阵表示的分布式模型训练优化方法。
背景技术
深度学习是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。至今深度学习模型在计算机视觉、语音识别、自然语言处理、音频识别等领域取得了广泛的应用。用于计算机视觉的深度学习模型由一系列内部连接的深度学习模型网络层组成,输入数据经由深度学习模型网络层处理后得到输出。深度学习模型的网络层数目通常高达几十层,参数量更是达到百万级,因此训练深度学习模型的是计算密集型任务。
现代数据智能挖掘技术在图像识别、语音识别、自然语言处理等领域表现突出,深度神经网络中通常包含大量可训练的参数,因此训练出一个性能良好的神经网络需要耗费大量时间。另一方面,为了能从海量的数据中学习到更有价值的特征,深度神经网络的层次正不断加深,但是进一步增加了训练的耗时。
发明内容
本发明的目的在于克服现有技术的不足,提供基于矩阵表示的分布式模型训练优化方法,基于卷积神经网络典型的现代数据智能挖掘技术,将卷积计算、池化处理以及梯度计算过程抽象为矩阵表示,采用矩阵计算的方法优化分布式模型训练,减少模型训练的耗时。
本发明的目的是通过以下技术方案来实现的:
一种基于矩阵表示的分布式模型训练优化方法,方法包括以下步骤:
S1,节点配置,在子节点中搭建神经网络,通过前向传播获取参数,随机梯度下降算法更新参数,将节点搭建成完全二叉树集群的形式;
S2,消息上传,在不同的主机上搭建通讯协议,叶子节点将消息通过消息队列并行传输到根节点,并使用算法对神经网络中所有节点进行节点验证;
S3,模型上传,将模型文件分割成等份,并标注索引,开启线程采用并行IO流的方式,通过模型队列将模型文件上传到根节点;
S4,安全检测,根节点首先对消息队列进行安全检查,确认安全后,从模型队列中取出模型文件,按照分割后的模型的索引号组建成完整的模型,将这个模型作为当前神经网络的隐含层进行迁移学习的训练。
具体的,所述步骤S1中节点配置过程具体包括:
S101,设置一个管理者manger,在创建n个容器部署在不同的机器上面,将容器记为节点node,将数据集平分为n份,设置节点控制表;
S102,对数据集进行排序,并将排好序的前n个数据集子集分别送入node中,设置一个周期的时间片T;
S103,在子节点中搭建神经网络,通过前向传播取参数,并利用随机梯度下降算法更新参数,将节点搭建成完全二叉树的形式,每个树节点采用相同数据结构。
具体的,所述步骤S2中消息上传具体包括:
S201,每个周期结束后,从叶子节点开始,以异步并行的方式向根节点报备消息;
S202,非叶子节点将收到的信息结合自身状态码、公钥和消息认证码,依次入队到消息队列中,并将消息上传到根据节点。
具体的,所述步骤S3中模型上传过程具体包括:
S301,每两个周期结束后,子节点保存一次模型到模型队列中,队列元素后接有模型文件情况说明表,标注节点ID,loss值等信息;
S302,进行模型周期性上传时,将模型文件分割成等份,并对每份模型文件标注索引;
S303,开启一定量的线程,每个线程为其分配的任务保存一个双向链式队列,将分割好的模型文件平均分配到双向链式队列中,采用并行IO流的方式上传模型文件到根节点;
S304,线程每完成一个模型文件上传任务,从模型队列的队列头取出下一个任务开始执行,当某个线程完成其分配的任务时,从消息队列的队尾上取出一个任务执行,直至所有任务都执行完毕,所有队列清空。
具体的,所述步骤S4中消息队列的安全检测过程具体包括:
S401,根节点接收到消息队列上传的消息后,通过签名聚合和密钥聚合的算法,对子节点进行安全检测;
S402,确认子节点安全后,根节点接收消息队列并取出自身队列的队尾元素,结合收到的消息队列组成新的队列上传到父节点,同时向父节点报备;
S403,父节点按照后续递归对遍历整个集群,找到最后一个节点,将其消息队列中的元素出队,查看状态码;
S404,根据状态码的状态,查询该状态码id,找到主机重启该容器,取出模型队列队尾存储的模型,待该主机重启容器完后,用取出的模型进行迁移学习继续训练,并清空队列元素。
具体的,所述状态码的状态包括因网络延迟等不可靠因素而阻塞、文件传输的消息等待和正在运行三种状态。
本发明的有益效果:本发明将卷积计算、池化处理以及梯度计算过程抽象为矩阵表示,采用矩阵计算的方法优化分布式模型训练,可大大减少模型训练的耗时,进一步提高模型的训练效率。
附图说明
图1是本发明的方法流程图。
图2是本发明的完全二叉树集群架构图。
图3是本发明的完全二叉树数据结构图。
图4是本发明的文件分割与并行IO流的设计模式图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,如图1所示,一种基于矩阵表示的分布式模型训练优化方法,方法主要包括以下步骤:
步骤1,节点配置,在子节点中搭建神经网络,通过前向传播获取参数,随机梯度下降算法更新参数,将节点搭建成完全二叉树集群的形式。
步骤2,消息上传,在不同的主机上搭建通讯协议,叶子节点将消息通过消息队列并行传输到根节点,并使用算法对神经网络中所有节点进行节点验证。
步骤3,模型上传,将模型文件分割成等份,并标注索引,开启线程采用并行IO流的方式,通过模型队列将模型文件上传到根节点。
步骤4,安全检测,根节点首先对消息队列进行安全检查,确认安全后,从模型队列中取出模型文件,按照分割后的模型的索引号组建成完整的模型,将这个模型作为当前神经网络的隐含层进行迁移学习的训练。
其中,如图2所示,在节点配置过程中,设置一个管理者manger,再创建n个容器部署在不同的机器上面,将容器记为节点node,平分数据集n份,设置节点控制表。节点控制表用来记录节点id,节点对应的数据集,当前批次误差值,将排好序的前n个数据集子集分别送入node中,设置一个周期的时间片T,在子节点中搭建神经网络,通过前向传播获取参数,随机梯度下降算法更新参数,将节点搭建成完全二叉树集群的形式,完全二叉树的数据结构如图2所示,包括左指针、消息队列、模型队列和右指针。本发明的完全二叉树架构能实现子节点的松耦合,比起常规的模型训练方法能实现模型并行和数据并行相结合,累积误差反向传播和标准误差逆向传播相结合的方法增加了架构处理数据的能力,子节点的单个批次快速训练,并使用异步IO流的方式实现数据的上传,拥有更强的容错机制。
对于传统的分布式架构模型并行和数据并行的训练方式来说,本架构采用基于二叉树形式的模型并行和数据并行相结合的方法,采用继承机制,根节点继承来自字节点的模型,并使用队列的形式存储模型,大量的缩短了训练时间(传统的没有实现模型并行会导致gpu集群的利用率不够,成串行训练的方式),实现模型的流通,并平均分配数据集到字节点上面,实现数据并行,提升了整个集群处理数据的综合性能,集群整体结构呈二叉树的形式,便于周期性交互时候的遍历和管理工作。
消息上传过程中,在不同的主机上搭建通讯协议,进行消息并行输到根节点,周期性传输一次,通过密码机制在树节点间设置安全协议防止黑客伪造消息进行攻击。各个节点之间流通的消息包括公钥签名、消息认证码以及消息摘要。其中,对消息摘要进行签名并将其附加到消息文本上。每个节点独立产生自己的私钥片段,然后将可验证的公钥广播出去,以及系统中其他节点需要验证本地节点的可靠性的信息。使用签名聚合和密钥聚合的算法,使所有的节点的验证都没有错误,每个节点达成一致,从而达到节点有可验证性、随机性、唯一性、确定性的效果。
具体的,消息传输在每个周期的时间传输一次,并由主节点负责检查子节点的状态码。状态码有以下几种状态,包括因网络延迟等不可靠因素而阻塞为-1,文件传输的消息等待为0,正在运行为1三种状态和状态码。本发明采用自发现的报备的方式将状态告知管理者,从叶子节点开始报备,在每个周期结束后,叶子节点采用异步并行的方式向根节点报备消息,非叶子节点将收到到的信息跟自身状态码,公钥,消息认证码的信息,依次入队到消息队列中,上传到根节点。根节点通过安全检测后,确认是自己的孩子节点上传的,才接受该消息队列,并取出自身队列的队尾元素跟收到的消息队列组成新的队列上传到根节点,并自动进行状态报备。报备完成后,系统管理员按照后续递归遍历整个集群,找到最后一个节点,以此将消息队列中的元素出队,查看状态码,如状态码为-1,则查询该状态码id,找到主机重启该容器,取出模型队列对尾存储的模型,待该主机重启完后,用取出的模型进行迁移学习继续训练,并清空队列元素,在该主机重启容器的时候,暂停对其孩子节点的训练,其双亲节点和兄弟节点的训练不受影响。
模型传输每两个周期结束,保存一次模型到模型队列中,队列元素后接一张模型文件情况说明表,标注节点id,loos值等重要信息。在进行模型周期性上传时候,如图4所示,采用并行IO流的方式上传模型文件,将模型文件切割成等份,并标注索引,开启一定量的线程,每个线程都会为分配给它的任务保存一个双向链式队列,将分割好的模型文件平均分配到双向链式队列中,每完成一个任务,就会从队列头上取出下一个任务开始执行。基于种种原因,某个线程可能很早就完成了分配给它的任务,而其他的线程还未完成,那么这个线程就会,随机选一个线程,从队列的尾巴上偷走一个任务。这个过程一直继续下去,直到所有的任务都执行完毕,所有的队列都清空。批次上传到根节点,在根节点接受模型前进行消息队列的传输,需先检查安全性,才能接受模型,确认安全后,再按照分割后的模型的索引号组建成完整的模型,将这个模型作为当前神经网络的隐含层进行迁移学习的训练。
按照这种方法,整个集群的节点同时开始工作,可以达到异步并行训练,并周期性交互,周期性检查系统安全性,在一定范围内允许系统出错,很大程度上优化了分布式模型训练的速度。并对子节点的模型训练给予一定范围的容错性,保存出错前的模型,并使用迁移学习的方法训练,在一定程度上减少了子节点重新训练的时间,在模型文件上传机制采取双端队列的数据结构,在二叉树每层内采用从队列对尾偷取任务的方式可以节省模型上传的时间。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于矩阵表示的分布式模型训练优化方法,其特征在于,方法包括以下步骤:
S1,节点配置,在子节点中搭建神经网络,通过前向传播获取参数,随机梯度下降算法更新参数,将节点搭建成完全二叉树集群的形式;
S2,消息上传,在不同的主机上搭建通讯协议,叶子节点将消息通过消息队列并行传输到根节点,并使用算法对神经网络中所有节点进行节点验证;
S3,模型上传,将模型文件分割成等份,并标注索引,开启线程采用并行IO流的方式,通过模型队列将模型文件上传到根节点;
S4,安全检测,根节点首先对消息队列进行安全检查,确认安全后,从模型队列中取出模型文件,按照分割后的模型的索引号组建成完整的模型,将这个模型作为当前神经网络的隐含层进行迁移学习的训练。
2.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤S1中节点配置过程具体包括:
S101,设置一个管理者manger,在创建n个容器部署在不同的机器上面,将容器记为节点node,将数据集平分为n份,设置节点控制表;
S102,对数据集进行排序,并将排好序的前n个数据集子集分别送入node中,设置一个周期的时间片T;
S103,在子节点中搭建神经网络,通过前向传播取参数,并利用随机梯度下降算法更新参数,将节点搭建成完全二叉树的形式,每个树节点采用相同数据结构。
3.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤S2中消息上传具体包括:
S201,每个周期结束后,从叶子节点开始,以异步并行的方式向根节点报备消息;
S202,非叶子节点将收到的信息结合自身状态码、公钥和消息认证码,依次入队到消息队列中,并将消息上传到根据节点。
4.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤S3中模型上传过程具体包括:
S301,每两个周期结束后,子节点保存一次模型到模型队列中,队列元素后接有模型文件情况说明表,标注节点ID,loss值等信息;
S302,进行模型周期性上传时,将模型文件分割成等份,并对每份模型文件标注索引;
S303,开启一定量的线程,每个线程为其分配的任务保存一个双向链式队列,将分割好的模型文件平均分配到双向链式队列中,采用并行IO流的方式上传模型文件到根节点;
S304,线程每完成一个模型文件上传任务,从模型队列的队列头取出下一个任务开始执行,当某个线程完成其分配的任务时,从消息队列的队尾上取出一个任务执行,直至所有任务都执行完毕,所有队列清空。
5.根据权利要求1所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述步骤S4中消息队列的安全检测过程具体包括:
S401,根节点接收到消息队列上传的消息后,通过签名聚合和密钥聚合的算法,对子节点进行安全检测;
S402,确认子节点安全后,根节点接收消息队列并取出自身队列的队尾元素,结合收到的消息队列组成新的队列上传到父节点,同时向父节点报备;
S403,父节点按照后续递归对遍历整个集群,找到最后一个节点,将其消息队列中的元素出队,查看状态码;
S404,根据状态码的状态,查询该状态码id,找到主机重启该容器,取出模型队列队尾存储的模型,待该主机重启容器完后,用取出的模型进行迁移学习继续训练,并清空队列元素。
6.根据权利要求5所述的一种基于矩阵表示的分布式模型训练优化方法,其特征在于,所述状态码的状态包括因网络延迟等不可靠因素而阻塞、文件传输的消息等待和正在运行三种状态。
CN202010722500.1A 2020-07-24 2020-07-24 一种基于矩阵表示的分布式模型训练优化方法 Withdrawn - After Issue CN111813580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010722500.1A CN111813580B (zh) 2020-07-24 2020-07-24 一种基于矩阵表示的分布式模型训练优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010722500.1A CN111813580B (zh) 2020-07-24 2020-07-24 一种基于矩阵表示的分布式模型训练优化方法

Publications (2)

Publication Number Publication Date
CN111813580A true CN111813580A (zh) 2020-10-23
CN111813580B CN111813580B (zh) 2022-07-15

Family

ID=72860999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010722500.1A Withdrawn - After Issue CN111813580B (zh) 2020-07-24 2020-07-24 一种基于矩阵表示的分布式模型训练优化方法

Country Status (1)

Country Link
CN (1) CN111813580B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365002A (zh) * 2020-11-11 2021-02-12 深圳力维智联技术有限公司 基于spark的模型构建方法、装置、系统及存储介质
CN114282688A (zh) * 2022-03-02 2022-04-05 支付宝(杭州)信息技术有限公司 一种两方决策树训练方法和系统
CN114981839A (zh) * 2020-12-21 2022-08-30 北京小米移动软件有限公司 一种模型传输方法、模型传输装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264842A (ja) * 2006-03-27 2007-10-11 Meiji Univ 電力価格ゾーン予測方法、及び電力価格ゾーン予測プログラム
US20090254519A1 (en) * 2008-04-02 2009-10-08 Honeywell International Inc. Method and system for building a support vector machine binary tree for fast object search
CN102915447A (zh) * 2012-09-20 2013-02-06 西安科技大学 一种基于二叉树支持向量机的分类方法
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN109564568A (zh) * 2017-02-13 2019-04-02 赛思研究所 分布式数据集索引
CN110633796A (zh) * 2019-09-05 2019-12-31 北京达佳互联信息技术有限公司 模型更新方法、装置、电子设备及存储介质
CN111325356A (zh) * 2019-12-10 2020-06-23 四川大学 一种基于演化计算的神经网络搜索分布式训练系统及训练方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264842A (ja) * 2006-03-27 2007-10-11 Meiji Univ 電力価格ゾーン予測方法、及び電力価格ゾーン予測プログラム
US20090254519A1 (en) * 2008-04-02 2009-10-08 Honeywell International Inc. Method and system for building a support vector machine binary tree for fast object search
CN102915447A (zh) * 2012-09-20 2013-02-06 西安科技大学 一种基于二叉树支持向量机的分类方法
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN109564568A (zh) * 2017-02-13 2019-04-02 赛思研究所 分布式数据集索引
CN110633796A (zh) * 2019-09-05 2019-12-31 北京达佳互联信息技术有限公司 模型更新方法、装置、电子设备及存储介质
CN111325356A (zh) * 2019-12-10 2020-06-23 四川大学 一种基于演化计算的神经网络搜索分布式训练系统及训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JAYADEVA 等: "Binary classification by SVM based tree type neural networks", 《PROCEEDINGS OF THE 2002 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS. IJCNN"02 (CAT. NO.02CH37290)》 *
温斯琴 等: "基于神经网络的计算机网络安全评价仿真模型", 《现代电子技术》 *
蔡念 等: "改进矩阵分解与卷积神经网络结合的推荐模型", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365002A (zh) * 2020-11-11 2021-02-12 深圳力维智联技术有限公司 基于spark的模型构建方法、装置、系统及存储介质
CN114981839A (zh) * 2020-12-21 2022-08-30 北京小米移动软件有限公司 一种模型传输方法、模型传输装置及存储介质
CN114282688A (zh) * 2022-03-02 2022-04-05 支付宝(杭州)信息技术有限公司 一种两方决策树训练方法和系统
CN114282688B (zh) * 2022-03-02 2022-06-03 支付宝(杭州)信息技术有限公司 一种两方决策树训练方法和系统

Also Published As

Publication number Publication date
CN111813580B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN106406896B (zh) 一种并行PipeLine技术的区块链建块方法
CN111813580B (zh) 一种基于矩阵表示的分布式模型训练优化方法
TWI743881B (zh) 用於在區塊鏈網路中添加節點的系統和方法
US10747780B2 (en) Blockchain-based data processing method and device
WO2021032138A1 (zh) 一种基于区块链系统的共识方法、装置及系统
CN108062672B (zh) 一种基于区块链智能合约的流程调度方法
CN111522800B (zh) 蜜獾拜占庭容错共识机制的区块链共识方法、节点及系统
CN111183625A (zh) 用于在区块链网络中删除节点的系统和方法
US11429566B2 (en) Approach for a controllable trade-off between cost and availability of indexed data in a cloud log aggregation solution such as splunk or sumo
CN110287205A (zh) 一种区块链跨分片交易数据处理方法及装置
CN110704438B (zh) 一种区块链中布隆过滤器的生成方法及装置
CN111813581B (zh) 一种基于完全二叉树的容错机制的配置方法
Vizier et al. Comchain: Bridging the gap between public and consortium blockchains
CN113704252A (zh) 规则引擎决策树实现方法、装置、计算机设备及计算机可读存储介质
CN114760135A (zh) 一种区块链容错共识方案的优化方法
Oliveira et al. Alea-BFT: practical asynchronous Byzantine fault tolerance
CN114157550A (zh) 一种基于无冲突事务合并的联盟区块链系统
CN113505021A (zh) 基于多主节点主从分布式架构的容错方法及系统
CN112612855A (zh) 高可用数据库日志接收队列、同步方法及装置
CN111061813A (zh) 用于区块链网络中的数据同步的方法、装置和计算设备
CN114327837A (zh) 一种基于消息队列的分布式任务调度运行系统及方法
Chitra et al. Committee selection is more similar than you think: Evidence from avalanche and stellar
Antunes et al. {Alea-BFT}: Practical Asynchronous Byzantine Fault Tolerance
CN116319111B (zh) 一种基于进化算法的数据链式传输方法及系统
CN111817894B (zh) 集群节点配置方法、系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned

Granted publication date: 20220715

Effective date of abandoning: 20220810

AV01 Patent right actively abandoned

Granted publication date: 20220715

Effective date of abandoning: 20220810