CN115936659A - 模型训练方法、系统、电子设备和计算机可读存储介质 - Google Patents
模型训练方法、系统、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN115936659A CN115936659A CN202111162667.8A CN202111162667A CN115936659A CN 115936659 A CN115936659 A CN 115936659A CN 202111162667 A CN202111162667 A CN 202111162667A CN 115936659 A CN115936659 A CN 115936659A
- Authority
- CN
- China
- Prior art keywords
- party
- model
- feature
- gradient
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/02—CAD in a network environment, e.g. collaborative CAD or distributed simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/02—Data centres
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Biophysics (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请实施例涉及运维技术领域,特别涉及一种模型训练方法、系统、电子设备和计算机可读存储介质,所述模型训练方法包括:向第三方上传所述第一方的模型的第一特征;接收所述第三方发送的特征矩阵;其中,所述特征矩阵是所述第三方根据所述第一特征和第二方上传的所述第二方的模型的第二特征生成的;根据所述特征矩阵对所述第一方的模型进行训练。本申请实施例提供的模型训练方法,可以快速解决新建运营点的运维冷启动问题,提升新建运营点的运维分析能力,从而提升用户的使用体验。
Description
技术领域
本申请实施例涉及运维技术领域,特别涉及一种模型训练方法、系统、电子设备和计算机可读存储介质。
背景技术
在电信行业的运维技术中,运营点的服务器收到故障报告后,需要对故障进行分析,进行与故障相应的处理,如派发故障单或进行自愈等操作,运营点服务器对故障的分析,可以通过故障分析模型来学习历史故障相关的数据,包括故障本身的数据,相关告警的数据和最终解决该故障的数据等,从而分析出导致故障的真实原因,故障是否可以自愈,多长时间能够自愈,以及解决该故障的推荐处理手段等内容。
但是海外运营点和5G专网园区运营点这些新建运营点来说,虽然运营点的规划和建设已经完成,但在运营点的运维方面缺乏进行机器学习的数据,没有成熟故障分析模型来定义哪些特征需要用于机器学习,运营点也就无法快速进行有效运维,这就是机器学习冷启动的问题。
然而,解决机器学习冷启动的整个过程速度较慢,耗时较长,因此无法快速提升新建运营点的运维分析能力,不能满足新建运营点的实际需求。
发明内容
本申请实施例的主要目的在于提出一种模型训练方法、系统、电子设备和计算机可读存储介质,可以快速解决新建运营点的运维冷启动问题,快速提升新建运营点的运维分析能力,从而提升用户的使用体验。
为实现上述目的,本申请实施例提供了一种模型训练方法,应用于第一方,该方法包括:向第三方上传所述第一方的模型的第一特征;接收所述第三方发送的特征矩阵;其中,所述特征矩阵是所述第三方根据所述第一特征和第二方上传的所述第二方的模型的第二特征生成的;根据所述特征矩阵对所述第一方的模型进行训练。
为实现上述目的,本申请实施例还提供了一种模型训练方法,应用于第三方,该方法包括:接收第一方发送的第一方的模型的第一特征和第二方发送的第二方的模型的第二特征;根据所述第一特征和所述第二特征,生成特征矩阵;向所述第一方发送所述特征矩阵;其中,所述特征矩阵用于供所述第一方根据所述特征矩阵对所述第一方的模型进行训练。
为实现上述目的,本申请实施例还提供了一种模型训练系统,包括:第一方,第二方和第三方;所述第一方用于向所述第三方发送所述第一方的模型的第一特征;所述第二方用于向所述第三方发送所述第二方的模型的第二特征;所述第三方用于根据所述第一特征和所述第二特征,生成特征矩阵,并向所述第一方发送所述特征矩阵;所述第一方还用于根据所述特征矩阵对所述第一方的模型进行训练。
为实现上述目的,本申请实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述应用于第一方的模型训练方法,或者执行上述应用于第三方的模型训练方法。
为实现上述目的,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述应用于第一方的模型训练方法,或者实现上述应用于第三方的模型训练方法。
本申请提出的模型训练方法、系统、电子设备和计算机可读存储介质,第一方可以向第三方上传第一方的模型的第一特征,并实时接收第三方回传来的特征矩阵,其中,特征矩阵是第三方根据第一特征,以及第二方上传的第二方的模型的第二特征生成的,第一放在接收到第三方发送的特征矩阵后,可以根据特征矩阵对第一方的模型进行训练,本申请的实施例,通过第一方和第二方共享特征的方式,实现横向联邦学习,使得第一方可以获取到第二方的特征,实现对第一方的特征的扩充,第一方作为新建运营点时没有足够的特征,通过特征矩阵进行特征的扩充,可以快速解决新建运营点的运维冷启动问题,快速提升新建运营点的运维分析能力,从而提升用户的使用体验,同时,本申请的实施例不共享第一方和第二方的业务数据,可以保证第一方和第二方的业务数据的安全性和隐私性。
附图说明
图1是根据本申请一个实施例的模型训练方法的流程图一;
图2是根据本申请一个实施例中,第一方、第二方和第三方之间的连接关系的示意图;
图3是根据本申请一个实施例中,第一方根据特征矩阵对第一方的模型进行训练的流程图一;
图4是根据本申请一个实施例中,第一方根据特征矩阵对第一方的模型进行训练的流程图二;
图5是根据本申请另一个实施例的模型训练方法的流程图二;
图6是根据本申请另一个实施例的模型训练方法的流程图三;
图7是根据本申请另一个实施例的模型训练方法的流程图四;
图8是根据本申请另一个实施例的模型训练方法的流程图五;
图9是根据本申请另一个实施例的模型训练系统的示意图;
图10是根据本申请另一个实施例的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
对于新建运营点来说,虽然运营点的规划和建设已经完成,但在运营点的运维方面缺乏进行机器学习的数据,没有成熟故障分析模型来定义哪些特征需要用于机器学习,运营点也就无法快速进行有效运维,这就是机器学习冷启动的问题,这种情况在海外的运营点场景和5G专网园区运营点场景比较常见,海外运营点虽然以传统4G网络建设居多,但未来也会走向5G建设;而随着5G的建设,其它工业行业在基于5G信息新基建基础上,可以通过切片虚拟化实现5G行业垂直关联工业,建立大量5G专网园区运营点,这两种情况在运维初期都缺少有标签的数据,无法进行有效的机器学习,也就无法快速进行有效的运维。
相关的解决机器学习冷启动的问题的方式有三种:第一种是通过人工分析、人工标注的方式为新建运营点的数据标注标签,从无到有地解决机器学习冷启动的问题;第二种是直接将成熟运营点的成熟的故障分析模型拿来使用,然后使用新建运营点的数据进行迭代更新;第三种是将成熟运营点的数据和新建运营点的数据汇聚在一起进行学习,从而进行机器学习调参。
本申请的发明人发现,使用第一种方式时需要人工参与,耗时耗力,整个过程很慢;使用第二种方式时,由于各运营点之间存在差异,各运营点面对的实际情况不同,特征也不会完全相同,直接将成熟运营点的成熟的故障分析模型拿来使用会产生较大的噪声,故障分析效果不好;使用第三种方式时,考虑到数据的合规性、安全性和隐私性等因素,各运营点可能无法共享业务数据。
为了解决上述解决机器学习冷启动的整个过程速度较慢、耗时较长、噪声较大、各运营点无法共享业务数据的问题,本申请的一个实施例提供了一种模型训练方法,应用于第一方的电子设备,其中,电子设备可以为终端或服务器,本实施例以及以下各实施例以服务器为例进行说明,下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施例的模型训练方法的具体流程可以如图1所示,包括:
步骤101,向第三方上传第一方的模型的第一特征。
步骤102,接收第三方发送的特征矩阵。
具体而言,第一方在对第一方的模型进行训练时,可以先向第三方上传第一方的模型的第一特征,并接收第三方回传的特征矩阵,其中,特征矩阵是第三方根据第一特征,以及第二方上传的第二方的模型的第二特征生成的。
示例性地,第一方的模型和第二方的模型均为故障分析模型,第一方为新建运营点,第二方为成熟运营点,即第二方拥有成熟的、收敛的模型,作为新建运营点的第一方在进行模型训练时缺少用于训练的特征,而作为成熟运营点的第二方拥有成熟的可用于模型训练的特征,第一方和第二方分别向第三方上传自身模型的特征,即第一方向第三方上传第一特征,第二方向第三方上传第二特征,第三方对第一特征和第二特征进行融合,生成特征矩阵,并将特征矩阵回传给第一方。
在一个例子中,第三方可以和若干第一方和一个第二方保持连接关系,第一方、第二方和第三方之间的连接关系可以如图2所示,若干第一方向第三方发送第一方的模型的第一特征,第二方向第三方发送的第二方的模型的第二特征。
步骤103,根据特征矩阵对第一方的模型进行训练。
示例性地,第一方在收到第三方发送的特征矩阵后,可以根据特征矩阵对第一方的模型进行训练。
在一个例子中,第一方根据特征矩阵对第一方的模型进行训练,可以通过如图3所示的各步骤实现,具体包括:
步骤201,依次将特征矩阵中的特征作为候选特征。
步骤202,遍历第一方的数据,判断是否有与候选特对应的第一方的数据,如果是,执行步骤203,否则,执行步骤206。
步骤203,判断与候选特征对应的各第一方的数据是否全相同,如果是,执行步骤206,否则,执行步骤204。
步骤204,将该候选特征作为目标特征。
在具体实现中,第一方收到第三方发送的特征矩阵后,可以根据该特征矩阵进行特征合并,即根据特征矩阵,依次将特征矩阵中的特征作为候选特征,基于候选特征遍历第一方的数据,在特征矩阵中查找与第一方的数据对应的特征,在找到与候选特对应的第一方的数据,且找到的与候选特征对应的各第一方的数据不全相同的情况下,第一方认定该候选特征是有效的、有意义的特征,可以用于第一方的模型的训练,第一方将该候选特征作为目标特征,只保留目标特征,可以避免第一方进行无效训练,。
步骤205,根据目标特征对第一方的模型进行训练。
在具体实现中,第一方在得到目标特征后,可以根据目标特征对第一方的模型进行训练。
步骤206,忽略该候选特征。
在一个例子中,若候选特征没有对应的第一方的数据,说明该特征与第一方无关,第一方可以忽略该候选特征。
在一个例子中,若候选特征对应的第一方的数据都是相同的,说明该特征对于第一方来说没有意义,第一方则忽略该候选特征。比如:某一候选特征为“故障网元类型”,与该特征对应的第一方的数据都是“传输网元”,第一方可以忽略“故障网元类型”这个候选特征。
在一个例子中,若候选特征对应的第一方的数据小于预设的稀疏阈值,说明该候选特征对于第一方来说过于稀疏,也没有意义,第一方则忽略该候选特征。比如:候选特征为“告警自动恢复时间”,预设的稀疏阈值为3,第一方的数据中只有两条告警时自动恢复的,其余告警均不是自动恢复的,即该候选特征只有两条对应的第一方的数据,第一方可以忽略“告警自动回复时间”这个候选特征。
本实施例,第一方可以向第三方上传第一方的模型的第一特征,并实时接收第三方回传来的特征矩阵,其中,特征矩阵是第三方根据第一特征,以及第二方上传的第二方的模型的第二特征生成的,第一放在接收到第三方发送的特征矩阵后,可以根据特征矩阵对第一方的模型进行训练,本申请的实施例,通过第一方和第二方共享特征的方式,实现横向联邦学习,使得第一方可以获取到第二方的特征,实现对第一方的特征的扩充,第一方作为新建运营点时没有足够的特征,通过特征矩阵进行特征的扩充,可以快速解决新建运营点的运维冷启动问题,快速提升新建运营点的运维分析能力,从而提升用户的使用体验,同时,本申请的实施例不共享第一方和第二方的业务数据,可以保证第一方和第二方的业务数据的安全性和隐私性。
在一个实施例中,第一方根据特征矩阵对第一方的模型进行训练,可以通过如图4所示的各步骤实现,具体包括:
步骤301,对第一方的数据进行特征向量化和标签标注。
在具体实现中,第一方可以根据特征矩阵中的特征,对第一方的业务数据进行特征工程,以获得第一梯度,第一方先根据特征矩阵中的特征对第一方的数据进行特征向量化和标签标注,得到特征向量化和标签标注后的第一方的数据,即可以用于训练的数据。
步骤302,将特征向量化和标签标注后的第一方的数据输入至预设的机器学习网络中,得到第一梯度,并将第一梯度上传至第三方。
在具体实现中,第一方得到特征向量化和标签标注后的第一方的数据后,可以将特征向量化和标签标注后的第一方的数据划分为测试数据和验证数据,按顺序输入至预设的机器学习网络中进行训练,在完成迭代训练后,第一方提取训练后的网络的梯度作为第一梯度,并发送给第三方。
在一个例子中,预设的机器学习网络可以为支持向量机的神经网络(SupportVector Machines,简称:SVM)、随机森林神经网络、图神经网络(Graph Neural Networks,简称:GNN)等。
步骤303,接收第三方发送的综合梯度。
具体而言,第一方将第一梯度发送至第三方后,可以接收第三方回传的综合梯度,其中,综合梯度是第三方根据第一梯度和第二梯度生成的,第二梯度是第二方根据第二方的数据和预设的机器学习网络训练得到的,第一方和第二方使用的是相同的网络。
步骤304,根据综合梯度对第一方的模型进行训练。
本实施例,所述根据所述特征矩阵对所述第一方的模型进行训练,包括:对所述第一方的数据进行特征向量化和标签标注;将特征向量化和标签标注后的所述第一方的数据输入至预设的机器学习网络中,得到第一梯度,并将所述第一梯度上传至所述第三方;接收所述第三方发送的综合梯度;其中,所述综合梯度是所述第三方根据所述第一梯度和第二梯度生成的,所述第二梯度是所述第二方根据所述第二方的数据和所述预设的机器学习网络训练得到的;根据所述综合梯度对所述第一方的模型进行训练,第一方、第二方各自训练得到梯度,第三方对第一方的梯度和第二方的梯度进行聚合,得到更加科学、符合真实情况的综合梯度,第一方根据综合梯度来对第一方的模型进行训练,可以进一步提升模型训练的效果。
本申请的另一个实施例提供了一种模型训练方法,应用于第一方的电子设备,下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,本实施例的模型训练方法的具体流程可以如图5所示,包括:
步骤401,向第三方上传第一方的模型的第一特征。
步骤402,接收第三方发送的特征矩阵。
步骤403,根据特征矩阵对第一方的模型进行训练。
其中,步骤401至步骤403与步骤101至步骤103大致相同,此处不再赘述。
步骤404,向第三方发送训练后的第一方的模型的第一评价数据。
在具体实现中,第一方在根据特征矩阵对第一方的模型进行训练后,可以向第三方发送训练后的第一方的模型的第一评价数据,其中,第一评价数据用于表征训练后的第一方的模型对第一方的数据的分类情况。
步骤405,在收到第三方发送的第一发布指示的情况下,发布训练后的第一方的模型。
在具体实现中,第一方向第三方发送训练后的第一方的模型的第一评价数据后,可以在收到第三方发送的第一发布指示的情况下,发布训练后的第一方的模型,其中,第三方在根据第一评价数据和第二评价数据判断训练后的第一方的模型收敛的情况下,向第一方发送第一发布指示,第二评价数据用于表征训练后的第二方的模型对所述第二方的数据的分类情况。
本实施例,在所述根据所述特征矩阵对所述第一方的模型进行训练之后,包括:向所述第三方发送训练后的所述第一方的模型的第一评价数据;其中,所述第一评价数据用于表征训练后的所述第一方的模型对所述第一方的数据的分类情况;在收到所述第三方发送的第一发布指示的情况下,发布训练后的所述第一方的模型;其中,所述第三方在根据所述第一评价数据和第二评价数据判断训练后的所述第一方的模型收敛的情况下,向所述第一方发送所述第一发布指示,所述第二评价数据用于表征训练后的所述第二方的模型对所述第二方的数据的分类情况,由第三方根据第一评价数据和第二评价数据判断第一方的模型是否收敛,若判断第一方的模型收敛,向第一方发送第一发布指示,可以更科学、准确地判断第一方的模型是否收敛,以获得效果更好的模型。
本申请的另一个实施例提供了一种模型训练方法,应用于第三方的电子设备,下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,本实施例的模型训练方法的具体流程可以如图6所示,包括:
步骤501,获取第一方发送的第一方的模型的第一特征和第二方发送的第二方的模型的第二特征。
在具体实现中,第一方在建立完成后,可以向第三方发送第一方的模型的第一特征,第三方选定第二方,指示第二方向第三方发送的第二方的模型的第二特征。
在一个例子中,第三方可以拉起若干第一方和若干第二方进行本实施例的模型训练方法。
步骤502,根据第一特征和第二特征,生成特征矩阵。
步骤503,向第一方发送特征矩阵,供第一方根据特征矩阵对第一方的模型进行训练,
在具体实现中,第三方在收到第一方发送的第一特征和第二方发送的第二特征后,可以对第一特征和第二特征进行汇聚,生成特征矩阵,并向第一方发送该特征矩阵,特征矩阵中包含第一特征和第二特征,第一方在收到特征矩阵后,可以根据特征矩阵对第一方的模型进行训练。
本申请的另一个实施例提供了一种模型训练方法,应用于第三方的电子设备,下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,本实施例的模型训练方法的具体流程可以如图7所示,包括:
步骤601,接收第一方发送的第一方的模型的第一特征和第二方发送的第二方的模型的第二特征。
步骤602,根据第一特征和第二特征,生成特征矩阵。
步骤603,向第一方发送特征矩阵,供第一方根据特征矩阵对第一方的模型进行训练。
其中,步骤601至步骤603与步骤501至步骤503大致相同,此处不再赘述。
步骤604,接收第一方发送的第一梯度和第二方发送的第二梯度。
在具体实现中,第三方可以实时获取第一方向第三方发送的第一梯度和第二方向第三方发送的第二梯度,第一梯度是第一方基于特征矩阵、第一方的数据和预设的机器学习网络训练得到的,第二梯度是第二方基于第二方的数据和预设的机器学习网络训练得到的,其中,第一方使用的预设的机器学习网络与第二方使用的预设的机器学习网络是相同的神经网络。
步骤605,对第一梯度和第二梯度进行聚合,生成综合梯度。
步骤606,向第一方发送综合梯度。
在具体实现中,第三方在收到第一方发送的第一梯度和第二方发送的第二梯度后,第三方可以根据预设的聚合算法,对第一梯度和第二梯度进行聚合,生成综合梯度,并向第一方发送综合梯度,供第一方根据所述梯度对第一方的模型进行训练,预设的聚合算法可以由本领域的技术人员根据实际需要进行设置,本申请的实施例对此不做具体限定。
在一个例子中,第三方在向第一方发送综合梯度之后,还可以向第二方发送综合梯度,供第二方根据综合梯度对第二方的模型进行训练。
在一个例子中,第一方向第三方发送的第一梯度为经过加密的第一梯度,第二方向第三方发送的第二梯度为经过加密的第二梯度,其中,第一梯度的加密方式与第二梯度的加密方式相同,对第一梯度、第二梯度进行加密,可以有效防止梯度攻击,提升整个模型训练过程的安全性、可靠性。
在一个例子中,第一方的数据和第二方的数据均为独立同分布的数据,若第一方和第二方不是相互独立的,进行横向联邦学习没有意义,因此要求第一方与第二方是相互独立的,防止进行无效的横向联邦学习,避免资源浪费,本实施例还要求第一方的数据和第二方的数据为同分布,可以有效加快训练速度,进一步减少解决机器学习冷启动的问题的耗时,进一步快速提升新建运营点的运维分析能力。
本申请的另一个实施例提供了一种模型训练方法,应用于第三方的电子设备,下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,本实施例的模型训练方法的具体流程可以如图8所示,包括:
步骤701,接收第一方发送的第一方的模型的第一特征和第二方发送的第二方的模型的第二特征。
步骤702,根据第一特征和第二特征,生成特征矩阵。
步骤703,向第一方发送特征矩阵,供第一方根据特征矩阵对第一方的模型进行训练。
其中,步骤701至步骤703与步骤501至步骤503大致相同,此处不再赘述。
步骤704,接收第一方发送的训练后的第一方的模型的第一评价数据,和第二方发送的训练后的第二方的模型的第二评价数据。
具体而言,第一评价数据用于表征训练后的第一方的模型对第一方的数据的分类情况,第二评价数据用于表征训练后的第二方的模型对第二方的数据的分类情况。
在一个例子中,模型以一个二分类模型的为例,若第一方有80个第一方的数据,其中,实际为真且学习为真的数据的数量为35,实际为真且学习为假的数据的数量为10,实际为假且学习为真的数据的数量为5,实际为假且学习为假的数据的数量为20,那么评价数据是35,10,5,20这一组数字,考虑到第一方缺乏可进行标签标注的数据,传输评价指标的效果不好,因此本实施例获取的是评价数据,可以使模型训练的过程更加科学。
步骤705,根据第一评价数据和第二评价数据,判断训练后的第一方的模型是否收敛。
步骤706,在确定训练后的第一方的模型收敛的情况下,向第一方发送第一发布指示,供第一方发布训练后的第一方的模型。
在一个例子中,第一方为若干个,第一评价数据为各第一方的第一评价数据,第三方可以根据各第一方的第一评价数据,计算全局评价值,根据各第一方的第一评价数据和第二评价数据,计算参考评价值,第三方将全局评价值和参考评价值进行比较,在确定全局评价值与参考评价值的差值小于预设的第一阈值的情况下,确定训练后的各第一方的模型收敛,向各第一方发送第一发布指示,供各第一方发布训练后的第一方的模型,其中,预设的第一阈值可以由本领域的技术人员根据实际需要进行设置。
在一个例子中,第三方还可以接收第二方发送的训练后的第二方的模型的评价指标值;其中,评价指标值包括以下任意组合:训练后的第二方的模型的准确率、训练后的第二方的模型的精确率和训练后的第二方的模型的召回率,第三方在收到第二方发送的训练后的第二方的模型的评价指标值后,可以判断训练后的第二方的模型的评价指标值是否大于训练前的第二方的模型的评价指标值,第三方在确定训练后的第二方的模型的评价指标值高于训练前的第二方的模型的评价指标值,或者训练后的第二方的模型的评价指标值与训练前的第二方的模型的评价指标值的差值小于预设的第二阈值的情况下,确定训练后的第二方的模型收敛,向第二方发送第二发布指示,供第二方发布训练后的所述第二方的模型,其中,预设的第二阈值可以由本领域的技术人员根据实际需要进行设置,只要训练后的第二方的模型的评价指标值没有下降过多,都是可以接受的,可以认为训练后的模型是收敛的,从而增强第二方的模型的训练效果。
在一个例子中,评价指标值为第一方的模型的精确率,训练前的第二方的模型的精确率为98%,预设的第二阈值为3%,若训练后的第二方的模型的精确率为98.7%,则第三方可以确定训练后的第二方的模型收敛;若训练后的第二方的模型的精确率为96%,则第三方可以确定训练后的第二方的模型收敛;若训练后的第二方的模型的精确率为94.4%,则第三方可以确定训练后的第二方的模型不收敛。
本申请的另一个实施例涉及一种模型训练系统,下面对本实施例的模型训练系统的细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本例的必须,图9是本实施例所述的模型训练系统的示意图,包括:第一方801、第二方802和第三方803。
第一方801用于向第三方803发送第一方801的模型的第一特征;
第二方802用于向第三方803发送第二方802的模型的第二特征;
第三方803用于根据第一特征和第二特征,生成特征矩阵,并向第一方801发送特征矩阵。
第一方801还用于根据特征矩阵对第一方801的模型进行训练。
不难发现,本实施例为与上述方法实施例对应的系统实施例,本实施例可以与上述方法实施例互相配合实施。上述实施例中提到的相关技术细节和技术效果在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述实施例中。
值得一提的是,本实施例中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本申请的创新部分,本实施例中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入,但这并不表明本实施例中不存在其它的单元。
本申请另一个实施例涉及一种电子设备,如图10所示,包括:至少一个处理器901;以及,与所述至少一个处理器901通信连接的存储器902;其中,所述存储器902存储有可被所述至少一个处理器901执行的指令,所述指令被所述至少一个处理器901执行,以使所述至少一个处理器901能够执行上述各实施例中应用于第一方的模型训练方法,或者执行上述各实施例中应用于第三方的模型训练方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请另一个实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (13)
1.一种模型训练方法,其特征在于,应用于第一方,所述方法包括:
向第三方上传所述第一方的模型的第一特征;
接收所述第三方发送的特征矩阵;其中,所述特征矩阵是所述第三方根据所述第一特征和第二方上传的所述第二方的模型的第二特征生成的;
根据所述特征矩阵对所述第一方的模型进行训练。
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述特征矩阵对所述第一方的模型进行训练,包括:
依次将所述特征矩阵中的特征作为候选特征;
遍历所述第一方的数据,在所述候选特征有对应的第一方的数据,且所述候选特征对应的各第一方的数据不全相同的情况下,将所述候选特征作为目标特征;
根据所述目标特征对所述第一方的模型进行训练。
3.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述特征矩阵对所述第一方的模型进行训练,包括:
对所述第一方的数据进行特征向量化和标签标注;
将特征向量化和标签标注后的所述第一方的数据输入至预设的机器学习网络中,得到第一梯度,并将所述第一梯度上传至所述第三方;
接收所述第三方发送的综合梯度;其中,所述综合梯度是所述第三方根据所述第一梯度和第二梯度生成的,所述第二梯度是所述第二方根据所述第二方的数据和所述预设的机器学习网络训练得到的;
根据所述综合梯度对所述第一方的模型进行训练。
4.根据权利要求1-3任一项所述的模型训练方法,其特征在于,在所述根据所述特征矩阵对所述第一方的模型进行训练之后,包括:
向所述第三方发送训练后的所述第一方的模型的第一评价数据;其中,所述第一评价数据用于表征训练后的所述第一方的模型对所述第一方的数据的分类情况;
在收到所述第三方发送的第一发布指示的情况下,发布训练后的所述第一方的模型;其中,所述第三方在根据所述第一评价数据和第二评价数据判断训练后的所述第一方的模型收敛的情况下,向所述第一方发送所述第一发布指示,所述第二评价数据用于表征训练后的所述第二方的模型对所述第二方的数据的分类情况。
5.一种模型训练方法,其特征在于,应用于第三方,所述方法包括:
接收第一方发送的第一方的模型的第一特征和第二方发送的第二方的模型的第二特征;
根据所述第一特征和所述第二特征,生成特征矩阵;
向所述第一方发送所述特征矩阵;其中,所述特征矩阵用于供所述第一方根据所述特征矩阵对所述第一方的模型进行训练。
6.根据权利要求5所述的模型训练方法,其特征在于,在所述向所述第一方发送所述特征矩阵之后,包括:
接收所述第一方发送的第一梯度和所述第二方发送的第二梯度;其中,所述第一梯度是所述第一方基于所述特征矩阵、所述第一方的数据和预设的机器学习网络训练得到的,所述第二梯度是所述第二方基于所述第二方的数据和所述预设的机器学习网络训练得到的;
对所述第一梯度和所述第二梯度进行聚合,生成综合梯度;
向所述第一方发送所述综合梯度;其中,所述综合梯度至少用于供所述第一方根据所述综合梯度对所述第一方的模型进行训练。
7.根据权利要求5所述的模型训练方法,其特征在于,在所述向所述第一方发送所述特征矩阵之后,包括:
接收所述第一方发送的训练后的所述第一方的模型的第一评价数据,和所述第二方发送的训练后的所述第二方的模型的第二评价数据;其中,所述第一评价数据用于表征训练后的所述第一方的模型对所述第一方的数据的分类情况,所述第二评价数据用于表征训练后的所述第二方的模型对所述第二方的数据的分类情况;
根据所述第一评价数据和所述第二评价数据,判断训练后的所述第一方的模型是否收敛;
在确定所述训练后的所述第一方的模型收敛的情况下,向所述第一方发送第一发布指示,供所述第一方发布训练后的所述第一方的模型。
8.根据权利要求7所述的模型训练方法,其特征在于,所述第一方为若干个,所述第一评价数据为各所述第一方的第一评价数据;
所述根据所述第一评价数据和所述第二评价数据,判断训练后的所述第一方的模型是否收敛,包括:
根据各所述第一方的第一评价数据,计算全局评价值;
根据各所述第一方的第一评价数据和所述第二评价数据,计算参考评价值;
在所述全局评价值与所述参考评价值的差值小于预设的第一阈值的情况下,确定训练后的各所述第一方的模型收敛,向各所述第一方发送第一发布指示,供各所述第一方发布训练后的所述第一方的模型。
9.根据权利要求6所述的模型训练方法,其特征在于,在所述向所述第一方发送所述综合梯度之后,包括:
向所述第二方发送所述综合梯度;其中,所述综合梯度还用于供所述第二方根据所述综合梯度对所述第二方的模型进行训练。
10.根据权利要求9所述的模型训练方法,其特征在于,在所述向所述第二方发送所述综合梯度之后,包括:
接收所述第二方发送的训练后的所述第二方的模型的评价指标值;其中,所述评价指标值包括以下任意组合:训练后的所述第二方的模型的准确率、训练后的所述第二方的模型的精确率和训练后的所述第二方的模型的召回率;
在所述评价指标值高于训练前的所述第二方的模型的评价指标值,或者所述评价指标值与训练前的所述第二方的模型的评价指标值的差值小于预设的第二阈值的情况下,确定训练后的所述第二方的模型收敛,向所述第二方发送第二发布指示,供所述第二方发布训练后的所述第二方的模型。
11.一种模型训练系统,其特征在于,包括:第一方,第二方和第三方;
所述第一方用于向所述第三方发送所述第一方的模型的第一特征;
所述第二方用于向所述第三方发送所述第二方的模型的第二特征;
所述第三方用于根据所述第一特征和所述第二特征,生成特征矩阵,并向所述第一方发送所述特征矩阵;
所述第一方还用于根据所述特征矩阵对所述第一方的模型进行训练。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的模型训练方法,或执行如权利要求5至10中任一项所述的模型训练方法。
13.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的模型训练方法,或实现如权利要求5至10中任一项所述的模型训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162667.8A CN115936659A (zh) | 2021-09-30 | 2021-09-30 | 模型训练方法、系统、电子设备和计算机可读存储介质 |
PCT/CN2022/087439 WO2023050778A1 (zh) | 2021-09-30 | 2022-04-18 | 模型训练方法、系统、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162667.8A CN115936659A (zh) | 2021-09-30 | 2021-09-30 | 模型训练方法、系统、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115936659A true CN115936659A (zh) | 2023-04-07 |
Family
ID=85780411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111162667.8A Pending CN115936659A (zh) | 2021-09-30 | 2021-09-30 | 模型训练方法、系统、电子设备和计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115936659A (zh) |
WO (1) | WO2023050778A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11244243B2 (en) * | 2018-01-19 | 2022-02-08 | Hypernet Labs, Inc. | Coordinated learning using distributed average consensus |
CN109492420B (zh) * | 2018-12-28 | 2021-07-20 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法、终端、系统及介质 |
CN110490738A (zh) * | 2019-08-06 | 2019-11-22 | 深圳前海微众银行股份有限公司 | 一种混合联邦学习方法及架构 |
CN112183730B (zh) * | 2020-10-14 | 2022-05-13 | 浙江大学 | 一种基于共享学习的神经网络模型的训练方法 |
CN112862011A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 基于联邦学习的模型训练方法、装置及联邦学习系统 |
-
2021
- 2021-09-30 CN CN202111162667.8A patent/CN115936659A/zh active Pending
-
2022
- 2022-04-18 WO PCT/CN2022/087439 patent/WO2023050778A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023050778A1 (zh) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929880A (zh) | 一种联邦学习方法、装置及计算机可读存储介质 | |
CN109711556B (zh) | 机巡数据处理方法、装置、网级服务器和省级服务器 | |
CN103796183B (zh) | 一种垃圾短信识别方法及装置 | |
CN112613024A (zh) | 一种数据交互方法、装置、系统及存储介质 | |
CN112860676B (zh) | 应用于大数据挖掘和业务分析的数据清洗方法及云服务器 | |
CN113255953B (zh) | Rru欠压风险预测方法、装置、系统、设备及介质 | |
CN112307331A (zh) | 一种基于区块链高校毕业生智能招聘信息推送方法、系统及终端设备 | |
CN103457763A (zh) | 基于策略的多通道信息分发方法和系统及自动化运维平台 | |
WO2017054307A1 (zh) | 用户信息的识别方法及装置 | |
CN111710153B (zh) | 交通流量的预测方法、装置、设备及计算机存储介质 | |
CN108416562A (zh) | 物流回单验证方法及装置 | |
CN115936659A (zh) | 模型训练方法、系统、电子设备和计算机可读存储介质 | |
CN112911272B (zh) | Iptv群障预警方法和系统 | |
CN116756518A (zh) | 基于联邦学习的云边协同电力缺陷识别方法及相关装置 | |
CN116306905A (zh) | 半监督非独立同分布的联邦学习蒸馏方法及装置 | |
CN113688385B (zh) | 轻量级分布式入侵检测方法 | |
CN115328786A (zh) | 一种基于区块链的自动化测试方法、装置和存储介质 | |
CN113487041B (zh) | 横向联邦学习方法、装置及存储介质 | |
CN112884165B (zh) | 面向联邦机器学习的全流程服务迁移方法与系统 | |
CN115412346B (zh) | 一种报文检测方法、装置、电子设备及存储介质 | |
CN112836770B (zh) | Kpi异常定位分析方法及系统 | |
CN114785605B (zh) | 网络异常检测模型的确定方法、装置、设备及存储介质 | |
CN117395630B (zh) | 基于4g网络通信技术的车联网智能终端及方法 | |
CN112887131B (zh) | 一种智慧城市通讯网络项目质量控制监理方法及系统 | |
CN105574693A (zh) | 物流信息质量评价方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |