CN116245086A - 文本处理方法、模型训练方法和系统 - Google Patents

文本处理方法、模型训练方法和系统 Download PDF

Info

Publication number
CN116245086A
CN116245086A CN202211549069.0A CN202211549069A CN116245086A CN 116245086 A CN116245086 A CN 116245086A CN 202211549069 A CN202211549069 A CN 202211549069A CN 116245086 A CN116245086 A CN 116245086A
Authority
CN
China
Prior art keywords
client
model
target
clients
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211549069.0A
Other languages
English (en)
Inventor
谢悦湘
董晨鹤
李雅亮
丁博麟
沈颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211549069.0A priority Critical patent/CN116245086A/zh
Publication of CN116245086A publication Critical patent/CN116245086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本处理方法、模型训练方法和系统。其中,该方法包括:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到。本申请解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。

Description

文本处理方法、模型训练方法和系统
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种文本处理方法、模型训练方法和系统。
背景技术
联邦学习是一种可以在保护数据隐私的同时联合多个数据源进行训练的范式,已被广泛应用到金融、医疗和自然科学等领域。在联邦学习过程中,各个客户端利用本地数据进行本地孙连,并上传更新后的模型参数给服务器,由服务器将这些模型参数进行联邦聚合病更新全局模型,然后将新的模型参数分别发送给客户端。
但是,在异构场景中,由于当参与联邦学习的不同客户端之间存在异构性,也即,参与联邦学习的不同客户端之间的数据领域、任务类型、模型架构等方面存在显著差异的情况下,简单的将这些客户端进行联合训练会产生严重的梯度更新冲突并损害各个客户端的模型性能,导致联邦学习的应用受到了很大的限制。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本处理方法、模型训练方法和系统,以至少解决在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到。
根据本申请实施例的另一方面,还提供了一种模型训练方法,包括:目标客户端接收服务器发送的目标客户端对应的原始模型参数;目标客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到目标客户端对应的第一模型梯度;目标客户端发送目标客户端对应的第一模型梯度至服务器,并接收服务器发送的目标客户端对应的目标模型参数,其中,目标模型参数通过对原始模型参数和第一客户端上传的第一模型梯度进行聚合得到;目标客户端基于目标客户端对应的目标模型参数对本地部署的处理模型的模型参数进行更新,得到文本处理模型,其中,文本处理模型用于对待处理文本数据进行自然语言处理。
根据本申请实施例的另一方面,还提供了一种模型训练方法,包括:服务器发送多个客户端对应的原始模型参数至多个客户端,并接收多个客户端上传的第一模型梯度;服务器对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;服务器发送多个客户端对应的目标模型参数至多个客户端,其中,目标模型参数用于对本地部署的处理模型的模型参数进行更新。
根据本申请实施例的另一方面,还提供一种模型训练系统,包括:多个客户端;服务器,与多个客户端连接,用于生成多个客户端对应的原始模型参数至多个客户端;多个客户端用于利用本地存储的训练文本和对应的原始模型参数对本地部署的处理模型进行训练,得到多个客户端对应的第一模型梯度;服务器还用于基于多个客户端对应的第一模型梯度对多个客户端进行聚类,得到每个客户端对应的第一客户端,并对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;多个客户端还用于基于对应的目标模型参数对本地部署的处理模型的模型参数进行更新。
根据本申请实施例的另一方面,还提供一种图像处理方法,包括:目标客户端获取待处理图像;目标客户端利用图像处理模型对待处理图像进行图像处理,得到待处理图像的图像处理结果;其中,图像处理模型部署在目标客户端本地,图像处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器基于第一客户端上传的第一模型梯度对目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
根据本申请实施例的另一方面,还提供一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的文本处理方法。
根据本申请实施例的另一方面,还提供一种计算机终端,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行上述实施例中任意一项的文本处理方法。
在本申请实施例中,采用服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类,得到第一客户端,服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到模板模型参数,服务器发送目标模型参数至目标客户端作为文本处理模型的模型参数的方式对文本处理模型进行训练,然后在模型推理过程中,目标客户端获取待处理文本数据,并利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,容易注意到的是,针对不同客户端设置唯一的全局模型,也即给定不同客户端唯一的原始模型参数,并基于不同客户端相似的客户端集合进行模型参数的聚合,达到联邦学习的目的,一方面提高了不同客户端之间的关联,保证了处理结果的准确性,另一方面还提高了每个客户端的个性化,从而使联邦学习在自然语言处理更加灵活,达到了更好的联邦学习效果,进而解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种文本处理方法的计算环境的结构框图;
图3是根据本申请实施例1的一种文本处理方法的流程图;
图4是根据本申请实施例1的一种聚类联邦学习的框架示意图;
图5是根据本申请实施例1的一种集群对比学习的框架示意图;
图6是根据本申请实施例2的一种模型训练方法的流程图;
图7是根据本申请实施例3的一种模型训练方法的流程图;
图8是根据本申请实施例4的一种模型训练系统的结构框图;
图9是根据本申请实施例5的一种图像处理方法的流程图;
图10是根据本申请实施例6的一种模型训练装置的示意图;
图11是根据本申请实施例7的一种模型训练装置的示意图;
图12是根据本申请实施例8的一种模型训练装置的示意图;
图13是根据本申请实施例9的一种图像处理装置的示意图;
图14是根据本申请实施例10的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
自然语言处理:指对自然文本相关的领域进行处理的研究领域,如对文本情绪进行分类、找到问题在文档中的答案、生成新闻摘要等。
对比学习:一种自监督训练算法,通过构建正负样本与对比损失,让模型对正负样本特性更好进行区分,达到提高模型表达能力与任务性能的目的。
聚类:可以将多个客户端分成多个由相似客户端组成的多个类的过程。
聚合:可以基于多个不同的模型参数生成一个单一的模型参数。
编码器:可以是神经网络模型中用于将原始数据,如图像或文本等映射成为隐藏层的结构。
解码器:可以是神经网络模型中用于将隐藏层映射成重构数据的结构。
模型梯度:可以是模型参数的更新方向。
目前,由于数据保护相关的法律法规的逐步出台,用户的本地数据的隐私保护问题越来越受到重视,而联邦学习作为一种隐私计算的机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和法律法规的要求下,进行数据使用和机器学习建模,被学术界和工业界广泛应用于金融、医疗和自然科学等技术领域中。
但是在自然语言处理、计算机视觉等领域中,由于不同客户端之间的异构性,每个客户端所拥有的本地数据可能来自于多种不同的领域,其各自对应的训练目标、训练出的模型结构等也可能会不同,例如,在自然语言处理领域中,客户端A的训练目标是对自然语言的理解,其模型结构可以是理解任务中的编码器结构,而客户端B的训练目标是对自然语言的生成,其模型结构可以是生成任务中的编码-解码器结构,所以若直接对多个不同的客户端进行联合训练,可能会产生严重的梯度更新冲突,甚至会损害各个客户端的模型的性能,这也就意味着不能直接的对多个不同的客户端进行联合训练,导致了联邦学习在自然语言处理领域中的应用会受到了很大程度上的限制。
为了解决上述问题,本申请提供了一种针对异构场景的联邦学习方法,在引入联邦预训练的同时,提出了一种由粗到细粒度的集群联邦算法和一种集群对比学习算法,大大丰富了联邦学习的实际应用场景,让不同的客户端都能训练得到性能更优异的本地模型。
实施例1
根据本申请实施例,还提供了一种文本处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备)可以包括一个或多个(图中采用102a,102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的文本处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
图1示出的硬件结构框图,不仅可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为客户端一种实施例。图2是根据本申请实施例的一种文本处理方法的计算环境的结构框图,如图2所示,计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器,例如,云端服务器。一种可选实施例中,上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器或一组服务器20执行的网络服务。网络服务器是基于网络的用户服务,诸如模型训练。
在上述运行环境下,本申请提供了如图3所示的文本处理方法。图3是根据本申请实施例1的文本处理方法的流程图。如图3所示,该方法可以包括如下步骤:
步骤S302,目标客户端获取待处理文本数据。
上述的目标客户端可以是指用来执行自然语言任务的客户端,是参与本申请提供的集群联邦学习的任意一个客户端,其中集群联邦算法用于消除不同客户端之间的异构性,具体训练方法详见后面的描述。
上述的待处理文本数据可以是指需要进行自然语言处理的文本数据,例如网络评论、预选的文章等,对应的自然处理任务可以是指对网络评论进行情感分析,对预选的文章进行摘要提取等。此处的待处理文本数据可以是用户手动输入的文本数据,也可以是通过对用户发出的语音进行语音识别所得到的文本数据,但不仅限于此。
在利用联邦学习建立多个不同客户端之间的关联,从而实现对自然语言处理的过程中,可以首先根据每个客户端需要处理的自然语言任务,来获取待处理文本中不同的任务数据。
举例来说,当客户端需要进行的自然处理任务是对一段文字进行情感分析时,其获取到的待处理文本数据可以是这段文字的内容,具体的可以是文字实体数据、文字属性数据、文字观点数据、文字持有者的状态数据、文字时间数据等。
当客户端需要进行的自然处理任务是对一篇文件进行摘要提取时,其获取到的待处理文本数据可以是这篇文章的内容,具体的可以是文章段落数据、文章符号数据、文章词频数据、文章字词得分数据等。
需要说明的是,上述两个文本数据例子仅作示例性展示,不做具体限定,具体的目标客户端获取到的待处理文本数据可以根据实际情况确定,在此不做赘述。
步骤S304,目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果。
其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到。
上述的文本处理模型可以是指目标客户端中用来处理自然语言任务的模型,例如文本情感分析模型、文本摘要提取模型等,其一般部署在目标客户端对应的本地设备中,当客户端获取到前述的待处理文本数据之后,可以利用文本处理模型对该待处理数据进行处理。
上述的服务器可以是指用来进行联邦学习,关联多个不同客户端的服务器,可以是指云端服务器。
上述的目标模型参数可以是指由云端服务器下发的用来对客户端本地部署的处理模型(未完成训练的模型)进行更新的参数,不同客户端本地部署的处理模型的模型结构、训练任务和样本类型不同,其中,对于目标客户端,更新后的处理模型是上述的文本处理模型。
上述的第一客户端可以是指针对目标客户端对多个不同客户端中的其他客户端进行聚类后,得到的一个与目标客户端相似度最高的客户端集群,例如可以将处理自然语言理解方面的客户端聚类为一个集群,将处理自然语言生成方面的客户端聚类为一个集群等。
上述的第一模型梯度可以由每个客户端利用其本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练得到。
当目标客户端获取到需要处理的待处理文本数据之后,便可以利用本地部署的文本处理模型来对该待处理文本数据进行自然语言处理,得到最终的文本处理结果。
在一种可选的实施例中,由于在传统的集群联邦学习中,在对客户端进行训练时需要将多个不同的客户端预先分为多个客户端集群,服务器对每个集群都会对应维护一个全局模型,而利用该全局模型对客户端进行训练时,并不能充分的利用好不同客户端之间的关联性,最终训练出的客户端的个性化性能也较差,因此为了提高不同客户端之间的关联性和个性化性能,可以对每个客户端都对应维护一个唯一全局模型,并每个客户端的相似客户端进行聚类,得到上述的第一客户端,然后仅对相同聚类中的客户端的模型参数进行聚合,从而实现对每个客户端本地部署的处理模型进行优化,得到各自对应的文本处理模型。
在一种可选的实施例中,可以在云端服务器中,对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合处理,从而确定出上述的唯一全局模型更新后的模型参数,并将更新后的模型参数作为上述的目标模型参数,进而根据该目标模型参数,来对客户端中的处理模型的原始模型参数进行更新,得到最终的处理模型。
在本申请实施例中,采用服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类,得到第一客户端,服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到模板模型参数,服务器发送目标模型参数至目标客户端作为文本处理模型的模型参数的方式对文本处理模型进行训练,然后在模型推理过程中,目标客户端获取待处理文本数据,并利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,容易注意到的是,针对不同客户端设置唯一的全局模型,也即给定不同客户端唯一的原始模型参数,并基于不同客户端相似的客户端集合进行模型参数的聚合,达到联邦学习的目的,一方面提高了不同客户端之间的关联,保证了处理结果的准确性,另一方面还提高了每个客户端的个性化,从而使联邦学习在自然语言处理更加灵活,达到了更好的联邦学习效果,进而解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
本申请上述实施例中,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
在一种可选的实施例中,可以根据目标客户端上传的第一模型梯度,与其他客户端上传的第一模型梯度之间的相似度,来对多个客户端进行聚类得到上述的第一客户端。
具体的,对于每个客户端(包含目标客户端),可以首先利用本地存储的训练样本和原始模型参数,来对本地部署的处理模型进行下游联邦学习,得到相应的第一模型梯度,并上传至云端服务器。云端服务器在接收到所有客户端上传的第一模型梯度之后,可以针对每个客户端,计算该客户端与其他客户端上传的第一模型梯度之间的相似度,并根据计算出的相似度结果来对其他客户端进行聚类,确定出与该客户端相似的第一客户端。
本申请上述实施例中,第一客户端为排序后的至少一个客户端中排序靠前的预设数量的客户端,排序后的至少一个客户端是基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度,对至少一个客户端进行排序得到的。
上述的预设数量可以是一个固定值,例如3,也可以是一个变化值,具体数值可以根据多个客户端的总数量确定,或者根据相似度之间的差值确定,在此不做限定。
在一种可选的实施例中,对多个客户端进行聚类处理时,可以根据目标客户端与其他客户端的第一模型梯度的相似度来对多个客户端进行聚类。需要说明的是,目标客户端可以是指多个客户端中的任意一个,对多个客户端进行聚类,可以是指针对每个客户端都进行一次聚类处理。
具体的,服务器可以利用细粒度聚类的方法,首先获取所有客户端本地存储的处理模型的第一模型梯度,然后将目标客户端对应的第一模型梯度与其他客户端对应的第一模型梯度两两进行相似度的计算,并根据计算出的多个相似度来对其他客户端进行排序,根据排序结果选择Top-K(即排名靠前的预设数量)客户端作为与目标客户端相似度最高的客户端集群,即上述的第一客户端。
在一种可选的实施例中,可以根据每个梯度向量之间的距离,例如明式距离、欧式距离等,来计算出上述的相似度,具体的相似度计算方法不做限定。
本申请上述实施例中,目标模型参数为目标客户端对应的原始模型参数和目标客户端对应的更新参数之和,更新参数由第一客户端对应的数据量和第一客户端上传的第一模型梯度确定,其中,数据量用于表征第一客户端本地存储的训练样本的数据量。
可以通过如下公式确定目标模型参数的:
Figure BDA0003981357140000101
其中,i可以是指目标客户端在多个客户端中的编号,Ni可以是指前述的第一客户端,n可以是指在第一客户端中的第n个客户端,t可以是指当前是对多个客户端的第t轮训练,
Figure BDA0003981357140000102
可以是指前述的目标模型参数,/>
Figure BDA0003981357140000103
可以是指前述的目标客户端对应的原始模型参数,Dn可以是指第n个客户端本地存储的训练样本的数据量,Di可以是指第一客户端中所有客户端本地存储的训练样本的总数据量,/>
Figure BDA0003981357140000104
可以是指前述的第一客户端中第n个客户端上传的第一模型梯度。
在一种可选的实施例中,上述的目标模型参数还可以继续作为目标客户端下一次进行下游联邦学习中的原始模型参数,参与到目标客户端本地部署的处理模型的训练过程,直至所有客户端的模型结构都得到充分训练,模型的处理效率和处理准确度都达到预期要求。
本申请上述实施例中,文本处理模型包括:编码器和解码器,该方法还包括:利用目标客户端对应的原始模型参数和解码器对预设数据进行自然语言处理,得到目标客户端对应的原型特征;上传目标客户端对应的原型特征至服务器,其中,目标模型参数由服务器对第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和目标客户端对应的原始模型参数进行聚合得到,第二客户端由服务器基于目标客户端上传的原型特征和至少一个客户端上传的原型特征对至少一个客户端进行聚类得到。
上述的预设数据可以是指为多个客户端额外提供的公共数据集,可以是一个多个客户端共享的数据集,也可以是根据多个客户端的本地数据所生成的数据集。
上述的原型特征可以是指包含客户端异构信息的模型特征,基于该原型特征可以确定出不同客户端之间的异构处,以提高客户端个性化性能的对比特征。
上述的第二客户端可以是指根据每个客户端的原型特征对多个客户端进行聚类得到的与目标客户端相似的客户端集群。
在一种可选的实施例中,由于隐私保护的原因,在联邦学习期间客户端无法将私有模型架构的原始模型参数和模型梯度上传至服务器中,导致客户端的私有模型架构部分得不到充足的训练,进而导致模型的性能下降。因此为了避免上述问题,可以首先生成一个额外的公共数据集,即上述的预设数据,来为多个客户端进行模拟训练,从而提高对客户端进行聚类时的聚类结果,进而提高每个客户端的个性化性能。
由于不同的客户端之间的私有模型结构可能会不同,因此仅基于公共模型梯度进行聚类难以获得较好的聚类结果。因此,目标客户端可以首先根据目标客户端对应的原始模型参数,以及预设的解码器,来对前述的预设数据进行自然语言处理,得到目标客户端对应的原型特征,具体地,可以将预设数据送入本地部署的解码器以及多层感知器中,并根据解码器和感知器在各个位置出的平均输出特征来作为原型特征,然后将该原型特征引入至整个聚类和聚合的过程中,以更好地区分具有不同任务和模型架构的客户端,从而提高确定出的目标模型参数对客户端本地部署的处理模型的效果,进而提高对待处理文本的处理效果。在一种可选的实施例中,可以通过如下公式确定目标模型参数:
Figure BDA0003981357140000111
其中,上述的
Figure BDA0003981357140000112
和/>
Figure BDA0003981357140000113
分别可以是第一客户端和第二客户端;上述的/>
Figure BDA0003981357140000114
可以是指第一客户端中第j个客户端上传的第一模型梯度;上述的/>
Figure BDA0003981357140000115
可以是指第二客户端中第k个客户端上传的第二模型梯度;上述的Dj可以是第j个客户端本地存储的训练样本的数据量;上述的/>
Figure BDA0003981357140000116
可以是第一客户端中所有客户端本地存储的训练样本的总数据量;上述的Dk可以是第k个客户端本地存储的训练样本的数据量;上述的/>
Figure BDA0003981357140000117
可以是第二客户端中所有客户端本地存储的训练样本的总数据量;上述的γ可以是指一个超参数,一般可以用来控制基于原型特征进行聚合时的强度。
在一种可选的实施例中,根据原型特征对多个客户端进行聚类的过程可以参照前述的根据第一模型梯度对多个客户端进行聚类,在此不做赘述。
本申请上述实施例中,文本处理模型包括:编码器,该方法还包括:利用编码器对本地存储的训练样本进行特征编码,得到目标客户端对应的编码特征;发送目标客户端对应的编码特征至服务器;接收服务器返回的预设数据,其中,预设数据由服务器基于混合特征和对混合特征对应的处理结果生成,混合特征由服务器对目标客户端上传的编码特征和至少一个客户端上传的编码特征进行混合得到,处理结果由服务器利用本地部署的预设处理模型对混合特征进行处理得到。
上述的混合特征可以是指根据预设的权重,对多个客户端生成的编码特征进行混合处理得到的特征。
上述的预设处理模型可以是服务器中部署的全局掩码语言建模预测器,主要是针对自然语言理解任务,功能是每个训练回合随机对输入句子中一定比例的词进行掩码替换,并经过编码器对应掩码位置的特征用一个线性预测器进行单词预测,目标是预测出被掩盖的原始词,使得模型能更好地捕捉到输入句子中每个词与上下文的依赖关系,可以更好地理解输入语境。
上述的混合特征对应的处理结果可以是利用上述的全局掩码语言建模预测器进行单词预测所得到的单词。
在一种可选的实施例中,考虑到不同客户端的数据分布不同,随意生成的公共数据集可能并不适用于所有客户端的处理模型的训练,例如客户端A的处理模型主要是对文本数据进行处理,而客户端B的处理模型主要是对图像数据进行处理时,上述的公共数据可能就不能同时适用于对模型A和B的训练。因此,每个客户端可以首先利用本地部署的编码器来对本地存储的训练样本进行编码处理,以得到上述的编码特征,并上传至服务器。在服务器中可以对所有客户端上传的多个编码特征进行混合,得到上述的混合特征,然后将混合特征送入预设处理模型,以生成合成输入词,即上述的预设数据,此时的预设数据包含混合特征和合成输入词,从而在保证客户端隐私安全的同时,提高训练出的模型的效果。
在一种可选的实施例中,为了避免生成的多个预设数据过于平滑,导致生成多个一样的输入词,影响训练出的模型的处理效果,因此对多个编码特征进行处理时,可以以随机分布的权重,将多个编码特征进行混合处理,从而生成多个差异性较大的合成输入词。
具体的,可以在多个客户端中随机指定一个客户端作为主体,将该客户端对应的混合权重设置为一个较大的值,然后将其余客户端的权重设置为一个较小的值,最后便可以根据权重来对多个编码特征进行混合处理,来得到上述的混合特征。
本申请上述实施例中,该方法还包括:获取第一客户端对应的原型特征的加权和,得到正特征,并获取第二客户端对应的原型特征的加权和,得到负特征;基于目标客户端对应的原型特征、正特征和负特征,构建文本处理模型的第一损失函数;基于原型特征对应的文本处理结果和本地存储的训练样本对应的预设处理结果,构建文本处理模型的第二损失函数;获取第一损失函数和第二损失函数的加权和,得到文本处理模型的总损失函数。
上述的正特征可以是指与客户端的个性化性能相关的特征,例如在自然语言理解性能中的情感解析特征。
上述的负特征可以是指与客户端的个性化性能无关的特征,例如在自然语言理解性能中的摘要提取特征。
在一种可选的实施例中,为了进一步的提高每个客户端的个性化性能,从而提高整体联邦学习的效果,还可以利用对比学习的方式,引导每个客户端的原型特征与所属集群内外的客户端更接近或更远,来对客户端的个性化性能进行优化。
具体的,可以根据前述根据模型梯度对多个客户端进行聚类得到的聚类结果,首先对前述第一客户端中所有客户端的原型特征进行加权求和,得到一个与目标客户端的个性化方向密切相关的正特征,同时对前述第二客户端中多个客户端的原型特征也进行加权求和,得到一个与目标客户端的个性化方向无关的负特征,然后利用正特征和负特征来对目标客户端进行优化。
在得到正特征和负特征之后,可以进一步引入监督学习来对目标客户端的训练结果进行优化。具体的,可以利用对比学习损失,即上述的第一损失函数,以及监督学习损失,即上述的第二损失函数,来确定出目标客户端对应文本处理模型的总损失函数,当总损失函数满足预设条件,例如小于预设值,或者不在下降时,确定训练成功。
在一种可选的实施例中,可以根据目标客户端的原型特征、正特征和负特征,来构建上述的第一损失函数。可以通过如下公式计算上述的第一损失函数:
Figure BDA0003981357140000131
其中,上述的
Figure BDA0003981357140000132
可以是指上述的第一损失函数,上述的hi、hj和hk可以是指客户端i,j和k的原型特征,上述的sim为余弦相似度,上述的τ是温度系数。
在一种可选的实施例中,可以根据对原型特征的处理结果,以及对目标客户端本地存储的训练样本的预处理结果,来构建上述的第二损失函数,此处的预处理结果可以是指对训练样本进行标注确定的真实处理结果。需要说明的是,第二损失函数的构建过程可以采用相关技术实现,在此不做赘述
在一种可选的实施例中,还可以对上述的第一损失函数和第二损失函数进行加权求和,已得到族中的总损失函数。
本申请上述实施例中,该方法还包括:接收服务器发送的预设训练任务和初始模型参数;利用本地存储的训练样本和初始模型参数执行预设训练任务,得到目标客户端对应的第二模型梯度;上传目标客户端对应的第二模型梯度至服务器;接收服务器发送的目标客户端对应的原始模型参数,其中,原始模型参数通过对第三客户端上传的第二模型梯度和初始模型参数进行聚合得到,第三客户端为目标客户端所属的客户端集合中的客户端,客户端集合由服务器基于多个客户端上传的第二模型梯度对多个客户端进行聚类得到,多个客户端包括目标客户端和至少一个客户端。
上述的预设训练任务可以是指用来对消除不同客户端对应任务和处理模型的异构性的任务,例如掩码语言建模任务和去噪预训练任务。其中,掩码语言建模主要是针对自然语言理解方面的训练任务,去噪预训练任务主要是针对自然语言生成方面的训练任务,需要说明的是,上述两个预训练任务仅作示例性展示,具体的预训练任务的设置可根据实际情况,在此不做具体限定。
具体的,上述掩码语言建模任务可以是在每个训练回合随机对文本数据中一定比例的字词进行掩码替换,并根据对应的编码特征,利用一个预设的线性预测器来进行单词预测,预测出被掩盖的原始词,使模型能更好地捕捉到文本数据中每个词与上下文的依赖关系,可以更好地进行自然语言理解。
上述的去噪预训练任务可以是在每个训练回合对文本数据中的多个语句进行随机打乱或删除,然后通过编码-解码器结构自回归式地生成原始的文本数据,使得模型可以更好的学习到文本数据中多个语句的上下文依赖关系,从而更好的进行自然语言生成。
上述的初始模型参数可以是指服务器对所有客户端设置唯一的全局模型时使用到的模型参数,该参数可以随机生成,也可以由用户手动修改。
上述的第二模型梯度可以是指客户端在进行预设训练任务过程中产生的梯度。
上述的第三客户端可以是指与目标客户端对应聚类集合中的其他客户端。
在一种可选的实施例中,在训练过程中,服务器可以在每个训练回合为每个客户端分配预训练任务,客户端可以首先接收服务器发送的预设训练任务和初始模型参数,并基于其本地存储的训练样本和初始模型参数来执行预设训练任务,从而得到每个客户端在预训练过程中的模型梯度(即第二模型梯度),并服务器可以根据所有客户端上传的第二模型梯度来对多个客户端进行粗粒度聚类处理,从而确定出与目标客户端的相似度较高的客户端集群,并对客户端集群中的其他客户端第二模型梯度和初始模型参数进行聚合处理,以得到上述全局模型对应的原始模型参数,最后利用该原始模型参数继续对所有的客户端模型进行预训练训练,以保证每个客户端的模型结构相同,从而初步的解决不同客户端之间的异构性,加强执行各种下游任务的不同客户端数据中所包含的通用知识的流动和整合。
具体的,可以随机的从多个预设训练任务中,选取一个来发送给多个客户端,使得多个客户端在每轮训练中执行的预训练任务都相同,然后根据预训练结果,例如训练出的客户端的模型梯度,来对多个客户端进行聚类聚合处理,以构建出用来优化客户端模型结构的原始模型参数,从而使多个客户端的模型结构趋于一致,从而初步解决客户端任务异构和模型异构的问题。对处理后的多个客户端按照梯度相似度进行聚类,能够很大程度上提高对多个客户端的处理模型的优化效率。
在一种可选的实施例中,在为了识别具有相同分布和数据域之后,可以以凝聚聚类算法,以及模型梯度余弦相似性的原理分层方式区分不同的数据域。聚类过程由下至上进行,初始层将每个客户端梯度视为不同簇,之后每层聚类中将所有客户端梯度进行两两相似度的计算,将最相似的两个簇进行合并,重复执行直到簇总数达到设定值为止。具体地,首先可以按照第二模型梯度的大小,将多个第二模型梯度分为多个不同的数据域,然后再对不同数据域中的不同模型梯度进行处理,从而提高对多个客户端进行聚类的效率。在划分出多个数据域之后,可以按照数据域的大小,以由小至大的处理顺序,从每个数据域的多个第一模型梯度中选出一个目标梯度,计算出该目标梯度与数据域中其他模型梯度的相似度,将两个相似度较高的模型梯度进行合并,直至该数据域中合并剩余的模型梯度的数量达到一个预设值之后,便停止合并,至此对多个客户端进行粗粒度处理的分类处理完成。
本申请上述实施例中,该方法还包括:目标客户端在本地部署的处理模型未包含预设结构的情况下,接收服务器发送的预设参数模型;目标客户端基于预设参数模型在本地构建预设结构。
上述的预设结构可以是指客户端本地部署的处理模型中未包含的模型结构,例如解码器。
在一种可选的实施例中,为了使预训练过程能够更好地扩展到不同数量和类别的预训练任务,服务器可以首先判断客户端本地部署的处理模型中是否包含了上述的预设结构,以提高对多个客户端进行联邦学习的效率。
若包含,则说明客户端当前可以直接执行预设训练任务进行处理;若不包含,则服务器可以将该预设结构对应的模型参数,发送给该客户端,客户端再根据该预设参数模型在本地中构建上述的预设结构,以便使所有客户端的模型结构保持一致,以消除模型异构问题。
本申请上述实施例中,第一客户端由所述服务器基于从目标训练策略对至少一个客户端进行聚类得到,所述目标训练策略由所述服务器基于所述文本处理模型与所述至少一个客户端上部署的处理模型之间的差异类型从多个训练策略中确定,不同训练策略用于对不同差异类型的模型进行训练。
上述的至少一个客户端可以是指前述的目标客户端,可以是多个客户端中的任意一个。
上述的第一客户端可以是指与目标客户端相似度较高的客户端集合,如前述所示,可以由目标客户端和其他客户端的模型梯度之间的相似度来对多个客户端进行聚类得到。
上述的目标训练策略可以是指针对多个客户端之间存在的不同类型的异构问题时,所执行的具有针对性的训练策略。
在一种可选的实施例中,由于不同客户端之间可能会存在多种不同的差异类型,所以为了能够有效的解决不同差异类型对应的异构问题,可以针对不同的差异类型均对应预设一个训练策略。
在一种可选的实施例中,由于不同客户端之间可能存在多种不同的差异类型,例如客户端本地存储的训练数据存在差异、训练任务存在差异、模型结构存在差异等,而不同的差异类型之间可以是独立的,例如客户端A和B之间仅存在训练数据上的差异,客户C和D之间仅存在模型结构上的差异,因此在对多个客户端进行聚类时,可以具体根据目标客户端与其他客户端之间的差异类型,来从预设的多个训练策略中确定出目标训练策略,从而有针对性的来对目标客户端本地部署的处理模型进行训练。
在一种可选的实施例中,若客户端A和B之间仅存在训练数据上的差异,则上述的目标训练策略可以是指前述的粗粒度聚类策略;若客户端A和B之间仅存在训练任务上的差异,则上述的目标训练策略可以是指前述的细粒度聚类策略;若客户端A和B之间仅存在模型结构上的差异,则上述的目标训练策略可以是指前述的原型特征聚类策略。
本申请上述实施例中,差异类型包括如下至少之一:训练样本存在差异、训练任务存在差异和模型结构存在差异,所述多个训练策略包括:第一粒度聚类策略、第二粒度聚类策略和原型特征聚类策略,所述第一粒度聚类策略采用的聚类粒度大于所述第二粒度聚类策略所采用的聚类粒度。
上述的训练样本存在差异可以是指不同客户端各自在本地存储的训练样本的数据类型可能会存在差异。
上述的训练任务存在差异可以是指不同用来训练不同客户端的个性化性能的训练任务可能会存在差异。
上述的模型结构存在差异可以是指不同客户端各自在本地部署的处理模型的模型结构可能会存在差异。
上述的第一粒度聚类策略可以是指为了识别具有相同分布和数据域的客户端所执行的聚类策略。例如前述的以凝聚聚类算法,以及模型梯度余弦相似性的原理分层方式区分不同的数据域,并对不同数据域内每个客户端梯度进行合并的聚类策略。
上述的第二粒度聚类策略可以是指为了获取到具有相同任务类型的客户端所执行的聚类策略。例如前述的根据目标客户端与其他客户端的第一模型梯度的相似度来对多个客户端进行聚类处理时对应的聚类策略。
需要说明的是,由于在下游联邦学习过程中,不同客户端之间往往存在训练数据和训练任务两方面的差异,所以在下游对多个客户端进行聚类时,为了提高聚类效果,可以采用较小的聚类粒度来对多个客户但进行聚类处理,即上述第二粒度聚类策略所采用的聚类粒度要小于上述第一粒度聚类策略所采用的聚类粒度。
上述的原型特征聚类策略可以是指为了区分出具有不同模型架构的客户端,从而提高对多个客户端的聚类效果所执行的聚类策略。例如前述的将目标客户端对应的原型特征引入至对多个客户端的聚类和聚合过程中的聚类策略。
在一种可选的实施例中,可以利用上述的第一粒度聚类策略来对多个客户端之间存在的训练样本差异进行处理,例如前述的利用粗粒度聚类策略对多个客户端进行聚类处理。
由于不同客户端之间的训练样本可能会存在较大的差异,例如客户端A本地存储的训练样本数据是文本数据,而客户端B本地存储的训练样本数据是图像数据,则对多个客户端进行聚类时,就不能将客户端A和B聚类到一起,因此为了避免聚类错误的情况,可以首先根据每个客户端各自存储的本地训练数据,来对多个客户端进行初步聚类,将训练数据相同的多个客户端初步的聚集为一类,以消除不同客户端之间的训练样本存在的差异,从而提高后续对多个客户端进行准确聚类的效率。对多个客户端进行数据域划分的过程如前文所示,在此不再赘述。
此时对应的聚类粒度可以是指训练数据的类型。
在一种可选的实施例中,可以利用上述的第二粒度聚类策略来对多个客户端之间存在的训练任务差异进行处理,例如前述的利用细粒度聚类策略对多个客户端进行聚类处理。
由于不同客户端之间的处理任务方向可能不同,对应的用来训练客户端本地部署的处理模型的训练任务也会存在差异,例如客户端A的训练目标是对自然语言的理解,而客户端B的训练目标是对自然语言的生成,则此时就不能利用相同的训练任务来训练客户端A和B,所以就需要将客户端A和B聚类至不同的客户端集群中。因此为了避免聚类错误的情况,可以根据每个客户端对应的模型梯度,来对多个客户端进行聚类处理,以消除不同客户端之间的训练任务存在的差异。获取客户端对应的模型梯度的过程如前文所示,在此不再赘述。
此时对应的聚类粒度可以是指客户端之间的相似度大小。
在一种可选的实施例中,可以利用上述的原型特征聚类策略来对多个客户端之间存在的模型结构差异进行处理,例如前述的利用原型特征聚类策略来对多个客户端进行聚类处理。
由于不同客户端之间的私有模型结构可能不同,而仅利用公告模型梯度来对多个客户端进行分类难以获得较好的聚类效果,例如客户端A中存在编码器和解码器,而客户端B中只存在编码器,若此时根据客户端A和B的模型梯度对客户端A和B进行聚类时,可能会因两者的模型结构不同而导致处理结果不同,导致影响进行的下游联邦学习的效果,因此为了避免聚类错误的情况,可以根据每个客户端对应的原型特征,来对多个客户端进行聚类处理,以消除不同客户端之间的模型结构存在的差异。
获取客户端对应的原型特征的过程如前文所示,在此不再赘述。
为了便于对上述文本处理方法的理解,下面基于图4和图5对上述方法进行简要说明。
图4是根据本申请实施例1的一种聚类联邦学习的框架示意图。如图4所示,整个聚类联邦学习中包含服务器和多个客户端,在对多个客户端进行模型优化时,优化过程可以分为两部分,分别是左侧所示的预训练过程和右侧所示的下游联邦学习过程,其中,在预训练过程中,服务器在每个训练回合都会为各个客户端分配相同的预训练任务,以消除不同客户端之间的任务异构性和模型异构性;在训练完毕后,客户端可以根据本地存储的训练样本确定出各自的第一模型梯度,并将模型梯度上传完成服务器中,服务器根据第一模型梯度对多个客户端进行粗-细粒度聚类,然后对相同聚类中的客户端参数进行聚合,之后将聚合后的模型参数发送回对于客户端执行新一轮训练。在预训练完成后,便可以执行下游联邦学习,在下游联邦学习过程中,服务器端在参数聚合阶段根据梯度信息为各个客户端分别单独进行个性化的聚类,每个客户端选择与自己更新梯度最接近的多个客户端进行参数聚合,具体的聚类和聚合可以如前述所示。
图5是根据本申请实施例1的一种集群对比学习的框架示意图。如图5所示,在对多个客户端的模型进行训练前,可以首先执行左侧所示的预设数据生成步骤,即根据预训练阶段训练得到的编码器提取各个客户端的编码特征,并进行特征融合以得到合成编码特征;然后再利用掩码语言建模预测器对合成特征进行单词预测,生成合成输入词,即上述的预设数据。在生成预设数据之后,可以执行右侧所示的集群对比学习,将预设数据送入各个客户端的解码器中,以得到每个客户端对应的解码特征,并依据之前得到的细粒度聚类结果,将同一聚类中的客户端解码特征进行融合作为正样本,将其余特征作为负样本,通过对比学习拉近当前客户端解码特征与正样本之间的特征距离,拉远其与负样本之间的距离,从而提高每个客户端的个性化性能。
通过上述方案,通过预训练的方式初步地解决任务和模型异构性,加强了执行各种下游任务的不同客户端数据中所包含的通用知识的流动和整合,并初步地解决任务和模型异构性的问题。通过由粗到细粒度的聚类和集群对比学习的方法渐进地,有针对性地解决了数据、任务、模型这三种异构挑战,以达到更佳的模型联合训练效果,大大丰富了联邦学习的实际应用场景。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种模型训练方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本申请实施例2的一种模型训练方法的流程图,如图6所示,该方法可以包括如下步骤:
步骤S602,目标客户端接收服务器发送的目标客户端对应的原始模型参数。
上述的原始模型参数可以是指用来对客户端的处理模型进行训练的参数。
在对目标客户端的处理模型进行训练时,客户端可以首先获取到服务器下发的原始模型参数,来对客户端中的处理模型进行训练,具体如下文所示。
步骤S604,目标客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到目标客户端对应的第一模型梯度。
在构建出初始的处理模型之后,目标客户端可以利用其本地存储的训练样本,以及接收到的原始模型参数,来对本次部署的处理模型进行初步训练,得到能够反映模型参数更新方向的第一模型梯度,并将该模型梯度上传至服务器中,以提高后续确定出的用于训练处理模型的参数的准确度。
步骤S606,目标客户端发送目标客户端对应的第一模型梯度至服务器,并接收服务器发送的目标客户端对应的目标模型参数。
其中,目标模型参数通过对原始模型参数和第一客户端上传的第一模型梯度进行聚合得到。
为了提高不同客户端之间的关联性,提高联邦学习的应用,服务器可以对多个客户端进行聚类处理,然后利用聚类后的第一客户端来对目标客户端对应的目标模型参数进行聚合计算。
具体的,可以将继续确定出出目标客户端以外的其他客户端对应的多个第一模型梯度,并将这多个第一模型梯度上传至服务器中。服务器可以根据目标客户端上传的第一模型,计算出其与其他多个第一模型梯度的相似度,并将相似度较高的多个客户端进行聚类处理,以得到上述的第一客户端。
在确定出第一客户端之后,服务器便可以对第一客户端上传的多个第一模型梯度,以及目标客户端的原始模型参数进行聚合处理,得到最终的目标模型参数。
步骤S608,目标客户端基于目标客户端对应的目标模型参数对本地部署的处理模型的模型参数进行更新,得到文本处理模型。
其中,文本处理模型用于对待处理文本数据进行自然语言处理。
在服务器确定出可以用于对目标客户端处理模型进行训练的目标模型参数之后,可以将目标模型参数下发至目标客户端中,然后目标客户端可以根据该目标模型参数对其自身的处理模型的参数进行更新,以得到上述的文本处理模型。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例3
根据本申请实施例,还提供了一种模型训练方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例3的一种模型训练方法的流程图,如图7所示,该方法可以包括如下步骤:
步骤S702,服务器发送多个客户端对应的原始模型参数至多个客户端,并接收多个客户端上传的第一模型梯度。
在对目标客户端的处理模型进行训练时,为了提高多个客户端之间的关联性,服务器可以首先对多个客户端进行聚类处理。
在一种可选的实施例中,服务器可以根据多个客户端各自对应的模型梯度来对多个客户端进行聚类,所以服务器可以首先将用来对客户端的处理模型进行初步训练的原始模型参数发送至客户端中,客户端再根据其本地存储的训练数据,以及该原始模型参数,确定出各自对应的第一模型梯度,最后服务器可以接收客户端上传的第一模型梯度。
在根据多个客户端上传的第一模型梯度对多个客户端进行聚类时,可以首先确定出目标客户端对应的第一模型梯度,然后将该第一模型梯度与其他客户端对应的模型梯度进行相似度的计算,最终可以将相似度最高的几个客户端进行聚类,以得到与目标客户端相似度较高的客户端集群,即上述的第一客户端。
步骤S704,服务器对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数。
服务器在对多个客户端进行聚类得到第一客户端之后,可以进一步的对第一客户端中的多个第一模型梯度,以及目标客户端的原始模型参数进行聚合处理,得到目标客户端对应的目标模型参数,从而对目标客户端的处理模型进行训练。
需要说明的是,目标客户端可以是指多个客户端中的任意一个。
步骤S706,服务器发送多个客户端对应的目标模型参数至多个客户端。
其中,目标模型参数用于对本地部署的处理模型的模型参数进行更新。
服务器在确定出多个客户端对应的目标模型参数之后,可以将该参数发送至各自对应的客户端中,客户端可以根据该参数对其本地部署的处理模型的参数进行更新,从而得到最终的文本处理模型。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
在本申请实施例中,在对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数之前,方法还包括:输出待确认信息,其中,待确认信息包括:每个客户端对应的第一客户端;接收待确认信息对应的反馈信息,其中,反馈信息包括:每个客户端对应的反馈客户端;对每个客户端对应的反馈客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数。
上述的待确认信息可以是指服务器向目标客户端和第一客户端发送的聚类信息。
在一种可选的实施例中,在对多个客户端进行聚类之后,服务器还可以进一步的向目标客户端输出与其对应的第一客户端信息,同时目标客户端和第一客户端在接收到待确认信息之后,可以重新上传其各自对应的第一模型梯度和原始模型参数,从而避免服务器直接获取模型梯度和原始模型参数时,出现获取错误的情况。
在获取到每个客户端对应的第一模型梯度和原始模型参数之后,服务器便可以对这些参数进行聚合处理,已得到用来对目标客户端本地部署的处理模型进行训练的目标模型参数。
在本申请实施例中,该方法还包括:发送预设训练任务和初始模型参数至多个客户端,并接收多个客户端上传的第二模型梯度,其中,第二模型梯度由每个客户端利用本地存储的训练样本和初始模型参数执行预设训练任务得到;基于多个第二模型梯度对多个客户端进行聚类,得到每个客户端所属的客户端集合;基于每个客户端所属的客户端集合上传的第二模型梯度对初始模型参数进行聚合,得到每个客户端对应的原始模型参数。
上述的预训练任务可以是指用来对消除不同客户端对应任务和处理模型的异构性的任务。
在一种可选的实施例中,服务器可以在每个训练回合为每个客户端分配预训练任务,客户端可以首先接收服务器发送的预设训练任务和初始模型参数,并基于其本地存储的训练样本和初始模型参数来执行预设训练任务,从而得到每个客户端在预训练过程中的模型梯度(即第二模型梯度),服务器可以根据所有客户端上传的第二模型梯度来对多个客户端进行聚类处理,以得到每个客户端所述的客户端集合,然后服务器可以利用该客户端集合上传的多个第二模型梯度,对上述的初始模型参数进行聚合处理,以得到用来对客户端模型进行初步训练时使用的原始模型参数,以保证每个客户端的模型结构相同,从而初步的解决不同客户端之间的异构性,加强执行各种下游任务的不同客户端数据中所包含的通用知识的流动和整合。
在本申请实施例中,该方法还包括:输出多个训练任务;接收对多个训练任务执行的选择操作;确定选择操作对应的训练任务为预设训练任务。
上述的选择操作可以是指于根据预设条件从多个训练任务中选取一个目标训练任务的操作,例如上述的预设条件可以是根据目标客户端的处理任务方向(自然语言理解、自然语言生成等)来选择目标训练任务,或者上述的预设条件也可以是随机选择,但不限于此。
在一种可选的实施例中,为了提高确定出的原始模型参数的准确性,同时消除不同客户端之间存在的任务异构问题,服务器可以随机的从多个训练任务中,选取一个来发送给多个客户端,使得多个客户端在每轮训练中执行的预训练任务都相同。
实施例4
根据本申请实施例,还提供了一种模型训练系统,图8是根据本申请实施例4的一种模型训练系统的结构框图,如图8所示,该系统800可以包括:多个客户端802;服务器804,与多个客户端连接,用于生成多个客户端对应的原始模型参数至多个客户端;多个客户端用于利用本地存储的训练文本和对应的原始模型参数对本地部署的处理模型进行训练,得到多个客户端对应的第一模型梯度;服务器还用于基于多个客户端对应的第一模型梯度对多个客户端进行聚类,得到每个客户端对应的第一客户端,并对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;多个客户端还用于基于对应的目标模型参数对本地部署的处理模型的模型参数进行更新。
在模型训练系统中,服务器可以对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到模板模型参数,服务器发送目标模型参数至目标客户端作为文本处理模型的模型参数的方式对文本处理模型进行训练,然后在模型推理过程中,目标客户端获取待处理文本数据,并利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,容易注意到的是,针对不同客户端设置唯一的全局模型,也即给定不同客户端唯一的原始模型参数,并基于不同客户端相似的客户端集合进行模型参数的聚合,达到联邦学习的目的。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例5
根据本申请实施例,还提供了一种图像处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图9是根据本申请实施例5的一种图像处理方法的流程图,如图9所示,该方法可以包括如下步骤
步骤S902,目标客户端获取待处理图像。
上述的待处理图像可以是指需要进行自然语言处理的图像,例如分析图像中的任务的情绪状态,或者获取图像中多个文字信息中的关键词信息等。此处的待处理图像可以是用户手动输入的图像,也可以是通过利用摄像设备事实拍摄到的图像,但不仅限于此。
步骤S904,目标客户端利用图像处理模型对待处理图像进行图像处理,得到待处理图像的图像处理结果。
其中,图像处理模型部署在目标客户端本地,图像处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器基于第一客户端上传的第一模型梯度对目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
与实施例1中的对待处理文本数据进行处理分析相同,在对待处理图像进行处理时,可以利用部署在客户端中的图像处理模型来对该图像进行处理。
而对应的图像处理模型训练过程,可以首先对目标客户端和其他多个客户端的处理模型进行模型梯度相似度的计算,利用相似度对多个客户端进行聚类处理,得到一个与目标客户端相似度较高的客户端集群,即上述的第一客户端。最后可以进一步对第一客户端上传的多个第一梯度模型,以及目标客户端的原始模型参数进行聚合处理,得到用于训练目标客户端的处理模型的目标训练参数,从而将客户端中的处理模型训练成上述的图像处理模型。
实施例6
根据本申请实施例,还提供了一种用于实施上述文本处理方法的文本处理装置,该装置可以部署在目标客户端中。图10是根据本申请实施例6的一种文本处理装置的示意图,如图10所示,该装置1000包括:获取模块1002、处理模块1004。
其中,获取模块用于获取待处理文本数据;处理模块用于利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到。
此处需要说明的是,上述获取模块1002、处理模块1006对应于实施例1中的步骤S302至步骤S304,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。
本申请上述实施例中,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
本申请上述实施例中,第一客户端为排序后的至少一个客户端中排序靠前的预设数量的客户端,排序后的至少一个客户端是基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度,对至少一个客户端进行排序得到的。
本申请上述实施例中,目标模型参数为目标客户端对应的原始模型参数和目标客户端对应的更新参数之和,更新参数由第一客户端对应的数据量和第一客户端上传的第一模型梯度确定,其中,数据量用于表征第一客户端本地存储的训练样本的数据量。
本申请上述实施例中,文本处理模型包括:编码器和解码器。该装置还包括:自然语言处理模块,用于利用目标客户端对应的原始模型参数和解码器对预设数据进行自然语言处理,得到目标客户端对应的原型特征;上传模块,用于上传目标客户端对应的原型特征至服务器,其中,目标模型参数由服务器对第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和目标客户端对应的原始模型参数进行聚合得到,第二客户端由服务器基于目标客户端上传的原型特征和至少一个客户端上传的原型特征对至少一个客户端进行聚类得到。
本申请上述实施例中,文本处理模型包括:编码器。该装置还包括:特征编码模块,用于利用编码器对本地存储的训练样本进行特征编码,得到目标客户端对应的编码特征;特征发送模块,用于发送目标客户端对应的编码特征至服务器;数据接收模块,用于接收服务器返回的预设数据,其中,预设数据由服务器基于混合特征和对混合特征对应的处理结果生成,混合特征由服务器对目标客户端上传的编码特征和至少一个客户端上传的编码特征进行混合得到,处理结果由服务器利用本地部署的预设处理模型对混合特征进行处理得到。
本申请上述实施例中,该装置还包括:正特征确定模块,用于获取第一客户端对应的原型特征的加权和,得到正特征,并获取第二客户端对应的原型特征的加权和,得到负特征;第一构建模块,用于基于目标客户端对应的原型特征、正特征和负特征,构建文本处理模型的第一损失函数;第二构建模块,用于基于原型特征对应的文本处理结果和本地存储的训练样本对应的预设处理结果,构建文本处理模型的第二损失函数;损失函数确定模块,用于获取第一损失函数和第二损失函数的加权和,得到文本处理模型的总损失函数。
本申请上述实施例中,该装置还包括:数据接收模块,用于接收服务器发送的预设训练任务和初始模型参数;梯度确定模块,用于利用本地存储的训练样本和初始模型参数执行预设训练任务,得到目标客户端对应的第二模型梯度;梯度上传模块,用于上传目标客户端对应的第二模型梯度至服务器;原始参数接收模块,用于接收服务器发送的目标客户端对应的原始模型参数,其中,原始模型参数通过对第三客户端上传的第二模型梯度和初始模型参数进行聚合得到,第三客户端为目标客户端所属的客户端集合中的客户端,客户端集合由服务器基于多个客户端上传的第二模型梯度对多个客户端进行聚类得到,多个客户端包括目标客户端和至少一个客户端。
本申请上述实施例中,该装置还包括:模型接收模块,用于在本地部署的处理模型未包含预设结构的情况下,接收服务器发送的预设参数模型;结构构件模块,用于基于预设参数模型在本地构建预设结构。
本申请上述实施例中,第一客户端由服务器基于从目标训练策略对至少一个客户端进行聚类得到,目标训练策略由服务器基于文本处理模型与至少一个客户端上部署的处理模型之间的差异类型从多个训练策略中确定,不同训练策略用于对不同差异类型的模型进行训练。
本申请上述实施例中,差异类型包括如下至少之一:训练样本存在差异、训练任务存在差异和模型结构存在差异,多个训练策略包括:第一粒度聚类策略、第二粒度聚类策略和原型特征聚类策略,第一粒度聚类策略采用的聚类粒度大于第二粒度聚类策略所采用的聚类粒度。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例7
根据本申请实施例,还提供了一种用于实施上述模型训练方法的模型训练装置,该装置部署在目标客户端中。图11是根据本申请实施例7的一种模型训练装置的示意图,如图11所示,该装置1100包括:接收模块1102、训练模块1104、数据收发模块1106、模型更新模块1108。
其中,接收模块用于接收服务器发送的目标客户端对应的原始模型参数;训练模块用于利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到目标客户端对应的第一模型梯度;数据收发模块,用于发送目标客户端对应的第一模型梯度至服务器,并接收服务器发送的目标客户端对应的目标模型参数,其中,目标模型参数通过对原始模型参数和第一客户端上传的第一模型梯度进行聚合得到;模型更新模块,用于基于目标客户端对应的目标模型参数对本地部署的处理模型的模型参数进行更新,得到文本处理模型,其中,文本处理模型用于对待处理文本数据进行自然语言处理。
此处需要说明的是,上述接收模块1102、训练模块1104、数据收发模块1106、模型更新模块1108对应于实施例2中的步骤S602至步骤S608,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例8
根据本申请实施例,还提供了一种用于实施上述模型训练方法的模型训练装置,该装置部署在服务器中。图12是根据本申请实施例8的一种模型训练装置的示意图,如图12所示,该装置1200包括:数据收发模块1202、聚合模块1204、参数发送模块1206。
其中,数据收发模块用于发送多个客户端对应的原始模型参数至多个客户端,并接收多个客户端上传的第一模型梯度;聚合模块用于对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;参数发送模块用于发送多个客户端对应的目标模型参数至多个客户端,其中,目标模型参数用于对本地部署的处理模型的模型参数进行更新。
此处需要说明的是,上述数据收发模块1202、聚合模块1204、参数发送模块1206对应于实施例3中的步骤S702至步骤S706,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例9
根据本申请实施例,还提供了一种用于实施上述图像处理方法的图像处理装置,该装置部署在目标客户端中。图13是根据本申请实施例7的一种图像处理装置的示意图,如图13所示,该装置1300包括:获取模块1302、处理模块1304。
其中,获取模块用于获取待处理图像;处理模块用于利用图像处理模型对待处理图像进行图像处理,得到待处理图像的图像处理结果;其中,图像处理模型部署在目标客户端本地,图像处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器基于第一客户端上传的第一模型梯度对目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
此处需要说明的是,上述获取模块1302、处理模块1304对应于实施例5中的步骤S902至步骤S908,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例10
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行文本处理方法中以下步骤的程序代码:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
可选地,图14是根据本申请实施例10的一种计算机终端的结构框图。如图14所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器1402、存储器1404。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的文本处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
可选的,第一客户端为排序后的至少一个客户端中排序靠前的预设数量的客户端,排序后的至少一个客户端是基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度,对至少一个客户端进行排序得到的。
可选的,目标模型参数为目标客户端对应的原始模型参数和目标客户端对应的更新参数之和,更新参数由第一客户端对应的数据量和第一客户端上传的第一模型梯度确定,其中,数据量用于表征第一客户端本地存储的训练样本的数据量。
可选的,文本处理模型包括:编码器和解码器,上述处理器还可以执行如下步骤的程序代码:利用目标客户端对应的原始模型参数和解码器对预设数据进行自然语言处理,得到目标客户端对应的原型特征;上传目标客户端对应的原型特征至服务器,其中,目标模型参数由服务器对第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和目标客户端对应的原始模型参数进行聚合得到,第二客户端由服务器基于目标客户端上传的原型特征和至少一个客户端上传的原型特征对至少一个客户端进行聚类得到。
可选的,文本处理模型包括:编码器,上述处理器还可以执行如下步骤的程序代码:利用编码器对本地存储的训练样本进行特征编码,得到目标客户端对应的编码特征;发送目标客户端对应的编码特征至服务器;接收服务器返回的预设数据,其中,预设数据由服务器基于混合特征和对混合特征对应的处理结果生成,混合特征由服务器对目标客户端上传的编码特征和至少一个客户端上传的编码特征进行混合得到,处理结果由服务器利用本地部署的预设处理模型对混合特征进行处理得到。
可选的,上述处理器还可以执行如下步骤的程序代码:获取第一客户端对应的原型特征的加权和,得到正特征,并获取第二客户端对应的原型特征的加权和,得到负特征;基于目标客户端对应的原型特征、正特征和负特征,构建文本处理模型的第一损失函数;基于原型特征对应的文本处理结果和本地存储的训练样本对应的预设处理结果,构建文本处理模型的第二损失函数;获取第一损失函数和第二损失函数的加权和,得到文本处理模型的总损失函数。
可选的,上述处理器还可以执行如下步骤的程序代码:接收服务器发送的预设训练任务和初始模型参数;利用本地存储的训练样本和初始模型参数执行预设训练任务,得到目标客户端对应的第二模型梯度;上传目标客户端对应的第二模型梯度至服务器;接收服务器发送的目标客户端对应的原始模型参数,其中,原始模型参数通过对第三客户端上传的第二模型梯度和初始模型参数进行聚合得到,第三客户端为目标客户端所属的客户端集合中的客户端,客户端集合由服务器基于多个客户端上传的第二模型梯度对多个客户端进行聚类得到,多个客户端包括目标客户端和至少一个客户端。
可选的,上述处理器还可以执行如下步骤的程序代码:目标客户端在本地部署的处理模型未包含预设结构的情况下,接收服务器发送的预设参数模型;目标客户端基于预设参数模型在本地构建预设结构。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:目标客户端接收服务器发送的目标客户端对应的原始模型参数;目标客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到目标客户端对应的第一模型梯度;目标客户端发送目标客户端对应的第一模型梯度至服务器,并接收服务器发送的目标客户端对应的目标模型参数,其中,目标模型参数通过对原始模型参数和第一客户端上传的第一模型梯度进行聚合得到,第一客户端为目标客户端对应的第一客户端集合中的客户端,第一客户端集合通过基于多个客户端发送的多个第一模型梯度对多个客户端进行聚类得到;目标客户端基于目标客户端对应的目标模型参数对本地部署的处理模型的模型参数进行更新,得到文本处理模型,其中,文本处理模型用于对待处理文本数据进行自然语言处理。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:服务器发送多个客户端对应的原始模型参数至多个客户端,并接收多个客户端上传的第一模型梯度,其中,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到;服务器基于多个客户端上传的第一模型梯度对多个客户端进行聚类,得到每个客户端对应的第一客户端;服务器对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;服务器发送多个客户端对应的目标模型参数至多个客户端,其中,目标模型参数用于对本地部署的处理模型的模型参数进行更新。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:目标客户端获取待处理图像;目标客户端利用图像处理模型对待处理图像进行图像处理,得到待处理图像的图像处理结果;其中,图像处理模型部署在目标客户端本地,图像处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器基于第一客户端上传的第一模型梯度对目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
在本申请实施例中,采用服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类,得到第一客户端,服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到模板模型参数,服务器发送目标模型参数至目标客户端作为文本处理模型的模型参数的方式对文本处理模型进行训练,然后在模型推理过程中,目标客户端获取待处理文本数据,并利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,容易注意到的是,针对不同客户端设置唯一的全局模型,也即给定不同客户端唯一的原始模型参数,并基于不同客户端相似的客户端集合进行模型参数的聚合,达到联邦学习的目的,一方面提高了不同客户端之间的关联,保证了处理结果的准确性,另一方面还提高了每个客户端的个性化,从而使联邦学习在自然语言处理更加灵活,达到了更好的联邦学习效果,进而解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
实施例11
本申请的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机终端网络中计算机终端终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
可选的,第一客户端为排序后的至少一个客户端中排序靠前的预设数量的客户端,排序后的至少一个客户端是基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度,对至少一个客户端进行排序得到的。
可选的,目标模型参数为目标客户端对应的原始模型参数和目标客户端对应的更新参数之和,更新参数由第一客户端对应的数据量和第一客户端上传的第一模型梯度确定,其中,数据量用于表征第一客户端本地存储的训练样本的数据量。
可选的,文本处理模型包括:编码器和解码器,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用目标客户端对应的原始模型参数和解码器对预设数据进行自然语言处理,得到目标客户端对应的原型特征;上传目标客户端对应的原型特征至服务器,其中,目标模型参数由服务器对第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和目标客户端对应的原始模型参数进行聚合得到,第二客户端由服务器基于目标客户端上传的原型特征和至少一个客户端上传的原型特征对至少一个客户端进行聚类得到。
可选的,文本处理模型包括:编码器,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用编码器对本地存储的训练样本进行特征编码,得到目标客户端对应的编码特征;发送目标客户端对应的编码特征至服务器;接收服务器返回的预设数据,其中,预设数据由服务器基于混合特征和对混合特征对应的处理结果生成,混合特征由服务器对目标客户端上传的编码特征和至少一个客户端上传的编码特征进行混合得到,处理结果由服务器利用本地部署的预设处理模型对混合特征进行处理得到。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取第一客户端对应的原型特征的加权和,得到正特征,并获取第二客户端对应的原型特征的加权和,得到负特征;基于目标客户端对应的原型特征、正特征和负特征,构建文本处理模型的第一损失函数;基于原型特征对应的文本处理结果和本地存储的训练样本对应的预设处理结果,构建文本处理模型的第二损失函数;获取第一损失函数和第二损失函数的加权和,得到文本处理模型的总损失函数。
可选的,上述存储介质还被设置为存储用于执行以下步骤的程序代码:接收服务器发送的预设训练任务和初始模型参数;利用本地存储的训练样本和初始模型参数执行预设训练任务,得到目标客户端对应的第二模型梯度;上传目标客户端对应的第二模型梯度至服务器;接收服务器发送的目标客户端对应的原始模型参数,其中,原始模型参数通过对第三客户端上传的第二模型梯度和初始模型参数进行聚合得到,第三客户端为目标客户端所属的客户端集合中的客户端,客户端集合由服务器基于多个客户端上传的第二模型梯度对多个客户端进行聚类得到,多个客户端包括目标客户端和至少一个客户端。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:目标客户端在本地部署的处理模型未包含预设结构的情况下,接收服务器发送的预设参数模型;目标客户端基于预设参数模型在本地构建预设结构。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:目标客户端接收服务器发送的目标客户端对应的原始模型参数;目标客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到目标客户端对应的第一模型梯度;目标客户端发送目标客户端对应的第一模型梯度至服务器,并接收服务器发送的目标客户端对应的目标模型参数,其中,目标模型参数通过对原始模型参数和第一客户端上传的第一模型梯度进行聚合得到,第一客户端为目标客户端对应的第一客户端集合中的客户端,第一客户端集合通过基于多个客户端发送的多个第一模型梯度对多个客户端进行聚类得到;目标客户端基于目标客户端对应的目标模型参数对本地部署的处理模型的模型参数进行更新,得到文本处理模型,其中,文本处理模型用于对待处理文本数据进行自然语言处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:服务器发送多个客户端对应的原始模型参数至多个客户端,并接收多个客户端上传的第一模型梯度,其中,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到;服务器基于多个客户端上传的第一模型梯度对多个客户端进行聚类,得到每个客户端对应的第一客户端;服务器对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;服务器发送多个客户端对应的目标模型参数至多个客户端,其中,目标模型参数用于对本地部署的处理模型的模型参数进行更新。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:目标客户端获取待处理图像;目标客户端利用图像处理模型对待处理图像进行图像处理,得到待处理图像的图像处理结果;其中,图像处理模型部署在目标客户端本地,图像处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器基于第一客户端上传的第一模型梯度对目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
在本申请实施例中,采用服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类,得到第一客户端,服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到模板模型参数,服务器发送目标模型参数至目标客户端作为文本处理模型的模型参数的方式对文本处理模型进行训练,然后在模型推理过程中,目标客户端获取待处理文本数据,并利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,容易注意到的是,针对不同客户端设置唯一的全局模型,也即给定不同客户端唯一的原始模型参数,并基于不同客户端相似的客户端集合进行模型参数的聚合,达到联邦学习的目的,一方面提高了不同客户端之间的关联,保证了处理结果的准确性,另一方面还提高了每个客户端的个性化,从而使联邦学习在自然语言处理更加灵活,达到了更好的联邦学习效果,进而解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
目标客户端获取待处理文本数据;
所述目标客户端利用文本处理模型对所述待处理文本数据进行自然语言处理,得到所述待处理文本数据的文本处理结果;
其中,所述文本处理模型部署在所述目标客户端本地,所述文本处理模型的模型参数为服务器发送的目标模型参数,所述目标模型参数由所述服务器对第一客户端上传的第一模型梯度和所述目标客户端对应的原始模型参数进行聚合得到。
2.根据权利要求1所述的方法,其特征在于,所述第一客户端由所述服务器基于所述目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对所述至少一个客户端进行聚类得到,所述第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
3.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括:编码器和解码器,所述方法还包括:
利用所述目标客户端对应的原始模型参数和所述解码器对预设数据进行自然语言处理,得到所述目标客户端对应的原型特征;
上传所述目标客户端对应的原型特征至所述服务器,其中,所述目标模型参数由所述服务器对所述第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和所述目标客户端对应的原始模型参数进行聚合得到,所述第二客户端由所述服务器基于所述目标客户端上传的原型特征和至少一个客户端上传的原型特征对所述至少一个客户端进行聚类得到。
4.根据权利要求3所述的方法,其特征在于,所述文本处理模型包括:编码器,所述方法还包括:
利用所述编码器对本地存储的训练样本进行特征编码,得到所述目标客户端对应的编码特征;
发送所述目标客户端对应的编码特征至所述服务器;
接收所述服务器返回的所述预设数据,其中,所述预设数据由所述服务器基于混合特征和对所述混合特征对应的处理结果生成,所述混合特征由所述服务器对所述目标客户端上传的编码特征和所述至少一个客户端上传的编码特征进行混合得到,所述处理结果由所述服务器利用本地部署的预设处理模型对所述混合特征进行处理得到。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第一客户端对应的原型特征的加权和,得到正特征,并获取所述第二客户端对应的原型特征的加权和,得到负特征;
基于所述目标客户端对应的原型特征、所述正特征和所述负特征,构建所述文本处理模型的第一损失函数;
基于所述原型特征对应的文本处理结果和所述本地存储的训练样本对应的预设处理结果,构建所述文本处理模型的第二损失函数;
获取所述第一损失函数和所述第二损失函数的加权和,得到所述文本处理模型的总损失函数。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述服务器发送的预设训练任务和初始模型参数;
利用所述本地存储的训练样本和所述初始模型参数执行所述预设训练任务,得到所述目标客户端对应的第二模型梯度;
上传所述目标客户端对应的第二模型梯度至所述服务器;
接收所述服务器发送的所述目标客户端对应的原始模型参数,其中,所述原始模型参数通过对第三客户端上传的第二模型梯度和所述初始模型参数进行聚合得到,所述第三客户端为所述目标客户端所属的客户端集合中的客户端,所述客户端集合由所述服务器基于多个客户端上传的第二模型梯度对所述多个客户端进行聚类得到,所述多个客户端包括所述目标客户端和至少一个客户端。
7.根据权利要求1所述的方法,其特征在于,所述第一客户端由所述服务器基于从目标训练策略对至少一个客户端进行聚类得到,所述目标训练策略由所述服务器基于所述文本处理模型与所述至少一个客户端上部署的处理模型之间的差异类型从多个训练策略中确定,不同训练策略用于对不同差异类型的模型进行训练。
8.根据权利要求7所述的方法,其特征在于,所述差异类型包括如下至少之一:训练样本存在差异、训练任务存在差异和模型结构存在差异,所述多个训练策略包括:第一粒度聚类策略、第二粒度聚类策略和原型特征聚类策略,所述第一粒度聚类策略采用的聚类粒度大于所述第二粒度聚类策略所采用的聚类粒度。
9.一种模型训练方法,其特征在于,包括:
目标客户端接收服务器发送的所述目标客户端对应的原始模型参数;
所述目标客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到所述目标客户端对应的第一模型梯度;
所述目标客户端发送所述目标客户端对应的第一模型梯度至所述服务器,并接收所述服务器发送的所述目标客户端对应的目标模型参数,其中,所述目标模型参数通过对所述原始模型参数和第一客户端上传的第一模型梯度进行聚合得到;
所述目标客户端基于所述目标客户端对应的目标模型参数对所述本地部署的处理模型的模型参数进行更新,得到文本处理模型,其中,所述文本处理模型用于对待处理文本数据进行自然语言处理。
10.一种模型训练方法,其特征在于,包括:
服务器发送多个客户端对应的原始模型参数至所述多个客户端,并接收所述多个客户端上传的第一模型梯度;
所述服务器对每个客户端对应的第一客户端上传的第一模型梯度和所述每个客户端对应的原始模型参数进行聚合,得到所述每个客户端对应的目标模型参数;
所述服务器发送所述多个客户端对应的目标模型参数至所述多个客户端,其中,所述目标模型参数用于对本地部署的处理模型的模型参数进行更新。
11.根据权利要求10所述的方法,其特征在于,在对每个客户端对应的第一客户端上传的第一模型梯度和所述每个客户端对应的原始模型参数进行聚合,得到所述每个客户端对应的目标模型参数之前,所述方法还包括:
输出待确认信息,其中,所述待确认信息包括:所述每个客户端对应的第一客户端;
接收所述待确认信息对应的反馈信息,其中,所述反馈信息包括:所述每个客户端对应的反馈客户端;
对所述每个客户端对应的反馈客户端上传的第一模型梯度和所述每个客户端对应的原始模型参数进行聚合,得到所述每个客户端对应的目标模型参数。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
发送预设训练任务和初始模型参数至所述多个客户端,并接收所述多个客户端上传的第二模型梯度,其中,所述第二模型梯度由所述每个客户端利用本地存储的训练样本和所述初始模型参数执行所述预设训练任务得到;
基于所述多个第二模型梯度对所述多个客户端进行聚类,得到所述每个客户端所属的客户端集合;
基于所述每个客户端所属的客户端集合上传的第二模型梯度对所述初始模型参数进行聚合,得到所述每个客户端对应的原始模型参数。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
输出多个训练任务;
接收对所述多个训练任务执行的选择操作;
确定所述选择操作对应的训练任务为所述预设训练任务。
14.一种模型训练系统,其特征在于,包括:
多个客户端;
服务器,与所述多个客户端连接,用于生成所述多个客户端对应的原始模型参数至所述多个客户端;
所述多个客户端用于利用本地存储的训练文本和对应的原始模型参数对本地部署的处理模型进行训练,得到多个客户端对应的第一模型梯度;
所述服务器还用于基于所述多个客户端对应的第一模型梯度对所述多个客户端进行聚类,得到每个客户端对应的第一客户端,并对所述每个客户端对应的第一客户端上传的第一模型梯度和所述每个客户端对应的原始模型参数进行聚合,得到所述每个客户端对应的目标模型参数;
所述多个客户端还用于基于对应的目标模型参数对本地部署的处理模型的模型参数进行更新。
CN202211549069.0A 2022-12-05 2022-12-05 文本处理方法、模型训练方法和系统 Pending CN116245086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211549069.0A CN116245086A (zh) 2022-12-05 2022-12-05 文本处理方法、模型训练方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211549069.0A CN116245086A (zh) 2022-12-05 2022-12-05 文本处理方法、模型训练方法和系统

Publications (1)

Publication Number Publication Date
CN116245086A true CN116245086A (zh) 2023-06-09

Family

ID=86628425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211549069.0A Pending CN116245086A (zh) 2022-12-05 2022-12-05 文本处理方法、模型训练方法和系统

Country Status (1)

Country Link
CN (1) CN116245086A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451678A (zh) * 2023-06-15 2023-07-18 阿里巴巴(中国)有限公司 数据关系识别及数据表整合方法
CN117540829A (zh) * 2023-10-18 2024-02-09 广西壮族自治区通信产业服务有限公司技术服务分公司 一种知识共享的大语言模型协同优化方法和系统
CN117540829B (zh) * 2023-10-18 2024-05-17 广西壮族自治区通信产业服务有限公司技术服务分公司 一种知识共享的大语言模型协同优化方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451678A (zh) * 2023-06-15 2023-07-18 阿里巴巴(中国)有限公司 数据关系识别及数据表整合方法
CN116451678B (zh) * 2023-06-15 2023-11-14 阿里巴巴(中国)有限公司 数据关系识别及数据表整合方法
CN117540829A (zh) * 2023-10-18 2024-02-09 广西壮族自治区通信产业服务有限公司技术服务分公司 一种知识共享的大语言模型协同优化方法和系统
CN117540829B (zh) * 2023-10-18 2024-05-17 广西壮族自治区通信产业服务有限公司技术服务分公司 一种知识共享的大语言模型协同优化方法和系统

Similar Documents

Publication Publication Date Title
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
US20220414464A1 (en) Method and server for federated machine learning
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN112396106B (zh) 内容识别方法、内容识别模型训练方法及存储介质
CN111291170B (zh) 一种基于智能客服的会话推荐方法及相关装置
CN110020022B (zh) 数据处理方法、装置、设备及可读存储介质
CN110210194A (zh) 电子合同显示方法、装置、电子设备及存储介质
CN116756574B (zh) 多模态预训练模型的训练方法、使用方法、装置和设备
WO2021169366A1 (zh) 数据增强方法和装置
CN113191479A (zh) 联合学习的方法、系统、节点及存储介质
CN116245086A (zh) 文本处理方法、模型训练方法和系统
CN112419326A (zh) 图像分割数据处理方法、装置、设备及存储介质
CN115858886A (zh) 数据处理方法、装置、设备及可读存储介质
Li et al. Anomaly detection methods based on GAN: a survey
CN117149982A (zh) 基于人工智能的问答处理方法、装置、设备及存储介质
Chen et al. Spatio-temporal causal transformer for multi-grained surgical phase recognition
Shi et al. Boosting sparsity-induced autoencoder: A novel sparse feature ensemble learning for image classification
CN110956127A (zh) 用于生成特征向量的方法、装置、电子设备和介质
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
CN113297397B (zh) 一种基于层次化多模态信息融合的信息匹配方法及系统
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN114626480A (zh) 多源异构数据特征提取装置、方法、存储介质及电子设备
Wang et al. MetaScleraSeg: an effective meta-learning framework for generalized sclera segmentation
WO2022227164A1 (zh) 基于人工智能的数据处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination