CN116881428B - 一种语言模型训练方法及装置 - Google Patents
一种语言模型训练方法及装置 Download PDFInfo
- Publication number
- CN116881428B CN116881428B CN202311146743.5A CN202311146743A CN116881428B CN 116881428 B CN116881428 B CN 116881428B CN 202311146743 A CN202311146743 A CN 202311146743A CN 116881428 B CN116881428 B CN 116881428B
- Authority
- CN
- China
- Prior art keywords
- layer
- output
- language model
- target
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 252
- 238000000034 method Methods 0.000 title claims abstract description 213
- 230000008569 process Effects 0.000 claims abstract description 89
- 230000004927 fusion Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 24
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000157593 Milvus Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 235000021168 barbecue Nutrition 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本说明书披露的多个实施例涉及人工智能技术领域,尤其涉及提供了一种语言模型训练方法及装置。所述方法包括:用户终端根据包含目标用户信息的训练文本样本,与服务端联合训练语言模型;在训练过程中,用户终端更新本地部署的至少一个分支层参数;在训练过程中,针对用户终端部署的目标分支层,获取服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到目标分支层,将目标分支层的输出发送到服务端,以使服务端综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。该方法可以通过利用包含目标用户信息的训练文本样本,针对语言模型进行训练,可以提高语言模型针对目标用户的个性化程度。
Description
技术领域
本说明书多个实施例涉及人工智能技术领域,尤其涉及一种语言模型训练方法及装置。
背景技术
目前,许多业务都开始使用语言模型。例如,搜索引擎开始引入语言模型,分析用户真正的搜索需求;语音助手也引入语言模型,针对用户的问题进行更智能的回复;智能客服通过引入语言模型分析用户问题,可以提供更人性化的答复等等。
但是,由于语言模型的参数量往往较大,语言模型通常部署在服务端进行维护,针对不同用户的请求进行响应。
因此,语言模型往往难以实现针对单个用户的个性化。
发明内容
本说明书多个实施例提供技术方案如下:
根据本说明书多个实施例的第一方面,提出了一种语言模型训练方法,应用于用户终端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述用户终端用于和服务端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述方法包括:
根据包含目标用户信息的训练文本样本,与所述服务端联合训练所述语言模型;
在训练过程中,所述用户终端更新本地部署的至少一个分支层参数;
在训练过程中,针对所述用户终端部署的目标分支层,获取所述服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到所述目标分支层,将所述目标分支层的输出发送到所述服务端,以使所述服务端综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
根据本说明书多个实施例的第二方面,提出了一种语言模型训练方法,应用于服务端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述服务端用于和用户终端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述方法包括:
根据包含目标用户信息的训练文本样本,与所述用户终端联合训练所述语言模型;
在训练过程中,所述用户终端用于更新本地部署的至少一个分支层参数;
在训练过程中,针对所述用户终端部署的目标分支层,向所述用户终端发送本地部署的对应目标隐藏层的输入数据,以使所述用户终端将所获取的输入数据输入到所述目标分支层;接收所述用户终端发送的所述目标分支层的输出,综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
根据本说明书多个实施例的第三方面,提出了一种语言模型训练方法,所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述方法包括:
根据包含目标用户信息的训练文本样本,训练所述语言模型;在训练过程中,更新至少一个分支层的参数。
根据本说明书多个实施例的第四方面,提出了一种语言模型训练装置,应用于用户终端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述用户终端用于和服务端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述装置包括:
第一训练单元,用于根据包含目标用户信息的训练文本样本,与所述服务端联合训练所述语言模型;
第一更新单元,用于在训练过程中,更新本地部署的至少一个分支层参数;
第一交互单元,用于在训练过程中,针对所述用户终端部署的目标分支层,获取所述服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到所述目标分支层,将所述目标分支层的输出发送到所述服务端,以使所述服务端综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
根据本说明书多个实施例的第五方面,提出了一种语言模型训练装置,应用于服务端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述服务端用于和用户终端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述装置包括:
第二训练单元,用于根据包含目标用户信息的训练文本样本,与所述用户终端联合训练所述语言模型;
在训练过程中,所述用户终端用于更新本地部署的至少一个分支层参数;
第二交互单元,用于在训练过程中,针对所述用户终端部署的目标分支层,向所述用户终端发送本地部署的对应目标隐藏层的输入数据,以使所述用户终端将所获取的输入数据输入到所述目标分支层;接收所述用户终端发送的所述目标分支层的输出,综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
根据本说明书多个实施例的第六方面,提出了一种语言模型训练装置,所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述装置包括:
第三训练单元,用于根据包含目标用户信息的训练文本样本,训练所述语言模型;
第三更新单元,用于在训练过程中,更新至少一个分支层的参数。
根据本说明书多个实施例的第七方面,提出了一种计算设备,包括存储器、处理器;所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现第一方面至第三方面中任一所述方法。
根据本说明书多个实施例的第八方面,提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面所述方法。
上述技术方案,通过利用包含目标用户信息的训练文本样本,针对语言模型进行训练,可以提高语言模型针对目标用户的个性化程度。并且可以通过更新分支层参数,可以提高训练效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种语言模型的结构示意图;
图2是本说明书实施例提供的一种语言模型训练方法的流程示意图;
图3是本说明书实施例提供的另一种语言模型训练方法的流程示意图;
图4是本说明书实施例提供的另一种语言模型训练方法的流程示意图;
图5是本说明书实施例提供的另一种语言模型训练方法的流程示意图;
图6是本说明书实施例提供的一种语言模型训练装置的结构示意图;
图7是本说明书实施例提供的另一种语言模型训练装置的结构示意图;
图8是本说明书实施例提供的另一种语言模型训练装置的结构示意图;
图9是本说明书实施例提供的一种语言模型训练系统的结构示意图;
图10是本说明书实施例提供的一种计算机可读存储介质的结构示意图;
图11是本说明书实施例提供的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
本说明书实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
目前,许多业务都开始使用语言模型。例如,搜索引擎开始引入语言模型,分析用户真正的搜索需求;语音助手也引入语言模型,针对用户的问题进行更智能的回复;智能客服通过引入语言模型分析用户问题,可以提供更人性化的答复等等。
但是,由于语言模型的参数量往往较大,语言模型通常部署在服务端进行维护,针对不同用户的请求进行响应。
因此,语言模型往往难以实现针对单个用户的个性化。
以下对本说明书实施例中涉及的一些概念进行介绍。
大型语言模型(LLM,Large Language Model)是一种基于神经网络的自然语言处理模型,如BERT(Bidirectional Encoder Representation from Transformers)、GPT(Generative Pre-Training Transformer)等,用于对文本序列进行建模并预测下一个单词或句子的概率。在自然语言处理中,语言模型被广泛应用于多种任务,如文本生成、自动问答、机器翻译等。大规模语言模型展现出巨大的潜力。它基于transformers结构,该结构利用自注意力机制缓解了序列依赖问题。此外,通过引入人类反馈的强化学习训练策略和大规模数据集进行训练,模型能够在训练过程中利用人类的判断来不断优化输出,提升性能,最终更符合人类思维方式。
提示学习(prompt learning):也可以称指示学习,可以理解为通过向LLM输入指示,让LLM根据指示进行交互。例如,在文本情感分类任务中,对于 "I love this movie."这句输入,可以在后面加上prompt "The movie is ___" 这样的形式,然后让LLM用表示情感的答案填空如 "great"、"fantastic" 等等,最后再将该答案转化成情感分类的标签,这样一来,通过选取合适的prompt,可以控制模型预测输出,从而一个完全无监督训练的LLM可以被用来解决各种各样的下游任务。本质是将所有下游任务统一成预训练任务;设计一个比较契合上游预训练任务的模板,将下游任务的数据转成自然语言形式,充分挖掘预训练模型本身的能力。
提示工程(prompt engineering):当前与LLM最常见交互方式之一是promptengineering,用户设计指定的prompt或指令,传达给LLM。LLM理解prompt的含义后,生成合适的回答或完成特定任务。prompt engineering作为用户与LLM的桥梁,充分利用上下文学习(in-context learning),挖掘LLM的语义理解能力。由于LLM对prompt的敏感性,通过巧妙设计和修改prompt,可以不断优化LLM的输出。因此,衍生出了一门新的学科:promptengineering,旨在开发和优化提示以有效地利用语言模型进行各种应用和研究主题。提示工程技能有助于更好地理解大型语言模型的能力和局限性。研究人员使用提示工程来提升LLM在各种任务上的能力,例如问答和算术推理。开发人员则运用提示工程来设计与LLM及其他工具接口的强大而有效的提示技术。
向量数据库(embedding database):向量数据库是一种以向量形式存储文本的数据库。每个文本都被表示为一个向量,其中的每个数字对应文本的特定属性或特征。在使用向量数据库进行文本检索时,首先将用户输入通过语义编码器转换为词向量,然后计算该句子向量与向量数据库中其他向量在向量空间中的距离。这个距离反映了文本之间的语义相似度,计算方法包括余弦相似度、欧氏距离、曼哈顿距离和切比雪夫距离等。因此,语义检索质量主要取决于嵌入向量的质量,而嵌入向量的质量取决于语义编码器的效果。在当前应用中,预训练语言模型的性能对嵌入质量影响显著,强大的语言模型能够更准确地表示文本语义,从而获得高质量的文本嵌入,进而确保向量数据库的语义检索质量。
指令精调(Instruction Tuning):指令微调是一种有监督训练方法,用于训练语言模型按照指令完成任务的能力。大模型的指令微调是指在预先训练好的大型模型上,通过微调少量的参数来完成特定任务的技术。该技术的作用是可以在具备大量数据和计算资源的前提下,通过迁移学习来加速特定任务的完成,同时也可以提高模型的准确性。Instruction Tuning和Prompt的核心一样,就是去发掘语言模型本身具备的知识。而他们的不同点就在于,Prompt是去激发语言模型的补全能力,比如给出上半句生成下半句、或者做完形填空,而Instruction Tuning则是激发语言模型的理解能力,通过给出更明显的指令/指示,让模型去理解并做出正确的action。
本说明书实施例提供了一种语言模型训练方法。
在该方法中,为了提高语言模型针对用户的个性化程度,可以采用包含用户信息的训练文本样本,针对语言模型进行训练。
为了方便描述,可以将所针对的任一用户称为目标用户,具体可以采用包含目标用户信息的训练文本样本,针对语言模型进行训练。提高语言模型针对目标用户的个性化程度。
在该方法中,为了提高训练效率,可以针对预先训练完成的语言模型进行微调,具体可以是进行指令精调,基于上述包含目标用户信息的训练文本样本进行微调,更新少量参数。
可选地,可以是针对语言模型中的输出层或者部分隐藏层进行参数更新。
可选地,可以针对预先训练完成的语言模型构建额外的分支层,在进行训练时,可以只更新额外的分支层,从而可以更好地保留语言模型原本的训练结果。
其中,分支层可以是针对隐藏层构建的,不同分支层可以一一对应于不同隐藏层;任一分支层可以用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入。
可选地,预先训练完成的语言模型中可以包含分支层,具体可以针对语言模型中的分支层进行参数更新。分支层的解释可以参见上文。
而更新分支层参数,可以方便分支层学习目标用户的个性化信息,从而基于更新后的分支层,提高语言模型针对目标用户的个性化程度。
本方法可以通过利用包含用户信息的训练文本样本,针对语言模型进行训练,提高语言模型针对目标用户的个性化程度。并且通过更新分支层参数,可以提高训练效率。
本方法并不限定执行主体。
可选地,本方法可以由单个设备训练语言模型;也可以采用不同设备联合训练语言模型,提高训练效率。
可选地,本方法可以采用第一设备和第二设备联合训练语言模型,第一设备和第二设备可以分别部署语言模型中的不同参数,通过设备间通信实现联合训练。语言模型中的任一参数部署在第一设备或者第二设备中。
可选地,本方法可以采用用户终端和服务端联合训练语言模型。其中,用户终端可以是目标用户使用的终端。用户终端和服务端可以分别部署语言模型中的不同参数,通过设备间通信实现联合训练。语言模型中的任一参数部署在用户终端或者服务端中。
可选地,用户终端可以部署语言模型中的至少一个分支层,并通过更新分支层参数,将目标用户个性化信息的学习到分支层。而分支层参数由于部署在用户终端,可以提高目标用户信息的安全性。
可选地,服务端部署的语言模型参数可以在联合训练过程中更新,也可以不更新,进行冻结。冻结服务端部署的语言模型参数可以提高训练效率和收敛效率,并且服务端部署的语言模型参数可以不学习目标用户的个性化信息,提高用户信息的安全性。
在一种可选的实施例中,服务端部署的语言模型可以是一个预先训练完成的语言模型,具体可以是LLM,为了提高语言模型的个性化程度,并且减少对服务端原本语言模型的影响,可以在原本的语言模型基础上,增加额外的分支层部署在用户终端,具体分支层的作用可以参见上文。
之后可以利用包含目标用户信息的训练文本样本,针对增加分支层后的语言模型进行微调或有监督训练。具体可以冻结服务端部署的语言模型参数,更新部署在用户终端的分支层参数,从而可以将学习的目标用户个性化信息存储在用户终端,提高训练效率,提高语言模型的个性化程度,并且提高用户信息的安全性,还可以减少对原本语言模型的影响。
为了方便理解,如图1所示,图1是本说明书实施例提供的一种语言模型的结构示意图。
其中,语言模型中可以包含输入层、3个隐藏层(包括隐藏层1-3)、1个分支层(对应于隐藏层1的分支层1)和输出层。
输入层的输出可以级联至隐藏层1和分支层1,隐藏层1和分支层1的输出可以级联至隐藏层2,隐藏层2的输出可以级联至隐藏层3,隐藏层3的输出可以级联至输出层。
图1中的语言模型结构仅仅用于示例性说明,并不能限定本说明书实施例公开的范围。
下面结合附图详细解释技术方案。
如图2所示,图2是本说明书实施例提供的一种语言模型训练方法的流程示意图。
该方法流程可以应用于用户终端。
其中,语言模型中可以包含至少一个分支层和至少一个隐藏层。
不同分支层可以对应于不同隐藏层;任一分支层可以用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,可以是对应隐藏层下一层的输入。
用户终端可以用于和服务端联合训练语言模型;用户终端可以部署有语言模型中的至少一个分支层;服务端可以部署有语言模型中的至少一个隐藏层。
该方法流程可以包括以下步骤:
S101:根据包含目标用户信息的训练文本样本,与服务端联合训练语言模型。
S102:在训练过程中,用户终端更新本地部署的至少一个分支层参数。
S103:在训练过程中,针对用户终端部署的目标分支层,获取服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到目标分支层,将目标分支层的输出发送到服务端,以使服务端综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。
本方法可以通过利用包含目标用户信息的训练文本样本,针对语言模型进行训练,可以提高语言模型针对目标用户的个性化程度。并且可以通过更新分支层参数,可以提高训练效率。
本方法流程还可以通过用户终端与服务端联合训练,提高训练效率。
其中,S102和S103是在S101中的训练过程中执行的,并不限定先后顺序。
一、关于语言模型和训练过程。
本方法流程并不限定语言模型的结构和具体算法。
可选地,语言模型可以采用BERT或者GPT模型。
可选地,语言模型中可以包括输入层、分支层、隐藏层和输出层。
本方法流程并不限定语言模型中隐藏层和分支层的数量。可选地,语言模型中可以包含一个或多个隐藏层;语言模型中可以包含一个或多个分支层。
本方法流程并不限定语言模型的获取方式。
可选地,可以直接获取一个包含至少一个分支层和至少一个隐藏层的语言模型;也可以获取一个包含输入层、至少一个隐藏层和输出层的初始语言模型,进一步增加额外的分支层,得到所需要训练的语言模型。初始语言模型可以是预先训练完成的语言模型,例如LLM。
本方法流程并不限定用户终端和服务端联合训练的具体方式。
可选地,在语言模型的输入层部署在用户终端的情况下,可以将训练文本样本的特征输入到用户终端部署的输入层,进而确定输入层的下一层所在设备,如果下一层也部署在用户终端,可以直接在本地将输入层的输出结果,输入到输入层的下一层;如果下一层部署在服务端,则可以将输入层的输出结果,发送到服务端,输入到输入层的下一层。
可选地,针对确定的模型损失,可以发送到用户终端和服务端进行参数更新。
以此类推,可以通过用户终端和服务端之间的数据交互,实现联合训练。
可选地,用户终端和服务端在联合训练的过程中,可以采用加密方式进行数据交互。本方法流程并不限定具体的加密方式。可选地,可以采用公私钥加密或者约定的密码进行加密。
本实施例可以通过加密交互,提高训练过程中数据的安全性。
本方法流程并不限定语言模型中的参数在用户终端和服务端的部署情况。其中,语言模型中的任一参数可以部署在用户终端或者服务端上,具体可以是语言模型中每个参数可以部署在用户终端或者服务端上。
可选地,语言模型中的不同参数可以分别部署在不同设备上;语言模型中的同一参数也可以部署在不同设备上。例如,语言模型中的输入层和输出层可以都部署在用户终端和服务端上,方便针对文本提取特征或者针对特征获取预测文本。
在一种可选的实施例中,语言模型中还可以包含输出层,输出层可以用于根据输入的文本特征输出预测文本。预测文本具体可以是针对输入语言模型的文本,预测得到的回复文本。
为了提高语言模型的个性化程度,提高用户信息的安全性,可选地,可以将输出层部署在用户终端。
可选地,用户终端还可以部署有语言模型中的输出层。
可选地,在训练过程中,用户终端可以获取输出层上一层的输出数据,并将所获取的输出数据输入到输出层,获取输出层输出的预测结果,并确定预测结果与训练文本样本的标签之间的损失,基于所确定的损失更新输出层参数。
本实施例可以通过用户终端在训练过程中更新部署在本地的输出层参数,提高语言模型的个性化程度,提高用户信息的安全性。
其中,可选地,训练文本样本的标签中可以包含目标用户信息,从而可以将样本标签存储在用户终端确定损失,将损失发送到服务端进行回传和参数更新,也可以降低目标用户信息泄露的风险,提高用户信息的安全性。
在另一种可选的实施例中,语言模型中还可以包含输入层,输入层可以用于根据输入的文本输出文本特征。
为了提高语言模型的个性化程度,提高用户信息的安全性,可选地,可以将输入层部署在用户终端。
可选地,用户终端还可以部署有语言模型中的输入层。
可选地,在训练过程中,用户终端可以更新本地部署的输入层参数。
可选地,在训练过程中,用户终端可以将包含目标用户信息的训练文本样本特征,输入到本地部署的输入层中,获取输入层提取的文本特征,并将文本特征发送到服务端。
可选地,服务端中可以部署有输入层的下一层,从而可以进一步提取特征。具体可以是部署有输入层的下一个隐藏层。
本实施例可以通过用户终端在训练过程中更新部署在本地的输入层参数,提高语言模型的个性化程度,提高用户信息的安全性。
其中,可选地,训练文本样本的特征中可以包含目标用户信息,从而可以将样本特征存储在用户终端,将输入层的输出结果发送到服务端进行后续操作,也可以降低目标用户信息泄露的风险,提高用户信息的安全性。
在另一种可选的实施例中,可以将语言模型中的输出层进行拆分。语言模型中还可以包含第一输出层和第二输出层;语言模型输出的文本包括,融合第一输出层输出文本与第二输出层输出文本得到的融合文本。
可选地,用户终端还可以部署第一输出层;服务端还可以部署有第二输出层。
可选地,在训练过程中,用户终端可以获取第一输出层的第一输出文本,并从服务端获取第二输出层的第二输出文本;基于第一输出文本和第二输出文本进行融合,得到语言模型输出的融合文本,并确定融合文本与训练文本样本的标签之间的损失,基于所确定的损失更新第一输出层参数。
本实施例并不限定具体的文本融合方式。可选地,可以直接将不同文本拼接起来;也可以将不同文本进一步输入到另一个模型进行融合等等。
可选地,可以根据损失更新用户终端本地部署的语言模型参数,也可以更新服务端部署的语言模型参数。具体可以根据损失更新用户本地部署的至少一个分支层和/或第一输出层的参数。
可选地,第一输出层可以是针对语言模型新增的,方便进行训练和个性化。
在一种具体的示例中,初始语言模型可以是预先训练完成的模型,包含的第二输出层可以输出预测文本。进一步新增第一输出层,利用包含目标用户信息的训练文本样本进行训练,并更新第一输出层的参数,使得第一输出层可以学习到目标用户的个性化信息,提高语言模型的个性化程度。
本实施例可以通过用户终端在训练过程中更新部署在本地的第一输出层参数,提高语言模型的个性化程度,提高用户信息的安全性。
其中,可选地,训练文本样本的标签中可以包含目标用户信息,从而可以将样本标签存储在用户终端确定损失,将损失发送到服务端进行回传和参数更新,也可以降低目标用户信息泄露的风险,提高用户信息的安全性。
可选地,可以采用融合层进行文本融合。
可选地,语言模型中还可以包含融合层;融合层可以用于融合第一输出层输出文本与第二输出层输出文本得到的融合文本。
可选地,用户终端还可以部署融合层;基于第一输出文本和第二输出文本进行融合,得到语言模型输出的融合文本,具体可以是:将第一输出文本和第二输出文本输入融合层,得到融合层输出的融合文本。
可选地,在训练过程中,用户终端可以基于所确定的损失更新融合层参数。
本实施例可以通过用户终端在训练过程中更新部署在本地的融合层参数,提高语言模型的个性化程度,提高用户信息的安全性。
本方法流程并不限定训练更新的方式。
可选地,可以更新用户终端部署的语言模型参数,也可以更新服务端部署的语言模型参数,也可以冻结服务端部署的语言模型参数。
可选地,在训练过程中,语言模型部署在服务端中的参数被冻结。本实施例可以通过冻结服务端部署的语言模型参数,提高训练效率和收敛效率。
可以理解的是,本说明书提供的不同实施例之间可以相互结合。
可选地,语言模型的输入层和输出层可以都部署在用户终端;语言模型的融合层也可以部署在用户终端。
二、关于分支层。
本方法流程并不限定分支层的具体结构。
可选地,可以复制对应隐藏层的参数和结构,作为分支层。分支层的初始参数可以与对应隐藏层的参数相同。分支层的结构可以与对应隐藏层的结构相同。
可选地,也可以采用其他参数和结构作为分支层,例如,不同算法、不同卷积核等等。
可选地,为了降低计算量,提高训练效率,也可以针对分支层设置较少参数。
可选地,任一分支层可以用于,针对输入数据进行降维,并针对降维结果提取特征,再针对所提取的特征进行升维,输出升维结果。本实施例中可以通过针对降维后的结果提取特征,降低计算量,提高训练效率。
在一种具体的示例中,可以采用低秩自适应微调的方案,利用包含目标用户信息的训练文本样本,微调语言模型。
三、关于用户终端和服务端。
本方法流程并不限定用户终端和服务端之间的关联。
可选地,用户终端和服务端可以属于同一业务,通过将语言模型部署在两端,方便综合开展语言模型的相关业务。
可选地,用户终端可以是目标用户的终端,从而方便获取目标用户信息。
在一种具体的实施例中,用户终端可以是登录有用户账号的应用程序,可以与对应的服务端综合开展语言模型的业务,具体可以是实现语言模型的个性化。
而对于服务端,可选地,可以对接不同的用户终端,也可以收集不同用户终端上不同语言模型的损失,综合进行模型更新。
四、关于训练文本样本。
本方法流程并不限定训练文本样本的形式和内容,其中包含有目标用户信息即可。
可选地,包含目标用户信息的训练文本样本的特征和/或标签中,可以包含目标用户信息。
本方法流程并不限定训练文本样本的来源。
可选地,可以是从本地获取的,也可以是实时根据目标用户信息生成的。
本方法流程并不限定目标用户信息的形式和内容。
可选地,目标用户信息可以包括以下至少一项:目标用户的偏好信息、目标用户的属性信息、目标用户的账号信息等等。
本方法流程并不限定目标用户信息的来源。
可选地,可以直接获取目标用户输入的目标用户信息,也可以是从多种信息来源收集和分析得到目标用户信息。
可选地,训练文本样本中包含的目标用户信息获取方式,可以是:针对目标用户视频、目标用户图像、目标用户音频和目标用户文本中的至少一项,提取出目标用户信息文本;根据所提取的目标用户信息文本,获取目标用户信息。
本实施例并不限定目标用户视频、目标用户图像、目标用户音频和目标用户文本的获取方式。
可选地,可以是目标用户提供,或者经过收集得到的。
可选地,目标用户视频可以包括:在目标用户使用语言模型的过程中,针对目标用户拍摄的视频;目标用户图像可以包括:在目标用户使用语言模型的过程中,针对目标用户拍摄的图像;目标用户音频可以包括:在目标用户使用语言模型的过程中,针对目标用户记录的音频;目标用户文本可以包括:在目标用户使用语言模型的过程中,目标用户向语言模型输入的文本。
需要说明的是,本方法流程中的语言模型可以是通过持续更新训练得到的。目标用户可以在某次训练之前使用语言模型。
为了方便理解,本说明书实施例还提供了一种具体的实施例。
在目标用户使用语言模型的过程中,可以获取目标用户输入的内容,具体可以是文本内容、图像内容、音频内容或者视频内容。
而目标用户使用语言模型产生的历史记录,可以作为目标用户信息的来源。
具体可以通过分析的方式,从历史记录中分析得到目标用户信息。
针对分析的目标用户信息,可以采用关键词的方式进行存储和管理。这里的关键词具体可以是话题。
从目标用户和语言模型的历史对话文本里,可以总结提炼出其聊过的话题,按照话题来将对话文本进行进一步抽象和降噪,提取出目标用户信息,构造出话题向量数据库,提升向量检索的质量和速度。
因为话题的数量比对话文本数量少,且每一条话题对应的目标用户信息更多,有利于为LLM提供更多的背景知识利于其产生优质的回复。根据对话文本总结出话题可以是通过语言模型来完成。
其中,可以引入Milvus 向量数据库来存储话题以及对应的目标用户信息,Milvus专为向量查询与检索设计,能够为万亿级向量数据建立索引。
当构建好话题向量数据库后,用户的输入文本可以转换为词向量(embedding)后到话题向量数据库中进行相似度检索,搜索出跟当前输入文本最接近的话题以及对应的目标用户信息,作为变量内容传递给LLM。
例如,关于乒乓球的话题,用户表达:他喜欢打乒乓球,是看了一位运动员的比赛开始对乒乓球产生兴趣的,他认为这位运动员反手力量强且个性谦虚,非常欣赏他。
关于露营的话题,用户表达:他喜欢露营,特别是在大自然中看星星或者烧烤聊天。
关于工作压力的话题,用户表达:他工作压力大,需要完成一个关于SQL的调研任务,但遇到了困难。
用户跟语言模型交互的过程中可能谈到同一个话题,具体可以根据用户的交互,更新话题对应的目标用户信息,并且更新到话题向量数据库中。
通过话题的搜索,以及提供对应的目标用户信息,可以提高语言模型的个性化程度。
当然,这些目标用户信息也可以用于生成样本,用于语言模型的训练。
训练文本样本的示例如下:
输入文本:用户关于乒乓球有哪些看法?
输出文本:用户喜欢打乒乓球,是看了一位运动员的比赛开始对乒乓球产生兴趣的,他认为这位运动员反手力量强且个性谦虚,非常欣赏他。
此外,还可以引入多模态特征增强对目标用户信息的捕捉。
可以利用实时摄像捕捉技术,记录用户与语言模型交互时的表情,姿态以及环境等特征,通过visual-LLM可以将捕捉到到视觉特征转换为描述文本,作为目标用户信息存储到对应的话题向量数据库中,增强对用户个性特征的学习。
例如当用户在谈论乒乓球话题时,visual-LLM将视觉特征转换为描述文本:“用户坐在客厅沙发,旁边有一只小狗,他的表情很兴奋,微笑”。
从该描述文本可以得到更多的目标用户信息,比如用户大概率养了一只宠物狗,用户喜爱乒乓球等等。
当用户谈论到另一个比如悲伤的话题时候,视觉特征会提供更多用户关于该话题的情绪特征,这些特征结合文本话题数据,可以增强对用户的个性化信息挖掘。
本实施例可以借助大语言模型的语义理解能力,引入话题向量数据库设计了一种高效的话题分类个性化记忆管理系统,用于存储和更新目标用户信息,例如喜好和用户特征。
增加多模态特征,引入Vistual-LLM,通过实时摄像头捕捉技术,捕捉交互时用户的表情,状态以及环境等特征,通过多模态模型将视觉特征转换为描述文本,存储到对应的话题数据库中,以增强对用户的个性特征的捕捉。
针对大语言模型难以基于新的数据重新训练,以及目前的参数不可能记住所有知识和信息的缺点,提出基于指令精调的联合学习模型,旨在让模型在和用户交互的过程中通过检索历史对话信息和微调模型参数达到长记忆功能。
指令精调可仅微调大语言模型的部分参数,将用户的个人信息参数化,永久嵌入大型语言模型,由此实现个人定制化的长记忆模型,提高语言模型的个性化程度。
这一解决方案适用于多个个人化AI助手领域,包括个人专属陪伴机器人等。通过与用户进行对话和互动,高效地储存关于用户的个人记忆,精调大语言模型,最终实现对用户需求的个性化满足。
五、关于语言模型的应用。
本方法流程并不限定训练完成的语言模型的具体应用方式。
可选地,可以利用训练完成的语言模型进行文本生成、对话、问答等等。
可选地,由于上述方法实施例可以通过利用目标用户信息,提高语言模型的个性化程度,因此,本说明书实施例还可以提供一种文本生成方法。
其中,可以将目标文本输入训练结束的语言模型;语言模型可以是基于上述任一方法实施例训练得到的;目标文本中可以包括,目标用户的表达文本;获取语言模型输出的,针对目标文本进行回复的回复文本。
由于是目标用户的表达文本,也就是由目标用户与训练完成的语言模型进行交互,从而可以基于语言模型针对目标用户的个性化程度,提高回复文本针对目标用户的个性化程度,提高目标用户的体验。
其中,本方法流程并不限定目标用户的表达文本的生成方式。可选地,表达文本可以是目标用户输入的文本,也可以是根据目标用户的语音,识别出的文本等等。
可选地,目标文本中还可以包括:包含目标用户信息的提示文本。
在一种可选的实施例中,用户与语言模型交互时,可以通过提示工程提高用户体验,具体可以通过包含更新信息的提示文本,方便语言模型进行处理。
为了方便理解,下面给出一种提示文本的示例。
提示文本如下所示:
你是一个私人管家,你正在跟你的主人对话。首先,这是你和主人最近的聊天记录:无。
然后,这是和主人说的话最相关的话题内容:无。
最后,这是和主人之前聊天记录的主要话题内容:乒乓球。
你需要根据以上的背景来回复主人,你的回复里要尽量询问他可能感兴趣的问题,和与当前聊天有关的问题,来使聊天持续有趣的进行下去。你要根据主人的回复来推测他是否还想聊天。你只能用中文回答,不能编造聊天内容。
通过上述提示文本,可以通过更多的限定信息,使得语言模型可以结合提示文本,给出更准确的回复。
提示文本中可以包含目标用户信息,例如,你的主人喜欢乒乓球。从而方便语言模型可以根据目标用户的喜好信息,进行更加个性化的回复。
因此,本实施例可以通过结合包含目标用户信息的提示文本,提高回复文本的个性化程度。
本实施例并不限定提示文本的生成方式。可选地,可以结合目标用户信息生成提示文本。
可选地,结合通过上述话题向量数据库,通过检索的方式生成提示文本。
在一种具体的示例中,训练完成的语言模型可以用于作为智能管家或者聊天机器人,通过提高针对用户的个性化程度,提高用户的体验。
除了上述应用于用户终端的实施例,本说明书实施例还提供了一种应用于服务端的实施例。
如图3所示,图3是本说明书实施例提供的另一种语言模型训练方法的流程示意图。
该方法流程可以应用于服务端
语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
服务端用于和用户终端联合训练语言模型;用户终端部署有语言模型中的至少一个分支层;服务端部署有语言模型中的至少一个隐藏层;
该方法流程可以包括以下步骤。
S201:根据包含目标用户信息的训练文本样本,与用户终端联合训练语言模型。
在训练过程中,用户终端用于更新本地部署的至少一个分支层参数。
S202:在训练过程中,针对用户终端部署的目标分支层,向用户终端发送本地部署的对应目标隐藏层的输入数据,以使用户终端将所获取的输入数据输入到目标分支层;接收用户终端发送的目标分支层的输出,综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。
可选地,服务端可以用于和不同用户终端分别联合训练不同语言模型;不同语言模型之间部署在服务端的参数相同。
可选地,服务端可以获取不同用户终端发送的模型训练损失;综合所获取的模型训练损失,根据综合结果更新本地部署的语言模型参数。
本实施例可以提高服务端部署的语言模型的训练效果。
可选地,用户终端还部署有语言模型中的输出层;方法还包括:
在训练过程中,用户终端获取输出层上一层的输出数据,并将所获取的输出数据输入到输出层,获取输出层输出的预测结果,并确定预测结果与训练文本样本的标签之间的损失,基于所确定的损失更新输出层参数。
可选地,用户终端还可以部署有语言模型中的输出层。
在训练过程中,用户终端可以用于获取输出层上一层的输出数据,并将所获取的输出数据输入到输出层,获取输出层输出的预测结果,并确定预测结果与训练文本样本的标签之间的损失,基于所确定的损失更新输出层参数。
可选地,用户终端还可以部署有语言模型中的输入层。
可选地,在训练过程中,用户终端可以用于更新输入层参数。
可选地,在训练过程中,用户终端可以用于将包含目标用户信息的训练文本样本特征,输入到输入层中,获取输入层提取的文本特征,并将文本特征发送到服务端。
可选地,语言模型中还包含第一输出层和第二输出层;语言模型输出的文本包括,融合第一输出层输出文本与第二输出层输出文本得到的融合文本;
可选地,用户终端还部署第一输出层;服务端还部署有第二输出层;
可选地,在训练过程中,用户终端可以用于获取第一输出层的第一输出文本,并从服务端获取第二输出层的第二输出文本;基于第一输出文本和第二输出文本进行融合,得到语言模型输出的融合文本,并确定融合文本与训练文本样本的标签之间的损失,基于所确定的损失更新第一输出层参数。
可选地,语言模型中还可以包含融合层;融合层用于融合第一输出层输出文本与第二输出层输出文本得到的融合文本;
用户终端还可以部署融合层;
用户终端可以用于:将第一输出文本和第二输出文本输入融合层,得到融合层输出的融合文本;
在训练过程中,用户终端可以用于基于所确定的损失更新融合层参数。
可选地,任一分支层可以用于,针对输入数据进行降维,并针对降维结果提取特征,再针对所提取的特征进行升维,输出升维结果。
可选地,在训练过程中,语言模型部署在服务端中的参数被冻结。
可选地,包含目标用户信息的训练文本样本的特征和/或标签中,可以包含目标用户信息。
可选地,训练文本样本中包含的目标用户信息获取方式,包括:
针对目标用户视频、目标用户图像、目标用户音频和目标用户文本中的至少一项,提取出目标用户信息文本;
根据所提取的目标用户信息文本,获取目标用户信息。
可选地,目标用户视频包括:在目标用户使用语言模型的过程中,针对目标用户拍摄的视频;
目标用户图像包括:在目标用户使用语言模型的过程中,针对目标用户拍摄的图像;
目标用户音频包括:在目标用户使用语言模型的过程中,针对目标用户记录的音频;
目标用户文本包括:在目标用户使用语言模型的过程中,目标用户向语言模型输入的文本。
可选地,还可以提供一种文本生成方法,将目标文本输入训练结束的语言模型;语言模型是基于上述方法实施例中的训练方法训练得到的;目标文本中包括,目标用户的表达文本;获取语言模型输出的,针对目标文本进行回复的回复文本。
可选地,目标文本中还可以包括:包含目标用户信息的提示文本。
本方法流程的解释可以参见上述方法流程的解释。
除了上述应用于用户终端的实施例,本说明书实施例还提供了一种在单个设备上训练语言模型的实施例。
如图4所示,图4是本说明书实施例提供的另一种语言模型训练方法的流程示意图。
本方法流程并不限定具体的执行主体。可选地,可以是服务端或者用户终端。
语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
该方法流程可以包括以下步骤。
S301:根据包含目标用户信息的训练文本样本,训练语言模型。
S302:在训练过程中,更新至少一个分支层的参数。
本方法流程的解释可以参见上述方法流程的解释。
除了上述应用于用户终端的实施例,本说明书实施例还提供了一种应用于系统的实施例。
如图5所示,图5是本说明书实施例提供的另一种语言模型训练方法的流程示意图。
语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
用户终端部署有语言模型中的至少一个分支层;服务端部署有语言模型中的至少一个隐藏层;
该方法流程可以包括以下步骤。
S401:根据包含目标用户信息的训练文本样本,用户终端与服务端联合训练语言模型。
S402:在训练过程中,用户终端更新本地部署的至少一个分支层参数。
S403:在训练过程中,针对用户终端部署的目标分支层,用户终端获取服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到目标分支层,将目标分支层的输出发送到服务端;服务端综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。
本方法流程的解释可以参见上述方法流程的解释。
除了上述方法实施例,本说明书实施例还提供了对应的装置实施例和系统实施例。
如图6所示,图6是本说明书实施例提供的一种语言模型训练装置的结构示意图。
该装置可以应用于用户终端。
其中,语言模型中可以包含至少一个分支层和至少一个隐藏层。
不同分支层可以对应于不同隐藏层;任一分支层可以用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,可以是对应隐藏层下一层的输入。
用户终端可以用于和服务端联合训练语言模型;用户终端可以部署有语言模型中的至少一个分支层;服务端可以部署有语言模型中的至少一个隐藏层。
该装置可以包括以下单元。
第一训练单元501,用于根据包含目标用户信息的训练文本样本,与服务端联合训练语言模型。
第一更新单元502,用于在训练过程中,更新本地部署的至少一个分支层参数;
第一交互单元503,用于在训练过程中,针对用户终端部署的目标分支层,获取服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到目标分支层,将目标分支层的输出发送到服务端,以使服务端综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。
本装置实施例的解释可以参见上述方法实施例。
如图7所示,图7是本说明书实施例提供的另一种语言模型训练装置的结构示意图。
该装置可以应用于服务端。
语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
服务端用于和用户终端联合训练语言模型;用户终端部署有语言模型中的至少一个分支层;服务端部署有语言模型中的至少一个隐藏层;
该装置可以包括以下单元。
第二训练单元601,用于根据包含目标用户信息的训练文本样本,与用户终端联合训练语言模型。
在训练过程中,用户终端用于更新本地部署的至少一个分支层参数。
第二交互单元602,用于在训练过程中,针对用户终端部署的目标分支层,向用户终端发送本地部署的对应目标隐藏层的输入数据,以使用户终端将所获取的输入数据输入到目标分支层;接收用户终端发送的目标分支层的输出,综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。
本装置实施例的解释可以参见上述方法实施例。
如图8所示,图8是本说明书实施例提供的另一种语言模型训练装置的结构示意图。
语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
该装置可以包括以下单元。
第三训练单元701,用于根据包含目标用户信息的训练文本样本,训练语言模型;
第三更新单元702,用于在训练过程中,更新至少一个分支层的参数。
本装置实施例的解释可以参见上述方法实施例。
如图9所示,图9是本说明书实施例提供的一种语言模型训练系统的结构示意图。
该系统可以包括用户终端801和服务端802;语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
用户终端801部署有语言模型中的至少一个分支层;服务端802部署有语言模型中的至少一个隐藏层;
用户终端801与服务端802用于:根据包含目标用户信息的训练文本样本,联合训练语言模型;
用户终端801用于:在训练过程中,更新本地部署的至少一个分支层参数;
用户终端801用于:在训练过程中,针对用户终端801部署的目标分支层,获取服务端802部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到目标分支层,将目标分支层的输出发送到服务端802;
服务端802用于:在训练过程中,综合目标分支层的输出与目标隐藏层的输出,并将综合结果输入到目标隐藏层的下一层。
本系统实施例的解释可以参见上述方法实施例。
本说明书还提供一种计算机可读存储介质,如图10所示,图10是本说明书实施例提供的一种计算机可读存储介质的结构示意图。该介质140上存储有计算机程序,所述程序被处理器执行时实现本说明书实施例中用户终端或服务端执行的方法。
本说明书还提供一种计算设备,包括存储器、处理器;所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本说明书实施例中用户终端或服务端执行的方法。
图11是本说明书实施例提供的一种计算设备的结构示意图,该计算设备15可以包括但不限于:处理器151、存储器152、连接不同系统组件(包括存储器152和处理器151)的总线153。
其中,存储器152存储有计算机指令,该计算机指令可以被处理器151执行,使得处理器151能够执行本说明书任一实施例的方法。存储器152可以包括随机存取存储单元RAM1521、高速缓存存储单元1522和/或只读存储单元ROM1523。该存储器152还可以包括:具有一组程序模块1524的程序工具1525,该程序模块1524包括但不限于:操作系统、一个或多个应用程序、其他程序模块和程序数据,这些程序模块一种或多种组合可以包含网络环境的实现。
总线153例如可以包括数据总线、地址总线和控制总线等。该计算设备15还可以通过I/O接口154与外部设备155通信,该外部设备155例如可以是键盘、蓝牙设备等。该计算设备150还可以通过网络适配器156与一个或多个网络通信,例如,该网络可以是局域网、广域网、公共网络等。如图所示,该网络适配器156还可以通过总线153与计算设备15的其他模块进行通信。
此外,尽管在附图中以特定顺序描述了本说明书方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本说明书的精神和原理,但是应该理解,本说明书并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本说明书旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书多个实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书多个实施例。在本说明书多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本说明书多个实施例的较佳实施例而已,并不用以限制本说明书多个实施例,凡在本说明书多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书多个实施例保护的范围之内。
Claims (22)
1.一种语言模型训练方法,应用于用户终端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述用户终端用于和服务端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述方法包括:
根据包含目标用户信息的训练文本样本,与所述服务端联合训练所述语言模型;
在训练过程中,所述用户终端更新本地部署的至少一个分支层参数;
在训练过程中,针对所述用户终端部署的目标分支层,获取所述服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到所述目标分支层,将所述目标分支层的输出发送到所述服务端,以使所述服务端综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
2.根据权利要求1所述的方法,所述用户终端还部署有所述语言模型中的输出层;所述方法还包括:
在训练过程中,所述用户终端获取所述输出层上一层的输出数据,并将所获取的输出数据输入到所述输出层,获取所述输出层输出的预测结果,并确定预测结果与训练文本样本的标签之间的损失,基于所确定的损失更新所述输出层参数。
3.根据权利要求1所述的方法,所述用户终端还部署有所述语言模型中的输入层;所述方法还包括:
在训练过程中,所述用户终端更新所述输入层参数;
在训练过程中,所述用户终端将包含目标用户信息的训练文本样本特征,输入到所述输入层中,获取所述输入层提取的文本特征,并将所述文本特征发送到所述服务端。
4.根据权利要求1所述的方法,所述语言模型中还包含第一输出层和第二输出层;所述语言模型输出的文本包括,融合所述第一输出层输出文本与所述第二输出层输出文本得到的融合文本;
所述用户终端还部署所述第一输出层;所述服务端还部署有所述第二输出层;
所述方法还包括:
在训练过程中,所述用户终端获取所述第一输出层的第一输出文本,并从所述服务端获取所述第二输出层的第二输出文本;基于所述第一输出文本和所述第二输出文本进行融合,得到所述语言模型输出的融合文本,并确定融合文本与训练文本样本的标签之间的损失,基于所确定的损失更新所述第一输出层参数。
5.根据权利要求4所述的方法,所述语言模型中还包含融合层;所述融合层用于融合所述第一输出层输出文本与所述第二输出层输出文本得到的融合文本;
所述用户终端还部署所述融合层;
所述基于所述第一输出文本和所述第二输出文本进行融合,得到所述语言模型输出的融合文本,包括:将所述第一输出文本和所述第二输出文本输入所述融合层,得到所述融合层输出的融合文本;
所述方法还包括:在训练过程中,基于所确定的损失更新所述融合层参数。
6.根据权利要求1所述的方法,所述任一分支层用于,针对输入数据进行降维,并针对降维结果提取特征,再针对所提取的特征进行升维,输出升维结果。
7.根据权利要求1所述的方法,在训练过程中,所述语言模型部署在所述服务端中的参数被冻结。
8.根据权利要求1所述的方法,所述包含目标用户信息的训练文本样本的特征和/或标签中,包含目标用户信息。
9.根据权利要求1所述的方法,所述训练文本样本中包含的目标用户信息获取方式,包括:
针对目标用户视频、目标用户图像、目标用户音频和目标用户文本中的至少一项,提取出目标用户信息文本;
根据所提取的目标用户信息文本,获取目标用户信息。
10.根据权利要求9所述的方法,所述目标用户视频包括:在目标用户使用所述语言模型的过程中,针对目标用户拍摄的视频;
所述目标用户图像包括:在目标用户使用所述语言模型的过程中,针对目标用户拍摄的图像;
所述目标用户音频包括:在目标用户使用所述语言模型的过程中,针对目标用户记录的音频;
所述目标用户文本包括:在目标用户使用所述语言模型的过程中,目标用户向所述语言模型输入的文本。
11.一种文本生成方法,包括:
将目标文本输入训练结束的语言模型;所述语言模型是基于权利要求1至10中任一项所述训练方法训练得到的;所述目标文本中包括,所述目标用户的表达文本;
获取所述语言模型输出的,针对所述目标文本进行回复的回复文本。
12.根据权利要求11所述的方法,所述目标文本中还包括:包含所述目标用户信息的提示文本。
13.一种语言模型训练方法,应用于服务端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述服务端用于和用户终端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述方法包括:
根据包含目标用户信息的训练文本样本,与所述用户终端联合训练所述语言模型;
在训练过程中,所述用户终端用于更新本地部署的至少一个分支层参数;
在训练过程中,针对所述用户终端部署的目标分支层,向所述用户终端发送本地部署的对应目标隐藏层的输入数据,以使所述用户终端将所获取的输入数据输入到所述目标分支层;接收所述用户终端发送的所述目标分支层的输出,综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
14.根据权利要求13所述的方法,所述服务端用于和不同用户终端分别联合训练不同语言模型;不同语言模型之间部署在所述服务端的参数相同;
所述方法还包括:
获取不同用户终端发送的模型训练损失;
综合所获取的模型训练损失,根据综合结果更新本地部署的语言模型参数。
15.一种语言模型训练方法,所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述方法包括:
根据包含目标用户信息的训练文本样本,训练所述语言模型;在训练过程中,更新至少一个分支层的参数。
16.一种语言模型训练方法,应用于包含用户终端和服务端的系统;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述方法包括:
根据包含目标用户信息的训练文本样本,所述用户终端与所述服务端联合训练所述语言模型;
在训练过程中,所述用户终端更新本地部署的至少一个分支层参数;
在训练过程中,针对所述用户终端部署的目标分支层,所述用户终端获取所述服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到所述目标分支层,将所述目标分支层的输出发送到所述服务端;所述服务端综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
17.一种语言模型训练装置,应用于用户终端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述用户终端用于和服务端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述装置包括:
第一训练单元,用于根据包含目标用户信息的训练文本样本,与所述服务端联合训练所述语言模型;
第一更新单元,用于在训练过程中,更新本地部署的至少一个分支层参数;
第一交互单元,用于在训练过程中,针对所述用户终端部署的目标分支层,获取所述服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到所述目标分支层,将所述目标分支层的输出发送到所述服务端,以使所述服务端综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
18.一种语言模型训练装置,应用于服务端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述服务端用于和用户终端联合训练所述语言模型;所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述装置包括:
第二训练单元,用于根据包含目标用户信息的训练文本样本,与所述用户终端联合训练所述语言模型;
在训练过程中,所述用户终端用于更新本地部署的至少一个分支层参数;
第二交互单元,用于在训练过程中,针对所述用户终端部署的目标分支层,向所述用户终端发送本地部署的对应目标隐藏层的输入数据,以使所述用户终端将所获取的输入数据输入到所述目标分支层;接收所述用户终端发送的所述目标分支层的输出,综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
19.一种语言模型训练装置,所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述装置包括:
第三训练单元,用于根据包含目标用户信息的训练文本样本,训练所述语言模型;
第三更新单元,用于在训练过程中,更新至少一个分支层的参数。
20.一种语言模型训练系统,包括用户终端和服务端;所述语言模型中包含至少一个分支层和至少一个隐藏层;不同分支层对应于不同隐藏层;任一分支层用于,获取对应隐藏层的输入进行特征提取;其中,任一分支层的输出与对应隐藏层的输出之间的综合结果,是对应隐藏层下一层的输入;
所述用户终端部署有所述语言模型中的至少一个分支层;所述服务端部署有所述语言模型中的至少一个隐藏层;
所述用户终端与所述服务端用于:根据包含目标用户信息的训练文本样本,联合训练所述语言模型;
所述用户终端用于:在训练过程中,更新本地部署的至少一个分支层参数;
所述用户终端用于:在训练过程中,针对所述用户终端部署的目标分支层,获取所述服务端部署的对应目标隐藏层的输入数据,并将所获取的输入数据输入到所述目标分支层,将所述目标分支层的输出发送到所述服务端;
所述服务端用于:在训练过程中,综合所述目标分支层的输出与所述目标隐藏层的输出,并将综合结果输入到所述目标隐藏层的下一层。
21.一种计算设备,包括存储器、处理器;所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至15中任一项所述方法。
22.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1至15中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146743.5A CN116881428B (zh) | 2023-09-06 | 2023-09-06 | 一种语言模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146743.5A CN116881428B (zh) | 2023-09-06 | 2023-09-06 | 一种语言模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881428A CN116881428A (zh) | 2023-10-13 |
CN116881428B true CN116881428B (zh) | 2023-11-21 |
Family
ID=88255439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311146743.5A Active CN116881428B (zh) | 2023-09-06 | 2023-09-06 | 一种语言模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881428B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094360A (zh) * | 2023-10-18 | 2023-11-21 | 杭州同花顺数据开发有限公司 | 一种用户表征提取方法、装置、设备及存储介质 |
CN117171331B (zh) * | 2023-11-01 | 2024-02-06 | 清华大学 | 基于大型语言模型的专业领域信息交互方法、装置及设备 |
CN117725414A (zh) * | 2023-12-13 | 2024-03-19 | 北京海泰方圆科技股份有限公司 | 训练内容生成模型方法、确定输出内容方法、装置及设备 |
CN117634459A (zh) * | 2024-01-24 | 2024-03-01 | 山东海量信息技术研究院 | 目标内容生成及模型训练方法、装置、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490922A (zh) * | 2020-10-27 | 2022-05-13 | 华为技术有限公司 | 一种自然语言理解模型训练方法及装置 |
CN116050425A (zh) * | 2022-12-26 | 2023-05-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 建立预训练语言模型的方法、文本预测方法及装置 |
CN116502176A (zh) * | 2023-03-28 | 2023-07-28 | 支付宝(杭州)信息技术有限公司 | 一种语言模型的预训练方法、装置、介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507099B (zh) * | 2020-12-18 | 2021-12-24 | 北京百度网讯科技有限公司 | 对话理解模型的训练方法、装置、设备和存储介质 |
-
2023
- 2023-09-06 CN CN202311146743.5A patent/CN116881428B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490922A (zh) * | 2020-10-27 | 2022-05-13 | 华为技术有限公司 | 一种自然语言理解模型训练方法及装置 |
CN116050425A (zh) * | 2022-12-26 | 2023-05-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 建立预训练语言模型的方法、文本预测方法及装置 |
CN116502176A (zh) * | 2023-03-28 | 2023-07-28 | 支付宝(杭州)信息技术有限公司 | 一种语言模型的预训练方法、装置、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
SentiBERT:结合情感信息的预训练语言模型;杨晨;宋晓宁;宋威;;计算机科学与探索(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116881428A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116881428B (zh) | 一种语言模型训练方法及装置 | |
CN108959627B (zh) | 基于智能机器人的问答交互方法及系统 | |
CN107943998B (zh) | 一种基于知识图谱的人机对话控制系统及方法 | |
CN108959396B (zh) | 机器阅读模型训练方法及装置、问答方法及装置 | |
CN110046221B (zh) | 一种机器对话方法、装置、计算机设备及存储介质 | |
CN109977201B (zh) | 带情感的机器聊天方法、装置、计算机设备及存储介质 | |
CN110263324A (zh) | 文本处理方法、模型训练方法和装置 | |
CN113035311B (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
CN116932708A (zh) | 大语言模型驱动的开放域自然语言推理问答系统及方法 | |
CN113505198B (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN116821457B (zh) | 一种基于多模态大模型的智能咨询及舆情处理系统 | |
JP2023182707A (ja) | 深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置 | |
CN113392261A (zh) | 基于影视主题的对话式音乐推荐方法 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN117251552B (zh) | 基于大型语言模型的对话处理方法、装置及电子设备 | |
CN109857843A (zh) | 基于文档的交互方法及系统 | |
CN117455009A (zh) | 联邦学习方法、联邦预测方法、装置、设备及存储介质 | |
Aggarwal et al. | Improving search through A3C reinforcement learning based conversational agent | |
CN116384405A (zh) | 文本处理方法,文本分类方法及情感识别方法 | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
CN115168558A (zh) | 一种实现多轮人机对话的方法 | |
CN113761933A (zh) | 检索方法、装置、电子设备及可读存储介质 | |
CN114443916B (zh) | 一种面向试验数据的供需匹配方法及系统 | |
Han et al. | Interactive media creation by reusing video contents | |
CN116737756B (zh) | 一种数据查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |