CN116756579A - 大语言模型的训练方法及基于大语言模型的文本处理方法 - Google Patents

大语言模型的训练方法及基于大语言模型的文本处理方法 Download PDF

Info

Publication number
CN116756579A
CN116756579A CN202311058355.1A CN202311058355A CN116756579A CN 116756579 A CN116756579 A CN 116756579A CN 202311058355 A CN202311058355 A CN 202311058355A CN 116756579 A CN116756579 A CN 116756579A
Authority
CN
China
Prior art keywords
task
feature extraction
text
training
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311058355.1A
Other languages
English (en)
Other versions
CN116756579B (zh
Inventor
林镇溪
张子恒
吴贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311058355.1A priority Critical patent/CN116756579B/zh
Publication of CN116756579A publication Critical patent/CN116756579A/zh
Application granted granted Critical
Publication of CN116756579B publication Critical patent/CN116756579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种大语言模型的训练方法及基于大语言模型的文本处理方法,涉及人工智能、云技术、自然语言处理及机器学习等领域,尤其涉及预训练语言模型中的语言模型。该方法包括:获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,获取每一任务对应的第二特征提取网络,对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络,基于所述预训练语言模型和各所述任务对应的训练后的第二特征提取网络,得到所述目标领域的目标大语言模型。基于该方法,可以提高大语言模型输出的文本处理结果的准确性。

Description

大语言模型的训练方法及基于大语言模型的文本处理方法
技术领域
本申请属于计算机技术领域,可涉及人工智能、云技术、自然语言处理及机器学习等领域,具体而言,本申请涉及一种大语言模型的训练方法及基于大语言模型的文本处理方法。
背景技术
随着人工智能的飞速发展,出现了越来越多人工智能模型,例如大语言模型(Large Language Model, LLM)。大语言模型是一种基于深度学习技术的自然语言处理模型,它可以生成自然语言文本。大语言模型需要大量的训练数据和计算资源来训练,学习到语言的规律和模式,可以用于文本生成、机器翻译、语音识别、计算机视觉等技术中。
然而,目前的大语言模型通常是在通用语料上预训练的,普适性较强。虽然目前的大语言模型的普适性越来越强,但如何提升大语言模型输出的文本处理结果的准确性也是相关领域的重要研究方向。
发明内容
本申请实施例的目的旨在提供一种能够提升大语言模型输出的文本处理结果的准确性的大语言模型的训练方法及基于大语言模型的文本处理方法。为实现该目的,本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种大语言模型的训练方法,包括:
获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,其中,训练集包括多个带有训练标签的样本文本,一个样本文本的标签表征了该样本文本的真实文本处理结果,预训练语言模型包括第一特征提取网络和结果预测网络;
获取每一任务对应的第二特征提取网络;
对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;
基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型;
其中,对于每一任务,训练操作包括:
对于该任务对应的每一样本文本,通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过结果预测网络得到该任务对应的样本文本的预测文本处理结果;
基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;
若不满足训练结束条件,则基于训练损失对该任务对应的第二特征提取网络的模型参数进行调整。
在一种可能的实现方式中,第一特征提取网络包括多个第一特征提取层,第二特征提取网络包括与至少部分第一特征提取层并联的第二特征提取层;
通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,包括:
通过多个特征提取器依次对该样本文本进行特征提取操作,每一特征提取器包括第一特征提取层,至少部分特征提取器还包括与该特征提取器的第一特征提取层并联的第二特征提取层;
其中,特征提取操作包括:
对于不包括第二特征提取层的特征提取器,通过该特征提取器的第一特征提取层对该特征提取器的输入进行特征提取,将提取得到的文本特征作为该特征提取器的输出;其中,第一个特征提取器的输入为样本文本,除第一个特征提取器之外的特征提取器的输入为该特征提取器的前一个特征提取器的输出,最后一个特征提取层的输出作为结果预测网络的输入;
对于包括第二特征提取层的特征提取器,通过第一特征提取层和第二特征提取层,分别对该特征提取器的输入进行特征提取,并将第一特征提取层和第二特征提取层提取得到的文本特征进行融合,将融合后的文本特征作为该特征提取器的输出。
在一种可能的实现方式中,
获取每一任务对应的第二特征提取网络,包括:
对于每一任务,确定该任务对应的训练集中的样本文本的第一数量;
对于每一任务,基于该任务对应的第一数量,确定该任务对应的第二数量,第二数量为第二特征提取网络中包括的第二特征提取层的数量,第一数量与第二数量正相关;
对于每一任务,基于该任务对应的第二数量的第二特征提取层,得到该任务对应的第二特征提取网络。
在一种可能的实现方式中,对于每一任务,基于该任务对应的第一数量,确定该任务对应的第二数量,包括:
获取对应关系,对应关系包括多个候选数量范围以及与多个候选数量范围中每一候选数量范围对应的目标数量;
对于每一任务,确定该任务对应的第一数量在多个候选数量范围中所属的目标范围,将该目标范围对应的目标数量确定为该任务对应的第二数量。
在一种可能的实现方式中,方法还包括:
确定多个自然语言处理任务中每个任务的任务类型;
若多个自然语言处理任务中存在相同任务类型的任务,则将相同任务类型的任务作为一个合并任务,并将相同任务类型的任务对应的训练集合并,得到合并任务对应的训练集;
获取每一任务对应的第二特征提取网络,包括:
获取每个合并任务对应的第二特征提取网络、以及多个自然语言处理任务中除合并任务之外的每一任务对应的第二特征提取网络。
在一种可能的实现方式中,基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型,包括以下的任一项:
将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络;将预训练语言模型和融合后的第二特征提取网络,作为至少两个任务中其中一个任务对应的目标大语言模型;其中,至少两个任务对应的第二特征提取网络的网络结构相同;
对于每一任务,将预训练语言模型和该任务对应的训练后的第二特征提取网络,作为该任务对应的目标大语言模型。
在一种可能的实现方式中,将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,包括:
获取各自然语言处理任务的任务属性信息;
基于各自然语言处理任务的任务属性信息之间的相似度,确定多个自然语言处理任务之间的第一相似度;
将第一相似度满足预设条件的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合。
在一种可能的实现方式中,将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,包括:
获取至少两个任务中各任务的权重;
采用至少两个任务中各任务的权重,对至少两个任务对应的训练后的第二模型参数进行加权求和。
在一种可能的实现方式中,获取至少两个任务中各任务的权重,包括:
获取至少两个任务中每个任务的任务信息,一个任务的任务信息包括该任务的训练集中样本文本的数量或该任务的重要程度中的至少一项;
根据至少两个任务中各任务的任务信息,确定至少两个任务中各任务的权重。
在一种可能的实现方式中,一个任务的任务信息包括该任务对应的样本文本的数量和该任务的重要程度;
根据至少两个任务中各任务的任务信息,确定至少两个任务中各任务的权重,包括:
确定至少两个任务中每个任务对应的样本文本的第一数量以及至少两个任务对应的样本文本的总数量,根据至少两个任务中每个任务对应的第一数量在总数量中的占比,确定每个任务对应的第一权重;
根据至少两个任务中各任务对应的重要程度,确定每个任务对应的第二权重;
对于每个任务,通过融合该任务对应的第一权重和第二权重,得到该任务对应的权重。
在一种可能的实现方式中,至少两个任务为多个自然语言处理任务;获取至少两个任务中各任务的权重,包括:
获取目标大语言模型对应的目标应用场景信息;
确定目标应用场景信息对应的目标任务;
若目标应用场景对应的目标任务为多个自然语言处理任务中的任一任务,则将任一任务对应的权重确定为1,将任一任务之外的每一任务对应的权重确定为0;
若目标应用场景对应的目标任务不属于多个自然语言处理任务中的任一任务,则分别确定多个自然语言处理任务中各任务与目标任务的第二相似度;
根据多个自然语言处理任务中各任务与目标任务的第二相似度,确定各任务的权重,第二相似度和权重成正相关。
另一方面,本申请实施例还提供了一种基于大语言模型的文本处理方法,包括:
获取目标领域对应的待处理文本;
通过目标领域的目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的文本处理结果;
其中,目标大语言模型是通过本申请任一可选实施例中提供的方法的步骤得到的。
在一种可能的实现方式中,目标大语言模型是通过以下方式确定的:
对待处理文本进行任务意图识别,得到待处理文本对应的意图识别结果,意图识别结果包括多个自然语言处理任务中每一任务对应的置信度;
将置信度最高的任务对应的训练后的大语言模型,作为目标大语言模型,或者,按照置信度从大到小的顺序,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,基于预训练语言模型和融合后的第二特征提取网络,得到目标大语言模型。
在一种可能的实现方式中,待处理文本为咨询对象的第一咨询文本,文本处理结果为咨询文本对应的第一咨询结果;
得到待处理文本对应的文本处理结果之后,还包括:
对第一咨询文本进行咨询意图识别,得到第一咨询文本对应的咨询意图;
基于咨询意图,生成与咨询意图对应的至少一条咨询引导信息;
将第一咨询结果和至少一条咨询引导信息,提供给咨询对象;
若获取到咨询对象输入的第二咨询文本和针对至少一条咨询引导信息的选择操作时,将第二咨询文本和咨询对象选择的咨询引导信息作为新的待处理文本,通过目标大语言模型对新的待处理文本进行结果预测处理,得到第二咨询结果;
将第二咨询结果提供给咨询对象。
另一方面,本申请实施例还提供了一种大语言模型的训练装置,包括:
获取模块,用于获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,其中,训练集包括多个带有训练标签的样本文本,一个样本文本的标签表征了该样本文本的真实文本处理结果,预训练语言模型包括第一特征提取网络和结果预测网络;获取每一任务对应的第二特征提取网络;
训练模块,用于对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;
训练模块还用于基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型;
其中,对于每一任务,训练操作包括:
对于该任务对应的每一样本文本,通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过结果预测网络得到该任务对应的样本文本的预测文本处理结果;
基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;
若不满足训练结束条件,则基于训练损失对该任务对应的第二特征提取网络的模型参数进行调整。
另一方面,本申请实施例还提供了一种基于大语言模型的文本处理装置,包括:
文本获取模块,用于获取目标领域对应的待处理文本;
文本处理模块,用于通过目标领域的目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的文本处理结果;
其中,目标大语言模型是通过本申请任一可选实施例中提供的方法的步骤得到的。
另一方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
本申请实施例提供的技术方案带来的有益效果如下:
本申请实施例提供的大语言模型的训练方法及基于大语言模型的文本处理方法,获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,获取每一任务对应的第二特征提取网络,对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型,而对于每一任务,训练操作包括:对于该任务对应的每一样本文本,通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过结果预测网络得到该任务对应的样本文本的预测文本处理结果;基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;若不满足训练结束条件,则基于训练损失对该任务对应的第二特征提取网络的模型参数进行调整,则可以在预训练语言模型的基础上,针对目标领域的每一任务进行单独训练,从而避免多个任务之间混用训练集进行混合训练而导致的多个任务之间的噪声互相干扰,进而导致训练好的大语言模型输出的文本处理结果不准确的问题,可以实现提高大语言模型输出的文本处理结果的准确性。此外,由于在训练的过程中,调整第二特征提取网络的第二模型参数,也即可以在训练的过程中保持调整预训练语言模型的第一模型参数不变,则训练过程中调整的参数量较少,还可以提高训练的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种文本处理系统的结构示意图;
图2是本申请实施例提供的另一种文本处理系统的结构示意图;
图3是本申请实施例提供的另一种文本系统的结构示意图;
图4为本申请实施例提供的一种大语言模型的训练方法的流程示意图;
图5为本申请实施例提供的一种初始大语言模型的结构示意图;
图6为本申请实施例提供的另一种初始大语言模型的结构示意图;
图7为本申请实施例提供的一种包括第一特征提取层和第二特征提取层的特征提取器的结构示意图;
图8为本申请实施例提供的一种将至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合的示意图;
图9为本申请实施例提供的一种基于大语言模型的文本处理方法的流程示意图;
图10为本申请实施例提供的一种文本处理的结果示意图;
图11为本申请实施例提供的一种医疗领域的文本处理方法的流程示意图;
图12为本申请实施例提供的一种医疗领域的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合的示意图;
图13为本申请实施例提供的一种大语言模型的训练装置的结构示意图;
图14为本申请实施例提供的一种基于大语言模型的文本处理装置的结构示意图;
图15为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“参数A包括A1、A2、A3”的描述,可以实现为参数A包括A1或A2或A3,还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。
本申请实施例提供了一种大语言模型的训练方法及基于大语言模型的文本处理方法,该方法可以获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,获取每一任务对应的第二特征提取网络,对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络,基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型;可以兼顾文本处理结果的准确性以及模型的训练效率。
其中,本申请实施例提供的方法可涉及人工智能(Artificial Intelligence,AI)技术,可基于人工智能技术实现,比如,采用机器学习(Machine Learning,ML)的方式,利用多个自然语言处理任务中每一任务对应训练集,训练得到每一任务对应的训练好的第二特征提取网络。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练语言模型技术、操作/交互系统、机电一体化等。其中,预训练语言模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,可以在预训练语言模型的基础上进行进一步训练,从而得到目标领域的目标大语言模型。
预训练语言模型为预训练模型(Pre-training model)的一种,为预训练模型也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
可选的,本申请实施例的方案还涉及自然语言处理(Nature Languageprocessing,NLP)。例如,通过目标领域的多个自然语言处理任务中每一任务的训练集进行训练。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
可选的,本申请实施例的技术方案涉及云技术,例如,本申请实施例的方案可以由服务器或用户终端执行,其中,服务器可以是云服务器,该方案在实施过程中所涉及的数据处理可以基于云技术实现,实施过程中所涉及的数据存储可以采用云存储。比如,初始大语言模型的构建以及的目标大语言模型的存储可以采用云技术实现。
其中,云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。而云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统 (以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
需要说明的是,在本申请的可选实施例中,所涉及到的对象信息(训练的样本文本)等相关的数据,当本申请中的实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本申请实施例中如果涉及到与对象有关的数据,需要经由对象授权同意、相关部门授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。实施例中如涉及个人信息,所有个人信息的获取需要获得个人的同意,如涉及到敏感信息,需要征得信息主体的单独同意,实施例也是需要在对象授权同意的情况下实施。
请参阅图1,图1是本申请实施例提供的一种文本处理系统的结构示意图。如图1所示的文本处理系统包括第一服务器110和终端120。
其中,终端120可以包括但不限于是终端120可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、便携式可穿戴设备或者沉浸式图像显示设备等中的一种或多种。物联网设备可为智能音箱、智能电视、智能空调、或者智能车载设备等中的一种或多种。便携式可穿戴设备可为智能手表、智能手环、或者头戴设备等中的一种或多种。沉浸式图像显示设备包括但不限于增强现实(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备等。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体的,该第一服务器110可以作为训练服务器,获取多个自然语言处理任务中的每一任务对应的训练集进行训练,得到目标领域的目标大语言模型。然后,可以将目标大语言模型部署在第一服务器110或终端120中。则在需要得到某一文本对应的文本处理结果时,可以通过终端120输入待处理文本,进而可以基于目标大语言模型来确定出待处理文本。
可以理解的是,对于目标大语言模型部署在第一服务器110来说,终端120获取待处理文本后,可以将待处理文本发送至第一服务器110,第一服务器110则对待处理文本进行处理得到目标文本处理结果,终端120接收第一服务器110反馈的目标文本处理结果,并展示该目标文本处理结果。对于目标大语言模型部署在终端120来说,则终端120可以直接调用目标大语言模型对待处理文本进行处理,从而得到目标文本处理结果。
需要说明的是,通过终端120输入待处理文本,可以是直接向终端120输入待处理文本;也可以是向终端120输入图像,则终端120可以提取输入的图像中的待处理文本;也可以是向终端120输入语音,则终端120可以将语音转换成对应的待处理文本等,在此不做限定。
在一些场景中,也可以是通过第一服务器110进行训练,并将训练好的目标大语言模型部署在第一服务器110;此外,还可以是通过终端120进行训练,并将训练好的目标大语言模型部署在终端120;此外,还可以是第一服务器110和终端120服务器协同训练,在此不做限定。
请参阅图2,图2是本申请实施例提供的另一种文本处理系统的结构示意图。如图2所示的文本处理系统,包括第一服务器110、终端120和第二服务器130。在本实施例中,第一服务器110可以作为训练的服务器,第二服务器130可以作为对文本处理的服务器。
在一些场景中,也可以是第一服务器110,以及终端120或第二服务器130中的至少一个协同训练,在此不做限定。
具体的,可以通过第一服务器110训练得到目标大语言模型,并将目标大语言模型部署在第二服务器130中,则可以通过终端120获取待处理文本,并向第二服务器130发送待处理文本,第二服务器130进而能够向终端120反馈目标文本处理结果。
请参阅图3,图3是本申请实施例提供的另一种文本系统的结构示意图。如图3所示的文本处理系统,包括第一服务器110、终端120和多个第二服务器130。
其中,第一服务器110可以训练得到各任务对应的目标大语言模型,并将各任务对应的目标大语言模型部署在不同的第二服务器130中。则可以通过终端120获取待处理文本,并确定待处理文本所对应的任务,从而基于待处理文本所对应的任务将待处理文本发送至相应的第二服务器130中,则接收到待处理文本的第二服务器130则利用其部署的目标大语言模型对待处理文本进行处理,得到目标文本处理结果,并将目标文本处理结果反馈给终端120。
可以理解的是,以上文本处理系统是一些示例的情形,并不构成实现本申请实施例的技术方案的所有情形。
为了清楚地对本申请实施例的技术方案进行说明,以下实施例就大语言模型的训练、训练好的大语言模型的应用以及大语言模型的训练以及应用的协同分别进行说明。
首先,对大语言模型的训练进行说明。
请参阅图4,图4为本申请实施例提供的一种大语言模型的训练方法的流程示意图。本实施例的方法可以应用于终端或第一服务器,也可以由终端和第一服务器协同执行。下面以该方法应用于电子设备为例进行说明,该电子设备可以是终端或第一服务器。如图4所示的方法包括:
S410、获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型。
其中,目标领域可以包括但不限于医疗领域、法律领域、金融领域或教育领域等中的至少一项。以医疗领域为例,医疗领域的多个自然语言处理任务包括但不限于导诊任务、病症预测任务、诊断标准化任务、预问诊任务、医学文献分析任务或医学问答任务中的至少两个任务。以法律领域为例,则法律领域的多个自然语言处理任务可以包括法律咨询任务、合同模板获取任务和侵权风险评估任务等,在此不做限定。可选的,本实施例的任务划分,可以是基于任务的类型来划分,例如可以是按照分类任务、抽取式任务、生成式任务等方式划分,每一任务类型可以包括一个或多个任务。预训练语言模型包括第一特征提取网络和结果预测网络。
可以理解的是,该样本文本可以是直接采集的文本,也可以是从采集的图像中提取出的文本,还可以是基于采集的语音转换得到的文本,在此不做限定。
其中,导诊任务的主要目的可以包括分析患者的症状和主诉进行科室导诊,为患者提供有效的导引和指引,使其能够快速、准确地找到所需的医疗服务和资源,为患者提供便捷的医疗就诊体验,提高医院服务的效率和质量。例如,当患者出现头痛、恶心、呕吐等症状时,医疗大语言模型可以推断可能是脑部病症,建议患者前往神经科就诊。
其中,病症预测任务可以先预分析患者的症状和病史,预测可能的病症和治疗方案,帮助医生做出更快更好的诊断和治疗决策。
其中,临床上关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。术语标准化任务可以为临床上各种不同说法找到对应的标准说法,以缓解编码人员的工作负担并提高工作效率;诊断标准化任务。
其中,预问诊任务可以自动生成问诊小结,帮助医生快速了解患者的病情和治疗方案。例如,当医生完成对患者的问诊后,医疗大语言模型可以自动生成一份问诊小结,包括患者的症状、病史、诊断和治疗方案等信息,方便医生进行后续的诊断和治疗。
其中,医学文献分析任务可以分析医学文献,提取关键信息和知识,帮助医生了解最新的医学研究成果和治疗方案。
其中,医学问答任务可以包括用药问答任务或智能客服任务中的至少一项。医学问题任务可以回答患者和医生的问题,提供有用的医学信息和建议,缓解医生的工作压力,提高医疗服务的效率和质量。
其中,训练集包括带有多个训练标签的样本文本。一个样本文本的标签表征了该样本文本的真实文本处理结果。
S420、获取每一任务对应的第二特征提取网络。
其中,第二特征提取网络可是是指待训练的特征提取网络。其中,所有任务对应相同的预训练语言模型。
可选的,第二特征提取网络的第二参数量小于预训练语言模型的第一参数量。
S430、对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络。
在本实施例中,示例性的,假设多个自然语言处理任务包括任务1和任务2。则对于任务1,利用任务1对应的训练集对该任务1对应的第二特征提取网络进行训练,得到任务1对应的训练后的第二特征提取网络。同理,对于任务2,利用任务2对应的训练集对该任务2对应的第二特征提取网络进行训练,得到该任务2对应的训练后的第二特征提取网络。也就是说,本实施例的每一任务是独立训练的。
其中,在训练过程中,对于每一任务,固定预训练语言模型的第一模型参数,调整该任务对应的第二特征提取网络的第二模型参数。
S440、基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型。
在本实施例中,示例性的,假设多个自然语言处理任务包括任务1和任务2,则基于预训练语言模型、任务1对应的训练后的第二特征提取网络和任务2对应的训练后的第二特征提取网络生成目标领域的大语言模型。
可以理解的是,若训练的是医疗领域的任务,则得到的是医疗领域的目标大语言模型,若训练的事法律领域的任务,则得到的法律领域的目标大语言模型。
具体的,在以上示例的任一目标领域中,知识和专业性很高,对于数据收集和数据质量的要求会更高,缺乏大量的标准数据,如果直接调整预训练语言模型和第二特征提取网络的所有参数可能会造成过拟合。因此,可以选择调整部分参数,例如调整第二特征提取网络的参数。此外,在相关技术中,通过将目标领域的多个任务的训练集进行混合,并将混合的训练集进行训练,从而使得训练后的大语言模型能够同时实现多种任务。然而,由于不同任务的数据数量不均衡,质量也参差不齐,导致相关技术的训练存在数据不平衡问题,同时不同任务之间的噪声也会互相干扰,进而导致利用相关技术训练得到的训练后的大语言模型对于目标领域的文本处理结果的准确性不高。
例如,以目标领域包括医疗领域来说,用药问答和智能客服可以从一些医疗网站上爬取一些问答对,量级一般比较大,但可能混有大量噪声,而一些专业性较强的任务,比如诊断标准化需要有专业的医生介入,一般量级比问答类任务要少很多,所以会导致不同任务数据比例不平衡,数据不平衡会导致模型对于样本多的任务过拟合,而对于样本量少的任务欠拟合,所以一般额外需要采取一些上采样或者下采样的措施,但是引入这些措施也增加了训练的难度和不确定性。另外任务数据难免存在噪声,混合训练使得不同任务的噪声互相干扰,容易导致模型产生一些不合理的输出。还有的是,当新增了不同的任务,而且这个任务和之前的任务差异化较大时,传统方法需要把新数据和原有数据再次混合重新训练,避免模型出现灾难性遗忘,但是每次新增任务都需要重新训练导致了成本的增加,而且当任务非常多时也会造成训练的困难。
本实施例技术方案,通过获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,获取每一任务对应的第二特征提取网络,对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型,而对于每一任务,训练操作包括:对于该任务对应的每一样本文本,通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过结果预测网络得到该任务对应的样本文本的预测文本处理结果;基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;若不满足训练结束条件,则基于训练损失对该任务对应的第二特征提取网络的模型参数进行调整,则可以在预训练语言模型的基础上,针对目标领域的每一任务进行单独训练,从而避免多个任务之间混用训练集进行混合训练而导致的多个任务之间的噪声互相干扰,进而导致训练好的大语言模型输出的文本处理结果不准确的问题,可以实现提高大语言模型输出的文本处理结果的准确性。此外,由于在训练的过程中,调整第二特征提取网络的第二模型参数,也即可以在训练的过程中保持调整预训练语言模型的第一模型参数不变,则训练过程中调整的参数量较少,还可以提高训练的效率。
在本实施例中,第一特征提取网络和第二特征提取网络可以形成一个整体的特征提取网络。特征提取网络和结果预测网络可以构成初始大语言模型。在本实施例中,初始大语言模型包括级联的特征提取网络和结果预测网络。第一特征提取网络包括多个第一特征提取层,第二特征提取网络包括与至少部分第一特征提取层并联的第二特征提取层。特征提取网络可以包括级联的多个特征提取器,每一特征提取器包括第一特征提取层,至少部分特征提取器还包括与该特征提取器的第一特征提取层并联的第二特征提取层;其中,多个第一特征提取层和结果预测网络为预训练语言模型,每一任务对应的至少一个第二特征提取层为该任务的第二特征提取网络。
请参阅图5和图6,图5为本申请实施例提供的一种初始大语言模型的结构示意图。图6为本申请实施例提供的另一种初始大语言模型的结构示意图。
如图5所示的模型架构中,每一特征提取器包括第一特征提取层和第二提取层。如图6所示的模型架构中,部分特征提取器包括第一特征提取层,另一部分特征提取器包括第一特征提取层和第二特征提取层。
需要说明的是,在构建初始大语言模型时,可以在部分或全部特征提取器中添加第二特征提取网络。
可以理解的是,部分特征提取器包括第二特征提取层,这样需要调整的参数量会进一步减少,也可以降低模型对某个任务过拟合的情况,进一步兼顾了训练效率和文本处理的准确性。以下实施例就样本文本的样式进行举例说明。
在一种可能的实现方式中,可以采用提示指令的方式构建样本文本。提示指令指的是根据任务特性在输入数据中添加自然语言提示或指令,用于描述和指导期望初始大语言模型完成的任务形式。比如对于情感二分类(消极/积极)问题,传统的方法是输入句子比如“这家餐厅的味道还不错”,模型需要输出“积极”标签,而对于提示指令,在输入句子中加上相应任务指令作为初始大语言模型的输入,比如:“判断下面句子的标签是消极还是积极:这家餐厅的味道还不错”,初始大语言模型对于输出为“该句子的标签为积极”。下面以一些常见医疗领域为例构造基于提示指令样本文本:
导诊:对应构造的提示指令如下:
病症预测:对应构造的提示指令如下:
诊断标准化:由于诊断标准化任务需要映射的目标词表量级太大,对LLM来说难度太大,因此,本申请实施例是先通过召回模型(比如BM25,BERT)从词表中召回5个候选集,然后要求模型从候选集中做出选择,对应构造的提示指令如下:
预问诊:对应构造的提示指令如下:
用药问答:对应构造的提示指令如下:
智能客服:对应构造的提示指令如下:
可以理解的是,上述给出的提示指令不是唯一的,只要能够准确描述和表达任务意图的提示即可。除了用药问答、智能客服和预问诊是生成式任务之外,其余任务本质上还是判别式任务(比如分类),通过提示指令使得不同任务都能够兼容初始大语言模型的输入和输出格式。
需要说明的是,“:”前面的部分可以是固定的模板,“:”后面的部分可以是原始训练数据中的输入输出内容。
在一种可能的实现方式中,通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,包括:
通过多个特征提取器依次对该样本文本进行特征提取操作,每一特征提取器包括第一特征提取层,至少部分特征提取器还包括与该特征提取器的第一特征提取层并联的第二特征提取层;
其中,特征提取操作包括:
对于不包括第二特征提取层的特征提取器,通过该特征提取器的第一特征提取层对该特征提取器的输入进行特征提取,将提取得到的文本特征作为该特征提取器的输出;其中,第一个特征提取器的输入为样本文本,除第一个特征提取器之外的特征提取器的输入为该特征提取器的前一个特征提取器的输出,最后一个特征提取层的输出作为结果预测网络的输入;
对于包括第二特征提取层的特征提取器,通过第一特征提取层和第二特征提取层,分别对该特征提取器的输入进行特征提取,并将第一特征提取层和第二特征提取层提取得到的文本特征进行融合,将融合后的文本特征作为该特征提取器的输出。
示例性的,本实施例结合图6,对其中一个任务的训练进行进一步说明。首先,对于第一个特征提取器,第一个特征提取器的第一特征提取层对第一个特征提取器的输入进行特征提取,从而输出文本特征。对于第二个特征提取器,第二个特征提取器的第一特征提取层和第二提取层分别对该第二个特征提取器的输入进行特征提取,并将第一特征提取层和第二特征提取层提取得到的文本特征进行融合,将融合后的文本特征作为第二个特征提取器的输出。结果预测网络对最后一个特征提取器提取得到的文本特征进行预测,得到该样本文本的预测文本处理结果。
然后,可以确定是否满足训练结束条件,若满足则结束该任务的训练,若不满足,可以基于样本文本的预测文本处理结果和标签表征的真实文本处理结果,计算预测文本处理结果和真实文本处理结果的训练损失,并基于训练损失对第二模型参数进行调整。
请参阅图7,图7为本申请实施例提供的一种包括第一特征提取层和第二特征提取层的特征提取器的结构示意图。
如图7所示,第一特征提取层的参数包括参数W,而第二特征提取层的参数包括参数A和参数B,则该特征提取器的输出可以是:
其中,表示输出,/>表示输入,R表示超参数,d表示预训练语言模型的全量参数,r表示新增的参数。可选的,/>,则新增的参数相对于预训练语言模型的全量参数是非常少的,因此可以提高训练效率。
具体的,对于不同的任务,其不同的可以是参数A和参数B,而W是共享的。
可选的,在开始训练时将参数B初始化为全0矩阵,而参数A使用随机高斯分布初始化,保证训练开始时不改变原始的输出。
可以理解的是,本实施例的初始大语言模型还可以包括输入层,该输入层可以包括编码层,第一个编码器的输入,可以是输入层对样本文本进行编码后输出的编码样本文本。
本实施例的技术方案,通过在特征提取网络进行特征提取的过程中,对于包括第二特征提取层的特征提取器,通过第一特征提取层和第二特征提取层,分别对该特征提取器的输入进行特征提取,并将第一特征提取层和第二特征提取层提取得到的文本特征进行融合,也即在训练过程利用预训练的第一特征提取层和第二特征提取层,但调整的是第二特征提取层的参数,则调整的参数量较小,可以实现模型的微调,由此可以降低过拟合的情况以及提高第二特征提取网络的训练效率。
需要说明的是,不同任务之间的预训练语言模型的架构可以相同;但不同任务之间的第二特征提取网络的架构可以相同,也可以不同,在此不做限定。具体的,不同任务之间的第二特征提取网络的架构不同,可以理解为不同任务在不同特征提取器添加第二特征提取层。
在示例的一些情形中,由于不同任务之间的情况不同,并且每一任务对应的第二特征提取网络中的第二特征层的数量对于该任务的初始大语言模型的拟合效果有所影响,进而影响训练效果,进而影响目标大语言模型的文本处理效果,因此,可以利用各任务之间的差别来确定各任务对应的第二特征提取层的数量,进而提高目标大语言模型的文本处理效果。
在一种可能的实现方式中,获取每一任务对应的第二特征提取网络,包括:
对于每一任务,确定该任务对应的训练集中的样本文本的第一数量;
对于每一任务,基于该任务对应的第一数量,确定该任务对应的第二数量,第二数量为第二特征提取网络中包括的第二特征提取层的数量;
对于每一任务,基于该任务对应的第二数量的第二特征提取层,得到该任务对应的第二特征提取网络。
在本实施例中,具体的,任务对应的训练集中的样本文本的第一数量可能对于该任务对应的初始大语言模型的拟合效果有所影响,因此,本实施例利用每一任务对应的训练集中的样本文本的第一数量作为依据,来确定出该任务对应的第二特征提取网络中包括的第二特征提取层的数量,从而提高该任务对应的初始大语言模型的拟合效果,进而提高该目标大语言模型的文本处理效果。
其中,第一数量与第二数量正相关,也可以理解为第一数量越大则第二数量越大。
具体的,在本实施例中,若一个任务的训练集的样本文本的数量比较少,此时如果该任务对应的第二特征提取层的数量较多时,容易出现过拟合的情况。过拟合指的是对于训练集来说,模型的预测准确度较高,但是对于测试集或者是模型应用时的待处理文本,其预测准确率反而不高。
本实施例通过对于每一任务,确定该任务对应的训练集中的样本文本的第一数量;基于该任务对应的第一数量,确定该任务对应的第二数量,第二数量为第二特征提取网络中包括的第二特征提取层的数量;基于该任务对应的第二数量的第二特征提取层作为该任务对应的第二特征提取网络,能够提高目标大语言模型输出的文本处理结果的准确性。
在一种可能的实现方式中,对于每一任务,基于该任务对应的第一数量,确定该任务对应的第二数量,包括:
获取对应关系,对应关系包括多个候选数量范围以及与多个候选数量范围中每一候选数量范围对应的目标数量;
对于每一任务,确定该任务对应的第一数量在多个候选数量范围中所属的目标范围,将该目标范围对应的目标数量确定为该任务对应的第二数量。
其中,多个候选数量范围中任意两个候选数量范围之间存在至少一个不同的候选数量。可选的,可以是其中两个候选数量范围存在相同的范围区间,也可以是任意两个候选数量范围不存在相同的范围区间。示例性的,以任意两个候选数量范围存在相同的范围区间为例,则候选数量范围1可以是[1000,2000],候选数量范围2可以是[1500,2500]。以任意两个候选数量不存在相同的范围区间为例,则候选数量范围3可以是[1000,2000],候选数量范围4可以是[2001,3000]。具体的,每一候选数量范围都对应有目标数量。
示例性的,以多个候选数量范围包括候选数量范围3和候选数量范围4为例,若任务1对应的训练集中的样本文本的数量为1500,则将候选数量范围3对应的目标数量,作为任务1对应的第二数量。
可选的,若一个任务对应的训练集中的样本文本数量所属的目标范围为多个,则将多个目标范围中的其中一个目标范围对应的目标数量,作为该任务对应的第二数量。
示例性的,以多个候选数量范围包括候选数量范围1和候选数量范围2为例,若任务1对应的训练集中的样本文本的数量为1500,则可以将候选数量范围1对应的目标数量作为任务1对应的第二数量,或者将候选数量范围2对应的目标数量作为任务1对应的第二数量。
可选的,还可以计算该任务对应的样本文本的数量与每一目标范围的最小数量之间的数量差值,并将数量差值最小的目标范围对应的目标数量,作为该任务对应的第二数量。
示例性的,以多个候选数量范围包括候选数量范围1和候选数量范围2为例,若任务1对应的训练集中的样本文本的数量为1500,则可以将候选数量范围2对应的目标数量作为任务1对应的第二数量。
本实施例的技术方案,通过获取对应关系,对应关系包括多个候选数量范围以及与多个候选数量范围中每一候选数量范围对应的目标数量,对于每一任务,确定该任务对应的第一数量在多个候选数量范围中所属的目标范围,将该目标范围对应的目标数量确定为该任务对应的第二数量,可以准确地确定出每一任务对应的第二数量,进而提高训练得到的目标大语言模型的文本处理效果。
需要说明的是,多个候选数量范围中每一范围对应的目标数量,可以是根据拟合效果的实验确定出的对应关系,在此不做限定。
可选的,每一候选数量范围对应的目标数量,与该候选数量范围的最大数量有关。具体的,可以是一个候选数量范围对应的目标数量,与该候选数量范围对应的最大数量正相关,也即一个候选数量范围对应的最大数量越大,则该候选数量范围对应的目标数量越大;还可以是,一个候选数量范围对应的目标数量,与该候选数量范围对应的最大数量负相关,也即一个候选数量范围对应的最大数量越大,则该候选数量范围对应的目标数量越小,在此不做限定。
在示例的一些情形中,一个任务对应的训练集中的样本文本的数量越少,如果该任务对应的第二数量越大,则越容易出现过拟合的情况。
因此,在一种可能的实现方式中,一个候选数量范围对应的最大数量越大,则该候选数量范围对应的目标数量越大,则确定出的每一任务对应的第二数量,与该任务对应的训练集的样本文本的数量有关,一个任务对应的训练集的样本文本的数量越小,则该任务对应的第二数量越小,从而减少过拟合的情况,进一步提升该目标大语言模型的文本处理效果。
请继续参阅图5和图6。假设任务1的训练集的样本文本的数量为1500,任务2的训练集的样本文本数量为2000,则任务1对应的初始大语言模型可以如图6所示,任务2对应的初始大语言模型可以如图5所示。
在一种可能的实现方式中,由于个别任务的训练集的训练样本的数量不够,为了提高该任务的训练效果,在训练该任务对应的初始大语言模型之前,本方法还可以包括:
确定多个自然语言处理任务中每个任务的任务类型;
若多个自然语言处理任务中存在相同任务类型的任务,则将相同任务类型的任务作为一个合并任务,并将相同任务类型的任务对应的训练集合并,得到合并任务对应的训练集;
获取每一任务对应的第二特征提取网络,包括:
获取每个合并任务对应的第二特征提取网络、以及多个自然语言处理任务中除合并任务之外的每一任务对应的第二特征提取网络。
其中,任务类型可以是生成式任务、抽取式任务或判别式任务等。在本实施例中,若多个自然语言处理任务中存在相同任务类型的任务,则将将相同任务类型的任务对应的训练集合并,得到合并任务对应的训练集,以及获取每个合并任务对应的第二特征提取网络,也即相同任务类型的任务作为一个合并任务进行训练,可以提高训练效率,同时由于样本数量的增加也能够提高训练效果。
以下实施例在以上任一实施例的基础上,对于如何基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型进行进一步说明。
在一种可能的实现方式中,基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型,包括:
对于每一任务,将预训练语言模型和该任务对应的训练后的第二特征提取网络,作为该任务对应的目标大语言模型。
在本实施例中,可以直接将预训练语言模型和该任务对应的训练后的第二特征提取网络,作为该任务对应的目标大语言模型。
在一些示例的情形中,不同任务之间可能具有一定的相关性,因此可以将具有一定相关性的至少两个任务对应的训练后的第二特征提取网络进行融合,得到参与融合的至少两个任务中每一任务对应的训练后的第二特征提取网络。
在一种可能的实现方式中,基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型,包括:
将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络;将预训练语言模型和融合后的第二特征提取网络,作为至少两个任务中其中一个任务对应的目标大语言模型;其中,至少两个任务对应的第二特征提取网络的网络结构相同。
其中,网络结构相同的两个第二特征提取网络,可以是两个第二特征提取网络中第二特征提取层的数量相同,且第二特征提取层在特征提取网络中设置的位置相同。
本实施例的技术方案,通过将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,以及将预训练语言模型和融合后的第二特征提取网络,作为至少两个任务中其中一个任务对应的目标大语言模型,则对于参与融合的其中一个任务对应的目标大语言模型,都考虑到了一起融合的其他任务对应的训练好的第二特征提取网络,可以使得参与融合的每一任务对应的目标大语言模型,都具备一起融合的其他任务的任务能力,从而使得目标大语言模型的文本处理效果更佳。
示例性的,假设将任务1和任务2对应的训练后的第二特征提取网络进行融合,则可以将预训练语言模型和融合后的第二特征提取网络作为任务1对应的目标大语言模型,或者将预训练语言模型和融合后的第二特征提取网络作为任务2对应的目标大语言模型,或者将预训练语言模型和融合后的第二特征提取网络作为任务1以及任务2对应的目标大语言模型,可以根据需要设置,在此不做限定。
请参阅图8,图8为本申请实施例提供的一种将至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合的示意图。
如图8所示,可以根据需要,将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合。
示例性的,可以选择任务1和任务2对应的训练后的第二特征提取网络的第二模型参数进行融合,也可以选择任务1、任务2和任务3对应的训练后的第二特征提取网络的第二模型参数进行融合,在此不做限定,根据实际情况来确定需要融合的至少两个任务。
本实施例的技术方案,通过在训练阶段,将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,则对于参与了融合的任务,该任务对应的目标大语言模型还具备一起融合的其他任务的能力,因此在使用该任务对应的目标大语言模型进行文本处理时,文本处理结果更佳。因此,由于是在训练阶段就融合了第二模型参数,则在对文本进行处理时,可以选择直接调用某一任务对应的目标大语言模型进行文本处理,由此可以减少文本处理时所需要的资源能力,降低目标大语言模型的部署要求。
在一种可能的实现方式中,将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,包括:
获取各自然语言处理任务的任务属性信息;
基于各自然语言处理任务的任务属性信息之间的相似度,确定多个自然语言处理任务之间的第一相似度;
将第一相似度满足预设条件的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合。
其中,任务属性信息可以是自然语言处理任务的任务类型,例如该自然语言处理任务为生成式任务、判别式任务还是抽取式任务等。预设条件可以包括第一相似度大于阈值。具体的,若多个任务中的至少两个任务之间的第一相似度大于阈值,则说明至少两个任务之间的相似度较高,因此可以对该至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合。可选的,该阈值可以设置为80%,在此不做限定。
在本实施例中,具体的,可以基于每一自然语言处理任务的任务属性信息,来基于各自然语言处理任务的任务属性信息,确定多个自然语言处理任务之间的第一相似度。以多个自然语言处理任务包括导诊任务、病症预测任务、诊断标准化任务、预问诊任务、医学文献分析任务或医学问答任务为例进行说明。医药问答任务、预问诊任务和医学文献分析任务本质上是生成式任务,则可以将医药问答任务、预问诊任务和医学文献分析任务进行融合。而对于导诊任务、病症预测任务、诊断标准化任务,其本质上是判别是任务,因此,可以将导诊任务、病症预测任务、诊断标准化任务进行融合。
本实施例的技术方案,通过基于各自然语言处理任务的任务属性信息,确定多个自然语言处理任务之间的第一相似度;将第一相似度满足预设条件的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,则融合的至少两个任务的任务属性信息都是比较接近的,由此能够提高融合的效果,进而提升对应的目标大语言模型的文本处理效果。
在一种可能的实现方式中,将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,包括:
获取至少两个任务中各任务的权重;
采用至少两个任务中各任务的权重,对至少两个任务对应的训练后的第二模型参数进行加权求和。
在本实施例中,结合图7的第二特征层进行说明。
如下所示,把任务1和任务2的第二模型参数融合,得到具有两个任务能力的融合后的第二模型参数,其中为设定的权重比例,取值范围可以是[0,1],当等于0时退化为任务2,等于1时退化为任务1:
其中,为任务1的权重,/>为任务2的权重。A3为融合后的第二模型参数,A1为任务1的其中一个第二模型参数、A2为任务2的其中一个第二模型参数。B3为融合后的第二模型参数,B1为任务1的其中一个第二模型参数、B2为任务2的其中一个第二模型参数。/>
需要说明的是,当希望模型能够同时结合两个任务的特性,但是更多以任务1为主就可以把设置得更大,例如设置为大于0.5的数值,具体参数设置需要以实际业务测试为准,在此不做具体限定。
本实施例的技术方案,通过获取至少两个任务中各任务的权重;采用至少两个任务中各任务的权重,对至少两个任务对应的训练后的第二模型参数进行加权求和,并非简单的计算平均值,由此可以提高融合的效果。
在一种可能的实现方式中,获取至少两个任务中各任务的权重,包括:
获取至少两个任务中每个任务的任务信息,一个任务的任务信息包括该任务的训练集中样本文本的数量或该任务的重要程度中的至少一项;
根据至少两个任务中各任务的任务信息,确定至少两个任务中各任务的权重。
在本实施例中,对于参与融合的每一任务,可以根据该任务的训练集中样本文本的数量或该任务的重要程度中的至少一项来确定出该任务的权重。可选的,一个任务的训练集中样本文本的数量越多,则该任务对应的权重越大。可选的。一个任务的重要程度越高,则该任务对应的权重越大。
其中,一个任务的重要程度的评估,可以是通过分析目标领域的所有自然语言处理任务中每一任务的执行次数,并将执行次数最多的任务作为基准任务。需要说明的是,所有自然语言处理任务可以包括本申请实施例中提及的进行训练的自然语言处理任务,也可以是包括本实施例中未提及的自然语言处理任务,在此不做限定。然后,计算参与融合的至少两个任务中每一任务与该基准任务的第三相似度,则根据第三相似度来确定每一任务的重要程度。其中,可以是第三相似度越高,则重要程度越高。
此外,也可以根据多个自然语言处理任务中每一任务配置的重要系数来确定重要程度。重要系数越大,则对应的重要程度越高。具体的,该重要系数可以根据任务对于实际使用时的重要程度来确定。以医疗领域为例,一般来说医学问答任务的影响会比较大,因为可能会询问扭伤之后要怎么处理,此时医学问答任务的重要系数可以配置的比较高。至于导诊任务,其挂错号只需要重新挂号即可,则对于该导诊任务对应的重要系数可以配置的低一些。
此外,一个任务的重要程度的评估,还可以是与融合的目的有关。可选的,可以先确定融合的第二特征提取网络所适用的任务,进而基于适用的任务来确定每一任务对应的权重。其中,适用的任务对应的权重大于不适用的任务对应的权重。以融合任务1和任务2的训练好的第二特征提取网络的第二模型参数为例,若融合的目的是为了得到任务1对应的目标大语言模型,则任务1的重要程度高于任务2对应的重要程度;若融合的目的是为了得到任务2对应的目标大语言模型,则任务2的重要程度高于任务1对应的重要程度。
可选的,在本实施例中,可以先确定融合的第二特征提取网络所适用的任务,进而基于适用的任务来确定每一任务对应的权重。其中,适用的任务对应的权重大于不适用的任务对应的权重。具体的,若适用的任务为多个,则可以针对多个适用任务中的每一适用任务与基准任务的第三相似度,进一步来确定每一适用任务对应的权重。
本实施例的技术方案,通过一个任务对应的训练集中样本文本的数量或重要程度中的至少一项来确定各任务对应的权重,也即利用了与任务有关的信息来确定权重,考虑到了不同任务之前的差别,则得到的权重更准确,进而能够提升训练的效果。
在一种可能的实现方式中,一个任务的任务信息包括该任务对应的样本文本的数量和该任务的重要程度;
根据至少两个任务中各任务的任务信息,确定至少两个任务中各任务的权重,包括:
确定至少两个任务中每个任务对应的样本文本的第一数量以及至少两个任务对应的样本文本的总数量,根据至少两个任务中每个任务对应的第一数量在总数量中的占比,确定每个任务对应的第一权重;
根据至少两个任务中各任务对应的重要程度,确定每个任务对应的第二权重;
对于每个任务,通过融合该任务对应的第一权重和第二权重,得到该任务对应的权重。
其中,融合该任务对应的第一权重和第二权重,可以是计算该任务对应的第一权重和第二权重的平均值。
本实施例的技术方案,通过根据至少两个任务中各任务对应的样本文本的数量,确定每个任务对应的第一权重,并根据至少两个任务中各任务对应的重要程度,确定每个任务对应的第二权重,以及对于每个任务,通过融合该任务对应的第一权重和第二权重,得到该任务对应的权重,也即一个任务对应的权重,结合了任务对应的训练集的样本文本数量以及该任务对应的重要程度等至少两个方面的任务信息来确定该任务对应的权重,由此能够进一步提高确定的权重的准确性,进而提升融合的效果。
在一种可能的实现方式中,至少两个任务为多个自然语言处理任务,获取至少两个任务中各任务的权重,包括:
获取目标大语言模型对应的目标应用场景信息;
确定目标应用场景对应的目标任务;
若目标应用场景对应的目标任务为多个自然语言处理任务中的任一任务,则将任一任务对应的权重确定为1,将任一任务之外的每一任务对应的权重确定为0;
若目标应用场景对应的目标任务不属于多个自然语言处理任务中的任一任务,则分别确定多个自然语言处理任务中各任务与目标任务的第二相似度;
根据多个自然语言处理任务中各任务与目标任务的第二相似度,确定各任务的权重,第二相似度和权重成正相关。
其中,目标应用场景信息可以指示该目标大语言模型用在何种场景。在一些示例的场景中,为了提高目标大语言模型的轻量化程度,可以将目标大语言模型配置为适用于特定的任务。例如,用来专门进行医学问答,或者是专门用来医学文献分析,又或者是专门用来进行导诊的。第二相似度和权重成正相关,可以是指一个任务对应的相似度越大,则该任务对应的权重越大。在本实施例中,目标应用场景信息可以包括目标领域的所有自然语言处理任务中任务执行次数最多的任务,也可以包括用来表示某一特定任务的任务标识等,在此不做限定。
具体的,若目标应用场景信息包括目标领域的所有自然语言处理任务中任务执行次数最多的任务,则获取目标大语言模型对应的目标应用场景信息可以是通过分析目标领域的所有自然语言处理任务中每一任务的执行次数,从而确定出所有自然语言处理任务中任务执行次数最多的任务。
需要说明的是,所有自然语言处理任务可以包括本申请实施例中提及的进行训练的自然语言处理任务,也可以是包括本实施例中未提及的自然语言处理任务,在此不做限定。
在本实施例中,示例性的,以医疗领域为例,若目标任务为医学问答任务,则将该医学问答任务对应的权重确定为1,除了医学问答任务以外的任务对应的权重为0,则此时该目标大语言模型可以专用于医学问答。又例如,以医疗领域为例,若目标任务为医学文献分析任务,则该医学问答任务对应的权重确定为1,其他任务对应的权重确定为0,则此时目标大语言模型可以专用于医学文献分析。
可选的,确定多个自然语言处理任务中各任务与目标任务的第二相似度,可以通过获取多个自然语言处理任务中各任务的任务属性信息和目标任务的任务属性信息,则基于多个自然语言处理任务中各任务的任务属性信息和目标任务的任务属性信息之间的相似度,确定多个自然语言处理任务中各任务与目标任务的第二相似度。
本实施例的技术方案,通过获取目标大语言模型对应的目标应用场景信息;确定目标应用场景对应的目标任务;若目标应用场景对应的目标任务为多个自然语言处理任务中的任一任务,则将任一任务对应的权重确定为1,将任一任务之外的每一任务对应的权重确定为0,可以将目标大语言模型配置为适用于特定的任务,提高目标大语言模型的轻量化程度。此外,通过若目标应用场景对应的目标任务不属于多个自然语言处理任务中的任一任务,则分别确定多个自然语言处理任务中各任务与目标任务的第二相似度;根据多个自然语言处理任务中各任务与目标任务的第二相似度,确定各任务的权重,第二相似度和权重成正相关,则基于第二相似度所确定出的权重得到的目标大语言模型,也与目标任务比较匹配,也就是说,即使目标任务没有参与训练,也能够得到该目标任务对应的目标大语言模型,从而提高目标大语言模型的适用性。
以上实施例对于大语言模型的训练进行了说明,以下实施例可以在以上任一实施例的基础上,对于训练好的目标大语言模型的应用进行进一步说明。
请参阅图9,图9为本申请实施例提供的一种基于大语言模型的文本处理方法的流程示意图。本实施例的方法可以应用于终端、第一服务器或第二服务器,也可以由终端、第一服务器或第二服务器中的至少两个协同执行。下面以该方法应用于电子设备为例进行说明,该电子设备可以是终端、第一服务器或第二服务器。如图9所示的方法包括:
S910、获取目标领域对应的待处理文本。
其中,待处理文本可以是直接输入的,也可以是从输入的图像中提取到的,也可以是基于输入的语音转换的,在此不做限定。
S920、通过目标领域的目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的目标文本处理结果。
其中,本实施例的目标大语言模型可以通过以上任一实施例的训练方法训练得到,在此不做赘述。
本实施例的技术方案,通过获取待处理文本,并通过目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的目标文本处理结果,而目标大语言模型是针对目标领域的每一任务进行单独训练的,可以实现提高大语言模型输出的文本处理结果的准确性。
在本实施例中,可选的,可以针对不同领域分别训练各自领域对应的目标大语言模型。则在获取待处理文本时,识别待处理文本所属的领域,并将待处理文本所属的领域对应的目标大语言模型来对待处理文本进行处理,从而适应不同的文本处理的场景。示例性的,针对医疗领域和法律领域分别训练各自领域对应的目标大语言模型,则在获取待处理文本时,识别待处理文本所属的领域,进而通过待处理文本所属的领域对应的目标大语言模型对待处理文本进行处理。
具体的,可以通过提取待处理文本的字符与不同领域的字符进行匹配,从而识别出待处理文本所属的领域。
在本实施例中,可选的,可以预先将多个自然语言处理任务中的所有任务的训练后的第二特征提取网络的第二模型参数进行融合,最后得到一个融合后的第二特征提取网络,则基于该融合后的第二特征提取网络和预训练语言模型可以得到一个目标大语言模型,则对于每一待处理文本,都基于该目标大语言模型进行处理,从而得到目标文本处理结果。
在一种可能的实现方式中,目标大语言模型是通过以下方式确定的:
对待处理文本进行任务意图识别,得到待处理文本对应的意图识别结果,意图识别结果包括多个自然语言处理任务中每一任务对应的置信度;
将置信度最高的任务对应的训练后的大语言模型,作为目标大预言模型,或者,按照置信度从大到小的顺序,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,基于预训练语言模型和融合后的第二特征提取网络,得到目标大语言模型。
在本实施例中,可以直接将置信度最高的任务对应的训练后的大语言模型,作为目标大预言模型,不需要进行融合,可以提高文本处理的效率。此外,也可以按照置信度从大到小的顺序,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,基于预训练语言模型和融合后的第二特征提取网络,得到目标大语言模型,则融合第二模型参数得到的目标大语言模型与待处理文本也更匹配,由此能够进一步提高文本处理的准确性。
在本实施例中,可选的,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,可以包括:
确定排序靠前的至少两个置信度中每一置信度对应的任务;
获取至少两个任务中各任务的权重;
采用至少两个任务中各任务的权重,对至少两个任务对应的训练后的第二模型参数进行加权求和。
在本实施例中,如何确定至少两个任务中各任务的权重,可以参考以上任一实施例的描述,在此不做赘述。
可以理解的是,若在训练时对第二模型参数进行融合,则在目标大语言模型的应用时,可以直接选择其中一个任务对应的训练好的大语言模型,兼顾文本处理效率以及准确率。
请参阅图10,图10为本申请实施例提供的一种文本处理的结果示意图。如图10所示,对于“牙周炎症状治疗方法有哪些”此待处理文本,对应的第二目标任务为医学问答,则本实施例输出的目标文本处理结果可以为“[医学问答]对于牙周炎的治疗,一般需要先进行牙周洁治和刮治等治疗措施,同时配合口服抗生素进行治疗。如果患者出现严重的牙周炎时,还需要考虑手术治疗。对于牙周炎的治疗,需要在专业医生的指导下进行,不能自行盲目进行治疗。建议患者在就诊前,先去口腔科检查,明确诊断后再行治疗。平时注意口腔卫生,养成早晚刷牙、饭后漱口的好习惯。避免进食辛辣刺激性食物及喝酒吸烟等不良习惯。饮食清淡,多吃蔬菜水果,保持大便通畅。祝早日康复!”。此外,对于“肚子疼应该去看哪个科室”,对应的第二目标任务为导诊,且对应的目标文本处理结果为“[导诊]消化内科”。此外,对于“引起阻塞性肺气肿的病因中,最主要的因素是,选项(A):吸烟,(B):感染:大气污染,(D):过敏反应,(E):副交感神经功能亢进”此待处理文本,对应的第二目标任务为医考题,对应的目标文本处理结果为“[医考题](A):吸烟”。
在一种可能的实现方式中,待处理文本为咨询对象的第一咨询文本,文本处理结果为咨询文本对应的第一咨询结果;
得到待处理文本对应的文本处理结果之后,还包括:
对第一咨询文本进行咨询意图识别,得到第一咨询文本对应的咨询意图;基于咨询意图,生成与咨询意图对应的至少一条咨询引导信息;将第一咨询结果和至少一条咨询引导信息,提供给咨询对象;若获取到咨询对象输入的第二咨询文本和针对至少一条咨询引导信息的选择操作时,将第二咨询文本和咨询对象选择的咨询引导信息作为新的待处理文本,通过目标大语言模型对新的待处理文本进行结果预测处理,得到第二咨询结果;将第二咨询结果提供给咨询对象。
其中,咨询意图可以是导诊意图、病症预测意图、预问诊意图、医学文献分析意图或医学问答意图。咨询引导信息可以是指咨询文本模板信息。具体的,可以是导诊引导信息、病症预测引导信息、预问诊引导信息、医学文献分析引导信息或医学问答引导信息等。示例性的,导诊引导信息可以是“根据下面患者基本信息和主诉给出对应的科室”,又例如,病症预测引导信息可以是“根据下面患者基本信息和症状信息给出最可能的病症诊断”。
本实施例中,通过对第一咨询文本进行咨询意图识别,得到第一咨询文本对应的咨询意图;并基于咨询意图,生成与咨询意图对应的至少一条咨询引导信息;将第一咨询结果和至少一条咨询引导信息,提供给咨询对象;若获取到咨询对象输入的第二咨询文本和针对至少一条咨询引导信息的选择操作时,将第二咨询文本和咨询对象选择的咨询引导信息作为新的待处理文本,通过目标大语言模型对新的待处理文本进行结果预测处理,得到第二咨询结果,也就是说,在咨询对象输入第一咨询文本后,可以提供一些咨询引导信息给咨询对象,则咨询对象可以直接选择咨询引导信息,并输入第二咨询文本,即可将咨询引导信息和第二咨询文本组成新的待处理文本,则咨询对象可以输入一些关键的信息作为第二咨询文本即可,提高了咨询对象进行咨询的效率,并且,由于咨询引导信息可以是训练时所使用的模板,也就是说,新的待处理文本的文本格式与训练时的文本格式更加匹配,则对应的第二咨询结果也更准确。
在一种可能的实现方式中,通过目标领域的目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的文本处理结果,包括:
通过目标领域的目标大语言模型对待处理文本进行结果预测处理,得到至少两个对应有置信度的候选文本处理结果,一个候选文本处理结果对应的置信度表征该候选文本处理结果为待处理文本对应的文本处理结果的可信程度;获取以待处理文本的获取时间为起始时间的预设时间段内的历史处理文本,历史处理文本是在待处理文本之前获取的;将历史处理文本与各候选文本处理结果进行关联度匹配处理,得到历史处理文本与各候选文本处理结果之间的关联度;基于各候选文本处理结果对应的关联度,更新各候选文本处理结果对应的置信度;基于各候选文本处理结果对应的置信度,将对应的置信度最大的候选文本处理结果作为待处理文本对应的文本处理结果。
在本实施例中,更新各候选文本处理结果对应的置信度,可以是提高置信度。可选的,一个候选文本处理结果对应的关联度越大,则对应的提高幅度也越大。本实施例的技术方案,通过历史处理文本对识别出的各候选文本处理结果对应的置信度进行更新,可以提高文本处理结果的准确性。
以上实施例分别就大语言模型的训练以及大语言模型的应用进行了说明,以下实施例在以上任一实施例的基础上,结合大语言模型的训练以及大语言模型的应用进行说明。
在本实施例中,以目标领域包括医疗领域为例进行说明。
请参阅图11和图12。图11为本申请实施例提供的一种医疗领域的文本处理方法的流程示意图。图12为本申请实施例提供的一种医疗领域的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合的示意图。本实施例中,结合大语言模型的训练以及大语言模型的应用进行说明。本实施例的医疗领域的多个自然语言处理任务包括导诊任务、病症预测任务、诊断标准化任务、预问诊任务、医学文献分析任务和医学问答任务。如图11所示的方法包括:
S111、第一服务器获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型。
S112、第一服务器获取每一任务对应的第二特征提取网络。
其中,本实施例的第二特征提取网络可以参考以上任一实施例的描述,在此不做赘述。
S113、第一服务器对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络。
其中,每一任务在训练的过程中,可以保持预训练语言模型的第一模型参数不变,调整第二特征提取网络的第二模型参数。
S114、第一服务器基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型。
在本实施例中,结合图12来说,可以将医疗领域的多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合后,得到至少两个任务中其中一个任务对应的目标大语言模型。此外,也可以是对于每一任务,将预训练语言模型和该任务对应的训练后的第二特征提取网络,作为该任务对应的目标大语言模型。
可以理解的是,如何将医疗领域的多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合的方案,可以参考以上任一实施例的描述,在此不做赘述。
训练完成后,第一服务器将目标大语言模型发送至第二服务器。
S115、第二服务器部署目标领域的目标大语言模型。
S116、终端设备获取待处理文本,并将待处理文本发送至第二服务器。
S117、第二服务器通过目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的目标文本处理结果。
在本实施例中,结合图12来说,可以对待处理文本进行任务意图识别,得到待处理文本对应的意图识别结果,意图识别结果包括多个自然语言处理任务中每一任务对应的置信度;然后,将置信度最高的任务对应的训练后的大语言模型,作为目标大预言模型,或者,按照置信度从大到小的顺序,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,基于预训练语言模型和融合后的第二特征提取网络,得到目标大语言模型。
可选的,若置信度最高的任务为诊断标准化任务,由于诊断标准化任务需要映射的目标词表量级太大,对于目标大语言模型来说运算资源较大,因此,可以先通过召回模型从预设的词表中召回多个候选集,然后通过目标大语言模型从候选集中选择其中一个目标候选集作为目标文本处理结果。
需要说明的是,召回模型可以部署在目标大语言模型内,也可以部署在目标大语言模型外,在此不做限定。
可以理解的是,先通过召回模型从预设的词表中召回多个候选集,然后通过目标大语言模型从候选集中选择其中一个目标候选集作为目标文本处理结果,可以提高文本处理的效率。
S118、第二服务器向终端发送目标文本处理结果。
S119、终端展示目标文本处理结果。
本实施例的技术方案,通过获取待处理文本,并通过目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的目标文本处理结果,而目标大语言模型是针对目标领域的每一任务进行单独训练的,可以实现提高大语言模型输出的文本处理结果的准确性。
为了进一步说明本申请实施例的技术效果,引入几项指标进行进一步说明。
为了验证本申请实施例所提出方法的有效性,下面以诊断标准化、病症预测、预问诊三个任务为例,其中前两者本质上术语判别式任务,而预问诊属于生成式任务,其中测评指标包含ACC,BLEU4,ROUGE-1,ROUGE-2,ROUGE-L,其中判别式任务以ACC指标为主,而生成式以后4个指标为主(ACC不适用生成式任务)。
测试使用的数据集大小分布如下表1所示:
表1
/>
从上面可以看到不同训练集大小不一样,预问诊的训练集是病症预测的2.8倍,是诊断标准化的14倍,存在严重的样本不平衡问题。对比了本申请实施例方法和混合三个任务训练方法的效果,可以看到混合训练之后相比本申请实施例有很大程度的下降,尤其是诊断标准化和病症预测两个任务,因为这两个任务的占比相对较小,所以影响最大。另外不同任务之间的噪声也会影响最终的效果。从而说明本申请实施例方法相比混合训练的方法对于样本不平衡、数据噪声等问题有了比较好的效果。
文本处理效果的比对结果如下表2所示。其中,混合训练指的是相关技术的训练方式。
表2
通过表2的比对可知,本申请实施例的文本处理效果更准确。
具体指标介绍如下:
ACC:准确率是指模型正确预测的样本数与总样本数之比。例如,如果模型正确预测了100个样本中的90个,则准确率为90%。
BLEU4:BLEU是一种用于评估机器翻译质量的指标。BLEU4是指使用四元组(四个连续的单词)作为匹配单位的BLEU分数。BLEU4的值越高,表示机器翻译的质量越好。
ROUGE-1:ROUGE是一种用于评估文本摘要质量的指标。ROUGE-1是指使用单个词作为匹配单位的ROUGE分数。ROUGE-1的值越高,表示文本摘要的质量越好。
ROUGE-2:ROUGE-2是指使用两个连续的单词作为匹配单位的ROUGE分数。与ROUGE-1类似,ROUGE-2的值越高,表示文本摘要的质量越好。
ROUGE-L:ROUGE-L是指使用最长公共子序列(LCS)作为匹配单位的ROUGE分数。与ROUGE-1和ROUGE-2不同,ROUGE-L考虑了文本摘要中的词序关系。ROUGE-L的值越高,表示文本摘要的质量越好。
基于与本申请实施例提供的大语言模型的训练方法相同的原理,本申请实施例提供了一种大语言模型的训练装置,如图13所示,该大语言模型的训练装置1300可以包括获取模块1310和训练模块1320,其中:
获取模块1310,用于获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,其中,训练集包括多个带有训练标签的样本文本,一个样本文本的标签表征了该样本文本的真实文本处理结果,预训练语言模型包括第一特征提取网络和结果预测网络;获取每一任务对应的第二特征提取网络;
训练模块1320,用于对于每一任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;
训练模块1320还用于基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型。
其中,对于每一任务,训练操作包括:
对于该任务对应的每一样本文本,通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过结果预测网络得到该任务对应的样本文本的预测文本处理结果;
基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;
若不满足训练结束条件,则基于训练损失对该任务对应的第二特征提取网络的模型参数进行调整。
在一种可能的实现方式中,第一特征提取网络包括多个第一特征提取层,第二特征提取网络包括与至少部分第一特征提取层并联的第二特征提取层,该训练模块1320在通过第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取时可以用于:
通过多个特征提取器依次对该样本文本进行特征提取操作,每一特征提取器包括第一特征提取层,至少部分特征提取器还包括与该特征提取器的第一特征提取层并联的第二特征提取层;
其中,特征提取操作包括:
对于不包括第二特征提取层的特征提取器,通过该特征提取器的第一特征提取层对该特征提取器的输入进行特征提取,将提取得到的文本特征作为该特征提取器的输出;其中,第一个特征提取器的输入为样本文本,除第一个特征提取器之外的特征提取器的输入为该特征提取器的前一个特征提取器的输出,最后一个特征提取层的输出作为结果预测网络的输入;
对于包括第二特征提取层的特征提取器,通过第一特征提取层和第二特征提取层,分别对该特征提取器的输入进行特征提取,并将第一特征提取层和第二特征提取层提取得到的文本特征进行融合,将融合后的文本特征作为该特征提取器的输出。
在一种可能的实现方式中,获取模块1310在获取每一任务对应的第二特征提取网络时,可以用于:
对于每一任务,确定该任务对应的训练集中的样本文本的第一数量;
对于每一任务,基于该任务对应的第一数量,确定该任务对应的第二数量,第二数量为第二特征提取网络中包括的第二特征提取层的数量,第一数量与第二数量正相关;
对于每一任务,基于该任务对应的第二数量的第二特征提取层,得到该任务对应的第二特征提取网络。
在一种可能的实现方式中,获取模块1310在对于每一任务,基于该任务对应的第一数量,确定该任务对应的第二数量,可以用于:
获取对应关系,对应关系包括多个候选数量范围以及与多个候选数量范围中每一候选数量范围对应的目标数量;
对于每一任务,确定该任务对应的第一数量在多个候选数量范围中所属的目标范围,将该目标范围对应的目标数量确定为该任务对应的第二数量。
在一种可能的实现方式中,该获取模块1310还用于确定多个自然语言处理任务中每个任务的任务类型;若多个自然语言处理任务中存在相同任务类型的任务,则将相同任务类型的任务作为一个合并任务,并将相同任务类型的任务对应的训练集合并,得到合并任务对应的训练集;
该获取模块1310,在获取每一任务对应的第二特征提取网络时,用于获取每个合并任务对应的第二特征提取网络、以及多个自然语言处理任务中除合并任务之外的每一任务对应的第二特征提取网络。
在一种可能的实现方式中,训练模块1320在基于预训练语言模型和各任务对应的训练后的第二特征提取网络,得到目标领域的目标大语言模型,可以用于以下的任一项:
将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络;将预训练语言模型和融合后的第二特征提取网络,作为至少两个任务中其中一个任务对应的目标大语言模型;其中,至少两个任务对应的第二特征提取网络的网络结构相同;
对于每一任务,将预训练语言模型和该任务对应的训练后的第二特征提取网络,作为该任务对应的目标大语言模型。
在一种可能的实现方式中,训练模块1320在将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,包括:
获取各自然语言处理任务的任务属性信息;
基于各自然语言处理任务的任务属性信息之间的相似度,确定多个自然语言处理任务之间的第一相似度;
将第一相似度满足预设条件的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合。
在一种可能的实现方式中,训练模块1320将多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合时,可以用于:
获取至少两个任务中各任务的权重;
采用至少两个任务中各任务的权重,对至少两个任务对应的训练后的第二模型参数进行加权求和。
在一种可能的实现方式中,训练模块1320获取至少两个任务中各任务的权重时,可以用于:
获取至少两个任务中每个任务的任务信息,一个任务的任务信息包括该任务的训练集中样本文本的数量或该任务的重要程度中的至少一项;
根据至少两个任务中各任务的任务信息,确定至少两个任务中各任务的权重。
在一种可能的实现方式中,一个任务的任务信息包括该任务对应的样本文本的数量和该任务的重要程度,训练模块1320根据至少两个任务中各任务的任务信息,确定至少两个任务中各任务的权重时,可以用于:
确定至少两个任务中每个任务对应的样本文本的第一数量以及至少两个任务对应的样本文本的总数量,根据至少两个任务中每个任务对应的第一数量在总数量中的占比,确定每个任务对应的第一权重;
根据至少两个任务中各任务对应的重要程度,确定每个任务对应的第二权重;
对于每个任务,通过融合该任务对应的第一权重和第二权重,得到该任务对应的权重。
在一种可能的实现方式中,至少两个任务为多个自然语言处理任务;训练模块1320获取至少两个任务中各任务的权重时,可以用于:
获取目标大语言模型对应的目标应用场景信息;
确定目标应用场景对应的目标任务;
若目标应用场景对应的目标任务为多个自然语言处理任务中的任一任务,则将任一任务对应的权重确定为1,将任一任务之外的每一任务对应的权重确定为0;
若目标应用场景对应的目标任务不属于多个自然语言处理任务中的任一任务,则分别确定多个自然语言处理任务中各任务与目标任务的第二相似度;
根据所多个自然语言处理任务中各任务与目标任务的第二相似度,确定各任务的权重,第二相似度和权重成正相关。
请参阅图14,图14为本申请实施例提供的一种基于大语言模型的文本处理装置的结构示意图。本实施例的基于大语言模型的文本处理装置1400可以包括文本获取模块1410和文本处理模块1420,其中:
文本获取模块1410,用于获取目标领域对应的待处理文本;
文本处理模块1420,用于通过目标领域的目标大语言模型对待处理文本进行结果预测处理,得到待处理文本对应的文本处理结果;
其中,目标大语言模型是通过如以上任一实施例的方法的步骤得到的。
在一种可能的实现方式中,文本处理模块1420还用于:
对待处理文本进行任务意图识别,得到待处理文本对应的意图识别结果,意图识别结果包括多个自然语言处理任务中每一任务对应的置信度;
将置信度最高的任务对应的训练后的大语言模型,作为目标大预言模型,或者,按照置信度从大到小的顺序,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,基于预训练语言模型和融合后的第二特征提取网络,得到目标大语言模型。
在一种可能的实现方式中,待处理文本为咨询对象的第一咨询文本,文本处理结果为咨询文本对应的第一咨询结果;该文本处理装置1400还用于:
对第一咨询文本进行咨询意图识别,得到第一咨询文本对应的咨询意图;基于咨询意图,生成与咨询意图对应的至少一条咨询引导信息;将第一咨询结果和至少一条咨询引导信息,提供给咨询对象;若获取到咨询对象输入的第二咨询文本和针对至少一条咨询引导信息的选择操作时,将第二咨询文本和咨询对象选择的咨询引导信息作为新的待处理文本,通过目标大语言模型对新的待处理文本进行结果预测处理,得到第二咨询结果;将第二咨询结果提供给咨询对象。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行存储器中存储的计算机程序时可实现本申请任一可选实施例中的方法。
图15示出了本申请实施例所适用的一种电子设备的结构示意图,如图15所示,该电子设备可以为服务器或者用户终端,该电子设备可以用于实施本申请实施例任一实施例中提供的方法。
如图15中所示,该电子设备1500主要可以包括至少一个处理器1501(图15中示出了一个)、存储器1502、通信模块1503和输入/输出接口1504等组件,可选的,各组件之间可以通过总线1505实现连接通信。需要说明的是,图15中示出的该电子设备1500的结构只是示意性的,并不构成对本申请实施例提供的方法所适用的电子设备的限定。
其中,存储器1502可以用于存储操作系统和应用程序等,应用程序可以包括在被处理器1501调用时实现本申请实施例所示方法的计算机程序,还可以包括用于实现其他功能或服务的程序。存储器1502可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(CompactDisc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
处理器1501通过总线1505与存储器1502连接,通过调用存储器1502中所存储的应用程序实现相应的功能。其中,处理器1501可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application Specific Integrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
电子设备1500可以通过通信模块1503(可以包括但不限于网络接口等组件)连接到网络,以通过网络与其它设备(如用户终端或服务器等)的通信,实现数据的交互,如向其他设备发送数据或从其他设备接收数据。其中,通信模块1503可以包括有线网络接口和/或无线网络接口等,即通信模块可以包括有线通信模块或无线通信模块中的至少一项。
电子设备1500可以通过输入/输出接口1504可以连接所需要的输入/输出设备,如键盘、显示设备等,电子设备1500自身可以具有显示设备,还可以通过接口1504外接其他显示设备。可选的,通过该接口1504还可以连接存储装置,如硬盘等,以可以将电子设备1500中的数据存储到存储装置中,或者读取存储装置中的数据,还可以将存储装置中的数据存储到存储器1502中。可以理解的,输入/输出接口1504可以是有线接口,也可以是无线接口。根据实际应用场景的不同,与输入/输出接口1504连接的设备,可以是电子设备1500的组成部分,也可以是在需要时与电子设备1500连接的外接设备。
用于连接各组件的总线1505可以包括一通路,在上述组件之间传送信息。总线1505可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。根据功能的不同,总线1505可以分为地址总线、数据总线、控制总线等。
可选的,对于本申请实施例所提供的方案而言,存储器1502可以用于存储执行本申请实施例方案的计算机程序,并由处理器1501来运行,处理器1501运行该计算机程序时实现本申请实施例提供的方法或装置的动作。
基于与本申请实施例提供的方法相同的原理,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的相应内容。
本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时可实现前述方法实施例的相应内容。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (18)

1.一种大语言模型的训练方法,其特征在于,包括:
获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,其中,所述训练集包括多个带有训练标签的样本文本,一个样本文本的标签表征了该样本文本的真实文本处理结果,所述预训练语言模型包括第一特征提取网络和结果预测网络;
获取每一所述任务对应的第二特征提取网络;
对于每一所述任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;
基于所述预训练语言模型和各所述任务对应的训练后的第二特征提取网络,得到所述目标领域的目标大语言模型;
其中,对于每一所述任务,所述训练操作包括:
对于该任务对应的每一样本文本,通过所述第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过所述结果预测网络得到该任务对应的样本文本的预测文本处理结果;
基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;
若不满足所述训练结束条件,则基于所述训练损失对该任务对应的第二特征提取网络的模型参数进行调整。
2.根据权利要求1所述的方法,其特征在于,所述第一特征提取网络包括多个第一特征提取层,所述第二特征提取网络包括与至少部分第一特征提取层并联的第二特征提取层;
所述通过所述第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,包括:
通过多个特征提取器依次对该样本文本进行特征提取操作,每一特征提取器包括第一特征提取层,至少部分特征提取器还包括与该特征提取器的第一特征提取层并联的第二特征提取层;
其中,所述特征提取操作包括:
对于不包括第二特征提取层的特征提取器,通过该特征提取器的第一特征提取层对该特征提取器的输入进行特征提取,将提取得到的文本特征作为该特征提取器的输出;其中,第一个特征提取器的输入为样本文本,除第一个特征提取器之外的特征提取器的输入为该特征提取器的前一个特征提取器的输出,最后一个特征提取层的输出作为所述结果预测网络的输入;
对于包括第二特征提取层的特征提取器,通过第一特征提取层和第二特征提取层,分别对该特征提取器的输入进行特征提取,并将第一特征提取层和第二特征提取层提取得到的文本特征进行融合,将融合后的文本特征作为该特征提取器的输出。
3.根据权利要求2所述的方法,其特征在于,所述获取每一所述任务对应的第二特征提取网络,包括:
对于每一任务,确定该任务对应的训练集中的样本文本的第一数量;
对于每一任务,基于该任务对应的所述第一数量,确定该任务对应的第二数量,所述第二数量为第二特征提取网络中包括的第二特征提取层的数量,所述第一数量与所述第二数量正相关;
对于每一任务,基于所述该任务对应的第二数量的第二特征提取层,得到该任务对应的第二特征提取网络。
4.根据权利要求3所述的方法,其特征在于,所述对于每一任务,基于该任务对应的所述第一数量,确定该任务对应的第二数量,包括:
获取对应关系,所述对应关系包括多个候选数量范围以及与所述多个候选数量范围中每一候选数量范围对应的目标数量;
对于每一所述任务,确定该任务对应的所述第一数量在所述多个候选数量范围中所属的目标范围,将该目标范围对应的目标数量确定为该任务对应的第二数量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述多个自然语言处理任务中每个任务的任务类型;
若所述多个自然语言处理任务中存在相同任务类型的任务,则将相同任务类型的任务作为一个合并任务,并将相同任务类型的任务对应的训练集合并,得到合并任务对应的训练集;
所述获取每一所述任务对应的第二特征提取网络,包括:
获取每个合并任务对应的第二特征提取网络、以及所述多个自然语言处理任务中除合并任务之外的每一任务对应的第二特征提取网络。
6.根据权利要求1所述的方法,其特征在于,所述基于所述预训练语言模型和各所述任务对应的训练后的第二特征提取网络,得到所述目标领域的目标大语言模型,包括以下的任一项:
将所述多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络;将所述预训练语言模型和所述融合后的第二特征提取网络,作为所述至少两个任务中其中一个任务对应的目标大语言模型;其中,所述至少两个任务对应的第二特征提取网络的网络结构相同;
对于每一所述任务,将所述预训练语言模型和该任务对应的训练后的第二特征提取网络,作为该任务对应的目标大语言模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,包括:
获取各自然语言处理任务的任务属性信息;
基于各自然语言处理任务的任务属性信息之间的相似度,确定所述多个自然语言处理任务之间的第一相似度;
将第一相似度满足预设条件的至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合。
8.根据权利要求6或7所述的方法,其特征在于,所述将所述多个自然语言处理任务中至少两个任务对应的训练后的第二特征提取网络的第二模型参数进行融合,包括:
获取所述至少两个任务中各任务的权重;
采用所述至少两个任务中各任务的权重,对所述至少两个任务对应的训练后的第二模型参数进行加权求和。
9.根据权利要求8所述的方法,其特征在于,所述获取所述至少两个任务中各任务的权重,包括:
获取所述至少两个任务中每个任务的任务信息,一个任务的任务信息包括该任务的所述训练集中样本文本的数量或该任务的重要程度中的至少一项;
根据所述至少两个任务中各任务的任务信息,确定所述至少两个任务中各任务的权重。
10.根据权利要求9所述的方法,其特征在于,一个任务的任务信息包括该任务对应的样本文本的数量和该任务的重要程度;
所述根据所述至少两个任务中各任务的任务信息,确定所述至少两个任务中各任务的权重,包括:
确定所述至少两个任务中每个任务对应的样本文本的第一数量以及所述至少两个任务对应的样本文本的总数量,根据至少两个任务中每个任务对应的第一数量在所述总数量中的占比,确定每个任务对应的第一权重;
根据至少两个任务中各任务对应的重要程度,确定每个任务对应的第二权重;
对于每个任务,通过融合该任务对应的第一权重和第二权重,得到该任务对应的权重。
11.根据权利要求8所述的方法,其特征在于,所述至少两个任务为所述多个自然语言处理任务;所述获取所述至少两个任务中各任务的权重,包括:
获取所述目标大语言模型对应的目标应用场景信息;
确定所述目标应用场景信息对应的目标任务;
若所述目标应用场景对应的目标任务为所述多个自然语言处理任务中的任一任务,则将所述任一任务对应的权重确定为1,将所述任一任务之外的每一任务对应的权重确定为0;
若所述目标应用场景对应的目标任务不属于所述多个自然语言处理任务中的任一任务,则分别确定所述多个自然语言处理任务中各任务与所述目标任务的第二相似度;
根据所述多个自然语言处理任务中各任务与所述目标任务的第二相似度,确定各任务的权重,所述第二相似度和所述权重成正相关。
12.一种基于大语言模型的文本处理方法,其特征在于,包括:
获取目标领域对应的待处理文本;
通过所述目标领域的目标大语言模型对所述待处理文本进行结果预测处理,得到所述待处理文本对应的文本处理结果;
其中,所述目标大语言模型是采用权利要求1-11任一项所述方法训练得到的。
13.根据权利要求12所述的方法,其特征在于,所述目标大语言模型是通过以下方式确定的:
对所述待处理文本进行任务意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果包括所述多个自然语言处理任务中每一任务对应的置信度;
将置信度最高的任务对应的训练后的大语言模型,作为所述目标大语言模型,或者,按照置信度从大到小的顺序,将排序靠前的至少两个置信度对应的训练后的第二特征提取网络的第二模型参数进行融合,得到融合后的第二特征提取网络,基于所述预训练语言模型和融合后的第二特征提取网络,得到所述目标大语言模型。
14.根据权利要求12或13所述的方法,其特征在于,所述待处理文本为咨询对象的第一咨询文本,所述文本处理结果为所述咨询文本对应的第一咨询结果;
所述得到所述待处理文本对应的文本处理结果之后,还包括:
对所述第一咨询文本进行咨询意图识别,得到所述第一咨询文本对应的咨询意图;
基于所述咨询意图,生成与所述咨询意图对应的至少一条咨询引导信息;
将所述第一咨询结果和所述至少一条咨询引导信息,提供给所述咨询对象;
若获取到所述咨询对象输入的第二咨询文本和针对所述至少一条咨询引导信息的选择操作时,将所述第二咨询文本和所述咨询对象选择的咨询引导信息作为新的待处理文本,通过所述目标大语言模型对所述新的待处理文本进行结果预测处理,得到第二咨询结果;
将所述第二咨询结果提供给所述咨询对象。
15.一种大语言模型的训练装置,其特征在于,包括:
获取模块,用于获取同一目标领域的多个自然语言处理任务中每一任务对应的训练集和预训练语言模型,其中,所述训练集包括多个带有训练标签的样本文本,一个样本文本的标签表征了该样本文本的真实文本处理结果,所述预训练语言模型包括第一特征提取网络和结果预测网络;获取每一所述任务对应的第二特征提取网络;
训练模块,用于对于每一所述任务,基于该任务对应的训练集对该任务对应的第二特征提取网络重复执行训练操作,直至满足训练结束条件,得到该任务对应的训练后的第二特征提取网络;
所述训练模块还用于基于所述预训练语言模型和各所述任务对应的训练后的第二特征提取网络,得到所述目标领域的目标大语言模型;
其中,对于每一所述任务,所述训练操作包括:
对于该任务对应的每一样本文本,通过所述第一特征提取网络和该任务对应的第二特征提取网络,对该任务对应的样本文本进行特征提取,基于提取得到的文本特征,通过所述结果预测网络得到该任务对应的样本文本的预测文本处理结果;
基于该任务对应的各样本文本对应的预测文本处理结果和真实文本处理结果之间的差异,得到该任务对应的训练损失;
若不满足所述训练结束条件,则基于所述训练损失对该任务对应的第二特征提取网络的模型参数进行调整。
16.一种基于大语言模型的文本处理装置,其特征在于,包括:
文本获取模块,用于获取目标领域对应的待处理文本;
文本处理模块,用于通过所述目标领域的目标大语言模型对所述待处理文本进行结果预测处理,得到所述待处理文本对应的文本处理结果;
其中,所述目标大语言模型是通过如权利要求1-11任一项所述方法的步骤得到的。
17.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-14任一项所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-14任一项所述方法的步骤。
CN202311058355.1A 2023-08-22 2023-08-22 大语言模型的训练方法及基于大语言模型的文本处理方法 Active CN116756579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311058355.1A CN116756579B (zh) 2023-08-22 2023-08-22 大语言模型的训练方法及基于大语言模型的文本处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311058355.1A CN116756579B (zh) 2023-08-22 2023-08-22 大语言模型的训练方法及基于大语言模型的文本处理方法

Publications (2)

Publication Number Publication Date
CN116756579A true CN116756579A (zh) 2023-09-15
CN116756579B CN116756579B (zh) 2023-12-12

Family

ID=87961361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311058355.1A Active CN116756579B (zh) 2023-08-22 2023-08-22 大语言模型的训练方法及基于大语言模型的文本处理方法

Country Status (1)

Country Link
CN (1) CN116756579B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956244A (zh) * 2023-09-18 2023-10-27 翼方健数(北京)信息科技有限公司 一种针对aigc文本创作内容的版权保护方法和系统
CN117112777A (zh) * 2023-10-24 2023-11-24 北京睿企信息科技有限公司 一种基于llm的多任务数据处理方法及存储介质
CN117130943A (zh) * 2023-10-26 2023-11-28 北京一平方科技有限公司 基于大语言模型的测试用例生成和运维数据分析方法
CN117131855A (zh) * 2023-09-19 2023-11-28 中科(天津)智能科技有限公司 基于智能数字孪生的元宇宙空间活动数据分析方法及系统
CN117194992A (zh) * 2023-11-01 2023-12-08 支付宝(杭州)信息技术有限公司 一种模型训练、任务执行方法、装置、存储介质及设备
CN117273868A (zh) * 2023-11-20 2023-12-22 浙江口碑网络技术有限公司 店铺推荐方法、装置、电子设备与存储介质
CN117291175A (zh) * 2023-11-27 2023-12-26 中国科学技术大学 基于多个大语言模型统计特征融合的生成文本检测方法
CN117313733A (zh) * 2023-11-30 2023-12-29 北京航空航天大学杭州创新研究院 医疗实体识别系统
CN117609781A (zh) * 2023-11-20 2024-02-27 北京中关村科金技术有限公司 文本评估模型的训练方法、文本评估方法及装置
CN117992598A (zh) * 2024-04-07 2024-05-07 同盾科技有限公司 基于大模型的需求响应方法、装置、介质及设备
CN118035425A (zh) * 2024-04-12 2024-05-14 清华大学 基于自然语言模型的交互方法、装置、电子设备及介质

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951428A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
CN110176315A (zh) * 2019-06-05 2019-08-27 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN111104495A (zh) * 2019-11-19 2020-05-05 深圳追一科技有限公司 基于意图识别的信息交互方法、装置、设备和存储介质
CN112233664A (zh) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 网络的训练方法、装置、设备以及存储介质
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113011126A (zh) * 2021-03-11 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113377936A (zh) * 2021-05-25 2021-09-10 杭州搜车数据科技有限公司 智能问答方法、装置及设备
CN113408284A (zh) * 2021-01-12 2021-09-17 腾讯科技(深圳)有限公司 文本处理模型的训练方法、装置、电子设备及存储介质
CN113516239A (zh) * 2021-04-16 2021-10-19 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN113705187A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN113723105A (zh) * 2021-04-13 2021-11-30 腾讯科技(北京)有限公司 语义特征提取模型的训练方法、装置、设备及存储介质
CN113761868A (zh) * 2021-04-20 2021-12-07 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及可读存储介质
CN113792112A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言任务处理系统、训练方法、装置、设备及介质
CN114330701A (zh) * 2021-10-14 2022-04-12 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备、存储介质及程序产品
CN114882884A (zh) * 2022-07-06 2022-08-09 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置
CN114913402A (zh) * 2022-07-18 2022-08-16 深圳比特微电子科技有限公司 一种深度学习模型的融合方法、装置
CN115114931A (zh) * 2022-05-25 2022-09-27 海信视像科技股份有限公司 模型训练方法、短视频召回方法、装置、设备和介质
CN115510186A (zh) * 2022-09-14 2022-12-23 中国平安财产保险股份有限公司 基于意图识别的即时问答方法、装置、设备及存储介质
CN115809709A (zh) * 2022-12-02 2023-03-17 华润数字科技有限公司 预训练语言模型的训练方法、自然语言生成及理解方法
CN116363452A (zh) * 2023-03-07 2023-06-30 阿里巴巴(中国)有限公司 任务模型训练方法以及装置

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951428A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
CN110176315A (zh) * 2019-06-05 2019-08-27 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN111104495A (zh) * 2019-11-19 2020-05-05 深圳追一科技有限公司 基于意图识别的信息交互方法、装置、设备和存储介质
CN113792112A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言任务处理系统、训练方法、装置、设备及介质
CN112233664A (zh) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 网络的训练方法、装置、设备以及存储介质
CN113408284A (zh) * 2021-01-12 2021-09-17 腾讯科技(深圳)有限公司 文本处理模型的训练方法、装置、电子设备及存储介质
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN113011126A (zh) * 2021-03-11 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113723105A (zh) * 2021-04-13 2021-11-30 腾讯科技(北京)有限公司 语义特征提取模型的训练方法、装置、设备及存储介质
CN113516239A (zh) * 2021-04-16 2021-10-19 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN113761868A (zh) * 2021-04-20 2021-12-07 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及可读存储介质
CN113377936A (zh) * 2021-05-25 2021-09-10 杭州搜车数据科技有限公司 智能问答方法、装置及设备
CN113705187A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN114330701A (zh) * 2021-10-14 2022-04-12 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备、存储介质及程序产品
CN115114931A (zh) * 2022-05-25 2022-09-27 海信视像科技股份有限公司 模型训练方法、短视频召回方法、装置、设备和介质
CN114882884A (zh) * 2022-07-06 2022-08-09 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置
CN114913402A (zh) * 2022-07-18 2022-08-16 深圳比特微电子科技有限公司 一种深度学习模型的融合方法、装置
CN115510186A (zh) * 2022-09-14 2022-12-23 中国平安财产保险股份有限公司 基于意图识别的即时问答方法、装置、设备及存储介质
CN115809709A (zh) * 2022-12-02 2023-03-17 华润数字科技有限公司 预训练语言模型的训练方法、自然语言生成及理解方法
CN116363452A (zh) * 2023-03-07 2023-06-30 阿里巴巴(中国)有限公司 任务模型训练方法以及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956244A (zh) * 2023-09-18 2023-10-27 翼方健数(北京)信息科技有限公司 一种针对aigc文本创作内容的版权保护方法和系统
CN117131855A (zh) * 2023-09-19 2023-11-28 中科(天津)智能科技有限公司 基于智能数字孪生的元宇宙空间活动数据分析方法及系统
CN117112777B (zh) * 2023-10-24 2024-01-26 北京睿企信息科技有限公司 一种基于llm的多任务数据处理方法及存储介质
CN117112777A (zh) * 2023-10-24 2023-11-24 北京睿企信息科技有限公司 一种基于llm的多任务数据处理方法及存储介质
CN117130943A (zh) * 2023-10-26 2023-11-28 北京一平方科技有限公司 基于大语言模型的测试用例生成和运维数据分析方法
CN117130943B (zh) * 2023-10-26 2024-02-20 北京一平方科技有限公司 基于大语言模型的测试用例生成和运维数据分析方法
CN117194992A (zh) * 2023-11-01 2023-12-08 支付宝(杭州)信息技术有限公司 一种模型训练、任务执行方法、装置、存储介质及设备
CN117194992B (zh) * 2023-11-01 2024-04-19 支付宝(杭州)信息技术有限公司 一种模型训练、任务执行方法、装置、存储介质及设备
CN117273868A (zh) * 2023-11-20 2023-12-22 浙江口碑网络技术有限公司 店铺推荐方法、装置、电子设备与存储介质
CN117609781A (zh) * 2023-11-20 2024-02-27 北京中关村科金技术有限公司 文本评估模型的训练方法、文本评估方法及装置
CN117609781B (zh) * 2023-11-20 2024-05-28 北京中关村科金技术有限公司 文本评估模型的训练方法、文本评估方法及装置
CN117291175A (zh) * 2023-11-27 2023-12-26 中国科学技术大学 基于多个大语言模型统计特征融合的生成文本检测方法
CN117291175B (zh) * 2023-11-27 2024-03-29 中国科学技术大学 基于多个大语言模型统计特征融合的生成文本检测方法
CN117313733A (zh) * 2023-11-30 2023-12-29 北京航空航天大学杭州创新研究院 医疗实体识别系统
CN117992598A (zh) * 2024-04-07 2024-05-07 同盾科技有限公司 基于大模型的需求响应方法、装置、介质及设备
CN118035425A (zh) * 2024-04-12 2024-05-14 清华大学 基于自然语言模型的交互方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN116756579B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN116756579B (zh) 大语言模型的训练方法及基于大语言模型的文本处理方法
Luo et al. A critical review of state‐of‐the‐art chatbot designs and applications
Wells et al. Artificial intelligence in dermatopathology: Diagnosis, education, and research
US20240096499A1 (en) Medical treatment metric modelling based on machine learning
Schuller et al. A review on five recent and near-future developments in computational processing of emotion in the human voice
US20210342212A1 (en) Method and system for identifying root causes
US11468241B2 (en) Techniques to add smart device information to machine learning for increased context
US20140365208A1 (en) Classification of affective states in social media
WO2020073533A1 (zh) 自动问答方法及装置
Woodman et al. A comprehensive review of machine learning algorithms and their application in geriatric medicine: present and future
CN112201359A (zh) 基于人工智能的重症问诊数据识别方法及装置
CN116821301A (zh) 基于知识图谱的问题应答方法、装置、介质及计算机设备
Garbuio et al. An algorithm for designing value propositions in the IoT space: Addressing the challenges of selecting the initial class in reference class forecasting
CN113707323B (zh) 基于机器学习的疾病预测方法、装置、设备及介质
Chaudhuri et al. A computational model for subjective evaluation of novelty in descriptive aptitude
Singh Prediction of Thyroid Disease using Deep Learning Techniques
Hussain et al. Predicting mental health and nutritional status from social media profile using deep learning
CN111667029B (zh) 一种聚类方法、装置、设备及存储介质
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
Adeyemi et al. Individual difference for HCI systems: Examining the probability of thinking style signature in online interaction
US11107555B2 (en) Methods and systems for identifying a causal link
Lian et al. Predicting health-related quality of life change using natural language processing in thyroid cancer
Alshraideh et al. Beyond the scoreboard: a machine learning investigation of online games’ influence on Jordanian university students’ grades
Wu et al. Automatic Post-Traumatic Stress Disorder Diagnosis via Clinical Transcripts: A Novel Text Augmentation with Large Language Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40093258

Country of ref document: HK