CN117892139B - 基于层间比对的大语言模型训练和使用方法及相关装置 - Google Patents

基于层间比对的大语言模型训练和使用方法及相关装置 Download PDF

Info

Publication number
CN117892139B
CN117892139B CN202410293082.7A CN202410293082A CN117892139B CN 117892139 B CN117892139 B CN 117892139B CN 202410293082 A CN202410293082 A CN 202410293082A CN 117892139 B CN117892139 B CN 117892139B
Authority
CN
China
Prior art keywords
network model
layer
model
probability distribution
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410293082.7A
Other languages
English (en)
Other versions
CN117892139A (zh
Inventor
刘辉
刘宇炀
李晓瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202410293082.7A priority Critical patent/CN117892139B/zh
Publication of CN117892139A publication Critical patent/CN117892139A/zh
Application granted granted Critical
Publication of CN117892139B publication Critical patent/CN117892139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了基于层间比对的大语言模型训练和使用方法及相关装置,应用于人工智能领域。本申请的大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块。通过解码策略模块获取N层网络模型分别输出的第一概率分布。低层级的网络模型的输出错误率较高,高层级的网络模型的输出准确率较高。若第Q层与第N层的网络模型的第一概率分布差异最大,那么第N层的网络模型的输出的准确率比较高,第Q层的网络模型的输出的错误率比较高,本申请利用第N层和第Q层的网络模型的输出之间的差异,确定出第一目标token。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。

Description

基于层间比对的大语言模型训练和使用方法及相关装置
技术领域
本申请涉及人工智能领域,更具体的说,是涉及基于层间比对的大语言模型训练和使用方法及相关装置。
背景技术
大语言模型是当前人工智能领域最前沿和引人注目的一个模型,大语言模型通过专注分析大量文本数据来学习语言的复杂模式和结构。随着大数据和人工智能技术的不断发展,大语言模型在各个领域的应用日益广泛,例如,健康医疗领域,凭借其强大的知识编码和存储能力、文本理解和生成能力,以及复杂任务的推理能力,有望推动医工交叉产生新一轮科技变革,在医学知识科普与公众健康素养、循证医学与临床辅助决策、药物研发与效果评估等方面具有重要意义。
相关技术中大语言模型在处理复杂的任务时,可能产生不准确、偏离既定事实或完全虚构的输出,即幻觉问题。
发明内容
有鉴于此,本申请提供了一种基于层间比对的大语言模型训练和使用方法及相关装置。
为实现上述目的,本申请提供如下技术方案:
根据本公开实施例的第一方面,提供一种基于层间比对的大语言模型训练方法,包括:
获取样本任务序列{}的样本向量以及所述样本任务序列对应的标注结果序列{};所述样本任务序列与所述标注结果序列中的元素为token;
将所述样本向量输入至大语言模型的输入端;
其中,所述大语言模型包括N层网络模型以及与所述N层网络模型的输出端分别相连的解码策略模块,所述解码策略模块的输出端为所述大语言模型的输出端,第j层的所述网络模型包括第j个Transformer模型、与所述第j个Transformer模型的第一输出端相连的全连接神经网络以及与所述全连接神经网络的输出端相连的激活函数,所述激活函数的输出端为第j层所述网络模型的输出端,所述第j个Transformer模型的第二输出端与第j+1层的所述网络模型包含的第j+1个Transformer模型的输入端相连,第一层所述网络模型包含的第一个Transformer模型的输入端为所述大语言模型的输入端;N为大于1的整数,1≤j≤N;
通过所述解码策略模块获取所述N层网络模型分别输出的第一概率分布;
其中,第j层的所述网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率,1≤i≤M-t+1,i的初始值为1;
通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q;
基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布;
通过所述解码策略模块的输出端输出第一目标token,所述第一目标token为预测得到的所述标注结果序列中的第i个token,所述第一目标token为所述差异分布中最大值对应的token;
基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数;
通过所述损失函数训练所述大语言模型;
若i小于M-t+1,设置i=i+1以及设置所述样本向量为样本任务序列{}的向量,返回步骤将所述样本向量输入至大语言模型的输入端;
若i大于或等于M-t+1,确定通过所述样本任务序列训练完毕所述大语言模型;
若当前训练结果满足预设训练结束条件,确定得到训练后的大语言模型。
可选的,所述通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q步骤包括:
通过以下公式计算得到层数Q;
其中,JSD(·∥·)为Jensen-Shannon散度。
可选的,所述基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布步骤包括:
确定第N层所述网络模型输出的所述第一概率分布中的最大概率为第一数值;
从第N层所述网络模型输出的所述第一概率分布中获取大于或等于第二数值的概率值对应的第二目标token,所述第二数值为预设数值与所述第一数值的乘积,所述预设数值为大于0小于或等于1的数值;
从第Q层的所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第二概率分布;
从所述第N层所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第三概率分布;
基于所述第二概率分布与所述第三概率分布,确定所述差异分布。
可选的,所述基于所述第二概率分布与所述第三概率分布,确定所述差异分布步骤包括:
通过以下公式,计算得到差异分布F;
其中,为所述第三概率分布,为所述第二概率分布;gs为所述预设语言集合中的第s个token,R为所述预设语言集合包含的token的总数目;表示所述第二目标token组成的集合。
可选的,所述基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数步骤包括:
通过以下公式确定损失函数L;
;
其中,crossentropy(·,·) 为交叉熵函数,为xt+i-1的独热编码,为第一预设值、为第二预设值,V为设定领域的实体对应的token构成的集合,为所述设定领域中多个实体之间的语义关系对应的token构成的集合;
其中,
其中,为所述差异分布F,或者,
其中,CU是指第N层所述网络模型输出的所述第一概率分布中概率值为前U的token组成的集合;是指所述设定领域中的实体的token与多个实体之间的语义关系的token构成的集合。
可选的,所述设定领域为医学领域,所述预设语言集合包括
根据本公开实施例的第二方面,提供一种基于层间比对的大语言模型的使用方法,包括:
获取待测任务序列对应的待测向量;
将所述待测向量输入至大语言模型,所述大语言模型是使用第一方面所述的基于层间比对的大语言模型训练方法训练得到的;
通过所述大语言模型输出所述待测任务序列对应的预测结果序列,所述预测结果序列包括多个token;
通过所述预测结果序列获得预测结果。
根据本公开实施例的第三方面,提供一种基于层间比对的大语言模型训练装置,包括:
第一获取模块,用于获取样本任务序列{}的样本向量以及所述样本任务序列对应的标注结果序列{};所述样本任务序列与所述标注结果序列中的元素为token;
第一输入模块,用于将所述样本向量输入至大语言模型的输入端;
其中,所述大语言模型包括N层网络模型以及与所述N层网络模型的输出端分别相连的解码策略模块,所述解码策略模块的输出端为所述大语言模型的输出端,第j层的所述网络模型包括第j个Transformer模型、与所述第j个Transformer模型的第一输出端相连的全连接神经网络以及与所述全连接神经网络的输出端相连的激活函数,所述激活函数的输出端为第j层所述网络模型的输出端,所述第j个Transformer模型的第二输出端与第j+1层的所述网络模型包含的第j+1个Transformer模型的输入端相连,第一层所述网络模型包含的第一个Transformer模型的输入端为所述大语言模型的输入端;N为大于1的整数,1≤j≤N;
第二获取模块,用于通过所述解码策略模块获取所述N层网络模型分别输出的第一概率分布;
其中,第j层的所述网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率,1≤i≤M-t+1,i的初始值为1;
第一确定模块,用于通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q;
第二确定模块,用于基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布;
第一输出模块,用于通过所述解码策略模块的输出端输出第一目标token,所述第一目标token为预测得到的所述标注结果序列中的第i个token,所述第一目标token为所述差异分布中最大值对应的token;
第三确定模块,用于基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数;
训练模块,用于通过所述损失函数训练所述大语言模型;
设置模块,用于若i小于M-t+1,设置i=i+1以及设置所述样本向量为样本任务序列{}的向量,触发所述第一输入模块;
第四确定模块,用于若i大于或等于M-t+1,确定通过所述样本任务序列训练完毕所述大语言模型;
第五确定模块,用于若当前训练结果满足预设训练结束条件,确定得到训练后的大语言模型。
根据本公开实施例的第四方面,提供一种基于层间比对的大语言模型的使用装置,包括:
第三获取模块,用于获取待测任务序列对应的待测向量;
第二输入模块,用于将所述待测向量输入至大语言模型,所述大语言模型是第三方面提供的基于层间比对的大语言模型训练装置训练得到的;
第二输出模块,用于通过所述大语言模型输出所述待测任务序列对应的预测结果序列,所述预测结果序列包括多个token;
第四获取模块,用于通过所述预测结果序列获得预测结果。
根据本公开实施例的第五方面,提供一种服务器,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现第一方面或第二方面所述方法的步骤。
经由上述的技术方案可知,本申请提供了一种基于层间比对的大语言模型训练方法,获取样本任务序列{}的样本向量以及样本任务序列对应的标注结果序列为{};将样本向量输入至大语言模型的输入端,该大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块,每一层网络模型包括Transformer模型、与Transformer模型相连的全连接神经网络以及与全连接神经网络相连的激活函数。通过解码策略模块获取N层网络模型分别输出的第一概率分布,第j层网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率。该大语言模型中的N层网络模型中低层级的网络模型中的Transformer模型主要对样本向量的浅层信息进行分析和挖掘,N层网络模型中高层级的网络模型中的Transformer模型侧重分析和挖掘样本向量的深层语义信息。也就是说,低层级的网络模型输出的第一概率分布的错误率较高,高层级的网络模型输出的第一概率分布的准确率较高。通过解码策略模块从前N-1层网络模型中确定出与第N层的网络模型输出的第一概率分布差异最大的网络模型的层数Q。第N层的网络模型输出的第一概率分布的准确率较高,第Q层的网络模型输出的第一概率分布的错误率较高。本申请利用不同隐藏层的网络模型之间输出的第一概率分布的差异,即利用第N层的网络模型输出的第一概率分布和第Q层的网络模型输出的第一概率分布之间的差异,确定出第一目标token,所以确定出的第一目标token的准确率较高。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。
基于第Q层的网络模型输出的第一概率分布与第N层的网络模型输出的第一概率分布,确定差异分布,该差异分布可以表征大语言模型预测的第i个token的幻觉程度;所以基于差异分布、第N层所述网络模型输出的第一概率分布以及xt+i-1,确定的损失函数能够解决大语言模型的幻觉问题。通过该损失函数训练得到的大语言模型,大大降低了大语言模型的幻觉问题,提高了大语言模型的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是根据一示例性实施例示出的本申请涉及的硬件架构的示意图;
图2是根据一示例性实施例示出的一种基于层间比对的大语言模型训练方法的流程图;
图3是根据一示例性实施例示出的一种大语言模型的结构的示意图;
图4是根据一示例性实施例示出的一种基于层间比对的大语言模型的使用方法的流程图;
图5是根据一示例性实施例示出的一种通过所述预测结果序列获得预测结果的过程示意图;
图6是根据一示例性实施例示出的一种基于层间比对的大语言模型训练装置框图;
图7是根据一示例性实施例示出的一种基于层间比对的大语言模型训练装置框图;
图8是根据一示例性实施例示出的一种用于服务器的装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
幻觉问题是大语言模型(Large Language Models, LLMs)比较普遍的问题,大语言模型的训练方法是基于前文来预测下一个token,例如,前文为x1,x2,…,xt-1,下一个token为xt,再例如,前文为x1,x2,…,xt,则下一个token为xt+1
大语言模型已经应用于各个领域,相关技术中各个领域的大语言模型采用无监督学习或有监督学习或半监督学习的增量预训练技术或任务相关的微调方法进行训练。相关技术仍以数据驱动为核心思想,从大规模语料数据中学习统计规律和模式,获得对文本、图像的理解能力。这些依赖数据驱动的学习策略无法满足一些领域例如健康医疗领域对准确性和可靠性的高要求,大语言模型输出的内容不可靠的幻觉问题导致大语言模型在这些领域例如健康医疗领域的深入研究与应用落地面临极大的挑战,例如导致大语言模型在处理健康医疗领域的复杂的临床诊断或知识理解任务时,可能产生不准确、偏离既定事实或完全虚构的输出,即幻觉问题。
申请人在研究过程中发现,使用最大似然估计作为损失函数是导致大语言模型出现幻觉问题的一个关键因素。最大似然估计旨在最大程度的减小前文和大语言模型基于前文预测得到的下一个token的前向KL(Kullback-Leibler)散度,忽略了大语言模型预测得到的下一个token的概率分布和前文的概率分布的一致性,导致大语言模型出现幻觉问题。上述问题在一些领域,例如健康医疗领域尤其明显,因为基于“Next Token Prediction(预测得到下一个token)”的预测目标在有限的训练数据下难以准确捕捉和重现真实世界的医学事实。
基于此,本申请提供了基于层间比对的大语言模型训练和使用方法及相关装置。
在介绍本申请实施例提供的技术方案之前,先对本申请涉及的硬件架构进行说明。
图1是根据一示例性实施例示出的本申请涉及的硬件架构的示意图,该硬件架构包括:电子设备11、训练服务器12、应用服务器13以及数据库14。
示例性的,电子设备11可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。
用户可以通过电子设备11访问应用服务器13。
示例性的,应用服务器13可以为一台服务器,也可以是由多台服务器组成的服务器集群,或者,是一个云计算服务中心。
应用服务器13存储有已经训练好的大语言模型。
可以理解的是,在不同领域下,用户的类型可能不同,例如,在健康医疗领域下,用户可以为病患或病患家属或医生。
示例性的,训练服务器12可以为一台服务器,也可以是由多台服务器组成的服务器集群,或者,是一个云计算服务中心。
示例性的,训练服务器12可以执行本申请实施例提供的基于层间比对的大语言模型训练方法,从而将训练得到的大语言模型存储至应用服务器13。
示例性的,训练服务器12与应用服务器13可以同一服务器,或者,不同的服务器。
示例性的,数据库14存储有用于训练大语言模型的样本任务和标注结果,示例性的,随着时间流逝,样本任务在不断增加,所以可以对大语言模型进行更新。
本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。
下面结合上述硬件架构对本申请实施例提供的基于层间比对的大语言模型训练方法进行说明。
图2是根据一示例性实施例示出的一种基于层间比对的大语言模型训练方法的流程图,如图2所示,基于层间比对的大语言模型训练方法用于训练服务器12中,包括以下步骤S201至步骤S212。
步骤S201:获取样本任务序列{x1,x2,…,xt-1}的样本向量以及所述样本任务序列对应的标注结果序列{xt,…,xM}。
所述样本任务序列与所述标注结果序列中的元素为最小单位token。
示例性的,样本任务序列的数目可以为多个,具体可以基于实际情况而定,不同的样本任务序列包含的元素的数目可能不同,可能相同。
一个样本任务对应一个样本任务序列,示例性的,将样本任务包含的字符按照ASCII码进行编码,以得到样本任务序列,将样本任务对应的标注结果中的字符按照ASCII码进行编码,以得到标注结果序列。样本任务包含的一个字符由一个或多个token构成。下面举例对样本任务和样本任务序列进行说明。
假设样本任务为{肾细胞癌起源于肾实质的什么部位?},将样本任务包含的16个字符按照ASCII码进行编码,得到的序列为{token1,token2,…,tokent-1},则x1=token1,x2=token2,…,xt-1=tokent-1,样本任务对应的标注结果为{泌尿小管},将标注结果包含的4个字符按照ASCII码进行编码,得到的序列为{ tokent,…,tokentM},则xt=tokent, …,xM=tokenM
其中,t为大于1的整数,M为大于或等于t的整数。
示例性的,样本任务序列的样本向量是样本任务序列的向量表示。标注结果序列的结果向量为标注结果序列的向量表示。
步骤S202:将所述样本向量输入至大语言模型的输入端。
其中,所述大语言模型包括N层网络模型以及与所述N层网络模型的输出端分别相连的解码策略模块,所述解码策略模块的输出端为所述大语言模型的输出端,第j层的所述网络模型包括第j个Transformer模型、与所述第j个Transformer模型的第一输出端相连的全连接神经网络以及与所述全连接神经网络的输出端相连的激活函数,所述激活函数的输出端为第j层所述网络模型的输出端,所述第j个Transformer模型的第二输出端与第j+1层的所述网络模型包含的第j+1个Transformer模型的输入端相连,第一层所述网络模型包含的第一个Transformer模型的输入端为所述大语言模型的输入端;N为大于1的整数,1≤j≤N。
为了本领域技术人员更加理解本申请实施例提供的大语言模型的结构,下面举例对大语言模型进行说明,图3是根据一示例性实施例示出的一种大语言模型的结构的示意图。
如图3所示,将样本任务序列和标注结果序列输入至嵌入层31后,可以得到样本任务序列的向量表示即样本向量以及标注结果序列的向量表示即标注结果向量。
示例性的,嵌入层31可以将样本任务序列进行one-hot的表示,以得到样本向量。
示例性的,全连接神经网络(Multilayer Perceptron,MLP)又叫,是前馈神经网络的一种。
示例性的,激活函数可以为softmax函数。
步骤S203:通过所述解码策略模块获取所述N层网络模型分别输出的第一概率分布。
其中,第j层的所述网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率,所述1≤i≤M-t+1,i的初始值为1。
示例性的,预设语言集合可以为设定领域的实体的token和多个实体的语义关系的token构成的集合,下面以健康医疗领域为例进行说明。
示例性的,实体的类型可以包括:疾病、症状体征、身体部位、病原有机体、化学物质、仪器设备六大类型。实体之间的语义关系的类型可以包括:临床表现、发病部位、病因、治疗药物、禁忌药物、诊疗共6种类型。
下面举例说明实体和实体之间的语义关系。
例如,乙型肝炎、乙型肝炎病毒是实体,这两个实体的语义关系为“病原体是”,即实体“乙型肝炎”-语义关系“病原体是”-“乙型肝炎病毒”。
可以理解的是,若标注结果序列为{},其中,第1个token为xt,第2个token为xt+1,…,第i个token为xt+i-1,…,第M-t+1个token为xM
可以理解的是,每一层网络模型输出的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率。
可以理解的是,每一层网络模型包括:Transformer模型、与Transformer模型的第一输出端相连的全连接神经网络以及与全连接神经网络的输出端相连的激活函数,则第j层网络模型输出的第一概率分布为:
。其中,为第j层网络模型中Transformer模型的输出,为第j层网络模型中全连接神经网络的输出,为第j层网络模型中激活函数的输出。上述是以激活函数为softmax函数为例进行说明的。
步骤S204:通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q。
其中,1≤Q≤N-1。
可以理解的是,在基于Transformer的大语言模型架构中,N层网络模型中低层级(即层数接近1)的网络模型中的Transformer模型主要对样本向量的浅层信息进行分析和挖掘,例如对词性标注等进行分析和挖掘,N层网络模型中高层级(即层数接近N)的网络模型中的Transformer模型侧重分析和挖掘样本向量的深层语义信息,也就是说,针对标注结果序列中第i个token的预测,高层级网络模型输出的第一概率分布更接近标注结果序列的第四概率分布P(xt+i-1)。
示例性的,标注结果序列的第四概率分布是指预设语言集合中各token分别为标注结果序列中第i个token的概率,其中,第四概率分布中预设语言集合中xt+i-1的概率值为1,预设语言集合中其他token的概率值为0。可以理解的是,第四概率分布为真实的概率分布。
基于“高层级网络模型输出的第一概率分布更接近标注结果序列的第四概率分布P(xt+i-1)”可以得出以下公式:
,其中,是指第k1层网络模型输出的第一概率分布,是指第k2层网络模型输出的第一概率分布。1≤k 1<k2<N。
KL(·//·)是指KL散度 (Kullback-Leibler divergence)函数。KL散度越大说明越不接近。
示例性的,与第N层所述网络模型输出的所述第一概率分布KL散度最大的网络模型的层数为Q。
步骤S205:基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布。
示例性的,差异分布的第k3个值=第N层网络模型输出的第一概率分布中第k3个概率/第Q层网络模型输出的第一概率分布中第k3个概率。K3为差异分布中任一位置。
步骤S206:通过所述解码策略模块的输出端输出第一目标token。
所述第一目标token为预测得到的所述标注结果序列中的第i个token。
所述第一目标token为预测得到的所述标注结果序列中的第i个token,所述第一目标token为所述差异分布中最大值对应的token。
可以理解的是,在基于Transformer的大语言模型架构中,N层网络模型中低层级(即层数接近1)的网络模型中的Transformer模型主要对样本向量的浅层信息进行分析和挖掘,例如对词性标注等进行分析和挖掘,N层网络模型中高层级(即层数接近N)的网络模型中的Transformer模型侧重分析和挖掘样本向量的深层语义信息,也就是说,低层级的网络模型输出的第一概率分布的准确率比高层级的网络模型输出的第一概率分布的准确率低,换句话说,低层级的网络模型输出的第一概率分布的错误率较高,高层级的网络模型输出的第一概率分布的准确率较高。
理论上,第N层和第Q层的网络模型输出的第一概率分布差异最大,第N层的网络模型输出的第一概率分布的准确性较高,第Q层的网络模型输出的第一概率分布的错误率较高。
假设预设语言集合包括token的数目为4个,且分别为token01、token02、token03、token04,那么,第Q层的网络模型输出的第一概率分布为序列111{ token01为标注结果序列中第i个token的概率,token02为标注结果序列中第i个token的概率,token03为标注结果序列中第i个token的概率,token04为标注结果序列中第i个token的概率},第N层的网络模型输出的第一概率分布为序列112{ token01为标注结果序列中第i个token的概率,token02为标注结果序列中第i个token的概率,token03为标注结果序列中第i个token的概率,token04为标注结果序列中第i个token的概率}。第N层的网络模型输出的第一概率分布的准确率较高,第Q层的网络模型输出的第一概率分布的错误率较高,序列112和序列111的差异分布中最大值对应的token为第一目标token,假设序列112与序列111的差异分布中token04的值的最大,则token04为第一目标token。
示例性的,第一目标token的数目可以为一个或多个。
步骤S207:基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数。
xt+i-1是标注结果序列中真实的第i个token。
步骤S208:通过所述损失函数训练所述大语言模型。
步骤S209:若i小于M-t+1,执行步骤S210,若i大于或等于M-t+1,执行步骤S211。
步骤S210:设置i=i+1以及设置所述样本向量为样本任务序列{x1,x2,…,xt-1,…,xt+i-1}的向量,返回步骤S202。
步骤S211:确定通过所述样本任务序列训练完毕所述大语言模型。
示例性的,在预测完毕标注结果序列的第M-t+1个token后,大语言模型可以输出表征预测结束的结束字符。
步骤S212:若当前训练结果满足预设训练结束条件,确定得到训练后的大语言模型。
示例性的,当前训练结果包括但不限于:大语言模型的准确度和/或训练大语言模型的迭代次数。
本申请实施例提供了一种基于层间比对的大语言模型训练方法,获取样本任务序列{ x1,x2,…,xt-1}的样本向量以及样本任务序列对应的标注结果序列为{};将样本向量输入至大语言模型的输入端,该大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块,每一层网络模型包括Transformer模型、与Transformer模型相连的全连接神经网络以及与全连接神经网络相连的激活函数。通过解码策略模块获取N层网络模型分别输出的第一概率分布,第j层网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率。该大语言模型中的N层网络模型中低层级的网络模型中的Transformer模型主要对样本向量的浅层信息进行分析和挖掘,N层网络模型中高层级的网络模型中的Transformer模型侧重分析和挖掘样本向量的深层语义信息。也就是说,低层级的网络模型输出的第一概率分布的错误率较高,高层级的网络模型输出的第一概率分布的准确率较高。通过解码策略模块从前N-1层网络模型中确定出与第N层的网络模型输出的第一概率分布差异最大的网络模型的层数Q。第N层的网络模型输出的第一概率分布的准确率较高,第Q层的网络模型输出的第一概率分布的错误率较高。本申请利用不同隐藏层的网络模型之间输出的第一概率分布的差异,即利用第N层的网络模型输出的第一概率分布和第Q层的网络模型输出的第一概率分布之间的差异,确定出第一目标token,所以确定出的第一目标token的准确率较高。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。
基于第Q层的网络模型输出的第一概率分布与第N层的网络模型输出的第一概率分布,确定差异分布,该差异分布可以表征大语言模型预测的第i个token的幻觉程度;所以基于差异分布、第N层所述网络模型输出的第一概率分布以及xt+i-1,确定的损失函数能够解决大语言模型的幻觉问题。通过该损失函数训练得到的大语言模型,大大降低了大语言模型的幻觉问题,提高了大语言模型的准确性。
可以理解的是,步骤S204的实现方式有多种,本申请实施例提供但不限于以下两种方法。
第一种步骤S204的实现方式包括以下步骤A11至步骤A12。
步骤A11:分别计算前N-1层网络模型输出的第一概率分布与第N层网络模型输出的第一概率分布的KL散度。
步骤A12:KL散度最大的网络模型的层数为Q。
第二钟步骤S204的实现方式包括以下步骤A21。
步骤A21:通过以下公式计算得到层数Q;
其中,JSD(·∥·)为Jensen-Shannon散度。
本申请实施例中以JSD散度作为度量标准,从前N-1个网络模型中动态选择与第N层网络模型的第一概率分布差异最大的低层级的网络模型,即第Q层网络模型。利用第N层的网络模型和第Q层的网络模型的第一概率分布的差异,选择第N层的网络模型的第一概率分布与第Q层的网络模型的第一概率分布中差值最大的token,作为预测得到的标注结果序列中第i个token,降低了低层级的网络模型的幻觉认知,增加了高层级的网络模型的事实性回答。
可以理解的是,步骤S206的实现方式有多种,本申请实施例提供但不限于以下三种。
第一种步骤S206的实现方式包括以下步骤B11。
步骤B11:差异分布的第k3个值=第N层网络模型输出的第一概率分布中第k3个概率/第Q层网络模型输出的第一概率分布中第k3个概率。K3为差异分布中任一位置。
第二种步骤S206的实现方式包括以下步骤B21。
步骤B21:差异分布的第k3个值=log(第N层网络模型输出的第一概率分布中第k3个概率/第Q层网络模型输出的第一概率分布中第k3个概率)。
可以理解的是,针对第一种实现方式或第二种实现方式,若第N层的网络模型输出的第一概率分布中token01的值极低,说明该token01为标注结果序列中第i个token的概率几乎为0,那么前N-1层的网络模型分别对应的第一概率分布中token01的概率值应该非常不稳定,有可能在第Q层的网络模型输出的第一概率分布中该token01的值也极低,通过第一种实现方式或第二种实现方式,可能导致差异分布中token01的值较高,本申请实施例称token01为假阳性的token。
为了避免错将假阳性的token作为预测的标注结果序列中第i个token,本申请实施例提供了第三种实现方法。
第三种步骤S206的实现方式包括以下方法步骤B31至步骤B35。
步骤B31:确定第N层所述网络模型输出的所述第一概率分布中的最大概率为第一数值。
步骤B32:从第N层所述网络模型输出的所述第一概率分布中获取大于或等于第二数值的概率值对应的第二目标token。
所述第二数值为预设数值与所述第一数值的乘积,所述预设数值为大于0小于或等于1的数值。
示例性的,第二目标token不包括假阳性的token。
示例性的,第二目标token的数目可以为一个或多个。
示例性的,若第N层的网络模型中第一概率分布中某个token02的概率值极高,则通过步骤B31和步骤B32得到的第二目标token即为token02。本申请实施例称token02为假阴性。
步骤B33:从第Q层的所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第二概率分布。
步骤B34:从所述第N层所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第三概率分布。
步骤B35:基于所述第二概率分布与所述第三概率分布,确定所述差异分布。
示例性的,差异分布第k3个值=第三概率分布中第k3个概率/第二概率分布中第k3个概率。K3为差异分布中任一位置。
示例性的,差异分布的第k3个值=log(第三概率分布中第k3个概率/第二概率分布中第k3个概率)。
示例性的,通过以下公式,计算得到差异分布F;
其中,为所述第三概率分布,为所述第二概率分布;gs为所述预设语言集合中的第s个token,R为所述预设语言集合包含的token的总数目;表示所述第二目标token组成的集合。
在一可选实现方式中,步骤S207的实现方式有多种,本申请实施例提供但不限于以下方法。
通过以下公式确定损失函数L;
;
其中,crossentropy(·,·) 为交叉熵函数,为xt+i-1的独热编码,为第一预设值、为第二预设值,V为设定领域的实体对应的token构成的集合,为所述设定领域中多个实体之间的语义关系对应的token构成的集合;
其中,
其中,为所述差异分布F,或者,
其中,CU是指第N层所述网络模型输出的所述第一概率分布中概率值为前U的token组成的集合;是指所述设定领域中的实体的token与多个实体的语义关系的token构成的集合。
示例性的,若第N层的网络模型输出的第一概率分布中概率值位于前U的token构成的预解码候选集CU的交集不是空集,说明预测的标注结果序列中第i个token可能涉及设定领域的因素,需要进一步基于层间比对策略(即第N层网络模型与第Q层网络模型)增强预测的第i个token与设定领域相应事实的一致性),此时
示例性的,若第N层的网络模型输出的第一概率分布中概率值位于前U的token构成的预解码候选集CU与Φ的交集是空集,说明预测的标注结果序列中第i个token不涉及设定领域的因素,可以不需要进一步基于层间比对策略(即第N层网络模型与第Q层网络模型)增强预测的第i个token与设定领域相应事实的一致性),此时
示例性的,为增强设定领域的相应因素感知能力的平衡因子。
示例性的,设定领域为医学领域,所述预设语言集合包括集合中的实体对应的token和语义关系对应的token。
示例性的,若设定领域为健康医疗领域,则为增强关键医学因素感知能力的平衡因子。
为了本领域技术人员更加理解本申请实施例提供的集合Φ,下面以设定领域为健康医疗领域为例进行说明。实体称为健康医疗实体。
集合Φ是健康医疗实体的token及实体之间语义关的token构成的关键医疗因素集合,为健康医疗大模型提供机器可读取、可理解、可推理的结构化健康医疗知识。
本申请实施例中将关键医疗因素集合定义为,其中V表示健康医疗实体集,具体包括疾病、症状体征、身体部位、病原有机体、化学物质、仪器设备六大类,表示医疗实体之间错综复杂的语义关系,主要包括临床表现、发病部位、病因、治疗药物、禁忌药物、诊疗共6种。此外,语义关系具有方向性,头实体和尾实体不同,则具体的关系类型和方向不同,即,具体如表1所示。以“乙型肝炎由乙型肝炎病毒引起”为例,其中的关键医疗因素为“乙型肝炎 - 病原体是 - 乙型肝炎病毒”、“乙型肝炎病毒 - 是……的病原体 - 乙型肝炎”。这种结构化的关键医疗因素集合丰富了健康医疗知识表示方式,拥有得天独厚的可解释性,有助于提升健康医疗大模型的专业领域知识理解能力和推理能力。
表1关键医疗因素集合的基本结构
本申请实施例中,以关键医疗因素集合中的实体和语义关系为核心,提出应用于健康医疗的基于层间对比的大语言模型预训练方法,矫正健康医疗大语言模型输出中的事实性偏差,有效缓解大语言模型对于关键因素的幻觉现象。
本申请实施例提出融合关键医疗因素感知和层间对比的大语言模型训练方法,能够有效缓解行业垂域大模型生成内容不可靠、事实性偏差等幻觉问题,有效缓解大语言模型对于关键因素的幻觉现象。研建健康医疗领域的基座大模型。该健康医疗大模型不仅能够向健康医疗工作者与公众提供可信可靠的智能医疗问答服务,而且为智能分诊、疾病早期监测和新药研发等典型应用奠定基础。
图4是根据一示例性实施例示出的一种基于层间比对的大语言模型的使用方法的流程图,该方法可以应用于应用服务器,该方法包括以下步骤S401至步骤S404。
步骤S401:获取待测任务序列对应的待测向量。
示例性的,待测任务序列中的元素为最小单位token。
示例性的,将待测任务包含的字符按照ASCII码进行编码,以得到待测任务序列。
步骤S402:将所述待测向量输入至所述大语言模型。
所述大语言模型是使用上述任一所述的基于层间比对的大语言模型训练方法训练得到的。
步骤S403:通过所述大语言模型输出所述待测任务序列对应的预测结果序列,所述预测结果序列包括多个token。
步骤S404:通过所述预测结果序列获得预测结果。
下面举例对通过预测结果序列获得预测结果的过程进行说明。
图5是根据一示例性实施例示出的一种通过所述预测结果序列获得预测结果的过程示意图。
假设预测结果序列由5个token构成,5个token的位由前至后依次为:位置41、位置42、位置43、位置44和位置45,假设大语言模型预测的位置41的token按照概率值由高至低(假设取前3名)依次为:第一目标token411、第一目标token412、第一目标token413;大语言模型预测的位置42的token按照概率值由高至低(假设取前3名)依次为:第一目标token421、第一目标token422、第一目标token423;大语言模型预测的位置43的token按照概率值由高至低(假设取前3名)依次为:第一目标token431、第一目标token432、第一目标token433;大语言模型预测的位置44的token按照概率值由高至低(假设取前3名)依次为:第一目标token441、第一目标token442、第一目标token443;大语言模型预测的位置45的token按照概率值由高至低(假设取前3名)依次为:第一目标token451、第一目标token452、第一目标token453。
可以理解的是,可能位置相邻的多个token构成一个汉字或一个英文单词,例如位于位置41的token、位于位置42的toekn构成一个汉字或一个英文单词,而位置相邻的5个token构成一个预测结果。
示例性的,各位置对应的概率值最高的第一目标token构成预测结果序列,即预设结果序列为{第一目标token411、第一目标token421、第一目标token431、第一目标token441、第一目标token451}。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了多种装置,下面给出具体的实施例进行详细说明。
图6是根据一示例性实施例示出的一种基于层间比对的大语言模型训练装置框图。参照图6,该装置包括:第一获取模块601、第一输入模块602、第二获取模块603、第一确定模块604、第二确定模块605、第一输出模块606、第三确定模块607、训练模块608、设置模块609、第四确定模块610以及第五确定模块611,其中:
第一获取模块601,用于获取样本任务序列{}的样本向量以及所述样本任务序列对应的标注结果序列{};所述样本任务序列与所述标注结果序列中的元素为token;
第一输入模块602,用于将所述样本向量输入至大语言模型的输入端;
其中,所述大语言模型包括N层网络模型以及与所述N层网络模型的输出端分别相连的解码策略模块,所述解码策略模块的输出端为所述大语言模型的输出端,第j层的所述网络模型包括第j个Transformer模型、与所述第j个Transformer模型的第一输出端相连的全连接神经网络以及与所述全连接神经网络的输出端相连的激活函数,所述激活函数的输出端为第j层所述网络模型的输出端,所述第j个Transformer模型的第二输出端与第j+1层的所述网络模型包含的第j+1个Transformer模型的输入端相连,第一层所述网络模型包含的第一个Transformer模型的输入端为所述大语言模型的输入端;N为大于1的整数,1≤j≤N;
第二获取模块603,用于通过所述解码策略模块获取所述N层网络模型分别输出的第一概率分布;
其中,第j层的所述网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率,1≤i≤M-t+1,i的初始值为1;
第一确定模块604,用于通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q;
第二确定模块605,用于基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布;
第一输出模块606,用于通过所述解码策略模块的输出端输出第一目标token,所述第一目标token为预测得到的所述标注结果序列中的第i个token,所述第一目标token为所述差异分布中最大值对应的token;
第三确定模块607,用于基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数;
训练模块608,用于通过所述损失函数训练所述大语言模型;
设置模块609,用于若i小于M-t+1,设置i=i+1以及设置所述样本向量为样本任务序列{}的向量,触发所述第一输入模块;
第四确定模块610,用于若i大于或等于M-t+1,确定通过所述样本任务序列训练完毕所述大语言模型;
第五确定模块611,用于若当前训练结果满足预设训练结束条件,确定得到训练后的大语言模型。
在一可选实现方式中,第一确定模块604具体用于:
通过以下公式计算得到层数Q;
其中,JSD(·∥·)为Jensen-Shannon散度。
在一可选实现方式中,第二确定模块606包括:
第一确定单元,用于确定第N层所述网络模型输出的所述第一概率分布中的最大概率为第一数值;
第二获取单元,用于从第N层所述网络模型输出的所述第一概率分布中获取大于或等于第二数值的概率值对应的第二目标token,所述第二数值为预设数值与所述第一数值的乘积,所述预设数值为大于0小于或等于1的数值;
第三获取单元,用于从第Q层的所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第二概率分布;
第四获取单元,用于从所述第N层所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第三概率分布;
第二确定单元,用于基于所述第二概率分布与所述第三概率分布,确定所述差异分布。
在一可选实现方式中,第二确定单元具体用于:
通过以下公式,计算得到差异分布F;
其中,为所述第三概率分布,为所述第二概率分布;gs为所述预设语言集合中的第s个token,R为所述预设语言集合包含的token的总数目;表示所述第二目标token组成的集合。
在一可选实现方式中,第三确定模块607具体用于:
通过以下公式确定损失函数L;
;
其中,crossentropy(·,·) 为交叉熵函数,为xt+i-1的独热编码,为第一预设值、为第二预设值,V为设定领域的实体对应的token构成的集合,为所述设定领域中多个实体之间的语义关系对应的token构成的集合;
其中,
其中,为所述差异分布F,或者,
其中,CU是指第N层所述网络模型输出的所述第一概率分布中概率值为前U的token组成的集合;是指所述设定领域中的实体的token与多个实体之间的语义关系的token构成的集合。
在一可选实现方式中,所述设定领域为医学领域,所述预设语言集合包括
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种基于层间比对的大语言模型训练装置框图。参照图7,该装置包括:第三获取模块701、第二输入模块702、第二输出模块703以及第四获取模块704,其中:
第三获取模块701,用于获取待测任务序列对应的待测向量;
第二输入模块702,用于将所述待测向量输入至大语言模型,所述大语言模型是使用上述所述的基于层间比对的大语言模型训练装置训练得到的;
第二输出模块703,用于通过所述大语言模型输出所述待测任务序列对应的预测结果序列,所述预测结果序列包括多个token;
第四获取模块704,用于通过所述预测结果序列获得预测结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于服务器的装置的框图。该服务器可以为训练服务器或应用服务器。
服务器包括但不限于:处理器81、存储器82、网络接口83、I/O控制器84以及通信总线85。
需要说明的是,本领域技术人员可以理解,图8中示出的服务器的结构并不构成对服务器的限定,服务器可以包括比图8所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对服务器的各个构成部件进行具体的介绍:
处理器81是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器82内的软件程序和/或模块,以及调用存储在存储器82内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器81可包括一个或多个处理单元;示例性的,处理器81可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器81中。
处理器81可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器82可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM)821和只读存储器(Read-Only Memory,ROM)822,也可能还包括大容量存储设备823,例如至少1个磁盘存储器等。当然,该服务器还可能包括其他业务所需要的硬件。
其中,上述的存储器82,用于存储上述处理器81可执行指令。上述处理器81具有执行基于层间比对的大语言模型训练方法的功能或具有执行基于层间比对的大语言模型的使用方法的功能。
一个有线或无线网络接口83被配置为将服务器连接到网络。
处理器81、存储器82、网络接口83和I/O控制器84可以通过通信总线85相互连接,该通信总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
在示例性实施例中,服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述基于层间比对的大语言模型训练方法或基于层间比对的大语言模型的使用方法。
在示例性实施例中,本公开实施例提供了一种包括指令的存储介质,例如包括指令的存储器82,上述指令可由服务器的处理器81执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机可读存储介质,可直接加载到计算机的内部存储器,例如上述存储器82中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述基于层间比对的大语言模型训练方法或基于层间比对的大语言模型的使用方法。
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,例如所述服务器包含的存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述所述基于层间比对的大语言模型训练方法或基于层间比对的大语言模型的使用方法。
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于层间比对的大语言模型训练方法,其特征在于,包括:
获取样本任务序列{x1,x2,...,xt-1}的样本向量以及所述样本任务序列对应的标注结果序列{xt,...,xM};所述样本任务序列与所述标注结果序列中的元素为token;
将所述样本向量输入至大语言模型的输入端;
其中,所述大语言模型包括N层网络模型以及与所述N层网络模型的输出端分别相连的解码策略模块,所述解码策略模块的输出端为所述大语言模型的输出端,第j层的所述网络模型包括第j个Transformer模型、与所述第j个Transformer模型的第一输出端相连的全连接神经网络以及与所述全连接神经网络的输出端相连的激活函数,所述激活函数的输出端为第j层所述网络模型的输出端,所述第j个Transformer模型的第二输出端与第j+1层的所述网络模型包含的第j+1个Transformer模型的输入端相连,第一层所述网络模型包含的第一个Transformer模型的输入端为所述大语言模型的输入端;N为大于1的整数,1≤j≤N;
通过所述解码策略模块获取所述N层网络模型分别输出的第一概率分布;
其中,第j层的所述网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率,1≤i≤M-t+1,i的初始值为1;
通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q;
基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布;
通过所述解码策略模块的输出端输出第一目标token,所述第一目标token为预测得到的所述标注结果序列中的第i个token,所述第一目标token为所述差异分布中最大值对应的token;
基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数;
通过所述损失函数训练所述大语言模型;
若i小于M-t+1,设置i=i+1以及设置所述样本向量为样本任务序列{x1,x2,...,xt-1,...,xt+i-1}的向量,返回步骤将所述样本向量输入至大语言模型的输入端;
若i大于或等于M-t+1,确定通过所述样本任务序列训练完毕所述大语言模型;
若当前训练结果满足预设训练结束条件,确定得到训练后的大语言模型;
其中,所述基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布步骤包括:
确定第N层所述网络模型输出的所述第一概率分布中的最大概率为第一数值;
从第N层所述网络模型输出的所述第一概率分布中获取大于或等于第二数值的概率值对应的第二目标token,所述第二数值为预设数值与所述第一数值的乘积,所述预设数值为大于0小于或等于1的数值;
从第Q层的所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第二概率分布;
从所述第N层所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第三概率分布;
基于所述第二概率分布与所述第三概率分布,确定所述差异分布;
其中,所述基于所述第二概率分布与所述第三概率分布,确定所述差异分布步骤包括:
通过以下公式,计算得到差异分布F;
其中,PN(xt+i-1)为所述第三概率分布,PM(xt+i-1)为所述第二概率分布;gs为所述预设语言集合中的第s个token,R为所述预设语言集合包含的token的总数目;Vhead表示所述第二目标token组成的集合;
其中,所述基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数步骤包括:
通过以下公式确定损失函数L;
其中,crossentropy(·,·)为交叉熵函数,onehot(xt+i-1)为xt+i-1的独热编码,λ1为第一预设值、λ2为第二预设值,V为设定领域的实体对应的token构成的集合,ε为所述设定领域中多个实体之间的语义关系对应的token构成的集合;
其中,
其中,为所述差异分布F,或者,
其中,CU是指第N层所述网络模型输出的所述第一概率分布中概率值为前U的token组成的集合;Φ是指所述设定领域中的实体的token与多个实体之间的语义关系的token构成的集合。
2.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q步骤包括:
通过以下公式计算得到层数Q;
其中,JSD(·||·)为Jensen-Shannon散度。
3.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述设定领域为医学领域,所述预设语言集合包括Φ。
4.一种基于层间比对的大语言模型的使用方法,其特征在于,包括:
获取待测任务序列对应的待测向量;
将所述待测向量输入至大语言模型,所述大语言模型是使用权利要求1至3任一所述的基于层间比对的大语言模型训练方法训练得到的;
通过所述大语言模型输出所述待测任务序列对应的预测结果序列,所述预测结果序列包括多个token;
通过所述预测结果序列获得预测结果。
5.一种基于层间比对的大语言模型训练装置,其特征在于,包括:
第一获取模块,用于获取样本任务序列{x1,x2,...,xt-1}的样本向量以及所述样本任务序列对应的标注结果序列{xt,...,xM};所述样本任务序列与所述标注结果序列中的元素为token;
第一输入模块,用于将所述样本向量输入至大语言模型的输入端;
其中,所述大语言模型包括N层网络模型以及与所述N层网络模型的输出端分别相连的解码策略模块,所述解码策略模块的输出端为所述大语言模型的输出端,第j层的所述网络模型包括第j个Transformer模型、与所述第j个Transformer模型的第一输出端相连的全连接神经网络以及与所述全连接神经网络的输出端相连的激活函数,所述激活函数的输出端为第j层所述网络模型的输出端,所述第j个Transformer模型的第二输出端与第j+1层的所述网络模型包含的第j+1个Transformer模型的输入端相连,第一层所述网络模型包含的第一个Transformer模型的输入端为所述大语言模型的输入端;N为大于1的整数,1≤j≤N;
第二获取模块,用于通过所述解码策略模块获取所述N层网络模型分别输出的第一概率分布;
其中,第j层的所述网络模型的第一概率分布包括预设语言集合中各token分别为标注结果序列中第i个token的概率,1≤i≤M-t+1,i的初始值为1;
第一确定模块,用于通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q;
第二确定模块,用于基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布;
第一输出模块,用于通过所述解码策略模块的输出端输出第一目标token,所述第一目标token为预测得到的所述标注结果序列中的第i个token,所述第一目标token为所述差异分布中最大值对应的token;
第三确定模块,用于基于所述差异分布、第N层所述网络模型输出的所述第一概率分布以及xt+i-1,确定损失函数;
训练模块,用于通过所述损失函数训练所述大语言模型;
设置模块,用于若i小于M-t+1,设置i=i+1以及设置所述样本向量为样本任务序列{x1,x2,...,xt-1,...,xt+i-1}的向量,触发所述第一输入模块;
第四确定模块,用于若i大于或等于M-t+1,确定通过所述样本任务序列训练完毕所述大语言模型;
第五确定模块,用于若当前训练结果满足预设训练结束条件,确定得到训练后的大语言模型;
其中,所述第二确定模块包括:
第一确定单元,用于确定第N层所述网络模型输出的所述第一概率分布中的最大概率为第一数值;
第二获取单元,用于从第N层所述网络模型输出的所述第一概率分布中获取大于或等于第二数值的概率值对应的第二目标token,所述第二数值为预设数值与所述第一数值的乘积,所述预设数值为大于0小于或等于1的数值;
第三获取单元,用于从第Q层的所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第二概率分布;
第四获取单元,用于从所述第N层所述网络模型输出的所述第一概率分布中获取由所述第二目标token对应的概率值组成的第三概率分布;
第二确定单元,用于基于所述第二概率分布与所述第三概率分布,确定所述差异分布;
其中,所述第二确定单元具体用于:
通过以下公式,计算得到差异分布F;
其中,PN(xt+i-1)为所述第三概率分布,PM(xt+i-1)为所述第二概率分布;gs为所述预设语言集合中的第s个token,R为所述预设语言集合包含的token的总数目;Vhead表示所述第二目标token组成的集合;
其中,所述第三确定模块具体用于:
通过以下公式确定损失函数L;
其中,crossentropy(·,·)为交叉熵函数,onehot(xt+i-1)为xt+i-1的独热编码,λ1为第一预设值、λ2为第二预设值,V为设定领域的实体对应的token构成的集合,ε为所述设定领域中多个实体之间的语义关系对应的token构成的集合;
其中,
其中,为所述差异分布F,或者,
其中,CU是指第N层所述网络模型输出的所述第一概率分布中概率值为前U的token组成的集合;Φ是指所述设定领域中的实体的token与多个实体之间的语义关系的token构成的集合。
6.一种基于层间比对的大语言模型的使用装置,其特征在于,包括:
第三获取模块,用于获取待测任务序列对应的待测向量;
第二输入模块,用于将所述待测向量输入至大语言模型,所述大语言模型是使用权利要求5所述的基于层间比对的大语言模型训练装置训练得到的;
第二输出模块,用于通过所述大语言模型输出所述待测任务序列对应的预测结果序列,所述预测结果序列包括多个token;
第四获取模块,用于通过所述预测结果序列获得预测结果。
7.一种服务器,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至3中任一项所述方法的步骤。
CN202410293082.7A 2024-03-14 2024-03-14 基于层间比对的大语言模型训练和使用方法及相关装置 Active CN117892139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410293082.7A CN117892139B (zh) 2024-03-14 2024-03-14 基于层间比对的大语言模型训练和使用方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410293082.7A CN117892139B (zh) 2024-03-14 2024-03-14 基于层间比对的大语言模型训练和使用方法及相关装置

Publications (2)

Publication Number Publication Date
CN117892139A CN117892139A (zh) 2024-04-16
CN117892139B true CN117892139B (zh) 2024-05-14

Family

ID=90643109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410293082.7A Active CN117892139B (zh) 2024-03-14 2024-03-14 基于层间比对的大语言模型训练和使用方法及相关装置

Country Status (1)

Country Link
CN (1) CN117892139B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN115081621A (zh) * 2022-06-22 2022-09-20 上海联影医疗科技股份有限公司 模型训练方法、病灶分割方法、装置、计算机设备和介质
WO2023284808A1 (zh) * 2021-07-15 2023-01-19 中兴通讯股份有限公司 模型训练方法、文本处理方法和装置、电子设备、介质
CN116050425A (zh) * 2022-12-26 2023-05-02 阿里巴巴达摩院(杭州)科技有限公司 建立预训练语言模型的方法、文本预测方法及装置
WO2023071743A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 网络模型训练方法、装置和计算机可读存储介质
CN117390450A (zh) * 2023-10-27 2024-01-12 航天信息股份有限公司 一种大语言模型训练方法、装置及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
WO2023284808A1 (zh) * 2021-07-15 2023-01-19 中兴通讯股份有限公司 模型训练方法、文本处理方法和装置、电子设备、介质
WO2023071743A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 网络模型训练方法、装置和计算机可读存储介质
CN115081621A (zh) * 2022-06-22 2022-09-20 上海联影医疗科技股份有限公司 模型训练方法、病灶分割方法、装置、计算机设备和介质
CN116050425A (zh) * 2022-12-26 2023-05-02 阿里巴巴达摩院(杭州)科技有限公司 建立预训练语言模型的方法、文本预测方法及装置
CN117390450A (zh) * 2023-10-27 2024-01-12 航天信息股份有限公司 一种大语言模型训练方法、装置及相关设备

Also Published As

Publication number Publication date
CN117892139A (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Wang et al. Learning visual relationship and context-aware attention for image captioning
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN111581973B (zh) 一种实体消歧方法及系统
CN111563144B (zh) 基于语句前后关系预测的用户意图识别方法及装置
CN112926324B (zh) 融合词典与对抗迁移的越南语事件实体识别方法
WO2021151271A1 (zh) 基于命名实体的文本问答的方法、装置、设备及存储介质
He et al. A survey on recent advances in sequence labeling from deep learning models
WO1999024968A1 (en) Method, device and system for part-of-speech disambiguation
CN112740200B (zh) 用于基于共指消解的端到端深度强化学习的系统和方法
Wu et al. Research on Named Entity Recognition of Electronic Medical Records Based on RoBERTa and Radical‐Level Feature
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和系统
WO2023116572A1 (zh) 一种词句生成方法及相关设备
WO2024193382A1 (zh) 知识增强预训练语言模型知识注入和训练方法及系统
Daraghmi et al. From Text to Insight: An Integrated CNN-BiLSTM-GRU Model for Arabic Cyberbullying Detection
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
Han et al. MAF‐CNER: A Chinese Named Entity Recognition Model Based on Multifeature Adaptive Fusion
He et al. Multi-level attention based BLSTM neural network for biomedical event extraction
CN116975212A (zh) 问题文本的答案查找方法、装置、计算机设备和存储介质
Mu et al. A character-level BiLSTM-CRF model with multi-representations for Chinese event detection
Zhang et al. Description-enhanced label embedding contrastive learning for text classification
CN114417016A (zh) 一种基于知识图谱的文本信息匹配方法、装置及相关设备
CN113312920A (zh) 基于图对比学习的验证方法、系统、设备和存储介质
CN117892139B (zh) 基于层间比对的大语言模型训练和使用方法及相关装置
Xu et al. Research on depression tendency detection based on image and text fusion
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant