CN116109866A - 微调模型构建、图像分类处理方法及装置、电子设备 - Google Patents

微调模型构建、图像分类处理方法及装置、电子设备 Download PDF

Info

Publication number
CN116109866A
CN116109866A CN202310096801.1A CN202310096801A CN116109866A CN 116109866 A CN116109866 A CN 116109866A CN 202310096801 A CN202310096801 A CN 202310096801A CN 116109866 A CN116109866 A CN 116109866A
Authority
CN
China
Prior art keywords
preset
model
classification
context
fine tuning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310096801.1A
Other languages
English (en)
Inventor
毛潇锋
陈岳峰
加小俊
张�荣
薛晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310096801.1A priority Critical patent/CN116109866A/zh
Publication of CN116109866A publication Critical patent/CN116109866A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种微调模型构建方法及装置、图像分类处理方法及装置、电子设备。所述方法包括:获得目标任务关联的多个预设文本提示信息,预设文本提示信息包括预设类别信息和预设上下文信息;通过预设模型的文本编码器对多个预设文本提示信息中的预设类别信息进行编码处理,获得上下文分类特征,将上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;构建微调模型,包括预设模型、第一分类层和第二分类层,预设模型的输出作为第一分类层和第二分类层的输入,预设模型的图像编码器的参数及第二分类层的参数为可调参数;获得目标任务关联的训练样本,对微调模型进行模型优化获得调整后的微调模型。可提高微调模型鲁棒性。

Description

微调模型构建、图像分类处理方法及装置、电子设备
技术领域
本申请涉及信息处理技术领域,特别是涉及一种微调模型构建方法及装置、图像分类处理方法及装置、电子设备。
背景技术
人工智能预训练大模型,指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。大模型预先在海量通用数据上训练并具备多种基础能力,可以结合多种垂直行业和应用场景需求进行模型微调和应用适配,降低传统模型在样本数据规模或模型表达能力方面的约束。
海量通用数据上的训练赋予了大模型应对自然分布偏移的鲁棒性,模型推理过程更为稳定可靠,但在面对下游任务,对大模型进行微调处理时,如果微调方式不恰当,则会影响大模型原有的准确率和鲁棒性。
如何确保下游任务对应的微调模型的识别准确率以及模型鲁棒性,成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了一种微调模型构建方法及装置、图像分类处理方法及装置、电子设备,可以将预设模型对上下文的感知能力继承到目标任务对应的微调模型中,保证微调模型的鲁棒性以及识别准确率。
本申请提供了如下方案:
一种微调模型构建方法,包括:
获得目标任务关联的多个预设文本提示信息,所述预设文本提示信息包括预设类别信息和预设上下文信息;
通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
构建所述目标任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
获得所述目标任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型。
其中,所述方法还包括:
通过所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得所述预设上下文信息关联的类别分类特征,并在构建所述微调模型时,将所述类别分类特征作为所述第二分类层的初始化参数。
其中,所述通过所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得所述预设上下文信息关联的类别分类特征,包括:
将所述多个预设文本提示信息作为所述文本编码器的输入,由所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得各预设上下文信息的编码信息;
对各预设上下文信息的编码信息进行平均处理,获得所述类别分类特征。
其中,所述通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,包括:
将所述多个预设文本提示信息作为所述文本编码器的输入,由所述文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得各预设类别信息的编码信息;
对各预设类别信息的编码信息进行平均处理,获得所述上下文分类特征。
其中,所述通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,包括:
获得当前参数调整次数,如果所述当前参数调整次数未达到预设次数,则调整所述微调模型中的所述可调参数,获得新的微调模型;
将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型的总损失,所述总损失包括表示上下文识别差异的第一损失以及表示类别识别差异的第二损失;
更新所述当前参数调整次数,获得新的参数调整次数;
如果所述新的参数调整次数未达到所述预设次数,则继续调整所述新的微调模型中的可调参数,以降低所述总损失,直至调整次数达到所述预设次数,获得所述调整后的微调模型。
其中,所述通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,包括:
调整所述微调模型中的所述可调参数,获得新的微调模型;
将所述训练样本作为所述新的微调模型的输入,获得表示所述新的微调模型的优化性能的性能参数;
如果所述性能参数表示所述新的微调模型符合预设优化要求,则将所述新的微调模型确定为所述调整后的微调模型。
其中,所述性能参数为所述新的微调模型的总损失,
所述将所述训练样本作为所述新的微调模型的输入,获得表示所述新的微调模型的优化性能的性能参数,包括:
将所述训练样本作为所述新的微调模型的输入,获得表示上下文识别差异的第一损失以及表示类别识别差异的第二损失;
获得所述新的微调模型的总损失,所述总损失包括所述第一损失以及所述第二损失。
其中,所述获得表示上下文识别差异的第一损失,包括:
将所述训练样本作为所述预设模型的输入,获得基准上下文分布,以及将所述训练样本作为所述新的微调模型的输入,经所述第一分类层获得预测上下文分布;
根据所述基准上下文分布与所述预测上下文分布,计算获得所述第一损失。
其中,所述获得表示类别识别差异的第二损失,包括:
将所述训练样本作为所述新的微调模型的输入,经所述第二分类层获得预测类别分布;
获得所述训练样本中样本图片对应的样本类别分布,并根据所述预测类别分布与所述样本类别分布,计算获得所述第二损失。
其中,所述性能参数为所述新的微调模型的识别准确率,
所述将所述训练样本作为所述新的微调模型的输入,获得表示所述新的微调模型的优化性能的性能参数,包括:
将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型输出的预测文本提示信息,所述预测文本提示信息包括所述第一分类层输出的预测上下文信息以及所述第二分类层输出的预测类别信息;
根据所述预测文本提示信息与所述训练样本中样本图片对应的预设文本提示信息,获得所述新的微调模型的识别准确率。
一种微调模型构建方法,包括:
获得安全风控领域的下游任务关联的多个预设风险文本提示信息,所述预设风险文本提示信息包括预设风险类别信息和预设上下文信息;
通过预设模型的文本编码器对所述多个预设风险文本提示信息中的预设风险类别信息,进行编码处理,获得所述预设风险类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行风险类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的网络图像进行风险类别检测。
一种微调模型构建方法,包括:
获得智能驾驶领域的下游任务关联的多个预设交通文本提示信息,所述预设交通文本提示信息包括与车辆通行相关的预设交通类别信息和预设上下文信息;
通过预设模型的文本编码器对所述多个预设交通文本提示信息中的预设交通类别信息,进行编码处理,获得所述预设交通类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行交通类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的道路图像进行交通类别识别。
一种图像分类处理方法,包括:
获得与目标任务相关的待识别图像,输入至根据上述方法构建的调整后的微调模型;
获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述待识别图像的上下文分类结果以及所述待识别图像的类别分类结果。
一种图像分类处理方法,包括:
获得待识别网络图像,输入至根据上述方法构建的调整后的微调模型;
获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述网络图像的上下文分类结果以及所述网络图像的风险类别分类结果。
一种图像分类处理方法,包括:
获得车辆行驶过程中的道路图像,输入至根据上述方法构建的调整后的微调模型;
获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述道路图像的上下文分类结果以及所述道路图像的交通类别分类结果。
一种微调模型构建装置,包括:
文本提示信息获得单元,用于获得目标任务关联的多个预设文本提示信息,所述预设文本提示信息包括预设类别信息和预设上下文信息;
上下文分类特征获得单元,用于通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元,用于构建所述目标任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元,用于获得所述目标任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型。
一种微调模型构建装置,包括:
文本提示信息获得单元,用于获得安全风控领域的下游任务关联的多个预设风险文本提示信息,所述预设风险文本提示信息包括预设风险类别信息和预设上下文信息;
上下文分类特征获得单元,用于通过预设模型的文本编码器对所述多个预设风险文本提示信息中的预设风险类别信息,进行编码处理,获得所述预设风险类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元,用于构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行风险类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元,用于获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的网络图像进行风险类别检测。
一种微调模型构建装置,包括:
文本提示信息获得单元,用于获得智能驾驶领域的下游任务关联的多个预设交通文本提示信息,所述预设交通文本提示信息包括与车辆通行相关的预设交通类别信息和预设上下文信息;
上下文分类特征获得单元,用于通过预设模型的文本编码器对所述多个预设交通文本提示信息中的预设交通类别信息,进行编码处理,获得所述预设交通类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元,用于构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行交通类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元,用于获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的道路图像进行交通类别识别。
一种图像分类处理装置,包括:
图像获得单元,用于获得与目标任务相关的待识别图像,输入至根据上述方法构建的调整后的微调模型;
识别结果获得单元,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述待识别图像的上下文分类结果以及所述待识别图像的类别分类结果。
一种图像分类处理方法,包括:
图像获得单元,用于获得待识别网络图像,输入至根据上述方法构建的调整后的微调模型;
识别结果获得单元,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述网络图像的上下文分类结果以及所述网络图像的风险类别分类结果。
一种图像分类处理方法,包括:
图像获得单元,用于获得车辆行驶过程中的道路图像,输入至根据上述方法构建的调整后的微调模型;
识别结果获得单元,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述道路图像的上下文分类结果以及所述道路图像的交通类别分类结果。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述的方法的步骤。
一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例构建的目标任务对应的微调模型,可以包括预设模型、能进行上下文分类的第一分类层、以及能进行类别分类的第二分类层。可以通过预设模型的文本编码器对目标任务关联的预设文本提示信息进行编码处理,获得第一分类层的初始化参数,并固定文本编码器的参数与第一分类层的参数,以将预设模型对上下文的感知能力继承到微调模型中,保证微调模型对分布偏移图像的鲁棒性。同时,还可以设置预设模型的图像编码器的参数与第二分类层的参数为可调参数,并通过目标任务关联的训练样本,对微调模型进行模型优化,以此提升微调模型的识别准确率。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术提供的CLIP模型的示意图;
图2是现有技术提供的CLIP微调模型的示意图;
图3是本申请实施例提供的微调模型构建方法的流程图;
图4是本申请实施例提供的CLIP微调模型的示意图;
图5是本申请实施例提供的微调模型构建装置的示意图;
图6是本申请实施例提供的图像分类处理装置的示意图;
图7是本申请实施例提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
随着大模型预训练技术的日益成熟,大模型的应用也开始普及。预训练所用的海量通用数据,不仅可以提升大模型的表达能力,还可优化大模型的泛化能力,通过微调技术便可将大模型泛化到不同的下游任务上。
以CLIP模型(英文:Contrastive Language-Image Pre-Training,中文:图像-文本对比预训练,是一种用于匹配图像和文本的预训练神经网络模型)为例,训练样本为来自网络的图文数据对,可以将文本作为图像标签,预训练得到图像分类器。具体实现过程可以理解为,经过大模型的图像编码器可以得到图像特征,经过大模型的文本编码器可以得到文本特征,将图像特征与文本特征做内积,内积最大对应的标签即为图像的分类结果。
目前,基于CLIP模型进行微调处理时,存在以下微调方法:获得下游任务相关的少量训练样本,先通过少量训练样本训练得到一个线性分类层;再利用大模型以及线性分类层构建微调模型,将大模型输出的特征作为线性分类层的输入;最后通过少量训练样本对微调模型进行模型优化,其中,大模型和线性分类层的全部参数均作为可调参数,进行整体调整,得到下游任务对应的模型。
以CLIP模型识别金鱼和飞机两个类别为例,参见图1所示玩具金鱼的图片,CLIP模型的图像编码器提取到图像特征,文本编码器提取到文本特征“A toy of goldfish(金鱼玩具)”和“Atoy ofairplane(飞机玩具)”,经图文匹配后输出的分类结果为“Atoyofgoldfish”。
经微调处理得到的模型,即图2中的Fine-tuned CLIP模型提取到图像特征和文本特征(在图2中体现为“goldfish”和“airplane”),经图文匹配后输出的分类结果为“goldfish”。需要说明的是,在实际使用过程中,输出的分类结果也可以是类别名称对应的标签编号,例如,结合下表1所示类别与标签的对应关系,图2所举示例中微调模型输出的分类结果可以为“1”。
Figure BDA0004075857490000071
Figure BDA0004075857490000081
表1
经实际验证可知,针对未发生分布偏移的测试集,大模型的识别准确率为68.3%,微调模型的识别准确率为81%,准确率有所提升;针对发生分布偏移的测试集,大模型的识别准确率为53.5%,微调模型的识别准确率为45.1%,准确率有所下降,也就是说,现有的微调方案破坏了大模型对分布偏移的鲁棒性。
其中,分布偏移(Distribution shift)可以理解为训练分布与测试分布不同。例如,训练集中的训练样本都是玩具金鱼的图片,若测试集中的测试样本包括真实金鱼的图片,则可认为发生了分布偏移。
发明人经过不断探索和研究,发现图像的上下文信息是影响模型鲁棒性的重要因素,图1所示大模型输出的分类结果中包括:图像的类别信息(goldfish)、以及图像的上下文信息(toy),而微调过程则模糊了上下文信息,导致微调模型输出的分类结果中只包括图像的类别信息,也就是说,因为微调过程破坏了大模型对图像上下文信息的感知能力,致使微调模型对分布偏移图像的鲁棒性降低。
针对于此,本申请实施例提供一种进行微调模型构建的客户端,可以部署于技术人员关联的终端设备上,用以维持预设模型对图像上下文信息的感知能力,并将该感知能力继承到下游任务对应的微调模型中,以此保证模型鲁棒性以及识别准确率。
本申请实施例中,可以将从图片中提取的图像特征分为两类:分类目标特征,即与分类目的相关的特征;上下文特征,即非分类目标特征,也就是除分类目标特征之外的其他特征。例如,在遵守相关国家和地区的相关法律法规和标准的情况下,获得用户图像A,并在用户授权后,通过图像A进行人脸识别时,图像中用于确定用户身份的特征,即为分类目标特征,其他特征例如表示用户表情的特征,即为图像的上下文特征。或者,通过图像A进行表情识别时,图像中用于确定表情的特征,即为分类目标特征,其他特征如表示用户身份的特征,即为图像的上下文特征。也就是说,可以根据分类识别的目的,确定图像中提取的特征为分类目标特征还是上下文特征。
下面对本申请实施例提供的微调模型构建方案的具体实现过程进行详细说明,参见图3所示流程图,可以包括:
S101:获得目标任务关联的多个预设文本提示信息,所述预设文本提示信息包括预设类别信息和预设上下文信息。
预设模型具有很好的通用性,可以通过微调技术适应不同的下游任务,本申请实施例为了将预设模型对分布偏移的鲁棒能力迁移至下游任务对应的微调模型中,可以先获得下游任务关联的多个预设文本提示信息。
以识别动物类别的下游任务为例,参见图4所举示例,预设文本提示信息可以为:Atoy ofgoldfish(金鱼玩具)、Atoy ofairplane(飞机玩具)、A sketch ofgoldfish(金鱼素描)、A sketch of airplane(飞机素描),因下游任务为识别动物类别,故可确定预设类别信息为:goldfish(金鱼)、airplane(飞机),预设上下文信息为:toy(玩具)、sketch(素描)。
本申请实施例对预设文本提示信息的数量、预设类别信息的数量、预设上下文信息的数量不做具体限定,例如,预设类别信息的数量为C,预设上下文信息的数量为P,则预设文本提示信息的数量为P×C。
在实际使用过程中,可以获得多个预设文本提示信息,再通过文本识别提取到预设类别信息和预设上下文信息。或者,可以获得包含预设上下文信息的提示模板集合和包含预设类别信息的类别名称集合,再由预设类别信息和预设上下文信息组合获得多个预设文本提示信息。如图4所举示例中,提示模板集合可以包括:toy、sketch,类别名称集合可以包括:goldfish、airplane,可组合得到4个预设文本提示信息。
S102:通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层。
为了维持预设模型对图像的上下文信息的感知能力,并将该感知能力继承到下游任务对应的微调模型中,本申请实施例可以使用预设模型的文本编码器对多个预设文本提示信息进行编码处理,获得预设类别信息关联的上下文分类特征Wctx。也就是说,可以对C个预设类别信息进行模糊处理,保留预设模型对上下文信息进行分类的能力,如此,将Wctx作为第一分类层的初始化参数时,第一分类层便可模糊类别信息,保留输出上下文信息,实现上下文分类目的。
具体地,可以将多个预设文本提示信息作为文本编码器的输入,由文本编码器对多个预设文本提示信息中的预设类别信息,进行编码处理,获得各预设类别信息的编码信息;再对各预设类别信息的编码信息进行平均处理,获得预设类别信息关联的上下文分类特征。
例如,本申请实施例中,通过K1维的类别参数表达预设类别信息的编码信息,则在获得C个预设类别信息的编码信息后,可以对各维度的参数值进行平均处理,获得K1维的参数平均值,作为预设类别信息关联的上下文分类特征。
本申请实施例中,为了将上下文感知能力继承到下游任务对应的微调模型中,可以创建用于进行上下文分类的第一分类层,并将上下文分类特征作为第一分类层的初始化参数,即,第一分类层具有K1维参数。同时,还可以固定文本编码器的参数,确保目标任务对应的微调模型可以维持预设模型的文本识别能力,以及固定第一分类层的参数,确保微调模型可以维持预设模型对上下文信息的识别能力。
可以理解地,第一分类层主要用于对图像中的上下文特征进行分类处理,如图4所举示例中,第一分类层输出的分类结果为:A toy of[CLASS]、A sketch of[CLASS],其中,toy、sketch为对图像中的上下文特征进行分类处理所得上下文分类结果。
S103:构建所述目标任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数。
此外,本申请实施例还可以创建用于进行类别分类的第二分类层,以此对图像中的分类目标特征进行分类处理得到类别分类结果。
结合上文所做介绍,本申请实施例构建的目标任务对应的微调模型可以包括:预设模型、第一分类层和第二分类层,且预设模型的输出分别作为第一分类层和第二分类层的输入。其中,文本编码器的参数以及第一分类层的参数为固定参数,可以确保目标任务对应的微调模型可以维持预设模型对上下文信息的识别能力;图像编码器的参数以及第二分类层的参数为可调参数,可以通过调整可调参数的方式进行模型优化,使微调模型更好的适用于目标任务。
作为一种示例,本申请实施例可以通过多种方式获得第二分类层的初始化参数。例如,可以设置随机参数作为第二分类层的初始化参数。或者,为了确保微调模型可以固定朝着目标任务需要的方向进行模型优化,还可以采用上文介绍的现有方案,通过少量训练样本训练得到第二分类层的初始化参数。或者,为了避免现有方案引入分类层训练过程导致增加训练代价,本申请实施例还提供如下确定第二分类层初始化参数的方案:
可以通过文本编码器对多个预设文本提示信息中的预设上下文信息,进行编码处理,获得预设上下文信息关联的类别分类特征Wcls,并在构建微调模型时,将类别分类特征作为第二分类层的初始化参数。也就是说,可以对P个预设上下文信息进行模糊处理,保留预设模型对类别信息进行分类的能力。
具体地,可以将多个预设文本提示信息作为文本编码器的输入,由文本编码器对多个预设文本提示信息中的预设上下文信息,进行编码处理,获得各预设上下文信息的编码信息;再对各预设上下文信息的编码信息进行平均处理,获得预设上下文信息关联的类别分类特征。
例如,本申请实施例中,通过K2维的上下文参数表达预设上下文信息的编码信息,则在获得P个预设上下文信息的编码信息后,可以对各维度的参数值进行平均处理,获得K2维的参数平均值,作为预设上下文信息关联的类别分类特征。即,第二分类层具有K2维参数。
可以理解地,第二分类层主要用于对图像中的分类目标特征进行分类处理,如图4所举示例中,第二分类层输出的分类结果为:goldfish、airplane(或者,输出的分类结果为类别名称对应的标签编号:1、2),其中,goldfish、airplane为对图像中的分类目标特征进行分类处理所得类别分类结果。
S104:获得所述目标任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型。
构建获得目标任务关联的微调模型后,可以确定目标任务关联的训练样本,并通过训练样本对微调模型进行模型优化,最终得到满足目标任务需求的调整后的微调模型。本申请实施例可以通过多种方式进行模型优化,下面分别进行举例说明。
模型优化方式一
可以根据预设的模型调整次数,对微调模型进行预设次数的模型优化,得到目标任务对应的调整后的微调模型。
具体地,可以获得当前参数调整次数,如果所述当前参数调整次数未达到预设次数,则调整所述微调模型中的所述可调参数,获得新的微调模型;将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型的总损失,其中,总损失包括表示上下文识别差异的第一损失以及表示类别识别差异的第二损失;更新所述当前参数调整次数,获得新的参数调整次数;如果所述新的参数调整次数未达到所述预设次数,则继续调整所述新的微调模型中的可调参数,以降低所述总损失,直至调整次数达到所述预设次数,获得所述调整后的微调模型。
在实际使用过程中,可以结合训练代价和模型识别准确率,确定预设次数,本申请实施例对此不作具体限定。例如,预设次数为10,训练样本集中包括512个训练样本,每个训练样本可以包括:样本图片、样本图片对应的样本类别、样本图片对应的预设文本提示信息。
在进行第1轮模型优化时,可以获得当前参数调整次数为1,并未达到预设次数10,故可以最小化总损失为目的,调整图像编码器的参数和/或第二分类层的初始化参数,得到第一次调整的新的微调模型,并将训练样本作为模型输入,获得第一次调整的新的微调模型的总损失。可以理解地,训练样本集中的512个训练样本均输入一次,视为完成一轮模型优化。
本申请实施例中,可以按照以下方式获得第一损失:将所述训练样本作为所述预设模型的输入,获得基准上下文分布Pctx(x;θ),以及将所述训练样本作为所述新的微调模型的输入,经所述第一分类层获得预测上下文分布
Figure BDA0004075857490000112
根据所述基准上下文分布与所述预测上下文分布,计算获得所述第一损失。其中,x表示输入的样本图片,θ为预设模型的图像编码器的参数,
Figure BDA0004075857490000111
为新的微调模型的图像编码器的参数。
作为一种示例,可以通过KL散度计算第一损失,
Figure BDA0004075857490000113
以此表示预测上下文分布
Figure BDA0004075857490000114
与基准上下文分布Pctx(x;θ)之间的差异。在实际使用过程中,亦可采用其他方式计算第一损失,本申请实施例对此不作具体限定,能反映预测上下文分布与基准上下文分布之间的差异即可。
可以理解地,每个训练样本作为输入均可计算获得该训练样本对应的第一损失,可以对各训练样本对应的第一损失进行平均处理,获得微调模型的第一损失。
本申请实施例中,可以按照以下方式获得第二损失:将所述训练样本作为所述新的微调模型的输入,经所述第二分类层获得预测类别分布;获得所述训练样本中样本图片对应的样本类别分布,并根据所述预测类别分布与所述样本类别分布,计算获得所述第二损失。
作为一种示例,可以通过交叉熵计算第二损失LCE(y′,y),其中,y是样本图像对应的样本类别,y′是样本图像对应的预测类别,以此表示预测类别与样本类别的接近程度。在实际使用过程中,亦可采用其他方式计算第二损失,本申请实施例对此不作具体限定,能反映预测类别与样本类别之间的差异即可。
本申请实施例中,模型的总损失包括:表示上下文识别差异的第一损失LKL、表示类别识别差异的第二损失LCE。作为一种示例,模型的总损失可以体现为L=LCE+αLKL,其中α为经验值,可以设置为1。
综上完成一轮模型优化后,可以更新当前参数调整次数为2,仍未达到预设次数10,可以继续进行第2轮模型优化,重复上述优化过程,直至完成10轮模型优化,此时得到的便为满足目标任务需求的调整后的微调模型。
本申请实施例中,除了可以根据预设次数进行模型优化之外,还可以获得表示模型优化性能的性能参数,以此作为模型优化的依据,在性能参数表示模型符合预设优化要求时,得到目标任务对应的调整后的微调模型。其中,模型符合预设优化要求可以理解为,模型的优化参数超过预设阈值,或者模型达到最优。
也就是说,调整所述微调模型中的所述可调参数,获得新的微调模型后,可以将所述训练样本作为所述新的微调模型的输入,获得表示所述新的微调模型的优化性能的性能参数;如果所述性能参数表示所述新的微调模型符合预设优化要求,则将所述新的微调模型确定为所述调整后的微调模型。可具体体现为以下两种模型优化方式:
模型优化方式二
本方式中,性能参数可以体现为微调模型的总损失。其中,总损失可以包括表示上下文识别差异的第一损失和表示类别识别差异的第二损失,获得总损失的方式可参见上文所做介绍,此处不再赘述。
以模型达到最优为例,可以在每轮模型优化后,得到对应的总损失,与上一轮优化所得总损失进行损失比对,如果总损失有所下降,说明模型还存在性能优化的可能,可继续进行下一轮模型优化;如果总损失不再降低,则可确定模型已达到最优,此时调整所得微调模型即为满足目标任务需求的调整后的微调模型。
模型优化方式三
本方式中,性能参数可以体现为微调模型的识别准确率。
具体地,可以将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型输出的预测文本提示信息,所述预测文本提示信息包括所述第一分类层输出的预测上下文信息以及所述第二分类层输出的预测类别信息;根据所述预测文本提示信息与所述训练样本中样本图片对应的预设文本提示信息,获得所述新的微调模型的识别准确率。
以模型达到最优为例,可以在每轮模型优化后,得到对应的识别准确率,与上一轮优化所得识别准确率进行准确率比对,如果识别准确率有所上升,说明模型还存在性能优化的可能,可继续进行下一轮模型优化;如果识别准确率不再升高,则可确定模型已达到最优,此时调整所得微调模型即为满足目标任务需求的调整后的微调模型。
综上所述,本申请实施例构建的微调模型可以包括预设模型、能进行上下文分类的第一分类层、以及能进行类别分类的第二分类层。可以通过预设模型的文本编码器对目标任务关联的预设文本提示信息进行编码处理,获得第一分类层的初始化参数,并固定文本编码器的参数与第一分类层的参数,以将预设模型对上下文的感知能力继承到微调模型中,保证微调模型对分布偏移图像的鲁棒性。同时,还可以设置预设模型的图像编码器的参数与第二分类层的参数为可调参数,并通过目标任务关联的训练样本,对微调模型进行模型优化,以此提升微调模型的识别准确率。
此外,本申请实施例还可以提供一种图像分类处理方法,即,获得调整后的微调模型后,可以将其加载于需要进行分类检测的设备上,由设备获得与目标任务相关的待识别图像,输入至所述调整后的微调模型;获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述待识别图像的上下文分类结果以及所述待识别图像的类别分类结果。
本申请实施例的微调模型构建方案可以应用于不同技术领域,基于预设模型,微调得到该技术领域的不同下游任务对应的微调模型,用于实现下游任务的分类目的,并确保微调模型的鲁棒性以及识别准确率。其中,预设模型可以为在大规模宽泛的数据上进行训练得到的预训练大模型,在实际应用过程中,预训练大模型可以是不同技术领域通用的唯一模型,也可以是不同技术领域各自预训练得到的大模型,本申请实施例对此不作具体限定。
作为一种示例,本申请实施例的微调模型构建方法可以应用于安全风控领域,根据上述方法对预设模型进行微调处理,获得针对安全风控领域的下游任务进行分类处理的调整后的微调模型。
例如,安全风控领域的直播检测为例,低俗色情风险、不良行为风险、版权风险等;或者,安全风控领域的图片审核为例,低俗色情风险、暴恐风险等,每个风险都是一个下游任务,可以通过本申请实施例方案微调得到各下游任务对应的微调模型,进行风险类型检测。
具体地,模型构建过程可以体现为:获得安全风控领域的下游任务关联的多个预设风险文本提示信息,所述预设风险文本提示信息包括预设风险类别信息和预设上下文信息;通过预设模型的文本编码器对所述多个预设风险文本提示信息中的预设风险类别信息,进行编码处理,获得所述预设风险类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行风险类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的网络图像进行风险类别检测。
如此构建所得微调模型,可以继承预设模型对上下文信息的感知能力,提高安全风控领域进行风险类别检测的准确率。对应于此,本申请实施例还提供一种通过上述微调模型进行风险类别检测的客户端,可以部署于有安全风险监测需求的设备上,由设备对网络图像进行风险类别检测。
具体地,进行风险类别检测的图像分类处理方法可以包括:进行风险类别检测的设备可以加载按照上文介绍的方法构建的调整后的微调模型,将获得的待识别网络图像输入至模型,获得模型输出的识别结果信息,其中,识别结果信息包括网络图像的上下文分类结果以及网络图像的风险类别分类结果。
作为一种示例,模型输入的图像可以是直播过程中截取的网络图像,用于进行直播的风险类别检测;也可以是网页上爬取的网络图像,例如,进行商品对象展示的页面主图,或者商品详情页中的图像等等,用于进行图片审核任务的风险类别检测。
目前,主要先通过设备自动识别,筛选出风险性较高的网络图像,再通过人工复核的方式,实现网络图像的风险监测,考虑到现有微调模型的识别准确率较低,通常会设置一个较低的置信度阈值,用于筛选高风险网络图像(置信度高于阈值的图像,被视为高风险网络图像),致使人工复核的工作量较大。通过本申请实施例方案构建的微调模型,继承了预设模型对分布偏移的鲁棒性,风险识别准确率高,故可调高置信度阈值,将风险性高的网络图像提供给相关人员进行复核,有助于减少人工复核的工作量。
作为一种示例,本申请实施例的微调模型构建方法可以应用于智能驾驶领域,根据上述方法对预设模型进行微调处理,获得针对智能驾驶领域的下游任务进行分类处理的调整后的微调模型。
例如,智能驾驶领域的障碍物类型识别、信号灯类型识别等下游任务,均可通过本申请实施例方案微调得到各下游任务对应的微调模型,进行分类处理。
具体地,模型构建过程可以体现为:获得智能驾驶领域的下游任务关联的多个预设交通文本提示信息,所述预设交通文本提示信息包括与车辆通行相关的预设交通类别信息和预设上下文信息;通过预设模型的文本编码器对所述多个预设交通文本提示信息中的预设交通类别信息,进行编码处理,获得所述预设交通类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行交通类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的道路图像进行交通类别识别。
如此构建所得微调模型,可以继承预设模型对上下文信息的感知能力,提高智能驾驶领域针对与车辆通行相关的对象进行交通类别识别的准确率。对应于此,本申请实施例还提供一种通过上述微调模型进行交通类别检测的客户端,可以部署在车辆上,对道路图像进行交通类别检测。
具体地,进行交通类别检测的图像分类处理方法可以包括:进行交通类别检测的车辆可以加载按照上文介绍的方法构建的调整后的微调模型,将获得的车辆行驶过程中的道路图像输入至模型,获得模型输出的识别结果信息,其中,识别结果信息包括道路图像的上下文分类结果以及道路图像的交通类别分类结果。
作为一种示例,道路图像可以是车辆行驶过程中拍摄的障碍物图像,用于确定障碍物类型,协助车辆进行避障处理;也可以是车辆行驶过程中拍摄的交通信号灯图像,用于确定信号灯类型,协助车辆进行路口通行判定。
通过本申请实施例方案构建的微调模型,继承了预设模型对分布偏移的鲁棒性,针对与车辆通行相关的对象的交通类别识别的准确率高,车辆结合准确率高的识别结果进行智能驾驶判断时,有助于提高智能驾驶的安全性和可靠性。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
与前述方法实施例相对应,本申请实施例还提供了一种微调模型构建装置,参见图5,该装置可以包括:
文本提示信息获得单元201,用于获得目标任务关联的多个预设文本提示信息,所述预设文本提示信息包括预设类别信息和预设上下文信息;
上下文分类特征获得单元202,用于通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元203,用于构建所述目标任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元204,用于获得所述目标任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型。
所述装置还可以包括:类别分类特征获得单元,用于通过所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得所述预设上下文信息关联的类别分类特征,并在构建所述微调模型时,将所述类别分类特征作为所述第二分类层的初始化参数。
所述类别分类特征获得单元具体可以用于:将所述多个预设文本提示信息作为所述文本编码器的输入,由所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得各预设上下文信息的编码信息;
对各预设上下文信息的编码信息进行平均处理,获得所述类别分类特征。
所述上下文分类特征获得单元具体可以用于:将所述多个预设文本提示信息作为所述文本编码器的输入,由所述文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得各预设类别信息的编码信息;
对各预设类别信息的编码信息进行平均处理,获得所述上下文分类特征。
所述模型优化单元具体可以包括:
参数调整单元,用于获得当前参数调整次数,如果所述当前参数调整次数未达到预设次数,则调整所述微调模型中的所述可调参数,获得新的微调模型;
总损失获得单元,用于将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型的总损失,所述总损失包括表示上下文识别差异的第一损失以及表示类别识别差异的第二损失;
调整次数更新单元,用于更新所述当前参数调整次数,获得新的参数调整次数;
微调模型获得单元,用于在所述新的参数调整次数未达到所述预设次数时,继续调整所述新的微调模型中的可调参数,以降低所述总损失,直至调整次数达到所述预设次数,获得所述调整后的微调模型。
所述模型优化单元具体可以包括:
参数调整单元,用于调整所述微调模型中的所述可调参数,获得新的微调模型;
性能参数获得单元,用于将所述训练样本作为所述新的微调模型的输入,获得表示所述新的微调模型的优化性能的性能参数;
微调模型确定单元,用于在所述性能参数表示所述新的微调模型符合预设优化要求时,将所述新的微调模型确定为所述调整后的微调模型。
如果所述性能参数为所述新的微调模型的总损失,所述性能参数获得单元具体可以包括:总损失获得单元,用于将所述训练样本作为所述新的微调模型的输入,获得表示上下文识别差异的第一损失以及表示类别识别差异的第二损失;获得所述新的微调模型的总损失,所述总损失包括所述第一损失以及所述第二损失。
所述总损失获得单元具体可以用于:将所述训练样本作为所述预设模型的输入,获得基准上下文分布,以及将所述训练样本作为所述新的微调模型的输入,经所述第一分类层获得预测上下文分布;根据所述基准上下文分布与所述预测上下文分布,计算获得所述第一损失。
所述总损失获得单元具体可以用于:将所述训练样本作为所述新的微调模型的输入,经所述第二分类层获得预测类别分布;获得所述训练样本中样本图片对应的样本类别分布,并根据所述预测类别分布与所述样本类别分布,计算获得所述第二损失。
如果所述性能参数为所述新的微调模型的识别准确率,所述性能参数获得单元具体可以包括:准确率获得单元,用于将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型输出的预测文本提示信息,所述预测文本提示信息包括所述第一分类层输出的预测上下文信息以及所述第二分类层输出的预测类别信息;根据所述预测文本提示信息与所述训练样本中样本图片对应的预设文本提示信息,获得所述新的微调模型的识别准确率。
与前述应用于安全风控领域的微调模型构建方法实施例相对应,本申请实施例还提供了一种微调模型构建装置,用于构建安全风控领域的微调模型。该装置可以包括:
文本提示信息获得单元,用于获得安全风控领域的下游任务关联的多个预设风险文本提示信息,所述预设风险文本提示信息包括预设风险类别信息和预设上下文信息;
上下文分类特征获得单元,用于通过预设模型的文本编码器对所述多个预设风险文本提示信息中的预设风险类别信息,进行编码处理,获得所述预设风险类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元,用于构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行风险类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元,用于获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的网络图像进行风险类别检测。
与前述应用于智能驾驶领域的微调模型构建方法实施例相对应,本申请实施例还提供了一种微调模型构建装置,用于构建智能驾驶领域的微调模型。该装置可以包括:
文本提示信息获得单元,用于获得智能驾驶领域的下游任务关联的多个预设交通文本提示信息,所述预设交通文本提示信息包括与车辆通行相关的预设交通类别信息和预设上下文信息;
上下文分类特征获得单元,用于通过预设模型的文本编码器对所述多个预设交通文本提示信息中的预设交通类别信息,进行编码处理,获得所述预设交通类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元,用于构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行交通类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元,用于获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的道路图像进行交通类别识别。
与前述方法实施例相对应,本申请实施例还提供了一种图像分类处理装置,参见图6,该装置可以包括:
图像获得单元301,用于获得与目标任务相关的待识别图像,输入至根据上述方法构建的调整后的微调模型;
识别结果获得单元302,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述待识别图像的上下文分类结果以及所述待识别图像的类别分类结果。
与前述应用于安全风控领域的图像分类处理方法实施例相对应,本申请实施例还提供了一种图像分类处理装置,该装置可以包括:
图像获得单元,用于获得待识别网络图像,输入至根据上述方法构建的调整后的微调模型;
识别结果获得单元,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述网络图像的上下文分类结果以及所述网络图像的风险类别分类结果。
与前述应用于智能驾驶领域的图像分类处理方法实施例相对应,本申请实施例还提供了一种图像分类处理装置,该装置可以包括:
图像获得单元,用于获得车辆行驶过程中的道路图像,输入至根据上述方法构建的调整后的微调模型;
识别结果获得单元,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述道路图像的上下文分类结果以及所述道路图像的交通类别分类结果。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图7示例性的展示出了电子设备的架构,例如,设备1500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理,飞行器等。
参照图7,设备1500可以包括以下一个或多个组件:处理组件1502,存储器1504,电源组件1506,多媒体组件1508,音频组件1510,输入/输出(I/O)接口1512,传感器组件1514,以及通信组件1516。
处理组件1502通常控制设备1500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1502可以包括一个或多个处理器1520来执行指令,以完成本公开技术方案提供的方法的全部或部分步骤。此外,处理组件1502可以包括一个或多个模块,便于处理组件1502和其他组件之间的交互。例如,处理部件1502可以包括多媒体模块,以方便多媒体组件1508和处理组件1502之间的交互。
存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在设备1500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1506为设备1500的各种组件提供电力。电源组件1506可以包括电源管理系统,一个或多个电源,及其他与为设备1500生成、管理和分配电力相关联的组件。
多媒体组件1508包括在设备1500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1510被配置为输出和/或输入音频信号。例如,音频组件1510包括一个麦克风(MIC),当设备1500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中,音频组件1510还包括一个扬声器,用于输出音频信号。
I/O接口1512为处理组件1502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1514包括一个或多个传感器,用于为设备1500提供各个方面的状态评估。例如,传感器组件1514可以检测到设备1500的打开/关闭状态,组件的相对定位,例如所述组件为设备1500的显示器和小键盘,传感器组件1514还可以检测设备1500或设备1500一个组件的位置改变,用户与设备1500接触的存在或不存在,设备1500方位或加速/减速和设备1500的温度变化。传感器组件1514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1516被配置为便于设备1500和其他设备之间有线或无线方式的通信。设备1500可以接入基于通信标准的无线网络,如WiFi,或2G、3G、4G/LTE、5G等移动通信网络。在一个示例性实施例中,通信部件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1504,上述指令可由设备1500的处理器1520执行以完成本公开技术方案提供的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的微调模型构建方案、图像分类处理方案,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种微调模型构建方法,其特征在于,包括:
获得目标任务关联的多个预设文本提示信息,所述预设文本提示信息包括预设类别信息和预设上下文信息;
通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
构建所述目标任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
获得所述目标任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得所述预设上下文信息关联的类别分类特征,并在构建所述微调模型时,将所述类别分类特征作为所述第二分类层的初始化参数。
3.根据权利要求2所述的方法,其特征在于,所述通过所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得所述预设上下文信息关联的类别分类特征,包括:
将所述多个预设文本提示信息作为所述文本编码器的输入,由所述文本编码器对所述多个预设文本提示信息中的预设上下文信息,进行编码处理,获得各预设上下文信息的编码信息;
对各预设上下文信息的编码信息进行平均处理,获得所述类别分类特征。
4.根据权利要求1或2所述的方法,其特征在于,所述通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,包括:
将所述多个预设文本提示信息作为所述文本编码器的输入,由所述文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得各预设类别信息的编码信息;
对各预设类别信息的编码信息进行平均处理,获得所述上下文分类特征。
5.根据权利要求1所述的方法,其特征在于,所述通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,包括:
获得当前参数调整次数,如果所述当前参数调整次数未达到预设次数,则调整所述微调模型中的所述可调参数,获得新的微调模型;
将所述训练样本作为所述新的微调模型的输入,获得所述新的微调模型的总损失,所述总损失包括表示上下文识别差异的第一损失以及表示类别识别差异的第二损失;
更新所述当前参数调整次数,获得新的参数调整次数;
如果所述新的参数调整次数未达到所述预设次数,则继续调整所述新的微调模型中的可调参数,以降低所述总损失,直至调整次数达到所述预设次数,获得所述调整后的微调模型。
6.根据权利要求5所述的方法,其特征在于,所述获得表示上下文识别差异的第一损失,包括:
将所述训练样本作为所述预设模型的输入,获得基准上下文分布,以及将所述训练样本作为所述新的微调模型的输入,经所述第一分类层获得预测上下文分布;
根据所述基准上下文分布与所述预测上下文分布,计算获得所述第一损失。
7.根据权利要求5所述的方法,其特征在于,所述获得表示类别识别差异的第二损失,包括:
将所述训练样本作为所述新的微调模型的输入,经所述第二分类层获得预测类别分布;
获得所述训练样本中样本图片对应的样本类别分布,并根据所述预测类别分布与所述样本类别分布,计算获得所述第二损失。
8.一种微调模型构建方法,其特征在于,包括:
获得安全风控领域的下游任务关联的多个预设风险文本提示信息,所述预设风险文本提示信息包括预设风险类别信息和预设上下文信息;
通过预设模型的文本编码器对所述多个预设风险文本提示信息中的预设风险类别信息,进行编码处理,获得所述预设风险类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行风险类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的网络图像进行风险类别检测。
9.一种微调模型构建方法,其特征在于,包括:
获得智能驾驶领域的下游任务关联的多个预设交通文本提示信息,所述预设交通文本提示信息包括与车辆通行相关的预设交通类别信息和预设上下文信息;
通过预设模型的文本编码器对所述多个预设交通文本提示信息中的预设交通类别信息,进行编码处理,获得所述预设交通类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
构建所述下游任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行交通类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
获得所述下游任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型,用以针对与所述下游任务相关的道路图像进行交通类别识别。
10.一种图像分类处理方法,其特征在于,包括:
获得与目标任务相关的待识别图像,输入至根据权利要求1至7任一项所述的方法构建的调整后的微调模型;
获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述待识别图像的上下文分类结果以及所述待识别图像的类别分类结果。
11.一种图像分类处理方法,其特征在于,包括:
获得待识别网络图像,输入至根据权利要求8所述的方法构建的调整后的微调模型;
获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述网络图像的上下文分类结果以及所述网络图像的风险类别分类结果。
12.一种图像分类处理方法,其特征在于,包括:
获得车辆行驶过程中的道路图像,输入至根据权利要求9所述的方法构建的调整后的微调模型;
获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述道路图像的上下文分类结果以及所述道路图像的交通类别分类结果。
13.一种微调模型构建装置,其特征在于,包括:
文本提示信息获得单元,用于获得目标任务关联的多个预设文本提示信息,所述预设文本提示信息包括预设类别信息和预设上下文信息;
上下文分类特征获得单元,用于通过预设模型的文本编码器对所述多个预设文本提示信息中的预设类别信息,进行编码处理,获得所述预设类别信息关联的上下文分类特征,并将所述上下文分类特征作为初始参数创建用于进行上下文分类的第一分类层;
微调模型构建单元,用于构建所述目标任务对应的微调模型,所述微调模型包括所述预设模型、所述第一分类层和用于进行类别分类的第二分类层,其中,所述预设模型的输出分别作为所述第一分类层和所述第二分类层的输入,且所述预设模型的图像编码器的参数以及所述第二分类层的参数为可调参数;
模型优化单元,用于获得所述目标任务关联的训练样本,通过所述训练样本对所述微调模型进行模型优化,获得调整后的微调模型。
14.一种图像分类处理装置,其特征在于,包括:
图像获得单元,用于获得与目标任务相关的待识别图像,输入至根据权利要求1至7任一项所述的方法构建的调整后的微调模型;
识别结果获得单元,用于获得所述调整后的微调模型输出的识别结果信息,所述识别结果信息包括所述待识别图像的上下文分类结果以及所述待识别图像的类别分类结果。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至12任一项所述的方法的步骤。
CN202310096801.1A 2023-01-18 2023-01-18 微调模型构建、图像分类处理方法及装置、电子设备 Withdrawn CN116109866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310096801.1A CN116109866A (zh) 2023-01-18 2023-01-18 微调模型构建、图像分类处理方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310096801.1A CN116109866A (zh) 2023-01-18 2023-01-18 微调模型构建、图像分类处理方法及装置、电子设备

Publications (1)

Publication Number Publication Date
CN116109866A true CN116109866A (zh) 2023-05-12

Family

ID=86257741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310096801.1A Withdrawn CN116109866A (zh) 2023-01-18 2023-01-18 微调模型构建、图像分类处理方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN116109866A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824278A (zh) * 2023-08-29 2023-09-29 腾讯科技(深圳)有限公司 图像内容分析方法、装置、设备和介质
CN117076090A (zh) * 2023-10-10 2023-11-17 腾讯科技(深圳)有限公司 任务模型的构建方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742075A (zh) * 2022-04-01 2022-07-12 沈阳雅译网络技术有限公司 一种基于预训练的多模态机器翻译方法
CN115100472A (zh) * 2022-06-20 2022-09-23 北京达佳互联信息技术有限公司 展示对象识别模型的训练方法、装置和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742075A (zh) * 2022-04-01 2022-07-12 沈阳雅译网络技术有限公司 一种基于预训练的多模态机器翻译方法
CN115100472A (zh) * 2022-06-20 2022-09-23 北京达佳互联信息技术有限公司 展示对象识别模型的训练方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOFENG MAO等: "Context-Aware Robust Fine-Tuning", Retrieved from the Internet <URL:https://arxiv.org/abs/2211.16175> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824278A (zh) * 2023-08-29 2023-09-29 腾讯科技(深圳)有限公司 图像内容分析方法、装置、设备和介质
CN116824278B (zh) * 2023-08-29 2023-12-19 腾讯科技(深圳)有限公司 图像内容分析方法、装置、设备和介质
CN117076090A (zh) * 2023-10-10 2023-11-17 腾讯科技(深圳)有限公司 任务模型的构建方法、装置、设备及计算机可读存储介质
CN117076090B (zh) * 2023-10-10 2024-03-19 腾讯科技(深圳)有限公司 任务模型的构建方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108256555B (zh) 图像内容识别方法、装置及终端
CN116109866A (zh) 微调模型构建、图像分类处理方法及装置、电子设备
EP3855360A1 (en) Method and device for training image recognition model, and storage medium
CN110598504B (zh) 图像识别方法及装置、电子设备和存储介质
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
CN110619350B (zh) 图像检测方法、装置及存储介质
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111428032B (zh) 内容质量评价方法及装置、电子设备、存储介质
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN111210844B (zh) 语音情感识别模型的确定方法、装置、设备及存储介质
CN114266840A (zh) 图像处理方法、装置、电子设备及存储介质
CN111753895A (zh) 数据处理方法、装置及存储介质
CN110633470A (zh) 命名实体识别方法、装置及存储介质
CN110889489A (zh) 神经网络的训练方法、图像识别方法及其装置
CN111814538B (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN112150457A (zh) 视频检测方法、装置及计算机可读存储介质
CN111753917A (zh) 数据处理方法、装置及存储介质
CN112884040A (zh) 训练样本数据的优化方法、系统、存储介质及电子设备
CN111951787A (zh) 语音输出方法、装置、存储介质和电子设备
CN116912478A (zh) 目标检测模型构建、图像分类方法、电子设备
US20200293884A1 (en) Image processing method and device and terminal
CN112308588A (zh) 广告的投放方法、装置及存储介质
CN115953710A (zh) 一种行为识别方法、装置、电子设备及存储介质
CN115146633A (zh) 一种关键词识别方法、装置、电子设备及存储介质
CN109711386B (zh) 获取识别模型的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230512

WW01 Invention patent application withdrawn after publication