CN116561542A - 模型的优化训练系统、方法以及相关装置 - Google Patents

模型的优化训练系统、方法以及相关装置 Download PDF

Info

Publication number
CN116561542A
CN116561542A CN202310809243.9A CN202310809243A CN116561542A CN 116561542 A CN116561542 A CN 116561542A CN 202310809243 A CN202310809243 A CN 202310809243A CN 116561542 A CN116561542 A CN 116561542A
Authority
CN
China
Prior art keywords
data
model
training
large language
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310809243.9A
Other languages
English (en)
Other versions
CN116561542B (zh
Inventor
肖锡尧
郑叔亮
李文珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lingxin Intelligent Technology Co ltd
Original Assignee
Beijing Lingxin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lingxin Intelligent Technology Co ltd filed Critical Beijing Lingxin Intelligent Technology Co ltd
Priority to CN202310809243.9A priority Critical patent/CN116561542B/zh
Publication of CN116561542A publication Critical patent/CN116561542A/zh
Application granted granted Critical
Publication of CN116561542B publication Critical patent/CN116561542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种模型的优化训练系统、方法以及相关装置。该系统中,数据采集模块基于数据采集配置获取多模态数据;数据评估模块基于为不同模态数据匹配的模型评估标准配置,确定多模态数据与大语言模型之间的匹配程度得到数据质量评估报告;模型训练模块根据数据质量评估报告,调整大语言模型的模型结构和/或训练超参数,生成模型训练需求信息;模型训练反馈模块基于模型训练需求信息,在数据采集配置中添加针对多模态数据的采集调整方式。该系统不仅以多模态数据替代单一的语言文本数据,突破传统模型的性能限制,还建立模型训练需求与训练数据采集方式之间的动态反馈,提升训练数据与模型训练需求的匹配程度,优化模型训练效果。

Description

模型的优化训练系统、方法以及相关装置
技术领域
本申请实施例涉及计算机技术领域,更具体地涉及一种模型的优化训练系统、方法以及相关装置。
背景技术
随着人工智能技术的发展,机器学习模型在自然语言处理领域发挥着越来越重要的作用。大语言模型,作为一种使用海量文本数据训练的深度学习模型,可以基于语言文本学习语言规则和知识,生成自然语言文本或理解语言文本的含义,具有强大的语言理解和生成能力。
然而,相关技术中,大语言模型主要依靠文本数据进行训练,模型产生的内容往往基于对文本数据的理解而产生,导致模型的理解能力和内容生成能力存在一定局限,难以突破现有瓶颈。
此外,训练数据收集与模型训练通常是割裂的两个独立过程。相关技术中,数据收集在模型训练之前完成,而模型训练则基于已收集的数据进行。这种数据收集方式,使得事先采集的训练数据往往难以与模型之间完全适配,影响模型训练效果。
综上,需要设计一种全新的技术方案,用于突破大语言模型的局限性,并解决训练数据与模型之间因不适配而存在的训练数据失真问题,进一步提升大语言模型的性能。
发明内容
本申请实施例提供了一种改进的模型的优化训练系统、方法以及相关装置,用以通过多模态数据替代单一的语言文本数据,实现大语言模型的性能突破。并在多模态数据和模型训练需求之间建立动态反馈方式,使多模态数据更适用于模型训练过程,进一步优化大语言模型的训练效果,提高大语言模型的性能。
本申请的实施例期望提供一种模型的优化训练系统、方法以及相关装置。
在本申请的第一方面中,提供了一种模型的优化训练系统,包括:
数据采集模块,用于基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
数据评估模块,用于基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;将所述数据质量评估报告发送至模型训练模块;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;
模型训练模块,用于根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息,并发送给模型训练反馈模块;
模型训练反馈模块,用于基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,并将新增的数据采集配置反馈给所述数据采集模块。
在本申请的第二方面中,提供了一种模型的优化训练方法,包括:
基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;
根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;
生成模型训练需求信息;
基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。
在本申请的第三方面中,提供了一种电子设备,所述电子设备包括存储器和一个或多个处理器。其中,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述计算机指令被所述处理器执行时,使得所述电子设备实现如第一方面中任一项所述的模型优化训练系统。
在本申请的第四方面中,提供了一种计算机可读存储介质,包括计算机程序。当所述计算机程序在计算机上运行时,使得所述计算机实现如第一方面中任一项所述的模型优化训练系统。
本申请实施例提供的技术方案中,提供了一种模型的优化训练系统。在该系统中,数据采集模块基于数据采集配置获取多模态数据。数据评估模块基于为不同模态数据匹配的模型评估标准配置,确定多模态数据与大语言模型之间的匹配程度得到数据质量评估报告,发送至模型训练模块。进而,模型训练模块根据数据质量评估报告,调整大语言模型的模型结构和/或训练超参数,生成模型训练需求信息,并反馈给模型训练反馈模块。进而,模型训练反馈模块基于模型训练需求信息,在数据采集配置中添加针对多模态数据的采集调整方式,并将新增的数据采集配置反馈给数据采集模块。
本申请实施例中,一方面,通过多模态数据替代单一的语言文本数据,使得大语言模型可以从更多形态、更多元的多模态数据中学习表达规则以及知识,突破原有训练方式的限制,实现大语言模型的性能优化。另一方面,通过数据采集模块、数据评估模块、模型训练模块、模型训练模块,这几个模块之间的数据流,在多模态数据和模型训练需求之间建立了一种全新的动态反馈方式,使模型训练需求能够动态反馈到多模态数据的采集方式上,而多模态数据采集之后又会应用到模型训练过程中,通过多方的互动反馈实现了大语言模型以及数据采集方式的优化迭代,提升多模态数据与模型之间的匹配程度,进一步优化大语言模型的训练效果,提高大语言模型的性能。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
图1示意性地示出了根据本申请中预测模型训练系统的一种结构示意图;
图2示意性地示出了根据本申请中预测模型训练系统的一种原理示意图;
图3示意性地示出了根据本申请中模型的优化训练方法的一种流程示意图;
图4示意性地示出了根据本申请中模型的优化训练装置的一种结构示意图;
图5示意性地示出了根据本申请中计算设备的一种结构示意图;
图6示意性地示出了根据本申请中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、系统或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
随着人工智能技术的发展,特别是深度学习和神经网络技术的应用,大语言模型在自然语言处理领域发挥着越来越重要的作用。
大语言模型,作为一种使用海量文本数据训练的深度学习模型,可以基于语言文本学习语言规则和知识,生成自然语言文本或理解语言文本的含义,具有强大的语言理解和生成能力。
然而,相关技术中,大语言模型主要依靠文本数据进行训练,模型产生的内容往往基于对文本数据的理解而产生,导致模型的理解能力和内容生成能力存在一定局限,难以突破现有瓶颈。
此外,训练数据收集与模型训练通常是割裂的两个独立过程。相关技术中,数据收集在模型训练之前完成,而模型训练则基于已收集的数据进行。这种数据收集方式,使得事先采集的训练数据往往难以与模型之间完全适配,影响模型训练效果。虽然,通过现有的后处理流程,如数据增强、数据清洗等技术,能在一定程度上提升训练数据与模型之间的匹配程度,但由于训练数据的数量庞大,因而改善效果较弱。
综上,需要设计一种全新的技术方案,用于突破大语言模型的局限性,并解决训练数据与模型之间因不适配而存在的训练数据失真问题,进一步提升大语言模型的性能。
为了克服上述技术问题,根据本申请的实施例,提出了一种模型的优化训练系统、方法以及相关装置。
申请人发现,相较于相关技术中采用单一形式的语言文本训练大语言模型带来的局限性,以及数据采集与模型训练相互独立执行的方案,本申请实施例的技术方案,提供了一种模型的优化训练系统、方法以及相关装置。在上述优化训练系统中,数据采集模块基于数据采集配置获取多模态数据。数据评估模块基于为不同模态数据匹配的模型评估标准配置,确定多模态数据与大语言模型之间的匹配程度得到数据质量评估报告,发送至模型训练模块。进而,模型训练模块根据数据质量评估报告,调整大语言模型的模型结构和/或训练超参数,生成模型训练需求信息,并反馈给模型训练反馈模块。进而,模型训练反馈模块基于模型训练需求信息,在数据采集配置中添加针对多模态数据的采集调整方式,并将新增的数据采集配置反馈给数据采集模块。
本申请实施例的技术方案,一方面,通过多模态数据替代相关技术中单一形式的语言文本数据,使得大语言模型可以从更多形态、更多元的多模态数据中学习表达规则以及知识,突破原有训练方式以及模型性能的限制,为大语言模型实现进一步地性能优化。另一方面,相较于相关技术中数据采集与模型训练相互独立执行的方案,通过数据采集模块、数据评估模块、模型训练模块、模型训练模块,在多模态数据和模型训练需求之间建立了一种全新的动态反馈方式,使模型训练需求能够动态反馈到多模态数据的采集方式上,而多模态数据采集之后又会应用到模型训练过程中,通过多方的互动反馈实现了大语言模型以及数据采集方式的优化迭代,提升了多模态数据与模型之间的匹配程度,解决了训练数据与模型之间因不适配而存在的训练数据失真问题,进一步优化大语言模型的训练效果,提高大语言模型的性能。
作为一种可选的实施方式,模型的优化训练装置的数量是一个,也可以是多个。模型的优化训练装置可以实现为部署在人机对话系统中,也可以是以其他形式部署在各种心理测试或性格测试场景下使用到的应用程序中,本申请不作限制。例如,模型的优化训练装置可以设置在各种设备(如终端设备、服务器)的处理器件中。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面结合具体应用场景,参考图1来描述根据本申请示例性实施例的用于大语言模型的优化训练。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施例在此方面不受任何限制。相反,本申请的实施例可以应用于适用的任何场景。
下面结合以下实施例对模型的优化训练系统的交互过程进行说明。图1为本发明实施例提供的一种模型的优化训练系统的交互流程图。该系统至少包括以下模块:数据采集模块、数据评估模块、模型训练模块、模型训练反馈模块。上述模块的交互过程如图1所示,具体为:
相关技术中,由于数据收集阶段和模型训练过程相互独立,因此数据收集阶段通常不会考虑训练数据是否适用于具体模型,使得事先采集的训练数据往往难以与模型之间完全适配,影响模型训练效果。
针对这一问题,本申请实施例中提供了一种数据收集模块和数据评估模块。前者采用定制化的数据采集配置对多模态数据进行采集工作,从而在数据收集阶段提高数据与模型之间的匹配程度;后者则用于对采集到的数据进行评估,并以评估结果反馈到模型训练过程中,使得评估出来的多模态数据的实际特征能够应用于对模型训练过程的调整、优化,促使模型性能得到提升。具体参见对以下两个模块的介绍:
数据采集模块,主要用于基于数据采集配置获取多模态数据。
为了解决上述匹配程度较低的问题,以及,改善相关技术中因使用单一形式的文本数据而造成的模型性能局限,本申请实施例中,增加了一种数据采集模块,用以定制化地采集多模态数据。
示例性地,本申请实施例中的多模态数据,包括但不限于:文本数据、图像数据、音频数据、生物数据。所述多模态数据可以是上述至少两种类型数据的组合,例如,所述多模态数据可以是文本数据以及图像数据,或者所述多模态数据可以是文本数据、图像数据、生物数据。其中,文本数据包括但不限于:纯文本、富文本。纯文本比如是文章、书籍,等等。富文本中包含文字、图片、表格等多种格式属性的内容。在实际应用中,该富文本比如可以是增值税发票、保单等各种单据,当然,不以此为限。图像数据包括但不限于:图片、视频。根据采集方式,图像数据可以是摄像头等图像采集模块获取的实时图像,也可以是从网络或图像库中获取的离线图像。或者,根据训练用途,可以是用于目标追踪的训练素材,也可以是用于图像检索的训练素材,还可以是用于其他用途选取的训练素材。或者,根据图像中包含的内容进行分类。音频数据可以是单独输入的音频文件,也可以是从视频中提取的音频,还可以是通过其他方式获取的。
实际应用中,生物数据用于表征模型识别对象的生理变化特征。通过生物数据能够用于模型提取识别对象的生物数据特征,进而,基于生物数据分析识别对象(如用户、监测对象等)的真实意图,触发对应的处理流程。实际应用中,生物数据包括但不限于:心率、心率变异性、呼吸模式、血氧、皮肤电反应(Galvanic Skin Response,GSR)、皮肤电活性(Electrodermal Activity,EDA)、皮肤电导(Skin Conductance,SC)、脑电波活动、面部肌电图、指纹、脉搏、眼动、交感神经引起的其他生理反应,等等。进一步可选地,通过心率、心率变异性、呼吸模式、血氧等实时生物数据,可以判断出用户实际的心理状态,如兴奋、激动、紧张、害怕、悲伤等状态。进而,将上述生物数据与其关联的人机对话数据(如文本、视频、音频中的至少一个)输入到融合特征提取模型中,提取出对应的生理变化特征、以及生物数据与人机对话数据之间的关联特征。进而,将上述生理变化特征以及关联特征应用到大语言模型的训练过程中,并通过数据评估模块对相应的模型训练效果进行评估,得到多模态数据的关联特征评估报告,从而将关联特征评估报告经由模型训练反馈模块反馈到数据采集配置中,动态调整多模态数据的采集以及关联性标注方式。
进一步可选地,所述多模态数据的采集过程中,可以标注不同模态数据之间的关联关系。比如,假设多模态数据所覆盖的类型包括文本数据、图像数据、生物数据,假设多模态数据为人机对话系统中的用户数据,那么,所述多模态数据可以是用户在交互过程中输入的文字信息(即文本数据)、终端摄像头采集到的视频(即图像数据)、终端的心率采集模块收集到的心率数据。上述文字信息、视频、心率数据,可以标注采集来源(如用户标识)。若来自于同一用户,则进一步根据对话所处时段关联到与该用户关联的人机对话数据集中,并标注各个模态数据的采集时间,从而建立不同模态数据之间的关联性,为分析该用户的真实意图以及交互信息提供数据基础。
数据评估模块,用于基于为不同模态训练数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;将所述数据质量评估报告发送至模型训练模块。
本申请实施例中可选地,还提供了一种模型评估标准配置模块,用于制定模型评估的标准和方法。比如,针对不同模态的训练数据需要选择哪些评估指标、验证集构建方式,等等。示例性地,模型评估标准可以从以下方面出发来制定,即:模型评估指标的准确性(accuracy)、F1分数(F1 Score)、验证集或测试集的构建方式、大语言模型各类任务的执行效果、生成效果、分类效果。F1 Score是统计学中用来衡量二分类模型精确度的一种指标。通过这一模块,可以对模型评估标准配置进行定义以及动态调整,从而判断多模态数据与模型训练需求之间的匹配程度,实现对多模态数据在大语言模型上的表现评估。
作为一个可选实施例,数据评估模块基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告时,具体用于:
获取待评估的训练数据对应的目标模型评估标准配置;基于目标模型评估标准配置,将多模态数据构建为验证集;计算多模态数据在验证集中多个评估标准下的评估结果,以得到数据质量评估报告。
本申请实施例中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果。可选地,针对于多模态数据的特点,可以从以下至少一个方面对所述评估结果进行评估,具体为:所述多模态数据的数据集总量、所述多模态数据之间的关联程度、所述多模态数据之间的数据量比例与模型需求之间的匹配程度、所述多模态数据的数据质量、所述多模态数据的分类准确性、所述多模态数据的类别分布、不同数据特征在所述多模态数据中的覆盖程度、数据集总量与模型需求之间的匹配程度、不同模态训练数据之间的关联程度。
进一步可选地,还可以结合多个评估结果综合判断所述多模态数据与大语言模型之间的匹配程度。实际应用中,例如,采用所述多模态数据的类别分布、以及特征覆盖率(即不同数据特征在所述多模态数据中的覆盖程度),可以进一步评估出所述多模态数据与大语言模型之间的匹配程度。例如,对比各种模态之间的关联程度,评估大语言模型对多模态数据的融合性能。例如,评估各个模态数据的数据质量以及相关指标,从而判断大语言模型对各个模态数据的学习能力,尤其是,对非语言本文数据的学习能力。例如,评估多模态数据的清洗程度(如异常值比例、噪声水平等),从而判断大语言模型的后处理效果。
通过数据评估模块,将多模态数据按照对应的模型评估标准配置进行质量评估,得到用于构成数据质量评估报告的评估结果。这样,数据质量评估报告可以用于衡量训练数据在模型训练过程中的训练效果,从而通过该数据质量评估报告能够实时反馈训练效果,以便其他模块实时调整相关配置,进一步辅助模型提升自身性能。
相关技术中,在模型训练过程中,模型结构和训练超参数通常是固定设置的,这种设置方式会限制模型对训练数据的适应性以及模型性能的优化。针对这一问题,本申请增加了一个模型训练模块,用于根据输入的训练数据对模型的模型结构以及训练超参数进行动态调整。
模型训练模块,用于根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息,并发送给模型训练反馈模块。
本申请实施例中,所要调整的模型结构包括但不限于:神经网络的层数、每层中的神经元数、卷积核规模、卷积核数量、池化方式。所要调整的训练超参数包括但不限于:学习率、优化器选择、单次训练数据量(batch size)、迭代次数。其中,batch size表示单次传递给模型用以训练的数据个数。batch size与梯度下降方向的准确性成正比,即batch size越大,收敛速度越快,迭代次数少。
相关技术中,这些模型结构和训练超参数通常是在训练开始前由人工进行固定设置,并在训练过程中维持不变。
而本申请中,为了提升多模态数据与模型之间的匹配程度,会根据数据评估模块产生的数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数。这样,能够根据多模态数据的实际变化情况,动态调整大语言模型的模型结构和/或训练超参数,增强多模态数据与大语言模型之间的匹配程度,提升大语言模型的训练效果,辅助改善大语言模型的性能表现。
作为一个可选实施例,模型训练模块,根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数时,具体用于实现以下至少一个调整方式:
调整方式一:提升所述大语言模型的抗干扰能力和模型容忍度。
由于多模态数据涉及到的数据类型较多,且数据融合难度较大,因而,可能会存在多模态数据的数据质量不佳,异常值的比例较高,或者噪声水平过高的现象。
针对上述现象,需要及时调整模型结构,以提升模型对多模态数据的适应性,避免因数据质量不佳而导致的训练效果下降。
具体来说,作为一个可选实施例,若所述多模态数据的数据质量满足预设数据质量异常条件,则说明多模态数据的数据质量不佳,此情况下,需要调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度。例如,增加数据清洗模块,用于去除多模态数据中的噪声和异常值,提升多模态数据的数据质量。
调整方式二:增加或减少对应类别的训练样本权重。
由于多模态数据采集过程中,可能会对模型关注的类别不敏感,因此在训练阶段可能会发现缺少某一类别的训练数据,或者某一类别训练数据过多,无论何种情况都有可能会影响模型训练效果。
此情况下,作为一个可选实施例,可以基于所述多模态数据之间的数据量比例与模型需求之间的匹配程度,增加或减少对应类别的训练样本权重。
进一步可选地,监测大语言模型在训练过程中对各类数据的关注度。进而,依据关注度验证多模态数据中各类数据所占比例,分析所述多模态数据之间的数据量比例与模型需求之间的匹配程度。若某一类别数据所占比例与关注度不匹配,则基于某一类别数据所占比例与关注度之间的差异程度,调整对应类别的训练样本权重。
调整方式三:平衡多模态数据的数据集总量与模型规模之间的差异。
对于数据集与模型所需参数规模之间不匹配的问题,作为一个可选实施例,基于数据集总量与模型需求之间的匹配程度,增加或减少所述多模态数据的数据集总量,或者调整所述大语言模型的参数规模。
另一实施例中,若数据集总量小于模型需求的数据量,则说明可用于训练的数据量不足,可以调整所述大语言模型的训练超参数,以匹配所述大语言模型的模型需求。例如,增加大语言模型的训练数据集迭代次数,以适应规模较小的训练数据集。例如,也可以增加所述大语言模型的模型训练轮数,以匹配所述大语言模型的模型需求。
调整方式四:增加用于处理特定视角范围的卷积层。
若所述多模态数据的类别分布与所述大语言模型的模型需求不匹配,则说明可能缺少对某一类别训练数据的处理流程,此情况下,修改所述大语言模型的卷积层参数,以增加用于处理特定视角范围的卷积层。例如,增加用于人脸识别的卷积层。或者,增加用于识别某一类型语义特征的卷积层。
或者,另一情况下,若不同数据特征在所述多模态数据中的覆盖程度与所述大语言模型的模型需求不匹配,则同样也说明可能缺少对某一类别训练数据的处理流程,此情况下,同样也可以修改所述大语言模型的卷积层参数,以调整用于处理特定视角范围的卷积层的数量。
通过上述几种调整方式,可以进一步增强多模态数据与大语言模型之间的匹配程度,提升大语言模型的训练效果,辅助改善大语言模型的性能表现。上述调整方式仅为示例,本申请并不限定其他调整方式。
除了调整完大语言模型的模型结构和/或训练超参数之外,模型训练模块还需要将模型训练需求动态反馈到数据采集阶段,以便后续基于模型训练需求信息来制定多模态数据的数据采集方式。
具体来说,一方面,模型训练模块分析大语言模型在当前数据集上的训练效果,判断大语言模型关注且匹配数据不足的区域,生成对应的数据采集需求。另一方面,模型训练模块还可以判断在模型训练过程中数据量或覆盖程度不足的部分,进而生成对增强数据的需求。例如,对用于目标检测的模型,可以判断到任一视角范围的数据量不足。
作为一个可选实施例,模型训练模块生成模型训练需求信息时,具体用于实现以下至少一个需求生成方式:
需求生成方式一:基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据量不足或数据比例低于阈值而导致的模型训练效果不佳;若是,则生成数据采集需求。例如,缺少对人脸识别任务的训练数据时,可产生对人脸数据的采集需求。
需求生成方式二:基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据质量满足预设数据质量异常条件而导致的模型训练效果不佳;若是,则生成数据清洗需求。
需求生成方式三:判断所述大语言模型训练过程中是否存在某一类别的训练数据的数据量或覆盖程度不足;若是,则生成数据增强需求。例如,缺少对人脸识别任务的训练数据时,可产生对人脸数据的增强需求。例如,对于特定词汇的语料,可产生对特定词汇的增强需求。
需求生成方式四:判断所述多模态数据的数据集总量低于所述大语言模型的网络参数需求量;若是,则生成数据集规模调整需求。
需求生成方式五:识别场景描述或者特定数据描述,生成包含数据特征条件的数据采集需求。例如,根据实际应用场景的描述或数据特征需求,调整针对特定条件下的数据采集需求。
需求生成方式六:基于所述大语言模型的模型结构变化情况,生成匹配调整后结构的数据采集需求。例如,可以根据卷积层的kernel size参数的变化情况,匹配特定数据的采集需求。
需求生成方式七:基于所述大语言模型的训练超参数的变化情况,生成匹配变化后参数的数据采集需求。例如,调整大语言模型的学习率下降的幅度,放缓来应对训练数据不足。例如,模型的网络参数不足,可以产生数据集采集量的扩充需求。
进而,模型训练模块执行完上述任一个需求生成方式之后,将上述至少一个需求组合为所述模型训练需求信息。
模型训练反馈模块,用于基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,并将新增的数据采集配置反馈给所述数据采集模块。
作为一个可选实施例,模型训练反馈模块,基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式时,具体用于:
确定所述模型训练需求信息中多个模型训练需求的执行优先级;基于所述多个模型训练需求的执行优先级,确定所述多模态数据的采集顺序以及数据量比例;基于所述多个模型训练需求,调整所述多模态数据对应的数据集参数,所述数据集参数至少包括:数据集规模、所需采集的数据类别、数据后处理方式。
实际应用中,模型训练反馈模块,在自动化评估指标表现不佳的情况下,还可以通过分析模型训练过程中表现不佳的具体示例来获取大语言模型的训练需求。例如,大语言模型对某一类任务指令的反馈信息质量不佳。比如,人脸提取任务提取到的人脸图像质量不佳,如存在缺失或提取对象错误,那么,对应的多模态数据集中可能缺乏人脸图像数据。基于此,模型训练反馈模块可以反馈此类人脸图像数据的采集数量增加需求。
在一些实施例中,模型训练反馈模块也可以直接反馈对某类别数据的关注度变化,例如,大语言模型一开始更加关注人机对话回复中某个特定领域的数据,可以提高对应领域数据的采集需求。
此外,在一些实施例中,模型训练反馈模块还可以获取对类别分布的需求(某一类数据需求提高)、对数据特征(需要更多包含某特征的回复文本)的采集需求、对场景描述(需要更多语言特征的文本数据)的采集需求,等等。
本申请实施例中,一方面,通过多模态数据替代单一的语言文本数据,使得大语言模型可以从更多形态、更多元的多模态数据中学习表达规则以及知识,突破原有训练方式的限制,实现大语言模型的性能优化。另一方面,通过数据采集模块、数据评估模块、模型训练模块、模型训练模块,这几个模块之间的数据流,在多模态数据和模型训练需求之间建立了一种全新的动态反馈方式,使模型训练需求能够动态反馈到多模态数据的采集方式上,而多模态数据采集之后又会应用到模型训练过程中,通过多方的互动反馈实现了大语言模型以及数据采集方式的优化迭代,提升了多模态数据与模型之间的匹配程度,进一步优化大语言模型的训练效果,提高大语言模型的性能。
在上述或下述实施例中,为进一步提高多模态数据与模型训练需求之间的匹配程度,还会对数据的后处理流程进行进一步优化。
具体来说,还提供了一种后台处理模块,用于对所述多模态数据进行后处理,得到所述后处理数据。
所述模型训练模块,还用于分析所述后处理数据的数据质量以及对应的模型输出效果;基于分析结果调整所述大语言模型的模型结构和/或训练超参数。其中,所述后处理包括清洗处理、增强处理、关联处理、标注处理;所述后处理数据包括清洗数据、增强数据、关联数据、标注数据。
作为一个可选实施例,针对于多模态数据的特点,所述模型训练模块进一步根据后台处理模块输出的后处理数据,调整所述大语言模型的模型结构和/或训练超参数时,还用于实现以下至少一个调整方式:
调整方式五:基于清洗处理后得到的清洗数据,提升所述大语言模型的抗干扰能力和模型容忍度。
具体来说,基于所述清洗数据分析所述多模态数据的数据质量。进而,基于所述清洗数据中的噪声水平满足预设噪声异常条件和/或异常值高于设定阈值,则说明多模态数据的数据质量不佳,此情况下,同样也可以调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度。
调整方式六:基于增强处理后得到的增强数据,调整所述大语言模型的模型训练轮数以及训练数据集迭代次数。
具体来说,基于所述增强数据中不同模态训练数据的数据量变化情况,调整所述大语言模型的模型训练轮数以及训练数据集迭代次数,以匹配所述大语言模型的训练需求。
调整方式七:基于关联处理后的关联数据,调整模型结构。
具体来说,基于所述关联数据所表征的不同模态训练数据之间的匹配程度,此情况下说明不同模态数据与模型需求之间的匹配度不高,在所述大语言模型中增加或调整用于融合不同模态信息的融合模块,以提高所述大语言模型的多模态处理能力。
调整方式八:基于标注处理后得到的标注数据,提高所述大语言模型对该类别的关注度。
基于所述标注数据中不同模态训练数据的数据量比例变化情况,确定数据量低于实际需求的训练数据对应的类别,并在所述大语言模型中增加该类别对应的样本权重,以提高所述大语言模型对该类别的关注度。
调整方式九:基于标注处理后得到的标注数据,提高模型对标注数据质量的容忍度。
基于所述标注数据中标注准确率,确定误标注数据,并在所述大语言模型中添加对所述误标注数据的容忍机制,或者在损失函数中增加对所述误标注数据的惩罚项。
本申请实施例中,为进一步适应多模态数据的特点,还可以基于对后处理数据的分析判断,在后处理效果以及后处理数据自身特点的基础上,进一步对数据采集以及模型训练进行优化迭代,从而促使训练数据与模型训练需求之间的匹配程度得到进一步提升,优化大语言模型的训练效果,提高大语言模型的性能。
在上述或下述实施例中,为进一步提高多模态数据与模型训练需求之间的匹配程度,还会对数据评估流程进行进一步优化。
具体来说,本申请实施例中可选地,还提供了一种质量评估模块,用于评估多模态数据的综合质量;接着,基于数据综合质量的评估结果,优化多模态数据的数据采集配置。
示例性地,质量评估模块具体涉及的评估方向包括但不限于以下几个方面:
第一方面,对数据集规模的评估。
评估多模态数据集总量是否达到模型训练需求中的最小规模需求。比如,模型训练要求数据集总量至少达到m个,那么,需要判断多模态数据集的总量是否达到m个。
第二方面,对数据集中类别分布情况的评估。
评估数据集中不同类别之间的数据量比例是否满足模型所需的关注点。例如,人脸数据量是否达到模型训练要求的最低标准,或者人脸数据相关的任务训练效果是否达标,若人脸数据量未得到最低标准,或者训练效果不达标,那么,可能存在人脸数据量过低的现象,影响人脸检测任务、人脸提取任务等相关任务的训练效果。
第三方面,对数据特征的评估。
评估特定条件下的数据特征的丰富度是否满足模型泛化需求。例如,判断数据集包含的场景、光照、天气条件等特征的丰富度,是否满足模型泛化需求。以上数据特征可根据实际应用需求调整,本申请并不限定。
第四方面,对数据质量的评估。
评估数据集中噪声、异常值所占的比例,判断多模态数据的整体质量对模型产生的干扰是否满足预设标准。若多模态数据集中噪声、异常值所占的比例高于预设门限,则需要优化数据质量,或对模型的抗干扰能力提出改善。
第五方面,对数据标注质量的评估。
评估数据标注的准确率和覆盖度,判断数据集标注质量是否满足模型需求。此处可针对人工标注和自动化标注,并不做限定。
上述几个方面介绍的评估标准,可以采用以下流程实现,如图2所示,具体步骤包括:
S201,生成评估标准。根据模型训练需求,获取大语言模型可能关注的最低数据量、类别比例分布、所需特征覆盖率以及可容忍的噪声水平等指标。并基于上述指标分别制定对应的评估标准。
S202,对数据集进行抽样,得到抽样评估结果。评估抽取出来的样本,以判断上述评估标准的准确性和评估方法的有效性,并在必要时进行对评估标准进行调整。可选地,此处抽样评估可以采用人工方式,或者采用专门的评估模型进行评估。
S203,利用评估标准对数据集进行整体评估,得到自动化评估结果。可选地,使用自动化方法对多模态数据对应的整体数据集进行评估,以得到各个类别的数据量、特征覆盖情况、噪声水平、标注准确率等统计结果。此处自动化方法与前文介绍的评估过程类似,此处不再展开。
S204,将抽样评估结果与自动化评估结果进行比对,判断自动化评估方法的准确性。进一步地,基于比对结果,对自动化评估方法进行优化。
S205,验证比对结果之后,根据各项评估结果,生成质量评估报告。该报告能够反映不同标准下的数据集质量情况,为多模态数据的采集配置优化提供参考。
S206,将质量评估报告反馈给数据采集模块和模型训练需求反馈模块。进而,对数据采集以及模型训练进行进一步优化,例如,增加某一类别数据的数据量,或改进数据标注质量。
本申请实施例中,通过质量评估模块生成质量评估报告,更具针对性地提出针对数据采集以及模型训练的优化方案,进一步对数据采集以及模型训练进行优化迭代,从而促使训练数据与模型训练需求之间的匹配程度得到进一步提升,优化大语言模型的训练效果,提高大语言模型的性能。
在介绍了本申请实施例的系统之后,接下来,参考图3对本申请实施例的模型的优化训练方法进行介绍。
本申请提供了一种模型的优化训练方法,如图3所示,该方法包括:
S301,基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
S302,基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;
S303,根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;
S304,生成模型训练需求信息;
S305,基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。
一些实施方式中,该方法还包括:对所述多模态数据进行后处理,得到所述后处理数据;分析所述后处理数据的数据质量以及对应的模型输出效果;基于分析结果调整所述大语言模型的模型结构和/或训练超参数。
其中,所述后处理包括清洗处理、增强处理、关联处理、标注处理;所述后处理数据包括清洗数据、增强数据、关联数据、标注数据。
一些实施方式中,根据后处理数据,调整所述大语言模型的模型结构和/或训练超参数,具体包括:
基于所述清洗数据中的噪声水平满足预设噪声异常条件和/或异常值高于设定阈值,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或
基于所述增强数据中不同模态训练数据的数据量变化情况,调整所述大语言模型的模型训练轮数以及训练数据集迭代次数,以匹配所述大语言模型的训练需求;和/或
基于所述关联数据所表征的不同模态训练数据之间的匹配程度,在所述大语言模型中增加或调整用于融合不同模态信息的融合模块,以提高所述大语言模型的多模态处理能力;和/或
基于所述标注数据中不同模态训练数据的数据量比例变化情况,确定数据量低于实际需求的训练数据对应的类别,并在所述大语言模型中增加该类别对应的样本权重,以提高所述大语言模型对该类别的关注度;和/或
基于所述标注数据中标注准确率,确定误标注数据,并在所述大语言模型中添加对所述误标注数据的容忍机制,或者在损失函数中增加对所述误标注数据的惩罚项。
一些实施方式中,基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告,具体包括:
获取待评估的训练数据对应的目标模型评估标准配置;
基于所述目标模型评估标准配置,将所述多模态数据构建为验证集;
计算所述多模态数据在验证集中多个评估标准下的评估结果,以得到所述数据质量评估报告;
所述评估结果包括以下至少一个:所述多模态数据的数据集总量、所述多模态数据之间的关联程度、所述多模态数据之间的数据量比例与模型需求之间的匹配程度、所述多模态数据的数据质量、所述多模态数据的分类准确性、所述多模态数据的类别分布、不同数据特征在所述多模态数据中的覆盖程度、数据集总量与模型需求之间的匹配程度、不同模态训练数据之间的关联程度。
一些实施方式中,根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数,具体包括:
若所述多模态数据的数据质量满足预设数据质量异常条件,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或
基于所述多模态数据之间的数据量比例与模型需求之间的匹配程度,增加或减少对应类别的训练样本权重;和/或
基于数据集总量与模型需求之间的匹配程度,调整所述大语言模型的参数规模;和/或
若数据集总量小于模型需求的数据量,则调整所述大语言模型的训练超参数,以匹配所述大语言模型的模型需求;和/或
若所述多模态数据的类别分布与所述大语言模型的模型需求不匹配,则修改所述大语言模型的卷积层参数,以增加用于处理特定视角范围的卷积层;和/或
若不同数据特征在所述多模态数据中的覆盖程度与所述大语言模型的模型需求不匹配,则修改所述大语言模型的卷积层参数,以调整用于处理特定视角范围的卷积层的数量。
一些实施方式中,生成模型训练需求信息,具体包括:
基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据量不足或数据比例低于阈值而导致的模型训练效果不佳;若是,则生成数据采集需求;和/或
基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据质量满足预设数据质量异常条件而导致的模型训练效果不佳;若是,则生成数据清洗需求;和/或
判断所述大语言模型训练过程中是否存在某一类别的训练数据的数据量或覆盖程度不足;若是,则生成数据增强需求;和/或
判断所述多模态数据的数据集总量低于所述大语言模型的网络参数需求量;若是,则生成数据集规模调整需求;和/或
识别场景描述或者特定数据描述,生成包含数据特征条件的数据采集需求;和/或
基于所述大语言模型的模型结构变化情况,生成匹配调整后结构的数据采集需求;和/或
基于所述大语言模型的训练超参数的变化情况,生成匹配变化后参数的数据采集需求;
将上述至少一个需求组合为所述模型训练需求信息。
一些实施方式中,基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,具体包括:
确定所述模型训练需求信息中多个模型训练需求的执行优先级;
基于所述多个模型训练需求的执行优先级,确定所述多模态数据的采集顺序以及数据量比例;
基于所述多个模型训练需求,调整所述多模态数据对应的数据集参数,所述数据集参数至少包括:数据集规模、所需采集的数据类别、数据后处理方式。
本实施例中,一方面,通过多模态数据替代单一的语言文本数据,使得大语言模型可以从更多形态、更多元的多模态数据中学习表达规则以及知识,突破原有训练方式的限制,实现大语言模型的性能优化。另一方面,通过在多模态数据和模型训练需求之间建立了一种全新的动态反馈方式,使模型训练需求能够动态反馈到多模态数据的采集方式上,而多模态数据采集之后又会应用到模型训练过程中,通过多方的互动反馈实现了大语言模型以及数据采集方式的优化迭代,提升多模态数据与模型之间的匹配程度,进一步优化大语言模型的训练效果,提高大语言模型的性能。
在介绍了本申请实施例的方法之后,接下来,参考图4对本申请实施例的模型的优化训练装置进行介绍。
本申请实施例中的模型的优化训练装置40能够实现对应于上述图3所对应的实施例中模型的优化训练方法的步骤。模型的优化训练装置40实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述模型的优化训练装置40应用于服务端设备或终端设备。所述模型的优化训练装置40可包括收发模块401、处理模块402,所述处理模块402、所述收发模块401的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。例如,所述处理模块402可用于控制所述收发模块401的数据收发操作。
一些实施方式中,收发模块401,被配置为基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
处理模块402,被配置为基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息;基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。
一些实施方式中,所述处理模块402,还用于对所述多模态数据进行后处理,得到所述后处理数据;
分析所述后处理数据的数据质量以及对应的模型输出效果;
基于分析结果调整所述大语言模型的模型结构和/或训练超参数;
其中,所述后处理包括清洗处理、增强处理、关联处理、标注处理;所述后处理数据包括清洗数据、增强数据、关联数据、标注数据。
一些实施方式中,所述处理模块402,根据后处理数据,调整所述大语言模型的模型结构和/或训练超参数时,具体用于:
基于所述清洗数据中的噪声水平满足预设噪声异常条件和/或异常值高于设定阈值,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或
基于所述增强数据中不同模态训练数据的数据量变化情况,调整所述大语言模型的模型训练轮数以及训练数据集迭代次数,以匹配所述大语言模型的训练需求;和/或
基于所述关联数据所表征的不同模态训练数据之间的匹配程度,在所述大语言模型中增加或调整用于融合不同模态信息的融合模块,以提高所述大语言模型的多模态处理能力;和/或
基于所述标注数据中不同模态训练数据的数据量比例变化情况,确定数据量低于实际需求的训练数据对应的类别,并在所述大语言模型中增加该类别对应的样本权重,以提高所述大语言模型对该类别的关注度;和/或
基于所述标注数据中标注准确率,确定误标注数据,并在所述大语言模型中添加对所述误标注数据的容忍机制,或者在损失函数中增加对所述误标注数据的惩罚项。
一些实施方式中,所述处理模块402,基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告时,具体用于:
获取待评估的训练数据对应的目标模型评估标准配置;
基于所述目标模型评估标准配置,将所述多模态数据构建为验证集;
计算所述多模态数据在验证集中多个评估标准下的评估结果,以得到所述数据质量评估报告;
所述评估结果包括以下至少一个:所述多模态数据的数据集总量、所述多模态数据之间的关联程度、所述多模态数据之间的数据量比例与模型需求之间的匹配程度、所述多模态数据的数据质量、所述多模态数据的分类准确性、所述多模态数据的类别分布、不同数据特征在所述多模态数据中的覆盖程度、数据集总量与模型需求之间的匹配程度、不同模态训练数据之间的关联程度。
一些实施方式中,所述处理模块402,根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数时,具体用于:
若所述多模态数据的数据质量满足预设数据质量异常条件,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或
基于所述多模态数据之间的数据量比例与模型需求之间的匹配程度,增加或减少对应类别的训练样本权重;和/或
基于数据集总量与模型需求之间的匹配程度,调整所述大语言模型的参数规模;和/或
若数据集总量小于模型需求的数据量,则调整所述大语言模型的训练超参数,以匹配所述大语言模型的模型需求;和/或
若所述多模态数据的类别分布与所述大语言模型的模型需求不匹配,则修改所述大语言模型的卷积层参数,以增加用于处理特定视角范围的卷积层;和/或
若不同数据特征在所述多模态数据中的覆盖程度与所述大语言模型的模型需求不匹配,则修改所述大语言模型的卷积层参数,以调整用于处理特定视角范围的卷积层的数量。
一些实施方式中,所述处理模块402,生成模型训练需求信息时,具体用于:
基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据量不足或数据比例低于阈值而导致的模型训练效果不佳;若是,则生成数据采集需求;和/或
基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据质量满足预设数据质量异常条件而导致的模型训练效果不佳;若是,则生成数据清洗需求;和/或
判断所述大语言模型训练过程中是否存在某一类别的训练数据的数据量或覆盖程度不足;若是,则生成数据增强需求;和/或
判断所述多模态数据的数据集总量低于所述大语言模型的网络参数需求量;若是,则生成数据集规模调整需求;和/或
识别场景描述或者特定数据描述,生成包含数据特征条件的数据采集需求;和/或
基于所述大语言模型的模型结构变化情况,生成匹配调整后结构的数据采集需求;和/或
基于所述大语言模型的训练超参数的变化情况,生成匹配变化后参数的数据采集需求;
将上述至少一个需求组合为所述模型训练需求信息。
一些实施方式中,所述处理模块402,基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式时,具体用于:
确定所述模型训练需求信息中多个模型训练需求的执行优先级;
基于所述多个模型训练需求的执行优先级,确定所述多模态数据的采集顺序以及数据量比例;
基于所述多个模型训练需求,调整所述多模态数据对应的数据集参数,所述数据集参数至少包括:数据集规模、所需采集的数据类别、数据后处理方式。
本实施例中,一方面,通过多模态数据替代单一的语言文本数据,使得大语言模型可以从更多形态、更多元的多模态数据中学习表达规则以及知识,突破原有训练方式的限制,实现大语言模型的性能优化。另一方面,通过在多模态数据和模型训练需求之间建立了一种全新的动态反馈方式,使模型训练需求能够动态反馈到多模态数据的采集方式上,而多模态数据采集之后又会应用到模型训练过程中,通过多方的互动反馈实现了大语言模型以及数据采集方式的优化迭代,提升多模态数据与模型之间的匹配程度,进一步优化大语言模型的训练效果,提高大语言模型的性能。
在介绍了本申请实施例的系统、方法、装置之后,接下来,对本申请实施例的计算机可读存储介质进行说明,计算机可读存储介质可为光盘,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息;基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
上面从模块化功能实体的角度对本申请实施例中的模型的优化训练装置40进行了描述,下面从硬件处理的角度分别对本申请实施例中的执行模型的优化训练方法的服务器、终端设备进行描述。
需要说明的是,在本申请模型的优化训练装置实施例的图4所示的收发模块401对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等,处理模块402对应的实体设备可以为处理器。图4所示的模型的优化训练装置40可以具有如图5所示的结构,当图4所示的模型的优化训练装置40具有如图5所示的结构时,图5中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块402和收发模块401相同或相似的功能,图5中的存储器存储处理器执行上述模型的优化训练方法时需要调用的计算机程序。
图6是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1127,一个或一个以上有线或无线网络接口1180,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows Server,Mac OS X,Unix, Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器1100的结构。例如,例如上述实施例中由图6所示的模型的优化训练装置80所执行的步骤可以基于该图6所示的服务器结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
通过输入输出接口1158基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;
根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;
生成模型训练需求信息;
基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (10)

1.一种模型的优化训练系统,其特征在于,所述系统包括
数据采集模块,用于基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
数据评估模块,用于基于为不同模态训练数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;将所述数据质量评估报告发送至模型训练模块;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;
模型训练模块,用于根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息,并发送给模型训练反馈模块;
模型训练反馈模块,用于基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,并将新增的数据采集配置反馈给所述数据采集模块。
2.如权利要求1所述的系统,其特征在于,还包括后台处理模块,用于对所述多模态数据进行后处理,得到所述后处理数据;
所述模型训练模块,还用于分析所述后处理数据的数据质量以及对应的模型输出效果;基于分析结果调整所述大语言模型的模型结构和/或训练超参数;
其中,所述后处理包括清洗处理、增强处理、关联处理、标注处理;所述后处理数据包括清洗数据、增强数据、关联数据、标注数据。
3.如权利要求2所述的系统,其特征在于,所述模型训练模块,根据后台处理模块输出的后处理数据,调整所述大语言模型的模型结构和/或训练超参数时,具体用于:
基于所述清洗数据中的噪声水平满足预设噪声异常条件和/或异常值高于设定阈值,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或
基于所述增强数据中不同模态训练数据的数据量变化情况,调整所述大语言模型的模型训练轮数以及训练数据集迭代次数,以匹配所述大语言模型的训练需求;和/或
基于所述关联数据所表征的不同模态训练数据之间的匹配程度,在所述大语言模型中增加或调整用于融合不同模态信息的融合模块,以提高所述大语言模型的多模态处理能力;和/或
基于所述标注数据中不同模态训练数据的数据量比例变化情况,确定数据量低于实际需求的训练数据对应的类别,并在所述大语言模型中增加该类别对应的样本权重,以提高所述大语言模型对该类别的关注度;和/或
基于所述标注数据中标注准确率,确定误标注数据,并在所述大语言模型中添加对所述误标注数据的容忍机制,或者在损失函数中增加对所述误标注数据的惩罚项。
4.如权利要求1所述的系统,其特征在于,数据评估模块,基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告时,具体用于:
获取待评估的训练数据对应的目标模型评估标准配置;
基于所述目标模型评估标准配置,将所述多模态数据构建为验证集;
计算所述多模态数据在验证集中多个评估标准下的评估结果,以得到所述数据质量评估报告;
所述评估结果包括以下至少一个:所述多模态数据的数据集总量、所述多模态数据之间的关联程度、所述多模态数据之间的数据量比例与模型需求之间的匹配程度、所述多模态数据的数据质量、所述多模态数据的分类准确性、所述多模态数据的类别分布、不同数据特征在所述多模态数据中的覆盖程度、数据集总量与模型需求之间的匹配程度、不同模态训练数据之间的关联程度。
5.如权利要求4所述的系统,其特征在于,模型训练模块,根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数时,具体用于:
若所述多模态数据的数据质量满足预设数据质量异常条件,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或
基于所述多模态数据之间的数据量比例与模型需求之间的匹配程度,增加或减少对应类别的训练样本权重;和/或
基于数据集总量与模型需求之间的匹配程度,调整所述大语言模型的参数规模;和/或
若数据集总量小于模型需求的数据量,则调整所述大语言模型的训练超参数,以匹配所述大语言模型的模型需求;和/或
若所述多模态数据的类别分布与所述大语言模型的模型需求不匹配,则修改所述大语言模型的卷积层参数,以增加用于处理特定视角范围的卷积层;和/或
若不同数据特征在所述多模态数据中的覆盖程度与所述大语言模型的模型需求不匹配,则修改所述大语言模型的卷积层参数,以调整用于处理特定视角范围的卷积层的数量。
6.如权利要求4所述的系统,其特征在于,模型训练模块,生成模型训练需求信息时,具体用于:
基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据量不足或数据比例低于阈值而导致的模型训练效果不佳;若是,则生成数据采集需求;和/或
基于所述多模态数据在所述大语言模型上的训练效果,判断是否存在因某一类别的数据质量满足预设数据质量异常条件而导致的模型训练效果不佳;若是,则生成数据清洗需求;和/或
判断所述大语言模型训练过程中是否存在某一类别的训练数据的数据量或覆盖程度不足;若是,则生成数据增强需求;和/或
判断所述多模态数据的数据集总量低于所述大语言模型的网络参数需求量;若是,则生成数据集规模调整需求;和/或
识别场景描述或者特定数据描述,生成包含数据特征条件的数据采集需求;和/或
基于所述大语言模型的模型结构变化情况,生成匹配调整后结构的数据采集需求;和/或
基于所述大语言模型的训练超参数的变化情况,生成匹配变化后参数的数据采集需求;
将上述至少一个需求组合为所述模型训练需求信息。
7.如权利要求6所述的系统,其特征在于,模型训练反馈模块,基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式时,具体用于:
确定所述模型训练需求信息中多个模型训练需求的执行优先级;
基于所述多个模型训练需求的执行优先级,确定所述多模态数据的采集顺序以及数据量比例;
基于所述多个模型训练需求,调整所述多模态数据对应的数据集参数,所述数据集参数至少包括:数据集规模、所需采集的数据类别、数据后处理方式。
8.一种模型的优化训练方法,其特征在于,所述方法包括:
基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;
基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;
根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;
生成模型训练需求信息;
基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。
9.一种电子设备,其特征在于,所述电子设备包括存储器和一个或多个处理器;其中,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述计算机指令被所述处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的模型的优化训练系统。
10.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机实现如权利要求1至7中任一项所述的模型的优化训练系统。
CN202310809243.9A 2023-07-04 2023-07-04 模型的优化训练系统、方法以及相关装置 Active CN116561542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310809243.9A CN116561542B (zh) 2023-07-04 2023-07-04 模型的优化训练系统、方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310809243.9A CN116561542B (zh) 2023-07-04 2023-07-04 模型的优化训练系统、方法以及相关装置

Publications (2)

Publication Number Publication Date
CN116561542A true CN116561542A (zh) 2023-08-08
CN116561542B CN116561542B (zh) 2023-10-20

Family

ID=87486454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310809243.9A Active CN116561542B (zh) 2023-07-04 2023-07-04 模型的优化训练系统、方法以及相关装置

Country Status (1)

Country Link
CN (1) CN116561542B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216232A (zh) * 2023-11-09 2023-12-12 卓世科技(海南)有限公司 一种大语言模型超参数优化方法及系统
CN117591815A (zh) * 2023-10-31 2024-02-23 中国科学院空天信息创新研究院 面向多模态伪造生成数据的综合质量评估方法及装置
CN117786414A (zh) * 2024-02-23 2024-03-29 云南联合视觉科技有限公司 一种构建医学指令数据集的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877948A (zh) * 2018-06-05 2018-11-23 深圳先进技术研究院 多模态数据处理方法及系统
CN114372414A (zh) * 2022-01-06 2022-04-19 腾讯科技(深圳)有限公司 多模态模型构建方法、装置和计算机设备
WO2022090515A1 (en) * 2020-10-30 2022-05-05 Thales Dis France Sas Multimodal biometric fusion based authentication
CN114817612A (zh) * 2022-04-29 2022-07-29 北京百度网讯科技有限公司 多模态数据匹配度计算和计算模型训练的方法、相关装置
CN116129452A (zh) * 2023-01-18 2023-05-16 北京有竹居网络技术有限公司 文档理解模型的生成方法、应用方法、装置、设备及介质
WO2023087659A1 (zh) * 2021-11-19 2023-05-25 浪潮(北京)电子信息产业有限公司 一种多模态数据处理方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877948A (zh) * 2018-06-05 2018-11-23 深圳先进技术研究院 多模态数据处理方法及系统
WO2022090515A1 (en) * 2020-10-30 2022-05-05 Thales Dis France Sas Multimodal biometric fusion based authentication
WO2023087659A1 (zh) * 2021-11-19 2023-05-25 浪潮(北京)电子信息产业有限公司 一种多模态数据处理方法、装置、设备及存储介质
CN114372414A (zh) * 2022-01-06 2022-04-19 腾讯科技(深圳)有限公司 多模态模型构建方法、装置和计算机设备
CN114817612A (zh) * 2022-04-29 2022-07-29 北京百度网讯科技有限公司 多模态数据匹配度计算和计算模型训练的方法、相关装置
CN116129452A (zh) * 2023-01-18 2023-05-16 北京有竹居网络技术有限公司 文档理解模型的生成方法、应用方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAO-YEN TSENG, ET AL: "Multimodal Embeddings From Language Models for Emotion Recognition in the Wild", IEEE SIGNAL PROCESSING LETTERS *
马超;李纲;陈思菁;毛进;张霁;: "基于多模态数据语义融合的旅游在线评论有用性识别研究", 情报学报, no. 02 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591815A (zh) * 2023-10-31 2024-02-23 中国科学院空天信息创新研究院 面向多模态伪造生成数据的综合质量评估方法及装置
CN117216232A (zh) * 2023-11-09 2023-12-12 卓世科技(海南)有限公司 一种大语言模型超参数优化方法及系统
CN117216232B (zh) * 2023-11-09 2024-01-09 卓世科技(海南)有限公司 一种大语言模型超参数优化方法及系统
CN117786414A (zh) * 2024-02-23 2024-03-29 云南联合视觉科技有限公司 一种构建医学指令数据集的方法
CN117786414B (zh) * 2024-02-23 2024-05-10 云南联合视觉科技有限公司 一种构建医学指令数据集的方法

Also Published As

Publication number Publication date
CN116561542B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN116561542B (zh) 模型的优化训练系统、方法以及相关装置
US11422814B2 (en) Automation of sequences of actions
US12001514B2 (en) Image classification modeling while maintaining data privacy compliance
US11468241B2 (en) Techniques to add smart device information to machine learning for increased context
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
WO2018235252A1 (ja) 分析装置、ログの分析方法及び記録媒体
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
Endres et al. Synthetic data generation: A comparative study
US20230109260A1 (en) Techniques for cursor trail capture using generative neural networks
WO2023055426A1 (en) Techniques for input classification and responses using generative neural networks
CN110956277A (zh) 一种交互式的迭代建模系统及方法
CN117785964B (zh) 应用于网络服务的数据处理方法及系统
Mejia-Escobar et al. Towards a Better Performance in Facial Expression Recognition: A Data‐Centric Approach
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN117077653A (zh) 一种可控生成的方法及其装置
CN112541705B (zh) 生成用户行为评估模型的方法、装置、设备以及存储介质
CN113448860B (zh) 测试案例分析方法及装置
CN115712719A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN111651643A (zh) 候选内容的处理方法及相关设备
CN117556264B (zh) 一种评估模型的训练方法、装置及电子设备
CN117076962B (zh) 应用于人工智能领域的数据分析方法、装置及设备
CN117575894B (zh) 图像生成方法、装置、电子设备和计算机可读存储介质
CN116975301A (zh) 文本聚类方法、装置、电子设备和计算机可读存储介质
CN117312864A (zh) 基于多模态信息的变形词生成模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant