CN116610960A - 一种人工智能训练参数的监测管理系统 - Google Patents

一种人工智能训练参数的监测管理系统 Download PDF

Info

Publication number
CN116610960A
CN116610960A CN202310891652.8A CN202310891652A CN116610960A CN 116610960 A CN116610960 A CN 116610960A CN 202310891652 A CN202310891652 A CN 202310891652A CN 116610960 A CN116610960 A CN 116610960A
Authority
CN
China
Prior art keywords
module
training
data
model
model training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310891652.8A
Other languages
English (en)
Other versions
CN116610960B (zh
Inventor
吕超星
丁鹏
吴清忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wanjie Data Technology Co ltd Wuhan Branch
Beijing Wanjie Data Technology Co ltd
Original Assignee
Beijing Wanjie Data Technology Co ltd Wuhan Branch
Beijing Wanjie Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wanjie Data Technology Co ltd Wuhan Branch, Beijing Wanjie Data Technology Co ltd filed Critical Beijing Wanjie Data Technology Co ltd Wuhan Branch
Priority to CN202310891652.8A priority Critical patent/CN116610960B/zh
Publication of CN116610960A publication Critical patent/CN116610960A/zh
Application granted granted Critical
Publication of CN116610960B publication Critical patent/CN116610960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及模型训练领域,公开了一种人工智能训练参数的监测管理系统,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;通过本发明所提供的技术方案,可以实现为模型训练提供损失值最小的训练集。

Description

一种人工智能训练参数的监测管理系统
技术领域
本发明涉及模型训练领域,具体是一种人工智能训练参数的监测管理系统。
背景技术
批量大小(Batch Size)是在训练神经网络时用于指定每个训练迭代中使用的样本数量。在深度学习中,通常会将训练数据集划分为多个小批量,每个小批量包含一定数量的样本,批量大小对于训练过程和模型的性能具有重要影响,因此,如何在训练模型之初确定损失值最小的批量大小的训练集,是当下行业研究人员需要克服的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种人工智能训练参数的监测管理系统,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;
所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;
所述的数据库模块用于存储样本数据;
所述的数据集生成模块用于根据样本数据生成训练集、验证集和测试集;
所述的模型训练模块用于根据生成的训练集对模型进行训练;
所述的模型训练管理模块用于采集模型训练的输出数据;
所述的计算资源监测与调度模块用于根据计算资源进行批量大小的计算;
所述的训练损失计算模块用于得到不同的批量大小的训练损失。
优选的,所述的计算资源监测与调度模块包括内存占用检测模块、可用内存计算模块;所述的内存占用检测模块用于采集模型训练前的内存占用数据,根据内存占用数据可用内存计算模块计算得到最大可用内存,并将最大可用内存数据发送到数据处理模块,数据处理模块根据最大可用内存得到最大批量大小。
优选的,所述的数据集生成模块包括特征容器生成模块、数据集生成模块;所述的数据集生成模块用于对数据库模块中的样本数据进行筛选,得到筛选后的样本数据,根据筛选后的样本数据生成训练集、验证集和测试集,数据集生成模块根据最大批量大小和设置的批量大小梯度减小值,分别生成多个不同批量大小的训练集,将多个不同批量大小的训练集生成信号发送给所述的特征容器生成模块,特征容器生成模块根据训练集数据生成对应批量大小的特征容器,并分别将不同批量大小的训练集发送到对应批量大小的特征容器,其中的最大批量大小的特征容器通过所述的通信装置与所述的模型训练模块通信连接。
优选的,所述的模型训练模块根据特征容器中的训练集对模型进行训练,得到模型输出数据,所述的模型输出数据输入到训练损失计算模块。
优选的,所述的训练损失计算模块根据模型输出数据和损失函数,分别得到每个批量样本数据的损失值,根据所有批量样本数据的损失值,得到对应批量大小的训练集的损失值,将所有训练集中损失值最小的训练集对应的特征容器与所述的模型训练模块通信连接,并删除其余特征容器。
本发明的有益效果是: 通过本发明所提供的技术方案,可以实现为模型训练提供损失值最小的训练集,提高模型后续训练的效率。
附图说明
图1为一种人工智能训练参数的监测管理系统的原理示意图;
图2为数据集生成模块的原理示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为了使本发明的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,一种人工智能训练参数的监测管理系统,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;
所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;
所述的数据库模块用于存储样本数据;
所述的数据集生成模块用于根据样本数据生成训练集、验证集和测试集;
所述的模型训练模块用于根据生成的训练集对模型进行训练;
所述的模型训练管理模块用于采集模型训练的输出数据;
所述的计算资源监测与调度模块用于根据计算资源进行批量大小的计算;
所述的训练损失计算模块用于得到不同的批量大小的训练损失。
所述的计算资源监测与调度模块包括内存占用检测模块、可用内存计算模块;所述的内存占用检测模块用于采集模型训练前的内存占用数据,根据内存占用数据可用内存计算模块计算得到最大可用内存,并将最大可用内存数据发送到数据处理模块,数据处理模块根据最大可用内存得到最大批量大小。
如图2所示,所述的数据集生成模块包括特征容器生成模块、数据集生成模块;所述的数据集生成模块用于对数据库模块中的样本数据进行筛选,得到筛选后的样本数据,根据筛选后的样本数据生成训练集、验证集和测试集,数据集生成模块根据最大批量大小和设置的批量大小梯度减小值,分别生成多个不同批量大小的训练集,将多个不同批量大小的训练集生成信号发送给所述的特征容器生成模块,特征容器生成模块根据训练集数据生成对应批量大小的特征容器,并分别将不同批量大小的训练集发送到对应批量大小的特征容器,其中的最大批量大小的特征容器通过所述的通信装置与所述的模型训练模块通信连接。
所述的模型训练模块根据特征容器中的训练集对模型进行训练,得到模型输出数据,所述的模型输出数据输入到训练损失计算模块。
所述的训练损失计算模块根据模型输出数据和损失函数,分别得到每个批量样本数据的损失值,根据所有批量样本数据的损失值,得到对应批量大小的训练集的损失值,将所有训练集中损失值最小的训练集对应的特征容器与所述的模型训练模块通信连接,并删除其余特征容器。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种人工智能训练参数的监测管理系统,其特征在于,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;
所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;
所述的数据库模块用于存储样本数据;
所述的数据集生成模块用于根据样本数据生成训练集、验证集和测试集;
所述的模型训练模块用于根据生成的训练集对模型进行训练;
所述的模型训练管理模块用于采集模型训练的输出数据;
所述的计算资源监测与调度模块用于根据计算资源进行批量大小的计算;
所述的训练损失计算模块用于得到不同的批量大小的训练损失。
2.根据权利要求1所述的一种人工智能训练参数的监测管理系统,其特征在于,所述的计算资源监测与调度模块包括内存占用检测模块、可用内存计算模块;所述的内存占用检测模块用于采集模型训练前的内存占用数据,根据内存占用数据可用内存计算模块计算得到最大可用内存,并将最大可用内存数据发送到数据处理模块,数据处理模块根据最大可用内存得到最大批量大小。
3.根据权利要求2所述的一种人工智能训练参数的监测管理系统,其特征在于,所述的数据集生成模块包括特征容器生成模块、数据集生成模块;所述的数据集生成模块用于对数据库模块中的样本数据进行筛选,得到筛选后的样本数据,根据筛选后的样本数据生成训练集、验证集和测试集,数据集生成模块根据最大批量大小和设置的批量大小梯度减小值,分别生成多个不同批量大小的训练集,将多个不同批量大小的训练集生成信号发送给所述的特征容器生成模块,特征容器生成模块根据训练集数据生成对应批量大小的特征容器,并分别将不同批量大小的训练集发送到对应批量大小的特征容器,其中的最大批量大小的特征容器通过所述的通信装置与所述的模型训练模块通信连接。
4.根据权利要求3所述的一种人工智能训练参数的监测管理系统,其特征在于,所述的模型训练模块根据特征容器中的训练集对模型进行训练,得到模型输出数据,所述的模型输出数据输入到训练损失计算模块。
5.根据权利要求4所述的一种人工智能训练参数的监测管理系统,其特征在于,所述的训练损失计算模块根据模型输出数据和损失函数,分别得到每个批量样本数据的损失值,根据所有批量样本数据的损失值,得到对应批量大小的训练集的损失值,将所有训练集中损失值最小的训练集对应的特征容器与所述的模型训练模块通信连接,并删除其余特征容器。
CN202310891652.8A 2023-07-20 2023-07-20 一种人工智能训练参数的监测管理系统 Active CN116610960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310891652.8A CN116610960B (zh) 2023-07-20 2023-07-20 一种人工智能训练参数的监测管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310891652.8A CN116610960B (zh) 2023-07-20 2023-07-20 一种人工智能训练参数的监测管理系统

Publications (2)

Publication Number Publication Date
CN116610960A true CN116610960A (zh) 2023-08-18
CN116610960B CN116610960B (zh) 2023-10-13

Family

ID=87680443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310891652.8A Active CN116610960B (zh) 2023-07-20 2023-07-20 一种人工智能训练参数的监测管理系统

Country Status (1)

Country Link
CN (1) CN116610960B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153201A1 (zh) * 2017-02-22 2018-08-30 中兴通讯股份有限公司 深度学习训练方法及装置
CN110619388A (zh) * 2019-09-20 2019-12-27 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN110795228A (zh) * 2018-08-03 2020-02-14 伊姆西Ip控股有限责任公司 使用加速器混合集的分布式深度学习的自适应批量数据集划分
CN110929627A (zh) * 2019-11-18 2020-03-27 北京大学 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法
US20200234144A1 (en) * 2019-01-18 2020-07-23 Uber Technologies, Inc. Generating training datasets for training neural networks
US20210158211A1 (en) * 2019-11-22 2021-05-27 Google Llc Linear time algorithms for privacy preserving convex optimization
CN113902116A (zh) * 2021-09-29 2022-01-07 中国科学院软件研究所 一种面向深度学习模型推理批处理优化方法与系统
CN114173120A (zh) * 2021-12-03 2022-03-11 北京达佳互联信息技术有限公司 视频编码块划分方法和视频编码块划分预测模型训练方法
CN116050540A (zh) * 2023-02-01 2023-05-02 北京信息科技大学 一种基于联合双维度用户调度的自适应联邦边缘学习方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153201A1 (zh) * 2017-02-22 2018-08-30 中兴通讯股份有限公司 深度学习训练方法及装置
CN110795228A (zh) * 2018-08-03 2020-02-14 伊姆西Ip控股有限责任公司 使用加速器混合集的分布式深度学习的自适应批量数据集划分
US20200234144A1 (en) * 2019-01-18 2020-07-23 Uber Technologies, Inc. Generating training datasets for training neural networks
CN110619388A (zh) * 2019-09-20 2019-12-27 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN110929627A (zh) * 2019-11-18 2020-03-27 北京大学 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法
US20210158211A1 (en) * 2019-11-22 2021-05-27 Google Llc Linear time algorithms for privacy preserving convex optimization
CN113902116A (zh) * 2021-09-29 2022-01-07 中国科学院软件研究所 一种面向深度学习模型推理批处理优化方法与系统
CN114173120A (zh) * 2021-12-03 2022-03-11 北京达佳互联信息技术有限公司 视频编码块划分方法和视频编码块划分预测模型训练方法
CN116050540A (zh) * 2023-02-01 2023-05-02 北京信息科技大学 一种基于联合双维度用户调度的自适应联邦边缘学习方法

Also Published As

Publication number Publication date
CN116610960B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN109347668B (zh) 一种服务质量评估模型的训练方法及装置
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN112749280A (zh) 网络舆情的分类方法、装置、电子装置和存储介质
CN115294397A (zh) 一种分类任务的后处理方法、装置、设备及存储介质
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN110411554A (zh) 一种电机设备检测方法、装置及系统
CN115809229A (zh) 一种基于多维数据属性的评估管理方法及系统
CN114548268A (zh) 基于原型网络的小样本垃圾图像分类方法
CN116610960B (zh) 一种人工智能训练参数的监测管理系统
CN110414591A (zh) 一种数据处理方法以及设备
CN113706115A (zh) 一种邮件处理方法、装置及存储介质
CN113221579A (zh) 一种企业风险评估处理方法及装置
CN117150359A (zh) 基于模型无关元学习的小样本故障诊断方法、系统、装置及介质
Gao et al. Web services classification based on intelligent clustering techniques
CN115935231A (zh) 一种数据分类方法、装置、设备及存储介质
CN113806498B (zh) 网络切片实例运行状况的在线问答方法及装置
CN111798237B (zh) 基于应用日志的异常交易诊断方法及系统
CN110175645B (zh) 一种确定保护装置型号的方法及计算装置
CN109669777B (zh) 工业互联网大数据元需求服务提供方法与系统
CN112990425A (zh) 5g网络切片的自动分类方法、其装置、电子设备及计算机存储介质
CN109359694B (zh) 一种基于混合协同表示的分类器的图像分类方法和装置
CN112464970A (zh) 区域价值评估模型处理方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant