CN116610960B - 一种人工智能训练参数的监测管理系统 - Google Patents
一种人工智能训练参数的监测管理系统 Download PDFInfo
- Publication number
- CN116610960B CN116610960B CN202310891652.8A CN202310891652A CN116610960B CN 116610960 B CN116610960 B CN 116610960B CN 202310891652 A CN202310891652 A CN 202310891652A CN 116610960 B CN116610960 B CN 116610960B
- Authority
- CN
- China
- Prior art keywords
- module
- training
- data
- model
- model training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 114
- 238000012544 monitoring process Methods 0.000 title claims abstract description 22
- 238000013473 artificial intelligence Methods 0.000 title description 4
- 238000004891 communication Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及模型训练领域,公开了一种人工智能训练参数的监测管理系统,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;通过本发明所提供的技术方案,可以实现为模型训练提供损失值最小的训练集。
Description
技术领域
本发明涉及模型训练领域,具体是一种人工智能训练参数的监测管理系统。
背景技术
批量大小(Batch Size)是在训练神经网络时用于指定每个训练迭代中使用的样本数量。在深度学习中,通常会将训练数据集划分为多个小批量,每个小批量包含一定数量的样本,批量大小对于训练过程和模型的性能具有重要影响,因此,如何在训练模型之初确定损失值最小的批量大小的训练集,是当下行业研究人员需要克服的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种人工智能训练参数的监测管理系统,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;
所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;
所述的数据库模块用于存储样本数据;
所述的数据集生成模块用于根据样本数据生成训练集、验证集和测试集;
所述的模型训练模块用于根据生成的训练集对模型进行训练;
所述的模型训练管理模块用于采集模型训练的输出数据;
所述的计算资源监测与调度模块用于根据计算资源进行批量大小的计算;
所述的训练损失计算模块用于得到不同的批量大小的训练损失。
优选的,所述的计算资源监测与调度模块包括内存占用检测模块、可用内存计算模块;所述的内存占用检测模块用于采集模型训练前的内存占用数据,根据内存占用数据可用内存计算模块计算得到最大可用内存,并将最大可用内存数据发送到数据处理模块,数据处理模块根据最大可用内存得到最大批量大小。
优选的,所述的数据集生成模块包括特征容器生成模块、数据集生成模块;所述的数据集生成模块用于对数据库模块中的样本数据进行筛选,得到筛选后的样本数据,根据筛选后的样本数据生成训练集、验证集和测试集,数据集生成模块根据最大批量大小和设置的批量大小梯度减小值,分别生成多个不同批量大小的训练集,将多个不同批量大小的训练集生成信号发送给所述的特征容器生成模块,特征容器生成模块根据训练集数据生成对应批量大小的特征容器,并分别将不同批量大小的训练集发送到对应批量大小的特征容器,其中的最大批量大小的特征容器通过所述的通信装置与所述的模型训练模块通信连接。
优选的,所述的模型训练模块根据特征容器中的训练集对模型进行训练,得到模型输出数据,所述的模型输出数据输入到训练损失计算模块。
优选的,所述的训练损失计算模块根据模型输出数据和损失函数,分别得到每个批量样本数据的损失值,根据所有批量样本数据的损失值,得到对应批量大小的训练集的损失值,将所有训练集中损失值最小的训练集对应的特征容器与所述的模型训练模块通信连接,并删除其余特征容器。
本发明的有益效果是: 通过本发明所提供的技术方案,可以实现为模型训练提供损失值最小的训练集,提高模型后续训练的效率。
附图说明
图1为一种人工智能训练参数的监测管理系统的原理示意图;
图2为数据集生成模块的原理示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为了使本发明的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,一种人工智能训练参数的监测管理系统,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;
所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;
所述的数据库模块用于存储样本数据;
所述的数据集生成模块用于根据样本数据生成训练集、验证集和测试集;
所述的模型训练模块用于根据生成的训练集对模型进行训练;
所述的模型训练管理模块用于采集模型训练的输出数据;
所述的计算资源监测与调度模块用于根据计算资源进行批量大小的计算;
所述的训练损失计算模块用于得到不同的批量大小的训练损失。
所述的计算资源监测与调度模块包括内存占用检测模块、可用内存计算模块;所述的内存占用检测模块用于采集模型训练前的内存占用数据,根据内存占用数据可用内存计算模块计算得到最大可用内存,并将最大可用内存数据发送到数据处理模块,数据处理模块根据最大可用内存得到最大批量大小。
如图2所示,所述的数据集生成模块包括特征容器生成模块、数据集生成模块;所述的数据集生成模块用于对数据库模块中的样本数据进行筛选,得到筛选后的样本数据,根据筛选后的样本数据生成训练集、验证集和测试集,数据集生成模块根据最大批量大小和设置的批量大小梯度减小值,分别生成多个不同批量大小的训练集,将多个不同批量大小的训练集生成信号发送给所述的特征容器生成模块,特征容器生成模块根据训练集数据生成对应批量大小的特征容器,并分别将不同批量大小的训练集发送到对应批量大小的特征容器,其中的最大批量大小的特征容器通过所述的通信装置与所述的模型训练模块通信连接。
所述的模型训练模块根据特征容器中的训练集对模型进行训练,得到模型输出数据,所述的模型输出数据输入到训练损失计算模块。
所述的训练损失计算模块根据模型输出数据和损失函数,分别得到每个批量样本数据的损失值,根据所有批量样本数据的损失值,得到对应批量大小的训练集的损失值,将所有训练集中损失值最小的训练集对应的特征容器与所述的模型训练模块通信连接,并删除其余特征容器。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (1)
1.一种人工智能训练参数的监测管理系统,其特征在于,包括数据库模块、数据处理模块、数据集生成模块、通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块;
所述的数据库模块与所述的数据集生成模块连接,所述的数据集生成模块与所述的通信装置通信连接,所述的通信装置、模型训练管理模块、模型训练模块、计算资源监测与调度模块、训练损失计算模块分别与所述的数据处理模块连接;
所述的数据库模块用于存储样本数据;
所述的数据集生成模块用于根据样本数据生成训练集、验证集和测试集;
所述的模型训练模块用于根据生成的训练集对模型进行训练;
所述的模型训练管理模块用于采集模型训练的输出数据;
所述的计算资源监测与调度模块用于根据计算资源进行批量大小的计算;
所述的训练损失计算模块用于得到不同的批量大小的训练损失;
所述的计算资源监测与调度模块包括内存占用检测模块、可用内存计算模块;所述的内存占用检测模块用于采集模型训练前的内存占用数据,根据内存占用数据可用内存计算模块计算得到最大可用内存,并将最大可用内存数据发送到数据处理模块,数据处理模块根据最大可用内存得到最大批量大小;
所述的数据集生成模块包括特征容器生成模块、数据集生成模块;所述的数据集生成模块用于对数据库模块中的样本数据进行筛选,得到筛选后的样本数据,根据筛选后的样本数据生成训练集、验证集和测试集,数据集生成模块根据最大批量大小和设置的批量大小梯度减小值,分别生成多个不同批量大小的训练集,将多个不同批量大小的训练集生成信号发送给所述的特征容器生成模块,特征容器生成模块根据训练集数据生成对应批量大小的特征容器,并分别将不同批量大小的训练集发送到对应批量大小的特征容器,其中的最大批量大小的特征容器通过所述的通信装置与所述的模型训练模块通信连接;
所述的模型训练模块根据特征容器中的训练集对模型进行训练,得到模型输出数据,所述的模型输出数据输入到训练损失计算模块;
所述的训练损失计算模块根据模型输出数据和损失函数,分别得到每个批量样本数据的损失值,根据所有批量样本数据的损失值,得到对应批量大小的训练集的损失值,将所有训练集中损失值最小的训练集对应的特征容器与所述的模型训练模块通信连接,并删除其余特征容器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891652.8A CN116610960B (zh) | 2023-07-20 | 2023-07-20 | 一种人工智能训练参数的监测管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891652.8A CN116610960B (zh) | 2023-07-20 | 2023-07-20 | 一种人工智能训练参数的监测管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116610960A CN116610960A (zh) | 2023-08-18 |
CN116610960B true CN116610960B (zh) | 2023-10-13 |
Family
ID=87680443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310891652.8A Active CN116610960B (zh) | 2023-07-20 | 2023-07-20 | 一种人工智能训练参数的监测管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116610960B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018153201A1 (zh) * | 2017-02-22 | 2018-08-30 | 中兴通讯股份有限公司 | 深度学习训练方法及装置 |
CN110619388A (zh) * | 2019-09-20 | 2019-12-27 | 北京金山数字娱乐科技有限公司 | 一种分布式训练中梯度同步方法及装置 |
CN110795228A (zh) * | 2018-08-03 | 2020-02-14 | 伊姆西Ip控股有限责任公司 | 使用加速器混合集的分布式深度学习的自适应批量数据集划分 |
CN110929627A (zh) * | 2019-11-18 | 2020-03-27 | 北京大学 | 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法 |
CN113902116A (zh) * | 2021-09-29 | 2022-01-07 | 中国科学院软件研究所 | 一种面向深度学习模型推理批处理优化方法与系统 |
CN114173120A (zh) * | 2021-12-03 | 2022-03-11 | 北京达佳互联信息技术有限公司 | 视频编码块划分方法和视频编码块划分预测模型训练方法 |
CN116050540A (zh) * | 2023-02-01 | 2023-05-02 | 北京信息科技大学 | 一种基于联合双维度用户调度的自适应联邦边缘学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11907675B2 (en) * | 2019-01-18 | 2024-02-20 | Uber Technologies, Inc. | Generating training datasets for training neural networks |
US20210158211A1 (en) * | 2019-11-22 | 2021-05-27 | Google Llc | Linear time algorithms for privacy preserving convex optimization |
-
2023
- 2023-07-20 CN CN202310891652.8A patent/CN116610960B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018153201A1 (zh) * | 2017-02-22 | 2018-08-30 | 中兴通讯股份有限公司 | 深度学习训练方法及装置 |
CN110795228A (zh) * | 2018-08-03 | 2020-02-14 | 伊姆西Ip控股有限责任公司 | 使用加速器混合集的分布式深度学习的自适应批量数据集划分 |
CN110619388A (zh) * | 2019-09-20 | 2019-12-27 | 北京金山数字娱乐科技有限公司 | 一种分布式训练中梯度同步方法及装置 |
CN110929627A (zh) * | 2019-11-18 | 2020-03-27 | 北京大学 | 基于宽模型稀疏数据集的高效gpu训练模型的图像识别方法 |
CN113902116A (zh) * | 2021-09-29 | 2022-01-07 | 中国科学院软件研究所 | 一种面向深度学习模型推理批处理优化方法与系统 |
CN114173120A (zh) * | 2021-12-03 | 2022-03-11 | 北京达佳互联信息技术有限公司 | 视频编码块划分方法和视频编码块划分预测模型训练方法 |
CN116050540A (zh) * | 2023-02-01 | 2023-05-02 | 北京信息科技大学 | 一种基于联合双维度用户调度的自适应联邦边缘学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116610960A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109347668B (zh) | 一种服务质量评估模型的训练方法及装置 | |
CN106951925A (zh) | 数据处理方法、装置、服务器及系统 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN111339052A (zh) | 一种非结构化日志数据处理方法及装置 | |
CN117150359A (zh) | 基于模型无关元学习的小样本故障诊断方法、系统、装置及介质 | |
CN113706115A (zh) | 一种邮件处理方法、装置及存储介质 | |
CN110411554A (zh) | 一种电机设备检测方法、装置及系统 | |
CN114548268A (zh) | 基于原型网络的小样本垃圾图像分类方法 | |
CN116610960B (zh) | 一种人工智能训练参数的监测管理系统 | |
CN111899138A (zh) | 一种基于大数据的教学行为分析系统及分析方法 | |
CN109669777B (zh) | 工业互联网大数据元需求服务提供方法与系统 | |
CN111291078A (zh) | 一种域名匹配检测方法及装置 | |
CN113487550B (zh) | 一种基于改进激活函数的目标检测方法及装置 | |
CN115935231A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN113569879B (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 | |
CN108958221A (zh) | 基于工业物联网与支持向量机多分类算法的设备故障诊断方法 | |
CN113806498B (zh) | 网络切片实例运行状况的在线问答方法及装置 | |
CN114610758A (zh) | 基于数据仓库的数据处理方法、装置、可读介质及设备 | |
CN109359694B (zh) | 一种基于混合协同表示的分类器的图像分类方法和装置 | |
CN114239750A (zh) | 告警数据处理方法、装置、存储介质和设备 | |
CN112990425A (zh) | 5g网络切片的自动分类方法、其装置、电子设备及计算机存储介质 | |
CN114510618B (zh) | 基于智慧矿山的处理方法及装置 | |
CN113347021B (zh) | 一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质 | |
KR102212676B1 (ko) | Disc 기반 성향 분석 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |