CN117608866A - 一种基于大模型的数据协同处理方法及系统 - Google Patents

一种基于大模型的数据协同处理方法及系统 Download PDF

Info

Publication number
CN117608866A
CN117608866A CN202410094601.7A CN202410094601A CN117608866A CN 117608866 A CN117608866 A CN 117608866A CN 202410094601 A CN202410094601 A CN 202410094601A CN 117608866 A CN117608866 A CN 117608866A
Authority
CN
China
Prior art keywords
data
calculation
value
analysis
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410094601.7A
Other languages
English (en)
Other versions
CN117608866B (zh
Inventor
曹萍
张琦
崔勇雷
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Boshangyuan Information Technology Development Co ltd
Original Assignee
Shandong Boshangyuan Information Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Boshangyuan Information Technology Development Co ltd filed Critical Shandong Boshangyuan Information Technology Development Co ltd
Priority to CN202410094601.7A priority Critical patent/CN117608866B/zh
Publication of CN117608866A publication Critical patent/CN117608866A/zh
Application granted granted Critical
Publication of CN117608866B publication Critical patent/CN117608866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理领域,公开了一种基于大模型的数据协同处理方法及系统,解决了现有的用于数据处理加速器的模糊大模型训练方法无法对训练用数据集进行处理并分析,也无法对处理数据的计算节点进行分析并智能选用,导致训练速度低且难以保证训练结果的准确性和可靠性的问题;该大模型用数据处理方法包括以下模块:数据输入模块、模型训练平台、子集分析模块、计算分析模块、自动分配模块以及结果显示模块;本发明采用分布式计算和数据并行处理技术,能够充分利用计算资源的优势,提高训练效率,而且选用性能好的计算节点进行数据处理,能够提高大模型的数据处理速度,减少数据处理误差,进而能够保证数据处理的准确性和可靠性。

Description

一种基于大模型的数据协同处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大模型的数据协同处理方法及系统。
背景技术
随着人工智能技术的不断发展,大模型在各个领域的应用越来越广泛。然而,大模型的训练过程通常需要大量的计算资源和时间,使得数据协同处理成为了一个重要的问题。
申请号为CN202010512196.8的专利公开了一种云端混合加速器的调度方法、计算机设备及存储介质,涉及人工智能技术。该方法包括:接收客户端发送的模型并行值;根据模型并行值和异构的加速器资源确定环境变量;根据环境变量确定加速器拓扑信息;根据拓扑信息和环境变量调度加速器执行模型训练任务。能够根据客户端发送的模型并行值,计算异构加速器场景中加速器使用的环境变量,根据环境变量确定异构场景的加速器拓扑信息,根据该拓扑信息和环境变量调度异构的AI加速器执行AI模型训练,进而实现多个代际的AI加速器联合执行AI模型训练任务。
但仍然存在以下不足之处:无法对训练用数据集进行处理并分析,也无法对处理数据的计算节点进行分析并智能选用,导致训练速度低,易于出现数据处理误差,导致难以保证训练结果的准确性和可靠性,因此,开发一种基于大模型的数据协同处理方法及系统,能够提高数据协同处理速度并保证训练结果的准确性和可靠性,具有重要的现实意义。
发明内容
本发明的目的在于提供一种基于大模型的数据协同处理方法及系统,用户利用数据输入模块将大模型训练用的数据集进行上传,通过模型训练平台将数据集分割若干个数据子集,同时生成子集分析指令,通过子集分析模块接收到子集分析指令后获取数据子集的优先处理参数,通过模型训练平台根据优先处理参数获得优先处理系数,并根据优先处理系数获得数据子集分配名单,同时生成计算分析指令,通过计算分析模块接收到计算分析指令后获取分析节点的优先计算参数,通过模型训练平台根据优先计算参数获得优先计算系数,并根据优先计算系数获得计算节点分配名单,通过自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点进行对应,并利用分析节点对数据子集进行计算,待每个分析节点计算完成,通过结果显示模块将所有的计算结果进行汇合并显示,完成大模型训练,解决了现有的用于数据处理加速器的模糊大模型训练方法无法对训练用数据集进行处理并分析,也无法对处理数据的计算节点进行分析并智能选用,导致训练速度低,易于出现数据处理误差,导致难以保证训练结果的准确性和可靠性的问题。
本发明的目的可以通过以下技术方案实现:
一种基于大模型的数据协同处理方法,包括以下步骤:
步骤S1:用户利用数据输入模块将大模型训练用的数据集进行上传,并将数据集发送至模型训练平台;
步骤S2:模型训练平台将数据集分割若干个数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块;
步骤S3:子集分析模块接收到子集分析指令后获取数据子集的优先处理参数,优先处理参数包括数容值SR、均时值JT,并将优先处理参数发送至模型训练平台;
步骤S4:模型训练平台根据优先处理参数获得优先处理系数YC,并根据优先处理系数YC获得数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块;
步骤S5:计算分析模块接收到计算分析指令后获取分析节点i的优先计算参数,优先计算参数包括计算值JH、网速值WS以及存储值CC,并将优先计算参数发送至模型训练平台;
步骤S6:模型训练平台根据优先计算参数获得优先计算系数YJi,并根据优先计算系数YJi获得计算节点分配名单,并将计算节点分配名单发送至自动分配模块;
步骤S7:自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块;
步骤S8:结果显示模块将所有的计算结果进行汇合并显示,完成大模型训练。
作为本发明进一步的方案:所述模型训练平台将数据集分割的具体过程如下:
获取数据集中的所有数据的储存时刻,获取最早的储存时刻和最晚的储存时刻,并获得两者之间的时间段,并将其标记为储存时间段;
将储存时间段按照预设的分割时长进行分割,形成若干个分割时间段,将所有数据的储存时刻与分割时间段进行比对,若储存时刻∈分割时间段,则同一分割时间段中储存时刻对应的数据进行汇合,形成数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块。
作为本发明进一步的方案:所述子集分析模块获取优先处理参数的具体过程如下:
接收到子集分析指令后获取数据子集中的数据数量和数据所占容量,并将其分别标记为据数值JS和据容值JR进行量化处理,提取据数值JS和据容值JR的数值,并将其代入公式中计算,依据公式 得到数容值SR,其中,δ为预设的参数调节因子,取δ=2.35,j1、j2分别为设定的据数值JS和据容值JR对应的预设比例系数,j1、j2满足j1+j2=1.24,0<j2<j1<1,取j1=0.68,j2=0.56;
获取数据子集中的所有的数据的储存时刻与当前时刻,获得两者之间的时间差值,并将其标记为时长值SC,获取所有的时长值SC的平均值,并将其标记为均时值JT;
将数容值SR、均时值JT发送至模型训练平台。
作为本发明进一步的方案:所述模型训练平台获得数据子集分配名单的具体过程如下:
将数容值SR、均时值JT进行量化处理,提取数容值SR、均时值JT的数值,并将其代入公式中计算,依据公式 得到优先处理系数YC,其中,c1、c2分别为设定的数容值SR、均时值JT对应的预设权重因子,c1、c2满足c1>c2>1.573,取c1=2.11,c2=1.79;
将所有的数据子集按照优先处理系数YC从大到小的顺序进行排序,形成数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块。
作为本发明进一步的方案:所述计算分析模块获取优先计算参数的具体过程如下:
接收到计算分析指令后获取所有的计算节点,并将其依次标记为分析节点i,i=1、……、n,n为正整数;
获取分析节点i历史数据中单位时间内计算的数据数量和数据总字节数,并将其分别标记为算数值SS和算节值SJ,将算数值SS和算节值SJ进行量化处理,提取算数值SS和算节值SJ的数值,并将其代入公式中计算,依据公式得到计算值JH,其中,s1、s2分别为设定的算数值SS和算节值SJ对应的预设比例系数,s1、s2满足s1+s2=1,0<s1<s2<1,取s1=0.28,s2=0.72;
获取分析节点i的单位时间的平均网络速度,并将其标记为均速值JK,获取分析节点i的单位时间的最大网络速度和最小网络速度,获取两者之间的速度差值,并将其标记为差速值CS,将均速值JK、差速值CS进行量化处理,提取均速值JK、差速值CS的数值,并将其代入公式中计算,依据公式得到网速值WS,其中,w1、w2分别为设定的均速值JK、差速值CS对应的预设比例系数,w1、w2满足w1+w2=1,0<w2<w1<1,取w1=0.69,w2=0.31;
获取分析节点i的最大存储容量和剩余存储容量,并将其分别标记为储容值CR和余容值YR,将储容值CR和余容值YR进行量化处理,提取储容值CR和余容值YR的数值,并将其代入公式中计算,依据公式得到存储值CC,其中,r1、r2分别为设定的储容值CR和余容值YR对应的预设比例系数,r1、r2满足r1+r2=1,0<r1<r2<1,取r1=0.35,r2=0.65;
将计算值JH、网速值WS以及存储值CC发送至模型训练平台。
作为本发明进一步的方案:所述模型训练平台获得计算节点分配名单的具体过程如下:
获取计算值JH、网速值WS以及存储值CC三者的乘积,并将其标记为优先计算系数YJi;
将所有的分析节点i按照优先计算系数YJi从大到小的顺序进行排序,形成计算节点分配名单,并将计算节点分配名单发送至自动分配模块。
作为本发明进一步的方案:所述自动分配模块将数据子集和分析节点i进行对应的具体过程如下:
获取数据子集分配名单中各个数据子集和计算节点分配名单中各个分析节点i的序号,并将相同序号的数据子集和分析节点i进行一一对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块。
本发明的有益效果:
(1)本发明用户利用数据输入模块将大模型训练用的数据集进行上传,通过模型训练平台将数据集分割若干个数据子集,同时生成子集分析指令,通过子集分析模块接收到子集分析指令后获取数据子集的优先处理参数,通过模型训练平台根据优先处理参数获得优先处理系数,并根据优先处理系数获得数据子集分配名单,同时生成计算分析指令,通过计算分析模块接收到计算分析指令后获取分析节点的优先计算参数,通过模型训练平台根据优先计算参数获得优先计算系数,并根据优先计算系数获得计算节点分配名单,通过自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点进行对应,并利用分析节点对数据子集进行计算,待每个分析节点计算完成,通过结果显示模块将所有的计算结果进行汇合并显示,完成大模型训练;
(2)本发明大模型用数据协同处理方法首先将大模型训练用的数据集进行分割成数据子集,并对数据子集进行数据采集与分析,获取优先处理参数,根据优先处理参数获得的优先处理系数能够综合衡量数据子集的优先处理程度,也间接反映其处理难度,且优先处理系数越大表示优先处理程度越高,之后对处理数据的计算节点进行数据采集与分析,获取优先计算参数,根据优先计算参数获得的优先计算系数能够综合衡量计算节点的优先计算程度,也间接反映其数据处理能力,最终通过排序的序号将数据子集和计算节点进行对应,并令所有的计算节点同时对数据子集进行数据处理,最终将处理结果汇合并显示;
(3)本发明大模型数据协同处理采用分布式计算和数据并行处理技术,能够充分利用计算资源的优势,提高训练效率,而且选用性能好的计算节点进行数据处理,能够提高大模型的训练速度,减少数据处理误差,进而能够保证训练结果的准确性和可靠性,
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明中实施例一种基于大模型的数据协同处理系统的原理框图;
图2是本发明中实施例一种基于大模型的数据协同处理方法的工艺流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请实施例1
请参阅图1所示,本实施例为一种基于大模型的数据协同处理系统,包括以下模块:数据输入模块、模型训练平台、子集分析模块、计算分析模块、自动分配模块以及结果显示模块;
其中,所述数据输入模块用于用户将大模型训练用的数据集进行上传,并将数据集发送至模型训练平台;
其中,所述模型训练平台用于将数据集分割若干个数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块;还用于根据优先处理参数获得优先处理系数YC,并根据优先处理系数YC获得数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块;还用于根据优先计算参数获得优先计算系数YJi,并根据优先计算系数YJi获得计算节点分配名单,并将计算节点分配名单发送至自动分配模块;
其中,所述子集分析模块用于接收到子集分析指令后获取数据子集的优先处理参数,并将优先处理参数发送至模型训练平台;其中,优先处理参数包括数容值SR、均时值JT;
其中,所述计算分析模块用于接收到计算分析指令后获取分析节点i的优先计算参数,并将优先计算参数发送至模型训练平台;其中,优先计算参数包括计算值JH、网速值WS以及存储值CC;
其中,所述自动分配模块用于根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块;
其中,所述结果显示模块用于将所有的计算结果进行汇合并显示,完成大模型训练。
实施例2:
请参阅图2所示,本实施例为一种基于大模型的数据协同处理方法,包括以下步骤:
步骤S1:用户利用数据输入模块将大模型训练用的数据集进行上传,并将数据集发送至模型训练平台;
步骤S2:模型训练平台将数据集分割若干个数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块;
步骤S3:子集分析模块接收到子集分析指令后获取数据子集的优先处理参数,优先处理参数包括数容值SR、均时值JT,并将优先处理参数发送至模型训练平台;
步骤S4:模型训练平台根据优先处理参数获得优先处理系数YC,并根据优先处理系数YC获得数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块;
步骤S5:计算分析模块接收到计算分析指令后获取分析节点i的优先计算参数,优先计算参数包括计算值JH、网速值WS以及存储值CC,并将优先计算参数发送至模型训练平台;
步骤S6:模型训练平台根据优先计算参数获得优先计算系数YJi,并根据优先计算系数YJi获得计算节点分配名单,并将计算节点分配名单发送至自动分配模块;
步骤S7:自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块;
步骤S8:结果显示模块将所有的计算结果进行汇合并显示,完成大模型训练。
实施例3:
基于上述任一实施例,本发明实施例3为模型训练平台,模型训练平台具有三个作用;
其一的作用是为了将数据集分割若干个数据子集,具体过程如下:
模型训练平台获取数据集中的所有数据的储存时刻,获取最早的储存时刻和最晚的储存时刻,并获得两者之间的时间段,并将其标记为储存时间段;
模型训练平台将储存时间段按照预设的分割时长进行分割,形成若干个分割时间段,将所有数据的储存时刻与分割时间段进行比对,若储存时刻∈分割时间段,则同一分割时间段中储存时刻对应的数据进行汇合,形成数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块;
其二的作用是为了获得数据子集分配名单,具体过程如下:
模型训练平台将数容值SR、均时值JT进行量化处理,提取数容值SR、均时值JT的数值,并将其代入公式中计算,依据公式得到优先处理系数YC,其中,c1、c2分别为设定的数容值SR、均时值JT对应的预设权重因子,c1、c2满足c1>c2>1.573,取c1=2.11,c2=1.79;
模型训练平台将所有的数据子集按照优先处理系数YC从大到小的顺序进行排序,形成数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块;
其三的作用是为了获得计算节点分配名单,具体过程如下:
模型训练平台获取计算值JH、网速值WS以及存储值CC三者的乘积,并将其标记为优先计算系数YJi;
模型训练平台将所有的分析节点i按照优先计算系数YJi从大到小的顺序进行排序,形成计算节点分配名单,并将计算节点分配名单发送至自动分配模块。
实施例4:
基于上述任一实施例,本发明实施例4为子集分析模块,子集分析模块的作用是为了获取优先处理参数,其中,优先处理参数包括数容值SR、均时值JT,具体过程如下:
子集分析模块接收到子集分析指令后获取数据子集中的数据数量和数据所占容量,并将其分别标记为据数值JS和据容值JR进行量化处理,提取据数值JS和据容值JR的数值,并将其代入公式中计算,依据公式得到数容值SR,其中,δ为预设的参数调节因子,取δ=2.35,j1、j2分别为设定的据数值JS和据容值JR对应的预设比例系数,j1、j2满足j1+j2=1.24,0<j2<j1<1,取j1=0.68,j2=0.56;
子集分析模块获取数据子集中的所有的数据的储存时刻与当前时刻,获得两者之间的时间差值,并将其标记为时长值SC,获取所有的时长值SC的平均值,并将其标记为均时值JT;
子集分析模块将数容值SR、均时值JT发送至模型训练平台。
实施例5:
基于上述任一实施例,本发明实施例5为计算分析模块,计算分析模块的作用是为了获取优先计算参数,其中,优先计算参数包括计算值JH、网速值WS以及存储值CC,具体过程如下:
计算分析模块接收到计算分析指令后获取所有的计算节点,并将其依次标记为分析节点i,i=1、……、n,n为正整数;
计算分析模块获取分析节点i历史数据中单位时间内计算的数据数量和数据总字节数,并将其分别标记为算数值SS和算节值SJ,将算数值SS和算节值SJ进行量化处理,提取算数值SS和算节值SJ的数值,并将其代入公式中计算,依据公式得到计算值JH,其中,s1、s2分别为设定的算数值SS和算节值SJ对应的预设比例系数,s1、s2满足s1+s2=1,0<s1<s2<1,取s1=0.28,s2=0.72;
计算分析模块获取分析节点i的单位时间的平均网络速度,并将其标记为均速值JK,获取分析节点i的单位时间的最大网络速度和最小网络速度,获取两者之间的速度差值,并将其标记为差速值CS,将均速值JK、差速值CS进行量化处理,提取均速值JK、差速值CS的数值,并将其代入公式中计算,依据公式得到网速值WS,其中,w1、w2分别为设定的均速值JK、差速值CS对应的预设比例系数,w1、w2满足w1+w2=1,0<w2<w1<1,取w1=0.69,w2=0.31;
计算分析模块获取分析节点i的最大存储容量和剩余存储容量,并将其分别标记为储容值CR和余容值YR,将储容值CR和余容值YR进行量化处理,提取储容值CR和余容值YR的数值,并将其代入公式中计算,依据公式得到存储值CC,其中,r1、r2分别为设定的储容值CR和余容值YR对应的预设比例系数,r1、r2满足r1+r2=1,0<r1<r2<1,取r1=0.35,r2=0.65;
计算分析模块将计算值JH、网速值WS以及存储值CC发送至模型训练平台。
实施例6:
基于上述任一实施例,本发明实施例6为自动分配模块,自动分配模块的作用是为了将数据子集和分析节点i进行对应,具体过程如下:
自动分配模块获取数据子集分配名单中各个数据子集和计算节点分配名单中各个分析节点i的序号,并将相同序号的数据子集和分析节点i进行一一对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块。
基于实施例1-6,本发明的工作原理如下:
该大模型用数据协同处理方法首先将大模型训练用的数据集进行分割成数据子集,并对数据子集进行数据采集与分析,获取优先处理参数,根据优先处理参数获得的优先处理系数能够综合衡量数据子集的优先处理程度,也间接反映其处理难度,且优先处理系数越大表示优先处理程度越高,之后对处理数据的计算节点进行数据采集与分析,获取优先计算参数,根据优先计算参数获得的优先计算系数能够综合衡量计算节点的优先计算程度,也间接反映其数据处理能力,最终通过排序的序号将数据子集和计算节点进行对应,并令所有的计算节点同时对数据子集进行数据处理,最终将处理结果汇合并显示;本发明的大模型用数据协同处理方法采用分布式计算和数据并行处理技术,能够充分利用计算资源的优势,提高训练效率,而且选用性能好的计算节点进行数据处理,能够提高大模型的训练速度,减少数据处理误差,进而能够保证训练结果的准确性和可靠性。
还需要进一步说明的是,上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (10)

1.一种基于大模型的数据协同处理方法,其特征在于,包括以下步骤:
步骤S1:用户利用数据输入模块将大模型训练用的数据集进行上传,并将数据集发送至模型训练平台;
步骤S2:模型训练平台将数据集分割若干个数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块;
步骤S3:子集分析模块接收到子集分析指令后获取数据子集的优先处理参数,优先处理参数包括数容值SR、均时值JT,并将优先处理参数发送至模型训练平台;
步骤S4:模型训练平台根据优先处理参数获得优先处理系数YC,并根据优先处理系数YC获得数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块;
步骤S5:计算分析模块接收到计算分析指令后获取分析节点i的优先计算参数,优先计算参数包括计算值JH、网速值WS以及存储值CC,并将优先计算参数发送至模型训练平台;
步骤S6:模型训练平台根据优先计算参数获得优先计算系数YJi,并根据优先计算系数YJi获得计算节点分配名单,并将计算节点分配名单发送至自动分配模块;
步骤S7:自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块;
步骤S8:结果显示模块将所有的计算结果进行汇合并显示,完成大模型训练。
2.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,所述模型训练平台将数据集分割的具体过程如下:
获取数据集中的所有数据的储存时刻,获取最早的储存时刻和最晚的储存时刻,并获得两者之间的时间段,并将其标记为储存时间段;
将储存时间段按照预设的分割时长进行分割,形成若干个分割时间段,将所有数据的储存时刻与分割时间段进行比对,若储存时刻∈分割时间段,则同一分割时间段中储存时刻对应的数据进行汇合,形成数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块。
3.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,所述子集分析模块获取优先处理参数的具体过程如下:
接收到子集分析指令后获取数据子集中的数据数量和数据所占容量,并将其分别标记为据数值JS和据容值JR进行量化处理,依据公式 得到数容值SR,其中,δ为预设的参数调节因子,j1、j2分别为设定的据数值JS和据容值JR对应的预设比例系数。
4.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,获取数据子集中的所有的数据的储存时刻与当前时刻,获得两者之间的时间差值,并将其标记为时长值SC,获取所有的时长值SC的平均值,并将其标记为均时值JT;
将数容值SR、均时值JT发送至模型训练平台。
5.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,所述模型训练平台获得数据子集分配名单的具体过程如下:
将数容值SR、均时值JT进行量化处理,依据公式得到优先处理系数YC,其中,c1、c2分别为设定的数容值SR、均时值JT对应的预设权重因子;
将所有的数据子集按照优先处理系数YC从大到小的顺序进行排序,形成数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块。
6.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,所述计算分析模块获取优先计算参数的具体过程如下:
接收到计算分析指令后获取所有的计算节点,并将其依次标记为分析节点i,i=1、……、n,n为正整数;
获取分析节点i历史数据中单位时间内计算的数据数量和数据总字节数,并将其分别标记为算数值SS和算节值SJ,将算数值SS和算节值SJ进行量化处理,依据公式得到计算值JH,其中,s1、s2分别为设定的算数值SS和算节值SJ对应的预设比例系数;
获取分析节点i的单位时间的平均网络速度,并将其标记为均速值JK,获取分析节点i的单位时间的最大网络速度和最小网络速度,获取两者之间的速度差值,并将其标记为差速值CS,将均速值JK、差速值CS进行量化处理,依据公式得到网速值WS,其中,w1、w2分别为设定的均速值JK、差速值CS对应的预设比例系数;
获取分析节点i的最大存储容量和剩余存储容量,并将其分别标记为储容值CR和余容值YR,将储容值CR和余容值YR进行量化处理,依据公式得到存储值CC,其中,r1、r2分别为设定的储容值CR和余容值YR对应的预设比例系数;
将计算值JH、网速值WS以及存储值CC发送至模型训练平台。
7.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,所述模型训练平台获得计算节点分配名单的具体过程如下:
获取计算值JH、网速值WS以及存储值CC三者的乘积,并将其标记为优先计算系数YJi;
将所有的分析节点i按照优先计算系数YJi从大到小的顺序进行排序,形成计算节点分配名单,并将计算节点分配名单发送至自动分配模块。
8.根据权利要求1所述的一种基于大模型的数据协同处理方法,其特征在于,所述自动分配模块将数据子集和分析节点i进行对应的具体过程如下:
获取数据子集分配名单中各个数据子集和计算节点分配名单中各个分析节点i的序号,并将相同序号的数据子集和分析节点i进行一一对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块。
9.一种基于大模型的数据协同处理系统,其特征在于,包括数据输入模块、模型训练平台、子集分析模块、计算分析模块、自动分配模块以及结果显示模块;
所述数据输入模块用于用户将大模型训练用的数据集进行上传,并将数据集发送至模型训练平台;
所述模型训练平台用于将数据集分割若干个数据子集,同时生成子集分析指令,并将子集分析指令发送至子集分析模块;还用于根据优先处理参数获得优先处理系数YC,并根据优先处理系数YC获得数据子集分配名单,并将数据子集分配名单发送至自动分配模块,同时生成计算分析指令,并将计算分析指令发送至计算分析模块;还用于根据优先计算参数获得优先计算系数YJi,并根据优先计算系数YJi获得计算节点分配名单,并将计算节点分配名单发送至自动分配模块;
所述子集分析模块用于接收到子集分析指令后获取数据子集的优先处理参数,并将优先处理参数发送至模型训练平台;
所述计算分析模块用于接收到计算分析指令后获取分析节点i的优先计算参数,并将优先计算参数发送至模型训练平台;
所述自动分配模块用于根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应,并利用分析节点i对数据子集进行计算,待每个分析节点i计算完成,将计算结果发送至结果显示模块。
10.根据权利要求9所述的一种基于大模型的数据协同处理系统,其特征在于,所述结果显示模块用于将所有的计算结果进行汇合并显示,完成大模型训练。
CN202410094601.7A 2024-01-24 2024-01-24 一种基于大模型的数据协同处理方法及系统 Active CN117608866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410094601.7A CN117608866B (zh) 2024-01-24 2024-01-24 一种基于大模型的数据协同处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410094601.7A CN117608866B (zh) 2024-01-24 2024-01-24 一种基于大模型的数据协同处理方法及系统

Publications (2)

Publication Number Publication Date
CN117608866A true CN117608866A (zh) 2024-02-27
CN117608866B CN117608866B (zh) 2024-05-03

Family

ID=89958352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410094601.7A Active CN117608866B (zh) 2024-01-24 2024-01-24 一种基于大模型的数据协同处理方法及系统

Country Status (1)

Country Link
CN (1) CN117608866B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918184A (zh) * 2019-03-01 2019-06-21 腾讯科技(深圳)有限公司 图片处理系统、方法及相关装置和设备
CN115437760A (zh) * 2022-07-26 2022-12-06 北京旷视科技有限公司 计算资源分配方法、电子设备、存储介质及程序产品
DE102022102501B3 (de) * 2022-02-03 2023-04-27 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zur Ermittlung einer Bewertung über die Funktionsfähigkeit einer Komponente eines Kraftfahrzeugs
CN116368355A (zh) * 2021-09-05 2023-06-30 汉熵通信有限公司 物联网系统
CN116679879A (zh) * 2023-06-07 2023-09-01 何晓华 一种卫星遥感数据的处理方法、系统及云平台
CN116910335A (zh) * 2023-07-06 2023-10-20 北京凡蒂科贸有限公司 一种基于网页标签分析的数据采集方法及系统
CN116992275A (zh) * 2022-09-08 2023-11-03 中移动信息技术有限公司 资源分配推理模型训练方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918184A (zh) * 2019-03-01 2019-06-21 腾讯科技(深圳)有限公司 图片处理系统、方法及相关装置和设备
CN116368355A (zh) * 2021-09-05 2023-06-30 汉熵通信有限公司 物联网系统
DE102022102501B3 (de) * 2022-02-03 2023-04-27 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zur Ermittlung einer Bewertung über die Funktionsfähigkeit einer Komponente eines Kraftfahrzeugs
CN115437760A (zh) * 2022-07-26 2022-12-06 北京旷视科技有限公司 计算资源分配方法、电子设备、存储介质及程序产品
CN116992275A (zh) * 2022-09-08 2023-11-03 中移动信息技术有限公司 资源分配推理模型训练方法、装置、设备及介质
CN116679879A (zh) * 2023-06-07 2023-09-01 何晓华 一种卫星遥感数据的处理方法、系统及云平台
CN116910335A (zh) * 2023-07-06 2023-10-20 北京凡蒂科贸有限公司 一种基于网页标签分析的数据采集方法及系统

Also Published As

Publication number Publication date
CN117608866B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
Ascoli et al. Computer generation and quantitative morphometric analysis of virtual neurons
CN100456281C (zh) 数据划分设备和数据划分方法
CN111680820A (zh) 分布式光伏电站故障诊断方法和装置
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN111756587B (zh) 一种采用GraphSAGE预测时序网络链路的方法
CN115274025B (zh) 锂离子电池浆料黏度预测方法、装置及相关设备
CN110309955A (zh) 一种云环境应用系统非停机升级时的负载预测方法及装置
CN113139880A (zh) 风电机组实际功率曲线拟合方法、装置、设备及存储介质
CN112965813A (zh) 一种ai平台资源调控方法、系统及介质
CN110232130B (zh) 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN113746798A (zh) 基于多维度分析的云网络共享资源异常根因定位方法
CN113326132A (zh) 一种信息调节方法、设备及存储介质
CN117608866B (zh) 一种基于大模型的数据协同处理方法及系统
CN111538859A (zh) 一种动态更新视频标签的方法、装置及电子设备
CN116680969A (zh) 一种pso-bp算法的充填体评估参数预测方法及装置
CN114205355B (zh) 一种变电网关附属设备性能测试方法、系统及电子设备
CN112149826B (zh) 深度神经网络推理计算中一种基于Profile图的优化方法
CN108920810A (zh) 基于大数据架构的电力仿真方法
CN114997417A (zh) 一种函数级作业分布式智能分解方法
CN110134575B (zh) 一种服务器集群的服务能力计算方法及装置
CN113971454A (zh) 深度学习模型的量化方法和相关装置
CN118694672B (zh) 一种基于人工智能的集群运维管理系统及方法
CN117742966B (zh) 一种基于边缘计算的计算模式生成方法、系统及存储介质
CN115114983B (zh) 基于大数据设备电量数据采集分析方法、计算机系统
CN117435308B (zh) 一种基于并行计算算法的Modelica模型仿真方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant