CN117608866B

CN117608866B - 一种基于大模型的数据协同处理方法及系统

Info

Publication number: CN117608866B
Application number: CN202410094601.7A
Authority: CN
Inventors: 曹萍; 张琦; 崔勇雷; 刘大鹏
Original assignee: Shandong Boshangyuan Information Technology Development Co ltd
Current assignee: Shandong Boshangyuan Information Technology Development Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-05-03
Anticipated expiration: 2044-01-24
Also published as: CN117608866A

Abstract

本发明涉及数据处理领域，公开了一种基于大模型的数据协同处理方法及系统，解决了现有的用于数据处理加速器的模糊大模型训练方法无法对训练用数据集进行处理并分析，也无法对处理数据的计算节点进行分析并智能选用，导致训练速度低且难以保证训练结果的准确性和可靠性的问题；该大模型用数据处理方法包括以下模块：数据输入模块、模型训练平台、子集分析模块、计算分析模块、自动分配模块以及结果显示模块；本发明采用分布式计算和数据并行处理技术，能够充分利用计算资源的优势，提高训练效率，而且选用性能好的计算节点进行数据处理，能够提高大模型的数据处理速度，减少数据处理误差，进而能够保证数据处理的准确性和可靠性。

Description

一种基于大模型的数据协同处理方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于大模型的数据协同处理方法及系统。

背景技术

随着人工智能技术的不断发展，大模型在各个领域的应用越来越广泛。然而，大模型的训练过程通常需要大量的计算资源和时间，使得数据协同处理成为了一个重要的问题。

申请号为CN202010512196.8的专利公开了一种云端混合加速器的调度方法、计算机设备及存储介质，涉及人工智能技术。该方法包括：接收客户端发送的模型并行值；根据模型并行值和异构的加速器资源确定环境变量；根据环境变量确定加速器拓扑信息；根据拓扑信息和环境变量调度加速器执行模型训练任务。能够根据客户端发送的模型并行值，计算异构加速器场景中加速器使用的环境变量，根据环境变量确定异构场景的加速器拓扑信息，根据该拓扑信息和环境变量调度异构的AI加速器执行AI模型训练，进而实现多个代际的AI加速器联合执行AI模型训练任务。

但仍然存在以下不足之处：无法对训练用数据集进行处理并分析，也无法对处理数据的计算节点进行分析并智能选用，导致训练速度低，易于出现数据处理误差，导致难以保证训练结果的准确性和可靠性，因此，开发一种基于大模型的数据协同处理方法及系统，能够提高数据协同处理速度并保证训练结果的准确性和可靠性，具有重要的现实意义。

发明内容

本发明的目的在于提供一种基于大模型的数据协同处理方法及系统，用户利用数据输入模块将大模型训练用的数据集进行上传，通过模型训练平台将数据集分割若干个数据子集，同时生成子集分析指令，通过子集分析模块接收到子集分析指令后获取数据子集的优先处理参数，通过模型训练平台根据优先处理参数获得优先处理系数，并根据优先处理系数获得数据子集分配名单，同时生成计算分析指令，通过计算分析模块接收到计算分析指令后获取分析节点的优先计算参数，通过模型训练平台根据优先计算参数获得优先计算系数，并根据优先计算系数获得计算节点分配名单，通过自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点进行对应，并利用分析节点对数据子集进行计算，待每个分析节点计算完成，通过结果显示模块将所有的计算结果进行汇合并显示，完成大模型训练，解决了现有的用于数据处理加速器的模糊大模型训练方法无法对训练用数据集进行处理并分析，也无法对处理数据的计算节点进行分析并智能选用，导致训练速度低，易于出现数据处理误差，导致难以保证训练结果的准确性和可靠性的问题。

本发明的目的可以通过以下技术方案实现：

一种基于大模型的数据协同处理方法，包括以下步骤：

步骤S1：用户利用数据输入模块将大模型训练用的数据集进行上传，并将数据集发送至模型训练平台；

步骤S2：模型训练平台将数据集分割若干个数据子集，同时生成子集分析指令，并将子集分析指令发送至子集分析模块；

步骤S3：子集分析模块接收到子集分析指令后获取数据子集的优先处理参数，优先处理参数包括数容值SR、均时值JT，并将优先处理参数发送至模型训练平台；

步骤S4：模型训练平台根据优先处理参数获得优先处理系数YC，并根据优先处理系数YC获得数据子集分配名单，并将数据子集分配名单发送至自动分配模块，同时生成计算分析指令，并将计算分析指令发送至计算分析模块；

步骤S5：计算分析模块接收到计算分析指令后获取分析节点i的优先计算参数，优先计算参数包括计算值JH、网速值WS以及存储值CC，并将优先计算参数发送至模型训练平台；

步骤S6：模型训练平台根据优先计算参数获得优先计算系数YJi，并根据优先计算系数YJi获得计算节点分配名单，并将计算节点分配名单发送至自动分配模块；

步骤S7：自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应，并利用分析节点i对数据子集进行计算，待每个分析节点i计算完成，将计算结果发送至结果显示模块；

步骤S8：结果显示模块将所有的计算结果进行汇合并显示，完成大模型训练。

作为本发明进一步的方案：所述模型训练平台将数据集分割的具体过程如下：

获取数据集中的所有数据的储存时刻，获取最早的储存时刻和最晚的储存时刻，并获得两者之间的时间段，并将其标记为储存时间段；

将储存时间段按照预设的分割时长进行分割，形成若干个分割时间段，将所有数据的储存时刻与分割时间段进行比对，若储存时刻∈分割时间段，则同一分割时间段中储存时刻对应的数据进行汇合，形成数据子集，同时生成子集分析指令，并将子集分析指令发送至子集分析模块。

作为本发明进一步的方案：所述子集分析模块获取优先处理参数的具体过程如下：

接收到子集分析指令后获取数据子集中的数据数量和数据所占容量，并将其分别标记为据数值JS和据容值JR进行量化处理，提取据数值JS和据容值JR的数值，并将其代入公式中计算，依据公式得到数容值SR，其中，δ为预设的参数调节因子，取δ=2.35，j1、j2分别为设定的据数值JS和据容值JR对应的预设比例系数，j1、j2满足j1+j2=1.24，0＜j2＜j1＜1，取j1=0.68，j2=0.56；

获取数据子集中的所有的数据的储存时刻与当前时刻，获得两者之间的时间差值，并将其标记为时长值SC，获取所有的时长值SC的平均值，并将其标记为均时值JT；

将数容值SR、均时值JT发送至模型训练平台。

作为本发明进一步的方案：所述模型训练平台获得数据子集分配名单的具体过程如下：

将数容值SR、均时值JT进行量化处理，提取数容值SR、均时值JT的数值，并将其代入公式中计算，依据公式得到优先处理系数YC，其中，c1、c2分别为设定的数容值SR、均时值JT对应的预设权重因子，c1、c2满足c1＞c2＞1.573，取c1=2.11，c2=1.79；

将所有的数据子集按照优先处理系数YC从大到小的顺序进行排序，形成数据子集分配名单，并将数据子集分配名单发送至自动分配模块，同时生成计算分析指令，并将计算分析指令发送至计算分析模块。

作为本发明进一步的方案：所述计算分析模块获取优先计算参数的具体过程如下：

接收到计算分析指令后获取所有的计算节点，并将其依次标记为分析节点i，i=1、……、n，n为正整数；

获取分析节点i历史数据中单位时间内计算的数据数量和数据总字节数，并将其分别标记为算数值SS和算节值SJ，将算数值SS和算节值SJ进行量化处理，提取算数值SS和算节值SJ的数值，并将其代入公式中计算，依据公式得到计算值JH，其中，s1、s2分别为设定的算数值SS和算节值SJ对应的预设比例系数，s1、s2满足s1+s2=1，0＜s1＜s2＜1，取s1=0.28，s2=0.72；

获取分析节点i的单位时间的平均网络速度，并将其标记为均速值JK，获取分析节点i的单位时间的最大网络速度和最小网络速度，获取两者之间的速度差值，并将其标记为差速值CS，将均速值JK、差速值CS进行量化处理，提取均速值JK、差速值CS的数值，并将其代入公式中计算，依据公式得到网速值WS，其中，w1、w2分别为设定的均速值JK、差速值CS对应的预设比例系数，w1、w2满足w1+w2=1，0＜w2＜w1＜1，取w1=0.69，w2=0.31；

获取分析节点i的最大存储容量和剩余存储容量，并将其分别标记为储容值CR和余容值YR，将储容值CR和余容值YR进行量化处理，提取储容值CR和余容值YR的数值，并将其代入公式中计算，依据公式得到存储值CC，其中，r1、r2分别为设定的储容值CR和余容值YR对应的预设比例系数，r1、r2满足r1+r2=1，0＜r1＜r2＜1，取r1=0.35，r2=0.65；

将计算值JH、网速值WS以及存储值CC发送至模型训练平台。

作为本发明进一步的方案：所述模型训练平台获得计算节点分配名单的具体过程如下：

获取计算值JH、网速值WS以及存储值CC三者的乘积，并将其标记为优先计算系数YJi；

将所有的分析节点i按照优先计算系数YJi从大到小的顺序进行排序，形成计算节点分配名单，并将计算节点分配名单发送至自动分配模块。

作为本发明进一步的方案：所述自动分配模块将数据子集和分析节点i进行对应的具体过程如下：

获取数据子集分配名单中各个数据子集和计算节点分配名单中各个分析节点i的序号，并将相同序号的数据子集和分析节点i进行一一对应，并利用分析节点i对数据子集进行计算，待每个分析节点i计算完成，将计算结果发送至结果显示模块。

本发明的有益效果：

（1）本发明用户利用数据输入模块将大模型训练用的数据集进行上传，通过模型训练平台将数据集分割若干个数据子集，同时生成子集分析指令，通过子集分析模块接收到子集分析指令后获取数据子集的优先处理参数，通过模型训练平台根据优先处理参数获得优先处理系数，并根据优先处理系数获得数据子集分配名单，同时生成计算分析指令，通过计算分析模块接收到计算分析指令后获取分析节点的优先计算参数，通过模型训练平台根据优先计算参数获得优先计算系数，并根据优先计算系数获得计算节点分配名单，通过自动分配模块根据数据子集分配名单和计算节点分配名单将数据子集和分析节点进行对应，并利用分析节点对数据子集进行计算，待每个分析节点计算完成，通过结果显示模块将所有的计算结果进行汇合并显示，完成大模型训练；

（2）本发明大模型用数据协同处理方法首先将大模型训练用的数据集进行分割成数据子集，并对数据子集进行数据采集与分析，获取优先处理参数，根据优先处理参数获得的优先处理系数能够综合衡量数据子集的优先处理程度，也间接反映其处理难度，且优先处理系数越大表示优先处理程度越高，之后对处理数据的计算节点进行数据采集与分析，获取优先计算参数，根据优先计算参数获得的优先计算系数能够综合衡量计算节点的优先计算程度，也间接反映其数据处理能力，最终通过排序的序号将数据子集和计算节点进行对应，并令所有的计算节点同时对数据子集进行数据处理，最终将处理结果汇合并显示；

（3）本发明大模型数据协同处理采用分布式计算和数据并行处理技术，能够充分利用计算资源的优势，提高训练效率，而且选用性能好的计算节点进行数据处理，能够提高大模型的训练速度，减少数据处理误差，进而能够保证训练结果的准确性和可靠性，

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明中实施例一种基于大模型的数据协同处理系统的原理框图；

图2是本发明中实施例一种基于大模型的数据协同处理方法的工艺流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请实施例1

请参阅图1所示，本实施例为一种基于大模型的数据协同处理系统，包括以下模块：数据输入模块、模型训练平台、子集分析模块、计算分析模块、自动分配模块以及结果显示模块；

其中，所述数据输入模块用于用户将大模型训练用的数据集进行上传，并将数据集发送至模型训练平台；

其中，所述模型训练平台用于将数据集分割若干个数据子集，同时生成子集分析指令，并将子集分析指令发送至子集分析模块；还用于根据优先处理参数获得优先处理系数YC，并根据优先处理系数YC获得数据子集分配名单，并将数据子集分配名单发送至自动分配模块，同时生成计算分析指令，并将计算分析指令发送至计算分析模块；还用于根据优先计算参数获得优先计算系数YJi，并根据优先计算系数YJi获得计算节点分配名单，并将计算节点分配名单发送至自动分配模块；

其中，所述子集分析模块用于接收到子集分析指令后获取数据子集的优先处理参数，并将优先处理参数发送至模型训练平台；其中，优先处理参数包括数容值SR、均时值JT；

其中，所述计算分析模块用于接收到计算分析指令后获取分析节点i的优先计算参数，并将优先计算参数发送至模型训练平台；其中，优先计算参数包括计算值JH、网速值WS以及存储值CC；

其中，所述自动分配模块用于根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应，并利用分析节点i对数据子集进行计算，待每个分析节点i计算完成，将计算结果发送至结果显示模块；

其中，所述结果显示模块用于将所有的计算结果进行汇合并显示，完成大模型训练。

实施例2：

请参阅图2所示，本实施例为一种基于大模型的数据协同处理方法，包括以下步骤：

实施例3：

基于上述任一实施例，本发明实施例3为模型训练平台，模型训练平台具有三个作用；

其一的作用是为了将数据集分割若干个数据子集，具体过程如下：

模型训练平台获取数据集中的所有数据的储存时刻，获取最早的储存时刻和最晚的储存时刻，并获得两者之间的时间段，并将其标记为储存时间段；

模型训练平台将储存时间段按照预设的分割时长进行分割，形成若干个分割时间段，将所有数据的储存时刻与分割时间段进行比对，若储存时刻∈分割时间段，则同一分割时间段中储存时刻对应的数据进行汇合，形成数据子集，同时生成子集分析指令，并将子集分析指令发送至子集分析模块；

其二的作用是为了获得数据子集分配名单，具体过程如下：

模型训练平台将数容值SR、均时值JT进行量化处理，提取数容值SR、均时值JT的数值，并将其代入公式中计算，依据公式得到优先处理系数YC，其中，c1、c2分别为设定的数容值SR、均时值JT对应的预设权重因子，c1、c2满足c1＞c2＞1.573，取c1=2.11，c2=1.79；

模型训练平台将所有的数据子集按照优先处理系数YC从大到小的顺序进行排序，形成数据子集分配名单，并将数据子集分配名单发送至自动分配模块，同时生成计算分析指令，并将计算分析指令发送至计算分析模块；

其三的作用是为了获得计算节点分配名单，具体过程如下：

模型训练平台获取计算值JH、网速值WS以及存储值CC三者的乘积，并将其标记为优先计算系数YJi；

模型训练平台将所有的分析节点i按照优先计算系数YJi从大到小的顺序进行排序，形成计算节点分配名单，并将计算节点分配名单发送至自动分配模块。

实施例4：

基于上述任一实施例，本发明实施例4为子集分析模块，子集分析模块的作用是为了获取优先处理参数，其中，优先处理参数包括数容值SR、均时值JT，具体过程如下：

子集分析模块接收到子集分析指令后获取数据子集中的数据数量和数据所占容量，并将其分别标记为据数值JS和据容值JR进行量化处理，提取据数值JS和据容值JR的数值，并将其代入公式中计算，依据公式得到数容值SR，其中，δ为预设的参数调节因子，取δ=2.35，j1、j2分别为设定的据数值JS和据容值JR对应的预设比例系数，j1、j2满足j1+j2=1.24，0＜j2＜j1＜1，取j1=0.68，j2=0.56；

子集分析模块获取数据子集中的所有的数据的储存时刻与当前时刻，获得两者之间的时间差值，并将其标记为时长值SC，获取所有的时长值SC的平均值，并将其标记为均时值JT；

子集分析模块将数容值SR、均时值JT发送至模型训练平台。

实施例5：

基于上述任一实施例，本发明实施例5为计算分析模块，计算分析模块的作用是为了获取优先计算参数，其中，优先计算参数包括计算值JH、网速值WS以及存储值CC，具体过程如下：

计算分析模块接收到计算分析指令后获取所有的计算节点，并将其依次标记为分析节点i，i=1、……、n，n为正整数；

计算分析模块获取分析节点i历史数据中单位时间内计算的数据数量和数据总字节数，并将其分别标记为算数值SS和算节值SJ，将算数值SS和算节值SJ进行量化处理，提取算数值SS和算节值SJ的数值，并将其代入公式中计算，依据公式得到计算值JH，其中，s1、s2分别为设定的算数值SS和算节值SJ对应的预设比例系数，s1、s2满足s1+s2=1，0＜s1＜s2＜1，取s1=0.28，s2=0.72；

计算分析模块获取分析节点i的单位时间的平均网络速度，并将其标记为均速值JK，获取分析节点i的单位时间的最大网络速度和最小网络速度，获取两者之间的速度差值，并将其标记为差速值CS，将均速值JK、差速值CS进行量化处理，提取均速值JK、差速值CS的数值，并将其代入公式中计算，依据公式得到网速值WS，其中，w1、w2分别为设定的均速值JK、差速值CS对应的预设比例系数，w1、w2满足w1+w2=1，0＜w2＜w1＜1，取w1=0.69，w2=0.31；

计算分析模块获取分析节点i的最大存储容量和剩余存储容量，并将其分别标记为储容值CR和余容值YR，将储容值CR和余容值YR进行量化处理，提取储容值CR和余容值YR的数值，并将其代入公式中计算，依据公式得到存储值CC，其中，r1、r2分别为设定的储容值CR和余容值YR对应的预设比例系数，r1、r2满足r1+r2=1，0＜r1＜r2＜1，取r1=0.35，r2=0.65；

计算分析模块将计算值JH、网速值WS以及存储值CC发送至模型训练平台。

实施例6：

基于上述任一实施例，本发明实施例6为自动分配模块，自动分配模块的作用是为了将数据子集和分析节点i进行对应，具体过程如下：

自动分配模块获取数据子集分配名单中各个数据子集和计算节点分配名单中各个分析节点i的序号，并将相同序号的数据子集和分析节点i进行一一对应，并利用分析节点i对数据子集进行计算，待每个分析节点i计算完成，将计算结果发送至结果显示模块。

基于实施例1-6，本发明的工作原理如下：

该大模型用数据协同处理方法首先将大模型训练用的数据集进行分割成数据子集，并对数据子集进行数据采集与分析，获取优先处理参数，根据优先处理参数获得的优先处理系数能够综合衡量数据子集的优先处理程度，也间接反映其处理难度，且优先处理系数越大表示优先处理程度越高，之后对处理数据的计算节点进行数据采集与分析，获取优先计算参数，根据优先计算参数获得的优先计算系数能够综合衡量计算节点的优先计算程度，也间接反映其数据处理能力，最终通过排序的序号将数据子集和计算节点进行对应，并令所有的计算节点同时对数据子集进行数据处理，最终将处理结果汇合并显示；本发明的大模型用数据协同处理方法采用分布式计算和数据并行处理技术，能够充分利用计算资源的优势，提高训练效率，而且选用性能好的计算节点进行数据处理，能够提高大模型的训练速度，减少数据处理误差，进而能够保证训练结果的准确性和可靠性。

还需要进一步说明的是，上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于大模型的数据协同处理方法，其特征在于，包括以下步骤：

子集分析模块获取优先处理参数的具体过程如下：

接收到子集分析指令后获取数据子集中的数据数量和数据所占容量，并将其分别标记为据数值JS和据容值JR进行量化处理，依据公式得到数容值SR，其中，δ为预设的参数调节因子，j1、j2分别为设定的据数值JS和据容值JR对应的预设比例系数；

模型训练平台获得数据子集分配名单的具体过程如下：

将数容值SR、均时值JT进行量化处理，依据公式得到优先处理系数YC，其中，c1、c2分别为设定的数容值SR、均时值JT对应的预设权重因子；

将所有的数据子集按照优先处理系数YC从大到小的顺序进行排序，形成数据子集分配名单；

计算分析模块获取优先计算参数的具体过程如下：

获取分析节点i历史数据中单位时间内计算的数据数量和数据总字节数，并将其分别标记为算数值SS和算节值SJ，将算数值SS和算节值SJ进行量化处理，依据公式得到计算值JH，其中，s1、s2分别为设定的算数值SS和算节值SJ对应的预设比例系数；

获取分析节点i的单位时间的平均网络速度，并将其标记为均速值JK，获取分析节点i的单位时间的最大网络速度和最小网络速度，获取两者之间的速度差值，并将其标记为差速值CS，将均速值JK、差速值CS进行量化处理，依据公式得到网速值WS，其中，w1、w2分别为设定的均速值JK、差速值CS对应的预设比例系数；

获取分析节点i的最大存储容量和剩余存储容量，并将其分别标记为储容值CR和余容值YR，将储容值CR和余容值YR进行量化处理，依据公式得到存储值CC，其中，r1、r2分别为设定的储容值CR和余容值YR对应的预设比例系数；

模型训练平台获得计算节点分配名单的具体过程如下：

将所有的分析节点i按照优先计算系数YJi从大到小的顺序进行排序，形成计算节点分配名单；

2.根据权利要求1所述的一种基于大模型的数据协同处理方法，其特征在于，所述模型训练平台将数据集分割的具体过程如下：

3.根据权利要求1所述的一种基于大模型的数据协同处理方法，其特征在于，所述自动分配模块将数据子集和分析节点i进行对应的具体过程如下：

4.一种基于大模型的数据协同处理系统，其特征在于，包括数据输入模块、模型训练平台、子集分析模块、计算分析模块、自动分配模块以及结果显示模块；

所述数据输入模块用于用户将大模型训练用的数据集进行上传，并将数据集发送至模型训练平台；

所述模型训练平台用于将数据集分割若干个数据子集，同时生成子集分析指令，并将子集分析指令发送至子集分析模块；还用于根据优先处理参数获得优先处理系数YC，并根据优先处理系数YC获得数据子集分配名单，并将数据子集分配名单发送至自动分配模块，同时生成计算分析指令，并将计算分析指令发送至计算分析模块；还用于根据优先计算参数获得优先计算系数YJi，并根据优先计算系数YJi获得计算节点分配名单，并将计算节点分配名单发送至自动分配模块；

子集分析模块获取优先处理参数的具体过程如下：

模型训练平台获得数据子集分配名单的具体过程如下：

计算分析模块获取优先计算参数的具体过程如下：

模型训练平台获得计算节点分配名单的具体过程如下：

所述子集分析模块用于接收到子集分析指令后获取数据子集的优先处理参数，并将优先处理参数发送至模型训练平台；

所述计算分析模块用于接收到计算分析指令后获取分析节点i的优先计算参数，并将优先计算参数发送至模型训练平台；

所述自动分配模块用于根据数据子集分配名单和计算节点分配名单将数据子集和分析节点i进行对应，并利用分析节点i对数据子集进行计算，待每个分析节点i计算完成，将计算结果发送至结果显示模块。

5.根据权利要求4所述的一种基于大模型的数据协同处理系统，其特征在于，所述结果显示模块用于将所有的计算结果进行汇合并显示，完成大模型训练。