CN115827206A

CN115827206A - 一种基于机器学习的显卡任务资源的调度方法及系统

Info

Publication number: CN115827206A
Application number: CN202310060601.0A
Authority: CN
Inventors: 鲁定一; 傅豪; 郭兆龙; 董锦芝; 刘锐; 付文杰; 李奕飞
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-03-21
Anticipated expiration: 2043-01-18
Also published as: CN115827206B

Abstract

本发明提供了一种基于机器学习的显卡任务资源的调度方法及系统，其方法包括：确定同时刻在线的显卡数量以及针对每个在线显卡的请求数量，同时，确定每个在线显卡的资源集以及与在线显卡匹配的资源集中每个资源的任务响应时间；基于机器学习模型分析同个在线显卡在同时刻的请求数量、资源集以及任务响应时间，输出同个在线显卡的冲突事件；从除同个在线显卡外的剩余显卡中获取基于冲突事件的可调度单元，并基于可调度单元进行冲突任务的分配，实现显卡资源调度。通过对显卡本身的请求数量、资源集以及任务响应时间进行分析，来确定可能存在的冲突事件，并对冲突事件进行冲突任务分配，实现资源调度，有效地提高资源调度的效率。

Description

一种基于机器学习的显卡任务资源的调度方法及系统

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于机器学习的显卡任务资源的调度方法及系统。

背景技术

显卡（Video card、Display card、Graphics card、Video adapter）是个人计算机基础的组成部分之一，将计算机系统需要的显示信息进行转换驱动显示器，并向显示器提供逐行或隔行扫描信号，控制显示器的正确显示，是连接显示器和个人计算机主板的重要组件，是“人机”的重要设备之一，其内置的并行计算能力现阶段也用于深度学习等运算。

当前机器学习训练中，使用显卡提供算力已经非常普遍，由于显卡本身就会存在各种运算资源、学习资源，如果对显卡本身情况掌握不清楚的情况下，回导致后续资源调取的效率降低。

因此，本发明提出一种基于机器学习的显卡任务资源的调度方法及系统。

发明内容

本发明提供一种基于机器学习的显卡任务资源的调度方法及系统，用以通过对显卡本身的请求数量、资源集以及任务响应时间进行分析，来确定可能存在的冲突事件，并对冲突事件进行冲突任务分配，实现资源调度，有效地提高资源调度的效率。

本发明提供一种基于机器学习的显卡任务资源的调度方法，包括：

步骤1：确定同时刻在线的显卡数量以及针对每个在线显卡的请求数量，同时，确定每个在线显卡的资源集以及与在线显卡匹配的资源集中每个资源的任务响应时间；

步骤2：基于机器学习模型分析同个在线显卡在同时刻的请求数量、资源集以及任务响应时间，输出所述同个在线显卡的冲突事件；

步骤3：从除所述同个在线显卡外的剩余显卡中获取基于所述冲突事件的可调度单元，并基于所述可调度单元进行冲突任务的分配，实现显卡资源调度。

优选的，确定同时刻在线的显卡数量以及针对每个在线显卡的请求数量，包括：

获取针对同个在线显卡在同时刻下的请求表；

统计所述请求表中的请求数量。

优选的，确定每个在线显卡的资源集以及与在线显卡匹配的资源集中每个资源的任务响应时间，包括：

确定每个在线显卡的当前已有资源、预约传输资源、剩余可保存资源，其中，所述当前已有资源、预约传输资源、剩余可保存资源即为资源集；

分析每个在线显卡的显卡类型，并从历史数据库中调取与所述显卡类型匹配的资源分配情况；

对所述资源分配情况进行分配切分，得到针对不同资源的任务响应时间。

优选的，对所述资源分配情况进行分配切分，得到针对不同资源的任务响应时间，包括：

对所述资源分配情况进行时间点分配，构建历史时刻分配表，其中，所述历史时刻分配表包括不同历史时刻下的历史分配资源；

根据所述历史时刻分配表，建立历史分配数组；

对所述历史分配数组进行同类型资源分配，得到历史分配序列，并得到针对同类型资源的第一响应时间；

确定同类型资源的历史先后出现时间顺序与在线显卡匹配的资源集中的当前已有资源以及预约传输资源的先后出现时间顺序之间的匹配映射关系；

根据与所述当前已有资源、预约传输资源以及剩余可保存资源所匹配的资源类型的第一响应时间，且结合匹配映射关系，得到针对不同资源的任务响应时间。

优选的，基于机器学习模型分析同个在线显卡在同时刻的请求数量、资源集以及任务响应时间，输出所述同个在线显卡的冲突事件，包括：

确定同时刻下同个在线显卡的请求数量是否存在数量拥挤；

若存在，则获取多余请求，并作为第一冲突事件输出；

确定同个在线显卡的每个请求的请求资源类型以及请求占用资源；

当基于同个在线显卡下的同时刻的请求资源类型中的同类型请求的总数量超出类型数量上限时，作为第二冲突事件输出；

判断请求占用资源的资源条目是否超出上限资源集的空闲占用条目；

若超出，作为第三冲突事件输出；

确定同个在线显卡的每个请求的当下排队响应时间点以及当下排队响应时间点与对应任务响应时间的时间差异，作为第四冲突事件输出。

优选的，获取基于所述冲突事件的可调度单元，并基于所述可调度单元进行冲突任务的分配，实现显卡资源调度，包括：

获取针对每个在线显卡的冲突集合；

根据所述冲突集合所包含的冲突类型，向对应在线显卡设置冲突缓解权重；

对所设置的冲突缓解权重进行大小排序，并当存在一致权重时，分析获取每个一致权重所对应冲突事件的产生时间，并进行时间累计计算，对一致权重进行再次大小排序；

根据再次大小排序结果，得到最终权重顺序，并作为对应在线显卡的调度顺序，且结合所述冲突集合匹配的可调度单元，实现对同个在线显卡的冲突任务的分配，实现显卡资源调度。

优选的，确定同时刻在线的显卡数量，包括：

捕捉与资源平台在同个时刻下建立通信连接的所有显卡，并分别获取每个连接显卡的唯一标识码；

对所有唯一标识码进行重复统计；

若重复统计的次数为0，则将连接显卡进行保留，并作为在线显卡；

若重复统计的次数为非0，则获取存在重复统计的标识码，并获取每个重复统计的标识码所对应的连接源头，根据如下公式，分析每个连接源头所对应源头信息的真伪性；

其中，

表示第一隐藏信息与第

个第二隐藏信息中第j1个隐藏词组的匹配推荐值；

表示第

个第二隐藏信息中包括

个隐藏词组；

表示当下标识与第

个信息转换标识中的

个子标识的匹配推荐值；

表示第

个信息转换表示中包括

个子标识；

表示同个重复标识码所对应的第

个连接源头的综合匹配值，其中，第

个连接源头对应第

个第二隐藏信息以及对应第

个信息转换标识；

表示常数，且

；

表示对

的分析权重；

表示对

的分析权重；

从所有

中，获取基于同个重复标识码的最大匹配值，并锁定与所述最大匹配值一致的第一源头，当所述最大匹配值小于预设匹配值时，判定所述第一源头为伪且设置第一标签，同时，将所述第一源头作为待定源头保留；

否则，判定所述第一源头为真，并将所述第一源头保留且设置第二标签，同时，将同个重复标识码下的剩余源头剔除；

计算同时刻在线显卡的显卡数量

：

其中，

表示第二标签的数量；

表示非重复标识的数量；

表示基于所有待定源头得到的待定数量；

表示所有待定源头的数量；

表示第

个待定源头的预设匹配值；

表示第

个待定源头的最大匹配值；

表示取整符号；

将所述显卡数量

作为所述资源平台的有效数量。

本发明提供一种基于机器学习的显卡任务资源的调度系统，包括：

确定模块，用于确定同时刻在线的显卡数量以及针对每个在线显卡的请求数量，同时，确定每个在线显卡的资源集以及与在线显卡匹配的资源集中每个资源的任务响应时间；

事件输出模块，用于基于机器学习模型分析同个在线显卡在同时刻的请求数量、资源集以及任务响应时间，输出所述同个在线显卡的冲突事件；

资源调度模块，用于从除所述同个在线显卡外的剩余显卡中获取基于所述冲突事件的可调度单元，并基于所述可调度单元进行冲突任务的分配，实现显卡资源调度。

优选的，所述确定模块，包括：

表获取单元，用于获取针对同个在线显卡在同时刻下的请求表；

数量统计单元，用于统计所述请求表中的请求数量。

优选的，所述确定模块，还包括：

资源集确定单元，用于确定每个在线显卡的当前已有资源、预约传输资源、剩余可保存资源，其中，所述当前已有资源、预约传输资源、剩余可保存资源即为资源集；

匹配单元，用于分析每个在线显卡的显卡类型，并从历史数据库中调取与所述显卡类型匹配的资源分配情况；

分配分切单元，用于对所述资源分配情况进行分配切分，得到针对不同资源的任务响应时间。

与现有技术相比，本申请的有益效果如下：

通过对显卡本身的请求数量、资源集以及任务响应时间进行分析，来确定可能存在的冲突事件，并对冲突事件进行冲突任务分配，实现资源调度，有效地提高资源调度的效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于机器学习的显卡任务资源的调度方法的流程图；

图2为本发明实施例中一种基于机器学习的显卡任务资源的调度方法的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种基于机器学习的显卡任务资源的调度方法，如图1所示，包括：

该实施例中，比如，在时刻1时，处于使用状态的显卡包括：显卡1、2、3，此时，如果每个显卡对应的标识码都是唯一的，那么显卡数量为3。

该实施例中，请求数量指的是需要向显卡进行资源传输的请求，比如，针对在线显卡1的请求为请求01、02，此时，对应的请求数量为2。

该实施例中，资源集指的是同个显卡当下已有资源、待传输资源以及剩余空闲资源，一个是已经存在的，一个是即将存在的，一个是可以存在的。

该实施例中，机器学习模型是预先学习好的，包括不同请求数量、资源集以及任务响应事件进行任意组合，且与得到的冲突事件为学习样本学习得到的，因此，就会得到冲突事件。

当在线显卡1的请求数量为10（预设可执行请求数量为8），资源集为待传输资源的容量为10（实际需要的容量为12），任务响应时间为1s（存在等待资源需要传输，响应时间延长），此时，当实际的与获取的标准不匹配时，就视为存在冲突事件。

该实施例中，冲突事件的存在就是为了对显卡本身情况的直观反映，可以有效的确定出该显卡本身所存在异常，进而实现对显卡资源的有效调度。

比如，请求数量为10，但是预设的数量为8，此时，就需要将多余的2个请求数量以及与请求相关资源作为任务，分配给其他显卡进行执行，其他显卡作为可调度单元，该可调度单元可以是其他显卡，也就是其他显卡中的某个执行单元所执行的，因为显卡是由若干单元构成的，可以实现对显卡资源的调度。

上述技术方案的有益效果是：通过对显卡本身的请求数量、资源集以及任务响应时间进行分析，来确定可能存在的冲突事件，并对冲突事件进行冲突任务分配，实现资源调度，有效地提高资源调度的效率。

本发明提供一种基于机器学习的显卡任务资源的调度方法，确定同时刻在线的显卡数量以及针对每个在线显卡的请求数量，包括：

获取针对同个在线显卡在同时刻下的请求表；

统计所述请求表中的请求数量。

该实施例中，请求表中包括同个时刻下所搜集到的若干请求，请求可以是对显卡进行不同资源的调取、不同资源的存储等的请求，来统计得到请求数量。

上述技术方案的有益效果是：通过获取请求表，可以有效的统计请求数量，为后续确定冲突事件提供基础，保证后续资源调度的效率。

本发明提供一种基于机器学习的显卡任务资源的调度方法，确定每个在线显卡的资源集以及与在线显卡匹配的资源集中每个资源的任务响应时间，包括：

该实施例中，当前已有资源指的是该在线显卡当前已经存储的资源，预约传输资源指的是向该显卡即将进行传输的资源，剩余可保存资源指的是该显卡除去当前已有资源、预约传输资源之外，还可以再保存的资源。

比如，该显卡默认的资源包括：资源1、2、3、4、5，其中，当前已有资源为：资源1、2，预约传输资源为：资源3，剩余可保存资源则为：资源4和5。

该实施例中，显卡类型包括：计算机本身的硬件信息存储的显卡类型、基于物联网平台进行业务存储的显卡类型等。

该实施例中，历史数据库是包括不同类型的显卡以及与显卡所匹配的显卡的历史资源调配信息在内，也就是资源分配情况，可以得到任务响应时间。

该实施例中，显卡类型1的资源分配情况：资源1分配空间容量为01，资源1与显卡存在多次传输，且传输响应时间依次为：0.1秒、0.3秒、0.2秒，则对应的与资源1相关的任务响应时间即为0.1秒、0.3秒以及0.2秒的平均时间，即为0.2秒。

上述技术方案的有益效果是：通过分析显卡类型，并从数据库中调取资源分配情况，为后续获取任务响应时间提供基础，保证资源调度的效率。

本发明提供一种基于机器学习的显卡任务资源的调度方法，对所述资源分配情况进行分配切分，得到针对不同资源的任务响应时间，包括：

根据所述历史时刻分配表，建立历史分配数组；

该实施例中，历史时刻分配表如下：

时刻1：历史资源01、02；

时刻2：历史资源03、02；

时刻3：历史资源01、03；

历史分配数组指的是将分配表进行转换为：[1-0102 2-0302 3-0103]。

该实施例中，同类型资源分配，指的是历史资源01的分配，历史资源02的分配以及历史资源03的分配，得到的历史分配序列为：01:13（0.1，0.2）,02:12（0.3，0.2）,03:23（0.2，0.1），此时，01:13（0.1，0.2）表示历史资源01在时刻1下的响应时间为0.1秒，在时刻3下的响应时间为0.2秒，因此，获取的第一响应时间为两者的平均值为0.15秒，且02:12（0.3，0.2）,03:23（0.2，0.1）与上述原理类似，此处不再赘述。

该实施例中，匹配映射关系指的是：历史资源01的先后出现时间顺序为：时刻1与时刻3，且当前已有资源中存在与资源01，出现时刻为a2，预约传输资源中未出现资源01，此时，建立的是：资源01：时刻1-时刻3-时刻a2之间的映射关系，如果，在该显卡开始进行同请求的时候，时刻a2与时刻1的出现时刻大致一样，此时，预约传输资源中也应该在与时刻2基本一致的执行时刻a2出现资源01，但是，并未出现，此时，就需要对第一响应时间0.15进行调整，调整为0.2秒，此时，调整是按照历史已有的同类型资源的历史响应时间中来获取的最大响应时间，作为任务响应时间，或者是对第一响应时间0.15进行双倍时间响应调整，比如调整为0.3秒。

上述技术方案的有益效果是：通过构建时刻分配表以及建立分配数组，获取同类型资源的第一响应时间，且通过建立历史与现有的匹配映射关系，未后续获取资源的任务响应时间提供基础，保证资源调度的高效性。

本发明提供一种基于机器学习的显卡任务资源的调度方法，基于机器学习模型分析同个在线显卡在同时刻的请求数量、资源集以及任务响应时间，输出所述同个在线显卡的冲突事件，包括：

确定同时刻下同个在线显卡的请求数量是否存在数量拥挤；

若存在，则获取多余请求，并作为第一冲突事件输出；

若超出，作为第三冲突事件输出；

该实施例中，比如，请求数量为10，预设数量为8，此时就存在数量拥挤，就存在多余请求，则作为第一冲突事件。

该实施例中，请求资源的类型以及占用资源都是预先设定好的，且是可以进行数量的比较，来得到第二冲突事件的。

该实施例中，空闲占用条目指的是该显卡中还可以被使用的不同类型的空间。

该实施例中，比如，任务响应时间是1s，但是排队响应时间就得1秒，此时，就存在时间响应上的冲突，作为第四冲突事件。

上述技术方案的有益效果是：通过对显卡进行请求数量、资源类型、占用资源、资源集以及响应时间上的冲突分析，便于保证对冲突事件所带来任务的合理调度，提高资源调度效率。

本发明提供一种基于机器学习的显卡任务资源的调度方法，获取基于所述冲突事件的可调度单元，并基于所述可调度单元进行冲突任务的分配，实现显卡资源调度，包括：

获取针对每个在线显卡的冲突集合；

该实施例中，冲突集合就是基于第一冲突事件、第二冲突事件、第三冲突事件以及第四冲突事件中的任一个事件或多个事件的组合。

该实施例中，冲突类型指的是对应冲突事件所获取的判断依据的依据类型。

该实施例中，冲突缓解权重是由显卡本身所包含的冲突事件数量、冲突事件类型以及不同冲突事件类型所对应的具体冲突内容的冲突值来综合确定的；

冲突缓解权重

：

其中，

表示该在线显卡所对应冲突集合中的第K1类型的冲突值；

表示对应显卡类型中所获取的与第K1类型相关的最大冲突值；

表示该在线显卡所对应冲突集合中包含的冲突事件的类型总数。

该实施例中，通过进行大小排序，确定事件产生的初始时间与结束时间，来获取该时间段，也就是时间累计计算，再次对权重一致的集合进行排序。

该实施例中，比如，在线显卡的调度顺序为：在线显卡1、在线显卡3、在线显卡2等，来实现对资源的调度。

该实施例中，比如，是将在线显卡1中的资源1调度到显卡5中的与资源1匹配的单元01中。

上述技术方案的有益效果是：通过确定冲突集合，计算冲突缓解权重，通过权重大小排序、时间累计计算、再次大小排序，得到权重顺序，进而实现对冲突任务的合理分配，保证资源调度的高效性。

本发明提供一种基于机器学习的显卡任务资源的调度方法，确定同时刻在线的显卡数量，包括：

对所有唯一标识码进行重复统计；

其中，

(j1)表示第一隐藏信息与第i个第二隐藏信息中第j1个隐藏词组的匹配推荐值；

表示第i个第二隐藏信息中包括n1个隐藏词组；

表示当下标识与第i个信息转换标识中的j2个子标识的匹配推荐值；n2表示第i个信息转换表示中包括n2个子标识；

表示同个重复标识码所对应的第i个连接源头的综合匹配值，其中，第i个连接源头对应第i个第二隐藏信息以及对应第i个信息转换标识；

、

表示常数，且

+

=1；

表示对

(j1)的分析权重；

表示对

的分析权重；

从所有

计算同时刻在线显卡的显卡数量N1：

其中，

表示第二标签的数量；

表示非重复标识的数量；

表示基于所有待定源头得到的待定数量；

表示所有待定源头的数量；

表示第j3个待定源头的预设匹配值；

表示第j3个待定源头的最大匹配值；[]表示取整符号；

将所述显卡数量N1作为所述资源平台的有效数量。

该实施例中，由于显卡与资源平台建立连接的时候，会有虚假信息存在的情况，因此，来获取显卡的唯一标识码，保证显卡的唯一正确性。

该实施例中，当存在同个标识码出现大于一次的情况时，就视为重复标识码。

该实施例中，连接源头指的是与该显卡建立资源传输连接的外部设备，进而来确定源头的真伪性，来间接的保留一个重复标识码。

该实施例中，隐藏信息指的是外部设备特有的独特标识符号，比如，设备标识符号等，标识指的是代表资源传输与资源接收的类型符号。

该实施例中，预设匹配值是预先设定好的，取值一般为0.6。

该实施例中，第一标签的设定是为了对该第一源头进行保留，为了是否将对应的显卡进行保留提供分析基础，第二标签是为了保留提供可靠依据。

上述技术方案的有益效果是：通过捕捉显卡以及获取显卡唯一标识码，且通过对重复标识码的统计，来分析连接源头的真伪性，为后续是否将对应的显卡进行保留提供基础，为后续计算显卡数量提供保障，间接提高资源调度的效率。

本发明提供一种基于机器学习的显卡任务资源的调度系统，如图2所示，包括：

本发明提供一种基于机器学习的显卡任务资源的调度系统，所述确定模块，包括：

数量统计单元，用于统计所述请求表中的请求数量。

本发明提供一种基于机器学习的显卡任务资源的调度系统，所述确定模块，还包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于机器学习的显卡任务资源的调度方法，其特征在于，包括：

2.如权利要求1所述的基于机器学习的显卡任务资源的调度方法，其特征在于，确定同时刻在线的显卡数量以及针对每个在线显卡的请求数量，包括：

获取针对同个在线显卡在同时刻下的请求表；

统计所述请求表中的请求数量。

3.如权利要求1所述的基于机器学习的显卡任务资源的调度方法，其特征在于，确定每个在线显卡的资源集以及与在线显卡匹配的资源集中每个资源的任务响应时间，包括：

4.如权利要求3所述的基于机器学习的显卡任务资源的调度方法，其特征在于，对所述资源分配情况进行分配切分，得到针对不同资源的任务响应时间，包括：

根据所述历史时刻分配表，建立历史分配数组；

5.如权利要求1所述的基于机器学习的显卡任务资源的调度方法，其特征在于，基于机器学习模型分析同个在线显卡在同时刻的请求数量、资源集以及任务响应时间，输出所述同个在线显卡的冲突事件，包括：

确定同时刻下同个在线显卡的请求数量是否存在数量拥挤；

若存在，则获取多余请求，并作为第一冲突事件输出；

若超出，作为第三冲突事件输出；

6.如权利要求1所述的基于机器学习的显卡任务资源的调度方法，其特征在于，获取基于所述冲突事件的可调度单元，并基于所述可调度单元进行冲突任务的分配，实现显卡资源调度，包括：

获取针对每个在线显卡的冲突集合；

7.如权利要求1所述的基于机器学习的显卡任务资源的调度方法，其特征在于，确定同时刻在线的显卡数量，包括：

对所有唯一标识码进行重复统计；

其中，

表示第一隐藏信息与第

个第二隐藏信息中第j1个隐藏词组的匹配推荐值；

表示第

个第二隐藏信息中包括

个隐藏词组；

表示当下标识与第

个信息转换标识中的

个子标识的匹配推荐值；

表示第

个信息转换表示中包括

个子标识；

表示同个重复标识码所对应的第

个连接源头的综合匹配值，其中，第

个连接源头对应第

个第二隐藏信息以及对应第

个信息转换标识；

表示常数，且

；

表示对

的分析权重；

表示对

的分析权重；

从所有

计算同时刻在线显卡的显卡数量

：

其中，

表示第二标签的数量；

表示非重复标识的数量；

表示基于所有待定源头得到的待定数量；

表示所有待定源头的数量；

表示第

个待定源头的预设匹配值；

表示第

个待定源头的最大匹配值；

表示取整符号；

将所述显卡数量

作为所述资源平台的有效数量。

8.一种基于机器学习的显卡任务资源的调度系统，其特征在于，包括：

9.如权利要求8所述的基于机器学习的显卡任务资源的调度系统，其特征在于，所述确定模块，包括：

数量统计单元，用于统计所述请求表中的请求数量。

10.如权利要求8所述的基于机器学习的显卡任务资源的调度系统，其特征在于，所述确定模块，还包括：