CN107908536B - Cpu-gpu异构环境中对gpu应用的性能评估方法及系统 - Google Patents

Cpu-gpu异构环境中对gpu应用的性能评估方法及系统 Download PDF

Info

Publication number
CN107908536B
CN107908536B CN201711146155.6A CN201711146155A CN107908536B CN 107908536 B CN107908536 B CN 107908536B CN 201711146155 A CN201711146155 A CN 201711146155A CN 107908536 B CN107908536 B CN 107908536B
Authority
CN
China
Prior art keywords
gpu
performance
data set
decision tree
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711146155.6A
Other languages
English (en)
Other versions
CN107908536A (zh
Inventor
廖小飞
郑然�
胡清月
金海�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711146155.6A priority Critical patent/CN107908536B/zh
Publication of CN107908536A publication Critical patent/CN107908536A/zh
Application granted granted Critical
Publication of CN107908536B publication Critical patent/CN107908536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种CPU‑GPU异构环境中对GPU应用的性能评估方法及系统,属于GPU性能评估领域。方法具体为:基于机器学习中的决策树算法,对GPU架构上运行的各类应用的执行情况学习,建立决策树模型;在决策树匹配过程中依次获得对应用执行时间影响最大的监控特征,即对特征的重要度排序;依次将筛选出的特征集与四类应用常见的问题对应,主要是指计算相关、内存相关、占用率相关、同步相关四大常见问题,由此初步得到待分析应用的性能瓶颈所在的问题方向。本发明通过结合决策树模型和分析建模的方法,提供了一种通用的、相对准确的、快速的、简单易用的对GPU上的资源和应用进行性能评估的方法。

Description

CPU-GPU异构环境中对GPU应用的性能评估方法及系统
技术领域
本发明属于GPU性能评估领域,更具体地,涉及一种CPU+GPU混合异构环境中对GPU上的资源和应用结合机器学习和分析建模进行性能评估的方法及系统。
背景技术
随着科学技术的不断发展,各方面对高性能计算提出了更高的要求。 GPU具有强大的计算能力、高存储带宽、低功耗以及较好的可编程性,但对逻辑方面的处理并不好,使得CPU-GPU异构成为一种必然趋势。然而,CPU-GPU异构计算节点可达到的性能虽高,但实际性能往往不够理想,不能有效利用计算资源和存储带宽。性能下降的原因在于多个方面,包括任务分配不均导致负载不均衡、SM利用率低;不好的访存模式导致带宽的低效利用;冗余传输导致通信带宽的低效利用等等。而架构中无序的执行、复杂的内存层次、多种形式的并行处理等复杂的因素,却让我们难以找出性能下降的根本原因。对于性能的提升而做出的优化措施,大多数也只能是根据自身的经验进行启发式的大量尝试,耗时又费力。因此,对性能评估方法的研究尤为重要。
目前,传统的性能评估方法是从GPU架构或应用本身问题或应用可优化措施方面出发,通过分类建立不同的指标体系,比较获得最需优化的指标,来反映性能瓶颈和指导优化。而各个指标的建立,是利用各种监控仿真工具获取的数据进行建模。近年来,利用机器学习方法训练模型进行特征选择和分类,来预测kernel执行时间、kernel在不同配置下的性能变化趋势等研究也相继出现。
然而,上述方法存在一定的缺陷。传统的性能分析模型,虽然准确度较高,但需要对硬件架构知识有详细的了解,获取数据的方法和建模方法都非常复杂,往往耗时很长,模型很难用;或是为特定架构或应用而构建,不能通用。而基于机器学习的方法虽简单易用,但是其准确度强烈依赖训练数据集,也依赖于模型本身对特征值的选取;并且使用该方法进行性能评估的研究尚少,主要用于性能预测,不能反映性能瓶颈和指导应用优化。
发明内容
针对现有方法的缺陷,本发明的目的在于提供一种通用的、相对准确的、快速的、简单易用的对GPU上的资源和应用进行性能评估的方法及系统。
为实现本发明技术目的,本发明采用如下技术方案:
CPU-GPU异构环境中对GPU应用的性能评估方法,包括离线决策树构建部分和在线性能评估部分:
所述离线决策树构建部分包括以下步骤:
(S1)提取不同GPU应用在运行过程中的多条样本监控记录组成样本监控数据集,每条样本监控记录包含多个表征GPU应用运行状态的特征; (S2)从样本监控数据集中筛选出对GPU性能影响最大的特征,将其作为根节点;按照根节点取值大小将样本监控数据集划分为多个子集,从每一子集中分别筛选出对GPU性能影响次大的特征,将其作为第一层子节点;按照上述相同的方式筛选出余下层次的子节点,从而构建按照对GPU性能影响大小对特征排序的决策树;
所述在线性能评估部分包括以下步骤:
(T1)从待分析GPU应用的运行过程中提取待分析监控记录;
(T2)将待分析监控记录与所述离线构建的决策树进行匹配,得到对 GPU性能影响的特征排序组合;
(T3)根据步骤(T2)得到的特征排序组合,在特征排序组合与GPU 性能关注点的映射关系进行查询,得到待分析监控记录对应的GPU性能关注点。
进一步地,所述步骤(S2)筛选根节点的具体实施方式为:
(S21)计算样本监控数据集的信息熵;
(S22)针对每一特征,按照其不同取值将样本监控数据集划分为多个子集,计算每个子集的信息熵,对每个子集的信息熵进行加权求和得到该特征的信息熵;
(S23)分别计算样本监控数据集的信息熵与各特征的信息熵的差值得到各特征的信息增益;
(S24)将信息增益最大的特征作为根节点。
进一步地,所述步骤(S22)中加权求和的权重系数为子集中的记录数占样本监控数据集的记录数的比例。
CPU-GPU异构环境中对GPU应用的性能评估系统,包括离线决策树构建部分和在线性能评估部分:
所述离线决策树构建部分包括以下模块:
样本特征提取模块,用于提取不同GPU应用在运行过程中的多条样本监控记录组成样本监控数据集,每条样本监控记录包含多个表征GPU应用运行状态的特征;
决策树构建模块,用于从样本监控数据集中筛选出对GPU性能影响最大的特征,将其作为根节点;按照根节点取值大小将样本监控数据集划分为多个子集,从每一子集中分别筛选出对GPU性能影响次大的特征,将其作为第一层子节点;按照上述相同的方式筛选出余下层次的子节点,从而构建按照对GPU性能影响大小对特征排序的决策树;
所述在线性能评估部分包括以下模块:
待评估特征提取模块,用于从待分析GPU应用的运行过程中提取待分析监控记录;
特征匹配模块,用于将待分析监控记录与所述离线构建的决策树进行匹配,得到对GPU性能影响的特征排序组合;
查询模块,用于根据特征匹配模块得到的特征排序组合,在特征排序组合与GPU性能关注点的映射关系进行查询,得到待分析监控记录对应的 GPU性能关注点。
进一步地,所述决策树构建模块包括:
信息熵计算子模块,用于计算样本监控数据集的信息熵;
特征信息熵计算子模块,用于按照其不同取值将样本监控数据集划分为多个子集,计算每个子集的信息熵,对每个子集的信息熵进行加权求和得到该特征的信息熵;
特征信息增益计算子模块,用于分别计算样本监控数据集的信息熵与各特征的信息熵的差值得到各特征的信息增益;
根节点构建子模块,用于将信息增益最大的特征作为根节点。
进一步地,所述特征信息熵计算子模块中加权求和的权重系数为子集中的记录数占样本监控数据集的记录数的比例。
进一步地,还对样本监控记录进行归一化处理。
进一步地,所述性能关注点包括计算、内存、同步、资源;所述计算包括线程分歧和负载不均衡两个子问题;所述内存包括全局内存中的非规则访问、共享内存中的bankconflict、cache命中率低三个子问题,所述同步指各种stall导致的等待时间过长的问题;所述资源指GPU资源占用率低,反映出来的应用程序执行时并行度低的问题。
通过本发明构思的以上技术方案,与现有技术相比,本发明具有以下的优点和有益效果:
(1)本发明结合了机器学习算法与传统分析建模方法来进行性能评估,先使用决策树训练,对应用监控特征进行重要度排序,再利用分析模型建立的监控特征和应用问题的映射关系,可直接在利用决策树分析的时候输出应用问题,反映性能瓶颈,既利用了决策树模型的快速,也利用了分析建模的准确,而且很直观地反映了应用问题和瓶颈。
(2)本发明只需要利用决策树算法对重要监控数据进行逐层选择,从而获得不同特征对执行时间的影响程度排序,而不需要利用训练出的模型进行预测,从而避免了机器学习算法中常见的由于训练数据集较少、过拟合等因素引起的匹配度不高、准确度不高等问题。
(3)本发明中使用的决策树算法是通过信息论基础建立的,新添加的特征只会在已建立的决策树中添加一层,该节点的子树不受任何影响,对特征值的选择影响较小,使得模型的可扩展性很好。同时,模型所需数据集是通过很多不同的应用在同一架构上运行获得的,只有在换了新的GPU架构时才需要重新建模,而对于同一架构上的不同应用的分析,都可以直接利用该模型,从而保证了模型的通用性。
(4)本发明中使用到的分析建模方法只需提供特征与应用待优化问题之间的映射关系,而不需要通过建立复杂的数学模型来形成不同的指标体系,同时,只需利用hardwareperformance counter提供的原始参数作为监控数据,而不需要使用各种复杂的监控和仿真工具,使得模型的复杂度大大减小,缩短了获取各项数据所需的时间,提高了模型的易用性。
附图说明
图1是本发明中对GPU应用的性能评估方法的总体架构图。
图2是本发明中GPU应用性能评估方法中离线决策树构建模块的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,CPU-GPU异构环境中对GPU应用的性能评估方法,包括离线决策树构建部分和在线性能评估部分:
所述离线决策树构建部分包括以下步骤:
(S1)提取不同GPU应用在运行过程中的多条样本监控记录组成样本监控数据集,每条样本监控记录包含多个表征GPU应用运行状态的特征; (S2)从样本监控数据集中筛选出对GPU性能影响最大的特征,将其作为根节点;按照根节点取值大小将样本监控数据集划分为多个子集,从每一子集中分别筛选出对GPU性能影响次大的特征,将其作为第一层子节点;按照上述相同的方式筛选出余下层次的子节点,从而构建按照对GPU性能影响大小对特征排序的决策树。
所述在线性能评估部分包括以下步骤:
(T1)从待分析GPU应用的运行过程中提取待分析监控记录;
(T2)将待分析监控记录与所述离线构建的决策树进行匹配,得到对 GPU性能影响的重要特征排序组合;
(T3)根据步骤(T2)得到的重要特征排序组合,在重要特征排序组合与GPU性能关注点的映射关系进行查询,得到待分析监控记录对应的GPU 性能关注点。
下面对所述离线决策树构建部分的各步骤详细说明:
(S1)提取不同GPU应用在运行过程中的多条样本监控记录组成样本监控数据集,每条样本监控记录包含多个表征GPU应用运行状态的特征。
使用监控工具监控不同benchmark应用在GPU同一架构不同输入数据集下的各项监控数据,每条记录对应一条完整的包含所有监控特征的数据。
不同benchmark应用是指rodinia_3.1版本和parboil两个benchmark中的应用,其中rodinia benchmark中包含21个GPU应用,如图计算领域bfs、线性代数领域Gaussian、数据挖掘领域Kmeans、医学成像领域HeartWall 等,parboil benchmark中包含11个应用,如矩阵向量乘Spmv、矩阵乘法MM、网格计算Stencil等。
监控特征记录,是指监控工具nvprof可以监控的所有特征的数据记录 (即访问hardware performance counter获得的数值),主要包括直接得到的基础数据events,如指令条数、内存访问次数、cache命中次数等特征的数值,以及通过基础数据计算获得的metrics,如指令吞吐量、内存访问效率等特征的数值。
监控特征记录的指数据格式为[执行时间,监控特征1,监控特征2,监控特征3,……],其中执行时间为记录的标记值。
在本步骤中,为了便于后续的计算,还需要去除所有记录中数据的单位,做归一化处理,生成新的完整数据集。归一化处理是指针对每一项监控特征的数据,将其重新计算生成0到1之间的一个数字,重新计算该项特征值的公式为(当前值-最小值)/(最大值-最小值)。
(S2)从样本监控数据集中筛选出对GPU性能影响最大的特征,将其作为根节点;按照根节点取值大小将样本监控数据集划分为多个子集,从每一子集中分别筛选出对GPU性能影响次大的特征,将其作为第一层子节点;按照上述相同的方式筛选出余下层次的子节点,从而构建按照对GPU性能影响大小对特征排序的决策树。
更具体的实施方式为:
(21)初始化一颗空树,设置树高的最大值和叶子节点中最小的记录数。
树高的最大值,是指在建立决策树模型时树的最大高度,是用于决定模型停止的条件。叶子节点中最小的记录数,是指书中每个节点中记录数的最小值,也是用于决定模型停止的条件。
(22)处理树的第一层,实例化根节点。
(221)计算样本监控数据集的信息熵。数据集的信息熵,是指累加所有记录的标记值中每个可能的值出现的概率*概率的以2为底的对数。
(222)针对每一特征,按照其不同取值将样本监控数据集划分为多个子集,计算每个子集的信息熵,对每个子集的信息熵进行加权求和得到该特征的信息熵;加权求和的权重系数为子集中的记录数占样本监控数据集的记录数的比例。
(223)分别计算样本监控数据集的信息熵与各特征的信息熵的差值得到各特征的信息增益。
(224)将信息增益最大的特征作为根节点。
(23)处理树的第二层:
依次对每个子集做如下处理:
当子集中记录的个数小于叶子节点中最小的记录数时,不再处理该子集;当子集中记录的个数大于叶子节点中最小的记录数时,对该子集计算信息熵。
针对每一特征,按照其不同取值将子集再划分为多个第二子集,计算每个第二子集的信息熵,对每个第二子集的信息熵进行加权求和得到该特征的第二信息熵。
分别计算子集的信息熵与各特征的第二信息熵的差值得到各特征的第二信息增益;
将第二信息增益最大的特征作为第二层的一个节点。
(24)按照上述相同方式 ,处理树的余下层次,直到当树的高度超过树高的最大值时或不产生新的叶子节点。
下面对所述在线性能评估部分的各步骤详细说明:
(T1)从待分析GPU应用的运行过程中提取待分析监控记录。与步骤 (S1)的提取方式相同。
(T2)将待分析监控记录与所述离线构建的决策树进行匹配,得到对 GPU性能影响的重要特征排序组合。
(T3)根据步骤(T2)得到的重要特征排序组合,在重要特征排序组合与GPU性能关注点的映射关系进行查询,得到待分析监控记录对应的GPU 性能关注点。
其中,重要特征排序组合与GPU性能关注点的映射关系通过经验知识对GPU应用的各项特征和GPU应用的性能问题进行分析来构建得到。比如,对于全局内存而言,如果指令所需的访存次数远远小于实际上的访存次数,且L1 cache命中率较高时,说明同一条访存指令反复执行了很多遍,即全局内存中存在非合并的访存模式,对应于全局内存的非规则访问问题。
根据监控特征集中包含的所有特征,判断是否可以指向共同的性能关注点,即四类常见性能关注点中的一类。
其中,四类常见问题是指计算相关、内存相关、同步相关和占用率相关问题。系统执行一个应用的耗时Ttotal=Tcompute+Tmemory+Tsync,因此可以将影响应用执行时间的问题具体分为应用相关、内存相关和同步相关的耗时。此外,对于系统而言,整体的资源利用率与应用特性无关,但是影响应用的执行,即占用率相关的问题。
其中,计算相关问题又分为线程分歧、负载不均衡两个子问题,内存相关问题又分为全局内存中的非规则访问、共享内存中的bank conflict、cache 命中率低三个子问题,占用率相关是指GPU资源占用率低,反映出来的应用程序执行时并行度低的问题,同步相关是指各种stall导致的等待时间过长的问题。
获知性能关注点后,用户可根据子节点中记录的特征值的取值变化,建议对特征值做何种优化调整,输出性能瓶颈及参考优化建议。
其中,性能瓶颈是指已经通过数学模型确认的应用性能瓶颈问题。优化建议是指根据决策树中所有特征值或部分特征值的取值变化提出的对特征值的优化调整。用户也可以根据子问题自行确定优化策略。
本发明通过决策树算法对不同应用在同一GPU架构上的应用执行情况进行学习,获取对待分析应用执行时间影响较大的监控特征重要度排序,再利用监控特征集与常见应用问题之间的映射关系,反映出待分析应用的最大问题,从而获得应用的性能瓶颈所在,并指导程序员进行应用程序优化,提供一种通用的、相对准确的、快速的、简单易用的对GPU上的资源和应用进行性能评估的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.CPU-GPU异构环境中对GPU应用的性能评估方法,其特征在于,包括离线决策树构建和在线性能评估:
所述离线决策树构建包括以下步骤:
(S1)提取不同GPU应用在运行过程中的多条样本监控记录组成样本监控数据集,每条样本监控记录包含多个表征GPU应用运行状态的特征;
(S2)从样本监控数据集中筛选出对GPU性能影响最大的特征,将其作为根节点;按照根节点取值大小将样本监控数据集划分为多个子集,从每一子集中分别筛选出对GPU性能影响次大的特征,将其作为第一层子节点;按照上述相同的方式筛选出余下层次的子节点,从而构建按照对GPU性能影响大小对特征排序的决策树;
所述在线性能评估包括以下步骤:
(T1)从待分析GPU应用的运行过程中提取待分析监控记录;
(T2)将待分析监控记录与所述离线构建的决策树进行匹配,得到对GPU性能影响的特征排序组合;
(T3)根据步骤(T2)得到的特征排序组合,在特征排序组合与GPU性能关注点的映射关系进行查询,得到待分析监控记录对应的GPU性能关注点;
所述步骤(S2)中筛选根节点具体包括:
(S21)计算样本监控数据集的信息熵;
(S22)针对每一特征,按照其不同取值将样本监控数据集划分为多个子集,计算每个子集的信息熵,对每个子集的信息熵进行加权求和得到该特征的信息熵;
(S23)分别计算样本监控数据集的信息熵与各特征的信息熵的差值得到各特征的信息增益;
(S24)将信息增益最大的特征作为根节点。
2.根据权利要求1所述的CPU-GPU异构环境中对GPU应用的性能评估方法,其特征在于,所述步骤(S22)中加权求和的权重系数为子集中的记录数占样本监控数据集的记录数的比例。
3.根据权利要求1或2所述的CPU-GPU异构环境中对GPU应用的性能评估方法,其特征在于,所述步骤(S1)还对样本监控记录进行归一化处理。
4.根据权利要求1或2所述的CPU-GPU异构环境中对GPU应用的性能评估方法,其特征在于,所述性能关注点包括计算、内存、同步和资源;所述计算包括线程分歧和负载不均衡两个子问题;所述内存包括全局内存中的非规则访问、共享内存中的bank conflict、cache命中率低三个子问题,所述同步指各种stall导致的等待时间过长的问题;所述资源指GPU资源占用率低,反映出来的应用程序执行时并行度低的问题。
5.CPU-GPU异构环境中对GPU应用的性能评估系统,其特征在于,包括离线决策树构建模块和在线性能评估模块:
所述离线决策树构建模块包括以下模块:
样本特征提取模块,用于提取不同GPU应用在运行过程中的多条样本监控记录组成样本监控数据集,每条样本监控记录包含多个表征GPU应用运行状态的特征;
决策树构建模块,用于从样本监控数据集中筛选出对GPU性能影响最大的特征,将其作为根节点;按照根节点取值大小将样本监控数据集划分为多个子集,从每一子集中分别筛选出对GPU性能影响次大的特征,将其作为第一层子节点;按照上述相同的方式筛选出余下层次的子节点,从而构建按照对GPU性能影响大小对特征排序的决策树;
所述在线性能评估模块包括以下模块:
待评估特征提取模块,用于从待分析GPU应用的运行过程中提取待分析监控记录;
特征匹配模块,用于将待分析监控记录与所述离线构建的决策树进行匹配,得到对GPU性能影响的特征排序组合;
查询模块,用于根据特征匹配模块得到的特征排序组合,在特征排序组合与GPU性能关注点的映射关系进行查询,得到待分析监控记录对应的GPU性能关注点;
所述决策树构建模块包括:
信息熵计算子模块,用于计算样本监控数据集的信息熵;
特征信息熵计算子模块,用于按照其不同取值将样本监控数据集划分为多个子集,计算每个子集的信息熵,对每个子集的信息熵进行加权求和得到该特征的信息熵;
特征信息增益计算子模块,用于分别计算样本监控数据集的信息熵与各特征的信息熵的差值得到各特征的信息增益;
根节点构建子模块,用于将信息增益最大的特征作为根节点。
6.根据权利要求5所述的CPU-GPU异构环境中对GPU应用的性能评估系统,其特征在于,所述特征信息熵计算子模块中加权求和的权重系数为子集中的记录数占样本监控数据集的记录数的比例。
7.根据权利要求5或6所述的CPU-GPU异构环境中对GPU应用的性能评估系统,其特征在于,所述样本特征提取模块还对样本监控记录进行归一化处理。
8.根据权利要求5或6所述的CPU-GPU异构环境中对GPU应用的性能评估系统,其特征在于,所述性能关注点包括计算、内存、同步和资源;所述计算包括线程分歧和负载不均衡两个子问题;所述内存包括全局内存中的非规则访问、共享内存中的bank conflict、cache命中率低三个子问题,所述同步指各种stall导致的等待时间过长的问题;所述资源指GPU资源占用率低,反映出来的应用程序执行时并行度低的问题。
CN201711146155.6A 2017-11-17 2017-11-17 Cpu-gpu异构环境中对gpu应用的性能评估方法及系统 Active CN107908536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711146155.6A CN107908536B (zh) 2017-11-17 2017-11-17 Cpu-gpu异构环境中对gpu应用的性能评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711146155.6A CN107908536B (zh) 2017-11-17 2017-11-17 Cpu-gpu异构环境中对gpu应用的性能评估方法及系统

Publications (2)

Publication Number Publication Date
CN107908536A CN107908536A (zh) 2018-04-13
CN107908536B true CN107908536B (zh) 2020-05-19

Family

ID=61846109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711146155.6A Active CN107908536B (zh) 2017-11-17 2017-11-17 Cpu-gpu异构环境中对gpu应用的性能评估方法及系统

Country Status (1)

Country Link
CN (1) CN107908536B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106261B2 (en) * 2018-11-02 2021-08-31 Nvidia Corporation Optimal operating point estimator for hardware operating under a shared power/thermal constraint
CN110008096B (zh) * 2018-11-29 2024-02-06 创新先进技术有限公司 数据监测方法、装置、电子设备及计算机可读存储介质
CN109871237B (zh) * 2018-12-07 2021-04-09 中国科学院深圳先进技术研究院 一种基于机器学习的CPU与GPU异构SoC性能刻画方法
CN111737001A (zh) * 2020-06-24 2020-10-02 国网电力科学研究院有限公司 一种计算系统负载均衡方法、装置及存储介质
CN112001295B (zh) * 2020-08-19 2023-12-08 北京航天飞行控制中心 高速转子轴系的性能评估方法及装置、存储介质及处理器
CN112348173A (zh) * 2020-11-13 2021-02-09 南开大学 一种移动平台上cnn流水线优化方法
CN113393169B (zh) * 2021-07-13 2024-03-01 大商所飞泰测试技术有限公司 基于大数据技术的金融行业交易系统性能指标分析方法
CN117194192A (zh) * 2023-09-19 2023-12-08 北京速度时空信息有限公司 一种高精度地图的评估系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067028A (zh) * 2015-04-19 2016-11-02 北京典赞科技有限公司 基于gpu的自动化机器学习的建模方法
CN106156786A (zh) * 2015-04-19 2016-11-23 北京典赞科技有限公司 基于多gpu的随机森林训练方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290882B2 (en) * 2008-10-09 2012-10-16 Microsoft Corporation Evaluating decision trees on a GPU
US9971959B2 (en) * 2013-03-15 2018-05-15 Nvidia Corporation Performing object detection operations via a graphics processing unit
CN106897109B (zh) * 2017-02-13 2020-04-14 云南大学 基于随机森林回归的虚拟机性能预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067028A (zh) * 2015-04-19 2016-11-02 北京典赞科技有限公司 基于gpu的自动化机器学习的建模方法
CN106156786A (zh) * 2015-04-19 2016-11-23 北京典赞科技有限公司 基于多gpu的随机森林训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
异构多核上多级并行模型支持及性能优化;李士刚等;《软件学报》;20131215;第2782-2796页 *
异构重构计算系统应用任务调度的性能分析;谭一鸣等;《小型微型计算机系统》;20120215;第33卷(第2期);第404-408页 *

Also Published As

Publication number Publication date
CN107908536A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
Kabiljo et al. Social hash partitioner: a scalable distributed hypergraph partitioner
CN110390345B (zh) 一种基于云平台的大数据集群自适应资源调度方法
Hsu et al. Micky: A cheaper alternative for selecting cloud instances
CN112540849B (zh) 一种分布式计算作业的参数配置优化方法及系统
Sundar et al. Hyksort: a new variant of hypercube quicksort on distributed memory architectures
CN110740079B (zh) 一种面向分布式调度系统的全链路基准测试系统
CN110825522A (zh) Spark参数自适应优化方法及系统
Yan et al. Efficient deep neural network serving: Fast and furious
CN110705716A (zh) 一种多模型并行训练方法
CN112434785B (zh) 一种面向超级计算机的分布式并行深度神经网络性能评测方法
WO2023224742A1 (en) Predicting runtime variation in big data analytics
Li et al. {MilliSort} and {MilliQuery}:{Large-Scale}{Data-Intensive} Computing in Milliseconds
Rahman et al. SMBSP: a self-tuning approach using machine learning to improve performance of spark in big data processing
Ni et al. Online performance and power prediction for edge TPU via comprehensive characterization
Ismaeel et al. An efficient workload clustering framework for large-scale data centers
Karatzas et al. Omniboost: Boosting throughput of heterogeneous embedded devices under multi-dnn workload
Ma et al. An approach for matching communication patterns in parallel applications
CN106874215B (zh) 一种基于Spark算子的序列化存储优化方法
CN116521372A (zh) 一种服务器集群的管理方法及相关组件
Ismaeel et al. A systematic cloud workload clustering technique in large scale data centers
CN115391047A (zh) 资源调度方法及装置
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
Ding et al. An efficient query processing optimization based on ELM in the cloud
CN112667591A (zh) 一种基于海量日志的数据中心任务干扰预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant