CN117632530B - 基于新一代申威众核处理器的从核数量调整并行加速方法 - Google Patents

基于新一代申威众核处理器的从核数量调整并行加速方法 Download PDF

Info

Publication number
CN117632530B
CN117632530B CN202410100803.8A CN202410100803A CN117632530B CN 117632530 B CN117632530 B CN 117632530B CN 202410100803 A CN202410100803 A CN 202410100803A CN 117632530 B CN117632530 B CN 117632530B
Authority
CN
China
Prior art keywords
critical resource
slave
accuracy
cores
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410100803.8A
Other languages
English (en)
Other versions
CN117632530A (zh
Inventor
刘弢
李玉辉
任增辉
秦晗
郭莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qilu University of Technology
Priority to CN202410100803.8A priority Critical patent/CN117632530B/zh
Publication of CN117632530A publication Critical patent/CN117632530A/zh
Application granted granted Critical
Publication of CN117632530B publication Critical patent/CN117632530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7839Architectures of general purpose stored program computers comprising a single central processing unit with memory
    • G06F15/7864Architectures of general purpose stored program computers comprising a single central processing unit with memory on more than one IC chip
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及基于新一代申威众核处理器的从核数量调整并行加速方法,属于电子信息技术领域。包括:定义初始临界资源控制器CRC精确度;在从核访问主存的过程中,通过临界资源控制器CRC控制的形式,以控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整,在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量。本发明解决了从核执行程序段中的数量选择问题。该方法可以快捷、便利地找到最佳的从核数量,有效的降低程序执行的时间,从而提高应用程序的并行效率,可以适用于申威系列众核处理器。

Description

基于新一代申威众核处理器的从核数量调整并行加速方法
技术领域
本发明涉及基于新一代申威众核处理器的从核数量调整并行加速方法,属于电子信息技术领域。
背景技术
高性能计算作为战略性、前沿性的高端技术,不仅是科技人才培养、创新体系建设的重要组成部分,同时也是发达国家竞争的战略目标,对于提高国民经济、推进科技进步、加强军事国防建设等具有重要意义。超级计算机代表了高性能计算系统的最先进水平,这不仅是国家科技能力在信息社会的重要体现,也是国家科技发展水平和综合国力的重要标志。我国新一代神威超级计算机已开始建设和使用,为多个领域的科学计算应用软件提供了自主可控的并行计算平台,为各领域的数据模拟和科学研究提供了有力支持。
新一代高性能异构多核处理器SW26010pro的设计用于大规模下的线程和数据并行,并在并行工作负载上提供高性能计算能力。SW26010pro处理器包含6个核组,核组之间通过片上网络连接。与此同时,每个核组有65个核心,其中包括1个主核、64个从核和1个存储器,共计390核。64个从核通过8×8网格的形式排列。SW26010pro处理器的硬件架构如图1所示。SW26010pro处理器中从核阵列的架构如图2所示。
由于申威众核处理器架构的特殊性,在从核访问主存的过程中,会出现多个从核同时访问主存的情况,从而出现临界资源互斥,进一步会导致冲突。如图3所示,以0号从核和1号从核为例。当0号从核和1号从核同时访问主存d0部分时,会出现以下情况:在0号从核访问完主存d0部分后,主存d0部分会得到对应的返回值,而1号从核也会进行对应的访问工作,从而主存d0部分再次得到返回值,最终导致主存d0部分重复计算,得到错误的结果。这就需要使用控制临界资源的方法。在控制临界资源访问主存的过程中,使用从核的数量难以确定。使用过多的从核数量可能会引起临界资源的争夺,过少的从核数量可能会导致计算资源利用不足。总之,过多或者过少的从核数量都可能导致并行资源利用率的下降。例如,采用16个从核时,可能等待的从核数量为5个;而采用64个从核时,可能等待的数量为10个。过多的等待资源不利于程序的快速执行。
由上述情况可知,在存在临界区资源访问的情况下,从核数量并不是越多越好,使用更多的从核并不一定代表有更好的加速效果。
发明内容
针对现有技术的不足,本发明提供了基于新一代申威众核处理器的从核数量调整并行加速方法;
本发明根据从核的资源配置情况,针对控制临界资源访问主存的场景,解决了从核执行程序段中的数量选择问题。该方法可以快捷、便利地找到最佳的从核数量,有效的降低程序执行的时间,从而提高应用程序的并行效率。
本发明的技术方案为:
基于新一代申威众核处理器的从核数量调整并行加速方法,包括:
定义初始临界资源控制器CRC精确度;
在从核访问主存的过程中,通过临界资源控制器CRC控制的形式,以控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整,在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量。
根据本发明优选的,在访问临界资源之前通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁,防止其他从核同时访问该临界资源。
根据本发明优选的,定义初始临界资源控制器CRC精确度为4,6或8。
根据本发明优选的,以控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整;包括:
针对若干从核数,记录若干个从核数所对应的时间;
在运行的过程中,对相邻两次测试对应的从核时间差differ进行记录:若前者differ1大于后者differ2,则减小精确度;若后者differ2大于前者differ1,则增大精确度;在调整临界资源控制器CRC精确度后,采用计数器num完成differ的更新并实时记录迭代次数,直至确保临界资源控制器CRC精确度降到1为止;
在确定临界资源控制器CRC精确度后,根据时间preTime 、currentTime 、nextTime 进行二次最佳从核数的查找,直至得到最佳的时间和最合适的从核数量。
根据本发明优选的,在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量,包括:
在确定控制器精确度为1后,根据时间preTime 、currentTime 、nextTime 进行二次最佳时间的查找,将三者的时间进行比较排序得到最佳的时间;
从核数量和时间是相互对应的,得到最佳的时间后,即得到最合适的从核数量。
根据本发明优选的,在访问临界资源之前通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁;包括:
临界资源互斥锁CRM的初始化操作:在内存中分配一块内存空间作为临界资源互斥锁CRM变量,并将其初始化为0;
临界资源互斥锁CRM的添加与解除:在访问临界资源之前,添加临界资源互斥锁CRM;在添加完毕后,进行核心内容的计算;在计算完毕后,解除临界资源互斥锁CRM;
临界资源互斥锁CRM的数据处理:在添加和解除临界资源互斥锁CRM完毕后,进行数据处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于新一代申威众核处理器的从核数量调整并行加速方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于新一代申威众核处理器的从核数量调整并行加速方法的步骤。
本发明的有益效果为:
本发明设计了临界资源下的两种工具—临界资源互斥锁CRM(Critical ResourceMutex)与临界资源控制器CRC(Critical Resource Controller),CRM的设计可进行锁的添加与解除,能够有效的避免并行写冲突问题;CRC的设计可以对控制器精确度的大小和控制器位置进行有效调整,以此得到最佳的从核数量。本发明可以有效的缩短运行时间,解决从核数量的最佳选择问题,提升应用程序的并行性能与加速效果。
附图说明
图1为SW26010pro处理器硬件架构示意图;
图2为SW26010pro处理器中从核阵列的架构示意图;
图3临界资源互斥的冲突过程示意图;
图4为临界资源控制器CRC的具体实现过程示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
基于新一代申威众核处理器的从核数量调整并行加速方法,包括:
在并行写冲突的过程中,不同的从核数在访问过程中需要等待的从核数量也可能不同。在存在临界区资源访问的情况下,从核数量并不是越多越好,使用更多的从核并不一定代表有更好的加速效果。因此,为了能够更好的获取程序所需的最短时间,取得更好的加速效果,需要确定合适的从核数量。
在寻找最合适的从核数量的过程中,本发明提出了临界资源控制器CRC(CriticalResource Controller),临界资源控制器CRC的使用可分为两部分。首先,在使用临界资源控制器CRC前,程序员根据自身需求定义初始临界资源控制器CRC精确度;其次,在从核访问主存的过程中,通过使用临界资源控制器CRC,控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整,在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量。
本发明能够快速、有效地找到最佳的从核数量,有效的缩短了运行时间,提升了应用程序的并行性能与加速效果。
实施例2
根据实施例1所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其区别在于:
为了避免临界资源互斥的发生,即有效的避免并行写冲突问题,需要加锁控制。
在程序运行的过程中,由于没有任何限制,多个从核可以同时访问临界资源,这样可以提高并行度和效率。随着从核数量的增多,每个从核需要处理的任务就会减少,所以需要的时间也会越来越少。但是,这样也会带来一个问题,就是当多个从核同时访问临界资源时,可能会出现数据不一致或者覆盖的情况,导致程序的结果出错。
为了解决上述问题,本发明提出了一种临界资源互斥锁CRM,在访问临界资源之前通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁,防止其他从核同时访问该临界资源。从而保证数据的一致性和正确性,使其能够有效的避免并行写冲突问题;在使用临界资源互斥锁CRM之后,就可以避免上述问题的发生。每次只有一个从核能够通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁,这样就可以保证数据的一致性和正确性。
实施例3
根据实施例1所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其区别在于:
根据程序员对于程序的需求完成对临界资源控制器CRC精确度的初始值的确定。如果所使用的从核数量范围较大,则采用较大的CRC精确度;如果所使用的从核数量范围较小,则采用较小的CRC精确度。定义初始临界资源控制器CRC精确度为4,6或8。
以控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整;如图4所示,包括:
针对若干从核数,记录若干个从核数所对应的时间;
在运行的过程中,对相邻两次测试对应的从核时间差differ进行记录:若前者differ1大于后者differ2,则减小精确度;若后者differ2大于前者differ1,则增大精确度;在调整临界资源控制器CRC精确度后,采用计数器num完成differ的更新并实时记录迭代次数,直至确保临界资源控制器CRC精确度降到1为止;
在确定临界资源控制器CRC精确度后,根据时间preTime 、currentTime 、nextTime 进行二次最佳从核数的查找,直至得到最佳的时间和最合适的从核数量。
以三个从核数及其所对应的时间为例,设置初始控制器精确度为8,并假设64个从核、56个从核、48个从核所对应的时间分别为100s、90s、78s。在运行的过程中,会首先记录第64个从核和第56个从核所对应的时间差并记录为differ1=10s,记录第56个从核和第48个从核所对应的时间差并记录为differ2=12s,由differ2>differ1可知,此时应增大控制器精确度,反之,若differ1>differ2时,应减小控制器精确度,在增加(减少)控制器精确度后,采用计数器num完成differ的更新并实时记录迭代次数,直至确保控制器精确度降到1为止。在确定控制器精确度后,根据时间preTime 、currentTime 、nextTime 进行二次最佳从核数的查找,直至得到最佳的时间和最合适的从核数量。
在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量,包括:
在确定控制器精确度为1后,根据时间preTime 、currentTime 、nextTime 进行二次最佳时间的查找,将三者的时间进行比较排序得到最佳的时间;
从核数量和时间是相互对应的,得到最佳的时间后,即得到最合适的从核数量。
实施例4
根据实施例2所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其区别在于:
在访问临界资源之前通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁;该实现过程具体所需函数如表1所示,表1为所需函数及功能表;包括:
临界资源互斥锁CRM的初始化操作:通过CRM _init()函数,在内存中分配一块内存空间作为临界资源互斥锁CRM变量,并将其初始化为0;
临界资源互斥锁CRM的添加与解除:在访问临界资源之前,通过CRM _lock(&lock_s[ ])函数添加临界资源互斥锁CRM;在添加完毕后,进行核心内容的计算;在计算完毕后,通过CRM _unlock(&lock_s[])函数解除临界资源互斥锁CRM;
临界资源互斥锁CRM的数据处理:在添加和解除临界资源互斥锁CRM完毕后,通过CRM _dma_get( )函数和CRM _dma_put( )函数进行数据处理。
表1
其中,lock_s[ ]中存放对应的计算量;
实施例5
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-4任一所述的基于新一代申威众核处理器的从核数量调整并行加速方法的步骤。
实施例6
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1-4任一所述的基于新一代申威众核处理器的从核数量调整并行加速方法的步骤。

Claims (7)

1.基于新一代申威众核处理器的从核数量调整并行加速方法,其特征在于,包括:
定义初始临界资源控制器CRC精确度;新一代申威众核处理器的型号为SW26010pro;
在从核访问主存的过程中,通过临界资源控制器CRC控制的形式,以控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整,在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量;
以控制多次所得到从核数量对应的平均时间差值为基准,根据时间差值增大或减少的情况进行临界资源控制器CRC精确度大小的调整;包括:
针对若干从核数,记录若干个从核数所对应的时间;
在运行的过程中,对相邻两次测试对应的从核时间差differ进行记录:若前者differ1大于后者differ2,则减小精确度;若后者differ2大于前者differ1,则增大精确度;在调整临界资源控制器CRC精确度后,采用计数器num完成differ的更新并实时记录迭代次数,直至确保临界资源控制器CRC精确度降到1为止;
在确定临界资源控制器CRC精确度后,根据时间preTime、currentTime、nextTime进行二次最佳从核数的查找,直至得到最佳的时间和最合适的从核数量。
2.根据权利要求1所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其特征在于,在访问临界资源之前通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁。
3.根据权利要求1所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其特征在于,定义初始临界资源控制器CRC精确度为4,6或8。
4.根据权利要求1所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其特征在于,在确定临界资源控制器CRC控制的精确度为1时,即比较相邻从核数量所对应的时间,以此得到最佳的时间和最合适的从核数量,包括:
在确定控制器精确度为1后,根据时间preTime、currentTime、nextTime进行二次最佳时间的查找,将三者的时间进行比较排序得到最佳的时间;
从核数量和时间是相互对应的,得到最佳的时间后,即得到最合适的从核数量。
5.根据权利要求2所述的基于新一代申威众核处理器的从核数量调整并行加速方法,其特征在于,在访问临界资源之前通过临界资源互斥锁CRM获取到锁,并且在访问完临界资源后释放锁;包括:
临界资源互斥锁CRM的初始化操作:在内存中分配一块内存空间作为临界资源互斥锁CRM变量,并将其初始化为0;
临界资源互斥锁CRM的添加与解除:在访问临界资源之前,添加临界资源互斥锁CRM;在添加完毕后,进行核心内容的计算;在计算完毕后,解除临界资源互斥锁CRM;
临界资源互斥锁CRM的数据处理:在添加和解除临界资源互斥锁CRM完毕后,进行数据处理。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一所述的基于新一代申威众核处理器的从核数量调整并行加速方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一所述的基于新一代申威众核处理器的从核数量调整并行加速方法的步骤。
CN202410100803.8A 2024-01-25 2024-01-25 基于新一代申威众核处理器的从核数量调整并行加速方法 Active CN117632530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410100803.8A CN117632530B (zh) 2024-01-25 2024-01-25 基于新一代申威众核处理器的从核数量调整并行加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410100803.8A CN117632530B (zh) 2024-01-25 2024-01-25 基于新一代申威众核处理器的从核数量调整并行加速方法

Publications (2)

Publication Number Publication Date
CN117632530A CN117632530A (zh) 2024-03-01
CN117632530B true CN117632530B (zh) 2024-05-03

Family

ID=90035912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410100803.8A Active CN117632530B (zh) 2024-01-25 2024-01-25 基于新一代申威众核处理器的从核数量调整并行加速方法

Country Status (1)

Country Link
CN (1) CN117632530B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118245117B (zh) * 2024-05-29 2024-08-09 山东省计算中心(国家超级计算济南中心) 基于新一代申威众核处理器多分支自动分析并行优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168683A (zh) * 2017-05-05 2017-09-15 中国科学院软件研究所 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法
CN109491791A (zh) * 2018-11-09 2019-03-19 华东师范大学 基于申威众核处理器的nsga-ii的主从增强式运行方法及装置
CN112306678A (zh) * 2020-10-22 2021-02-02 中国海洋大学 一种基于异构众核处理器的算法并行处理方法及系统
CN114968600A (zh) * 2022-07-19 2022-08-30 山东省计算中心(国家超级计算济南中心) 一种基于新一代申威众核处理器的从核阵列任务分配实现负载均衡的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100451972C (zh) * 2006-09-26 2009-01-14 杭州华三通信技术有限公司 提高多核系统访问临界资源速度的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168683A (zh) * 2017-05-05 2017-09-15 中国科学院软件研究所 国产申威26010众核cpu上gemm稠密矩阵乘高性能实现方法
CN109491791A (zh) * 2018-11-09 2019-03-19 华东师范大学 基于申威众核处理器的nsga-ii的主从增强式运行方法及装置
CN112306678A (zh) * 2020-10-22 2021-02-02 中国海洋大学 一种基于异构众核处理器的算法并行处理方法及系统
CN114968600A (zh) * 2022-07-19 2022-08-30 山东省计算中心(国家超级计算济南中心) 一种基于新一代申威众核处理器的从核阵列任务分配实现负载均衡的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Optimizations of Two Compute-Bound Scientific Kernels on the SW26010 Many-Core Processor;James Lin 等;《IEEE Xplore》;20170907;全文 *
基于申威26010处理器的扩展函数库实现与优化;曹代 等;《计算机工程》;20170131;全文 *

Also Published As

Publication number Publication date
CN117632530A (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
KR102316670B1 (ko) 연산 가속기
Olmedo et al. Dissecting the CUDA scheduling hierarchy: a performance and predictability perspective
CN106991011B (zh) 基于cpu多线程与gpu多粒度并行及协同优化的方法
CN117632530B (zh) 基于新一代申威众核处理器的从核数量调整并行加速方法
US8108659B1 (en) Controlling access to memory resources shared among parallel synchronizable threads
CN110135569B (zh) 一种异构平台神经元定位三级流水并行方法、系统及介质
US8615770B1 (en) System and method for dynamically spawning thread blocks within multi-threaded processing systems
CN114138381B (zh) 一种数值程序的处理系统
CN101777007A (zh) 片上多核处理器的并行功能仿真系统及其方法
CN111459691A (zh) 共享内存的读写方法及装置
CN114968600A (zh) 一种基于新一代申威众核处理器的从核阵列任务分配实现负载均衡的方法
CN108132834A (zh) 多级共享高速缓冲存储器架构下的任务分配方法和系统
CN118245118B (zh) 一种基于新一代申威众核处理器从核局存受限优化方法
CN109522127B (zh) 一种基于gpu的流体机械仿真程序异构加速方法
CN110262884B (zh) 一种基于申威众核处理器的核组内多程序多数据流分区并行的运行方法
KR20220125117A (ko) 뉴럴 프로세서
Zhao et al. ISPA: Exploiting Intra-SM Parallelism in GPUs via Fine-Grained Resource Management
Zhang et al. Yuenyeungsptrsv: a thread-level and warp-level fusion synchronization-free sparse triangular solve
CN112765088A (zh) 利用数据标签提高多计算单元平台上数据共享的方法
US20110247018A1 (en) API For Launching Work On a Processor
US8959497B1 (en) System and method for dynamically spawning thread blocks within multi-threaded processing systems
CN109670001A (zh) 基于cuda的多边形栅格化gpu并行计算方法
CN113377534A (zh) 一种基于csr格式的高性能稀疏矩阵向量乘法计算方法
CN114116208A (zh) 一种基于gpu的短波辐射传输模式三维加速方法
Nelson et al. Don't forget about synchronization! Guidelines for using locks on graphics processing units

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant