CN113805941A - 通过替换指令集对应用软件进行加速的系统及方法 - Google Patents

通过替换指令集对应用软件进行加速的系统及方法 Download PDF

Info

Publication number
CN113805941A
CN113805941A CN202110957299.XA CN202110957299A CN113805941A CN 113805941 A CN113805941 A CN 113805941A CN 202110957299 A CN202110957299 A CN 202110957299A CN 113805941 A CN113805941 A CN 113805941A
Authority
CN
China
Prior art keywords
instruction set
blas
gpu
target
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110957299.XA
Other languages
English (en)
Other versions
CN113805941B (zh
Inventor
姜汉
王臣汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Computing Tianjin Information Technology Co ltd
Original Assignee
Beijing Computing Tianjin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Computing Tianjin Information Technology Co ltd filed Critical Beijing Computing Tianjin Information Technology Co ltd
Priority to CN202110957299.XA priority Critical patent/CN113805941B/zh
Publication of CN113805941A publication Critical patent/CN113805941A/zh
Application granted granted Critical
Publication of CN113805941B publication Critical patent/CN113805941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种通过替换指令集对应用软件进行加速的系统及方法,所述系统包括:BLAS接口定义模块以及硬件调用模块;BLAS接口定义模块,用于将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库并配置BLAS接口;硬件调用模块,用于在接收到计算任务时,通过BLAS接口和计算任务确定对应的目标指令集,在目标指令集属于第二指令集时,根据目标指令集分配GPU资源对计算任务进行处理。通过本方案可对软件使用的BLAS库进行外部替换,把使用CPU的指令集,替换成使用GPU的指令集,通过GPU来处理计算任务,缩短了计算时间,并提高了计算速度,从而达到加速的目的。

Description

通过替换指令集对应用软件进行加速的系统及方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种通过替换指令集对应用软件进行加速的系统及方法。
背景技术
目前,使用GPU进行浮点数的计算,在速度上比CPU越来越高。传统的工业仿真软件、模拟软件和分析软件在使用的过程中会涉及很多浮点数运算和数学操作,而这些数学操作主要是基于CPU处理的线性代数库。因此在使用的过程中,随着计算量的增大,计算时间也会越来越长。
发明内容
本发明的主要目的在于提出一种通过替换指令集对应用软件进行加速的系统及方法,旨在解决现有技术中通过CPU来处理计算任务,计算时间长,计算速度慢的技术问题。
为实现上述目的,本发明提供一种通过替换指令集对应用软件进行加速的系统,所述系统包括:BLAS接口定义模块以及硬件调用模块;
所述BLAS接口定义模块,用于将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;
所述硬件调用模块,用于在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。
可选地,所述BLAS接口定义模块,还用于获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息;
所述BLAS接口定义模块,还用于根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集;
所述BLAS接口定义模块,还用于在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集;
所述BLAS接口定义模块,还用于根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库;
所述BLAS接口定义模块,还用于根据所述接口调用方式和所述目标BLAS库配置BLAS接口。
可选地,所述硬件调用模块,还用于在所述目标指令集属于第一指令集时,根据所述目标指令集分配CPU资源对所述计算任务进行处理。
可选地,所述BLAS接口定义模块,还用于获取GPU对应的GPU硬件信息;
所述BLAS接口定义模块,还用于根据所述指令集信息确定所述第一指令集对应的运算方式,并根据所述GPU硬件信息判断所述GPU是否支持所述运算方式,得到判断结果;
所述BLAS接口定义模块,还用于根据所述判断结果判断是否可将所述第一指令集替换为使用GPU的第二指令集。
可选地,所述系统还包括驱动管理模块;
所述驱动管理模块,用于根据所述GPU硬件信息确定对应的目标驱动,并对所述目标驱动进行配置;
所述硬件调用模块,还用于在所述目标指令集属于第二指令集时,根据所述目标指令集和所述目标驱动分配GPU资源对所述计算任务进行处理。
此外,为实现上述目的,本发明还提出一种通过替换指令集对应用软件进行加速的方法,所述方法适用于如上所述的系统,所述系统包括:BLAS接口定义模块以及硬件调用模块;
所述方法包括以下步骤:
所述BLAS接口定义模块将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;
所述硬件调用模块在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。
可选地,所述BLAS接口定义模块将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口的步骤,包括:
所述BLAS接口定义模块获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息;
所述BLAS接口定义模块根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集;
所述BLAS接口定义模块在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集;
所述BLAS接口定义模块根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库;
所述BLAS接口定义模块根据所述接口调用方式和所述目标BLAS库配置BLAS接口。
可选地,所述硬件调用模块在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集的步骤之后,还包括:
所述硬件调用模块在所述目标指令集属于第一指令集时,根据所述目标指令集分配CPU资源对所述计算任务进行处理。
可选地,所述BLAS接口定义模块根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集的步骤,包括:
所述BLAS接口定义模块获取GPU对应的GPU硬件信息;
所述BLAS接口定义模块根据所述指令集信息确定所述第一指令集对应的运算方式,并根据所述GPU硬件信息判断所述GPU是否支持所述运算方式,得到判断结果;
所述BLAS接口定义模块根据所述判断结果判断是否可将所述第一指令集替换为使用GPU的第二指令集。
可选地,所述系统还包括驱动管理模块;
所述在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理的步骤之前,还包括:
所述驱动管理模块根据所述GPU硬件信息确定对应的目标驱动,并对所述目标驱动进行配置;
相应地,所述在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理的步骤,包括:
所述硬件调用模块在所述目标指令集属于第二指令集时,根据所述目标指令集和所述目标驱动分配GPU资源对所述计算任务进行处理。
本发明提出的通过替换指令集对应用软件进行加速的系统,包括:BLAS接口定义模块以及硬件调用模块;所述BLAS接口定义模块,用于将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;所述硬件调用模块,用于在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。通过本方案可对软件使用的BLAS库进行外部替换,把使用CPU的指令集,替换成使用GPU的指令集,通过GPU来处理计算任务,缩短了计算时间,并提高了计算速度,从而达到加速的目的。
附图说明
图1为本发明通过替换指令集对应用软件进行加速的系统第一实施例的功能模块示意图;
图2为本发明通过替换指令集对应用软件进行加速的方法第一实施例的流程示意图;
图3为本发明通过替换指令集对应用软件进行加速的方法一实施例的系统关系示意图;
图4为本发明通过替换指令集对应用软件进行加速的方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明通过替换指令集对应用软件进行加速的系统第一实施例的功能模块示意图。所述系统包括:BLAS接口定义模块10以及硬件调用模块20。
所述BLAS接口定义模块10,用于将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口。
需要说明的是,基础线性代数库(Basic Linear Algebra Subprograms,BLAS)是一套应用程序接口(API)标准,各软硬件厂商会针对自身产品,对BLAS接口进行优化。常用的基于CPU的实现库有最早的Netlib、AMD公司的ACML和Intel公司的MKL,这些也是工业软件常用的BLAS库,除此之外,还可包含更多其他的BLAS库,本实施例对此不作限制。
应当理解的是,本实施例中的初始BLAS库是基于CPU的基础线性代数库,初始BLAS库中存储的都是使用CPU的指令集,在正常情况下,接收到应用软件系统的计算任务时,可通过BLAS接口调用初始BLAS库中对应的指令集来分配CPU资源对计算任务进行处理。
在本实施例中,基于使用GPU的计算速度比CPU快的原理,将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,在替换完成后,得到目标BLAS库,并基于目标BLAS配置BLAS接口。其中,本实施例中的“第一”、“第二”只是为了区分不同的对象,不作其他限定。
可以理解的是,由于并不是所有的计算任务都可以通过GPU来进行处理,可能存在一些只能由CPU来进行处理的计算任务,因此,为了避免出现无法执行计算任务的情况,在本实施例的上述步骤中可对各第一指令集对应的指令集信息进行检测,以判断其对应的计算任务是否可以由GPU来进行处理,在能够由GPU进行处理的情况下,才进行指令集的替换。因此,在替换完成后得到的目标BLAS库中可能存在一部分使用CPU的第一指令集,以及一部分使用GPU的第二指令集。
在具体实现中,例如,假设初始BLAS中存在5个使用CPU的第一指令集,分别为A1、A2、A3、A4以及A5,对其进行检测后发现,其中的A1、A2、A3对应的计算任务可由GPU进行处理,而A4、A5对应的计算任务只能由CPU进行处理,因此,可将A1、A2、A3替换为使用GPU的第二指令集B1、B2、B3,在替换完成后得到的目标BLAS库中存在3个第二指令集和2个第一指令集,分别为:B1、B2、B3、A4以及A5,在后续实施例中均以该场景为例进行说明。
当然,如果初始BLAS库中所有使用CPU的第一指令集对应的计算任务都可以由GPU来进行处理,那么便将所有使用CPU的第一指令集替换为使用GPU的第二指令集,在这种情况下,在替换完成后得到的目标BLAS库中就只存在使用GPU的第二指令集,本实施例对此不作限制。
需要说明的是,图形处理器(graphics processing unit,GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。而现在的计算机设备上一般都装配有集成显卡和独立显卡两种显卡,理论上本方案中的GPU可以为集成显卡上的GPU,也可以为独立显卡上的GPU,但是,由于独立显卡的运行能力更强,为了达到更好的运算效果以及加速效果,在本实施例中,优选独立显卡上的GPU,本实施例对此不作限制。
需要说明的是,本实施例中的BLAS接口一共可分为3级34个接口,其中:Level1 9个接口:主要是矢量对矢量运算;Level2 16个接口:主要是矩阵对矢量运算;Level3 9个接口:主要是矩阵对矩阵运算。除此之外,接口还可为其他数量,也可为通过其他方式对接口进行等级划分,本实施例对此不作限制。
所述硬件调用模块20,用于在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。
需要说明的是,本方案的系统可处于应用软件系统和硬件系统之间,属于平台系统。下方对接GPU、CPU等硬件环境,上方对接应用软件系统,应用软件系统,与平台系统之间,可通过BLAS接口进行调用。其中,可如图3所示,图3为系统关系示意图,应用软件系统可包括仿真软件、模拟软件等工业应用软件系统,硬件系统可包括GPU、CPU等硬件,本实施例对此不作限制。
应当理解的是,基于上述原理和设置,本系统的平台管理硬件计算核心为:对于使用GPU的计算任务,则分配GPU资源进行处理;对于使用CPU的计算任务,则分配GPU资源进行处理。
可以理解的是,在接收到应用软件系统发起的计算任务时,可通过BLAS接口和计算任务确定需要调用的目标指令集。在目标指令集属于第二指令集时,说明该计算任务是使用GPU的计算任务,可根据目标指令集分配GPU资源对该计算任务进行处理。在目标指令集属于第一指令集时,说明该计算任务是使用CPU的计算任务,可根据目标指令集分配CPU资源对该计算任务进行处理。
可以理解的是,通过本方案的指令集替换方式,当软件进行计算的时候,当遇到使用这些库的方法时,如果该方法对应的指令集被替换掉了,就会从调用原有CPU实现变成调用GPU实现方法,达到提升计算速度的目的。而且,本方案的上述改进并不会影响到用户的使用,用户和软件层无感知,用户可以通过原有操作方式使用软件,不改变用户的使用方法和习惯。本方案的系统可以使用GPU加速的部分进行优化,对于不能使用GPU的操作,则保留原有CPU处理操作,避免执行错误的情况。
应当理解的是,针对适配的软件,在底层调用的额过程中,可加入侵入性代码,当软件在运行过程中,调用线性代数相关计算之后,把请求转发到本系统的BLAS计算库的实现方法上,使用GPU进行处理和计算,当计算完成之后,把计算结果通过侵入代码返回给应用软件。如果是使用外置库或系统库的工业软件,则不需要侵入性代码,直接替换软件使用的引用库链接即可。
可以理解的是,与现有技术相比,本方案至少具有以下优点:1、可以极大的加速工业软件计算过程的运行速度。在32位浮点数计算条件下,GPU运算的速度是CPU的6.5倍,如果在16位浮点数计算条件下,则是CPU的14倍。2、对用户使用过程透明。由于用户使用的是运行在本系统上的工业软件,软件直接可以经过GPU加速的线性代数库。
在本实施例中,所述系统包括:BLAS接口定义模块以及硬件调用模块;所述BLAS接口定义模块,用于将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;所述硬件调用模块,用于在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。通过本方案可对软件使用的BLAS库进行外部替换,把使用CPU的指令集,替换成使用GPU的指令集,通过GPU来处理计算任务,缩短了计算时间,并提高了计算速度,从而达到加速的目的。
进一步地,继续参照图1,基于上述图1所示的实施例,提出本发明通过替换指令集对应用软件进行加速的系统的第二实施例。
所述BLAS接口定义模块10,还用于获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息。
应当理解的是,本方案通过把使用CPU的指令集,替换成使用GPU的指令集,从而达到加速的目的,但是,由于GPU与CPU支持的运算方式可能存在区别,因此,可能有部分指令集对应的计算任务只能由CPU来进行处理,所以,为了检测第一指令集是否能够替换成使用GPU的第二指令集,可获取初始BLAS库中使用CPU的第一指令集对应的指令集信息,根据指令集信息来进行是否可替换的检测。同时,还可获取初始BLAS库对应的接口调用方式,用于后续的配置操作。
所述BLAS接口定义模块10,还用于根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集。
应当理解的是,由于市面上存在多种品牌以及型号的显卡,而这些显卡的GPU所支持的运算方式可能存在区别,例如,有的型号的显卡可能支持某种运算方式,而另一种型号的显卡可能不支持该种运算方式,因此,可获取当前的GPU对应的GPU硬件信息,其中,GPU硬件信息可为GPU对应的显卡型号信息。
可以理解的是,可根据之前获取的指令集信息确定各第一指令集对应的运算方式,然后根据显卡型号信息判断该GPU是否支持第一指令集对应的运算方式,可以得到判断结果。其中,判断结果可分为两种情况:1、该GPU支持第一指令集对应的运算方式;2、该GPU不支持第一指令集对应的运算方式。
可以理解的是,在得到上述判断结果之后,可根据该判断结果进一步判断是否可将第一指令集替换为使用GPU的第二指令集。其中,如果判断结果为该GPU支持第一指令集对应的运算方式,则可将该第一指令集替换为使用GPU的第二指令集。如果判断结果为该GPU不支持第一指令集对应的运算方式,则不可将该第一指令集替换为使用GPU的第二指令集。
所述BLAS接口定义模块10,还用于在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集。
应当理解的是,如果可将第一指令集替换为使用GPU的第二指令集,那么便可将可替换的第一指令集作为待替换指令集,并将这些待替换指令集对应的指令集信息作为待替换指令集信息,进而根据待替换指令集信息生成使用GPU的第二指令集。
所述BLAS接口定义模块10,还用于根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库。
应当理解的是,可根据生成的第二指令集替换掉初始BLAS库中的对应的待替换指令集,从而得到目标BLAS库。
在具体实现中,例如,假设初始BLAS中存在5个使用CPU的第一指令集,分别为A1、A2、A3、A4以及A5,可分别获取这五个第一指令集对应的指令集信息,然后分别确定这五个第一指令集对应的运算方式。根据GPU对应的显卡型号信息确定该GPU支持的运算方式,然后分别判断该GPU是否支持这五个第一指令集对应的运算方式,如果该CPU支持A1、A2、A3对应的运算方式,不支持A4、A5对应的运算方式,则说明可以对A1、A2、A3进行替换,而不可以对A4、A5进行替换。因此,保持A4、A5不变,而将A1、A2、A3作为待替换指令集,并分别根据A1、A2、A3对应的指令集信息生成对应的第二指令集B1、B2、B3,然后根据B1对A1进行替换,根据B2对A2进行替换,根据B3对A3进行替换,从而得到目标BLAS库。其中,目标BLAS库中存在B1、B2、B3、A4以及A5等五个指令集。
所述BLAS接口定义模块10,还用于根据所述接口调用方式和所述目标BLAS库配置BLAS接口。
应当理解的是,本系统可以是以开源的OpenBLAS库作为基础,自定义实现的BLAS库,在接口上与其他库保持一致,然后基于GPU进行实现。因此,在得到使用GPU处理浮点数据计算和线性代数计算的目标BLAS库之后,可根据目标BLAS库替换掉软件原来使用的初始BLAS库,同时保持目标BLAS库的接口调用方式与原来的初始BLAS库的接口调用方式保持一致。因此,可根据初始BLAS库的接口调用方式和目标BLAS库配置BLAS接口,从而达到与原来的接口调用方式一致的目的。
需要说明的是,GPU虽然能显著提升浮点数计算的性能和速度,但是对于计算过程中的部分控制逻辑并不能完全转换成GPU上的计算。同时,GPU在使用和运行过程中,本身也有多种显卡和对应的驱动,这些都需要一个驱动管理模块进行管理,针对不同的硬件进行适配,比如Nvidia的显卡对应cuda计算体系,AMD的显卡对应ROCm计算体系。针对主体实现中所使用的函数调用,分配到对应的硬件及计算体系中进行处理。
因此,本方案的系统还可包括驱动管理模块,驱动管理模块可根据GPU硬件信息,即GPU对应的显卡型号信息,来确定与该GPU适配的目标驱动,并对目标驱动进行配置,在当前的计算任务对应的目标指令集属于第二指令集时,可根据目标指令集和与GPU适配的目标驱动来分配GPU资源对计算任务进行处理。
同样地,驱动管理模块还可根据CPU硬件信息来确定与该CPU适配的目标驱动,并对目标驱动进行配置,在当前的计算任务对应的目标指令集属于第一指令集时,可根据目标指令集和与CPU适配的目标驱动来分配CPU资源对计算任务进行处理。
可以理解的是,本方案的系统通过上述驱动管理模块,可对接不同厂商的GPU、CPU以及其他计算处理单元,从而达到更好的数据处理效果。
在本实施例中,所述BLAS接口定义模块获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息;根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集;在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集;根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库;根据所述接口调用方式和所述目标BLAS库配置BLAS接口。从而可对初始BLAS库中使用CPU的第一指令集进行检测,将可替换的第一指令集替换为第二指令集,并将不可替换的第一指令集保持不变,因此,对于可以使用GPU加速的部分进行优化,对于不能使用GPU的操作,则保留原有CPU处理操作,在加速的同时还避免了执行错误的情况。
参照图2,本发明提出一种通过替换指令集对应用软件进行加速的方法,所述方法适用于通过替换指令集对应用软件进行加速的系统,所述系统包括:BLAS接口定义模块以及硬件调用模块;
所述方法包括以下步骤:
步骤S10,所述BLAS接口定义模块将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口。
需要说明的是,基础线性代数库(Basic Linear Algebra Subprograms,BLAS)是一套应用程序接口(API)标准,各软硬件厂商会针对自身产品,对BLAS接口进行优化。常用的基于CPU的实现库有最早的Netlib、AMD公司的ACML和Intel公司的MKL,这些也是工业软件常用的BLAS库,除此之外,还可包含更多其他的BLAS库,本实施例对此不作限制。
应当理解的是,本实施例中的初始BLAS库是基于CPU的基础线性代数库,初始BLAS库中存储的都是使用CPU的指令集,在正常情况下,接收到应用软件系统的计算任务时,可通过BLAS接口调用初始BLAS库中对应的指令集来分配CPU资源对计算任务进行处理。
在本实施例中,基于使用GPU的计算速度比CPU快的原理,将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,在替换完成后,得到目标BLAS库,并基于目标BLAS配置BLAS接口。其中,本实施例中的“第一”、“第二”只是为了区分不同的对象,不作其他限定。
可以理解的是,由于并不是所有的计算任务都可以通过GPU来进行处理,可能存在一些只能由CPU来进行处理的计算任务,因此,为了避免出现无法执行计算任务的情况,在本实施例的上述步骤中可对各第一指令集对应的指令集信息进行检测,以判断其对应的计算任务是否可以由GPU来进行处理,在能够由GPU进行处理的情况下,才进行指令集的替换。因此,在替换完成后得到的目标BLAS库中可能存在一部分使用CPU的第一指令集,以及一部分使用GPU的第二指令集。
在具体实现中,例如,假设初始BLAS中存在5个使用CPU的第一指令集,分别为A1、A2、A3、A4以及A5,对其进行检测后发现,其中的A1、A2、A3对应的计算任务可由GPU进行处理,而A4、A5对应的计算任务只能由CPU进行处理,因此,可将A1、A2、A3替换为使用GPU的第二指令集B1、B2、B3,在替换完成后得到的目标BLAS库中存在3个第二指令集和2个第一指令集,分别为:B1、B2、B3、A4以及A5,在后续实施例中均以该场景为例进行说明。
当然,如果初始BLAS库中所有使用CPU的第一指令集对应的计算任务都可以由GPU来进行处理,那么便将所有使用CPU的第一指令集替换为使用GPU的第二指令集,在这种情况下,在替换完成后得到的目标BLAS库中就只存在使用GPU的第二指令集,本实施例对此不作限制。
需要说明的是,图形处理器(graphics processing unit,GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。而现在的计算机设备上一般都装配有集成显卡和独立显卡两种显卡,理论上本方案中的GPU可以为集成显卡上的GPU,也可以为独立显卡上的GPU,但是,由于独立显卡的运行能力更强,为了达到更好的运算效果以及加速效果,在本实施例中,优选独立显卡上的GPU,本实施例对此不作限制。
需要说明的是,本实施例中的BLAS接口一共可分为3级34个接口,其中:Level1 9个接口:主要是矢量对矢量运算;Level2 16个接口:主要是矩阵对矢量运算;Level3 9个接口:主要是矩阵对矩阵运算。除此之外,接口还可为其他数量,也可为通过其他方式对接口进行等级划分,本实施例对此不作限制。
步骤S20,所述硬件调用模块在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。
需要说明的是,本方案的系统可处于应用软件系统和硬件系统之间,属于平台系统。下方对接GPU、CPU等硬件环境,上方对接应用软件系统,应用软件系统,与平台系统之间,可通过BLAS接口进行调用。其中,可如图3所示,图3为系统关系示意图,应用软件系统可包括仿真软件、模拟软件等工业应用软件系统,硬件系统可包括GPU、CPU等硬件,本实施例对此不作限制。
应当理解的是,基于上述原理和设置,本系统的平台管理硬件计算核心为:对于使用GPU的计算任务,则分配GPU资源进行处理;对于使用CPU的计算任务,则分配GPU资源进行处理。
可以理解的是,在接收到应用软件系统发起的计算任务时,可通过BLAS接口和计算任务确定需要调用的目标指令集。在目标指令集属于第二指令集时,说明该计算任务是使用GPU的计算任务,可根据目标指令集分配GPU资源对该计算任务进行处理。在目标指令集属于第一指令集时,说明该计算任务是使用CPU的计算任务,可根据目标指令集分配CPU资源对该计算任务进行处理。
可以理解的是,通过本方案的指令集替换方式,当软件进行计算的时候,当遇到使用这些库的方法时,如果该方法对应的指令集被替换掉了,就会从调用原有CPU实现变成调用GPU实现方法,达到提升计算速度的目的。而且,本方案的上述改进并不会影响到用户的使用,用户和软件层无感知,用户可以通过原有操作方式使用软件,不改变用户的使用方法和习惯。本方案的系统可以使用GPU加速的部分进行优化,对于不能使用GPU的操作,则保留原有CPU处理操作,避免执行错误的情况。
应当理解的是,针对适配的软件,在底层调用的额过程中,可加入侵入性代码,当软件在运行过程中,调用线性代数相关计算之后,把请求转发到本系统的BLAS计算库的实现方法上,使用GPU进行处理和计算,当计算完成之后,把计算结果通过侵入代码返回给应用软件。如果是使用外置库或系统库的工业软件,则不需要侵入性代码,直接替换软件使用的引用库链接即可。
可以理解的是,与现有技术相比,本方案至少具有以下优点:1、可以极大的加速工业软件计算过程的运行速度。在32位浮点数计算条件下,GPU运算的速度是CPU的6.5倍,如果在16位浮点数计算条件下,则是CPU的14倍。2、对用户使用过程透明。由于用户使用的是运行在本系统上的工业软件,软件直接可以经过GPU加速的线性代数库。
在本实施例中,所述BLAS接口定义模块将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;所述硬件调用模块在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。通过本方案可对软件使用的BLAS库进行外部替换,把使用CPU的指令集,替换成使用GPU的指令集,通过GPU来处理计算任务,缩短了计算时间,并提高了计算速度,从而达到加速的目的。
进一步地,如图4所示,基于第一实施例提出本发明通过替换指令集对应用软件进行加速的方法第二实施例,在本实施例中,所述步骤S10,包括:
步骤S101,所述BLAS接口定义模块获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息。
应当理解的是,本方案通过把使用CPU的指令集,替换成使用GPU的指令集,从而达到加速的目的,但是,由于GPU与CPU支持的运算方式可能存在区别,因此,可能有部分指令集对应的计算任务只能由CPU来进行处理,所以,为了检测第一指令集是否能够替换成使用GPU的第二指令集,可获取初始BLAS库中使用CPU的第一指令集对应的指令集信息,根据指令集信息来进行是否可替换的检测。同时,还可获取初始BLAS库对应的接口调用方式,用于后续的配置操作。
步骤S102,所述BLAS接口定义模块根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集。
应当理解的是,由于市面上存在多种品牌以及型号的显卡,而这些显卡的GPU所支持的运算方式可能存在区别,例如,有的型号的显卡可能支持某种运算方式,而另一种型号的显卡可能不支持该种运算方式,因此,可获取当前的GPU对应的GPU硬件信息,其中,GPU硬件信息可为GPU对应的显卡型号信息。
可以理解的是,可根据之前获取的指令集信息确定各第一指令集对应的运算方式,然后根据显卡型号信息判断该GPU是否支持第一指令集对应的运算方式,可以得到判断结果。其中,判断结果可分为两种情况:1、该GPU支持第一指令集对应的运算方式;2、该GPU不支持第一指令集对应的运算方式。
可以理解的是,在得到上述判断结果之后,可根据该判断结果进一步判断是否可将第一指令集替换为使用GPU的第二指令集。其中,如果判断结果为该GPU支持第一指令集对应的运算方式,则可将该第一指令集替换为使用GPU的第二指令集。如果判断结果为该GPU不支持第一指令集对应的运算方式,则不可将该第一指令集替换为使用GPU的第二指令集。
步骤S103,所述BLAS接口定义模块在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集。
应当理解的是,如果可将第一指令集替换为使用GPU的第二指令集,那么便可将可替换的第一指令集作为待替换指令集,并将这些待替换指令集对应的指令集信息作为待替换指令集信息,进而根据待替换指令集信息生成使用GPU的第二指令集。
步骤S104,所述BLAS接口定义模块根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库。
应当理解的是,可根据生成的第二指令集替换掉初始BLAS库中的对应的待替换指令集,从而得到目标BLAS库。
在具体实现中,例如,假设初始BLAS中存在5个使用CPU的第一指令集,分别为A1、A2、A3、A4以及A5,可分别获取这五个第一指令集对应的指令集信息,然后分别确定这五个第一指令集对应的运算方式。根据GPU对应的显卡型号信息确定该GPU支持的运算方式,然后分别判断该GPU是否支持这五个第一指令集对应的运算方式,如果该CPU支持A1、A2、A3对应的运算方式,不支持A4、A5对应的运算方式,则说明可以对A1、A2、A3进行替换,而不可以对A4、A5进行替换。因此,保持A4、A5不变,而将A1、A2、A3作为待替换指令集,并分别根据A1、A2、A3对应的指令集信息生成对应的第二指令集B1、B2、B3,然后根据B1对A1进行替换,根据B2对A2进行替换,根据B3对A3进行替换,从而得到目标BLAS库。其中,目标BLAS库中存在B1、B2、B3、A4以及A5等五个指令集。
步骤S105,所述BLAS接口定义模块根据所述接口调用方式和所述目标BLAS库配置BLAS接口。
应当理解的是,本系统可以是以开源的OpenBLAS库作为基础,自定义实现的BLAS库,在接口上与其他库保持一致,然后基于GPU进行实现。因此,在得到使用GPU处理浮点数据计算和线性代数计算的目标BLAS库之后,可根据目标BLAS库替换掉软件原来使用的初始BLAS库,同时保持目标BLAS库的接口调用方式与原来的初始BLAS库的接口调用方式保持一致。因此,可根据初始BLAS库的接口调用方式和目标BLAS库配置BLAS接口,从而达到与原来的接口调用方式一致的目的。
需要说明的是,GPU虽然能显著提升浮点数计算的性能和速度,但是对于计算过程中的部分控制逻辑并不能完全转换成GPU上的计算。同时,GPU在使用和运行过程中,本身也有多种显卡和对应的驱动,这些都需要一个驱动管理模块进行管理,针对不同的硬件进行适配,比如Nvidia的显卡对应cuda计算体系,AMD的显卡对应ROCm计算体系。针对主体实现中所使用的函数调用,分配到对应的硬件及计算体系中进行处理。
因此,本方案的系统还可包括驱动管理模块,驱动管理模块可根据GPU硬件信息,即GPU对应的显卡型号信息,来确定与该GPU适配的目标驱动,并对目标驱动进行配置,在当前的计算任务对应的目标指令集属于第二指令集时,可根据目标指令集和与GPU适配的目标驱动来分配GPU资源对计算任务进行处理。
同样地,驱动管理模块还可根据CPU硬件信息来确定与该CPU适配的目标驱动,并对目标驱动进行配置,在当前的计算任务对应的目标指令集属于第一指令集时,可根据目标指令集和与CPU适配的目标驱动来分配CPU资源对计算任务进行处理。
可以理解的是,本方案的系统通过上述驱动管理模块,可对接不同厂商的GPU、CPU以及其他计算处理单元,从而达到更好的数据处理效果。
在本实施例中,所述BLAS接口定义模块获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息;根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集;在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集;根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库;根据所述接口调用方式和所述目标BLAS库配置BLAS接口。从而可对初始BLAS库中使用CPU的第一指令集进行检测,将可替换的第一指令集替换为第二指令集,并将不可替换的第一指令集保持不变,因此,对于可以使用GPU加速的部分进行优化,对于不能使用GPU的操作,则保留原有CPU处理操作,在加速的同时还避免了执行错误的情况。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种通过替换指令集对应用软件进行加速的系统,其特征在于,所述系统包括:BLAS接口定义模块以及硬件调用模块;
所述BLAS接口定义模块,用于将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;
所述硬件调用模块,用于在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。
2.如权利要求1所述的系统,其特征在于,所述BLAS接口定义模块,还用于获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息;
所述BLAS接口定义模块,还用于根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集;
所述BLAS接口定义模块,还用于在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集;
所述BLAS接口定义模块,还用于根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库;
所述BLAS接口定义模块,还用于根据所述接口调用方式和所述目标BLAS库配置BLAS接口。
3.如权利要求2所述的系统,其特征在于,所述硬件调用模块,还用于在所述目标指令集属于第一指令集时,根据所述目标指令集分配CPU资源对所述计算任务进行处理。
4.如权利要求2所述的系统,其特征在于,所述BLAS接口定义模块,还用于获取GPU对应的GPU硬件信息;
所述BLAS接口定义模块,还用于根据所述指令集信息确定所述第一指令集对应的运算方式,并根据所述GPU硬件信息判断所述GPU是否支持所述运算方式,得到判断结果;
所述BLAS接口定义模块,还用于根据所述判断结果判断是否可将所述第一指令集替换为使用GPU的第二指令集。
5.如权利要求4所述的系统,其特征在于,所述系统还包括驱动管理模块;
所述驱动管理模块,用于根据所述GPU硬件信息确定对应的目标驱动,并对所述目标驱动进行配置;
所述硬件调用模块,还用于在所述目标指令集属于第二指令集时,根据所述目标指令集和所述目标驱动分配GPU资源对所述计算任务进行处理。
6.一种通过替换指令集对应用软件进行加速的方法,其特征在于,所述方法适用于如权利要求1至5中任一项所述的系统,所述系统包括:BLAS接口定义模块以及硬件调用模块;
所述方法包括以下步骤:
所述BLAS接口定义模块将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口;
所述硬件调用模块在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集,在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理。
7.如权利要求6所述的方法,其特征在于,所述BLAS接口定义模块将初始BLAS库中使用CPU的第一指令集替换成使用GPU的第二指令集,得到目标BLAS库,基于所述目标BLAS库配置BLAS接口的步骤,包括:
所述BLAS接口定义模块获取初始BLAS库对应的接口调用方式,以及所述初始BLAS库中使用CPU的第一指令集对应的指令集信息;
所述BLAS接口定义模块根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集;
所述BLAS接口定义模块在可将所述第一指令集替换为使用GPU的第二指令集时,将可替换的第一指令集作为待替换指令集,并根据所述待替换指令集对应的待替换指令集信息得到使用GPU的第二指令集;
所述BLAS接口定义模块根据所述第二指令集替换掉所述初始BLAS库中的待替换指令集,得到目标BLAS库;
所述BLAS接口定义模块根据所述接口调用方式和所述目标BLAS库配置BLAS接口。
8.如权利要求7所述的方法,其特征在于,所述硬件调用模块在接收到应用软件系统发起的计算任务时,通过所述BLAS接口和所述计算任务确定对应的目标指令集的步骤之后,还包括:
所述硬件调用模块在所述目标指令集属于第一指令集时,根据所述目标指令集分配CPU资源对所述计算任务进行处理。
9.如权利要求7所述的方法,其特征在于,所述BLAS接口定义模块根据所述指令集信息判断是否可将所述第一指令集替换为使用GPU的第二指令集的步骤,包括:
所述BLAS接口定义模块获取GPU对应的GPU硬件信息;
所述BLAS接口定义模块根据所述指令集信息确定所述第一指令集对应的运算方式,并根据所述GPU硬件信息判断所述GPU是否支持所述运算方式,得到判断结果;
所述BLAS接口定义模块根据所述判断结果判断是否可将所述第一指令集替换为使用GPU的第二指令集。
10.如权利要求9所述的方法,其特征在于,所述系统还包括驱动管理模块;
所述在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理的步骤之前,还包括:
所述驱动管理模块根据所述GPU硬件信息确定对应的目标驱动,并对所述目标驱动进行配置;
相应地,所述在所述目标指令集属于第二指令集时,根据所述目标指令集分配GPU资源对所述计算任务进行处理的步骤,包括:
所述硬件调用模块在所述目标指令集属于第二指令集时,根据所述目标指令集和所述目标驱动分配GPU资源对所述计算任务进行处理。
CN202110957299.XA 2021-08-19 2021-08-19 通过替换指令集对应用软件进行加速的系统及方法 Active CN113805941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110957299.XA CN113805941B (zh) 2021-08-19 2021-08-19 通过替换指令集对应用软件进行加速的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110957299.XA CN113805941B (zh) 2021-08-19 2021-08-19 通过替换指令集对应用软件进行加速的系统及方法

Publications (2)

Publication Number Publication Date
CN113805941A true CN113805941A (zh) 2021-12-17
CN113805941B CN113805941B (zh) 2023-12-12

Family

ID=78941619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110957299.XA Active CN113805941B (zh) 2021-08-19 2021-08-19 通过替换指令集对应用软件进行加速的系统及方法

Country Status (1)

Country Link
CN (1) CN113805941B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115415070A (zh) * 2022-07-28 2022-12-02 东风柳州汽车有限公司 喷涂系统的雾化器替换方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526934A (zh) * 2009-04-21 2009-09-09 浪潮电子信息产业股份有限公司 一种gpu与cpu复合处理器的组建方法
US8938723B1 (en) * 2009-08-03 2015-01-20 Parallels IP Holdings GmbH Use of GPU for support and acceleration of virtual machines and virtual environments
CN106681694A (zh) * 2016-12-30 2017-05-17 中国科学院计算技术研究所 基于NVIDIA Kepler GPU汇编指令的单精度矩阵乘优化方法与系统
CN111124656A (zh) * 2018-10-31 2020-05-08 伊姆西Ip控股有限责任公司 用于向专用计算资源分配任务的方法、设备和计算机程序产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526934A (zh) * 2009-04-21 2009-09-09 浪潮电子信息产业股份有限公司 一种gpu与cpu复合处理器的组建方法
US8938723B1 (en) * 2009-08-03 2015-01-20 Parallels IP Holdings GmbH Use of GPU for support and acceleration of virtual machines and virtual environments
CN106681694A (zh) * 2016-12-30 2017-05-17 中国科学院计算技术研究所 基于NVIDIA Kepler GPU汇编指令的单精度矩阵乘优化方法与系统
CN111124656A (zh) * 2018-10-31 2020-05-08 伊姆西Ip控股有限责任公司 用于向专用计算资源分配任务的方法、设备和计算机程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许焱;杨滨;: "基于FPGA的BLAS加速系统的设计与研究", 微计算机信息, no. 20 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115415070A (zh) * 2022-07-28 2022-12-02 东风柳州汽车有限公司 喷涂系统的雾化器替换方法、装置、设备及存储介质
CN115415070B (zh) * 2022-07-28 2023-12-19 东风柳州汽车有限公司 喷涂系统的雾化器替换方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113805941B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
US11237876B2 (en) Data parallel computing on multiple processors
US11106504B2 (en) Application interface on multiple processors
US11544075B2 (en) Parallel runtime execution on multiple processors
US9858122B2 (en) Data parallel computing on multiple processors
US8108633B2 (en) Shared stream memory on multiple processors
US20140189708A1 (en) Terminal and method for executing application in same
WO2016164155A1 (en) Coalition based memory management
CN112861057A (zh) 基于小程序的页面渲染方法、装置、设备及存储介质
CN110968415B (zh) 多核处理器的调度方法、装置及终端
US9910690B2 (en) PCI slot hot-addition deferral for multi-function devices
CN109727376B (zh) 生成配置文件的方法、装置及售货设备
US20210158131A1 (en) Hierarchical partitioning of operators
CN114637536A (zh) 任务处理方法、计算协处理器、芯片及计算机设备
CN113849238B (zh) 数据通信方法、装置、电子设备及可读存储介质
CN113805941A (zh) 通过替换指令集对应用软件进行加速的系统及方法
US9766918B2 (en) Virtual system device identification using GPU to host bridge mapping
CN112395055A (zh) 用于实现对预定义工作负载的动态处理的方法和装置
CN112114967A (zh) 一种基于服务优先级的gpu资源预留方法
CN114021709B (zh) 多fpga数据处理方法、装置、服务器及存储介质
US11836506B2 (en) Parallel runtime execution on multiple processors
US20230136365A1 (en) Methods and apparatus to allocate accelerator usage
CN116775245A (zh) 任务运行节点的确定方法、装置、设备及介质
CN114661354A (zh) 指令处理方法、装置、计算机设备和存储介质
AU2014221239B2 (en) Data parallel computing on multiple processors
CN113138909A (zh) 负载统计方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant