CN111738446B - 深度学习推理引擎的调度方法、装置、设备和介质 - Google Patents
深度学习推理引擎的调度方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111738446B CN111738446B CN202010537231.1A CN202010537231A CN111738446B CN 111738446 B CN111738446 B CN 111738446B CN 202010537231 A CN202010537231 A CN 202010537231A CN 111738446 B CN111738446 B CN 111738446B
- Authority
- CN
- China
- Prior art keywords
- reasoning
- engine
- task
- load
- inference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013136 deep learning model Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
- G06V40/45—Detection of the body part being alive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Neurology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- General Factory Administration (AREA)
Abstract
本申请公开了一种深度学习推理引擎的调度方法、装置、设备和介质,涉及人工智能、深度学习和芯片技术。具体实现方案为:响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型;计算每个推理引擎执行所述类型的当前推理任务后的总负载;比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎;将所述目标推理引擎的索引返回至所述应用层,其中,所述索引表示推理引擎的调用路径。本申请实施例能根据各推理引擎实际的算力来分配推理引擎,从而提高系统性能。并且,在推理引擎应用于人脸识别时,能提高人脸识别的速度和执行效率。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种人工智能、深度学习和芯片技术,具体涉及一种深度学习推理引擎的调度方法、装置、设备和介质。
背景技术
随着深度学习技术的不断发展和成熟,深度学习技术不断被应用于解决各行各业各场景遇到的问题,比如人脸识别等。其中,使用专用的AI(Artificial Intelligence,人工智能)芯片来运行深度学习模型的推理逐渐成为主流。
一般来讲,用于运行深度学习模型的AI芯片和CPU一样,会有很多个物理核,同时也可能有多个深度学习模型运行在同一个AI芯片上,且每个深度学习模型的运行时间不一样。那么,如何充分利用AI芯片所有物理核的算力来尽可能地提高系统性能,成为重中之重。
发明内容
本申请实施例提供一种深度学习推理引擎的调度方法、装置、设备和介质,以提高系统性能。
第一方面,本申请实施例提供了一种深度学习推理引擎的调度方法,包括:
响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型;
计算每个推理引擎执行所述类型的当前推理任务后的总负载;
比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎;
将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
第二方面,本申请实施例还提供了一种深度学习推理引擎的调度装置,包括:
类型确定模块,用于响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型;
计算模块,用于计算每个推理引擎执行所述类型的当前推理任务后的总负载;
比较模块,用于比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎;
返回模块,用于将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所述的深度学习推理引擎的调度方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意实施例所述的深度学习推理引擎的调度方法。
第五方面,本申请实施例还提供了一种AI芯片,包括至少一个推理引擎,还包括调度器,用于执行本申请任意实施例所述的深度学习推理引擎的调度方法。
根据本申请实施例的技术方案,通过计算每个推理引擎执行当前推理任务后的总负载,来衡量各推理引擎执行当前推理任务的算力,根据实际的算力来分配推理引擎,从而提高系统性能。并且,在推理引擎应用于人脸识别时,能提高人脸识别的速度和执行效率。
应当理解,本部分所描述的内容并非旨在标识本申请实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解,上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的深度学习推理引擎的调度方法的流程示意图;
图2是根据本申请第二实施例的深度学习推理引擎的调度方法的流程示意图;
图3是根据本申请第二实施例的深度学习推理任务的调度示意图;
图4是根据本申请第三实施例的深度学习推理引擎的调度装置的结构示意图;
图5是用来实现本申请实施例的深度学习推理引擎的调度方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的深度学习推理引擎的调度方法的流程示意图,本实施例可适用于根据推理引擎的算力对深度学习模型进行调度的情况,涉及人工智能、深度学习和芯片技术。该方法可由一种深度学习推理引擎的调度装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如计算机设备等。如图1所示,该方法具体包括如下:
S101、响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型。
用于运行深度学习模型的AI芯片和CPU一样,会有很多个物理核,同时也可能有多个深度学习模型运行在同一个AI芯片上,且每个深度学习模型的运行时间不一样。这些深度模型例如可以是人脸识别模型、活体检测模型等类型。每一种深度模型的每一次前向推理,称之为一次前向推理任务。每一次前向推理任务,都必须指定实际的物理推理引擎来运行。
通常,会由芯片的应用层提交深度学习推理任务,其中,所述调度请求中至少包括每个推理任务的类型。而为了平衡所有推理引擎的算力,让每个推理引擎实现算例最大化,提高系统性能,本申请实施例在应用层和提交深度学习推理任务到推理引擎之间插入一个调度器,由调度器基于每个推理引擎的负载情况自动为每一个深度学习推理任务进行推理引擎的分配和调度。
S102、计算每个推理引擎执行所述类型的当前推理任务后的总负载。
为了充分利用每个推理引擎的算力,提高系统性能,而不同类型的深度学习模型的运行时间又不一样,因此,本申请实施例中,先计算出每个推理引擎执行所述类型的当前推理任务后的总负载,根据总负载情况进行调度。其中,所述负载可以用执行时间来表征,也就是说,所述总负载表示推理引擎执行全部推理任务的总时间,包括历史任务和当前任务,那么在调度时,则可以选择执行总时间最快的推理引擎为当前推理任务进行调度。
此外,所述方法还包括:
接收所述每个推理引擎执行每个推理任务的负载反馈消息,其中,所述负载反馈消息中包括推理任务的类型和负载;
根据所述负载反馈消息,保存所述每个推理引擎执行过的推理任务类型及其负载。
具体的,每个推理引擎每次执行完一个推理任务,都会将执行该任务的负载情况和任务类型通过负载反馈通道以发送负载反馈消息的方式反馈给调度器,调度器对此进行记录和保存。那么,针对调度器接收到的当前推理任务的调度请求,调度器就可以基于保存的负载信息统计并计算出每个推理引擎执行所述类型的当前推理任务后的总负载,也可以实时进行统计,并在每次接收到负载反馈消息后对统计情况进行更新,以便下次作为调度的依据。
S103、比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎。
每个推理引擎的总负载情况,表示了当前各推理引擎的算力情况,总负载中值最小的表示算力最强,也即执行速度最快,因此,可以选择总负载最小的推理引擎作为目标推理引擎。
S104、将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
确定了目标推理引擎之后,将该目标推理引擎的索引返回至应用层,应用层根据索引调用目标推理引擎后,当前推理任务就会进入驱动层目标推理引擎的任务队列中,等待执行。
这里需要说明的是,现有技术中通常是对推理引擎进行随机分配,或者是直接绑定推理任务与推理引擎,都没有很好的利用所有引擎的算力,容易造成有的引擎出现实时性问题,而有的引擎却空闲的情况,也容易出现不同的引擎之间负载不均衡的问题,影响系统性能。而本申请实施例的技术方案根据每个推理引擎各自当前的负载状态来进行调度,则可以避免这一问题的出现,从而提高系统性能。
本申请实施例的技术方案,通过计算每个推理引擎执行当前推理任务后的总负载,来衡量各推理引擎执行当前推理任务的算力,根据实际的算力来分配推理引擎,从而提高系统性能。并且,在推理引擎应用于人脸识别时,能提高人脸识别的速度和执行效率。
图2是根据本申请第二实施例的深度学习推理引擎的调度方法的流程示意图,本实施例在上述实施例的基础上进一步进行优化。如图2所示,该方法具体包括如下:
S201、响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型。
S202、获取所述每个推理引擎的历史负载,和每个推理引擎执行所述类型的推理任务的负载。
S203、分别计算所述每个推理引擎的历史负载与其执行所述类型的推理任务的负载的和值,将所述和值作为所述每个推理引擎执行所述类型的当前推理任务后的总负载。
在本实施例中,调度器会接收所述每个推理引擎执行每个推理任务的负载反馈消息,其中,所述负载反馈消息中包括推理任务的类型和负载;根据所述负载反馈消息,保存所述每个推理引擎执行过的推理任务类型及其负载。那么,针对调度器接收到的当前推理任务的调度请求,调度器就可以基于保存的负载信息统计并计算出每个推理引擎执行所述类型的当前推理任务后的总负载,也可以实时进行统计,并在每次接收到负载反馈消息后对统计情况进行更新,以便下次作为调度的依据。
也即,调度器先基于保存的信息,计算出每个推理引擎的历史负载,也就是对历史推理任务的总执行时间,然后再计算出每个推理引擎执行所述类型的推理任务的历史平均负载,或者直接获取每个推理引擎上一次执行所述类型的推理任务的负载,最后,分别计算每个推理引擎的历史负载与其执行所述类型的推理任务的负载的和值,将和值作为每个推理引擎执行所述类型的当前推理任务后的总负载,该总负载即表示每个推理引擎执行所述类型的当前推理任务后的总负载。而通过总负载的计算,可以作为调度的依据,实现基于每个推理引擎当前的负载情况进行调度,让不同推理引擎之间达到负载均衡,提高系统的实时性和响应速度。此外,基于总负载还可以统计出深度学习推理引擎的资源利用率。
S204、比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎。
S205、将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
图3是根据本申请第二实施例的深度学习推理任务的调度示意图。如图所示,在应用层和推理引擎之间,本申请实施例增加了调度器,调度器获取推理任务一和推理任务二各自的类型,并通过负载反馈通道获取每个推理引擎#0和#1各自执行每个类型的推理任务的历史负载,根据历史负载计算每个推理引擎执行当前类型推理任务后的总负载。例如,对于推理引擎#0和#1,分别计算出它们执行当前推理任务后的总负载F0大于F1,则表示F1对应的推理引擎#1的算力最大,则将当前推理任务调度给该推理引擎#1。被调度的推理任务随即进入驱动层的任务队列,排队等待执行。
本申请实施例的技术方案,通过计算每个推理引擎执行当前推理任务后的总负载,来衡量各推理引擎执行当前推理任务的算力,根据实际的算力来分配推理引擎,让不同推理引擎之间达到负载均衡,提高系统的实时性和响应速度。并且,在推理引擎应用于人脸识别时,能提高人脸识别的速度和执行效率。
图4是根据本申请第三实施例的深度学习推理引擎的调度装置的结构示意图,本实施例可适用于根据推理引擎的算力对深度学习模型进行调度的情况,涉及人工智能、深度学习和芯片技术。该装置可实现本申请任意实施例所述的深度学习推理引擎的调度方法。如图4所示,该装置300具体包括:
类型确定模块301,用于响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型;
计算模块302,用于计算每个推理引擎执行所述类型的当前推理任务后的总负载;
比较模块303,用于比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎;
返回模块304,用于将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
可选的,所述计算模块包括:
获取单元,用于获取所述每个推理引擎的历史负载,和每个推理引擎执行所述类型的推理任务的负载;
计算单元,用于分别计算所述每个推理引擎的历史负载与其执行所述类型的推理任务的负载的和值,将所述和值作为所述每个推理引擎执行所述类型的当前推理任务后的总负载。
可选的,所述每个推理引擎执行所述类型的推理任务的负载,包括:
每个推理引擎执行所述类型的推理任务的历史平均负载;或者
每个推理引擎上一次执行所述类型的推理任务的负载。
可选的,所述装置还包括:
保存模块,用于接收所述每个推理引擎执行每个推理任务的负载反馈消息,其中,所述负载反馈消息中包括推理任务的类型和负载;根据所述负载反馈消息,保存所述每个推理引擎执行过的推理任务类型及其负载。
可选的,所述比较模块具体用于:
比较所述每个推理引擎的总负载,将所述总负载中值最小的总负载对应的推理引擎,作为执行所述当前推理任务的目标推理引擎。
本申请实施例提供的深度学习推理引擎的调度装置300可执行本申请任意实施例提供的深度学习推理引擎的调度方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。
根据本申请的实施例,本申请还提供了一种AI芯片,包括至少一个推理引擎,还包括调度器,用于执行如上述任一实施例所述的深度学习推理引擎的调度方法。
在本申请实施例的AI芯片中,由于在应用层和提交深度学习推理任务到推理引擎之间插入一个调度器,实现了依据每个推理引擎的负载情况自动为每一个深度学习推理任务进行推理引擎的分配和调度,从而提高系统性能。当AI芯片用于人脸识别任务时,由于推理引擎得到了调度器合理的分配和调度,性能得到了提高,因此,也极大地提高了AI芯片的处理效率,继而提高了人脸识别的速度和执行效率,能够快速给出人脸识别结果,减少了用户等待的时间。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的深度学习推理引擎的调度方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的深度学习推理引擎的调度方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的深度学习推理引擎的调度方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的深度学习推理引擎的调度方法对应的程序指令/模块(例如,附图4所示的类型确定模块301、计算模块302、比较模块303和返回模块304)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的深度学习推理引擎的调度方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现本申请实施例的深度学习推理引擎的调度方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现本申请实施例的深度学习推理引擎的调度方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现本申请实施例的深度学习推理引擎的调度方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与实现本申请实施例的深度学习推理引擎的调度方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过计算每个推理引擎执行当前推理任务后的总负载,来衡量各推理引擎执行当前推理任务的算力,根据实际的算力来分配推理引擎,让不同推理引擎之间达到负载均衡,提高系统的实时性和响应速度,从而提高系统性能。并且,在推理引擎应用于人脸识别时,能提高人脸识别的速度和执行效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (13)
1.一种深度学习推理引擎的调度方法,包括:
响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型;
计算每个推理引擎执行所述类型的当前推理任务后的总负载,其中,所述总负载表示所述推理引擎执行历史推理任务和所述类型的当前推理任务的总时间;
比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎;
将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
2.根据权利要求1所述的方法,其中,所述计算每个推理引擎执行所述类型的当前推理任务后的总负载,包括:
获取所述每个推理引擎的历史负载,和每个推理引擎执行所述类型的推理任务的负载;
分别计算所述每个推理引擎的历史负载与其执行所述类型的推理任务的负载的和值,将所述和值作为所述每个推理引擎执行所述类型的当前推理任务后的总负载。
3.根据权利要求2所述的方法,其中,所述每个推理引擎执行所述类型的推理任务的负载,包括:
每个推理引擎执行所述类型的推理任务的历史平均负载;或者
每个推理引擎上一次执行所述类型的推理任务的负载。
4.根据权利要求1-3中任一项所述的方法,还包括:
接收所述每个推理引擎执行每个推理任务的负载反馈消息,其中,所述负载反馈消息中包括推理任务的类型和负载;
根据所述负载反馈消息,保存所述每个推理引擎执行过的推理任务类型及其负载。
5.根据权利要求1所述的方法,其中,所述根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎,包括:
将所述总负载中值最小的总负载对应的推理引擎,作为执行所述当前推理任务的目标推理引擎。
6.一种深度学习推理引擎的调度装置,包括:
类型确定模块,用于响应于来自应用层的针对当前推理任务的调度请求,确定所述当前推理任务的类型;
计算模块,用于计算每个推理引擎执行所述类型的当前推理任务后的总负载,其中,所述总负载表示所述推理引擎执行历史推理任务和所述类型的当前推理任务的总时间;
比较模块,用于比较所述每个推理引擎的总负载,根据比较结果从所述每个推理引擎中确定执行所述当前推理任务的目标推理引擎;
返回模块,用于将所述目标推理引擎的索引返回至所述应用层,其中,所述索引用于表示推理引擎的调用路径。
7.根据权利要求6所述的装置,其中,所述计算模块包括:
获取单元,用于获取所述每个推理引擎的历史负载,和每个推理引擎执行所述类型的推理任务的负载;
计算单元,用于分别计算所述每个推理引擎的历史负载与其执行所述类型的推理任务的负载的和值,将所述和值作为所述每个推理引擎执行所述类型的当前推理任务后的总负载。
8.根据权利要求7所述的装置,其中,所述每个推理引擎执行所述类型的推理任务的负载,包括:
每个推理引擎执行所述类型的推理任务的历史平均负载;或者
每个推理引擎上一次执行所述类型的推理任务的负载。
9.根据权利要求6-8中任一项所述的装置,还包括:
保存模块,用于接收所述每个推理引擎执行每个推理任务的负载反馈消息,其中,所述负载反馈消息中包括推理任务的类型和负载;根据所述负载反馈消息,保存所述每个推理引擎执行过的推理任务类型及其负载。
10.根据权利要求6所述的装置,其中,所述比较模块具体用于:
比较所述每个推理引擎的总负载,将所述总负载中值最小的总负载对应的推理引擎,作为执行所述当前推理任务的目标推理引擎。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的深度学习推理引擎的调度方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的深度学习推理引擎的调度方法。
13.一种AI芯片,包括至少一个推理引擎,还包括:
调度器,用于执行权利要求1-5中任一项所述的深度学习推理引擎的调度方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537231.1A CN111738446B (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
CN202211243104.6A CN115759252A (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
US17/241,941 US20210248469A1 (en) | 2020-06-12 | 2021-04-27 | Method and apparatus for scheduling deep learning reasoning engines, device, and medium |
EP21170887.0A EP3893112A3 (en) | 2020-06-12 | 2021-04-28 | Method and apparatus for scheduling deep learning reasoning engines, device, and medium |
JP2021084449A JP7214786B2 (ja) | 2020-06-12 | 2021-05-19 | 深層学習推論エンジンのスケジューリング方法、装置、機器及び媒体 |
KR1020210075650A KR20210080292A (ko) | 2020-06-12 | 2021-06-10 | 딥 러닝 추론 엔진의 스케줄링 방법, 장치, 기기 및 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537231.1A CN111738446B (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243104.6A Division CN115759252A (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738446A CN111738446A (zh) | 2020-10-02 |
CN111738446B true CN111738446B (zh) | 2023-11-03 |
Family
ID=72649027
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243104.6A Pending CN115759252A (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
CN202010537231.1A Active CN111738446B (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243104.6A Pending CN115759252A (zh) | 2020-06-12 | 2020-06-12 | 深度学习推理引擎的调度方法、装置、设备和介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210248469A1 (zh) |
EP (1) | EP3893112A3 (zh) |
JP (1) | JP7214786B2 (zh) |
KR (1) | KR20210080292A (zh) |
CN (2) | CN115759252A (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112486648A (zh) * | 2020-11-30 | 2021-03-12 | 北京百度网讯科技有限公司 | 任务调度方法、装置、系统、电子设备和存储介质 |
CN112883882A (zh) * | 2021-02-26 | 2021-06-01 | 武汉卓鹰世纪科技有限公司 | 人脸识别融合处理方法和系统 |
CN113139660A (zh) * | 2021-05-08 | 2021-07-20 | 北京首都在线科技股份有限公司 | 模型推理方法、装置、电子设备及存储介质 |
CN114020465A (zh) * | 2021-11-08 | 2022-02-08 | 中兴通讯股份有限公司 | 模型的推理优化方法、系统、电子设备和存储介质 |
US11934255B2 (en) | 2022-01-04 | 2024-03-19 | Bank Of America Corporation | System and method for improving memory resource allocations in database blocks for executing tasks |
JP2023176138A (ja) | 2022-05-31 | 2023-12-13 | 日精樹脂工業株式会社 | 粉砕材混合樹脂材料の成形方法 |
CN114881236A (zh) * | 2022-06-02 | 2022-08-09 | 广联达科技股份有限公司 | 一种模型推理系统、方法及设备 |
JP2024001975A (ja) | 2022-06-23 | 2024-01-11 | 日精樹脂工業株式会社 | 粉砕材樹脂材料の成形支援方法 |
CN117971502B (zh) * | 2024-03-29 | 2024-06-21 | 南京认知物联网研究院有限公司 | 一种针对ai推理集群进行在线优化调度的方法与装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924214A (zh) * | 2018-06-27 | 2018-11-30 | 中国建设银行股份有限公司 | 一种计算集群的负载均衡方法、装置及系统 |
CN108958938A (zh) * | 2018-06-29 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置及设备 |
CN110430278A (zh) * | 2019-08-14 | 2019-11-08 | 平安普惠企业管理有限公司 | 负载均衡配置方法及装置 |
CN110602156A (zh) * | 2019-03-11 | 2019-12-20 | 平安科技(深圳)有限公司 | 一种负载均衡调度方法及装置 |
CN110795228A (zh) * | 2018-08-03 | 2020-02-14 | 伊姆西Ip控股有限责任公司 | 使用加速器混合集的分布式深度学习的自适应批量数据集划分 |
CN111221631A (zh) * | 2018-11-23 | 2020-06-02 | 中国移动通信集团有限公司 | 一种任务调度方法、装置及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7934216B2 (en) * | 2005-10-03 | 2011-04-26 | International Business Machines Corporation | Method and system for load balancing of computing resources |
JPWO2012098683A1 (ja) * | 2011-01-21 | 2014-06-09 | 富士通株式会社 | スケジューリング方法およびスケジューリングシステム |
JP5964744B2 (ja) * | 2012-12-26 | 2016-08-03 | 富士フイルム株式会社 | 半導体膜の製造方法 |
JP6904064B2 (ja) * | 2017-05-29 | 2021-07-14 | 富士通株式会社 | タスク配備プログラム、タスク配備方法、およびタスク配備装置 |
US10348658B2 (en) * | 2017-06-15 | 2019-07-09 | Google Llc | Suggested items for use with embedded applications in chat conversations |
US11263011B2 (en) * | 2018-11-28 | 2022-03-01 | International Business Machines Corporation | Compound instruction set architecture for a neural inference chip |
US11657124B2 (en) * | 2018-12-10 | 2023-05-23 | Apple Inc. | Integrating binary inference engines and model data for efficiency of inference tasks |
-
2020
- 2020-06-12 CN CN202211243104.6A patent/CN115759252A/zh active Pending
- 2020-06-12 CN CN202010537231.1A patent/CN111738446B/zh active Active
-
2021
- 2021-04-27 US US17/241,941 patent/US20210248469A1/en active Pending
- 2021-04-28 EP EP21170887.0A patent/EP3893112A3/en not_active Withdrawn
- 2021-05-19 JP JP2021084449A patent/JP7214786B2/ja active Active
- 2021-06-10 KR KR1020210075650A patent/KR20210080292A/ko not_active Application Discontinuation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924214A (zh) * | 2018-06-27 | 2018-11-30 | 中国建设银行股份有限公司 | 一种计算集群的负载均衡方法、装置及系统 |
CN108958938A (zh) * | 2018-06-29 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置及设备 |
CN110795228A (zh) * | 2018-08-03 | 2020-02-14 | 伊姆西Ip控股有限责任公司 | 使用加速器混合集的分布式深度学习的自适应批量数据集划分 |
CN111221631A (zh) * | 2018-11-23 | 2020-06-02 | 中国移动通信集团有限公司 | 一种任务调度方法、装置及存储介质 |
CN110602156A (zh) * | 2019-03-11 | 2019-12-20 | 平安科技(深圳)有限公司 | 一种负载均衡调度方法及装置 |
CN110430278A (zh) * | 2019-08-14 | 2019-11-08 | 平安普惠企业管理有限公司 | 负载均衡配置方法及装置 |
Non-Patent Citations (3)
Title |
---|
Resource scheduling algorithm with load balancing for cloud service provisioning;V. Priya et al.;《Applied Soft Computing》;第76卷;第416-424页 * |
服务器集群负载均衡算法分析;游灿虹;《现代计算机》(第11期);第8-12页 * |
面向实时应用的深度学习研究综述;张政馗 等;《软件学报》;第1-25页 * |
Also Published As
Publication number | Publication date |
---|---|
JP2021121959A (ja) | 2021-08-26 |
US20210248469A1 (en) | 2021-08-12 |
CN111738446A (zh) | 2020-10-02 |
KR20210080292A (ko) | 2021-06-30 |
EP3893112A3 (en) | 2021-11-17 |
EP3893112A2 (en) | 2021-10-13 |
JP7214786B2 (ja) | 2023-01-30 |
CN115759252A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738446B (zh) | 深度学习推理引擎的调度方法、装置、设备和介质 | |
EP3866008A1 (en) | Method for processing tasks in parallel, device and storage medium | |
CN110806923B (zh) | 一种区块链任务的并行处理方法、装置、电子设备和介质 | |
CN111597028B (zh) | 用于任务调度的方法和装置 | |
CN111694646B (zh) | 资源调度方法、装置、电子设备及计算机可读存储介质 | |
CN111461290B (zh) | 模型参数更新方法及装置 | |
TWI773100B (zh) | 神經網絡架構檢索方法以及裝置 | |
EP3832574A2 (en) | Method and apparatus for processing transaction requests in blockchain, device and medium | |
CN111966361B (zh) | 用于确定待部署模型的方法、装置、设备及其存储介质 | |
CN111459645B (zh) | 一种任务调度方法、装置和电子设备 | |
CN111488492B (zh) | 用于检索图数据库的方法和装置 | |
CN112508768B (zh) | 单算子多模型流水线推理方法、系统、电子设备及介质 | |
CN115880132B (zh) | 图形处理器、矩阵乘法任务处理方法、装置及存储介质 | |
KR20140097815A (ko) | 자원 할당 방법 및 그 장치 | |
CN109840141A (zh) | 基于云监控的线程控制方法、装置、电子设备及存储介质 | |
CN111782147A (zh) | 用于集群扩缩容的方法和装置 | |
CN115080209A (zh) | 系统资源调度方法、装置、电子设备及存储介质 | |
CN113986497A (zh) | 基于多租户技术的队列调度方法、装置及系统 | |
CN111767149B (zh) | 调度方法、装置、设备及存储设备 | |
CN111694648A (zh) | 一种任务调度方法、装置以及电子设备 | |
CN115373860B (zh) | Gpu任务的调度方法、装置、设备和存储介质 | |
CN115952054A (zh) | 一种仿真任务资源管理方法、装置、设备及介质 | |
CN114579191A (zh) | 一种指令发射方法、装置、电子设备及存储介质 | |
CN114036250A (zh) | 高精地图任务处理方法、装置、电子设备和介质 | |
CN114253701A (zh) | 任务调度方法、装置以及计算机系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |