CN112395234A - 一种请求处理方法及装置 - Google Patents

一种请求处理方法及装置 Download PDF

Info

Publication number
CN112395234A
CN112395234A CN201910759499.7A CN201910759499A CN112395234A CN 112395234 A CN112395234 A CN 112395234A CN 201910759499 A CN201910759499 A CN 201910759499A CN 112395234 A CN112395234 A CN 112395234A
Authority
CN
China
Prior art keywords
request
requests
processing
gpu
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910759499.7A
Other languages
English (en)
Inventor
朱长峰
于恒
骆卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910759499.7A priority Critical patent/CN112395234A/zh
Publication of CN112395234A publication Critical patent/CN112395234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/161Computing infrastructure, e.g. computer clusters, blade chassis or hardware partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请示出了一种请求处理方法及装置。获取包括有多个第一请求的第二请求;基于GPU对第二请求处理,得到多个第一请求的处理结果。对于GPU而言,其直接得到的是第二请求,然后为第二请求分配一组核单元,一组核单元中的核为多个,在使用该组核单元的核来处理第二请求时,由于第二请求包括有多个第一请求,因此,可以使用该组核单元中的每一个核分别并行处理一个不同的第一请求,如此使得该组核单元中多个核都被用来处理第一请求,相比于该组核单元中仅有一个核被用于处理第一请求,本申请降低了未被使用的核的数量,充分利用了该组核单元中的核,从而可以增加GPU一次同时处理的请求的数量,进而可以提高服务端的吞吐量。

Description

一种请求处理方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种请求处理方法及装置。
背景技术
传统的基于CPU(Central Processing Unit,中央处理器)的并行计算框架可以通过多线程并行处理多个请求,从而可以大大提升吞吐量。
随着技术的飞速发展,GPU(Graphics Processing Unit,图形处理器)得到了广泛使用,例如,在传统的基于CPU的并行计算框架内,引入GPU以进一步地提升处理速度。
例如,为每一个请求分配一个不同的线程,各个线程独立访问CPU及GPU来处理为各自分配的请求。
然而,GPU虽然加快了处理单个请求的速率,但GPU每次计算都只处理少量请求,这样会导致整个服务的吞吐量较低。
发明内容
为解决上述技术问题,本申请实施例示出了一种请求处理方法及装置。
第一方面,本申请实施例示出了一种请求处理方法,所述方法包括:
获取包括有多个第一请求的第二请求;
基于图形处理器GPU对第二请求处理,得到多个第一请求的处理结果;
将所述多个第一请求的处理结果缓存在结果分发队列中,以使各个第一请求响应其对应的处理结果。
在一个可选的实现方式中,所述方法还包括:
确定每一个处理结果是否均被响应;
如果每一个处理结果均被响应,获取包括有多个第三请求的第四请求,然后基于所述GPU对所述第四请求处理,得到多个第三请求的处理结果。
在一个可选的实现方式中,所述方法还包括:
当一个处理结果被响应之后,从结果分发队列中删除被响应的处理结果。
在一个可选的实现方式中,所述确定每一个处理结果是否均被响应,包括:
确定所述结果分发队列中是否还存在处理结果;
如果所述结果分发队列中不存在处理结果,则确定每一个处理结果均被响应。
在一个可选的实现方式中,所述获取包括有多个第一请求的第二请求,包括:
获取在请求等待队列中缓存的多个第一请求;
将多个第一请求批量合并为第二请求;
在一个可选的实现方式中,所述将多个第一请求批量合并为第二请求,包括:
确定各个第一请求的种类;
将相同种类的至少两个第一请求批量合并为第二请求。
在一个可选的实现方式中,所述第一请求为用于将至少一个语言的源信息翻译为另一个语言的目标信息的翻译请求;
所述确定各个第一请求的种类,包括:
对于每一个第一请求,确定所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言;
根据所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言确定所述第一请求的种类。
在一个可选的实现方式中,所述将多个第一请求批量合并为第二请求,包括:
将小于或等于特定数量的第一请求组合为第二请求;所述特定数量包括在所述GPU并行处理请求所需耗费的时长不超过可容忍的时长的情况下,所述GPU能够并行处理的请求的最大数量。
在一个可选的实现方式中,所述获取包括有多个第一请求的第二请求,包括:
接收客户端直接提交的包括有多个第一请求的第二请求。
第二方面,本申请实施例示出了一种请求处理装置,所述装置包括:
第一获取模块,用于获取包括有多个第一请求的第二请求;
第二处理模块,用于基于图形处理器GPU对第二请求处理,得到多个第一请求的处理结果;
缓存模块,用于将所述多个第一请求的处理结果缓存在结果分发队列中,以使各个第一请求响应其对应的处理结果。
在一个可选的实现方式中,所述装置还包括:
确定模块,用于确定每一个处理结果是否均被响应;
第二获取模块,用于如果每一个处理结果均被响应,获取包括有多个第三请求的第四请求,第二处理模块,用于基于所述GPU对所述第四请求处理,得到多个第三请求的处理结果。
在一个可选的实现方式中,所述装置还包括:
删除模块,用于当一个处理结果被响应之后,从结果分发队列中删除被响应的处理结果。
在一个可选的实现方式中,所述确定模块包括:
第一确定单元,用于确定所述结果分发队列中是否还存在处理结果;
第二确定单元,用于如果所述结果分发队列中不存在处理结果,则确定每一个处理结果均被响应。
在一个可选的实现方式中,所述第一获取模块包括:
获取单元,用于获取在请求等待队列中缓存的多个第一请求;
合并单元,用于将多个第一请求批量合并为第二请求;
在一个可选的实现方式中,所述合并单元包括:
确定子单元,用于确定各个第一请求的种类;
合并子单元,用于将相同种类的至少两个第一请求批量合并为第二请求。
在一个可选的实现方式中,所述第一请求为用于将至少一个语言的源信息翻译为另一个语言的目标信息的翻译请求;
所述确定子单元具体用于:对于每一个第一请求,确定所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言;根据所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言确定所述第一请求的种类。
在一个可选的实现方式中,所述合并子单元具体用于:将小于或等于特定数量的第一请求组合为第二请求;所述特定数量包括在所述GPU并行处理请求所需耗费的时长不超过可容忍的时长的情况下,所述GPU能够并行处理的请求的最大数量。
在一个可选的实现方式中,所述第一获取模块包括:
接收单元,用于接收客户端直接提交的包括有多个第一请求的第二请求。
第三方面,本申请实施例示出了一种电子设备,所述电子设备包括:
处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如第一方面所述的请求处理方法。
第四方面,本申请实施例示出了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如第一方面所述的请求处理方法。
与现有技术相比,本申请实施例包括以下优点:
其中,GPU中具有很多的核,向GPU提交多个请求可以同时调度GPU更多的核处理请求;并且,提交的请求的数量越大,越能减小GPU和服务端的系统内存之间的交互、越能减小GPU内部的调度开销,越能实现更高的处理效率。
如此,可以采用多线程调用GPU,但是,在GPU内部通常是以多个核为一组核进行调度的,例如,以16个核为一组核进行调度,也就是说,即使处理一个请求只需要一个核,但在GPU内部,处理一个请求仍然会占用一组核,但被调用的子组核中只有一个核被用来处理请求,剩余的核都被使用,白白浪费了资源,资源利用率较低。
例如,一个请求最少占用一组核中的16个核,但16个核中只有一个核用来处理请求,剩余15个核都未被使用,白白浪费了,导致资源利用率较低。
如此,只有几组核单位,GPU同时就能处理几个请求,即,GPU能够同时处理的请求的数量与GPU中包括的核单位的数量相同。
然而,GPU中的核的数量也是有限的,如此使得GPU中核单位也是有限的,进而导致GPU能够同时处理的请求的数量也是有限的,甚至有时候还会低于CPU能够同时处理的请求的数量,从而就会导致GPU一次同时处理的请求的数量较低,进而导致服务端的吞吐量较低。
而在本申请中,可以获取包括有多个第一请求的第二请求;例如,将客户端提交的多个第一请求批量合并为第二请求等,然后基于GPU对第二请求处理,得到多个第一请求的处理结果。
其中,在本申请中,对于GPU而言,其直接得到的是第二请求,然后为第二请求分配一组核单元,一组核单元中的核为多个,在使用该组核单元的核来处理第二请求时,由于第二请求包括有多个第一请求,因此,可以使用该组核单元中的每一个核分别并行处理一个不同的第一请求,如此使得该组核单元中多个核都被用来处理第一请求,相比于该组核单元中仅有一个核被用于处理第一请求,本申请降低了未被使用的核的数量,甚至可以使得该组核单元中的所有核都被用来处理第一请求,充分利用了该组核单元中的核,从而可以增加GPU一次同时处理的请求的数量,进而可以提高服务端的吞吐量。
附图说明
图1是根据一示例性实施例示出的一种请求处理方法的流程图。
图2是根据一示例性实施例示出的一种请求处理装置的框图。
图3是根据一示例性实施例示出的一种请求处理装置的框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
图1是根据一示例性实施例示出的一种请求处理方法的流程图,如图1所示,该方法用于服务端等,该方法包括以下步骤。
在步骤S101中,获取包括有多个第一请求的第二请求;
在本申请中,每一个用户在使用客户端的过程中可以向服务端提交第一请求,第一请求包括用于对文本翻译的请求,用于搜索信息的请求以及用于对视频或图片分类的请求等等。服务端可以接收广大客户端提交的第一请求,然后将多个第一请求批量组合为第二请求,再执行步骤S102。
其中,本步骤具体可以参见之后所示的实施例,在此不作详述。
在步骤S102中,基于GPU对第二请求处理,分别得到每一个第一请求的处理结果。
在步骤S103中,将多个第一请求的处理结果缓存在结果分发队列中。
以使各个第一请求可以响应其对应的处理结果,例如,以使各个第一请求可以访问其对应的处理结果。
其中,GPU中具有很多的核,向GPU提交多个请求可以同时调度GPU更多的核处理请求;并且,提交的请求的数量越大,越能减小GPU和服务端的系统内存之间的交互、越能减小GPU内部的调度开销,越能实现更高的处理效率。
如此,可以采用多线程调用GPU,但是,在GPU内部通常是以多个核为一组核进行调度的,例如,以16个核为一组核进行调度,也就是说,即使处理一个请求只需要一个核,但在GPU内部,处理一个请求仍然会占用一组核,但被调用的子组核中只有一个核被用来处理请求,剩余的核都被使用,白白浪费了资源,资源利用率较低。
例如,一个请求最少占用一组核中的16个核,但16个核中只有一个核用来处理请求,剩余15个核都未被使用,白白浪费了,导致资源利用率较低。
如此,只有几组核单位,GPU同时就能处理几个请求,即,GPU能够同时处理的请求的数量与GPU中包括的核单位的数量相同。
然而,GPU中的核的数量也是有限的,如此使得GPU中核单位也是有限的,进而导致GPU能够同时处理的请求的数量也是有限的,甚至有时候还会低于CPU能够同时处理的请求的数量,从而就会导致GPU一次同时处理的请求的数量较低,进而导致服务端的吞吐量较低。
而在本申请中,可以获取包括有多个第一请求的第二请求;例如,将客户端提交的多个第一请求批量合并为第二请求等,然后基于GPU对第二请求处理,得到多个第一请求的处理结果。
其中,在本申请中,对于GPU而言,其直接得到的是第二请求,然后为第二请求分配一组核单元,一组核单元中的核为多个,在使用该组核单元的核来处理第二请求时,由于第二请求包括有多个第一请求,因此,可以使用该组核单元中的每一个核分别并行处理一个不同的第一请求,如此使得该组核单元中多个核都被用来处理第一请求,相比于该组核单元中仅有一个核被用于处理第一请求,本申请降低了未被使用的核的数量,甚至可以使得该组核单元中的所有核都被用来处理第一请求,充分利用了该组核单元中的核,从而可以增加GPU一次同时处理的请求的数量,进而可以提高服务端的吞吐量。
其中,在分别得到每一个第一请求的处理结果之后,服务端就可以继续处理其他请求,例如,获取包括有客户端上传的多个第三请求的第四请求,然后基于GPU对第四请求处理,分别得到每一个第三请求的处理结果。
然而,在某些第一请求的处理结果还未被响应的情况下,服务端很可能已经分别得到了每一个第三请求的第四请求,且需要分别缓存每一个第三请求的处理结果,以使各个第三请求可以响应其对应的处理结果。
但是,在结果分发队列中可缓存的处理结果的数量是有限的,因此,只能在结果分发队列中使用多个第三请求的处理结果覆盖已缓存的其他处理结果,则就导致之后这些第一请求无法在结果分发队列中响应到第一请求的处理结果。
因此,为了避免这种情况发生,在本申请另一实施例中,需要确定每一个第一请求的处理结果是否均被响应。
如果每一个第一请求的处理结果均被响应,再获取包括有多个第三请求的第四请求,然后基于GPU对第四请求处理,得到多个第三请求的处理结果。
如果每一个第一请求的处理结果未均被响应,则需要等待之后在每一个第一请求的处理结果均被响应的情况下,再包括有多个第三请求的第四请求,然后基于GPU对第四请求处理,得到多个第三请求的处理结果。
本申请中,当处理结果对被其对应的请求访问则说明处理结果被响应。
一旦一个处理结果被响应之后,通常该处理结果也不需要被响应第二次,因此,为了节省服务端的存储空间,在本申请另一实施例中,当一个处理结果被响应之后,可以从结果分发队列中删除被响应的该处理结果。
如此,在确定每一个第一请求的处理结果是否均被响应时,可以确定结果分发队列中是否还存在处理结果;如果结果分发队列中不存在处理结果,则确定每一个第一请求的处理结果均被响应,如果结果分发队列中存在处理结果,则确定每一个第一请求的处理结果并非均被响应。
在本申请一个实施例中,每当服务端接收到客户端上传的第一请求,就可以在请求等待队列中缓存第一请求,在请求等待队列中缓存的第一请求为多个的情况下,就可以获取在请求等待队列中缓存的多个第一请求,将多个第一请求批量合并为第二请求。然后执行步骤S102。
在本申请中,请求的种类有很多,例如,假设请求用于对文本进行翻译,则中文翻译成英文为一个种类,中文翻译成日文为一个种类,中文翻译成俄文为一个种类,英文翻译成中文为一个种类,日文翻译成中文为一个种类以及俄文翻译成中文为一个种类等等。
对于不同的种类的请求,GPU往往需要使用不同的模型对其进行处理,例如,对于将中文翻译成英文这一种类的翻译请求,需要使用中文-英文的翻译模型对中文进行翻译。对于将日文翻译成俄文这一种类的翻译请求,需要使用日文-俄文的翻译模型对日文进行翻译。
或者,也存在将具有至少两种以上语言的源信息翻译为某一特定语言的目标信息的情况,例如,一篇文章中既有中文文本也有英文文本,需要将该文章中的文本翻译为日文的文本,则需要使用中文/英文-日文的翻译模型对该文章进行翻译等。
在本申请中,为了提高处理效率,在将多个第一请求批量合并为第二请求时,可以确定各个第一请求的种类;然后将相同种类的至少两个第一请求批量合并为第二请求,如果多个第一请求的种类为多个,则得到的第二请求为多个,可以基于GPU分别处理每一个第二请求。
其中,第一请求为用于将至少一个语言的源信息翻译为另一个语言的目标信息的翻译请求;如此,在确定各个第一请求的种类时,对于任意一个第一请求,可以确定该第一请求对应的源信息涉及的至少一个语言以及该第一请求对应的目标信息涉及的语言;根据该第一请求对应的源信息涉及的至少一个语言以及该第一请求对应的目标信息涉及的语言确定所述第一请求的种类。对于其他每一个第一请求,同样执行上述操作。
例如,事先可以准备多个请求等待队列,不同的请求等待队列用于缓存不同种类的请求。
每当服务端接收到客户端上传的请求,可以先确定该请求的种类,然后将该请求缓存在该种类对应的请求等待队列中。
在本申请中,GPU一次同时处理请求的数量会影响服务端的吞吐量,
或者说,影响GPU的QPS,QPS为每秒钟可以处理完毕请求的数量,用以衡量服务端的吞吐量,也会影响RT,RT为GPU一次同时处理请求所需耗费的时长。
当GPU一次同时处理请求的数量很小时,每次GPU在处理请求时,GPU中的核并没有被完全利用,核的利用率较低,如此,
然而,随着GPU一次同时处理请求的数量提高,GPU一次同时处理请求所需耗费的时长会少量增加,但GPU一次同时处理请求的数量会有很明显的提升,因此,GPU的QPS会明显提升,服务端的吞吐量会有明显提升。
当GPU一次同时处理请求的数量提高到特定数量时,GPU的负荷接近饱和,此时GPU一次同时处理请求所需耗费的时长为特定时长。
在这种情况下,如果再提升GPU一次同时处理请求的数量,则由于GPU的固有属性,GPU一次同时处理请求所需耗费的时长会继续显著增加,且时长的增加程度会往往大于请求的数量的增加程度,GPU的QPS反而会降低。
本申请的目的是尽可能使得GPU的QPS高,且同时需要使得GPU一次同时处理请求所需耗费的时长短。
然而,随着GPU一次同时处理请求的数量在一定程度的提高,GPU的QPS会升高,但可能会导致GPU一次同时处理请求所需耗费的时长超过可容忍的时长,这样,对于提交请求的用户而言,需要等待较长时间才能得到处理结果,对用户很不友好,会导致用户体验很低。
因此,为了避免一次同时处理请求所需耗费的时长超过可容忍的时长,进而避免降低用户体验,在本申请另一实施例中,事先可以为GPU设置特定数量,规定GPU一次同时处理请求的数量最多为特定数量。
GPU一次同时该特定数量的请求时,可以GPUQPS可以达到最大QPS,且同时GPU一次同时该特定数量的请求所需耗费的时长也不会超过可容忍的时长。
如此,在将至少两个第一请求组合为第二请求时,可以将小于或等于特定数量的第一请求组合为第二请求。特定数量包括在GPU一次同时处理请求所需耗费的时长不超过可容忍的时长的情况下的能够一次同时处理请求的最大数量。从而可以保证GPU之后一次同时处理请求所需耗费的时长不超过可容忍的时长的情况下,可以尽可能使得QPS最高。
进一步地,为了GPU始终能够被利用,需要对请求具有有快速的响应,例如,假设很长一段时间服务端都没有接收到请求,GPU处于空闲状态,之后一旦服务端接收到一个请求,则服务端就可以将接收到的该请求递交给GPU,以使GPU可以立即处理该请求,提高了服务端对突发请求的快速响应。
在GPU处理该请求的过程中,服务端可能会陆续接收到其他客户端提交的请求,服务端可以将接收到的请求缓存在请求等待队列中,待GPU处理完毕请求之后,服务端在获取缓存在请求等待队列中的多个请求,然后将多个请求批量组合为一个请求,再基于GPU处理组合得到的该请求。
在本申请一个实施例中,当GPU一次同时处理请求的数量为特定数量时,GPU的负荷接近饱和,此时GPU一次同时处理请求所需耗费的时长为特定时长,此时的QPS的计算方法包括:计算1s与特定时长之间的比值,该比值表达的含义为GPU一秒钟能够处理几个批次的请求,然后计算该比值与特定数量之间的成绩,得到GPU每秒钟可以处理完毕请求的数量,即QPS,此时的QPS为特定QPS。
当服务端每秒钟接收到的请求的数量<特定QPS时,服务端可以立即将接收的请求批量组合为一个请求,然后基于GPU对组合得到的请求进行处理。其中,由于GPU的处理过程占据整个流程的绝大部分时间,因此,可以忽略其他时间。此时GPU一次同时处理请求所需耗费的时长小于或等于特定时长
当服务端每秒钟接收到的请求的数量增大到特定QPS时,GPU达到了最大负荷。
GPU每一次处理请求都是饱和处理,即,GPU一次同时处理请求的数量为特定数量。
在GPU处理请求的过程中,如果服务端新接收到其他请求,则服务端可以将新接收到的其他请求存储在请求等待队列中,待GPU处理完毕当前正在处理的请求之后,再获取请求等待队列中存储的请求进行处理。
也即,新接收到的其他请求在请求等待队列中需要等待一段时间,才能被GPU处理,所以,新接收到的其他请求的等待时长位于特定时长与2倍的特定时长之间。
当服务端每秒钟接收到的请求的数量超过特定QPS时,在GPU处理请求的过程中,会服务端不断新接收到其他请求,可以将新接收到的其他请求存储在请求等待队列中,然而,在GPU处理完毕当前正在处理的请求之前,请求等待队列就会被存满,之后新接收到的请求只能在请求等待队列之外等待,这部分请求的等待时长位于特定时长与(2倍的特定时长+追加时长)之间。
服务端接收到的请求越多,则追加就会越大,GPU一次同时处理请求所需的时长也会越大,但GPU的QPS会稳定在特定QPS的水平。此时GPU处于不健康的超负荷的运行状态,可以在服务端中增加GPU来实现扩容。
其中,假设,在现有技术中,GPU一次同时处理请求所需耗费的时长为现有时长,GPU的现有QPS为1s与现有时长之间的比值。
在本申请中,GPU一次同时处理请求所需耗费的时长为特定时长,
在现有技术中,由于未对GPU访问进行调度控制,大量的请求会同时被调度给GPU,假设某个时间点同时被调度给GPU请求数为N,则这批请求的RT=N倍的现有时长。
而在本申请中的特定QPS为特定数量与特定时长之间的比值,
如此,相比于现有技术,本申请可以将GPU的QPS提升(B*T'/T)倍,其中B为特定数量,T为特定时长,T'为现有时长。
另一方面,通过本申请,可以将GPU一次同时处理请求所需的时长控制地较稳定,例如,控制在特定时长与2倍的特定时长之间,避免用户的等待时长大起大落,进而避免降低用户体验。
在本申请另一实施例中,有些客户端可能会大批量地向服务端提交的请求,则客户端在向服务端提交大批量的请求之前,客户端可以将多个第一请求批量合并为第二请求,然后向服务端提交第二请求。
如此,对于服务端而言,可以接收客户端直接提交的包括有多个第一请求的第二请求,之后就可以将第二请求递交给GPU处理,如此可以不同服务端将多个第一请求批量合并,从而可以节省服务端的系统资源。
图2是根据一示例性实施例示出的一种请求处理装置的框图,如图2所示,该装置包括:
第一获取模块11,用于获取包括有多个第一请求的第二请求;
第二处理模块12,用于基于图形处理器GPU对第二请求处理,得到多个第一请求的处理结果;
缓存模块13,用于将所述多个第一请求的处理结果缓存在结果分发队列中,以使各个第一请求响应其对应的处理结果。
在一个可选的实现方式中,所述装置还包括:
确定模块,用于确定每一个处理结果是否均被响应;
第二获取模块,用于如果每一个处理结果均被响应,获取包括有多个第三请求的第四请求,第二处理模块,用于基于所述GPU对所述第四请求处理,得到多个第三请求的处理结果。
在一个可选的实现方式中,所述装置还包括:
删除模块,用于当一个处理结果被响应之后,从结果分发队列中删除被响应的处理结果。
在一个可选的实现方式中,所述确定模块包括:
第一确定单元,用于确定所述结果分发队列中是否还存在处理结果;
第二确定单元,用于如果所述结果分发队列中不存在处理结果,则确定每一个处理结果均被响应。
在一个可选的实现方式中,所述第一获取模块11包括:
获取单元,用于获取在请求等待队列中缓存的多个第一请求;
合并单元,用于将多个第一请求批量合并为第二请求;
在一个可选的实现方式中,所述合并单元包括:
确定子单元,用于确定各个第一请求的种类;
合并子单元,用于将相同种类的至少两个第一请求批量合并为第二请求。
在一个可选的实现方式中,所述第一请求为用于将至少一个语言的源信息翻译为另一个语言的目标信息的翻译请求;
所述确定子单元具体用于:对于每一个第一请求,确定所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言;根据所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言确定所述第一请求的种类。
在一个可选的实现方式中,所述合并子单元具体用于:将小于或等于特定数量的第一请求组合为第二请求;所述特定数量包括在所述GPU并行处理请求所需耗费的时长不超过可容忍的时长的情况下,所述GPU能够并行处理的请求的最大数量。
在一个可选的实现方式中,所述第一获取模块11包括:
接收单元,用于接收客户端直接提交的包括有多个第一请求的第二请求。
其中,GPU中具有很多的核,向GPU提交多个请求可以同时调度GPU更多的核处理请求;并且,提交的请求的数量越大,越能减小GPU和服务端的系统内存之间的交互、越能减小GPU内部的调度开销,越能实现更高的处理效率。
如此,可以采用多线程调用GPU,但是,在GPU内部通常是以多个核为一组核进行调度的,例如,以16个核为一组核进行调度,也就是说,即使处理一个请求只需要一个核,但在GPU内部,处理一个请求仍然会占用一组核,但被调用的子组核中只有一个核被用来处理请求,剩余的核都被使用,白白浪费了资源,资源利用率较低。
例如,一个请求最少占用一组核中的16个核,但16个核中只有一个核用来处理请求,剩余15个核都未被使用,白白浪费了,导致资源利用率较低。
如此,只有几组核单位,GPU同时就能处理几个请求,即,GPU能够同时处理的请求的数量与GPU中包括的核单位的数量相同。
然而,GPU中的核的数量也是有限的,如此使得GPU中核单位也是有限的,进而导致GPU能够同时处理的请求的数量也是有限的,甚至有时候还会低于CPU能够同时处理的请求的数量,从而就会导致GPU一次同时处理的请求的数量较低,进而导致服务端的吞吐量较低。
而在本申请中,可以获取包括有多个第一请求的第二请求;例如,将客户端提交的多个第一请求批量合并为第二请求等,然后基于GPU对第二请求处理,得到多个第一请求的处理结果。
其中,在本申请中,对于GPU而言,其直接得到的是第二请求,然后为第二请求分配一组核单元,一组核单元中的核为多个,在使用该组核单元的核来处理第二请求时,由于第二请求包括有多个第一请求,因此,可以使用该组核单元中的每一个核分别并行处理一个不同的第一请求,如此使得该组核单元中多个核都被用来处理第一请求,相比于该组核单元中仅有一个核被用于处理第一请求,本申请降低了未被使用的核的数量,甚至可以使得该组核单元中的所有核都被用来处理第一请求,充分利用了该组核单元中的核,从而可以增加GPU一次同时处理的请求的数量,进而可以提高服务端的吞吐量。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的请求处理方法。本申请实施例中,所述电子设备包括服务器、网关、子设备等,子设备为物联网设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。
图3示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。
对于一个实施例,图3示出了示例性装置1300,该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310,以及被耦合到控制模块1306的网络接口1312。
处理器1302可包括一个或多个单核或多核处理器,处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1300能够作为本申请实施例中所述网关或控制器等服务器设备。
在一些实施例中,装置1300可包括具有指令1314的一个或多个计算机可读介质(例如,存储器1306或NVM/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。
对于一个实施例,控制模块1304可包括任意适当的接口控制器,以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
控制模块1304可包括存储器控制器模块,以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例,存储器1306可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1304可包括一个或多个输入/输出控制器,以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
例如,NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信,输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信,装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1300可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
本申请实施例提供了一种电子设备,包括:一个或多个处理器;和,其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述处理器执行如本申请实施例中一个或多个所述的请求处理方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种请求处理方法装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种请求处理方法,其特征在于,所述方法包括:
获取包括有多个第一请求的第二请求;
基于图形处理器GPU对第二请求处理,得到多个第一请求的处理结果;
将所述多个第一请求的处理结果缓存在结果分发队列中,以使各个第一请求响应其对应的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定每一个处理结果是否均被响应;
如果每一个处理结果均被响应,获取包括有多个第三请求的第四请求,然后基于所述GPU对所述第四请求处理,得到多个第三请求的处理结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当一个处理结果被响应之后,从结果分发队列中删除被响应的处理结果。
4.根据权利要求3所述的方法,其特征在于,所述确定每一个处理结果是否均被响应,包括:
确定所述结果分发队列中是否还存在处理结果;
如果所述结果分发队列中不存在处理结果,则确定每一个处理结果均被响应。
5.根据权利要求1所述的方法,其特征在于,所述获取包括有多个第一请求的第二请求,包括:
获取在请求等待队列中缓存的多个第一请求;
将多个第一请求批量合并为第二请求。
6.根据权利要求5所述的方法,其特征在于,所述将多个第一请求批量合并为第二请求,包括:
确定各个第一请求的种类;
将相同种类的至少两个第一请求批量合并为第二请求。
7.根据权利要求6所述的方法,其特征在于,所述第一请求为用于将至少一个语言的源信息翻译为另一个语言的目标信息的翻译请求;
所述确定各个第一请求的种类,包括:
对于每一个第一请求,确定所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言;
根据所述第一请求对应的源信息涉及的至少一个语言以及所述第一请求对应的目标信息涉及的语言确定所述第一请求的种类。
8.根据权利要求5所述的方法,其特征在于,所述将多个第一请求批量合并为第二请求,包括:
将小于或等于特定数量的第一请求组合为第二请求;所述特定数量包括在所述GPU并行处理请求所需耗费的时长不超过可容忍的时长的情况下,所述GPU能够并行处理的请求的最大数量。
9.根据权利要求1所述的方法,其特征在于,所述获取包括有多个第一请求的第二请求,包括:
接收客户端直接提交的包括有多个第一请求的第二请求。
10.一种请求处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取包括有多个第一请求的第二请求;
第二处理模块,用于基于图形处理器GPU对第二请求处理,得到多个第一请求的处理结果;
缓存模块,用于将所述多个第一请求的处理结果缓存在结果分发队列中,以使各个第一请求响应其对应的处理结果。
CN201910759499.7A 2019-08-16 2019-08-16 一种请求处理方法及装置 Pending CN112395234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910759499.7A CN112395234A (zh) 2019-08-16 2019-08-16 一种请求处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910759499.7A CN112395234A (zh) 2019-08-16 2019-08-16 一种请求处理方法及装置

Publications (1)

Publication Number Publication Date
CN112395234A true CN112395234A (zh) 2021-02-23

Family

ID=74602842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910759499.7A Pending CN112395234A (zh) 2019-08-16 2019-08-16 一种请求处理方法及装置

Country Status (1)

Country Link
CN (1) CN112395234A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904868A (zh) * 2005-07-11 2007-01-31 商辉达股份有限公司 用于包化总线的组合包
CN102236543A (zh) * 2010-05-07 2011-11-09 百度在线网络技术(北京)有限公司 数据解压装置及方法
CN102541628A (zh) * 2010-12-17 2012-07-04 三星电子株式会社 多核系统的编译装置和方法
WO2016041126A1 (zh) * 2014-09-15 2016-03-24 华为技术有限公司 基于gpu的数据流处理方法和装置
US20160269240A1 (en) * 2015-03-13 2016-09-15 International Business Machines Corporation Managing servers with quality of service assurances
CN106209682A (zh) * 2016-07-08 2016-12-07 北京百度网讯科技有限公司 业务调度方法、装置和系统
CN110032443A (zh) * 2017-12-11 2019-07-19 三星电子株式会社 处理器、其任务处理方法和处理任务的架构

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904868A (zh) * 2005-07-11 2007-01-31 商辉达股份有限公司 用于包化总线的组合包
CN102236543A (zh) * 2010-05-07 2011-11-09 百度在线网络技术(北京)有限公司 数据解压装置及方法
CN102541628A (zh) * 2010-12-17 2012-07-04 三星电子株式会社 多核系统的编译装置和方法
WO2016041126A1 (zh) * 2014-09-15 2016-03-24 华为技术有限公司 基于gpu的数据流处理方法和装置
US20160269240A1 (en) * 2015-03-13 2016-09-15 International Business Machines Corporation Managing servers with quality of service assurances
CN106209682A (zh) * 2016-07-08 2016-12-07 北京百度网讯科技有限公司 业务调度方法、装置和系统
CN110032443A (zh) * 2017-12-11 2019-07-19 三星电子株式会社 处理器、其任务处理方法和处理任务的架构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谢盈;吴尽昭;熊菊霞;张晖;: "负载自适应的异构MPSoC任务调度算法研究", 工程科学与技术, no. 02 *
韩永;姚念民;刁莹;: "使用批量处理方法提高iSCSI存储系统性能的策略研究", 计算机研究与发展, no. 09 *

Similar Documents

Publication Publication Date Title
US11734271B2 (en) Data query method, apparatus and device
US20170083262A1 (en) System and method for controlling memory frequency using feed-forward compression statistics
TW201342096A (zh) 用於硬體加速視頻系統中策略察知之裝置及方法
US9075789B2 (en) Methods and apparatus for interleaving priorities of a plurality of virtual processors
CN111488167A (zh) 一种小程序的更新方法、装置、设备和计算机可读介质
US20170212581A1 (en) Systems and methods for providing power efficiency via memory latency control
CN110851276A (zh) 一种业务请求处理方法、装置、服务器和存储介质
CN114553762B (zh) 一种对流表中的流表项处理的方法及装置
JP7418569B2 (ja) 異種プラットフォームでのハードウェアアクセラレーションによるタスクのスケジューリング及び負荷分散のための送信及び同期技術
US11494237B2 (en) Managing workloads of a deep neural network processor
TWI602431B (zh) Method and device for transmitting information
CN113988306A (zh) 样例数据的处理方法、装置、设备和存储介质
CN114356591A (zh) 进程间通信方法、装置、物联网操作系统以及物联网设备
CN109951737B (zh) 视频处理方法、装置、电子设备和计算机可读存储介质
CN112395234A (zh) 一种请求处理方法及装置
US9787755B2 (en) Method and device for browsing network data, and storage medium
CN110891033B (zh) 网络资源处理方法、装置、网关、控制器及存储介质
CN113448739B (zh) 一种数据处理方法及装置
WO2017011021A1 (en) Systems and methods facilitating reduced latency via stashing in systems on chips
CN113296977B (zh) 一种消息处理方法及装置
CN113703906A (zh) 一种数据处理方法、装置及系统
US11288096B2 (en) System and method of balancing mixed workload performance
CN113934677A (zh) 数据处理方法、装置、电子设备和存储介质
CN113535606A (zh) 一种数据处理方法及装置
CN113377548A (zh) 一种标识生成方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination