CN111401560A

CN111401560A - 推理任务的处理方法、设备和存储介质

Info

Publication number: CN111401560A
Application number: CN202010215504.0A
Authority: CN
Inventors: 靳凯; 张红飞; 王海龙; 廖武
Original assignee: Beijing Juefei Technology Co ltd
Current assignee: Beijing Juefei Technology Co ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-10

Abstract

本发明公开了一种推理任务的处理方法、设备和存储介质，方法包括：获取推理任务的结构体信息；基于预设的调度器，调取所述结构体信息对应的目标推理引擎；基于所述目标推理引擎，对所述推理任务的输入信息进行处理，并输出推理结果，实现了自动匹配推理引擎后，对推理任务进行推理。采用本发明的技术方案，能够使用户根据实际需求自适应选择推理引擎，降低处理推理任务的局限性。

Description

推理任务的处理方法、设备和存储介质

技术领域

本发明属于神经网络技术领域，具体涉及一种推理任务的处理方法、设备和存储介质。

背景技术

基于神经网络尤其是卷积神经网络的方法在很多应用中都取得了极大的成功，尤其在计算机视觉领域中被广泛使用。针对特定的任务，例如图像识别，物体检测等，神经网络通过训练集经长时间的优化获得可以使用的模型。将训练的模型部署在实际的生产环境，例如服务器、手机、芯片等边缘算力设备上，便可通过输入数据获得期望的输出内容，这个过程称之为推理，其不涉及参数值的变化。

然而，即使最轻量级的模型，其一次正常的推理过程都需要花费数亿次的浮点数运算。此外，推理在边缘算力设备受制于芯片功耗和性能，其推理时延相比服务器级别的中心计算节点慢数十倍到数百倍。因此，推理引擎应孕而生，其目的是服务于边缘算力设备，尽最大可能发挥其特定硬件设备性能。

现有技术中，由于不同的边缘算力设备具有不同的操作系统，(如，Linux系统、Android系统)、硬件平台(Cortex A53/A76)、计算单元等，这就需要针对不同的边缘算力设备开发不同的推理引擎。例如，常用的推理引擎包括MACE推理引擎、MNN推理引擎、NCNN推理引擎、OpenVINO推理引擎等。

但是，每个推理引擎只针对对应的边缘算力设备进行优化，以便进行推理加速，而其他不具有特定硬件的边缘算力设备则无法进行优化，导致推理速度较慢，这就造成用户在需要处理推理任务时，往往无法根据实际需求选择推理引擎，导致处理推理任务的局限性较高。

发明内容

本发明的主要目的是提供一种推理任务的处理方法、设备和存储介质，以解决现有技术中处理推理任务的局限性较高的问题。

针对上述问题，本发明提供了一种推理任务的处理方法，包括：

获取推理任务的结构体信息；

基于预设的调度器，调取所述结构体信息对应的目标推理引擎；其中，所述调度器设置有多个推理引擎的中间件，所述中间件能够执行任一所述推理引擎的推理过程；

基于所述目标推理引擎，对所述推理任务的输入信息进行处理，并输出推理结果。

进一步地，上述所述的推理任务的处理方法中，对所述推理任务的输入信息进行推理，包括：

对所述输入信息进行预处理，得到与所述结构体信息相匹配的预处理信息；

对所述预处理信息进行推理，得到推理信息；

对所述推理信息进行后处理，得到所述推理结果。

进一步地，上述所述的推理任务的处理方法中，对所述推理信息进行后处理，包括：

对所述推理信息进行非极大值抑制处理和/或对所述推理信息进行排序后选取N个靠前的推理信息；所述N为大于或者等于1的整数。

进一步地，上述所述的推理任务的处理方法中，对所述预处理信息进行推理，得到推理信息，包括：

检测是否存在正进行推理任务；

若检测到不存在所述正进行推理任务，基于所述目标推理引擎的深度神经网络模型对所述预处理信息进行推理，得到所述推理信息。

进一步地，上述所述的推理任务的处理方法中，所述深度神经网络模型的加载过程为：

根据所述结构体信息，确定所述推理任务的需求性能；

判断所述目标推理引擎的算子性能是否满足所述需求性能；

若所述算子性能满足所述需求性能，将所述目标推理引擎的标准深度神经网络模型作为所述深度神经网络模型进行加载；

若所述算子性能不满足所述需求性能，对所述算子性能进行处理后，重新生成所述深度神经网络模型后进行加载。

进一步地，上述所述的推理任务的处理方法中，所述结构体信息包括：深度神经网络名称、推理引擎平台名称、深度神经网络参数文件位置以及网络的输入形状中的至少一种。

进一步地，上述所述的推理任务的处理方法中，获取推理任务的结构体信息之前，还包括：

获取边缘算力设备的设备信息；

根据所述设备信息，生成所述结构体信息。

进一步地，上述所述的推理任务的处理方法，还包括：

根据所述设备信息，生成所述结构体信息的建议信息；

输出所述建议信息，以使用户根据所述建议信息，确定所述结构体信息的反馈信息；

根据所述反馈信息，生成所述结构体信息。

本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。

本发明还提供一种推理任务的处理设备，其包括存储器和处理器，该存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

应用本发明的推理任务的处理方法、设备和存储介质，通过获取推理任务的结构体信息后，基于预设的调度器，调取结构体信息对应的目标推理引擎，并基于调取的目标推理引擎，对推理任务的输入信息进行处理，并输出推理结果，实现了自动匹配推理引擎后，对推理任务进行推理。采用本发明的技术方案，能够使用户根据实际需求自适应选择推理引擎，降低处理推理任务的局限性。

本发明的其它特征和优点将在随后的说明书中阐述，并且部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的推理任务的处理方法实施例一的流程图；

图2为本发明的推理任务的处理方法实施例二的流程图；

图3为本发明的推理任务的处理装置实施例的结构示意图；

图4为本发明的推理任务的处理设备实施例的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

为解决现有技术中存在的上述技术问题，本发明实施例提供了一种网络数据审计方法。

图1为本发明的推理任务的处理方法实施例一的流程图，如图1所示，本实施例的推理任务的处理方法，具体可以包括如下步骤：

100、获取推理任务的结构体信息；

在一个具体实现过程中，推理任务的结构体信息可以包括：深度神经网络名称、推理引擎平台名称、深度神经网络参数文件位置以及网络的输入形状中的至少一种，该推理任务的结构体信息可以通过如下方式生成：

第一种：用户可以根据自己的边缘算力设备的设备信息，设定推理任务的结构体信息。例如，当用户既对自己的边缘算力设备的设备信息比较熟悉，也对推理任务的结构体信息熟悉时，其可以直接设定推理任务所需的结构体信息。

第二种：在进入推理模式后，自动获取边缘算力设备的设备信息，并根据边缘算力设备的设备信息生成推理任务的结构体信息。例如，当用户对自己的边缘算力设备的设备信息不是熟悉和/或对推理任务的结构体信息不熟悉时，用户无法准确的设置推理任务的结构体信息，此时，可以自动获取边缘算力设备的设备信息，并根据边缘算力设备的设备信息生成推理任务的结构体信息，从而避免用户自己设置结构体信息。

第三种，在进入推理模式后，自动获取边缘算力设备的设备信息，根据设备信息，生成结构体信息的建议信息，并输出该建议信息，以使用户根据建议信息，确定结构体信息的反馈信息；这样，在接收用户的反馈信息后，可以根据改反馈信息，生成结构体信息。例如，当用户对自己的边缘算力设备的设备信息熟悉时，但对推理任务的结构体信息不熟悉时，可以生成结构体信息的建议信息，该建议信息包括待生成的结构体信息和待生成的结构体信息的介绍信息，这样，可以使用户能够根据待生成的结构体信息的介绍信息，并结合自己的边缘算力设备的设备信息进行综合考虑，是接受该建议信息，还是否定该建议信息，还是对待生成的结构体信息进行调调整，并进行反馈，这样，既可以根据用户的反馈信息，生成结构体信息，从而在避免用户自己设置结构体信息的同时，提高结构体信息的准确率。

101、基于预设的调度器，调取推理任务的结构体信息对应的目标推理引擎；

在实际应用中，不同的推理引擎尽管有所不同，但是每个推理引擎所提供的API接口功能是相近的，比如，在MNN推理引擎中，需要调用runSession()函数执行推理；在OpenVINO推理引擎中，则是调用infer()函数执行推理。因此，本实施例中，可以针对不同的推理引擎，设置一个中间件，该中间件能够执行任一推理引擎的推理过程比设置在调度器中。这样，即可以对不同系统架构和硬件平台的选择性，提供了对不同推理引擎实施统一的调度管理。

具体地，可以根据推理引擎的不同，分别按照统一的封装标准，在各推理引擎中加入各自的应用程序编程接口(Application Programming Interface，API)，以实现上层可见的都是inference函数，但是实际执行时，执行MNN推理引擎或OpenVINO推理引擎的具体函数。

本实施例中，在获取到推理任务的结构体信息后，即可以基于该调度器，调取结构体信息对应的目标推理引擎。例如，可以从推理任务的结构体信息获知推理引擎平台名称为OpenVINO，进而可以选择OpenVINO推理引擎作为调取结构体信息对应的目标推理引擎。

102、基于调取的目标推理引擎，对推理任务的输入信息进行处理，并输出推理结果。

本实施例中，可以将推理任务的输入信息输入调取的目标推理引擎，进而利用调取的目标推理引擎进行优化后，对推理任务的输入信息进行处理，并快速输出推理结果。这样，无论用户采用哪种边缘算力设备，都无需针对性的布置推理引擎，用户也无需针对布置的推理引擎，购买与布置的推理引擎相适应的边缘算力设备，均能够根据自己的实际需求，较快的对推理任务进行处理。其中，推理任务的输入信息可以包括图像和/或视频。

本实施例的推理任务的处理方法，通过获取推理任务的结构体信息后，基于预设的调度器，调取结构体信息对应的目标推理引擎，并基于调取的目标推理引擎，对推理任务的输入信息进行处理，并输出推理结果，实现了自动匹配推理引擎后，对推理任务进行推理。采用本发明的技术方案，能够使用户根据实际需求自适应选择推理引擎，降低处理推理任务的局限性。

图2为本发明的推理任务的处理方法实施例二的流程图，如图2所示，本实施例的推理任务的处理方法在上述实施例的基础上，进一步地更加详细地对本发明的技术方案进行说明。

如图2所示，本实施例的推理任务的处理方法具体可以包括如下步骤：

200、获取推理任务的结构体信息；

本实施例的实现过程与上述实施例中步骤100的实现过程相同，详细请参考上述相关描述，在此不再记载。

201、基于预设的调度器，调取推理任务的结构体信息对应的目标推理引擎；

本实施例的实现过程与上述实施例中步骤101的实现过程相同，详细请参考上述相关描述，在此不再记载。

202、加载目标推理引擎的深度神经网络模型；

具体地，加载目标推理引擎的深度神经网络模型的过程，可以根据如下操作实现：

A、根据推理任务的结构体信息，确定推理任务的需求性能；

例如，可以对深度神经网络名称、推理引擎平台名称、深度神经网络参数文件位置以及网络的输入形状进行分析，从而确定出推理任务复杂度等作为推理任务的需求性能。

B、判断目标推理引擎的算子性能是否满足推理任务的需求性能；若是，执行步骤C，若否，执行步骤D；

尽管根据推理引擎平台名称能够调取目标推理引擎，但是该目标推理引擎指示能对推理任务进行处理的基础的推理引擎，该目标推理引擎的算子性能可能达不到推理任务的需求性能，也就是说目标推理引擎虽然能对边缘算力平台进行优化，但是优化效果有限，在对推理任务进行处理时，仍然会速度较慢，因此，本实施例中，需要判断目标推理引擎的算子性能是否满足推理任务的需求性能。例如，若推理任务的需求性能为10s完成处理，而目标推理引擎的算子性能为15s完成处理，此时，说明目标推理引擎的算子性能不满足推理任务的需求性能，执行步骤D。若推理任务的需求性能为15s完成处理，而目标推理引擎的算子性能为10s完成处理，此时，说明目标推理引擎的算子性能满足推理任务的需求性能，执行步骤C。

C、将目标推理引擎的标准深度神经网络模型作为深度神经网络模型进行加载；

若算子性能满足需求性能，则说明标推理引擎的标准深度神经网络模型即能满足该推理任务的处理需求，此时，可以将目标推理引擎的标准深度神经网络模型作为深度神经网络模型进行加载。

D、对算子性能进行处理后，重新生成深度神经网络模型后进行加载。

若目标推理引擎的算子性能不满足需求性能，则需要对目标推理引擎的算子性能进行处理后，重新生成深度神经网络模型后进行加载即可。例如，可以可对目标推理引擎的算子重写支持，使得目标推理引擎的算子性能满足推理任务的需求性能后，重新生成深度神经网络模型后进行加载。

203、对推理任务的输入信息进行预处理，得到与结构体信息相匹配的预处理信息；

本实施例中，在将推理任务的输入信息输入调取的目标推理引擎后，可以利用Reshape，Transpose等操作，对推理任务的输入信息进行预处理，使之符合深度神经网络的输入形状，进而得到与结构体信息相匹配的预处理信息，便于后续按照步骤204和205对得到的预处理信息进行推理，得到较准确的推理信息。

204、检测是否存在正进行推理任务；若是，执行步骤207，若否，执行步骤205；

具体地，目标推理引擎在进行推理和停止推理时，其对应的状态信息是不通过的，因此，可以通过目标推理引擎的状态信息检查当前是否在正进行推理任务，若是，执行步骤207，若否，执行步骤205。

205、基于目标推理引擎的深度神经网络模型对预处理信息进行推理，得到推理信息；

若不存在正进行推理任务，说明该推理任务可以被推理，此时，基于目标推理引擎的深度神经网络模型对预处理信息进行推理，得到推理信息。

206、对推理信息进行后处理，得到推理结果。

在一个具体实现过程中，在进行检测任务时，可以对得到的推理信息进行非极大值抑制处理，从而可以得到想要的检测结果；在进行分类任务时，可以对所述推理信息进行对所述推理信息进行排序后选取N个靠前的推理信息处理，从而可以得到想要的分类结果，其中，N为大于或者等于1的整数。

207、等待正进行推理任务结束，并执行步骤205。

本实施例的推理任务的处理方法，在对不同系统架构和硬件平台的选择性，提供了对不同推理引擎实施统一的调度管理的同时，还能够提供算子级别的性能调优，以便保证推理任务的处理速度，进一步降低处理推理任务的局限性。

进一步地，上述实施例中，可以通过创建的内存池管理输入输出资源、加载输入信息、执行推理、获取推理结果、线程分配、资源调度、同步/异步访问等操作，并将整个处理过程中的信息生成日志进行保存、打印等。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种推理任务的处理装置。

图3为本发明的推理任务的处理装置实施例的结构示意图，如图3所示，本实施了的推理任务的处理装置包括获取模块30、调度模块31和处理模块32。

获取模块30，用于获取推理任务的结构体信息；

在一个具体实现过程中，推理任务的结构体信可以包括：深度神经网络名称、推理引擎平台名称、深度神经网络参数文件位置以及网络的输入形状中的至少一种，该推理任务的结构体信息可以通过如下方式生成：

第一种：用户可以根据自己的边缘算力设备的设备信息，设定推理任务的结构体信息。

第二种：在进入推理模式后，自动获取边缘算力设备的设备信息，并根据边缘算力设备的设备信息生成推理任务的结构体信息。

第三种，在进入推理模式后，自动获取边缘算力设备的设备信息，根据设备信息，生成结构体信息的建议信息，并输出该建议信息，以使用户根据建议信息，确定结构体信息的反馈信息；这样，在接收用户的反馈信息后，可以根据改反馈信息，生成结构体信息。

调度模块31，用于基于预设的调度器，调取推理任务的结构体信息对应的目标推理引擎；其中，调度器为多个推理引擎的中间件，中间件能够执行任一推理引擎的推理过程；

处理模块32，用于基于调取的目标推理引擎，对推理任务的输入信息进行处理，并输出推理结果。

本实施例的推理任务的处理装置，通过获取推理任务的结构体信息后，基于预设的调度器，调取结构体信息对应的目标推理引擎，并基于调取的目标推理引擎，对推理任务的输入信息进行处理，并输出推理结果，实现了自动匹配推理引擎后，对推理任务进行推理。采用本发明的技术方案，能够使用户根据实际需求选择推理引擎，降低处理推理任务的局限性。

进一步地，上述实施例中，处理模块32具体用于：

对推理任务的输入信息进行预处理，得到与推理任务的结构体信息相匹配的预处理信息。

对预处理信息进行推理，得到推理信息。具体地，检测是否存在正进行推理任务；若检测到不存在正进行推理任务，基于目标推理引擎的深度神经网络模型对预处理信息进行推理，得到推理信息。其中，目标推理引擎的深度神经网络模型的加载过程为：根据结构体信息，确定推理任务的需求性能；判断目标推理引擎的算子性能是否满足推理任务的需求性能；若目标推理引擎的算子性能满足需求性能，将目标推理引擎的标准深度神经网络模型作为深度神经网络模型进行加载；若目标推理引擎的算子性能不满足需求性能，对目标推理引擎的算子性能进行处理后，重新生成深度神经网络模型后进行加载。

对推理信息进行后处理，得到推理结果。例如，对推理信息进行非极大值抑制处理，或者，对推理信息进行排序后选取N个靠前的推理信息；N为大于或者等于1的整数。

需要说明的是，上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

为解决现有技术中存在的上述技术问题，本发明实施例提供了一种推理任务的处理设备。

图4为本发明的推理任务的处理设备实施例的结构示意图，如图4所示，本发明实施例提供的网络数据审计设备包括存储器41和处理器40，该存储器41上存储有计算机程序，计算机程序被处理器4执行时实现上述方法的步骤。

为解决现有技术中存在的上述技术问题，本发明实施例提供了一种存储介质。

本发明实施例提供的存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块32中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种推理任务的处理方法，其特征在于，包括：

获取推理任务的结构体信息；

2.根据权利要求1所述的推理任务的处理方法，其特征在于，对所述推理任务的输入信息进行推理，包括：

对所述预处理信息进行推理，得到推理信息；

对所述推理信息进行后处理，得到所述推理结果。

3.根据权利要求2所述的推理任务的处理方法，其特征在于，对所述推理信息进行后处理，包括：

4.根据权利要求2所述的推理任务的处理方法，其特征在于，对所述预处理信息进行推理，得到推理信息，包括：

检测是否存在正进行推理任务；

5.根据权利要求4所述的推理任务的处理方法，其特征在于，所述深度神经网络模型的加载过程为：

根据所述结构体信息，确定所述推理任务的需求性能；

判断所述目标推理引擎的算子性能是否满足所述需求性能；

6.根据权利要求1所述的推理任务的处理方法，其特征在于，所述结构体信息包括：深度神经网络名称、推理引擎平台名称、深度神经网络参数文件位置以及网络的输入形状中的至少一种。

7.根据权利要求1所述的推理任务的处理方法，其特征在于，获取推理任务的结构体信息之前，还包括：

获取边缘算力设备的设备信息；

根据所述设备信息，生成所述结构体信息。

8.根据权利要求7所述的推理任务的处理方法，其特征在于，还包括：

根据所述设备信息，生成所述结构体信息的建议信息；

根据所述反馈信息，生成所述结构体信息。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。

10.一种推理任务的处理设备，其包括存储器和处理器，其特征在于，该存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。