CN116205279A

CN116205279A - 深度学习模型的硬件调度执行方法、装置、设备及介质

Info

Publication number: CN116205279A
Application number: CN202310142841.5A
Authority: CN
Inventors: 秦磊; 张亚林
Original assignee: Shanghai Enflame Technology Co ltd
Current assignee: Shanghai Enflame Technology Co ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-02

Abstract

本发明实施例公开了一种深度学习模型的硬件调度执行方法、装置、设备及介质。该方法包括：获取目标深度学习模型计算图；将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在计算图中确定与各待匹配功能子图匹配的计算子图，及对应的模糊匹配度；根据模糊匹配度，确定各待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据目标功能子图确定与目标计算子图对应的内核融合子图；根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行。该方法可以实现深度学习模型的快速模型分析，从而根据匹配得到的功能子图进行模型硬件加速，并在芯片上对深度学习模型进行推理加速。

Description

深度学习模型的硬件调度执行方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种深度学习模型的硬件调度执行方法、装置、设备及介质。

背景技术

随着人工智能领域的快速演进和发展，深度学习模型的种类越来越多。例如，用于图像分类识别、自动语音识别、语言理解等的深度学习模型。深度模型虽然很多，但深度模型的构建是有内在规律的，比如多数模型可以通过一些基本模块进行变形搭建出来。例如，通过堆叠不同数量的残差结构可以构成了Resnet18、Resnet34、Resnet50、Resnet101、Resnet152等残差网络。这些基本模块被转成由算子组成的有向无环的计算图，然后再由下层框架对计算图进行优化和调度执行计算图中算子对应的内核函数，从而完成一个模块的执行。

由于深度学习模型的基本模块有很多变形，从而对应的计算子图也有很多变形，导致下层框架较难从计算图上确定深度模型所包含的基本模块。目前，深度学习模型计算图的结构分析主要是依靠算法工程师进行人工分析。但不同领域中深度学习模型的基本模型结构是不同的，分析过程中需要算法工程师熟悉不同领域中的大量基本模型结构，对算法工程师的背景知识要求较高，而且人工分析的执行效率低，容易出错或是遗漏，不易推广。

因此，对深度学习模型的计算图进行结构分析，确定深度学习模型计算图所对应的基本模型，从而根据该基本模型在芯片上实现深度学习模型的推理加速，对深度学习模型的发展以及芯片资源的合理利用是具有重要意义的。

发明内容

本发明提供了一种深度学习模型的硬件调度执行方法、装置、设备及介质，以对深度学习模型的快速模型分析，在芯片上对深度学习模型进行推理加速。

根据本发明的一方面，提供了一种深度学习模型的硬件调度执行方法，该方法包括：

获取目标深度学习模型计算图；

将所述计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在所述计算图中确定与各所述待匹配功能子图匹配的计算子图，及对应的模糊匹配度；

根据所述模糊匹配度，确定各所述待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据所述目标功能子图确定与所述目标计算子图对应的内核融合子图；

根据所述内核融合子图对所述深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行。

根据本发明的另一方面，提供了一种深度学习模型的硬件调度执行装置，该装置包括：

计算图获取模块，用于获取目标深度学习模型计算图；

模糊匹配模块，用于将所述计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在所述计算图中确定与各所述待匹配功能子图匹配的计算子图，及对应的模糊匹配度；

内核融合子图确定模块，用于根据所述模糊匹配度，确定各所述待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据所述目标功能子图确定与所述目标计算子图对应的内核融合子图；

硬件调度执行模块，用于根据所述内核融合子图对所述深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的深度学习模型的硬件调度执行方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的深度学习模型的硬件调度执行方法。

本发明实施例的技术方案，通过获取目标深度学习模型计算图；将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在计算图中确定与各待匹配功能子图匹配的计算子图，及对应的模糊匹配度；根据模糊匹配度，确定各待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据目标功能子图确定与目标计算子图对应的内核融合子图；根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行，解决了深度学习模型的模型分析以及硬件加速问题，通过将深度学习模型计算图与预设功能子图库中功能子图进行模糊匹配，可以实现深度学习模型的快速模型分析；从而根据匹配得到的功能子图对应的内核融合子图进行模型硬件加速，在芯片上对深度学习模型进行推理加速。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本邻域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种深度学习模型的硬件调度执行方法的流程图；

图2a是根据本发明实施例二提供的一种深度学习模型的硬件调度执行方法的流程图；

图2b是根据本发明实施例二提供的一种功能子图增加节点时的模糊匹配示意图；

图2c是根据本发明实施例二提供的一种功能子图缺少节点时的模糊匹配示意图；

图2d是根据本发明实施例二提供的一种功能子图节点替换时的模糊匹配示意图；

图3是根据本发明实施例三提供的一种深度学习模型的硬件调度执行装置的结构示意图；

图4是实现本发明实施例的深度学习模型的硬件调度执行方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本邻域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是根据本发明实施例一提供的一种深度学习模型的硬件调度执行方法的流程图，本实施例可适用于对深度学习模型进行模型分析，并根据模型分析结果进行硬件加速的情况，该方法可以由深度学习模型的硬件调度执行装置来执行，该深度学习模型的硬件调度执行装置可以采用硬件和/或软件的形式实现，该深度学习模型的硬件调度执行装置可配置于电子设备如计算机、笔记本中。如图1所示，该方法包括：

步骤110、获取目标深度学习模型计算图。

其中，计算图可以是将深度学习模型的计算过程进行图形化表示得到的图。计算图可以是一种有方向性、无环状结构、有输入输出节点的有向无环图(Directed AcyclicGraph，DAG)。

步骤120、将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在计算图中确定与各待匹配功能子图匹配的计算子图，及对应的模糊匹配度。

其中，功能子图(FunctionDAG)可以是计算图中实现某种功能的局部图。在本发明实施例的一个可选实施方式中，功能子图，包括：由至少一个算子构成的block单元子图，以及由至少一个block单元构成的layer单元子图。其中，block单元子图由少量算子(Operator，Op)构成。Op是深度学习模型中的基本计算单元。layer单元子图由block单元构成。例如，block单元子图可以包括：归一化层(Layer Norm)，卷积(Conv)+批量样本归一化(Batch Normalization，BN)+直线修正单元(relu)，激活函数(如Swish)等。layer单元子图可以包括：残差网络(Resnet)中的残差layer单元，注意力机制网络(Transformer)中的多头自注意力layer单元和前向计算layer单元等。

在本发明实施例中，可以将深度学习模型计算图与预设功能子图库中各待匹配功能子图进行模糊匹配。具体的，可以先将预设功能子图库中的block单元子图与计算图进行模糊匹配；再将block单元子图作为一个整体，将预设功能子图库中layer单元子图与计算图进行模糊匹配。

在具体匹配中，可以按照计算图以及功能子图的特性结合一定顺序，将计算图与各待匹配功能子图进行模糊匹配。示例性的，在本发明实施例的一个可选实施方式中，针对计算图以及各待匹配功能子图有向、无环、有输入输出节点等特点，可以以输入为根节点，按照广度优先(Breadth-First Search，BFS)顺序以及匹配情况，在计算图中确定与各待匹配功能子图分别匹配的计算子图。

在本实施例中，预设功能子图库可以是由一些典型功能子图构成的功能模块库。精确匹配可以是计算图中的计算子图与预设功能子图库中待匹配功能子图的所有节点和边的拓扑关系和节点标签都能匹配上。其中，计算子图可以是计算图的一部分。但是，在实际中，深度学习模型中的计算图可能是基于典型功能子图进行变形得到的。例如，缺少某Op、增加某Op、Op类型替换等。在构建预设功能子图库时，很难预先将各典型功能子图的所有变形都添加至库中。因此，在本发明实施例中可以对计算图与预设功能子图库中各待匹配功能子图进行模糊匹配。模糊匹配可以区别于精确匹配的强约束，可以理解为在对典型功能子图进行变形后得到计算子图时，通过模糊匹配在预设功能子图库中可以为计算子图匹配对应的功能子图。

在进行模糊匹配时，可以是将计算图与预设功能子图库中各待匹配功能子图进行节点匹配。具体的，可以确定计算图与待匹配功能子图，节点本身是否相同、节点的入度是否相同；在节点不同时，可以借助节点的高阶邻域信息，确定本节点的前后节点，以及各节点的入度是否相同。不同的匹配情况可以设置不同的匹配值，进而可以根据各节点的匹配情况以及匹配值，确定模糊匹配度。

模糊匹配度可以表征计算子图与待匹配功能子图的匹配程度。例如，模糊匹配度值越高可以表示计算子图与待匹配功能子图的匹配程度越好。

在本发明实施例的一个可选实施方式中，将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配，包括：以输入为根节点，按照广度优先顺序对计算图与各待匹配功能子图中的节点进行模糊匹配。

具体的，可以以输入为根节点，按照广度优先顺序，以及计算图中节点与待匹配功能子图的匹配完成情况，确定待匹配功能子图中的待匹配节点，以及计算图中与待匹配节点对应的目标节点。从而，判断待匹配节点与目标节点是否能匹配上。

步骤130、根据模糊匹配度，确定各待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据目标功能子图确定与目标计算子图对应的内核融合子图。

其中，可以预先对预设功能子图库中的各功能子图分析模块结构，并针对模块结构生成优化方案。根据模糊匹配度可以在预设功能子图库中为目标计算子图确定合适的目标功能子图。进而可以根据匹配结果，将预设功能子图库中合适的目标功能子图的优化方案作为目标计算子图的优化方案。

在本发明实施例中，优化方案可以理解为：深度学习模型可以被转成由一些算子组成的有向无环的计算图，然后再由下层框架对计算图进行优化和调度执行计算图中算子对应的内核函数，从而完成一个模块的执行。对于常见的深度学习模块可以通过内核融合提高该模块在芯片中的执行效率。内核融合即将多个内核函数合并成一个内核函数，这样做有两个好处：1)减少内核函数的调度和启动开销；2)减少对全局内存的访存，提高数据传输效率，提升计算性能。内核融合的步骤可以是：1)图优化；分析深度模型的计算图，进行与硬件无关的优化，例如，常数折叠等；2)检测可被融合的计算子图；在给定的计算图中，找出一段可以被融合的图节点组合；3)代码生成；给定一个可被融合的计算子图，为其生成一份内核函数代码；4)修改计算图；将融合后的内核函数所对应的算子替换之前的计算子图，并插入原来的计算图。

对于预设功能子图库中各功能子图均可以通过上述的内核融合步骤，生成对应的内核融合子图，并将内核融合子图对应存储。进而，在预设功能子图库中为目标深度学习模型计算图中目标计算子图确定匹配的目标功能子图时，可以将该匹配的目标功能子图对应的内核融合子图作为目标计算子图对应的内核融合子图。从而根据内核融合子图对目标计算子图进行优化，提高硬件执行性能。

在本发明实施例的一个可选实施方式中，根据目标功能子图确定与目标计算子图对应的内核融合子图，包括：将与目标功能子图对应的内核融合子图，作为与目标计算子图对应的内核融合子图。

例如，可以将预设功能子图库中与目标计算子图匹配时，模糊匹配度值最高所对应的功能子图，作为目标功能子图。目标功能子图对应的内核融合子图，可以作为与目标计算子图对应的内核融合子图。

步骤140、根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行。

在本发明实施例中，可以对深度学习模型的计算图进行结构分析，找到深度模型计算图中有算法意义的结构，即能匹配上预设功能子图库中功能子图的目标计算子图。对这些结构可以结合芯片硬件特性进行算子融合的高层图优化，即确定与目标计算子图对应的内核融合子图。芯片上有多层内存结构，如三层，分别为：三级缓存(high bandwidthmemory，HBM)、二级缓存(L2 Memory)、以及一级缓存(L1 Memory)。每一层内存的大小有一定的规格。可以结合芯片上特定内存结构和确定的内核融合子图，在芯片上进行深度学习模型的硬件调度执行。例如，可以为内核融合子图设计在芯片的多层内存结构的输入输出数据布局，实现对应的目标计算子图的硬件调度，从而实现深度学习模型在芯片上的硬件调度执行。在本发明实施例中，内核融合子图是可以在很多深度学习模型结构中复用的，可以保证了技术方案的高性能和高扩展性。

本实施例的技术方案，通过获取目标深度学习模型计算图；将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在计算图中确定与各待匹配功能子图匹配的计算子图，及对应的模糊匹配度；根据模糊匹配度，确定各待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据目标功能子图确定与目标计算子图对应的内核融合子图；根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行，解决了深度学习模型的模型分析以及硬件加速问题，通过将深度学习模型计算图与预设功能子图库中功能子图进行模糊匹配，可以实现深度学习模型的快速模型分析；从而根据匹配得到的功能子图对应的内核融合子图进行模型硬件加速，在芯片上对深度学习模型进行推理加速，能够支撑大量深度学习模型的泛化分析能力以及快速推理部署。

实施例二

图2a是根据本发明实施例二提供的一种深度学习模型的硬件调度执行方法的流程图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。

具体的，在本发明实施例的一个可选实施方式中，将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在计算图中确定与各待匹配功能子图匹配的计算子图，及对应的模糊匹配度，包括：

根据目标计算子图与待匹配功能子图的当前匹配结果，确定待匹配功能子图中的待匹配节点、与待匹配节点对应的第一高阶邻域信息、待匹配功能子图中待匹配节点的第一父节点、计算图中与第一父节点匹配的第二父节点、以及与第二父节点对应的第二高阶邻域信息；

根据待匹配节点、第一高阶邻域信息、第一父节点、第二父节点、以及第二高阶邻域信息，确定计算图与待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度；

如果待匹配功能子图中各节点均已进行模糊匹配，则将下一匹配结果作为与待匹配功能子图匹配的计算子图；否则，将下一匹配结果更新为当前匹配结果，并返回确定待匹配节点步骤，直至待匹配功能子图中各节点均进行模糊匹配。

如图2a所示，该方法包括：

步骤210、获取目标深度学习模型计算图。

步骤220、根据计算图与待匹配功能子图的当前匹配结果，确定待匹配功能子图中的待匹配节点、与待匹配节点对应的第一高阶邻域信息、待匹配功能子图中待匹配节点的第一父节点、计算图中与第一父节点匹配的第二父节点、以及与第二父节点对应的第二高阶邻域信息。

在本发明实施例的一个可选实施方式中，功能子图，包括：由至少一个算子构成的block单元子图，以及由至少一个block单元构成的layer单元子图。

在本发明实施例中，可以将预设功能子图库中各个功能子图依次确定为待匹配功能子图，与计算图中的部分图即计算子图进行模糊匹配，并确定是否能匹配上，以及匹配上时的模糊匹配度。待匹配节点可以是待匹配功能子图中当前需要进行匹配的节点。待匹配节点的确定方式可以是以输入为根节点，按照广度优先顺序以及当前匹配结果在待匹配功能子图中确定的节点。第一高阶邻域信息可以是待匹配功能子图中按照计算流向，在待匹配节点之后的多阶邻域节点以及与节点对应的信息。例如，第一高阶邻域信息可以包括：待匹配节点的一阶邻域节点、二阶邻域节点、节点的算子类型、以及节点的输入输出信息等。第一父节点可以是待匹配功能子图中按照计算流向，待匹配节点的前驱节点。第二父节点可以是计算图中已经与第一父节点匹配成功的节点。第二高阶邻域信息可以是计算图中按照计算流向，在第二父节点之后的多阶邻域节点以及与节点对应的信息。例如，第二高阶邻域信息可以包括：第二父节点的一阶邻域节点、二阶邻域节点、节点的算子类型、以及节点的输入输出信息等。

步骤230、根据待匹配节点、第一高阶邻域信息、第一父节点、第二父节点、以及第二高阶邻域信息，确定计算图与待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度。

在本发明实施例中可以根据功能子图的实际情况，确定待匹配节点是否能与计算图中目标节点直接匹配；或者，可以确定待匹配节点的第一高阶邻域信息是否可以与目标节点匹配；或者，可以确定待匹配节点是否可以与第二高阶邻域信息匹配等。不同的匹配情况，可以对应不同的模糊匹配度。通过本发明实施例提供的模糊匹配，可以解决计算图是通过典型功能子图变形时，无法与预设功能子图库中各待匹配功能子图进行精准匹配的问题。

具体的，在本发明实施例的一个可选实施方式中，根据待匹配节点、第一高阶邻域信息、第一父节点、第二父节点、以及第二高阶邻域信息，确定计算图与待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度，包括：如果第二父节点的一阶邻域或者二阶邻域中存在第一目标节点与待匹配节点匹配，则根据第一目标节点确定计算图与待匹配功能子图的下一匹配结果，并确定本次匹配值，根据本次匹配值确定对应的模糊匹配度；如果第二父节点的一阶邻域或者二阶邻域中不存在第一目标节点，且待匹配节点的出入度均为1，则删除待匹配节点，将待匹配节点的一阶邻域节点更新为待匹配节点，并检测在第二父节点的一阶邻域中是否存在第二目标节点与待匹配节点匹配，确定计算图与待匹配功能子图的下一匹配结果，以及对应的模糊匹配度；如果第二父节点的一阶邻域中不存在第二目标节点，则检测在第二父节点的二阶邻域中是否存在第三目标节点与待匹配节点匹配，并确定计算图与待匹配功能子图的下一匹配结果，以及对应的模糊匹配度。

示例性的，待匹配节点匹配为u_i，第一父节点为u_p，在计算图中与u_p匹配的第二父节点为v_p。模糊匹配时，节点匹配的条件为节点算子类型以及入度是一样的，且节点的前驱节点算子类型是一样的。特殊情况说明：当u_i不存在父节点时，在计算图中目标节点v_i只需算子类型与u_i一致即可，对前驱节点以及入度无要求。其中，模糊匹配可以分情况具体讨论。

情况1：u_i不存在父节点时，且计算图中找不到与u_i匹配的目标节点时，可以确定本次匹配值，并进行u_i之后节点的匹配。示例性的，本次匹配值为-1。

情况2：如果计算图中v_p的一阶邻域中存在第一目标节点与待匹配节点u_i匹配，则可以根据第一目标节点确定下一匹配结果，并确定本次匹配值。示例性的，本次匹配值为0。

情况3：如果情况2不满足，且计算图中v_p的二阶邻域中存在第一目标节点与待匹配节点u_i匹配，则可以根据第一目标节点确定下一匹配结果，并确定本次匹配值。示例性的，本次匹配值为-1。该情况可以是计算子图比待匹配功能子图多一个节点时的模糊匹配方式。示例性的，图2b是根据本发明实施例二提供的一种功能子图增加节点时的模糊匹配示意图。如图2b所示，在待匹配功能子图中，算子Sub之后是算子Pow，而在计算子图中算子Sub的一阶邻域是算子Cast，二阶邻域是算子Pow。通过本发明实施例提供的形如情况3的模糊匹配方式，可以将如图2b所示的待匹配功能子图与计算子图匹配成功，实现深度学习模型的模型快速分析。

在本发明实施例中，为了更好地根据模糊匹配结果，对深度学习模型进行精准优化，可以根据模糊匹配结果，构造局部临时子图，并根据局部临时子图以及内核融合子图对深度学习模型中的目标功能子图进行芯片多层内存结构的硬件调度执行。具体的，可以通过在待匹配功能子图的基础上通过临时插入、删除、或者替换节点等操作，构建局部临时子图。例如，图2b中的情况，可以在待匹配功能子图的算子Sub与算子Pow之间临时插入算子Cast，构造局部临时子图。

情况4：如果情况3也不满足，且待匹配节点u_i的出入度均为1，则删除u_i，将u_i的一阶邻域节点u_s作为待匹配节点；并将u_i的父节点u_p作为u_s的父节点；如果在计算子图中v_p的一阶邻域中存在第二目标节点与u_s匹配，则可以根据第二目标节点确定下一匹配结果，并确定本次匹配值。示例性的，本次匹配值为-1。该情况可以是计算子图比待匹配功能子图少一个节点时的模糊匹配方式。示例性的，图2c是根据本发明实施例二提供的一种功能子图缺少节点时的模糊匹配示意图。如图2c所示，在待匹配功能子图中，算子Sub之后是算子Cast，算子Cast之后是算子Pow；而在计算子图中算子Sub的一阶邻域是算子Pow。通过本发明实施例提供的形如情况4的模糊匹配方式，可以将如图2c所示的待匹配功能子图与计算子图匹配成功，实现深度学习模型的模型快速分析。图2c中的情况，可以在待匹配功能子图的算子Sub与算子Pow之间临时删除算子Cast，构造局部临时子图。

情况5：如果情况4也不满足，则如果在计算子图中v_p的二阶邻域中存在第三目标节点与u_s匹配，则可以根据第三目标节点确定下一匹配结果，并确定本次匹配值。示例性的，本次匹配值为-1。该情况可以是计算子图与待匹配功能子图上某节点不同时的模糊匹配方式。示例性的，图2d是根据本发明实施例二提供的一种功能子图节点替换时的模糊匹配示意图。如图2d所示，在待匹配功能子图中，算子Sub之后是算子Pow；而在计算子图中算子Sub的一阶邻域是算子Mul。通过本发明实施例提供的形如情况5的模糊匹配方式，可以将如图2d所示的待匹配功能子图与计算子图匹配成功，实现深度学习模型的模型快速分析。图2d中的情况，可以将待匹配功能子图的算子Pow临时替换为算子Mul，构造局部临时子图。

需要说明的是，在模糊匹配过程中，不单单可以匹配算子，还可以匹配算子之间的边(Edge)。边与算子的模糊匹配过程可以相似，这里不再赘述。

还需说明的是，在模糊匹配过程中，待匹配功能子图中的待匹配节点可能与计算子图中的多个节点匹配上。当出现此情况时，可以针对各个匹配上的节点生成下一匹配结果，并继续进行后续匹配。如果后续匹配成功，可以生成多个备选匹配结果。如果存在后续匹配不成功的情况，则可以丢弃当前匹配结果。

具体的，待匹配功能子图中的待匹配节点与计算子图中的多个节点匹配上时，可以采用如下方式进行模糊匹配：计算子图中的多个匹配节点按照BFS顺序进行排列。待匹配功能子图中的待匹配节点、计算子图中当前匹配节点、以及待匹配功能子图与计算子图已经匹配上的节点对，构成当前状态。待匹配功能子图中的待匹配节点、计算子图中其余匹配节点、以及待匹配功能子图与计算子图已经匹配上的节点对，构成其余匹配状态。待匹配功能子图中的待匹配节点匹配搜索结束后，如果在计算子图中未找到匹配节点，或是虽然找到匹配节点，但是当前搜索路径或者状态的模糊匹配度小于预设匹配阈值，则结束当前搜索路径，回溯回上一其余匹配状态进行搜索。待匹配功能子图中的待匹配节点匹配搜索结束后，并在计算子图上找到对应的匹配节点，则按照BFS的顺序选择待匹配功能子图中待匹配节点的下一个节点继续进行匹配搜索。

通过上述过程可以将匹配中的各种情况均考虑到，提高深度学习模型的模型结构分析的全面性以及可靠性。

步骤240、如果待匹配功能子图中各节点均已进行模糊匹配，则将下一匹配结果作为与待匹配功能子图匹配的计算子图；否则，将下一匹配结果更新为当前匹配结果，并返回确定待匹配节点步骤，直至待匹配功能子图中各节点均进行模糊匹配。

在本发明实施例的一个可选实施方式中，根据模糊匹配度，确定各待匹配功能子图中与目标计算子图匹配成功的目标功能子图，包括：如果各待匹配功能子图中存在至少两个与目标计算子图匹配的多个备选功能子图，则根据目标计算子图与匹配的各备选功能子图对应的模糊匹配度，确定唯一的目标功能子图。例如，可以将与目标计算子图匹配的多个备选功能子图中，最高模糊匹配值对应的备选功能子图，作为目标功能子图。

步骤250、将与目标功能子图对应的内核融合子图，作为与目标计算子图对应的内核融合子图。

步骤260、根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行。

本实施例的技术方案，通过获取目标深度学习模型计算图；根据计算图与待匹配功能子图的当前匹配结果，确定待匹配功能子图中的待匹配节点、与待匹配节点对应的第一高阶邻域信息、待匹配功能子图中待匹配节点的第一父节点、计算图中与第一父节点匹配的第二父节点、以及与第二父节点对应的第二高阶邻域信息；根据待匹配节点、第一高阶邻域信息、第一父节点、第二父节点、以及第二高阶邻域信息，确定计算图与待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度；如果待匹配功能子图中各节点均已进行模糊匹配，则将下一匹配结果作为与待匹配功能子图匹配的计算子图；否则，将下一匹配结果更新为当前匹配结果，并返回确定待匹配节点步骤，直至待匹配功能子图中各节点均进行模糊匹配；将与目标功能子图对应的内核融合子图，作为与目标计算子图对应的内核融合子图；根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行，解决了深度学习模型的模型分析以及硬件加速问题，通过将深度学习模型计算图与预设功能子图库中功能子图进行模糊匹配，可以实现深度学习模型的快速模型分析；从而根据匹配得到的功能子图对应的内核融合子图进行模型硬件加速，在芯片上对深度学习模型进行推理加速，能够支撑大量深度学习模型的泛化分析能力以及快速推理部署。

实施例三

图3是根据本发明实施例三提供的一种深度学习模型的硬件调度执行装置的结构示意图。如图3所示，该装置包括：计算图获取模块310，模糊匹配模块320，内核融合子图确定模块330，和硬件调度执行模块340。

其中：

计算图获取模块310，用于获取目标深度学习模型计算图；

模糊匹配模块320，用于将计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在计算图中确定与各待匹配功能子图匹配的计算子图，及对应的模糊匹配度；

内核融合子图确定模块330，用于根据模糊匹配度，确定各待匹配功能子图中与目标计算子图匹配成功的目标功能子图；并根据目标功能子图确定与目标计算子图对应的内核融合子图；

硬件调度执行模块340，用于根据内核融合子图对深度学习模型中的目标计算子图进行芯片多层内存结构的硬件调度执行。

可选的，模糊匹配模块320，包括：

信息确定单元，用于根据计算图与待匹配功能子图的当前匹配结果，确定待匹配功能子图中的待匹配节点、与待匹配节点对应的第一高阶邻域信息、待匹配功能子图中待匹配节点的第一父节点、计算图中与第一父节点匹配的第二父节点、以及与第二父节点对应的第二高阶邻域信息；

匹配结果确定单元，用于根据待匹配节点、第一高阶邻域信息、第一父节点、第二父节点、以及第二高阶邻域信息，确定计算图与待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度；

循环检测单元，用于如果待匹配功能子图中各节点均已进行模糊匹配，则将下一匹配结果作为与待匹配功能子图匹配的计算子图；否则，将下一匹配结果更新为当前匹配结果，并返回确定待匹配节点步骤，直至待匹配功能子图中各节点均进行模糊匹配。

可选的，匹配结果确定单元，具体用于：

如果第二父节点的一阶邻域或者二阶邻域中存在第一目标节点与待匹配节点匹配，则根据第一目标节点确定计算图与待匹配功能子图的下一匹配结果，并确定本次匹配值，根据本次匹配值确定对应的模糊匹配度；

如果第二父节点的一阶邻域或者二阶邻域中不存在第一目标节点，且待匹配节点的出入度均为1，则删除待匹配节点，将待匹配节点的一阶邻域节点更新为待匹配节点，并检测在第二父节点的一阶邻域中是否存在第二目标节点与待匹配节点匹配，确定计算图与待匹配功能子图的下一匹配结果，以及对应的模糊匹配度；

如果第二父节点的一阶邻域中不存在第二目标节点，则检测在第二父节点的二阶邻域中是否存在第三目标节点与待匹配节点匹配，并确定计算图与待匹配功能子图的下一匹配结果，以及对应的模糊匹配度。

可选的，内核融合子图确定模块330，包括：

目标功能子图确定模块，用于如果各待匹配功能子图中存在至少两个与目标计算子图匹配的多个备选功能子图，则根据目标计算子图与匹配的各备选功能子图对应的模糊匹配度，确定唯一的目标功能子图。

可选的，内核融合子图确定模块330，包括：

内核融合子图确定单元，用于将与目标功能子图对应的内核融合子图，作为与目标计算子图对应的内核融合子图。

可选的，模糊匹配模块320，包括：

模糊匹配单元，用于以输入为根节点，按照广度优先顺序对计算图与各待匹配功能子图中的节点进行模糊匹配。

可选的，功能子图，包括：由至少一个算子构成的block单元子图，以及由至少一个block单元构成的layer单元子图。

本发明实施例所提供的深度学习模型的硬件调度执行装置可执行本发明任意实施例所提供的深度学习模型的硬件调度执行方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如深度学习模型的硬件调度执行方法。

在一些实施例中，深度学习模型的硬件调度执行方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的深度学习模型的硬件调度执行方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的硬件调度执行方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域的技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种深度学习模型的硬件调度执行方法，其特征在于，包括：

获取目标深度学习模型计算图；

2.根据权利要求1所述的方法，其特征在于，将所述计算图与预设功能子图库中各待匹配功能子图进行模糊匹配；并在所述计算图中确定与各所述待匹配功能子图匹配的计算子图，及对应的模糊匹配度，包括：

根据所述计算图与所述待匹配功能子图的当前匹配结果，确定所述待匹配功能子图中的待匹配节点、与所述待匹配节点对应的第一高阶邻域信息、所述待匹配功能子图中所述待匹配节点的第一父节点、所述计算图中与所述第一父节点匹配的第二父节点、以及与所述第二父节点对应的第二高阶邻域信息；

根据所述待匹配节点、所述第一高阶邻域信息、所述第一父节点、所述第二父节点、以及所述第二高阶邻域信息，确定所述计算图与所述待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度；

如果所述待匹配功能子图中各节点均已进行模糊匹配，则将所述下一匹配结果作为与所述待匹配功能子图匹配的计算子图；否则，将所述下一匹配结果更新为当前匹配结果，并返回确定待匹配节点步骤，直至所述待匹配功能子图中各节点均进行模糊匹配。

3.根据权利要求2所述的方法，其特征在于，根据所述待匹配节点、所述第一高阶邻域信息、所述第一父节点、所述第二父节点、以及所述第二高阶邻域信息，确定所述计算图与所述待匹配功能子图的下一匹配结果，并确定对应的模糊匹配度，包括：

如果所述第二父节点的一阶邻域或者二阶邻域中存在第一目标节点与所述待匹配节点匹配，则根据所述第一目标节点确定所述计算图与所述待匹配功能子图的下一匹配结果，并确定本次匹配值，根据所述本次匹配值确定对应的模糊匹配度；

如果所述第二父节点的一阶邻域或者二阶邻域中不存在所述第一目标节点，且所述待匹配节点的出入度均为1，则删除所述待匹配节点，将所述待匹配节点的一阶邻域节点更新为待匹配节点，并检测在所述第二父节点的一阶邻域中是否存在第二目标节点与所述待匹配节点匹配，确定所述计算图与所述待匹配功能子图的下一匹配结果，以及对应的模糊匹配度；

如果所述第二父节点的一阶邻域中不存在所述第二目标节点，则检测在所述第二父节点的二阶邻域中是否存在第三目标节点与所述待匹配节点匹配，并确定所述计算图与所述待匹配功能子图的下一匹配结果，以及对应的模糊匹配度。

4.根据权利要求2所述的方法，其特征在于，根据所述模糊匹配度，确定各所述待匹配功能子图中与目标计算子图匹配成功的目标功能子图，包括：

如果各所述待匹配功能子图中存在至少两个与目标计算子图匹配的多个备选功能子图，则根据所述目标计算子图与匹配的各所述备选功能子图对应的模糊匹配度，确定唯一的目标功能子图。

5.根据权利要求4所述的方法，其特征在于，根据所述目标功能子图确定与所述目标计算子图对应的内核融合子图，包括：

将与所述目标功能子图对应的内核融合子图，作为与所述目标计算子图对应的内核融合子图。

6.根据权利要求1所述的方法，其特征在于，将所述计算图与预设功能子图库中各待匹配功能子图进行模糊匹配，包括：

以输入为根节点，按照广度优先顺序对所述计算图与各所述待匹配功能子图中的节点进行模糊匹配。

7.根据权利要求1所述的方法，其特征在于，所述功能子图，包括：由至少一个算子构成的block单元子图，以及由至少一个block单元构成的layer单元子图。

8.一种深度学习模型的硬件调度执行装置，其特征在于，包括：

计算图获取模块，用于获取目标深度学习模型计算图；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的深度学习模型的硬件调度执行方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的深度学习模型的硬件调度执行方法。