CN111427895B

CN111427895B - 一种基于两段式缓存的神经网络推理加速方法

Info

Publication number: CN111427895B
Application number: CN202010251314.4A
Authority: CN
Inventors: 伍卫国; 康益菲; 王今雨; 冯雅琦
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2022-10-25
Anticipated expiration: 2040-04-01
Also published as: CN111427895A

Abstract

本发明公开了一种基于两段式缓存的神经网络推理加速方法，统计各个输入张量在数据集中出现的次数，根据出现的次数采用降序对各个输入张量进行排序，最后输出排序完成的输入张量排序数据集，构造静态缓存的数据结构，确定静态缓存的存入和读取方法；确定动态缓存中存储的基础单元，确定动态缓存的缓存替换方法；在神经网络被部署之前构建完成静态缓存，在神经网络部署时动态缓存为空，在神经网络运行中根据缓存替换方法存入、换出输入输出对，完成基于两段式缓存的神经网络推理加速。本发明充分考虑了神经网络推理过程中输入数据的特征，针对性地设计了两段式缓存算法和数据结构，避免了不必要的计算，降低了推理耗时，减少了服务成本。

Description

一种基于两段式缓存的神经网络推理加速方法

技术领域

本发明属于神经网络推理计算技术领域，具体涉及一种基于两段式缓存的神经网络推理加速方法。

背景技术

近年来随着技术的发展，硬件的计算能力不断提升，而互联网业务的蓬勃发展，也使得数据量呈爆炸式增长趋势。计算能力的提高和数据量的增多促进了机器学习的发展，尤其是人工神经网络的快速发展。

神经网络需要训练才能学习到所需的模式，一般经过上万乃至数百万次在专家细致地控制下的训练步之后会达到近似最优。

训练完成的神经网络会被部署到生产环境中。生产环境中的神经网络运算过程通常被称为推理，这个过程只需要前向传播。推理过程中神经网络会接受一个输入张量，经过网络内部的运算，产生一个输出张量。

神经网络的性能非常优异，在图像识别，自然语言翻译等领域取得了目前最好的成绩。但是目前性能优异的网络其架构一般都非常庞大，含有几兆字节乃至几十兆字节的参数。神经网络的推理过程也是以浮点数运算为主，导致所需的运算量十分巨大。

针对计算量过大而导致的推理效率过低问题，通常的加速方式有：剪枝，去除神经网络中不重要的连接，从而减少计算量；量化，通过把神经网络中各项参数所占用的比特数减少，比如从64位比特表示的整数类型变换为8位比特表示的整数类型，从而减少计算量；蒸馏，训练一个较小的网络来模仿现有网络，然后使用较小的网络推理，从而减少计算量。

以上各种方式都是针对网络结构本身做出改变或者训练一个新的网络。但是随着神经网络的发展，神经网络模型趋向于黑盒化，掌握并修改其结构并非易事。而且以上的优化是从纯神经网络学科角度出发的，没有考虑到计算机体系结构的特点。

缓存在计算机体系结构中非常常见。计算机中存储器的造价与容量成正比，也与读写速度成正比。这就导致了受限于成本因素，存储器的容量和读写速度是成反比的。容量大的存储器读写速度慢，读写速度快的存储器容量小。计算机处理器的处理速度一般是非常快的，为了减少处理过程中的I/O等待，倾向于使用读写速度快的存储器，但是一般我们又有大数据量存储的需求。因此，计算机发展出了多级存储器的架构。每一级存储器比下一级存储器都容量小，但是读写速度快。处理器只与最上级存储器进行交互，当最上级存储器中不含有处理器所需内容时，再依次向下查找，把所需内容缓存入最上级存储器，以供处理器处理。当数据不再被需要时，数据被写回下层存储器。具体的数据存取方法被称为缓存替换方法。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于两段式缓存的神经网络推理加速方法，通过使用两段式缓存加速了神经网络的推理过程，减少了推理的耗时，降低了服务成本。

本发明采用以下技术方案：

一种基于两段式缓存的神经网络推理加速方法，其特征在于，包括以下步骤：

S1、统计各个输入张量在数据集中出现的次数，根据出现的次数采用降序对各个输入张量进行排序，最后输出排序完成的输入张量排序数据集S_sorted，构造静态缓存D_sta的数据结构，确定静态缓存D_sta的存入和读取方法；

S2、确定动态缓存D_dyn中存储的基础单元d_dyn，确定动态缓存D_dyn的缓存替换方法；

S3、在神经网络被部署之前构建完成静态缓存D_sta，在神经网络部署时动态缓存D_dyn为空，在神经网络运行中根据缓存替换方法存入、换出输入输出对，完成基于两段式缓存的神经网络推理加速。

具体的，步骤S1中，静态缓存D_sta的大小定义为L_sta，计算出静态缓存存储n个d_sta，从输入张量排序数据集S_sorted中选出前n个输入，通过模型计算得到对应的输出构成n个数据；然后使用CacheUnchangeable_set方法将n个数组存储到静态缓存中，构造完成静态缓存表。

进一步的，静态缓存D_sta由数组和单链表构成，数组长L_A；数组的每一个元素上存储一个以d_sta为元素的链表，d_sta的数据结构为：

d_sta{

d_in,

d_out,

pointer-＞next d_sta

}

其中，d_in是网络的输入张量，d_out是网络的输出张量，pointer是一个指针，指向另外一d_sta个；每个d_sta的大小为L_dsta静态缓存；D_sta是由数组和单链表构成的，数组长L_A；数组的每一个元素上存储一个以d_sta为元素的链表。

进一步的，静态缓存D_sta的存入方法具体为：

S1011、计算输入张量的哈希值Hash(new_d_sta.d_in)；

S1012、令哈希值Hash(new_d_sta.d_in)对L_A取余得到应存入的数组索引i；

S1013、检查数组索引i处是否已存在元素；

S1014、如果不存在，在数组索引i处存入new_d_sta；

S1015、如果存在，根据数组索引i处元素d_sta的pointer，向下遍历寻找链表的尾部，将链表尾部元素d_sta的Pointer指向new_d_sta，即d_sta.pointer→new_d_sta。

进一步的，静态缓存D_sta的读取方法具体为：

S1021、计算输入张量的哈希值Hash(x_in)；

S1022、令哈希值Hash(x_in)对L_A取余得到应存入的数组索引i；

S1023、检查数组索引i处是否已存在元素；

S1024、如果不存在，缓存表中不存在这个x_in值对应的元素

返回null，方法结束；

S1025、如果存在，转到步骤S1026；

S1026、检查索引i对应的链表的第一项

是否与x_in一致；

S1027、如果一致，返回d_sta.d_out，方法结束；

S1028、如果不一致，根据d_sta.pointer找到链表的下一项，继续重复判断，如果存在一致，转到步骤S1027；如果直至链表尾部也不存在一致，转到步骤S1029；

S1029、缓存中不存在这个x_in值对应的元素，返回null，方法结束。

具体的，步骤S2中，动态缓存D_dyn由数组和单链表构成的，数组长L_A；数组的每一个元素上存储一个以d_dyn为元素的链表，动态缓存中存储的基础单元d_dyn其结构为：

其中，d_in是网络的输入张量，d_out是网络的输出张量；index是d_dyn的序号；d_dyn.index在动态缓存全生命周期中随d_dyn产生而自增，即全局第一个d_dyn的index为1，全局第二个d_dyn的index为2，d_dyn.index在动态缓存全生命周期中全局唯一；usedTimes是此D_dyn被读取的次数；pointer是一个指针，指向另外一个d_dyn；每个d_dyn的大小为L_ddyn。

进一步的，动态缓存D_dyn的存入方法具体为：

S2011、检查缓存D_dyn是否已满；

S2012、如果步骤S2011已满，寻找TimeUsed最小的d_dyn，如果存在多个，则选择Index最小的d_dyn，将它移除，转到步骤S2014；

S2013、如果步骤S2011未满，转到步骤S2014；

S2014、计算输入张量的哈希值Hash(new_d_dyn.d_in)；

S2015、令哈希值Hash(new_d_dyn.d_in)对L_A取余得到应存入的数组索引i；

S2016、检查数组索引i处是否已存在元素；

S2017、如果不存在，在数组索引i处存入new_d_dyn；

S2018、如果存在，根据数组索引i处已有元素的pointer的向下遍历寻找链表的尾部，将链表末端元素d_dyn的Pointer指向new_d_dyn。

进一步的，动态缓存D_dyn的读取方法为：

S2021、计算输入张量的哈希值Hash(x_in)；

S2022、令Hash(x_in)对L_A取余得到应存入的数组索引i；

S2023、检查数组索引i处是否已存在元素；

S2024、如果不存在，说明缓存表中不存在这个x_in值对应的元素d_dyn，返回null，方法结束；

S2025、如果存在，转到步骤S2026；

S2026、检查数组索引i处链表第一项d_dyn.d_in是否与x_in一致；

S2027、如果一致，返回d_dyn.d_out，并令d_dyn.usedTimes＝d_dyn.usedTimes+1；

S2028、如果不一致，根据d_dynpointer找到链表的下一项，继续重复判断，如果存在一致的转到步骤S2027，如果直至链表尾部都不存在一致的，转到步骤S2029；

S2029、缓存中不存在这个x_in值对应的元素d_dyn，返回null，方法结束。

具体的，步骤S3具体为：

S301、检查静态缓存中是否存在输入张量x_in对应的输出张量

具体为：

S302、如果

不为null，则

为结果，方法结束；

S303、如果

为null，转到步骤S304；

S304、检查动态缓存中是否存在输入张量x_in对应的输出张量

具体为：

S305、如果

不为null，则

为结果，方法结束；

S306、如果

为Null，转到步骤S307；

S307、调用神经网络模型计算输入张量x_in，模型输出对应的d_output；

S308、构造新数据new_d_dyn，将目前全局最大的index存入动态缓存中CacheChangeable_set(new_d_dyn)中，方法结束。

进一步的，步骤S308中的新数据new_d_dyn为：

其中，lastindex是目前全局最大的index。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于两段式缓存的神经网络推理加速方法，通过使用两段式缓存，兼顾了输入数据总体特征和运行时输入数据特征，减少了不必要的推理次数，降低了推理耗时。

进一步的，静态缓存根据输入数据总体特征确定，可以从全生命周期角度有效地提供缓存，增加缓存命中率，避免不必要的计算。

进一步的，动态缓存充分地考虑运行时输入数据的特征，从数据局部性角度有效的提供缓存，增加缓存命中率，减少不必要的计算。

进一步的，通过哈希散列方法，有效地把缓存平均分配到数组中，对于哈希冲突情况使用链表来解决，提高了访存效率，降低了缓存的查找、读取时间。

综上所述，本发明充分考虑了神经网络推理过程中输入数据的特征，针对性地设计了两段式缓存算法和数据结构，避免了不必要的计算，降低了推理耗时，减少了服务成本。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为静态缓存存入流程图；

图2为静态缓存读取流程图；

图3为动态缓存存入流程图；

图4为动态缓存读取流程图；

图5为基于两段式缓存的神经网络推理加速流程图。

具体实施方式

神经网络在推理时接受一个输入，然后经过大量运算产生一个输出。这个过程相比于直接从高度存储器中读取是非常缓慢的。而在实际生产环境中，模型的输入张量存在局部性。针对这一特点，本发明提出一种基于两段式缓存的神经网络推理加速方法。

定义存储在高速存储器上的缓存D＝{d₁,d₂,...,d_n}，其包含n项数据，每一项数据d_i,i＝1,2,...,n由一个数据对组成d_i＝(d_in,d_out)，d_in为神经网络的输入数据，d_out是与之对应计算出的相应输出。

缓存的运行规则为：当外部系统提供一个输入x_in时，首先查询缓存中是否包含该输入d_in＝x_in，若有，则返回对应的d_out；若无，调用神经网络进行计算。

将D按内容分为两个部分D＝(D_sta,D_dyn)，其中D_sta为静态缓存部分，该部分预先分析神经网络模型的输入数据，选取其中的高频输入，将对应数据对进行保存，该部分内容不可变,其中存储的d_i被称为d_sta；D_dyn为动态缓存部分，该部分内容可变，是在神经网络模型运行的期间根据缓存替换方法决定的,其中存储的d_i被称为d_dyn。具体为：

S1、静态缓存的数据结构和构造方法

神经网络模型一般是领域特定(domain-specific)的，目前还不存在可以解决各个领域问题的通用神经网络模型。因此，神经网络的输入张量一般是有限种的，通过在神经网络模型待部署环境中进行一段时间的数据收集，构建出一个神经网络模型输入张量数据集S；然后对这个数据集作频次分析。

具体构造方法为：首先统计各个输入张量在数据集中出现的次数，然后根据出现次数降序对各个输入张量进行排序，最后输出排序完成的输入张量排序数据集S_sorted。

频次分析方法伪代码如下

输入：神经网络模型输入张量数据集S

输出：按数据出现频次降序排列的数据集S_sorted

静态缓存D_sta中存储的d_sta的数据结构为：

d_sta{

d_in,

d_out,

pointer-＞next d_sta

}

其中，d_in是网络的输入张量，d_out是网络的输出张量，pointer是一个指针，指向另外一d_sta个；每个d_sta的大小为L_dsta静态缓存D_sta是由数组和单链表构成的，数组长L_A；数组的每一个元素上存储一个以d_sta为元素的链表。

请参阅图1，静态缓存D_sta的存入方法CacheUnchangeable_set(new_d_sta)具体为：

S1011、计算输入张量的哈希值Hash(new_d_sta.d_in)；

S1013、检查数组索引i处是否已存在元素；

S1014、不存在的话在数组索引i处存入new_d_sta；

S1015、存在的话，根据数组索引i处元素d_sta的pointer的向下遍历寻找链表的尾部，将链表尾部元素d_sta的Pointer指向new_d_sta，即d_sta.pointer→new_d_sta。

其中，new_d_sta为待存入的数据；

请参阅图2，静态缓存D_sta的读取方法CacheUnchangeable_get(x_in)具体为：

S1021、计算输入张量的哈希值Hash(x_in)；

S1022、令Hash(x_in)对L_A取余得到应存入的数组索引i；

S1023、检查数组索引i处是否已存在元素；

S1024、不存在的话说明缓存表中不存在这个x_in值对应的元素

返回null，方法结束；

S1025、存在的话转到S1026；

S1026、检查索引i对应的链表的第一项

是否与x_in一致；

S1027、一致的话返回d_sta.d_out，方法结束；

S1028、不一致的话根据d_sta.pointer找到链表的下一项，继续重复判断，如果存在一致，转到步骤S1027；如果直至链表尾部也不存在一致，转到步骤

S1029；

S1029、说明缓存中不存在这个x_in值对应的元素，返回null，方法结束。

其中，x_in为欲读取数据的输入张量；

静态缓存D_sta的大小定义为L_sta，计算出静态缓存存储n个d_sta，具体为：

从输入张量排序数据集S_sorted中选出前n个输入，通过模型计算得到对应的输出，从而构成n个数据；然后使用CacheUnchangeable_set方法将这n个数组存储到静态缓存中。静态缓存表即构造完成。

S2、动态缓存的缓存替换方法

由于静态缓存大小有限，而神经网络的输入张量种类非常多，只能存储有限的部分。而且生产环境中前后事件的发生存在关联性，针对这一特点。本发明提出维护一个固定大小的动态缓存，将最近的，频繁的输入输出对缓存下来，用于加快网络推理速度。

动态缓存中存储的基础单元d_dyn其结构为：

其中，d_in是网络的输入张量，d_out是网络的输出张量；index是d_dyn的序号；d_dyn.index在动态缓存全生命周期中随d_dyn产生而自增，即全局第一个d_dyn的index为1，全局第二个d_dyn的index为2，依次类推；因此d_dyn.index在动态缓存全生命周期中全局唯一；usedTimes是此D_dyn被读取的次数；pointer是一个指针，指向另外一个d_dyn；每个d_dyn的大小为L_ddyn。

动态缓存D_dyn是由数组和单链表构成的，数组长L_A；数组的每一个元素上存储一个以d_dyn为元素的链表。

请参阅图3，动态缓存D_dyn的存入方法CacheChangeable_set(new_d_dyn)具体为：

S2011、检查缓存D_dyn是否已满；

S2012、如果已满，寻找TimeUsed最小的d_dyn，如果存在多个，则选择Index最小的d_dyn，将它移除，转到S2014；

S2013、如果未满，转到S2014；

S2014、计算输入张量的哈希值Hash(new_d_dyn.d_in)；

S2016、检查数组索引i处是否已存在元素；

S2017、不存在的话在数组索引i处存入new_d_dyn；

S2018、存在的话，根据数组索引i处已有元素的pointer的向下遍历寻找链表的尾部，将链表末端元素d_dyn的Pointer指向new_d_dyn。

其中，new_d_dyn为待存入的数据。

请参阅图4，动态缓存D_dyn的读取方法CacheChangeable_get(x_in)为：

S2021、计算输入张量的哈希值Hash(x_in)；

S2022、令Hash(x_in)对L_A取余得到应存入的数组索引i；

S2023、检查数组索引i处是否已存在元素；

S2024、不存在的话说明缓存表中不存在这个x_in值对应的元素d_dyn，返回null，方法结束；

S2025、存在的话转到S2026；

S2026、检查数组索引i处链表第一项d_dyn.d_in是否与x_in一致；

S2027、一致的话返回d_dyn.d_out，并令d_dyn.usedTimes＝d_dyn.usedTimes+1；

S2028、不一致的话根据d_dynpointer找到链表的下一项，继续重复判断，如果存在一致的转到S2027。如果直至链表尾部都不存在一致的，转到S2029；

S3、基于两段式缓存的神经网络推理加速方法

静态缓存在神经网络被部署之前构建完成，动态缓存在神经网络部署时为空，在神经网络运行中根据缓存替换方法存入、换出输入输出对。

请参阅图5，基于两段式缓存的神经网络推理加速方法为：

S301、检查静态缓存中是否存在输入张量x_in对应的输出张量

S302、如果

不为null，则

为结果，方法结束；

S303、如果

为null，转到步骤S304；

S304、检查动态缓存中是否存在输入张量x_in对应的输出张量

S305、如果

不为null，则

为结果，方法结束；

S306、如果

为Null，转到步骤S307；

其中，lastindex是目前全局最大的index，并将其存入动态缓存中CacheChangeable_set(new_d_dyn)，方法结束。

在基于算数编码的FPGA配置文件压缩中，可以把缓存部署在BRAM上，按本发明提出的方法，在调用神经网络计算之前先查找缓存，可以有效地减少压缩和解压缩时间。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实验结果

以德国埃尔朗根-纽伦堡大学计算机科学系的标准测试集中Xilinx Virtex-V板数据集中5个bit文件：v5_des.bit,v5_rc5.bit,v5_fft.bit,v5_fir.bit,v5_net.bit,v5_soc.bit作为训练集，以v5_xbar.bit作为测试集训练一个神经网络，神经网络目的是预测文件中某一位的出现概率。网络输入张量为一个32维的向量，输出张量为一个2维的向量。网络按顺序由2个128个单元的LSTM层，1个含有100个单元的Dense层，一个含有2个单元的Dense层构成。网络使用Adam优化器进行优化，损失函数是交叉熵。构造一个含有1024个数据的静态缓存，和一个含有1024个数据的动态缓存，神经网络在没有缓存的情况下计算了8374584次，加入缓存后计算了4223966次，降低了49.56％。

综上所述，本发明一种基于两段式缓存的神经网络推理加速方法，充分考虑了实际生产环境中模型输入张量存在局部性，通过构建缓存，并且将缓存器分为静态、动态两个部分，避免了神经网络模型推理过程中重复的、不必要的计算，缩短了响应时延，降低了运行成本。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于两段式缓存的神经网络推理加速方法，其特征在于，包括以下步骤：

静态缓存D_sta由数组和单链表构成，数组长L_A；数组的每一个元素上存储一个以d_sta为元素的链表，d_sta的数据结构为：

d_sta{

d_in,

d_out,

pointer-＞nextd_sta

}

其中，d_in是网络的输入张量，d_out是网络的输出张量，pointer是一个指针，指向另外一d_sta个；每个d_sta的大小为L_dsta静态缓存；D_sta是由数组和单链表构成的，数组长L_A；数组的每一个元素上存储一个以d_sta为元素的链表；

静态缓存D_sta的存入方法具体为：

S1011、计算输入张量的哈希值Hash(new_d_sta.d_in)；

S1013、检查数组索引i处是否已存在元素；

S1014、如果不存在，在数组索引i处存入new_d_sta；

S1015、如果存在，根据数组索引i处元素d_sta的pointer，向下遍历寻找链表的尾部，将链表尾部元素d_sta的Pointer指向new_d_sta，即d_sta.pointer→new_d_sta；

静态缓存D_sta的读取方法具体为：

S1021、计算输入张量的哈希值Hash(x_in)；

S1022、令哈希值Hash(x_in)对L_A取余得到应存入的数组索引i；

S1023、检查数组索引i处是否已存在元素；

S1024、如果不存在，缓存表中不存在这个x_in值对应的元素

返回null，方法结束；

S1025、如果存在，转到步骤S1026；

S1026、检查索引i对应的链表的第一项

是否与x_in一致；

S1027、如果一致，返回d_sta.d_out，方法结束；

S1029、缓存中不存在这个x_in值对应的元素，返回null，方法结束；

S2、确定动态缓存D_dyn中存储的基础单元d_dyn，确定动态缓存D_dyn的缓存替换方法，动态缓存D_dyn由数组和单链表构成的，数组长L_A；数组的每一个元素上存储一个以d_dyn为元素的链表，动态缓存中存储的基础单元d_dyn其结构为：

其中，d_in是网络的输入张量，d_out是网络的输出张量；index是d_dyn的序号；d_dyn.index在动态缓存全生命周期中随d_dyn产生而自增，即全局第一个d_dyn的index为1，全局第二个d_dyn的index为2，d_dyn.index在动态缓存全生命周期中全局唯一；usedTimes是此D_dyn被读取的次数；pointer是一个指针，指向另外一个d_dyn；每个d_dyn的大小为L_ddyn；

动态缓存D_dyn的存入方法具体为：

S2011、检查缓存D_dyn是否已满；

S2013、如果步骤S2011未满，转到步骤S2014；

S2014、计算输入张量的哈希值Hash(new_d_dyn.d_in)；

S2016、检查数组索引i处是否已存在元素；

S2017、如果不存在，在数组索引i处存入new_d_dyn；

S2018、如果存在，根据数组索引i处已有元素的pointer的向下遍历寻找链表的尾部，将链表末端元素d_dyn的Pointer指向new_d_dyn；

动态缓存D_dyn的读取方法为：

S2021、计算输入张量的哈希值Hash(x_in)；

S2022、令Hash(x_in)对L_A取余得到应存入的数组索引i；

S2023、检查数组索引i处是否已存在元素；

S2025、如果存在，转到步骤S2026；

S2026、检查数组索引i处链表第一项d_dyn.d_in是否与x_in一致；

S2029、缓存中不存在这个x_in值对应的元素d_dyn，返回null，方法结束；

2.根据权利要求1所述的基于两段式缓存的神经网络推理加速方法，其特征在于，步骤S1中，静态缓存D_sta的大小定义为L_sta，计算出静态缓存存储n个d_sta，从输入张量排序数据集S_sorted中选出前n个输入，通过模型计算得到对应的输出构成n个数据；然后使用CacheUnchangeable_set方法将n个数组存储到静态缓存中，构造完成静态缓存表。

3.根据权利要求1所述的基于两段式缓存的神经网络推理加速方法，其特征在于，步骤S3具体为：

S301、检查静态缓存中是否存在输入张量x_in对应的输出张量