CN109993287B - 神经网络处理方法、计算机系统及存储介质 - Google Patents

神经网络处理方法、计算机系统及存储介质 Download PDF

Info

Publication number
CN109993287B
CN109993287B CN201711483733.5A CN201711483733A CN109993287B CN 109993287 B CN109993287 B CN 109993287B CN 201711483733 A CN201711483733 A CN 201711483733A CN 109993287 B CN109993287 B CN 109993287B
Authority
CN
China
Prior art keywords
network
node
original network
computing node
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711483733.5A
Other languages
English (en)
Other versions
CN109993287A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cambricon Technologies Corp Ltd
Original Assignee
Beijing Zhongke Cambrian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Cambrian Technology Co Ltd filed Critical Beijing Zhongke Cambrian Technology Co Ltd
Priority to CN201711483733.5A priority Critical patent/CN109993287B/zh
Priority to EP18894609.9A priority patent/EP3629251A4/en
Priority to US16/612,361 priority patent/US20230196069A1/en
Priority to PCT/CN2018/121399 priority patent/WO2019128752A1/zh
Priority to KR1020197037880A priority patent/KR20200100528A/ko
Priority to JP2019570862A priority patent/JP7299846B2/ja
Publication of CN109993287A publication Critical patent/CN109993287A/zh
Application granted granted Critical
Publication of CN109993287B publication Critical patent/CN109993287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种神经网络的处理方法,上述方法包括如下步骤:获取原始网络的模型数据集和模型结构参数;获取原始网络中各个计算节点的操作属性;根据原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行原始网络,获得原始网络中各个计算节点对应的指令;若当前计算节点的操作属性为第一操作属性时,则将当前计算节点对应的网络权值及指令存储至第一非易失性存储器中,以获得原始网络对应的第一离线模型本发明还提供了一种计算机系统及存储介质。本发明的神经网络处理方法、计算机系统及存储介质,缩短处理器运行同一网络的运行时间,提高处理器的处理速度及效率。

Description

神经网络处理方法、计算机系统及存储介质
技术领域
本发明涉及深度学习技术领域,特别是涉及一种神经网络处理方法、计算机系统及存储介质。
背景技术
随着人工智能技术的发展,如今深度学习已无处不在且必不可少,并随之产生了许多可扩展的深度学习系统,例如,TensorFlow、MXNet、Caffe和PyTorch等等,上述深度学习系统可以用于提供各种能够在CPU或GPU等处理器上运行的神经网络模型。一般地,处理器在运行神经网络模型时,如运行Caffe网络模型时,每次均需要对该神经网络模型中的各个计算节点分别进行编译、解析,之后,按照该神经网络模型的结构形式按照一定的形式执行各个计算节点。其中,神经网络模型以及网络结构可以是已训练好或未训练好的人工神经网络模型数据。上述对神经网络的处理方法会影响处理器的处理速度,处理效率较低。
发明内容
鉴于上述的网络模型处理方法导致的处理效率低的问题,本发明的目的在于提供一种神经网络处理方法、计算机系统及存储介质,提高装置对神经网络的处理速度及处理效率。
为实现上述目的,本发明采用如下技术方案:
一种神经网络的处理方法,所述方法包括如下步骤:
获取原始网络的模型数据集和模型结构参数,其中,所述模型数据集包括所述原始网络中各个计算节点对应的网络权值,所述模型结构参数包括所述原始网络中多个计算节点的连接关系;
获取所述原始网络中各个计算节点的操作属性,所述计算节点的操作属性包括用于表示所述计算节点能够在专用神经网络处理器上执行的第一操作属性和用于表示所述计算节点能够在通用处理器上执行的第二操作属性;
根据所述原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行所述原始网络,获得所述原始网络中各个计算节点对应的指令;
若当前计算节点的操作属性为第一操作属性时,则将所述当前计算节点对应的网络权值及指令存储至第一非易失性存储器中,以获得所述原始网络对应的第一离线模型。
同时,本发明还提供了一种神经网络处理方法,所述方法包括如下步骤:
获取原始网络的模型数据集和模型结构参数,其中,所述模型数据集包括所述原始网络中各个计算节点对应的网络权值,所述模型结构参数包括所述原始网络中多个计算节点的连接关系;
根据所述原始网络中多个计算节点的连接关系,将两个以上顺序执行的第二计算节点之间的所有第一计算节点等效为一个第一离线节点,获得所述原始网络对应的等效网络;其中,所述第一计算节点为具有第一操作属性的计算节点,所述第二计算节点为具有第二操作属性的计算节点;
若所述等效网络结构中的当前计算节点为第一离线节点时,则从第一非易失性存储介质中获得第一离线模型,并根据所述第一离线模型执行所述第一离线节点,其中,所述第一离线模型中包含所述原始网络中所有的第一计算节点对应的网络权值及指令。
同时,本发明还提供了一种计算机系统,包括:
第一处理器及与所述第一处理器对应设置的第一存储器及第二存储器;
一个或多个第二处理器及与所述第二处理器对应设置的一个或多个第三存储器,各个所述第二处理器均连接至所述第一处理器;
所述第一存储器或所述第二存储器中存储有计算机程序,所述第一处理器在执行所述计算机程序时,执行上述任一项所述的方法。
此外,本发明还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机程序,当所述计算机程序被一个或多个第一处理器执行时,执行如上述任一项所述的方法。
本发明的有益效果是:
本发明的神经网络处理方法、计算机系统及存储介质,通过将原始网络运行过程中具有第一操作属性的计算节点对应的指令及网络权值进行存储,获得原始网络对应的第一离线模型,这样当再次运行该原始网络时,可以从该原始网络对应的第一离线模型中获得具有第一操作属性的计算节点对应的指令及网络权值,无需重新对该原始网络中具有第一操作属性的计算节点对应的模型数据集及模型结构参数等相关数据进行编译,从而缩短处理器运行同一网络的运行时间,进而提高处理器的处理速度及效率。
附图说明
图1为一实施例的计算机系统的系统框图;
图2为另一实施例的计算机系统的系统框图;
图3为一实施例的神经网络的处理方法的流程图;
图4为一实施例的神经网络的处理方法的流程图;
图5为一实施例的神经网络的处理方法的流程图;
图6为一实施例的神经网络的处理方法的流程图;
图7为一实施例的神经网络的网络结构图;
图8为图7中神经网络的离线模型生成过程示意图;
图9为又一实施例的计算机系统的系统框图;
图10为一实施例的神经网络的处理方法的流程图;
图11为一实施例的神经网络的处理方法的流程图;
图12为一实施例的神经网络的处理方法的流程图;
图13为一实施例的神经网络的处理方法的流程图;
图14为一实施例的神经网络的网络结构图及等效网络结构图;
图15为图14中神经网络的第一离线模型的生成过程示意图;
图16为图14中神经网络的第一离线模型、第二离线模型的生成过程示意图。
具体实施方式
为了使本发明的技术方案更加清楚,以下结合附图,对本发明的神经网络处理方法、计算机系统及存储介质作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明并不用于限定本发明。
图1为一实施例的计算机系统的框图,该计算机系统可以包括处理器110、与该处理器110连接的第一存储器120及第二存储器130。其中,该处理器110用于提供计算和控制能力,其可以包括获取模块111、运算模块113及控制模块112等等,其中,该获取模块111可以是IO(Input输入/Output输出)接口等硬件模块,运算模块113及控制模块112均为硬件模块。例如,运算模块113及控制模块112可以为数字电路或模拟电路等等。上述硬件电路的物理实现包括但不限于物理器件,物理器件包括但不限于晶体管及忆阻器等等。
可选地,处理器可以是通用处理器,如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)或DSP(Digital Signal Processing,数字信号处理),该处理器还可以为IPU(Intelligence Processing Unit,智能处理器)等专用神经网络处理器。当然,该处理器还可以是指令集处理器、相关芯片组、专用微处理器(如,专用集成电路(ASIC))或用于缓存用途的板载存储器等等。
该第一存储器或第二存储器还可以存储有计算机程序,该计算机程序用于实现本申请实施例中提供的神经网络处理方法。具体地,该神经网络处理方法用于生成与该处理器接收的原始网络相对应的离线模型,该原始网络对应的离线模型中可以包含该原始网络中各个计算节点的网络权值以及指令等必要的网络结构信息,其中,指令可以用于表明该计算节点用于执行何种计算功能,其具体可以包括该原始网络中各个计算节点的计算属性以及各个计算节点之间的连接关系等信息,从而在处理器再次运行该原始网络时,可以直接运行该原始网络对应的离线模型,无需再次对同一原始网络进行编译等操作,从而缩短处理器运行该网络时的运行时间,进而提高处理器的处理速度及效率。
进一步地,第一存储器120可以是内存储器,如缓存等易失性存储器,其可以用于存储神经网络运行过程中的相关数据,如网络输入数据、网络输出数据、网络权值及指令等等。第二存储器130可以是外部存储器等非易失性存储器,第二存储器可以用于存储神经网络对应的离线模型。因而,当计算机系统需要再次对同一原始网络进行编译以运行该原始网络时,可以直接从第二存储器中获取该原始网络对应的离线模型,从而提高处理器的处理速度及效率。
当然,在其他实施例中,该计算机系统还可以包含处理器和一个存储器,如图2所示,该计算机系统可以包含处理器210与该处理器210连接的存储器220。该处理器210可以包含获取模块211、控制模块212和运算模块213,其具体结构可参见上文中关于处理器110的描述。该存储器220可以包括第一存储单元221、第二存储单元222和第三存储单元223,其中,该第一存储单元221可以用于存储计算机程序,该计算机程序用于实现本申请实施例中提供的神经网络处理方法。该第二存储单元222可以用于存储原始网络运行过程中相关数据,该第三存储单元223用于存储原始网络对应的离线模型。进一步地,该存储器包含的存储单元的数量还可以大于三个,此处不做具体限定。
应当清楚的是,本实施例中的运行原始网络是指,处理器使用人工神经网络模型数据运行某种机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。本实施例中,直接运行该原始网络对应的离线模型是指,使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
如图3所示,本发明一实施例的神经网络的处理方法,用于根据获取的原始网络的相关数据生成并存储该原始网络的离线模型,从而在处理器再次运行该原始网络时,可以直接运行该原始网络对应的离线模型,无需再次对同一原始网络进行编译等操作,从而缩短处理器运行该网络时的运行时间,进而提高处理器的处理速度及效率。具体地,上述方法包括如下步骤:
S100、获取原始网络的模型数据集及模型结构参数,具体地,可以通过处理器的获取模块获取原始网络的模型数据集及模型结构参数,通过该原始网络的模型数据集及模型结构参数可以获得该原始网络的网络结构图。其中,模型数据集包括原始网络中各个计算节点对应的网络权值等数据,图7所示的神经网络中的W1~W6即用于表示计算节点的网络权值。模型结构参数包括原始网络中多个计算节点的连接关系及各个计算节点的计算属性,其中,计算节点之间的连接关系用于表示计算节点之间是否有数据传递,例如,当多个计算节点之间具有数据流的传递时,则可以说明多个计算节点之间具有连接关系。进一步地,计算节点的连接关系可以包括输入关系和输出关系等等。如图7所示,计算节点F1输出作为计算节点F4和F5的输入,则可以说明计算节点F1和计算节点F4之间具有连接关系,计算节点F1和计算节点F5之间具有连接关系。再如,计算节点F1和计算节点F2之间没有数据传递,则可以说明计算节点F1和计算节点F2之间不存在连接关系。
各个计算节点的计算属性可以包括相应计算节点的计算类型及计算参数,其中计算节点的计算类型是指该计算节点用于完成何种计算,如计算节点的计算类型可以包括加法运算、减法运算及卷积运算等等,相应的,该计算节点可以是用于实现加法运算的计算节点、用于实现减法运算的计算节点或用于实现卷积运算的计算节点等等。计算节点的计算参数可以是完成该计算节点对应的计算类型所需的必要参数。例如,计算节点的计算类型可以是用于实现加法运算的计算节点,相应的,该计算节点的计算参数可以为加法运算中的加数,该加法运算中的被加数可以作为输入数据通过获取模块获取,或者,该加法运算中的被加数可以是该计算节点的上一计算节点的输出数据等等。
可选地,该原始网络可以为基于TensorFlow、MXNet、Caffe和PyTorch等深度学习系统,针对CPU、GPU或DSP等通用处理器建立的人工神经网络。该原始网络还可以是针对IPU等智能处理器建立的人工神经网络。例如,当该原始网络为基于Caffe建立的神经网络时,则可以获取该Caffe网络的模型数据集(caffemodel)及模型结构参数(prototxt)。其中,模型数据集(caffemodel)中包含该Caffe网络的网络权值等数据,模型结构参数(prototxt)中包含该Caffe网络的各个计算节点的计算属性以及多个计算节点之间的连接关系等。
S200、根据原始网络的模型数据集和模型结构参数运行原始网络,获得原始网络中各个计算节点对应的指令。具体地,处理器的运算模块可以根据原始网络的模型数据集和模型结构参数运行该原始网络,并获得原始网络中各个计算节点对应的指令。进一步地,处理器的获取模块还可以获取该原始网络的输入数据,处理器的运算模块可以根据原始网络的输入数据、网络模型数据集和模型结构参数运行原始网络,获得该原始网络中各个计算节点对应的指令。更进一步地,上述运行该原始网络获得各个计算节点的指令的过程实质上是编译的过程,该编译过程可以通过计算机系统的处理器或虚拟设备实现。即计算机系统的处理器或虚拟设备根据原始网络的模型数据集和模型结构参数运行原始网络。其中,虚拟设备指的是在存储器的内存空间中虚拟出一段处理器运行空间。
应当清楚的是,本实施例中的运行原始网络是指,处理器使用人工神经网络模型数据运行某种机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
S300、根据原始网络的各个计算节点对应的网络权值及指令,生成原始网络对应的离线模型,并将所述原始网络对应的离线模型存储至非易失性存储器(数据库)中。具体地,该处理器的控制模块可以根据原始网络的各个计算节点对应的网络权值和指令,生成该原始网络对应的离线模型,例如,该处理器的控制模块可以将原始网络的各个计算节点对应的网络权值和指令存储至非易失性的第二存储器中,以实现离线模型的生成及存储。其中,针对原始网络的每个计算节点,该计算节点的网络权值及指令一一对应进行存储。这样,当再次运行该原始网络时,可以直接从非易失性存储器中获取该原始网络对应的离线模型,并根据与其对应的离线模型运行原始网络,无需在线对该原始网络的各个计算节点进行编译获得指令,提高了系统的运行速度及效率。
应当清楚的是,本实施例中,直接运行该原始网络对应的离线模型是指,使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
可选地,如图4所示,上述步骤S200可以包括:
S210、根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序。具体地,处理器的运算模块可以根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序,进一步地,处理器的运算模块可以根据原始网络中各个计算节点的连接关系,获得原始网络中各个计算节点的执行顺序。例如,如图7所示,计算节点F4的输入数据为计算节点F1的输出数据以及计算节点F2的输出数据,计算节点F6的输入数据为计算节点F4的输出数据以及计算节点F5的输出数据。因此,图7所示的神经网络中各个计算节点的执行顺序可以为F1-F2-F3-F4-F5-F6或F1-F3-F2-F5-F4-F6等等。当然,计算节点F1、F2和F3可以并行执行,计算节点F4和F5也可以并行执行,此处仅举例说明,并不具体限定其执行顺序。
S220、按照原始网络中各个计算节点的执行顺序运行原始网络,分别获得原始网络中各个计算节点对应的指令。具体地,处理器的运算模块可以根据原始网络中各个计算节点的执行顺序运行该原始网络,以获得原始网络中各个计算节点对应的指令,即处理器可以将原始网络的模型数据集等数据进行编译获得各个计算节点对应的指令,通过各个计算节点对应的指令可以获知该计算节点用于实现何种计算功能,即可以获得该计算节点的计算类型及计算参数等计算属性。
进一步地,如图4所示,上述步骤S300还包括:
S310、根据原始网络的模型数据集和模型结构参数,获得原始网络的内存分配方式。具体地,处理器的运算模块可以根据原始网络的模型数据集和模型结构参数,获得原始网络的内存分配方式。进一步地,处理器可以根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序,并根据原始网络中各个计算节点的执行顺序确定当前网络的内存分配方式。例如,按各个计算节点的执行顺序将各个计算节点在运行过程中的相关数据保存至一个栈内。其中,内存分配方式是指确定原始网络中各个计算节点相关的数据(包括输入数据、输出数据、网络权值数据及中间结果数据等等)在内存空间(如第一存储器)上的存储位置。例如,可以采用数据表存储各个计算节点相关的数据(输入数据、输出数据、网络权值数据及中间结果数据等等)和内存空间的映射关系。
S320、根据原始网络的内存分配方式,将原始网络运行过程中的相关数据存储至第一存储器中,其中,原始网络运行过程中的相关数据包括原始网络的各个计算节点对应的网络权值、指令、输入数据、中间计算结果及输出数据等等。例如,如图7所示,X1和X2表示该神经网络的输入数据,Y表示该神经网络的输出数据,处理器可以将该神经网络的输出数据转换为控制机器人或不同数字接口的控制命令。W1~W6用于表示计算节点F1、F2和F3对应的网络权值,计算节点F1~F5的输出数据可以作为中间计算结果。处理器可以根据已确定的内存分配方式,将原始网络运行过程中的相关数据存储至第一存储器,如内存储器或缓存等易失性存储器,其具体的存储方式可参见图8中左半部分存储空间。
S330、从第一存储器中获取原始网络的各个计算节点对应的网络权值及指令,并将原始网络的各个计算节点对应的网络权值及指令存储于第二存储器中,生成离线模型。其中,第二存储器可以为外部存储器等非易失性存储器。该离线模型的生成过程具体可参见图8所示,图8中右半部分的存储空间内存储的即为原始网络的对应的离线模型。
如图7和图8所示,下面结合附图说明上述的离线模型生成过程:
首先,处理器可以获得该原始网络的模型数据集、模型结构参数以及输入数据,从而根据该原始网络的模型数据集和模型结构参数可以获得该原始网络的网络结构图,如图7所示。
其次,处理器可以根据原始网络的模型结构参数,获得原始网络各个计算节点的连接关系,并根据各个计算节点的连接关系获得原始网络中各个计算节点的执行顺序,以及原始网络在运行过程中的内存分配方式,从而可以获得原始网络在运行过程中相关数据的存储位置。如图8中左半部分存储空间所示,原始网络在运行过程中的相关数据可以按照各个计算节点执行顺序存储在一个栈中。
最后,处理器可以将原始网络的各个计算节点对应的网络权值及指令存储于非易失性的第二存储器中,生成离线模型,该离线模型的存储方式可参见图8中右半部分存储空间所示。并且,该离线模型仅仅包含运行该原始网络所必需的网络权值及指令等数据,而不需对原始网络运行过程中的输入数据、输出数据或中间计算结果等进行存储,从而可以减小第二存储器中的存储空间的消耗。
作为进一步地改进,离线模型中还包括节点接口数据,节点接口数据用于表示原始网络的各个计算节点的连接关系。具体地,节点接口数据可以包括各个计算节点的输入数据来源和输出数据来源。例如,如图7所示,节点接口数据可以包括计算节点F1、F2和F3为起始计算节点,其输入分别为预设的输入数据,计算节点F1的输出数据作为计算节点F4和计算节点F5的输入数据等等。这样,在再次运行该原始网络时,只需获得原始网络的起始计算节点和输入数据,之后,便可以根据该原始网络对应的离线模型执行该原始网络。
在一个实施例中,生成离线模型后可以立刻使用离线模型执行运算,也可以保存离线模型,等待需要计算的时候再使用离线模型。如图5所示,上述方法还包括如下步骤:
S400、获取新的原始网络的模型数据集和模型结构参数;具体地,通过处理器的获取模块获取新的原始网络的模型数据集和模型结构参数,通过该新的原始网络的模型数据集和模型结构参数可以获得该新的原始网络的网络结构图。
S500、判断新的原始网络是否存在对应的离线模型;具体地,可以通过判断新的原始网络的模型数据集与原始网络的模型数据集是否相同,新的原始网络的模型结构参数是否与原始网络的模型结构参数是否相同,若两者均相同,则可以认为该新的原始网络与原始网络为同一网络,此时可以判定该新的原始网络存在对应的离线模型。
若新的原始网络不存在离线模型,则根据新的原始网络的模型数据集和模型结构参数运行新的原始网络,生成新的原始网络对应的离线模型,并将新的原始网络对应的离线模型存储至非易失性存储器中。具体地,当新的原始网络的模型数据集与原始网络的模型数据集不同,和/或新的原始网络的模型结构参数与原始网络的模型结构参数不同,则可以认为该原始网络与新的原始网络属于不同的网络,该新的原始网络不存在离线模型。当该新的原始网络不存在离线模型时,则可以执行上述步骤S100~步骤S300,其具体执行过程可参见上文中的描述,此处不再赘述。
进一步地,还可以通过多个遍历包含有多个离线模型的数据集或遍历多个包含多个离线模型记录的数据集,以判断该新的原始网络是否存在与其相应的离线模型。
若新的原始网络存在离线模型时,则可以从非易失性存储器中获取新的原始网络对应的离线模型,并根据新的原始网络对应的离线模型运行新的原始网络。具体地,若新的原始网络存在离线模型,则可以执行如下步骤:
S510、获取新的原始网络对应的离线模型;具体地,处理器的获取模块可以从第二存储器读取该新的原始网络对应的离线模型,即处理器的获取模块可以从第二存储器中读取该新的原始网络中各个计算节点对应的网络权值及指令。
S520、根据新的原始网络的模型结构参数,获得新的原始网络中各个计算节点的执行顺序;具体地,处理器的运算模块可以根据新的原始网络中各个计算节点的连接关系,获得该新的原始网络中各个计算节点的执行顺序。其具体执行过程可参照上述步骤S210。
S530、根据新的原始网络中各个计算节点的执行顺序,依次从离线模型中获得新的原始网络的各个计算节点对应的网络权值及指令。具体地,处理器的获取模块可以根据新的原始网络中各个计算节点的执行顺序,依次从离线模型中获得新的原始网络的各个计算节点对应的网络权值及指令。
S540、根据新的原始网络的各个计算节点对应的网络权值及指令,运行新的原始网络。具体地,处理器的运算模块可以根据新的原始网络的各个计算节点对应的网络权值及指令,直接运行该新的原始网络,无需重复对各个计算节点进行编译。
例如,图7所示的神经网络中各个计算节点的执行顺序可以为F1-F2-F3-F4-F5-F6,则当该神经网络存在离线模型时,可以首先从离线模型中获得计算节点F1对应的网络权值及指令,然后依次获得计算指令F2~F6的网络权值及指令,从而可以根据依次运行该新的原始网络的各个计算节点,无需对该新的原始网络中各个节点进行重新编译,提高了处理器的运行速度及效率。
在一个实施例中,离线模型中还包括节点接口数据,该节点接口数据用于表示原始网络的各个计算节点的连接关系,例如,该节点接口数据可以包括各个计算节点的输入数据来源和输出数据来源。此时,根据原始网络对应的离线模型运行新的原始网络的步骤,包括:
获取新的原始网络对应的离线模型;具体地,处理器的获取模块可以从第二存储器读取该新的原始网络对应的离线模型,离线模型包含节点接口数据。
根据新的原始网络的模型结构参数获得新的原始网络的起始计算节点;具体地,处理器的运算模块可以根据新的原始网络的模型结构参数获得新的原始网络的起始计算节点。其中,该起始计算节点的输入数据为网络输入数据,如计算节点F1、F2和F3,起始计算节点之前不存在其他计算节点。
根据新的原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得新的原始网络的各个计算节点对应的网络权值及指令。具体地,处理器的获取模块可以根据新的原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得新的原始网络的各个计算节点对应的网络权值及指令。
根据新的原始网络的各个计算节点对应的网络权值及指令,运行新的原始网络。具体地,处理器的运算模块可以根据新的原始网络的各个计算节点对应的网络权值及指令,运行新的原始网络。
例如,图7所示的神经网络中的起始计算节点为计算节点F1、F2和F3,则当该神经网络存在离线模型时,可以首先从离线模型中获得各个起始计算节点F1、F2和F3的指令和网络权值,然后根据离线模型中的节点接口数据获得与该起始计算节点F1、F2和F3连接的计算节点F4和F5,从而可以获得计算节点F4和F5的指令和网络权值。之后,可以根据离线模型中的节点接口数据获得计算节点F4和F5连接的计算节点F6,获得计算节点F6的指令和网络权值。这样可以根据依次运行该新的原始网络的各个计算节点,无需对该新的原始网络中各个节点进行重新编译,提高了处理器的运行速度及效率。进一步地,当离线模型中包括节点接口数据,该接口数据中不仅包含原始网络中各个计算节点之间的连接关系,还包括该原始网络的起始计算节点等信息。此时,根据原始网络对应的离线模型运行新的原始网络的步骤,包括:
获取新的原始网络对应的离线模型;具体地,处理器的获取模块可以从第二存储器读取该新的原始网络对应的离线模型,离线模型包含节点接口数据,通过该节点接口数据可以获得该新的原始网络的起始计算节点,以及其他各个计算节点之间的连接关系等信息。
根据新的原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得新的原始网络的各个计算节点对应的网络权值及指令。具体地,处理器的获取模块可以根据新的原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得新的原始网络的各个计算节点对应的网络权值及指令。
根据新的原始网络的各个计算节点对应的网络权值及指令,运行新的原始网络。具体地,处理器的运算模块可以根据新的原始网络的各个计算节点对应的网络权值及指令,运行新的原始网络。
在一个实施例中,如图6所示,本发明一实施例还提供了一种神经网络的处理方法,上述方法包括如下步骤:
S610、获取原始网络的模型结构参数,其中,模型结构参数包括原始网络中多个计算节点的连接关系。具体地,计算节点之间的连接关系用于表示计算节点之间是否有数据传递,例如,当多个计算节点之间具有数据流的传递时,则可以说明多个计算节点之间具有连接关系。进一步地,计算节点的连接关系可以包括输入关系和输出关系等等。
S620、从非易失性存储器中获取原始网络对应的离线模型,其中,原始网络对应的离线模型中包含原始网络的各个计算节点对应的网络权值及指令,针对原始网络的每个计算节点,该计算节点的网络权值及指令一一对应进行存储。处理器通过各个计算节点对应的指令可以获知该计算节点用于实现何种计算功能,即可以获得该计算节点的计算类型及计算参数等计算属性。
S630、根据原始网络对应的离线模型以及原始网络的模型结构参数运行原始网络。具体地,本实施例中,直接运行该原始网络对应的离线模型是指,使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
在一个实施例中,上述步骤S630具体可以通过图5中的步骤S510~步骤S540实现。具体地,上述步骤S630可以包括如下步骤:
根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序;具体地,处理器的运算模块可以根据原始网络中各个计算节点的连接关系,获得该原始网络中各个计算节点的执行顺序。其具体执行过程可参照上述步骤S210。
根据原始网络中各个计算节点的执行顺序,依次从离线模型中获得该原始网络的各个计算节点对应的网络权值及指令。具体地,处理器的获取模块可以根据原始网络中各个计算节点的执行顺序,依次从离线模型中获得该原始网络的各个计算节点对应的网络权值及指令。
根据原始网络的各个计算节点对应的网络权值及指令,运行原始网络。具体地,处理器的运算模块可以根据原始网络的各个计算节点对应的网络权值及指令,直接运行该原始网络,无需重复对各个计算节点进行编译。
在一个实施例中,离线模型中还包括节点接口数据,该节点接口数据用于表示原始网络的各个计算节点的连接关系,例如,该节点接口数据可以包括各个计算节点的输入数据来源和输出数据来源。此时,根据原始网络对应的离线模型以及原始网络的模型结构参数运行原始网络的步骤,包括:
根据原始网络的模型结构参数获得原始网络的起始计算节点;具体地,处理器的运算模块可以根据原始网络的模型结构参数获得该原始网络的起始计算节点。其中,该起始计算节点的输入数据为网络输入数据,如计算节点F1、F2和F3,起始计算节点之前不存在其他计算节点。
根据该原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得该原始网络的各个计算节点对应的网络权值及指令。具体地,处理器的获取模块可以根据该原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得该原始网络的各个计算节点对应的网络权值及指令。
根据该原始网络的各个计算节点对应的网络权值及指令,运行该原始网络。
进一步地,当离线模型中包括节点接口数据时,此时,根据原始网络对应的离线模型以及原始网络的模型结构参数运行原始网络的步骤,可以包括:
根据该原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得该原始网络的各个计算节点对应的网络权值及指令。具体地,处理器的获取模块可以根据该原始网络的起始计算节点和离线模型中的节点接口数据,依次从离线模型中获得该原始网络的各个计算节点对应的网络权值及指令。
根据该原始网络的各个计算节点对应的网络权值及指令,运行该原始网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
同时,本发明一实施例还提供了一种计算机系统,包括处理器、第一存储器及第二存储器,第一存储器或所述第二存储器中存储有计算机程序,处理器在执行计算机程序时,执行如上述任一实施例的方法。具体地,当处理器执行上述计算机程序时,具体执行如下步骤:
获取原始网络的模型数据集及模型结构参数,具体地,可以通过处理器的获取模块获取原始网络的模型数据集及模型结构参数,通过该原始网络的模型数据集及模型结构参数可以获得该原始网络的网络结构图。其中,模型数据集包括原始网络中各个计算节点对应的网络权值等数据,模型结构参数包括原始网络中多个计算节点的连接关系及各个计算节点的计算属性,其中,计算节点之间的连接关系用于表示计算节点之间是否有数据传递,各个计算节点的计算属性可以包括相应计算节点的计算类型及计算参数,其中计算节点的计算类型是指该计算节点用于完成何种计算,如计算节点的计算类型可以包括加法运算、减法运算及卷积运算等等,相应的,该计算节点可以是用于实现加法运算的计算节点、用于实现减法运算的计算节点或用于实现卷积运算的计算节点等等。计算节点的计算参数可以是完成该计算节点对应的计算类型所需的必要参数。
根据原始网络的模型数据集和模型结构参数运行原始网络,获得原始网络中各个计算节点对应的指令。具体地,处理器的运算模块可以根据原始网络的模型数据集和模型结构参数运行该原始网络,并获得原始网络中各个计算节点对应的指令。进一步地,处理器的获取模块还可以获取该原始网络的输入数据,处理器的运算模块可以根据原始网络的输入数据、网络模型数据集和模型结构参数运行原始网络,获得该原始网络中各个计算节点对应的指令。更进一步地,上述运行该原始网络获得各个计算节点的指令的过程实质上是编译的过程,该编译过程可以通过虚拟设备或计算机系统的处理器实现。即虚拟设备或计算机系统的处理器根据原始网络的模型数据集和模型结构参数运行原始网络。其中,虚拟设备指的是在存储器的内存空间中虚拟出一段处理器运行空间。
根据原始网络的各个计算节点对应的网络权值及指令,生成原始网络对应的离线模型,并将原始网络对应的离线模型存储至非易失性存储器中。具体地,该处理器的控制模块可以根据原始网络的各个计算节点对应的网络权值和指令,生成该原始网络对应的离线模型,例如,该处理器的控制模块可以将原始网络的各个计算节点对应的网络权值和指令存储至第二存储器等非易失性存储器中,以实现离线模型的生成及存储。这样,当再次运行该原始网络时,可以直接根据与其对应的离线模型运行原始网络,无需在线对该原始网络的各个计算节点进行编译获得指令,提高了系统的运行速度及效率。
进一步地,上述计算机系统可以是图1或图2所示的计算机系统,该计算机系统的处理器可以为中央处理器、图像处理器、数字信号处理器、现场可编辑门阵列或专用神经网络处理器中一种或多种的组合。应当清楚的是,本实施例中的计算机系统的工作原理与上述方法中各个步骤的执行过程基本一致,具体可参见上文中的描述,此处不再赘述。
此外,本发明一实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机程序,当计算机程序被一个或多个处理器执行时,执行上述任一实施例的方法。其中,该计算机存储介质可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述实施例的神经网络处理方法、计算机系统及存储介质,通过将原始网络运行过程中生成的各个计算节点对应的指令,以及原始网络的各个计算节点对应的网络权值进行存储,获得原始网络对应的离线模型,这样当再次运行该原始网络时,可以直接运行该原始网络对应的离线模型,无需重新对该原始网络的模型数据集及模型结构参数等相关数据进行编译,从而缩短处理器运行同一网络的运行时间,进而提高处理器的处理速度及效率。
在申请的其他实施例中,计算机系统可以是由多个处理器形成的多联机系统,其中,处理器可以包括主处理器及一个或多个协处理器,每个处理器可以对应设置有一个存储器。具体地,如图9所示,该计算机系统300可以包括第一处理器310、与该第一处理器310连接的第一存储器320及第二存储器330,与该第一处理器310连接的一个或多个第二处理器340,以及与各个第二处理器340对应设置的第三存储器350。其中,其中,该第一处理器310用于提供计算和控制能力,其可以包括第一获取模块311、第一运算模块313及第一控制模块312等等,其中,该第一获取模块311可以是IO(Input输入/Output输出)接口等硬件模块,第一运算模块313及第一控制模块312均为硬件模块。例如,第一运算模块313及第一控制模块312可以为数字电路或模拟电路等等。上述硬件电路的物理实现包括但不限于物理器件,物理器件包括但不限于晶体管及忆阻器等等。
可选地,第一处理器310可以作为主处理器,该第一处理器310可以为通用处理器,如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或DSP(DigitalSignal Processing,数字信号处理)等等。一个或多个第二处理器可以作为协处理器,该第二处理器340可以为IPU(Intelligence Processing Unit,智能处理器)等专用神经网络处理器,该第二处理器340也可以是通用处理器。进一步地,该第二处理器340可以包括第二获取模块、第二运算模块及第二控制模块等等,其中,该第二获取模块可以是IO(Input输入/Output输出)接口等硬件模块,第二运算模块及第二控制模块均为硬件模块,例如,第二运算模块及第二控制模块可以为数字电路或模拟电路等等。上述硬件电路的物理实现包括但不限于物理器件,物理器件包括但不限于晶体管及忆阻器等等。第二获取模块、第二运算模块及第二控制模块之间的连接关系与第一处理器中各个模块的连接关系类似,可参见第一处理器中各个模块的连接关系。
该第一存储器320或第二存储器330还可以存储有计算机程序,该计算机程序用于实现本申请实施例中提供的神经网络处理方法。具体地,该神经网络处理方法用于生成与该第一处理器接收的原始网络相对应的离线模型,该离线模型可以包括第一离线模型,第一离线模型中包含原始网络中具有第一操作属性的所有计算节点对应的网络权值及指令,从而在处理器再次运行该原始网络时,可以直接从该第一离线模型获得所有具有第一操作属性的所有计算节点对应的网络权值及指令,无需再次对同一原始网络中的具有第一操作属性的计算节点进行编译等操作,从而缩短处理器运行该网络时的运行时间,进而提高处理器的处理速度及效率。进一步地,该原始网络对应的离线模型还可以包括第二离线模型,第二离线模型中包含原始网络中具有第二操作属性的所有计算节点对应的网络权值及指令。
进一步地,第一存储器320可以是内存储器,如缓存等易失性存储器,其可以用于存储神经网络运行过程中的相关数据,如网络输入数据、网络输出数据、网络权值及指令等等。第二存储器330和第三存储器350可以是外部存储器等非易失性存储器。因而,当计算机系统需要再次对同一原始网络进行编译以运行该原始网络时,可以直接第一离线模型和第二离线模型中获得该原始网络中各个计算节点对应的网络权值及指令,从而提高处理器的处理速度及效率。
在一个实施例中,本发明一实施例的神经网络的处理方法,用于图9所示的计算机系统中,用于生成与该第一处理器接收的原始网络相对应的离线模型,以提高该计算机系统的处理效率及速度。具体地,如图10所示,上述方法包括如下步骤:
S700、获取原始网络的模型数据集和模型结构参数,其中,模型数据集包括原始网络中各个计算节点对应的网络权值,模型结构参数包括原始网络中多个计算节点的连接关系。具体地,可以通过第一处理器的第一获取模块获取原始网络的模型数据集及模型结构参数,通过该原始网络的模型数据集及模型结构参数可以获得该原始网络的网络结构图。其中,模型数据集包括原始网络中各个计算节点对应的网络权值等数据,图14所示的神经网络中的W1~W6即用于表示计算节点的网络权值。模型结构参数包括原始网络中多个计算节点的连接关系及各个计算节点的计算属性,其中,计算节点之间的连接关系用于表示计算节点之间是否有数据传递,例如,当多个计算节点之间具有数据流的传递时,则可以说明多个计算节点之间具有连接关系。进一步地,计算节点的连接关系可以包括输入关系和输出关系等等。如图14所示,计算节点C1输出作为计算节点I1和I2的输入,则可以说明计算节点C1和计算节点I1之间具有连接关系,计算节点C1和计算节点I2之间具有连接关系。再如,计算节点C1和计算节点C2之间没有数据传递,则可以说明计算节点C1和计算节点C2之间不存在连接关系。
各个计算节点的计算属性可以包括相应计算节点的计算类型及计算参数,其中计算节点的计算类型是指该计算节点用于完成何种计算,如计算节点的计算类型可以包括加法运算、减法运算及卷积运算等等,相应的,该计算节点可以是用于实现加法运算的计算节点、用于实现减法运算的计算节点或用于实现卷积运算的计算节点等等。计算节点的计算参数可以是完成该计算节点对应的计算类型所需的必要参数。例如,计算节点的计算类型可以是用于实现加法运算的计算节点,相应的,该计算节点的计算参数可以为加法运算中的加数,该加法运算中的被加数可以作为输入数据通过获取模块获取,或者,该加法运算中的被加数可以是该计算节点的上一计算节点的输出数据等等。
S710、获取原始网络中各个计算节点的操作属性,计算节点的操作属性包括第一操作属性和第二操作属性。具体地,第一处理器的第一获取模块或第一运算模块可以获得该原始网络中各个计算节点的操作属性。其中,计算节点的操作属性用于标识该计算节点对应的计算指令能够在哪个处理器上执行。本实施例中,第一操作属性可以用于表示该计算节点对应的计算指令能够在IPU等专用神经网络处理器上执行,第二操作属性用于表示该计算节点对应的计算指令能够在CPU、GPU、DSP等通用处理器上执行。
进一步地,可以通过枚举方法来表示和保存各个计算节点的操作属性。例如,可以定义一个枚举变量device,该枚举变量可以包括两个以上的枚举值。若当前计算节点的操作属性为第一操作属性,则该枚举变量的枚举值可以为1;若当前计算节点的操作属性为第二操作属性,则该枚举变量的枚举值可以为0。
S720、根据原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行原始网络,获得原始网络中各个计算节点对应的指令。具体地,第一处理器的第一运算模块可以根据原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行该原始网络,以获得原始网络中各个计算节点对应的指令。进一步地,第一处理器的第一获取模块还可以获取该原始网络的输入数据,第一处理器的第一运算模块可以根据原始网络的输入数据、网络模型数据集、模型结构参数及各个计算节点的操作属性运行原始网络,获得该原始网络中各个计算节点对应的指令。更进一步地,上述运行该原始网络获得各个计算节点的指令的过程实质上是编译的过程,该编译过程可以通过计算机系统的处理器或虚拟设备实现。即计算机系统的处理器或虚拟设备根据原始网络的模型数据集和模型结构参数运行原始网络。其中,虚拟设备指的是在存储器的内存空间中虚拟出一段处理器运行空间。
应当清楚的是,本实施例中的运行原始网络是指,处理器使用人工神经网络模型数据运行某种机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
S730、若当前计算节点的操作属性为第一操作属性时,则将当前计算节点对应的网络权值及指令存储至第一非易失性存储器中,以获得原始网络对应的第一离线模型。具体地,若当前计算节点的操作属性为第一操作属性时,则该第一处理器的第一控制模块可以将当前计算节点对应的网络权值及指令存储至第一非易失性存储器中,以获得原始网络对应的第一离线模型。其中,该第一非易失性存储器可以为IPU等专用神经网络处理器对应的第三存储器。进一步地,针对原始网络的每个计算节点,该计算节点的网络权值及指令一一对应进行存储。这样,当再次运行该原始网络时,可以直接从第一非易失性存储器中获取该原始网络对应的第一离线模型,并根据与该第一离线模型运行原始网络中所有具有第一操作属性的计算节点,无需在线对该原始网络中具有第一操作属性的计算节点进行编译获得指令,提高了系统的运行速度及效率。
应当清楚的是,本实施例中,直接运行该原始网络对应的第一离线模型是指,使用第一离线模型运行该原始网络对应的机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
可选地,各个计算节点的操作属性可以预先存储于该原始网络的网络结构参数或模型数据集中,此时,在读取该原始网络的过程中,即可直接获得该原始网络中各个计算节点的操作属性。即上述步骤S710具体可以包括如下步骤:
从原始网络的模型数据集或模型结构参数中,获得原始网络中各个计算节点的操作属性。具体地,各个计算节点的操作属性可以预先存储于该原始网络的网络结构参数或模型数据集中。第一处理器的第一获取模块在获得原始网络的模型数据集或模型结构参数的过程中,即可获得该原始网络中各个计算节点的操作属性。
可选地,该原始网络中各个计算节点的操作属性可以在第一处理器的第一获取模块获得原始网络的过程中实时获得。上述步骤S710具体包括如下步骤:
分别判断各个计算节点是否能够在专用神经网络处理器上执行,具体地,第一处理器的第一运算模块可以分别判断各个计算节点是否能够在专用神经网络处理器上执行。
若当前计算节点能够在专用神经网络处理器上执行,则将当前计算节点标记为第一操作属性;若当前计算节点只能在通用处理器上执行,则将当前计算节点标记为第二操作属性。从而,在第一处理器读取原始网络的过程中,可以实时判断原始网络中各个计算节点的操作属性。例如,若当前计算节点的操作属性为第一操作属性,则将当前计算节点对应的枚举变量标记为1,否则,则将当前计算节点对应的枚举变量标记为0。
进一步地,第一处理器的第一运算模块可以通过预设函数表查询当前计算节点是否存在具有第一操作属性的等效计算节点,若当前计算节点具有第一操作属性的等效计算节点,则可以将当前计算节点的操作属性标记为第一操作属性。若通过预设函数表未查找到与当前计算节点匹配的具有第一操作属性的等效计算节点时,则认为该当前计算节点的操作属性为第二操作属性。如图12所示,上述步骤S710还包括如下步骤:
S711、通过预设函数表查询当前计算节点是否存在等效计算节点,其中,等效计算节点为能够在专用神经网络处理器上执行的计算节点。
若当前计算节点存在等效计算节点,则执行步骤S712,判定当前计算节点能够在专用神经网络处理器上执行。此时,可以执行步骤S713,将当前计算节点的操作属性标记为第一操作属性。具体地,若当前计算节点对应的计算指令能够转化为专用神经网络处理器对应的计算指令,则认为当前计算节点存在具有第一操作属性的等效计算节点,可以将该计算节点的操作属性标记为第一操作属性。
若当前计算节点不存在等效计算节点,则可以执行步骤S714,判定当前计算节点只能在CPU等通用处理器上执行。此时,可以执行步骤S715,将当前计算节点的操作属性标记为第二操作属性。具体地,若当前计算节点对应的计算指令不能转化为专用神经网络处理器对应的计算指令,则认为当前计算节点不存在具有第一操作属性的等效计算节点,可以将当前计算节点的操作属性标记为第二操作属性。
在一个实施例中,如图11所示,上述步骤S720进一步包括:
S721、根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序;具体地,第一处理器的第一运算模块可以根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序,进一步地,第一处理器的第一运算模块可以根据原始网络中各个计算节点的连接关系,获得原始网络中各个计算节点的执行顺序。例如,如图14所示,计算节点I1的输入数据为计算节点C1的输出数据以及计算节点C2的输出数据,计算节点I3的输入数据为计算节点I1的输出数据以及计算节点I2的输出数据。因此,图14所示的神经网络中各个计算节点的执行顺序可以为C1-C2-C3-I1-I2-I3-C4-C5-I4等等。当然,计算节点C1、C2和C3可以并行执行,计算节点I1和I2也可以并行执行,此处仅举例说明,并不具体限定其执行顺序。
S722、根据各个计算节点的操作属性,分别获得各个计算节点对应的目标处理器;具体地,第一处理器的第一运算模块可以根据原始网络中各个计算节点的操作属性,获得各个计算节点对应的目标处理器。例如,计算节点C1~C5的操作属性为第二操作属性(如CPU操作属性)时,则计算节点C1~C5对应的目标处理器为CPU,其可以为第一处理器,也可以是作为协处理器的第二处理器。计算节点I1~I4的操作属性为第一操作属性时,则计算节点I1~I4对应的操作目标处理器为IPU等神经网络专用处理器。
S723、按照原始网络中各个计算节点的执行顺序,分别通过各个计算节点对应的目标处理器执行各个计算节点,获得原始网络中各个计算节点对应的指令。具体地,第一处理器的第一控制模块可以按照原始网络中各个计算节点的执行顺序,若当前计算节点对应的目标处理器为IPU等神经网络专用处理器时,则可以控制作为协处理器的神经网络专用处理器执行当前计算节点,以获得当前计算节点对应的指令。若当前计算节点对应的目标处理器为CPU时,则可以控制CPU执行当前计算节点,以获得当前计算节点对应的指令。若当前计算节点对应目标处理器为GPU时,则可以控制GPU执行当前计算节点,或控制CPU等通用处理器执行当前计算节点。
进一步地,如图11所示,上述步骤S730还包括如下步骤:
S731、根据原始网络的模型数据集和模型结构参数,获得原始网络的内存分配方式;具体地,第一处理器的第一运算模块可以根据原始网络的模型数据集和模型结构参数,获得原始网络的内存分配方式。进一步地,第一处理器可以根据原始网络的模型结构参数,获得原始网络中各个计算节点的执行顺序,并根据原始网络中各个计算节点的执行顺序确定当前网络的内存分配方式。例如,按各个计算节点的执行顺序将各个计算节点在运行过程中的相关数据保存至一个栈内。其中,内存分配方式是指确定原始网络中各个计算节点相关的数据(包括输入数据、输出数据、网络权值数据及中间结果数据等等)在内存空间(如第一存储器)上的存储位置。例如,可以采用数据表存储各个计算节点相关的数据(输入数据、输出数据、网络权值数据及中间结果数据等等)和内存空间的映射关系。
S732、根据原始网络的内存分配方式,将原始网络运行过程中的相关数据存储至第一存储器中,其中,原始网络运行过程中的相关数据包括原始网络的各个计算节点对应的网络权值、指令、输入数据及输出数据。例如,如图14所示,X1和X2表示该神经网络的输入数据,W1~W6用于表示计算节点C1、C2和C3对应的网络权值,计算节点I1~I3的输出数据以及计算节点C4和C5的输出数据可以作为中间计算结果。第一处理器可以根据已确定的内存分配方式,将原始网络运行过程中的相关数据存储至第一存储器,如内存储器或缓存等易失性存储器,其具体的存储方式可参见图15中左边的存储空间。
S733、从第一存储器中获取原始网络中各个具有第一操作属性的计算节点对应的网络权值及指令,并将原始网络中各个具有第一操作属性的计算节点对应的网络权值及指令存储于第一非易失性存储器中,生成第一离线模型。其中,第一非易失性存储器可以是专用神经网络处理器对应的第三存储器。该第一离线模型的生成过程具体可参见图15所示,图15中右边的存储空间内存储的即为原始网络的对应的第一离线模型。
如图14和图15所示,下面结合附图说明上述的离线模型生成过程:
首先,第一处理器可以获得该原始网络的模型数据集、模型结构参数以及输入数据。并且,该第一处理器还可以获得原始网络中各个计算节点的操作属性。
其次,第一处理器可以根据原始网络的模型结构参数,获得原始网络各个计算节点的连接关系,并根据各个计算节点的连接关系获得原始网络中各个计算节点的执行顺序,以及原始网络在运行过程中的内存分配方式,从而可以获得原始网络在运行过程中相关数据的存储位置。如图15中左边的存储空间所示,原始网络在运行过程中的相关数据可以按照各个计算节点执行顺序存储在一个栈中。
最后,第一处理器可以将原始网络中具有第一操作属性的计算节点对应的网络权值及指令存储于第一非易失性存储器中,生成第一离线模型,该第一离线模型的存储方式可参见图15中右边的存储空间所示。并且,该第一离线模型仅仅包含运行该原始网络中具有第一操作属性的计算节点所必需的网络权值及指令等数据,而不需对原始网络运行过程中的输入数据、输出数据或中间计算结果等进行存储,从而可以减小了存储空间的消耗。
可选地,上述方法还包括如下步骤:
根据原始网络中多个计算节点的连接关系,将两个以上顺序执行的第二计算节点之间的所有第一计算节点等效为一个第一离线节点(First Offline1),从而可以获得该原始网络对应的等效网络结构,如图14所示。其中,第一计算节点为具有第一操作属性的计算节点,第二计算节点为具有第二操作属性的计算节点;第一离线模型中还包括第一离线节点(First Offline1)与第二计算节点之间的接口数据,接口数据用于表示该原始网络的等效网络结构中第一离线节点(First Offline1)与其他第二计算节点之间的连接关系,其中,接口数据可以包括各个第一离线节点的输入数据来源和输出数据来源。
更具体地,如图14所示,根据原始网络的各个计算节点之间连接关系,将相邻两个CPU操作属性的计算节点之间的所有第一操作属性的计算节点等效为一个第一离线节点(First Offline1),从而获得该原始网络的等效网络。可选地,由于该第一离线节点为多个具有第一操作属性的计算节点的等效节点,因此该第一离线节点(First Offline1)的操作属性为第一操作属性。进一步地,该第一离线节点(First Offline1)和原始网络中的具有第二操作属性的第二计算节点之间的具体连接关系可以根据输入或输出数据进行确定。举例说明,如图14所示,该第一离线节点(First Offline1)与第二计算节点C1、C2及C3之间的具体连接关系及网络权值可以根据离线节点(First Offline1)的输入数据进行确定,该第一离线节点(First Offline1)与第二离线节点(Second Offline1)之间的具体连接关系及网络权值可以根据第一离线节点(First Offline1)的输出数据进行确定。进一步地,接口数据可以包括该第一离线节点(First Offline1)的输入数据为第二计算节点C1、C2及C3的输出数据,第一离线节点的输出数据作为第二计算节点C4和C5的输入数据。
作为进一步地改进,该原始网络的离线模型还可以包括原始网络中其他具有第二操作属性的计算节点对应的网络权值及指令。如图11所示,上述方法还包括如下步骤:
若当前计算节点的操作属性为第二操作属性时,则将当前计算节点对应的网络权值及指令存储至第二非易失性存储器中,以获得原始网络对应的第二离线模型。即在运行该原始网络的过程中,将各个具有第二操作属性的计算节点的网络权值及指令存储于第二非易失性存储器(如第二存储器)中。该多个具有第二操作属性的计算节点的网络权值及指令形成该原始网络的第二离线模型单元。这样当需要再次运行该原始网络时,可以直接从第二非易失性存储器获取该原始网络中各个具有第二操作属性的计算节点的计算属性等指令及对应的网络权值。具体地,上述步骤S730还可以包括如下步骤:
S734、从第一存储器中获取原始网络中各个具有第二操作属性的计算节点对应的网络权值及指令,并将原始网络中各个具有第二操作属性的计算节点对应的网络权值存储于第二非易失性存储器中,生成第二离线模型。该第二离线模型的生成过程可参见图16所示,图16中左边的存储空间内存储的即为第二离线模型。
上述存储于第一非易失性存储器中的第一离线模型与上述存储于第二非易失性存储器中的第二离线模型,形成该原始网络的离线模型。这样,当需要再次执行该离线模型时,可以直接从第一非易失性存储器中获取具有第一操作属性的计算节点的网络权值及指令,直接从第二非易失性存储器中获取具有第二操作属性的计算节点的网络权值及指令,从而可以无需再次对该原始网络进行编译,即可直接执行该原始网络。
进一步地,第一处理器还可以根据原始网络中多个计算节点的连接关系,将两个以上顺序执行的第一计算节点之间的所有第二计算节点等效为一个第二离线节点;其中,第一计算节点为具有第一操作属性的计算节点,第二计算节点为具有第二操作属性的计算节点;第二离线模型中还包括所述第二离线节点与所述第一计算节点之间的接口数据。
如图14和图16所示,下面结合附图说明上述的离线模型生成过程:
首先,第一处理器可以获得该原始网络的模型数据集、模型结构参数以及输入数据,从而根据该原始网络的模型数据集和模型结构参数可以获得该原始网络的网络结构图,如图14所示。并且,该第一处理器还可以获得原始网络中各个计算节点的操作属性。
其次,第一处理器可以根据原始网络的模型结构参数,获得原始网络各个计算节点的连接关系,并根据各个计算节点的连接关系获得原始网络中各个计算节点的执行顺序,以及原始网络在运行过程中的内存分配方式,从而可以获得原始网络在运行过程中相关数据的存储位置。如图16中中间部分存储空间所示,原始网络在运行过程中的相关数据可以按照各个计算节点执行顺序存储在一个栈中。
最后,第一处理器可以将原始网络中具有第一操作属性的计算节点对应的网络权值及指令存储于第一非易失性存储器中,生成第一离线模型,该第一离线模型的存储方式可参见图16中右半部分存储空间所示。同时,第一处理器可以将原始网络中具有第二操作属性的计算节点对应的网络权值及指令存储于第二非易失性存储器中,生成第二离线模型,该第二离线模型的存储方式可参见图16左半部分存储空间所示。并且,该第一离线模型和第二离线模型仅仅包含运行该原始网络中各个计算节点所必需的网络权值及指令等数据,而不需对原始网络运行过程中的输入数据、输出数据或中间计算结果等进行存储,从而可以减小了存储空间的消耗。
进一步地,通用处理器包括中央处理器、图像处理器、数字信号处理器及现场可编辑门阵列中的一种或多种。相应地,第二操作属性可以包括CPU操作属性、GPU操作属性、DSP操作属性及FPGA操作属性的一种或多种。例如,当该计算机系统包括第一处理器(如CPU)和一个第二处理器(如IPU)时,则该计算节点的操作属性可以是CPU操作属性、第一操作属性或两者的组合。当该计算节点的操作属性为CPU操作属性时,则表明该计算节点对应的计算指令需在第一处理器(如CPU)上执行。当该计算节点的操作属性为第一操作属性时,则表明该计算节点对应的计算指令需在第二处理器上执行。当该计算节点的操作属性为CPU操作属性和第一操作属性的结合时,则表明该计算节点对应的操作属性既可以在第一处理器上执行,也可以在第二处理器上执行,此时可将该计算节点的操作属性标记为第一操作属性。进一步地,可以通过枚举方法标识和保存各个计算节点的操作属性。例如,该枚举变量可以包括两个以上的枚举值。若当前计算节点的操作属性为第一操作属性时,则该枚举变量的枚举值可以为1;若当前计算节点的操作属性为CPU操作属性时,则该枚举变量的枚举值可以为0。
再如,当该计算机系统包括第一处理器(如CPU)、第二处理器(如GPU)以及第二处理器(如IPU)时,则计算节点的操作属性可以是CPU操作属性、GPU操作属性或第一操作属性中的一种或多种的组合。当该计算节点的操作属性为CPU操作属性时,则表明该计算节点对应的计算指令需在第一处理器(如CPU)上执行。当该计算节点的操作属性为GPU操作属性时,则表明该计算节点对应的计算指令需在第二处理器(如GPU)上执行。当该计算节点的操作属性为第一操作属性时,则表明该计算节点对应的计算指令需在第二处理器(如IPU)上执行。当该计算节点的操作属性为CPU操作属性和第一操作属性的组合时,则表明该计算节点对应的计算指令既可在第一处理器上执行,也可以在第二处理器(如IPU)上执行,此时,可以将计算节点的操作属性标记为第一操作属性。进一步地,该枚举变量的枚举值也可以是三个,例如,若当前计算节点的操作属性为第一操作属性,则该枚举变量的枚举值可以为1;若当前计算节点的操作属性为CPU操作属性,则该枚举变量的枚举值可以为0;若当前计算节点的操作属性为GPU操作属性,则该枚举变量的枚举值可以为2。从而通过该枚举变量的数值可以获知当前计算节点的操作属性。
进一步地,该第二离线模型可以包括多个第二离线子模型,如其中一个第二离线子模型可以包括所有CPU操作属性的计算节点对应的指令和网络权值,其中一个第二离线子模型可以包括所有GPU操作属性的计算节点对应的指令和网络权值,其中一个第二离线子模型可以包括所有DSP操作属性的计算节点对应的指令和网络权值等等。
在一个实施例中,生成离线模型后可以立刻使用离线模型执行运算,也可以保存离线模型,等待需要计算的时候再使用离线模型。如图13所示,本发明一实施例还提供了一种神经网络处理方法,上述方法包括如下步骤:
S800、获取原始网络的模型数据集和模型结构参数,其中,模型数据集包括原始网络中各个计算节点对应的网络权值,模型结构参数包括原始网络中多个计算节点的连接关系。其具体执行过程可参见上述步骤S700,此处不再赘述。
S810、根据原始网络中多个计算节点的连接关系,将两个以上顺序执行的第二计算节点之间的所有第一计算节点等效为一个第一离线节点,获得原始网络对应的等效网络;其中,第一计算节点为具有第一操作属性的计算节点,第二计算节点为具有第二操作属性的计算节点。进一步地,可以获得该原始网络的等效网络结构中各个计算节点的执行顺序。
例如,如图14所示,根据原始网络的各个计算节点之间连接关系,将相邻两个CPU操作属性的计算节点之间的所有第一操作属性的计算节点等效为一个第一离线节点(First Offline1),从而获得该原始网络的等效网络。可选地,由于该第一离线节点为多个具有第一操作属性的计算节点的等效节点,因此该第一离线节点(First Offline1)的操作属性为第一操作属性。进一步地,该第一离线节点(First Offline1)和原始网络中的具有第二操作属性的第二计算节点之间的具体连接关系可以根据输入或输出数据进行确定。该原始网络对应的等效网络中各个计算节点的执行顺序可以为C1-C2-C3-First Offline1-C4-C5-First Offline2,其中第二计算节点C1、C2和C3可以同时执行,计算节点C4和C5也可以同时执行,以提高计算机系统的处理效率。
S820、若等效网络结构中的当前计算节点为第一离线节点时,则从第一非易失性存储器中获得第一离线模型,并根据第一离线模型执行第一离线节点,其中,第一离线模型中包含原始网络中具有第一操作属性的所有第一计算节点对应的网络权值及指令。具体地,第一处理器的第一获取模块可以根据原始网络的等效网络中各个计算节点的执行顺序,若当前计算节点为第一离线节点时,则可以从第一离线模型中获得具有第一操作属性的计算节点对应的网络权值及指令。
如图14所示,当再次运行该原始网络时,根据原始网络的等效网络,若当前计算节点为第一离线节点First Offline1时,则可以从第一非易失性存储器中获得该第一离线节点First Offline1中各个第一计算节点对应的网络权值及指令,从而无需对第一离线节点First Offline1中的各个第一计算节点进行指令编译,提高第一处理器的处理效率。当完成该第一离线节点的运行操作时,第一处理器可以根据原始网络对应的等效网络结构,继续执行第二计算节点C4和C5。之后,该第一处理器可以根据原始网络对应的等效网络结构,从第一非易失性存储器中获得该第一离线节点First Offline2中各个第一计算节点对应的网络权值及指令,从而无需对第一离线节点First Offline2中的各个第一计算节点进行指令编译。
进一步地,第一离线模型中还包括第一离线节点与第二计算节点之间的接口数据。具体地,该第一离线模型中还包括各个第一离线节点与其连接的第二计算节点之间的接口数据,如该接口数据可以包括第一离线节点First Offline1的输入数据为第二计算节点C1~C3的输出数据,第一离线节点First Offline1的输出数据可作为第二计算节点C4和C5。
此时,当再次运行该原始网络时,根据原始网络的等效网络,若当前计算节点为第一离线节点First Offline1时,则可以从第一非易失性存储器中获得该第一离线节点First Offline1中各个第一计算节点对应的网络权值及指令,从而无需对第一离线节点First Offline1中的各个第一计算节点进行指令编译,提高第一处理器的处理效率。同时,第一处理器可以根据第一离线模型中第一离线节点First Offline1与其连接的第二计算节点的接口数据,获得第一离线节点First Offline1执行完成后应当继续执行第二计算节点C4和C5。在完成第二计算节点C4和C5的运行操作之后,该第一处理器可以根据原始网络对应的等效网络结构,从第一非易失性存储器中获得该第一离线节点First Offline2中各个第一计算节点对应的网络权值及指令,从而无需对第一离线节点First Offline2中的各个第一计算节点进行指令编译。
可以理解的是,第一离线模型中可以包括多个第一离线节点对应的指令及权值,可以根据原始网络对应的等效网络确定多个第一离线节点的执行顺序,并按照其执行顺序对各个第一离线节点进行标号。当需要从第一离线模型中获取某个第一离线节点对应的网络权值及指令时,只需要根据该第一离线节点的标号进行查找即可。当然,还可以直接根据各个第一离线节点的存储地址,以直接读取该第一离线节点对应的网络权值及指令,以实现精准查找。
更进一步地,该原始网络的离线模型还可以包括原始网络中其他具有第二操作属性的计算节点对应的网络权值及指令。上述方法还包括如下步骤:
若等效网络结构中的当前计算节点不是第一离线节点时,则从第二非易失性存储器中获得第二离线模型,并根据第二离线模型执行等效网络中的当前计算节点。具体地,第一处理器还可以根据原始网络中多个计算节点的连接关系,将两个以上顺序执行的第一计算节点之间的所有第二计算节点等效为一个第二离线节点;其中,第一计算节点为具有第一操作属性的计算节点,第二计算节点为具有第二操作属性的计算节点;第二离线模型中还包括所述第二离线节点与所述第一计算节点之间的接口数据。
此时,当再次运行该原始网络时,根据原始网络的等效网络,若当前计算节点为第一离线节点First Offline1时,则可以从第一非易失性存储器中获得该第一离线节点First Offline1中各个第一计算节点对应的网络权值及指令,从而无需对第一离线节点First Offline1中的各个第一计算节点进行指令编译,提高第一处理器的处理效率。同时,第一处理器可以根据第一离线模型中第一离线节点First Offline1与其连接的第二计算节点的接口数据,获得第一离线节点First Offline1执行完成后应当继续执行第二计算节点C4和C5。之后,第一处理器可以从第二离线模型中分别获得第二计算节点C4对应的网络权值及指令,以及第二计算节点C5对应的网络权值及指令,并根据上述第二离线节点Second Offline1对应的第二离线模型执行上述计算节点C4和C5。同时,第一处理器可以根据第二离线模型中第二离线节点Second Offline1与其连接的第一计算节点的接口数据,获得第二离线节点Second Offline1执行完成后应当继续执行第一离线节点FirstOffline2。在完成第二离线节点Second Offline1的运行操作之后,该第一处理器可以从第一非易失性存储器中获得该第一离线节点First Offline2中各个第一计算节点对应的网络权值及指令,从而无需对第一离线节点First Offline2中的各个第一计算节点进行指令编译。
可以理解的是,第二离线模型中可以包括多个第二离线节点对应的指令及权值,可以根据原始网络对应的等效网络确定多个第二离线节点的执行顺序,并按照其执行顺序对各个第二离线节点进行标号。当需要从第恶离线模型中获取某个第二离线节点对应的网络权值及指令时,只需要根据该第二离线节点的标号进行查找即可。当然,还可以直接根据各个第二离线节点的存储地址,以直接读取该第二离线节点对应的网络权值及指令,以实现精准查找。
作为进一步地改进,该第二离线模型可以包括多个第二离线子模型,如其中一个第二离线子模型可以包括所有CPU操作属性的计算节点对应的指令和网络权值,其中一个第二离线子模型可以包括所有GPU操作属性的计算节点对应的指令和网络权值,其中一个第二离线子模型可以包括所有DSP操作属性的计算节点对应的指令和网络权值等等。此时,当需要再次运行该原始网络时,可以根据该原始网络对应的等效网络结构,若当前计算节点为具有第一操作属性的第一离线节点时,则第一处理器可以从第一非易失性存储器中获得该第一离线节点中各个第一计算节点对应的网络权值及指令,并直接执行该第一离线节点。若当前计算节点为具有CPU操作属性的计算节点时,则可以从该当前计算节点对应的第二离线子模型中,获得当前计算节点的网络权值及指令,并直接执行当前计算节点。若当前计算节点为具有GPU操作属性的计算节点时,则可以从该当前计算节点对应的第二离线子模型中,获得当前计算节点的网络权值及指令,并直接执行当前计算节点。若当前计算节点为具有DSP操作属性的计算节点时,则可以从该当前计算节点对应的第二离线子模型中,获得当前计算节点的网络权值及指令,并直接执行当前计算节点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
同时,本发明还提供了一种计算机系统300包括第一处理器310及与第一处理器310对应设置的第一存储器320及第二存储器330;一个或多个第二处理器340及与第二处理器340对应设置的一个或多个第三存储器350,各个第二处理器340均连接至第一处理器310;第一存储器320或第二存储器330中存储有计算机程序,第一处理器310在执行计算机程序时,执行如上述任一实施例的方法。具体地,第一处理器310在执行上述计算机程序时,具体执行如下步骤:
获取原始网络的模型数据集和模型结构参数,其中,模型数据集包括原始网络中各个计算节点对应的网络权值,模型结构参数包括原始网络中多个计算节点的连接关系。
获取原始网络中各个计算节点的操作属性,计算节点的操作属性包括第一操作属性和第二操作属性。具体地,第一处理器的第一获取模块或第一运算模块可以获得该原始网络中各个计算节点的操作属性。其中,计算节点的操作属性用于标识该计算节点对应的计算指令能够在哪个处理器上执行。本实施例中,第一操作属性可以用于表示该计算节点对应的计算指令能够在IPU等专用神经网络处理器上执行,第二操作属性用于表示该计算节点对应的计算指令能够在CPU、GPU、DSP等通用处理器上执行。
进一步地,可以通过枚举方法来表示和保存各个计算节点的操作属性。例如,可以定义一个枚举变量device,该枚举变量可以包括两个以上的枚举值。若当前计算节点的操作属性为第一操作属性,则该枚举变量的枚举值可以为1;若当前计算节点的操作属性为第二操作属性,则该枚举变量的枚举值可以为0。
根据原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行原始网络,获得原始网络中各个计算节点对应的指令。进一步地,第一处理器的第一获取模块还可以获取该原始网络的输入数据,第一处理器的第一运算模块可以根据原始网络的输入数据、网络模型数据集、模型结构参数及各个计算节点的操作属性运行原始网络,获得该原始网络中各个计算节点对应的指令。更进一步地,上述运行该原始网络获得各个计算节点的指令的过程实质上是编译的过程,该编译过程可以通过计算机系统的处理器或虚拟设备实现。即计算机系统的处理器或虚拟设备根据原始网络的模型数据集和模型结构参数运行原始网络。其中,虚拟设备指的是在存储器的内存空间中虚拟出一段处理器运行空间。
应当清楚的是,本实施例中的运行原始网络是指,处理器使用人工神经网络模型数据运行某种机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
若当前计算节点的操作属性为第一操作属性时,则将当前计算节点对应的网络权值及指令存储至第一非易失性存储器中,以获得原始网络对应的第一离线模型。其中,该第一非易失性存储器可以为IPU等专用神经网络处理器对应的第三存储器。进一步地,针对原始网络的每个计算节点,该计算节点的网络权值及指令一一对应进行存储。这样,当再次运行该原始网络时,可以直接从第一非易失性存储器中获取该原始网络对应的第一离线模型,并根据与该第一离线模型运行原始网络中所有具有第一操作属性的计算节点,无需在线对该原始网络中具有第一操作属性的计算节点进行编译获得指令,提高了系统的运行速度及效率。
应当清楚的是,本实施例中,直接运行该原始网络对应的第一离线模型是指,使用第一离线模型运行该原始网络对应的机器学习算法(如神经网络算法),通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。
进一步地,上述计算机系统可以是图9所示的计算机系统,该计算机系统的第一处理器可以为中央处理器、图像处理器、数字信号处理器或现场可编辑门阵列等,第二处理器可以为专用神经网络处理器、中央处理器、图像处理器、数字信号处理器或现场可编程门阵列等等。可以理解的是,本实施例中计算机系统的工作原理与图10~图13中所示的神经网络的处理方法中各个步骤的执行过程一致,具体可参见上文中的描述,此处不再赘述。
此外,本发明一实施例还提供了一种计算机存储介质,计算机存储介质中存储有计算机程序,当计算机程序被一个或多个第一处理器执行时,执行上述任一实施例的方法。其中,该计算机存储介质可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明的神经网络处理方法、计算机系统及存储介质,通过将原始网络运行过程中具有第一操作属性的计算节点对应的指令及网络权值进行存储,获得原始网络对应的第一离线模型,这样当再次运行该原始网络时,可以从该原始网络对应的第一离线模型中获得具有第一操作属性的计算节点对应的指令及网络权值,无需重新对该原始网络中具有第一操作属性的计算节点对应的模型数据集及模型结构参数等相关数据进行编译,从而缩短处理器运行同一网络的运行时间,进而提高处理器的处理速度及效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种神经网络的处理方法,其特征在于,所述方法包括如下步骤:
获取原始网络的模型数据集和模型结构参数,其中,所述模型数据集包括所述原始网络中各个计算节点对应的网络权值,所述模型结构参数包括所述原始网络中多个计算节点的连接关系;
获取所述原始网络中各个计算节点的操作属性,所述计算节点的操作属性包括用于表示所述计算节点能够在专用神经网络处理器上执行的第一操作属性和用于表示所述计算节点能够在通用处理器上执行的第二操作属性;
根据所述原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行所述原始网络,获得所述原始网络中各个计算节点对应的指令;
若当前计算节点的操作属性为第一操作属性时,则将所述当前计算节点对应的网络权值及指令存储至第一非易失性存储器中,以获得所述原始网络对应的第一离线模型。
2.根据权利要求1所述的方法,其特征在于,获取所述原始网络中各个计算节点的操作属性的步骤,还包括:
分别判断各个所述计算节点是否能够在专用神经网络处理器上执行;
若当前计算节点能够在所述专用神经网络处理器上执行,则将所述当前计算节点标记为第一操作属性;
若当前计算节点只能在通用处理器上执行,则将所述当前计算节点标记为第二操作属性。
3.根据权利要求2所述的方法,其特征在于,分别判断各个所述计算节点是否能够在专用神经网络处理器上执行的步骤,还包括:
通过预设函数表查询所述当前计算节点是否存在等效计算节点,其中,所述等效计算节点为能够在所述专用神经网络处理器上执行的计算节点;
若所述当前计算节点存在等效计算节点,则判定所述当前计算节点能够在所述专用神经网络处理器上执行;
若所述当前计算节点不存在等效计算节点,则判定所述当前计算节点只能在所述通用处理器上执行。
4.根据权利要求1所述的方法,其特征在于,获取所述原始网络中各个计算节点的操作属性的步骤,包括:
从所述原始网络的模型数据集或模型结构参数中,获得所述原始网络中各个计算节点的操作属性。
5.根据权利要求2或4所述的方法,其特征在于,所述通用处理器包括中央处理器、图像处理器、数字信号处理器及现场可编辑门阵列中的一种或多种;
所述第二操作属性包括CPU操作属性、GPU操作属性、DSP操作属性及FPGA操作属性的一种或多种。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:
根据所述原始网络中多个计算节点的连接关系,将两个以上顺序执行的第二计算节点之间的所有第一计算节点等效为一个第一离线节点;其中,所述第一计算节点为具有第一操作属性的计算节点,所述第二计算节点为具有第二操作属性的计算节点;所述第一离线模型中还包括所述第一离线节点与所述第二计算节点之间的接口数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:
若所述当前计算节点的操作属性为第二操作属性时,则将所述当前计算节点对应的网络权值及指令存储至第二非易失性存储器中,以获得所述原始网络对应的第二离线模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括如下步骤:
根据所述原始网络中多个计算节点的连接关系,将两个以上顺序执行的第一计算节点之间的所有第二计算节点等效为一个第二离线节点;其中,所述第一计算节点为具有第一操作属性的计算节点,所述第二计算节点为具有第二操作属性的计算节点;所述第二离线模型中还包括所述第二离线节点与所述第一计算节点之间的接口数据。
9.根据权利要求1所述的方法,其特征在于,所述的根据所述原始网络的模型数据集、模型结构参数及各个计算节点的操作属性运行所述原始网络,获得所述原始网络中各个计算节点对应的指令的步骤,包括:
根据所述原始网络的模型结构参数,获得所述原始网络中各个计算节点的执行顺序;
根据所述各个计算节点的操作属性,分别获得各个所述计算节点对应的目标处理器;
按照所述原始网络中各个计算节点的执行顺序,分别通过各个所述计算节点对应的目标处理器执行各个所述计算节点,获得所述原始网络中各个计算节点对应的指令。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括如下步骤:
根据所述原始网络的模型数据集和模型结构参数,获得所述原始网络的内存分配方式;
根据所述原始网络的内存分配方式,将所述原始网络运行过程中的相关数据存储至第一存储器中,其中,所述原始网络运行过程中的相关数据包括所述原始网络的各个计算节点对应的网络权值、指令、输入数据及输出数据;
从所述第一存储器中获取所述原始网络中各个具有第一操作属性的计算节点对应的网络权值及指令,并将所述原始网络中各个具有第一操作属性的计算节点对应的网络权值及指令存储于第一非易失性存储器中,生成所述第一离线模型;
从所述第一存储器中获取所述原始网络中各个具有第二操作属性的计算节点对应的网络权值及指令,并将所述原始网络中各个具有第二操作属性的计算节点对应的网络权值存储于第二非易失性存储器中,生成所述第二离线模型。
11.一种神经网络处理方法,其特征在于,所述方法包括如下步骤:
获取原始网络的模型数据集和模型结构参数,其中,所述模型数据集包括所述原始网络中各个计算节点对应的网络权值,所述模型结构参数包括所述原始网络中多个计算节点的连接关系;
根据所述原始网络中多个计算节点的连接关系,将两个以上顺序执行的第二计算节点之间的所有第一计算节点等效为一个第一离线节点,获得所述原始网络对应的等效网络;其中,所述第一计算节点为具有第一操作属性的计算节点,所述第二计算节点为具有第二操作属性的计算节点;
若所述等效网络结构中的当前计算节点为第一离线节点时,则从第一非易失性存储介质中获得第一离线模型,并根据所述第一离线模型执行所述第一离线节点,其中,所述第一离线模型中包含所述原始网络中所有的第一计算节点对应的网络权值及指令。
12.根据权利要求11所述的方法,其特征在于,所述第一离线模型中还包括第一离线节点与所述第二计算节点之间的接口数据。
13.根据权利要求11所述的方法,其特征在于,所述方法还包括如下步骤:
若所述等效网络结构中的当前计算节点不是所述第一离线节点时,则从第二非易失性存储器中获得第二离线模型,并根据所述第二离线模型执行所述等效网络中的当前计算节点。
14.一种计算机系统,其特征在于,包括:
第一处理器及与所述第一处理器对应设置的第一存储器及第二存储器;
一个或多个第二处理器及与所述第二处理器对应设置的一个或多个第三存储器,各个所述第二处理器均连接至所述第一处理器;
所述第一存储器或所述第二存储器中存储有计算机程序,所述第一处理器在执行所述计算机程序时,执行如权利要求1-10任一项或权利要求11-13任一项所述的方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序,当所述计算机程序被一个或多个第一处理器执行时,执行如权利要求1-10任一项或权利要求11-13任一项所述的方法。
CN201711483733.5A 2017-12-29 2017-12-29 神经网络处理方法、计算机系统及存储介质 Active CN109993287B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201711483733.5A CN109993287B (zh) 2017-12-29 2017-12-29 神经网络处理方法、计算机系统及存储介质
EP18894609.9A EP3629251A4 (en) 2017-12-29 2018-12-17 PROCESSING METHODS FOR NEURONAL NETWORK, COMPUTER SYSTEM AND STORAGE MEDIUM
US16/612,361 US20230196069A1 (en) 2017-12-29 2018-12-17 Neural network processing method, computer system and storage medium
PCT/CN2018/121399 WO2019128752A1 (zh) 2017-12-29 2018-12-17 神经网络处理方法、计算机系统及存储介质
KR1020197037880A KR20200100528A (ko) 2017-12-29 2018-12-17 신경망 처리 방법, 컴퓨터 시스템 및 저장 매체
JP2019570862A JP7299846B2 (ja) 2017-12-29 2018-12-17 ニューラルネットワーク処理方法、コンピュータシステム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711483733.5A CN109993287B (zh) 2017-12-29 2017-12-29 神经网络处理方法、计算机系统及存储介质

Publications (2)

Publication Number Publication Date
CN109993287A CN109993287A (zh) 2019-07-09
CN109993287B true CN109993287B (zh) 2019-12-06

Family

ID=67110020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711483733.5A Active CN109993287B (zh) 2017-12-29 2017-12-29 神经网络处理方法、计算机系统及存储介质

Country Status (1)

Country Link
CN (1) CN109993287B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647981B (zh) * 2019-09-23 2021-01-26 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN111090393A (zh) * 2019-11-22 2020-05-01 Oppo广东移动通信有限公司 存储数据处理方法、存储数据处理装置及电子装置
CN110991659B (zh) * 2019-12-09 2024-03-08 北京奇艺世纪科技有限公司 异常节点识别方法、装置、电子设备及存储介质
CN111241031A (zh) * 2020-01-07 2020-06-05 北京三快在线科技有限公司 一种数据计算系统、方法以及装置
CN112738061B (zh) * 2020-12-24 2022-06-21 四川虹微技术有限公司 信息处理方法、装置、管理平台、电子设备及存储介质
CN116362352A (zh) * 2023-06-01 2023-06-30 广州思迈特软件有限公司 基于机器学习的模型自动更新方法、系统、介质及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5720004A (en) * 1995-09-29 1998-02-17 United Microelectronics Corporation Current-mode hamming neural network
CN104683302A (zh) * 2013-11-29 2015-06-03 国际商业机器公司 认证方法、认证装置、终端设备、认证服务器及系统
CN106228238B (zh) * 2016-07-27 2019-03-22 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN107092961B (zh) * 2017-03-23 2018-08-28 中国科学院计算技术研究所 一种基于模式频率统计编码的神经网络处理器及设计方法

Also Published As

Publication number Publication date
CN109993287A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109993287B (zh) 神经网络处理方法、计算机系统及存储介质
CN109492241B (zh) 转换方法、装置、计算机设备和存储介质
EP3651020A1 (en) Computer equipment, data processing method, and storage medium
US11556756B2 (en) Computation graph mapping in heterogeneous computer system
Protalinskii et al. Analysis and modelling of complex engineering systems based on the component approach
US11216752B1 (en) Optimizing machine learning models
CN110598855A (zh) 深度学习模型生成方法、装置、设备及存储介质
JP7299846B2 (ja) ニューラルネットワーク処理方法、コンピュータシステム及び記憶媒体
CN111950633A (zh) 神经网络的训练、目标检测方法及装置和存储介质
CN116467061B (zh) 一种任务执行的方法、装置、存储介质及电子设备
CN109993288B (zh) 神经网络处理方法、计算机系统及存储介质
US11551095B2 (en) Sharing preprocessing, computations, and hardware resources between multiple neural networks
CN105404611A (zh) 一种基于矩阵模型的多计算引擎的自动选择方法
CN109685203B (zh) 数据处理方法、装置、计算机系统及存储介质
CN110097180B (zh) 计算机设备、数据处理方法及存储介质
CN110097179B (zh) 计算机设备、数据处理方法及存储介质
CN116069603B (zh) 应用的性能测试方法、建立性能测试模型的方法及装置
CN113485848B (zh) 深度神经网络部署方法、装置、计算机设备和存储介质
CN111274023B (zh) 数据处理方法、装置、计算机系统和存储介质
CN114723024A (zh) 用于存算一体芯片的基于线性规划的神经网络映射方法
US11556760B2 (en) Learning-based data processing system and model update method
JP6973651B2 (ja) 演算最適化装置、方法およびプログラム
KR20230121303A (ko) 이종 미니배치사이즈 기반의 분산 딥러닝 방법 및 장치
CN113590193A (zh) 一种运算装置、方法、介质及计算设备
JP2023084566A (ja) 推定装置、推定方法および推定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100191 room 644, research complex, 6 South Road, Haidian District Science Academy, Beijing.

Patentee after: Zhongke Cambrian Technology Co., Ltd

Address before: 100191 room 644, research complex, 6 South Road, Haidian District Science Academy, Beijing.

Patentee before: Beijing Zhongke Cambrian Technology Co., Ltd.