CN109523022B

CN109523022B - 终端数据处理方法、装置及终端

Info

Publication number: CN109523022B
Application number: CN201811349645.0A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2022-04-05
Anticipated expiration: 2038-11-13
Also published as: WO2020098414A1; CN109523022A

Abstract

本申请实施例提供了一种终端数据处理方法、装置和终端，其中终端数据处理方法包括：将训练好的神经网络模型按预设模型结构转换；对转换后的模型进行解析；获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值；获取至少两个所述计算处理单元的状态信息；根据所述状态信息和所述期望值确定所述算子运行的计算处理单元。本申请实施例的数据处理方法根据算子的期望值及计算处理单元的状态信息，能够将神经网络中的各个算子灵活、合理地分配到不同的计算处理单元上进行计算，有效利用计算处理单元，提升计算效率。

Description

终端数据处理方法、装置及终端

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种终端数据处理方法、装置及终端。

背景技术

本申请对于背景技术的描述属于与本申请相关的相关技术，仅仅是用于说明和便于理解本申请的申请内容，不应理解为申请人明确认为或推定申请人认为是本申请在首次提出申请的申请日的现有技术。

深度学习在搜索技术、数据挖掘、自然语言处理、语音、推荐等领域的作用越来越大。一般的学习模型在终端上进行深度学习的计算时，都是预先配置好运行的计算处理单元，配置好后所有的运算都放在一个计算处理单元上运行，计算效率不高。

发明内容

本申请实施例提供了一种终端数据处理方法、装置及终端，可以提升计算效率。

第一方面，本申请提供了一种终端数据处理方法，所述终端包括至少两个计算处理单元，所述方法包括：

将训练好的神经网络模型按预设模型结构转换；

对转换后的模型进行解析；

获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值；

获取至少两个所述计算处理单元的状态信息；

根据所述状态信息和所述期望值确定所述算子运行的计算处理单元。

第二方面，本申请实施例提供了一种终端数据处理装置，包括：

转换单元，其用于将训练好的神经网络模型按预设模型结构转换；

解析单元，其用于对转换后的模型进行解析；

确定单元，其用于获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值，及至少两个所述计算处理单元的状态信息；所述确定单元根据所述状态信息及所述期望值确定所述算子运行的计算处理单元。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第四方面，本申请实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

本申请实施例具有如下有益效果：

本申请实施例提供的终端数据处理方法，将训练好的神经网络模型按预设模型结构转换；对转换后的模型进行解析；获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值；获取至少两个所述计算处理单元的状态信息；根据所述状态信息和所述期望值确定所述算子运行的计算处理单元。本申请实施例的数据处理方法根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。

附图说明

图1示出了本申请终端数据处理方法的一实施例的流程图；

图2示出了本申请终端数据处理装置的一实施例的结构示意图；

图3示出了本申请终端数据处理装置的一实施例的结构示意图；

图4示出了本申请一个实施例的终端的结构示意图。

具体实施方式

下面结合具体实施例对本申请作进一步详细描述，但不作为对本申请的限定。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

第一方面，本申请实施例提供了一种终端数据处理方法，图1示出了本申请终端数据处理方法的一实施例的流程图。参见图1，该方法具体包括：

将训练好的神经网络模型按预设模型结构转换；

对转换后的模型进行解析；

获取转换后的模型中的算子在至少两个计算处理单元上运行的期望值；

获取至少两个计算处理单元的状态信息；

根据状态信息和期望值确定算子运行的计算处理单元。

本申请实施例提供的终端数据处理方法，将训练好的神经网络模型按预设模型结构转换；对转换后的模型进行解析；获取转换后的模型中的算子在至少两个计算处理单元上运行的期望值；获取至少两个计算处理单元的状态信息；根据状态信息和期望值确定算子运行的计算处理单元。本申请实施例的数据处理方法根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。本申请实施例的方法能够充分地利用终端上的计算资源。

本申请实施例中的终端包括至少两个计算处理单元。本申请实施例中的终端包括但不限于手机、平板电脑、膝上型计算机等。

本申请实施例中的终端上的计算处理单元例如可以包括CPU、GPU(图形处理器，Graphics Processing Unit)、DSP(数字信号处理器，digital singnal processor)和NPU(网络处理器，neural-network process units)等。本申请实施例中的终端包括的至少两个计算处理单元可以选自上述或其他未提及的具体的计算处理单元。

本申请实施例对训练好的神经网络模型不作具体限定。训练好的神经网络模型例如可以是卷积神经网络(CNN)模型，也可以是型循环神经网络(RNN)等。本申请实施例中，将训练好的神经网络模型转换成预设模型结构。本申请实施例中将不同类型的神经网络模型转换成预设模型结构，以便于对其进行读取和分配其算子运行的计算处理单元。

本申请实施例中，对转换后的模型进行解析。解析后可以对模型快速读取，提高模型的运行速度。例如，本申请可选实施例中，转换后的模型解析至内存中。将转换后的模型解析至内存中，可以快速读取模型数据。例如快速读取模型中算子在计算处理单元上运行的期望值，以及将算子放到确定的计算处理单元上运行等。

本申请实施例中，获取算子在至少两个计算处理单元上运行的期望值及至少两个计算处理单元的状态信息，根据期望值及状态信息确定算子运行的计算处理单元。本申请实施例中，综合算子在各计算处理单元上运行的期望值和各计算处理单元的状态信息确定算子运行的计算处理单元，可以灵活分配算子运行的计算处理单元，可以提高模型的运行速度和计算效率，还可以提高终端的整体运行效率。

本申请实施例对计算处理单元的状态信息不作具体限定。作为本申请可选实施例，状态信息例如可以包括计算处理单元的运算空间空闲值等运算性能参数。计算处理单元的运算空间空闲值越高，其剩余处理能力越强。例如，本申请一实施例中的终端包括CPU(中央处理器)和GPU(图形处理器)两个计算处理单元；训练好的神经网络模型按预设模型结构进行转换，该模型中包括算子A和算子B，算子A的输出为算子B的输入，转换后的模型中包括各算子(算子A和算子B)在各计算处理单元(CPU和GPU)上运行的期望值。读取转换后的模型中算子A在CPU和GPU上运行的期望值，结合CPU和GPU的运算空间空闲值确定算子A在哪个计算处理单元上运行。例如，算子A在CPU和GPU上运行的期望值相同时，可以确定算子A在运算空间空闲值较大的计算处理单元上运行。算子A计算完毕，其输出作为算子B的输入，按同样的道理确定算子B在哪个计算处理单元上运行。当然，本申请实施例中，计算处理单元的状态信息也可以包括其他的参数，例如其他表达剩余处理能力的参数，或其他表达计算处理单元当前运行性能的参数，或表达计算处理单元当前运行功耗的参数等。

本申请可选实施例中，对计算处理单元的运算性能参数(以运算空间空闲值为例)和期望值分别加权求和得到算子在至少两个计算处理单元上运行的评分，将评分最高的计算处理单元作为算子运行的计算处理单元。本申请实施例中，通过加权求和的方式综合考虑算子在计算处理单元上运行的期望值和计算处理单元的运算空间空闲值。期望值越高说明算子更倾向于在该计算处理单元上运行，运算空间空闲值越高，其剩余处理能力越强，算子在该计算处理单元上运行的速度相当较快。本实施例中的期望值和运算空间空闲值可以用0-100的数值表达，期望值越高，表明算子在该计算处理单元上运行的期望越高。运算空间空闲值越高，表明计算处理单元的当前处理能力越强。当然，期望值和运算空间空闲值也可以用百分数表达。本实施例通过加权求和，合理分配权重比，可以根据不同情况将模型中的算子灵活分配至不同的计算处理单元上进行运算，有效利用了运算处理单元，提升了运算效率。

本申请实施例对期望值的获取方法不作具体限定。例如可以由经验获得等等。例如根据经验可以知道某一类型的算子更适合在哪个计算处理单元上运行，根据算子在不同计算处理单元上的运行效率，算子在计算处理单元上的运行效率越高，相应的期望值也越高。据此可以确定该算子在不同计算处理单元上运行的期望值。作为本申请可选实施例，期望值通过统计获得。本申请实施例中，期望值可以是通过多个样本模型中的不同算子在不同运算处理单元上运行的频率得出。其中样本数量可以是3000个，也可以是10000个等。本实施例对样本的数量不作具体限定。

本申请实施例中，转换后的模型中包括各算子在各计算处理单元上运行的期望值。确定算子运行的计算处理单元时，可以读取转换后的模型中算子在各计算处理单元上运行的期望值，结合各计算处理单元的运算空间空闲值确定算子在哪个计算处理单元上运行。本申请可选实施例中，可以通过期望值隶属的算子的名称获取算子在至少两个计算处理单元上运行的期望值。在预设模型结构中神经网络可能由N(N≥1)个算子以及它对应的期望值组成。期望值和算子用“隶属的算子的名称”进行关联。通过期望值隶属的算子的名称可以与相应名称的算子关联。

以模型中包括算子A和算子B为例，算子A的输出为算子B的输入，运行该模型的终端的计算处理单元包括CPU和GPU。转换后的模型中包括各算子A和算子B在CPU和GPU上运行的期望值。读取转换后的模型中算子A在CPU和GPU上运行的期望值，结合CPU和GPU的运算空间空闲值确定算子A在哪个计算处理单元上运行。例如，算子A在CPU和GPU上运行的期望值分别为80和60，CPU和GPU的运算空间空闲值分别为40和80，期望值的权重为0.6，运算空间空闲值的权重为0.4。算子A在CPU上运行的评分＝0.6*80+0.4*40，即算子A在CPU上运行的评分为64。算子A在GPU上运行的评分＝0.6*60+0.4*80，即算子A在GPU上运行的评分为68。根据评分，确定算子A运行的计算处理单元是GPU。算子A运算完成，其输出作为算子B的输入，确定算子B在哪个计算处理单元上运行时，读取转换后的模型中算子B在CPU和GPU上运行的期望值，其中算子B在CPU上运行的期望值为70，在GPU上运行的期望值80，此时CPU和GPU的运算空间空闲值分别为70和50，期望值的权重为0.6，运算空间空闲值的权重为0.4。算子B在CPU上运行的评分＝0.6*70+0.4*70，即算子A在CPU上运行的评分为70。算子B在GPU上运行的评分＝0.6*80+0.4*50，即算子A在GPU上运行的评分为68。根据评分，确定算子B运行的计算处理单元是CPU。

第二方面，本申请实施例提供了一种终端数据处理装置，该终端数据处理装置可实现上述实施例终端数据处理方法，上述终端数据处理方法的实施例可用于理解和说明以下终端数据处理装置的实施例。

图2示出了本申请终端数据处理装置的一实施例的结构示意图。参见图2，本申请实施例的终端数据处理装置包括：

转换单元10，其用于将训练好的神经网络模型按预设模型结构转换：

解析单元20，其用于对转换后的模型进行解析；

确定单元30，其用于获取转换后的模型中的算子在至少两个计算处理单元上运行的期望值，及至少两个计算处理单元的状态信息；确定单元30根据状态信息及期望值确定算子运行的计算处理单元。

本申请实施例提供的终端数据处理装置，转换单元10将训练好的神经网络模型转换成预设模型结构，解析单元10对转换后的模型进行解析；确定单元30获取转换后的模型中的算子在至少两个计算处理单元上运行的期望值；确定单元30获取至少两个计算处理单元的状态信息；确定单元30根据状态信息和期望值确定算子运行的计算处理单元。本申请实施例的数据处理装置根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。本申请实施例的方法能够充分地利用终端上的计算资源。

本申请实施例对训练好的神经网络模型不作具体限定。训练好的神经网络模型例如可以是卷积神经网络(CNN)模型，也可以是型循环神经网络(RNN)等。本申请实施例中，将训练好的神经网络模型转换成预设模型结构。本申请实施例中转换单元10将不同类型的神经网络模型转换成预设模型结构，以便于确定单元30读取模型中的相应的数据，分配算子运行的计算处理单元。

本申请实施例中，解析单元20对转换后的模型进行解析。解析后可以对模型快速读取，提高模型的运行速度。例如，本申请可选实施例中，转换后的模型解析至内存中。将转换后的模型解析至内存中，可以快速读取模型数据。例如快速读取模型中算子在计算处理单元上运行的期望值，以及将算子放到确定的计算处理单元上运行等。

本申请实施例中，确定单元30获取算子在至少两个计算处理单元上运行的期望值及至少两个计算处理单元的状态信息，根据期望值及状态信息确定算子运行的计算处理单元。本申请实施例中，确定单元30综合算子在各计算处理单元上运行的期望值和各计算处理单元的状态信息确定算子运行的计算处理单元，可以灵活分配算子运行的计算处理单元，可以提高模型的运行速度和计算效率，还可以提高终端的整体运行效率。

本申请实施例对计算处理单元的状态信息不作具体限定。作为本申请可选实施例，确定单元30获取的状态信息例如可以包括计算处理单元的运算空间空闲值等运算性能参数。计算处理单元的运算空间空闲值越高，其剩余处理能力越强。

本申请可选实施例中，确定单元30对计算处理单元的运算性能参数(以运算空间空闲值为例)和期望值分别加权求和得到算子在至少两个计算处理单元上运行的评分，将评分最高的计算处理单元作为算子运行的计算处理单元。本申请实施例中，确定单元30通过加权求和的方式综合考虑算子在计算处理单元上运行的期望值和计算处理单元的运算空间空闲值。期望值越高说明算子更倾向于在该计算处理单元上运行，运算空间空闲值越高，其剩余处理能力越强，算子在该计算处理单元上运行的速度相当较快。本实施例中的期望值和运算空间空闲值可以用0-100的数值表达，期望值越高，表明算子在该计算处理单元上运行的期望越高。运算空间空闲值越高，表明计算处理单元的当前处理能力越强。当然，期望值和运算空间空闲值也可以用百分数表达。本实施例通过加权求和，合理分配权重比，可以根据不同情况将模型中的算子灵活分配至不同的计算处理单元上进行运算，有效利用了运算处理单元，提升了运算效率。

本申请实施例中，转换后的模型中包括各算子在各计算处理单元上运行的期望值。确定单元30确定算子运行的计算处理单元时，可以读取转换后的模型中算子在各计算处理单元上运行的期望值，结合各计算处理单元的运算空间空闲值确定算子在哪个计算处理单元上运行。本申请可选实施例中，可以通过期望值隶属的算子的名称获取算子在至少两个计算处理单元上运行的期望值。在预设模型结构中神经网络可能由N(N≥1)个算子以及它对应的期望值组成。期望值和算子用“隶属的算子的名称”进行关联。通过期望值隶属的算子的名称可以与相应名称的算子关联。

参见图3，图3图3示出了本申请终端数据处理装置的一实施例的结构示意图。确定单元30可以包括读取模块31、监测模块32和综合模块33。其中，读取模块31用于获取转换后的模型中的算子在至少两个计算处理单元上运行的期望值。监测模块32用于获取至少两个计算处理单元的状态信息。综合模块33用于根据状态信息及期望值确定算子运行的计算处理单元。本领域的技术人员可以清楚地了解到本申请实施例中的“单元”或“模块”的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个“单元”或“模块”可以结合或者可以集成为一个“单元”或“模块”实现相应的功能。或者一个“单元”或“模块”分解为多个共同实现相应的功能。本申请实施例中的“单元”或“模块”可以是能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是FPGA(Field-Programmable Gate Array，现场可编程门阵列)、IC(lntegrated Circuit，集成电路)等，在此不再一一赘述。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

第四方面，本申请实施例提供了一种终端。图4示出了本申请一个实施例的终端的结构示意图。参见图4，该终端100包括存储器110、处理器120及存储在存储器110上并可在处理器120上运行的计算机程序，处理器120执行程序时实现上述任一实施例方法的步骤。在本申请实施例中，处理器120为计算机系统的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。

在本申请中，术语“第一”、“第二”等仅用于描述的目的，而不能理解为指示或暗示相对重要性或顺序；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

本申请的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本申请的限制。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种终端数据处理方法，应用于终端，所述终端包括至少两个计算处理单元，所述方法包括：

将训练好的神经网络模型按预设模型结构转换，所述预设模型结构由算子和所述算子在计算处理单元上运行的期望值组成；

对转换后的模型进行解析；

获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值，所述期望值通过多个样本模型中的不同算子在不同运算处理单元上运行的频率得出；

获取至少两个所述计算处理单元的状态信息；

2.根据权利要求1所述的方法，其特征在于，通过统计获得所述期望值。

3.根据权利要求1所述的方法，其特征在于，所述状态信息包括：所述计算处理单元的运算空间空闲值。

4.根据权利要求3所述的方法，其特征在于，对所述计算处理单元的运算空间空闲值和期望值分别加权求和得到所述算子在至少两个所述计算处理单元上运行的评分，将评分最高的计算处理单元作为所述算子运行的计算处理单元。

5.根据权利要求1所述的方法，其特征在于，所述获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值包括：通过期望值隶属的算子的名称获取所述算子在至少两个所述计算处理单元上运行的期望值。

6.根据权利要求1所述的方法，其特征在于，所述转换后的模型解析至内存中。

7.根据权利要求1所述的方法，其特征在于，至少两个所述计算处理单元选自CPU、GPU、DSP和NPU。

8.一种终端数据处理装置，其特征在于，包括：

转换单元，其用于将训练好的神经网络模型按预设模型结构转换，所述预设模型结构由算子和所述算子在计算处理单元上运行的期望值组成；

解析单元，其用于对转换后的模型进行解析；

确定单元，其用于获取所述转换后的模型中的算子在至少两个所述计算处理单元上运行的期望值，及至少两个所述计算处理单元的状态信息，所述期望值通过多个样本模型中的不同算子在不同运算处理单元上运行的频率得出；所述确定单元根据所述状态信息及所述期望值确定所述算子运行的计算处理单元。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-6中任一项所述方法的步骤。

10.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。