CN112836792A

CN112836792A - 一种神经网络模型的训练方法及装置

Info

Publication number: CN112836792A
Application number: CN202110058851.1A
Authority: CN
Inventors: 马涛; 苏箐; 金颖
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-05-25
Also published as: US11966844B2; US20200320344A1; US20240232628A1; WO2019128547A1; US20230072438A1; CN109993300A; US11521012B2; CN109993300B; EP3716156A1; EP3716156A4

Abstract

本申请公开了一种神经网络模型的训练方法及装置。所述方法应用于终端设备，所述终端设备包括用于处理业务的第一神经网络模型和第二神经网络模型，所述第一神经网络模型的精度小于所述第二神经网络模型的精度；所述方法包括：获取所述终端设备在设定周期内生成的所述业务的标注数据；使用所述设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，得到训练后的第二神经网络模型；根据所述训练后的第二神经网络模型，对所述第一神经网络模型进行更新。本申请实施例中由于是根据终端设备生成的标注数据进行训练，从而使得更新后的第一神经网络模型相比于通用模型来说，推理结果的可信度更高，更能满足用户的个性化需求。

Description

一种神经网络模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种神经网络模型的训练方法及装置。

背景技术

人工智能(artificial intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。基于人工智能的神经网络模型是一种模拟大脑结构的机器学习模型。在机器学习领域，神经网络经常被用来对较复杂的任务建模。神经网络的规模，包括深度和宽度都是可以调节的，视应用领域和问题规模而定。因为神经网络超强的表达能力，在语音识别、图像识别、自然语言处理、广告投放等应用领域被广泛应用。

神经网络模型的结构包括多层，第一层是输入层，最顶上一层是输出层，中间包括零个或者多个隐含层，每一层包括一个或多个节点。输入层规模根据输入变量的数量决定，输出层规模则取决于类别数目。隐含层包括多个神经元，调整神经元数量就可以调整神经网络模型的复杂度和表达能力。一般来说，神经网络越宽越深，其建模能力越强，但是训练这个模型所花的代价也越高。神经网络模型的训练过程，是根据训练样本的输入和输出，以迭代的方式对神经网络中的各个参数值进行调整直至收敛的过程，也被称为神经网络的学习过程。

在神经网络模型的实际应用中，通常在云端训练复杂的神经网络模型，达到预定的精度要求，比如32位单精度浮点(32-bit single precision floating point，FP32)，然后针对终端设备特性的要求，进行精度、内存、实时性、功耗等优化后，生成可在终端设备侧独立运行的离线神经网络模型模型。然而，基于云端训练的神经网络模型生成的离线神经网络模型为通用模型，往往无法满足用户的个性化需求。

发明内容

本申请实施例提供一种神经网络模型的训练方法，用于解决现有技术中基于云端训练的神经网络模型生成的离线神经网络模型为通用模型，无法满足用户的个性化需求的技术问题。

第一方面，本申请实施例提供一种神经网络模型的训练方法，所述方法应用于终端设备，所述终端设备包括用于处理业务的第一神经网络模型和第二神经网络模型，所述第一神经网络模型的精度小于所述第二神经网络模型的精度；所述方法包括：

获取所述终端设备在设定周期内生成的所述业务的标注数据；

使用所述设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，得到训练后的第二神经网络模型；

根据所述训练后的第二神经网络模型，对所述第一神经网络模型进行更新。

根据上述内容可知，基于终端设备在设定周期内生成的业务的标注数据，对精度较高的第二神经网络模型进行更新，进而实现对第一神经网络模型的更新；一方面，由于第二神经网络模型的精度较高，因此，先对第二神经网络模型进行训练，并根据训练好的第二神经网络模型对第一神经网络模型进行更新，能够使得训练效果更为明显有效；另一方面，由于是根据终端设备生成的标注数据进行训练，从而使得更新后的第一神经网络模型相比于通用模型来说，推理结果的可信度更高，更能满足用户的个性化需求。

在一种可能的设计中，所述得到训练后的第二神经网络模型之后，对所述第一神经网络模型进行更新之前，还包括：

若确定所述训练后的第二神经网络模型为第一版本对应的第二神经网络模型的首次更新，则保存所述第一神经网络模型；

对所述第一神经网络模型进行更新之后，还包括：

接收云端服务器发送的第二版本软件包；所述第二版本软件包中包括第二版本对应的第一神经网络模型；

若确定所述第二版本对应的第一神经网络模型和保存的所述第一神经网络模型不相同，则对所述第二版本对应的第一神经网络模型进行更新。

如此，本申请实施例中在接收到第二版本后，会将第二版本对应的第一神经网络模型和第一版本对应的第一神经网络模型进行比较，来决定是否使用第二版本，从而能够有效减少升级次数，减轻处理负担，且能够保证模型符合用户的个性化需求。

在一种可能的设计中，对所述第二版本对应的第一神经网络模型进行更新，包括：

获取多个历史设定周期内生成的所述业务的标注数据；

使用所述多个历史设定周期内生成的所述业务的标注数据对所述第二版本对应的第二神经网络模型进行训练，得到第二版本对应的训练后的第二神经网络模型；

根据所述第二版本对应的训练后的第二神经网络模型，对所述第二版本对应的第一神经网络模型进行更新。

在一种可能的设计中，所述终端设备在设定周期内通过如下方式生成所述业务的标注数据：

在设定周期内使用所述第一神经网络模型对所述业务的第一输入数据进行在线推理，得到在线推理结果；

若接收到用户对所述在线推理结果的有效反馈，则根据所述第一输入数据和所述用户对所述在线推理结果的有效反馈生成所述业务的标注数据；若未接收到所述用户对所述在线推理的有效反馈，则确定所述在线推理结果的可信度大于第一阈值后，根据所述第一输入数据和所述在线推理结果生成所述业务的标注数据。

在设定周期内使用第三神经网络模型对所述业务的第二输入数据进行离线推理，得到离线推理结果；所述第三神经网络模型的精度高于所述第二神经网络模型的精度，或者，所述第三神经网络模型为所述第二神经网络模型；

若确定所述离线推理结果的可信度大于第二阈值，则根据所述第二输入数据和所述离线推理结果生成所述业务的标注数据。

在一种可能的设计中，所述使用设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，包括：

在所述终端设备处于充电状态时，使用设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练。

第二方面，本申请实施例提供一种终端设备，所述终端设备包括用于处理业务的第一神经网络模型和第二神经网络模型，所述第一神经网络模型的精度小于所述第二神经网络模型的精度；所述终端设备还包括：

获取模块，用于获取所述终端设备在设定周期内生成的所述业务的标注数据；

处理模块，用于使用所述设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，得到训练后的第二神经网络模型；以及，根据所述训练后的第二神经网络模型，对所述第一神经网络模型进行更新。

在一种可能的设计中，所述处理模块在得到训练后的第二神经网络模型之后，对所述第一神经网络模型进行更新之前，还用于：

所述终端设备还包括收发模块，所述收发模块用于：接收云端服务器发送的第二版本软件包；所述第二版本软件包中包括第二版本对应的第一神经网络模型；

所述处理模块还用于：若确定所述第二版本对应的第一神经网络模型和保存的所述第一神经网络模型不相同，则对所述第二版本对应的第一神经网络模型进行更新。

在一种可能的设计中，所述处理模块具体用于：

获取多个历史设定周期内生成的所述业务的标注数据；

在一种可能的设计中，所述处理模块还用于：在设定周期内使用所述第一神经网络模型对所述业务的第一输入数据进行在线推理，得到在线推理结果；

若收发模块接收到用户对所述在线推理结果的有效反馈，则根据所述第一输入数据和所述用户对所述在线推理结果的有效反馈生成所述业务的标注数据；若所述收发模块未接收到所述用户对所述在线推理的有效反馈，则确定所述在线推理结果的可信度大于第一阈值后，根据所述第一输入数据和所述在线推理结果生成所述业务的标注数据。

在一种可能的设计中，所述处理模块还用于：

在一种可能的设计中，所述处理模块具体用于：

本申请实施例还提供一种计算机存储介质，该存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行时可实现上述各方面或各种可能的设计所述的神经网络模型的训练方法。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面或各种可能的设计所述的神经网络模型的训练方法。

本申请实施例还提供一种计算机程序，当其在计算机上运行时，使得计算机执行上述各方面或各种可能的设计所述的神经网络模型的训练方法。

本申请实施例还提供一种终端设备，所述终端设备包括：存储器，用于存储软件程序；处理器，用于读取所述存储器中的软件程序并执行上述各方面或各种可能的设计所述的神经网络模型的训练方法。

附图说明

图1a为一种神经网络模型的结构示意图；

图1b为一个神经网络模型示例图；

图2为本申请实施例适用于的一种系统架构示意图；

图3为本申请实施例提供的神经网络模型的训练方法对应的流程示意图；

图4为本申请实施例提供的一种生成标注数据的流程示意图；

图5为本申请实施例提供的另一种生成标注数据的流程示意图；

图6对本申请实施例提供的神经网络模型的训练过程示意图；

图7为本申请实施例提供的对新版本的处理流程示意图；

图8为本申请实施例提供的一种终端设备的结构示意图；

图9为本申请实施例提供的一种通信装置的结构示意图。

具体实施方式

下面结合说明书附图对本申请进行具体说明，方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

如图1a所示，是一种神经网络模型的结构示意图，该神经网络模型100具有N个处理层，N≥3且N取自然数，该神经网络模型的第一层为输入层101，负责接收输入信号，该神经网络模型的最后一层为输出层103，输出神经网络模型的处理结果，除去第一层和最后一层的其他层为中间层104，这些中间层共同组成隐藏层102，隐藏层中的每一层中间层既可以接收输入信号，也可以输出信号，隐藏层负责输入信号的处理过程。每一层代表了信号处理的一个逻辑级别，通过多个层，数据信号可经过多级逻辑的处理。

下面对神经网络模型的训练过程进行举例说明。参照图1b，图1b示出了一个比较简单的神经网络模型，该神经网络模型包括一个输入层、两个隐含层和一个输出层。其中，输入层具有三个节点，分别为节点A0、节点A1和节点A2；第一个隐含层包括两个节点，分别为节点B0和节点B1；第二个隐含层包括2个节点，分别为节点C0和节点C1；输出层包括一个节点D0。

神经网络模型中不同层之间的节点连接的线段称为边，每条边具有相应的边权重，边权重表示的是相应的边连接的两个节点中靠近输入层的节点对远离输入层的节点的贡献大小。具体在图1b中，W_0,0表示从输入层的节点A0到第一个隐含层的节点B0的边权重，U_0,0表示从第一个隐含层的节点B0到第二个隐含层的节点C0的边权重，V_0,0表示从第二个隐含层的节点C0到输出层的节点D0的边权重。其中，神经网络模型中每条边的边权重也可以称为神经网络模型的参数值，神经网络模型的参数值的精度(或者也可以称为神经网络模型的精度)可以为FP32、FP16或者其它精度，具体不做限定。

对图1b中的神经网络模型进行训练的过程如下：

步骤1，从全体训练样本集中随机抽取一个训练样本，训练样本包含所有输入特征，输入特征可以在0或1内取值，也可以是浮点数；每个训练样本有一个期望输出值。

步骤2，对第一个隐含层做正向计算。正向计算需要利用该隐含层的所有入边的边权重和低层节点的激活值。这里入边是指低层节点指向当前层的节点的边，相应地，出边则是指当前层的节点指向高层节点的边。这里将神经网络模型中的某一层作为基准，靠近输入层的层称为低层，远离输入层的层称为高层。

步骤3，类似地，对第二个隐含层做正向计算。

步骤4，输出层仅包括一个节点D0，计算节点D0的激活值和残差值。残差值表示的是观测值和预测值之间的差值，根据训练样本的期望输出值和计算出的节点D0的激活值就可以计算出节点D0的残差值ED0。

步骤5，对第二个隐含层做反向计算，根据输出层的残差值和第二个隐含层的出边的边权重计算该隐含层每个节点的残差值，并且调整相应出边的边权重。

具体地，计算节点C0的残差值时，输出层只有一个节点D0，因此将节点D0的残差值ED0与节点C0的出边的边权重V_0,0相乘后代入残差计算函数，得到节点C0的残差值EC0。

类似地，计算节点C1的残差值EC1。

调整边权重时，用当前边权重减去中间参数作为更新的边权重，该中间参数为预设步长乘以边权重对应的边的高层节点的残差值再乘以该边的低层节点的激活值。具体按预设步长调整边权重V_0,0时，将边权重V_0,0减去中间参数，该中间参数为预设步长乘以节点D0的残差值再乘以节点C0的激活值ACTC0，即V_0,0＝V_0,0–L*ED0*ACTC0，其中L表示预设步长。类似地，调整边权重V_1,0。

步骤6，类似地，对第一个隐含层做反向计算，根据第二个隐含层的各节点的残差值和第一个隐含层的出边的边权重计算该隐含层每个节点的残差值，并且调整相应出边的边权重。

具体地，计算节点B0的残差值时，将节点C0的残差值与节点B0对应节点C0的出边的边权重相乘U_0,0，并将节点C1的残差值与节点B1对应节点C1的出边的边权重U_0,1相乘，将两个乘积求和后，即EC0*U_0,0+EC1*U_0,1，代入残差计算函数得到节点B0的残差值EB0。类似地，可以计算出节点B1的残差值EB1。

步骤7，对输入层做反向计算，调整从输入层指向第一个隐含层的边上的边权重。

步骤8，回到步骤1训练下一个训练样本。

将所有训练样本按照上述步骤1～步骤8进行处理后，完成对神经网络模型的训练。

图1b中只是一个很简单的神经网络模型，实际应用中神经网络模型的宽度会非常大，而且为了达到更好的分类效果，神经网络模型的深度一般也比较大，训练样本数量也非常多，这样计算压力非常大。因此，现有技术中是在云端对复杂的神经网络模型进行训练，得到一个高精度的神经网络模型(比如精度为FP32)后，首先转换成一个低精度的神经网络模型(比如精度为FP16)，一般是基于TensorFlow/MxNet/Caffe的数据格式的表达，或者基于其他标准数据格式；然后转换成一个离线神经网络模型，该离线神经网络模型能够脱离深度学习的框架(比如TensorFlow/MxNet/Caffe)独立运行，并且性能更好；进而将此离线神经网络模型部署在终端设备上运行，进行推理业务。

由于云端训练的神经网络模型是通用模型，因此，基于云端训练的神经网络模型转换得到的离线神经网络模型也是通用模型，从而可能无法满足用户的个性化需求。比如，某商用发布版本中用于进行语音识别的神经网络模型的识别性能是95％，终端设备a使用该神经网络模型进行语音识别；在一个示例中，若终端设备a的用户具有较重的口音(比如有湖南话口音的普通话)，则终端设备a使用该神经网络模型进行语音识别的识别性能可能只有88％；在另一个示例中，若用户在一些特殊场景(比如车载场景)启动语音识别业务，则终端设备a使用该神经网络模型进行语音识别的识别性能可能只有85％。由此可知，通用的离线神经网络模型没有考虑到用户的个性化需求，在实际使用中的效果可能不理想，导致用户体验较差。

基于此，本申请实施例提供一种神经网络模型的训练方法，用于解决现有技术中基于云端训练的神经网络模型生成的离线神经网络模型为通用模型，无法满足用户的个性化需求的技术问题。

图2为本申请实施例适用于的一种系统架构示意图，如图2所示，包括，该系统架构中可以包括云端服务器201、网络203以及一个或多个终端设备，比如第一终端设备2021、第二终端设备2022、第三终端设备2023，网络203用于在第一终端设备2021、第二终端设备2022、第三终端设备2023和云端服务器201之间提供通信链路的介质。网络203可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

具体来说，云端服务器201可以训练多种针对不同业务的神经网络模型，比如用于进行语音识别的神经网络模型，用于进行图像识别的神经网络模型等。以用于进行图像识别的神经网络模型S_cloud为例，云端服务器201训练完成后，可首先对神经网络模型S_cloud(精度较高，比如FP32)进行简化，比如，减少隐含层的层数等，进而转换成神经网络模型S_c，神经网络模型S_c用于通过训练进行更新，由于训练涉及对神经网络模型S_c的参数值进行微调，对精度的要求较高，因此，神经网络模型S_c的精度可以为FP32；进一步地，将神经网络模型S_c经过离线工具转换后生成可在终端设备上部署的神经网络模型S_t，神经网络模型S_t用于进行在线推理，对于在线推理而言，对时间要求较高，而对精度要求不高，因此神经网络模型S_t的精度可以低于神经网络模型Sc的精度，而神经网络模型S_c的网络结构和神经网络模型S_t的网络结构可以相同。云端服务器201可将神经网络模型S_c和神经网络模型S_t发送给终端设备，如此，终端设备可安装神经网络模型S_c和神经网络模型S_t。由于神经网络模型S_t的结构简化，且精度较低，因此推理速度较快，终端设备可以使用神经网络模型S_t进行在线推理。而对于一些没有时间要求的离线数据，终端设备可以使用精度较高的神经网络模型S_c进行推理。进一步地，为了有效保证离线数据推理的准确性，本申请实施例中的云端服务器201还可以生成高准确度的神经网络模型S_i，神经网络模型S_i可以是较高复杂度的模型(可能是采用多种技术的集成模型)，识别率和准确度较高(比神经网络模型S_cloud性能更好)，如此，云端服务器201将神经网络模型S_i发送终端设备后，终端设备可以使用神经网络模型S_i对离线数据进行推理。

也就是说，终端设备可以包括神经网络模型S_c和神经网络模型S_t，神经网络模型S_t用于进行在线推理，神经网络模型S_c用于进行离线推理。或者，终端设备可以包括神经网络模型S_c、神经网络模型S_t和神经网络模型S_i，神经网络模型S_t用于进行在线推理，神经网络模型S_i用于进行离线推理。

根据以上内容可知，本申请实施例中，云端服务器201会将神经网络模型S_cloud转换成神经网络模型S_c，且终端设备会保存神经网络模型S_c，从而便于后续在终端设备侧进行增量训练。

云端服务器201还可以对训练好的神经网络模型进行升级，并向终端设备发送升级软件包，升级软件包中可以包括升级后的神经网络模型S_c和升级后的神经网络模型S_t，如此，终端设备可以对保存的神经网络模型S_c和神经网络模型S_t进行升级。

终端设备是一种具有无线收发功能的设备，可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上(如轮船等)；还可以部署在空中(例如飞机、气球和卫星上等)。所述终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端设备、无人驾驶(self driving)中的无线终端设备、远程医疗(remote medical)中的无线终端设备、智能电网(smart grid)中的无线终端设备、运输安全(transportation safety)中的无线终端设备、智慧城市(smartcity)中的无线终端设备、智慧家庭(smart home)中的无线终端设备等，还可以是前述所列举的设备中的芯片等硬件设备。

基于图2所示意的系统架构，图3为本申请实施例提供的神经网络模型的训练方法对应的流程示意图，该方法可以应用于终端设备，所述终端设备安装有用于处理业务的第一神经网络模型和第二神经网络模型，所述第一神经网络模型的精度小于所述第二神经网络模型的精度；如图3所示，该方法包括：

步骤301，获取所述终端设备在设定周期内生成的所述业务的标注数据。

此处，设定周期的时间长度可以根据实际需求进行设置，比如，可以设置为10天。所述业务可以为所述终端设备所能实现的多种业务中的任一业务，比如语音识别业务、图像识别业务等。

步骤302，使用设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，得到训练后的第二神经网络模型。

此处，由于对模型进行训练时，涉及对模型的参数值进行微调，因此精度要求高。考虑到第一神经网络模型的精度较低，若直接使用设定周期内生成的所述业务的标注数据对所述第一神经网络模型进行训练，则可能导致训练效果不明显。因此，本申请实施例中，在终端设备中保存了精度较高的第二神经网络模型，并使用设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，从而使得训练效果更为明显有效。其中，对所述第二神经网络模型进行训练可以是指进行增量训练，具体实现可以参照现有技术，此处不再赘述。

步骤303，根据所述训练后的第二神经网络模型，对所述第一神经网络模型进行更新。

此处，由于步骤302中通过训练改变了第二神经网络模型的参数值，因此，根据所述训练后的第二神经网络模型，对所述第一神经网络模型进行更新，具体可以是指，根据所述训练后的第二神经网络模型的参数值对第一神经网络模型的参数值进行更新。具体实施中，可以将训练后的第二神经网络模型采用离线模型转换工具生成适合在终端设备上使用的第一神经网络模型(参数值进行了更新)。

具体实施中，通过申请并获得用户的授权后，可以获取终端设备在设定周期内生成的所述业务的标注数据。其中，标注数据由输入数据和输入数据的标签(比如可以是推理得到的)构成，比如，输入一幅待识别图片，经过推理得到待识别图片的标签“猫”，如此，待识别图片和标签“猫”即为一组标注数据。非标注数据是指不具有标签的输入数据，比如未经推理的输入数据，或者经过推理但未得到标签的输入数据，具体不做限定。

所述业务的标注数据的生成方式可以有多种，比如通过在线推理生成、通过离线推理生成或者通过强化学习生成。

其中，通过在线推理生成具体是指：在业务运行过程中，采用第一神经网络模型对输入数据进行推理处理，并输出对应的可信度；选取可信度大于第一阈值的推理结果作为输入数据标注的结果，进而得到标注数据。其中，推理结果中可以包括多种结果，并按照识别率大小进行排序，比如，a1的识别率为80％、a2的识别率为10％、……、an的识别率为1％，这些识别率之和为1。确定推理结果的可信度是否大于第一阈值具体可以是指确定推理结果中的排序最靠前的(TOP1)识别率(即为a1的识别率)是否大于第一阈值，若是，则可根据推理结果中的a1作为输入数据的标签，进而得到标注数据。第一阈值可以根据实际需要进行设置，并可以不断调整，从而保证不断收集和获取高质量的标注数据。

举个例子，当前进行语音识别时，“打开Wi-Fi”的语音识别可信度为92％(当前第一阈值为90％)，则保存对应的原始输入数据和推理结果。

本申请实施例中，可以持续收集并积累上述在线推理生成的标注数据，以便于后续对神经网络模型进行训练。进一步地，为了保证数据的安全性，对获取到的标注数据可以采用加密方式存储。需要说明的是，上述在线推理方式主要可以适用于功耗低较低、较为简单的推理业务，比如语音识别业务等。

通过离线推理生成具体是指：收集业务的输入数据，在特定时刻启动离线数据标注处理或者在终端设备充电时，将离线数据标注处理作为背景业务运行；其中，特定时刻可以是空闲时刻(电量高于电量阈值，电量阈值可以根据实际情况进行设置)。离线数据标注处理具体可以是指使用第三神经网络模型对输入数据进行推理处理，并输出对应的可信度；选取可信度大于第二阈值的推理结果作为输入数据标注的结果，进而得到标注数据。第二阈值可以根据实际需要进行设置，并可以不断调整，从而保证不断收集和获取高质量的标注数据。

举个例子，当前进行图像识别时，可保存输入的图像，例如复杂场景下的猫、蓝天等一批图片。当用户进行充电时，采用第三神经网络模型，对本次批量数据进行推理处理，如果推理结果的可信度为95％(当前第二阈值为93％)，则根据此原始数据和推理结果得到标注数据。

本申请实施例中，可以持续收集并积累上述离线推理生成的标注数据，以便于后续对神经网络模型进行训练。进一步地，为了保证数据的安全性，对获取到的标注数据可以采用加密方式存储。需要说明的是，上述离线推理方式主要可以适用于较为复杂的推理业务(所需的时间可能较长)，比如图像识别业务、自然语言处理(natural languageprocessing，NLP)等。

通过强化学习生成具体是指：在进行某次推理业务处理，用户对于结果进行了明显的干预和修改处理(接收到用户的反馈)，则认为本次用户干预是一个对数据进行标注的处理，并将用户的修改结果作为数据标注的结果，进而得到标注数据。

比如，当进行语音识别时，用户对本次语音识别的推理结果进行了修正，则本次修改可以作为一次数据标注处理。又比如，在图像识别或者语言理解时，用户对待识别照片进行了手动命名，则此命名可以作为一次数据标注处理。

需要说明的是，上述强化学习方式主要可以适用于较为复杂的推理业务(所需的时间可能较长)，比如图像识别业务、自然语言处理等。

下面结合图4和图5具体描述生成标注数据的流程。

图4为本申请实施例提供的一种生成标注数据的流程示意图，如图4所示，包括：

步骤401，接收所述业务的第一输入数据。

此处，若业务为图像识别业务，则第一输入数据可以为用户的输入的一幅待识别图片，在一个示例中，该待识别图片为一幅猫的图片。

步骤402，采用第一神经网络模型对所述第一输入数据进行在线推理。

此处，具体可以为对所述猫的图片进行识别。

步骤403，得到在线推理结果，所述在线推理结果中包括多种结果，并按照识别率大小进行排序。比如，猫的识别率是80％，狗的识别率是16％，……，人的识别率1％。

步骤404，根据所述在线推理结果进行正常业务处理。

步骤405，判断是否接收到用户对所述在线推理结果的反馈，若是，则执行步骤406，若否，则执行步骤408。

此处，用户对所述在线推理结果的反馈可以是指用于对在线推理结果进行更改，或者其它反馈形式，具体不做限定。

步骤406，判断用户的反馈是否为有效反馈，若是，则根据所述第一输入数据和所述用户对所述在线推理结果的有效反馈生成所述业务的标注数据，并执行步骤407，若否，则执行步骤408。

其中，判断用户的反馈是否为有效反馈的判定标准可以根据实际需要进行设置，具体不做限定。比如，用户将待识别图片的在线推理结果重新命名为“猫头鹰”，则可认为是接收到用户对所述在线推理结果的反馈且为有效反馈，并将“猫头鹰”作为所述待识别图片的有效标签，进而待识别图片和“猫头鹰”构成一组标注数据。

步骤407，将生成的所述业务的标注数据添加到第一数据集中。

其中，第一数据集可以包括在设定周期内生成的一组或多组标注数据。

本申请实施例中，为了保证数据的安全性，可以对所述标注数据进行加密后添加到第一数据集中。

步骤408，确定所述在线推理结果的可信度是否大于第一阈值，若是，则根据所述第一输入数据和所述在线推理结果生成所述业务的标注数据，并执行步骤407，若否，则执行步骤409。

此处，确定在线推理结果的可信度是否大于第一阈值具体是指确定TOP1识别率是否大于第一阈值，参见上述示例，TOP1识别率具体可以是指“猫”的识别率，即80％。若第一阈值设置为79％，由于“猫”的识别率大于第一阈值，因此可将“猫”作为待识别图片的有效标签，进而待识别图片和“猫”构成一组标注数据。若第一阈值设置为85％，由于“猫”的识别率小于第一阈值，因此，未能得到待识别图片的有效标签，此处，待识别图片即为非标注数据。

步骤409，将所述第一输入数据添加到第二数据集中。此处，为了保证数据的安全性，可以对第一输入数据进行加密后添加到第二数据集中。其中，第二数据集可以包括一组或多组非标注数据。

根据上述内容可知，图4所示的流程具体描述了通过在线推理和强化学习相结合的方式得到所述业务的标注数据和非标注数据。

图5为本申请实施例提供的另一种生成标注数据的流程示意图，如图5所示，包括：

步骤501，获取第二数据集，第二数据集中包括所述业务的第二输入数据。此处，第二输入数据可以为上述方式一中得到的非标注数据，或者，也可以是用户输入的无需进行在线推理的非标注数据。

步骤502，采用第三神经网络模型对所述第二输入数据进行离线推理。

此处，第三神经网络的参数值的精度大于第二神经网络的参数值的精度，或者，第三神经网络为第二神经网络。也就是说，结合上述系统架构中的描述，可以使用神经网络模型S_i对所述第二输入数据进行离线推理，或者，也可以使用神经网络模型S_c对所述第二输入数据进行离线推理。

步骤503，得到离线推理结果，所述离线推理结果中包括多种结果，并按照识别率大小进行排序。比如，猫的识别率是80％，狗的识别率是16％，……，人的识别率是1％。

步骤504，判断所述离线推理结果的可信度是否大于第二阈值，若是，则根据所述第二输入数据和所述离线推理结果生成所述业务的标注数据，并执行步骤505，若否，则结束，对此数据不做进一步处理。

此处，确定离线推理结果的可信度是否大于第二阈值具体可以是指确定TOP1识别率是否大于第二阈值，参见上述示例，TOP1识别率具体可以是指“猫”的识别率，即80％。若第二阈值设置为79％，由于“猫”的识别率大于第二阈值，因此可将“猫”作为待识别图片的有效标签，进而待识别图片和“猫”构成业务的一组标注数据。若第二阈值设置为85％，由于“猫”的识别率小于第二阈值，因此，未能得到待识别图片的有效标签，此时待识别图片为非标注数据。

步骤505，将生成的所述业务的标注数据添加到第一数据集中。该步骤具体可参见上述步骤407，不再赘述。

根据上述内容可知，图5所示的流程具体描述了通过离线推理方式得到业务的标注数据。本申请实施例中，可以循环执行上述步骤对第二数据集中数据进行离线推理，以便于得到标注数据。

如此，在步骤301中，可以直接从第一数据集中获取在设定周期内生成的所述业务的标注数据，并在步骤302中对第二神经网络模型进行训练，进而在步骤303中对第一神经网络模型进行更新。进一步地，在得到训练后的第二神经网络模型之后，对所述第一神经网络模型进行更新之前，还包括：若确定训练后的第二神经网络模型为当前版本的首次更新，则保存第一神经网络模型，以便于和后续云端服务器发送的升级版本进行比较。

下面结合图6对神经网络模型的训练过程进行进一步的说明，如图6所示，包括：

步骤601，输入在设定周期内生成的所述业务的标注数据。

步骤602，输入第二神经网络模型。

步骤603，对所述业务的标注数据进行解密。

步骤604，对第二神经网络模型进行解密。

步骤605，使用Framework(也可选择Tensorflow/Mxnet/Caffe等神经网络的框架)加载解密后的第二神经网络模型，包括网络结构和参数值。

步骤606，加载所述业务的标注数据对所述第二神经网络模型进行训练。

步骤607，得到训练后的第二神经网络模型(对应的参数值更新了)。

步骤608，判断本次更新是否是第一版本对应的第二神经网络模型的首次更新，若是，则执行步骤609，若否，则不做处理。此处，第一版本可以为终端设备当前保存的版本。

步骤609，保存第一神经网络模型，主要用于下次版本升级时，和新版本(第二版本)的第一神经网络模型进行对比使用(参见图7的内容)。

步骤610，对第一神经网络模型进行更新，具体可以为将训练后的第二神经网络模型采用离线模型转换工具生成适合在终端设备上使用的第一神经网络模型。

步骤611，将设定周期内生成的所述业务的标注数据(即第一数据集中的标注数据)和历史设定周期内生成的所述业务的标注数据进行合并。

此处，终端设备中可以包括标注数据集，在每个设定周期内完成上述步骤601至步骤610后，可将当前设定周期内的标注数据合并到标注数据集中。如此，标注数据集中可以包括从最初的设定周期至当前设定周期内生成的业务的标注数据。比如，在设定周期3内完成上述步骤601至步骤610后，可将设定周期3内的标注数据合并到标注数据集中，此时，标注数据集包括设定周期1、设定周期2和设定周期3内的标注数据。

需要说明的是，图6中所示意的步骤编号仅为执行过程的一种示例性说明，并不构成对各个步骤的执行先后顺序的限制，比如步骤601和步骤602可以同时执行，步骤603和步骤604可以同时执行。

本申请实施例中，对第一神经网络模型进行升级后，还包括：接收云端服务器发送的第二版本软件包；所述第二版本软件包中包括第二版本对应的第一神经网络模型；若确定所述第二版本对应的第一神经网络模型和保存的所述第一神经网络模型不相同，则由于第二版本为升级版本，其性能一般比第一版本更好，因此可对所述第二版本对应的第一神经网络模型进行更新，后续使用第二版本对应的更新后的第一神经网络模型进行在线推理；若确定所述第二版本对应的第一神经网络模型和保存的所述第一神经网络模型相同，则可继续使用步骤303中更新得到的第一神经网络模型进行在线推理。此处，第二版本可以为云端服务器生成的第一版本的升级版本。

具体来说，对所述第二版本对应的第一神经网络模型进行更新，具体可以为：获取多个历史设定周期内生成的所述业务的标注数据；使用所述多个历史设定周期内生成的所述业务的标注数据对所述第二版本对应的第二神经网络模型进行训练，得到第二版本对应的训练后的第二神经网络模型；根据所述第二版本对应的训练后的第二神经网络模型，对所述第二版本对应的第一神经网络模型进行更新。

此处，对第二版本对应的第一神经网络模型进行更新的方式和对第一版本对应的第一神经网络模型进行更新的方式的区别在于在对第二神经网络模型进行训练时，所使用的训练数据不同。由于前者是对一个新的版本对应的第二神经网络模型进行训练，因此前者使用的训练数据可以为多个设定周期内生成的所述业务的标注数据(比如可以使用标注数据集中的所有数据)，使用的训练数据的数据量较大，从而能够使得训练更为充分，训练后的第二神经网络模型更能符合用户的个性化需求；而后者是对当前版本进行持续更新的过程，因此后者使用的训练数据为一个设定周期内生成的所述业务的标注数据，从而使得当前版本对应的第二神经网络模型能够逐渐符合用户的个性化需求。除上述区别之外的其它内容，二者可以相互参照，此处不再赘述。

图7为接收到新版本的处理流程示意图，下面结合图7进行具体说明，如图7所示，包括：

步骤701，输入保存的第一神经网络模型。

步骤702，输入第二版本对应的第一神经网络模型。

步骤703，对保存的第一神经网络模型和第二版本对应的第一神经网络模型进行解密。

步骤704，比较保存的第一神经网络模型和第二版本对应的第一神经网络模型是否相同，若相同，则无需进行额外处理，继续使用步骤303中更新得到的第一神经网络模型进行在线推理即可，否则，执行步骤705。

此处，在比较保存的第一神经网络模型和第二版本对应的第一神经网络模型是否相同时，需要比较二者的网络结构是否相同，对应的参数值是否相同，只有二者完全相同，方可认为保存的第一神经网络模型和第二版本对应的第一神经网络模型相同。具体实施中，可以采用哈希(Hash)的方法来比较，此处不再赘述。

步骤705，使用所述多个历史设定周期内生成的所述业务的标注数据对所述第二版本对应的第二神经网络模型进行训练，得到第二版本对应的训练后的第二神经网络模型；根据所述第二版本对应的训练后的第二神经网络模型，对所述第二版本对应的第一神经网络模型进行更新，后续可使用第二版本对应的更新后的第一神经网络模型进行在线推理。

根据上述内容可知，本申请实施例中在接收到新版本后，会将新版本对应的第一神经网络模型和当前版本对应的第一神经网络模型进行比较，来决定是否使用新版本，从而能够有效减少升级次数，减轻处理负担，且能够保证模型符合用户的个性化需求。

针对上述方法流程，本申请实施例还提供一种终端设备，该终端设备的具体实现可参见上述方法的描述。

基于同一发明构思，图8为本申请实施例提供的一种终端设备的结构示意图，该终端设备包括用于处理业务的第一神经网络模型和第二神经网络模型，所述第一神经网络模型的精度小于所述第二神经网络模型的精度；该终端设备用于实现图3至图7所示意的流程。如图8所示，终端设备800包括：

获取模块801，用于获取所述终端设备在设定周期内生成的所述业务的标注数据；

处理模块802，用于使用所述设定周期内生成的所述业务的标注数据对所述第二神经网络模型进行训练，得到训练后的第二神经网络模型；以及，根据所述训练后的第二神经网络模型，对所述第一神经网络模型进行更新。

在一种可能的设计中，所述处理模块802在得到训练后的第二神经网络模型之后，对所述第一神经网络模型进行更新之前，还用于：

所述终端设备还包括收发模块803，所述收发模块803用于：接收云端服务器发送的第二版本软件包；所述第二版本软件包中包括第二版本对应的第一神经网络模型；

所述处理模块802还用于：若确定所述第二版本对应的第一神经网络模型和保存的所述第一神经网络模型不相同，则对所述第二版本对应的第一神经网络模型进行更新。

在一种可能的设计中，所述处理模块802具体用于：

获取多个历史设定周期内生成的所述业务的标注数据；

在一种可能的设计中，所述处理模块802还用于：在设定周期内使用所述第一神经网络模型对所述业务的第一输入数据进行在线推理，得到在线推理结果；

若收发模块803接收到用户对所述在线推理结果的有效反馈，则根据所述第一输入数据和所述用户对所述在线推理结果的有效反馈生成所述业务的标注数据；若所述收发模块803未接收到所述用户对所述在线推理的有效反馈，则确定所述在线推理结果的可信度大于第一阈值后，根据所述第一输入数据和所述在线推理结果生成所述业务的标注数据。

在一种可能的设计中，所述处理模块802还用于：

在一种可能的设计中，所述处理模块802具体用于：

需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请的实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

基于以上实施例，本申请实施例还提供一种通信装置，该通信装置包括用于处理业务的第一神经网络模型和第二神经网络模型，所述第一神经网络模型的精度小于所述第二神经网络模型的精度；该通信装置可以为终端设备，用于实现图3至图7所示方法实施例中的流程或者步骤。该通信装置具有如图8所示的终端设备800的功能。参见图9所示，所述通信装置900包括：通信模块901、处理器902；

所述通信模块901，用于与其他设备进行通信交互。

所述通信模块901可以为RF电路、Wi-Fi模块、通信接口、蓝牙模块等。

所述处理器902，用于实现图8中处理模块的功能。

可选地，通信装置900还可以包括：存储器904，用于存放程序等。具体地，程序可以包括程序代码，该程序代码包括指令。存储器904可能包含RAM，也可能还包括非易失性存储器，例如至少一个磁盘存储器。处理器902执行存储器904所存放的应用程序，实现上述功能。

一种可能的方式中，通信模块901、处理器902和存储器904之间通信连接。例如，通信模块901、处理器902和存储器904可以通过总线903相互连接；总线903可以是PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例还提供一种芯片，所述芯片与存储器相连，所述存储器中存储有计算机程序，所述芯片用于读取并执行所述存储器中存储的计算机程序，以实现如图3至图7所示的流程。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

使用第一神经网络模型对业务的第一输入数据进行推理，得到推理结果；

在接收到用户对所述推理结果的有效反馈之后，根据所述第一输入数据和所述用户对所述推理结果的有效反馈生成所述业务的标注数据；

使用所述业务的标注数据对第二神经网络模型进行训练，得到训练后的第二神经网络模型；

根据所述训练后的第二神经网络模型对所述第一神经网络模型进行更新。

2.根据权利要求1所述的训练方法，其特征在于，所述第一神经网络模型的精度小于所述第二神经网络模型的精度。

3.根据权利要求1或2所述的训练方法，其特征在于，所述第一神经网络模型和所述第二神经网络模型均为终端设备上部署的神经网络模型。

4.根据权利要求1-3任一所述的训练方法，其特征在于，所述第一神经网络模型为所述第二神经网络模型经过转换后生成的网络模型。

5.根据权利要求1-4任一所述的训练方法，其特征在于，所述根据所述训练后的第二神经网络模型对所述第一神经网络模型进行更新包括：

根据所述训练后的第二神经网络模型的参数值对第一神经网络模型的参数值进行更新。

6.根据权利要求1-5任一所述的方法，其特征在于，还包括：

接收云端服务器发送的第二版本软件包，所述第二版本软件包中包括第二版本对应的第一神经网络模型；

使用所述第二版本对应的第一神经网络模型进行推理。

7.一种神经网络模型的训练方法，其特征在于，包括：

确定所述推理结果的可信度；

根据所述推理结果的可信度、所述第一输入数据和所述推理结果生成所述业务的标注数据；

8.根据权利要求7所述的训练方法，其特征在于，所述第一神经网络模型的精度小于所述第二神经网络模型的精度。

9.根据权利要求7或8所述的训练方法，其特征在于，所述第一神经网络模型和所述第二神经网络模型均为终端设备上部署的神经网络模型。

10.根据权利要求7-9任一所述的训练方法，其特征在于，所述第一神经网络模型为所述第二神经网络模型经过转换后生成的网络模型。

11.根据权利要求7-10任一所述的方法，其特征在于，所述根据所述推理结果的可信度、所述第一输入数据和所述推理结果生成所述业务的标注数据包括：

在所述推理结果的可信度大于第一阈值时，根据所述第一输入数据和所述推理结果生成所述业务的标注数据。

12.根据权利要求7-11任一所述的方法，其特征在于，所述方法应用于终端设备，所述使用所述业务的标注数据对所述第二神经网络模型进行训练，包括：

在所述终端设备处于充电状态时，使用所述业务的标注数据对所述第二神经网络模型进行训练。

13.一种神经网络模型的训练装置，其特征在于，包括：

处理模块，用于使用第一神经网络模型对业务的第一输入数据进行推理，得到推理结果；

获取模块，用于在接收到用户对所述推理结果的有效反馈之后，根据所述第一输入数据和所述用户对所述推理结果的有效反馈生成所述业务的标注数据；

所述处理模块，还用于使用所述业务的标注数据对第二神经网络模型进行训练，得到训练后的第二神经网络模型；以及，根据所述训练后的第二神经网络模型对所述第一神经网络模型进行更新。

14.根据权利要求13所述的训练装置，其特征在于，所述第一神经网络模型的精度小于所述第二神经网络模型的精度。

15.根据权利要求13或14所述的训练装置，其特征在于，所述第一神经网络模型为所述第二神经网络模型经过转换后生成的网络模型。

16.根据权利要求13-15任一所述的训练装置，其特征在于，还包括：

收发模块，用于接收云端服务器发送的第二版本软件包，所述第二版本软件包中包括第二版本对应的第一神经网络模型；

所述处理模块，还用于使用所述第二版本对应的第一神经网络模型进行推理。

17.一种神经网络模型的训练装置，其特征在于，包括：

处理模块，使用第一神经网络模型对业务的第一输入数据进行推理，得到推理结果；确定所述推理结果的可信度；

获取模块，根据所述推理结果的可信度、所述第一输入数据和所述推理结果生成所述业务的标注数据；

18.根据权利要求17所述的训练装置，其特征在于，所述第一神经网络模型的精度小于所述第二神经网络模型的精度。

19.根据权利要求17或18所述的训练装置，其特征在于，所述第一神经网络模型为所述第二神经网络模型经过转换后生成的网络模型。

20.根据权利要求17-19任一所述的训练装置，其特征在于，所述获取模块具体用于：

21.根据权利要求7-11任一所述的方法，其特征在于，所述处理模块具体用于：

在终端设备处于充电状态时，使用所述业务的标注数据对所述第二神经网络模型进行训练。

22.一种终端设备，其特征在于，所述终端设备包括：

存储器，用于存储软件程序；

处理器，用于读取所述存储器中的软件程序并执行权利要求1-6或权利要求7-12中任一项所述的神经网络模型的训练方法。

23.一种芯片，其特征在于，所述芯片包括：

存储器，用于存储软件程序；

24.一种计算机存储介质，其特征在于，所述存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行时实现权利要求1-6或权利要求7-12中任一项所述的神经网络模型的训练方法。