CN112183752B

CN112183752B - 一种基于自动示例选择的端到端多示例学习方法

Info

Publication number: CN112183752B
Application number: CN202011380710.3A
Authority: CN
Inventors: 詹德川; 王魏; 李新春
Original assignee: Nanjing Zhigu Artificial Intelligence Research Institute Co ltd
Current assignee: Nanjing Zhigu Artificial Intelligence Research Institute Co ltd; Nanjing University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-02-19
Anticipated expiration: 2040-12-01
Also published as: WO2022116479A1; CN112183752A

Abstract

本发明公开了一种基于自动示例选择的端到端多示例学习方法，包括以下具体步骤：（一）、对多示例数据进行采集，并将数据分成若干个多示例数据包，多示例数据包包括若干个示例，且多示例数据包设置为由若干个示例组合成的一组示例集合，多示例数据包上具有标签，示例设置为一个多维向量；（二）、搭建深度多示例网络，深度多示例网络包括示例处理层、示例选择层和分类层；（三）、每个多示例数据包通过深度多示例网络进行处理，通过前向或反向传播进行训练，训练包括深度多示例网络训练和深度多示例网络测试，相比现有技术，本发明可以通过示例选择层自动地选择重要的示例，一方面使得整个深度网络的优化过程可以端到端地进行训练。

Description

一种基于自动示例选择的端到端多示例学习方法

技术领域

本发明涉及使用深度网络处理多示例数据的机器学习技术领域，具体涉及一种基于自动示例选择的端到端多示例学习方法。

背景技术

传统机器学习技术经常假设样本和标签是一一对应的，比如：在文档分类任务中，一篇文档对应一个具体类别；在图像识别任务中，每张图片对应一个标签；在风机故障检测任务中，一个风机的一段时间内的采样信号具有同一个标签。然而，在实际任务中，文档包含很多句子，句子中又有很多短语，不同的句子可能描述的事物涉及了多个方面，只有某些核心句子所描述的事物才决定了该文档所属于的类别；每张图像可以包含多个物体，只有主要的物体才会被标注；风机的故障模式只会在某段时域或者频域范围内才出现。

将一篇文档、一张图像、一段时序信号看做一组示例的集合，即多示例包，同时将文档中的多个句子、图像中的多个图像块、时序信号多个时域或者频域范围当做示例，使用多示例学习技术可以有效解决标记粒度的问题。多示例学习假设，多示例包中有一些重要示例决定了该示例包的类别，因此如何去自动选择出重要示例则是非常关键的技术。

如何在深度网络中端到端地选择重要示例是一项难以实现的技术，主要是因为“示例选择”的过程是不可计算导数的，而深度网络的训练则主要是通过梯度传播进行优化的。因此，本发明赋予深度多示例网络“自动选择示例”的能力，使得整个优化过程可以端到端地进行。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种既可以处理一组示例对应单个标签的场景，还可以在深度网络中有效实现示例的自动选择的基于自动示例选择的端到端多示例学习方法。

为了实现上述目标，本发明采用如下的技术方案：

一种基于自动示例选择的端到端多示例学习方法，包括以下具体步骤：（一）、对多示例数据进行采集，并将数据分成若干个多示例数据包，所述多示例数据包包括若干个示例，且多示例数据包设置为由若干个示例组合成的一组示例集合，所述多示例数据包上具有标签，所述示例设置为一个多维向量；（二）、搭建深度多示例网络，所述深度多示例网络包括示例处理层、示例选择层和分类层；（三）、每个多示例数据包通过深度多示例网络进行处理，通过前向或反向传播进行训练，所述训练包括深度多示例网络训练和深度多示例网络测试。

优选地，前述步骤（一）中，多示例数据采集包括以下具体步骤：

100、确定示例和多示例数据包在具体任务中指代的目标；

101、将任务中具体数据构造为多示例数据包；

102、为多示例数据包赋予标签；

103、将数据组织成多组“（多示例数据包，标签）”的形式。

再优选地，前述步骤（二）中，深度多示例网络搭建包括以下具体步骤：

200、搭建示例处理层模块；

201、搭建示例选择层模块；

202、搭建多示例数据包分类层模块。

更优选地，前述步骤（三）中，深度多示例网络训练包括以下具体步骤：

300、准备一组“（多示例数据包，标签）”当做训练数据；

301、通过示例处理层吃力多示例数据包中的每一个示例；

302、通过示例选择层从处理后的所有示例里面选择若干示例；

303、对选择得到的若干示例进行聚合；

304、通过多示例数据包分类层对聚合得到的结果进行分类；

305、根据分类损失函数计算损失值；

306、通过梯度优化方法优化网络中所有参数；

307、重复300-306，直到网络收敛。

进一步优选地，前述步骤（三）中，深度多示例网络测试包括以下具体步骤：

400、将要测试的数据组织成“（多示例数据包，标签）”；

401、通过示例处理层处理多示例数据包中的每一个示例；

402、通过示例选择层从处理后的所有示例里面选择若干示例；

403、对选择得到的若干示例进行聚合；

404、通过多示例数据包分类层对聚合得到的结果进行分类；

405、输出预测结果。

本发明的有益之处在于：本发明可以通过示例选择层自动地选择重要的示例，一方面使得整个深度网络的优化过程可以端到端地进行训练，另一方面可以辅助挖掘一个多示例包中重要的示例，增强模型的可解释性；本发明适用于一组示例对应单一标签的多示例数据场景，并且使用深度学习技术进行训练和预测。

附图说明

图1为本发明实施例的多示例数据采集流程图；

图2为本发明实施例的多示例深度网络搭建流程图；

图3为本发明实施例的多示例深度网络训练流程图；

图4为本发明实施例的多示例深度网络预测流程图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

结合图1，多示例数据采集包括以下具体步骤依次为：确定示例和多示例包在风机故障诊断任务中具体指代的含义（步骤100），示例指的是风机故障信号在某频域段范围内的信号值；每个示例表示成一个长度为D的向量，频域范围可以划分为K个频段，收集的风机故障信号可以组织成K个D维向量的集合，即多示例包，记作{V1,V2,…, VK}（步骤101）；如果采集的风机信号来自于有故障风机，标签记为1，否则记为0（步骤102）；将所有收集的数据表示为（{V1,V2,…, VK}，y）的形式，y为0或者1（步骤103）。

结合图2，深度多示例网络搭建包括具体步骤依次为：搭建示例处理层模块（步骤201）：示例处理层可以建模为一个全连接网络，记作hi=F(Vi, W_ins)，Vi可以是任意一个示例，维度为D，W_ins是示例处理层的参数，最后输出的表示是hi，维度为d；搭建示例选择层模块（步骤202）：主要包括打分模块，对每个示例进行打分si=S(hi, W_sel)，其中si为示例hi对应的分数，W_sei为相关参数；搭建多示例包分类层模块（步骤203）：具体包括g=C(h_agg, W_clf)，其中h_agg是对选择示例聚合的结果，W_clf为分类参数，g是最终预测的概率分布，表示该示例包有故障的概率。

结合图3，深度多示例网络训练包括具体步骤依次为：采样训练数据（{V1,V2,…,VK}，y）（步骤300）；示例处理层处理每一个示例数据，hi=F(Vi, W_ins),i=1, 2, … , K（步骤301）；根据示例选择层选择重要示例（步骤302），首先对示例进行打分，si=S(hi, W_sel)，然后经过ui = Softmax(log(si + gi) / lambda), gi ~ Gumbel(0, 1)分布，然后选择Top-jK个最大的ui，其下标依次为j1, j2, …, jK；对选择的示例进行聚合（步骤303），比如取平均h_agg =(Vj1 + Vj2 + … + VjK) / jK作为聚合的示例包表示；通过分类层进行分类g=C(h_agg, W_clf)（步骤304）；计算损失函数（步骤305），比如通过交叉熵损失计算；通过梯度反向传播优化所有参数（步骤306），优化的参数包括W_ins, W_sel, W_clf；最后迭代步骤300-306直到模型收敛（步骤307）。

结合图4，深度多示例网络测试包括具体步骤依次为：将收集到的时序信号表示为（多示例包，）的形式（步骤400）；通过示例处理层、示例选择层、聚合操作和最终分类层进行预测（步骤401，402，403，404）；输出故障分类结果（405）。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于自动示例选择的端到端多示例学习方法，其特征在于，包括以下具体步骤：(一)、对多示例数据进行采集，并将数据分成若干个多示例数据包，所述多示例数据包包括若干个示例，且多示例数据包设置为由若干个示例组合成的一组示例集合，所述多示例数据包上具有标签，所述示例设置为一个多维向量；(二)、搭建深度多示例网络，所述深度多示例网络包括示例处理层、示例选择层和分类层；(三)、每个多示例数据包通过深度多示例网络进行处理，通过前向或反向传播进行训练，所述训练包括深度多示例网络训练和深度多示例网络测试，所述深度多示例网络训练包括以下具体步骤：

300、准备一组“多示例数据包，标签”当做训练数据；

301、通过示例处理层处理多示例数据包中的每一个示例；