CN111950692B

CN111950692B - 用于改进的通用化的基于汉明距离的稳健输出编码

Info

Publication number: CN111950692B
Application number: CN202010373193.0A
Authority: CN
Inventors: M·S·杰斯沃; 赵敏植; 姜范铢
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-16
Filing date: 2020-05-06
Publication date: 2024-05-28
Anticipated expiration: 2040-05-06
Also published as: CN111950692A; US11410043B2; US20200364578A1

Abstract

计算机实现的方法针对数据集的每个类生成基于汉明码的目标标签，其中，数据集中的目标标签之间的汉明距离被最大化，并且用基于汉明码的目标标签训练卷积神经网络，从而生成经训练的AI模型。数据集的类之间的混淆使用混淆矩阵来确定。数据集的被确定为更易被混淆的类的汉明距离被设置为比数据集的被确定为更不易被混淆的类的汉明距离更高的值。

Description

用于改进的通用化的基于汉明距离的稳健输出编码

背景技术

本发明涉及改进神经网络中的输出编码。

发明内容

根据本发明的实施例，本发明提供一种计算机实现的方法，包括：针对数据集的每个类生成基于汉明码的目标标签，其中，在数据集中目标标签之间的汉明距离被最大化；以及用修改的数据集来训练卷积神经网络，从而生成经训练的AI模型，其中，数据集的类之间的混淆使用混淆矩阵来确定，并且其中，数据集的被确定为更易被混淆的类的汉明距离被设置为比数据集的被确定为更不易被混淆的类的汉明距离更高的值。

本发明的其他实施例包括一种用于实现上述的计算机实现的方法的系统和一种计算机程序产品，该计算机程序产品包括一个或多个计算机可读存储设备和存储在该一个或多个计算机可读存储设备上的程序指令，该存储的程序指令包括：用于实现上述的计算机实现的方法的程序指令。

在研究以下附图和详细描述之后，本发明的其他系统、方法、特征和优点对于本领域的普通技术人员来说将是或将变得显而易见。本发明的意图是，所有此类附加系统、方法、特征和优点被包括在本说明书中以及本发明内容中，在本发明的范围之内，并且受到以下权利要求保护。

附图说明

本发明可参考以下附图和描述更好地理解。附图中的组件不必按比例，相反重点在于说明本发明的原理。而且，在附图中，贯穿不同的视图，相同的附图标记指定对应的部分。

图1是描绘用于深度神经网络的常规分类方案以及输出标签之间的汉明距离可如何使用多热(multi-hot)编码来增加的图。

图2是描绘通过增加神经网络的输出标签中的汉明距离来在神经网络中更好地编码的方案的图。

图3是描绘根据本发明的实施例的训练人工智能(AI)模型的方法的流程图。

图4是描绘根据本发明的实施例的生成汉明码的方法的图。

图5是描绘根据本发明的实施例的用于AI模型的训练体系结构的图并且示出了传统独热(one-hot)方法与本发明的实施例之间的差异。

图6是描绘根据本发明的实施例的使用人工智能(AI)模型生成推理结果的方法的流程图。

图7是描绘根据本发明的实施例的推理体系结构的图。

具体实施方式

图1是描绘用于深度神经网络112的常规分类方案102的图。在输出层114处，深度神经网络112针对输出标签122、124、126和128产生独热编码。即，输出标签中的每一个输出标签具有相同数量的1和0。输出标签122、124和126之间的汉明距离被固定为2，如针对输出标签的汉明距离图132所示，其中，第一个数字是零。汉明距离可通过计算汉明距离图132上的两个输出标签之间的立方体136的边缘134来确定。汉明距离图142示出了单个输出标签，即，输出标签128，其中，该输出标签的第一个数字是1。

如果多热输出标签152、154、156和158被添加作为输出标签，则在汉明距离图132中的输出标签之间，汉明距离不再被固定为2。传统方式是使用独热编码，诸如标签122、124、126和128。那些码之间的汉明距离被固定为2。我们建议使用多位(multi-bit)方式，即，每个码有2位或更多位是有效的。如码152、154、156和158中所示，在每个码中存在2位有效(设置为“1”)。这些码之间的汉明距离是2或更多。所选择的集合中的所有码将包含相同数量的有效位。即，集合{152,154,156,158}中的所有码具有2个有效位。该集合不应当与独热集合{122,124,126,128}混合。

图2是描绘通过增加神经网络(诸如图1所示的神经网络)的输出标签中的汉明距离来在神经网络中更好地编码的方案的图202。图202的左侧204描绘了用于分类方案(诸如图1的分类方案102)的输出标签，其中，输出标签是独热的并且汉明距离是2。加号236表示由输出标签222表示的类的数据，减号238表示由输出标签224表示的类的数据，o 240表示由输出标签234表示的类的数据。图242示出了如果数据是可分离的，那么存在误预测的低机会，即使使用具有2的固定汉明距离的独热码。然而，如图212所示，如果数据是不可分离的，那么误预测的机会在使用独热码时是高的。

图202的右侧254描绘了用于分类方案的输出标签，其中，输出标签是多热的。在图262中，汉明距离是2。在图264中，汉明距离是4。加号表示由输出标签272表示的类的数据，减号表示由输出标签274表示的类的数据，o表示由输出标签284表示的类的数据。加号286表示由输出标签272表示的类的数据，减号288表示由输出标签274表示的类的数据，o290表示由输出标签284表示的类的数据。如果数据是可分离的，则使用具有更高汉明距离的码不会比使用具有等于2的汉明距离的码具有附加的获益。但是，当数据是不可分离的时候，当使用具有等于2的汉明距离的码时，使用具有更高汉明距离的码将有助于分离数据。

图3是描绘根据本发明的实施例的训练人工智能(AI)模型的方法的流程图302。在步骤312处，检查数据集中的类间相似性。指示类之间的“混淆”程度的N×N矩阵，例如，数字1和7，看起来相似，特别地当手写时。在步骤314处，容易混淆的类之间的汉明距离被最大化。在步骤316处，卷积神经网络被选择用于AI模型并且真实状况(ground-truth)标签被用作汉明码。在步骤318处，执行具有二进制交叉熵损失的反向传播。图4和图5详细示出了这些步骤。

用于本发明的各种实施例的数据集的类之间的混淆矩阵(CM)可以以各种方式生成。例如，预训练的神经网络可在数据集上运行以生成CM，测量数据集的类之间的数据相似性可用于计算CM等。考虑以下情况以用于计算CM的进一步的说明。采用对以独热编码的MNIST数据进行训练的模型。在MNIST测试数据集中的所有图像上进行推理以生成CM。CM中的每个条目C_ij指示具有真实状况类i但是被预测为属于类j的图像的总数。如果两个类i和j容易混淆，则相比其中两个类有明显区别的情况，C_ij将是更大的数字。该矩阵被阈值化和后处理以得到针对容易被混淆的类的一组权重。

在本发明的实施例中，数据集的类之间的混淆可通过使用采用类中的第一类训练的自动编码器重建每个类的数据并且针对除第一类之外的每个类确定重建误差来确定。下文描述了数据集的两个类(参考类和目标类)之间的混淆可如何使用针对第一类(即，“参考类”)训练的自动编码器并且使用经训练的自动编码器以确定针对数据集的第二类(即，“目标类”)的重建误差来确定的示例。

在确定数据集的目标类的重建误差的该示例中，数据集包括手写数字的图像。自动编码器用手写数字3的图像的参考类训练。“目标类”是手写数字5的图像。来自参考类的手写数字3的参考输入图像样本和手写数字的目标输入图像样本各自被输入到在图像(即，手写数字3)的参考类上训练的自动编码器的输入层624。经训练的自动编码器然后编码参考输入图像样本的潜在空间表示并且编码目标输入图像样本的潜在空间表示。参考输入图像样本的潜在空间表示由经训练的自动编码器重建以输出针对参考输入图像样本的重建参考图像输出。同样地，目标输入图像样本的潜在空间表示由经训练的自动编码器重建以输出针对目标输入图像样本的重建目标图像输出。重建目标图像输出与目标输入图像样本的相似性然后可以使用多个技术中的任一个以定量的方式比较，诸如通过逐像素比较以定量测量重建目标图像输出与目标输入图像样本之间的相似性。用于定量测量重建目标图像输出与目标输入图像样本之间的相似性的其他技术可包括诸如但不限于以下各项的技术：二进制交叉熵、颜色直方图、余弦相似性、SIFT特征、SURF特征、或ORB特征等。通过用包括来自参考类的参考图像样本和来自目标的目标图像样本的其他组图像样本重复上述的过程，定量测量目标类与参考类之间的混淆是可能的。此外，通过使用其他类，除手写数字5的图像的类作为目标类之外，确定数据集的所有类与参考类(即，手写5的图像)之间的混淆是可能的。另外，通过使用采用数据集的任何类训练的自动编码器并且使用该类作为“参考类”以及任何其他类作为“目标类”，以类似的方式确定数据集的任何其他类与特定参考类之间的混淆是可能的。

图4是描绘根据本发明的实施例的生成汉明码的方法的图402。在图402的左边412描绘了具有六个节点416的完全图414，其中边缘具有混淆度量。针对给定编码长度(L)中的给定热数(M)，存在大量的可能编码(MCL)并且可容易地获得一对编码之间的汉明距离，其可形成为图402的右边424的完全图422。在完全图422中，节点426表示可能的编码并且边缘用两个连接的编码节点之间的汉明距离来加权。让C表示数据集中的语义类的数量。目标是以以下方式将C个类分配给图形的子集(即，将每个类映射到图形中的节点)：具有更高混淆水平的两个类被映射到经由具有更大汉明距离的边缘连接的两个编码节点。优化过程通过使以下目标函数最大化来完成，其中，N是类的总数。W_ij和H_ij是类i与类j之间的类间相似性和汉明距离。

图5是描绘根据本发明的实施例的用于AI模型的训练体系结构502的图。选择了卷积神经网络(CNN)体系结构512。如图5所示，传统方法514是使用独热编码标签，如由箭头516所指示的，其具有柔性最大值(softmax)层518。图5还示出了本发明的实施例的方法524，其中，使用多热汉明码，如由箭头526所指示的，其具有S形(sigmoid)层528。在选择设置之后，训练集中的图像通过CNN 512向前和向后传播以获得经训练的AI模型。注意，模型中的神经元的总数和计算次数在传统方法514中和在本发明的实施例的方法524中相同。然而，方法524产生更通用的模型。

图6示出了描绘根据本发明的实施例的使用人工智能(AI)模型生成推理结果的方法的流程图602。在步骤612处，输入图像通过经训练的AI模型(诸如使用图3所示的方法训练的AI模型)来向前传播。在步骤614处，首k个分对数(logit)被二值化以生成二值化码，从二值化码到一组目标汉明码的欧几里德距离被计算并且选择对应于最近汉明码的输出标签。

图7是描绘根据本发明的实施例的推理体系结构的图702。这是图6呈现的流程图的示例。在该示例中，数字“3”的输入图像712通过根据本发明的实施例训练的AI模型714来向前传播。如由箭头722所指示的，AI模型714的输出718的首k个分对数716被二值化以生成二值化码724。然后，计算由箭头726指示的目标汉明码728中的每一个与二值化码724的欧几里德距离。如由箭头734所指示的，对应于最近汉明码的目标标签732被选择为针对每个输入图像712的标签。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是--但不限于--电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实现的方法，包括：

针对数据集的每个类生成基于汉明码的目标标签，其中，所述数据集中的所述目标标签之间的汉明距离被最大化；以及

用修改的数据集训练卷积神经网络，从而生成经训练的AI模型，

其中，所述数据集的类之间的混淆使用混淆矩阵来确定，以及

其中，所述数据集的被确定为更易被混淆的类的汉明距离被设置为比所述数据集的被确定为更不易被混淆的类的汉明距离更高的值，其中，所述数据集是图像的数据集。

2.根据权利要求1所述的计算机实现的方法，其中，所述数据集的类之间的所述混淆通过使用采用所述类中的第一类训练的自动编码器来重建每个类的数据并且针对除所述第一类之外的每个类确定重建误差来确定。

3.根据权利要求1所述的计算机实现的方法，其中，所述数据集的类之间的所述混淆通过使用数据相似性方法计算混淆矩阵来确定。

4.根据权利要求1所述的计算机实现的方法，其中，汉明码通过使目标标签之间的所述汉明距离最大化来生成；其中，所述目标标签基于所述数据集中的类之间的所述混淆而被加权，并且其中，所述数据集中的每个类都有一个汉明码。

5.根据权利要求1所述的计算机实现的方法，其中，训练是通过具有二进制交叉熵损失的反向传播来进行的。

6.根据权利要求1所述的计算机实现的方法，还包括：

使用经训练的AI模型来向前传播；

将S形层的首k个分对数进行二值化以产生二值化码；

计算从所述二值化码到一组目标汉明码的欧几里德距离；以及

选择与最近的汉明码对应的输出标签，从而生成推理结果。

7.一种计算机程序产品，包括程序指令，所述程序指令能够由一个或多个处理器执行以使所述一个或多个处理器执行根据权利要求1-6中的任一项所述的方法。

8.一种计算机系统，包括：一个或多个计算机处理器，一个或多个计算机可读存储介质，以及程序指令，所述程序指令被存储在所述计算机可读存储介质中的一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个计算机处理器执行，所述程序指令当由所述一个或多个计算机处理器中的所述至少一个计算机处理器执行时，使得所述计算机处理器执行根据权利要求1-6中的任一项所述的方法。

9.一种计算机系统，包括用于执行根据权利要求1-6中的任一项所述的方法中的步骤的模块。