CN111666965B

CN111666965B - 改进图像识别的多级别深度特征和多匹配器融合

Info

Publication number: CN111666965B
Application number: CN202010144580.7A
Authority: CN
Inventors: N·K·拉查; G·戈斯瓦米; S·U·潘坎蒂
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-03-05
Filing date: 2020-03-04
Publication date: 2023-12-22
Anticipated expiration: 2040-03-04
Also published as: CN111666965A; US10956778B2; US20200285914A1

Abstract

一种用于实现图像识别的系统、方法和程序产品。公开了一种系统，该系统包括：训练系统，用于生成用于对图像对进行评分的多特征多匹配器融合(MMF)预测器，所述训练系统具有：神经网络，可配置为基于训练数据集合提取具有不同分辨率的特征空间集合；以及优化器，处理所述训练数据集合、所提取的特征空间和匹配器函数集合，以生成具有一系列加权特征/匹配器分量的MMF预测器；以及预测系统，该预测系统利用所述MMF预测器来生成预测分数，所述预测分数指示针对图像对的匹配。

Description

改进图像识别的多级别深度特征和多匹配器融合

技术领域

本发明的主题涉及图像识别，并且更具体地涉及融合多个特征空间级别和多个匹配器函数以改进图像识别的系统和方法。

背景技术

诸如面部识别精度的图像识别技术的改进仍然是持续的挑战。深度学习神经网络(DNN)是用于此类应用的领先技术，并且在处理高质量图像时特别有效。DNN通常通过以下各项进行工作：使用训练数据训练神经网络来确定最优权重集合，以便于提取可用于将主题与图像对进行比较的特征。可测量属性或“特征空间”的典型集合由固定数量的维度组成，例如256个。

一旦被训练，个体图像就可以通过神经网络以生成由特征空间定义的测量值集合(即，特征向量)。为了确定新近获取的图像是否与存储的图像匹配，例如使用诸如分类或距离算法的匹配器函数来比较两个图像的特征向量。然而，随着数据库搜索变得越来越大，需要更高的精度。另外，在更具挑战性的情况下，例如，由于低分辨率、不良姿势、差的照明等而导致输入的图像质量较差的情况下，需要精度的进一步提高。

发明内容

本公开的各方面提供了融合多个特征空间级别和多个匹配器函数以改进图像识别的系统和方法。

第一方面公开了一种图像识别系统，具有：训练系统，用于生成用于对图像对进行评分的多特征多匹配器融合(MMF)预测器，该训练系统具有：神经网络，可配置为基于训练数据集合提取具有不同分辨率的特征空间集合；以及优化器，所述优化器处理训练数据集合、提取的特征空间和匹配器函数集合，以生成具有一系列加权特征/匹配器分量的MMF预测器；以及预测系统，利用MMF预测器来生成预测分数，该预测分数指示针对图像对的匹配。

第二方面公开了一种存储在计算机可读存储介质上的计算机程序产品，该计算机程序产品在由计算系统执行时提供图像识别，该程序产品包括：程序代码，用于生成用于对图像对进行评分的多特征多匹配器融合(MMF)预测器，并具有：神经网络，可配置为基于训练数据集合来提取具有不同分辨率的特征空间集合；以及优化器，该优化器处理训练数据集合、提取的特征空间、和匹配器函数集合，以生成具有一系列加权特征/匹配器分量的MMF预测器；以及程序代码，该程序代码利用MMF预测器来生成预测分数，该预测分数指示图像对的匹配。

第三方面公开了一种实现图像识别的计算机化方法，包括：在训练数据集合上训练神经网络；从所述神经网络提取具有不同分辨率的特征空间集合；选择匹配器函数集合；生成具有特征/匹配器分量集合的多特征多匹配器融合(MMF)预测器，其中所述MMF预测器被配置为输出针对输入图像对的分数；以及基于所述训练数据集合、所提取的特征空间和匹配器函数集合来计算针对所述特征/匹配器分量中的每一个特征/匹配器分量的权重。

附图说明

通过以下结合附图对本发明各个方面的详细描述，将更容易理解本发明的这些和其他特征，在附图中：

图1示出了根据实施例的具有图像识别系统的计算系统。

图2示出了根据实施例的训练系统。

图3示出了根据实施例的预测系统。

图4示出了根据实施例的面部识别过程的流程图。

附图不一定按比例绘制。附图仅是示意性表示，并不旨在描绘本发明的特定参数。附图仅旨在描绘本发明的典型实施例，并且因此不应被视为限制本发明的范围。在附图中，类似的标号表示类似的元素。

具体实施方式

现在参考附图，图1描绘了具有图像识别系统18的计算系统10，该图像识别系统18可以例如确定输入的图像28是否与图像数据库34中的一个或多个图像匹配，并生成识别输出30。例如，图像识别系统18可以包括面部识别系统，其中输入的图像28包括视频馈送中的检测到的面部图像，并且图像数据库34包括处理后的面部图像。识别输出30可以指示面部匹配是否被检测到、所识别的图像的标识等。

图像识别系统18通常包括：(1)训练系统20，其使用训练数据集32、匹配器函数集合24、和一个或多个神经网络26来生成多匹配器多距离融合(MMF)预测器；(2)预测系统22，其使用MMF预测器、一个或多个神经网络26和匹配器函数集合24来将输入的图像28与存储在图像数据库34中的图像进行比较。任意类型的匹配器函数24可以被利用，例如余弦、卡方、欧几里得、相关距离等，并且匹配器函数24的数量和类型可以以任意方式选择，例如基于设计者的经验、机器学习等。

图2描绘了训练系统20的示意性实施例，其中使用训练数据集合32训练单个神经网络26，以提取具有不同分辨率的特征空间集合48。因此，不是仅计算单个最终特征空间，例如，大小＝512，而是提取系统40被采用以从神经网络26中提取多个特征空间(例如，大小＝64、128、256等)。因此，每个分辨率包括可用于表示图像以用于识别目的的不同数量和类型的可测量属性。一旦生成，选择器42就可以被采用以选择由提取的特征空间48的子集组成的表示50的集合。选择器42可以使用任意处理来选择表示50的集合，例如机器学习、评分算法、优化器等

一旦选择了表示50的最终集合，则它们(以及匹配器函数集合24和训练数据集合32)由随机优化器44处理以制定MMF预测器46。在一个示意性实施例中，MMF预测器46包括一系列加权的“特征/匹配器”分量48A、48B、48C，其包括匹配器函数24和表示50的一些或全部可能的组合。因此，如果存在P个表示50和Q个匹配器函数24，则MMF预测器46将包括PxQ个加权特征/匹配器分量。

注意，选择器42可以被并入优化器44中，使得在一个集成过程中一起确定表示50的选择和MMF预测器46的权重的计算。

所得到的MMF预测器46被配置为使用以下通用格式对两个输入图像进行评分：

Score＝W_1,1(D₁(F1₁,F2₁))+W_1,2(D₁(F1₂,F2₂))+…+W_N,n(D_N(F1_n,F2_n))

(F1_j,F2_j)表示第j个特征空间中的两个输入图像的特征向量的值。D_i表示用于计算两个特征向量之间的匹配器分数的第i个匹配器函数。W_i,j表示使用第i个匹配器函数和第j个特征空间所施加的权重。在存在两个表示形式50(即特征空间)和两个匹配器函数的情况下，MMF预测器46将具有以下格式的四个特征/匹配器分量：

Score＝W_1,1(D₁(F1₁,F2₁))+W_1,2(D₁(F1₂,F2₂))+W_2,1(D₂(F1₁,F2₁))+W_2,2(D₂(F1₂,F2₂))

优化器44被配置为知道哪些“特征/匹配器”组合将最佳执行并相应地对其进行加权。每个权重W_i，j可以在[0，1]的范围内，使得某些比较能够在最终预测分数中比其他贡献更多，并且允许完全忽略一个或多个特征/匹配器分量的可能性。在替代实施例中，权重可以是二进制的，即1或0。优化器44可以根据问题的要求来利用包括涉及识别性能、准确性、交叉熵损失等的任何优化准则。另外，可以利用随机网格搜索和/或随机梯度下降。

图3描绘了预测系统22的示意性实施例，该预测系统22处理输入的图像数据28(在这种情况下为面部图像62)，并确定例如图像数据库34中所存储的面部图像68中的任意一个之间是否存在匹配。在该示例中，预测处理器60接收面部图像62并将其转发到神经网络26，然后神经网络26基于MMF预测器46所需的表示50(即，特征空间)来生成特征向量集合64。例如，MMF预测器46可以指定需要大小＝512和大小＝128的特征空间。在这种情况下，将通过神经网络26针对面部图像62计算那些分辨率的两个特征向量64。

一旦获得了针对面部图像62的特征向量64，就将它们与所存储的图像68的(相同分辨率的)特征向量66一起插入MMF预测器46中，并计算预测分数。如本文中所详述，MMF预测器46将利用匹配器函数集合24(图2)和定义的权重来生成预测分数。该过程可以针对图像数据库34中的每个图像，或者直到达到阈值预测分数为止进行重复。识别输出30可以包括匹配图像、分数和/或任何其他预测信息。在该示例中，用于所存储的图像68的特征向量66被神经网络26预先计算(预处理)并被存储。然而，可替代地根据需要计算用于所存储的图像68的特征向量66。

图4描绘了面部识别过程的流程图。在S1，实现一个或多个神经网络26，并且在S2，用面部图像的数据集合来训练神经网络26。在S3处，从所训练的神经网络26中提取具有不同分辨率的特征空间集合。在S4处，选择匹配器函数集合24，并且在S5处，制定具有一系列特征/匹配器分量的MMF预测器46。在S6，基于训练数据集、所提取的特征空间、和匹配器函数集合24，使用优化过程来计算针对每个特征/匹配器分量的权重。在S7，部署MMF预测器46以计算预测分数，该预测分数指示所输入的面部图像对的匹配。

应当理解，图像识别系统18可以被实现为存储在计算机可读存储介质上的计算机程序产品。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或源代码或对象代码，其用包括诸如Java、Python、Smalltalk、C++等的面向对象的编程语言的一种或多种编程语言和诸如“C”编程语言或类似编程语言的常规过程编程语言的任意组合编写。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上作为独立软件包、部分在用户计算机上并且部分在远程计算机上、或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者连接可以与外部计算机进行(例如通过使用Internet服务提供商的Internet)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以个性化电子电路，以便于执行本发明的方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

计算系统10(图1)可以包括任何类型的计算设备，并且例如包括至少一个处理器12、存储器20、输入/输出(I/O)14(例如，一个或多个I/O接口和/或设备)、和通信路径16。通常，一个或多个处理器12执行至少部分固定在存储器20中的程序代码。在执行程序代码时，一个或多个处理器12可以处理数据，这可能导致从/向存储器和/或I/O 14读取和/或写入经变换的数据以进行进一步处理。路径16提供计算系统10中的组件中的每一个之间的通信链路。I/O 14可以包括一个或多个人类I/O设备，其使得用户能够与计算系统10进行交互。计算系统10也可以以分布式方式实现，使得不同的组件位于不同的物理位置。

此外，应理解，图像识别系统18或其相关组件(诸如API组件、代理等)也可以通过将组件发送到中央服务器或中央服务器组来自动或半自动地部署到计算机系统中。然后将组件下载到将执行组件的目标计算机中。然后，将组件分离到目录或加载到目录中，该目录执行将组件分离到目录中的程序。另一替代方案是将组件直接发送到客户端计算机硬盘驱动器上的目录。当存在代理服务器时，过程将选择代理服务器代码，确定将代理服务器代码放在哪些计算机上，发送代理服务器代码，然后在代理计算机上安装代理服务器代码。组件将被发送到代理服务器，并且然后将其存储在代理服务器上。

为了说明和描述的目的，已经给出了本发明各个方面的前述描述。不旨在穷举本发明或将本发明限制为所公开的精确形式，并且显然，许多修改和变型是可能的。对于本领域技术人员而言显而易见的这种修改和变型被包括在由所附权利要求所限定的本发明的范围内。

Claims

1.一种图像识别系统，包括：

训练系统，用于生成用于对图像对进行评分的多特征多匹配器融合MMF预测器，所述训练系统具有：

神经网络，可配置为基于训练数据集合提取具有不同分辨率的特征空间集合；

优化器，所述优化器处理所述训练数据集合、提取的特征空间和匹配器函数集合，以生成具有一系列加权特征/匹配器分量的所述MMF预测器；以及

预测系统，所述预测系统利用所述MMF预测器来生成预测分数，所述预测分数指示针对图像对的匹配。

2.根据权利要求1所述的图像识别系统，其中所述匹配器函数使用以下一项被实现：余弦、卡方、欧几里得和相关距离度量。

3.根据权利要求1所述的图像识别系统，其中针对所述特征空间的所述不同分辨率包括128、256、518和1024的大小。

4.根据权利要求1所述的图像识别系统，其中所述MMF预测器的所述加权特征/匹配器分量具有范围在0和1之间的权重。

5.根据权利要求1所述的图像识别系统，其中所述预测系统利用所述神经网络来为输入图像生成与所选择的特征空间相对应的不同特征向量。

6.根据权利要求5所述的图像识别系统，其中所述不同特征向量连同与所存储的图像相关联的第二特征向量集合由所述MMF预测器利用。

7.根据权利要求5所述的图像识别系统，其中所述MMF预测器具有以下形式：

分数＝W_1,1(D₁(F1₁,F2₁))+W_1,2(D₁(F1₂,F2₂))+…+W_N,n(D_N(F1_n,F2_n))，

其中(F1_j,F2_j)表示针对第j个特征空间中的两个输入图像的所述特征向量的值，D_i表示被用于计算两个所述特征向量之间的匹配器分数的第i个匹配器函数，并且W_i,j表示使用所述第i个匹配器函数和所述第j个特征空间所应用的权重。

8.一种计算机可读存储介质，其上存储有计算机可读代码，所述计算机可读代码在由计算系统执行时提供图像识别，所述计算机可读代码包括：

训练代码，用于生成多特征多匹配器融合MMF预测器，以用于对图像对进行评分，并且具有：

神经网络，可配置为基于训练数据集合来提取具有不同分辨率的特征空间集合；以及

优化器，所述优化器处理所述训练数据集合、提取的特征空间、和匹配器函数集合，以生成具有一系列加权特征/匹配器分量的所述MMF预测器；以及

预测代码，所述预测代码利用所述MMF预测器来生成预测分数，所述预测分数指示针对图像对的匹配。

9.根据权利要求8所述的计算机可读存储介质，其中所述匹配器函数使用以下一项被实现：余弦、卡方、欧几里得和相关距离度量。

10.根据权利要求8所述的计算机可读存储介质，其中针对所述特征空间的所述不同分辨率包括128、256、518和1024的大小。

11.根据权利要求8所述的计算机可读存储介质，其中所述MMF预测器的所述加权特征/匹配器分量具有范围在0和1之间的权重。

12.根据权利要求8所述的计算机可读存储介质，其中生成所述预测分数是使用所述神经网络为输入图像生成与所选择的特征空间相对应的不同特征向量来完成的。

13.根据权利要求12所述的计算机可读存储介质，其中所述不同特征向量连同与存储的图像相关联的第二特征向量集合由所述MMF预测器利用。

14.根据权利要求12所述的计算机可读存储介质，其中所述MMF预测器具有以下形式：

其中(F1_j,F2_j)表示针对第j个特征空间中的两个输入图像的所述特征向量的值，D_i表示用于计算两个所述特征向量之间的匹配器分数的第i个匹配器函数，并且W_i,j表示使用所述第i个匹配器函数和所述第j个特征空间所应用的权重。

15.一种实现图像识别的计算机化方法，包括：

在训练数据集合上训练神经网络；

从所述神经网络提取具有不同分辨率的特征空间集合；

选择匹配器函数集合；

生成具有特征/匹配器分量集合的多特征多匹配器融合MMF预测器，其中所述MMF预测器被配置为输出针对输入图像对的分数；以及

基于所述训练数据集合、所提取的特征空间和匹配器函数集合来计算针对所述特征/匹配器分量中的每一个特征/匹配器分量的权重。

16.根据权利要求15所述的方法，还包括：利用所述MMF预测器来生成预测分数，所述预测分数指示针对输入图像对的匹配。

17.根据权利要求15所述的方法，还包括：

实现多个神经网络；

训练所述多个神经网络中的每个神经网络；以及

从所述神经网络中提取具有不同分辨率的其他特征空间。

18.根据权利要求15所述的方法，其中所述匹配器函数使用以下一项被实现：余弦、卡方、欧几里得和相关距离度量。

19.根据权利要求15所述的方法，其中所述MMF预测器的所述权重具有范围在0至1之间的权重。

20.根据权利要求15所述的方法，其中所述MMF预测器具有以下形式：

其中(F1_j,F2_j)表示针对第j个特征空间中的两个输入图像的特征向量的值，D_i表示用于计算两个所述特征向量之间的匹配器分数的第i个匹配器函数，并且W_i,j表示使用所述第i个匹配器函数和所述第j个特征空间所应用的权重。

21.一种实现图像识别的系统，所述系统包括分别用于执行根据权利要求15至20中任一项所述的方法的步骤的模块。