CN110728625B

CN110728625B - 一种图像推理的方法及装置

Info

Publication number: CN110728625B
Application number: CN201910974274.3A
Authority: CN
Inventors: 廖敏鹏; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2023-06-30
Anticipated expiration: 2039-10-14
Also published as: CN110728625A

Abstract

本申请提供一种图像推理的方法及装置，其中所述方法包括：获取待推理图像；将所述待推理图像进行缩放，生成至少一个缩放图像；将所述至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征；将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，并基于所述融合特征生成所述待推理图像的表达式。本方法无需增加多个模型对图像进行处理，而是利用图像缩放变换实现了模型融合的效果，在不增加模型数量的情况下，使模型能更好的识别同一图像尺寸中不同大小的字符以及不同图像尺寸中的字符，有效提高了模型推理结果的推理精度。

Description

一种图像推理的方法及装置

技术领域

本申请涉及图像识别技术领域，特别涉及一种图像推理的方法及装置、计算设备和计算机可读存储介质。

背景技术

随着深度学习技术的发展，基于深度学习的图像推理任务已经趋于成熟。图像推理任务为通过图像识别模型对图像进行识别，得到图像中的内容生成对应的文字或公式，例如Image2text任务、Image2latex任务。

例如对于Image2latex任务，需要将图像中的公式进行识别并转换为latex公式。由于公式不仅包括数字，还会包括标点、上下角标、运算符号等等，对于此种图像，需要对图像中的公式的每个细节均识别准确，否则就会导致最终结果的偏差。所以，与一般的人物风景图像的识别任务不同，对于包括公式的图像识别任务，图像中公式的尺寸对模型性能的影响因素会更大，进而更多地影响实际的图像推理结果。

现有的图像推理任务中，利用深度学习网络模型对单个待推理图像进行特征提取，然后对特征进行解码，进而得到待推理图像对应的文字或公式。为了提高对图像推理的精度，现有的做法一般是采用多个网络模型对同一个图像进行推理，并根据推理结果进行加权结合得到最终的推理结果。此种方式并没有考虑网络模型对图像尺寸的敏感特性，最终导致结果的精度降低。

发明内容

有鉴于此，本申请实施例提供了一种图像推理的方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种图像推理的方法，包括：

获取待推理图像；

将所述待推理图像进行缩放，生成至少一个缩放图像；

将所述至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征；

将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，并基于所述融合特征生成所述待推理图像的表达式。

可选地，所述图像推理模型包括：特征提取模型和特征推理模型；

将所述至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征，包括：

将所述至少一个缩放图像输入至特征提取模型，得到每个所述缩放图像对应的图像特征；

将每个所述缩放图像对应的图像特征分别经由自注意力层进行处理，得到每个所述缩放图像对应的自注意力图像特征；

将每个所述缩放图像对应的自注意力图像特征以及参考特征输入至所述特征推理模型，获得每个缩放图像对应的输出特征。

可选地，将每个所述缩放图像对应的自注意力图像特征以及参考特征输入至所述特征推理模型，获得每个缩放图像对应的输出特征，包括：

将每个所述缩放图像对应的自注意力图像特征以及初始参考特征输入至特征推理模型，获得每个缩放图像对应的第一次的输出特征；或

将每个所述缩放图像对应的自注意力图像特征以及前一次生成的融合特征输入所述特征推理模型，获得每个缩放图像对应的当前次的输出特征。

可选地，所述特征推理模型为时序模型。

可选地，将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，包括：

将所述至少一个缩放图像对应的当前次的输出特征输入至融合单元，以使所述融合单元根据融合策略生成所述待推理图像对应的当前次的融合特征。

可选地，基于所述融合特征生成所述待推理图像的表达式，包括：

基于第一个到最后一个所述融合特征生成所述待推理图像的表达式。

本申请实施例提供了一种图像推理的装置，包括：

图像获取模块，被配置为获取待推理图像；

图像缩放模块，被配置为将所述待推理图像进行缩放，生成至少一个缩放图像；

图像推理模块，被配置为将所述至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征；

特征融合模块，被配置为将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，并基于所述融合特征生成所述待推理图像的表达式。

所述图像推理模块具体被配置为：

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述图像推理方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述图像推理方法的步骤。

本申请提供的图像推理的方法及装置，利用了图像推理模型对不同尺寸的图像的表现性能不同以及对同一图像尺寸下不同大小的字符的表现性能不同的特性，将待推理图像进行缩放，生成至少一个缩放图像，然后将至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征，从而通过对待推理图像的不同尺寸的缩放图像进行特征提取，并将至少一个缩放图像对应的输出特征进行融合得到融合特征，最终基于融合特征生成待推理图像的表达式，从而无需增加多个模型对图像进行处理，而是利用图像缩放变换实现了模型融合的效果，在不增加模型数量的情况下，使模型能更好的识别同一图像尺寸中不同大小的字符以及不同图像尺寸中的字符，有效提高了模型推理结果的推理精度。

附图说明

图1是本申请实施例的计算设备的系统结构示意图；

图2是本申请一实施例的图像推理方法的流程示意图；

图3是本申请一实施例的图像推理方法的流程示意图；

图4是本申请另一实施例的图像推理方法所用模型的架构示意图；

图5是本申请另一实施例的图像推理方法的流程示意图；

图6是本申请一实施例的图像推理装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

Image2latex任务：根据公式图像，生成latex格式公式的任务。其目标是建立一个端到端的神经网络模型，可以将公式图像转化为Latex表示。

自注意力机制(Attention)：指对图像不同位置的权重的大小。

长短期记忆网络模型(Long Short-Term Memory，LSTM)：是一种时间循环神经网络，能够处理时序信号的网络结构，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

在本申请中，提供了一种图像推理的方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的图像推理的方法的示意性流程图，包括步骤201至步骤204。

201、获取待推理图像。

本实施例中，待推理图像可以为多种，例如公式图像、文本图像等，并通过本实施例的方法对图像中的内容进行识别。

其中，获取待推理图像的方式有多种，例如可以为通过访问存储设备中的设定存储位置进行获取，也可以为通过在网络中通过搜索引擎输入关键词的方式下载获取。

202、将所述待推理图像进行缩放，生成至少一个缩放图像。

需要说明的是，本实施例提及的缩放，既可以是按比例缩放，即长宽比保持不变；也可以不是按比例缩放，即长宽比可以变化，例如仅改变宽度，长度保持不变，或者宽度与长度的变化比例互不相同。

另外需要说明的是，在图像缩放的过程中，会出现图像放大后变模糊的情形以及图像缩小后不便识别的情形，但是并不会必然导致后续图像推理模型的效果变差，而更多地依赖于模型训练程度的好坏。

具体地，比例值可以为一个，也可以为多个。例如将待推理图像分别进行0.5倍、0.9倍、1倍、1.1倍和1.5倍的缩放，生成5个缩放图像。在缩放后，不同的图像的尺寸会有所不同。在待推理图像的尺寸为w*h的情况下，生成的缩放图像尺寸分别为0.5*(w*h)、0.9*(w*h)、1*(w*h)、1.1*(w*h)和1.5*(w*h)。

对于神经网络模型，会由于图像的尺寸不同而关注的重点区域不同。例如对于上标的运算符号，由于其一般在公式中所占比例较小，所以相比于正常尺寸的待推理图像，在将待推理图像放大后，模型会更多地关注到该上标区域，并准确地将该上标符号识别出。又例如对于累加等运算符号，由于其一般在公式中所占比例较大，在正常尺寸的图像中，模型会将该符号误识别为其他符号，所以相比于正常尺寸的待推理图像，在将待推理图像缩小后，模型会更准确地识别出该累加符号。

203、将所述至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征。

本实施例中，至少一个缩放图像指的是对应同一个待推理图像的至少一个缩放图像。需要说明的是，由于缩放图像的尺寸彼此不同，但输出特征的个数也彼此不同。例如对于尺寸分别为0.5*(w*h)、0.9*(w*h)、1*(w*h)、1.1*(w*h)和1.5*(w*h)的缩放图像，生成的输出特征分别为N*M*L1、N*M*L2、N*M*L3、N*M*L4和N*M*L5。其中，N*M为输出特征的尺寸，L1～L5为通道数，也即输出特征的个数。

具体地，图像推理模型包括：特征提取模型和特征推理模型，步骤203具体包括：

301、将至少一个缩放图像输入至特征提取模型，得到每个缩放图像对应的图像特征。

本实施例中，特征提取模型可以为多种，例如可以为VGG(Visual Geometry GroupNetwork，视觉几何组网络)、Resnet模型、Densnet模型、inceptionv3模型等卷积网络模型。

以CNN模型为例，CNN模型一般包括：输入层、卷积层、池化层和全连接层。一方面CNN模型的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

对于特征提取模型，通过设置特征提取模型的卷积层参数，可以调节图像特征的尺寸。例如对于提取的图像特征为224*224*3，其中224*224是图像特征的高度*宽度，即图像特征的尺寸；3是通道数，也即图像特征的个数。通常情况下，输入图像的高度和宽度相等，卷积层的卷积核大小可以根据实际需求而设置，常用的卷积核有1*1*1、3*3*3、5*5*5、7*7*7等。

302、将每个所述缩放图像对应的图像特征分别经由自注意力层进行处理，得到每个所述缩放图像对应的自注意力图像特征。

具体地，将每个缩放图像对应的图像特征分别经由Attention自注意力层进行处理，得到每个缩放图像对应的自注意力图像特征。

需要注意的是，对于不同尺寸的缩放图像，其对应的图像特征彼此不同，经由自注意力层处理得到的自注意力图像特征也彼此不同。

303、将每个缩放图像对应的自注意力图像特征以及参考特征输入至特征推理模型，获得每个缩放图像对应的输出特征。

本实施例中，特征推理模型为时序模型，具体地可以为GRU(Gate RecurrentUnit，门循环单元)、Transformer模型、RNN(Recurrent Neural Network，循环神经网络)模型、LSTM(Long Short-Term Memory，长短期记忆网络)模型，可以采用循环推理的方式，逐次生成每个缩放图像对应的当前次的输出特征，最终得到每个缩放图像对应的输出特征。

具体地，步骤303包括：对于每个缩放图像的第一个输出特征，将每个缩放图像对应的自注意力图像特征以及初始参考特征输入至特征推理模型，获得每个缩放图像对应的第一次的输出特征。

其中，初始参考特征可以为预先设置的初始特征。

对于每个缩放图像的除去第一个的其他输出特征，将每个缩放图像对应的自注意力图像特征以及前一次生成的融合特征输入特征推理模型，获得每个缩放图像对应的当前次的输出特征。

需要注意的是，对于不同尺寸的缩放图像，经由自注意力层处理得到的自注意力图像特征彼此不同，每个缩放图像对应的当前次的输出特征也彼此不同。

例如对于尺寸分别为0.5*(w*h)、0.9*(w*h)、1*(w*h)、1.1*(w*h)和1.5*(w*h)的缩放图像，经由自注意力层处理得到的自注意力图像特征分别为N’*M’*L1’、N’*M’*L2’、N’*M’*L3’、N’*M’*L4’和N’*M’*L5’，生成的当前次的输出特征分别为N*M*L1、N*M*L2、N*M*L3、N*M*L4和N*M*L5。

204、将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，并基于所述融合特征生成所述待推理图像的表达式。

步骤204中，将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，包括：将所述至少一个缩放图像对应的当前次的输出特征输入至融合单元，以使所述融合单元根据融合策略生成所述待推理图像对应的当前次的融合特征。

本实施例中，特征融合的方法有很多，例如投票法、最大值平均法、log平均法、加权平均法等。

例如对于生成的当前次的输出特征分别为N*M*L1、N*M*L2、N*M*L3、N*M*L4和N*M*L5进行融合，得到的当前次的融合特征为(N*M*L)n。并将当前次的融合特征输入至特征推理模型，用于获得每个缩放图像对应的下一次的输出特征。

在特征推理模型迭代生成输出特征的过程中，直至遇到结束符，则认为输出特征生成完毕，停止迭代过程，然后基于获得的融合特征生成最终的表达式。

具体地，基于融合特征生成待推理图像的表达式，包括：基于第一个到最后一个融合特征生成待推理图像的表达式。

本申请提供的图像推理的方法，利用了图像推理模型对不同图像尺寸的表现性能不同以及对同一图像尺寸中不同大小的字符的表现性能不同的特性，将待推理图像进行缩放，生成至少一个缩放图像，然后将至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征，从而通过对待推理图像的不同尺寸的缩放图像进行特征提取，并将至少一个缩放图像对应的输出特征进行融合得到融合特征，最终基于融合特征生成待推理图像的表达式，从而无需增加多个模型对图像进行处理，而是利用图像缩放变换实现了模型融合的效果，在不增加模型数量的情况下，使模型能更好的识别同一图像尺寸中不同大小的字符以及不同图像尺寸中的字符，有效提高了模型推理结果的推理精度。

针对Image2latex任务对模型的要求更高的情形，本实施例的图像推理的方法采用时序模型对特征进行推理获得每个缩放图像对应的输出特征，再将至少一个缩放图像对应的输出特征进行融合，从而利用了图像推理模型对不同图像尺寸下的识别能力不同的特性，以更准确地识别到公式的各个组成部分，包括数字、标点、上下角标、运算符号等等。

为了进一步地对本实施例的技术方案进行解释，下述实施例以一具体实施例对本申请的技术方案进行示意性的说明。图4示出了本实施例的图像推理的方法所应用的模型架构示意图，图5示出了本实施例的图像推理的方法的流程示意图。以图4中的公式图像为例，本申请实施例公开的图像推理的方法包括：

501、获取待推理图像。

502、将所述待推理图像进行缩放，生成n个缩放图像。

以按比例缩放为例，假如待推理图像的尺寸为w*h，生成的n个缩放图像分别为a₁*w*h、a₂*w*h、……a_n*w*h。其中，a₁、a₂……a_n是缩放系数。

503、将n个缩放图像输入至特征提取模型，得到每个缩放图像对应的图像特征。

本实施例中，特征提取模型优选为CNN模型。

504、将n个缩放图像对应的图像特征分别经由自注意力层进行处理，分别得到n个缩放图像对应的自注意力图像特征。

505、将n个缩放图像对应的自注意力图像特征以及参考特征输入至特征推理模型，分别获得n个缩放图像对应的输出特征。

本实施例中，特征推理模型优选为LSTM模型。

具体地，将每个缩放图像对应的自注意力图像特征以及前一次生成的融合特征输入LSTM模型，获得每个缩放图像对应的当前次的输出特征。

506、将n个缩放图像对应的输出特征输入至融合单元进行融合，得到待推理图像的1个融合特征。

507、基于第一个到最后一个融合特征生成待推理图像的表达式。

具体地，对于图4中的公式

将n个缩放图像对应的自注意力图像特征以及初始参考特征输入至LSTM模型，分别获得n个缩放图像对应的输出特征，将n个缩放图像对应的输出特征输入至融合单元进行融合，得到第一次的融合特征为\frac。

将第一次的融合特征\frac输入LSTM模型，以使LSTM模型根据n个缩放图像对应的自注意力图像特征以及第一次的融合特征分别获得n个缩放图像对应的当前次的输出特征，然后经过融合单元进行融合，得到第二次的融合特征为{。

……

依次类推，得到第三次的融合特征为Q；第四次的融合特征为^；第五次的融合特征为{；第六次的融合特征为2；第七次的融合特征为}；第八次的融合特征为}；第九次的融合特征为x；第十次的融合特征为S；第十一次的融合特征为}；第十二次的融合特征为\leq；第十三次的融合特征为z；第十四次的融合特征为\leq；第十五次的融合特征为l。

最终，得到公式图像

对应的表达式为“\frac{Q^{2}}{xS}\leqz\leql”。

可见，由于图像推理模型对不同尺寸图像的表现性能不同，且对同一尺寸图像中不同大小的字符表现性能也不一样，如示例中上标和正常文字的模型表现能力就不一样，因此，本方法通过利用图像缩放技术，深度挖掘图像推理模型性能，使图像推理模型能更好的识别同一尺寸图像下不同大小的字符以及不同图像尺寸中的字符，进而获得图像推理模型融合的更优结果，有效提高了图像推理模型推理结果的推理精度。

本实施例的图像推理的方法采用LSTM模型对特征进行推理获得每个缩放图像对应的输出特征，再将至少一个缩放图像对应的输出特征进行融合，从而利用了图像推理模型对不同图像尺寸下的识别能力不同的特性，以更准确地识别到公式的各个组成部分，包括数字、标点、上下角标、运算符号等等。

本申请一实施例还提供一种图像推理的装置，参见图6，包括：

图像获取模块601，被配置为获取待推理图像；

图像缩放模块602，被配置为将所述待推理图像进行缩放，生成至少一个缩放图像；

图像推理模块603，被配置为将所述至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征；

特征融合模块604，被配置为将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，并基于所述融合特征生成所述待推理图像的表达式。

所述图像推理模块603具体被配置为：

可选地，所述图像推理模块603具体被配置为：

可选地，所述特征推理模型为时序模型。

可选地，特征融合模块604具体被配置为：将所述至少一个缩放图像对应的当前次的输出特征输入至融合单元，以使所述融合单元根据融合策略生成所述待推理图像对应的当前次的融合特征。

可选地，特征融合模块604具体被配置为：基于第一个到最后一个所述融合特征生成所述待推理图像的表达式。

本申请提供的图像推理的装置，利用了图像推理模型对不同尺寸的图像的表现性能不同以及对同一图像尺寸下不同大小的字符的表现性能不同的特性，将待推理图像进行缩放，生成至少一个缩放图像，然后将至少一个缩放图像输入至图像推理模型，获得每个缩放图像对应的输出特征，从而通过对待推理图像的不同尺寸的缩放图像进行特征提取，并将至少一个缩放图像对应的输出特征进行融合得到融合特征，最终基于融合特征生成待推理图像的表达式，从而无需增加多个模型对图像进行处理，而是利用图像缩放变换实现了模型融合的效果，在不增加模型数量的情况下，使模型能更好的识别同一图像尺寸中不同大小的字符以及不同图像尺寸中的字符，有效提高了模型推理结果的推理精度。

上述为本实施例的一种图像推理的装置的示意性方案。需要说明的是，该装置的技术方案与上述的图像推理的方法的技术方案属于同一构思，图像推理的装置的技术方案未详细描述的细节内容，均可以参见上述图像推理的方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像推理的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像推理的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像推理的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像推理的方法，其特征在于，包括：

获取待推理图像；

将所述待推理图像进行缩放，生成至少一个缩放图像；

将所述至少一个缩放图像输入至图像推理模型中的特征提取模型，得到每个所述缩放图像对应的图像特征；将每个所述缩放图像对应的图像特征分别经由自注意力层进行处理，得到每个所述缩放图像对应的自注意力图像特征；将每个所述缩放图像对应的自注意力图像特征以及参考特征输入至图像推理模型中的特征推理模型，获得每个缩放图像对应的输出特征；

2.如权利要求1所述的方法，其特征在于，将每个所述缩放图像对应的自注意力图像特征以及参考特征输入至所述特征推理模型，获得每个缩放图像对应的输出特征，包括：

3.如权利要求1所述的方法，其特征在于，所述特征推理模型为时序模型。

4.如权利要求1所述的方法，其特征在于，将所述至少一个缩放图像对应的输出特征进行融合，得到所述待推理图像的融合特征，包括：

5.如权利要求1所述的方法，其特征在于，基于所述融合特征生成所述待推理图像的表达式，包括：

6.一种图像推理的装置，其特征在于，包括：

图像获取模块，被配置为获取待推理图像；

图像推理模块，被配置为将所述至少一个缩放图像输入至图像推理模型中的特征提取模型，得到每个所述缩放图像对应的图像特征；将每个所述缩放图像对应的图像特征分别经由自注意力层进行处理，得到每个所述缩放图像对应的自注意力图像特征；将每个所述缩放图像对应的自注意力图像特征以及参考特征输入至图像推理模型中的特征推理模型，获得每个缩放图像对应的输出特征；

7.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-5任意一项所述方法的步骤。

8.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。