CN115063803B

CN115063803B - 图像处理方法、装置、存储介质及电子设备

Info

Publication number: CN115063803B
Application number: CN202210613472.9A
Authority: CN
Inventors: 刘腾龙
Original assignee: Beijing Kaifa Hongye Hi Tech Co ltd
Current assignee: Beijing Kaifa Hongye Hi Tech Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2024-07-09
Anticipated expiration: 2042-05-31
Also published as: CN115063803A

Abstract

本公开涉及一种图像处理方法、装置、存储介质及电子设备。该方法包括：获取待处理图像；将待处理图像输入目标公式检测模型，获取目标公式在待处理图像中的位置信息；根据位置信息，对待处理图像进行处理，以便获取目标公式的识别结果；其中，该待处理图像中包括一个或多个目标公式；该目标公式检测模型用于通过多头注意力机制对待处理图像进行特征提取，得到多个不同尺寸的第一特征图，并根据多个第一特征图确定目标公式在待处理图像中的位置信息。这样，可以准确识别出图像中目标公式的位置信息，提高公式识别的准确性。

Description

图像处理方法、装置、存储介质及电子设备

技术领域

本公开涉及人工智能技术领域，具体地，涉及一种图像处理方法、装置、存储介质及电子设备。

背景技术

随着人工智能和计算机技术的发展，基于人工智能的文本识别方法得到了广泛的应用。在文本识别场景中，除了涉及常见的文字识别外，还会涉及到公式识别的内容。但是，相关技术中的公式识别方法存在识别准确率低的问题。

发明内容

本公开的目的是提供一种图像处理方法、装置、存储介质及电子设备，以部分地解决相关技术中存在的上述问题。

为了实现上述目的，本公开的第一方面提供了一种图像处理方法，所述方法包括：

获取待处理图像；所述待处理图像中包括一个或多个目标公式；

将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息；

根据所述位置信息，对所述待处理图像进行处理，以便获取所述目标公式的识别结果；

其中，所述目标公式检测模型用于通过多头注意力机制对所述待处理图像进行特征提取，得到多个第一特征图，并根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息，所述多个第一特征图的尺寸不同。

可选地，所述目标公式检测模型包括特征提取网络，所述特征提取网络包括多个特征提取子网络，每个所述特征提取子网络对应不同的尺寸，所述多个特征提取子网络按照尺寸从大到小串行级联；所述将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息包括：

将所述待处理图像输入预设最大尺寸的特征提取子网络，通过多头注意力机制对所述待处理图像进行特征提取，得到所述预设最大尺寸的第一特征图；

将所述预设最大尺寸的第一特征图作为第一尺寸的第一特征图，循环执行第一特征提取步骤，直至得到预设最小尺寸的第一特征图；所述第一特征提取步骤包括：将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图；所述待定特征提取子网络用于表征与所述第一尺寸对应的特征提取子网络相连的下一级子网络，所述第二尺寸为所述待定特征提取子网络对应的尺寸；在所述第二尺寸不是预设最小尺寸的情况下，将所述第二尺寸作为新的第一尺寸；

根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息。

可选地，所述特征提取子网络包括块合并PM模块和特征变换STB模块；所述将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图包括：

将所述第一尺寸的第一特征图输入所述PM模块，对所述第一特征图进行降采样和向量长度调整后得到第一向量；

将所述第一向量输入所述STB模块，得到所述第二尺寸的第一特征图。

可选地，所述STB模块包括窗口多头自注意层W-MSA和移位窗口多头自注意层SW-MSA。

可选地，所述目标公式检测模型还包括特征融合网络和目标输出网络；所述根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息包括：

将多个所述第一特征图输入所述特征融合网络，得到第二特征图；所述第二特征图包括所述第一特征图的关键特征信息；

将所述第二特征图输入所述目标输出网络，确定所述目标公式在所述待处理图像中的位置信息。

可选地，所述特征融合网络包括通道注意力模块；所述将多个所述第一特征图输入所述特征融合网络，得到第二特征图包括：

将所述第一特征图输入所述通道注意力模块，确定所述第一特征图的通道注意力权重，并根据所述通道注意力权重和所述第一特征图，计算得到该第一特征图对应的第三特征图；

将所述第三特征图进行融合，以得到第二特征图。

可选地，所述将所述第二特征图输入所述目标输出网络，确定所述目标公式在所述待处理图像中的位置信息包括：

根据所述第二特征图确定所述待处理图像的概率信息和阈值信息；其中，所述概率信息用于表征所述待处理图像中每个像素所包括的信息为公式的概率，所述阈值信息用于表征所述待处理图像中每个像素所包括的信息为公式的概率阈值；

根据所述概率信息和所述阈值信息，确定每个所述目标公式的位置信息。

可选地，所述根据所述概率信息和所述阈值信息，确定每个所述目标公式的位置信息包括：

通过可微分二值化网络，对所述概率信息和所述阈值信息进行可微分操作，得到所述待处理图像对应的二值信息；其中，所述二值信息用于表征所述待处理图像中每个像素所包括的信息是否为公式；

根据所述二值信息，确定每个所述目标公式的位置信息。

可选地，所述目标公式检测模型是通过以下方式训练的：

获取多个待处理样本图像以及每个待处理样本图像中的每个像素位置的样本标记信息；

循环执行模型训练步骤，直至根据预设损失函数确定训练后的预设公式检测模型满足预设停止迭代条件，将训练后的预设公式检测模型作为所述目标公式检测模型；

所述模型训练步骤包括：

将所述待处理样本图像输入所述预设公式检测模型，获取所述待处理样本图像对应的预测信息；

通过预设损失函数计算得到所述预测信息与所述样本标记信息的第一损失值；其中，该第一损失值用于表征所述预测信息和所述样本标记信息的差异程度；

在根据所述第一损失值确定所述预设公式检测模型不满足所述预设停止迭代条件的情况下，根据所述第一损失值更新所述预设公式检测模型的参数，得到训练后的预设公式检测模型，并将该训练后的预设公式检测模型作为新的预设公式检测模型。

可选地，所述样本标记信息包括所述像素位置对应的样本概率信息、样本阈值信息和样本二值信息；所述预测信息包括预测概率信息、预测阈值信息和预测二值信息。

第二方面，本公开提供了一种图像处理装置，所述装置包括：

图像获取模块，用于获取待处理图像；所述待处理图像中包括一个或多个目标公式；

位置获取模块，用于将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息；其中，所述目标公式检测模型用于通过多头注意力机制对所述待处理图像进行特征提取，得到多个第一特征图，并根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息，所述多个第一特征图的尺寸不同

图像处理模块，用于根据所述位置信息，对所述待处理图像进行处理，以便获取所述目标公式的识别结果。

可选地，所述目标公式检测模型包括特征提取网络，所述特征提取网络包括多个特征提取子网络，每个所述特征提取子网络对应不同的尺寸，所述多个特征提取子网络按照尺寸从大到小串行级联；

所述位置获取模块，用于将所述待处理图像输入预设最大尺寸的特征提取子网络，通过多头注意力机制对所述待处理图像进行特征提取，得到所述预设最大尺寸的第一特征图；将所述预设最大尺寸的第一特征图作为第一尺寸的第一特征图，循环执行第一特征提取步骤，直至得到预设最小尺寸的第一特征图；所述第一特征提取步骤包括：将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图；所述待定特征提取子网络用于表征与所述第一尺寸对应的特征提取子网络相连的下一级子网络，所述第二尺寸为所述待定特征提取子网络对应的尺寸；在所述第二尺寸不是预设最小尺寸的情况下，将所述第二尺寸作为新的第一尺寸；根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息。

可选地，所述特征提取子网络包括块合并PM模块和特征变换STB模块；

所述位置获取模块，用于将所述第一尺寸的第一特征图输入所述PM模块，对所述第一特征图进行降采样和向量长度调整后得到第一向量；将所述第一向量输入所述STB模块，得到所述第二尺寸的第一特征图。

可选地，所述目标公式检测模型还包括特征融合网络和目标输出网络；所述位置获取模块，用于将多个所述第一特征图输入所述特征融合网络，得到第二特征图；所述第二特征图包括所述第一特征图的关键特征信息；将所述第二特征图输入所述目标输出网络，确定所述目标公式在所述待处理图像中的位置信息。

可选地，所述特征融合网络包括通道注意力模块；所述位置获取模块，用于将所述第一特征图输入所述通道注意力模块，确定所述第一特征图的通道注意力权重，并根据所述通道注意力权重和所述第一特征图，计算得到该第一特征图对应的第三特征图；将所述第三特征图进行融合，以得到第二特征图。

可选地，所述位置获取模块，用于根据所述第二特征图确定所述待处理图像的概率信息和阈值信息；其中，所述概率信息用于表征所述待处理图像中每个像素所包括的信息为公式的概率，所述阈值信息用于表征所述待处理图像中每个像素所包括的信息为公式的概率阈值；根据所述概率信息和所述阈值信息，确定每个所述目标公式的位置信息。

可选地，所述位置获取模块，用于通过可微分二值化网络，对所述概率信息和所述阈值信息进行可微分操作，得到所述待处理图像对应的二值信息；其中，所述二值信息用于表征所述待处理图像中每个像素所包括的信息是否为公式；根据所述二值信息，确定每个所述目标公式的位置信息。

可选地，所述装置还包括模型训练模块，所述模型训练模块用于通过以下方式训练得到所述目标公式检测模型：获取多个待处理样本图像以及每个待处理样本图像中的每个像素位置的样本标记信息；循环执行模型训练步骤，直至根据预设损失函数确定训练后的预设公式检测模型满足预设停止迭代条件，将训练后的预设公式检测模型作为所述目标公式检测模型；

所述模型训练步骤包括：

将所述待处理样本图像输入所述预设公式检测模型，获取所述待处理样本图像对应的预测信息；通过预设损失函数计算得到所述预测信息与所述样本标记信息的第一损失值；其中，该第一损失值用于表征所述预测信息和所述样本标记信息的差异程度；在根据所述第一损失值确定所述预设公式检测模型不满足所述预设停止迭代条件的情况下，根据所述第一损失值更新所述预设公式检测模型的参数，得到训练后的预设公式检测模型，并将该训练后的预设公式检测模型作为新的预设公式检测模型。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

采用上述技术方案，获取待处理图像；将待处理图像输入目标公式检测模型，获取目标公式在待处理图像中的位置信息；根据位置信息，对待处理图像进行处理，以便获取目标公式的识别结果；其中，该待处理图像中包括一个或多个目标公式；该目标公式检测模型用于通过多头注意力机制对待处理图像进行特征提取，得到多个不同尺寸的第一特征图，并根据多个第一特征图确定目标公式在待处理图像中的位置信息。这样，可以准确识别出图像中目标公式的位置信息，提高公式识别的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开实施例提供的一种图像处理方法的流程图。

图2是本公开实施例提供的一种目标公式检测模型的结构示意图。

图3是本公开实施例提供的另一种目标公式检测模型的结构示意图。

图4是本公开实施例提供的一种块合并PM模块的结构示意图。

图5是本公开实施例提供的一种特征变换STB模块的结构示意图。

图6是本公开实施例提供的一种通道注意力模块的示意图。

图7是本公开实施例提供的一种目标公式检测模型的训练方法的流程图。

图8是本公开实施例提供的一种图像处理装置的示意图。

图9是本公开实施例提供的另一种图像处理装置的示意图。

图10是本公开实施例提供的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

在本公开中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序；术语“S101”、“S102”、“S201”、“S202”等用于区别步骤，而不必理解为按照特定的顺序或先后次序执行方法步骤；下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。

首先，对本公开的应用场景进行说明。本公开可以应用于图像处理的场景，特别是对图像中的公式进行识别的场景。在对图像进行文本识别的场景中，除了涉及常见的文字识别外，还会涉及到公式识别的内容。特别是在远程教育场景下，例如拍照搜题、智能批改业务、题库录排业务、AI学习机以及AI扫读笔等场景下，需要对图像中的公式进行准确识别。但是，在实际应用中，数理化公式会存在公式区域尺寸跨度大、公式区域形状不规则、多个公式紧凑等情况，因此，会导致公式识别的难度较大。

针对上述问题，可以采用图像处理的方法对公式进行检测，例如，基于字符连通域方法，首先对图片进行图像预处理，结合经验阈值，得到公式区域候选集，然后再采用启发式规则判断是否为真正的公式连通域。但是，该方法对预处理步骤依赖过重，要求图像的前景和背景有较大差异，可分性强，对图像质量有严苛要求，模型的泛化能力得不到保证，会导致低质量图像无法准确识别出公式位置。

为了解决上述问题，本公开提供了一种图像处理方法、装置、存储介质及电子设备，通过多头注意力机制对待处理图像进行特征提取，得到多个不同尺寸的第一特征图，并根据多个第一特征图确定目标公式在待处理图像中的位置信息，从而可以准确识别出公式的位置信息，提高公式识别的准确性。

以下结合附图对本公开的具体实施方式进行详细说明。

图1是本公开实施例提供的一种图像处理方法的流程图，该方法可以应用于电子设备，该电子设备可以包括终端设备，例如智能手机、智能可穿戴设备、智能音箱、智能平板、PDA(Personal Digital Assistant，个人数字助理)、CPE(Customer PremiseEquipment，客户终端设备)、个人计算机等，也可以包括服务器，例如本地服务器或云服务器。如图1所示，该方法包括：

S101、获取待处理图像。

其中，待处理图像中可以包括一个或多个目标公式。该目标公式可以是数学公式、物理公式、化学公式等，该待处理图像可以是图片，也可以是视频，本公开对此不作限定。

在本步骤中，电子设备可以实时采集该待处理图像，例如电子设备上可以安装有摄像头，通过摄像头拍摄获取书本、报刊、试卷、显示屏、黑板等获得该待处理图像。电子设备也可以获取预先存储的该待处理图像，还可以接收其它设备发送的该待处理图像，本公开对该待处理图像的获取方式不作限定。

S102、将待处理图像输入目标公式检测模型，获取目标公式在待处理图像中的位置信息。

S103、根据位置信息，对待处理图像进行处理，以便获取目标公式的识别结果。

其中，上述目标公式检测模型用于通过多头注意力机制对待处理图像进行特征提取，得到多个第一特征图，并根据多个第一特征图确定目标公式在待处理图像中的位置信息，多个第一特征图的尺寸不同。

图2是本公开实施例提供的一种目标公式检测模型的结构示意图，如图2所示，该目标公式检测模型可以包括特征提取网络201，该特征提取网络201可以通过多头注意力机制对待处理图像进行特征提取，得到多个第一特征图。进一步地，该目标公式检测模型还可以包括：特征融合网络202和目标输出网络203。该特征融合网络202可以用于将多个第一特征图进行融合得到第二特征图，该第二特征图可以包括第一特征图的关键特征信息；该目标输出网络可以用于根据第二特征图确定目标公式在待处理图像中的位置信息。

采用上述方法，获取待处理图像；将待处理图像输入目标公式检测模型，获取目标公式在待处理图像中的位置信息；根据位置信息，对待处理图像进行处理，以便获取目标公式的识别结果；其中，该待处理图像中包括一个或多个目标公式；该目标公式检测模型用于通过多头注意力机制对待处理图像进行特征提取，得到多个不同尺寸的第一特征图，并根据多个第一特征图确定目标公式在待处理图像中的位置信息。这样，可以准确识别出图像中目标公式的位置信息，提高公式识别的准确性。

图3是本公开实施例提供的另一种目标公式检测模型的结构示意图，以下结合图3对该目标公式检测模型的特征提取网络201、特征融合网络202和目标输出网络203的结构说明如下：

上述特征提取网络201可以包括多个特征提取子网络，每个特征提取子网络对应不同的尺寸，且多个特征提取子网络按照尺寸从大到小串行级联。示例地，该特征提取网络201可以包括尺寸从大到小串行级联的第一特征提取子网络2011、第二特征提取子网络2012、第三特征提取子网络2013和第四特征提取子网络2014。该特征提取网络201的输入可以是待处理图像，输出可以是多个第一特征图，例如图3中的C1、C2、C3和C4。

基于该特征提取网络201，上述S102步骤可以包括以下子步骤：

首先，将待处理图像输入预设最大尺寸的特征提取子网络(例如图3中的特征提取子网络2011)，通过多头注意力机制对待处理图像进行特征提取，得到预设最大尺寸的第一特征图(例如图3中的C1)。

其次，将预设最大尺寸的第一特征图作为第一尺寸的第一特征图，循环执行第一特征提取步骤，直至得到预设最小尺寸的第一特征图。

该第一特征提取步骤可以包括：将第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图。该待定特征提取子网络用于表征与第一尺寸对应的特征提取子网络相连的下一级子网络，第二尺寸为待定特征提取子网络对应的尺寸；在第二尺寸不是预设最小尺寸的情况下，将第二尺寸作为新的第一尺寸。

最后，根据多个第一特征图确定目标公式在待处理图像中的位置信息。

示例地，该特征提取网络201的输入可以是待处理图像，该待处理图像的维度可以为H*W*3，其中，H可以表示该待处理图像的像素高度，例如560或480，W可以表示该待处理图像的像素宽度，例如560或480，3可以表示RGB三通道。

首先，将该待处理图像输入第一特征提取子网络，经过第一特征提取子网络处理后，可以输出第一尺寸的第一特征图C1，该第一特征图C1的维度可以为(H/N)*(W/N)*C，其中，H同样表示该待处理图像的像素高度，W同样表示该待处理图像的像素宽度，N表示第一尺寸(也就是该第一特征提取子网络对应的下采样的尺寸)，例如N可以为4或5；C可以为预设映射维度，例如C可以为96或192。

然后，将该第一特征图C1输入第二特征提取子网络，可以输出第二尺寸的第一特征图C2，C2的维度可以为(H/N/2)*(W/N/2)*2C；同样地，将C2输入第三特征提取子网络，可以输出第三尺寸的第一特征图C3，C3的维度可以为(H/N/4)*(W/N/4)*4C；将C3输入第四特征提取子网络，可以输出第四尺寸的第一特征图C4，C4的维度可以为(H/N/8)*(W/N/8)*8C。

这样，可以得到C1至C4共四个不同尺寸的第一特征图。将第一特征图C1至C4输入特征融合网络，可以得到第二特征图(该第二特征图可以包括第一特征图的关键特征信息)，然后将该第二特征图输入目标输出网络，可以确定目标公式在待处理图像中的位置信息。

在一些实施例中，上述每个特征提取子网络可以包括块合并PM(Patch Merging)模块和特征变换STB(Swin Transformer Block)模块。这样，可以将第一尺寸的第一特征图输入PM模块，对第一特征图进行降采样和向量长度调整后得到第一向量；然后，将该第一向量输入STB模块，得到第二尺寸的第一特征图。

图4是本公开实施例提供的一种块合并PM模块的结构示意图，如图4所示，该PM模块可以包括unfold函数和linear函数，其中，unfold函数用于对输入的待处理图像或第一特征图进行降采样，降低特征图的分辨率，linear函数可以用于调整特征向量的长度。通过该PM模块可以对特征图进行降采样，区别于CNN中降采样的最大池化或者平均池化往往会丢弃一些信息，PM模块并不会丢弃信息。从而提高保留了公式的相关特征，提高了公式检测的准确性。

图5是本公开实施例提供的一种特征变换STB模块的结构示意图，如图5所示，该STB模块可以包括窗口多头自注意层W-MSA(window multi-head self-attention)和移位窗口多头自注意层SW-MSA(shifted-window multi-head self-attention)。

W-MSA可以在窗口的尺寸上进行自注意力计算，但是只采用W-MSA模块时，只会在每个窗口内进行自注意力计算，窗口与窗口之间是无法进行信息传递。为了解决这个问题，引入SW-MSA模块，即进行偏移的W-MSA，从而可以解决窗口之间信息交互的问题。进一步，LN函数是对特征图进行层归一化，加快模型收敛、防止过拟合，Add是特征图相加操作，MLP(MultiLayer Perceptron)为前馈层，增强模型的表达能力。

这样，该特征提取子网络中，将PM模块和STB模块两者结合可以复现CNN(Convolutional Neural Network，卷积神经网络)和Pooling(池化)操作的层级结构，并且特征提取能力优于CNN和Pooling的组合。

在一些实施例中，该特征融合网络可以包括通道注意力模块(例如图3中的CA，Channel Attention)；这样，可以将第一特征图输入通道注意力模块，确定第一特征图的通道注意力权重，并根据通道注意力权重和第一特征图，计算得到该第一特征图对应的第三特征图；将第三特征图进行融合，可以得到第二特征图。

图6是本公开实施例提供的一种通道注意力模块的结构示意图，如图6所示，该通道注意力模块(CA)可以包括全局池化层(Globel Pooling)、第一全连接(FC1)、Relu激活层(Relu)、第二全连接层(FC2)和Sigmoid激活层(Sigmoid)，其中，全局池化层可以根据输入的特征图的通道维度进行全局池化，然后第一全连接、Relu激活层和第二全连接层可以增加模型的非线性表达能力，最后通过Sigmoid函数，得到第一特征图的通道注意力权重，然后将该通道注意力权重和第一特征图相乘，得到加权后的第三特征图。

进一步地，该特征融合网络还可以包括FPN(Feature Pyramid Network，特征金字塔网络)，例如，该特征融合网络可以为CA-FPN网络，首先通过CA(通道注意力模块)得到每个第一特征图对应的第三特征图。然后，通过FPN将多个第三特征图进行融合，这样，在增加较少计算量的前提下融合了低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图，使得模型对不同尺寸的公式都可以充分感知。

需要说明的是，CA-FPN网络可以显式地建模特征通道之间的相互依赖关系；通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。这种注意力机制让模型可以更加关注信息量大的通道特征，而抑制那些不重要的通道特征，从而达到加强模型表达能力。

上述目标输出网络根据输入的第二特征图确定目标公式在待处理图像中的位置信息的方式可以包括：

首先，根据第二特征图确定待处理图像的概率信息和阈值信息。

其中，概率信息可以用于表征待处理图像中每个像素所包括的信息为公式的概率，阈值信息可以用于表征待处理图像中每个像素所包括的信息为公式的概率阈值。

示例地，上述概率信息可以以概率图的形式呈现，上述阈值信息可以以阈值图的形式呈现。

在一些实施例中，可以通过预设预测函数，对第二特征图进行预测，得到上述概率信息和阈值信息。

在另一些实施例中，可以通过预先训练的公式预测模型对第二特征图进行预测，得到上述概率信息和阈值信息。

然后，根据概率信息和阈值信息，确定每个目标公式的位置信息。

示例地，可以通过可微分二值化网络，对概率信息和阈值信息进行可微分操作，得到待处理图像对应的二值信息；根据二值信息，确定每个目标公式的位置信息。

其中，二值信息用于表征待处理图像中每个像素所包括的信息是否为公式。示例地，该二值信息可以通过二值图的形式呈现，该二值图用于表征每个像素只有两个预设值(例如0或1)的数字图像。其中，两个预设值可以分别代表该像素所包括的信息是否为公式，例如，1代表该像素包含公式，0代表非公式；或者反过来，0代表该像素包含公式，1代表非公式。

在一些实施例中，可微分二值化网络中的二值化函数可以规定概率信息、阈值信息和二值信息之间的对应关系，基于该对应关系，获得概率信息和阈值信息对应的二值信息。示例地，该二值化函数可以包括以下公式(1)：

其中，B_i,j表示二值信息中像素(i,j)位置的值；e是数学常数；k为阈值，例如，k可以为50；P_i,j为概率信息中该像素(i,j)位置的值，T_i,j为阈值信息中该像素(i,j)位置的值。

图7是本公开实施例提供的一种目标公式检测模型的训练方法的流程图。如图7所示，该训练方法可以包括：

S701、获取多个待处理样本图像以及每个待处理样本图像中的每个像素位置的样本标记信息。

S702、循环执行模型训练步骤，直至根据预设损失函数确定训练后的预设公式检测模型满足预设停止迭代条件，将训练后的预设公式检测模型作为目标公式检测模型。

其中，该模型训练步骤可以包括：

首先，将待处理样本图像输入预设公式检测模型，获取待处理样本图像对应的预测信息。

其次，通过预设损失函数计算得到预测信息与样本标记信息的第一损失值；其中，该第一损失值用于表征预测信息和样本标记信息的差异程度；

最后，在根据第一损失值确定预设公式检测模型不满足预设停止迭代条件的情况下，根据第一损失值更新预设公式检测模型的参数，得到训练后的预设公式检测模型，并将该训练后的预设公式检测模型作为新的预设公式检测模型。

在一些实施例中，上述样本标记信息包括像素位置对应的样本概率信息、样本阈值信息和样本二值信息中的一种或多种。上述预测信息可以包括预测概率信息、预测阈值信息和预测二值信息中的一种或多种。

在一些实施例中，上述预设损失函数可以包括以下公式(2)：

L＝αL_s+βL_t+γL_b (2)

其中，L表示第一损失值，L_s表示概率信息的损失函数，L_t表示阈值信息的损失函数，L_b表示二值信息的损失函数，α、β和γ表示预设权重超参数。其中，可以设定α大于β和γ，例如，可以设定α＝10，β＝5，γ＝1。，这样，加大网络对概率信息的学习力度，在训练推理阶段是直接通过概率信息预测目标公式的位置信息。

进一步地，概率信息的损失函数和二值信息的损失函数可以采用BCE(binarycross-entropy，二元交叉熵)，该损失函数可以包括以下公式(3)：

其中，L_s表示概率信息的损失函数，L_b表示二值信息的损失函数，S_l表示采样区域，例如，可以是正样本：负样本为1:3的采样区域，y_i是像素i对应的样本标记信息(例如该像素i对应的样本概率信息或样本二值信息)，x_i是预测信息(例如该像素i对应的预测概率信息或预测二值信息)。

阈值图损失函数L_t关注预测值和真实值的差异，采用L1范式损失函数，该损失函数可以包括以下公式(4)：

其中，L_t表示阈值信息的损失函数(损失值)，R_d是阈值信息的采样区域，y_i是像素i对应的样本标记信息(例如，该公式中可以表征该像素i对应的样本阈值信息)，x_i是预测信息(例如，该公式中该像素i对应的预测阈值信息)。

这样，通过上述方式，在损失函数中兼顾概率信息、阈值信息和二值信息的训练误差，保证了模型的泛化能力，提高了训练后的模型在复杂场景下进行公式位置识别的准确性。

图8是本公开实施例提供的一种图像处理装置的结构示意图，如图8所示，该装置包括：

图像获取模块801，用于获取待处理图像；所述待处理图像中包括一个或多个目标公式；

位置获取模块802，用于将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息；其中，所述目标公式检测模型用于通过多头注意力机制对所述待处理图像进行特征提取，得到多个第一特征图，并根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息，所述多个第一特征图的尺寸不同

图像处理模块803，用于根据所述位置信息，对所述待处理图像进行处理，以便获取所述目标公式的识别结果。

所述位置获取模块802，用于将所述待处理图像输入预设最大尺寸的特征提取子网络，通过多头注意力机制对所述待处理图像进行特征提取，得到所述预设最大尺寸的第一特征图；将所述预设最大尺寸的第一特征图作为第一尺寸的第一特征图，循环执行第一特征提取步骤，直至得到预设最小尺寸的第一特征图；所述第一特征提取步骤包括：将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图；所述待定特征提取子网络用于表征与所述第一尺寸对应的特征提取子网络相连的下一级子网络，所述第二尺寸为所述待定特征提取子网络对应的尺寸；在所述第二尺寸不是预设最小尺寸的情况下，将所述第二尺寸作为新的第一尺寸；根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息。

所述位置获取模块802，用于将所述第一尺寸的第一特征图输入所述PM模块，对所述第一特征图进行降采样和向量长度调整后得到第一向量；将所述第一向量输入所述STB模块，得到所述第二尺寸的第一特征图。

可选地，所述目标公式检测模型还包括特征融合网络和目标输出网络；所述位置获取模块802，用于将多个所述第一特征图输入所述特征融合网络，得到第二特征图；所述第二特征图包括所述第一特征图的关键特征信息；将所述第二特征图输入所述目标输出网络，确定所述目标公式在所述待处理图像中的位置信息。

可选地，所述特征融合网络包括通道注意力模块；所述位置获取模块802，用于将所述第一特征图输入所述通道注意力模块，确定所述第一特征图的通道注意力权重，并根据所述通道注意力权重和所述第一特征图，计算得到该第一特征图对应的第三特征图；将所述第三特征图进行融合，以得到第二特征图。

可选地，所述位置获取模块802，用于根据所述第二特征图确定所述待处理图像的概率信息和阈值信息；其中，所述概率信息用于表征所述待处理图像中每个像素所包括的信息为公式的概率，所述阈值信息用于表征所述待处理图像中每个像素所包括的信息为公式的概率阈值；根据所述概率信息和所述阈值信息，确定每个所述目标公式的位置信息。

可选地，所述位置获取模块802，用于通过可微分二值化网络，对所述概率信息和所述阈值信息进行可微分操作，得到所述待处理图像对应的二值信息；其中，所述二值信息用于表征所述待处理图像中每个像素所包括的信息是否为公式；根据所述二值信息，确定每个所述目标公式的位置信息。

图9是本公开实施例提供的另一种图像处理装置的结构示意图，如图9所示，该装置还包括模型训练模块804，所述模型训练模块804用于通过以下方式训练得到所述目标公式检测模型：获取多个待处理样本图像以及每个待处理样本图像中的每个像素位置的样本标记信息；循环执行模型训练步骤，直至根据预设损失函数确定训练后的预设公式检测模型满足预设停止迭代条件，将训练后的预设公式检测模型作为所述目标公式检测模型；

所述模型训练步骤包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种电子设备900的框图。如图10所示，该电子设备900可以包括：处理器901，存储器902。该电子设备900还可以包括多媒体组件903，输入/输出(I/O)接口904，以及通信组件905中的一者或多者。

其中，处理器901用于控制该电子设备900的整体操作，以完成上述的图像处理方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作，这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器，用于输出音频信号。输入/输出接口904为处理器901和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearField Communication，简称NFC)，2G、3G、4G、5G、NB-IOT、eMTC、或其他6G等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件905可以包括：Wi-Fi模块，蓝牙模块，NFC模块等。

在一示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图像处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器902，上述程序指令可由电子设备900的处理器901执行以完成上述的图像处理方法。示例地，该计算机可读存储介质可以为非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述图像处理方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

其中，所述目标公式检测模型用于通过多头注意力机制对所述待处理图像进行特征提取，得到多个第一特征图，并根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息，所述多个第一特征图的尺寸不同；

所述目标公式检测模型包括特征提取网络，所述特征提取网络包括多个特征提取子网络，每个所述特征提取子网络对应不同的尺寸，所述多个特征提取子网络按照尺寸从大到小串行级联；所述将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取子网络包括块合并PM模块和特征变换STB模块；所述将所述第一尺寸的第一特征图输入待定特征提取子网络，通过多头注意力机制对所述第一尺寸的第一特征图进行特征提取，得到第二尺寸的第一特征图包括：

3.根据权利要求2所述的方法，其特征在于，所述STB模块包括窗口多头自注意层W-MSA和移位窗口多头自注意层SW-MSA。

4.根据权利要求1所述的方法，其特征在于，所述目标公式检测模型还包括特征融合网络和目标输出网络；所述根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息包括：

5.根据权利要求4所述的方法，其特征在于，所述特征融合网络包括通道注意力模块；所述将多个所述第一特征图输入所述特征融合网络，得到第二特征图包括：

将所述第三特征图进行融合，以得到第二特征图。

6.根据权利要求4所述的方法，其特征在于，所述将所述第二特征图输入所述目标输出网络，确定所述目标公式在所述待处理图像中的位置信息包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述概率信息和所述阈值信息，确定每个所述目标公式的位置信息包括：

根据所述二值信息，确定每个所述目标公式的位置信息。

8.根据权利要求7所述的方法，其特征在于，所述目标公式检测模型是通过以下方式训练的：

所述模型训练步骤包括：

9.根据权利要求8所述的方法，其特征在于，所述样本标记信息包括所述像素位置对应的样本概率信息、样本阈值信息和样本二值信息；所述预测信息包括预测概率信息、预测阈值信息和预测二值信息。

10.一种图像处理装置，其特征在于，所述装置包括：

位置获取模块，用于将所述待处理图像输入目标公式检测模型，获取所述目标公式在所述待处理图像中的位置信息；其中，所述目标公式检测模型用于通过多头注意力机制对所述待处理图像进行特征提取，得到多个第一特征图，并根据多个所述第一特征图确定所述目标公式在所述待处理图像中的位置信息，所述多个第一特征图的尺寸不同；

图像处理模块，用于根据所述位置信息，对所述待处理图像进行处理，以便获取所述目标公式的识别结果；

所述目标公式检测模型包括特征提取网络，所述特征提取网络包括多个特征提取子网络，每个所述特征提取子网络对应不同的尺寸，所述多个特征提取子网络按照尺寸从大到小串行级联；所述位置获取模块用于：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至9中任一项所述方法的步骤。