CN114863450A

CN114863450A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN114863450A
Application number: CN202210547469.1A
Authority: CN
Inventors: 庾悦晨; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-05
Anticipated expiration: 2042-05-19
Also published as: CN114863450B

Abstract

本公开提供了一种图像处理方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景下，该方法，包括：获取初始文档图像，其中，初始文档图像包括：文本内容，获取初始文档图像的目标图像特征，根据目标图像特征，确定文本内容的目标文本特征，以及根据目标文本特征，生成与文本内容对应的文本图像，由此，在生成与初始文档图像中文本内容对应的文本图像的过程中，有效提升目标文本特征对初始文档图像中文本内容的特征表征准确性，有效提升所生成文本图像对初始文档图像中文本内容的图像还原质量。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景下，尤其涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

相关技术中，在预训练过程中进行图像还原时，依赖于单一的图像特征，导致图像还原效果不佳。

发明内容

本公开提供了一种图像处理方法、装置、电子设备、存储介质及计算机程序产品。

根据本公开的第一方面，提供了一种图像处理方法，包括：获取初始文档图像，其中，所述初始文档图像包括：文本内容，获取所述初始文档图像的目标图像特征，根据所述目标图像特征，确定所述文本内容的目标文本特征，以及根据所述目标文本特征，生成与所述文本内容对应的文本图像。

根据本公开的第二方面，提供了一种图像处理装置，包括：第一获取模块，用于获取初始文档图像，其中，所述初始文档图像包括：文本内容；第二获取模块，用于获取所述初始文档图像的目标图像特征；确定模块，用于根据所述目标图像特征，确定所述文本内容的目标文本特征；以及生成模块，用于根据所述目标文本特征，生成与所述文本内容对应的文本图像。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开第一方面的图像处理方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如本公开第一方面的图像处理方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开第一方面的图像处理方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开实施例的图像还原流程示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8示出了可以用来实施本公开的图像处理方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开第一实施例的示意图。

其中，需要说明的是，本实施例的图像处理方法的执行主体为图像处理装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

本公开实施例涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉等技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景下。

其中，人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

深度学习，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

图像处理，是使用计算机设备对图像分析处理，以满足预期需求。图像处理的常用方法包括：图像变换、图像压缩编码、图像增强、图像还原、图像分割、图像描述以及图像分类等。

计算机视觉，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送至仪器检测的图像。

光学字符识别(Optical Character Recognition，OCR)，是指利用电子设备(例如扫描仪或数码相机)检查图像中的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

如图1所示，该图像处理方法，包括：

S101：获取初始文档图像，其中，初始文档图像包括：文本内容。

其中，文档图像，是指图像格式的文档，该文档图像可以以电子形式存储于各种介质或网络中。而待进行图像处理的文档图像可以被称为初始文档图像，初始文档图像包括：文本内容。

其中，文本内容，可以是指该初始文档图像中所包含文本相关的内容，本公开实施例中对文本内容的种类和数量不做限制。

本公开实施例中，在获取初始文档图像时，可以预先在本公开实施例的执行主体中配置图像获取装置，以从其他存储介质或网络中获取初始文档图像，或者，还可以是可以针对图像处理装置预先配置数据接口，经由该数据接口接收图像处理请求，而后从图像处理请求中解析得到初始文档图像，对此不做限制。

可以理解的是，初始文档图像的数量可能是多个，本公开实施例中，通过获取初始文档图像，可以及时触发后续步骤，实现对初始文档图像中与文本内容相关的图像进行还原，以便于针对该初始文档图像建立索引，从而能够基于索引信息快速、准确地实现对指定初始文档图像的查询或调阅等操作。

S102：获取初始文档图像的目标图像特征。

其中，图像特征，是指初始文档图像的特征信息，例如可以包括但不限于初始文档图像的边缘特征、纹理特征以及颜色特征等。

本公开实施例中，上述图像特征可以以特征图的形式存储在本公开实施例的执行主体中。而目标图像特征，则是指适用于作为参考依据确定目标文本特征的特征图。

本公开实施例中，在获取初始文档图像的目标图像特征时，可以是将初始文档图像输入至预训练的图像特征提取模型中，以获取对应的目标图像特征，或者，也可以采用第三方图像特征提取装置处理该初始文档图像，以得到对应的目标图像特征，对此不做限制。

本公开实施例中，通过获取初始文档图像的目标图像特征，所得目标图像特征可以有效表征该初始文档图像的特征信息，从而为后续确定文本内容的目标文本特征提供可靠的参考依据。

S103：根据目标图像特征，确定文本内容的目标文本特征。

其中，文本特征，是指文本内容对应的特征信息，例如可以是关键词、词频等特征信息。而目标文本特征，则是指基于目标图像特征所确定的文本特征。

一些实施例中，在根据目标图像特征，确定文本内容的目标文本特征时，可以是基于目标图像特征确定文本内容对应的目标位置特征，而后根据目标图像特征和文本内容对应的目标位置特征，生成目标文本特征。

另一些实施例中，在根据目标图像特征，确定文本内容的目标文本特征时，还可以是基于目标图像特征确定文本内容对应的字符数量特征，而后根据目标图像特征和文本内容对应的字符数量特征，生成目标文本特征。

当然，还可以采用其他任意可能的方式，根据目标图像特征，确定文本内容的目标文本特征，如工程学或数学的方法，对此不做限制。

本公开实施例中，通过根据目标图像特征，确定文本内容的目标文本特征，可以有效提升所得目标文本特征对文本内容的表征准确性，

S104：根据目标文本特征，生成与文本内容对应的文本图像。

其中，文本图像，是指基于目标文本特征所生成的图像，该文本图像可以有效表征文本内容，该文本图像可以作为构建对应初始文档图像索引的参考依据。

本公开实施例中，在根据目标文本特征，生成与文本内容对应的文本图像时，可以是对目标文本特征进行增强处理，并根据增强处理后的目标文本特征生成与文本内容对应的文本图像，或者，还可以是基于目标文本特征采用多种图像生成装置分别生成对应的参考文本图像，而后对所得多个参考文本图像进行分析对比，并根据分析对比结果从参考文本图像中确定与文本内容对应的文本图像。

本实施例中，通过获取初始文档图像，其中，初始文档图像包括：文本内容，获取初始文档图像的目标图像特征，根据目标图像特征，确定文本内容的目标文本特征，以及根据目标文本特征，生成与文本内容对应的文本图像，由此，在生成与初始文档图像中文本内容对应的文本图像的过程中，有效提升目标文本特征对初始文档图像中文本内容的特征表征准确性，有效提升所生成文本图像对初始文档图像中文本内容的图像还原质量。

图2是根据本公开第二实施例的示意图。

如图2所示，该图像处理方法，包括：

S201：获取初始文档图像，其中，初始文档图像包括：文本内容。

S201的描述说明可以具体参见上述实施例，在此不再赘述。

S202：对初始文档图像中文本内容进行处理，得到参考文档图像。

其中，参考文本图像，是指初始文档图像经由针对文本内容的处理过程，所得到的文档图像。

一些实施例中，在对初始文档图像中文本内容进行处理，得到参考文档图像时，可以是对初始文档图像中文本内容进行特征增强处理，以得到参考文档图像。

另一些实施例中，在对初始文档图像中文本内容进行处理，得到参考文档图像时，还可以是获取初始文档图像中文本内容对应的属性信息，如语种，而后根据所得属性信息对对应文本内容进行批注处理，并将批注处理后的初始文档图像作为参考文档图像。

当然，一些实施例中，还可以采用其他任意可能的方法，对初始文档图像中文本内容进行处理，得到参考文档图像，对此不做限制。

可选的，一些实施例中，文本内容包括：多个文本段，在对初始文档图像中文本内容进行处理，得到参考文档图像时，可以是对初始文档图像中第一文本段进行掩膜处理，并将掩膜处理所得初始文档图像作为参考文档图像，其中，第一文本段属于多个文本段，由此，可以基于掩膜处理的方法屏蔽初始文档图像中第一文本段的相关信息，避免该第一文本段对后续图像特征提取过程带入干扰，有效提升针对参考文档图像的特征提取效率和特征提取准确性。

其中，文本段，可以是指组成上述文本内容的多个字符集合，该文本段可以例如是一个字符，或者，也可以是由多个字符组成的字符组，对此不做限制。

其中，第一文本段，可以是指待进行掩膜处理的文本段。

可以理解的是，初始文档图像的多个文本段中，可能存在不适用于后续图像处理操作的文本段，当对初始文档图像中文本内容进行处理时，可以有效提升所得参考文档图像的适用性。

S203：获取参考文档图像的参考图像特征，并将参考图像特征作为目标图像特征。

其中，参考图像特征，是指参考文档图像对应的图像特征。

本公开实施例中，在获取参考文档图像的参考图像特征时，可以是基于小波变换法、最小二乘法、边界方向直方图法等特征提取方法，对此不做限制。

可选的，一些实施例中，在获取参考文档图像的参考图像特征时，可以是对参考文档图像进行特征识别，得到与多个尺寸信息分别对应的多个候选图像特征，从多个候选图像特征中选取目标候选图像特征，并将目标候选图像特征作为参考图像特征，由此，不同尺寸信息对应的多个候选图像特征可以分别表征不同粒度的图像特征，适用于多样化的个性场景，能够为图像处理过程提供可靠的参考依据，有效提升所得目标候选图像特征在图像处理过程中的实用性。

其中，尺寸信息，是指候选图像特征对应特征图尺寸的相关信息，例如可以是特征图的长度、宽度等。

其中，候选图像特征，是指参考文档图像基于特征识别处理所得到的图像特征，该候选图像特征可以以特征图的形式存储在本公开实施例的执行主体中。而目标候选图像特征，则是指多个目标候选图像特征中可以被作为参考图像特征的目标候选图像特征。

可以理解的是，候选图像特征的数量是多个，且多个候选图像特征分别对应于不同的尺寸信息，由此，多个候选图像特征对参考文档图像的表征粒度存在差异，分别适用于不同的应用场景。

可选的，一些实施例中，在从多个候选图像特征中选取目标候选图像特征时，可以是确定与多个候选图像特征分别对应的多个候选特征类型，从多个候选特征类型中确定目标特征类型，将目标特征类型所属候选图像特征作为目标候选图像特征，由此，可以基于目标特征类型快速、准确地从多个候选图像特征中确定目标候选图像特征，从而有效提升该目标候选图像特征确定过程的可靠性。

其中，候选特征类型，是指候选图像特征对应的类型，例如，可以根据多个候选图像特征的粒度特征，将其划分为不同的候选特征类型。而目标特征类型，则是指适用于作为目标候选图像特征的候选图像特征对应的候选特征类型。

也即是说，本公开实施例在获取初始文档图像之后，可以对初始文档图像中文本内容进行处理，得到参考文档图像，获取参考文档图像的参考图像特征，并将参考图像特征作为目标图像特征，由此，当对初始文档图像进行处理时，可以有效提升初始文档图像与图像处理过程之间的适配性，使所得参考文档图像可以作为特征提取的可靠对象，从而有效提升所得目标图像特征的特征描述准确性。

举例而言，本公开实施例在获取参考文档图像的参考图像特征，并将参考图像特征作为目标图像特征时，可以是将参考文档图像输入至卷积神经网络中，以得到包含参考图像特征的特征图。所使用的卷积神经网络可以是被用于语义分割的卷积神经网络，例如残差网络、基于深度可分离卷积的轻量级网络等，对此不做限制。所得特征图的数量可以是多个，可以基于卷积层特征分为4个候选特征类型C2～C5，多个特征图分别对应于不同的尺寸信息。不同尺寸信息对应的特征图的粒度是有区别的，例如C2～C5对应的特征图粒度可以是一个递进关系，即从局部到全面。由于C5对应的特征图的表征效果较为详细，可以选择C5对应的特征图作为目标图像特征。

S204：根据目标图像特征，确定文本内容的目标文本特征。

S205：根据目标文本特征，生成与文本内容对应的文本图像。

S204和S205的描述说明可以具体参见上述实施例，在此不再赘述。

本实施例中，通过对初始文档图像中文本内容进行处理，得到参考文档图像，获取参考文档图像的参考图像特征，并将参考图像特征作为目标图像特征，由此，当对初始文档图像进行处理时，可以有效提升初始文档图像与图像处理过程之间的适配性，使所得参考文档图像可以作为特征提取的可靠对象，从而有效提升所得目标图像特征的特征描述准确性，通过对初始文档图像中第一文本段进行掩膜处理，并将掩膜处理所得初始文档图像作为参考文档图像，其中，第一文本段属于多个文本段，由此，可以基于掩膜处理的方法屏蔽初始文档图像中第一文本段的相关信息，避免该第一文本段对后续图像特征提取过程带入干扰，有效提升针对参考文档图像的特征提取效率和特征提取准确性，通过对参考文档图像进行特征识别，得到与多个尺寸信息分别对应的多个候选图像特征，从多个候选图像特征中选取目标候选图像特征，并将目标候选图像特征作为参考图像特征，由此，不同尺寸信息对应的多个候选图像特征可以分别表征不同粒度的图像特征，适用于多样化的个性场景，为图像处理过程提供可靠的参考依据，有效提升所得目标候选图像特征在图像处理过程中的实用性，通过确定与多个候选图像特征分别对应的多个候选特征类型，从多个候选特征类型中确定目标特征类型，将目标特征类型所属候选图像特征作为目标候选图像特征，由此，可以基于目标特征类型快速、准确地从多个候选图像特征中确定目标候选图像特征，从而有效提升该目标候选图像特征确定过程的可靠性。

图3是根据本公开第三实施例的示意图。

如图3所示，该图像处理方法，包括：

S301：获取初始文档图像，其中，初始文档图像包括：文本内容。

S302：获取初始文档图像的目标图像特征。

S301-S302的描述说明可以具体参见上述实施例，在此不再赘述。

S303：根据目标图像特征，确定第二文本段的文本语义特征，其中，第二文本段是多个文本段中未被掩膜处理的文本段。

其中，文本语义特征，是指以文本所表达的非结构化数据特有的语义属性，例如可以是文本对应的创作意图或主体说明等。

本公开实施例中，在根据目标图像特征，确定第二文本段的文本语义特征时，可以是基于目标图像特征确定第二文本段对应的关键词信息，而后根据该关键词信息确定第二文本段的文本语义特征，或者，还可以采用数学分析的方法对目标图像特征进行分析处理，以确定第二文本段的文本语义特征，对此不做限制。

举例而言，本公开实施例在根据目标图像特征，确定第二文本段的文本语义特征时，可以将目标图像特征进行降维处理，以得到一维的目标图像特征，而后将一维的目标图像特征输入至语义理解框架中，以提取第二文本段的文本语义特征。

S304：根据目标图像特征和第二文本段的文本语义特征，生成目标文本特征。

本公开实施例中，在根据目标图像特征和第二文本段的文本语义特征，生成目标文本特征时，可以是将目标图像特征与第二文本段做匹配处理，以得到与第二文本段对应的局部图像特征，而后根据该局部图像特征和第二文本段的文本语义特征生成目标文本特征，或者，还可以将目标图像特征和第二文本段的文本语义特征输入至预训练的文本特征生成模型中，以得到目标文本特征，对此不做限制。

也即是说，本公开实施例在获取初始文档图像的目标图像特征之后，可以根据目标图像特征，确定第二文本段的文本语义特征，其中，第二文本段是多个文本段中未被掩膜处理的文本段，而后根据目标图像特征和第二文本段的文本语义特征，生成目标文本特征，由此，可以在生成目标文本特征的过程中，有效结合目标图像特征和第二文本段的文本语义特征两个维度的特征信息，从而有效提升对文档图像中文字特征提取的准确性和鲁棒性，提升所得目标文本特征对文本内容的表征准确性。

S305：根据目标文本特征，生成与第一文本段对应的局部文本特征。

其中，局部文本特征，是指与第一文本段对应的文本特征，该局部文本特征可以包括第一文本段对应的语义模态特征和所述视觉模态特征。

举例而言，本公开实施例中，目标文本特征经由感兴趣区域对齐处理(Region OfInterest Align，ROI Align)，可以得到第一文本段对应的局部文本特征。

本公开实施例中，由于第一文本段可能不适用于上述第二文本段的文本特征提取过程，且第一文本段与第二文本段之间可能存在较高的关联性，由此，本公开实施例可以基于目标文本特征实现对第一文本段进行推理分析，以得到一文本段对应的局部文本特征。

S306：获取第一文本段的文本语义特征。

本公开实施例中，通过获取第一文本段的文本语义特征，可以为后续生成文本图像提供可靠的参考依据。

举例而言，本公开实施例在获取第一文本段的文本语义特征时，可以是将第一文本段对应的文本内容输入至嵌入层(Embedding)中，以获取第一文本段的文本语义特征。

S307：根据局部文本特征和第一文本段的文本语义特征，生成与文本内容对应的文本图像。

举例而言，本公开实施例可以将局部文本特征和第一文本段的文本语义特征输入至图像生成器中，以得到与文本内容对应的文本图像I，在得到文本图像I之后，还可以结合文本图像I与第一文本段对应的真实文本图像I₀进行损失函数的计算，并对网络进行反向传播以更新网络参数。其中，损失函数可以选择为最小平方误差对应的损失函数。

也即是说，本公开实施例在根据目标图像特征和第二文本段的文本语义特征，生成目标文本特征之后，可以根据目标文本特征，生成与第一文本段对应的局部文本特征，获取第一文本段的文本语义特征，而后根据局部文本特征和第一文本段的文本语义特征，生成与文本内容对应的文本图像，由此，可以基于目标文本特征进行推理以得到第一文本段对应的局部文本特征，而后结合局部文本特征和第一文本段的文本语义特征进行图像还原，可以在图像还原过程中融合多个维度的特征信息，从而有效提升所得文本图像对第一文本段相关信息的表征准确性。

本实施例中，通过根据目标图像特征，确定第二文本段的文本语义特征，其中，第二文本段是多个文本段中未被掩膜处理的文本段，而后根据目标图像特征和第二文本段的文本语义特征，生成目标文本特征，由此，可以在生成目标文本特征的过程中，有效结合目标图像特征和第二文本段的文本语义特征两个个维度的特征信息，从而有效提升对文档图像中文字特征提取的准确性和鲁棒性，提升所得目标文本特征对文本内容的表征准确性，通过根据目标文本特征，生成与第一文本段对应的局部文本特征，获取第一文本段的文本语义特征，而后根据局部文本特征和第一文本段的文本语义特征，生成与文本内容对应的文本图像，由此，可以基于目标文本特征进行推理以得到第一文本段对应的局部文本特征，而后结合局部文本特征和第一文本段的文本语义特征进行图像还原，可以在图像还原过程中融合多个维度的特征信息，从而有效提升所得文本图像对第一文本段相关信息的表征准确性。

图4是根据本公开第四实施例的示意图。

如图4所示，该图像处理方法，包括：

S401：获取初始文档图像，其中，初始文档图像包括：文本内容。

S402：获取初始文档图像的目标图像特征。

S401-S402的描述说明可以具体参见上述实施例，在此不再赘述。

S403：根据目标图像特征，生成图像特征向量。

其中，图像特征向量，是指基于目标图像特征所生成的向量，可以被用于表征图像特征。

本公开实施例中，当根据目标图像特征，生成图像特征向量时，可以使所得图像特征向量形象、清晰地表征目标图像特征的相关信息，以便于作为参考依据后续进行第二文本段的文本语义特征的确定过程。

S404：根据图像特征向量，确定第二文本段的文本语义特征。

本公开实施例中，通过根据图像特征向量，确定第二文本段的文本语义特征，可以为后续生成文本内容的语义模态特征提供可靠的参考依据。

也即是说，本公开实施例中在获取初始文档图像的目标图像特征之后，可以根据目标图像特征，生成图像特征向量，根据图像特征向量，确定第二文本段的文本语义特征，由于图像特征向量可以清晰、准确地表征目标图像特征的相关信息，当基于图像特征向量确定第二文本段的文本语义特征时，可以在提升图像处理效率的同时，提升所得二文本段的文本语义特征的表征准确性。

S405：根据第二文本段的文本语义特征，生成文本内容的语义模态特征。

其中，模态，是指数据的来源或形式，该模态例如可以是视频、图片、语音等。而语义模态特征，可以是指文本内容在语义模态对应的特征信息。

本公开实施例中，在根据第二文本段的文本语义特征，生成文本内容的语义模态特征时，可以是将文本语义特征输入至预训练的语义模态特征生成模型中，以得到文本内容的语义模态特征，或者，还可以是对第二文本段的文本语义特征进行随机采样，以获取文本内容的语义模态特征，对此不做限制。

可选的，一些实施例中，在根据第二文本段的文本语义特征，生成文本内容的语义模态特征时，可以是对第二文本段的文本语义特征进行维度转换，得到多维语义特征，对多维语义特征进行上采样处理，得到采样语义特征，将采样语义特征作为语义模态特征，由此，将第二文本段的文本语义特征进行维度转换得到多维语义特征，可以较大程度地丰富所得多维语义特征，而后对多维语义特征进行上采样处理，可以降低所得语义模态特征的数据量，从而有效提升图像处理效率。

其中，多维语义特征，是指第二文本段的文本语义特征经由维度转换所得到的语义特征。

其中，上采样处理，是指基于采样脉冲，将时间上、幅值上均连续的信号转换成时间、幅值上离散的信号。

其中，采样语义特征，是指多维语义特征经由上采样处理所得到的语义特征。

举例而言，本公开实施例在得到第二文本段的文本语义特征之后，可以将第二文本段的文本语义特征进行升维处理，以得到对应的二维特征，并通过上采样得到初始文档图像1/4的采样语义特征，并将其作为语义模态特征P_语义。

本公开实施例中，通过根据第二文本段的文本语义特征，生成文本内容的语义模态特征，可以为后续确定目标文本特征提供语义模态维度的相关信息。

S406：根据目标图像特征，生成文本内容的视觉模态特征。

其中，视觉模态特征，是指文本内容在视觉模态对应的特征信息。

本公开实施例中，在根据目标图像特征，生成文本内容的视觉模态特征时，可以是根据目标图像特征生成文本内容的视觉模态特征，或者，还可以是根据其他候选图像特征生成文本内容的视觉模态特征，对此不做限制。

可选的，一些实施例中，在根据目标图像特征，生成文本内容的视觉模态特征时，可以是根据目标图像特征和其他候选图像特征，生成文本内容的视觉模态特征，其中，目标图像特征和其他候选图像特征共同组成多个候选图像特征，由于目标图像特征和其他候选图像特征对应的表征粒度存在差异，当结合目标图像特征和其他候选图像特征生成文本内容的视觉模态特征时，可以较大程度地丰富所得视觉模态特征的表征内容，从而有效提升该视觉模态特征在图像处理过程中作为参考依据的可靠性。

举例而言，本公开实施例在根据目标图像特征，生成文本内容的视觉模态特征时，可以是将C2-C5对应的特征图依次输入至反卷积层中，以得到视觉模态特征P_视觉。

本公开实施例中，在根据目标图像特征和其他候选图像特征，生成文本内容的视觉模态特征时，可以是将目标图像特征和其他候选图像特征进行拼接处理，以得到拼接图像特征，而后根据该拼接图像特征生成文本内容的视觉模态特征，或者，还可以是确定多个其他候选图像特征的优先级信息，而后根据优先级信息从多个其他候选图像特征中选取部分其他候选图像特征结合目标图像特征，生成目标图像特征，对此不做限制。

可选的，一些实施例中，在根据目标图像特征和其他候选图像特征，生成文本内容的视觉模态特征时，可以是生成与目标图像特征对应的第一视觉模态特征，生成与其他候选图像特征对应的第二视觉模态特征，融合第一视觉模态特征和第二视觉模态特征，得到文本内容的视觉模态特征，由此，可以实现目标图像特征和其他候选图像特征对应视觉模态特征的有效融合，从而有效提升所得目标图像特征对于初始文档图像中文本内容的表征完整性。

其中，第一视觉模态特征，是指与目标图像特征对应的视觉模态特征。而第二视觉模态特征，是指与其他候选图像特征对应的第二视觉模态特征。

本公开实施例中，通过根据目标图像特征，生成文本内容的视觉模态特征，所得视觉模态特征可以作为参考依据，与上述语义模态特征进行融合处理，以得到目标文本特征。

S407：融合语义模态特征和视觉模态特征，得到目标文本特征。

本公开实施例中，通过融合语义模态特征和视觉模态特征，得到目标文本特征，可以目标文本特征确定过程中有效结合语义模态特征和视觉模态特征的相关信息，丰富所得目标文本特征的表征内容。

也即是说，本公开实施例在根据图像特征向量，确定第二文本段的文本语义特征之后，可以根据第二文本段的文本语义特征，生成文本内容的语义模态特征，根据目标图像特征，生成文本内容的视觉模态特征，融合语义模态特征和视觉模态特征，得到目标文本特征，由于，可以在图像处理过程中有效结合多模态的特征信息，降低对图像特征的依赖性，从而有效提升图像处理过程的灵活性，以在个性化的应用场景中有效提升图像处理效率。

举例而言，本公开实施例中可以将上述所得语义模态特征P_语义和视觉模态特征P_视觉进行拼接处理，并将拼接处理后的语义模态特征P_语义和视觉模态特征P_视觉输入至连续的两个3*3卷积层中，以获取融合后的视觉模态特征P_融合。

S408：根据目标文本特征，生成与文本内容对应的文本图像。

S408的描述说明可以具体参见上述实施例，在此不再赘述。

举例而言，如图5所示，图5是根据本公开实施例的图像还原流程示意图，其中，初始文档图像可以经由掩膜处理得到参考文档图像；所得参考文档图像经由卷积神经网络处理，可以得到目标图像特征和其他候选图像特征；目标图像特征和其他候选图像特征经由特征金字塔网络(Feature Pyramid Network，FPN)处理可以得到视觉模态特征；目标图像特征经由语义理解框架和上采样处理可以得到语义模态特征；而语义模态特征和视觉模态特征经过融合处理可以得到目标文本特征；目标文本特征经由感兴趣区域对齐处理(Region Of Interest Align，ROI Align)，可以得到第一文本段对应的局部文本特征；将第一文本段对应的文字内容输入至嵌入层中，以获取第一文本段对应的文本语义特征，而后将上述所得局部文本特征和第一文本段的文本语义特征输入至图像生成器中，以得到与文本内容对应的文本图像I；结合文本图像I与第一文本段对应的真实文本图像I₀进行损失函数的计算，并对网络进行反向传播以更新网络参数。其中，损失函数可以选择为最小平方误差对应的损失函数。

其中，被用于文档图像特征提取的卷积神经网络可以为残差网络(ResidualNetwork，ResNet)、语义分割模型等，可以被用于提取文档图像的视觉特征。

其中，语义理解框架，可以是基于注意力机制的语义理解技术与平台，可以在文本语料大数据中进行预训练，被用于提取字段中的文本语义特征。

其中，图像生成器，可以是由一系列卷积层以及反卷积层结构组成的全卷积神经网络，可以被用于根据局部文本特征和第一文本段的文本语义特征进行图像还原。

本公开实施例中，由于基于多模态特征信息进行图像还原，有效降低了对图像特征的依赖程度，因此可以使用较为轻便的卷积神经网络对图像特征进行提取，较大程度地提升了模型的工作效率。同时，基于注意力机制的语义理解技术与平台可以有效提升对文档图像的处理能力，提升图像还原的准确性。由此，可以通过预训练任务的大数据训练获得更好的特征提取器，减轻了下游任务的压力，可以更针对性地对下游任务进行优化，同时能够降低OCR的开发成本，扩大OCR的应用领域，提高OCR的准确性。

本实施例中，通过根据目标图像特征，生成图像特征向量，根据图像特征向量，确定第二文本段的文本语义特征，由于图像特征向量可以清晰、准确地表征目标图像特征的相关信息，当基于图像特征向量确定第二文本段的文本语义特征时，可以在提升图像处理效率的同时，提升所得二文本段的文本语义特征的表征准确性，通过根据第二文本段的文本语义特征，生成文本内容的语义模态特征，根据目标图像特征，生成文本内容的视觉模态特征，融合语义模态特征和视觉模态特征，得到目标文本特征，由于，可以在图像处理过程中有效结合多模态的特征信息，降低对图像特征的依赖性，从而有效提升图像处理过程的灵活性，以在个性化的应用场景中有效提升图像处理效率，通过对第二文本段的文本语义特征进行维度转换，得到多维语义特征，对多维语义特征进行上采样处理，得到采样语义特征，将采样语义特征作为语义模态特征，由此，将第二文本段的文本语义特征进行维度转换得到多维语义特征，可以较大程度地丰富所得多维语义特征，而后对多维语义特征进行上采样处理，可以降低所得语义模态特征的数据量，从而有效提升图像处理效率，通过根据目标图像特征和其他候选图像特征，生成文本内容的视觉模态特征，其中，目标图像特征和其他候选图像特征共同组成多个候选图像特征，由于目标图像特征和其他候选图像特征对应的表征粒度存在差异，当结合目标图像特征和其他候选图像特征生成文本内容的视觉模态特征时，可以较大程度地丰富所得视觉模态特征的表征内容，从而有效提升该视觉模态特征在图像处理过程中作为参考依据的可靠性，通过生成与目标图像特征对应的第一视觉模态特征，生成与其他候选图像特征对应的第二视觉模态特征，融合第一视觉模态特征和第二视觉模态特征，得到文本内容的视觉模态特征，由此，可以实现目标图像特征和其他候选图像特征对应视觉模态特征的有效融合，从而有效提升所得目标图像特征对于初始文档图像中文本内容的表征完整性。

图6是根据本公开第五实施例的示意图。

如图6所示，该图像处理装置60，包括：

第一获取模块601，用于获取初始文档图像，其中，初始文档图像包括：文本内容；

第二获取模块602，用于获取初始文档图像的目标图像特征；

确定模块603，用于根据目标图像特征，确定文本内容的目标文本特征；以及

生成模块604，用于根据目标文本特征，生成与文本内容对应的文本图像。

在本公开的一些实施例中，如图7所示，图7是根据本公开第六实施例的示意图，该图像处理装置70，包括：第一获取模块701、第二获取模块702、确定模块703、生成模块704，其中，第二获取模块702，包括：

处理子模块7021，用于对初始文档图像中文本内容进行处理，得到参考文档图像；

获取子模块7022，用于获取参考文档图像的参考图像特征，并将参考图像特征作为目标图像特征。

在本公开的一些实施例中，文本内容包括：多个文本段；

其中，处理子模块7021，具体用于：

对初始文档图像中第一文本段进行掩膜处理，并将掩膜处理所得初始文档图像作为参考文档图像，其中，第一文本段属于多个文本段。

在本公开的一些实施例中，其中，获取子模块7022，具体用于：

对参考文档图像进行特征识别，得到与多个尺寸信息分别对应的多个候选图像特征；

从多个候选图像特征中选取目标候选图像特征，并将目标候选图像特征作为参考图像特征。

在本公开的一些实施例中，其中，获取子模块7022，还用于：

确定与多个候选图像特征分别对应的多个候选特征类型；

从多个候选特征类型中确定目标特征类型；

将目标特征类型所属候选图像特征作为目标候选图像特征。

在本公开的一些实施例中，其中，确定模块703，包括：

确定子模块7031，用于根据目标图像特征，确定第二文本段的文本语义特征，其中，第二文本段是多个文本段中未被掩膜处理的文本段；

生成子模块7032，用于根据目标图像特征和第二文本段的文本语义特征，生成目标文本特征。

在本公开的一些实施例中，其中，确定子模块7031，具体用于：

根据目标图像特征，生成图像特征向量；

根据图像特征向量，确定第二文本段的文本语义特征。

在本公开的一些实施例中，其中，生成子模块7032，包括：

第一生成单元70321，用于根据第二文本段的文本语义特征，生成文本内容的语义模态特征；

第二生成单元70322，用于根据目标图像特征，生成文本内容的视觉模态特征；

处理单元70323，用于融合语义模态特征和视觉模态特征，得到目标文本特征。

在本公开的一些实施例中，其中，第一生成单元70321，具体用于：

对第二文本段的文本语义特征进行维度转换，得到多维语义特征；

对多维语义特征进行上采样处理，得到采样语义特征；

将采样语义特征作为语义模态特征。

在本公开的一些实施例中，其中，第二生成单元70322，具体用于：

根据目标图像特征和其他候选图像特征，生成文本内容的视觉模态特征，其中，目标图像特征和其他候选图像特征共同组成多个候选图像特征。

在本公开的一些实施例中，其中，第二生成单元70322，还用于：

生成与目标图像特征对应的第一视觉模态特征；

生成与其他候选图像特征对应的第二视觉模态特征；

融合第一视觉模态特征和第二视觉模态特征，得到文本内容的视觉模态特征。

在本公开的一些实施例中，其中，生成模块704，具体用于：

根据目标文本特征，生成与第一文本段对应的局部文本特征；

获取第一文本段的文本语义特征；

根据局部文本特征和第一文本段的文本语义特征，生成与文本内容对应的文本图像。

可以理解的是，本实施例附图7中的图像处理装置70与上述实施例中的图像处理装置60，第一确定模块701与上述实施例中的第一确定模块601，第二确定模块702与上述实施例中的第二确定模块602，第三确定模块703与上述实施例中的第三确定模块603，生成模块704与上述实施例中的生成模块604，可以具有相同的功能和结构。

需要说明的是，前述对图像处理方法的解释说明也适用于本实施例图像处理装置。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的图像处理方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如执行图像处理方法。例如，在一些实施例中，执行图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的执行图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

获取初始文档图像，其中，所述初始文档图像包括：文本内容；

获取所述初始文档图像的目标图像特征；

根据所述目标图像特征，确定所述文本内容的目标文本特征；以及

根据所述目标文本特征，生成与所述文本内容对应的文本图像。

2.根据权利要求1所述的方法，其中，所述获取所述初始文档图像的目标图像特征，包括：

对所述初始文档图像中所述文本内容进行处理，得到参考文档图像；

获取所述参考文档图像的参考图像特征，并将所述参考图像特征作为所述目标图像特征。

3.根据权利要求2所述的方法，所述文本内容包括：多个文本段；

其中，所述对所述初始文档图像中所述文本内容进行处理，得到参考文档图像，包括：

对所述初始文档图像中第一文本段进行掩膜处理，并将掩膜处理所得初始文档图像作为所述参考文档图像，其中，所述第一文本段属于所述多个文本段。

4.根据权利要求3所述的方法，其中，所述获取所述参考文档图像的参考图像特征，包括：

对所述参考文档图像进行特征识别，得到与多个尺寸信息分别对应的多个候选图像特征；

从所述多个候选图像特征中选取目标候选图像特征，并将所述目标候选图像特征作为所述参考图像特征。

5.根据权利要求4所述的方法，其中，所述从所述多个候选图像特征中选取目标候选图像特征，包括：

确定与所述多个候选图像特征分别对应的多个候选特征类型；

从所述多个候选特征类型中确定目标特征类型；

将所述目标特征类型所属候选图像特征作为所述目标候选图像特征。

6.根据权利要求4所述的方法，其中，所述根据所述目标图像特征，确定所述文本内容的目标文本特征，包括：

根据所述目标图像特征，确定第二文本段的文本语义特征，其中，所述第二文本段是所述多个文本段中未被掩膜处理的文本段；

根据所述目标图像特征和所述第二文本段的文本语义特征，生成所述目标文本特征。

7.根据权利要求6所述的方法，其中，所述根据所述目标图像特征，确定第二文本段的文本语义特征，包括：

根据所述目标图像特征，生成图像特征向量；

根据所述图像特征向量，确定所述第二文本段的文本语义特征。

8.根据权利要求7所述的方法，其中，所述根据所述目标图像特征和所述第二文本段的文本语义特征，生成所述目标文本特征，包括：

根据所述第二文本段的文本语义特征，生成所述文本内容的语义模态特征；

根据所述目标图像特征，生成所述文本内容的视觉模态特征；

融合所述语义模态特征和所述视觉模态特征，得到所述目标文本特征。

9.根据权利要求8所述的方法，其中，所述根据所述第二文本段的文本语义特征，生成所述文本内容的语义模态特征，包括：

对所述第二文本段的文本语义特征进行维度转换，得到多维语义特征；

对所述多维语义特征进行上采样处理，得到采样语义特征；

将所述采样语义特征作为所述语义模态特征。

10.根据权利要求8所述的方法，其中，所述根据所述目标图像特征，生成所述文本内容的视觉模态特征，包括：

根据所述目标图像特征和其他候选图像特征，生成所述文本内容的视觉模态特征，其中，所述目标图像特征和所述其他候选图像特征共同组成所述多个候选图像特征。

11.根据权利要求10所述的方法，其中，所述根据所述目标图像特征和其他候选图像特征，生成所述文本内容的视觉模态特征，包括：

生成与所述目标图像特征对应的第一视觉模态特征；

生成与所述其他候选图像特征对应的第二视觉模态特征；

融合所述第一视觉模态特征和所述第二视觉模态特征，得到所述文本内容的视觉模态特征。

12.根据权利要求3-11任一项所述的方法，其中，所述根据所述目标文本特征，生成与所述文本内容对应的文本图像，包括：

根据所述目标文本特征，生成与所述第一文本段对应的局部文本特征；

获取所述第一文本段的文本语义特征；

根据所述局部文本特征和所述第一文本段的文本语义特征，生成与所述文本内容对应的文本图像。

13.一种图像处理装置，包括：

第一获取模块，用于获取初始文档图像，其中，所述初始文档图像包括：文本内容；

第二获取模块，用于获取所述初始文档图像的目标图像特征；

确定模块，用于根据所述目标图像特征，确定所述文本内容的目标文本特征；以及

生成模块，用于根据所述目标文本特征，生成与所述文本内容对应的文本图像。

14.根据权利要求13所述的装置，其中，所述第二获取模块，包括：

处理子模块，用于对所述初始文档图像中所述文本内容进行处理，得到参考文档图像；

获取子模块，用于获取所述参考文档图像的参考图像特征，并将所述参考图像特征作为所述目标图像特征。

15.根据权利要求14所述的装置，所述文本内容包括：多个文本段；

其中，所述处理子模块，具体用于：

16.根据权利要求15所述的装置，其中，所述获取子模块，具体用于：

17.根据权利要求16所述的装置，其中，所述获取子模块，还用于：

从所述多个候选特征类型中确定目标特征类型；

18.根据权利要求16所述的装置，其中，所述确定模块，包括：

确定子模块，用于根据所述目标图像特征，确定第二文本段的文本语义特征，其中，所述第二文本段是所述多个文本段中未被掩膜处理的文本段；

生成子模块，用于根据所述目标图像特征和所述第二文本段的文本语义特征，生成所述目标文本特征。

19.根据权利要求18所述的装置，其中，所述确定子模块，具体用于：

根据所述目标图像特征，生成图像特征向量；

20.根据权利要求19所述的装置，其中，所述生成子模块，包括：

第一生成单元，用于根据所述第二文本段的文本语义特征，生成所述文本内容的语义模态特征；

第二生成单元，用于根据所述目标图像特征，生成所述文本内容的视觉模态特征；

处理单元，用于融合所述语义模态特征和所述视觉模态特征，得到所述目标文本特征。

21.根据权利要求20所述的装置，其中，所述第一生成单元，具体用于：

对所述多维语义特征进行上采样处理，得到采样语义特征；

将所述采样语义特征作为所述语义模态特征。

22.根据权利要求20所述的装置，其中，所述第二生成单元，具体用于：

23.根据权利要求22所述的装置，其中，所述第二生成单元，还用于：

生成与所述目标图像特征对应的第一视觉模态特征；

生成与所述其他候选图像特征对应的第二视觉模态特征；

24.根据权利要求15-23任一项所述的装置，其中，所述生成模块，具体用于：

获取所述第一文本段的文本语义特征；

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述方法的步骤。