CN112949415B

CN112949415B - 图像处理方法、装置、设备和介质

Info

Publication number: CN112949415B
Application number: CN202110156565.9A
Authority: CN
Inventors: 李煜林; 黄聚; 谢群义; 钦夏孟; 章成全; 刘经拓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-03-24
Anticipated expiration: 2041-02-04
Also published as: EP4040401A1; CN112949415A; US20220253631A1

Abstract

本公开公开了一种图像处理方法、装置、设备和介质，涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域。该图像处理方法包括：获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征；对所述各个文本区域的多模态特征进行全局注意力处理，以得到所述各个文本区域的全局注意力特征；基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别，基于所述各个文本区域的文本内容和所述类别构建结构化信息。本公开可以提供更具有普适性的图像中的结构化信息的构建方案。

Description

图像处理方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域，尤其涉及一种图像处理方法、装置、设备和介质。

背景技术

人工智能(Artificial Intelligence，AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

票据是一种重要的结构化信息的文本载体，被广泛用于各种商业场景。为了提高处理票据的效率，可以对纸质票据进行拍照以得到票据图像，再将非结构化的票据图像转换为结构化信息。

相关技术中，基于标准模板，在固定版式的票据图像的固定位置提取票据信息。

发明内容

本公开提供了一种图像处理方法、装置、设备和介质。

根据本公开的一方面，提供了一种图像处理方法，包括：获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征；对所述各个文本区域的多模态特征进行全局注意力处理，以得到所述各个文本区域的全局注意力特征；基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别；基于所述各个文本区域的文本内容和所述类别构建结构化信息。

根据本公开的另一方面，提供了一种图像处理装置，包括：获取单元，用于获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征；处理单元，用于对所述各个文本区域的多模态特征进行全局注意力处理，以得到所述各个文本区域的全局注意力特征；确定单元，用于基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别；构建单元，用于基于所述各个文本区域的文本内容和所述类别构建结构化信息。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以提供更具有普适性的图像中的结构化信息的构建方案。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开第八实施例的示意图；

图9是用来实现本公开实施例的图像处理方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，基于标准模板，在固定版式的票据图像的固定位置提取票据信息，这种方式需要为每种固定版式的票据图像配置标准模板，并且只能处理固定版式的票据图像，难以处理扭曲变形、打印偏移的票据图像，因此，适用范围非常受限。

为了解决相关技术中存在的适用范围受限的问题，本公开提供一些实施例。

图1是根据本公开第一实施例的示意图。本实施例提供一种图像处理方法，包括：

101、获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征。

102、对所述各个文本区域的多模态特征进行全局注意力处理，以得到所述各个文本区域的全局注意力特征。

103、基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别。

104、基于所述各个文本区域的文本内容和所述类别构建结构化信息。

图像是指包含结构化信息的图像，比如，票据图像、证件图像等。结构化信息也可以称为结构化数据(Structured data)，是一种可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是数据中的某一个字段，并且可以被精确地定位到。

图像中至少一个文本区域，大部分是该图像中的非背景文本区域，背景文本区域是指票据本身带的文本区域，比如，“姓名”这2个字所对应的文本区域为背景文本区域，非背景文本区域也可以称为打印文本区域，即，票据的打印文本的文本区域，比如，“姓名”这2个字对应的具体的名字：“XXX”。

多模态特征包括的多个维度的特征可以分别是：空间特征、语义特征和视觉特征，空间特征是指位置信息对应的特征，位置信息可以表示为：

s_i＝(x_i,y_i,w_i,h_i)；语义特征是指文本区域对应的文本内容对应的特征，文本内容可以表示为：T＝{t_i}；视觉特征是指文本区域对应的图像段的图像特征对应的特征，图像特征可以表示为：

其中，i是文本区域的索引，(x_i,y_i,w_i,h_i)是第i个文本区域的位置信息，分别是该文本区域对应的文本框的左上角顶点的位置坐标(x_i,y_i)、文本框的宽度w_i和高度h_i。

在得到多模态特征之后，可以先对多模态特征进行自注意力(self-attention)处理，再将自注意力处理后得到的特征(该特征可以称为自注意力特征)，与上述的空间特征进行交叉注意力(cross-attention)处理，交叉注意力处理后得到的特征可以称为全局注意力特征。全局注意力特征是融合了多个维度的特征，以及，融合了文本区域之间的交叉信息的特征，能更好地反映图像的在多种维度以及全局上的特征。

在得到全局注意力特征后，可以采用分类网络确定各个文本区域的类别。分类网络比如为全连接层(full connect，FC)结构，分类函数比如为softmax函数。经过分类网络，可以输出各个文本区域在各个预设类别上的概率p_ij，p_ij表示第i个文本区域在第j个类别上的概率，之后将概率最大的类别作为对应的文本区域的类别。比如，对应i₀，最大概率为

则将第j^*个类别作为第i₀个文本区域的类别。

在确定各个文本区域对应的类别后，可以基于各个文本区域的文本内容和对应的类别构建结构化信息，比如，结构化信息一般采用键值对(key-value)的方式表示，因此，可以将类别作为键，将文本内容作为值，组成一条结构化信息的一对键值对。

本实施例中，通过确定各个文本区域的类别，可以基于类别构建结构化信息，由于是识别文本区域的类别，并不限定于固定位置，因此，可以提供更具有普适性的图像中的结构化信息的提取方案。进一步地，基于多模态特征进行处理，可以在处理时参考多种维度的特征，以及，对多模态特征进行全局注意力处理，可以在处理时参考全局特征，基于多种维度的特征和全局特征的处理可以不受限于图像的版式或图像内容的扭曲变形、打印偏移等，从而进一步扩大适用范围。

图2是本公开第二实施例的示意图，本实施例提供一种图像处理方法。本实施例以票据图像为例，并结合图3所示的网络架构图，该方法包括：

201、对票据图像进行光学字符识别(Optical Character Recognition，OCR)，以得到所述图像中至少一个文本区域的各个文本区域的位置信息，以及，所述各个文本区域中的文本内容。

一些实施例中，OCR可以包括：文本检测和文本识别，文本检测是指采用文本检测模型对图像进行文本检测，输出为各个文本区域的位置信息，文本识别是指采用文本识别模型，识别各个文本区域中的文本内容。

文本检测模型和文本识别模型都可以采用各种相关技术实现。

一些实施例中，文本检测模型采用训练文本区域对预训练模型，比如，有效准确场景文本检测(Efficient and Accurate Scene Text Detector，EAST)模型进行微调后得到，所述训练文本区域包括训练图像中的非背景文本区域。

可以理解的是，训练文本区域还可以包括部分背景文本区域，比如，参见图4，训练文本区域还可以包括票据中的标题，如“AA医疗住院收费票据”。具体包括哪些训练文本区域可以根据实际需要选择，相应地，在检测阶段，可以检测出对应的文本区域。图4中，票据图像的背景文本区域用斜体表示，打印文本区域用黑体表示，经过文本检测模型的检测，可以对应文本区域标注出文本框，文本框一般为矩形，用粗线条表示。图4中，住院日期对应的打印文本区域出现了打印偏移，不过依据本公开实施例的处理也可以确定该出现偏移的打印文本区域的类别，相对于相关技术中难以处理打印偏移的情况，本公开实施例可以具有更广的适用范围。

通过在训练文本区域中包括非背景文本区域，可以更具有针对性。

基于文本检测模型检测出各个文本区域的位置信息后，可以基于该位置信息确定对应的图像段，得到各个图像段，再对各个图像段采用文本识别模型进行处理，输出为对应的图像段的文本内容。文本识别模型比如为卷积循环神经网络(Convolutional RecurrentNeural Network，CRNN)模型。

202、根据所述位置信息获取所述空间特征。

位置信息可以表示为

s_i＝(x_i,y_i,w_i,h_i)。

在得到位置信息后，可以将位置信息作为嵌入(embedding)层的输入，采用嵌入层将位置信息转换为向量，该向量可以称为位置向量。嵌入层比如采用word2vec模型实现。

203、根据所述文本内容获取所述语义特征。

一些实施例中，可以将所述文本内容对应的文字向量作为所述语义特征，比如，可以采用word2vec模型，将文本内容转换为向量，该向量可以称为文字向量，之后，可以将文字向量作为语义特征。或者，

一些实施例中，如图3所示，采用第一双向长短期记忆网络(Bidirectional LongShort-Term Memory，BiLSTM)对所述语义向量进行处理，将所述第一BiLSTM的隐层输出向量作为所述语义特征。

通过对语义向量进行BiLSTM处理，可以提取更抽象的语义特征，提高结构化信息提取的准确度。

204、基于所述各个文本区域的位置信息，获取所述各个文本区域对应的图像段，提取所述图像段的图像特征。

其中，可以采用卷积神经网络(Convolutional Neural Network，CNN)提取所述图像段的图像特征，将CNN输出的特征图(feature map)作为上述的图像特征。

进一步地，由于各个图像段的大小可能不一致，可以采用感兴趣区域(Region OfInterest，ROI)池化(pooling)的方式对各个图像段进行处理。即，CNN中可以包括ROI池化层，ROI Pooling层的功能是将不同尺寸的特征图处理成相同长度的特征表示。具体实现时，可以将CNN的最后一层池化层替换为ROI池化层。

通过采用ROI池化层，可以处理尺寸不同的各个图像段。

可以理解的是，202～204的时序关系不限定。

205、根据所述图像特征获取视觉特征。

一些实施例中，可以将所述图像特征作为所述视觉特征；或者，

一些实施例中，比如参见图3，采用第二BiLSTM对所述图像特征进行处理，将所述第二BiLSTM的隐层输出向量作为所述视觉特征。

通过对图像特征进行BiLSTM处理，可以提取更抽象的视觉特征，提高结构化信息提取的准确度。

可以理解的是，本公开实施例中的“第一”、“第二”等只是为了区分，并不代表先后顺序或者重要程度等。

通过上述处理，可以获取多模态特征，即空间特征、语义特征和视觉特征，为文本区域的类别确定提供基础。

206、对所述各个文本区域的多模态特征进行自注意力处理，以得到所述各个文本区域的自注意力特征。

比如，对应各个文本区域，将视觉特征、空间特征和语义特征进行拼接，以得到拼接特征，拼接特征V表示为：V＝{F||S||T}。

获取拼接特征后，可以将拼接特征作为自注意力网络的输入，采用自注意力网络对拼接特征进行自注意力处理，自注意力网络的输出可以称为自注意力特征。自注意力机制可以类似双向Transformer的Encoder(Bidirectional Encoder Representations fromTransformers，BERT)模型的自注意力机制。

具体地，参见图5，自注意力网络可以包括多层，以N层为例，N是可设置值，多层之间堆叠设置，即，一层的输出作为下一层的输入，在每层中对输入进行自注意力处理。计算公式如下：

H₀＝V

其中，i是层的索引，H_i-1是第i层的输入，H_i是第i层的输出；σ(*)是激活函数，可以为sigmoid函数；W_i1,W_i2是第i层的两组参数，不同层的这两组参数不共享；d_model是H_i的维度，H₁～H_N的维度相同。

自注意力特征为最后一层的输出，即H_N。

通过对多模态特征进行自注意力处理，可以得到融合了多种维度特征的信息，提高类别判定的准确性。

207、基于所述各个文本区域的自注意力特征和所述各个文本区域的空间特征，进行交叉注意力处理，以得到所述各个文本区域的全局注意力特征。

获取到自注意力特征和空间特征后，可以将自注意力特征和空间特征作为交叉注意力网络的输入，采用交叉注意力网络对这两个输入进行交叉注意力处理，交叉注意力网络的输出可以称为全局注意力特征。交叉注意力机制可以类似已有的交叉注意力网络(Cross Attention Network，CAN)的交叉注意力机制。

具体地，参见图6，交叉注意力网络可以包括多层，以M层为例，M是可设置值，多层之间堆叠设置，即，每层有两个输入，一个为自注意力特征，另一个为上一层的输出，在每层中对两个输入进行交叉注意力处理。计算公式如下：

D₀＝S

其中，j是层的索引，D_j-1是第j层的输入，D_j是第j层的输出；σ(*)是激活函数，可以为sigmoid函数；W_j3,W_j4是第j层的两组参数，不同层的这两组参数不共享；d_model是D_j的维度，H₁～H_N和D₁～D_N的维度相同。

全局注意力特征为最后一层的输出，即，D_M。

208、根据所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别。

获取到各个文本区域的全局注意力特征后，可以将该全局注意力特征作为分类网络的输入，分类网络的输出节点与预设类别一致，从而输出各个文本区域在各个类别上的概率，之后，对应一个文本区域，可以选择概率最大的一个类别作为该文本区域的类别。

预设类别可以根据实际需要设定，比如，预设类别可以表示为：Q＝{q_k；q_k∈(票号、名称、日期、总金额...)}。

进一步地，训练阶段和应用阶段的分类网络的输出节点可以不同，在应用阶段可以增加输出节点的个数，以支持新增类别的预测能力。

209、基于各个文本区域的文本内容和对应的类别构建结构化信息。

比如，对应姓名为“XXX”的文本区域，在类别“姓名”上的概率最大，则将“XXX”的类别确定为“姓名”，之后，可以构建一条键为“姓名”，值为“XXX”的结构化信息。

本实施例中，基于预设类别构建结构化信息，可以实现非固定版式的票据证照信息提取，扩大票据证照识别所覆盖的业务范围。并且可以为大规模包含结构化信息的图像识别预训练打下基础。

图7是本公开第七实施例的示意图，该实施例提供一种图像处理装置。如图7所示，该装置700包括获取单元701、处理单元702、确定单元703和构建单元704。

获取单元701用于获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征；处理单元702用于对所述各个文本区域的多模态特征进行全局注意力处理，以得到所述各个文本区域的全局注意力特征；确定单元703用于基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别；构建单元704用于基于所述各个文本区域的文本内容和所述类别构建结构化信息。

一些实施例中，参见图8，提供另一种图像处理装置，该装置800包括获取单元801、处理单元802、确定单元803和构建单元804。

一些实施例中，所述处理单元802包括自注意力处理模块8021和交叉注意力处理模块8022。

自注意力处理模块8021用于对所述各个文本区域的多模态特征进行自注意力处理，以得到所述各个文本区域的自注意力特征；交叉注意力处理模块8022用于基于所述各个文本区域的自注意力特征和所述各个文本区域的空间特征，进行交叉注意力处理，以得到所述各个文本区域的全局注意力特征。

一些实施例中，所述多模态特征包括：空间特征、语义特征和视觉特征，所述获取单元801包括识别模块8011、第一获取模块8012、第二获取模块8013和第三获取模块8014。

识别模块8011用于对所述图像进行OCR，以得到所述图像中至少一个文本区域的各个文本区域的位置信息，以及，所述各个文本区域中的文本内容；第一获取模块8012用于根据所述位置信息获取所述空间特征；第二获取模块8013用于根据所述文本内容获取所述语义特征；第三获取模块8014用于基于所述各个文本区域的位置信息，获取所述各个文本区域对应的图像段，提取所述图像段的图像特征，并根据所述图像特征获取所述视觉特征。

一些实施例中，所述第二获取模块8013具体用于：将所述文本内容对应的文字向量作为所述语义特征；或者，采用第一BiLSTM对所述语义向量进行处理，将所述第一BiLSTM的隐层输出向量作为所述语义特征。

一些实施例中，所述第三获取模块8014具体用于：将所述图像特征作为所述视觉特征；或者，采用第二BiLSTM对所述图像特征进行处理，将所述第二BiLSTM的隐层输出向量作为所述视觉特征。

一些实施例中，所述第三获取模块8014具体用于：采用CNN提取所述图像段的图像特征，所述CNN包括ROI池化层。

一些实施例中，所述OCR包括文本检测，所述识别模块8011具体用于：采用文本检测模型，对所述图像进行文本检测，所述文本检测模型采用训练文本区域对预训练模型进行微调后得到，所述训练文本区域包括训练图像中的非背景文本区域。

本实施例中，通过确定各个文本区域的类别，可以基于类别构建结构化信息，由于是识别文本区域的类别，并不限定于固定位置，因此，可以提供更具有普适性的图像中的结构化信息的构建方案。进一步地，基于多模态特征进行处理，可以在处理时参考多种维度的特征，以及，对多模态特征进行全局注意力处理，可以在处理时参考全局特征，基于多种维度的特征和全局特征的处理可以不受限于图像的版式或图像内容的扭曲变形、打印偏移等，从而进一步扩大适用范围。

可以理解的是，本公开的不同实施例中相同或相应的内容可以相互参考，实施例中未做详细说明的内容，可以参见其他实施例的相关内容。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征；其中，所述至少一个文本区域是所述图像的非背景文本区域；其中，所述多模态特征包括：空间特征；

采用基于自注意力机制的编码器，对所述各个文本区域的多模态特征进行基于自注意力机制的编码处理，以得到所述各个文本区域的自注意力特征；

采用基于交叉注意力机制的解码器，根据所述各个文本区域的自注意力特征和所述各个文本区域的所述空间特征，进行基于交叉注意力机制的解码处理，以得到所述各个文本区域的全局注意力特征；

基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别；

基于所述各个文本区域的文本内容和所述类别构建结构化信息。

2.根据权利要求1所述的方法，其中，所述多模态特征还包括：语义特征和视觉特征，所述获取图像中的至少一个文本区域的各个文本区域的多模态特征，包括：

对所述图像进行光学字符识别，以得到所述图像中至少一个文本区域的各个文本区域的位置信息，以及，所述各个文本区域中的文本内容；

根据所述位置信息获取所述空间特征；

根据所述文本内容获取所述语义特征；

基于所述各个文本区域的位置信息，获取所述各个文本区域对应的图像段，提取所述图像段的图像特征，并根据所述图像特征获取所述视觉特征。

3.根据权利要求2所述的方法，其中，所述根据所述文本内容获取所述语义特征，包括：

将所述文本内容对应的文字向量作为所述语义特征；或者，

采用第一双向长短期记忆网络BiLSTM对语义向量进行处理，将第一BiLSTM的隐层输出向量作为所述语义特征。

4.根据权利要求2所述的方法，其中，所述根据所述图像特征获取所述视觉特征，包括：

将所述图像特征作为所述视觉特征；或者，

采用第二BiLSTM对所述图像特征进行处理，将所述第二BiLSTM的隐层输出向量作为所述视觉特征。

5.根据权利要求2所述的方法，其中，所述提取所述图像段的图像特征，包括：

采用CNN提取所述图像段的图像特征，所述CNN包括感兴趣区域池化层。

6.根据权利要求2所述的方法，其中，所述光学字符识别包括文本检测，所述对所述图像进行光学字符识别，包括：

采用文本检测模型，对所述图像进行文本检测，所述文本检测模型采用训练文本区域对预训练模型进行微调后得到，所述训练文本区域包括训练图像中的非背景文本区域。

7.一种图像处理装置，包括：

获取单元，用于获取图像中至少一个文本区域的各个文本区域的多模态特征，所述多模态特征包括多个维度的特征；其中，所述至少一个文本区域是所述图像的非背景文本区域；其中，所述多模态特征包括：空间特征；

自注意力处理模块，用于采用基于自注意力机制的编码器，对所述各个文本区域的多模态特征进行基于自注意力机制的编码处理，以得到所述各个文本区域的自注意力特征；

交叉注意力处理模块，用于采用基于交叉注意力机制的解码器，根据所述各个文本区域的自注意力特征和所述各个文本区域的所述空间特征，进行基于交叉注意力机制的解码处理，以得到所述各个文本区域的全局注意力特征；

确定单元，用于基于所述各个文本区域的全局注意力特征，确定所述各个文本区域的类别；

构建单元，用于基于所述各个文本区域的文本内容和所述类别构建结构化信息。

8.根据权利要求7所述的装置，其中，所述多模态特征还包括：语义特征和视觉特征，所述获取单元包括：

识别模块，用于对所述图像进行光学字符识别，以得到所述图像中至少一个文本区域的各个文本区域的位置信息，以及，所述各个文本区域中的文本内容；

第一获取模块，用于根据所述位置信息获取所述空间特征；

第二获取模块，用于根据所述文本内容获取所述语义特征；

第三获取模块，用于基于所述各个文本区域的位置信息，获取所述各个文本区域对应的图像段，提取所述图像段的图像特征，并根据所述图像特征获取所述视觉特征。

9.根据权利要求8所述的装置，其中，所述第二获取模块具体用于：

将所述文本内容对应的文字向量作为所述语义特征；或者，

10.根据权利要求8所述的装置，其中，所述第三获取模块具体用于：

将所述图像特征作为所述视觉特征；或者，

11.根据权利要求8所述的装置，其中，所述第三获取模块具体用于：

采用卷积神经网络提取所述图像段的图像特征，所述卷积神经网络包括感兴趣区域池化层。

12.根据权利要求8所述的装置，其中，所述光学字符识别包括文本检测，所述识别模块具体用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。