CN113435210A

CN113435210A - 社交图片文本识别方法、装置、计算机设备及存储介质

Info

Publication number: CN113435210A
Application number: CN202110740193.4A
Authority: CN
Inventors: 李志韬; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-24

Abstract

本发明涉及场景文本检测领域，尤其涉及一种社交图片文本识别方法、装置、计算机设备及存储介质，其方法包括：获取社交图片的二维图像特征；通过全局注意力交互机制对二维图像特征进行特征提取，得到二维视觉特征；将二维视觉特征输入字符视觉特征模型，获得一维字符视觉特征；将一维字符视觉特征输入字符语义特征模型，获得一维字符语义特征；通过融合特征算法对一维字符视觉特征和一维字符语义特征进行动态融合处理，得到社交图片的字符信息。本发明可对社交图片的字符语义特征进行矫正补充，提高了字符识别的准确率，且实现了并行处理，加快了识别处理速度，提高实时交互能力。

Description

社交图片文本识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及场景文本检测领域，尤其涉及一种社交图片文本识别方法、装置、计算机设备及存储介质。

背景技术

目前，STR(scene text recognition，识别出自然场景图片中的文本信息)技术被广泛应用在各种社交场景中。

在现有STR技术中，主要通过视觉特征的提取来实现识别图片中的文本信息，忽略了字符间的语义特征。当字符间存在间隙时，只通过视觉特征的提取进行文本识别，很容易导致识别到的文本信息不准确。其次，现有STR技术对图像特征的解码大多数基于RNN(循环神经网络)，但由于RNN的训练速度较慢，不适用于实时交互的社交场景。

发明内容

基于此，有必要针对上述技术问题，提供一种社交图片文本识别方法、装置、计算机设备及存储介质，以解决现有STR技术中，识别不准确、速度较慢的问题。

一种社交图片文本识别方法，包括：

获取社交图片的二维图像特征；

通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征；

将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征；

将所述一维字符视觉特征输入字符语义特征模型，获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征；

通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理，得到所述社交图片的字符信息。

一种社交图片文本识别装置，包括：

二维图像特征模块，用于获取社交图片的二维图像特征；

二维视觉特征模块，用于通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征；

一维字符视觉特征模块，用于将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征；

一维字符语义特征模块，用于所述一维字符视觉特征输入字符语义特征模型，获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征；

字符信息模块，用于通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理，得到所述社交图片的字符信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述社交图片文本识别方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述社交图片文本识别方法。

上述社交图片文本识别方法、装置、计算机设备及存储介质，通过获取社交图片的二维图像特征；通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征；将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征；将所述一维字符视觉特征输入字符语义特征模型，获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征；通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理，得到所述社交图片的字符信息。可对社交图片的字符语义特征进行矫正补充，提高了字符识别的准确率，且实现了并行处理，加快了识别处理速度，提高实时交互能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中社交图片文本识别方法的一应用环境示意图；

图2是本发明一实施例中社交图片文本识别方法的一流程示意图；

图3是本发明一实施例中社交图片文本识别装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的社交图片文本识别方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种社交图片文本识别方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、获取社交图片的二维图像特征。

可理解的，社交图片指社交场景中产生的图片，包括但不限于社交视频中产生的图片。通过卷积神经网络对社交图片进行特征提取处理，得到二维图像特征。其中，卷积神经网络可以是Resnet50(残差神经网络)或Vgg16(Visual Geometry Group，视觉集合几何组合)等。

S20、通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征。

可理解的，注意力交互机制包括全局注意力交互机制和局部注意力交互机制。全局注意力交互机制是基于Transformer结构的注意力交互机制。其中，Transformer结构包括Encoder(编码器)和Decoder(解码器)。全局注意力交互机制考虑所有编码器的隐藏层状态，且在计算每一个解码器的状态的同时考虑所有编码器的输入。局部注意力交互机制只选择性考虑一部分编码器的隐藏层状态。基于全局注意力交互机制可增强社交图片的视觉特征。

具体的，对二维图像特征进行维度转换处理，得到与二维图像特征对应的一维图像特征，例如，二维图像特征为256*8*8(8表示特征图的高和宽)，经过维度转换后，得到一维图像特征为256*64，即256*(8*8)＝256*64。其中，256*64表示每个特征图有64个像素点，每个像素点的特征向量是256维。并记录二维图像特征与一维图像特征之间的位置编码。例如，a00＝b0，a10＝b8，a20＝b16，其中，a00表示A像素点在二维图像特征中的位置信息，b0表示A像素点在一维图像特征中的位置信息。将一维图像特征输入多头注意力机制的多头Transformer中，得到多头一维图像特征。例如，多头注意力机制的head(头)为8，输入的一维图像特征为256*64，则通过多头注意力机制对256*64进行拼接得到特征向量为64*(256*8)，权重矩阵为(256*8*180)，则最后输出的多头一维图像特征为64*180。进而，根据位置编码将该多头一维特征图像特征进行维度转换处理，得到二维视觉特征。例如，多头一维特征图像特征为64*180，根据位置编码对该多头一维特征图像进行转换得到二维视觉特征为8*8*180。

S30、将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征。

可理解的，字符视觉特征模型为训练完成的基于注意力机制的字符识别模型，该字符视觉特征模型用于对二维视觉特征进行字符识别，得到与二维视觉特征中每个字符一一对应的一维字符视觉特征。具体的，字符视觉特征模型包括：

Vchar_t＝softmax(Wv(LeakyRelu(W_qf(R_t)+W_kV)))V

其中，Vchar_t为一维字符视觉特征，V为所述二维视觉特征，W_v为Value向量，W_k为key向量，W_q为Query向量，f(R_t)为嵌入函数；

LeakyRelu(W_qf(R_t)+W_kV)为激活函数；R为阅读顺序集合，R取值范围为(0，n)，t为字符数量，t取值范围为(0，t)。阅读顺序集合是包含若干字符的阅读顺序的序号集合。

具体的，通过字符视觉特征模型对二维视觉特征进行字符识别，获取二维视觉特征中每个字符对应的字符位置，即每个字符的阅读顺序的阅读序号。进而，根据上述字符视觉特征算法，对字符位置和二维视觉特征进行计算处理，得到与字符位置对应的一维字符视觉特征。一个字符位置对应一个字符，一个字符对应一个一维字符视觉特征，且多个一维字符视觉特征可以并行获取，可提高计算效率。

S40、将所述一维字符视觉特征输入字符语义特征模型，获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征。

可理解的，字符语义特征模型为训练完成的基于注意力机制和mask机制的语义识别模型。基于注意力机制的字符语义特征模型，可以充分利用上下文的语义信息，改善由于字符间断，图像噪音太大带来的识别困难。比如，当社交图片中的“中华人民共和国”的“人”不清晰或者写错成“入”，通过字符语义特征注意力交互，“入”的语义嵌入向量，可学习到“中，华，民，共，和，国”的特征信息，对字符图像特征进行矫正补充，提高了字符识别的准确率和实时交互能力。

该字符语义特征模型包含12层的Transformer-encoder。该字符视觉特征模型用于对社交图片的一维字符视觉特征进行语义识别，得到社交图片的一维字符语义特征。具体的，字符语义特征模型包括字符语义特征算法：

其中，Echar是语义嵌入向量和位置向量的加和，Tchar_t为一维字符语义特征，W_v’为Value向量，W_k’为key向量，W_q’为Query向量，

为归一化常数，防止点乘结果太大导致有效梯度太大。

具体的，从步骤S30中，可得到每个字符的一维字符视觉特征(Vchar_t)，通过字符语义特征模型的Layer Normalization层，再通过一个全连接层，基于softmax获得每个Vchar_t在词汇表中的分数向量，取分数最大的字符作为一维字符视觉特征(Vchar_t)对应的字符，再通过嵌入层，最终获得每个字符的语义嵌入向量(Echar_t，t＝(0，t))。然后将Echar_t和位置向量相加获得最终的Echar，进而，基于上述字符语义特征算法，可得到每个字符对应的一维字符语义特征(Tchar_t)。且多个一维字符语义特征可以并行获取，可提高计算效率。

S50、通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理，得到所述社交图片的字符信息。

可理解的，融合特征算法包括：

Fchar_t＝a’·Tchar_t+(1-a‘)·Vchar_t

a′_t＝sigmoid(W_gt·(Vchar_t+Tchar_t))

其中，Fchar_t为融合特征，a’为融合参数，t为所述字符数量，t取值范围为(0，t)，W_gt为权重向量，Vchar_t为一维字符视觉特征，Tchar_t为一维字符语义特征。

具体的，将第t个字符的视觉特征Vchar_t和语义特征Tchar_t进行加和，W_gt是可训练的权重向量，然后再通过sigmoid得到a′_t，a′_t是动态的。进而，将动态的a′_t作为公式Fchar中的融合参数，可得到第t个字符的融合特征Fchar_t。且融合过程可以对t个字符并行操作，不受字符顺序的约束，利用上下文信息，有效提升了计算速率。最后计算每个Fchar_t在词汇表中所有字符的分数，取最大分数为预测的字符，进而得到社交图中的字符信息。其中，字符信息包含社交图片中每个字符的预测信息。

在步骤S10-S50中，通过获取社交图片的二维图像特征；通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征；将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征；将所述一维字符视觉特征输入字符语义特征模型，获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征；通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理，得到所述社交图片的字符信息。可对社交图片的字符语义特征进行矫正补充，提高了字符识别的准确率，且实现了并行处理，加快了识别处理速度，提高实时交互能力。

可选的，在步骤S20中，即所述通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征，包括：

S201、对所述二维图像特征进行维度转换处理，得到与所述二维图像特征对应的一维图像特征，并记录所述二维图像特征与所述一维图像特征之间的位置编码；

S202、将所述一维图像特征输入多头注意力机制，得到多头一维图像特征；

S203、根据所述位置编码将所述多头一维特征图像进行维度转换处理，得到所述二维视觉特征。

可理解的，由于Transformer结构的输入是一维token特征，所以，需要对二维图像特征进行维度转换处理，将二维图像特征转换为一维图像特征，并使用位置编码记录维度转换前后像素点对应的位置信息。进而，将一维图像特征输入多头注意力机制的多头Transformer中，得到多头一维图像特征。其中，Transformer为2层堆叠结构，包括第一层Transformer和第二层Transformer，第一层Transformer的输出是第二层Transformer的输入。进而，根据位置编码将该多头一维特征图像特征进行维度转换处理，得到二维视觉特征。

在一示例中，二维图像特征为256*8*8(8表示特征图的高和宽)，多头Transformer为8，经过维度转换后，得到一维图像特征为256*64，即256*(8*8)＝256*64，记录位置编码，进而，通过多头Transformer，得到多头一维图像特征64*180，根据位置编码对该多头一维特征图像进行转换得到二维视觉特征为8*8*180。

可选的，在步骤S202中，即将所述一维图像特征输入多头注意力机制，得到多头一维图像特征，包括：

S2021、使用若干预设维度转化规则对所述一维图像特征进行处理，获得对应的若干一维向量；

S2022、拼接所述若干一维向量，得到所述多头一维图像特征。

可理解的，预设维度转化规则是指预先设置的用于维度转化的规则，该规则可根据指定的维度生成。使用若干预设维度转化规则对一维图像特征进行维度转化。根据若干预设维度转化规则，可得到与一维图像特征对应的若干一维向量，一个该一维向量对应一个预设维度转化规则。在得到若干个一维向量之后，对若干个一维向量进行拼接处理，得到多头一维图像特征。

可选的，在步骤S30中，即所述将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征，包括：

S301、通过字符视觉特征模型对所述二维视觉特征进行字符识别，获取所述二维视觉特征中字符的字符位置；

S302、根据所述字符位置提取所述二维视觉特征的一维字符视觉特征。

可理解的，社交图片中包含若干字符，通过符视觉特征模型对社交图片的二维视觉特征进行字符识别，可获取到二维视觉特征中字符的字符位置。其中，字符位置是指字符的阅读序号。例如，社交图片中包含“中华人民”则“中”的阅读序号为0，“华”的阅读序号为1，“人”的阅读序号为2，“民”的阅读序号的序号为3。一个字符位置对应一个字符。根据字符位置，提取二维视觉特征中每个字符的一维字符视觉特征。

可选的，在步骤S301中，所述字符视觉特征模型包括：

Vchar_t＝softmax(Wv(LeakyRelu(W_qf(R_t)+W_kV)))V

LeakyRelu(W_qf(R_t)+W_kV)为激活函数；R为阅读顺序集合，R取值范围为(0，n)，t为所述字符数量，t取值范围为(0，t)。

可选的，在步骤S10中，即所述获取社交图片的二维图像特征，包括：

S101、通过摄像头获取所述社交图片；

S102、将所述社交图片输入预设网络进行预处理，得到所述社交图片的二维图像特征。

可理解的，社交图片指社交场景中产生的图片，包括但不限于社交视频中产生的图片和自动驾驶技术中拍摄的路标图片。预设网络可以是预先设置的卷积神经网络，例如，Resnet50(残差神经网络)和Vgg16(Visual Geometry Group，视觉集合几何组合)等网络。社交图片的产生包括但不限于通过摄像头拍摄获取或截图获取。在通过摄像头获取需要进行字符信息识别的社交图片之后，将该社交图片输入预先设置的卷积神经网络中，通过卷积神经网络对该社交图片进行特征提取处理，得到该社交图片的二维图像特征。

可选的，在步骤S50中，所述融合特征算法包括：

Fchar_t＝a′·Tchar_t+(1-a′)·Vchar_t

a′_t＝sigmoid(W_gt·(Vchar_t+Tchar_t))

其中，Fchar_t为融合特征，a′为融合参数，t为所述字符数量，t取值范围为(0，t)，W_gt为权重向量，Vchar_t为一维字符视觉特征，Tchar_t为一维字符语义特征。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种社交图片文本识别装置，该社交图片文本识别装置与上述实施例中社交图片文本识别方法一一对应。如图3所示，该社交图片文本识别装置包括二维图像特征模块10、二维视觉特征模块20、一维字符视觉特征模块30、一维字符语义特征模块40和字符信息模块50。各功能模块详细说明如下：

二维图像特征模块10，用于获取社交图片的二维图像特征；

二维视觉特征模块20，用于通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征；

一维字符视觉特征模块30，用于将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征；

一维字符语义特征模块40，用于所述一维字符视觉特征输入字符语义特征模型，获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征；

字符信息模块50，用于通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理，得到所述社交图片的字符信息。

可选的，二维视觉特征20，包括：

一维图像特征单元，用于对所述二维图像特征进行维度转换处理，得到与所述二维图像特征对应的一维图像特征，并记录所述二维图像特征与所述一维图像特征之间的位置编码；

多头一维图像特征单元，用于将所述一维图像特征输入多头注意力机制，得到多头一维图像特征；

二维视觉特征单元，用于根据所述位置编码将所述多头一维特征图像进行维度转换处理，得到所述二维视觉特征。

可选的，多头一维图像特征单元，包括：

一维向量单元，用于使用若干预设维度转化规则对所述一维图像特征进行处理，获得对应的若干一维向量；

一维向量拼接单元，用于拼接所述若干一维向量，得到所述多头一维图像特征。

可选的，一维字符视觉特征模块30，包括：

字符位置单元，用于通过字符视觉特征模型对所述二维视觉特征进行字符识别，获取所述二维视觉特征中字符的字符位置；

一维字符视觉特征单元，用于根据所述字符位置提取所述二维视觉特征的一维字符视觉特征。

可选的，社交图片文本识别装置，包括字符视觉特征模型，所述字符视觉特征模型包括：

Vchar_t＝softmax(Wv(LeakyRelu(W_qf(R_t)+W_kV)))V

可选的，二维图像特征模块10，包括：

摄像头单元，用于通过摄像头获取所述社交图片；

二维图像特征单元，用于将所述社交图片输入预设网络进行预处理，得到所述社交图片的二维图像特征。

可选的，社交图片文本识别装置包括融合特征算法，所述融合特征算法包括：

Fchar_t＝a′·Tchar_t+(1-a′)·Vchar_t

a′_t＝sigmoid(W_gt·(Vchar_t+Tchar_t))

关于社交图片文本识别装置的具体限定可以参见上文中对于社交图片文本识别方法的限定，在此不再赘述。上述社交图片文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储社交图片文本识别方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种社交图片文本识别方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取社交图片的二维图像特征；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

获取社交图片的二维图像特征；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种社交图片文本识别方法，其特征在于，包括：

获取社交图片的二维图像特征；

2.如权利要求1所述的社交图片文本识别方法，其特征在于，所述通过全局注意力交互机制对所述二维图像特征进行特征提取，得到二维视觉特征，包括：

对所述二维图像特征进行维度转换处理，得到与所述二维图像特征对应的一维图像特征，并记录所述二维图像特征与所述一维图像特征之间的位置编码；

将所述一维图像特征输入多头注意力机制，得到多头一维图像特征；

根据所述位置编码将所述多头一维特征图像进行维度转换处理，得到所述二维视觉特征。

3.如权利要求2所述的社交图片文本识别方法，其特征在于，将所述一维图像特征输入多头注意力机制，得到多头一维图像特征，包括：

使用若干预设维度转化规则对所述一维图像特征进行处理，获得对应的若干一维向量，一个预设维度转化规则对应一个一维向量；

拼接所述若干一维向量，得到所述多头一维图像特征。

4.如权利要求1所述的社交图片文本识别方法，其特征在于，所述将所述二维视觉特征输入字符视觉特征模型，获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征，包括：

通过字符视觉特征模型对所述二维视觉特征进行字符识别，获取所述二维视觉特征中字符的字符位置；

根据所述字符位置提取所述二维视觉特征的一维字符视觉特征。

5.如权利要求4所述的社交图片文本识别方法，其特征在于，所述字符视觉特征模型包括：

Vchar_t＝softmax(Wv(LeakyRelu(W_qf(R_t)+W_kV)))V

6.如权利要求1所述的社交图片文本识别方法，其特征在于，所述获取社交图片的二维图像特征，包括：

通过摄像头获取所述社交图片；

将所述社交图片输入预设网络进行预处理，得到所述社交图片的二维图像特征。

7.如权利要求1所述的社交图片文本识别方法，其特征在于，所述融合特征算法包括：

Fchar_t＝a′·Tchar_t+(1-a′)·Vchar_t

a′_t＝sigmoid(W_gt·(Vchar_t+Tchar_t))

8.如权利要求6所述的社交图片文本识别装置，其特征在于，包括：

二维图像特征模块，用于获取社交图片的二维图像特征；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述社交图片文本识别方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述社交图片文本识别方法。