CN111027613A

CN111027613A - 一种场景文字识别方法、装置、存储介质及终端

Info

Publication number: CN111027613A
Application number: CN201911230219.XA
Authority: CN
Inventors: 关玉烁; 边凯归; 王韬; 张高瀚
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-17

Abstract

本发明公开了一种场景文字识别方法、装置、存储介质及终端，所述方法包括：获取目标场景文字图片；将所述目标场景文字图片输入预设主干网络模型中生成特征图；将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；将所述字符特征序列输入预设编解码模型中生成文字。因此，采用本申请实施例，可以提高场景文字识别的准确率。

Description

一种场景文字识别方法、装置、存储介质及终端

技术领域

本发明涉及计算机技术领域，特别涉及一种场景文字识别方法、装置、存储介质及终端。

背景技术

场景文字识别技术利用计算机自动识别自然场景下的文字，该技术可以广泛应用于证件识别、即时翻译、机器人导航、自动驾驶等领域。

现有的场景文字识别方法大多利用基于卷积神经网络(convolutional neuralnetwork,CNN)和递归神经网络(recurrent neural network,RNN)相结合的技术，首先利用CNN从图片中提取特征，然后利用RNN进行特征解码，翻译得到图片中的场景文字。由于实际场景文字存在形状不规则特点，因此利用这种识别方法识别后的结果和实际结果存在误差，从而降低了场景文字的识别准确率。

发明内容

本申请实施例提供了一种场景文字识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种场景文字识别方法，所述方法包括：

获取目标场景文字图片；

将所述目标场景文字图片输入预设主干网络模型中生成特征图；

将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；

将所述字符特征序列输入预设编解码模型中生成文字。

可选的，所述将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列，包括：

当接收到目标场景文字图片时，获取预设字符锚定池化模型中字符锚定模块和锚定池模块；

将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线；

基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。

可选的，所述获取目标场景文字图片之前，还包括：

创建主干网络模型、字符锚定池化模型和编解码模型；

采集合成的场景文字图片和真实场景文字图片作为训练样本；

将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。

可选的，所述特征图的提取方式至少包括最邻近值插值、双线性插值、三次内插法中的一种方式。

可选的，所述采集合成的场景文字图片中，所述场景文字图片由python的pygame进行渲染，所述场景文字图片中文字的字体使用google公开的字体库。

第二方面，本申请实施例提供了一种场景文字识别装置，所述装置包括：

图片获取模块，用于获取目标场景文字图片；

特征图生成模块，用于将所述目标场景文字图片输入预设主干网络模型中生成特征图；

字符特征序列获取模块，用于将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；

文字生成模块，用于将所述字符特征序列输入预设编解码模型中生成文字。

可选的，所述字符特征序列获取模块，包括：

模块获取单元，用于当接收到目标场景文字图片时，获取预设字符锚定池化模型中字符锚定模块和锚定池模块；

字符锚定线生成单元，用于将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线；

字符特征序列生成单元，用于基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。

可选的，所述装置还包括：

模型创建模块，用于创建主干网络模型、字符锚定池化模型和编解码模型；

样本采集模块，用于采集合成的场景文字图片和真实场景文字图片作为训练样本；

模型生成模块，用于将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，用户终端首先获取目标场景文字图片，将所述目标场景文字图片输入预设主干网络模型中生成特征图，然后将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列，最后将所述字符特征序列输入预设编解码模型中生成文字。在场景文字识别中，由于使用了预设字符锚定池化模型中的字符锚定模块和锚定池模块对获取的目标场景文字图片进行了处理，从而提高了文本识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种场景文字识别方法的流程示意图；

图2是本申请实施例提供的另一种场景文字识别方法的流程示意图；

图3是本申请实施例提供的一种主干网络特征提取的流程示意图；

图4是本申请实施例提供的一种提取二维的特征序列的流程示意图；

图5是本申请实施例提供的对二维的特征序列进行编解码的流程示意图；

图6是本申请实施例提供的场景文字识别过程的过程示意图；

图7是本申请实施例提供的一种场景文字识别装置的结构示意图；

图8是本申请实施例提供的一种字符特征序列获取模块的结构示意图；

图9是本申请实施例提供的另一种场景文字识别装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

到目前为止，对于场景文字的识别，现有的场景文字识别方法大多利用基于卷积神经网络(convolutional neural network,CNN)和递归神经网络(recurrent neuralnetwork,RNN)相结合的技术，首先利用CNN从图片中提取特征，然后利用RNN进行特征解码，翻译得到图片中的场景文字。由于实际场景文字存在形状不规则特点，因此利用这种识别方法识别后的结果和实际结果存在误差，从而降低了场景文字的识别准确率。为此，本申请提供了一种图像处理方法、装置、存储介质及终端，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于使用了预设字符锚定池化模型中的字符锚定模块和锚定池模块对获取的目标场景文字图片进行了处理，从而提高了文本识别的准确率，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图6，对本申请实施例提供的场景文字识别方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的场景文字识别装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的场景文字识别装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供了一种场景文字识别方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，获取目标场景文字图片；

其中，场景文字图片是指一种由文字和图片以及其他元素生成的用于内容传播和展示的效果图片，例如广告语图片等。场景文字图片的图片格式为jpeg或png格式的图片。

通常，场景文字图片的合成是由python的pygame进行渲染，图片中的文字使用google公开的字体库中的文字。场景文字图片可以由图片和效果文字组成，可以给人留下更为深刻的印象。在本申请实施例中的场景文字图片是即将被用户终端识别得场景文字图片。

在一种可能的实现方式中，首先打开用户终端，然后打开用户终端上的场景文字图片识别软件，场景文字识别软件通过内部程序启动用户终端的摄像头，摄像头启动完成后对目标场景文字图片进行采集，采集结束后用户终端通过有线网络或者无线网络将采集完成的目标场景文字图片上传至服务器进行保存。

S102，将所述目标场景文字图片输入预设主干网络模型中生成特征图；

其中，所述预设主干网络模型为提取目标场景文字图片中特征后生成特征图的数学模型，该数学模型基于特征金字塔网络(feature-pyramid network,FPN)创建而成。

在本申请实施例中，预设主干网络是提取目标场景文字图片特征点的数学模型，该数学模型使用了特征金字塔网络(feature-pyramid network,FPN)提取特征，具体结构如图3所示。网络以RGB格式的场景文字图片为输入。由于图片共有3个通道，所以图片可以编码成H*W*3的矩阵，其中H代表图片高度，W代表图片宽度，在此方法中，H固定为64，W固定为256.图片矩阵首先经过一系列的卷积层(图3中以conv表示)，得到多个尺度的特征图。其中相邻尺度的特征图会进行特征融合，在融合过程中，首先较小尺寸的特征图上采样到另一个尺度，较大尺度的特征图经过1*1卷积，然后两个处理过得特征图相加得到最终的融合特征图。经过不断的特征融合，FPN网络得到最后大小为16*64*256的特征图F。

S103，将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；

其中，特征图的生成具体可参见步骤S102，此处不再赘述。预设字符锚定池化模型(character anchor pooling module，CAPM)的核心模块包括字符锚定模块(characteranchoring module,CAM)和锚定池模块(anchor pooling module,APM)。字符特征序列为目标场景文字经过CAPM模型中的核心模块CAM和APM进行处理后得到的。

在一种可能的实现方式中，首先CAM模块预测了目标文字场景图片中可能是字符的中心区域。具体来讲，CAM模块使用两层CNN预测了一个与F长宽相同的概率图P，代表每个像素处在某个字符中心的概率(Character Centerness Ccore)。然后，CAM会对P进行二值化处理，把概率大于0.5的位置为1，其他位置为0，记二值化处理后的概率图为J。经过二值化处理，J上会有k个独立的值为1的区域，分别代表图片上的字符中心区域(CharacterAnchors)[R1，R2，…，Rk]。

如图4所示，APM模块取这些文字区域的中心点组成字符中心点列[a1，a2，…，ak]，并等距离插值M个点，最终得到字符锚点的点列(character anchor line，CAL)。进一步的，APM模块会提取F上处在CAL点列位置上的特征，并组成长度为M的特征序列S，提取过程采用了双线性插值方法。通过CAM和APM模块，我们从三维的特征图F上提取了二维的特征序列S，用于下一步的文字解码。

S104，将所述字符特征序列输入预设编解码模型中生成文字。

在一种可能的实现方式中，如图5所示，根据步骤S104得到的字符特征序列进行编解码时，编解码模块(Encoder-Decoder)用于将特征序列S解码为文字符号。Encoder使用了双向LSTM(Bi-LSTM)结构，对特征序列进行进一步的编码。Decoder端是一个单向GRU网络，利用了注意力机制(Attention Mechanism)。编解码器捕获长期依赖关系，保持了对特征序列的整体理解，即使单个字符模糊或丢失时也可以保存较强的解码能力。

本申请实施例中，场景文字识别得具体流程如图6所示，执行流程具体包括三部分，即主干网络即主干网络(backbone)、字符锚定池化模块(Character Anchor PoolingModule，CAPM)以及编解码模块(Encoder-Decoder)。Backbone用于特征编码，为之后的步骤生成共享的特征图。CAMP模块由CAM和APM组成，用于从三维的特征图中提取二维的特征序列。Encoder-Deocder模块基于注意力机制的RNN，对CAMP得到的特征序列进行编码并将其解码为文本符号。

在本申请实施例中，用户终端首先获取目标场景文字图片，将所述目标场景文字图片输入预设主干网络模型中生成特征图，然后将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列，最后将所述字符特征序列输入预设编解码模型中生成文字。因此，采用本申请实施例，由于使用了预设字符锚定池化模型中的字符锚定模块和锚定池模块对获取的目标场景文字图片进行了处理，从而提高了文本识别的准确率。

请参见图2，为本申请实施例提供的一种场景文字识别方法的流程示意图。本实施例以场景文字识别方法应用于用户终端中来举例说明。该场景文字识别方法可以包括以下步骤：

S201，创建主干网络模型、字符锚定池化模型和编解码模型；

其中，主干网络模型用于特征编码，为之后的步骤生成共享的特征图。字符锚定池化模型是用于从三维的特征图中提取二维特征序列。编解码模型是对二维特征序列进行编码并将其解码为文本符号。

通常，主干网络模型的创建是基于特征金字塔网络(feature-pyramid network，FPN)，VGG16，VGG19，ResNet34，ResNet50，ResNet101，ResNet152中的至少一种创建而成，创建的主干网络模型，具体用于提取场景文字图片中的特征。字符锚定池化模型是基于卷积神经网络(Convolutional Neural Networks,CNN)创建的数学模型。编解码模型是基于注意力机制的编解码网络、transformer结构、普通的循环神经网络(recurrent neuralnetwork，RNN)和CTC(connectionist temporal classification，联结主义时间分类)中至少一种创建生成，其中编解码模型中的解码器使用了单向LSTM(long short term memory，长短期记忆)、双向LSTM、单向GRU(Gated Recurrent Unit，门控循环单元)或双向GRU中至少一种创建生成。

S202，采集合成的场景文字图片和真实场景文字图片作为训练样本；

其中，合成的场景文字图片是根据真实场景自己设计的场景文字图片，真实场景文字图片为现实情况中已经存在的文字图片，例如马路上的广告图片中的文字等。

S203，将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型；

在一种可能的实现方式中，首先步骤201已经完成了模型的创建，基于S202完成了训练样本的采集，然后将采集的训练样本同时输入创建完成的数学模型中进行模型的训练，当训练的数据达到预设的期望时，完成模型的训练。

S204，获取目标场景文字图片；

具体可参见步骤S101，此处不再赘述。

S205，将所述目标场景文字图片输入预设主干网络模型中生成特征图；

具体可参见步骤S102，此处不再赘述。

S206，当接收到目标场景文字图片时，获取预设字符锚定池化模型中字符锚定模块和锚定池模块；

在一种可能的实现方式中，当对目标场景文字图片识别时，首先用户终端通过其上的摄像头采集目标场景文字图片，当用户终端接收到目标场景文字图片时，调用预先保存在服务器的字符锚定池化模型中字符锚定模块和锚定池模块。

S207，将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线；

在本申请实施例中，基于步骤S206用户终端首先获取到预先保存在服务器的字符锚定池化模型中字符锚定模块和锚定池模块，然后首先将目标场景文字图片输入字符锚定模块中定位出目标场景文字图片中的文本位置。然后，APM沿着CAM锚定的字符中间点位置，灵活地插入和收集特征序列。

S208，基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列；

具体可参见步骤S103，此处不再赘述。

S209，将所述字符特征序列输入预设编解码模型中生成文字。

具体可参见步骤S104，此处不再赘述。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图7，其示出了本发明一个示例性实施例提供的场景文字识别装置的结构示意图。该场景文字识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图片获取模块10、特征图生成模块20、字符特征序列获取模块30、文字生成模块40。

图片获取模块10，用于获取目标场景文字图片；

特征图生成模块20，用于将所述目标场景文字图片输入预设主干网络模型中生成特征图；

字符特征序列获取模块30，用于将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；

文字生成模块40，用于将所述字符特征序列输入预设编解码模型中生成文字。

可选的，如图8所示，所述字符特征序列获取模块30，包括：

模块获取单元310，用于当接收到目标场景文字图片时，获取预设字符锚定池化模型中字符锚定模块和锚定池模块；

字符锚定线生成单元320，用于将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线；

字符特征序列生成单元330，用于基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。

可选的，如图9所示，所述装置1还包括：

模型创建模块50，用于创建主干网络模型、字符锚定池化模型和编解码模型；

样本采集模块60，用于采集合成的场景文字图片和真实场景文字图片作为训练样本；

模型生成模块70，用于将所述训练样本输入所述主干网络模型、字符锚定池化模型和编解码模型中进行训练生成训练后的主干网络模型、字符锚定池化模型和编解码模型。将所述训练后的主干网络模型、字符锚定池化模型和编解码模型作为预设主干网络模型、预设字符锚定池化模型和预设编解码模型。

需要说明的是，上述实施例提供的场景文字识别装置在执行场景文字识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的场景文字识别装置与场景文字识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的场景文字识别方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例所述的场景文字识别方法。

请参见图10，为本申请实施例提供了一种终端的结构示意图。如图10所示，所述终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及场景文字识别应用程序。

在图10所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的场景文字识别应用程序，并具体执行以下操作：

获取目标场景文字图片；

将所述字符特征序列输入预设编解码模型中生成文字。

在一个实施例中，所述处理器1001在执行所述将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行所述获取目标场景文字图片之前，还执行以下操作：

创建主干网络模型、字符锚定池化模型和编解码模型；

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。所属技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，应该理解到，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解的是，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本发明并不局限于上面已经描述并在附图中示出的流程及结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种场景文字识别方法，其特征在于，所述方法包括：

获取目标场景文字图片；

将所述字符特征序列输入预设编解码模型中生成文字。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取目标场景文字图片之前，还包括：

创建主干网络模型、字符锚定池化模型和编解码模型；

4.根据权利要求1所述的方法，其特征在于，所述特征图的提取方式至少包括最邻近值插值、双线性插值、三次内插法中的一种方式。

5.根据权利要求3所述的方法，其特征在于，所述采集合成的场景文字图片中，所述场景文字图片由python的pygame进行渲染，所述场景文字图片中文字的字体使用google公开的字体库。

6.一种场景文字识别装置，其特征在于，所述装置包括：

图片获取模块，用于获取目标场景文字图片；

7.根据权利要求6所述的装置，其特征在于，所述字符特征序列获取模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～5任意一项的方法步骤。

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～5任意一项的方法步骤。