CN109840524A

CN109840524A - 文字的类型识别方法、装置、设备及存储介质

Info

Publication number: CN109840524A
Application number: CN201910008330.8A
Authority: CN
Inventors: 吴启
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-06-04
Anticipated expiration: 2039-01-04
Also published as: CN109840524B

Abstract

本发明涉及计算机技术领域，提供了一种文字的类型识别方法、装置、设备及存储介质，所述方法包括：根据文字检测模型中的卷积神经网络视觉几何组结构的输入层的定义，对文字图像进行预处理，得到基础文字图像；根据卷积层的定义，对基础文字图像进行文字的特征提取，得到文字特征矩阵；根据循环神经网络结构的映射层的定义，按照预设的映射条件，对文字特征矩阵进行维度映射，得到目标特征向量；根据卷积神经网络结构的二分类层的定义，对目标特征向量进行二分类计算，得到文本向量；根据目标分类层的定义，计算文本向量的每个分量的得分，并选取数值最大的得分对应的预设文字类型，作为类型识别结果。本发明能够提高对文字的类型识别的效率。

Description

文字的类型识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文字的类型识别方法、装置、设备及存储介质。

背景技术

文字检测是计算机视觉中的一个重要领域，包括对文字图像中的文字的类型识别，其中，常用的文字的类型识别的方法通常是先对文字图像中的文字进行定位，然后对定位到的文字进行类型的识别，具体是通过对文字图像中的文字进行特征提取，对提取到的特征进行分析，并根据分析结果确定出文字图像中出现文字的文字区域，实现对文字的定位，然后按照文字区域，对文字图像进行文字区域分割，得到分割图像，并对分割图像中的文字进行特征提取，根据该特征进一步地进行文字识别，输出识别得到的文字，进而根据现有词典对识别出的文字进行文字类型的确认，实现对定位到的文字类型识别。

当前技术使用这种先定位，后进行分割识别的文字的类型方法，具体是先通过先提取图像特征，确定文字区域，实现文字定位，再通过分割技术，对文字区域进行逐个分割，然后对分割图像，提取文字特征，再根据文字特征识别出分割图像中的文字，最后按照现有词典来确定识别出的文字类型，其操作复杂，运算量大，需进行多次特征提取，耗费时间长，导致对文字的类型识别的效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种文字的类型识别方法、装置、设备及存储介质，以解决传统方法对文字的类型识别的效率低的问题。

一种文字的类型识别方法，包括：

获取待处理的文字图像，并将所述文字图像输入预设的文字检测模型，其中，所述文字检测模型包括卷积神经网络视觉几何组结构、循环神经网络结构和卷积神经网络结构；

根据所述卷积神经网络视觉几何组结构的输入层的定义，对所述文字图像进行预处理，得到预处理后的基础文字图像；

根据所述卷积神经网络视觉几何组结构的卷积层的定义，对所述基础文字图像中的目标文字进行文字的特征提取，得到所述目标文字对应的文字特征矩阵；

根据所述循环神经网络结构的映射层的定义，按照预设的映射条件，对所述文字特征矩阵进行维度映射，得到所述文字特征矩阵对应的目标特征向量，其中，所述目标特征向量中的每个分量对应一种预设文字类型；

根据所述卷积神经网络结构的二分类层的定义，对所述目标特征向量进行二分类计算，并根据计算结果确定所述目标特征向量的文本类别，将所述文本类别为文字的目标特征向量作为文本向量；

根据所述卷积神经网络结构的目标分类层的定义，计算所述文本向量的每个所述分量的得分，并从所述得分中选取数值最大的得分对应的所述预设文字类型，作为所述文本向量对应的所述目标文字的类型识别结果。

一种文字的类型识别装置，包括：

图像获取模块，用于获取待处理的文字图像，并将所述文字图像输入预设的文字检测模型，其中，所述文字检测模型包括卷积神经网络视觉几何组结构、循环神经网络结构和卷积神经网络结构；

图像处理模块，用于根据所述卷积神经网络视觉几何组结构的输入层的定义，对所述文字图像进行预处理，得到预处理后的基础文字图像；

特征提取模块，用于根据所述卷积神经网络视觉几何组结构的卷积层的定义，对所述基础文字图像中的目标文字进行文字的特征提取，得到所述目标文字对应的文字特征矩阵；

维度映射模块，用于根据所述循环神经网络结构的映射层的定义，按照预设的映射条件，对所述文字特征矩阵进行维度映射，得到所述文字特征矩阵对应的目标特征向量，其中，所述目标特征向量中的每个分量对应一种预设文字类型；

向量分类模块，用于根据所述卷积神经网络结构的二分类层的定义，对所述目标特征向量进行二分类计算，并根据计算结果确定所述目标特征向量的文本类别，将所述文本类别为文字的目标特征向量作为文本向量；

类型识别模块，用于根据所述卷积神经网络结构的目标分类层的定义，计算所述文本向量的每个所述分量的得分，并从所述得分中选取数值最大的得分对应的所述预设文字类型，作为所述文本向量对应的所述目标文字的类型识别结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文字的类型识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文字的类型识别方法。

上述文字的类型识别方法、装置、设备及存储介质，通过在预设的文字检测模型中对待处理的文字图像中的目标文字进行文字的特征提取，并按照预设的映射条件，对提取到的文字特征矩阵进行维度映射，得到目标特征向量，能够准确提取文字图像中的文字特征，减少冗余图像信息的干扰，然后，对目标特征向量进行二分类计算，并根据计算结果确定目标特征向量的文本类别，获取文本类别为文字的目标特征向量，作为文本向量，进而，通过计算文本向量的每个分量的得分，并从得分中选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果，整个方法只需进行一次文字特征提取，确定提取到的目标特征向量的文本类别，并获取文本类别为文字对应的目标特征向量，作为文本向量，并对文本向量直接进行文字的类型识别，无需先对文字进行定位，再对定位出的文字进行文字的类型识别，并且无需先识别出具体的文字再确定文字类型，整体简化了文字识别的流程，整个方法操作简单，运算量小，很大程度上节约了操作时间，从而提高了对文字的类型识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文字的类型识别方法的一应用环境示意图；

图2是本发明一实施例中文字的类型识别方法的一流程图；

图3是本发明一实施例中文字的类型识别方法中步骤S2的一实现流程图；

图4是本发明一实施例中文字的类型识别方法中步骤S4的一实现流程图；

图5是本发明一实施例中文字的类型识别方法中步骤S5的一实现流程图；

图6是本发明一实施例中文字的类型识别方法中步骤S6的一实现流程图；

图7是本发明一实施例中文字的类型识别装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的应用环境，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端用于获取待处理的文字图像，并将获取到的文字图像发送到服务端，客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备；服务端用于处理文字图像，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的文字的类型识别方法应用于服务端。

请参阅图2，图2示出本实施例提供的文字的类型识别方法的实现流程。详述如下：

S1：获取待处理的文字图像，并将文字图像输入预设的文字检测模型，其中，文字检测模型包括卷积神经网络视觉几何组结构、循环神经网络结构和卷积神经网络结构。

在本实施例中，预设的文字检测模型包括卷积神经网络视觉几何组(VisualGeometry Group-16，VGG-16)结构、循环神经网络(Recurrent Neural Network，RNN)结构和卷积神经网络(Convolutional Neural Network，CNN)结构，其中，该文字检测模型具体包含有VGG-16中的输入层、卷积层；RNN中的循环映射层；CNN中的卷积映射层、二分类层、回归层和目标分类层，其中，RNN中的循环映射层具体为RNN中的BLSTM，CNN的中卷积映射层为CNN的全连接层。

进一步地，获取待处理的文字图像的方式具体可以是手动导入或者自动定时从本地数据库中获取，还可以是其他获取方式，此处不做限制。

其中，手动导入待处理的文字图像，具体可以是通过接收客户端的用户输入的图像链接地址，从该图像链接地址中获取该地址对应保存的待识别的文字图像。

其中，自动定时从本地数据库中获取待处理的文字图像具体可以是启动定时获取任务获取待处理的文字图像，其中，定时获取任务具体可以是按照预设的时间间隔进行读取。优选地，时间间隔可以设置为20分钟、10分钟或5分钟，但并不限于此，其具体可以根据实际应用的需要进行设置，此处不做限制。

优选地，本实施例采用的获取方式是自动定时获取。

具体地，通过启动图像定时获取任务，间隔预定的时间间隔自动从本地数据库中读取待处理的文字图像，然后，将文字图像输入能够用于文字定位和文字类型识别的预设的文字检测模型中，该文字检测模型包括预先设置好的输入层、卷积层、映射层、二分类层、回归层和目标分类层，其中，VGG-16中的输入层是用于对文字图像进行预处理；卷积层用于对图像进行图像中的文字的角度特征提取；映射层包括RNN中的循环映射层和CNN中的卷积映射层，用于对提取到的文字特征矩阵，进行维度映射，得到目标特征向量，实现将文字特征矩阵中的特征信息进行缓冲，降低目标特征向量的复杂度；CNN中的二分类层用于判断目标向量对应的文字类别为文字或非文字；CNN中的回归层用于在二分类的基础上对文字类别为文字的目标特征向量进行文字定位；CNN中的目标分类层用于在二分类的基础上，对文字类别为文字的目标特征向量进行文字类型确认。

S2：根据卷积神经网络视觉几何组结构的输入层的定义，对文字图像进行预处理，得到预处理后的基础文字图像。

具体地，由于拍摄的角度、距离，以及文字的书写等因素的影响，获取到的文字图像可能会存在质量不高情况，若直接在预设的文字检测模型中对该文字图像进行检测，容易造成特征提取不准，导致文字定位失败或无法识别文字类型，因此为了降低文字图像质量不高的影响，本实施例通过预先训练好的文字检测模型中的输入层定义中的图像处理方法，对文字图像进行预处理，得到处理后的若干个基础文字图像，能够增强重要文字特征的可检测性和最大限度地简化数据，降低后续步骤对文字定位和类型识别运算量，从而提高对文字的类型识别的效率。

其中，对文字图像进行预处理具体可以包括平滑消除图像中随机噪声、归一化图像和复原校正图像退化等图像处理过程。

其中，平滑消除图像中随机噪声是指在消去噪声的同时不使图像轮廓或线条变得模糊不清，是为了在消除冗余信息的同时，保证处理后不破坏图像中的重要文字信息的精度，常用的平滑方法有中值法、局部求平均法和k近邻平均法，有时也应用空间频率域带通滤波方法，其中，局部求平均法中图像的局部区域大小可以是固定的，也可以是逐点随灰度值大小变化的。

其中，归一化图像是指某些因素或变换对图像一些性质的影响可通过归一化处理得到消除或减弱，使得图像的这些性质在给定变换下具有不变性质的一种图像标准形式，例如，图像的某些性质，如图像的面积和周长，对图像进行变换归一化，使得图像的面积和周长在坐标旋转的变换下具有不变的性质，从而图像的面积和周长可以被选作测量图像的重要依据。常用的归一化方法包括灰度归一化、几何归一化和变换归一化。

S3：根据卷积神经网络视觉几何组结构的卷积层的定义，对基础文字图像中的目标文字进行文字的特征提取，得到目标文字对应的文字特征矩阵。

在本实施例中，根据卷积层定义，对基础文字图像进行文字的特征提取是为了能够有效提取每个基础文字图像中的重要特征信息，剔除每个基础文字图像中的不必要特征信息，得到基础文字图像对应的文字特征矩阵，是为了对提取到的重要特征信息进行保护，避免重要特征信息的丢失，以及将提取到的特征以矩阵的形式进行保存，使得文字图像的中的重要特征数据化，能够提高计算效率，从而提高对文字的类型识别的效率。

具体地，根据卷积层定义，对基础文字图像进行文字的特征提取具体可以是将每个基础文字图像进行卷积计算，计算得到的数值作为该基础文字图像的文字特征值，然后，将计算得到的文字特征值，按照卷积层定义中的预先设置的特征组合方式进行文字特征值组合，得到基础文字图像的文字特征矩阵。

其中，由于在预设的文字检测模型中所使用的卷积层相同，得到的每个基础文字图像对应的文字卷积特征具有相同的预设维度，该预设维度由卷积层的结构定义所确定，如本发明实施例的预设维度为512，其中，卷积层(Convolutional layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积处理的目的是得到表示不同特征的卷积数据，即方便后续提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，越深层级的网路能从低级特征中迭代提取更复杂的特征。

其中，预先设置的特征组合方式具体可以是将对基础文字图像等比例划分，如划分为k*k个区域，并将按照区域的位置信息，将提取到的文字特征值填入对应的区域中，能够将这些文字特征值组合得到一个k*k的文字特征矩阵，将基础文字图像数据化，能够提升对文字图像的处理速度，从而提高对文字的类型识别的效率。

S4：根据循环神经网络结构的映射层的定义，按照预设的映射条件，对文字特征矩阵进行维度映射，得到文字特征矩阵对应的目标特征向量，其中，目标特征向量中的每个分量对应一种预设文字类型。

在本实施例中，预设的映射条件是用于降低获取的包含大量文字特征信息的文字特征矩阵的维度，能够将大量的文字特征信息进行缓冲，以保证提取的文字特征的精度，具体可以根据实际应用需求进行设置，此处不做限制。

具体地，将在步骤S3中获取到的文字特征矩阵输入映射层时，由于映射层相比卷积层更考虑全局信息，因此需要将原本有局部信息的文字特征矩阵，按照预设的映射条件，全部映射到预设的维度中，如常用预设的维度为128维度，维度映射后可以得到1*1*128的目标特征向量，能够实现对大量的文字特征信息的信息缓冲，降低文字特征矩阵的复杂度，减小后续步骤对文字特征的计算量，提高对文字特征的处理效率，从而提高对文字的类型识别的效率。

例如，在一具体实施例中，输入映射层的是一9*9*128维度的角度特征矩阵，可以先将该9*9*128维度的特征矩阵转换为长度为10368的1*1维度特征向量，假如预设的映射条件为“将获取到的特征矩阵映射到2048维度上”，则将长度为10368的1*1维度特征向量映射到2048维度上，得到1*1*2048的目标特征向量，即将文字特征矩阵压缩到原来的五分之一，能够实现对文字特征矩阵中的特征信息的充分分摊。

进一步地，由于映射层的目的是与包含多种预设文字类型定义的目标分类层的分类任务相关联的，是为了降低目标分类层的学习压力，因此可以通过映射层建立与分类层中定义的每种预设文字类型的映射关系，将经过维度缓冲后的维度已经降低到一定程度的目标特征向量，建立目标特征向量中的每个分量对应一种预设的文字类型的关系，即每个分量与每种预设的文字类型是一一对应的。

S5：根据卷积神经网络结构的二分类层的定义，对目标特征向量进行二分类计算，并根据计算结果确定目标特征向量的文本类别，将文本类别为文字的目标特征向量作为文本向量。

具体地，对目标特征向量进行二分类计算具体可以是按照二分类层中设置的交叉熵的计算公式计算目标特征向量中的每个分量的熵值，其中，L表示每个分量的熵值，u表示目标特征向量中的第u个分量，v表示目标特征向量中分量的总个数。

将得到的每个熵值进行求和，并得到的和作为该目标特征向量的向量和，然后，将该向量和与预设的向量阈值进行比对，若该向量和大于或等于该向量阈值，则可以将目标特征向量的文本类别确定为文字；若该向量和小于该向量阈值，则可以将目标特征向量的文本类别确定为非文字。

进一步地，由于对文字类别为非文字对应的目标特征向量进行后续的定位和类型识别，会导致得到无意义的定位结果和类型识别失败，以及增加不必要的运算量，从而降低对文字的类型识别的效率，因此，可以只对文本类别为文字的目标特征向量进行进一步处理，即将文本类别为文字的目标特征向量作为文本向量，使得后续步骤能够在确定文本向量对应的文字类别是文字的基础上，对文字进行定位和类型识别，能够保证对文字的类型识别有意义，减少无意义的计算量，从而提高对文字的类型识别的效率。

S6：根据卷积神经网络结构的目标分类层的定义，计算文本向量的每个分量的得分，并从得分中选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果。

具体地，计算文本向量的每个分量的得分，具体可以是根据预设的每种文字类型的类型权重，计算每个分量的数值与每个分量对应的预设的文字类型的类型权重之间的乘积，并将该乘积作为每个分量的得分，可以理解的是，每个分量的得分越高，代表该分量对应的文字特征越突出越明显，意味着该分量对应的文字类型越符合该文本向量对应的目标文字的文字类型，因此，可以从计算得到的这些得分中选取数值最大的得分，并将该得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果。

在本实施例中，通过在预设的文字检测模型中对待处理的文字图像中的目标文字进行文字的特征提取，并按照预设的映射条件，对提取到的文字特征矩阵进行维度映射，得到目标特征向量，能够准确提取文字图像中的文字特征，减少冗余图像信息的干扰，然后，对目标特征向量进行二分类计算，并根据计算结果确定目标特征向量的文本类别，获取文本类别为文字的目标特征向量，作为文本向量，进而，通过计算文本向量的每个分量的得分，并从得分中选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果，整个方法只需进行一次文字特征提取，确定提取到的目标特征向量的文本类别，并获取文本类别为文字对应的目标特征向量，作为文本向量，并对文本向量直接进行文字的类型识别，无需先对文字定位，再对定位出的文字进行文字的类型识别，并且无需先识别出具体的文字再确定文字类型，整体简化了文字识别的流程，整个方法操作简单，运算量小，很大程度上节约了操作时间，从而提高了对文字的类型识别的效率。

在一实施例中，如图3所示，步骤S2中，即根据卷积神经网络视觉几何组结构的输入层的定义，对文字图像进行预处理，得到预处理后的基础文字图像具体包括如下步骤：

S201：按照预设的图像调整方式，对文字图像进行图像调整，得到原始文字图像。

具体地，按照预设的图像调整方式，对文字图像进行图像调整具体可以是按照预设的缩放比例值，对文字图像进行等比例缩放，即长和宽以相同的比例进行缩放，得到r*f像素的缩放图像，其中，r为预设的短边的边长。可以理解地，由于获取到的文字图像通常为矩形图像，因此通过等比例缩放，将文字图像的短边缩放到r个像素大小，其中，r的大小可根据实际需要进行设置，此处不作具体限制。

例如，在一具体实施方式中，获取到的文字图像大小为320×180，单位为个像素点，即长边长度为320个像素点，短边长度为180个像素点的矩形图像，预设的r为56个像素点，对该矩形图像经过等比缩放，得到大小为114×56，单位为个像素点的缩放图像。

进一步地，在对文字图像进行等比例缩放，得到缩放图像之后，为了能够减少图像上的无检测意义的冗余信息，对后续提取文字特征的干扰，以及减少后续对冗余信息处理的运算量，以提高对文字定位和类型识别的效率，本实施例进一步地将获取到的r*f像素的缩放图像，按照预设的裁剪比例进行比例的图像裁剪，即长和宽均进行比例裁剪，得到d*g像素的裁剪图像，作为原始文字图像。

例如，在一具体实施例中，继续以图像的大小为114×56像素，单位为个像素点的缩放图像为例进行说明，假设将像素点个数为114的长边和56的短边，按照110×40的比例进行裁剪，得到1个大小为110×40，单位为个像素点的原始文字图像。

S202：将原始文字图像进行去均值和归一化处理，并将处理后的原始文字图像作为基础文字图像。

具体地，在对文字图像进行文字特征提取之前，需要对每个原始文字图像进行数据预处理，能够实现将文字图像数据化，减少对文字图像处理的复杂度，提高后续对文字特征提取的处理效率，从而提高对文字的定位和文字类型识别的效率，因此，在本发明实施例中，优选的数据预处理方法为先进行去均值处理，再进行归一化处理，归一化处理后加快了梯度下降求最优解的速度，即提升了处理的效率，同时，有利于提高检测精度，提高对文字图像中目标文字的检测效率，从而对文字的类型识别的效率。

其中，归一化处理包含但不限于：简单缩放；逐样本均值消减，也称为移除直流分量；特征标准化，使数据集合中的所有特征都具有零均值和单位方差等。

优选地，本发明实施例采用的归一化方法为通过特征标准化来进行归一化。

其中，去均值处理是指每一维度的数据减去自身均值，这样能使数据在每个维度上具有相似的宽度，可以起到一定的增大数据分布范围。

例如，在一具体实施方式中，获取到的原始文字图像包括两个维度的特征，分别为特征A和特征B，特征A的范围是8到1000，特征B的范围是23到10006，通过去均值和归一化处理后，将特征A和特征B的范围缩减为0到1。

在本实施例中，通过按照预设的图像调整方式，对待处理的文字图像进行图像调整，得到原始文字图像，然后，将原始文字图像进行去均值和归一化处理，并将处理后的原始文字图像作为基础文字图像，使得标准图像具有统一的图像大小和合理的参数范围，有利于后续快速准确地进行文字图像中目标文字的角度特征提取，提高文字特征的处理效率，从而提高对文字类型识别的效率。

在一实施例中，如图4所示，步骤S4中，即根据循环神经网络结构的映射层的定义，按照预设的映射条件，对文字特征矩阵进行维度映射，得到文字特征矩阵对应的目标特征向量，其中，目标特征向量中的每个分量对应一种预设文字类型具体包括如下步骤：

S401：根据循环神经网络结构的循环映射层的定义，按照预设的循环映射条件，对文字特征矩阵进行维度映射，得到文字特征矩阵对应的映射特征向量。

具体地，按照预设的映射条件，对文字特征矩阵进行维度映射具体可以是按照预设的大小为3*3*c的滑动窗口，其中，c为预设的维度，如56维度，对每个文字特征矩阵进行切割，得到若干个3*3*c的特征子矩阵，如对N*N的文字特征矩阵进行切割，可以得到(N*N)/(3*3)个大小为3*3*c的特征子矩阵，然后，将每个3*3*c的特征子矩阵转换为长度为9*c的1*1维度特征向量，进而将该长度为9*c的1*1维度特征向量映射到预设的循环映射维度w中，本实施例中采用预设的循环映射维度w为256维度，即得到若干个3*3*256的映射特征向量，实现将文字特征矩阵中的特征信息进行分摊，降低特征向量的复杂度，使得后续步骤能够提高对特征向量的处理效率，从而提高对文字的类型识别的效率。

S402：根据卷积神经网络结构的卷积映射层的定义，按照预设的卷积映射条件，对映射特征向量进行维度映射，得到目标特征向量。

具体地，若只进行一次步骤S401中的预设的循环维度映射，则会存在特征缓冲的过程较短，使得获取到的若干个3*3*256的映射特征向量的精度相对较低，因此可以将在步骤S401中3*3*256的映射特征向量在卷积神经网络结构的卷积映射层中再进行一次维度映射，具体可以是将3*3*256的映射特征向量转换为长度为20736的1*1维度特征向量，并将该长度为20736的1*1维度特征向量映射到预设的卷积映射维度1*1*q中，本实施例中采用预设的循环映射维度q为512维度，得到若干个1*1*512的目标特征向量，即得到若干个[x₁,x₂,...,x₅₁₂]的目标特征向量，能够进一步地实现对文字特征矩阵的缓冲，使得文字特征矩阵中的特征信息的分摊充分，保证得到的文字特征矩阵对应的目标特征向量的精度。

在本实施例中，通过根据循环神经网络结构的循环映射层的定义，按照预设的循环映射条件，对文字特征矩阵进行维度映射，得到文字特征矩阵对应的映射特征向量，然后，根据卷积神经网络结构的卷积映射层的定义，按照预设的卷积映射条件，对映射特征向量进行维度映射，得到目标特征向量，实现对文字特征矩阵充分缓冲，使得文字特征矩阵中的特征信息充分分摊，从而保证得到的文字特征矩阵对应的目标特征向量的精度。

在一实施例中，如图5所示，在步骤S5中，即根据卷积神经网络结构的二分类层的定义，对目标特征向量进行二分类计算，并根据计算结果确定目标特征向量的文本类别，将文本类别为文字的目标特征向量作为文本向量具体包括如下步骤：

S501：将目标特征向量的每个分量输入如下计算公式，计算目标特征向量的目标向量值p：

其中，y_j为目标特征向量中的所述分量，j为目标特征向量中的第j个分量，m为目标特征向量中分量的总个数，w_j为每个分量的预设的二分类系数。

具体地，根据步骤S4中得到目标特征向量，可以每个分量的顺序将每个分量输入到计算公式中进行计算，具体可以是先根据获取到的每个分量的数值，与对应的每个分量的预设的二分类系数w_j进行相乘，进而将得到每个分量数值与预设的二分类系数之间的乘积进行求和，然后将得到的和作为目标特征向量的目标向量值p。

例如，在一具体实施例中，假如获取到的一个目标特征向量为[x₁,x₂,x₃]，假设第1个分量x₁＝1，第2个分量x₂＝2，第3个分量x₃＝3，预设的w₁＝0.01，w₁＝0.05，w₁＝0.02，则将这些分量的数值输入到计算公式中进行计算，计算得到每个分量数值与预设的二分类系数之间的乘积分别为0.01、0.10和0.06，然后，将这些乘积进行相加得到的和为0.17，即该目标特征向量的目标向量值p＝0.17。

S502：将目标向量值与预设的分类阈值进行比对，若目标向量值大于或等于分类阈值，则将目标特征向量的文本类别确定为文字，并将文本类别为文字的目标特征向量作为文本向量。

具体地，预设的分类阈值是通过反复验证得到的，能够将目标特征向量的文本类别确定为文字的最小值，如通常使用的分类阈值为0.7，因此，当在步骤S501中计算得到的目标向量值大于或等于预设的分类阈值，则可以将该目标向量值对应的目标特征向量的文本类别确定为文字，若目标向量值小于预设的分类阈值，则可以将该目标向量值对应的目标特征向量的文本类别确定为非文字，然后，为了保证对文字的类型识别有意义，可以将文本类别为文字的目标特征向量作为文本向量，能够减少后续步骤计算量，从而提高对文字类型识别的效率。

例如，在一具体实施例中，继续使用步骤S501中的目标向量值p＝0.17的例子，假设预设的分类阈值为0.7，将该目标向量值与该分类阈值进行比较，得到带目标向量值小于该分类阈值，则得到该目标向量值对应的目标特征向量的文本类别为非文字。

在本实施例中，通过将目标特征向量的每个分量输入计算公式中，计算目标特征向量的目标向量值，然后，将目标向量值与预设的分类阈值进行比对，若目标向量值大于所述分类阈值，则将目标特征向量的文本类别确定为文字，并将文本类别为文字的目标特征向量作为文本向量，该方法操作简单明了，计算复杂度小，能够快速确定目标特征向量的文字类型，从而提高对文字的类型识别的效率。

在一实施例中，如图6所示，步骤S6中，即根据卷积神经网络结构的目标分类层的定义，计算文本向量的每个分量的得分，并从得分中选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果具体还包括如下步骤：

S601：将文本分量的每个分量输入如下得分公式，计算每个分量的得分s：

其中，x_i为文本向量中的分量，i为文本向量中的第i个分量，n为文本向量中分量的总个数，σ为预设的相关系数。

具体地，根据步骤S5中得到文本向量，按照每个分量的顺序对文本向量中的每个分量进行提取，为方便后续步骤对分量的得分的计算，可以按照每个分量的顺序将获取到的每个分量进行标记，如“第一分量”或“第三分量”等，此处不做限制。

进一步地，将获取到的文本向量的每个分量，分别代入得分公式中进行计算，具体可以是先根据获取到的每个分量的数值，计算每个分量的指数值，进而将这些指数值进行求和，得到所有分量的指数和，然后，将每个分量的指数值除以该指数和得到的商，与预设的相关系数进行相乘，将得到的乘积作为每个分量的得分p。

例如，在一具体实施例中，假如获取到的第五个分量x₅＝1，则将该分量的数值代入公式中进行计算，计算得到的该分量的指数值为2.7183，假如所有分量的指数和为0.078，则计算得到该的指数值除以该指数和得到的商为0.0287，假设预设的相关系数σ为0.05，则可以得到该分量的得分p为0.001435。

例如，在一具体实施例中，假设获取到的一文本向量为[2，5，3，4，1]，预设的相关系数σ为0.02将该分量的数值代入公式中进行计算，得到每个分量的对应的得分，分别为

S602：从计算得到的得分中，选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果。

具体地，由于计算得到的分量的得分越高，代表该分量对应的文字特征越突出越明显，意味着该分量对应的文字类型越符合且越能代表该文本向量对应的目标文字的文字类型，因此，将在步骤S701中计算得到每个分量的得分进行比较，得出这些得分中数值最大的得分，然后，可以获取将该数值最大的得分对应的分量，并将该分量对应的预设文字类型作为该文本向量对应的目标文字的文字类型，即类型识别结果。

例如，在一具体实施例中，继续使用步骤S701中的文本向量为[2，5，3，4，1]的每个分量的得分的例子，将0.000634、0.012728、0.001722、0.004682和0.000234这5个得分进行比较，得到0.012728为数值最大的得分，则获取该得分对应的预设文字类型，假设该预设文字类型为中文，即该文本向量对应的目标文字的类型识别结果为中文。

在本实施例中，通过将文本分量的每个分量输入得分公式中，计算每个分量的得分，然后，从计算得到的得分中，选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果，该方法计算简便，运算量小，能够快速获取文字的类型识别结果，从而提高对文字的类型识别的效率。

在一实施例中，该文字的类型识别方法还包括如下具体步骤：

根据卷积神经网络结构的回归层的定义，对文本向量进行回归计算，得到文本向量对应的目标文字在所述文字图像上的文字位置信息，作为目标文字的定位结果。

具体地，由于对文本向量进行回归计算是用于预测文字向量对应的文字呈现在文字图像上的区域，因此对文本向量进行回归后，会以矩形框的形式显示文本向量对应的目标文字在文字图像上的位置，其中，文字位置信息包括该矩形框左上角的坐标和右下角的坐标，以及该矩形框的高度和宽度，可以理解的是，因为在步骤S5中得到的每个文本向量的维度都是相同的，所以可以得到宽度相同的矩形框，如通常的矩形框的宽度值为16个像素点，因此只需要对文本向量进行高度的回归计算，具体可以是将文本向量中的每个分量输入到高度回归计算公式中，计算文本向量对应的矩形框的高度v_h，其中，x_i为文本向量中的分量，i为文本向量中的第i个分量，n为文本向量中分量的总个数。

然后，将文本向量中的每个分量输入到水平偏移计算公式中，计算矩形框的左边界距离文字图像的左边界的水平偏移量v_s，同时，将文本向量中的每个分量输入到竖直偏移计算公式中，计算矩形框的上边界距离文字图像的上边界的竖直偏移量v_l，最后，根据得到水平偏移量和竖直偏移量可以确定文本向量对应的矩形框的左上角的坐标为(v_s，v_l)，进而可以根据得到的矩形框的高度和宽度确定文本向量对应的右下角的坐标(v_s+16，v_l+v_h)。

需要说明的是，对文本向量进行回归计算，实现对文字的定位的过程，与步骤S6中对文本向量进行文字的类型识别的过程是互不干扰，可以同时并行进行的两个过程。

在本实施例中，通过对获取到的文本向量进行回归计算，能够实现在获取到文本向量的基础上，同步进行对文本向量的文字定位和文字类型识别，实现对文字定位和文字类型识别一体化，无需先对文字进行定位，再对定位出的文字进行文字的类型识别，简化了文字识别的流程，很大程度上节约了操作时间，从而提高了对文字的类型识别的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文字的类型识别装置，该文字的类型识别装置与上述实施例中文字的类型识别方法一一对应。如图7所示，该文字的类型识别装置包括图像获取模块701、图像处理模块702、特征提取模块703、维度映射模块704、向量分类模块705和类型识别模块706。各功能模块详细说明如下：

图像获取模块701，用于获取待处理的文字图像，并将文字图像输入预设的文字检测模型，其中，文字检测模型包括卷积神经网络视觉几何组结构、循环神经网络结构和卷积神经网络结构；

图像处理模块702，用于根据卷积神经网络视觉几何组结构的输入层的定义，对文字图像进行预处理，得到预处理后的基础文字图像；

特征提取模块703，用于根据卷积神经网络视觉几何组结构的卷积层的定义，对基础文字图像中的目标文字进行文字的特征提取，得到目标文字对应的文字特征矩阵；

维度映射模块704，用于根据循环神经网络结构的映射层的定义，按照预设的映射条件，对文字特征矩阵进行维度映射，得到文字特征矩阵对应的目标特征向量，其中，目标特征向量中的每个分量对应一种预设文字类型；

向量分类模块705，用于根据卷积神经网络结构的二分类层的定义，对目标特征向量进行二分类计算，并根据计算结果确定目标特征向量的文本类别，将文本类别为文字的目标特征向量作为文本向量；

类型识别模块706，用于根据卷积神经网络结构的目标分类层的定义，计算文本向量的每个分量的得分，并从得分中选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果。

进一步地，图像处理模块702包括：

图像调整单元7021，用于按照预设的图像调整方式，对文字图像进行图像调整，得到原始文字图像；

图像整理单元7022，用于将原始文字图像进行去均值和归一化处理，并将处理后的原始文字图像作为基础文字图像。

进一步地，维度映射模块704包括：

循环映射单元7041，用于根据循环神经网络结构的循环映射层的定义，按照预设的循环映射条件，对文字特征矩阵进行维度映射，得到文字特征矩阵对应的映射特征向量；

卷积映射单元7042，用于根据卷积神经网络结构的卷积映射层的定义，按照预设的卷积映射条件，对映射特征向量进行维度映射，得到目标特征向量。

进一步地，向量分类模块705包括：

分值计算单元7051，用于将目标特征向量的每个分量输入如下计算公式，计算目标特征向量的目标向量值p：

其中，y_j为目标特征向量中的分量，j为目标特征向量中的第j个分量，m为目标特征向量中分量的总个数，w_j为每个分量的预设的二分类系数；

阈值比对单元7052，用于将目标向量值与预设的分类阈值进行比对，若目标向量值大于或等于分类阈值，则将目标特征向量的文本类别确定为文字，并将文本类别为文字的目标特征向量作为文本向量。

进一步地，类型识别模块706包括：

得分计算单元7061，用于将文本分量的每个分量输入如下得分公式，计算每个分量的得分s：

其中，x_i为文本向量中的所述分量，i为文本向量中的第i个分量，n为文本向量中分量的总个数，σ为预设的相关系数；

类型确定单元7062，用于从计算得到的得分中，选取数值最大的得分对应的预设文字类型，作为文本向量对应的目标文字的类型识别结果。

进一步地，该文字的类型识别装置还包括：

向量回归模块707，用于根据卷积神经网络结构的回归层的定义，对文本向量进行回归计算，得到文本向量对应的目标文字在所述文字图像上的文字位置信息，作为目标文字的定位结果。

关于文字的类型识别装置的具体限定可以参见上文中对于文字的类型识别方法的限定，在此不再赘述。上述文字的类型识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于保存文字图像信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文字的类型识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例文字的类型识别方法的步骤，例如图2所示的步骤S1至步骤S6。或者，处理器执行计算机程序时实现上述实施例中文字的类型识别装置的各模块/单元的功能，例如图7所示模块701至模块706的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中文本处理方法，或者，该计算机程序被处理器执行时实现上述装置实施例中文字的类型识别装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文字的类型识别方法，其特征在于，所述文字的类型识别方法包括：

2.如权利要求1所述的文字的类型识别方法，其特征在于，所述根据所述卷积神经网络视觉几何组结构的输入层的定义，对所述文字图像进行预处理，得到预处理后的基础文字图像包括：

按照预设的图像调整方式，对所述文字图像进行图像调整，得到原始文字图像；

将所述原始文字图像进行去均值和归一化处理，并将处理后的原始文字图像作为所述基础文字图像。

3.如权利要求1所述的文字的类型识别方法，其特征在于，所述根据所述循环神经网络结构的映射层的定义，按照预设的映射条件，对所述文字特征矩阵进行维度映射，得到所述文字特征矩阵对应的目标特征向量包括：

根据所述循环神经网络机构的循环映射层的定义，按照预设的循环映射条件，对所述文字特征矩阵进行维度映射，得到所述文字特征矩阵对应的映射特征向量；

根据所述卷积神经网络机构的卷积映射层的定义，按照预设的卷积映射条件，对所述映射特征向量进行维度映射，得到所述目标特征向量。

4.如权利要求1所述的文字的类型识别方法，其特征在于，所述根据所述卷积神经网络机构的二分类层的定义，对所述目标特征向量进行二分类计算，并根据计算结果确定所述目标特征向量的文本类别，将所述文本类别为文字的目标特征向量作为文本向量包括：

将所述目标特征向量的每个所述分量输入如下计算公式，计算所述目标特征向量的目标向量值p：

其中，y_j为所述目标特征向量中的所述分量，j为所述目标特征向量中的第j个分量，m为所述目标特征向量中所述分量的总个数，w_j为每个所述分量的预设的二分类系数；

将所述目标向量值与预设的分类阈值进行比对，若所述目标向量值大于或等于所述分类阈值，则将所述目标特征向量的文本类别确定为文字，并将所述文本类别为文字的所述目标特征向量作为所述文本向量。

5.如权利要求1所述的文字的类型识别方法，其特征在于，所述根据所述卷积神经网络机构的目标分类层的定义，计算所述文本向量的每个所述分量的得分，并从所述得分中选取数值最大的得分对应的所述预设文字类型，作为所述文本向量对应的所述目标文字的类型识别结果包括：

将所述文本分量的每个所述分量输入如下得分公式，计算每个所述分量的得分s：

其中，x_i为所述文本向量中的所述分量，i为所述文本向量中的第i个分量，n为所述文本向量中所述分量的总个数，σ为预设的相关系数；

从计算得到的所述得分中，选取数值最大的得分对应的所述预设文字类型，作为所述文本向量对应的所述目标文字的类型识别结果。

6.如权利要求1至4任意一项所述的文字的类型识别方法，其特征在于，所述根据所述卷积神经网络结构的二分类层的定义，对所述目标特征向量进行二分类计算，并根据计算结果确定所述目标特征向量的文本类别，将所述文本类别为文字的目标特征向量作为文本向量之后，所述文字的类型识别还包括：

根据所述卷积神经网络结构的回归层的定义，对所述文本向量进行回归计算，得到所述文本向量对应的目标文字在所述文字图像上的文字位置信息，作为所述目标文字的定位结果。

7.一种文字的类型识别装置，其特征在于，所述文字的类型识别装置包括：

8.如权利要求7所述的文字的类型识别装置，其特征在于，所述图像处理模块包括：

图像调整单元，用于按照预设的图像调整方式，对所述文字图像进行图像调整，得到原始文字图像；

图像整理单元，用于将所述原始文字图像进行去均值和归一化处理，并将处理后的原始文字图像作为所述基础文字图像。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文字的类型识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文字的类型识别方法。