CN111275046B

CN111275046B - 一种字符图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN111275046B
Application number: CN202010030141.3A
Authority: CN
Inventors: 刘小康; 李健铨
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2024-04-16
Anticipated expiration: 2040-01-10
Also published as: CN111275046A

Abstract

本申请提供一种字符图像识别方法、装置、电子设备及存储介质，用于改善对形近字的识别准确率不高的问题。该方法包括：使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，字符特征向量表征字符的图像特征，字符结构向量表征字符的结构特征；使用字符识别模型的转译层对至少一个字符特征向量和至少一个字符结构向量进行转译处理，获得字符图像的识别结果。在字符识别模型中使用了辅助辨认字形结构的字符结构向量，从而有效地提高了对形近字的识别准确率。

Description

一种字符图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像识别的技术领域，具体而言，涉及一种字符图像识别方法、装置、电子设备及存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指利用相机、扫描仪等光学输入设备对票据、订单号、文本文件或其它载体上的字符进行拍摄或扫描，然后对拍摄或扫描后的图像文件进行数字化处理，得到文字信息的过程。按照所识别字符的获取途径不同，光学字符识别可分为联机(on-line)字符识别和脱机(off-line)字符识别。联机字符识别指被识别的字符是通过电子显示屏所获取的实时笔迹，而脱机字符识别指被识别的目标为已经写好或者扫描好的完整字符。

在具体的实践过程中发现，由于汉字的形近字较多且易混淆，比如：“日”和“曰”、“己”和“已”等等，象形文字中的字形近似的字难以区分，使用上述的光学字符识别方法对形近字的识别准确率不高。

发明内容

本申请实施例的目的在于提供一种字符图像识别方法、装置、电子设备及存储介质，用于改善对形近字的识别准确率不高的问题。

本申请实施例提供了一种字符图像识别方法，包括：使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，所述字符特征向量表征字符的图像特征，所述字符结构向量表征字符的结构特征；使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果。在上述的实现过程中，通过使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量；使用字符识别模型的转译层对至少一个字符特征向量和至少一个字符结构向量进行转译处理，获得字符图像的识别结果；在字符识别模型中使用了辅助辨认字形结构的字符结构向量，从而有效地提高了对形近字的识别准确率。

可选地，在本申请实施例中，所述卷积循环神经网络层包括：卷积神经网络层和循环神经网络层；所述使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，包括：使用所述卷积神经网络层对所述字符图像进行卷积运算，获得卷积特征图；使用所述循环神经网络层对所述卷积特征图进行循环运算，获得所述至少一个字符特征向量和所述至少一个字符结构向量。在上述的实现过程中，通过使用卷积神经网络层对字符图像进行卷积运算，获得卷积特征图；使用循环神经网络层对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量；有效地获得字符特征向量和字符结构向量，从而提高了对形近字的识别准确率。

可选地，在本申请实施例中，所述循环神经网络层包括：长短期记忆网络层或者双向长短记忆网络层。在上述的实现过程中，若循环神经网络层为长短期记忆网络层或者双向长短记忆网络层，从而有效地提高了获得字符图像识别结果的在相关场景中识别结果的正确率。

可选地，在本申请实施例中，所述转译层包括：关联时序分类层和归一化指数层；所述使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果，包括：使用所述关联时序分类层对所述至少一个字符特征向量和所述至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量；使用所述归一化指数层对所述一个字符特征向量和所述一个字符结构向量进行归一化指数计算，获得所述字符图像的识别结果。在上述的实现过程中，通过使用关联时序分类层对至少一个字符特征向量和至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量；使用归一化指数层对一个字符特征向量和一个字符结构向量进行归一化指数计算，获得字符图像的识别结果；从而有效地提高了获得字符图像的识别结果的速度。

可选地，在本申请实施例中，所述转译层包括：注意力层和分类层；所述使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果，包括：使用所述注意力层对所述至少一个字符特征向量和所述至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量；使用所述分类层对所述一个字符特征向量和所述一个字符结构向量进行分类，获得所述字符图像的识别结果。在上述的实现过程中，通过使用注意力层对至少一个字符特征向量和至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量；使用分类层对一个字符特征向量和一个字符结构向量进行分类，获得字符图像的识别结果；从而有效地提高了获得字符图像的识别结果的速度。

可选地，在本申请实施例中，该方法还包括：获得多个文字图像和多个文字标签，所述文字图像为象形文字的字符图像，所述文字标签是与所述象形文字对应的分类标签；以所述多个文字图像为训练数据，以所述多个文字标签为训练标签，对所述字符识别模型进行训练，获得所述字符识别模型。在上述的实现过程中，通过获得多个文字图像和多个文字标签；以多个文字图像为训练数据，以多个文字标签为训练标签，对字符识别模型进行训练，获得字符识别模型；从而有效地提高了获得字符识别模型的速度。

可选地，在本申请实施例中，所述对所述字符识别模型进行训练，获得所述字符识别模型，包括：使用所述多个文字图像中的字符图像对所述字符识别模型进行训练，获得所述字符识别模型；和/或使用所述多个文字图像中的词语图像对所述字符识别模型进行训练，获得所述字符识别模型；和/或使用所述多个文字图像中的语句图像对所述字符识别模型进行训练，获得所述字符识别模型。在上述的实现过程中，通过使用多个文字图像中的字符图像对字符识别模型进行训练，获得字符识别模型；和/或使用多个文字图像中的词语图像对字符识别模型进行训练，获得字符识别模型；和/或使用多个文字图像中的语句图像对字符识别模型进行训练，获得字符识别模型；从而有效地提高了字符识别模型对易混淆字进行识别的正确率。

本申请实施例还提供了一种字符图像识别装置，包括：卷积循环模块，用于使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，所述字符特征向量表征字符的图像特征，所述字符结构向量表征字符的结构特征；转译处理模块，用于使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果。

可选地，在本申请实施例中，所述卷积循环神经网络层包括：卷积神经网络层和循环神经网络层；所述卷积循环模块，包括：卷积运算模块，用于使用所述卷积神经网络层对所述字符图像进行卷积运算，获得卷积特征图；循环运算模块，用于使用所述循环神经网络层对所述卷积特征图进行循环运算，获得所述至少一个字符特征向量和所述至少一个字符结构向量。

可选地，在本申请实施例中，所述循环神经网络层包括：长短期记忆网络层或者双向长短记忆网络层。

可选地，在本申请实施例中，所述转译层包括：关联时序分类层和归一化指数层；所述转译处理模块，包括：第一计算模块，用于使用所述关联时序分类层对所述至少一个字符特征向量和所述至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量；第二计算模块，用于使用所述归一化指数层对所述一个字符特征向量和所述一个字符结构向量进行归一化指数计算，获得所述字符图像的识别结果。

可选地，在本申请实施例中，所述转译层包括：注意力层和分类层；所述转译处理模块，包括：向量筛选模块，用于使用所述注意力层对所述至少一个字符特征向量和所述至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量；向量分类模块，用于使用所述分类层对所述一个字符特征向量和所述一个字符结构向量进行分类，获得所述字符图像的识别结果。

可选地，在本申请实施例中，所述字符图像识别装置还包括：文字获得模块，用于获得多个文字图像和多个文字标签，所述文字图像为象形文字的字符图像，所述文字标签是与所述象形文字对应的分类标签；模型训练模块，用于以所述多个文字图像为训练数据，以所述多个文字标签为训练标签，对所述字符识别模型进行训练，获得所述字符识别模型。

可选地，在本申请实施例中，所述模型训练模块，包括：模型训练子模块，用于使用所述多个文字图像中的字符图像对所述字符识别模型进行训练，获得所述字符识别模型；和/或使用所述多个文字图像中的词语图像对所述字符识别模型进行训练，获得所述字符识别模型；和/或使用所述多个文字图像中的语句图像对所述字符识别模型进行训练，获得所述字符识别模型。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如上所述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的字符图像识别方法的示意图；

图2示出的本申请实施例提供的字符识别模型的神经网络结构示意图；

图3示出的本申请实施例提供的字符结构的示意图；

图4示出的本申请实施例提供的使用易混淆字符训练模型的示意图；

图5示出的本申请实施例提供的字符图像识别装置的示意图；

图6示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的字符图像识别方法之前，先介绍本申请实施例所涉及的一些概念，本申请实施例所涉及的一些概念如下：

人工智能(Artificial Intelligence，AI)，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

机器学习，是指人工智能领域中研究人类学习行为的一个分支。借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力；机器学习的主要方法包括：决策树、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习等。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术；其中，图像识别相关的任务例如：字符识别、目标检测和语义分割图像等等。

字符识别，是指对包括字符的图像进行分析处理，获取版面信息并识别其中的字符，从而将文本图像转换为电子文本的过程。光学字符识别(Optical CharacterRecognition，OCR)是指利用相机、扫描仪等光学输入设备对票据、订单号、文本文件或其它载体上的字符进行拍摄或扫描，然后对拍摄或扫描后的图像文件进行数字化处理，得到文字信息的过程。具体例如：使用支持向量机、卷积神经网络、深度学习等识别方法对切分出来的字符进行识别，得到最终的字符图像的识别结果。由于各识别方法同时也是分类方法，因此，最终获得的也可以被称为字符图像的分类结果。

卷积神经网络(Convolutional Neural Networks，CNN)，是一种人工神经网络，人工神经网络的人工神经元可以响应周围单元，可以进行大型图像处理。卷积神经网络包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理；二维卷积神经网络常应用于图像类文本的识别；三维卷积神经网络主要应用于医学图像以及视频类数据识别。

循环神经网络(Recurrent Neural Network，RNN)，是一类以序列数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络的核心部分是一个有向图。有向图展开中以链式相连的元素被称为循环单元(RNN cell)。通常地，循环单元构成的链式连接可类比前馈神经网络中的隐含层(hidden layer)，但在不同的论述中，循环神经网络的“层”可能指单个时间步的循环单元或所有的循环单元。门循环单元(Gate Recurrent Unit，GRU)，是指循环神经网络的一种神经网络结构。

卷积循环神经网络(Convolutional Recurrent Neural Networks，CRNN)，是指包括卷积神经网络(Convolutional Neural Networks，CNN)和循环神经网络(RecurrentNeural Network,RNN)的神经网络模型；CRNN例如可以是一种卷积循环神经网络结构，可以用于解决基于图像的序列识别问题，基于图像的序列识别问题例如可以是场景文字识别问题。

字符特征向量，是指表征字符的图像特征的向量，图像特征具体例如：图像的边缘轮廓、颜色、线条和角等等。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的字符图像识别方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personaldigital assistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的字符图像识别方法之前，先介绍该字符图像识别方法适用的应用场景，这里的应用场景包括但不限于：使用该字符识别图像识别手写字体图像、使用该字符识别图像识别象形文字的图像等等场景；这里的象形文字例如汉字、埃及文字、赫梯象形文、苏美尔文、古印度文等等。

请参见图1示出的本申请实施例提供的字符图像识别方法的示意图；该字符图像识别方法可以包括如下步骤：

步骤S110：使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量。

步骤S120：使用字符识别模型的转译层对至少一个字符特征向量和至少一个字符结构向量进行转译处理，获得字符图像的识别结果。

下面将分别介绍步骤S110和步骤S120这两个步骤的详细内容：

请参见图2示出的本申请实施例提供的字符识别模型的神经网络结构示意图；这里的字符识别模型是指对字符图像进行分析处理，获取版面信息并识别其中的字符的神经网络模型，该神经网络模型可以将文本图像转换为电子文本；其中，这里的字符图像是指包括字符的图像，可以是手写的字符或文字，也可以是打印体的字符或文字。这里的预先训练的字符识别模型是指在使用字符识别模型之前，需要先对字符识别模型进行训练，字符识别模型的具体训练过程将在下面进行具体地描述。

字符图像，是指包含字符的图像，具体例如：对手写体字符拍摄的照片图像，对打印的字体进行拍照获得图像等。这里的字符图像的具体获得方式，可以是对包括手写体字符进行拍照获得，也可以是从网络上采集获得，从网络上采集获得的方式例如：使用网络爬虫软件从互联网上获取字符图像。

请参见图3示出的本申请实施例提供的字符结构的示意图；字符结构向量，是指表征字符的结构特征的向量，可以理解为在原有训练的基础上引入字形向量，该字形向量可以帮助模型更好地判断该字的字形；具体例如：以汉字为例进行说明，字符结构是指汉字字形的结构构造；即汉字的线条、笔画、部件、偏旁等构形要素，依据一定的理据和规律在空间排列展开的组合与构造；例如：“汉”和“湖”是左右结构，“字”和“莫”是上下结构等等。通过使用模型对每个字进行处理都能够输出两种向量，这两种向量为字符特征向量和字符结构向量，可以保证模型在训练时能够获得字形的结构特征，同时降低模型对于不同字形的混淆，以提高对易混淆字识别的正确率。

其中，上述的卷积循环神经网络层包括：卷积神经网络层和循环神经网络层；那么使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，即步骤S110可以包括如下步骤：

步骤S111：使用卷积神经网络层对字符图像进行卷积运算，获得卷积特征图。

卷积神经网络层，又称卷积层(Convolutional Layer)，是指卷积神经网络中每层卷积层是由若干卷积单元组成的计算单元层，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，例如：第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。卷积层在连接之前需要设置激活函数，常见的激活函数包括：修正线性单元、Sigmoid函数和tanh函数。

上述的使用卷积神经网络层对字符图像进行卷积运算，获得卷积特征图实施方式例如：使用卷积神经网络层提取字符图像的卷积特征，获得卷积特征图；其中，卷积特征是指从字符图像中获取的图像特征，图像特征具体例如：图像的边缘轮廓、颜色、线条和角。

步骤S112：使用循环神经网络层对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量。

循环神经网络层，是指由至少一层循环神经网络构成的神经网络结构，常见的循环神经网络例如：长短期记忆(Long Short-Term Memory，LSTM)网络和双向长短记忆(Bidirectional Long Short-Term Memory，Bi-LSTM)网络；其中，这里的LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，这里的长短期记忆网络是上述的循环神经网络的其中一种循环神经网络。这里的Bi-LSTM是指一种与LSTM类似的神经网络结构，这里的Bi-LSTM模型相比与LSTM模型来说，区别在于不同于LSTM模型隐藏层的单向传播，Bi-LSTM模型包含两个相互独立的隐藏层，这里的两个相互独立的隐藏层就是前向LSTM网络和后向LSTM网络，前向LSTM网络传播方向和后向LSTM网络的传播方向是相反的。

上述的使用循环神经网络层对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量实施方式例如：使用LSTM对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量；利用长短期记忆网络模型从特征矩阵图提取字符序列，其中，该字符序列为包括分隔符的字符串序列，具体地例如，LSTM输出的字符序列可以是AAA_11_222222_333，这里的下划线表示为整个字符串序列的分隔符。若循环神经网络层为长短期记忆网络层，从而有效地提高了获得字符图像识别结果的在相关场景中识别结果的正确率。

上述的使用循环神经网络层对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量实施方式又例如：使用Bi-LSTM对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量；针对同一输入数据，最终可以得到两个隐藏层输出，即两个关于输入数据的特征向量，之后Bi-LSTM模型通过将两个特征向量进行拼接(concatenate)或取平均值的方法得到一个向量，再将该向量进行输出至全连接层。其中，双向长短期记忆网络的具体结构例如：该双向长短期记忆网络包括：输入层(input layer)、前向传播层(forward layer)、后向传播层(backward layer)和输出层(output layer)；其中，输入层、前向传播层、后向传播层和输出层依次连接。若循环神经网络层为双向长短记忆网络层，从而有效地提高了获得字符图像识别结果的在相关场景中识别结果的正确率。

在上述的实现过程中，通过使用卷积神经网络层对字符图像进行卷积运算，获得卷积特征图；使用循环神经网络层对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量；有效地获得字符特征向量和字符结构向量，从而提高了对形近字的识别准确率。

转译层(transcription layer)，又称转录层，是指根据卷积循环神经网络层获得的向量进行去重和整合等操作，获得最终的分类结果的神经网络结构，具体例如：转译层可以包括Softmax函数等等。

在具体的实施过程中，上面的使用字符识别模型的转译层对至少一个字符特征向量和至少一个字符结构向量进行转译处理，获得字符图像的识别结果，即转译处理可以包括如下两种实施方式：

第一种实施方式，转译层包括：关联时序分类层和归一化指数层；下面具体地介绍第一种实施方式，那么步骤S120可以包括如下步骤：

步骤S121：使用关联时序分类层对至少一个字符特征向量和至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量。

关联时序分类(Connectionist Temporal Classification，CTC)，又称连接时间分类，是一种损失函数计算方法，例如可以是用于序列建模的工具，用CTC代替损失(Loss)函数，以使神经网络的训练数据无需对齐。

使用关联时序分类层对至少一个字符特征向量和至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量的实施方式例如：使用关联时序分类层去除至少一个字符特征向量和至少一个字符结构向量中的冗余向量或者冗余信息，获得一个字符特征向量和一个字符结构向量。上述的实施方式又例如：若至少一个字符特征向量包括A、B和C，那么使用CTC对A、B和C进行筛选和计算，获得C；又例如：若至少一个字符结构向量为AAA_11_222222_333，这里的下划线表示为字符结构向量中的序列分隔符，当然这里的序列分隔符也可以是空格符号，序列分隔符可以根据具体情况进行设置，那么使用CTC对AAA_11_222222_333进行去重，获得的字符结构向量为A_1_2_3。

步骤S122：使用归一化指数层对一个字符特征向量和一个字符结构向量进行归一化指数计算，获得字符图像的识别结果。

归一化指数函数(Softmax)，或Softmax函数，实际上是有限项离散概率分布的梯度对数归一化。在数学中，尤其是概率论和相关领域中，归一化指数函数，或称Softmax函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。这里的归一化指数层是指包括归一化指数的神经网络结构。

使用归一化指数层对一个字符特征向量和一个字符结构向量进行归一化指数计算，获得字符图像的识别结果的实施方式例如：使用归一化指数层对C和A_1_2_3进行计算，获得字符图像的识别结果为索引号为CA123的“清”字。在上述的实现过程中，通过使用关联时序分类层对至少一个字符特征向量和至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量；使用归一化指数层对一个字符特征向量和一个字符结构向量进行归一化指数计算，获得字符图像的识别结果；从而有效地提高了获得字符图像的识别结果的速度。

第二种实施方式，转译层包括：注意力层和分类层；下面具体地介绍第一种实施方式，那么步骤S120可以包括如下步骤：

步骤S123：使用注意力层对至少一个字符特征向量和至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量。

注意力(Attention)层，是指对每个时刻的卷积特征图进行加权和整理的计算方法，可以理解为基于内容的查询(content based query)的过程，具体例如：注意力层可以包括：编码器和解码器，其中，编码器对卷积特征图进行加权矩阵相乘获得三个向量；这里三个向量例如：查询向量(QueryVector)、关键向量(Key Vector)和价值向量(ValueVector)这三个向量；这三个向量都是通过输入嵌入(input embedding)和权重的矩阵相乘获得的。

使用注意力层对至少一个字符特征向量和至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量的实施方式例如：使用注意力层去除至少一个字符特征向量和至少一个字符结构向量中的冗余向量或者冗余信息，获得一个字符特征向量和一个字符结构向量。上述的实施方式又例如：若至少一个字符特征向量包括A、B和C，那么使用注意力层对A、B和C进行筛选和计算，获得C；又例如：若至少一个字符结构向量为AAA_11_222222_333，这里的下划线表示为字符结构向量中的序列分隔符，那么使用注意力层对AAA_11_222222_333进行去重，获得的字符结构向量为A_1_2_3。

步骤S124：使用分类层对一个字符特征向量和一个字符结构向量进行分类，获得字符图像的识别结果。

使用分类层对一个字符特征向量和一个字符结构向量进行分类，获得字符图像的识别结果的实施方式例如：这里的分类层可以是上述的归一化指数函数层，即softmax函数层，那么可以使用softmax函数层对一个字符特征向量和一个字符结构向量进行分类，获得字符图像的识别结果。在上述的实现过程中，通过使用注意力层对至少一个字符特征向量和至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量；使用分类层对一个字符特征向量和一个字符结构向量进行分类，获得字符图像的识别结果；从而有效地提高了获得字符图像的识别结果的速度。

在上述的实现过程中，通过使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量；使用字符识别模型的转译层对至少一个字符特征向量和至少一个字符结构向量进行转译处理，获得字符图像的识别结果；在字符识别模型中使用了辅助辨认字形结构的字符结构向量，从而有效地提高了对形近字的识别准确率。

在本申请实施例中，还对上述的字符识别模型进行训练，模型训练的过程可以包括如下步骤：

步骤S210：获得多个文字图像和多个文字标签。

文字图像，是指包含文字字符的图像，具体例如：对手写体字符拍摄的照片图像，对打印的字体进行拍照获得图像等。这里的字符图像的具体获得方式，可以是对包括手写体字符进行拍照获得，也可以是从网络上采集获得，从网络上采集获得的方式例如：使用网络爬虫软件从互联网上获取字符图像，这里的文字图像可以为象形文字的字符图像。

文字标签，是指与象形文字对应的分类标签，例如：索引号为CA123的字符图像包含“清”字等等，这里的字符图像中可以包括象形文字，这里的文字图像可以是“清”字，这里的文字标签可以是索引号CA123，也可以是“清”字。

上述的获得多个文字图像和多个文字标签的实施方式例如：对文字进行拍摄获得文字图像，人工识别该文字图像录入文字标签；当然也可以是从互联网上下载获得多个文字图像和多个文字标签，或者是从存储介质上获取已经预先存储的多个文字图像和多个文字标签。当然也可以使用图像增强方法获得多个文字图像，具体例如：对同一个字进行字体改变、背景改变、阴影方向改变和旋转等等操作，均可以生成若干个用来训练的文字图像数据；也可以为了避免纹理对于模型带来的影响，同时引入点阵数据，增加模型的学习难度。

步骤S220：以多个文字图像为训练数据，以多个文字标签为训练标签，对字符识别模型进行训练，获得字符识别模型。

上述的以多个文字图像为训练数据，以多个文字标签为训练标签，对字符识别模型进行训练，获得字符识别模型的实施方式例如：可以使用单个字符图像对字符识别模型进行训练，也可以使用词语图像或者词组图像对字符识别模型进行训练，也可以使用一个语句的图像对字符识别模型进行训练；这里的一个语句也可以是长文本；下面将分别描述这三种情况：

步骤S221：使用多个文字图像中的字符图像对字符识别模型进行训练，获得字符识别模型。

步骤S222：使用多个文字图像中的词语图像对字符识别模型进行训练，获得字符识别模型。

步骤S223：使用多个文字图像中的语句图像对字符识别模型进行训练，获得字符识别模型。

需要说明的是，上述的步骤S221、步骤S222和步骤S223均可以用来训练字符识别模型，即步骤S220可以包括：步骤S221、步骤S222和/或步骤S223，即分为七种情况：步骤S220包括步骤S221、步骤S220包括步骤S222、步骤S220包括步骤S223、步骤S220包括步骤S221和步骤S222、步骤S220包括步骤S222和步骤S223、步骤S220包括步骤S221和步骤S223、步骤S220包括步骤S221至步骤S223。通过上述的方式可以解决训练数据中样本不均衡导致预测正确率下降的问题。在上述的实现过程中，通过获得多个文字图像和多个文字标签；以多个文字图像为训练数据，以多个文字标签为训练标签，对字符识别模型进行训练，获得字符识别模型；从而有效地提高了获得字符识别模型的速度。

请参见图4示出的本申请实施例提供的使用易混淆字符训练模型的示意图；图中的易混淆模型是指使用易混淆字符再次训练上述的字符图像识别模型，图中的门循环单元(Gate Recurrent Unit，GRU)是指循环神经网络的一种神经网络结构；在具体的训练过程中，也可以使用易混淆字符对模型进一步训练，例如可以通过分析输出概率大小，从而获得字符图像中较为难判断的字，如“日”和“曰”、“己”和“已”等等，将其记录到易混淆字符表，并使用模型对易混淆字符表中的数据进行重新训练，该模型输出的仅有易混淆字。在对易混淆字符表中的数据进行重新训练的过程中，可以使用的损失函数例如：Loss＝Loss′+λ||W_CNN||²+δ||θ-θ′||²；其中，Loss为损失函数，Loss′为原始损失函数，即原来模型的损失函数，W_CNN为卷积神经网络的权重参数，θ-θ′是指上一时刻的权重减本时刻的权重，就是权重的变化大小。

在上述的实现过程中，通过使用多个文字图像中的字符图像对字符识别模型进行训练，获得字符识别模型；和/或使用多个文字图像中的词语图像对字符识别模型进行训练，获得字符识别模型；和/或使用多个文字图像中的语句图像对字符识别模型进行训练，获得字符识别模型；从而有效地提高了字符识别模型对易混淆字进行识别的正确率。

请参见图5示出的本申请实施例提供的字符图像识别装置的示意图；本申请实施例提供了一种字符图像识别装置500，包括：

卷积循环模块510，用于使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，字符特征向量表征字符的图像特征，字符结构向量表征字符的结构特征。

转译处理模块520，用于使用字符识别模型的转译层对至少一个字符特征向量和至少一个字符结构向量进行转译处理，获得字符图像的识别结果。

可选地，在本申请实施例中，卷积循环神经网络层包括：卷积神经网络层和循环神经网络层；卷积循环模块，包括：

卷积运算模块，用于使用卷积神经网络层对字符图像进行卷积运算，获得卷积特征图。

循环运算模块，用于使用循环神经网络层对卷积特征图进行循环运算，获得至少一个字符特征向量和至少一个字符结构向量。

可选地，在本申请实施例中，循环神经网络层包括：长短期记忆网络层或者双向长短记忆网络层。

可选地，在本申请实施例中，转译层包括：关联时序分类层和归一化指数层；转译处理模块，包括：

第一计算模块，用于使用关联时序分类层对至少一个字符特征向量和至少一个字符结构向量进行计算，获得一个字符特征向量和一个字符结构向量。

第二计算模块，用于使用归一化指数层对一个字符特征向量和一个字符结构向量进行归一化指数计算，获得字符图像的识别结果。

可选地，在本申请实施例中，转译层包括：注意力层和分类层；转译处理模块，包括：

向量筛选模块，用于使用注意力层对至少一个字符特征向量和至少一个字符结构向量进行筛选，获得一个字符特征向量和一个字符结构向量。

向量分类模块，用于使用分类层对一个字符特征向量和一个字符结构向量进行分类，获得字符图像的识别结果。

可选地，在本申请实施例中，字符图像识别装置还包括：

文字获得模块，用于获得多个文字图像和多个文字标签，文字图像为象形文字的字符图像，文字标签是与象形文字对应的分类标签。

模型训练模块，用于以多个文字图像为训练数据，以多个文字标签为训练标签，对字符识别模型进行训练，获得字符识别模型。

可选地，在本申请实施例中，模型训练模块，包括：

模型训练子模块，用于使用多个文字图像中的字符图像对字符识别模型进行训练，获得字符识别模型；和/或使用多个文字图像中的词语图像对字符识别模型进行训练，获得字符识别模型；和/或使用多个文字图像中的语句图像对字符识别模型进行训练，获得字符识别模型。

应理解的是，该装置与上述的字符图像识别方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备600，包括：处理器610和存储器620，存储器620存储有处理器610可执行的机器可读指令，机器可读指令被处理器610执行时执行如上的方法。

本申请实施例还提供了一种存储介质630，该存储介质630上存储有计算机程序，该计算机程序被处理器610运行时执行如上的字符图像识别方法。

其中，存储介质630可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种字符图像识别方法，其特征在于，包括：

使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，所述字符特征向量表征字符的图像特征，所述字符结构向量表征字符的结构特征；

使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果；

其中，所述转译层包括：注意力层和分类层，所述注意力层包括编码器和解码器；所述使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果，包括：使用所述注意力层中的编码器和解码器去除至少一个字符特征向量和至少一个字符结构向量中的冗余向量或者冗余信息，获得一个字符特征向量和一个字符结构向量；使用所述分类层对所述一个字符特征向量和所述一个字符结构向量进行分类，获得所述字符图像的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述卷积循环神经网络层包括：卷积神经网络层和循环神经网络层；所述使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，包括：

使用所述卷积神经网络层对所述字符图像进行卷积运算，获得卷积特征图；

使用所述循环神经网络层对所述卷积特征图进行循环运算，获得所述至少一个字符特征向量和所述至少一个字符结构向量。

3.根据权利要求2所述的方法，其特征在于，所述循环神经网络层包括：长短期记忆网络层或者双向长短记忆网络层。

4.根据权利要求1所述的方法，其特征在于，还包括：

获得多个文字图像和多个文字标签，所述文字图像为象形文字的字符图像，所述文字标签是与所述象形文字对应的分类标签；

以所述多个文字图像为训练数据，以所述多个文字标签为训练标签，对所述字符识别模型进行训练，获得所述字符识别模型。

5.根据权利要求4所述的方法，其特征在于，所述对所述字符识别模型进行训练，获得所述字符识别模型，包括：

使用所述多个文字图像中的字符图像对所述字符识别模型进行训练，获得所述字符识别模型；和/或

使用所述多个文字图像中的词语图像对所述字符识别模型进行训练，获得所述字符识别模型；和/或

使用所述多个文字图像中的语句图像对所述字符识别模型进行训练，获得所述字符识别模型。

6.一种字符图像识别装置，其特征在于，包括：

卷积循环模块，用于使用预先训练的字符识别模型的卷积循环神经网络层对获得的字符图像进行卷积运算和循环运算，获得至少一个字符特征向量和至少一个字符结构向量，所述字符特征向量表征字符的图像特征，所述字符结构向量表征字符的结构特征；

转译处理模块，用于使用所述字符识别模型的转译层对所述至少一个字符特征向量和所述至少一个字符结构向量进行转译处理，获得所述字符图像的识别结果；

7.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法。

8.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法。