CN116071759B

CN116071759B - 一种融合gpt2预训练大模型的光学字符识别方法

Info

Publication number: CN116071759B
Application number: CN202310202217.XA
Authority: CN
Inventors: 刘学亮; 汪萌
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Anhui Yunxi Quantum Technology Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-18
Anticipated expiration: 2043-03-06
Also published as: CN116071759A

Abstract

本发明涉及计算机视觉技术领域，公开了一种融合GPT2预训练大模型的光学字符识别方法，将待识别的文本图像输入到光学字符识别模型，得到与文本图像对应的文本；光学字符识别模型的训练方法包括：对文本数据进行预处理后，将文本转化为文本图像，对文本图像进行数据增广，得到文本图像数据集；抽取文本图像的特征矢量：将特征矢量输入到基于预训练的GPT‑2模型的文本解码模块，预测生成相应的文本；将GPT‑2模型的参数冻结，利用CTC损失函数优化文本图像编码模块的参数，再对光学字符识别模型的参数进行微调；本发明能够利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。

Description

一种融合GPT2预训练大模型的光学字符识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种融合GPT2预训练大模型的光学字符识别方法。

背景技术

光学字符识别是利用光学技术和计算机视觉技术把文本图像转换为机器可读文本格式的过程，它是计算机视觉领域的重要应用方向之一。目前常用的光学字符识别算法是把文本图像采用深度神经网络算法的进行编码，再通过分类模块将每个字符的编码预测出来。尽管在文本编码过程算法会引入LSTM、transformer等模型来对字符图像之间的关系进行建模，但是这些算法并没有对字符文本之间的相关性进行充分地考虑，只是单纯地通过识别每个单字符以实现对文本图像的整体识别。然而，在中文自然语言处理中，一段文本中每个字符之间有较强的相关性。比如，“徽”和“微”是OCR容易识别错误的字，但是，“安徽”这个词出现的概率会远远大于“安微”，通过对字符相关性进行建模，就会大大地减少将“安徽”识别成“安微”的概率。

本发明提出一种基于GPT2预训练大模型的光学字符识别方法，能够利用GPT2对于文本相关性的建模能力提高OCR识别的准确率。

发明内容

为解决上述技术问题，本发明提供一种融合GPT2预训练大模型的光学字符识别方法。

为解决上述技术问题，本发明采用如下技术方案：

一种融合GPT2预训练大模型的光学字符识别方法，将待识别的文本图像输入到光学字符识别模型，得到与文本图像对应的文本；

光学字符识别模型的训练方法包括以下步骤：

步骤一：对收集的文本数据进行预处理后，将文本转化为文本图像，对文本图像进行数据增广，得到文本图像数据集，/>为通过文本/>生成的文本图像，n为文本图像数据集中文本图像的个数；

步骤二、通过文本图像编码模块抽取文本图像的特征矢量：

对文本图像进行特征提取，得到文本图像特征表示；通过长短期记忆人工神经网络对文本图像特征表示进行序列建模，输出与文本图像特征表示具有相同特征维度的文本图像潜在特征，利用多层感知器网络将文本图像潜在特征映射为特征矢量；

步骤三：将特征矢量输入到基于预训练的GPT-2模型的文本解码模块，预测生成相应的文本；

步骤四：将GPT-2模型的参数冻结，利用CTC损失函数优化文本图像编码模块的参数，即最小化目标函数：

；

通过最小化目标函数，对光学字符识别模型的参数进行微调：

；

其中，为CTC损失函数，/>为平衡参数，/>表示条件概率。

具体地，每个文本为一个句子；步骤一中对文本进行预处理时，将句子的字符数设定为固定值N；如果句子长度大于N个字符，则仅保留句子中的前N个字符；如果句子长度小于N个字符，则在句子后用空格填充，使句子长度达到N个字符。

具体地，文本图像编码模块包括文本特征提取模块、图像序列建模模块和特征映射模块；

以网络模型ResNet-18为基础构建文本特征提取模块，通过文本特征提取模块对文本图像进行特征提取，生成文本图像特征表示；

图像序列建模模块利用长短期记忆人工神经网络对文本图像特征表示进行序列建模，输出与文本图像特征表示具有相同特征维度的文本图像潜在特征；

特征映射模块利用两层的多层感知器网络，将序列建模后的文本图像潜在特征映射为特征矢量。

具体地，文本解码模块采用预训练的GPT-2-small模型，然后通过文本图像数据集对GPT-2-small模型进行微调，具体包括：

文档分词：利用BPE分词算法对数据集中的每个文本/>进行分词，得到文本数据集/>，其中，每个文本/>为一个由词向量构成的句子，/>，/>表示文本/>中的第/>个单词，/>表示文本/>中的单词总数；

GPT-2-small模型的参数通过优化目标函数/>进行求解：

；

其中，表示采用GPT-2-small模型对/>进行建模的条件概率。

与现有技术相比，本发明的有益技术效果是：

本发明中光学字符识别方法，并非单纯地通过识别每个单字符以实现对文本图像的识别，而是对文本图像特征表示进行序列建模，并利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。

附图说明

图1为本发明光学字符识别方法的流程图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

一种融合GPT2预训练大模型的光学字符识别方法，将待识别的文本图像输入到光学字符识别模型，能够得到与文本图像对应的文本。

光学字符识别模型的训练方法，包括以下步骤：

S1、文本图像数据集构建：

S11：文本数据收集。每个文本是一个句子，句子长度固定为100个中文字符，长度超过100个字符的句子保留前面100个中文字符，长度不足100个字符的句子采用空格进行填充。

S12：用文图转换工具将步骤S11得到的文本数据，基于文档常用的宋体、仿宋、黑体等字体，转化成文本图像。每个字符大小固定为32像素×32像素，相应的，每个句子图像大小为32像素×3200像素。

S13：对步骤S12中得到的文本图像，利用高斯噪声、椒盐噪声、形态学操作等方法，进行数据增广。增广后的文本图像数据集记为，其中/>为文本生成的图像，/>为相应的文本。

S2：文本图像编码模块实现从文本图像抽取特征矢量的过程。文本图像编码模块包括文本特征提取模块、图像序列建模模块和特征映射模块。

文本特征提取模块：以文本图像为输入，生成文本图像特征表示。文本特征提取模块以经典网络模型ResNet-18为基础，为了适应文本图像具有固定高度特点，将ResNet-18中池化操作水平方向的步长设置2、垂直方向的步长设置为1。将文本图像输入文本特征提取模块，得到固定长度的文本图像特征表示。

图像序列建模模块：考虑到文本图像内容为一个文本序列，本发明利用长短期记忆人工神经网络（LSTM）对文本图像特征表示进行建模，以便有效利用字符之间的联系，从而提高识别的准确率。将文本特征提取模块得到的文本图像特征表示变形为[200，512]，即一个长度为200的512维矢量，作为LSTM模型的输入，输出文本图像潜在特征，文本图像潜在特征的向量维度和输入的向量维度相同。

特征映射模块：该模块实现将序列建模后得到的文本图像潜在特征，映射为步骤S3中文本解码模块的输入的过程。特征映射模块利用两层的多层感知器网络，将文本图像潜在特征映射为200×768维度的特征矢量。

S3：将特征矢量输入到基于GPT-2模型的文本解码模块，预测生成相应的文本。

S31：本实施例中，文本解码模块采用GPT-2-small模型，GPT-2-small模型为12个transformer层搭建的神经网络解码器。GPT-2-small模型是GPT-2模型的一个小型版本，具有约357万个参数，比GPT-2模型小约8倍。GPT-2-small模型的网络结构是一个多层的双向循环神经网络，每层都包含一个多头注意力机制，用于捕捉长度较长的依赖关系，可以用来处理各种自然语言处理任务，如语言建模、文本生成、机器翻译等。

S32：GPT-2-small模型参数较多，难以从头进行训练。为了使得GPT-2-small模型在文本图像数据集上得到较好性能，需要利用文本图像数据集/>对GPT-2-small模型进行微调。将预训练模型导入GPT-2-small模型完成模型的初始化，然后利用步骤S11收集的文本数据，对GPT-2-small模型进行微调，以便GPT-2-small模型更好的拟合步骤S11中的文本数据。

主要包括以下两个步骤：

S321、文档分词：利用BPE分词算法对文本图像数据集中的每个文本进行分词；最后得到文本数据集/>，其中，每个文本/>为一个由词向量构成的句子，，/>表示文本/>中的第/>个单词，/>表示文本/>中的单词总数。

S322：GPT-2-small模型的参数通过优化目标函数/>进行求解：

；

其中，为GPT-2-small模型的的参数，/>表示采用GPT-2-small模型对/>进行建模的条件概率。

S4、模型整体训练：

对于给定的文本图像数据集，光学字符识别模型的最终目标为将文本图像/>，解码为相应的文本/>，该过程可以等价于最大化以下目标函数：

；（1）

考虑到GPT-2-small模型已经进行过预训练，优化式（1）中的目标函数，分两步进行：

将GPT-2-small模型的参数冻结，对于输入图像，利用文本图像编码模块提取特征，并输入GPT-2-small模型，记其输出为/>，利用CTC损失函数优化文本图像编码模块的参数，即最小化如下目标函数：

；

为了获得更好的分类准确率，对经过目标函数调整过的光学字符识别模型进行微调，即最小化如下目标函数：

；

用来平衡两个损失，优化过程中，/>。

对于待识别的文本图像，将其大小缩放为32像素×3200像素，输入训练好的光学字符识别模型，即可得到相应的文本。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种融合GPT2预训练大模型的光学字符识别方法，将待识别的文本图像输入到光学字符识别模型，得到与文本图像对应的文本；

光学字符识别模型的训练方法包括以下步骤：

步骤二、通过文本图像编码模块抽取文本图像的特征矢量：

；

其中，为CTC损失函数，/>为平衡参数，/>表示条件概率。

2.根据权利要求1所述的融合GPT2预训练大模型的光学字符识别方法，其特征在于，每个文本为一个句子；步骤一中对文本进行预处理时，将句子的字符数设定为固定值N；如果句子长度大于N个字符，则仅保留句子中的前N个字符；如果句子长度小于N个字符，则在句子后用空格填充，使句子长度达到N个字符。

3.根据权利要求1所述的融合GPT2预训练大模型的光学字符识别方法，其特征在于，文本图像编码模块包括文本特征提取模块、图像序列建模模块和特征映射模块；

4.根据权利要求1所述的融合GPT2预训练大模型的光学字符识别方法，其特征在于，文本解码模块采用预训练的GPT-2-small模型，然后通过文本图像数据集对GPT-2-small模型进行微调，具体包括：

文档分词：利用BPE分词算法对数据集中的每个文本/>进行分词，得到文本数据集，其中，每个文本/>为一个由词向量构成的句子，/>，/>表示文本/>中的第/>个单词，/>表示文本/>中的单词总数；

GPT-2-small模型的参数通过优化目标函数/>进行求解：

；

其中，表示采用GPT-2-small模型对/>进行建模的条件概率。