CN112434686A

CN112434686A - 针对ocr图片的端到端含错文本分类识别仪

Info

Publication number: CN112434686A
Application number: CN202011280156.1A
Authority: CN
Inventors: 刘兴高; 陈欣杰; 王文海; 张泽银; 张志猛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-02
Anticipated expiration: 2040-11-16
Also published as: CN112434686B

Abstract

本发明公开了针对OCR图片的端到端含错文本分类识别仪，用于对OCR图片中存在文字识别错误的信息实现端到端的纠错并分类，包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。本发明为了克服已有的OCR图片识别文字和含错文本分类系统相互独立、需要多阶段分步识别纠错并推理类别的缺点，通过结合高效、高精度且可学习的信息蒸馏模块，以及可以充分利用大量历史数据、可拓展性强的文本纠错模块和文本分类模块，建立了针对OCR图片含错文本分类问题的兼具精度和效率的端到端分类系统，能够很好地利用OCR信息实现具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。

Description

针对OCR图片的端到端含错文本分类识别仪

技术领域

本发明涉及OCR图片转文字、文本纠错与文本识别领域，具体是针对OCR图片的端到端含错文本分类识别仪。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术，将图片、照片、电子传真等图像上的文字内容识别提取转换为可编辑文本，通过扫描仪、照相机、电子传真机等设备获取并保存图像文件，然后通过OCR软件读取、分析图像文件并通过字符识别提取字符串。

当前研究中，对OCR图片转化为可识别文本与将可识别文本进行纠错和分类，几乎是相互独立的。尽管国外在文本分类识别方面已有一定进展，并且对含错文本纠正也提出了一些方法，但仍然没有形成专门针对从OCR识别获得的含错文本中识别分类文字的成熟技术体系。同时，在文本分类问题本身，也有文本数据总量巨大、复杂多变、种类繁多、无效信息多等特点；当前主流的OCR识别方法识别输出成功率并不理想，难以广泛应用于实际业务生产环境中，且OCR提取文字的方法与与文本分类任务过于割裂，不具有任何泛化性。当前国内外并无直接针对OCR图片的含错文本分类相关研究，而是需要将OCR获取的文字输入额外的模型来进一步实现文本分类。

发明内容

为了克服目前针对OCR图片的含错文本分类步骤繁琐、识别精度低、系统冗余的不足，本发明的目的在于提供一种端到端的针对含错文本的分类识别仪，其精度高、推理速度快、一旦训练完成后系统极为轻量，且还能够基于新的数据实现在线校正，是具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。

本发明解决其技术问题所采用的技术方案是：针对OCR图片的端到端含错文本分类识别仪，包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块，其中：

OCR信息提取模块，利用传统OCR技术，通过图像处理和统计机器学习方法从图像中提取文本信息，包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段：图像准备、文本识别和后处理：

(1)在图像准备预处理阶段，利用连通区域分析方法实现文字区域定位；在此基础上，通过非线性以及线性变换实现文字矫正，矫正完成后可获得相比初始时更易于读取的字符段；进一步的，通过Canny、Sobel以及Laplace滤波方法实现噪声的过滤，获取对应文字。

(2)在文字识别阶段，利用相关向量机分类器实现识别分类，在相关向量机中，假设y符合高斯分布，将高斯核函数

应用到y(x)，其中y_c为y的估计值，κ为函数的宽度参数，可以得到似然估计函数：

其中t＝(t₁,t₂...t_N)^T，w＝(w₁,w₂...wT_N)，w表示权重系数，t表示分类类别共N类，P表示概率结果、x为输入数据、y为输出数据，下标i表示第i个数据，上标T表示矩阵的转置；

在相关向量机中，权值w可以通过极大似然估计来确定，但是为了防止过拟合，通过高斯先验概率分布来约束参数：

其中，α是N+1维超参数，该值的引入导致了系统的稀疏性；w_i表示当前维度的权值，

表示第i维度的超参数的倒数；

根据先验概率和贝叶斯定理，应用拉普拉斯原理计算出近似的后验概率：

(2.1)由于p(w|t,α)∝p(t|w)p(w|α)，对当前固定的α值求出最大可能的权值w_MP，采用二阶牛顿法求得w_MP；

其中，y_n＝σ{y(x_n；w)}，A＝diag(α₀,α₁,...α_N)；t_n表示对应维度n的权重系数；

(2.2)利用拉普拉斯方法，将对数后验概率进行二次逼近，将上式进行两次求导得到：

其中，Φ＝[φ(x₁),φ(x₂)...φ(x_N)]^T是由多个核函数构成的一个N×(N+1)维度的结构矩阵，并且φ(x_i)＝[1,K(x_i,x₁),K(x_i,x₂),...,K(x_i,x_N)]^T。B＝diag(β₁,β₂,..β_N)是一个对角矩阵，并且β_i＝σ{y(x_i)}[1-σ(x_i)]。对上式右边取负号再求逆矩阵，即可得到协方差矩阵Σ。

(2.3)利用w_MP和∑，对超参数α进行更新，更新公式如下：

其中，γ_i≡1-α_i∑_ii；

最终，可以得到后验协方差为：

∑＝(Φ^TBΦ+A)^-1

w_MP＝∑Φ^TBt (7)

其中∑是后验协方差；

相关向量机通过引入贝叶斯框架使得系统更加具有稀疏性；该系统的泛化性能较好，推理时间极短，能够很好的对文字进行识别分类。

(3)在后处理阶段，针对对应场景下的图片，根据场景特点建立规则并利用语言模型实现一定程度的修正；

含错文本纠错模块：输入由信息提取模块抽取的文字序列，基于错误检测、候选召回、候选排序三步实现文本纠错，具体如下：

(1)利用基于深度学习的序列标注模型，在错误检测时，充分利用大量的无监督预料所构建的预训练语言模型，再通过由错误句子到正确句子(对齐语料)实现有监督学习该序列标注模型；

(2)进一步的，在候选召回部分，利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典，先利用字、音混淆字典初步召回候选，然后再利用词级别混淆字典和语言模型二次筛选候选，从而形成最终候选；

(3)候选排序则是利用上下文神经网络特征和人工提取的形音、词法、语义特征一起训练排序模型，最终输出纠错后的文字序列；

文本分类模块：基于TextRnn模型的文本分类模块；

(1)输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量，单句词数设置为500，单个词语嵌入维度为100。针对不同长度的文本，通过补齐与截断实现每句等长；

(2)Bi-LSTM层中，令输出维度为128维向量，即最后一个词语的隐状态作为最终使用的隐向量，可以看做是包含了前面所有词语的信息。

(3)全连接层使用softmax作为激活函数进行输出文本分类结果；

所述信息蒸馏模块：输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片。主体部分采用CNN模型：其输入为含有文字的待分类图片，标签为文本分类模块softmax层输出的的软分类结果，损失函数设计如下：

软标签交叉熵算法：

Loss＝output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)

每个样本对应类别j的软标签值:

output[i1,i2,...,ik]＝-∑jlabel[i1,i2,...,ik,j]*log(input[i1,i2,...,ik,j]) (9)

其中参数k为类别数,j为当前类别，ik为对应类别所产生的损失，output为所有类别输出的列表，label为文本分类模块标签输出的标签列表，input为CNN模型softmax层输出的软标签列表。通过该损失函数实现对信息蒸馏模块的优化，其通过识别含文字图片，输出为含文字图片中文字对应的类别。

本发明的技术构思为：通过跨模态知识蒸馏的方法，将传统方法中相互独立的OCR识别模块与文本纠错分类模块融合，并通过具有视觉特征和能表征高维语义特征的CNN网络进行知识蒸馏，建立起针对OCR图片的端到端含错文本分类识别仪。其能够实现OCR图片中的文字端到端分类，增强系统集成性的同时保持轻量与快速，满足各个场景下的部署要求。

本发明的有益效果主要表现在：克服了现有OCR识别文字和文本纠错分类任务过于割裂独立的不足，本发明新颖的识别仪实现了端到端的快速、轻量且集成度高的OCR含错文本分类目标，使得基于该分类识别仪的OCR图片分类场景能够快速精准的识别OCR图片的类别，且训练完成后模型轻量，方便各个场景部署。

附图说明

图1是针对OCR图片的端到端含错文本分类识别仪的流程图；

图2是含错文本纠错模块流程图。

具体实施方式

下面根据附图具体说明本发明。

参照图1，针对OCR图片的端到端含错文本分类识别仪，包括信息提取模块1，含错文本纠错模块2，文本分类模块3，信息蒸馏模块4。所述各部分按序号依次连接。

所述信息提取模块1：包括：利用传统OCR技术，通过图像处理和统计机器学习方法从图像中提取文本信息，包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段：图像准备、文本识别和后处理：

表示第i维度的超参数的倒数。

(2.3)利用w_MP和∑，对超参数α进行更新，更新公式如下：

其中，γ_i≡1-α_i∑_ii；

最终，可以得到后验协方差为：

∑＝(Φ^TBΦ+A)^-1

w_MP＝∑Φ^TBt (7)

其中∑是后验协方差。

(3)在后处理阶段，针对对应场景下的图片，根据场景特点建立规则并利用语言模型实现一定程度的修正。

所述含错文本纠错模块2实现步骤如下：

(1)利用基于深度学习的序列标注模型，在错误检测5时，充分利用大量的无监督预料所构建的预训练语言模型，再通过由错误句子到正确句子(对齐语料)实现有监督学习该序列标注模型；

(2)进一步的，在候选召回6部分，利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典，先利用字、音混淆字典初步召回候选，然后再利用词级别混淆字典和语言模型二次筛选候选，从而形成最终候选；

(3)候选排序7则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型，最终输出纠错后的文字序列；

所述文本分类模块基于TextRnn模型，其具体实现步骤如下：

(3)全连接层使用softmax作为激活函数进行输出文本分类结果。

所述信息蒸馏模块1：

(1)输入文本分类模块3softmax层输出的的软分类结果以及含有文字的待分类图片。

(2)主体部分的CNN模型其输入为含有文字的待分类图片，标签为文本分类模块softmax层输出的的软分类结果，损失函数设计如下：

软标签交叉熵算法：

Loss＝output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)

每个样本对应类别j的软标签值:

output[i1,i2,...,ik]＝-∑jlabel[i1,i2,...,ik,j]×log(input[i1,i2,...,ik,j]) (9)

其中参数k为类别数,j为当前类别，ik为对应类别所产生的损失，output为所有类别输出的损失向量，label为文本分类模块标签输出的标签列表，input为CNN模型softmax层输出的软标签列表。

(3)通过软标签交叉熵损失函数实现对信息蒸馏模块的优化，其通过识别含文字图片，输出为含文字图片中文字对应的类别。

参照图2，其错误检测5、候选召回6、候选排序7依次连接，构成含错文本纠错模块2。

训练阶段：当带有标签的OCR图片输入到本含错文本分类识别仪时，先经过信息提取模块1、含错文本纠错模块2、文本分类模块3后输出对应软标签向量，将软标签向量与带有标签的OCR图片输入到信息蒸馏模块中，其中OCR图片为输入，软标签向量为标签。推理阶段：当待分类的OCR图片输入到本含错文本分类识别仪时，信息蒸馏模块4输出OCR图片分类结果。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种针对OCR图片的端到端含错文本分类识别仪，其特征在于：包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。所述OCR信息提取模块、含错文本纠错模块、文本分类模块依次连接，所述信息蒸馏模块与文本分类模块相连接；所述的信息提取模块将OCR图片信息数据作为输入，输出文本信息，并通过含错文本纠错模块输出经过纠正的文本信息，后通过所述文本分类模块输出文本高维特征和分类概率分布，计算出当前分类结果的同时将文本高维特征和分类概率分布输入信息蒸馏模块；所述信息蒸馏模块通过输入的OCR图片与分类软标签向量进行训练，最终实现端到端的推理。

2.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪，其特征在于：所述OCR信息提取模块利用传统OCR技术，通过图像处理和统计机器学习方法从图像中提取文本信息，分为三个阶段：图像准备、文本识别和后处理。在图像准备预处理阶段，利用连通区域分析方法实现文字区域定位；在此基础上，通过非线性以及线性变换实现文字矫正，矫正完成后可获得相比初始时更易于读取的字符段；在文字识别阶段，利用相关向量机分类器实现识别分类，在相关向量机中，采用高斯核函数

其中y_c为y的估计值，κ为高斯核函数的宽度参数，可以得到似然估计函数：

表示第i维度的超参数的倒数；

(1)由于p(w|t,α)∝p(t|w)p(w|α)，对当前固定的α值求出最大可能的权值w_MP，采用二阶牛顿法求得w_MP；

(2)利用拉普拉斯方法，将对数后验概率进行二次逼近，将上式进行两次求导得到：

(3)利用w_MP和∑，对超参数α进行更新，更新公式如下：

其中，γ_i≡1-α_i∑_ii；

最终，可以得到后验协方差为：

∑＝(Φ^TBΦ+A)^-1

w_MP＝∑Φ^TBt (7)

其中∑是后验协方差。

3.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪，其特征在于：所述含错文本纠错模块：输入由信息提取模块抽取的文字序列，基于错误检测、候选召回、候选排序三步实现文本纠错，具体如下：

利用基于深度学习的序列标注模型，在错误检测时，充分利用大量的无监督预料所构建的预训练语言模型，再通过由错误句子到正确句子，即对齐语料，实现有监督学习该序列标注模型；

在候选召回部分，利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典，先利用字、音混淆字典初步召回候选，然后再利用词级别混淆字典和语言模型二次筛选候选，从而形成最终候选；

而候选排序则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型，最终输出纠错后的文字序列。

4.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪，其特征在于：所述文本分类模块：输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量，单句词数设置为500，单个词语嵌入维度为100。针对不同长度的文本，通过补齐与截断实现每句等长；Bi-LSTM层中，令输出维度为128维向量，即最后一个词语的隐状态作为最终使用的隐向量，可以看做是包含了前面所有词语的信息；最后全连接层使用softmax作为激活函数进行输出文本分类结果。

5.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪，其特征在于：所述信息蒸馏模块，输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片。主体部分采用CNN模型：其输入为含有文字的待分类图片，标签为文本分类模块softmax层输出的的软分类结果，损失函数设计如下：

软标签交叉熵算法：

Loss＝output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)

每个样本对应类别j的软标签值：

其中参数k为类别数,j为当前类别，ik为对应类别所产生的损失，output为所有类别输出的列表，label为文本分类模块标签输出的标签列表，input为CNN模型softmax层输出的软标签列表。通过该损失函数实现对信息蒸馏模块的优化，其通过识别含文字图片，输出为含文字图片中文字对应的类别；

所述信息蒸馏模块在推理阶段：输入为待分类的含文字图片，通过信息蒸馏模块中训练好的CNN模型后，即可输出对应含文字图片的分类类别。