CN114387431A

CN114387431A - 基于语义分析的多行文字纸质表格ocr方法

Info

Publication number: CN114387431A
Application number: CN202210033312.7A
Authority: CN
Inventors: 薛如; 张钰; 李娟�; 严文生
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-22

Abstract

本发明公开了基于语义分析的多行文字纸质表格OCR方法。该方法首先利用针对待数字化的纸质表格图像进行单元格划分，然后通过神经网络识别表格中的文字内容。基于语义通顺度计算，判断识别结果是否准确。对于出现乱序的错误识别结果，首先通过投影法提取原始单元格内文字的行数与列数，然后构建一个矩阵，将错误识别结果依次填入该矩阵中，然后对该矩阵进行转置操作，再按序输出文字，即可获得正序的识别结果。本方法可以实现纸质表格内多行文字识别按行/按列识别乱序情况下的自动判断与调整。减少人工校对带来的工作量，提高OCR智能化程度。

Description

基于语义分析的多行文字纸质表格OCR方法

技术领域

本发明属于模式识别技术领域，具体涉及基于语义分析的多行文字纸质表格OCR方法。

背景技术

纸质表格储存着大量重要信息。随着科学技术的不断发展，某些领域内的纸质表格数字化已成为必然趋势，例如干部档案、公司员工档案等，将这些表格数据进行数字化，有益于优化管理。纸质表格数字化的主要方法是运用OCR进行识别，OCR全称光学字符识别，它是指将图片文字输入到计算机转化为可编辑文本的一个过程。OCR识别纸质表格信息的准确率往往取决于表格框线的复杂性，表格越简单，其内容识别准确率就越高；表格越复杂，其内容识别准确率就越低。现阶段表格内文字识别主要步骤包括：首先，对图像进行预处理，即灰度化、二值化等处理；其次，根据表格横线和竖线的交点坐标，提取表格内的每一个单元格；最后，对每一个单元格进行文字识别，输出结果。但是，在最后一步，对表格内的多行文字进行识别时，会出现多行文字按行/按列识别乱序的问题，而该问题一直尚未解决。

多行文字按行/按列识别乱序是指识别多行文字时，当正确的识别顺序为按列识别文字时，最后输出结果却是按行识别的结果，导致了识别结果乱序的问题。现有技术大多通过人工比对识别结果与纸质文件中的表格内容来判断结果是否乱序，然后再将识别结果中乱序的部分手动调整为正序。然而该过程会花费大量的时间和精力。

语言模型可以用于计算语义通顺度，通过判断一句话是否符合我们日常的表达习惯，从而判断识别结果的顺序是否正确。语义通顺度计算常用方法有N-gram语言模型和基于神经网络的语言模型。基于机器学习的N-gram模型运用极大似然估计的思想，根据词语在语料库中出现的次数和该词语与它前面一个或者几个词的关联度来计算句子的概率。此方法容易训练且可解释性强，但是它无法与其距离很长的词语建立联系且泛化能力很弱。而基于神经网络的语言模型将句中每个词语设为向量的形式，即一个向量代表一个词语；然后将词向量输入构建的神经网络模型中，根据该词与上下文之间的关系，通过损失函数的梯度下降法得到每个词语最佳向量表达形式，相似词语训练所得词向量更为接近。此方法可避免N-gram语言模型的缺点，泛化性更强，句子概率计算结果更为准确。然而在通过语言模型获得判断结果后，尚未有自动调整语序的方法出现。

发明内容

针对现有技术中对表格内多行文字按行/按列识别乱序且无法自动调整的问题，本发明提出了基于语义分析的多行文字纸质表格OCR方法，结合语义通顺度计算，通过矩阵对乱序文字进行换序处理。

基于语义分析的多行文字纸质表格OCR方法，具体步骤如下：

步骤一、输入待数字化的表格图像，提取图像中的单元格，利用神经网络，通过训练好的字库对图像中每个单元格内的文字进行识别，输出识别结果。

步骤二、使用bengio语言模型对步骤一输出的识别结果进行语义通顺度计算。

步骤三、将步骤二的计算结果与设定阈值进行比较，若计算得到的语义通顺度大于设定阈值，则判断识别结果的语序正确；若计算得到的语义通顺度小于设定阈值，则判断识别结果的语序错误。

作为优选，判断识别结果语序是否正确的阈值设定为0.1。

步骤四、若步骤三判断识别结果的语序正确，则直接输出识别结果；若步骤三判断识别结果的语序错误，则进入步骤五。

步骤五、分别运用水平投影和垂直投影的方法，对步骤一提取的单元格内文字的行数与列数的进行判断。水平投影法是将单元格中每行的黑色像素点个数相加，连续几行黑色像素点的总和不为0则构成了一行文字；若出现一行黑色像素点为0，则表明这一行没有文字。依此，来判断文字的行数。垂直投影法则是将单元格中每列的黑色像素点个数相加，连续几列黑色像素点总和不为0则构成了一列文字；若出现一列黑色像素点为0，则表明这一列没有文字。依此，来判断文字列数。

步骤六、根据步骤五得到的文字行数与列数构造矩阵，矩阵行数和列数分别与单元格内文字的行数和列数相等。然后将步骤四识别的文字依次填入矩阵的行中，最后按照矩阵的列的顺序输出文字，完成乱序文字的自动调整。

本发明的有益效果：

本发明针对纸质表格内多行文字识别按行/按列识别乱序的问题，进行了改进，通过对识别结果进行语义分析，判断句子的通顺度，若识别结果不符合中文正确的逻辑表达，将句子顺序改为正确的逻辑顺序，可进一步提高OCR印刷体识别的正确率。

附图说明

图1为单元格中文字提取的流程图；

图2为实施例中提取到的单元格示意图；

图3为实施例中水平投影和垂直投影的示意图；

图4为实施例中通过矩阵换序后的结果示意图。

具体实施方式

以下结合附图对本发明作进一步解释说明；

本实施例针对纸质干部档案中的表格进行数字化处理，输入图像选取纸质表格的扫描图像，此类型图像更为清晰，不容易产生噪声干扰。

基于语义分析的多行文字纸质表格OCR方法，具体步骤如下：

步骤一、如图1所示，输入扫描得到的干部档案图像，对其中的表格部分进行图像预处理，包括灰度化和二值化处理。

步骤二、对步骤一预处理后的表格图像进行单元格提取。首先通过膨胀、腐蚀等操作提取表格的横线与竖线，然后将横线与竖线相交得到其交点坐标；其次，根据坐标点确定表格内每个单元格四个顶点的坐标信息，由此来提取得到表格内的每个单元格，提取得到的单元格如图2所示。

步骤三、通过CNN+LSTM的神经网络对汉字数据集进行训练，得到字库；接着通过训练好的字库对每个单元格内的内容进行识别，输出识别结果为“政治面貌”或“政面治貌”。

步骤四、选择经典的bengio语言模型对步骤三输出的识别结果进行语义通顺度计算，所述bengio语言模型包含输入层、带有tanh激活函数的全连接层和带有softmax激活函数的输出层。

①设识别结果中的词语ω_t只与其前n-1个词语ω_t-1、ω_t-2…ω_t-n+1关联,则词语ω_t的概率

②将词语ω_t前的n-1个词语代表的词向量C(ω_t-n+1)…C(ω_t-1)输入神经网络的输入层，得到未经归一化后的概率y：

y＝W·x+U·tanh(d+H·x)+b

x＝(C(ω_t-1),C(ω_t-2),…,C(ω_t-n+1))

其中，x为输入，表示识别结果中选定词ω_t的前n-1个词语代表的词向量。W为输入层权重矩阵，可设置为0。d和H分别为隐藏层的偏置向量和权重矩阵，tanh为隐藏层的激活函数。U为隐藏层到输出层的权重矩阵，b为输出层偏置向量。

③损失函数L：

θ＝(H、U、W、d、b)

其中，R(θ)防止过拟合，θ为第②步中y里的权重参数和偏置。

④运用梯度下降法及步骤③给定的损失函数，根据以下公式将θ中含有的参数进行不断更新。

其中，η为迭代次数，也称学习率。

⑤最后经过输出层得前n-1个词为ω_t-n+1…ω_t-1接下来词为ω_t的归一化概率为：

其中，y_ωi归一化前下一个词为ω_i的概率，由步骤②中的y计算。

步骤五、使用步骤四原理中计算的概率表示识别结果的通顺度，概率越大则说明该句子越符合正确的语序。在[0,1]的范围内，选择一个阈值，通过识别结果的通顺度与该阈值进行比较，判断识别结果的语序是否正确，本实施例中设定该阈值的大小为0.1。若计算得到的语义通顺度大于设定阈值，则判断识别结果的语序正确；若计算得到的语义通顺度小于设定阈值，则判断识别结果的语序错误。

步骤六、经过步骤五后，判断识别结果“政治面貌”的语序正确，直接输出识别结果；而识别结果“政面治貌”的语序错误，进入步骤七。

步骤七、分别运用水平投影和垂直投影的方法，对如图2所示单元格内文字的行数与列数进行判断。水平投影法是将单元格中每行的黑色像素点个数相加，连续几行黑色像素点的总和不为0则构成了一行文字；若出现一行黑色像素点为0，则表明这一行没有文字。依此，来判断文字的行数。垂直投影法则是将单元格中每列的黑色像素点个数相加，连续几列黑色像素点总和不为0则构成了一列文字；若出现一列黑色像素点为0，则表明这一列没有文字。依此，来判断文字列数。投影结果如图3所示。

步骤八、根据步骤七的投影结果，得到单元格内的文字行数与列数分别为2行和2列，构造一个大小为2x2的矩阵。然后将步骤四识别的文字“政面治貌”依次填入矩阵的行中，最后按照矩阵的列的顺序输出文字，完成乱序文字的自动调整，如图4所示。

Claims

1.基于语义分析的多行文字纸质表格OCR方法，其特征在于：具体包括以下步骤：

步骤一、输入待数字化的表格图像，提取图像中的单元格，利用神经网络，通过训练好的字库对图像中每个单元格内的文字进行识别，输出识别结果；

步骤二、使用bengio语言模型对步骤一输出的识别结果进行语义通顺度计算；

步骤三、将步骤二的计算结果与设定阈值进行比较，若计算得到的语义通顺度大于设定阈值，则判断识别结果的语序正确；若计算得到的语义通顺度小于设定阈值，则判断识别结果的语序错误；

步骤四、若步骤三中判断识别结果的语序正确，则直接输出识别结果；若步骤三判断识别结果的语序错误，则进入步骤五；

步骤五、分别运用水平投影和垂直投影的方法，对步骤一提取的单元格内文字的行数与列数进行判断；

步骤六、根据步骤五得到的文字行数与列数构造矩阵，矩阵行数和列数分别与单元格内文字的行数和列数相等；然后将步骤四识别的文字依次填入矩阵的行中，最后按照矩阵的列的顺序输出文字，完成乱序文字的自动调整。

2.如权利要求1所述基于语义分析的多行文字纸质表格OCR方法，其特征在于：步骤一具体包括以下步骤：

s1.1、对待数字化的表格图像进行灰度化和二值化处理；

s1.2、通过膨胀、腐蚀操作提取预处理后的表格图像中的线条，得到线条的交点坐标，再根据交点坐标确定表格图像中每个单元格的四个顶点的坐标，完成单元格的提取；

s1.3、通过神经网络对汉字数据集进行训练，得到字库；再根据字库对每个单元格内的内容进行识别，输出识别结果。

3.如权利要求1所述基于语义分析的多行文字纸质表格OCR方法，其特征在于：假设识别结果中的词语ω_t只与其前n-1个词语ω_t-1、ω_t-2…ω_t-n+1关联；通过bengio语言模型计算识别结果中前n-1个词语为ω_t-1、ω_t-2…ω_t-n+1时接下来词语为ω_t的概率，作为语义通顺度。

4.如权利要求1所述基于语义分析的多行文字纸质表格OCR方法，其特征在于：步骤三中判断识别结果语序是否正确的阈值设定为0.1。

5.如权利要求1所述基于语义分析的多行文字纸质表格OCR方法，其特征在于：所述水平投影法是将单元格中每行的黑色像素点个数相加，连续几行黑色像素点的总和不为0则构成了一行文字；若出现一行黑色像素点为0，则表明这一行没有文字；依此，来判断文字的行数；垂直投影法则是将单元格中每列的黑色像素点个数相加，连续几列黑色像素点总和不为0则构成了一列文字；若出现一列黑色像素点为0，则表明这一列没有文字；依此，来判断文字列数。