CN105046253A

CN105046253A - 一种基于ocr的论文封皮自动识别系统及方法

Info

Publication number: CN105046253A
Application number: CN201510354849.3A
Authority: CN
Inventors: 张惠斌; 王长征; 赵正桥; 蔡彩云; 刘文晓
Original assignee: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Current assignee: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2015-11-11
Anticipated expiration: 2035-06-24
Also published as: CN105046253B

Abstract

本发明公开了一种基于OCR的论文封皮自动识别系统，模板设计模块，设计封皮模板并提供信息给模块；图像处理模块，通过OCR对图像进行彩色二值化、去黑边、纠偏处理；字符数据采集模块，利用OCR提取封皮字的信息，为定位区域找到对应的题录信息提供数据支持；数据定位模块，将所述字符数据采集模块采集到的字信息进行加工处理，使字信息成为题录项对应的题录信息；重识别模块，重新识别字符数据采集模块过滤掉的题录信息，该题录信息包含标点符号和空格；数据整理模块，过滤并整合题录信息。本发明通过上述六大模块可以达到自动在封皮上找到所需要的信息，达到了自动化处理要求，这样解放了人力，提高了工作效率。

Description

一种基于OCR的论文封皮自动识别系统及方法

技术领域

本发明涉及OCR技术领域，尤其涉及一种基于OCR的论文封皮自动识别系统及方法。

背景技术

现有论文扫描之后要放到网上，封皮上包含的信息，比如说论文题目，作者姓名，导师姓名等信息要录入数据库，方便用户检索。现有的技术是通过人工把封皮的信息录入数据库，缺点是耗费了很大的人力，而且随着人的疲劳，准确率会有所下降。因此急需一种封皮的自动识别方法把人们从这种繁琐的工作中解放出来。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于OCR的论文封皮自动识别系统及方法，所述系统及方法解决了封皮信息自动识别问题。

本发明的目的通过以下的技术方案来实现：

一种基于OCR的论文封皮自动识别系统，包括：模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重识别模块和数据整理模块；所述

模板设计模块，设计封皮模板并提供信息给模块；

图像处理模块，通过OCR对图像进行彩色二值化、去黑边、纠偏处理；

字符数据采集模块，利用OCR提取封皮字的信息，为定位区域找到对应的题录信息提供数据支持；

数据定位模块，将所述字符数据采集模块采集到的字信息进行加工处理，使字信息成为题录项对应的题录信息；

重识别模块，重新识别字符数据采集模块过滤掉的题录信息，该题录信息包含标点符号和空格；

数据整理模块，过滤并整合题录信息一种基于OCR的论文封皮自动识别方法，包括：

制作设计模板；

通过OCR对设计模板进行彩色二值化、去黑边、纠偏处理；

利用OCR提取封皮字的信息，为定位区域找到对应的题录信息提供数据支持；

将采集到的字信息进行加工处理，使字信息成为题录项对应的题录信息；

重新识别字符数据采集模块过滤掉的题录信息，该题录信息包含标点符号和空格；

过滤并整合题录信息。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

封皮图像预处理模块和封皮字符数据采集模块可以最大程度提高OCR的准确性；

封皮信息定位模块可以让算法自动找到所需信息对应的区域；

封皮的重识别模块和封皮整理模块可以对入库前信息做最后调整，过滤不需要的入库信息，如导师的职称，也可以添加必要的信息，如原来屏蔽的标点符号。

上述模块结合封皮模板设计模块给出的信息，才能正确处理。通过这六大模块可以达到自动在封皮上找到所需要的信息，达到了自动化处理要求，这样解放了人力，提高了工作效率。

附图说明

图1是基于OCR的论文封皮自动识别系统结构图；

图2a和2b是封皮的结构示意图；

图3是封皮模板图；

图4a和4b是二值化图对比图；

图5是彩色封皮直方图；

图6a、6b、6c和6d为不同封皮的INFO区域；

图7是线性INFO区域图；

图8a、8b、8c和8d是不同封皮的TITLE区域图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于OCR的论文封皮自动识别系统结构，包括：模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重识别模块和数据整理模块；所述

模板设计模块，设计封皮模板并提供信息给模块；

数据整理模块，过滤并整合题录信息。

上述模板的设计制作，分为五层结构XML格式，如图3封皮模板：

第一层<Template>

上层节点：顶层节点

上层包含本层节点个数：1个

本层节点意义：代表一所学校

属性：无

属性设置：无

第二层<School>

上层节点：<Template>

上层包含本层节点个数：多个

本层节点意义：具体确定出题录项数据库和图片的对应

属性：name，year，level

属性设置：name为学校名字如：济南大学；year为学位年度如2015；level为论文级别如硕士。

第三层<Property>

上层节点：<School>

上层包含本层节点个数：1个

本层节点意义：二值化算法选择，OCR读入图像方式选择，Info区域类型选择

属性：imageProcess，colorParm1，colorParm2，colorParm3，Line属性设置：

colorParm1，colorParm2，colorParm3判断用哪种方法二值化，具体可以在图像处理模块查询。

colorParm1＝colorParm2＝colorParm3＝0字黑，底亮(默认)优先选择

colorParm1＝colorParm2＝colorParm3＝1字深，底亮

colorParm1，colorParm2，colorParm3字深，底深三个参数代表RGB固定阈值，可以取不同的值，分割需要人工测试并手工添加。

imageProcess代表OCR读入图像方式，如果是0说明OCR读入原图。如果选1说明OCR读入方式为二值图。优先选0。

Line表示Info区域的类型，如果是0为INFO区域定位，如果是1为线性INFO区域定位，可以参考(图6a、6b、6c和6d为INFO区域，图7为线性INFO区域)。

第三层<Page>

上层节点：<School>

上层包含本层节点个数：多个

本层节点意义：代表着封皮的某一页

属性：num

属性设置：num是为0为封一，1为封二，以此类推。

第四层<Title>

上层节点：<Page>

上层包含本层节点个数：1个

本层节点意义：Title区域(参考定位模块)

属性：无

属性设置：无。

第五层<COLUMN>

上层节点：<Title>

上层包含本层节点个数：多个

本层节点意义：代表着一个题录项

属性：MarkName代表数据库中的题录项，FieldName代表题录项在封皮上的位置信息。

属性设置：

MarkName设置：和数据库中题录项完全相同。

FieldName设置：为封皮上确定题录项位置的参数,和重识别的参数。

位置参数具体的如下设置：

*模板信息：A说明对应题录项的题录信息在A左边。

*模板信息：A＝下中说明对应题录项的题录信息在A下面第一个中文区域。

*模板信息：A＝下英下说明对应题录项的题录信息在A下面，在英语字符下面。

*模板信息：A＝下英说明对应题录项的题录信息在A下面，并且全是英语字符。

*模板信息：A＝下一块说明对应题录项的题录信息在A下面第一个区域。

*模板信息：A＝下二块说明对应题录项的题录信息在A下面第二个区域。

*模板信息：A＝下三块说明对应题录项的题录信息在A下面第三个区域。

*模板信息：A＝下一行说明对应题录项的题录信息在A下面第一行。

*模板信息：A＝下二行说明对应题录项的题录信息在A下面第二行。

*模板信息：A＝下三行说明对应题录项的题录信息在A下面第三行。

*模板信息：A＝上一块说明对应题录项的题录信息A的上面第一个区域。

*模板信息：A＝上二块说明对应题录项的题录信息A的上面第二个区域。

*模板信息：A＝上三块说明对应题录项的题录信息A的上面第二个区域。

*模板信息：A＝上一行说明对应题录项的题录信息A的上面第一行。

*模板信息：A＝上二行说明对应题录项的题录信息A的上面第二行。

*模板信息：A＝上三行说明对应题录项的题录信息A的上面第二行。

A为具体行的内容，也可以选择“无”。

重识别参数设置：代表最后需要重新识别的参数，加在FieldName字段的末尾，参数的种类有“？L”代表这个块以带线的参数重新识别。“？S”代表这个块的识别包含符号空格等字段重新识别。“？LS”代表这个块以带线的参数包含符号空格等字段重新识别。

第四层<Info>

上层节点：<Page>

上层包含本层节点个数：1个

本层节点意义：包含了线性Info区域和Info区域

属性：无

属性设置：无

第五层<COLUMN>

上层节点：<Info>

上层包含本层节点个数：多个

本层节点意义：代表着一个题录项

属性：MarkName代表数据库中的题录项，FieldName代表题录项在封皮上与数据库相对应的信息。

属性设置：

MarkName设置：在MarkName的末尾加上”|”符号，这是为了解决数据库题录项和封皮上的题录项一对多的问题，比如说数据库题录项中的导师对应图2b中的指导教师和合作导师，我们希望把指导教师和合作导师的信息都写入数据库的导师中，就需要在MarkName中导师后面加上”|”符号。如图3封皮模板中的导师和导师|分别对应指导教师和合作导师，最后经过数据整理模块会把信息都写入导师题录项。

FieldName设置：包括”|”符号设置，重识别的参数设置。

在FieldName的中间加入”|”符号。这是为了解决在不同的封皮中,可能会出现同一个数据库中的题录项对应不同名称的。比如说图2a中的专业学位类别和图2b一级学科名称对应数据库的题录项都是一级专业。如图3封皮模板中专业学位类别|一级学科名称这都对应着数据库中的一级专业。

第四层<Text>

上层节点：<Page>

上层包含本层节点个数：1个

本层节点意义：包含了所有识别的字的信息

属性：无

属性设置：无

上述图像处理模块：

彩色背景的图或歪的图直接通过OCR识别软件，识别准确率非常差，所以在图像处理模块，包括彩色二值化，去黑边，纠偏功能。

彩色二值化，通过模板的设置有三个算法可供调用。

彩色图像转为灰度图像，灰度图像转为二值化。

彩色转灰度公式：Gray＝R*0.299+G*0.587+B*0.114

灰度转二值公式：g＝ω0ω1(μ0-μ1)^2，这种算法可以根据前景背景的最大类间方差法，自动选取阈值。

RGB颜色模型硬阈值。

RGB模型中R红，G绿，B蓝。如果黑色全部都是0,如果是白色全部都是255。这个方法需要人工经过对图片反复测试RGB每个通道的阈值，最后找出最佳的二值化方法。

RGB自动阈值二值化

图5是图4a的RGB直方图。经测试发现波峰所对应的像素值偏大的通道，对图像二值化的影响大，所以只要找到这个通道的波谷就可以作为二值化的阈值。求波谷前需要进行高斯平滑来去掉一些噪声。公式如下：

S_{H L} (x, σ_{g}) = {&Integral;}_{- \infty}^{\infty} H_{L} (u) g (x - u, σ_{g}) d u = {&Integral;}_{- \infty}^{\infty} H_{L} (u) \frac{1}{\sqrt{2 π} σ_{g}} e^{- \frac{{(x - u)}^{2}}{2 σ_{g}^{2}}} d u

图4b就是用这种方法二值化结果。

纠偏，用的是霍夫变换找到角度，如果角度超过0.01度进行纠偏。

上述字符数据采集模块：

该模块是利用OCR提取封皮字的信息，为后面的定位区域，并找到对应的题录信息提供数据支持。

双识取字：为了防止单一的识别参数出现漏字的情况，这里用了两套OCR参数进行识别，把识别结果整合成一个数据集。

过滤：因为OCR很容易把图像的噪声识别为一些标点符号和乱码。所以只留下中文，英文，数字信息。

上述数据定位模块：

该模块就是把采集模块得到字信息经过加工处理，使这些信息成为具体的题录项对应的题录信息。

通过观察发现封皮中题录信息可以分为三个区域进行定位检测。分别是INFO区域，线性INFO区域，TITLE区域。

INFO区域定位。多数学校封皮中都含有这种区域，这种区域的信息量也是最多的。如图6a、6b、6c和6d所示为INFO区域。

特征：

*每一行都有一个题录项和所对应的题录信息。

*不同行之间题录项的右端位置基本相同。

定位步骤：

(1)整理行信息：把粗识别的结果按行的形式保存，从上到下，从左到右。

(2)精确匹配：每行信息和模板中的题录项精确匹配，保存对应的题录信息。

(3)题录项和题录信息分割位置确定：精准匹配题录的右端为分割位置，如果没有找到就用单连通链找到线段，线段最左端的位置为分割位置。

(4)模糊匹配：根据第三步骤找到的分割位置，把每行分为两段，左端为疑似题录项。用疑似题录项和模板中的题录项进行模糊匹配，匹配成功后的右端写入对应的题录信息,模糊匹配有两个原则:

*字数相同，只错一个认为匹配。

*少一个字，但是剩余字都对，认为匹配。

(5)锯齿合并：如图6b和图6c中的指导教师，图6a和图6d中的论文题目。一个题录项中含有两行题录信息，根据经验发现，没有和题录项同行的题录信息，也在题录项的右端。形成齿状结构。合并分三个步骤：

第一步骤过滤：1需要合并的行信息在题录项的右边2需要合并的行信息在已经匹配的题录信息下面。根据这两个条件可以把无用行排除。

第二步骤中间融合：1需要合并的行的位置和上一行的题录信息位置里的比较近，这里阈值为10个像素。2需要合并行的下一行题录项中的题录信息为空。满足这两个条件的向上合并，不满足的向下合并。如图解决图图6a，图6b，图6d。

第三步骤尾端融合：1最后一行题录项下面的行。2题录项必须是导师或作者姓名3行的高度和最后一行题录项行相似。4行的距离和最后一行题录行接近。5行的左端小于最后一行题录项的右端。满足这五个条件可以合并到最后一行，如图6c。

线性INFO区域定位：少数学校封皮中都含有这种区域。

特征：每一行都有多个题录项和所对应的题录信息。

定位步骤：

(2)行的融合：考虑到题录项和题录标引字的大小不同，整理行信息时会出现不是一行情况，这里要利用位置信息把上下行融合。

(3)精确匹配：每行遍历查询模板中的题录项，找到对应的题录信息。

如图8a、8b、8c和8d为Title区域：大多数学校都有这个区域，但是区域内容比较少，一般是论文题目。

特征：

*大多数情况下光有题录信息，没有题录项。

*几乎都在Info区域的上端。

定位步骤：

(2)过滤：把INFO区域下的行全部过滤掉，只留下INFO区域以上行信息。

(3)模板位置信息确定块：模板中会对Title的大致位置进行描述，通过模板信息的位置描述和行信息可以找到Title区域的题录项的题录信息。参看博硕论文封皮模板的设计模块中Title下的COLUMN节点介绍。

重识别模块：

重识别的原因：

(1)在数据模块采集模块中，为了减少噪点的影响，过滤掉了标点符号和空格。而封皮的题录信息中有些需要包含标点符号和空格，所以需要重新识别。

(2)下划线和字连接比较紧的情况下识别效果非常差，这需要换种参数重新识别。

重识别的条件：

(1)在数据定位模块中找出具体题录信息的区域。

(2)在模板<COLUMN>节点FieldName属性字段中，末尾如果有”？”则代表这个题录项的题录信息区域需要重新识别，主要参数和用法可以参考封皮模板的设计模块。

数据整理模块

该模块主要是为了录入数据库中做最后的整理，其中包含两个方面：

过滤：识别出的题录信息最后都需要写入数据库对应的题录项当中，为了数据库中的数据以后检索方便，所以要过滤掉一些不必要的信息，比如说导师的职称。

整合：在封皮上有两个或以上的题录项只对应数据库中的一项，如封皮上的合作导师和指导导师都需要填入数据库的导师中。可以参看封皮模板的设计模块中。

本实施例还提供了一种基于OCR的论文封皮自动识别方法，该方法包括：

制作设计模板；

通过OCR对设计模板进行彩色二值化、去黑边、纠偏处理；

过滤并整合题录信息。

上述设计的封皮模板中还包含题录项和题录信息，所述题录项和题录信息为多对一和一对多的关系。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于OCR的论文封皮自动识别系统，其特征在于，所述系统包括：模板设计模块、图像处理模块、字符数据采集模块、数据定位模块、重识别模块和数据整理模块；所述

模板设计模块，设计封皮模板并提供信息给模块；

数据整理模块，过滤并整合题录信息。

2.如权利要求1所述的基于OCR的论文封皮自动识别系统，其特征在于，所述封皮模板包含二值化信息、区域信息和重识别信息。

3.如权利要求1所述的基于OCR的论文封皮自动识别系统，其特征在于，所述字符数据采集模块利用OCR提取封皮字的信息包括：过滤掉标点符号，留下中文、英文和数字。

4.如权利要求1所述的基于OCR的论文封皮自动识别系统，其特征在于，所述题录信息分为三个定位区域进行定位检测，所述三个定位区域包括INFO区域、线性INFO区域和TITLE区域。

5.一种基于OCR的论文封皮自动识别方法，其特征在于，所述方法包括：

制作设计模板；

通过OCR对设计模板进行彩色二值化、去黑边、纠偏处理；

过滤并整合题录信息。

6.如权利要求5所述的基于OCR的论文封皮自动识别方法，其特征在于，所述所述封皮模板包含二值化信息、区域信息和重识别信息。

7.如权利要求5所述的基于OCR的论文封皮自动识别方法，其特征在于，所述设计的封皮模板中还包含题录项和题录信息，所述题录项和题录信息为多对一和一对多的关系。

8.如权利要求5所述的基于OCR的论文封皮自动识别方法，其特征在于，所述OCR至少包含有两种。

9.如权利要求5所述的基于OCR的论文封皮自动识别方法，其特征在于，所述题录信息分为三个区域进行定位检测，所述三个区域包括INFO区域、线性INFO区域和TITLE区域。