CN111860487A

CN111860487A - 基于深度神经网络的碑文标注检测识别系统

Info

Publication number: CN111860487A
Application number: CN202010738047.3A
Authority: CN
Inventors: 马晋; 闫升; 贾国福; 杜鹏; 樊文博; 韩国民
Original assignee: Xi'an Wenshubao Technology Co Ltd; Tianjin Hengda Wenbo Science& Technology Co ltd
Current assignee: Xi'an Wenshubao Technology Co Ltd; Tianjin Hengda Wenbo Science& Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111860487B

Abstract

本发明提供了一种基于深度神经网络的碑文标注、检测、识别系统，最终能够实现较为精准地对碑文位置、字义和字形等信息地有效自动提取，为后续的碑文检索工作的基础。从总体结构上划分，整个系统可分为标注模块群、训练模块群和测试模块群，前者包括基于预定位的字符位置标注模块、基于预识别的字标注模块、基于连通分量的分割标注模块；中者包括检测器训练模块和分类器训练模块；后者为对输入图像进行检测识别分割的测试部分，以及建立在此基础上的检索功能。

Description

基于深度神经网络的碑文标注检测识别系统

技术领域

本发明属于文本检测、识别和分割技术领域，尤其是涉及一种基于深度神经网络的碑文标注检测识别系统。

背景技术

碑文作为我国悠久历史文化和艺术的载体，是中华文明的灿烂瑰宝，虽然刻在石碑上的文字能保存长久，但无法避免被岁月腐蚀的痕迹，对于碑文的数字化保护显得日趋重要。碑文以繁体字为主和现代规范简体字有区别，且碑文带有刻碑人书法印记和腐蚀痕迹，如何让机器准确快速地对碑文进行定位、翻译和拓片化成为一个有意义且具有挑战性的一个课题。

为了对碑文进行自动识别，国内外一些人员对碑文的机器识别和碑文和拓片的清晰化进行了一些研究，但尚未出现成熟的集碑文检测、识别和分割于一体的系统，以及建立其上的碑文检索系统。

为了实现对碑文数字化存储和管理，便于实现基于文字或内容的碑文检索，我们提出了一套建立在两个阶段(检测和识别阶段)的深度神经网络基础上的碑文检测、识别和分割系统，并在此基础上形成了碑文检索系统。

发明内容

有鉴于此，本发明旨在提出基于深度神经网络的碑文标注检测识别系统，以实现对碑文的实时检测识别和检索。

为达到上述目的，本发明采用了如下技术方案：

基于深度神经网络的碑文标注检测识别系统，包括：

标注模块群，用于对碑文图像进行检测标注、识别标注和分割标注；

训练模块群，用于对标注模块群标注的数据进行训练；

测试模块群，用于使用训练好的模型对测试数据进行测试。

进一步的，所述标注模块群包括：

基于预定位的框标注模块，用于对图像中的文本区域进行定位以及分块；

基于预识别的字标注模块，用于将基于预定位的框标注模块中标注的每个检测框内的字符的机器码输入系统，进行分类器训练；

基于连通分量的分割标注模块，用于通过提取极值区域对输入图像进行连通分量分析，然后依据检测框标注结果对极值区域树进行剪枝和人工调节，获得无重叠的连通分量集合。

进一步的，所述基于连通分量的分割标注模块具体步骤包括连通分量提取，结合检测框标注进行树剪枝，人工分割校正，最后保存标注结果。

进一步的，所述基于连通分量的分割标注模块通过基于深度神经网络对输入图像进行极值区域树剪枝，剪枝策略为对所有单父子关系的结点进行非极大值抑制，在剩余的完全二叉树中计算所有兄弟连通分量的平均外接框，如果这对兄弟的平均外接框重叠率大于阈值T_IoU，则删除这对兄弟，而保留其父节点，否则删除父节点，重复此操作，直到无任何剩余节点间有父子关系；然后对所有连通分量的进行平均似然度阈值为T_ccSc的阈值过滤，并对所有连通分量的平均外接框的中心框的平均似然度进行阈值为T_bbSc的阈值过滤，得到最终的标准分割的推荐结果。

进一步的，所述训练模块群包括：

检测器训练模块，用于对基于预定位的框标注模块标注的数据进行训练和存储；

分类器训练模块，用于对基于预识别的字标注模块标注的数据进行训练和存储。

进一步的，所述检测器训练模块包括数据获取模块、训练图像列表和当前图像展示模块。

进一步的，所述分类器训练模块包括训练数据获取区；训练参数设置模块；数据增强设置和预览模块；识别预览模块；开始训练模块。其中检测器采用以残差网络为骨干网络，并通过高层特征逐层上采样与骨干网络中相应尺度特征图进行特征融合，最终得到原图大小尺度的特征图，最后通过全卷积操作使得网络对像素级的文本似然度和文本外接框进行回归；

进一步的，所用识别网络采用如图8a或图8b所示的深度神经网络，对训练数据进行训练得到碑文识别模型。

进一步的，所述测试模块群包括：

碑文检测模块，用于对待检测图像使用训练好的检测器进行文本检测，得到最终的框检测结果；

碑文识别模块，用于对检测完成的图像进行识别并显示结果；

碑文分割模块，用于检测中或检测完成的图像进行字符区域分割并显示结果；

碑文检索模块，用于对碑文数据库中含有待检索文字的图像列表展示、在图像中位置显示和对该位置图像块的局部二值化结果进行展示。

相对于现有技术，本发明所述的基于深度神经网络的碑文标注检测识别系统具有以下优势：

(1)检测标注系统：通过划定文本区域，可有效减少无关区域占据显示区域的比率，增加标注精度；通过文本区域分块和逐块标注可让待标注文字显示更大，增加标注精度，且减少拖曳滚动条和反复缩放图像带来的时间消耗；检测标注可在标注少量数据后，训练预检测标注器，通过将机器对后续待标注图像自动标注和人工校正结合，进一步提高效率。

(2)识别标注系统：通过文本顺序设定，使用户只能逐字进行识别标注转为逐词、逐句甚至逐篇标注(如复制释文粘贴到标注区)，大大提高标注效率；可通过对已标注碑文或者字形字库(如“.ttf”文件)抽取字形信息训练OCR，对待标注数据进行预识别，进一步提高标注效率。

(3)分割标注系统：由于对碑文字符的连通分量提取是基于树结构的节点选取策略，所以可以方便地进行人工校正操作(例如按键盘“+”系统对当前字符取剪枝操作得到的推荐结果的父节点对应的分割)。

(4)检测器采用基于全卷积的深度神经网络，通过对输入图像进行文本似然度和外接框位置的像素级回归得到速度和准确率远超传统方法的检测结果；识别器由于采用卷积层较少的深度神经网络，可在参数总量可接受的情况下进行大类别分类，以适应中文字符识别任务。

(5)检索系统将整图的字符检测、识别和分割功能结合在一起，对于用户提出的检索要求，给出包含该字的文件列表、在图像中的位置以及某个位置的拓片化结果，可供书法爱好者研究和学习参考。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为系统模块划分图；

图2为系统模块界面图；

图3为检测框标注过程示例图；

图4为识别标注过程示例图；

图5为分割标注过程示例图；

图6为检测器训练子模块界面图；

图7为识别器训练子模块界面图；

图8为两个可选识别器网络结构示意图；

图9为检测测试功能示例图；

图10为识别测试功能示例图；

图11分割测试功能示例图；

图12检索功能模块示例图。

附图标记说明：

001-检测标注模块；002-识别标注模块；003-分割标注模块；004-检测和识别器训练模块；005-检测、识别和分割测试模块；006-检索模块；011- 待标注图像目录设置；012-图像列表显示区；013-文本交互区；014-图像显示区。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

图1是本系统的内容结构图，主要有三个模块群，根据使用的时间顺序依次为标注模块群、训练模块群和测试模块群，前者又包含了检测、识别和分割的标注模块，中者包含分类器训练模块，后者则处理对碑文数据进行检测、识别和分割功能外，还包含有建立在这些功能之上的检索模块。

图2是本发明实施示例中基于深度神经网络的碑文检测识别分割和检索的系统界面图。如图2所示，基于深度神经网络的碑文检测、识别、分割和检索系统包括：(1)功能模块：检测标注模块001、识别标注模块002、分割标注模块003、检测和识别器训练模块004、检测、识别和分割测试模块 005、检索模块006；(2)辅助模块：待标注图像目录设置011、图像列表显示区012、文本交互区013、图像显示区014。

实施例一：

本示例展示了对一张碑文图像的检测标注、识别标注和分割标注的过程。

1、检测标注，界面模块如图2的001模块所示。由于碑文图像的文字一般比较密集，每个文字相对于整张图像很小，所以如果想将位置标注准确，需要尽量减少无关区域的显示，将焦点集中在当前要标注的文字上。因此我们提出一种通过两个步骤对当前标注文字进行“聚焦”的过程，第一步是对图中的文本区域进行定位，以避免不必要的区域对视野的影响；第二步是对图中的每个文本区域进行分块，使得每次显示待标注的当前块内的文字。

具体来说：(1)在设置好左侧参数后，我们点击“框定文本区域”按钮，开始通过鼠标对当前碑文图像的文本区域进行框定，例如在文本区域左上角按下鼠标，拖动到文本区域右下角抬起鼠标，框定即可完成，如图3a 所示；(2)完成文本区域标注之后，点击检测标注模块001中的“选择分块策略”按钮，按钮左侧显示5*5方格，鼠标放在上面时，由左上角和鼠标所在方格所确定的矩形框内显示为紫色，以标识当前分块策略。如果“最优长宽比”复选框被选中了，则系统在当前鼠标位置基础上，结合当前文本区域的长宽比，以每个块尽可能长宽相等为原则，确定分块策略。分块结果会同步显示在右侧图像显示区上，如图3b所示；(3)分块策略确定好之后，点击“选首个待框图”按钮，系统会在待标注图像列表(即图2的图像列表显示区012区域)选择首个未被标注过字符检测框的图像，并显示在右侧大图区(即图2的图像显示区014区域)。然后点击“开始框标注”按钮，系统根据对当前图像的分块策略，以首个块为焦点对图像进行缩放平移，使得当前块在标注工作区占比如模块左下角所示(实验中默认占比70％)，并以黄色框表示当前块，每次刚标注的字符显示粉红色，之前的标注显示为红色，如图3c所示，点击“delete”键可删除当前标注(即粉红色框)，进行重新标注。(4)如果已经标注过此图，选中当前模块中的“覆盖？”单选框，则系统将已经标注的内容显示在大图区，进入对标注的补充修改模式，如图 3d所示。

2、识别标注，界面模块如图2的识别标注模块002所示。此标注是将上一个阶段标注的每个检测框内的字符的机器码输入系统，以用于后续分类器训练。当然，我们可以依据框标注顺序逐字对检测框内容进行标注，但这样效率低下，因为输入法有联想功能，有意义的词组或句子更方便输入。因此我们首先进行字符的顺序标注，然后按照此顺序进行标注。

(1)顺序标注。如图4a所示为对碑文检测框进行顺序标注的示例图，我们在“识别标注模块”(即图2的识别标注模块002)中点击“选首个标序图”按钮，系统会将待标注图像列表中首个未被标注过顺序的图像选中，将此图的首个文本区域在右侧显示出来，然后用户通过“曲线”或者“折线”方式(在标序模式子面板中进行选择)对文本顺序进行标注。

所谓“曲线”方式，就是在鼠标左键按下的状态下，使得光标依次划过顺序标注的字符(框)，抬起鼠标后，进行下一行标注；所谓“折线”方式是鼠标左键单击标注第一个点，再次单击标注第二点，一直到最后一点右键单击，所有点按顺序连成的线标注了经过的框的顺序，然后同样的方式再标下一行文本。两种方式下，每行文字标注结束后，都会将当前顺序标注过的文字外接框通过不同的颜色将顺序显示出来(越蓝色顺序越早，越红顺序越晚)，如图4a所示。当前图像标注结束后，点击“设定框的顺序”按钮，进入下一个文本框或者图像的标注过程(此时按钮显示“下一个(？/？)”，以提示用户现在标注到了当前图像的第几个文本区域)。

(2)识别标注。如图4b所示为对碑文数据进行识别标注示例图。点击“选首个待标图”，系统在图像列表中寻找首个未被识别标注过的图像，并显示在右侧大图。然后用户通过在文本交互区(图2的文本交互区013区域)按顺序输入字符识别标注，字符会依顺序显示在右侧图像每个检测框的旁边，用户通过校正发现错误、缺失或多余的字符，可在文本交互区修改，确认无误后点击“结束识别标注”按钮，系统保存当前识别标注结果。

3、分割标注。界面模块如图2的分割标注模块003所示。标注过程为：首先系统通过提取极值区域对输入图像进行连通分量分析，然后依据检测框标注结果对极值区域树进行剪枝，去掉外接框超出标注框太多的极值区域。最后通过手工选择(键盘上“+”或“-”号)在剩余的极值区域森林结点中进行选择，获得无重叠的连通分量集合。具体来说，步骤如下：

(1)连通分量提取。按下“分割标注模块”的“提取连通分量(ER)”按钮，系统对当前选中的图像进行极值区域提取，并以树的结构存储在系统中。为了避免大图像提取极值区域的高时间复杂度，我们选择对图像进行50％或者25％的缩放(对应的检测框也要做相应比例的变化)，可在该模块右上角选择。

(2)结合检测框标注进行树剪枝。既然我们知道文本连通分量不会超出检测标注框太多，我们可以对中心不在任何框内和中心在框内但外延超出检测框太多的极值区域进行删除，剩下一个极值区域森林。我们取这个森林的根节点作为当前显示分割结果，如图4a的右侧大图文本边缘的绿线所示。

(3)人工分割校正。以上方法得到的分割结果经常包含非文本区域(例如图5a的“心”、“善”字分割结果包含的不少背景像素)，此时我们点击此字所在的检测标注框，此框从红色变为绿色(或虚线变成实线)，然后按键盘的“+”或“-”对当前框内光标位置所属连通分量转为其“父/子节点”(如果光标位置不属于任何连通分量，则将当前框内所有连通分量向“父 /子节点”转换)。按“-”时，系统在当前字符的极值区域树中选择当前显示的节点的下一层节点，如果仍含有背景像素，可继续点击“-”，直到满意为止。如图5a的“心”和“善”为欠分割结果，经过若干次取子结点调整为图5b所示，而另外两个噪声区域(图5a的红框内)在其没有子节点情况下按“-”被删除。相反地，如果当前分割结果没有完全包含文本像素，可通过“+”号取当前选择结点的父结点来校正。

标注结束后，点击“结束分割标注”按钮，则系统保存标注结果。

实例二：检测器和识别器训练

完成标注之后，我们可以进行检测器和识别器训练。

图6所示为检测器界面图，主要包括三个区域：数据获取区(训练图像和标注结果存放路径设置)；训练图像列表和当前图像展示区；检测器参数配置和开始训练区。经过实例一中的检测框标注之后，标注结果保存为图像同名文本文件中，训练时系统从源图像和标注结果文件夹中获取相应的图像进行训练；如果想检查某张图像的标注结果，可在训练图像列表中选中某个文件，然后按鼠标右键，右侧大图区会显示此图像，以及所有的字符文本框的标注结果(如图5右侧蓝色外接框所示)。最后，设置使用的深度神经网络、学习率配置(或阶梯曲线)，batch大小和训练资源，点击“开始训练”按钮，系统在当前数据集下经过一定的数据增强后，进行训练。

图7所示为识别器训练子模块界面图，主要包括三个模块：训练数据获取区；训练参数设置模块；数据增强设置和预览模块；识别预览模块；开始训练模块。经过实例一中的识别标注之后，系统会将每个检测框内的文字机器码进行存储。

点击图7中左上角的“获取基础训练数据”按钮，系统会将每个检测框进行归一化处理，提取其中的图像块组成训练数据，并将识别标注信息转化为对应图像块的标签。

点击中间下方的“预览数据增强”按钮，系统会根据左下区域的数据增强设置进行随机数据增强，变换后的图像块显示在右侧大图区域；

经过左上区域中的训练参数设置之后，可以点击中间下部的绿色按钮开始训练过程。对于训练结果，可以通过识别测试模块中的“预览字符识别”按钮查看当前字符列表中选中的字符的所有字形的识别效果。

图8展示了本专利采用的两个可选的用于识别任务的深度神经网络。

实例三：检测、识别、分割和检索测试模块

1、检测功能测试：

首先我们点击测试模块中的“调用east_py进行文本定位”按钮，系统对当前在图像列表中选中的图像(但是如果“检所有图”复选框被选中，则批处理所有图像)使用训练好的检测器进行文本检测，并将原图加检测框的图像显示在右侧大图区。如果“显示EAST检测框”复选框被选中，则图中以绿色框显示EAST算法得到的框(基于非极大值抑制策略)，如果“显示我的检测框”复选框被选中，则在图中以红色框显示本专利算法得到的检测框(基于连通分量分析和平均位置策略)。从图9的示例中，我们可看出红色框对文字真实边界框更接近，可以更好地避免文字区域“被截断”，进而导致识别错误。

传统EAST网络对所有像素回归的外接框采用非极大值抑制方法获得，但这种做法显然忽略了似然度非最大的像素对文本框位置的贡献，因此我们开发了基于极值区域树剪枝的文本框平均位置计算法。首先我们基于深度神经网络对文本似然度的回归图像进行极值区域树剪枝，剪枝策略为对所有单父子关系的结点进行非极大值抑制，在剩余的完全二叉树中计算所有兄弟连通分量的平均外接框(中心横纵坐标和长宽4个值分别为此连通分量所有像素四个值的平均数)。

如果这对兄弟的平均外接框重叠率大于阈值T_IoU，则删除这对兄弟(以及所有子孙节点)，而保留其父节点，否则删除父节点，重复此操作，直到无任何剩余节点间有父子关系(或重叠关系)。然后对所有连通分量的进行平均似然度阈值为T_ccSc的阈值过滤，并对所有连通分量的平均外接框的中心框(中心不变，长宽缩半)的平均似然度进行阈值为T_bbSc的阈值过滤，得到最终的框检测结果，如图3a中的绿框所示。(本专利中，T_IoU＝0.25；T_ccSc＝0.2；T_bbSc＝0.15)

2、识别功能测试：

如图10所示，检测完成后，选中“是否识别”复选框(或者在进行检测时勾选此复选框)，系统会调用识别器对检测框和其内部图像块进行归一化处理，并进行识别，然后将识别结果显示在图中每个检测位置的旁边(如图10右侧大图的蓝色文字)。

3、分割功能测试：

如图11所示，检测完成后(或者进行检测时)选中“是否分割”复选框，则系统将在检测基础上利用连通分量分析的方法进行像素级的文本信息提取。图11a中的绿色线为每个字符分割区域的边缘线。图11b为相应的分割结果示例图。

4、检索功能测试：

如图12所示为检索功能示例图。

(1)首先我们须要对检索范围内的所有图像进行检测、识别和分割操作(最好采用批处理模式)，并将结果存储在系统中；

(2)在碑文检索模块中，在“待检索字”编辑框中输入待检索的文字，点击“开始检索”按钮，则系统将对检索范围内所有图像进行检测识别操作，并在识别结果中查找此字，并将包含此字的图像名称列表显示在当前模块的右下角“检索到的文件”列表中。

(3)同时在右侧大图区显示第一个包含检索字的图像，并将当前待检索字在图像中出现的位置用红框表示出来；

(4)鼠标左键在右侧大图区点击某一个检索位置框内，则此框变绿，同时将此字的像素级分割结果显示在碑文检索模块的右下角；

(5)在“检索到的文件”列表框中右击选中任意其余文件名，并右击鼠标，则右侧大图区显示相应图像，并将该字出现的位置用红框标识出。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度神经网络的碑文标注检测识别系统，其特征在于，包括：

训练模块群，用于对标注模块群标注的数据进行训练；

测试模块群，用于使用训练好的模型对测试数据进行测试。

2.根据权利要求1所述的基于深度神经网络的碑文标注检测识别系统，其特征在于，所述标注模块群包括：

基于预定位的框标注模块，用于对图像中的文本区域进行定位、分块以及对字符区域进行定位；

基于预识别的字标注模块，用于将基于预定位的框标注模块中标注的每个字符标准框内的字符的机器码输入系统，进行分类器训练；

基于连通分量的分割标注模块，用于通过提取极值区域对输入图像进行连通分量分析，然后依据检测框标注结果对极值区域树进行剪枝和人工调整，获得无重叠的连通分量集合。

3.根据权利要求2所述的基于深度神经网络的碑文标注检测识别系统，其特征在于：所述基于连通分量的分割标注模块具体步骤包括连通分量提取，结合检测框标注进行树剪枝，人工分割校正，最后保存标注结果。

4.根据权利要求2所述的基于深度神经网络的碑文标注检测识别系统，其特征在于：所述基于连通分量的分割标注模块通过输入图像进行极值区域树剪枝，剪枝策略为对所有单父子关系的结点进行非极大值抑制，在剩余的完全二叉树中计算所有兄弟连通分量的平均外接框，如果这对兄弟的平均外接框重叠率大于阈值T_IoU，则删除这对兄弟，而保留其父节点，否则删除父节点，重复此操作，直到无任何剩余节点间有父子关系；然后对所有连通分量的进行平均似然度阈值为T_ccSc的阈值过滤，并对所有连通分量的平均外接框的中心框的平均似然度进行阈值为T_bbSc的阈值过滤，得到最终的标准分割的推荐结果。

5.根据权利要求1所述的基于深度神经网络的碑文标注检测识别系统，其特征在于，所述训练模块群包括：

6.根据权利要求5所述的基于深度神经网络的碑文标注检测识别系统，其特征在于：所述检测器训练模块包括数据获取模块、训练图像列表和当前图像展示模块,其中检测器采用以残差网络为骨干网络，并通过高层特征逐层上采样与骨干网络中相应尺度特征图进行特征融合，最终得到原图大小尺度的特征图，最后通过全卷积操作使得网络对像素级的文本似然度和文本外接框进行回归。

7.根据权利要求5所述的基于深度神经网络的碑文标注检测识别系统，其特征在于：所述分类器训练模块包括训练数据获取区、训练参数设置模块、数据增强设置和预览模块、识别预览模块和开始训练模块。

8.根据权利要求5所述的基于深度神经网络的碑文标注检测识别系统，其特征在于：采用分类功能的深度神经网络，对训练数据进行训练得到碑文识别模型。

9.根据权利要求1所述的基于深度神经网络的碑文标注检测识别系统，其特征在于，所述测试模块群包括：

碑文分割模块，用于检测中或检测完成的图像字符区域进行分割并显示结果；