CN111985462A

CN111985462A - 基于深度神经网络的古文字检测、识别和检索系统

Info

Publication number: CN111985462A
Application number: CN202010739865.5A
Authority: CN
Inventors: 马晋; 闫升; 贾国福; 杜鹏; 樊文博; 韩国民
Original assignee: Xi'an Wenshubao Technology Co Ltd; Tianjin Hengda Wenbo Science& Technology Co ltd
Current assignee: Xi'an Wenshubao Technology Co Ltd; Tianjin Hengda Wenbo Science& Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-24

Abstract

本发明提供了一种基于深度神经网络的古文字检测、识别和检索系统，最终能够在多个应用场景下实现较为精准地对古文字信息的检测、识别和方便地检索。从总体结构上划分，整个系统可分为开发者模块群、使用者模块群和演示控制模块，前者包括基于预检测的框标注模块、基于预识别的识别标注模块、数据库存储模块、检测器和识别器训练模块；中者分为基于机器码的古文字检索模块、基于手写的古文字检索模块、基于图像内容的字形检索模块、整图检测和识别模块；演示控制模块则通过用户的演示需要，对当前已经进行过的一部分功能的缓存数据进行屏蔽或开启。

Description

基于深度神经网络的古文字检测、识别和检索系统

技术领域

本发明属于古文字检测、识别领域，尤其是涉及一种基于深度神经网络的古文字检测、识别和检索系统。

背景技术

古文字是随着历史的变迁而产生的古代文字，例如在中国古代曾出现过甲骨文、金文等等，这些文字由于距今年代较远，对专家考证和大众识别都带来了一些困难和挑战。

为了弥合古文字与现代人理解力的鸿沟，为科学研究提供方便，基于机器学习和计算机视觉的古文字检测、分类和识别工作变得越来越重要；同时，建立在检测、分类和识别工作之上的古文字检索系统将对古籍数字化、有序化产生重要推动作用。

然而，现在大多数基于机器学习的古文字研究工作大多集中在识别领域，即对人工切分好的古文字图像块进行识别，而这种切分工作需要有一定古文字功底的人耗费大量地经历完成。

另外，大多数古文字的识别工作限定在一定的字体之内，如甲骨文识别、金文识别等，而对于多种字体混合的识别任务中(例如旁边带有现代文注释的甲骨文或金文图片)，则难以同时保证准确率和高效性。

发明内容

有鉴于此，本发明旨在提出一种基于深度神经网络的古文字检测、识别和检索系统，在对不同种类的古文字进行有效检测、分类(特指字体分类)、识别基础上，实现用户方便、准确地进行检索。

为达到上述目的，本发明采用了如下技术方案：

一种基于深度神经网络的古文字检测、识别和检索系统，用于在对不同种类的古文字进行有效检测、分类、识别基础上，实现用户方便、准确地进行检索，包括：

开发者模块群，包括“基于预检测的框标注模块”，“基于预识别的识别标注模块”，“数据库存储模块”，“检测器和识别器训练模块”；

使用者模块群，由“基于机器码的古文字检索模块”，“基于手写的古文字检索模块”，“基于图像内容的字形检索模块”，“整图检测和识别模块”组成；

演示控制模块。

进一步的，开发者模块群包括：

(1)基于预检测的框标注模块：在包含古文字的图像中，对其中的样本 (古文字字符)区域位置和标签(现代文字符)区域位置、以及他们之间的对应关系分别进行机器自动提取，并通过手工修正完成检测框标准数据的获取；

(2)基于预识别的识别标注模块：根据提取出的标签位置，获取所有标签位置对应的图片块，并通过预识别系统对这些图像块进行初步识别，然后通过人工校正后，得到标签的机器码；

(3)数据库存储模块：将所有的标签图片(现代文)和样本图像(古文字)以及它们的对应关系，通过表的形式存储在后台数据库中；

(4)检测器和识别器训练模块：根据框标注模块获取的检测框对检测器进行训练，根据识别标注模块获取的标签机器码和框标注模块获取的样本图像，以及和这些标签的对应关系，对分类器进行训练；

进一步的，使用者模块群包括：

(1)机器码检索模块：用户通过输入法将带检索文字输入界面，模块返回检索结果(包括数据库存储的样本图像和标签图像)；

(2)手写检索模块：用户通过手写方式将待检索的现代文写在界面手写板上，模块进行手写体识别，翻译成机器码并返回该机器码在数据库中的检索结果(包括数据库存储的样本图像和标签图像)；

(3)基于内容的字形检索模块：用户向模块提供一张包含待检索字的图像块，模块进行识别，翻译成机器码并返回该机器码在数据库中的检索结果(包括数据库存储的样本图像和标签图像)；

(4)整图检测和识别模块：用户输入一张待检测和识别的(通常包含多个文字)图像，模块通过训练得到的检测器对该图片中所有古文字位置进行定位，然后对所有检测框内的文字用识别器进行识别，得到最终检测和识别结果，显示给用户；

进一步的，基于预检测的框标注模块包括框提取策略选择模块，特征预设模块，目标预定位模块、以及手动修正模块。

进一步的，策略选择模块可分为预定位方法和连通分量提取方法；

其中预先定位方法分为：“深度神经网络预定位”和“基于设计特征的预定位”；其中连通分量提取方法分为：“基于极值区域剪枝的连通分量提取” 和“基于图片二值化和聚合策略的连通分量提取”两个；

进一步的，特征预设模块的作用包括通过对样本(即古文字)图像块和标签(即其对应的现代文)图像块对应的连通分量在图像位置分布、亮度或颜色特征分布等特征的预先设定来对样本和标签图像块进行预先判定；

特征预设模块还包括基于样本图像和标签图像的位置关系对它们之间的对应关系进行预判。

进一步的，目标预定位模块的作用包括：

(1)如果选择的是“基于深度神经网络预定位”，则系统会首先依据手动标注出来的少量框位置的样本和标签图像区域，对基于深度卷积网络的检测器进行训练；然后对于待自动标注的图像用此检测器进行预检测，输出结果分别为推荐的样本图像块的外接框和标签图像块的外接框；

(2)如果选择的是“基于设计特征的预定位”，则系统会对事先提取的连通分量，依据设计好的位置、尺度或颜色等特征进行分类和适当聚合，最终分别确定对应于标签图像块和样本图像块的连通分量，并把这些连通分量的外接框作为预检测结果。

进一步的，连通分量提取模块分为：“基于极值区域树剪枝的连通分量提取方法”和“基于二值化结果和聚合策略”两种，提取的连通分量用于对目标预定位进行的特征计算和提取后的位置修正提供方便；

其中“基于极值区域树剪枝的连通分量提取方法”是一种基于对灰度图像进行阈值逐级增大过程中的阈值分割结果所形成的树中采用一定的剪枝策略确定最稳定的无重叠连通分量的一种策略；

其中“基于二值化结果和聚合策略”是一种采用OTSU(最大类间方差法) 方法对整图二值化而形成连通分量集合的基础上基于字间连通分量距离相对稳定，且远大于字内连通分量距离的原则下进行的自动聚合的策略；

进一步的，手动修正模块的功能为：

(1)将标签图像块和样本图像块的预检测结果通过一定颜色的矩形框显示在原始图像上；

(2)如预标注结果有遗漏，手动拖动鼠标框住遗漏位置，程序将此外接框内所有连通分量的最小外接矩形作为检测框的添加结果；

(3)如预标注中有误检测结果(非关注目标被检测到)，则用鼠标右键拖动一个矩形框，中心在此框内所有预检测框的类别设定为非关注目标(即删除这些框)。

进一步的，基于预识别的识别标注模块包括：

(1)分类器选择子模块：选择训练好的分类器并对标签图像块进行预识别；

(2)显示待标注标签并加载预识别结果子模块：检索标注结果列表，选择首个未被标注的标签图像，在界面上显示给标注者。同时从分类器的识别结果中按照似然度排序选前N个显示在待选择位置(其中评分最高的为预标注结果)；

(3)对预标注结果进行选择或修正子模块：标注者判断预标注结果是否正确，如不正确则从剩余识别结果中选择或者手工输入得到标注结果。如果当前标签图像无法输入(例如待选项中无此字且标注者不认识此字无法输入)，则以特定标识符代替(例如输入“？”代表无法标注)；

(4)回看检查子模块：a、回看所有已正常标注的字，每页显示N*N个标签图像，标签图像旁边显示标注结果，用于标注者检查是否有错标现象，按下一页或上一页进行浏览转换；b、回看所有标注为无法标注结果的字(例如标注为“？”的标签图像)，用户检查是否能追加可认识的字的标注；

进一步的，预识别的识别标注模块中的分类器选择子模块还包括：

(1)本系统中用到的预识别分类器可分为：tesseract开源识别软件，若干基于深度神经网络的分类器；

(2)对于基于深度神经网络的分类器，根据训练数据采用的字库大小，分类器又可分为：基于GB2312库、基于BIG-5字库、基于GB18030字库、基于“GB18030+金文”字库、基于GBK字库、基于“GBK+金文”字库等多个不同类别数设定的分类器；

(3)为了避免频繁切换分类器，设定从属分类器选择，如果所选从属分类器与所选主分类器不同，则在排名6-10的位置上显示从分类器排名前5 的识别结果；如果和所选主分类器相同，则仍然显示主分类器排名6-10的识别结果。

进一步的，显示待标注标签并加载预识别结果子模块还包括：

(1)默认情况下，系统除了将预识别结果(即似然度最高的识别结果) 显示在待判断框中，还将识别结果排名前10(或者主、从分类器各排名前5) 的显示在标有“1、2、...、9、a”10个标号的文本框中，如预识别结果不正确，用户可通过鼠标右键选择或者按键盘上相应键进行选择，被选择文本框中字变红，同时此字复制到待判断框中；如框内字符确实为标签机器码(或者为“？”标识无法标识)用户通过回车对此判断框进行确认；

(2)为了给用户更多选择，标注者可以选择“从更多中选”复选框，则大图区域显示主分类器排名前100的分类器排序结果，用户可通过鼠标左键点击进行选择，被选字变红，同时复制此字到待判断文本框中，等待标注者按回车确认；

(1)对标注进程进行返回上一个操作：如果由于标注者手误等原因在标注可能不正确的情况下按了回车进入下一个标签图像块标注流程的情况下，用户可通过按下“返回上一个”按钮进入对上一个标签图像的重新标注的过程；

(2)在启动标注进程时，系统会根据保存在缓存中的已标注信息对首个未标注标签图像进行定位，此时“跳过‘？’”单选框如果为选中状态，则系统会将标注为“？”的字符当作已经标注的，而不选择；否则系统将视标注为“？”的字符为未标注字符；

进一步的，基于预识别的识别标注模块的回看检查模块还包括：

回看已正常标注的字时，通过点击此字位置，可进入对该字标注结果的修正模式；回看标注为不认识的字时，通过点击此字，可进入对该字的标注模式；

进一步的，数据库存储模块包括：数据库系统状态检查模块、数据库建立模块和数据库查看模块。

进一步的，数据库系统状态检查模块会进行如下两方面检查：

(1)对系统中是否存在本系统要求的数据库(例如mysql数据库)是否被成功地安装在系统中进行测试；

(2)检查该数据库相应环境变量是否登记在系统中；

进一步的，数据库建立模块会完成以下工作：

(1)如果系统中还未建立当前数据集(如金文数据集、甲骨文数据集等) 所对应的数据库名(如“ancient-char”、“oracle-dic”等)，则会在文本提示区将建库方法步骤进行提示；如果建库成功，则将这些数据库的登录密码显示在相应位置；

(2)以表的形式分别将标签图像的ID号、标注结果、存储路径和相应样本图像个数等信息存储在“标签图像表”中，将样本图像的ID、存储路径、所对应的标签图像的ID号等信息存放在“样本图像表”中，两个表格通过标签图像ID产生关系；

(3)抽取所有经过位置框标注的样本和标签图像(以及他们之间的位置关系)以及经过标签图像识别标注的标注信息，写入相应存储位置，并对两张表格进行数据追加；

进一步的，数据库查看模块会将建好的数据库中的表格，以及其中插入的数据在界面上显示给用户，以便用户确认表格格式是否有改进的地方，或者数据是否有误等。

进一步的，检测器和识别器训练模块包括：检测器训练子模块、标签图像块识别器训练子模块、手写识别器训练子模块和字形图像识别器训练子模块；

进一步的，检测器训练子模块分为以下部分：

(1)训练数据提取和加载模块：将原始图像和位置标注结果等信息进行格式化，变成分类器可利用的训练(和验证)数据；同时将该区域内的字体(如甲骨文、金文或现代文等)的类别标号也输入分类器，以便检测器在框检测同时进行类别预测；

(2)参数设定模块：对使用的骨干网络进行选择、对学习率(或学习率的阶梯形状)的设定、batch大小的设定、训练资源选择(如是否使用GPU) 的设定；

(3)训练模块：系统在训练的同时，将训练集和验证集的损失在每一轮训练之后显示给用户，以便用户决定什么时候结束训练，或者决定改变学习率的时机。

进一步的，标签识别器训练子模块是用于对标签图像进行预识别的分类器，包括：

(1)训练数据生成子模块：用各种字体(如楷体、黑体、宋体等)对不同字库中的字以一定大小显示，并截取其有效部分作为训练数据；

(2)训练参数设定子模块：选择分类器类型、学习率(或学习率阶梯形状)设定、Batch大小设定、训练资源(如是否需要GPU)等

(3)数据增强参数设定子模块：为了提高分类器鲁棒性，需要对输入数据进行一定亮度(如对比度变换，前背景亮度反转等)、形状变形(斜切、旋转、缩放)、模糊化和复杂背景加入等的数据增强，每种数据增强包括随机发生的概率值和变换强度范围(如旋转角度不能超过多少度)；

(4)数据增强预览子模块：为了便于用户调整数据增强强度范围，该模块可在当前参数设定下随机产生增强效果(同时输出每种数据增强方法随机值)；

(5)训练子模块：系统对当前训练数据，在一定的数据增强策略下，以一定的训练参数进行训练，每轮训练后向用户返回当前损失平均值；

(6)当前训练的识别结果预览子模块：为了便于用户了解当前训练完成的充分程度，可以对原始数据(或者数据增强后数据)用当前分类器训练结果进行测试，以N*N格形式显示在大图，在测试图像块旁边显示识别结果，如正确为绿色，错误为红色，同时统计出当前页面识别错误率。

进一步的，其中，手写识别器训练子模块是用于在用户通过手写输入方式进行检索时采用的分类器，包括：

(1)训练数据加载模块：加载手写体训练数据集，对数据进行规整化处理，以便于后续训练；

(2)数据增强参数设定模块：用于设定亮度变换(对比度变换、前景背景反转等)、形状变换(斜切、旋转、缩放等)、模糊化、复杂背景添加等的随机策略和变换强度范围；

(3)数据增强查看模块：按照当前数据增强参数设定，随机选取N*N个手写体字进行数据增强，用于用户对当前数据增强的变换强度进行查看，以便进行参数调整；

(4)训练参数设定：包括采用分类器网络、学习率或学习率阶梯形状设定、Batch大小、训练资源选择等；

(5)手写体识别训练模块：在训练过程中，输出每轮训练后的损失曲线变化，以便用户进行停止训练或者改变学习率决策；

(6)对识别结果查看模块：用户可使用当前训练结果对手写体图像(或数据增强后的图像)进行测试，并组成N*N的方格显示在界面上；

进一步的，字形图像识别器训练子模块是用于用户进行基于内容的图像检索时对输入图像进行识别而采用的分类器，包括：

(1)训练数据生成子模块：根据标注结果所得到的所有样本图像块和标签图像块，经过规整化处理后组成训练数据和验证数据，以便后续训练过程调用；

(2)训练参数设定子模块：选择分类器类型、学习率(或学习率阶梯形状)设定、Batch大小设定、训练资源(如是否需要GPU)等；

(3)数据增强参数设定子模块：为了提高分类器鲁棒性，需要对输入数据进行一定亮度变换(如对比度变换，前背景亮度反转等)、形状变形(斜切、旋转、缩放)、模糊化和复杂背景加入等的数据增强，每种数据增强包括随机发生的概率值和变换强度范围(如旋转角度不能超过多少度)；

(5)训练子模块：系统对当前训练数据，在一定的数据增强策略下，以一定的训练参数进行训练，每轮训练后向用户返回损失变化曲线；

进一步的，机器码检索模块包括：

(1)用于接收用户输入的文本框：用户通过各种输入法将待检索古文字的现代文译文输入其中；

(2)数据库中检索得到该机器码对应类别的标签图像和样本图像分别显示在相应区域；

(3)其它数据库链接：对于当前机器码可在相链接的其它数据库中进行信息检索和输出(例如通过与新华字典数据库链接，可在提示框中输出这个字的读音、解释、同义字等信息)。

进一步的，手写检索模块包括：

(1)手写输入模块：包括一个可以进行输入的区域(如鼠标光标轨迹记录区域或外接手写板)和图像转换子模块(用于将接收到的手写轨迹转化为分类器可以接收的图像格式)，用户将待检索古文字对应的现代文写在手写板上(受训练数据库所限，手写识别只支持3755个一级汉字输入)；

(2)手写识别模块：将手写输入图像输入手写识别器中进行识别，返回该字的类别号或机器码；

(3)数据库检索和结果输出模块：根据识别结果在数据库中进行检索，输出该类别在数据库中对应的标签图像和样本图像，显示在对应区域：

(4)其它数据库链接：对于当前识别结果可在相链接的其它数据库中进行信息检索和输出(例如通过与新华字典数据库链接，可在提示框中输出这个字的读音、解释、同义字等信息)。

进一步的，基于内容的字形检索模块包括：

(1)待检索图片输入模块：此模块接收用户的一个包含待检索图像(即可以是现代文，也可以是古文字)的输入，并对该图像进行规整化处理，使得适合向分类器输入；

(2)图像识别模块：将该输入图像输入字形图像识别器中进行识别，返回该字的类别号或机器码；

进一步的，整图检测和识别模块包括：

(1)图片接收模块：用于接收用户的一张图片的输入；

(2)检测、分类模块：输入图像进入检测器中进行位置框检测，同时对每个框进行类别划分(例如甲骨文、金文、现代文等)；

(3)对检测框内图像块进行规整化处理，将划分为相同类别的放入相应字体的识别其中进行识别，得到识别结果；

(4)将检测、分类和识别结果显示在界面上供用户查看(例如检测框的颜色标识类别，在检测框旁边叠加识别结果)。

相对于现有技术，本发明所述的基于深度神经网络的古文字检测、识别和检索系统具有以下优势：

(1)检测标注系统：本系统采用了两种策略进行文本预定位，以减轻人工标注的工作量。其一通过少量人工标注对预检测深度神经网络进行训练，再将剩余待标注图像的基于此预训练网络的自动标注、连通分量提取与人工校正三者结合起来，保证标注精度的前提下大大提高标注效率；其二在连通分量分析的基础上，通过人工预设的特征(颜色、尺度、位置等信息) 对图片中标签图像块、样本图像块进行特征描述和提取，再结合人工校正步骤，进一步实现了标注效率的显著提升；

(2)识别标注系统：对古文字的标签图像(属于现代文)的标注遇到的很大的困难在于生僻字偏多，通过查字典结合各种输入法输入的形式是一个很低效的方法。本系统通过对大字库(如GB18030等)载入各种字体文件 (如".ttf"文件等)组织训练样本对深度神经网络进行OCR训练，在此基础上对标签图像块进行识别，以及基于预识别器评分排序的人工校正或选择，大大提高了古文字数据的识别标注效率；

(3)检索系统：本系统提供了多种检索输入方式，如机器码检索(通过各种输入法将待检索文字的机器码传给检索系统)、手写体检索(通过用户在输入板写待检索文字并通过手写体识别器转机器码的方式将待检索文字的机器码传给检索系统)和以图搜图(通过用户输入一个包含待检索文字的图像块并通过识别器得到机器码，然后传递给检索系统)，可以更加方便地适应不同的用户检索需求；

(4)数据库建立和多数据库链接：不同的数据源对应于一个数据库，每个数据库中对应有两张表格，用于存放标签和样本图像信息，可以通过标签图像机器码等方式将多个数据库相连，进行多数据库联合检索，给用户提供更全面的信息；

(5)整图检测和识别功能：由于本系统训练了基于深度神经网络的古文字检测、分类器，所以对于包含多个和多字体文字的整张图像，可以进行 “检测&分类+识别”的二级处理策略，进行更加准确的信息提取和翻译。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为系统模块划分图；

图2为系统界面图；

图3为基于深度神经网络预定位和基于极值区域剪枝的连通分量提取方法的半自动框标注示意图；

图4为用于检测任务和识别任务的网络结果；

图5为极值区域稳定度与面积变换显著度的关系；

图6为加权系数p对显著性曲线的影响对比；

图7为基于深度神经网络预标注的标签图片识别标注；

图8为数据库查看示例；

图9为检测和分类器界面和效果预览；

图10为机器码检索示例图；

图11为手写检索示例图；

图12为以图搜图示例图；

图13为整图检测、分类、识别示例；

图14演示控制模块示例。

附图标记说明：

001-演示控制模块；002-检测标注模块；003-识别标注模块；004-数据库存储模块；005-检测和识别器训练模块；006-基于机器码检索模块；007- 基于手写体的检索模块；008-基于图像内容的检索模块；009-整图检测和识别模块；011-字体类型和库选择区；012-图像列表；013-手写区域或待检索图像显示区；014-标签图像检索结果显示区；015-原图或样本图像显示区； 016-文本提示区。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、 “上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、 “顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语 “安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图2所示是本发明实施例中基于深度神经网络的古文字检测、识别和检索系统的界面图。

如图2所示，基于深度神经网络的古文字检测、识别和检索系统包括： (1)功能模块：演示控制模块001、检测标注模块002、识别标注模块003、数据库存储模块004、检测和识别器训练模块005、基于机器码检索模块006、基于手写体的检索模块007、基于图像内容的检索模块008、整图检测和识别模块009；(2)辅助模块：字体类型和库选择区011、图像列表012、手写区域或待检索图像显示区013、标签图像检索结果显示区014、原图或样本图像显示区015、文本提示区016。

实施例一：

在这个示例中，我们将展示半自动地检测和识别标注，然后对建立数据库和分类器设定和效果预览做一些介绍。

图3展示了对于一张《新金文编》的书页扫描图像进行半自动检测标注的示例，包括自动标注和人工校正两个部分：

(1)自动检测：对于输入图像，由已经被少量标注图像训练好的预检测神经网络进行粗定位，如图3.a中的红色和绿色框所示；然后对这张图像对应的灰度图像采用基于极值区域树剪枝的连通分量提取策略进行分割，提取的连通分量边缘如图3.b的绿色线条所示；然后根据连通分量提取结果对粗定位框进行调整：首先对于每个粗定位的检测框，寻找中心在其中的所有连通分量，然后将包含这些连通分量的最小外接框作为当前粗定位框的调整结果。

(2)人工校正：去掉误检框(删除中心位置在通过鼠标右键拖出的框之内的所有自动检测结果)，添加遗漏的文本框(将中心位置在通过鼠标左键拖出的框之内的所有连通分量作为添加的新的文字区域)，最终结果如图 3.c所示。

在对输入图像进行自动粗定位中，我们采用了如图4.a所示的全卷积网络进行文本粗定位，网络的基本框架为一个基于全卷积网络的目标检测网络，其在骨干网络中增加了从高层到底层的反卷积回路，并通过每个stage 对对应反卷积结果的拼接达到特征融合的目的，网络输出端为全卷积形式，对文本似然度和文本框位置进行回归。我们在其基础上增加一个特征融合层，并在全卷积输出层增加类别回归层(后面会用到)，如图4.a所示。在网络的全卷积输出层中，每个像素的位置会输出一个文本似然度和该位置所在文字外接框，原始处理方法是对所有似然度大于阈值的像素的外接框做非极大值抑制，其效果如图3.a中的红色框所示。

在进行连通分量提取(即图3.b所示)过程中，我们采用基于极值区域树剪枝(PERT：Pruning of Extremal Region Tree)：在灰度图向上进行阈值由小变大的二值化过程，每次二值化都会形成一些无重叠的连通分量集合，所有阈值对应的连通分量集合形成了一棵树。我们发现，在阈值变化过程中，对在这棵树中每一个从叶子到根的路径上，我们发现，比较稳定的极值区域(即更倾向于对应于真实整个物体)处于面积变化平坦区的中间部分。为了方便描述这种稳定性，我们提出极值区域r的归一化面积曲线

它是一个长度为固定值的向量(例如长度为255)，每个位置的值为这个叶到根路径的在阈值为I_r时的区域的面积ν_r(i_r)与ν_r的面积的比值，但如果ν_r (i_r)面积超过了ν_r则取倒数，等价于如下公式：

曲线如图5每个子图右下子图所示。通过对图5的四个子图对比可看出，越稳定的区域曲线与x轴围城的面积越大，我们可以通过这个面积相加获得当前区域r的稳定度，但我们更希望越靠近r的位置权值越大，由于

是一个小于等于1的向量，越靠近r的地方值越大，因此我们可以采用自身加权方式进行处理(即自身值区p次方，p>＝1)。因此我们引入归一化面积的加权和作为区域r的显著度ω(r)，计算公式如下：

图6展现了p值对于显著度曲线的影响：p值越大，显著度对阈值变换越敏感，极值点越多。我们在连通分量提取时，计算所有极值区域的显著度值，并依据一定的策略进行剪枝得到候选连通分量集合(本任务中，我们用非极大值抑制的策略得到无重叠连通分量集合)。

传统全卷积网络对所有像素回归的外接框采用非极大值抑制方法获得，但这种做法显然忽略了似然度非最大的像素对文本框位置的贡献，因此我们开发了基于极值区域树剪枝的文本框平均位置计算法。首先我们对于深度网络对文本似然度的回归图像进行极值区域树剪枝，剪枝策略为对所有单父子关系时进行非极大值抑制，在剩余的完全二叉树中计算所有兄弟连通分量的平均外接框(中心横纵坐标和长宽4个值分别为此连通分量所有像素四个值的平均数)。

如果这对兄弟的平均外接框重叠率大于阈值T_IoU，则删除这对兄弟(以及所有子孙节点)，而保留其父节点，否则删除父节点，重复此操作，直到无任何剩余节点间有父子关系(或重叠关系)。然后对所有连通分量的进行平均似然度阈值为T_ccSc的阈值过滤，并对所有连通分量的平均外接框的中心区域(中心不变，长宽缩半)的平均似然度进行阈值为T_bbSc的阈值过滤，得到最终的框检测结果，如图3.a中的绿框所示。(本实验中，T_IoU＝0.25；T_ccSc＝0.2；T_bbSc＝0.15)

在经过位置标注后，进入识别标注阶段，首先我们依据位置标注结果将所有字符位置取出正方形区域并归一化到同样大小(例如56*56像素)；然后我们依据事先训练好的标签图像识别器进行预识别，然后进行人工校正阶段，界面如图7所示，在中间区域显示出识别评分排名前10的结果(如果待选项中没有正确的，可勾选“从更多中选”复选框，并在右侧大图中选排名前100的)，选择结束后，按回车进入下一个识别结果的人工校正。图4.b和4.c展示了用于识别任务的两个可选网络结构。

完成识别标注后，我们在确认数据库安装正确后，进行建库操作(在模块004中进行)后，进行对数据库进行查看(如图8.a，8.b分别展示了某个数据库中的标签图像表和样本图像表)。

然后进入分类器训练阶段。

识别器训练：首先我们在检测和识别器训练模块005区域中点击“检测器”按钮，进入如图9.a所示的检测器训练和预览模块，可在文件名列表框中点右键，对检测和分类(即属于哪种字体的类别)标注的结果进行查看(如图9.a右侧大图所示)，然后在界面左边设置训练参数，点击开始训练后，进入训练阶段；

标签图像训练阶段：由于汉字类别多，只从当前数据集中获取标签图像训练数据显然不现实，我们选择一个能基本包含当前待标注字集的字库(例如“GBK+金文宋体”字库等)，提取该字库下所有字体库数据进行训练(如图9.b右侧所示为“丒”的各个字体的写法，右下角为识别器识别结果，无背景为识别正确，灰色背景为错误)。训练数据加载完成后，设置训练参数、数据增强参数后，进入训练阶段。

手写体训练：我们从CASIA-HWDB1.1脱机手写体数据库(包含3755个类的一级汉字)提取数据，设置训练参数和数据增强参数后，进行训练。同样可以在右侧大图区域预览手写体数据和识别结果。如图9.c所示为手写体训练及效果预览界面。

字形识别器训练：本阶段我们将标签图像和样本图像混合在一起训练识别器，界面如图9.d所示，右侧大图为训练数据预览和识别结果预览，经过训练参数设定和数据增强参数设定后，可按“开始训练”按钮进行训练阶段。

实施例二：使用者检索示例

这个阶段我们对三种古文字检索方法和整图检测、分类和识别进行示例说明。

首先，假如用户想通过机器码检索方式检索某个字在某个数据库中的所有甲骨文写法，用户可在基于机器码检索模块006中的文本框输入待检索字 (例如“方”)，按回车后，系统将当前数据库(如甲骨文字典数据库)存储的此字对应的标签图像显示在手写区域或待检索图像显示区013中，样本图像集合显示在原图或样本图像显示区015中，如图10所示。

如果用户想通过手写汉字的形式检索此字(必须在一级汉字类别中)对应的所有古文字形，用户可在基于手写体的检索模块007中按“开始写字” 按钮，并在手写区域或待检索图像显示区013中光标拖动写字，然后按“识别此手写体”对该字进行识别，将识别结果显示在基于手写体的检索模块007 右下角，并在当前数据库中检索得到的标签图像和样本图像分别显示在标签图像检索结果显示区014和原图或样本图像显示区015中，如图11所示。

如果用户想通过输入图像块的方式检索此图像块字识别结果一样的字，用户可(选择好分类器后)在基于图像内容的检索模块008中按“选查询图” 按钮，选择待查询图的路径，系统将识别结果显示在基于图像内容的检索模块008右下角，并在当前数据库中检索得到的标签图像和样本图像分别显示在标签图像检索结果显示区014和原图或样本图像显示区015中，如图12 所示。

如果用户想对一张包含多个文字的图像中对文字进行检测、分类、识别操作，可在整图检测和识别模块009中点击“整图检测分类识别”按钮进行输入图像路径选择，系统会在整图上进行基于深度网络的文本似然度和位置回归和字体分类，并对每个框利用其类别信息输入特定字体的识别分类器中进行识别，将识别结果输出在相应位置旁边。如果用户怀疑某个字的识别结果，可通过单击此字所在检测框，系统将当前字识别结果排序后输出在识别标注模块003内，并在每个识别结果上方显示似然度评分。该示例如图13 所示。

实施示例三：演示控制模块示例

由于整个系统功能模块非平行，而是环环相扣(例如识别标注前必须先完成位置标注、建数据库前先完成所有标注等)，所以如果某个先行模块完成前，用户开启后端模块演示会出错，因为我们在系统中加入一个对先行模块完成情况的判断，如果任何一个先行模块未完成，当前模块处于灰色(不可操作状态)，例如图14.a除了位置标注模块可操作，其余功能模块都为灰色。反之，如果用户想演示某个标注模块，而此模块已经标注完成，系统发现标注缓存已存在，仍会发生演示失败。为了方便用户演示方便，我们在所有数据已经标注好前提下，依据先行后继关系设计演示控制模块(如模块区域001所示)，用户选择“载入检测分类数据”和“载入检测框数据”复选框后，识别标注模块开启，如图14.b所示，如用户选择“载入标注数据” 复选框，则识别标注数据载入，“数据库模块”和“检测分类器”模块开启， “载入数据库文件”复选框选中后，所有可操作模块都可用；反之，相应复选框取消选中，按照先行后继顺序，某些模块也会转为不可操作模式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度神经网络的古文字检测、识别和检索系统，其特征在于，包括：

开发者模块群，用于建立古文字数据库，以及对标签数据和样本数据进行训练；

使用者模块群，用于输入待识别数据，输出识别结果；

演示控制模块，用于控制系统功能模块的执行顺序。

2.根据权利要求1所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于，所述开发者模块群包括：

基于预检测的框标注模块，用于在包含古文字形的图像中，对其中的样本区域位置和标签区域位置、以及他们之间的对应关系分别进行机器自动提取，并通过人工修正完成检测框标准数据的获取；

基于预识别的识别标注模块，用于根据提取出的标签位置，获取所有标签位置对应的图片块，并通过预识别系统对这些图像块进行初步识别，然后通过人工校正，得到标签图像块的机器码；

数据库存储模块，用于将所有的标签图片和样本图像以及它们的对应关系，通过表的形式存储在后台数据库中；

检测器和识别器训练模块，用于根据框标注模块获取的检测框对检测器进行训练，根据识别标注模块获取的标签机器码和框标注模块获取的样本图像，以及和这些标签的对应关系，对分类器进行训练。

3.根据权利要求1所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于，所述使用者模块群包括：

基于机器码的古文字检索模块，用于用户通过输入法等形式将待检索文字输入系统，模块返回在数据库中的检索结果；

基于手写的古文字检索模块，用于用户通过手写方式将待检索的现代文字写在界面上，模块进行手写体识别，翻译成机器码并返回该机器码在数据库中的检索结果；

基于图像内容的字形检索模块，用于用户向模块提供一张包含待检索文字的图像，模块通过对其识别，翻译成机器码并返回该机器码在数据库中的检索结果；

整图检测和识别模块，用户输入一张待检测和识别的图像，模块通过训练得到的检测器对该图片中所有古文字位置进行定位，然后对所有检测框内的文字用识别器进行识别，得到最终检测和识别结果，显示给用户。

4.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于：所述基于预检测的框标注模块包括框提取策略选择模块、特征预设模块、目标预定位模块、以及手动修正模块；

所述框提取策略选择模块包括：

预定位模块和连通分量提取模块，所述预定位模块包括深度神经网络预定位模块以及基于设计特征的预定位模块，所述连通分量提取模块包括基于极值区域树剪枝的连通分量提取模块和基于图片二值化和聚合策略的连通分量提取模块；

所述特征预设模块包括通过对样本图像块和标签图像块对应的连通分量在图像位置分布、亮度或颜色特征分布特征的预先设定来对样本和标签图像块进行预先判定、以及基于样本图像和标签图像的位置关系对它们之间的对应关系进行预判；

所述目标预定位模块包括：

如果选择基于深度神经网络预定位模块，则系统首先依据手动标注出来的少量框位置的样本和标签图像区域，对基于深度卷积网络的检测器进行训练；然后对于待自动标注的图像用此检测器进行预检测，输出结果分别为推荐的样本图像块的外接框和标签图像块的外接框；

如果选择基于设计特征的预定位模块，则系统对事先提取的连通分量，依据设计好的位置、尺度或颜色等特征对连通分量进行特征提取，并进行分类和基于尺度和位置关系进行聚合，最终分别确定对应于标签图像块和样本图像块的连通分量，并把这些连通分量的外接框作为预检测结果；

所述手动修正模块用于对预检测结果进行人工修改和调整处理。

5.根据权利要求4所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于：所述基于极值区域树剪枝的连通分量提取模块用于对灰度图像进行阈值逐级增大过程中的阈值分割结果所形成的树中采用剪枝策略确定最稳定的无重叠连通分量。

6.根据权利要求4所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于：所述基于二值化结果和聚合策略模块用于对整图二值化而形成连通分量集合的基础上基于字间连通分量距离相对稳定，且远大于字内连通分量距离的原则，进行的自动聚合。

7.根据权利要求4所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于：所述预定位模块中，采用基于全卷积网络的目标检测网络，并在该网络上增加反卷积层、特征融合层，输出层增加类别回归层。

8.根据权利要求5所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于：所述基于极值区域树剪枝的连通分量提取模块中，建立极值区域r的归一化面积曲线

它是一个长度为固定值的向量，每个位置的值为这个叶到根路径的在阈值为I_r时的区域的面积ν_r(i_r)与ν_r的面积的比值，但如果ν_r(i_r)面积超过了ν_r则取倒数，等价于如下公式：

引入归一化面积的加权和作为区域r的显著度ω(r)，计算公式如下：

在连通分量提取时，计算所有极值区域的显著度值，并依据非极大值抑制的策略进行剪枝得到候选连通分量集合。

9.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于，所述基于预识别的识别标注模块包括：

分类器选择子模块，用于通过选择训练好的分类器对标签图像块进行预识别；

显示待标注标签并加载预识别结果子模块，用于通过检索标注结果列表，选择首个未被标注的标签图像，在界面上显示给标注者，同时从分类器的识别结果中按照似然度排序显示在待选择位置；

对预标注结果进行选择或修正子模块，用于通过标注者判断预标注结果是否正确，如不正确则从剩余识别结果中选择或者手工输入得到标注结果，如果当前标签图像无法输入，则以特定标识符代替；

回看检查子模块，用于回看所有已正常标注的字，每页显示N*N个标签图像，标签图像旁边显示标注结果，用于标注者检查是否有错标现象，按下一页或上一页进行浏览转换；回看所有标注为无法标注结果的字，用户检查是否能追加可认识的字的标注。

10.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统，其特征在于：所述检测器和识别器训练模块包括：检测器训练子模块、标签图像块识别器训练子模块、手写识别器训练子模块和字形图像识别器训练子模块；

所述检测器训练子模块用于利用检测标注结果对检测器进行训练；

所述标签图像块识别器训练子模块是用于对标签图像进行预识别的分类器进行训练；

所述手写识别器训练子模块是用于对用户的手写输入进行识别并向机器码转换时采用的分类器进行训练；

所述字形图像识别器训练子模块是用于用户进行基于内容的图像检索时对输入图像进行识别而采用的分类器进行训练。