CN111985462A - 基于深度神经网络的古文字检测、识别和检索系统 - Google Patents
基于深度神经网络的古文字检测、识别和检索系统 Download PDFInfo
- Publication number
- CN111985462A CN111985462A CN202010739865.5A CN202010739865A CN111985462A CN 111985462 A CN111985462 A CN 111985462A CN 202010739865 A CN202010739865 A CN 202010739865A CN 111985462 A CN111985462 A CN 111985462A
- Authority
- CN
- China
- Prior art keywords
- module
- image
- label
- identification
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度神经网络的古文字检测、识别和检索系统,最终能够在多个应用场景下实现较为精准地对古文字信息的检测、识别和方便地检索。从总体结构上划分,整个系统可分为开发者模块群、使用者模块群和演示控制模块,前者包括基于预检测的框标注模块、基于预识别的识别标注模块、数据库存储模块、检测器和识别器训练模块;中者分为基于机器码的古文字检索模块、基于手写的古文字检索模块、基于图像内容的字形检索模块、整图检测和识别模块;演示控制模块则通过用户的演示需要,对当前已经进行过的一部分功能的缓存数据进行屏蔽或开启。
Description
技术领域
本发明属于古文字检测、识别领域,尤其是涉及一种基于深度神经网络 的古文字检测、识别和检索系统。
背景技术
古文字是随着历史的变迁而产生的古代文字,例如在中国古代曾出现过 甲骨文、金文等等,这些文字由于距今年代较远,对专家考证和大众识别都 带来了一些困难和挑战。
为了弥合古文字与现代人理解力的鸿沟,为科学研究提供方便,基于机 器学习和计算机视觉的古文字检测、分类和识别工作变得越来越重要;同时, 建立在检测、分类和识别工作之上的古文字检索系统将对古籍数字化、有序 化产生重要推动作用。
然而,现在大多数基于机器学习的古文字研究工作大多集中在识别领 域,即对人工切分好的古文字图像块进行识别,而这种切分工作需要有一定 古文字功底的人耗费大量地经历完成。
另外,大多数古文字的识别工作限定在一定的字体之内,如甲骨文识别、 金文识别等,而对于多种字体混合的识别任务中(例如旁边带有现代文注释 的甲骨文或金文图片),则难以同时保证准确率和高效性。
发明内容
有鉴于此,本发明旨在提出一种基于深度神经网络的古文字检测、识别 和检索系统,在对不同种类的古文字进行有效检测、分类(特指字体分类)、 识别基础上,实现用户方便、准确地进行检索。
为达到上述目的,本发明采用了如下技术方案:
一种基于深度神经网络的古文字检测、识别和检索系统,用于在对不同 种类的古文字进行有效检测、分类、识别基础上,实现用户方便、准确地进 行检索,包括:
开发者模块群,包括“基于预检测的框标注模块”,“基于预识别的识 别标注模块”,“数据库存储模块”,“检测器和识别器训练模块”;
使用者模块群,由“基于机器码的古文字检索模块”,“基于手写的 古文字检索模块”,“基于图像内容的字形检索模块”,“整图检测和识别 模块”组成;
演示控制模块。
进一步的,开发者模块群包括:
(1)基于预检测的框标注模块:在包含古文字的图像中,对其中的样本 (古文字字符)区域位置和标签(现代文字符)区域位置、以及他们之间的 对应关系分别进行机器自动提取,并通过手工修正完成检测框标准数据的获 取;
(2)基于预识别的识别标注模块:根据提取出的标签位置,获取所有标 签位置对应的图片块,并通过预识别系统对这些图像块进行初步识别,然后 通过人工校正后,得到标签的机器码;
(3)数据库存储模块:将所有的标签图片(现代文)和样本图像(古文 字)以及它们的对应关系,通过表的形式存储在后台数据库中;
(4)检测器和识别器训练模块:根据框标注模块获取的检测框对检测器 进行训练,根据识别标注模块获取的标签机器码和框标注模块获取的样本图 像,以及和这些标签的对应关系,对分类器进行训练;
进一步的,使用者模块群包括:
(1)机器码检索模块:用户通过输入法将带检索文字输入界面,模块返 回检索结果(包括数据库存储的样本图像和标签图像);
(2)手写检索模块:用户通过手写方式将待检索的现代文写在界面手写 板上,模块进行手写体识别,翻译成机器码并返回该机器码在数据库中的检 索结果(包括数据库存储的样本图像和标签图像);
(3)基于内容的字形检索模块:用户向模块提供一张包含待检索字的 图像块,模块进行识别,翻译成机器码并返回该机器码在数据库中的检索结 果(包括数据库存储的样本图像和标签图像);
(4)整图检测和识别模块:用户输入一张待检测和识别的(通常包含多 个文字)图像,模块通过训练得到的检测器对该图片中所有古文字位置进行 定位,然后对所有检测框内的文字用识别器进行识别,得到最终检测和识别 结果,显示给用户;
进一步的,基于预检测的框标注模块包括框提取策略选择模块,特征预 设模块,目标预定位模块、以及手动修正模块。
进一步的,策略选择模块可分为预定位方法和连通分量提取方法;
其中预先定位方法分为:“深度神经网络预定位”和“基于设计特征的预定 位”;其中连通分量提取方法分为:“基于极值区域剪枝的连通分量提取” 和“基于图片二值化和聚合策略的连通分量提取”两个;
进一步的,特征预设模块的作用包括通过对样本(即古文字)图像块和 标签(即其对应的现代文)图像块对应的连通分量在图像位置分布、亮度或 颜色特征分布等特征的预先设定来对样本和标签图像块进行预先判定;
特征预设模块还包括基于样本图像和标签图像的位置关系对它们之间 的对应关系进行预判。
进一步的,目标预定位模块的作用包括:
(1)如果选择的是“基于深度神经网络预定位”,则系统会首先依据手 动标注出来的少量框位置的样本和标签图像区域,对基于深度卷积网络的检 测器进行训练;然后对于待自动标注的图像用此检测器进行预检测,输出结 果分别为推荐的样本图像块的外接框和标签图像块的外接框;
(2)如果选择的是“基于设计特征的预定位”,则系统会对事先提取的 连通分量,依据设计好的位置、尺度或颜色等特征进行分类和适当聚合,最 终分别确定对应于标签图像块和样本图像块的连通分量,并把这些连通分量 的外接框作为预检测结果。
进一步的,连通分量提取模块分为:“基于极值区域树剪枝的连通分量 提取方法”和“基于二值化结果和聚合策略”两种,提取的连通分量用于对 目标预定位进行的特征计算和提取后的位置修正提供方便;
其中“基于极值区域树剪枝的连通分量提取方法”是一种基于对灰度图 像进行阈值逐级增大过程中的阈值分割结果所形成的树中采用一定的剪枝 策略确定最稳定的无重叠连通分量的一种策略;
其中“基于二值化结果和聚合策略”是一种采用OTSU(最大类间方差法) 方法对整图二值化而形成连通分量集合的基础上基于字间连通分量距离相 对稳定,且远大于字内连通分量距离的原则下进行的自动聚合的策略;
进一步的,手动修正模块的功能为:
(1)将标签图像块和样本图像块的预检测结果通过一定颜色的矩形框显 示在原始图像上;
(2)如预标注结果有遗漏,手动拖动鼠标框住遗漏位置,程序将此外接 框内所有连通分量的最小外接矩形作为检测框的添加结果;
(3)如预标注中有误检测结果(非关注目标被检测到),则用鼠标右键 拖动一个矩形框,中心在此框内所有预检测框的类别设定为非关注目标(即 删除这些框)。
进一步的,基于预识别的识别标注模块包括:
(1)分类器选择子模块:选择训练好的分类器并对标签图像块进行预识 别;
(2)显示待标注标签并加载预识别结果子模块:检索标注结果列表,选 择首个未被标注的标签图像,在界面上显示给标注者。同时从分类器的识别 结果中按照似然度排序选前N个显示在待选择位置(其中评分最高的为预标 注结果);
(3)对预标注结果进行选择或修正子模块:标注者判断预标注结果是否 正确,如不正确则从剩余识别结果中选择或者手工输入得到标注结果。如果 当前标签图像无法输入(例如待选项中无此字且标注者不认识此字无法输 入),则以特定标识符代替(例如输入“?”代表无法标注);
(4)回看检查子模块:a、回看所有已正常标注的字,每页显示N*N个 标签图像,标签图像旁边显示标注结果,用于标注者检查是否有错标现象, 按下一页或上一页进行浏览转换;b、回看所有标注为无法标注结果的字(例 如标注为“?”的标签图像),用户检查是否能追加可认识的字的标注;
进一步的,预识别的识别标注模块中的分类器选择子模块还包括:
(1)本系统中用到的预识别分类器可分为:tesseract开源识别软件, 若干基于深度神经网络的分类器;
(2)对于基于深度神经网络的分类器,根据训练数据采用的字库大小, 分类器又可分为:基于GB2312库、基于BIG-5字库、基于GB18030字库、 基于“GB18030+金文”字库、基于GBK字库、基于“GBK+金文”字库等多个 不同类别数设定的分类器;
(3)为了避免频繁切换分类器,设定从属分类器选择,如果所选从属分 类器与所选主分类器不同,则在排名6-10的位置上显示从分类器排名前5 的识别结果;如果和所选主分类器相同,则仍然显示主分类器排名6-10的 识别结果。
进一步的,显示待标注标签并加载预识别结果子模块还包括:
(1)默认情况下,系统除了将预识别结果(即似然度最高的识别结果) 显示在待判断框中,还将识别结果排名前10(或者主、从分类器各排名前5) 的显示在标有“1、2、...、9、a”10个标号的文本框中,如预识别结果不 正确,用户可通过鼠标右键选择或者按键盘上相应键进行选择,被选择文本 框中字变红,同时此字复制到待判断框中;如框内字符确实为标签机器码(或 者为“?”标识无法标识)用户通过回车对此判断框进行确认;
(2)为了给用户更多选择,标注者可以选择“从更多中选”复选框,则 大图区域显示主分类器排名前100的分类器排序结果,用户可通过鼠标左键 点击进行选择,被选字变红,同时复制此字到待判断文本框中,等待标注者 按回车确认;
进一步的,显示待标注标签并加载预识别结果子模块还包括:
(1)对标注进程进行返回上一个操作:如果由于标注者手误等原因在标 注可能不正确的情况下按了回车进入下一个标签图像块标注流程的情况下, 用户可通过按下“返回上一个”按钮进入对上一个标签图像的重新标注的过 程;
(2)在启动标注进程时,系统会根据保存在缓存中的已标注信息对首个 未标注标签图像进行定位,此时“跳过‘?’”单选框如果为选中状态,则 系统会将标注为“?”的字符当作已经标注的,而不选择;否则系统将视标 注为“?”的字符为未标注字符;
进一步的,基于预识别的识别标注模块的回看检查模块还包括:
回看已正常标注的字时,通过点击此字位置,可进入对该字标注结果的 修正模式;回看标注为不认识的字时,通过点击此字,可进入对该字的标注 模式;
进一步的,数据库存储模块包括:数据库系统状态检查模块、数据库建 立模块和数据库查看模块。
进一步的,数据库系统状态检查模块会进行如下两方面检查:
(1)对系统中是否存在本系统要求的数据库(例如mysql数据库)是否 被成功地安装在系统中进行测试;
(2)检查该数据库相应环境变量是否登记在系统中;
进一步的,数据库建立模块会完成以下工作:
(1)如果系统中还未建立当前数据集(如金文数据集、甲骨文数据集等) 所对应的数据库名(如“ancient-char”、“oracle-dic”等),则会在文 本提示区将建库方法步骤进行提示;如果建库成功,则将这些数据库的登录 密码显示在相应位置;
(2)以表的形式分别将标签图像的ID号、标注结果、存储路径和相应 样本图像个数等信息存储在“标签图像表”中,将样本图像的ID、存储路径、 所对应的标签图像的ID号等信息存放在“样本图像表”中,两个表格通过 标签图像ID产生关系;
(3)抽取所有经过位置框标注的样本和标签图像(以及他们之间的位置 关系)以及经过标签图像识别标注的标注信息,写入相应存储位置,并对两 张表格进行数据追加;
进一步的,数据库查看模块会将建好的数据库中的表格,以及其中插入 的数据在界面上显示给用户,以便用户确认表格格式是否有改进的地方,或 者数据是否有误等。
进一步的,检测器和识别器训练模块包括:检测器训练子模块、标签图 像块识别器训练子模块、手写识别器训练子模块和字形图像识别器训练子模 块;
进一步的,检测器训练子模块分为以下部分:
(1)训练数据提取和加载模块:将原始图像和位置标注结果等信息进行 格式化,变成分类器可利用的训练(和验证)数据;同时将该区域内的字 体(如甲骨文、金文或现代文等)的类别标号也输入分类器,以便检测器在 框检测同时进行类别预测;
(2)参数设定模块:对使用的骨干网络进行选择、对学习率(或学习率 的阶梯形状)的设定、batch大小的设定、训练资源选择(如是否使用GPU) 的设定;
(3)训练模块:系统在训练的同时,将训练集和验证集的损失在每一轮 训练之后显示给用户,以便用户决定什么时候结束训练,或者决定改变学习 率的时机。
进一步的,标签识别器训练子模块是用于对标签图像进行预识别的分类 器,包括:
(1)训练数据生成子模块:用各种字体(如楷体、黑体、宋体等)对不 同字库中的字以一定大小显示,并截取其有效部分作为训练数据;
(2)训练参数设定子模块:选择分类器类型、学习率(或学习率阶梯形 状)设定、Batch大小设定、训练资源(如是否需要GPU)等
(3)数据增强参数设定子模块:为了提高分类器鲁棒性,需要对输入数 据进行一定亮度(如对比度变换,前背景亮度反转等)、形状变形(斜切、 旋转、缩放)、模糊化和复杂背景加入等的数据增强,每种数据增强包括随 机发生的概率值和变换强度范围(如旋转角度不能超过多少度);
(4)数据增强预览子模块:为了便于用户调整数据增强强度范围,该模 块可在当前参数设定下随机产生增强效果(同时输出每种数据增强方法随机 值);
(5)训练子模块:系统对当前训练数据,在一定的数据增强策略下,以 一定的训练参数进行训练,每轮训练后向用户返回当前损失平均值;
(6)当前训练的识别结果预览子模块:为了便于用户了解当前训练完成 的充分程度,可以对原始数据(或者数据增强后数据)用当前分类器训练结 果进行测试,以N*N格形式显示在大图,在测试图像块旁边显示识别结果, 如正确为绿色,错误为红色,同时统计出当前页面识别错误率。
进一步的,其中,手写识别器训练子模块是用于在用户通过手写输入方 式进行检索时采用的分类器,包括:
(1)训练数据加载模块:加载手写体训练数据集,对数据进行规整化处 理,以便于后续训练;
(2)数据增强参数设定模块:用于设定亮度变换(对比度变换、前景背 景反转等)、形状变换(斜切、旋转、缩放等)、模糊化、复杂背景添加等 的随机策略和变换强度范围;
(3)数据增强查看模块:按照当前数据增强参数设定,随机选取N*N个 手写体字进行数据增强,用于用户对当前数据增强的变换强度进行查看,以 便进行参数调整;
(4)训练参数设定:包括采用分类器网络、学习率或学习率阶梯形状设 定、Batch大小、训练资源选择等;
(5)手写体识别训练模块:在训练过程中,输出每轮训练后的损失曲线 变化,以便用户进行停止训练或者改变学习率决策;
(6)对识别结果查看模块:用户可使用当前训练结果对手写体图像(或 数据增强后的图像)进行测试,并组成N*N的方格显示在界面上;
进一步的,字形图像识别器训练子模块是用于用户进行基于内容的图像 检索时对输入图像进行识别而采用的分类器,包括:
(1)训练数据生成子模块:根据标注结果所得到的所有样本图像块和标 签图像块,经过规整化处理后组成训练数据和验证数据,以便后续训练过程 调用;
(2)训练参数设定子模块:选择分类器类型、学习率(或学习率阶梯形 状)设定、Batch大小设定、训练资源(如是否需要GPU)等;
(3)数据增强参数设定子模块:为了提高分类器鲁棒性,需要对输入数 据进行一定亮度变换(如对比度变换,前背景亮度反转等)、形状变形(斜 切、旋转、缩放)、模糊化和复杂背景加入等的数据增强,每种数据增强包 括随机发生的概率值和变换强度范围(如旋转角度不能超过多少度);
(4)数据增强预览子模块:为了便于用户调整数据增强强度范围,该模 块可在当前参数设定下随机产生增强效果(同时输出每种数据增强方法随机 值);
(5)训练子模块:系统对当前训练数据,在一定的数据增强策略下,以 一定的训练参数进行训练,每轮训练后向用户返回损失变化曲线;
(6)当前训练的识别结果预览子模块:为了便于用户了解当前训练完成 的充分程度,可以对原始数据(或者数据增强后数据)用当前分类器训练结 果进行测试,以N*N格形式显示在大图,在测试图像块旁边显示识别结果, 如正确为绿色,错误为红色,同时统计出当前页面识别错误率。
进一步的,机器码检索模块包括:
(1)用于接收用户输入的文本框:用户通过各种输入法将待检索古文字 的现代文译文输入其中;
(2)数据库中检索得到该机器码对应类别的标签图像和样本图像分别显 示在相应区域;
(3)其它数据库链接:对于当前机器码可在相链接的其它数据库中进行 信息检索和输出(例如通过与新华字典数据库链接,可在提示框中输出这个 字的读音、解释、同义字等信息)。
进一步的,手写检索模块包括:
(1)手写输入模块:包括一个可以进行输入的区域(如鼠标光标轨迹记 录区域或外接手写板)和图像转换子模块(用于将接收到的手写轨迹转化为 分类器可以接收的图像格式),用户将待检索古文字对应的现代文写在手写 板上(受训练数据库所限,手写识别只支持3755个一级汉字输入);
(2)手写识别模块:将手写输入图像输入手写识别器中进行识别,返回 该字的类别号或机器码;
(3)数据库检索和结果输出模块:根据识别结果在数据库中进行检索, 输出该类别在数据库中对应的标签图像和样本图像,显示在对应区域:
(4)其它数据库链接:对于当前识别结果可在相链接的其它数据库中进 行信息检索和输出(例如通过与新华字典数据库链接,可在提示框中输出这 个字的读音、解释、同义字等信息)。
进一步的,基于内容的字形检索模块包括:
(1)待检索图片输入模块:此模块接收用户的一个包含待检索图像(即 可以是现代文,也可以是古文字)的输入,并对该图像进行规整化处理,使 得适合向分类器输入;
(2)图像识别模块:将该输入图像输入字形图像识别器中进行识别,返 回该字的类别号或机器码;
(3)数据库检索和结果输出模块:根据识别结果在数据库中进行检索, 输出该类别在数据库中对应的标签图像和样本图像,显示在对应区域:
(4)其它数据库链接:对于当前识别结果可在相链接的其它数据库中进 行信息检索和输出(例如通过与新华字典数据库链接,可在提示框中输出这 个字的读音、解释、同义字等信息)。
进一步的,整图检测和识别模块包括:
(1)图片接收模块:用于接收用户的一张图片的输入;
(2)检测、分类模块:输入图像进入检测器中进行位置框检测,同时对 每个框进行类别划分(例如甲骨文、金文、现代文等);
(3)对检测框内图像块进行规整化处理,将划分为相同类别的放入相应 字体的识别其中进行识别,得到识别结果;
(4)将检测、分类和识别结果显示在界面上供用户查看(例如检测框的 颜色标识类别,在检测框旁边叠加识别结果)。
相对于现有技术,本发明所述的基于深度神经网络的古文字检测、识别 和检索系统具有以下优势:
(1)检测标注系统:本系统采用了两种策略进行文本预定位,以减轻 人工标注的工作量。其一通过少量人工标注对预检测深度神经网络进行训 练,再将剩余待标注图像的基于此预训练网络的自动标注、连通分量提取与 人工校正三者结合起来,保证标注精度的前提下大大提高标注效率;其二在 连通分量分析的基础上,通过人工预设的特征(颜色、尺度、位置等信息) 对图片中标签图像块、样本图像块进行特征描述和提取,再结合人工校正步 骤,进一步实现了标注效率的显著提升;
(2)识别标注系统:对古文字的标签图像(属于现代文)的标注遇到 的很大的困难在于生僻字偏多,通过查字典结合各种输入法输入的形式是一 个很低效的方法。本系统通过对大字库(如GB18030等)载入各种字体文件 (如".ttf"文件等)组织训练样本对深度神经网络进行OCR训练,在此基础 上对标签图像块进行识别,以及基于预识别器评分排序的人工校正或选择, 大大提高了古文字数据的识别标注效率;
(3)检索系统:本系统提供了多种检索输入方式,如机器码检索(通 过各种输入法将待检索文字的机器码传给检索系统)、手写体检索(通过用 户在输入板写待检索文字并通过手写体识别器转机器码的方式将待检索文 字的机器码传给检索系统)和以图搜图(通过用户输入一个包含待检索文字 的图像块并通过识别器得到机器码,然后传递给检索系统),可以更加方便 地适应不同的用户检索需求;
(4)数据库建立和多数据库链接:不同的数据源对应于一个数据库, 每个数据库中对应有两张表格,用于存放标签和样本图像信息,可以通过标 签图像机器码等方式将多个数据库相连,进行多数据库联合检索,给用户提 供更全面的信息;
(5)整图检测和识别功能:由于本系统训练了基于深度神经网络的古 文字检测、分类器,所以对于包含多个和多字体文字的整张图像,可以进行 “检测&分类+识别”的二级处理策略,进行更加准确的信息提取和翻译。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的 示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在 附图中:
图1为系统模块划分图;
图2为系统界面图;
图3为基于深度神经网络预定位和基于极值区域剪枝的连通分量提取方 法的半自动框标注示意图;
图4为用于检测任务和识别任务的网络结果;
图5为极值区域稳定度与面积变换显著度的关系;
图6为加权系数p对显著性曲线的影响对比;
图7为基于深度神经网络预标注的标签图片识别标注;
图8为数据库查看示例;
图9为检测和分类器界面和效果预览;
图10为机器码检索示例图;
图11为手写检索示例图;
图12为以图搜图示例图;
图13为整图检测、分类、识别示例;
图14演示控制模块示例。
附图标记说明:
001-演示控制模块;002-检测标注模块;003-识别标注模块;004-数据 库存储模块;005-检测和识别器训练模块;006-基于机器码检索模块;007- 基于手写体的检索模块;008-基于图像内容的检索模块;009-整图检测和识 别模块;011-字体类型和库选择区;012-图像列表;013-手写区域或待检索 图像显示区;014-标签图像检索结果显示区;015-原图或样本图像显示区; 016-文本提示区。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特 征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、 “上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、 “顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示 的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗 示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此 不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述 目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征 的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包 括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的 含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语 “安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也 可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可 以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。 对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明 中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
如图2所示是本发明实施例中基于深度神经网络的古文字检测、识别和 检索系统的界面图。
如图2所示,基于深度神经网络的古文字检测、识别和检索系统包括: (1)功能模块:演示控制模块001、检测标注模块002、识别标注模块003、 数据库存储模块004、检测和识别器训练模块005、基于机器码检索模块006、 基于手写体的检索模块007、基于图像内容的检索模块008、整图检测和识 别模块009;(2)辅助模块:字体类型和库选择区011、图像列表012、手 写区域或待检索图像显示区013、标签图像检索结果显示区014、原图或样 本图像显示区015、文本提示区016。
实施例一:
在这个示例中,我们将展示半自动地检测和识别标注,然后对建立数据 库和分类器设定和效果预览做一些介绍。
图3展示了对于一张《新金文编》的书页扫描图像进行半自动检测标注 的示例,包括自动标注和人工校正两个部分:
(1)自动检测:对于输入图像,由已经被少量标注图像训练好的预检 测神经网络进行粗定位,如图3.a中的红色和绿色框所示;然后对这张图像 对应的灰度图像采用基于极值区域树剪枝的连通分量提取策略进行分割,提 取的连通分量边缘如图3.b的绿色线条所示;然后根据连通分量提取结果对 粗定位框进行调整:首先对于每个粗定位的检测框,寻找中心在其中的所有 连通分量,然后将包含这些连通分量的最小外接框作为当前粗定位框的调整 结果。
(2)人工校正:去掉误检框(删除中心位置在通过鼠标右键拖出的框 之内的所有自动检测结果),添加遗漏的文本框(将中心位置在通过鼠标左 键拖出的框之内的所有连通分量作为添加的新的文字区域),最终结果如图 3.c所示。
在对输入图像进行自动粗定位中,我们采用了如图4.a所示的全卷积网 络进行文本粗定位,网络的基本框架为一个基于全卷积网络的目标检测网 络,其在骨干网络中增加了从高层到底层的反卷积回路,并通过每个stage 对对应反卷积结果的拼接达到特征融合的目的,网络输出端为全卷积形式, 对文本似然度和文本框位置进行回归。我们在其基础上增加一个特征融合 层,并在全卷积输出层增加类别回归层(后面会用到),如图4.a所示。在 网络的全卷积输出层中,每个像素的位置会输出一个文本似然度和该位置所 在文字外接框,原始处理方法是对所有似然度大于阈值的像素的外接框做非 极大值抑制,其效果如图3.a中的红色框所示。
在进行连通分量提取(即图3.b所示)过程中,我们采用基于极值区域 树剪枝(PERT:Pruning of Extremal Region Tree):在灰度图向上进行 阈值由小变大的二值化过程,每次二值化都会形成一些无重叠的连通分量集 合,所有阈值对应的连通分量集合形成了一棵树。我们发现,在阈值变化过 程中,对在这棵树中每一个从叶子到根的路径上,我们发现,比较稳定的极 值区域(即更倾向于对应于真实整个物体)处于面积变化平坦区的中间部分。 为了方便描述这种稳定性,我们提出极值区域r的归一化面积曲线它 是一个长度为固定值的向量(例如长度为255),每个位置的值为这个叶到 根路径的在阈值为Ir时的区域的面积νr(ir)与νr的面积的比值,但如果νr (ir)面积超过了νr则取倒数,等价于如下公式:
曲线如图5每个子图右下子图所示。通过对图5的四个子图对比可 看出,越稳定的区域曲线与x轴围城的面积越大,我们可以通过这个面积相 加获得当前区域r的稳定度,但我们更希望越靠近r的位置权值越大,由于 是一个小于等于1的向量,越靠近r的地方值越大,因此我们可以采用 自身加权方式进行处理(即自身值区p次方,p>=1)。因此我们引入归一化 面积的加权和作为区域r的显著度ω(r),计算公式如下:
图6展现了p值对于显著度曲线的影响:p值越大,显著度对阈值变换 越敏感,极值点越多。我们在连通分量提取时,计算所有极值区域的显著度 值,并依据一定的策略进行剪枝得到候选连通分量集合(本任务中,我们用 非极大值抑制的策略得到无重叠连通分量集合)。
传统全卷积网络对所有像素回归的外接框采用非极大值抑制方法获得, 但这种做法显然忽略了似然度非最大的像素对文本框位置的贡献,因此我们 开发了基于极值区域树剪枝的文本框平均位置计算法。首先我们对于深度网 络对文本似然度的回归图像进行极值区域树剪枝,剪枝策略为对所有单父子 关系时进行非极大值抑制,在剩余的完全二叉树中计算所有兄弟连通分量的 平均外接框(中心横纵坐标和长宽4个值分别为此连通分量所有像素四个值 的平均数)。
如果这对兄弟的平均外接框重叠率大于阈值TIoU,则删除这对兄弟(以 及所有子孙节点),而保留其父节点,否则删除父节点,重复此操作,直到 无任何剩余节点间有父子关系(或重叠关系)。然后对所有连通分量的进行 平均似然度阈值为TccSc的阈值过滤,并对所有连通分量的平均外接框的中心 区域(中心不变,长宽缩半)的平均似然度进行阈值为TbbSc的阈值过滤,得 到最终的框检测结果,如图3.a中的绿框所示。(本实验中,TIoU=0.25;TccSc=0.2;TbbSc=0.15)
在经过位置标注后,进入识别标注阶段,首先我们依据位置标注结果将 所有字符位置取出正方形区域并归一化到同样大小(例如56*56像素);然 后我们依据事先训练好的标签图像识别器进行预识别,然后进行人工校正阶 段,界面如图7所示,在中间区域显示出识别评分排名前10的结果(如果 待选项中没有正确的,可勾选“从更多中选”复选框,并在右侧大图中选排 名前100的),选择结束后,按回车进入下一个识别结果的人工校正。图4.b和4.c展示了用于识别任务的两个可选网络结构。
完成识别标注后,我们在确认数据库安装正确后,进行建库操作(在模 块004中进行)后,进行对数据库进行查看(如图8.a,8.b分别展示了某 个数据库中的标签图像表和样本图像表)。
然后进入分类器训练阶段。
识别器训练:首先我们在检测和识别器训练模块005区域中点击“检测 器”按钮,进入如图9.a所示的检测器训练和预览模块,可在文件名列表框 中点右键,对检测和分类(即属于哪种字体的类别)标注的结果进行查看(如 图9.a右侧大图所示),然后在界面左边设置训练参数,点击开始训练后, 进入训练阶段;
标签图像训练阶段:由于汉字类别多,只从当前数据集中获取标签图像 训练数据显然不现实,我们选择一个能基本包含当前待标注字集的字库(例 如“GBK+金文宋体”字库等),提取该字库下所有字体库数据进行训练(如 图9.b右侧所示为“丒”的各个字体的写法,右下角为识别器识别结果,无 背景为识别正确,灰色背景为错误)。训练数据加载完成后,设置训练参数、 数据增强参数后,进入训练阶段。
手写体训练:我们从CASIA-HWDB1.1脱机手写体数据库(包含3755个 类的一级汉字)提取数据,设置训练参数和数据增强参数后,进行训练。同 样可以在右侧大图区域预览手写体数据和识别结果。如图9.c所示为手写体 训练及效果预览界面。
字形识别器训练:本阶段我们将标签图像和样本图像混合在一起训练识 别器,界面如图9.d所示,右侧大图为训练数据预览和识别结果预览,经过 训练参数设定和数据增强参数设定后,可按“开始训练”按钮进行训练阶段。
实施例二:使用者检索示例
这个阶段我们对三种古文字检索方法和整图检测、分类和识别进行示例 说明。
首先,假如用户想通过机器码检索方式检索某个字在某个数据库中的所 有甲骨文写法,用户可在基于机器码检索模块006中的文本框输入待检索字 (例如“方”),按回车后,系统将当前数据库(如甲骨文字典数据库)存 储的此字对应的标签图像显示在手写区域或待检索图像显示区013中,样本 图像集合显示在原图或样本图像显示区015中,如图10所示。
如果用户想通过手写汉字的形式检索此字(必须在一级汉字类别中)对 应的所有古文字形,用户可在基于手写体的检索模块007中按“开始写字” 按钮,并在手写区域或待检索图像显示区013中光标拖动写字,然后按“识 别此手写体”对该字进行识别,将识别结果显示在基于手写体的检索模块007 右下角,并在当前数据库中检索得到的标签图像和样本图像分别显示在标签 图像检索结果显示区014和原图或样本图像显示区015中,如图11所示。
如果用户想通过输入图像块的方式检索此图像块字识别结果一样的字, 用户可(选择好分类器后)在基于图像内容的检索模块008中按“选查询图” 按钮,选择待查询图的路径,系统将识别结果显示在基于图像内容的检索模 块008右下角,并在当前数据库中检索得到的标签图像和样本图像分别显示 在标签图像检索结果显示区014和原图或样本图像显示区015中,如图12 所示。
如果用户想对一张包含多个文字的图像中对文字进行检测、分类、识别 操作,可在整图检测和识别模块009中点击“整图检测分类识别”按钮进行 输入图像路径选择,系统会在整图上进行基于深度网络的文本似然度和位置 回归和字体分类,并对每个框利用其类别信息输入特定字体的识别分类器中 进行识别,将识别结果输出在相应位置旁边。如果用户怀疑某个字的识别结 果,可通过单击此字所在检测框,系统将当前字识别结果排序后输出在识别 标注模块003内,并在每个识别结果上方显示似然度评分。该示例如图13 所示。
实施示例三:演示控制模块示例
由于整个系统功能模块非平行,而是环环相扣(例如识别标注前必须先 完成位置标注、建数据库前先完成所有标注等),所以如果某个先行模块完 成前,用户开启后端模块演示会出错,因为我们在系统中加入一个对先行模 块完成情况的判断,如果任何一个先行模块未完成,当前模块处于灰色(不 可操作状态),例如图14.a除了位置标注模块可操作,其余功能模块都为 灰色。反之,如果用户想演示某个标注模块,而此模块已经标注完成,系统 发现标注缓存已存在,仍会发生演示失败。为了方便用户演示方便,我们在 所有数据已经标注好前提下,依据先行后继关系设计演示控制模块(如模块 区域001所示),用户选择“载入检测分类数据”和“载入检测框数据”复 选框后,识别标注模块开启,如图14.b所示,如用户选择“载入标注数据” 复选框,则识别标注数据载入,“数据库模块”和“检测分类器”模块开启, “载入数据库文件”复选框选中后,所有可操作模块都可用;反之,相应复 选框取消选中,按照先行后继顺序,某些模块也会转为不可操作模式。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在 本发明的保护范围之内。
Claims (10)
1.基于深度神经网络的古文字检测、识别和检索系统,其特征在于,包括:
开发者模块群,用于建立古文字数据库,以及对标签数据和样本数据进行训练;
使用者模块群,用于输入待识别数据,输出识别结果;
演示控制模块,用于控制系统功能模块的执行顺序。
2.根据权利要求1所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于,所述开发者模块群包括:
基于预检测的框标注模块,用于在包含古文字形的图像中,对其中的样本区域位置和标签区域位置、以及他们之间的对应关系分别进行机器自动提取,并通过人工修正完成检测框标准数据的获取;
基于预识别的识别标注模块,用于根据提取出的标签位置,获取所有标签位置对应的图片块,并通过预识别系统对这些图像块进行初步识别,然后通过人工校正,得到标签图像块的机器码;
数据库存储模块,用于将所有的标签图片和样本图像以及它们的对应关系,通过表的形式存储在后台数据库中;
检测器和识别器训练模块,用于根据框标注模块获取的检测框对检测器进行训练,根据识别标注模块获取的标签机器码和框标注模块获取的样本图像,以及和这些标签的对应关系,对分类器进行训练。
3.根据权利要求1所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于,所述使用者模块群包括:
基于机器码的古文字检索模块,用于用户通过输入法等形式将待检索文字输入系统,模块返回在数据库中的检索结果;
基于手写的古文字检索模块,用于用户通过手写方式将待检索的现代文字写在界面上,模块进行手写体识别,翻译成机器码并返回该机器码在数据库中的检索结果;
基于图像内容的字形检索模块,用于用户向模块提供一张包含待检索文字的图像,模块通过对其识别,翻译成机器码并返回该机器码在数据库中的检索结果;
整图检测和识别模块,用户输入一张待检测和识别的图像,模块通过训练得到的检测器对该图片中所有古文字位置进行定位,然后对所有检测框内的文字用识别器进行识别,得到最终检测和识别结果,显示给用户。
4.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于:所述基于预检测的框标注模块包括框提取策略选择模块、特征预设模块、目标预定位模块、以及手动修正模块;
所述框提取策略选择模块包括:
预定位模块和连通分量提取模块,所述预定位模块包括深度神经网络预定位模块以及基于设计特征的预定位模块,所述连通分量提取模块包括基于极值区域树剪枝的连通分量提取模块和基于图片二值化和聚合策略的连通分量提取模块;
所述特征预设模块包括通过对样本图像块和标签图像块对应的连通分量在图像位置分布、亮度或颜色特征分布特征的预先设定来对样本和标签图像块进行预先判定、以及基于样本图像和标签图像的位置关系对它们之间的对应关系进行预判;
所述目标预定位模块包括:
如果选择基于深度神经网络预定位模块,则系统首先依据手动标注出来的少量框位置的样本和标签图像区域,对基于深度卷积网络的检测器进行训练;然后对于待自动标注的图像用此检测器进行预检测,输出结果分别为推荐的样本图像块的外接框和标签图像块的外接框;
如果选择基于设计特征的预定位模块,则系统对事先提取的连通分量,依据设计好的位置、尺度或颜色等特征对连通分量进行特征提取,并进行分类和基于尺度和位置关系进行聚合,最终分别确定对应于标签图像块和样本图像块的连通分量,并把这些连通分量的外接框作为预检测结果;
所述手动修正模块用于对预检测结果进行人工修改和调整处理。
5.根据权利要求4所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于:所述基于极值区域树剪枝的连通分量提取模块用于对灰度图像进行阈值逐级增大过程中的阈值分割结果所形成的树中采用剪枝策略确定最稳定的无重叠连通分量。
6.根据权利要求4所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于:所述基于二值化结果和聚合策略模块用于对整图二值化而形成连通分量集合的基础上基于字间连通分量距离相对稳定,且远大于字内连通分量距离的原则,进行的自动聚合。
7.根据权利要求4所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于:所述预定位模块中,采用基于全卷积网络的目标检测网络,并在该网络上增加反卷积层、特征融合层,输出层增加类别回归层。
9.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于,所述基于预识别的识别标注模块包括:
分类器选择子模块,用于通过选择训练好的分类器对标签图像块进行预识别;
显示待标注标签并加载预识别结果子模块,用于通过检索标注结果列表,选择首个未被标注的标签图像,在界面上显示给标注者,同时从分类器的识别结果中按照似然度排序显示在待选择位置;
对预标注结果进行选择或修正子模块,用于通过标注者判断预标注结果是否正确,如不正确则从剩余识别结果中选择或者手工输入得到标注结果,如果当前标签图像无法输入,则以特定标识符代替;
回看检查子模块,用于回看所有已正常标注的字,每页显示N*N个标签图像,标签图像旁边显示标注结果,用于标注者检查是否有错标现象,按下一页或上一页进行浏览转换;回看所有标注为无法标注结果的字,用户检查是否能追加可认识的字的标注。
10.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于:所述检测器和识别器训练模块包括:检测器训练子模块、标签图像块识别器训练子模块、手写识别器训练子模块和字形图像识别器训练子模块;
所述检测器训练子模块用于利用检测标注结果对检测器进行训练;
所述标签图像块识别器训练子模块是用于对标签图像进行预识别的分类器进行训练;
所述手写识别器训练子模块是用于对用户的手写输入进行识别并向机器码转换时采用的分类器进行训练;
所述字形图像识别器训练子模块是用于用户进行基于内容的图像检索时对输入图像进行识别而采用的分类器进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739865.5A CN111985462A (zh) | 2020-07-28 | 2020-07-28 | 基于深度神经网络的古文字检测、识别和检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010739865.5A CN111985462A (zh) | 2020-07-28 | 2020-07-28 | 基于深度神经网络的古文字检测、识别和检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111985462A true CN111985462A (zh) | 2020-11-24 |
Family
ID=73445833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010739865.5A Pending CN111985462A (zh) | 2020-07-28 | 2020-07-28 | 基于深度神经网络的古文字检测、识别和检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985462A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784927A (zh) * | 2021-02-09 | 2021-05-11 | 中国人民解放军国防科技大学 | 一种基于在线学习的半自动图像标注方法 |
CN113988206A (zh) * | 2021-11-09 | 2022-01-28 | 刘帮奇 | 一种基于智能图像识别的图像评分生成系统 |
CN115410216A (zh) * | 2022-10-31 | 2022-11-29 | 天津恒达文博科技股份有限公司 | 古籍文本信息化处理方法、系统、电子设备及存储介质 |
CN117593755A (zh) * | 2024-01-18 | 2024-02-23 | 吉林大学 | 一种基于骨架模型预训练的金文图像识别方法和系统 |
-
2020
- 2020-07-28 CN CN202010739865.5A patent/CN111985462A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784927A (zh) * | 2021-02-09 | 2021-05-11 | 中国人民解放军国防科技大学 | 一种基于在线学习的半自动图像标注方法 |
CN112784927B (zh) * | 2021-02-09 | 2022-03-04 | 中国人民解放军国防科技大学 | 一种基于在线学习的半自动图像标注方法 |
CN113988206A (zh) * | 2021-11-09 | 2022-01-28 | 刘帮奇 | 一种基于智能图像识别的图像评分生成系统 |
CN115410216A (zh) * | 2022-10-31 | 2022-11-29 | 天津恒达文博科技股份有限公司 | 古籍文本信息化处理方法、系统、电子设备及存储介质 |
CN117593755A (zh) * | 2024-01-18 | 2024-02-23 | 吉林大学 | 一种基于骨架模型预训练的金文图像识别方法和系统 |
CN117593755B (zh) * | 2024-01-18 | 2024-04-02 | 吉林大学 | 一种基于骨架模型预训练的金文图像识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985462A (zh) | 基于深度神经网络的古文字检测、识别和检索系统 | |
Shahab et al. | An open approach towards the benchmarking of table structure recognition systems | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
US7120318B2 (en) | Automatic document reading system for technical drawings | |
KR100248917B1 (ko) | 패턴인식장치및방법 | |
Yanikoglu et al. | Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation | |
US8270721B2 (en) | Method and system for acquiring data from machine-readable documents | |
KR20190123790A (ko) | 전자 문서로부터 데이터 추출 | |
US8208737B1 (en) | Methods and systems for identifying captions in media material | |
US20240078826A1 (en) | Methods and systems of field detection in a document | |
WO2007117334A2 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
Hu et al. | Table structure recognition and its evaluation | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
CN111860487B (zh) | 基于深度神经网络的碑文标注检测识别系统 | |
CN112927776A (zh) | 一种面向医学检验报告的人工智能自动解读系统 | |
US11348331B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
Lu et al. | Retrieval of machine-printed latin documents through word shape coding | |
CN114998905A (zh) | 一种复杂结构化文档内容的校验方法、装置与设备 | |
US20230084845A1 (en) | Entry detection and recognition for custom forms | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN115410216B (zh) | 古籍文本信息化处理方法、系统、电子设备及存储介质 | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
Tran et al. | A novel approach for text detection in images using structural features | |
CN116524263A (zh) | 一种细粒度图像半自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |