CN115410216B - 古籍文本信息化处理方法、系统、电子设备及存储介质 - Google Patents

古籍文本信息化处理方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN115410216B
CN115410216B CN202211341307.9A CN202211341307A CN115410216B CN 115410216 B CN115410216 B CN 115410216B CN 202211341307 A CN202211341307 A CN 202211341307A CN 115410216 B CN115410216 B CN 115410216B
Authority
CN
China
Prior art keywords
result
text
ancient book
book text
informatization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211341307.9A
Other languages
English (en)
Other versions
CN115410216A (zh
Inventor
李世杰
马晋
金沛然
闫升
曹承瑞
韩国民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Wenshubao Intelligent Technology Research Institute Co ltd
Xi'an Wenshubao Technology Co ltd
Tianjin Hengda Wenbo Science& Technology Co ltd
Original Assignee
Henan Wenshubao Intelligent Technology Research Institute Co ltd
Xi'an Wenshubao Technology Co ltd
Tianjin Hengda Wenbo Science& Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Wenshubao Intelligent Technology Research Institute Co ltd, Xi'an Wenshubao Technology Co ltd, Tianjin Hengda Wenbo Science& Technology Co ltd filed Critical Henan Wenshubao Intelligent Technology Research Institute Co ltd
Priority to CN202211341307.9A priority Critical patent/CN115410216B/zh
Publication of CN115410216A publication Critical patent/CN115410216A/zh
Application granted granted Critical
Publication of CN115410216B publication Critical patent/CN115410216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种古籍文本信息化处理方法、系统、电子设备及存储介质,该方法包括:利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果;对预标注结果进行专家校验,得到人工标注结果;利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型;将古籍文本图像验证样本输入到经过训练的古籍文本信息化模型中,对经过训练的古籍文本信息化模型进行测试,得到古籍文本处理结果;重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型;利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果。

Description

古籍文本信息化处理方法、系统、电子设备及存储介质
技术领域
本发明涉及文本定位与文字识别技术领域,特别涉及一种古籍文本信息化处理方法、系统、电子设备及存储介质。
背景技术
古籍蕴含着中华民族的灿烂文明和优秀的传统文化,保护好古籍对传承和弘扬中华优秀传统文化、增强文化自信有着重要意义。目前,基于人工智能的OCR(OpticalCharacter Recognition,光学字符识别)等技术已经广泛应用于古籍的保护,让古籍中所蕴含的丰富知识以数字化的形式展示给公众;同时,利用基于人工智能的OCR通过对古籍数字化能够更好地让古籍进行传承。
然而,现有技术中,对于古籍的信息化工作仍存在文字识别准确率低、排版混乱、检索效率低等问题。
发明内容
鉴于上述技术问题,本发明提供了一种古籍文本信息化处理方法、系统、电子设备及存储介质,以期能够至少解决上述技术问题之一。
根据本发明的第一个方面,提供了一种古籍文本信息化处理方法,包括:
利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果,其中,古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块;
根据预设校验规则,对预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果;
根据人工标注结果,利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型;
将古籍文本图像验证样本输入到经过训练的古籍文本信息化模型中,并根据预设测试规则,对经过训练的古籍文本信息化模型进行测试,得到经过测试的古籍文本信息化模型输出的古籍文本处理结果,将古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果;
根据预设迭代条件,重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型;
利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果,其中,信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果;
根据用户检索请求和信息化处理结果,利用训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求。
根据本发明的实施例,上述检测子模块包括具有通道注意力机制的单阶段目标检测深度神经网络;
其中,过滤子模块包括具有文本置信度预测功能的像素级语义分割网络;
其中,识别子模块包括预处理单元、具有由深度残差网络组成的特征提取单元和由多个损失分支组成的分类单元;
其中,分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的特征嵌入层;
其中,版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元,其中,聚类单元通过聚类方法用于文本行逐层框定。
根据本发明的实施例,上述利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果包括:
利用检测子模块处理古籍文本图像训练样本,得到文本检测框,其中,文本检测框用于古籍文本图像的文本定位;
利用过滤子模块对古籍文本图像训练样本进行像素级回归,得到文本区域置信度图,并利用文本区域置信度图对文本检测框进行文本置信度计算,根据预设过滤阈值,对计算结果进行过滤,得到文件检测框过滤结果;
利用识别子模块对文本检测框过滤结果进行处理,得到古籍文本图像块集合,并利用识别子模块对古籍文本图像块集合进行文字识别,得到文字识别结果;
根据文本检测框过滤结果,利用版面分析子模块处理古籍文本图像训练样本,得到版面分析结果,其中,版面分析结果用于根据文字位置分布来确定文字之间的顺序和行列关系。
根据本发明的实施例,上述根据预设校验规则,对预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果包括:
通过专家对预标注结果进行校验,得到校验结果,其中,校验结果包括文本检测框校验结果和文字识别校验结果;
在文本检测框校验结果是未通过的情况下,通过专家对预标注结果进行删除文本检测框操作和添加文本检测框操作;
在文字识别校验结果是未通过的情况下,通过专家根据文字识别结果的文字置信度进行排序,并从前N个文字识别结果进行筛选或直接对文字识别结果进行更改,其中,N为正整数。
根据本发明的实施例,上述根据人工标注结果,利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型包括:
利用检测子模块处理古籍文本训练样本,包括:通过目标检测算法对人工标注结果进行检测,获得初始文本检测框预测结果,将文本检测框预测结果与人工标注结果进行比对,得到第一损失值,并通过梯度回传对检测子模块的参数进行训练;
利用过滤子模块对文本检测框预测结果进行过滤,并将过滤结果与人工标注结果进行比对,得到第二损失值,并通过梯度回传对过滤子模块的参数进行训练;
利用识别子模块对人工标注结果进行特征提取和文字分类,并将人工标注结果、特征提取结果和文字分类结果输入到损失函数中,得到第三损失值,并通过梯度回传对识别子模块的参数进行训练。
根据本发明的实施例,上述古籍文本信息化处理方法还包括根据用户图像分割需求和信息化处理结果,利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行像素级分割,得到定制化分割结果。
根据本发明的实施例,上述根据用户图像分割需求和信息化处理结果,利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行像素级分割,得到定制化分割结果包括:
根据用户图像分割需求和信息化处理结果,利用训练完成的古籍文本信息化模型对信息化处理结果中的文本检测框过滤结果进行预处理,得到古籍文本图像块,对所述古籍文本图像块进行最大类间方差局部二值化,并对二值化结果进行处理,得到定制化分割结果。
根据本发明的第二个方面,提供了一种古籍文本信息化处理方法,包括:
预标注模块,用于利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果,其中,古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块;
标注模块,用于根据预设校验规则,对预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果;
训练模块,用于根据人工标注结果,利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型;
测试模块,用于将古籍文本图像验证样本输入到经过训练的古籍文本信息化模型中,并根据预设测试规则,对经过训练的古籍文本信息化模型进行测试,得到经过测试的古籍文本信息化模型输出的古籍文本处理结果,将古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果;
版本控制模块,用于根据预设迭代条件,重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型;
信息化处理模块,用于利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果,其中,信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果;
检索模块,用于根据用户检索请求和信息化处理结果,利用训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求。
根据本发明的第三个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述古籍文本信息化处理方法。
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现上述古籍文本信息化处理方法。
本发明提供的上述古籍文本信息化处理方法,利用多轮次的预标注和专家校验所得到的古籍文本图像训练样本对古籍文本信息化处理模型进行训练和测试,得到的古籍文本信息化处理模型能够提高对古籍文本图像的文字识别的准确率,同时保证了原始古籍文本中文字的排版顺序,并能利用古籍文本图像信息化处理模型的输出结果大大提高用户对古籍的检索效率和检索便利性。
附图说明
图1是根据本发明实施例的古籍文本信息化处理方法的流程图;
图2是根据本发明实施例的古籍文本信息化处理过程的示意图;
图3是根据本发明实施例的古籍文本信息化处理策略的示意图;
图4是根据本发明实施例得到预标注结果的流程图;
图5是根据本发明的实施例得到人工标注结果的流程图;
图6是根据本发明的实施例得到经过训练的古籍文本信息化模型的流程图;
图7是根据本发明实施例的古籍文本信息化处理系统的结构示意图;
图8是根据本发明另一实施例的古籍文本信息化处理系统的示意图;
图9是根据本发明另一实施例的系统800的图形用户界面示意图;
图10是根据本发明另一实施例的预标注效果示意图;
图11是根据本发明另一实施例的检测标注子模块的图形用户界面工作示意图;
图12是根据本发明另一实施例的分割标注子模块的图形用户界面工作示意图;
图13是根据本发明另一实施例的识别标注子模块的图形用户界面工作示意图;
图14是根据本发明另一实施例的过滤(分割)网络训练子模块的网络结构示意图;
图15是根据本发明另一实施例的识别器训练子模块的工作流程图;
图16(a)是根据本发明另一实施例的测试模块850的古籍文本检测测试结果示意图;
图16(b)是根据本发明另一实施例的测试模块850的古籍文本过滤测试结果示意图;
图16(c)是根据本发明另一实施例的测试模块850的古籍文本识别测试结果示意图;
图16(d)是根据本发明另一实施例的测试模块850的古籍文本版面分析结果示意图;
图17是根据本发明另一实施例的检索模块870的检索功能示意图;
图18是根据本发明另一实施例的分割面板960的工作示意图;
图19是根据本发明实施例的适于实现古籍文本信息化处理方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
古籍是我国的文化瑰宝,对古籍文本进行数字化、信息化不仅能够保护古籍,还能促进古籍文化在公众中进行传播。本发明通过古籍文本信息化处理方法,能够提高古籍文字的识别准确率,并给出相应古籍正确且清晰的排版。
图1是根据本发明实施例的古籍文本信息化处理方法的流程图。
如图1所示,上述古籍文本信息化处理方法包括操作S110~操作S170。
在操作S110,利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果,其中,古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块。
上述预标注结果包括文本检测框、文本检测框过滤结果、文字识别结果和版面分析结果,其中,文本检测框用于古籍文本中文字的定位和为后续古籍文本处理提供信息,由于有些古籍文本中有大量的空白页面,通过文本检测框先进行文字定位,能够提高古籍文本信息化处理的速度;文本检测框过滤结果可以用于对所定位文字进行过滤,能够提高信息化模型的识别准确性;文字识别结果即信息化模型所识别出来的文字。本发明提供的上述古籍文本信息化处理模型能够识别多种字体,例如篆书、金文、楷书、行书或草书;版面分析结果用于确定所识别文字之间的顺序、行与行之间的次序等。上述文本检测框、文本检测框过滤结果、文字识别结果和版面分析结果可以看成是古籍文本图像训练样本的经过预标注处理的输出标签。
在操作S120,根据预设校验规则,对预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果。
人工标注结果是在预标注结果上进行人工干预,将预标注结果中的错误结果进行更改,提高输入到古籍文本信息化模型中古籍文本图像训练样本的标签的准确性。
在操作S130,根据人工标注结果,利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型。
经过训练的古籍文本信息化模型可以输出训练结果,上述训练结果与预标注结果、人工标注结果所包含的内容相同,同样包括文本检测框、文本检测框过滤结果、文字识别结果和版面分析结果。上述训练结果的输出标签即古籍文本图像训练样本所对应的文本检测框、文本检测框过滤结果、文字识别结果和版面分析结果。
在操作S140,将古籍文本图像验证样本输入到经过训练的古籍文本信息化模型中,并根据预设测试规则,对经过训练的古籍文本信息化模型进行测试,得到经过测试的古籍文本信息化模型输出的古籍文本处理结果,将古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果。
上述古籍文本处理结果与预标注结果预标注结果、人工标注结果、训练结果所包含的内容相同,即文本检测框、文本检测框过滤结果、文字识别结果和版面分析结果,可作为古籍文本图像训练样本的标签。带有验证标签的古籍文本验证样本的验证标签包括与古籍文本验证样本所对应的文本检测框、文本检测框过滤结果、文字识别结果和版面分析结果。上述古籍文本处理结果既可以作为下一轮训练过程的训练样本(可将测试结果随即抽取一部分作为下一轮次的训练样本),也可以用于用户定制化分割需求和/或定制化查询与检索。
在操作S150,根据预设迭代条件,重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型。
在操作S160,利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果,其中,信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果。
图2是根据本发明实施例的古籍文本信息化处理过程的示意图。
如图2所示,将待处理的古籍文本图像输入到训练完成的古籍文本信息化模型中,利用训练完成的古籍文本信息化模型分别对待处理的古籍文本图像进行文本位置检测以确定古籍文本图像中文字的位置,并得到用于圈定文字的文本检测框;其次,利用文本检测框对文字位置进行过滤进而对文字进行识别,并利用训练完成的古籍文本信息化模型中版面分析子模块完成对古籍文本图像的版面分析和排序,以确保识别出来的文字能够按照正确的顺序显示给终端用户;同时对识别出来的文本信息进行信息提取以方便用户进行检索和查询。
在操作S170,根据用户检索请求和信息化处理结果,利用训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求。
本发明提供的上述古籍文本信息化处理方法,利用多轮次的预标注和专家校验所得到的古籍文本图像训练样本对古籍文本信息化处理模型进行训练和测试,所得到的古籍文本信息化处理模型充分利用了深度神经网络的预测能力,大大地提高了标注效率,能够提高对古籍文本图像的文字识别的准确率,同时保证了原始古籍文本中文字的排版顺序,并能利用古籍文本图像信息化处理模型的输出结果大大提高用户对古籍的检索效率和检索便利性。
根据本发明的实施例,上述检测子模块包括具有通道注意力机制的单阶段目标检测深度神经网络。
过滤子模块包括具有文本置信度预测功能的像素级语义分割网络。
识别子模块包括预处理单元、具有由深度残差网络组成的特征提取单元和由多个损失分支组成的分类单元。
分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的特征嵌入层。
版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元,其中,所述聚类单元通过聚类方法用于文本行逐层框定。
上述检测网络、分割网络、识别网络和版面分析网络能够对待处理的古籍文本图像进行全方位的分析、识别和信息提取,保证了古籍文本信息化处理结果的可靠性。
为了更好地说明本发明所提供的上述古籍文本信息化处理方法,下面结合图3对本发明的技术方案作进一步详细地解释。
图3是根据本发明实施例的古籍文本信息化处理策略的示意图。
如图3所示,其中,DNN用于表示文本检测网络、文本分割网络和文字识别网络之一,DNNiter_3表示第三次迭代训练的深度网络,而它的训练数据来自于以前所有的人工标注或校正数据(包括标注0、标注1和标注2),这样预标注结果(预标注iter_3)就比以前的预标注结果更准确,使得同样时间内人工校正的数据(标注3)大于之前,所以每次训练的分类器的训练数据不仅得益于每一次标注结果的累加量提升,还得益于由于深度网络准确率提升而引起的人工校正效率的提高。
通过多个子模块中的深度神经网络的训练优化,能够得到具有较高文字识别准确率的古籍文本信息化模型。
图4是根据本发明实施例得到预标注结果的流程图。
如图4所示,上述利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果包括操作S410~操作S440。
在操作S410,利用检测子模块处理古籍文本图像训练样本,得到文本检测框,其中,文本检测框用于古籍文本图像的文本定位。
在操作S420,利用过滤子模块对古籍文本图像训练样本进行像素级回归,得到文本区域置信度图,并利用文本区域置信度图对文本检测框进行文本置信度计算,根据预设过滤阈值,对计算结果进行过滤,得到文件检测框过滤结果。
在操作S430,利用识别子模块对文本检测框过滤结果进行处理,得到古籍文本图像块集合,并利用识别子模块对古籍文本图像块集合进行文字识别,得到文字识别结果。
在操作S440,根据文件检测框过滤结果,利用版面分析子模块处理古籍文本图像训练样本,得到版面分析结果,其中,版面分析结果用于根据文字位置分布来确定文字之间的顺序和行列关系。
通过预标注,可以减少人工标注的工作量,同时可以利用上一轮次的测试结果,从而提高预标注结果的准确性并加快标注进度。
图5是根据本发明的实施例得到人工标注结果的流程图。
如图5所示,上述根据预设校验规则,对预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果包括操作S510~操作530。
在操作S510,通过专家对预标注结果进行校验,得到校验结果,其中,校验结果包括文本检测框校验结果和文字识别校验结果。
在操作S520,在文本检测框校验结果是未通过的情况下,通过专家对预标注结果进行删除文本检测框操作和添加文本检测框操作。
在操作S530,在文字识别校验结果是未通过的情况下,通过专家根据文字识别结果的文本置信度进行排序,并从前N个文字识别结果进行筛选或直接对文字识别结果进行更改,其中,N为正整数。
通过上述专家校验和人工标注,将古籍文本图像训练样本打上具有较高准确性的标签,并利用带有高可靠性标签的古籍文本训练样本训练古籍文本信息化处理模型,进而得较高识别准确率的模型。
图6是根据本发明的实施例得到经过训练的古籍文本信息化模型的流程图。
如图6所示,上述根据人工标注结果,利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型包括操作S610~操作S630。
在操作S610,利用检测子模块处理古籍文本训练样本,包括:通过目标检测算法对人工标注结果进行检测,获得初始文本检测框预测结果,将文本检测框预测结果与人工标注结果进行比对,得到第一损失值,并通过梯度回传对检测子模块的参数进行训练。
操作S620,利用过滤子模块对文本检测框预测结果进行过滤,并将过滤结果与人工标注结果进行比对,得到第二损失值,并通过梯度回传对过滤子模块的参数进行训练。
操作S630,利用识别子模块对人工标注结果进行特征提取和文字分类,并将特征提取结果和文字分类结果输入到损失函数中,得到第三损失值,并通过梯度回传对识别子模块的参数进行训练。
根据本发明的实施例,上述古籍文本信息化处理方法还包括根据用户图像分割需求和信息化处理结果,利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行像素级分割,得到定制化分割结果。
根据本发明的实施例,上述根据用户图像分割需求和信息化处理结果,利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行像素级分割,得到定制化分割结果包括:根据用户图像分割需求和信息化处理结果,利用训练完成的古籍文本信息化模型对信息化处理结果中的文本检测框过滤结果进行预处理,得到古籍文本图像块,对古籍文本图像块进行最大类间方差局部二值化,并对二值化结果进行处理,得到定制化分割结果。
定制化分割结果包括但不限于:文字显示格式、背景显示格式。
图7是根据本发明实施例的古籍文本信息化处理系统的结构示意图。
如图7所示,上述古籍文本信息化处理系统700包括预标注模块710、标注模块720、训练模块730、测试模块740、版本控制模块750、信息化处理模块760以及检索模块770。
预标注模块710,用于利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果,其中,古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块。
标注模块720,用于根据预设校验规则,对预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果。
训练模块730,用于根据人工标注结果,利用深度神经网络对古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型。
测试模块740,用于将古籍文本图像验证样本输入到经过训练的古籍文本信息化模型中,并根据预设测试规则,对经过训练的古籍文本信息化模型进行测试,得到经过测试的古籍文本信息化模型输出的古籍文本处理结果,将古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果。
版本控制模块750,用于根据预设迭代条件,重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型。
信息化处理模块760,用于利用训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果,其中,信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果。
检索模块770,用于根据用户检索请求和信息化处理结果,利用训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求。
本发明提供的上述古籍文本信息化系统具有训练并行度高、标注效率高,识别结果准确性高等特点,能够应用于不同字体(例如篆体、金文、楷书、行书、草书)的古籍文本信息化化,大大拓展了系统的应用场景。
为了更好地说明本发明的技术方案,下面提供另一实施例从多个角度阐述本发明的技术方案的优点。
图8是根据本发明另一实施例的古籍文本信息化处理系统的示意图。
如图8所示,上述实施例的古籍文本信息化处理系统800包括版本控制模块810、预标注模块820、标注模块830、训练模块840、测试模块850、分割模块860以及检索模块870。本发明另一实施例提供的上述古籍文本信息化处理系统800具有多个优点:一是具有测试串行性,可以将古籍图片中文本信息的提取分为几个相对独立的阶段来处理,这样设计的优势在于每个模块的训练数据和训练过程相对独立,可以分别在训练数据和网络结构上优化,进而提升整体效果;如果最终效果不理想,也可以每个阶段独立审查,以便快速确定瓶颈,有针对性解决,其中,检测子模块用于文本定位、过滤网络采用分割网络对文本框区域进行像素级回归,来作为用于过滤的文本置信度,识别网络对检测的每个位置进行字符类别确定,版面分析依据文字位置分布来确定文字之间的顺序和行列关系;二是训练并行度高,从图8中可看出,虽然标注模块和模块测试阶段是有先后顺序的,但分类器训练是可以并行处理的,因此提高了系统效率;三是标注效率高,尽可能利用深度网络的预测能力,减少人工标注工作量,因此设计渐进式标注系统,例如在系统前期,人工标注量不足的情况下,对标注结果进行非精确预测,人工标注只需要在此基础上进行修正,即可作为下一次迭代的准确标注。
图9是根据本发明另一实施例的系统800的图形用户界面示意图。
如图9所示图形用户界面(Graphical User Interface,GUI),系统800在实际操作过程中主要分为9个面板区域,分别是:测试推理面板900,主要用于测试和推理;版本控制面板910,主要控制古籍文本信息化处理的次数并可以获取系统800的版本号;检测标注面板920,主要包括检测相关的预标注、人工标注、检测训练和检测测试等功能;分割标注面板930,主要包括分割(过滤)相关的分割人工校正、分割训练和分割测试/预标注、等功能;版面分析面板940,主要包括版面分析计算、自动版面分析和顺序标注功能;识别标注面板950,主要包括批预识别、识别标注、识别训练和测试评测等功能;分割面板960,通过设置的二值化阈值进行定制化的文本分割;检索面板970,主要功能是根据预先设置的待检索字,对古籍文本的文本识别结果进行检索;图像列表显示和检索区980,主要包括当前待处理图像列表的展示、选择以及查找检索功能;图像标注展示区990,主要对当前图像以及标注、预测结果等信息进行可视化表示,以便进一步的人工操作和分析调试;。
下面结合图9所示的系统操作界面图对系统800的每个模块进行详细地说明。
版本控制模块810用于减轻标注工作量,每一次迭代的人工标注都是建立在用所有已标注数据为训练数据所训练的分类器的预标注基础上进行校正的;最开始没有训练数据和分类器,只能从头进行标注(称为第0轮标注),此时的标注结果设为“标注v=0”,而在此基础上进行分类器训练、测试以及预标注的版本号都为1版本,每个版本需要有单独的存储空间进行存放;从第一轮的标注开始,标注结果将第0轮的标注结果copy进来,避免重复标注;同时,标注工作只需在新训练的第一轮深度网络的预测结果(预标注)基础上校正即可,从而渐进式地提高了标注效率;随着标注数据的累积和深度网络预测准确率的提升,标注数据会快速增加,在第n轮标注之后,标注结果覆盖了所有待标注数据,第n+1轮所训练的深度网络为最终需要的自动识别系统,而第n+1轮的测试结果即为最终输出;需要注意的是每一轮的标注结果并不是所有数据都要进入DNN(DNN表示检测、分割和识别网络之一)进行训练,还会分出大约20%的数据留为验证集,以便测试当前DNN的“健康状况”。
预标注模块820主要作用是用上一个版本训练的检测、分割、识别模型对当前数据集进行测试,以便给当前版本的标注工作做预标注工作,以便减轻人工工作量。检测标注面板920是检测、分割(或过滤)、识别、版面分析逐步进行最终输出待测试(或待预标注)图像的检测、识别等结果,但由于本模块的主要目的是为了给标注工作提供先验信息,所以单独取出。
图10是根据本发明另一实施例的预标注效果示意图。
如图10所示,对于输入图像,点击“测试/推理”按钮后,对当前图像进行多个阶段级联处理,并将检测结果(图像标注展示区990所示的黑色打字)、分割结果(图像标注展示区990所示的黑灰色区域)、识别结果,与检测结果相对应的识别结果、位于图像标注展示区990的检测结果右下角的白色文字和版面分析结果(文本顺序用白色竖线表示,用于表示文字顺序)进行信息保存和显示输出;最终将信息提取结果,按行和顺序显示在左边文本交互区域。
标注模块830包括检测标注子模块、分割标注子模块以及识别标注子模块。
图11是根据本发明另一实施例的检测标注子模块的图形用户界面工作示意图。
检测标注子模块在图10所示GUI的人工标注功能模块位于“检测”面板的“检测框人工校正”按钮。如图11所示为GUI中进行文本框人工标注的示例图,为了区分,当前标注结果未被虚线框围住,即图像标注展示区990所示“卷”字(从右向左的第5列的最后一行),同时图像标注展示区990所示能够显示刚标注的结果,更早标注的结果是被虚线框围住的文字,例如从右向左的第二列所有的文字均为更早标注的结果。在第1轮标注之后,可以在机器自动标注的结果上进行人工自动校正,其基本方式:点击“检测框标注”按钮,系统会载入当前图片的同时,将预检测结果载入并显示,通过鼠标调整不准确的检测框。
分割标注子模块不同于对文字的像素级的分割,这里的分割指的是“检测框的像素级分割”,即通过对检测框内部逐像素回归作为当前检测框的文本置信度,以便于对检测结果进行过滤。所以其实直接对检测框标注进行图像化即可生成分割标注的标准图像。但考虑到特定场景的应用,比如图像边缘的残缺文字不需要检测出来的,可以通过分割标注步骤中对检测框标注进行增删来实现。
图12是根据本发明另一实施例的分割标注子模块的图形用户界面工作示意图。
在图9所示的GUI上,通过点击“分割人工校正”按钮可对当前图像进行分割标注,如图12所示,首先载入当前图像和检测标注的结果,然后在此基础上进行增删,并通过鼠标右键单击保存当前标注结果并转下一张未标注图像的分割标注,例如,可对图12中图像标注展示区990所示的“卷”字(从右向左第5列的最后一个字)进行人工校正区域分割。
图13是根据本发明另一实施例的识别标注子模块的图形用户界面工作示意图。
下面结合图13对识别标注子模块的主要功能作详细地说明。
图13显示了识别标注子模块进行古籍文本识别的GUI,识别标注子模块的主要功能有以下几个方面:通过点击识别“识别标注按钮”,系统将首张未被识别标注的图像载入;基与检测框的标注结果,进行自动版面分析,生成文本顺序和行列分布信息;并将序号为1的检测框区域复制到“识别”面板小图片区;如果是第0轮标注且没有预识别过程,则需要对当前文字进行人工输入(例如拼音输入法),按回车自动进入下一个字的标注;如果是第1轮及以后的标注(或虽然第0轮但有预识别结果),则系统在待10个选择文本编辑框中按置信度从高到低分别显示预识别的候选结果,通过按“F1~F10”的键盘输入,或者鼠标右键点击,可将候选字复制到识别标注编辑框中,按回车确定标注结果并转下一个字的标注;无论是否有预识别结果,都可以通过鼠标点击大图区某个文本框内部,进行待标注文字选择,进行跳跃式标注;也可在大文本区域按顺序输入,系统将自动分行,并将标注结果自动匹配到大图区域。无论何种方式下,各个标注区域(主要包括大图和大编辑框两个区域)将同步显示标注结果;例如,对图像标注展示区990的繁体字“醫”(从右向左第一列的第一个字)进行识别标注,那么在识别标注面板950就会显示“醫”的所有识别结果,一般显示排名前10个的识别结果,如“醫”、“瑿”等。
训练模块840包括检测器训练子模块、过滤(分割)网络训练子模块以及识别器训练子模块。
对于检测器训练子模块,由于单阶段深度神经网络Yolov5算法的检测性能优越,因此检测器训练子模块的网络结构基于YoloV5进行构建。Yolov5通过大量的主干网络不同分辨率的特征融合,实现局部区域大感受野的设定,使得网络在字符显示不清晰的情况下也能产生较为准确的推理。但是对于文字分布不均匀的情况表现欠佳(例如少量小字嵌入在一群大字之间)。为此在C3模块添加通道注意力机制,使得某个区域中进行大小字分辨率的判定有更专一的通道注意力表示,进而改善检测结果。
图14是根据本发明另一实施例的过滤(分割)网络训练子模块的网络结构示意图。
下面结合图14对过滤(分割)网络训练子模块作详细地说明,如图14所示,考虑到古籍图片中可能会存在纸背面晕过来的字、图像边缘的残缺字以及其它噪声,加入了一个基于分割网络的文本置信度计算步骤,以便进行文本过滤。网络结构采用U2-Net,其主体结构如图14所示,其特点为一个U-net结构,对特征先从高分辨率到低分辨率进行特征表达,然后逐级上采样到原分辨率,同级分辨率之间又含有特征融合。其中每个分割单元又是一个U-net形式,在head部分,每个上采样分辨率都回归一张分割图,并通过一个特征融合操作进行最终分割结果的生成。
图15是根据本发明另一实施例的识别器训练子模块的工作流程图。
下面结合图15对识别器训练子模块作详细地说明。如图15所示,由于常用于分类网络的交叉熵损失推广性有限,本发明拟通过三元组损失学习一个特征尺度空间,再接一个分类损失达到文本分类的目的;通过一个特征提取网络对文本图片块进行特征提取,然后结合文本类别号计算三元组损失,同时将特征经过一个分类层计算交叉熵损失;CNN特征提取层包括但不限于ResNet18、ResNet34、ResNet50、ResNet101、ResNet151、ResNext。分类网络包括但不限于全连接层、多层感知机制。
图16(a)是根据本发明另一实施例的测试模块850的古籍文本检测测试结果示意图。
图16(b)是根据本发明另一实施例的测试模块850的古籍文本过滤测试结果示意图。
图16(c)是根据本发明另一实施例的测试模块850的古籍文本识别测试结果示意图。
图16(d)是根据本发明另一实施例的测试模块850的古籍文本版面分析结果示意图。
下面结合图16(a)~图16(d)对测试模块850作详细地说明。测试模块850包括文本检测子模块、文本过滤子模块、文本识别子模块以及版面分析子模块。在GUI界面中“检测”面板中,点击“检测测试/预标注”按钮,即可对当前图像(或列表中所有图像,取决于是否选中“功能面板”中的“单图”复选框)进行检测测试,并在图中以虚线框显示,如图16(a)所示,图16(a)中虚线框为利用训练好的古籍检测神经网络,对当前古籍文本图像进行前向推理,得到的古籍文本位置;文本过滤子模块用于在古籍文本图像中,通过“分割标注”面板中的“分割测试预标注”按钮,即对当前图像进行分割阶段的模块测试,如图16(b)所示,图16(b)中深色背景(即古籍文本中文字所在的区域)表示,利用训练好的古籍文本过滤网络,对当前古籍图像进行前向推理,进行逐像素的文本置信度回归结果,背景深浅表示了文本置信度的高低,便于后续计算用于过滤的文本检测框的平均置信度;文本识别子模块用于通过“识别标注”面板中的“批预识别”按钮即可对当前图片进行识别模块测试,但前提是当前图像已经有了检测测试结果,如图16(c)所示,图16(c)中文本旁边的白字表示,利用训练好的古籍文本识别网络,对当前图像的每个检测框内图像块进行前向推理,得到文本类别;版面分析子模块用于根据文本框的位置信息对其进行上下文顺序排列,具体算法包括但不限于GNN,KNN,LSTM等,如图16(d)所示,图16(d)中白色细线表示,利用本专利的版面分析算法,对当前图像的所有检测框进行顺序计算,按照排列顺序对检测框中心点的连接。
分割模块860的分割与前面所述的文本区域分割不同,而是对于文本像素级的分割(类似图16(b)所示)虽然识别模块对于古籍文档的识别没有直接作用,但是像素级的文本分割有助于数据增强;同时对于特殊用户的需求,文本像素级分割也有用处。分割算法利用检测框信息,并基与检测框内部文本像素亮度基本一致的假设,对其进行OTSU局部二值化,如对图16(a)所示的原图,经过灰度化和局部二值化后,可得如图16(b)所示的分割结果。
检索模块870主要功能是方便用户进行信息查询(或检索),此检索既包括精确关键字检索(将完整包含关键字的所有图片的所有文本位置在列表中展示),也包括模糊检索(将包含检索信息的图片和文本位置根据检索相似度排序,并在列表中展示)。
下面结合图17对上述检索模块870的功能作进一步的详细说明。
图17是根据本发明另一实施例的检索模块870的检索功能示意图。
如图17所示,若想数据库中检索所有包含“古”字的文件,则在“检索面板970”的“待检索字”文本框中输入“古”字并回车,系统将检索所有包含当前字的文件,并显示在“检索面板”中的文件列表区,选中列表中任意一个文件,并点右键,则系统会在右侧大图区显示当前图像,并将所有包含待检索字的区域用实线框标识出来。
图18是根据本发明另一实施例的分割面板960的工作示意图。
如图18所示,若想获得当前图像的分割结果时,可以点击“分割面板960”的“文本分割”按钮,则系统将利用文本检测信息,对当前图像进行基于局部二值化的文本分割。用鼠标在右侧大图区点击任何一个字时,当前文本的分割(或二值化)结果显示在“分割面板”的图形显示区。如图18所示鼠标点击的“醫”字,当前字用实线框标识,同时分割结果显示在“分割面板960”中的图形显示区。
图19示意性示出了根据本发明实施例的适于实现古籍文本信息化处理方法的电子设备的方框图。
如图19所示,根据本发明实施例的电子设备1900包括处理器1901,其可以根据存储在只读存储器(ROM)1902中的程序或者从存储部分1908加载到随机访问存储器(RAM)1903中的程序而执行各种适当的动作和处理。处理器1901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1901还可以包括用于缓存用途的板载存储器。处理器1901可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1903中,存储有电子设备1900操作所需的各种程序和数据。处理器 1901、ROM 1902以及RAM 1903通过总线1904彼此相连。处理器1901通过执行ROM 1902和/或RAM1903中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1902和RAM 1903以外的一个或多个存储器中。处理器1901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备1900还可以包括输入/输出(I/O)接口1905,输入/输出(I/O)接口1905也连接至总线1904。电子设备1900还可以包括连接至I/O接口1905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1907;包括硬盘等的存储部分1908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至I/O接口1905。可拆卸介质1911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1910上,以便于从其上读出的计算机程序根据需要被安装入存储部分1908。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 1902和/或RAM 1903和/或ROM 1902和RAM 1903以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种古籍文本信息化处理方法,其中,所述古籍文本的字体包括篆书、楷书、行书或草书,其特征在于,包括:
利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果,其中,所述古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块;
根据预设校验规则,对所述预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果;
根据所述人工标注结果,利用深度神经网络对所述古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型;
将古籍文本图像验证样本输入到所述经过训练的古籍文本信息化模型中,并根据预设测试规则,对所述经过训练的古籍文本信息化模型进行测试,得到经过测试的古籍文本信息化模型输出的古籍文本处理结果,将所述古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果;
根据预设迭代条件,重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型;
利用所述训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果,其中,所述信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果;
根据用户检索请求和所述信息化处理结果,利用所述训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求;
根据用户图像分割需求和所述信息化处理结果,利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分割,得到定制化分割结果;
其中,所述检测子模块包括具有通道注意力机制的单阶段目标检测深度神经网络,其中,所述单阶段目标检测深度神经网络基于YoloV5构建;
其中,所述过滤子模块包括具有文本置信度预测功能的像素级语义分割网络;
其中,所述识别子模块包括预处理单元、具有由深度残差网络组成的特征提取单元和由多个损失分支组成的分类单元;
其中,所述分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的特征嵌入层;
其中,所述版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元,其中,所述聚类单元通过聚类方法用于文本行逐层框定,所述版面分析子模块通过GNN、KNN和LSTM对所述文本检测框进行上下顺序排列;
其中,根据用户图像分割需求和所述信息化处理结果,利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分割,得到定制化分割结果包括:
根据所述用户图像分割需求和所述信息化处理结果,利用所述训练完成的古籍文本信息化模型对所述信息化处理结果中的文本检测框过滤结果进行预处理,得到古籍文本图像块,对所述古籍文本图像块进行最大类间方差局部二值化,并对二值化结果进行处理,得到定制化分割结果。
2.根据权利要求1所述的方法,其特征在于,所述利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果包括:
利用所述检测子模块处理所述古籍文本图像训练样本,得到文本检测框,其中,所述文本检测框用于古籍文本图像的文本定位;
利用过滤子模块对所述古籍文本图像训练样本进行像素级回归,得到文本区域置信度图,并利用所述文本区域置信度图对所述文本检测框进行文本置信度计算,根据预设过滤阈值,对计算结果进行过滤,得到文件检测框过滤结果;
利用所述识别子模块对所述文本检测框过滤结果进行处理,得到古籍文本图像块集合,并利用所述识别子模块对所述古籍文本图像块集合进行文字识别,得到文字识别结果;
根据所述文本检测框过滤结果,利用所述版面分析子模块处理所述古籍文本图像训练样本,得到版面分析结果,其中,所述版面分析结果用于根据文字位置分布来确定文字之间的顺序和行列关系。
3.根据权利要求1所述的方法,其特征在于,所述根据预设校验规则,对所述预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果包括:
通过专家对所述预标注结果进行校验,得到校验结果,其中,所述校验结果包括文本检测框校验结果和文字识别校验结果;
在所述文本检测框校验结果是未通过的情况下,通过所述专家对所述预标注结果进行删除文本检测框操作和添加文本检测框操作;
在文字识别校验结果是未通过的情况下,通过所述专家根据所述文字识别结果的文字置信度进行排序,并从前N个所述文字识别结果进行筛选或直接对所述文字识别结果进行更改,其中,N为正整数。
4.根据权利要求1所述的方法,其特征在于,根据所述人工标注结果,利用深度神经网络对所述古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型包括:
利用所述检测子模块处理所述古籍文本训练样本,包括:通过目标检测算法对所述人工标注结果进行检测,获得初始文本检测框预测结果,将所述文本检测框预测结果与所述人工标注结果进行比对,得到第一损失值,并通过梯度回传对所述检测子模块的参数进行训练;
利用所述过滤子模块对所述文本检测框预测结果进行过滤,并将过滤结果与所述人工标注结果进行比对,得到第二损失值,并通过梯度回传对过滤子模块的参数进行训练;
利用所述识别子模块对所述人工标注结果进行特征提取和文字分类,并将所述人工标注结果、特征提取结果和文字分类结果输入到损失函数中,得到第三损失值,并通过梯度回传对所述识别子模块的参数进行训练。
5.一种古籍文本信息化处理系统,其中,所述古籍文本的字体包括篆书、楷书、行书或草书,其特征在于,包括:
预标注模块,用于利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理,得到预标注结果,其中,所述古籍文本信息化模型包括检测子模块、过滤子模块、识别子模块以及版面分析子模块;
标注模块,用于根据预设校验规则,对所述预标注结果进行专家校验并将错误的预标注结果重新进行人工标注,得到人工标注结果;
训练模块,用于根据所述人工标注结果,利用深度神经网络对所述古籍文本信息化模型进行训练,得到经过训练的古籍文本信息化模型;
测试模块,用于将古籍文本图像验证样本输入到所述经过训练的古籍文本信息化模型中,并根据预设测试规则,对所述经过训练的古籍文本信息化模型进行测试,得到经过测试的古籍文本信息化模型输出的古籍文本处理结果,将所述古籍文本处理结果进行筛选后作为下一轮次的信息化处理过程的训练样本的预标注结果;
版本控制模块,用于根据预设迭代条件,重复进行预标注操作、人工标注操作、模型训练操作以及模型测试操作,得到训练完成的古籍文本信息化模型;
信息化处理模块,用于利用所述训练完成的古籍文本信息化模型对待处理的古籍文本图像进行信息化处理,得到信息化处理结果,其中,所述信息化处理结果包括文本检测框、文本检测框过滤结果、文字识别结果以及版面分析结果;
检索模块,用于根据用户检索请求和所述信息化处理结果,利用所述训练完成的古籍文本信息化模型完成定制化的精确检索和/或模糊检索请求;
根据用户图像分割需求和所述信息化处理结果,利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分割,得到定制化分割结果;
其中,所述检测子模块包括具有通道注意力机制的单阶段目标检测深度神经网络,其中,所述单阶段目标检测深度神经网络基于YoloV5构建;
其中,所述过滤子模块包括具有文本置信度预测功能的像素级语义分割网络;
其中,所述识别子模块包括预处理单元、具有由深度残差网络组成的特征提取单元和由多个损失分支组成的分类单元;
其中,所述分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的特征嵌入层;
其中,所述版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元,其中,所述聚类单元通过聚类方法用于文本行逐层框定,所述版面分析子模块通过GNN、KNN和LSTM对所述文本检测框进行上下顺序排列;
其中,根据用户图像分割需求和所述信息化处理结果,利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分割,得到定制化分割结果包括:
根据所述用户图像分割需求和所述信息化处理结果,利用所述训练完成的古籍文本信息化模型对所述信息化处理结果中的文本检测框过滤结果进行预处理,得到古籍文本图像块,对所述古籍文本图像块进行最大类间方差局部二值化,并对二值化结果进行处理,得到定制化分割结果。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1-4中任一项所述的方法。
CN202211341307.9A 2022-10-31 2022-10-31 古籍文本信息化处理方法、系统、电子设备及存储介质 Active CN115410216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211341307.9A CN115410216B (zh) 2022-10-31 2022-10-31 古籍文本信息化处理方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211341307.9A CN115410216B (zh) 2022-10-31 2022-10-31 古籍文本信息化处理方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115410216A CN115410216A (zh) 2022-11-29
CN115410216B true CN115410216B (zh) 2023-02-10

Family

ID=84168758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211341307.9A Active CN115410216B (zh) 2022-10-31 2022-10-31 古籍文本信息化处理方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115410216B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115117B (zh) * 2023-08-31 2024-02-09 南京诺源医疗器械有限公司 基于小样本下的病理图像识别方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN112949648A (zh) * 2021-03-12 2021-06-11 上海眼控科技股份有限公司 一种图像分割模型训练样本数据集的获取方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507351B (zh) * 2020-04-16 2023-05-30 华南理工大学 一种古籍文档数字化的方法
CN111985462A (zh) * 2020-07-28 2020-11-24 天津恒达文博科技股份有限公司 基于深度神经网络的古文字检测、识别和检索系统
CN113158808B (zh) * 2021-03-24 2023-04-07 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
CN113989484A (zh) * 2021-11-02 2022-01-28 古联(北京)数字传媒科技有限公司 古籍的文字识别方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN112949648A (zh) * 2021-03-12 2021-06-11 上海眼控科技股份有限公司 一种图像分割模型训练样本数据集的获取方法及设备

Also Published As

Publication number Publication date
CN115410216A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
US11645826B2 (en) Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
US7801358B2 (en) Methods and systems for analyzing data in media material having layout
Shahab et al. An open approach towards the benchmarking of table structure recognition systems
KR20190123790A (ko) 전자 문서로부터 데이터 추출
Rong et al. Recognizing text-based traffic guide panels with cascaded localization network
CN112446351B (zh) 医疗票据智能识别方法
US20040202349A1 (en) Automated techniques for comparing contents of images
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN111309912A (zh) 文本分类方法、装置、计算机设备及存储介质
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN115410216B (zh) 古籍文本信息化处理方法、系统、电子设备及存储介质
CN111985462A (zh) 基于深度神经网络的古文字检测、识别和检索系统
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
WO2023038722A1 (en) Entry detection and recognition for custom forms
CN115034200A (zh) 图纸信息提取方法、装置、电子设备及存储介质
US20230138491A1 (en) Continuous learning for document processing and analysis
JP7282989B2 (ja) テキスト分類
Al-Barhamtoshy et al. An arabic manuscript regions detection, recognition and its applications for OCRing
CN111967391A (zh) 医学化验单的文本识别方法和计算机可读存储介质
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
US20230126022A1 (en) Automatically determining table locations and table cell types
US20230134218A1 (en) Continuous learning for document processing and analysis
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
RU2774653C1 (ru) Способы и системы идентификации полей в документе

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant