CN118038467A - 一种含脏污缺漏的古籍文字识别方法和古籍识别设备 - Google Patents
一种含脏污缺漏的古籍文字识别方法和古籍识别设备 Download PDFInfo
- Publication number
- CN118038467A CN118038467A CN202410306337.9A CN202410306337A CN118038467A CN 118038467 A CN118038467 A CN 118038467A CN 202410306337 A CN202410306337 A CN 202410306337A CN 118038467 A CN118038467 A CN 118038467A
- Authority
- CN
- China
- Prior art keywords
- character
- azimuth
- characters
- text
- defective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 53
- 230000002950 deficient Effects 0.000 claims abstract description 52
- 230000007547 defect Effects 0.000 claims description 35
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012015 optical character recognition Methods 0.000 description 10
- 102100032202 Cornulin Human genes 0.000 description 5
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 241000270311 Crocodylus niloticus Species 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种含脏污缺漏的古籍文字识别方法和古籍识别设备,涉及OCR文字识别技术领域。所述含脏污缺漏的古籍文字识别方法包括:获取图像;识别所述图像中的文本位置;识别所述文本位置中的所有文本字符;当识别到缺损字符时,识别所述缺损字符的第一字符,其中,所述第一字符为所述文本字符的部分构件;根据所述第一字符,生成包含所述第一字符的第一文字候选集合;调用预设的语料训练样本集训练后的语言模型,根据所述缺损字符的所在文本内容,从所述第一文字候选集合中获取文字字符并完成识别。通过采用本发明提供的技术,能够有效地提高古籍文字识别的准确率。
Description
技术领域
本发明涉及OCR文字识别技术领域,具体地涉及一种含脏污缺漏的古籍文字识别方法和古籍识别设备。
背景技术
据统计,我国现有古籍数量超3000万册,为促进古籍普查数据在全国范围内的开放共享,我国已逐步建立中华古籍综合信息数据库。即,为满足古籍文字数字化的需求,需要对现存古籍文本进行图像文本识别并录入数据库。其中,古籍文物在流传过程中,由于古籍材质、储藏条件以及人文历史等诸多因素,导致大量的古籍不可避免的发生老化、脏污以及破损等现象,从而导致古籍文字出现脏污缺漏。
现有的古籍文字识别工具主要是针对拍摄的古籍图像,调用OCR(OpticalCharacter Recognition,光学字符识别)引擎对图像中的文字进行识别,其中,OCR是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。但由于古籍中的文字基本为手写体文字,传统的OCR技术难以对其进行准确识别。还由于古籍标记数据的稀缺性,对模型的训练和性能产生不利影响,传统的OCR识别算法难以保证对古籍文字的识别准确率,还需要大量的人力资源进行后期核对。
发明内容
本发明提供了一种含脏污缺漏的古籍文字识别方法和古籍识别设备,以解决现有技术中古籍文字识别准确率较低的问题。
为解决上述技术问题,在第一方面,本发明采用的技术方案是提供一种含脏污缺漏的古籍文字识别方法,所述含脏污缺漏的古籍文字识别方法包括:
获取图像;识别所述图像中的文本位置。
识别所述文本位置中的所有文本字符。
当识别到缺损字符时,识别所述缺损字符的第一字符,其中,所述第一字符为所述文本字符的部分构件。
根据所述第一字符,生成包含所述第一字符的第一文字候选集合。
调用预设的语料训练样本集训练后的语言模型,根据所述缺损字符的所在文本内容,从所述第一文字候选集合中获取文字字符并完成识别。
与现有技术相比,本发明提供的技术方案带来的有益效果是:
通过增加缺损字符的识别,使得当古籍文本中的字符存在脏污、缺损等时,能够根据脏污的位置以及当前所能够识别的缺损字符的部分(即第一字符)确定可能的文字内容,从而对现有OCR识别中对于难以识别脏污文字的缺陷进行补充。且根据第一字符进行识别,其类似传统字典查阅过程,使得第一文字候选集合能够有效地避免遗漏可能文字。
其中,OCR识别的本质是将图像形状转变为文本字符,当文本字符识别数量较多时,其能够生成文本内容。即,只要语言模型训练的结果足够,当拆分的第一字符无法组成文字时,联系上下文,也能够合理判断并从文字候选集合中选出文字,完成识别。
在一些实施方案中,所述当识别到缺损字符时,识别所述缺损字符的第一字符,还包括:依次识别所述文本位置中的文字字符,并确定所述缺损字符;识别所述缺损字符中的所述第一字符,并获取所述第一字符的置信度,其中,所述第一字符包括所述缺损字符的字件或所述缺损字符的偏旁部首。
在一些实施方案中,所述根据所述第一字符,生成包含所述第一字符的第一文字候选集合,包括:预设置信度阈值,当所述第一字符的置信度大于所述置信度阈值时,生成包含所述第一字符的所述第一文字候选集合。
采用上述技术方案,增设置信度参数,并设有置信度阈值,增强对对第一字符的识别结果进行区间估计的把握,其中,调整置信度阈值,使得其能够进一步适应不同脏污程度的古籍文本。
在一些实施方案中,当多个所述第一字符的置信度超过所述置信度阈值时,分别生成多个与所述第一字符对应的所述第一文字候选集合。
当超过置信度阈值的可能的第一字符数量不唯一时,生成相对应的第一文字候选集合,从而生成多个候选文字,由语言模型进行筛选最终结果,从而避免遗漏可能字符,造成识别准确率低。
在一些实施方案中,所述含脏污缺漏的古籍文字识别方法还包括:
调用预设的图像训练样本集训练后的方位识别模型识别所述文本位置中的所有文本字符。
当识别到缺损字符时,所述方位识别模型获取所述缺损字符的所述第一字符和所述缺损字符的缺损方位。
根据预设的方位词表生成所述缺损字符的第二文字候选集合。
调用预设的语料训练样本集训练后的语言模型,根据所述缺损字符的所在文本内容,从所述第二文字候选集合中获取文字字符并完成识别。
采用上述技术方案,通过方位识别模型对图像中的文本内容进行识别,以对文本字符进行分割、标记和识别,从而从缺损字符中获得第一字符和缺损字符的缺损方位。由于能够根据古籍中的常用字符建立常用形体字符库,例如楷书、行书、隶书、草书和小篆等各类形体文字的常用字字型库,并基于常用形体字符库依据字符构件(例如偏旁部首)及其对应的方位进行拆分,从而预先建立方位词表。进而在识别到缺损字符的第一字符和缺损方位时,迅速对照方位词表生成该缺损字符的文字候选集合(即,该缺损字符可能的所有字符合集)。
其实质为:将文字字符依照构件进行拆分识别,再基于方位词表对文字字符的构件及其方位进行遍历识别,并组合生成文字。
在一些实施方案中,所述根据预设的方位词表生成所述缺损字符的第二文字候选集合,包括:
预构造方位词表,所述方位词表包括偏旁部首方位词表和字件方位词表,其中,所述方位词表的方位包括左方位、左上方位、左下方位、右方位、右上方位、右下方位、中方位、上方位和下方位。
识别所述缺损字符中的所述第一字符,并获取所述第一字符的缺损方位和置信度,其中,所述第一字符包括所述缺损字符的字件或所述缺损字符的偏旁部首。
预设置信度阈值,当所述第一字符的大于所述置信度阈值时,根据所述缺损方位和所述方位词表构造方位二叉树;遍历所述方位二叉树,并生成所述第二文字候选集合。
采用上述技术方案,构造基于古汉字的方位词表,其中,偏旁部首方位词表为古汉字常用的偏旁部首部件(包括左方位、左上方位、左下方位、右方位、右上方位、右下方位、中方位、上方位和下方位)的词表,字件方位词表为字件(包括左方位、左上方位、左下方位、右方位、右上方位、右下方位、中方位、上方位和下方位)的词表。即,方位词表包括文字字符的任一构件及其方位。
其中,上述组合方位构成九宫格式方位词表,便于获取缺损字符的缺损方位和提取该特征。此外,上述组合方位还能够为左方位、右方位、中方位、上方位和下方位,在实际应用中,五个方位识别也足以适用常用字型。
基于该方位词表,生成方位二叉树,遍历方位二叉树,即可获得包括该第一字符的所有可能文字。当该第二文字候选集合中仅有一字符时,能够直接认为该字符为缺损字符的识别结果。从而减少调用语言模型识别的算力占用。
进一步地,当所述第二文字候选集合为空或不唯一时,调用预设的语料训练样本集训练后的所述语言模型,根据所述缺损字符的所在文本内容,从所述文字候选集合中获取文字字符并完成识别,能够有效地提高识别准确率。
在一些实施方案中,所述根据预设的方位词表生成所述缺损字符的第二文字候选集合,包括:
创建嵌套字典,其中,所述嵌套字典中第一层的键为所述第一字符,所述嵌套字典中第一层的值所述嵌套字典的第二层,所述嵌套字典中第二层的键为方位,所述嵌套字典中第二层的值为所述第二文字候选集合中的文字列表。
采用上述技术方案,还能够采用嵌套字典的方式对候选文字进行识别,其中,还能够通过结合方位二叉树创建字典,其字典的键为第一字符,值为方位二叉树的一位数组。
在一些实施方案中,当多个所述第一字符的置信度超过所述置信度阈值时,构造多个与所述第一字符对应的所述方位二叉树。
采用上述技术方案,当超过置信度阈值的可能的第一字符数量不唯一时,生成相对应的方位二叉树及第二文字候选集合,从而生成多个候选文字,由语言模型进行筛选最终结果,从而避免遗漏可能字符,造成识别准确率低。
在一些实施方案中,还包括:对获取的所述图像进行预处理。调用预设的古籍文字图像训练样本集训练后的CTPN模型对所述预处理后的所述图像进行识别,其中,所述CTPN模型所使用的CTPN算法的文字识别方向为垂直方向。
采用上述技术方案,所述对获取的所述图像进行预处理包括:对图像进行数据降噪、数据增强和倾斜矫正处理。由于拍摄或扫描图像的设备的区别等,容易导致图像的成像结果不同,进而识别的文字易出现亮度不均、倾斜等问题,从而抑制后续的特征提取。采用上述方式能够有效地降低特征提取难度。其中,在识别过程中对图像的预处理步骤与用于训练方位识别模型所使用的方位图像样本集的预处理步骤相同。
此外,由于古籍的文字书写顺序为竖向书写,因此将识别方向更改为竖直方向,即逐列识别文字。
在另一方面,本申请还提供了一种古籍识别设备,包括计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行上述含脏污缺漏的古籍文字识别方法。
附图说明
为了更清楚的说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明提供的一种含脏污缺漏的古籍文字识别方法的一实施例的流程示意图一;
图2是本发明提供的一种含脏污缺漏的古籍文字识别方法的一实施例的古籍图片;
图3是本发明提供的一种含脏污缺漏的古籍文字识别方法的一实施例的流程示意图二;
图4是本发明提供的一种含脏污缺漏的古籍文字识别方法的方位二叉树的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明保护的范围。
参见图1所示,图1示出了本申请提供的一种含脏污缺漏的古籍文字识别方法的一实施例的流程示意图一。
在一些实施方案中,含脏污缺漏的古籍文字识别方法包括:
步骤S100,获取图像。在一些应用场景中,能够通过外接的拍摄(扫描)设备等录入带有古籍文字的图像。其中,还能够增设人工对图像进行框选文本的功能,以便提高后续文本位置识别的准确率。图像作为被识别图像,其获取方式本申请对此不做限定。
步骤S200,识别图像中的文本位置。具体为:
对获取的图像进行预处理:为了便于后续特征提取的可靠性,一般性地,需要对图像进行预处理,以便消除图像中无关的信息。示例性地,对获取的图像进行预处理包括:对图像进行数据降噪、数据增强和倾斜矫正处理。
其中,数据降噪为:采用各类滤波方法或现有深度学习模型进行降噪处理,以降低识别难度;数据增强为:通过旋转、高斯噪声、模糊化处理、随机裁剪、透视变换等方法增加训练样本数量和多样性,便于提高模型地训练强度。倾斜矫正为:通过霍夫变换得到直线方向的众数从而得到旋转角度或通过画最小外接矩形得到旋转角度以降低识别难度。
步骤S300,识别文本位置中的所有文本字符。
具体为:调用预设的古籍文字图像训练样本集训练后的CTPN。(ConnectionistText Proposal Network,连接文本建议网络)模型对预处理后的图像进行识别。其中,由于古籍的文字书写顺序为竖向书写,因此将识别方向更改为竖直方向,即逐列识别文字。
CTPN结合CNN(Convolutional Neural Networks,卷积神经网络)与LSTM(LongShort Term Memory,长短期记忆)深度网络,能够有效地检测出复杂场景中横向分布的文字,其具体实现流程包括:(1)检测小尺寸文本框;(2)文本行边细化;(3)循环连接文本框。其中,由于传统的CTPN仅能够基于横向排列的文字字符进行识别,将其识别方向逆转为竖向识别。能够有效地适用于古籍文字的书写方向。示例性地,加入水平Anchor即可而检测竖直文字。其中,结合图片预处理,能够有效地提高对竖直排列的文本位置的识别结果。
步骤S400,当识别到缺损字符时,识别缺损字符的第一字符,其中,第一字符为文本字符的部分构件。
具体为:依次识别文本位置中的文字字符,并确定缺损字符;识别缺损字符中的第一字符,并获取第一字符的置信度,其中,第一字符为缺损字符的字件或缺损字符的偏旁部首。
示例性地,基于CRNN对文本位置中的所有文字进行识别,其中,CRNN的网络架构包括:
CNN(卷积层),对预处理后的图像进行特征提取,得到特征图。
RNN(Recurrent Neural Network,循环神经网络)(循环层),使用双向RNN(BiLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布。
CTCloss(转录层),使用CTC(Connectionist Temporal Classification,连接时序分类)损失,把从循环层获取的一系列标签分布转换成最终的标签序列。
使用预设的古文字标注图像训练样本集训练CRNN模型,使其在识别古籍图片的过程中,能够用“*”标识出脏污位置。其中,该古文字标注图像训练样本集包括五十万张具有各种脏污缺损文字的图片,以及楷书、行书、隶书、草书和小篆等各类形体文字的至少250个常见偏旁部首。
步骤S500,根据第一字符,生成包含第一字符的第一文字候选集合。包括:预设置信度阈值,当第一字符的置信度大于置信度阈值时,生成包含第一字符的第一文字候选集合。
本申请实施例中,增设置信度参数,并设有置信度阈值,例如置信度阈值为0.8,第一字符的置信度超过0.8时,基于该第一字符生成第一文字候选集合。通过增强对对第一字符的识别结果进行区间估计的把握,其中,调整置信度阈值,使得其能够进一步适应不同脏污程度的古籍文本。示例性地,通过构造字典生成包含第一字符的第一文字候选集合。
步骤S600,调用预设的语料训练样本集训练后的语言模型,根据缺损字符的所在文本内容,从第一文字候选集合中获取文字字符并完成识别。
示例性地,语言模型的架构为Mamba架构,Mamba具有线性复杂度,相较于传统的Trasformer架构的平方复杂度,其架构更简单、计算复杂度更低,从而具有更强的计算性能。此外,Mamba是第一个真正实现了与Trasformer相当性能的线性时间序列模型。使得其在语言训练方面(无论是预训练还是下游评估)都具有良好的性能。
参见图2所示,图2为本申请提供的一种含脏污缺漏的古籍文字识别方法的一实施例的古籍图片。
示例性地,基于图2所示的古籍图片的识别步骤为:
(1)逐列识别文本位置;
(2)识别该列中的文字,例如图2中框选列的文字为:“心”“为”“形”“役”“奚”;
(3)当识别到缺损字符时,识别出该缺损字符的第一字符(即字件或偏旁部首)为“周”,并标记该脏污缺损字符为“*周”;
(4)根据第一字符,生成包含第一字符的第一文字候选集合,例如:“周”“绸”“调”“碉”“惆”.....
(5)调用语言模型识别文本内容,计算上述第一文字候选集合中的文字分布概率,选出概率最大的文字“惆”;
(6)完成本列识别,并继续识别以完成图片中所有文字识别。
在一些实施方案中,当多个第一字符的置信度超过置信度阈值时,分别生成多个与第一字符对应的第一文字候选集合。
当超过置信度阈值的可能的第一字符数量不唯一时,生成相对应的第一文字候选集合,从而生成多个候选文字,由语言模型进行筛选最终结果,从而避免遗漏可能字符,造成识别准确率低。
参见图3所示,图3示出了本申请提供的一种含脏污缺漏的古籍文字识别方法的一实施例的流程示意图二。
在一些实施方案中,含脏污缺漏的古籍文字识别方法还包括:
步骤S310,调用预设的图像训练样本集训练后的方位识别模型识别文本位置中的所有文本字符。
调用方位识别模型,获取第一字符的缺损方位和置信度,具体为:使用预设的图像训练样本集训练方位识别模型,其中,方位识别模型所使用的算法包括CRNN算法和方位标记识别算法。
方位识别模型仍为基于深度学习的端到端OCR技术的主流方式,其在传统CRNN模型上增加方位标记,且在对方位识别模型进行深度学习训练时,其所采用的图像训练样本集的图像为经过图像预处理后具有方位标注的图像。
具体为:将特征图进行切分,其中,包括对特征图的第一次切分和第二次切分,第一次切分将特征图沿水平方向切割为九条,从而识别出竖直方向上的第一字符(例如偏旁部首)、脏污(用+符号表示)和空白(用-符号表示),并进入转录阶段。
第二次切分将特征图沿竖直方向切割为九条,从而识别出水平方向上的第一字符(例如偏旁部首)、脏污(用+符号表示)和空白(用-符号表示),并进入转录阶段。
示例性地,对特征图进行竖直方向切分时,计算第一字符(偏旁部首)的水平方位(左中右)。例如,偏旁部首在第2-4格,其中2、3格都在左边,第4格在右边,就判定为左。对特征图进行水平方向切分时,计算第一字符(偏旁部首)的竖直方位(上中下)。
其中,还能够采用CTPN,分别识别出图片中的脏污位置和文字位置,计算两者之间的相对位置,也能够得出缺损方位。
所采用的图像训练样本集的图像为经过图像预处理后具有方位标注的图像。示例性地,通过大量的图像训练样本集对方位识别模型进行训练,以确定属于脏污缺漏的图片特征,其中,该图像训练样本集为大量具有脏污的训练图像样本。
步骤S410,当识别到缺损字符时,方位识别模型获取缺损字符的第一字符和缺损字符的缺损方位。
示例性地,调用方位识别模型对文本位置中的文本内容进行识别,并当文字字符不完整时,从缺损字符中获得第一字符和缺损字符的缺损方位。其中,该获取方式包括文字字符的缺陷检测。在识别文本位置时,判断缺损字符存在与平均图像之间的像素差异,当差异超过阈值时,标记该出存在缺损,示例性地,对于缺损字符,由“*”标识出脏污位置,并结合第一字符进行标识,例如“*周”。例如,通过脏污图像样本训练后的方位识别模型,能够快速确定并找出脏污缺漏部分和第一字符。根据识别出的脏污缺漏部分直接计算缺损方位。框选该脏污缺漏的部分,并计算该脏污缺漏框的中心像素坐标,来确定图像中缺损的相对方位坐标,从而计算出缺损方位。
例如文本“采菊东篱下,悠然见南山。”中的“悠”字出现缺损,“心”难以识别,因此提取能够识别的“攸”部位作为第一字符,并标记缺损方位为下方位。
步骤S510,根据预设的方位词表生成缺损字符的第二文字候选集合。
预构造方位词表,方位词表包括偏旁部首方位词表和字件方位词表,其中,方位词表的方位包括左方位、左上方位、左下方位、右方位、右上方位、右下方位、中方位、上方位和下方位。即方位词表包括文字字符的任一构件及其方位。示例性地,方位词表中包括一万个常用汉字。
其中,上述组合方位构成九宫格式方位词表,便于获取缺损字符的缺损方位和提取该特征。例如框选脏污缺漏的中心像素坐标位于九宫格式组合方位的任一方位时,该方位为缺损方位。示例性地,上述组合方位还能够为左方位、右方位、中方位、上方位和下方位,减少识别斜向方位能够进一步降低算力要求,且在实际应用中,五个方位识别足以适用常用字型。
识别缺损字符中的第一字符,并获取第一字符的缺损方位和置信度,其中,第一字符包括缺损字符的字件或缺损字符的偏旁部首。
预设置信度阈值,当第一字符的大于置信度阈值时,根据缺损方位和方位词表构造方位二叉树;遍历方位二叉树,并生成第二文字候选集合。
在一些实施方案中,根据预设的方位词表生成缺损字符的第二文字候选集合,包括创建嵌套字典,其中,嵌套字典中第一层的键为第一字符,嵌套字典中第一层的值嵌套字典的第二层,嵌套字典中第二层的键为方位,嵌套字典中第二层的值为第二文字候选集合中的文字列表。
其中,还能够通过结合方位二叉树创建字典,其字典的键为第一字符,值为方位二叉树的一位数组。
参见图4所示,图4示出了本申请提供的一种含脏污缺漏的古籍文字识别方法的一实施例的方位二叉树的示意图。
示例性地,仅能够识别“申”,根据方位词表和方位识别模型的识别结果生成如图4所示的方位二叉树:
判断缺损方位为左或其他。(2)缺损方位为左时,根据置信度可能文字为“伸”或其他;缺损方位为其他时,还可能为左或其他。(3)当缺损方位为左,且不为“伸”时,可能文字为“神”或其他;当缺损方位为上时,可能文字为“审”或其他,当缺损方位不为上、不为左时,可能为下或其他......(4)当缺损方位为左,且不为“伸”、不为“神”时,可能为“绅”或其他......
遍历方位二叉树,从而方位二叉树的所有叶子节点能够得出第一文字字符合集,从第一文字候选集合中选取超过预设的置信度阈值的文字字符,生成第二文字候选集合;其中,当第二文字候选集合仅有一文字字符时,得到第一识别结果。
进一步地,当第二文字候选集合为空或不唯一时,调用预设的语料训练样本集训练后的语言模型,根据缺损字符的所在文本内容,从文字候选集合中获取文字字符并完成识别,能够有效地提高识别准确率。
步骤S610,调用预设的语料训练样本集训练后的语言模型,根据缺损字符的所在文本内容,从第二文字候选集合中获取文字字符并完成识别。
通过方位识别模型对图像中的文本内容进行识别,以对文本字符进行分割、标记和识别,从而从缺损字符中获得第一字符和缺损字符的缺损方位。由于能够根据古籍中的常用字符建立常用形体字符库,例如楷书、行书、隶书、草书和小篆等各类形体文字的常用字字型库,并基于常用形体字符库依据字符构件(例如偏旁部首)及其对应的方位进行拆分,从而预先建立方位词表。进而在识别到缺损字符的第一字符和缺损方位时,迅速对照方位词表生成该缺损字符的第二文字候选集合(即,该缺损字符可能的所有字符合集)。
其实质为:将文字字符依照构件进行拆分识别,再基于方位词表对文字字符的构件及其方位进行遍历识别,并组合生成文字。
通过增加缺损字符的识别,使得当古籍文本中的字符存在脏污、缺损等时,能够根据脏污的位置以及当前所能够识别的缺损字符的部分(即第一字符)确定可能的文字内容。其中,OCR识别的本质是将图像形状转变为文本字符,当文本字符识别数量较多时,且能够生成文本内容。即,只要语言模型训练的结果足够,当拆分的第一字符无法组成文字时,联系上下文,也能够合理判断并从文字候选集合中选出文字,完成识别。
示例性地,第一字符的获取为像素级识别,当第一字符与缺损部位之间距离较小时,也能够有效地区分连通域。本申请还能够引入特征工程,至少包括字符拆分和词典匹配,以增强第一字符的提取。
在另一方面,本申请还提供了一种古籍识别设备,包括计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行上述含脏污缺漏的古籍文字识别方法。
本领域的技术人员应该明白,本发明的实施例可提供为方法、系统或计算机程序产品。本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
进一步地,使用预设的语料训练样本集训练语言模型,其中,语料训练样本集至少包括三千万个古籍文字。
使用预设的方位标注图像训练样本集训练方位识别模型,其中,方位标注图像训练样本集为古文字标注图像训练样本集基础上增加方位标注的图像。
使用预设的古籍文字图像训练样本集训练CTPN模型,其中,古文字标注图像训练样本集、方位图像训练样本集和古籍文字图像训练样本集能够采用相同图片制作,以减少样本集和训练集的制作周期。
本申请实施例中,目前对于古籍标注数据严重不足,使得其在训练深度学习模型时,数据量的不足极大的影响了识别结果。采用上述训练集训练深度学习模型,基于大量的数据准备和处理(即前期工艺准备)能够有效地提高识别准确率。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均应携带在本发明的保护范围之内。
Claims (10)
1.一种含脏污缺漏的古籍文字识别方法,其特征在于,包括:
获取图像;
识别所述图像中的文本位置;
识别所述文本位置中的所有文本字符;
当识别到缺损字符时,识别所述缺损字符的第一字符,其中,所述第一字符为所述文本字符的部分构件;
根据所述第一字符,生成包含所述第一字符的第一文字候选集合;
调用预设的语料训练样本集训练后的语言模型,根据所述缺损字符的所在文本内容,从所述第一文字候选集合中获取文字字符并完成识别。
2.根据权利要求1所述的含脏污缺漏的古籍文字识别方法,其特征在于,所述当识别到缺损字符时,识别所述缺损字符的第一字符,还包括:
依次识别所述文本位置中的文字字符,并确定所述缺损字符;
识别所述缺损字符中的所述第一字符,并获取所述第一字符的置信度,其中,所述第一字符包括所述缺损字符的字件或所述缺损字符的偏旁部首。
3.根据权利要求2所述的含脏污缺漏的古籍文字识别方法,其特征在于,所述根据所述第一字符,生成包含所述第一字符的第一文字候选集合,包括:
预设置信度阈值,当所述第一字符的置信度大于所述置信度阈值时,生成包含所述第一字符的所述第一文字候选集合。
4.根据权利要求3所述的含脏污缺漏的古籍文字识别方法,其特征在于,当多个所述第一字符的置信度超过所述置信度阈值时,分别生成多个与所述第一字符对应的所述第一文字候选集合。
5.根据权利要求1所述的含脏污缺漏的古籍文字识别方法,其特征在于,所述含脏污缺漏的古籍文字识别方法还包括:
调用预设的图像训练样本集训练后的方位识别模型识别所述文本位置中的所有文本字符;
当识别到缺损字符时,所述方位识别模型获取所述缺损字符的所述第一字符和所述缺损字符的缺损方位;
根据预设的方位词表生成所述缺损字符的第二文字候选集合;
调用预设的语料训练样本集训练后的语言模型,根据所述缺损字符的所在文本内容,从所述第二文字候选集合中获取文字字符并完成识别。
6.根据权利要求5所述的含脏污缺漏的古籍文字识别方法,其特征在于,所述根据预设的方位词表生成所述缺损字符的第二文字候选集合,包括:
预构造方位词表,所述方位词表包括偏旁部首方位词表和字件方位词表,其中,所述方位词表的方位包括左方位、左上方位、左下方位、右方位、右上方位、右下方位、中方位、上方位和下方位;
识别所述缺损字符中的所述第一字符,并获取所述第一字符的缺损方位和置信度,其中,所述第一字符包括所述缺损字符的字件或所述缺损字符的偏旁部首;
预设置信度阈值,当所述第一字符的大于所述置信度阈值时,根据所述缺损方位和所述方位词表构造方位二叉树;
遍历所述方位二叉树,并生成所述第二文字候选集合。
7.根据权利要求5所述的含脏污缺漏的古籍文字识别方法,其特征在于,所述根据预设的方位词表生成所述缺损字符的第二文字候选集合,包括:
创建嵌套字典,其中,所述嵌套字典中第一层的键为所述第一字符,所述嵌套字典中第一层的值所述嵌套字典的第二层,所述嵌套字典中第二层的键为方位,所述嵌套字典中第二层的值为所述第二文字候选集合中的文字列表。
8.根据权利要求6所述的含脏污缺漏的古籍文字识别方法,其特征在于,当多个所述第一字符的置信度超过所述置信度阈值时,构造多个与所述第一字符对应的所述方位二叉树。
9.根据权利要求1或5所述的含脏污缺漏的古籍文字识别方法,其特征在于,还包括:
对获取的所述图像进行预处理;
调用预设的古籍文字图像训练样本集训练后的CTPN模型对所述预处理后的所述图像进行识别,其中,所述CTPN模型所使用的CTPN算法的文字识别方向为垂直方向。
10.一种古籍识别设备,其特征在于,包括计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行权利要求1至9任一项所述含脏污缺漏的古籍文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306337.9A CN118038467A (zh) | 2024-03-18 | 2024-03-18 | 一种含脏污缺漏的古籍文字识别方法和古籍识别设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306337.9A CN118038467A (zh) | 2024-03-18 | 2024-03-18 | 一种含脏污缺漏的古籍文字识别方法和古籍识别设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118038467A true CN118038467A (zh) | 2024-05-14 |
Family
ID=90989146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410306337.9A Pending CN118038467A (zh) | 2024-03-18 | 2024-03-18 | 一种含脏污缺漏的古籍文字识别方法和古籍识别设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038467A (zh) |
-
2024
- 2024-03-18 CN CN202410306337.9A patent/CN118038467A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111401372B (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
CN107392141B (zh) | 一种基于显著性检测和lsd直线检测的机场提取方法 | |
US20130208986A1 (en) | Character recognition | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN112836650B (zh) | 一种质量检验报告扫描图像表格语义解析方法与系统 | |
CN112307919B (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN111626249B (zh) | 题目图像中几何图形的识别方法、装置和计算机存储介质 | |
CN111461100A (zh) | 一种票据识别方法、装置、电子设备和存储介质 | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
CN111539456B (zh) | 一种目标识别方法及设备 | |
CN115880566A (zh) | 一种基于视觉分析的智能阅卷系统 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
Darma et al. | Segmentation of balinese script on lontar manuscripts using projection profile | |
CN112597868A (zh) | 基于无定位点的试卷识别和矫正方法 | |
CN111145314A (zh) | 一种结合地名标注的扫描电子地图地名符号的提取方法 | |
CN113743360B (zh) | 智能化印章解析的方法和装置 | |
CN118038467A (zh) | 一种含脏污缺漏的古籍文字识别方法和古籍识别设备 | |
CN113158745B (zh) | 一种基于多特征算子的乱码文档图片识别方法及系统 | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
CN114627457A (zh) | 一种票面信息识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |