CN114937270A

CN114937270A - 古籍文字处理方法、装置及计算机可读存储介质

Info

Publication number: CN114937270A
Application number: CN202210482659.XA
Authority: CN
Inventors: 杨喆; 翟建峰; 杨瑞兴; 薛鹏
Original assignee: Shanghai Yueling Information Technology Co ltd
Current assignee: Shanghai Yueling Information Technology Co ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-23

Abstract

本发明公开了一种古籍文字处理方法，所述方法包括获取待识别图像；将所述待识别图像输入文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字；根据所述坐标以及所述目标文字生成多个目标文字行；根据所述目标文字行生成所述待识别对应的目标文本内容。本发明还公开了一种古籍文字处理装置及计算机可读存储介质，实现了在对文字识别的同时精确地各个文字的坐标。

Description

古籍文字处理方法、装置及计算机可读存储介质

技术领域

本发明涉及文字识别领域，尤其涉及古籍文字处理方法、装置及计算机可读存储介质。

背景技术

随着深度学习的研究与发展，基于计算机视觉的图像文本检测、识别技术在日常生活、商业活动和科学研究中发挥着越来越重要的作用，并取得了不错的进展，从计算机视觉角度看，古籍图片中的文字识别属于OCR(Optical Character Recognition，光学字符识别)领域，随着人工智能的兴起与发展，深度神经网络使得各类计算机视觉领域任务得到很好解决。在OCR方面，目前主流方法是pipeline的方式，即上游检测网络+下游识别网络。以百度的Paddle-OCR为例，检测网络为主干结构(如ResNet，DenseNet，Xception等)结合可微二值化模块(Differentiable Binarization，DB)，通过检测网络输出存在文本的区域(通常为一行或者一列文字)；识别网络为主干网络(如MobileNet)结合卷积循环神经网络结构(Convolutional Recurrent Neural Network，CRNN)，可以输出文字行的对应文本。这种方式仅能将图片划分为若干文字行/列，无法得出每个文字的坐标。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种古籍文字处理方法、装置及计算机可读存储介质，旨在解决无法得到图像文本中各个文字的坐标的问题。

为实现上述目的，本发明提供一种古籍文字处理方法，所述古籍文字处理方法的步骤包括：

获取待识别图像；

将所述待识别图像输入文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字；

根据所述坐标以及所述目标文字生成多个目标文字行；

根据所述目标文字行生成所述待识别对应的目标文本内容。

可选地，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标的步骤包括：

根据所述待识别图像生成包含所述待识别字符的目标文字框；

根据各个目标文字框的坐标参数确定各个待识别字符的坐标。

可选地，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字的步骤包括：

根据各个待识别字符对应的坐标将所述待识别图像划分为各个待识别字符对应的字符图像；

识别出各个字符图像分别对应的目标文字。

可选地，所述坐标包括包含所述目标文字框的左上角坐标值以及右下角坐标值，所述根据所述坐标以及所述目标文字生成多个目标文字行的步骤包括：

根据所述左上角坐标值以及所述右下角坐标值确定各个所述目标文字框对应的中心横坐标值；

获取各个目标文字框的宽度值，并将最小的宽度值确定为聚类半径；

根据所述聚类半径对各个所述中心横坐标值进行DBSCAN聚类，以得到各个所述目标文字行。

可选地，所述获取待识别图像的步骤之前，还包括：

获取第一训练样本以及第二训练样本，其中，所述第一训练样本包括待训练图像中的各个字符的坐标以及所述待训练图像，所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字；

根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练，以生成所述文字处理模型。

可选地，所述根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练的步骤包括：

将所述第一训练样本输入至YOLOV5模型进行训练，以生成所述文字处理模型中的文字检测模块；

将所述第二训练样本输入至Efficient-net-b7模型进行训练，以生成所述文字处理模型中的文字识别模块。

可选地，获取所述第一训练样本的步骤包括以下至少一项：

获取原始古籍图像，并截取所述原始古籍图像中的背景图像，获取文字数据库中的待训练字符，确定各个待训练字符的坐标，根据所述坐标将各个所述待训练字符以预设方式粘贴于所述背景图像，并将粘贴后的所述背景图像确定为所述第一训练样本中的待训练图像，并根据各个待训练字符的坐标确定所述第一训练样本中的待训练图像中的各个字符的坐标；

获取所述原始古籍图像中的原始字符，确定所述原始字符分别对应的坐标，根据所述坐标将所述原始字符以预设方式粘贴于所述背景图像，并将粘贴后的所述背景图像确定为第一训练样本中的所述待训练图像，并根据所述原始字符分别对应的坐标确定第一训练样本中的所述待训练图像中的各个字符的坐标。

可选地，获取所述第二训练样本的步骤包括：

将待训练图像输入至所述文字检测模块，以得到所述待训练图像中的各个字符的字符坐标；

根据所述字符坐标确定所述待训练图像中的每一文字行的行坐标；

根据所述行坐标以及所述字符坐标确定所述待训练图像中每一文字行中的字符；

根据所述字符对所述待训练图像进行分割，以生成所述待训练图像中各个字符对应的字符图像；

将各个字符图像以及各个字符图像对应的文字确定为所述第二训练样本。

此外，为实现上述目的，本发明还提供一种古籍文字处理装置，所述古籍文字处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的古籍文字处理程序，所述古籍文字处理程序被所述处理器执行时实现如上所述的古籍文字处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有古籍文字处理程序，所述古籍文字处理程序被所述处理器执行时实现如上所述的古籍文字处理方法的步骤。

本发明实施例提出的一种古籍文字处理方法、装置及计算机可读存储介质，在获取待识别图像时，将所述待识别图像输入文字处理模型，通过所述文字处理模型中的文字检测模块确定所述待识别图像中各个待识别字符的坐标，进而通过所述文字处理模型中的文字识别模块根据所述坐标确定各个待识别字符对应的目标文字，在确定各个待识别字符的坐标以及目标文字后，根据所述坐标以及所述目标文字生成多个目标文字行，根据各个目标文字行生成所述待识别图像对应的目标文本内容，通过在文字处理模型上设置文字检测模块，实现了识别文字坐标的技术效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的古籍文字处理装置结构示意图；

图2为本发明古籍文字处理方法第一实施例的流程示意图；

图3为本发明古籍文字处理方法第一实施例的流程示意图；

图4为本发明古籍文字处理方法第二实施例文字检测模块进行文字检测的流程示意图；

图5为文字检测示例图；

图6为本发明古籍文字处理方法第二实施例文字识别模块进行文字识别的流程示意图；

图7为文字识别示例图；

图8为本发明古籍文字处理方法第三实施例步骤S30的细化流程示意图；

图9为文字排版示例图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取待识别图像；将所述待识别图像输入文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字；根据所述坐标以及所述目标文字生成多个目标文字行；根据所述目标文字行生成所述待识别图像对应的目标文本内容。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的古籍文字处理装置结构示意图。

本发明实施例古籍文字处理装置可以是PC，也可以是智能手机、平板电脑、便携计算机等终端设备。

如图1所示，该古籍文字处理装置可以包括：处理器1001，例如CPU/GPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，古籍文字处理装置还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的古籍文字处理装置结构并不构成对古籍文字处理装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及古籍文字处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的古籍文字处理程序，并执行以下操作：

获取待识别图像；

根据所述坐标以及所述目标文字生成多个目标文字行；

根据所述目标文字行生成所述待识别图像对应的目标文本内容。

进一步地，处理器1001可以调用存储器1005中存储的古籍文字处理程序，还执行以下操作：

识别出各个字符图像分别对应的目标文字。

第一实施例

参照图2，本发明古籍文字处理方法第一实施例提供一种古籍文字处理方法，所述古籍文字处理方法包括：

步骤S10，获取待识别图像；

步骤S20，将所述待识别图像输入文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字；

步骤S30，根据所述坐标以及所述目标文字生成多个目标文字行；

步骤S40，根据所述目标文字行生成所述待识别图像对应的目标文本内容。

在本实施例中，所述待识别图像为包含待识别字符的古籍文本图像，所述待识别字符包括生僻字、繁体字、异体字、标点符号等。

可选地，所述文字处理模型包括文字检测模块以及文字识别模块，所述文字检测模块根据待训练样本对YOLOV5算法进行迭代训练获取，所述文字识别模块根据待训练样本对Efficient-net算法进行迭代训练获取。可选地，所述文字处理还包括文字排版模块，所述文字排版模块根据待训练样本对DBSCAN聚类算法进行迭代训练获取，所述文字识别模块用于根据待识别图像确定所述待识别图像中的各个待识别字符的坐标，所述文字检测模块用于识别出各个待识别字符对应的文字，所述文字排版模块用于对识别到的文字划分为多个文字行，并根据各个文字行输出待识别图像的文本内容。

可选地，参照图3，为了获取所述文字处理模型，以方便后续对古籍文本图像的识别，所述步骤S10之前，还包括：

步骤S50，获取第一训练样本以及第二训练样本，其中，所述第一训练样本包括待训练图像中的各个字符的坐标以及所述待训练图像，所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字；

步骤S60，根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练，以生成所述文字处理模型。

可选地，所述预设模型包括YOLOV5模型以及Effici ent-net-b7模型，所述根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练，以生成所述文字处理模型的步骤包括：

可选地，所述第一训练样本用于训练得到所述文字检测模块，所述第二训练样本用于训练得到所述文字识别模块，其中，所述第一训练样本包括待训练图像中的各个字符的坐标以及所述待训练图像，所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字。

可选地，获取所述第一训练样本的方式包括以下至少一项：

可选地，所述原始古籍图像可以是所述待训练图像，还可以是从古籍书本中截取出的文本图像，所述原始古籍图像中含有原始字符，在获取所述原始古籍图像后，截取所述原始古籍图像中的背景图像，所述背景图像中包括原始古籍图像中的边框，行框以及分页图像等。

可选地，所述待训练字符可以是从文字数据库中的常见字体获取，所述文字数据库中包括大量不同文字格式的字符，所述文字格式包括方正楷体、隶书、仿宋、黑体等，具体地，从所述文字数据库中选取预设数量的待训练字符。

可选地，确定各个待训练字符的坐标的方式包括生成各个待训练字符对应的文字框，根据所述文字框的尺寸信息确定各个待训练字符的坐标，所述尺寸信息包括所述文字框的中心点的横坐标值，纵坐标值、所述文字框的宽度值以及所述文字框的高度值，所述待训练字符的坐标包括标准横坐标值x、标准纵坐标值y、标准宽度值w以及标准高度值h，具体地，根据所述尺寸信息确定各个待训练字符的坐标的方式包括：将所述横坐标值除以所述背景图像的宽度值得到所述标准横坐标值x，将所述纵坐标值除以所述背景图像的高度值得到所述标准纵坐标值y，将所述宽度值除以所述背景图像的宽度值得到所述标准宽度值w，将所述高度值除以所述背景图像的高度值得到所述标准高度值h。可选地，所述待训练字符的坐标为所述待训练字符在待训练图像对应的坐标系上的坐标，所述待训练图像对应的坐标系包括：以所述待训练图像的左上角作为坐标系的原点，所述坐标系的x轴对应的横坐标值的对应关系为从左往右，横坐标值越大，所述坐标系的y轴对应的纵坐标值的对应关系为从上往下，纵坐标值越大。

可选地，在获取各个待训练字符的坐标以及所述背景图像后，根据所述坐标将各个待训练字符以预设方式粘贴于所述背景图像中，以生成若干个待训练图像，其中所述根据所述坐标将各个待训练字符以预设方式粘贴于所述背景图像中的粘贴方式包括以下至少一种：

将所述待训练字符进行缩放后，将缩放后的所述待训练字符粘贴于所述背景图像中；

对所述背景图像进行预设处理，所述预设操作包括添加多种噪声类型的噪声，所述噪声类型包括高斯噪声、泊松噪声以及椒盐噪声的至少一种，将所述待训练字符粘贴于所述添加噪声后的所述背景图像中；

根据预设排列顺序将各个待训练字符粘贴于所述背景图像中，所述预设排列顺序由古籍文本排版顺序确定，所述预设排列顺序包括从上到下的排列顺序，从右到左的排列顺序。

可选地，在将所述待训练字符以预设方式粘贴于所述背景图像，生成若干个待训练图像后，根据所述待训练字符的坐标确定所述待训练图像中的各个字符的坐标，进而将所述待训练图像中的各个字符的坐标以及所述待训练图像作为所述第一训练样本，其中，将所述待训练字符对应的标准横坐标值x、标准纵坐标值y、标准宽度值w以及标准高度值h确定为所述待训练图像中的字符的坐标，所述待训练图像的字符设置为所述待训练字符。

可选地，在又一实施例中，基于所述原始古籍图像含有原始字符，本申请实施例还提出一种根据所述原始古籍图像中的原始字符获取待训练字符，进而生成第一训练样本的方式，具体地，获取所述第一训练样本的方式还可以是获取所述原始古籍图像中的原始字符，确定所述原始字符分别对应的坐标，根据所述坐标将所述原始字符以预设方式粘贴于所述背景图像，并将粘贴后的所述背景图像确定为第一训练样本中的所述待训练图像，并根据所述原始字符分别对应的坐标确定第一训练样本中的所述待训练图像中的各个字符的坐标。

可选地，所述获取所述原始古籍图像的原始字符，确定所述原始字符分别对应的坐标的方式包括：利用标注工具labelME用文字框从各个所述原始古籍图像框出所述原始古籍图像中的原始字符，对各个原始字符进行YOLO格式的标注，在标注完成后，每一个原始古籍图像对应一个txt格式的标签文件，所述标签文件中的每一行表示每一个原始字符的标记实例，每一行包括5列，每一列代表所述文字框的一个信息，从左到右分别是原始字符对应的标签类别，文字框中心横坐标值与所述原始古籍图像的宽度值的比值，文字框中心纵坐标值与所述原始古籍图像的高度值的比值、文字框宽度值与所述原始古籍图像的宽度值的比值、文字框高度值与所述古籍图像的高度值的比值，可选地，各个原始字符对应的标签类别均为文字，进而根据所述标签文件确定所述原始字符的坐标，所述原始字符的坐标包括标准横坐标值x、标准纵坐标值y、标准宽度值w以及标准高度值h，所述标准横坐标值x由文字框中心横坐标值与所述原始古籍图像的宽度值的比值确定，标准纵坐标值y由文字框中心纵坐标值与所述原始古籍图像的高度值的比值确定，所述标准宽度值w由文字框宽度值与所述原始古籍图像的宽度值的比值确定，所述标准高度值h由文字框高度值与所述古籍图像的高度值的比值确定。

可选地，在确定各个原始字符的坐标后，根据所述坐标将所述原始字符以预设方式粘贴于所述背景图像，并将粘贴后的所述背景图像确定为第一训练样本中的所述待训练图像，并根据所述原始字符分别对应的坐标确定第一训练样本中的所述待训练图像中的各个字符的坐标。所述根据所述坐标将所述原始字符以预设方式粘贴于所述背景图像的步骤与上述将待训练字符以预设方式粘贴于所述背景图像的方式类似，此处不再赘述。

可选地，在生成所述第一训练样本后，将所述第一训练样本输入至YOLOV5模型中进行训练，以生成所述文字检测模块。其中，将所述第一训练样本输入至YOLOV5模型中进行训练前，还包括将各个所述待训练图像的尺寸调节为统一尺寸。

可选地，将所述第二训练样本输入至Efficient-net-b7模型进行训练，将训练后得到的Efficient-net-b7模型生成所述文字检测模块的步骤前，需获取第二训练样本，所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字，每一个字符对应一个字符图像，所述字符图像中包括所述字符，所述文字为所述字符对应的文字。

可选地，获取所述第二训练样本的方式包括：

可选地，将待训练图像输入至所述文字检测模块，以得到所述待训练图像中的各个字符的字符坐标，所述文字检测模块用于根据图像检测得到所述图像中各个字符的字符坐标，所述字符坐标包括包含字符的文字框的坐标，所述包含字符的文字框的坐标包括所述文字框的左上角顶点的左上角坐标值以及所述文字框的右下角顶点的右下角坐标值，所述左上角坐标值包括左上角横坐标值以及左上角纵坐标值，所述右下角坐标值包括右下角横坐标值以及右下角纵坐标值。

可选地，在获取所述待训练图像中各个字符的字符坐标后，根据所述字符坐标确定所述待训练图像中的每一文字行的行坐标，具体地，根据所述字符坐标获取各个包含字符的文字框的中心点横坐标值，并获取各个文字框的尺寸信息，根据所述尺寸信息确定宽度最小的文字框，将宽度最小的文字框的宽度与预设系数的乘积确定聚类半径，所述预设系数可以为0.85，在确定所述聚类半径后，根据所述聚类半径对各个文字框的中心点横坐标值进行DBSCAN聚类，从而生成多个目标聚类以及各个目标聚类对应的聚类中心，一个目标聚类包括多个中心点横坐标值，一个目标聚类对应一文字行，在确定各个目标聚类以及聚类中心后，将所述聚类中心对应的横坐标值确定各个文字行对应的行坐标，所述行坐标以(x_l0,y_l0,x_l1,y_l1)表示，x_l0表示处于该文字行的各个文字框对应的坐标中的最小左上角横坐标值，y_l0表示处于该文字行的各个文字框对应的坐标中的最小左上角纵坐标值，x_l1表示处于该文字行的各个文字框对应的坐标中的最大右下角横坐标值，y_l1表示处于该文字行的各个文字框对应的坐标中的最大右下角纵坐标值，需要说明的是，本申请实施例列举的一个文字行表示为待训练图像中的一列文字。

可选地，在确定所述待训练图像中每一文字行的行坐标后，根据所述行坐标以及所述字符坐标确定所述待训练图像中每一文字行中的字符，其中，每一文字行中的字符为每一文字行中包含的字符，例如，一文字行包括扣禁猴咦奇，该文字行中的字符分别为：“扣”，“禁”，“猴”，“咦”，“奇”。

可选地，在确定每一文字行中包含的字符后，根据所述字符对所述待训练图像进行分割，以生成所述待训练图像中各个字符对应的字符图像，一个字符对应一个字符图像，每个字符图像仅包含一个字符。

可选地，在生成各个字符图像后，将所述字符图像以及各个字符图像对应文字作为所述第二训练样本，所述字符图像对应的文字为所述字符对应的文字，例如：所述字符为“節”，所述文字为“節”。

可选地，在又一实施例中，在根据所述字符坐标确定所述待训练图像中的每一文字行的行坐标后，获取第二训练样本的方式还包括：获取所述待训练图像中的每一文字行的行坐标标签以及所述待训练图像中每个字符对应的文字标签，所述文字标签为所述字符对应的文字，所述行坐标标签以及所述文字标签可以是对所述待训练图像进行人工标注，还可以是利用标注工具对所述待训练图像进行标注，在确定所述每一文字行的行坐标标签后，根据所述行坐标标签对应的坐标信息与所述行坐标的坐标信息进行匹配，以生成多组满足匹配条件的匹配结果，所述匹配结果包括各个所述行坐标分别对应的目标行坐标标签，一个行坐标标签与所述行坐标一一对应，一个行坐标对应一个目标行坐标标签，其中，所述匹配条件包括为所述行坐标对应的区域与所述目标行坐标标签对应的区域的IOU值(所述行坐标对应的区域与所述行坐标标签对应的区域的交并比)大于所述行坐标对应的区域与除所述目标行坐标标签以外的行坐标标签对应的区域的IOU值，所述行坐标对应的区域由所述行坐标的坐标信息确定，即由最小左上角横坐标值、最小左上角纵坐标值、最大右下角横坐标值以及最大右下角纵坐标值作为所述行坐标对应的区域的顶点，由各个顶点生成所述行坐标对应的区域，所述行坐标标签对应的区域同理，在生成各个行坐标对应的目标行坐标标签后，将所述行坐标对应的区域中所包含的文本框以及所述目标行坐标标签对应的区域中所包含的文本框一一对应，进而根据所述待训练图像中的各个字符的字符坐标将各个字符从所述待训练图像执行裁剪操作，以生成各个字符对应的字符图像并将提前标注好的所述字符图像对应的文字标签确定为各个字符图像对应的文字。

可选地，为了提高匹配的准确度，确定与各个行坐标对应的目标行坐标标签的方式还包括：根据所述行坐标对应的区域与所述行坐标标签对应的区域的交并比确定各个行坐标对应的区域对应的待确认行坐标标签，所述待确认行坐标标签对应的区域与所述行坐标对应的区域的交并比大于除所述待确认行坐标标签以外的其他标签对应的区域与所述行坐标对应的区域的交并比，在确定各个行坐标分别对应的待确认行坐标标签后，获取行坐标对应的区域所包含的文本框的数量，以及所述待确认行坐标标签对应的区域所包含的文本框的数量，在所述行坐标对应的区域所包含的文本框的数量以及与所述待确认行坐标标签所对应的文本框的数量一致时，则确定所述待确认行坐标标签为所述目标行坐标标签。

可选地，在获取所述待训练图像中的各个字符图像以及各个字符图像对应的文字后，将各个字符图像以及所述各个字符图像对应的文字作为所述第二训练样本，将所述第二训练样本输入至Efficient-net-b7模型进行训练，以生成所述文字识别模块。

可选地，在又一实施例中，在根据所述字符坐标确定所述待训练图像中的每一文字行的行坐标后，获取所述第二训练样本的方式还包括：标注所述待训练图像中的各个标签行，以及确定所述待训练图像中各个字符的文字标签，将所述待训练图像中的每一个标签行的文本框数量与利用所述文字检测模块得到的所述待训练图像中的每一文字行的文本框数量进行匹配，以确定与文字行匹配的待匹配标签行，所述待匹配标签行的文字框数量与所述文字本的文字框数量一致，将所述待训练图像的各个文字行输入至所述文字识别模块进行文字识别，以供所述文字识别模块识别出各个文字行中所包含的文字，将识别得到的所述文字行中的文字与所述文字对应的待匹配标签行的文字标签进行匹配，若所述文字行中的文字与各个所述文字标签匹配的匹配率大于预设匹配率，则确定所述待匹配标签行为所述文字行对应的目标标签行，进而根据所述待训练图像中的各个字符的字符坐标将各个字符从所述待训练图像执行裁剪操作，以生成各个字符对应的字符图像并将提前标注好的所述字符图像对应的文字标签确定为各个字符图像对应的文字，根据所述字符图像以及所述字符图像对应的文字确定为所述第二训练样本，可选地，在获取所述第二训练样本，依据所述第二训练样本对所述文字识别模块中的Efficient-net-b7模型进行优化，以提高所述文字识别模块识别文字的准确度。

可选地，在根据所述第二训练样本对Efficient-net-b7模型进行训练前，对所述第二训练样本进行处理，对所述第二训练样本进行处理包括对所述字符图像进行预设处理，所述预设处理包括噪声处理、图像扭曲处理、添加划痕处理、添加污渍处理等，在完成对所述第二训练样本的处理后，将处理后的所述第二训练样本输入至Efficient-net-b7模型进行训练，以生成所述文字处理模型中的文字识别模块。

可选地，在生成所述文字检测模块以及所述文字识别模块后，根据所述文字检测模块以及所述文字识别模块生成所述文字处理模块。

可选地，在实际的古籍文字处理过程中，将待识别图像输入所述文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字，在获取各个待识别字符的坐标以及所述各个待识别字符对应的目标文字后，根据所述坐标以及所述目标文字生成多个目标文字行，根据所述目标文字行生成所述待识别图像对应的目标文本内容，所述目标文本内容为所述待处理图像中的文字内容。

在本申请实施例中，通过设置文字处理模型，所述文字处理模型包括文字检测模块以及文字识别模块，所述文字检测模块根据第一训练样本对YOLOV5模型进行训练获取，所述文字识别模块根据第二训练样本对Efficient-net-b7模型进行训练获取，在获取所述第一训练样本时，不仅利用标注工具对原始古籍图像进行标注以生成第一训练样本，还利用文字数据库存储大量字符的特性从所述文字数据库中直接提取待训练字符，将所述待训练字符粘贴于背景图像的方式生成第一训练样本，不仅扩充了训练样本的数据量，还提高了获取训练样本的效率，从而提高了构建文字检测模块的效率以及提高了文字检测模块进行文字检测时的文字检测准确性，另外，在获取第二训练样本时，不仅通过标注的方式生成第二训练样本，还在根据以标注的方式得到的第二训练样本对Efficient-net-b7模型进行训练后得到的文字识别模块后，利用该文字识别模块检测待训练图像的方式得到新的第二训练样本，根据新的第二训练样本继续对文字识别模块进行训练，以此循环，提高了训练文字识别模块的精细性以及文字识别模块的准确度，在生成所述文字检测模型后，在获取待识别图像时，将待识别图像直接输入所述文字处理模型，以利用所述文字处理模型的文字检测模块检测出所述待识别图像中各个待识别字符的坐标以及利用所述文字识别模块识别出各个待识别字符对应的目标文字，进而根据各个待识别字符的坐标以及所述目标文字生成多个目标文字行，根据各个目标文字行生成所述待识别图像对应的目标文本内容，在对古籍文字图像进行处理的过程中，不仅可以实现对文字的识别，还可以实现对文字坐标的获取，提高了文字处理功能的丰富性，并且本申请还通过生成的各个目标文字行生成目标文本内容，解决了古籍图片文本输出顺序的问题，提高了识别到的文本内容的规范度。

第二实施例

基于第一实施例，本申请实施例提出了文字处理模型对待识别图像进行文字检测以及文字识别的具体实施方式。

可选地，参照图4，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标的步骤包括：

步骤S11，根据所述待识别图像生成包含所述待识别字符的目标文字框；

步骤S12，根据各个目标文字框的坐标参数确定各个待识别字符的坐标。

在本申请实施例中，所述文字处理模型接收到所述待识别图像后，调用所述文字检测模块，利用所述文字检测模块生成各个待识别字符对应的目标文字框，所述目标文字框包含所述待识别字符，一个待识别字符对应一个目标文字框，所述目标文字框对应有各自的坐标参数，所述坐标参数包括所述目标文字框的左上角坐标值、所述目标文字框的右下角坐标值、目标文字框的宽度值以及高度值，进而将所述坐标参数中的左上角坐标值以及右下角坐标值作为所述待识别字符的坐标，其中，各个目标文字框的坐标参数以所述目标文字框在待识别图像对应的图像坐标系中的位置确定，所述图像坐标系以所述待识别图像的左上角为坐标原点，在x轴方向上，位置越靠右，该目标文字框对应的横坐标值越大，在y轴方向上，位置越靠下，该目标文字框对应的纵坐标值越大，参照图5，图5为文字检测示例图，一个字符对应一个文字框。

可选地，参照图6，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字的步骤包括：

步骤S13，根据各个待识别字符对应的坐标将所述待识别图像划分为各个待识别字符对应的目标字符图像；

步骤S14，识别出各个目标字符图像分别对应的目标文字。

可选地，在获取各个待识别字符对应的坐标后，根据所述坐标将所述待识别图像划分为各个待识别字符对应的目标字符图像，具体地，根据所述坐标对所述待识别图像进行分割，将分割得到的各个图像确定为各个目标字符图像，一个目标字符图像对应一个字符。

可选地，在获取各个目标字符图像后，识别各个所述目标字符图像的字符，将识别得到的文字确定为各个目标字符图像分别对应的目标文字，参照图7，图7示出了文字识别示例图，图7左边为各个目标字符图像，图7右边为各个目标字符图像对应的目标文字。

在本申请实施例中，通过在文字处理模型中设置文字检测模块以及文字识别模块，通过所述文字检测模块根据所述待识别图像生成包含所述待识别字符的目标文字框，根据所述目标文字框的坐标参数确定各个待识别字符的坐标，在确定各个待识别字符的坐标后，根据所述坐标将待识别图像划分为各个待识别字符对应的目标字符图像，并通过所述文字识别模块识别每个目标字符图像包含的字符对应的目标文字，本申请不仅实现了文字识别功能，还实现了文字坐标的检测功能，解决了无法获取文字坐标的问题。

第三实施例

基于上述实施例，参照图8，所述步骤S30包括：

步骤S31，根据所述左上角坐标值以及所述右下角坐标值确定各个所述目标文字框对应的中心横坐标值；

步骤S32，获取各个目标文字框的宽度值，并将最小的宽度值确定为聚类半径；

步骤S33，根据所述聚类半径对各个所述中心横坐标值进行DBSCAN聚类，以得到各个所述目标文字行。

在本申请实施中，通过所述文字检测模块识别得到各个待识别字符的坐标并通过文字识别模块识别出各个待识别字符对应的目标文字后，所述坐标包括包含所述待识别字符的目标文字框的左上角坐标值以及右下角坐标值，通过所述坐标以及所述目标文字生成多个目标文字行。

可选地，根据所述左上角坐标值以及所述右下角坐标值确定各个所述目标文字框的中心横坐标值，具体地，将所述左上角坐标值中的左上角横坐标值以及所述右下角坐标值中的右下角坐标值作和，将1/2比例的和确定为所述中心横坐标值，例如：左上角横坐标值为x1，右下角横坐标值为x2，中心横坐标值等于1/2(x1+x2)。

可选地，获取各个目标文字框的宽度值，具体地，将所述右下角横坐标值与所述左下角横坐标值的坐标差值确定为目标文字框的宽度值，例如：左上角横坐标值为x1，右下角横坐标值为x2，宽度值等于x2-x1。

可选地，在获取各个目标文字框的宽度值后，比对各个宽度值，将所述宽度值中最小的宽度值作为聚类半径，例如：最小的宽度值＝mi n({x2-x1}),可选地，在获取最小的宽度值后，将最小的所述宽度值与预设系数的乘积确定聚类半径，所述预设系数可以为0.85。

可选地，在确定所述聚类半径后，根据所述聚类半径对各个目标文字框的中心点横坐标值进行DBSCAN聚类，从而生成多个目标聚类以及各个目标聚类对应的聚类中心，一个目标聚类包括多个中心点横坐标值，一个目标聚类对应一个目标文字行，在确定各个目标聚类以及聚类中心后，根据所述聚类中心对应的横坐标值确定各个目标文字行对应的目标行坐标，所述目标行坐标以(x_l0,y_l0,x_l1,y_l1)表示，x_l0表示处于该目标文字行的各个包含所述目标文字的目标文字框对应的坐标中的最小左上角横坐标值，y_l0表示处于该目标文字行的各个包含所述目标文字的目标文字框对应的坐标中的最小左上角纵坐标值，x_l1表示处于该目标文字行的各个包含所述目标文字的目标文字框对应的坐标中的最大右下角横坐标值，y_l1表示处于该目标文字行的各个包含所述目标文字的目标文字框对应的坐标中的最大右下角纵坐标值，需要说明的是，本申请实施例列举的一个目标文字行表示为待识别图像中的一列文字。

可选地，在确定各个目标聚类后，将各个所述目标聚类确定为对应的目标文字行，一个目标文字行包括多个包含目标文字的目标文字框，所述目标文字行的各个目标文字框的排列顺序根据各个目标文字框对应的纵坐标值依据从上到下的顺序确定，纵坐标越小，所述目标文字框越靠上，纵坐标值越大，所述目标文字框越靠下，其中，所述目标文字框对应的纵坐标值可以是左上角坐标值中的左上角纵坐标值，还可以是右下角坐标值中的右下角纵坐标值。

可选地，在确定各个目标文字行后，根据所述目标文字行生成所述待识别图像对应的目标文本内容，具体地，根据各个目标文字行的目标行坐标对各个目标文字行进行排序，所述目标行坐标对应的横坐标值越大，越靠近右边，所述目标行坐标对应的横坐标值越小，越靠近左边，将各个目标文字行以从右到左的排列顺序生成排列后的目标文字行，根据排列后的目标文字行生成所述目标文本内容，其中，所述目标文字框对应的横坐标值可以是左上角坐标值中的左上角横坐标值，还可以是右下角坐标值中的右下角横坐标值。

可选地，在又一实施例中，在确定各个目标文字行后，根据所述目标文字行生成所述待识别图像对应的目标文本内容的方式还包括：获取各个目标文字行对应的聚类中心，根据所述聚类中心对应的横坐标值对各个目标文字行进行排序，聚类中心对应的横坐标值越大，越靠近右边，聚类中心对应的横坐标值越小，越靠近坐标，进而将各个目标文字行以从右到做的排列顺序生成排列后的目标文字行，根据排列后的目标文字行生成所述目标文本内容。

可选地，古籍文本有其特殊的排版方式，通常由正文与注释组成。在古籍文本内容输出时，需要按照从上到下、从右到左以及正文与注释分开的方式。基于此，在又一实施例中，在确定各个目标文字行后，根据所述目标文字行生成所述待识别图像对应的目标文本的方式还包括：识别各个所述目标文字行中各个目标文字框的类型信息，所述类型信息包括注释以及正文，根据所述目标文字行中的各个目标文字框对应的类型信息以及各个目标文字行的行坐标对各个目标文字行进行排列，将排列后的各个目标文字行生成所述目标文本内容，或根据所述目标文字行中的目标文字框对应的类型信息以及各个目标文字行对应的聚类中心对应的横坐标值对各个目标文字行进行排列，将排列后的所述目标文字行生成所述目标文本内容。

可选地，识别各个目标文字行中的各个目标文字框的类型信息的方式包括获取处于所述目标文字行中的各个目标文字框的左上角横坐标值以及右下角横坐标值，将目标文字框的左上角横坐标值与所述除所述目标文字框以外的其他目标文字框的右下角横坐标值进行比对，以获取所述目标文字框的左上角横坐标值与所述其他目标文字框的右下角横坐标值之间的第一横坐标差值以及所述目标文字框的右下角横坐标值与所述其他目标文字框的左上角横坐标值之间的第二横坐标差值，若所述第一横坐标差值中存在大于预设差值的第一横坐标差值，或所述第二横坐标差值中存在小于预设差值的第二横坐标差值，确定所述目标文字框的类型信息为注释，所述预设差值为0，若所述第一横坐标差值以及所述第二横坐标差值均等于所述预设差值，确定所述目标文字框的类型信息为正文，以此类推，依次完成确定各个其他目标文字框的类型信息以及确定各个目标文字行中的各个目标文字框的类型信息。

可选地，在所述目标文字框的类型信息为注释时，根据所述第一横坐标差值以及所述第二横坐标差值确定所述目标文字框的注释类型，所述注释类型包括第一注释以及第二注释，第一注释包括位置靠右的注释，所述第二注释包括位置靠左的注释，在所述目标文字框的左上角横坐标值与其他目标文字框的右下角横坐标值的第一横坐标差值大于所述预设差值，确定所述目标文字框为第一注释，在所述目标文字框的右下角横坐标值与其他目标文字框的左上角横坐标值的第二横坐标差值小于所述预设差值，确定所述目标文字框为第二注释。

可选地，在确定各个目标文字框的类型信息后，在目标文字框的类型信息为正文时，获取类型信息为正文的各个目标文字框的纵坐标，根据所述纵坐标值依据从大到下的顺序从上到下依次对各个目标文字框进行排列，在所述目标文字框的类型信息为注释时，获取类型信息为注释的各个目标文字框的纵坐标，根据所述纵坐标值依据从大到小以及先第一注释后第二注释的排列顺序对所述目标文字框进行排列，以完成所述目标文字行的目标文字框的排列，依次完成其他目标文字行的排列，进而根据各个目标文字行的行坐标对各个目标文字行进行排列，将排列后的目标文字行生成所述目标文本内容，参照图9，图9示出了文字排版示例图，图9左边为包含正文和注释的目标文字行，图9右边为各个目标文字框的排列顺序。

在本申请实施例中，在获取各个待识别字符的坐标后，根据各个待识别字符的坐标通过DBSCAN聚类算法确定各个目标文字行，进而根据目标文字行中的目标文字框的坐标确定处于同一目标文字行中的各个目标文字框的类型信息，进而根据所述类型信息以及所述目标文字框的坐标(所述待识别字符的坐标)将各个目标文字框进行排列，以生成排列后的目标文字行，进而根据所述排列后的目标文字行生成所述目标文本内容，本申请实施例参照古籍文本的排版顺序对识别得到的目标文字以及各个目标文字的坐标进行排版，提高了文字处理的规范化。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有古籍文字处理程序，所述古籍文字处理程序被处理器执行时实现如上所述的各个实施例的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种古籍文字处理方法，其特征在于，所述古籍文字处理方法的步骤包括：

获取待识别图像；

根据所述坐标以及所述目标文字生成多个目标文字行；

2.如权利要求1所述的古籍文字处理方法，其特征在于，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标的步骤包括：

3.如权利要求1所述的古籍文字处理方法，其特征在于，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字的步骤包括：

根据各个待识别字符对应的坐标将所述待识别图像划分为各个待识别字符对应的目标字符图像；

识别出各个目标字符图像分别对应的目标文字。

4.如权利要求2所述的古籍文字处理方法，其特征在于，所述坐标包括包含所述目标文字框的左上角坐标值以及右下角坐标值，所述根据所述坐标以及所述目标文字生成多个目标文字行的步骤包括：

5.如权利要求1所述的古籍文字处理方法，其特征在于，所述获取待识别图像的步骤之前，还包括：

6.如权利要求5所述的古籍文字处理方法，其特征在于，所述根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练的步骤包括：

7.如权利要求5所述的古籍文字处理方法，其特征在于，获取所述第一训练样本的步骤包括以下至少一项：

8.如权利要求5所述的古籍文字处理方法，其特征在于，获取所述第二训练样本的步骤包括：

9.一种古籍文字处理装置，其特征在于，所述古籍文字处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的古籍文字处理程序，所述古籍文字处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的古籍文字处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有古籍文字处理程序，所述古籍文字处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的古籍文字处理方法的步骤。