CN114037823A

CN114037823A - 一种基于深度学习ocr的电子书补字文件管理方法及系统

Info

Publication number: CN114037823A
Application number: CN202111311349.3A
Authority: CN
Inventors: 张玉朋; 蔡佐克; 高翔; 王志奇
Original assignee: Shanghai Touch Information Technology Co ltd
Current assignee: Shanghai Touch Information Technology Co ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-02-11
Anticipated expiration: 2041-11-08
Also published as: CN114037823B

Abstract

本发明公开了一种基于深度学习OCR的电子书补字文件管理方法及系统，通过检测原电子书中使用的图片、SVG，引用特殊字体的字符通过深度学习OCR对图片，SVG进行识别，分析打分，按同字符归类并建立与原文件中字符的关系。对通过每个字符筛选出来的文件进行处理，然后再生成该字符对应的唯一文件，对电子书中所有用到的地方进行替换。完成后重新打包生成电子书，实现对电子书补字文件的有效管理，全过程自动化，无需人工参与干涉。处理后的文件显示效果好，支持阅读器背景色的替换，字号的放大缩小，文件不冗余，且文件大小小于使用图片替换显示的方法和使用加载额外特殊字体库的方法。

Description

一种基于深度学习OCR的电子书补字文件管理方法及系统

技术领域

本发明属于计算机领域，尤其涉及一种基于深度学习OCR的电子书补字文件管理的方法。

背景技术

常见电子书在显示文字时，使用系统字体就可以完成显示。但在一些涉及到需要使用未被常用字体收录的字符、简繁混合、异体字、生僻字等领域时，系统自带的字体没有包含这些字符。当电子书中包含了这些字符时，则会导致内容显示不全，给书籍制作者、读者带来极大的困扰。

为解决这样的问题，目前主要使用的技术手段有：

1.如图1所示流程，最常用的是以图片进行特殊字符的替代显示：将无法显示的字符制作成图片，通过HTML代码，CSS样式将其显示位置固定到相应位置上。通过将特殊字符的图片(补字图片)引入到页面中的方式，来弥补字体库特殊字符的缺失。计算机设备在渲染时，不再去从系统字体库中寻找字符的数据信息，而是通过引入的图片进行渲染，从而将对应的字符显示出来。这些补字图片通常是从现有文献中裁剪的或由人工手动进行绘制的。

2.如图2所示流程，通过SVG图片生成字体库：应用程序提供商通过电子书制作方提供的SVG矢量图文件，生成字体库文件。

3.如图3所示流程，附加额外第三方字体库：电子书通过加载额外的第三方字体库，从而将对应字符显示出来。字体库通常是使用由第三方制作提供的。

以图片进行特殊字符的替代显示的方法，这在传统纸质书的编辑时也是使用类似的方法，放置一张图片进行排版，费时费力。且在电子书制作时，这种方法虽然能够显示出来，但该字符本质上是张图片，图片与图片之间没有任何关联，导致了相同文字在一本电子书里对应了多张图片，在电子书传输中导致浪费存储空间和流量，在渲染时增大系统消耗。以图片进行字符渲染的方法在电子书页面中显示时，无法通过现有相关技术进行字体样式的修改和应用，如放大字号，改变字体颜色等操作。因为这些渲染的字符本质是一张图片，故无法使用字体相关的设置。并且补字图片也会因为像素原因，在大屏设备上或者用户放大页面时出现图片模糊、不清晰的问题。

通过SVG文件转换字体文件的方法，需要人工提供SVG矢量图片文件，这些文件出版社通常是没有的，需要大量人力去做这些图片内容或者委托第三方进行制作。还需要修改电子书内文章页面的内容，将原来特殊字符引用的地方替换成新生成字体的对应编码，这一步并没有现有程序进行辅助处理，因此需要人工进行处理，该过程十分复杂且工作量巨大，实际中较少采用。

以加载额外特殊字体库的方法，此方法成本较高，一般引用刚好包含所需字符的字体或者通过专业制作字体的第三方制作，通用性较差，也较少采用。大部分的字体库尺寸会很大，会影响电子书的传播与打开速度，并且不能保证这些第三方字体库中所有的字体都是某电子书需要的字体，导致产生大量冗余字体数据。使用这种第三方特殊字体库后，也是需要替换电子书内文章页面的字符引用内容的，仍会有上述工作量问题的存在。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度学习OCR的电子书补字文件管理方法及系统，其对电子书补字文件检测、去重、重制管理，处理后的补字文件精简不冗余，显示效果好，节省空间，加速渲染。

本发明第一方面公开了一种基于深度学习OCR的电子书补字文件管理方法，包括以下步骤：

步骤1、对电子书原文件进行解包，根据电子书的OPF文件分析出电子书中所有补字文件，得到当前电子书所有的补字图片文件以及对应的文件路径、文件名；

步骤2、通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集；

步骤3、通过深度学习OCR技术对每个字符对应的所有补字文件进行评分，识别度越高评分越高，筛选出评分最高的补字文件作为最优文件；

步骤4、对每个字符对应的最优文件进行去除背景色、校正居中、调整亮度、对比度和饱和度处理，根据处理后的最优文件生成新的SVG补字文件；

步骤5、根据补字数据集中字符与补字文件的对应关系，将当前电子书中引用的补字文件的代码替换为对应的新生成的SVG补字文件及代码；

步骤6、根据步骤5的处理结果，重新生成OPF文件。

上述基于深度学习OCR的电子书补字文件管理方法，所述步骤2中通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集时，使用基于PaddlePaddle飞桨深度学习平台的PaddleOCR文字识别模型套件，采用chinese_ocr_db_crnn_server模型，用于识别图片当中的汉字。

上述基于深度学习OCR的电子书补字文件管理方法，所述采用chinese_ocr_db_crnn_server模型识别图片当中的汉字时，其基于chinese_text_detection_db_server检测得到的文本框，继续识别出文本框中的中文文字；之后对检测文本框进行角度分类；最终识别文字算法采用卷积递归神经网络；将识别出来的文字及对应的文件路径存储到关系型数据库中，形成一个字符对应多个补字文件的补字数据集。

上述基于深度学习OCR的电子书补字文件管理方法，所述步骤4中处理最优文件时，采用ImageMagick对图像进行处理，通过最优文件生成SVG矢量图像使用Potrace算法实现。

上述基于深度学习OCR的电子书补字文件管理方法，通过最优文件生成SVG矢量图像使用Potrace算法实现，包括以下步骤：

步骤4-1、将最优文件被分解为多个路径界线，多个路径界线构成了黑白区域之间的边界；

步骤4-2、将每条路径界线均近似为一个多边形；

步骤4-3、将每个多边形都转化为光滑的轮廓；最后以SVG格式输出。并记录在数据集中对应字符的信息下。

本发明第二方面公开了一种基于深度学习OCR的电子书补字文件管理系统，包括电子书解包分析模块、深度学习OCR处理模块、补字文件处理模块和电子书打包模块；

所述电子书解包分析模块，用于对电子书原文件进行解包，根据电子书的OPF文件分析出电子书中所有补字文件，得到当前电子书所有的补字图片文件以及对应的文件路径、文件名；

所述深度学习OCR处理模块，用于通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集；还用于通过深度学习OCR技术对每个字符对应的所有补字文件进行评分，识别度越高评分越高，筛选出评分最高的补字文件作为最优文件；

所述补字文件处理模块，用于对每个字符对应的最优文件进行去除背景色、校正居中、调整亮度、对比度和饱和度处理，根据处理后的最优文件生成新的SVG补字文件；

所述电子书打包模块，用于根据补字数据集中字符与补字文件的对应关系，将当前电子书中引用的补字文件的代码替换为对应的新生成的SVG补字文件及代码；然后，重新生成OPF文件。

上述基于深度学习OCR的电子书补字文件管理系统，所述深度学习OCR处理模块通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集时，使用基于PaddlePaddle飞桨深度学习平台的PaddleOCR文字识别模型套件，采用chinese_ocr_db_crnn_server模型，用于识别图片当中的汉字。

上述基于深度学习OCR的电子书补字文件管理系统，所述采用chinese_ocr_db_crnn_server模型识别图片当中的汉字时，其基于chinese_text_detection_db_server检测得到的文本框，继续识别出文本框中的中文文字；之后对检测文本框进行角度分类；最终识别文字算法采用卷积递归神经网络；将识别出来的文字及对应的文件路径存储到关系型数据库中，形成一个字符对应多个补字文件的补字数据集。

上述基于深度学习OCR的电子书补字文件管理系统，所述补字文件处理模块处理最优文件时，采用ImageMagick对图像进行处理，通过最优文件生成SVG矢量图像使用Potrace算法实现。

上述基于深度学习OCR的电子书补字文件管理系统，通过最优文件生成SVG矢量图像使用Potrace算法实现，包括以下步骤：

将最优文件被分解为多个路径界线，多个路径界线构成了黑白区域之间的边界；

将每条路径界线均近似为一个多边形；

将每个多边形都转化为光滑的轮廓；最后以SVG格式输出。并记录在数据集中对应字符的信息下。

本发明与现有技术相比具有以下优点：本发明可以批量的，快速的对电子书中的补字图片进行检测、处理、去重，且转换后的文件不冗余，显示效果好，支持阅读器的背景色设置，可随字号变化而变化。实现了处理的自动化，无需额外的人工干预，有效的增强了特殊字符的显示效果，改善用户的文字阅读体验，减小了电子书的大小，在传播时减少消耗的流量，有利于电子书的传播。本发明的工作原理核心是基于深度学习的OCR，通过深度学习，可以实现字符的自动优化选择，以达到对特殊字符的优化去重。在不断自动迭代中也能形成逐渐完善的特殊字符数据集，进一步提升后续处理电子书的能力，增强电子书补字文件管理的性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为第一种现有技术的流程图。

图2为第二种现有技术的流程图。

图3为第三种现有技术的流程图。

图4为本发明实施例1的方法流程图。

图5为本发明实施例2的方法流程图。

具体实施方式

实施例1

如图4所示，一种基于深度学习OCR的电子书补字文件管理方法，包括以下步骤：

需要说明的是，通过预先设置的OCR技术进行识别归类处理，可以很好的避免人工进行分类处理；将整个OPF文件中一个字符对应的多个补字文件归类到一起，形成补字数据集；

需要说明的是，一个字符在整个OPF文件中可能会对应很多个补字文件，通过对多个补字文件进行评分，筛选出最优的一个，便于后续获得更好的处理结果，具体的使用PaddleOCR对补字文件评分；

具体的，对每个字对应的最优文件进行处理，去除背景色，校正居中，调整亮度、对比度、饱和度，通过处理后的位图来生成新的SVG补字文件以确保显示效果最优；

步骤6、根据步骤5的处理结果，重新生成OPF文件。

本实施例中，所述步骤2中通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集时，使用基于PaddlePaddle飞桨深度学习平台的PaddleOCR文字识别模型套件，采用chinese_ocr_db_crnn_server模型，用于识别图片当中的汉字。

本实施例中，所述采用chinese_ocr_db_crnn_server模型识别图片当中的汉字时，其基于chinese_text_detection_db_server检测得到的文本框，继续识别出文本框中的中文文字；之后对检测文本框进行角度分类；最终识别文字算法采用卷积递归神经网络CRNN(Convolutional Recurrent Neural Network)；将识别出来的文字及对应的文件路径存储到关系型数据库中，此处采用mysql，以便后续使用，最终形成一个字符对应多个补字文件的补字数据集。

本实施例中，所述步骤4中处理最优文件时，采用ImageMagick对图像进行处理，通过最优文件生成SVG矢量图像使用Potrace算法实现。

本实施例中，通过最优文件生成SVG矢量图像使用Potrace算法实现，包括以下步骤：

步骤4-2、将每条路径界线均近似为一个多边形；

步骤4-3、将每个多边形都转化为光滑的轮廓；最后以SVG格式输出。并记录在数据集中对应字符的信息下。一个可选的步骤，结果曲线通过链接连续的贝塞尔曲线片段来进行优化，最后以SVG格式输出。

需要说明的是，最优文件为位图文件。

需要说明的是，本实施例与实施例2的技术原理相同，若存在不清楚的地方，请参阅实施例2。

实施例2

如图5所示，一种基于深度学习OCR的电子书补字文件管理系统，包括电子书解包分析模块、深度学习OCR处理模块、补字文件处理模块和电子书打包模块；

需要说明的是，电子书解包分析模块，是本发明中的入口模块，负责将电子书解压展开，将内部文件全部释放出来，分析相应的OPF文件提取所有补字文件的相关信息，以便下一步的分析处理。

需要说明的是，深度学习OCR处理模块，是本发明中的重要模块，是后续步骤的重要依赖，通过基于深度学习的OCR对所有补字文件进行识别、归类、评分，形成一个字符对应一个或者多个文件的补字数据集，其中记录了该字符对应文件的文件名，路径，被某章所引用的信息。在批量处理大量电子书时，可以通过迭代OCR模块，不断学习筛选出效果最好的补字文件。通过预先设置的OCR技术进行识别归类处理，可以很好的避免人工进行分类处理；将整个OPF文件中一个字符对应的多个补字文件归类到一起，形成补字数据集；

一个字符在整个OPF文件中可能会对应很多个补字文件，通过对多个补字文件进行评分，筛选出最优的一个，便于后续获得更好的处理结果，具体的使用PaddleOCR对补字文件评分；

需要说明的是，补字文件处理模块对通过OCR处理模块筛选出来的文件进行处理，涉及到图像处理、位图转矢量化处理，并生成新的补字矢量文件方便后续处理。具体的，对每个字对应的最优文件进行处理，去除背景色，校正居中，调整亮度、对比度、饱和度，通过处理后的位图来生成新的SVG补字文件以确保显示效果最优；

需要说明的是，电子书打包模块，替换电子书中的章节页面的内容，将新生成的文件与记录的相关章节内容进行替换，对OPF文件进行修改，剔除以前冗余的文件，加入新生成的文件最终形成新的OPF文件，最后打包成新的电子书文件，完成最后的操作。

本实施例中，所述深度学习OCR处理模块通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集时，使用基于PaddlePaddle飞桨深度学习平台的PaddleOCR文字识别模型套件，采用chinese_ocr_db_crnn_server模型，用于识别图片当中的汉字。

本实施例中，所述补字文件处理模块处理最优文件时，采用ImageMagick对图像进行处理，通过最优文件生成SVG矢量图像使用Potrace算法实现。

步骤A、将最优文件被分解为多个路径界线，多个路径界线构成了黑白区域之间的边界；

步骤B、将每条路径界线均近似为一个多边形；

步骤C、将每个多边形都转化为光滑的轮廓；最后以SVG格式输出。并记录在数据集中对应字符的信息下。一个可选的步骤，结果曲线通过链接连续的贝塞尔曲线片段来进行优化，最后以SVG格式输出。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于深度学习OCR的电子书补字文件管理方法，其特征在于：包括以下步骤：

步骤6、根据步骤5的处理结果，重新生成OPF文件。

2.按照权利要求1所述的一种基于深度学习OCR的电子书补字文件管理方法，其特征在于：所述步骤2中通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集时，使用基于PaddlePaddle飞桨深度学习平台的PaddleOCR文字识别模型套件，采用chinese_ocr_db_crnn_server模型，用于识别图片当中的汉字。

3.按照权利要求2所述的一种基于深度学习OCR的电子书补字文件管理方法，其特征在于：所述采用chinese_ocr_db_crnn_server模型识别图片当中的汉字时，其基于chinese_text_detection_db_server检测得到的文本框，继续识别出文本框中的中文文字；之后对检测文本框进行角度分类；最终识别文字算法采用卷积递归神经网络；将识别出来的文字及对应的文件路径存储到关系型数据库中，形成一个字符对应多个补字文件的补字数据集。

4.按照权利要求1所述的一种基于深度学习OCR的电子书补字文件管理方法，其特征在于：所述步骤4中处理最优文件时，采用ImageMagick对图像进行处理，通过最优文件生成SVG矢量图像使用Potrace算法实现。

5.按照权利要求4所述的一种基于深度学习OCR的电子书补字文件管理方法，其特征在于：通过最优文件生成SVG矢量图像使用Potrace算法实现，包括以下步骤：

步骤4-2、将每条路径界线均近似为一个多边形；

6.一种基于深度学习OCR的电子书补字文件管理系统，其特征在于：包括电子书解包分析模块、深度学习OCR处理模块、补字文件处理模块和电子书打包模块；

7.按照权利要求1所述的一种基于深度学习OCR的电子书补字文件管理系统，其特征在于：所述深度学习OCR处理模块通过深度学习OCR技术对所有补字文件进行识别归类，形成补字数据集时，使用基于PaddlePaddle飞桨深度学习平台的PaddleOCR文字识别模型套件，采用chinese_ocr_db_crnn_server模型，用于识别图片当中的汉字。

8.按照权利要求7所述的一种基于深度学习OCR的电子书补字文件管理系统，其特征在于：所述采用chinese_ocr_db_crnn_server模型识别图片当中的汉字时，其基于chinese_text_detection_db_server检测得到的文本框，继续识别出文本框中的中文文字；之后对检测文本框进行角度分类；最终识别文字算法采用卷积递归神经网络；将识别出来的文字及对应的文件路径存储到关系型数据库中，形成一个字符对应多个补字文件的补字数据集。

9.按照权利要求6所述的一种基于深度学习OCR的电子书补字文件管理系统，其特征在于：所述补字文件处理模块处理最优文件时，采用ImageMagick对图像进行处理，通过最优文件生成SVG矢量图像使用Potrace算法实现。

10.按照权利要求9所述的一种基于深度学习OCR的电子书补字文件管理系统，其特征在于：通过最优文件生成SVG矢量图像使用Potrace算法实现，包括以下步骤：

将每条路径界线均近似为一个多边形；