CN113065537B

CN113065537B - 一种基于模型优化的ocr文件格式转化方法及系统

Info

Publication number: CN113065537B
Application number: CN202110616887.7A
Authority: CN
Inventors: 刘杰; 张翔; 宋永生
Original assignee: Jiangsu United Industrial Ltd By Share Ltd
Current assignee: Jiangsu United Industrial Ltd By Share Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-14
Anticipated expiration: 2041-06-03
Also published as: CN113065537A

Abstract

本发明公开了一种基于模型优化的OCR文件格式转化方法及系统，获得第一图像，根据第一透视裁剪指令对第一图像进行初始透视裁剪，获得第二图像；根据第一坐标标识指令获得第一坐标标识结果；构建第一特征库，根据第一特征捕捉指令，基于第一特征库对第二图像进行特征遍历，获得第一输出结果；将第一坐标标识结果和第一输出结果输入坐标特征分析模型，获得第二输出结果；获得第一坐标文字识别结果；通过第一格式处理模块对第二输出结果和第一坐标文字识别结果进行处理，获得第一转化结果。解决了现有技术中存在对文档识别的过程中不能准确的识别文档段落格式，文字位置信息，进而导致识别结果与源文档存在格式出入的技术问题。

Description

一种基于模型优化的OCR文件格式转化方法及系统

技术领域

本发明涉及人工智能格式转化相关领域，尤其涉及一种基于模型优化的OCR文件格式转化方法及系统。

背景技术

在人们在日常的生活、工作中需要处理大量的文字，尤其在进行纸质文档转化为电子文档归类时，为了节省人们对文字的处理时间，提高处理效率，越来越多的应用场景采用了文字识别技术，且随着文字识别技术的发展日趋成熟，其对于文档类文字有着较高的识别准确率。

在实际应用中，除了要准确识别文档类文字之外，还需要对文档的段落及其他格式进行准确的识别，以还原更加准确的原纸质文档，减少相关工作人员的工作量。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中存在对文档识别的过程中不能准确的识别文档段落格式，文字位置信息，进而导致识别结果与源文档存在格式出入的技术问题。

发明内容

本申请实施例通过提供一种基于模型优化的OCR文件格式转化方法及系统，解决了现有技术中存在对文档识别的过程中不能准确的识别文档段落格式，文字位置信息，进而导致识别结果与源文档存在格式出入的技术问题，达到准确识别文档的段落格式和文字位置信息，提高识别结果与源文档的格式一致性的技术效果。

鉴于上述问题，提出了本申请实施例提供一种基于模型优化的OCR文件格式转化方法及系统。

第一方面，本申请提供了一种基于模型优化的OCR文件格式转化方法，所述方法应用于一文件识别处理系统，所述系统与第一图像采集模块、第一文字识别模块、第一格式处理模块通信连接，所述方法包括：通过所述第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果；构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果；将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果；通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果。

另一方面，本申请还提供了一种基于模型优化的OCR文件格式转化系统，所述系统包括：第一获得单元，所述第一获得单元用于通过第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；第二获得单元，所述第二获得单元用于获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；第三获得单元，所述第三获得单元用于获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果；第一构建单元，所述第一构建单元用于构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；第四获得单元，所述第四获得单元用于获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果；第五获得单元，所述第五获得单元用于将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果；第六获得单元，所述第六获得单元用于通过第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；第七获得单元，所述第七获得单元用于通过第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果。

第三方面，本发明提供了一种基于模型优化的OCR文件格式转化系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了通过第一图像采集装置获得第一图像，根据第一透视裁剪指令对所述第一图像进行透视裁剪，获得第二图像，根据第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果，构建第一特征库，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果，将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果，通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果，通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果，达到准确识别文档的段落格式和文字位置信息，提高识别结果与源文档的格式一致性的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于模型优化的OCR文件格式转化方法的流程示意图；

图2为本申请实施例一种基于模型优化的OCR文件格式转化系统的结构示意图；

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第一构建单元14，第四获得单元15，第五获得单元16，第六获得单元17，第七获得单元18，总线300，接收器301，处理器302，发送器303，存储器304，总线接口305。

具体实施方式

本申请实施例通过提供一种基于模型优化的OCR文件格式转化方法及系统，解决了现有技术中存在对文档识别的过程中不能准确的识别文档段落格式，文字位置信息，进而导致识别结果与源文档存在格式出入的技术问题，达到准确识别文档的段落格式和文字位置信息，提高识别结果与源文档的格式一致性的技术效果。下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

在人们在日常的生活、工作中需要处理大量的文字，尤其在进行纸质文档转化为电子文档归类时，为了节省人们对文字的处理时间，提高处理效率，越来越多的应用场景采用了文字识别技术，且随着文字识别技术的发展日趋成熟，其对于文档类文字有着较高的识别准确率。在实际应用中，除了要准确识别文档类文字之外，还需要对文档的段落及其他格式进行准确的识别，以还原更加准确的原纸质文档，减少相关工作人员的工作量。现有技术中存在对文档识别的过程中不能准确的识别文档段落格式，文字位置信息，进而导致识别结果与源文档存在格式出入的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于模型优化的OCR文件格式转化方法，所述方法应用于一文件识别处理系统，所述系统与第一图像采集模块、第一文字识别模块、第一格式处理模块通信连接，所述方法包括：通过所述第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果；构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果；将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果；通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于模型优化的OCR文件格式转化方法，其中，所述方法应用于一文件识别处理系统，所述系统与第一图像采集模块、第一文字识别模块、第一格式处理模块通信连接，所述方法包括：

步骤S100：通过所述第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；

步骤S200：获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；

具体而言，所述第一文件识别系统为通过OCR技术进行文档文字识别的系统，所述第一图采集装置为可对文件进行图像采集的装置，所述第一文字识别模块为可进行文字识别的模块，所述第一格式处理模块为可进行文字信息和格式信息进行综合处理的模块，所述第一文字识别系统与所述第一图像采集模块、所述第一文字识别模块、所述第一格式处理模块通信连接，可相互传输信息。通过所述第一图像采集装置获得所述第一待识别文件的图像信息，所述图像信息为后续进行文字识别的重要参考图像。对所述获取的第一图像信息进行透视裁剪，所述透视裁剪是指对图像进行畸变纠正的过程，在进行图像采集时，难免因为采集的角度不同，使得采集的图像相比于源文档出现文字、段落的格式、大小等畸变，通过所述透视裁剪指令对所述第一图像进行透视裁剪，获得处理后的第二图像。通过图像的透视裁剪，使得所述处理后的图像与源文档更加接近，为后续获得更加准确的文档格式的识别结果夯实了基础。

步骤S300：获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果；

具体而言，所述第一坐标标识指令为对所述第二图像进行坐标构建、坐标标识的过程，以所述第二图像的某一基准，构建所述第二图像的直角坐标系，基于所述直角坐标系对所述第二图像中的各个位置进行坐标的标识，获得所述第一坐标标识结果。

步骤S400：构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；

步骤S500：获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果；

具体而言，所述第一特征库包括但不限于文字、段落的特征库，如段首空格特征、普通空格特征、字号特征、字体特征、图片特征、公式特征等，基于所述特征库，对所述第二图像进行特征的遍历，获得所述第二图像中满足所述特征库的特征，进行特征的匹配和标识，所述第一输出结果包括但不限于上述获得的特征的匹配和标识结果。举例而言，当检测到所述第二图像中出现空格特征时，首先判断所述空格特征是否为段首空格特征，当识别所述特征非段首空格特征时，则根据所述空格特征所占字符数量的多少对所述非空格特征进行标识，获得非空格特征标识结果。

步骤S600：将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果；

具体而言，所述第二输出结果为包括不同特征与特征的坐标组合的结果，即当检测出空格特征时，基于所述构建的坐标系，对所述空格特征的起始位置进行特征标识，获得所述空格特征的所在位置的位置坐标，所述坐标可以为坐标集，所述坐标特征分析模型为对所述坐标和特征进行标识组合的模型，基于所述坐标特征分析模型对所述坐标和特征进行组合，为后续获得更加准确的段落特征识别结果夯实了基础。

步骤S700：通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；

具体而言，所述第一文字识别模块为进行文字识别的模块，通过获得的图像信息，基于光学字符识别将形状翻译为文字的模块，基于所述第一文字识别模块的文字识别结果，通过结合所述坐标系，获得所述不同文字的文字坐标，所述文字坐标包括但不限于文字的高度坐标，位置坐标、宽度坐标等，获得所述第一坐标文字识别结果。

步骤S800：通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果。

具体而言，通过所述第一格式处理模块，将所述第一坐标文字识别结果和所述第二输出结进行文字与段落格式等信息的融合，获得第一融合结果，基于所述融合结果获得所述第一转化结果。达到准确识别文档的段落格式和文字位置信息，提高识别结果与源文档的格式一致性的技术效果。

进一步而言，本申请实施例还包括：

步骤S910：获得第一空格特征，其中，所述第一空格特征为段首空格特征；

步骤S920：获得第二空格特征，其中，所述第二空格特征为普通空格特征；

步骤S930：获得第一字号特征，其中，所述第一字号特征为文字字号特征；

步骤S940：获得第一字体特征，其中，所述第一字体特征为文字字体特征；

步骤S950：获得第一特殊标识特征，其中，所述第一特殊标识特征包括图片特征和公式特征；

步骤S960：基于所述第一空格特征、所述第二空格特征、所述第一字号特征、所述第一字体特征、所述第一特殊标识特征构建所述第一特征库。

具体而言，所述第一特征库为进行文字、段落等特征分析捕捉的特征库，所述特征库至少包括如下的特征：空格特征、字号特征、字体特征、特殊标识特征，其中，所述空格特征包括普通空格特征和特殊空格特征，所述第一空格特征为所述特殊空格特征，即段首空格特征，所述第二空格特征为普通空格特征，所述第一字号特征为文字的大小的特征，所述第一字体特征为文字的字体相关特征，如楷体、宋体斜体、加黑、加粗等等。所述第一特殊标识特征为至少包括数学公式和图片特征的特征，当出现数学公式时，所述公式内的信息可能对普通的段落特征识别产生干扰，因此有必要进行公式特征的特殊标识，以保证段落特征的识别的稳定性，基于上述特征构建特征库，为后续进行准确的特征识别结果，进而为提高识别结果与源文档的格式一致性夯实了基础。

进一步而言，所述获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果之前，本申请实施例步骤S300还包括：

步骤S310：获得第一图像校正指令，根据所述第一图像校正指令对所述第二图像进行图像校正处理，获得第一校正结果；

步骤S320：根据所述第一校正结果确定第一X轴正方向，第一Y轴正方向；

步骤S330：获得所述第二图像在所述第一Y轴正方向的第一行文字，将所述第一行文字作为Y轴0点；

步骤S340：获得所述第二图像在所述第一X轴正方向的第一列文字，将所述第一列文字作为X轴0点；

步骤S350：获得第一坐标系构建指令，通过所述第一坐标系构建指令基于所述Y轴0点、所述X轴0点构建直角坐标系。

具体而言，所述第一图像校正指令为对所述第二图像进行旋转较正得指令，根据所述第一校正指令，对所述第二图像的竖直、水平程度进行校正，所述校正依据为第二图像内的文字，基于所述第二图像中出现的文字位置信息，获得第一校正结果。基于所述第一校正结果，获得第一X轴正方向和第一 Y轴正方向，获得所述第一Y轴正方向中所述第二图像出现的第一行文字，将所述第一行文字所在位置定义为Y轴零点，获得所述第一X轴正方向的第一列文字，将所述第一列文字所在位置定义为X轴零点，通过第一坐标系构建指令，基于所述X轴、Y轴零点构建直角坐标系。

进一步的，本申请实施例还包括：

步骤S961：获得第一坐标间隔比例阈值；

步骤S962：获得第一坐标分析指令，根据所述第一坐标分析指令对所述第一坐标标识结果进行坐标分析，获得第一坐标分析结果；

步骤S963：根据所述第一坐标分析结果获得所述第二图像中的文字坐标间隔的分布比例；

步骤S964：判断所述文字坐标间隔的分布比例是否满足所述第一坐标间隔比例阈值；

步骤S965：当所述文字坐标的分布间隔存在不满足所述第一坐标间隔比例阈值的坐标间隔时，将坐标进行所述第一特殊标识特征标记。

具体而言，所述第一坐标间隔比例阈值为进行设定的文字间隔阈值，举例而言，当所述第二图像中的文字间隔50%以上为2mm，49%为1mm，则将两文字间隔为2mm、1mm定义为标准间隔，此时可设定第一坐标间隔比例阈值为2.2mm-1.8mm和1.1mm-0.9mm，此时当检索到文字坐标间隔在上述阈值范围内时，则表明所述文字为普通段落文字，此时分布比例正常，当对所述文字的坐标分析，出现文字的坐标间隔不满足所述第一坐标间隔比例阈值的范围内的文字时，此时表明出现坐标异常，所述异常原因可能是图片处理、捕捉异常，还可以是出现公式、图片的异常，此时对所述坐标异常的部分进行第一特殊标识特征标记，根据所述第一特殊标识特征的标记结果，为后续准确的对所述特殊位置的判断夯实了基础。

进一步的，所述获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像，本申请实施例还包括：

步骤S210：获得第一对比指令，根据所述第一对比指令对所述第一图像和所述第二图像进行对比，获得第一对比结果；

步骤S220：根据所述第一对比结果获得第一图像文字失真率；

步骤S230：通过所述第一图像采集装置获得第三图像，其中，所述第三图像为第一待识别文件的图像，且所述第三图像与所述第一图像的采集角度不同；

步骤S240：根据所述第三图像对所述第一文字失真率进行评估，获得第一评估结果；

步骤S250：根据所述第一评估结果和所述第一图像文字失真率对所述第一输出结果进行修正，获得第三输出结果。

具体而言，所述根据第一透视裁剪指令对所述第一图像进行透视裁剪处理后，还需要对所述透视裁剪的结果进行评估和修正，通过所述第一图像和所述第二图像，获得第一对比结果，所述第一对比结果包括但不限于第一图像与第二图像中文字的放大缩小的对比结果、文字是否缺失的对比结果等，基于所述的对比结果，获得带有位置标识的文字失真率，通过所述第一图像采集装置获得第三图像，所述第三图像为包括所述第一待识别文件的图像，且所述第三图像与所述第一图像的采集角度不同，通过所述第三图像对所述第一文字失真率进行评估，即通过所述第三图像对所述作为评估标准的第一图像进行评估，通过所述第三图像与所述第二图像的差异度与所述第一图像与所述第二图像的差异度是否存在差异值，根据所述差异值的大小获得所述第一评估结果，基于所述第一评估结果和所述第一文字图像失真率信息，对所述第一输出结果进行修正，获得文字大小、段落格式更加准确的第一输出结果。

进一步而言，本申请实施例还包括：

步骤S251：获得第一预设评估结果阈值；

步骤S252：判断所述第一评估结果是否满足所述第一预设评估结果阈值；

步骤S253：当所述第一评估结果满足所述第一预设评估结果阈值时，获得第一修正指令；

步骤S254：根据所述第一修正指令，基于所述第一图像文字失真率对所述第一输出结果进行修正，获得所述第三输出结果。

具体而言，所述第一预设评估结果阈值为对评估结果进行评价的标准，根据所述第一图像和所述第三图像的偏差角度的大小，对所述评估结果阈值进行预设，基于所述第一预设评估结果阈值，判断所述第一图像经过所述透视裁剪的指令后，获得的第二图像与源文档的段落、文字格式是否存在差异值，及所述差异值的大小等。根据所述第一评估结果对所述第一图像文字失真率的准确度进行评估，当所述评估结果满足所述第一预设评估结果阈值时，获得第一修正指令，根据所述第一修正指令，基于所述第一图像文字失真率对所述第一输出结果进行修正，获得所述第三输出结果。

进一步而言，所述获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果，本申请实施例步骤S500还包括：

步骤S510：构建第一特征库模型，其中，所述第一特征库模型通过多组训练数据训练获得，所述多组训练数据中的每组均包括文字段落特征、图像信息和标识特征匹配结果的标识信息；

步骤S520：将所述第二图像输入所述第一特征库模型，获得所述第一输出结果。

具体而言，所述第一特征库模型为机器学习中的神经网络模型，它可以不断地进行学习和调整，是一个高度复杂的非线性动力学习系统。简单来说它是一个数学模型，通过大量训练数据的训练，将所述第一特征库模型训练至收敛状态后，基于输入数据，通过所述第一特征库模型进行分析可获得所述第一输出结果。

更进一步而言，所述训练的过程还包括监督学习的过程，每一组监督数据都包括文字段落特征、图像信息和标识特征匹配结果的标识信息，将文字段落特征、图像信息输入到神经网络模型中，根据用来标识特征匹配结果的标识信息对所述第一特征库模型进行监督学习，使得所述第一特征库模型的输出数据与监督数据一致，通过所述神经网络模型进行不断的自我修正、调整，直至获得的输出结果与所述标识信息一致，则结束本组数据监督学习，进行下一组数据监督学习；当所述神经网络模型的为收敛状态时，则监督学习过程结束。通过对所述模型的监督学习，进而使得所述模型处理所述输入信息更加准确，进而获得更加准确第一输出结果，为后续获得更加准确的特征夯实了基础。

综上所述，本申请实施例所提供的一种基于模型优化的OCR文件格式转化方法及系统具有如下技术效果：

1、由于采用了通过第一图像采集装置获得第一图像，根据第一透视裁剪指令对所述第一图像进行透视裁剪，获得第二图像，根据第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果，构建第一特征库，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果，将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果，通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果，通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果，达到准确识别文档的段落格式和文字位置信息，提高识别结果与源文档的格式一致性的技术效果。

2、由于采用了特征构建特征库的方式，为后续进行准确的特征识别结果，进而为提高识别结果与源文档的格式一致性夯实了基础。

实施例二

基于与前述实施例中一种基于模型优化的OCR文件格式转化方法同样发明构思，本发明还提供了一种基于模型优化的OCR文件格式转化系统，如图2所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于通过第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；

第二获得单元12，所述第二获得单元12用于获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；

第三获得单元13，所述第三获得单元13用于获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果；

第一构建单元14，所述第一构建单元14用于构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；

第四获得单元15，所述第四获得单元15用于获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果；

第五获得单元16，所述第五获得单元16用于将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果；

第六获得单元17，所述第六获得单元17用于通过第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；

第七获得单元18，所述第七获得单元18用于通过第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果。

进一步的，所述系统还包括：

第八获得单元，所述第八获得单元用于获得第一空格特征，其中，所述第一空格特征为段首空格特征；

第九获得单元，所述第九获得单元用于获得第二空格特征，其中，所述第二空格特征为普通空格特征；

第十获得单元，所述第十获得单元用于获得第一字号特征，其中，所述第一字号特征为文字字号特征；

第十一获得单元，所述第十一获得单元用于获得第一字体特征，其中，所述第一字体特征为文字字体特征；

第十二获得单元，所述第十二获得单元用于获得第一特殊标识特征，其中，所述第一特殊标识特征包括图片特征和公式特征；

第二构建单元，所述第二构建单元用于基于所述第一空格特征、所述第二空格特征、所述第一字号特征、所述第一字体特征、所述第一特殊标识特征构建所述第一特征库。

进一步的，所述系统还包括：

第十三获得单元，所述第十三获得单元用于获得第一图像校正指令，根据所述第一图像校正指令对所述第二图像进行图像校正处理，获得第一校正结果；

第一确定单元，所述第一确定单元用于根据所述第一校正结果确定第一X轴正方向，第一Y轴正方向；

第十四获得单元，所述第十四获得单元用于获得所述第二图像在所述第一Y轴正方向的第一行文字，将所述第一行文字作为Y轴0点；

第十五获得单元，所述第十五获得单元用于获得所述第二图像在所述第一X轴正方向的第一列文字，将所述第一列文字作为X轴0点；

第十六获得单元，所述第十六获得单元用于获得第一坐标系构建指令，通过所述第一坐标系构建指令基于所述Y轴0点、所述X轴0点构建直角坐标系。

进一步的，所述系统还包括：

第十七获得单元，所述第十七获得单元用于获得第一坐标间隔比例阈值；

第十八获得单元，所述第十八获得单元用于获得第一坐标分析指令，根据所述第一坐标分析指令对所述第一坐标标识结果进行坐标分析，获得第一坐标分析结果；

第十九获得单元，所述第十九获得单元用于根据所述第一坐标分析结果获得所述第二图像中的文字坐标间隔的分布比例；

第一判断单元，所述第一判断单元用于判断所述文字坐标间隔的分布比例是否满足所述第一坐标间隔比例阈值；

第一标记单元，所述第一标记单元用于当所述文字坐标的分布间隔存在不满足所述第一坐标间隔比例阈值的坐标间隔时，将坐标进行所述第一特殊标识特征标记。

进一步的，所述系统还包括：

第二十获得单元，所述第二十获得单元用于获得第一对比指令，根据所述第一对比指令对所述第一图像和所述第二图像进行对比，获得第一对比结果；

第二十一获得单元，所述第二十一获得单元用于根据所述第一对比结果获得第一图像文字失真率；

第二十二获得单元，所述第二十二获得单元用于通过所述第一图像采集装置获得第三图像，其中，所述第三图像为第一待识别文件的图像，且所述第三图像与所述第一图像的采集角度不同；

第二十三获得单元，所述第二十三获得单元用于根据所述第三图像对所述第一文字失真率进行评估，获得第一评估结果；

第二十四获得单元，所述第二十四获得单元用于根据所述第一评估结果和所述第一图像文字失真率对所述第一输出结果进行修正，获得第三输出结果。

进一步的，所述系统还包括：

第二十五获得单元，所述第二十五获得单元用于获得第一预设评估结果阈值；

第二判断单元，所述第二判断单元用于判断所述第一评估结果是否满足所述第一预设评估结果阈值；

第二十六获得单元，所述第二十六获得单元用于当所述第一评估结果满足所述第一预设评估结果阈值时，获得第一修正指令；

第二十七获得单元，所述第二十七获得单元用于根据所述第一修正指令，基于所述第一图像文字失真率对所述第一输出结果进行修正，获得所述第三输出结果。

进一步的，所述系统还包括：

第三构建单元，所述第三构建单元用于构建第一特征库模型，其中，所述第一特征库模型通过多组训练数据训练获得，所述多组训练数据中的每组均包括文字段落特征、图像信息和标识特征匹配结果的标识信息；

第二十八获得单元，所述第二十八获得单元用于将所述第二图像输入所述第一特征库模型，获得所述第一输出结果。

前述图1实施例一中的一种基于模型优化的OCR文件格式转化方法的各种变化方式和具体实例同样适用于本实施例的一种基于模型优化的OCR文件格式转化系统，通过前述对一种基于模型优化的OCR文件格式转化方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于模型优化的OCR文件格式转化系统的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图3来描述本申请实施例的电子设备。

图3图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于模型优化的OCR文件格式转化方法的发明构思，本发明还提供一种基于模型优化的OCR文件格式转化系统，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种基于模型优化的OCR文件格式转化方法的任一方法的步骤。

其中，在图3中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本发明实施例提供的一种基于模型优化的OCR文件格式转化方法，所述方法应用于一文件识别处理系统，所述系统与第一图像采集模块、第一文字识别模块、第一格式处理模块通信连接，所述方法包括：通过所述第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果；构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果；将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果；通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果。解决了现有技术中存在对文档识别的过程中不能准确的识别文档段落格式，文字位置信息，进而导致识别结果与源文档存在格式出入的技术问题，达到准确识别文档的段落格式和文字位置信息，提高识别结果与源文档的格式一致性的技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于模型优化的OCR文件格式转化方法，其中，所述方法应用于一文件识别处理系统，所述系统与第一图像采集模块、第一文字识别模块、第一格式处理模块通信连接，所述方法包括：

通过第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；

获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；

所述透视裁剪是指对图像进行畸变纠正的过程；

获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果，具体为；

通过所述第二图像的某一基准，构建所述第二图像的直角坐标系，基于直角坐标系对所述第二图像中的各个位置进行坐标的标识，获得所述第一坐标标识结果；

构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；

获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果，具体为；

基于所述特征库，对所述第二图像进行特征的遍历，获得所述第二图像中满足所述特征库的特征，进行特征的匹配和标识，所述第一输出结果包括但不限于上述获得的特征的匹配和标识结果；

将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果，具体为；

基于所述构建的坐标系，对空格特征的起始位置进行特征标识，获得所述空格特征的所在位置的位置坐标，所述坐标可以为坐标集，所述坐标特征分析模型为对所述坐标和特征进行标识组合的模型，基于所述坐标特征分析模型对所述坐标和特征进行组合，所述第二输出结果为包括不同特征与特征的坐标组合的结果；

通过所述第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；

通过所述第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果，具体为；

将所述第一坐标文字识别结果和所述第二输出结进行文字与段落格式等信息的融合，获得第一融合结果，基于所述融合结果获得所述第一转化结果；

所述获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果之前，还包括：

获得第一图像校正指令，根据所述第一图像校正指令对所述第二图像进行图像校正处理，获得第一校正结果；

根据所述第一校正结果确定第一X轴正方向，第一Y轴正方向；

获得所述第二图像在所述第一Y轴正方向的第一行文字，将所述第一行文字作为Y轴0点；

获得所述第二图像在所述第一X轴正方向的第一列文字，将所述第一列文字作为X轴0点；

获得第一坐标系构建指令，通过所述第一坐标系构建指令基于所述Y轴0点、所述X轴0点构建直角坐标系。

2.如权利要求1所述的方法，其中，所述方法还包括：

获得第一空格特征，其中，所述第一空格特征为段首空格特征；

获得第二空格特征，其中，所述第二空格特征为普通空格特征；

获得第一字号特征，其中，所述第一字号特征为文字字号特征；

获得第一字体特征，其中，所述第一字体特征为文字字体特征；

获得第一特殊标识特征，其中，所述第一特殊标识特征包括图片特征和公式特征；

基于所述第一空格特征、所述第二空格特征、所述第一字号特征、所述第一字体特征、所述第一特殊标识特征构建所述第一特征库。

3.如权利要求2所述的方法，其中，所述方法还包括：

获得第一坐标间隔比例阈值；

获得第一坐标分析指令，根据所述第一坐标分析指令对所述第一坐标标识结果进行坐标分析，获得第一坐标分析结果；

根据所述第一坐标分析结果获得所述第二图像中的文字坐标间隔的分布比例；

判断所述文字坐标间隔的分布比例是否满足所述第一坐标间隔比例阈值；

当所述文字坐标的分布间隔存在不满足所述第一坐标间隔比例阈值的坐标间隔时，将坐标进行所述第一特殊标识特征标记。

4.如权利要求1所述的方法，其中，所述获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像，还包括：

获得第一对比指令，根据所述第一对比指令对所述第一图像和所述第二图像进行对比，获得第一对比结果；

根据所述第一对比结果获得第一图像文字失真率；

通过第一图像采集装置获得第三图像，其中，所述第三图像为第一待识别文件的图像，且所述第三图像与所述第一图像的采集角度不同；

根据所述第三图像对所述第一文字失真率进行评估，获得第一评估结果；

根据所述第一评估结果和所述第一图像文字失真率对所述第一输出结果进行修正，获得第三输出结果。

5.如权利要求4所述的方法，其中，所述方法还包括：

获得第一预设评估结果阈值；

判断所述第一评估结果是否满足所述第一预设评估结果阈值；

当所述第一评估结果满足所述第一预设评估结果阈值时，获得第一修正指令；

根据所述第一修正指令，基于所述第一图像文字失真率对所述第一输出结果进行修正，获得所述第三输出结果。

6.如权利要求1所述的方法，其中，所述获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果，还包括：

构建第一特征库模型，其中，所述第一特征库模型通过多组训练数据训练获得，所述多组训练数据中的每组均包括文字段落特征、图像信息和标识特征匹配结果的标识信息；

将所述第二图像输入所述第一特征库模型，获得所述第一输出结果。

7.一种基于模型优化的OCR文件格式转化系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于通过第一图像采集装置获得第一图像，其中，所述第一图像为包括第一待识别文件的图像；

第二获得单元，所述第二获得单元用于获得第一透视裁剪指令，根据所述第一透视裁剪指令对所述第一图像进行初始透视裁剪，获得第二图像；

所述透视裁剪是指对图像进行畸变纠正的过程；第三获得单元，所述第三获得单元用于获得第一坐标标识指令，根据所述第一坐标标识指令对所述第二图像进行坐标标识，获得第一坐标标识结果，具体为；

第一构建单元，所述第一构建单元用于构建第一特征库，其中，所述第一特征库为文字段落特征集合的特征库；

第四获得单元，所述第四获得单元用于获得第一特征捕捉指令，根据所述第一特征捕捉指令，基于所述第一特征库对所述第二图像进行特征遍历，获得第一输出结果，具体为；

第五获得单元，所述第五获得单元用于将所述第一坐标标识结果和所述第一输出结果输入坐标特征分析模型，获得第二输出结果，具体为；

第六获得单元，所述第六获得单元用于通过第一文字识别模块对所述第二图像进行文字识别，获得第一坐标文字识别结果；

第七获得单元，所述第七获得单元用于通过第一格式处理模块对所述第二输出结果和所述第一坐标文字识别结果进行处理，获得第一转化结果，具体为；

所述系统还包括：

8.一种基于模型优化的OCR文件格式转化系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。