CN109933756A

CN109933756A - 基于ocr的图像转档方法、装置、设备及可读存储介质

Info

Publication number: CN109933756A
Application number: CN201910224228.1A
Authority: CN
Inventors: 陈星耀; 黄灿芦; 胡文灿; 陈贻东; 林汉权; 黄飞; 柯戈扬; 杨志权
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-06-25
Anticipated expiration: 2039-03-22
Also published as: US20210256253A1; CN109933756B; WO2020192391A1

Abstract

本申请公开了一种基于OCR的图像转档方法、装置、设备及可读存储介质，涉及人工智能领域。该方法包括：获取待转档图像；根据待转档图像的图像内容对待转档图像进行版面分割，得到n个图像版面，每个图像版面对应有内容类型，n为正整数；根据图像版面对应的内容类型，对图像版面中的图像内容进行对应的处理，得到图像版面对应的转档内容；将n个图像版面对应的转档内容添加至电子文档，得到目标文档。通过图像内容对待转档图像进行版面分割，得到对应有内容类型的n个图像版面，并针对图像版面的类型对图像版面中的图像内容进行处理，实现了对待转档图像中不同类型的内容进行不同方式的识别处理，提高了图像转换为文档的转换准确率。

Description

基于OCR的图像转档方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种基于OCR的图像转档方法、装置、设备及可读存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)是一种对图像中的字符进行识别的功能。通常，用户将带有字符的图像输入到光学字符识别模块，并得到输出结果。该输出结果中包括识别得到的图像中的字符。OCR技术可以应用于多个领域中，如：车牌识别、文档转换等，其中，文档转换是指将包括字符的图像转换为可编辑的文档形式。

相关技术中，在文档转换的过程中，将带有字符的图像输入到文档转换模块后，文档转换模块通过OCR识别得到该图像中的字符，并将识别得到的文字顺次粘贴至电子文档中，用户根据粘贴得到的文字对文档的排版进行整理后，得到完整的电子文档。

然而，通过上述方式进行文档转换时，由于OCR仅能对图像中的文字内容进行识别，而图像中的内容通常较为复杂，文字的排版、表格内容、图像内容等无法与文字结合识别，导致用户在对文档的排版进行整理时需要耗费大量的资源，文档识别效率较低。

发明内容

本申请实施例提供了一种基于OCR的图像转档方法、设备及可读存储介质，可以解决文字的排版、表格内容、图像内容等无法与文字结合识别，导致用户在对文档的排版进行整理时需要耗费大量的资源，文档识别效率较低的问题。所述技术方案如下：

一方面，提供了一种基于OCR的图像转档方法，所述方法包括：

获取待转档图像，所述待转档图像为图像内容待转换为目标文档的图像；

根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割，得到n个图像版面，每个所述图像版面对应有内容类型，n为正整数；

根据所述图像版面对应的所述内容类型，对所述图像版面中的图像内容进行对应的处理，得到所述图像版面对应的转档内容；

将所述n个图像版面对应的所述转档内容添加至电子文档，得到所述目标文档。

另一方面，提供了一种基于OCR的图像转档方法，所述方法包括：

显示转档界面，所述转档界面中包括转档控件和图像选择区域；

在所述图像选择区域中对待转档图像进行选定，所述待转档图像为图像内容待转换为目标文档的图像；

触发所述转档控件对应的转档功能，所述转档功能用于将图像转换为文档的形式；

显示目标文档展示界面，所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档，所述目标文档的排版方式与所述待转档图像的排版方式对应一致。

另一方面，提供了一种基于OCR的图像转档装置，所述装置包括：

获取模块，用于获取待转档图像，所述待转档图像为图像内容待转换为目标文档的图像；

分割模块，用于根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割，得到n个图像版面，每个所述图像版面对应有内容类型，n为正整数；

处理模块，用于根据所述图像版面对应的所述内容类型，对所述图像版面中的图像内容进行对应的处理，得到所述图像版面对应的转档内容；

所述处理模块，还用于将所述n个图像版面对应的所述转档内容添加至电子文档，得到所述目标文档。

在一个可选的实施例中，所述分割模块，包括：

编码单元，用于通过编码器对所述待转档图像进行编码，得到编码数据；

解码单元，用于通过解码器对所述编码数据进行解码，得到掩膜图像；

确定单元，用于根据所述掩膜图像中的区域得到所述n个图像版面。

在一个可选的实施例中，所述确定单元，还用于对所述掩膜图像中的区域进行校正处理，得到所述n个图像版面，所述校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。

在一个可选的实施例中，所述掩膜图像中还包括单栏分隔条；

所述确定单元，还用于根据所述单栏分隔条对校正后的所述掩膜图像进行分隔，得到至少两个掩膜分隔图像；

所述确定单元，还用于对所述至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正；

所述确定单元，还用于生成校正后的所述掩膜分隔图像中的区域对应的矩形框，作为所述n个图像版面。

在一个可选的实施例中，所述内容类型包括文字类型；

所述处理模块，还用于对所述图像版面中的所述图像内容进行文字识别，得到以文本行进行分段的文字识别结果；根据所述文本行的行向特征确定所述文本行的组段结果，所述组段结果用于表示对所述文字识别结果的分段方式；将所述文字识别结果根据所述组段结果进行重新分段，得到所述图像版面对应的文字转档结果。

在一个可选的实施例中，所述处理模块，还用于根据所述文本行的所述行向特征生成直方图，所述行向特征包括行高和行间距中的至少一种；根据所述直方图中所述行向特征的分布情况设置所述行向特征对应的阈值；当所述文本行的所述行向特征达到所述阈值时，确定所述文本行为组段行，所述组段行用于表示所述文本行为段首或段尾。

在一个可选的实施例中，所述内容类型包括表格类型；

所述处理模块，还用于根据所述图像版面中的框线确定水平框线和垂直框线，并确定所述水平框线和所述垂直框线之间的交点，得到目标表格的单元格；对所述图像版面中的图像内容进行字符计算，得到字符坐标；根据所述字符坐标和所述单元格得到所述目标表格作为所述图像版面对应的表格转档结果。

在一个可选的实施例中，所述处理模块，还用于通过将所述图像版面中的框线校正至水平方向或垂直方向得到所述水平框线和所述垂直框线。

在一个可选的实施例中，所述处理模块，还用于通过对所述将所述图像版面中的框线校正至所述水平方向或所述垂直方向，对所述图像版面进行校正；对校正后的所述图像版面中的图像内容进行字符计算，得到所述字符坐标。

在一个可选的实施例中，所述内容类型包括图片类型；

所述处理模块，还用于对所述图像版面中的所述图像内容进行切图，并将所述切图得到的图片作为所述图像版面对应的图片转档内容。

在一个可选的实施例中，所述内容类型包括公式类型；

所述处理模块，还用于对所述图像版面中的所述图像内容进行切图，并将所述切图得到的图片作为所述图像版面对应的公式转档内容。

在一个可选的实施例中，所述获取模块，还用于获取待矫正图像；

所述获取模块，还用于将所述待矫正图像输入矫正神经网络，输出得到所述待转档图像，其中，所述矫正神经网络是通过仿真数据集训练得到的网络，所述仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据，所述扭曲处理是通过将所述样本图像输入扭曲函数实现的。

显示模块，用于显示转档界面，所述转档界面中包括转档控件和图像选择区域；

选择模块，用于在所述图像选择区域中对待转档图像进行选定，所述待转档图像为图像内容待转换为目标文档的图像；

触发模块，用于触发所述转档控件对应的转档功能，所述转档功能用于将图像转换为文档的形式；

所述显示模块，还用于显示目标文档展示界面，所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档，所述目标文档的排版方式与所述待转档图像的排版方式对应一致。

在一个可选的实施例中，所述目标文档中第一目标区域中的内容类型与所述待转档图像中第二目标区域中的内容类型一致；所述第一目标区域在所述目标文档中的位置，与所述第二目标区域在所述待转档图像中的位置对应；

其中，所述内容类型包括从文字类型、图片类型、表格类型以及公式类型组成的群组中选择的至少一种。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于OCR的图像转档方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于OCR的图像转档方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中提供的基于OCR的图像转档方法。

本申请实施例通过待转档图像中的图像内容对待转档图像进行版面分割，将待转档图像分割为对应有内容类型的n个图像版面，并针对图像版面的类型对图像版面中的图像内容进行处理，实现了对待转档图像中不同类型的内容进行不同方式的识别处理，避免了仅能对待转档图像中的文字进行识别而导致转档后的文档中格式混乱，用户在对文档的排版进行整理时需要耗费大量的资源，文档识别效率较低的问题，提高了图像转换为文档的转换准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的相关技术中对待转档图像进行字符识别的识别结果示意图；

图2是本申请一个示例性实施例提供的实施环境示意图；

图3是本申请一个示例性实施例提供的基于OCR的图像转档方法的流程图；

图4是基于图3示出的实施例提供的自动框选过程示意图；

图5是基于图3示出的实施例提供的另一个自动框选过程示意图；

图6是基于图3示出的实施例提供的图像扭曲状态示意图；

图7是基于图3示出的实施例提供的图像矫正过程示意图；

图8是基于图3示出的实施例提供的另一个图像矫正过程示意图；

图9是基于图3示出的实施例提供的仿真数据集生成方式示意图；

图10是基于图3示出的实施例提供的阅读顺序确定方法流程图；

图11是基于图10示出的阅读顺序确定方法提供的界面内容与二叉图对应关系的示意图；

图12是基于图10示出的阅读顺序确定方法提供的界面内容调整方法示意图；

图13是基于图10示出的阅读顺序确定方法提供的另一个界面内容与二叉图对应关系的示意图；

图14是基于图10示出的阅读顺序确定方法提供的另一个界面内容与二叉图对应关系的示意图；

图15是基于图3示出的实施例提供的文档内容插入方法流程图；

图16是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图；

图17是基于图16示出的实施例提供的图像版面确定方式示意图；

图18是基于图16示出的实施例提供的图像分割方式示意图；

图19是基于图16示出的实施例提供的图像版面确定方式示意图；

图20是基于图16示出的实施例提供的图像版面确定方式示意图；

图21是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图；

图22是基于图21示出的实施例提供的组段方式的流程图；

图23是基于图22示出的组段方式提供的行高直方图；

图24是基于图22示出的组段方式提供的行间距直方图；

图25是基于图22示出的组段方式提供的组段结果示意图；

图26是基于图21示出的实施例提供的字体识别过程示意图；

图27是基于图21示出的实施例提供的表格识别方法的流程图；

图28是本申请一个示例性实施例提供的基于OCR的图像转档方法执行过程中参与转档的模块示意图；

图29是本申请一个示例性实施例提供的图像转档结果示意图；

图30是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图；

图31是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图；

图32是本申请一个示例性实施例提供的图像转档装置的结构框图；

图33是本申请另一个示例性实施例提供的图像转档装置的结构框图；

图34是本申请另一个示例性实施例提供的图像转档装置的结构框图；

图35是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

光学字符识别(Optical Character Recognition，OCR)：光学字符识别是通过字符识别将待识别文件中的文字转换成文本格式的过程。通常，OCR过程需要经过待识别文件输入、文字特征提取、比对识别等步骤后才能完成。

待转档图像：是指图像内容待转换为目标文档的图像，可选地，该待转档图像可以实现为照片、图片、便携式文档格式(Portable Document Format，PDF)中的至少一种，可选地，该待转档图像可以是用户通过对纸质文档的拍摄得到的，也可以是用户从终端相册中的已有图像中选择的。可选地，该待转档图像转档后得到的目标文档为可编辑版本的文档，即，用户可以对该目标文档中的内容进行编辑处理。可选地，待转档图像经过转档后，得到的目标文档中包括文本内容、表格内容、图片内容、公式内容中的至少一种，即，待转档图像中包括文本类型的内容、表格类型的内容、图片类型的内容、公式类型的内容中的至少一种。

图像版面：是指对待转档图像根据图像内容的类型进行版面分割后得到的版面，可选地，每个图像版面对应有内容类型，如：对待转档图像A进行版面分割后得到4个版面，其中版面1对应的内容类型为文本类型，版面2对应的内容类型为表格类型，版面3对应的内容类型为图片类型，版面4对应的内容类型为文本类型。

相关技术中，在文档转换的过程中，将待转档图像输入到文档转换模块后，文档转换模块通过OCR识别得到该图像中的字符，并将识别得到的文字顺次粘贴至电子文档中，用户根据粘贴得到的文字对文档的排版进行整理，得到完整的电子文档。而文档转换模块对字符的识别是根据待转档图像中的文本进行行向识别的，即对待转档图像中的文本根据行进行依次识别并输出，同一行识别得到的字符输出为电子文档中的一段内容。

示意性的，请参考图1，待转档图像100中包括文本内容111、文本内容112、文本内容113、图片内容121、图片内容122以及表格内容131，对该待转档图像100进行转档后得到识别结果140，该识别结果中，仅包括文本内容，且待转档图像100中图片内容121中的文本“A市”被识别为识别结果140中的文本内容“A市”。显然，识别结果140的识别准确度非常低，该识别结果140中缺失了图片内容121、图片内容122以及表格内容131，用户需要针对该识别结果140进行大量的排版工作以及整理补充工作，对图片内容121、图片内容122、表格内容131进行补充，以及对文本内容111、文本内容112以及文本内容113中缺失的文本进行补充后，才能得到待转档图像100对应的电子文档。

可选地，本申请提供的基于OCR的图像转档方法可以应用于终端中，也可以应用于终端和服务器交互的实施环境中，当该方法应用于终端中时，用户在终端中对待转档图像进行选择后，由终端将该待转档图像转换为可编辑形式的电子文档；当该方法应用于终端和服务器交互的实施环境中时，由终端选择并上传待转档图像，服务器对该待转档图像进行转档后将转档得到的内容输入可编辑形式的电子文档，并将该电子文档发送至终端进行展示，用户可以在终端上对该电子文档中的文本内容、表格内容、图片内容等内容进行编辑。

本实施例中，以该基于OCR的图像转档方法应用于终端和服务器交互的图像转档系统中为例进行说明，如图2所示，该图像转档系统中包括终端210、服务器220和通信网络230，其中，服务器220中包括图像转档模块221；

可选地，终端210中提供有图像转档功能，该图像转档功能可以是终端中安装的应用程序提供的，也可以是终端本身提供的，可选地，该应用程序可以是文档处理应用程序、社交应用程序、金融管理应用程序、音视频应用程序中的至少一种。可选地，用户在终端210中选定需要转档的待转档图像后，将该待转档图像通过通信网络230上传至服务器220，可选地，该待转档图像可以是用户通过终端210拍摄得到的图像，也可以是用户通过终端210下载或上传得到的图像，还可以是终端中本身存储的图像，该待转档图像的形式包括图片、PDF或其他文件格式中的任意一种。

服务器220通过图像转档模块221对该待转档图像进行转档后，得到电子文档，并将该电子文档发送至终端210进行显示，用户可以在终端210中对该电子文档进行编辑操作。

结合上述名词简介和实施环境的说明，对本申请实施例提供的基于OCR的图像转档方法进行说明，图3是本申请一个示例性实施例提供的基于OCR的图像转档方法的流程图，以该方法应用于服务器中为例进行说明，如图3所示，该方法包括：

步骤301，获取待转档图像。

可选地，该待转档图像为图像内容待转换为目标文档的图像。

可选地，该获取待转档图像的方式包括如下方式中的至少一种：

第一，接收终端发送的图像，得到该待转档图像，其中，终端发送的图像可以是终端通过拍摄的方式获取的图像，也可以是终端通过下载的方式获取的图像，还可以是终端通过接收外部存储设备输入的内容获取的图像，本申请实施例对此不加以限定；可选地，用户还可以在上传之前，对需要上传的部分图像进行手动框选；

第二，从存储器中获取最新生成的图像，得到该待转档图像；或，从存储器中获取最先生成的图像，得到该待转档图像；

第三，根据下载链接对图像进行下载后，得到该待转档图像。

上述三种方式仅为示意性的举例，本申请实施例对该待转档图像的获取方式不做限定。

可选地，该待转档图像为经过预处理的图像，其中，预处理方式包括图像框选和图像矫正中的至少一种。

一、图像框选

可选地，图像框选是指自动对待转档图像中需要转档的图像部分进行框选，去除待转档图像中的多余部分，如：边缘空白部分、非文档内容部分等，示意性的，将书本放置在桌面上进行拍摄时，拍摄的图像内容中还包括桌面的其他物件，通过自动框选，对书本边缘进行框选，并去除桌面上的其他物件。示意性的，请参考图4，对框选前图像410进行自动框选处理后，得到框选后图像420，框选前图像410中的桌面411、阴影412等部分被去除。

可选地，该自动框选的过程中，可以通过OpenCV算法对框选边缘进行检测，如：Canny算法、Sobel算法等，也可以通过深度学习算法，如：边缘检测算法(Holistically-Nested Edge Detection，HED)对框选边缘进行检测。由于OpenCV算法检测的框选边缘较细致，且贴边效果较好，但噪声边缘较多，且鲁棒性差；而深度学习算法检测的框选边缘适应性较好，但边缘较粗糙，且边缘贴合不紧凑，故，本实施例中还可以将上述OpenCV算法和深度学习算法结合应用。示意性的，以HED边缘检测算法为例，首先通过HED边缘检测算法对框选边缘进行检测后，将检测结果通过OpenCV算法进行再次检测。可选地，针对较为复杂的检测结果通过变换提取直线(Hough直线)进行合并，按检测区域进行长度排序，并剔除短直线和干扰直线。可选地，针对框选边缘，结合文档的特点，设计梯度方向加、高宽比等特征增加框选边缘检测的准确率。可选地，针对上述HED边缘检测算法中神经网络的层数可以进行简化，减少计算耗时。

示意性的，上述自动框选过程请参考图5，如图5所示，对待框选图像500进行自动框选的过程中，首先通过HED边缘检测算法得到框选结果510，对框选结果510通过OpenCV算法进行检测，得到框选结果520，通过霍夫变换使用Hough直线对框选结果520进行过滤得到框选结果530，得到最终框选的文档对应的区域540。作为对比，对仅使用HED边缘检测算法检测的框选结果550和仅使用OpenCV算法检测的框选结果560进行示意，框选结果550中框选线与文档部分的贴边情况较差，而框选结果560中包括较多细节的干扰内容。

二、图像矫正

可选地，图像矫正是指对存在扭曲情况的图像矫正至正常平面状态，由于实际场景中，当用户对文档进行拍摄时，文档可能处于折叠、弯曲等变形状态，导致影响OCR识别过程，以及影响后续版面分割过程，如图6所示，图像600存在明显扭曲状态，且根据矩形框610对第一段文本内容的框选，以及矩形框620对最后一段文本内容的框选情况可知，图像600上部和下部的扭曲情况不同。

在对图像进行矫正的过程中，通过矫正网络进行矫正。可选地，扭曲图片的矫正中需要预测出图片中每个像素点的实际坐标，故矫正网络中可以采用堆栈式Unet结构，如图7所示，该矫正网络中包括两个Unet子网络，Unet子网络710和Unet子网络720，在矫正过程中，首先将扭曲图像700输入第一个Unet子网络710得到第一矫正结果711，并将第一矫正结果711以及第一个Unet子网络710中网络层得到的特征图712输入第二个Unet子网络720，得到第二矫正结果721作为图像矫正结果。可选地，该矫正结果如图8所示，扭曲图像810为矫正前的图像，图像820为矫正后的图像。

可选地，该矫正网络的训练过程中，由于需要大量的扭曲图片以及扭曲图像对应的矫正图片的数据集，而该扭曲图片和矫正图片需要通过技术人员进行手动拍摄，训练集的获取过程较为繁琐，故，本申请实施例中，通过设计扭曲函数对样本图像进行处理，得到扭曲后的图像，并将扭曲后的图像和扭曲前的样本图像组成仿真数据集对矫正网络进行训练。也即，该图像矫正过程中，首先获取待矫正图像，并将待矫正图像输入矫正神经网络，输出得到待转档图像，其中，矫正神经网络是通过仿真数据集训练得到的网络，该仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据，该扭曲处理是通过将样本图像输入扭曲函数实现的。示意性的，请参考图9，样本图像910进行扭曲函数进行扭曲处理后，得到扭曲图像920，该样本图像910和扭曲图像920组成一组仿真数据。

步骤302，根据待转档图像的图像内容对待转档图像进行版面分割，得到n个图像版面，每个图像版面对应有内容类型，n为正整数。

可选地，该分割得到的每个图像版面对应一个内容类型，该内容类型包括：文字类型、表格类型、图片类型、页码类型、页眉页脚类型、公式类型中的至少一种。

可选地，每个图像版面对应一个类型标识，该类型标识用于表示该图像版面对应的内容类型。

可选地，该版面分割过程包括图像分割和后处理两部分过程，其中，图像分割过程主要是通过编码器和解码器对待转档图像的语义进行识别得到掩码图像，后处理只要是对识别后的掩码图像进行去噪处理、合并处理、相交位置切割处理等处理中的至少一种。

步骤303，根据图像版面对应的内容类型，对图像版面中的图像内容进行对应的处理，得到图像版面对应的转档内容。

可选地，针对图像版面对应的内容类型的不同，对图像内容的处理方式也不同，示意性的，针对文字类型的内容，需要对图像版面进行OCR识别；针对表格类型的内容，需要对图像版面进行表格框线识别以及OCR识别等处理；针对图片类型的内容，需要对图像版面进行切图处理；以及针对公式类型的内容，也可以通过对图像版面进行切图处理。

步骤304，将n个图像版面对应的转档内容添加至电子文档，得到目标文档。

可选地，由于转档内容与图像版面中的图像内容可能存在文本大小、排版大小等问题，会导致部分图像版面对应的转档内容无法显示在目标文档中，故需要对各图像版面进行阅读排序。该阅读排序方式是在图像版面的切割过程中，建立二叉树进行递归切割，再深度遍历该二叉树，从而恢复阅读顺序。示意性的，该阅读排序过程请参考图10，该过程包括步骤1010，水平、垂直方向递归切割。步骤1020，切割过程建立二叉树。步骤1030，二叉树深度遍历得到阅读顺序。结合图11进行说明，如图11所示，针对图像1110进行递归的切割，得到图像版面1111、图像版面1112、图像版面1113、图像版面1114、图像版面1115、图像版面1116、图像版面1117、图像版面1118、图像版面1119，切割过程中建立二叉树1120，对该二叉树1120进行深度遍历得到阅读顺序为：图像版面1111、图像版面1112、图像版面1113、图像版面1114、图像版面1115、图像版面1116、图像版面1117、图像版面1118、图像版面1119。

可选地，当图像版面较为复杂时，如：存在相交版面、重叠版面、L型版面时，也可以通过上述方式实现。

其中，相交版面请参考图12，图像版面1211、图像版面1212、图像版面1213以及图像版面1214中，图像版面1211和图像版面1213存在相交的情况，则对该图像版面1212、图像版面1213以及图像版面1214进行调整，调整至左边缘对齐后，将图像版面1212、图像版面1213以及图像版面1214的宽度调整至一致。

重叠版面请参考图13，图像版面1311、图像版面1312以及图像版面1313中，图像版面1312叠置在图像版面1311和图像版面1313之上，则构建的二叉树1320如图13所示，该二叉树1320进行深度遍历得到阅读顺序为：图像版面1312、图像版面1311、图像版面1313。

L型版面请参考图14，图像版面1411、图像版面1412、图像版面1413、图像版面1414、图像版面1415互呈L型排布，从图像版面1411作为阅读起始位置，构建得到的二叉树1420如图14所示，该二叉树1420进行深度遍历得到的阅读顺序为：图像版面1411、图像版面1413、图像版面1414、图像版面1412、图像版面1415。

可选地，将n个图像版面对应的转档内容添加至电子文档时，该电子文档可以是初始文档，即未经过格式编辑的文档，该文档的格式可以是默认格式；也可以是已有文档，即已经过格式编辑的文档，将转档内容添加至电子文档的过程请参考图15，如图15所示，该转档内容的添加过程包括：

步骤1510，计算插入位置。

即确定当前电子文档中光标所处的位置，根据该光标所处的位置确定转档内容的插入位置。

步骤1520，合并样式集。

即将n个图像版面对应的转档内容的样式集合并到电子文档的样式集中。

步骤1530，计算文档的变化。

根据转档内容的文本、样式、文本长度、插入位置计算文档的数据结构变化。

步骤1540，应用文档变化。

即将该数据结构的变化应用到电子文档中，并完成转档内容的添加。

综上所述，本实施例提供的基于OCR的图像转档方法，通过待转档图像中的图像内容对待转档图像进行版面分割，将待转档图像分割为对应有内容类型的n个图像版面，并针对图像版面的类型对图像版面中的图像内容进行处理，实现了对待转档图像中不同类型的内容进行不同方式的识别处理，避免了仅能对待转档图像中的文字进行识别而导致转档后的文档中格式混乱，用户在对文档的排版进行整理时需要耗费大量的资源，文档识别效率较低的问题，提高了图像转换为文档的转换准确率。

本实施例提供的方法，在图像框选过程中，通过将OpenCV算法和深度学习算法结合应用，利用OpenCV算法框选边缘较细致，且贴边效果较好，以及深度学习算法检测的框选边缘适应性较好的特点，提高了框选边缘检测的准确率。

本实施例提供的方法，通过对扭曲图像进行矫正，避免了由于文档处于折叠、弯曲等变形状态，影响OCR识别过程，以及影响后续版面分割过程的问题，提高了图像转档的准确度。

在一个可选地实施例中，版面分割需要通过编码器和解码器进行，图16是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图，以该方法实现在服务器中为例进行说明，如图16所示，该方法包括：

步骤1601，获取待转档图像。

可选地，获取待转档图像的具体方式已在上述步骤301中进行了详细说明，此处不再赘述。

步骤1602，通过编码器对待转档图像进行编码，得到编码数据。

可选地，该编码器用于通过语义分析对待转档图像中不同内容类型的区域进行划分。可选地，划分得到的每个区域对应一种语义，每个语义对应一种内容类型，也即，划分得到的每个区域对应一种内容类型。

可选地，编码器通过下采样对待转档图像进行编码，从而丢失较多边缘细节信息，且识别得到的区域轮廓清晰度较低，故需要通过解码器进行解码。

步骤1603，通过解码器对编码数据进行解码，得到掩膜图像。

可选地，该掩膜图像用于通过不同的表现方式对不同内容类型的区域进行标识。

可选地，解码器用于将编码器编码后的图像进行上采样，得到掩膜图像。

可选地，编码器的编码过程和解码器的解码过程请参考图17，如图17所示，将待转档图像1700输入编码器1710，编码器1710通过卷积(Convolution，Conv)层1711、下采样块1712、下采样块1713、下采样块1714以及下采样块1715对待转档图像1700分别进行下采样，并输出编码数据，将该编码数据输入解码器1720中的卷积层1721、上采样块1722、上采样块1723、上采样块1724以及上采样块1725对编码数据分别进行上采样，得到掩膜图像1740。可选地，下采样块1712、下采样块1713、下采样块1714以及下采样块1715中包括多个卷积，上采样块1722、上采样块1723、上采样块1724以及上采样块1725中也包括多个卷积。

可选地，上述编码器和解码器是经过训练后得到的编码器和解码器，可选地，在对编码器和解码器的训练过程中，引入多尺度损失函数，将训练样本通过编码器和解码器进行处理后，得到掩膜图像，通过损失函数计算原图分辨率下的损失值、原图1/4分辨率下的损失值以及原图1/16分辨率下的损失值，结合该三个损失值作为最终的损失值对编码器和解码器进行训练。可选地，该损失函数为交并比函数(Intersection Over Union，IOU)。

步骤1604，根据掩膜图像中的区域得到n个图像版面，每个图像版面对应有内容类型。

可选地，对该掩膜图像中的区域进行校正处理，得到n个图像版面。

可选地，该校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。

其中，去噪处理用于对掩膜图像中区域面积小于预设面积的部分进行过滤；合并处理用于将连续且属于同一内容类型的区域进行合并；相交位置切割处理用于对存在相交的区域进行分离切割。

可选地，在去噪处理的过程中，首先根据计算机视觉(Computer Vision，CV)算法对确定每个区域的最小外接区域，再根据过滤规则对一些面积小于预设面积，或被包含在最小外接区域中的区域进行过滤。

可选地，对掩膜图像中的区域进行校正后，在根据校正后的掩膜图像得到n个图像版面时，包括如下情况中的任意一种：

第一，掩膜图像中不包括单栏分隔条，则生成掩膜图像中每个区域对应的矩形框，作为n个图像版面，其中，每个矩形框即为一个图像版面；

第二，掩膜图像中包括单栏分隔条，根据该单栏分隔条对校正后的掩膜图像进行分隔，得到至少两个掩膜分隔图像，对该至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正，生成校正后的至少两个掩膜分割图像中每个掩膜分割图像中的区域对应的矩阵，作为n个图像版面，其中，上述对每个掩膜分隔图像的校正中，包括对每个掩膜分隔图像进行OCR识别，并将存在文字相交内容的掩膜分隔图像进行分隔，如：掩膜分隔图像1中最后一列文字与掩膜分隔图像2中第一列文字相交，则对掩膜分隔图像1的最后一列文字进行分割。

示意性的，图18是本实施例提供的版面切割过程的示意图，如图18所示，待转档图像1800对应生成的掩膜图像1810中包括单栏分隔条1811，根据该单栏分隔条1811对待转档图像1800进行分隔，得到掩膜分隔图像1821、掩膜分隔图像1822以及掩膜分隔图像1823，其中，由于单栏分隔条1811垂直向下，且最下方处于图片1801之上，故，在图片1801之上横向进行分隔。

示意性的，上述对掩膜图像进行校正并生成n个图像版面的过程请参考图19，如图19所示，该过程包括第一部分1910、第二部分1920以及第三部分1930；其中第一部分1910中，对掩膜图像依次进行如下操作：生成最小外接区域1911、过滤噪声1912以及处理相交区域1913；第二部分1920中，对第一部分中处理后的掩膜图像进行如下操作：生成分隔线1921、切分版面1922；第三部分1930中，对第二部分中处理后的掩膜图像进行如下操作：OCR识别1931、校正相交1932；第三部分1930处理完毕后，根据掩膜图像中的区域生成分类矩形框，每个分类矩形框对应一个内容类型，并得到n个图像版面，每个版面对应一个内容类型。

示意性的，由待转档图像转换为掩膜图像，并由掩膜图像生成n个图像版面的过程如图20所示，待转档图像2010经过图像分割后，得到掩膜图像2020，该掩膜图像2020经过后处理后，得到5个矩形框，矩形框2031、矩形框2032、矩形框2033、矩形框2034以及矩形框2035作为图像版面。

步骤1605，根据图像版面对应的内容类型，对图像版面中的图像内容进行对应的处理，得到图像版面对应的转档内容。

步骤1606，将n个图像版面对应的转档内容添加至电子文档，得到目标文档。

可选地，将转档内容添加至电子文档的过程在上述步骤304中已进行了详细说明，此处不再赘述。

可选地，用户可以对目标文档进行预览，预览方式包括如下方式中的任意一种：

第一，服务器将转档内容(纯文本、文本样式、样式集)发送至终端，用户对纯文字识别结果、文本样式识别结果以及样式集进行确定后，服务器将转档内容添加至电子文档，并将目标文档发送至终端；

第二，服务器将转档内容添加至电子文档得到目标文档后，将该目标文档的预览图像发送至终端，用户可以通过终端对目标文档进行预览，并根据预览结果选择重新上传图像转档或确认转档结果，当用户选择确认转档结果时，服务器将目标文档的文档内容发送至终端。

综上所述，本实施例提供的方法，通过编码器和解码器确定掩膜图像，并根据掩膜图像确定n个图像版面，利用编码器对语义信息的分析能力，对图像版面进行确定，实现了针对不同内容类型的图像版面进行不同处理的转档方式，提高了图像转换为文档的转换准确率。

在一个可选的实施例中，上述内容类型包括文字类型、表格类型、图片类型以及公式类型中的至少一种，图21是本申请另一个示例性实施例提供的基于OCR的图像转档方法的流程图，以该方法应用于服务器中为例进行说明，如图21所示，该方法包括：

步骤2101，获取待转档图像。

步骤2102，根据待转档图像的图像内容对待转档图像进行版面分割，得到n个图像版面，每个图像版面对应有内容类型，n为正整数。

可选地，该版面分割过程在上述步骤1602至步骤1604中已进行了详细说明，此处不再赘述。

步骤2103，当内容类型包括文字类型时，对图像版面中的图像内容进行文字识别，得到以文本行进行分段的文字识别结果。

可选地，该以文本行进行分段的文字识别结果是指图像版面的图像内容中，每一行文字识别后作为文字识别结果中的一段文字。该识别得到的文字识别结果可读性较差，且不符合图像版面的图像内容中原本的组段方式。

步骤2104，根据文本行的行向特征确定文本行的组段结果。

可选地，该组段结果用于表示对文字识别结果的分段方式。

可选地，上述行向特征包括行高和行间距中的至少一种。可选地，根据行向特征确定组段结果的过程中，首先根据文本行的行向特征生成直方图，并根据直方图中行向特征的分布情况设置行向特征对应的阈值，当文本行的行向特征达到阈值时，确定文本行为组段行，该组段行用于表示文本行为段首或段尾。

示意性的，当行向特征为行高时，根据行高生成行高直方图，并根据直方图中行高的分布情况设置行高阈值，如：直方图中80％行高在5以下，则将行高阈值设置为5，当行高高于5时，确定文本行为组段行，将第一个组段行确定为段首，则第二个组段行为段尾，以此类推，段首和段尾连续间隔排布。上述行高还可以实现为行间距。可选地，还可以根据行高和行间距确定组段行。

示意性的，请参考图22，根据行高和行间距确定组段行的过程如下：

步骤2201，确定行高直方图。可选地，该行高直方图请参考图23，如图23所示，超过半数的行高处于行高4以下。步骤2202，行高分区域处理。即对确定每个行高范围对应段落的位置。步骤2203，确定行间距直方图。可选地，该行间距直方图请参考图24，如图24所示，超过半数的行间距处于行间距4以下。步骤2204，行高/行间距阈值选取。可选地，结合上图23示出的行高直方图和上图24示出的行间距直方图，可以将行高4和行间距4设置为阈值。步骤2205，根据阈值进行组段。当行高达到阈值和/或行间距达到阈值时，将文本行确定为组段行。

步骤2105，将文字识别结果根据组段结果进行重新分段，得到图像版面对应的文字转档结果。

可选地，根据被确定为组段行的文本行对文字识别结果进行重新分段。该组段结果请参考图25，如图25所示，对图像2500进行OCR识别后得到文字识别结果2510，该文字识别结果2510中，将图像2500中的每一行文字作为一段文字生成识别结果，对该文字识别结果2510进行组段后，得到组段结果2520，该组段结果2520的组段方式与图像2500中文字的组段方式一致。

可选地，文字识别过程中，还包括对字体进行识别，可选地，该字体包括字体属性和字体类别中的至少一种。其中，字体属性包括粗体、下划线、斜体中的至少一种；字体类别用于表示字体表现形式，如：楷体、宋体、黑体等。针对字体识别，设计双分支多任务网络，先对字体属性进行识别，再对字体类别进行识别，字体属性识别分支和字体类别识别分支共用图像编码层。示意性的，请参考图26，通过Unet网络对文字进行识别时，通过对图像特征2600的下采样和上采样确定字体属性，并根据采样过程中的特征确定字体类别。

步骤2106，当内容类型中包括表格类型时，根据图像版面中的框线确定水平框线和垂直框线，并确定水平框线和垂直框线之间的交点，得到目标表格的单元格。

可选地，通过将该图像版面中的框线校正至水平方向或垂直方向得到水平框线和垂直框线。

可选地，对框线进行校正之前，还需要对图像版面中的框线进行识别。首先，对图像版面通过神经网络进行像素级分割标注，针对每个像素对应有两个输出内容，该两个输出内容分别是：属于横向框线的概率和属于纵向框线的概率。根据像素级分割结果，对分割结果进行几何分析，提取横向和竖向分割图的连通区域，对连通区域的像素拟合一条折线，也即拟合若干条线段，用线段的起点终端两个坐标标识，对折线进行合并，根据各折线中选段的倾角相似度和坐标值的远近，将属于同一条框线的折线进行合并。对合并得到的框线校正至水平或垂直方向。

步骤2107，对图像版面中的图像内容进行字符计算，得到字符坐标。

可选地，结合上述步骤2106，通过将图像版面中的框线校正至水平方向或垂直方向得到水平框线和垂直框线，对图像版面进行校正。由于水平框线和垂直框线的扭曲与图像版面的扭曲是相关联的，通过对水平框线和垂直框线的校正，同时能够实现对该图像版面整体的校正。

可选地，对校正后的图像版面中的图像内容进行OCR计算后，得到字符坐标。可选地，通过OCR计算还得到字符坐标对应的字符识别内容。

可选地，对校正后的图像版面中的图像内容进行OCR计算后，还可以得到文本框坐标，根据该文本框坐标将文本框转换为水平框线或垂直框线，补充像素分割结果中缺失的框线。

步骤2108，根据字符坐标和单元格得到目标表格作为图像版面对应的表格转档结果。

可选地，对每个单元格信息进行整合，得出每行的高度，每列的宽度，以及单元格的合并关系。其中，单元格的合并关系的表示方式为：(左上角的单元格编号，右下角的单元格编号)，即，在左上角的单元格编号和右下角的单元格编号之间的单元格合并为一整个单元格，如：单元格的合并关系的表示方式为(5，10)，则将编号为5的单元格和编号为10的单元格之间的单元格进行合并，其中，编号为5的单元格和编号为10的单元格之间的单元格为从单元格5的左上角框选至单元格10的右下角以内的单元格，而并非编号在5到10之间的单元格。

可选地对单元格信息进行整合后，根据单元格和表格整体的大小比例，推算每个单元格中的字号大小，根据单元格中文字放置位置推断对齐方式。

可选地，表格处理过程请参考图27，该过程包括：步骤2701，图像分割。该图像分割过程中包括通过神经网络对图像进行框线分割。步骤2702，几何分析。该几何分析过程中包括：1、提取线段坐标；2、合并线段，识别框线；3、矫正倾斜。步骤2703，OCR计算。该OCR计算过程中包括：1、文本框坐标计算；2、字符坐标计算。步骤2704，单元格定位。该步骤包括：1、OCR文本框转为框线；2、框线转单元格。步骤2705，逻辑表示。该步骤包括：1、行列、单元格及单元格的合并关系；2、字号、对齐方式。

步骤2109，当内容类型中包括图片类型时，对图像版面中的图像内容进行切图，并将切图得到的图片作为图像版面对应的图片转档内容。

步骤2110，当内容类型中包括公式类型时，对图像版面中的图像内容进行切图，并将切图得到的图片作为图像版面对应的公式转档内容。

步骤2111，将n个图像版面对应的转档内容添加至电子文档，得到目标文档。

综上所述，本实施例提供的方法，针对不同内容类型的图像版面，通过不同的方式进行处理，如：针对文字类型进行OCR识别，针对表格类型进行表格识别，针对图片类型进行切图，针对公式类型进行切图等，避免同一种处理方式无法对多种类型的内容进行识别而导致转档结果较差的问题。

图28是本申请一个示例性实施例提供的图像转档过程中参与转档的模块示意图，如图28所示，图像转档的处理过程中，需要通过输入模块2810、版面分析模块2820以及排版模块2830；

一、输入模块2810包括自动框选2811和扭曲矫正2812。

自动框选2811是指自动对待转档图像中需要转档的图像部分进行框选，去除待转档图像中的多余部分，如：边缘空白部分、非文档内容部分等。

扭曲矫正2812是指对存在扭曲情况的图像矫正至正常平面状态，由于实际场景中，当用户对文档进行拍摄时，文档可能处于折叠、弯曲等变形状态，导致影响OCR识别过程，以及影响后续版面分割过程，故需要对图像进行矫正。

二、版面分析模块2820包括图像分割2821和后处理2822。

图像分割2821是指根据图像中的内容类型，将图像分割为内容类型对应的区域，每个区域对应一种内容类型。

后处理2822是指对图像分割2821分割的区域进行去噪处理、合并处理以及相交分割处理中的至少一种处理。

三、排版模块2830包括文字类型部分2840、表格类型部分2850以及图片/公式类型部分2860。

文字类型部分2840的处理需要通过OCR识别2841、组段2842、字体识别2843以及输出段落2844。

表格类型部分2850的处理需要通过分隔线重组2851、OCR识别2852、组段排序2853以及输出表格2854。

图片/公式类型部分2860的处理需要通过切图2861和输出图片2862。

排版模块2830还需要通过阅读排序2870对图像版面进行阅读排序后，执行输出文档2880。

示意性的，本申请实施例提供的基于OCR的图像转档方法的转档结果如图29所示，待转档图像2910经过转档后，得到电子文档2920。

图30是本申请一个示例性实施例提供的基于OCR的图像转档方法的流程图，该方法可以应用于终端中，如图30所示，该方法包括：

步骤3010，显示转档界面。

可选地，该转档界面中包括转档控件和图像选择区域，其中，图像选择区域用于对待转档图像进行确定，转档控件用于触发将待转档图像发送至服务器进行转档。

步骤3020，在图像选择区域中对待转档图像进行选定。

可选地，该待转档图像可以是通过终端的图像采集器件采集得到的图像，也可以是终端相册中已存储的图像。

步骤3030，触发转档控件对应的转档功能。

可选地，该转档功能用于将图像转换为文档的形式。可选地，触发该转档控件对应的转档功能中，当终端实现为包括触摸显示屏的移动终端时，可以通过触摸该转档控件的方式实现转档功能，当终端实现为便携式膝上笔记本电脑或台式电脑时，可以通过外部输入设备对该转档控件进行选择，如：键盘、鼠标等。

可选地，当终端触发该转档功能时，终端将带转档图像发送至服务器，由服务器对该待转档图像转为目标文档。其中，服务器对待转档图像中的文字和排版进行识别转档的过程在上述实施例中已进行了详细说明，此处不再赘述。

步骤3040，显示目标文档展示界面。

可选地，目标文档展示界面中包括待转档图像转档得到的目标文档，该目标文档的排版方式与待转档图像的排版方式对应一致。可选地，该目标文档中第一目标区域中的内容类型与待转档图像中第二目标区域中的内容类型一致；该第一目标区域在目标文档中的位置与第二目标区域在待转档图像中的位置对应。其中内容类型包括从文字类型、图片类型、表格类型以及公式类型组成的群组中选择的至少一种。

示意性的，该目标文档的转换结果请参考图29中的电子文档2920。

在一个可选的实施例中，对本申请中，从用户确定图像到终端接收文档的过程进行说明，请参考图31，该过程包括：

步骤3110，用户进行纸质文档的拍摄。

可选地，该步骤还可以实现为，用户进行电子显示屏中的显示内容的拍摄，如：对移动广告的拍摄。

步骤3120，用户从手机相册中选择图片。

可选地，步骤3110和步骤3120为并列步骤，可以仅执行步骤3110，也可以仅执行步骤3120。

步骤3130，用户框选需要识别的区域。

可选地，用户拍摄得到的图片或用于从手机相册中选择的图片中可能包括其他内容，实际用户需要转档的图像为上述图片的部分，故，用户可以对需要识别的区域进行框选。

步骤3140，用户点击智能识别。

可选地，用户点对智能识别功能进行选择。可选地，该智能识别功能用于将图像转换为文档的形式。可选地，该功能可以通过转档控件进行触发。可选地，触发该转档控件对应的转档功能中，当终端实现为包括触摸显示屏的移动终端时，可以通过触摸该转档控件的方式实现转档功能，当终端实现为便携式膝上笔记本电脑或台式电脑时，可以通过外部输入设备对该转档控件进行选择，如：键盘、鼠标等。

步骤3150，终端将被框选的区域作为待识别图像发送至服务器。

可选地，终端根据用户的框选，从原图中扣出被框选的区域，作为待识别图像发送至服务器。

步骤3160，服务器对待识别图像中的文字和排版进行识别。

可选地，服务器对待识别图像中的文字和排版进行识别的过程在上述实施例中已进行了详细说明，此处不再赘述。

步骤3170，服务器向终端发送电子文档的预览图。

可选地，服务器将转档内容(纯文本、文本样式、样式集)发送至终端，或，服务器将转档内容添加至电子文档得到目标文档后，将该目标文档的预览图像发送至终端。

步骤3180，用户对转档内容进行确认。

步骤3190，服务器将转档内容插入电子文档得到目标文档，并发送至终端。

可选地，服务器将转档内容(纯文本、文本样式、样式集)发送至终端时，用户对纯文字识别结果、文本样式识别结果以及样式集进行确定后，服务器将转档内容添加至电子文档，并将目标文档发送至终端；或，服务器将转档内容添加至电子文档得到目标文档后，将该目标文档的预览图像发送至终端时，用户可以通过终端对目标文档进行预览，并根据预览结果选择重新上传图像转档或确认转档结果，当用户选择确认转档结果时，服务器将目标文档的文档内容发送至终端。

图32是本申请一个示例性实施例提供的基于OCR的图像转档装置的结构框图，以该装置应用于服务器中为例进行说明，如图32所示，该装置包括：获取模块3210、分割模块3220以及处理模块3230；

获取模块3210，用于获取待转档图像，所述待转档图像为图像内容待转换为目标文档的图像；

分割模块3220，用于根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割，得到n个图像版面，每个所述图像版面对应有内容类型，n为正整数；

处理模块3230，用于根据所述图像版面对应的所述内容类型，对所述图像版面中的图像内容进行对应的处理，得到所述图像版面对应的转档内容；

所述处理模块3230，还用于将所述n个图像版面对应的所述转档内容添加至电子文档，得到所述目标文档。

在一个可选的实施例中，如图33所示，所述分割模块3220，包括：

编码单元3221，用于通过编码器对所述待转档图像进行编码，得到编码数据；

解码单元3222，用于通过解码器对所述编码数据进行解码，得到掩膜图像；

确定单元3223，用于根据所述掩膜图像中的区域得到所述n个图像版面。

在一个可选的实施例中，所述确定单元3223，还用于对所述掩膜图像中的区域进行校正处理，得到所述n个图像版面，所述校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。

所述确定单元3223，还用于根据所述单栏分隔条对校正后的所述掩膜图像进行分隔，得到至少两个掩膜分隔图像；

所述确定单元3223，还用于对所述至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正；

所述确定单元3223，还用于生成校正后的所述掩膜分隔图像中的区域对应的矩形框，作为所述n个图像版面。

在一个可选的实施例中，所述内容类型包括文字类型；

所述处理模块3230，还用于对所述图像版面中的所述图像内容进行文字识别，得到以文本行进行分段的文字识别结果；根据所述文本行的行向特征确定所述文本行的组段结果，所述组段结果用于表示对所述文字识别结果的分段方式；将所述文字识别结果根据所述组段结果进行重新分段，得到所述图像版面对应的文字转档结果。

在一个可选的实施例中，所述处理模块3230，还用于根据所述文本行的所述行向特征生成直方图，所述行向特征包括行高和行间距中的至少一种；根据所述直方图中所述行向特征的分布情况设置所述行向特征对应的阈值；当所述文本行的所述行向特征达到所述阈值时，确定所述文本行为组段行，所述组段行用于表示所述文本行为段首或段尾。

在一个可选的实施例中，所述内容类型包括表格类型；

所述处理模块3230，还用于根据所述图像版面中的框线确定水平框线和垂直框线，并确定水平框线和垂直框线之间的交点，得到目标表格的单元格；对所述图像版面中的图像内容进行字符计算，得到字符坐标；根据所述字符坐标和所述单元格得到所述目标表格作为所述图像版面对应的表格转档结果。

在一个可选的实施例中，所述处理模块3230，还用于通过将所述图像版面中的框线校正至水平方向或垂直方向得到所述水平框线和所述垂直框线。

在一个可选的实施例中，所述处理模块3230，还用于通过对所述将所述图像版面中的框线校正至所述水平方向或所述垂直方向，对所述图像版面进行校正；对校正后的所述图像版面中的图像内容进行字符计算，得到所述字符坐标。

在一个可选的实施例中，所述内容类型包括图片类型；

所述处理模块3230，还用于对所述图像版面中的所述图像内容进行切图，并将所述切图得到的图片作为所述图像版面对应的图片转档内容。

在一个可选的实施例中，所述内容类型包括公式类型；

所述处理模块3230，还用于对所述图像版面中的所述图像内容进行切图，并将所述切图得到的图片作为所述图像版面对应的公式转档内容。

在一个可选的实施例中，所述获取模块3210，还用于获取待矫正图像；

所述获取模块3210，还用于将所述待矫正图像输入矫正神经网络，输出得到所述待转档图像，其中，所述矫正神经网络是通过仿真数据集训练得到的网络，所述仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据，所述扭曲处理是通过将所述样本图像输入扭曲函数实现的。

图34是本申请一个示例性实施例提供的基于OCR的图像转档装置的结构框图，以该装置应用于终端中为例进行说明，如图34所示，该装置包括：显示模块3410、选择模块3420以及触发模块3430；

显示模块3410，用于显示转档界面，所述转档界面中包括转档控件和图像选择区域；

选择模块3420，用于在所述图像选择区域中对待转档图像进行选定，所述待转档图像为图像内容待转换为目标文档的图像；

触发模块3430，用于触发所述转档控件对应的转档功能，所述转档功能用于将图像转换为文档的形式；

所述显示模块3410，还用于显示目标文档展示界面，所述目标文档展示界面中包括所述待转档图像转档得到的所述目标文档，所述目标文档的排版方式与所述待转档图像的排版方式对应一致。

需要说明的是：上述实施例提供的基于OCR的图像转档装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于OCR的图像转档装置与基于OCR的图像转档方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的基于OCR的图像转档方法。需要说明的是，该服务器可以是如下图35所提供的服务器。

请参考图35，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：所述服务器3500包括中央处理单元(CPU)3501、包括随机存取存储器(RAM)3502和只读存储器(ROM)3503的系统存储器3504，以及连接系统存储器3504和中央处理单元3501的系统总线3505。所述服务器3500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)3506，和用于存储操作系统3513、应用程序3514和其他程序模块3515的大容量存储设备3507。

所述基本输入/输出系统3506包括有用于显示信息的显示器3508和用于用户输入信息的诸如鼠标、键盘之类的输入设备3509。其中所述显示器3508和输入设备3509都通过连接到系统总线3505的输入输出控制器3510连接到中央处理单元3501。所述基本输入/输出系统3506还可以包括输入输出控制器3510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器3510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备3507通过连接到系统总线3505的大容量存储控制器(未示出)连接到中央处理单元3501。所述大容量存储设备3507及其相关联的计算机可读介质为服务器3500提供非易失性存储。也就是说，所述大容量存储设备3507可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器3504和大容量存储设备3507可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元3501执行，一个或多个程序包含用于实现上述基于OCR的图像转档方法的指令，中央处理单元3501执行该一个或多个程序实现上述各个方法实施例提供的基于OCR的图像转档方法。

根据本发明的各种实施例，所述服务器3500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器3500可以通过连接在所述系统总线3505上的网络接口单元3511连接到网络3512，或者说，也可以使用网络接口单元3511来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的基于OCR的图像转档方法中由服务器所执行的步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述如图3、图16、图21以及图30任一所述的基于OCR的图像转档方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3、图16、图21以及图30任一所述的基于OCR的图像转档方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的基于OCR的图像转档方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3、图16、图21以及图30任一所述的基于OCR的图像转档方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于OCR的图像转档方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待转档图像的所述图像内容对所述待转档图像进行版面分割，得到n个图像版面，包括：

通过编码器对所述待转档图像进行编码，得到编码数据；

通过解码器对所述编码数据进行解码，得到掩膜图像；

根据所述掩膜图像中的区域得到所述n个图像版面。

3.根据权利要求2所述的方法，其特征在于，所述根据所述掩膜图像中的区域得到所述n个图像版面，包括：

对所述掩膜图像中的区域进行校正处理，得到所述n个图像版面，所述校正处理包括从去噪处理、合并处理、相交位置切割处理组成的群组中选择的至少一种。

4.根据权利要求3所述的方法，其特征在于，所述掩膜图像中还包括单栏分隔条；

所述对所述掩膜图像中的区域进行校正处理，得到所述n个图像版面，包括：

根据所述单栏分隔条对校正后的所述掩膜图像进行分隔，得到至少两个掩膜分隔图像；

对所述至少两个掩膜分隔图像中每个掩膜分隔图像中的区域进行校正；

生成校正后的所述掩膜分隔图像中的区域对应的矩形框，作为所述n个图像版面。

5.根据权利要求1至4任一所述的方法，其特征在于，所述内容类型包括文字类型；

所述根据所述图像版面对应的所述内容类型，对所述图像版面中的图像内容进行对应的处理，得到所述图像版面对应的转档内容，包括：

对所述图像版面中的所述图像内容进行文字识别，得到以文本行进行分段的文字识别结果；

根据所述文本行的行向特征确定所述文本行的组段结果，所述组段结果用于表示对所述文字识别结果的分段方式；

将所述文字识别结果根据所述组段结果进行重新分段，得到所述图像版面对应的文字转档结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述文本行的行向特征确定所述文本行的组段结果，包括：

根据所述文本行的所述行向特征生成直方图，所述行向特征包括行高和行间距中的至少一种；

根据所述直方图中所述行向特征的分布情况设置所述行向特征对应的阈值；

当所述文本行的所述行向特征达到所述阈值时，确定所述文本行为组段行，所述组段行用于表示所述文本行为段首或段尾。

7.根据权利要求1至4任一所述的方法，其特征在于，所述内容类型包括表格类型；

根据所述图像版面中的框线确定水平框线和垂直框线，并确定所述水平框线和所述垂直框线之间的交点，得到目标表格的单元格；

对所述图像版面中的图像内容进行字符计算，得到字符坐标；

根据所述字符坐标和所述单元格得到所述目标表格作为所述图像版面对应的表格转档结果。

8.根据权利要求7所述的方法，其特征在于，所述根据所述图像版面中的框线确定水平框线和垂直框线，包括：

通过将所述图像版面中的框线校正至水平方向或垂直方向得到所述水平框线和所述垂直框线。

9.根据权利要求8所述的方法，其特征在于，所述对所述图像版面中的图像内容进行字符计算，得到字符坐标，包括：

通过对所述将所述图像版面中的框线校正至所述水平方向或所述垂直方向，对所述图像版面进行校正；

对校正后的所述图像版面中的图像内容进行字符计算，得到所述字符坐标。

10.根据权利要求1至4任一所述的方法，其特征在于，所述内容类型包括图片类型；

对所述图像版面中的所述图像内容进行切图，并将所述切图得到的图片作为所述图像版面对应的图片转档内容。

11.根据权利要求1至4任一所述的方法，其特征在于，所述内容类型包括公式类型；

对所述图像版面中的所述图像内容进行切图，并将所述切图得到的图片作为所述图像版面对应的公式转档内容。

12.根据权利要求1至4任一所述的方法，其特征在于，所述获取待转档图像，包括：

获取待矫正图像；

将所述待矫正图像输入矫正神经网络，输出得到所述待转档图像，其中，所述矫正神经网络是通过仿真数据集训练得到的网络，所述仿真数据集中的仿真数据是通过对样本图像进行扭曲处理后得到的数据。

13.一种基于OCR的图像转档方法，其特征在于，所述方法包括：

显示目标文档展示界面，所述目标文档展示界面中包括所述待转档图像转档后得到的所述目标文档，所述目标文档的排版方式与所述待转档图像的排版方式对应一致。

14.根据权利要求13所述的方法，其特征在于，所述目标文档中第一目标区域中的内容类型与所述待转档图像中第二目标区域中的内容类型一致；所述第一目标区域在所述目标文档中的位置，与所述第二目标区域在所述待转档图像中的位置对应；

15.一种基于OCR的图像转档装置，其特征在于，所述装置包括：

16.一种基于OCR的图像转档装置，其特征在于，所述装置包括：

17.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至14任一所述的基于OCR的图像转档方法。

18.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至14任一所述的基于OCR的图像转档方法。